xAI κλέβει στα benchmarks του Grok 3

Αυτή την εβδομάδα, ένας υπάλληλος της OpenAI κατηγόρησε την εταιρεία τεχνητής νοημοσύνης του Elon Musk, xAI, ότι δημοσίευσε παραπλανητικά benchmark αποτελέσματα για το τελευταίο της μοντέλο AI, Grok 3.

Σε μια ανάρτηση στο blog της xAI, η εταιρεία δημοσίευσε ένα γράφημα που δείχνει την απόδοση του Grok 3 στο AIME 2025, μια συλλογή από δύσκολες ερωτήσεις μαθηματικών από μια πρόσφατη εξέταση του μοντέλου. Ορισμένοι ειδικοί αμφισβητούν την εγκυρότητα του AIME σαν AI benchmark. Ωστόσο, το AIME 2025 και οι παλαιότερες εκδόσεις του τεστ χρησιμοποιούνται συνήθως για να διερευνήσουν τη μαθηματική ικανότητα ενός μοντέλου.

Το γράφημα της xAI δείχνει δύο παραλλαγές του Grok 3, το Grok 3 Reasoning Beta και το Grok 3 mini Reasoning, ξεπερνώντας με καλύτερες επιδόσεις τα μοντέλα της OpenAI, o3-mini-high, στο AIME 2025. Όμως υπάλληλοι της OpenAI στο X έσπευσαν να επισημάνουν ότι το γράφημα της xAI δεν περιελάμβανε βαθμολογία 2-AI με 20-AI “cons@64.”

Τι είναι το cons@64;

Λοιπόν, είναι η συντομογραφία του “consensus@64” και δίνει σε ένα μοντέλο 64 προσπάθειες να απαντήσει σε κάθε πρόβλημα σε ένα benchmark και παίρνει τις απαντήσεις που παράγονται σαν τελικές απαντήσεις. Όπως μπορείτε να φανταστείτε, το cons@64 τείνει να ενισχύει αρκετά τις βαθμολογίες αναφοράς (benchmark) των μοντέλων και η παράλειψή του από ένα γράφημα μπορεί να κάνει να φαίνεται ότι ένα μοντέλο ξεπερνά το άλλο, ενώ στην πραγματικότητα αυτό δεν συμβαίνει.

Οι βαθμολογίες του Grok 3 Reasoning Beta και του Grok 3 mini Reasoning για το AIME 2025 στο “@1” – που σημαίνει βαθμολογία για την πρώτη προσπάθεια που πήραν τα μοντέλα της xAI στο benchmark – πέφτουν κάτω από τη βαθμολογία του o3-mini-high. Το Grok 3 Reasoning Beta ακολουθεί επίσης ελάχιστα πίσω από το μοντέλο o1 της OpenAI που έχει οριστεί σαν “μεσαίο” υπολογιστικό μοντέλο.

Ωστόσο, η xAI διαφημίζει το Grok 3 σαν το “πιο έξυπνο AI στον κόσμο“.

Βέβαια όπως τόνισε ο ερευνητής τεχνητής νοημοσύνης Nathan Lambert σε μια δημοσίευση, για την πιο σημαντική μέτρηση:

Το υπολογιστικό (και χρηματικό) κόστος που χρειάστηκε για κάθε μοντέλο για να πετύχει την καλύτερη βαθμολογία του.

iGuRu.gr The Best Technology Site in Greeceggns

Get the best viral stories straight into your inbox!















giorgos

Written by giorgos

Ο Γιώργος ακόμα αναρωτιέται τι κάνει εδώ....

Αφήστε μια απάντηση

Η ηλ. διεύθυνση σας δεν δημοσιεύεται. Τα υποχρεωτικά πεδία σημειώνονται με *

Το μήνυμα σας δεν θα δημοσιευτεί εάν:
1. Περιέχει υβριστικά, συκοφαντικά, ρατσιστικά, προσβλητικά ή ανάρμοστα σχόλια.
2. Προκαλεί βλάβη σε ανηλίκους.
3. Παρενοχλεί την ιδιωτική ζωή και τα ατομικά και κοινωνικά δικαιώματα άλλων χρηστών.
4. Διαφημίζει προϊόντα ή υπηρεσίες ή διαδικτυακούς τόπους .
5. Περιέχει προσωπικές πληροφορίες (διεύθυνση, τηλέφωνο κλπ).