xAI κλέβει στα benchmarks του Grok 3

Αυτή την εβδομάδα, ένας υπάλληλος της OpenAI κατηγόρησε την εταιρεία τεχνητής νοημοσύνης του Elon Musk, xAI, ότι δημοσίευσε παραπλανητικά benchmark αποτελέσματα για το τελευταίο της μοντέλο AI, Grok 3.

Σε μια ανάρτηση στο blog της xAI, η εταιρεία δημοσίευσε ένα γράφημα που δείχνει την απόδοση του Grok 3 στο AIME 2025, μια συλλογή από δύσκολες ερωτήσεις μαθηματικών από μια πρόσφατη εξέταση του μοντέλου. Ορισμένοι ειδικοί αμφισβητούν την εγκυρότητα του AIME σαν AI benchmark. Ωστόσο, το AIME 2025 και οι παλαιότερες εκδόσεις του τεστ χρησιμοποιούνται συνήθως για να διερευνήσουν τη μαθηματική ικανότητα ενός μοντέλου.

Το γράφημα της xAI δείχνει δύο παραλλαγές του Grok 3, το Grok 3 Reasoning Beta και το Grok 3 mini Reasoning, ξεπερνώντας με καλύτερες επιδόσεις τα μοντέλα της OpenAI, o3-mini-high, στο AIME 2025. Όμως υπάλληλοι της OpenAI στο X έσπευσαν να επισημάνουν ότι το γράφημα της xAI δεν περιελάμβανε βαθμολογία 2-AI με 20-AI “cons@64.”

Τι είναι το cons@64;

Λοιπόν, είναι η συντομογραφία του “consensus@64” και δίνει σε ένα μοντέλο 64 προσπάθειες να απαντήσει σε κάθε πρόβλημα σε ένα benchmark και παίρνει τις απαντήσεις που παράγονται σαν τελικές απαντήσεις. Όπως μπορείτε να φανταστείτε, το cons@64 τείνει να ενισχύει αρκετά τις βαθμολογίες αναφοράς (benchmark) των μοντέλων και η παράλειψή του από ένα γράφημα μπορεί να κάνει να φαίνεται ότι ένα μοντέλο ξεπερνά το άλλο, ενώ στην πραγματικότητα αυτό δεν συμβαίνει.

Οι βαθμολογίες του Grok 3 Reasoning Beta και του Grok 3 mini Reasoning για το AIME 2025 στο “@1” – που σημαίνει βαθμολογία για την πρώτη προσπάθεια που πήραν τα μοντέλα της xAI στο benchmark – πέφτουν κάτω από τη βαθμολογία του o3-mini-high. Το Grok 3 Reasoning Beta ακολουθεί επίσης ελάχιστα πίσω από το μοντέλο o1 της OpenAI που έχει οριστεί σαν “μεσαίο” υπολογιστικό μοντέλο.

Ωστόσο, η xAI διαφημίζει το Grok 3 σαν το “πιο έξυπνο AI στον κόσμο“.

Βέβαια όπως τόνισε ο ερευνητής τεχνητής νοημοσύνης Nathan Lambert σε μια δημοσίευση, για την πιο σημαντική μέτρηση:

Το υπολογιστικό (και χρηματικό) κόστος που χρειάστηκε για κάθε μοντέλο για να πετύχει την καλύτερη βαθμολογία του.

spread the news

X (Twitter) Bluesky Facebook Reddit Email

Αφήστε μια απάντηση Ακύρωση απάντησης

Η ηλ. διεύθυνση σας δεν δημοσιεύεται. Τα υποχρεωτικά πεδία σημειώνονται με *

Σχόλιο *

Το μήνυμα σας δεν θα δημοσιευτεί εάν:
1. Περιέχει υβριστικά, συκοφαντικά, ρατσιστικά, προσβλητικά ή ανάρμοστα σχόλια.
2. Προκαλεί βλάβη σε ανηλίκους.
3. Παρενοχλεί την ιδιωτική ζωή και τα ατομικά και κοινωνικά δικαιώματα άλλων χρηστών.
4. Διαφημίζει προϊόντα ή υπηρεσίες ή διαδικτυακούς τόπους .
5. Περιέχει προσωπικές πληροφορίες (διεύθυνση, τηλέφωνο κλπ).

Όνομα *

Email *

Website

Comment for robots Please empty this comment field to prove you're human.

xAI κλέβει στα benchmarks του Grok 3

Get the best viral stories straight into your inbox!

spread the news

Written by giorgos

AnduinOS 1.1.4 σαν Windows 11 με υποστήριξη μέχρι το 2029

Free Software Foundation hackathon υποβολές έως τις 27 Μαΐου

Κινέζοι κατασκευαστές smartphone: εναλλακτικό Android χωρίς Google

Αφήστε μια απάντηση Ακύρωση απάντησης