Την περασμένη εβδομάδα, η Meta κυκλοφόρησε νέες εκδόσεις του μεγάλου γλωσσικού μοντέλου της (LLM), παρουσιάζοντας τα Llama 4 Scout, Llama 4 Maverick και Llama 4 Behemoth ως μέρος του προηγμένου πολυτροπικού συστήματος AI.
Το Scout έχει σχεδιαστεί για να λειτουργεί με μία GPU Nvidia H100 και προσφέρει ένα περιβάλλον με 10 εκατομμύρια tokens. Το Maverick είναι μεγαλύτερο από το Scout και υποτίθεται ότι ταιριάζει με την απόδοση των GPT-4o και DeepSeek-V3 σε εργασίες κωδικοποίησης και συλλογισμού, ενώ χρησιμοποιεί λιγότερες ενεργές παραμέτρους.
Το μεγαλύτερο από τα τρία, το Behemoth, διαθέτει 288 δισεκατομμύρια ενεργές παραμέτρους και συνολικά 2 τρισεκατομμύρια παραμέτρους, με τη Meta να ισχυρίζεται ότι ξεπερνά μοντέλα όπως το GPT-4.5 και το Claude Sonnet 3.7 στα (κριτήρια αξιολόγησης) STEM benchmarks.
Λίγο μετά την κυκλοφορία, άρχισαν να διαδίδονται φήμες ότι η Meta είχε εκπαιδεύσει τα Maverick και Llama 4 σε σετ δοκιμών, με αποτέλεσμα να κατατάσσονται υψηλότερα στα benchmarks. Η φήμη φέρεται να ξεκίνησε από έναν πληροφοριοδότη της Meta σε μια κινεζική ιστοσελίδα που παραιτήθηκε από την εταιρεία αφού έκανε την ακόλουθη ανάρτηση (μεταφρασμένη):
” Μετά από επαναλαμβανόμενη εκπαίδευση, η απόδοση του εσωτερικού μοντέλου εξακολουθεί να αποτυγχάνει να φτάσει σε επίπεδα SOTA ανοιχτού κώδικα και είναι ακόμη πολύ πίσω από αυτό. Η ηγεσία της εταιρείας πρότεινε την ανάμειξη διαφόρων συνόλων δοκιμών αναφοράς στη διαδικασία μετά την εκπαίδευση, με στόχο να παραχθεί ένα αποτέλεσμα που “φαίνεται εντάξει” σε πολλαπλές μετρήσεις. Εάν δεν τηρηθεί η καθορισμένη προθεσμία στα τέλη Απριλίου, ενδέχεται να σταματήσουν περαιτέρω οι επενδύσεις.
Μετά την κυκλοφορία του Llama 4 χθες, υπήρχαν ήδη πολλά κακά αποτελέσματα πραγματικών επιδόσεων που κοινοποιήθηκαν στο X (Twitter) και στο Reddit. Σαν κάποιος που αυτή τη στιγμή δραστηριοποιείται στον ακαδημαϊκό χώρο, βρίσκω αυτή την πρακτική απαράδεκτη.
Ως εκ τούτου, υπέβαλα το αίτημα παραίτησής μου και ζήτησα ρητά να μην συμπεριληφθεί το όνομά μου στην Τεχνική Έκθεση του Llama 4. Έχω ακούσει επίσης ότι και ο αντιπρόεδρος της AI του Meta παραιτήθηκε για τον ίδιο λόγο.
Αυτή η φήμη εξαπλώθηκε γρήγορα στο X και το Reddit, προκαλώντας μια απάντηση από τον Ahmad Al-Dahle, Αντιπρόεδρο του Generative AI στη Meta, ο οποίος αρνήθηκε τους ισχυρισμούς, δηλώνοντας ότι “απλώς δεν ήταν αληθινοί” και ότι η Meta “δεν θα το έκανε ποτέ αυτό”.
Η φήμη ακούγεται πιστευτή, λόγω των πολλαπλών αναφορών στο X για διαφορετικές συμπεριφορές μεταξύ της έκδοσης του Maverick που είναι δημόσια διαθέσιμη στους προγραμματιστές και της έκδοσης Meta που παρουσιάστηκε στο LMArena.
The Llama 4 model that won in LM Arena is different than the released version. I have been comparing the answers from Arena to the released model. They aren't close.
The data is worth a look also as it shows how LM Arena results can be manipulated to be more pleasing to humans. https://t.co/7yCd3CiJ42 pic.twitter.com/A6Yirn04g7
— Ethan Mollick (@emollick) April 8, 2025
Ο Γιώργος ακόμα αναρωτιέται τι κάνει εδώ….

