Το μυστικό του DeepSeek AI

Η αγορά τεχνητής νοημοσύνης (AI) — και ολόκληρο το χρηματιστήριο — κλονίστηκε τον περασμένο μήνα από την ξαφνική δημοτικότητα του DeepSeek, ενός μοντέλου LLM ανοιχτού κώδικα που αναπτύχθηκε από ένα hedge fund με έδρα την Κίνα, Το συγκεκριμένο μοντέλο χτυπάει τα μοντέλα της OpenAI σε ορισμένες εργασίες, ενώ κοστίζει πολύ λιγότερο.

Η επιτυχία του R1 υπογραμμίζει μια σημαντική αλλαγή στην τεχνητή νοημοσύνη που θα μπορούσε να δώσει τη δυνατότητα σε μικρότερα εργαστήρια και ερευνητές να δημιουργήσουν ανταγωνιστικά μοντέλα και να διαφοροποιήσουν τις διαθέσιμες επιλογές.

Γιατί το DeepSeek λειτουργεί τόσο καλά;

Η επιτυχία του οφείλεται σε μια ευρεία προσέγγιση των κατασκευαστών στο πλαίσιο των μορφών της τεχνητής νοημοσύνης deep-learning για την αφαίρεση chips εκμεταλλευόμενοι ένα φαινόμενο που είναι γνωστό σαν “αραιότητα” ή “sparsity”.

Η αραιότητα εμφανίζεται με πολλές μορφές. Μερικές φορές, περιλαμβάνει την εξάλειψη τμημάτων των δεδομένων που χρησιμοποιεί η τεχνητή νοημοσύνη όταν αυτά τα δεδομένα δεν επηρεάζουν ουσιαστικά τις απαντήσεις του μοντέλου.

Άλλες φορές, η αραιότητα περιλαμβάνει την αποκοπή ολόκληρων τμημάτων ενός νευρωνικού δικτύου, εάν κάτι τέτοιο δεν επηρεάζει το αποτέλεσμα.

Το DeepSeek είναι ένα παράδειγμα του τελευταίου: κάνει μια πολύ φειδωλή χρήση των νευρωνικών δικτύων.

Αυτό που έχουν εντοπίσει οι ερευνητές στο DeepSeek είναι ότι μπορεί να ενεργοποιήσει και να απενεργοποιήσει μεγάλα τμήματα νευρωνικών δικτύων “βαρίδια” ή “παραμέτρους” (“weights” ή “parameters”).

Οι παράμετροι διαμορφώνουν τον τρόπο με τον οποίο ένα νευρωνικό δίκτυο μπορεί να μετατρέψει την είσοδο δηλαδή την προτροπή που πληκτρολογείτε σε κείμενο ή εικόνες. Οι παράμετροι έχουν άμεσο αντίκτυπο στον χρόνο που απαιτείται για την εκτέλεση των υπολογισμών. Περισσότερες παράμετροι συνήθως σημαίνουν μεγαλύτερη υπολογιστική προσπάθεια.

Η αραιότητα και ο ρόλος της στην τεχνητή νοημοσύνη

Η δυνατότητα χρήσης μόνο ορισμένων από τις συνολικές παραμέτρους ενός LLM και απενεργοποίησης των υπόλοιπων είναι ένα παράδειγμα αραιότητας. Αυτή η αραιότητα μπορεί να έχει σημαντικό αντίκτυπο στο πόσο μεγάλος ή μικρός είναι ο υπολογιστικός προϋπολογισμός (το κόστος) για ένα μοντέλο AI.

Οι ερευνητές της Apple AI, σε μια έκθεση που δημοσιεύθηκε στις 21 Ιανουαρίου, εξήγησαν πώς το DeepSeek ή και παρόμοιες προσεγγίσεις χρησιμοποιούν την αραιότητα για να έχουν καλύτερα αποτελέσματα για μια δεδομένη ποσότητα υπολογιστικής ισχύος.

Η Apple δεν έχει καμία σύνδεση με το DeepSeek, αλλά φέρεται να κάνει μια δική της έρευνα της τεχνητής νοημοσύνης. Έτσι οι εξελίξεις εξωτερικών εταιρειών όπως η DeepSeek αποτελούν σε γενικές γραμμές μέρος της συνεχιζόμενης συμμετοχής της Apple στην έρευνα της τεχνητής νοημοσύνης.

Στην εργασία, με τίτλο “Parameters vs FLOPs: Scaling Laws for Optimal Sparsity for Mixture-of-Experts Language Models“, που δημοσιεύτηκε στον pre-print server arXiv, ο επικεφαλής συγγραφέας Samir Abnar και άλλοι ερευνητές της Apple, μαζί με τον συνεργάτη Harshay Shah του MIT, μελέτησαν πώς ποικίλλει η απόδοση με την αραιότητα του δικτύου.

Ο Abnar και η ομάδα πραγματοποίησαν τις μελέτες τους χρησιμοποιώντας μια βιβλιοθήκη κώδικα που κυκλοφόρησε το 2023 από ερευνητές τεχνητής νοημοσύνης στη Microsoft, την Google και το Stanford, που ονομάζεται MegaBlocks. Ωστόσο, διευκρινίζουν ότι η δουλειά τους μπορεί να εφαρμοστεί στο DeepSeek και σε άλλες πρόσφατες καινοτομίες.

Ο Abnar και η ομάδα ρωτούν εάν υπάρχει ένα “βέλτιστο” επίπεδο αραιότητας στο DeepSeek και σε παρόμοια μοντέλα: για μια δεδομένη ποσότητα υπολογιστικής ισχύος, υπάρχει βέλτιστος αριθμός αυτών των νευρικών βαρών για ενεργοποίηση ή απενεργοποίηση;

Η έρευνα αναφέρει ότι μπορείτε να ποσοτικοποιήσετε πλήρως την αραιότητα σαν το ποσοστό όλων των νευρωνικών βαρών που μπορείτε να κλείσετε, με αυτό το ποσοστό να πλησιάζει αλλά να μην ισούται ποτέ με το 100% του νευρικού δικτύου ώστε να μην μείνει “ανενεργό”.

Βελτιστοποίηση AI με λιγότερες παραμέτρους

Όπως ανέφεραν με τεχνικούς όρους ο Abnar και η ομάδα του: “Η αύξηση της αραιότητας ενώ αναλογικά επεκτείνεται ο συνολικός αριθμός των παραμέτρων οδηγεί συνεχώς σε χαμηλότερη απώλεια pretraining, ακόμη και όταν περιορίζεται από έναν σταθερό υπολογιστικό προϋπολογισμό training.” Ο όρος “απώλεια training” είναι ο όρος AI για το πόσο ακριβές είναι ένα νευρωνικό δίκτυο. Μικρότερη απώλεια training σημαίνει πιο ακριβή αποτελέσματα.

Αυτό το εύρημα εξηγεί πώς το DeepSeek έχει λιγότερη υπολογιστική ισχύ, αλλά μπορεί να φτάσει στα ίδια ή καλύτερα αποτελέσματα απλά κλείνοντας περισσότερα μέρη του δικτύου.

Το Sparity είναι σαν ένα μαγικό καντράν που βρίσκει το καλύτερο ταίριασμα για το μοντέλο τεχνητής νοημοσύνης και τον διαθέσιμο υπολογισμό.

Ο ίδιος εμπειρικός οικονομικός κανόνας ισχύει για κάθε νέα γενιά προσωπικών υπολογιστών: για καλύτερο αποτέλεσμα στα ίδια χρήματα ή για το ίδιο αποτέλεσμα με λιγότερα χρήματα.

Το μέλλον της αραιότητας

Πέρα από τις λεπτομέρειες, η αραιότητα σαν φαινόμενο δεν είναι νέα στην έρευνα της τεχνητής νοημοσύνης, ούτε είναι μια νέα προσέγγιση στη μηχανική.

Οι ερευνητές της τεχνητής νοημοσύνης έχουν δείξει εδώ και πολλά χρόνια ότι η εξάλειψη τμημάτων ενός νευρωνικού δικτύου θα μπορούσε να επιτύχει συγκρίσιμη ή ακόμα καλύτερη ακρίβεια με λιγότερη προσπάθεια.

Ο ανταγωνιστής της Nvidia, Intel, αναγνωρίζει τη αραιότητα σαν μια βασική οδό που μπορεί να αλλάξει την κατάσταση της τεχνολογίας στον τομέα εδώ και πολλά χρόνια. Οι προσεγγίσεις από νεοφυείς επιχειρήσεις που χρησιμοποιούν την αραιότητα έχουν σημειώσει υψηλές βαθμολογίες στα benchmarks του κλάδου τα τελευταία χρόνια.

Η μαγεία της αραιότητας δεν μειώνει μόνο το υπολογιστικό κόστος, όπως στην περίπτωση του DeepSeek. Το Sparity λειτουργεί επίσης και προς την άλλη κατεύθυνση: μπορεί να κάνει ολοένα και πιο αποδοτικούς υπολογιστές AI.

Δεν βελτιώνει μόνο τα οικονομικά με μικρούς προϋπολογισμούς, όπως στην περίπτωση του DeepSeek, αλλά λειτουργεί και προς μια άλλη κατεύθυνση: ξοδέψτε περισσότερα και θα έχετε ακόμα καλύτερα οφέλη μέσω της αραιότητας. Καθώς αυξάνετε την υπολογιστική σας ισχύ, η ακρίβεια του μοντέλου AI βελτιώνεται, όπως διαπίστωσαν ο Abnar και η ομάδα του.

https://doi.org/10.48550/arXiv.2501.12370

spread the news

X (Twitter) Bluesky Facebook Reddit Email

Αφήστε μια απάντηση Ακύρωση απάντησης

Η ηλ. διεύθυνση σας δεν δημοσιεύεται. Τα υποχρεωτικά πεδία σημειώνονται με *

Σχόλιο *

Το μήνυμα σας δεν θα δημοσιευτεί εάν:
1. Περιέχει υβριστικά, συκοφαντικά, ρατσιστικά, προσβλητικά ή ανάρμοστα σχόλια.
2. Προκαλεί βλάβη σε ανηλίκους.
3. Παρενοχλεί την ιδιωτική ζωή και τα ατομικά και κοινωνικά δικαιώματα άλλων χρηστών.
4. Διαφημίζει προϊόντα ή υπηρεσίες ή διαδικτυακούς τόπους .
5. Περιέχει προσωπικές πληροφορίες (διεύθυνση, τηλέφωνο κλπ).

Όνομα *

Email *

Comment for robots Please empty this comment field to prove you're human.

Website

Το μυστικό του DeepSeek AI

Get the best viral stories straight into your inbox!

spread the news

Written by giorgos

Windows 11 24H2 κατεβαίνουν χωρίς να τα θέλετε

Shutter Encoder 19.0 μετατροπή βίντεο+ για επαγγελματίες και μη

AnduinOS 1.1.4 σαν Windows 11 με υποστήριξη μέχρι το 2029

Αφήστε μια απάντηση Ακύρωση απάντησης