Harvard κυκλοφόρησε δωρεάν τεράστιο σύνολο δεδομένων εκπαίδευσης AI

Το Πανεπιστήμιο του Harvard ανακοίνωσε σήμερα Πέμπτη ότι κυκλοφορεί ένα σύνολο δεδομένων υψηλής ποιότητας με σχεδόν ένα εκατομμύριο public-domain βιβλία που θα μπορούσαν να χρησιμοποιηθούν από οποιονδήποτε για την εκπαίδευση γλωσσικών μοντέλων και άλλων εργαλείων τεχνητής νοημοσύνης.

Το σύνολο των δεδομένων δημιουργήθηκε από τη νεοσύστατη Πρωτοβουλία Θεσμικών Δεδομένων του Harvard (Institutional Data Initiative) με χρηματοδότηση από την Microsoft και από την OpenAI. Περιέχει βιβλία που έχουν σαρωθεί από το Google Books project και δεν προστατεύονται πλέον από πνευματικά δικαιώματα.

Είναι περίπου πέντε φορές μεγαλύτερο από το διαβόητο Books3 dataset που χρησιμοποιήθηκε για την εκπαίδευση μοντέλων τεχνητής νοημοσύνης όπως το Meta Llama. Το dataset του Institutional Data Initiative εκτείνεται σε είδη, δεκαετίες και γλώσσες, με κλασική λογοτεχνία από τον Shakespeare, Charles Dickens, και τον Dante που περιλαμβάνεται μαζί με τσέχικα μαθηματικά και Ουαλικά λεξικά τσέπης.

Ο Greg Leppert, εκτελεστικός διευθυντής της Institutional Data Initiative, λέει ότι το project είναι μια προσπάθεια “ισοπεδοποίησης των όρων ανταγωνισμού” δίνοντας στο ευρύ κοινό, από τον κλάδο της τεχνητής νοημοσύνης και των μεμονωμένων ερευνητών, πρόσβαση σε ένα είδος εξαιρετικά εκλεπτυσμένων αποθετηρίων περιεχομένου που συνήθως μόνο καθιερωμένες τεχνολογικές εταιρείες έχουν τους πόρους να συγκεντρώσουν.

Ο Leppert πιστεύει ότι το νέο δημόσιο dataset θα μπορούσε να χρησιμοποιηθεί σε συνδυασμό με άλλα αδειοδοτημένα datasets για την κατασκευή μοντέλων τεχνητής νοημοσύνης.

“Το σκέφτομαι λίγο σαν τον τρόπο που το Linux έχει γίνει ένα θεμελιώδες λειτουργικό σύστημα για τόσο μεγάλο μέρος του κόσμου”, λέει, αναφέροντας ότι οι εταιρείες θα πρέπει να χρησιμοποιήσουν επιπρόσθετα δεδομένα εκπαίδευσης για να διαφοροποιήσουν τα μοντέλα τους από αυτά των ανταγωνιστών τους.

Visited 1 times, 1 visit(s) today

spread the news

X (Twitter) Bluesky Facebook Reddit Email

Αφήστε μια απάντηση Ακύρωση απάντησης

Η ηλ. διεύθυνση σας δεν δημοσιεύεται. Τα υποχρεωτικά πεδία σημειώνονται με *

Σχόλιο *

Το μήνυμα σας δεν θα δημοσιευτεί εάν:
1. Περιέχει υβριστικά, συκοφαντικά, ρατσιστικά, προσβλητικά ή ανάρμοστα σχόλια.
2. Προκαλεί βλάβη σε ανηλίκους.
3. Παρενοχλεί την ιδιωτική ζωή και τα ατομικά και κοινωνικά δικαιώματα άλλων χρηστών.
4. Διαφημίζει προϊόντα ή υπηρεσίες ή διαδικτυακούς τόπους .
5. Περιέχει προσωπικές πληροφορίες (διεύθυνση, τηλέφωνο κλπ).

Όνομα *

Email *

Comment for robots Please empty this comment field to prove you're human.

Website

Harvard κυκλοφόρησε δωρεάν τεράστιο σύνολο δεδομένων εκπαίδευσης AI

Get the best viral stories straight into your inbox!

spread the news

Written by giorgos

Windows 11 24H2 κατεβαίνουν χωρίς να τα θέλετε

Shutter Encoder 19.0 μετατροπή βίντεο+ για επαγγελματίες και μη

AnduinOS 1.1.4 σαν Windows 11 με υποστήριξη μέχρι το 2029

Αφήστε μια απάντηση Ακύρωση απάντησης