Harvard κυκλοφόρησε δωρεάν τεράστιο σύνολο δεδομένων εκπαίδευσης AI

Το Πανεπιστήμιο του Harvard ανακοίνωσε σήμερα Πέμπτη ότι κυκλοφορεί ένα σύνολο δεδομένων υψηλής ποιότητας με σχεδόν ένα εκατομμύριο -domain βιβλία που θα μπορούσαν να χρησιμοποιηθούν από οποιονδήποτε για την εκπαίδευση γλωσσικών μοντέλων και άλλων εργαλείων τεχνητής νοημοσύνης.

Το σύνολο των δεδομένων δημιουργήθηκε από τη νεοσύστατη Πρωτοβουλία Θεσμικών Δεδομένων του Harvard (Institutional Data Initiative) με χρηματοδότηση από την και από την . Περιέχει βιβλία που έχουν σαρωθεί από το Google Books project και δεν προστατεύονται πλέον από πνευματικά δικαιώματα.

Είναι περίπου πέντε φορές μεγαλύτερο από το διαβόητο Books3 dataset που χρησιμοποιήθηκε για την εκπαίδευση μοντέλων τεχνητής νοημοσύνης όπως το Meta Llama. Το dataset του Institutional Data Initiative εκτείνεται σε είδη, δεκαετίες και γλώσσες, με κλασική λογοτεχνία από τον Shakespeare, Charles Dickens, και τον Dante που περιλαμβάνεται μαζί με τσέχικα μαθηματικά και Ουαλικά λεξικά τσέπης.

Ο Greg Leppert, εκτελεστικός διευθυντής της Institutional Data Initiative, λέει ότι το project είναι μια προσπάθεια “ισοπεδοποίησης των όρων ανταγωνισμού” δίνοντας στο ευρύ κοινό, από τον κλάδο της τεχνητής νοημοσύνης και των μεμονωμένων ερευνητών, πρόσβαση σε ένα είδος εξαιρετικά εκλεπτυσμένων αποθετηρίων περιεχομένου που συνήθως μόνο καθιερωμένες τεχνολογικές εταιρείες έχουν τους π να συγκεντρώσουν.

Ο Leppert πιστεύει ότι το νέο δημόσιο dataset θα μπορούσε να χρησιμοποιηθεί σε συνδυασμό με άλλα αδειοδοτημένα για την κατασκευή μοντέλων τεχνητής νοημοσύνης.

“Το σκέφτομαι λίγο σαν τον τρόπο που το Linux έχει γίνει ένα θεμελιώδες λειτουργικό σύστημα για τόσο μεγάλο μέρος του κόσμου”, λέει, αναφέροντας ότι οι εταιρείες θα πρέπει να χρησιμοποιήσουν επιπρόσθετα δεδομένα εκπαίδευσης για να διαφοροποιήσουν τα μοντέλα τους από αυτά των ανταγωνιστών τους.

iGuRu.gr The Best Technology Site in Greeceggns

Get the best viral stories straight into your inbox!















Written by giorgos

Ο Γιώργος ακόμα αναρωτιέται τι κάνει εδώ....

Αφήστε μια απάντηση

Η ηλ. διεύθυνση σας δεν δημοσιεύεται. Τα υποχρεωτικά πεδία σημειώνονται με *

Το μήνυμα σας δεν θα δημοσιευτεί εάν:
1. Περιέχει υβριστικά, συκοφαντικά, ρατσιστικά, προσβλητικά ή ανάρμοστα σχόλια.
2. Προκαλεί βλάβη σε ανηλίκους.
3. Παρενοχλεί την ιδιωτική ζωή και τα ατομικά και κοινωνικά δικαιώματα άλλων χρηστών.
4. Διαφημίζει προϊόντα ή υπηρεσίες ή διαδικτυακούς τόπους .
5. Περιέχει προσωπικές πληροφορίες (διεύθυνση, τηλέφωνο κλπ).