Το Πανεπιστήμιο του Harvard ανακοίνωσε σήμερα Πέμπτη ότι κυκλοφορεί ένα σύνολο δεδομένων υψηλής ποιότητας με σχεδόν ένα εκατομμύριο public-domain βιβλία που θα μπορούσαν να χρησιμοποιηθούν από οποιονδήποτε για την εκπαίδευση γλωσσικών μοντέλων και άλλων εργαλείων τεχνητής νοημοσύνης.
Το σύνολο των δεδομένων δημιουργήθηκε από τη νεοσύστατη Πρωτοβουλία Θεσμικών Δεδομένων του Harvard (Institutional Data Initiative) με χρηματοδότηση από την Microsoft και από την OpenAI. Περιέχει βιβλία που έχουν σαρωθεί από το Google Books project και δεν προστατεύονται πλέον από πνευματικά δικαιώματα.
Είναι περίπου πέντε φορές μεγαλύτερο από το διαβόητο Books3 dataset που χρησιμοποιήθηκε για την εκπαίδευση μοντέλων τεχνητής νοημοσύνης όπως το Meta Llama. Το dataset του Institutional Data Initiative εκτείνεται σε είδη, δεκαετίες και γλώσσες, με κλασική λογοτεχνία από τον Shakespeare, Charles Dickens, και τον Dante που περιλαμβάνεται μαζί με τσέχικα μαθηματικά και Ουαλικά λεξικά τσέπης.
Ο Greg Leppert, εκτελεστικός διευθυντής της Institutional Data Initiative, λέει ότι το project είναι μια προσπάθεια “ισοπεδοποίησης των όρων ανταγωνισμού” δίνοντας στο ευρύ κοινό, από τον κλάδο της τεχνητής νοημοσύνης και των μεμονωμένων ερευνητών, πρόσβαση σε ένα είδος εξαιρετικά εκλεπτυσμένων αποθετηρίων περιεχομένου που συνήθως μόνο καθιερωμένες τεχνολογικές εταιρείες έχουν τους πόρους να συγκεντρώσουν.
Ο Leppert πιστεύει ότι το νέο δημόσιο dataset θα μπορούσε να χρησιμοποιηθεί σε συνδυασμό με άλλα αδειοδοτημένα datasets για την κατασκευή μοντέλων τεχνητής νοημοσύνης.
“Το σκέφτομαι λίγο σαν τον τρόπο που το Linux έχει γίνει ένα θεμελιώδες λειτουργικό σύστημα για τόσο μεγάλο μέρος του κόσμου”, λέει, αναφέροντας ότι οι εταιρείες θα πρέπει να χρησιμοποιήσουν επιπρόσθετα δεδομένα εκπαίδευσης για να διαφοροποιήσουν τα μοντέλα τους από αυτά των ανταγωνιστών τους.