Η εκπαίδευση της τεχνητής νοημοσύνης βασίστηκε στις σκιώδεις πειρατικές βιβλιοθήκες;
Οι New York Times σε άρθρο τους αναφέρουν ότι οι λεγόμενες σκιώδεις βιβλιοθήκες που είναι χώροι παράνομης αποθήκευσης εκατομμυρίων τίτλων βιβλίων, σε πολλές περιπτώσεις χωρίς άδεια, χρησιμοποιούνται ως δεδομένα εκπαίδευσης μοντέλων AI.
Στο διαδίκτυο υπάρχουν αρκετοί file sharing χώροι που φιλοξενούν ένα απίστευτο όγκο βιβλίων, περιοδικών και γενικά έντυπης ύλης, που κανονικά θα έπρεπε να πληρώσετε για να τα αποκτήσετε.
Δωρεάν βιβλιοθήκες όπως το Library Genesis, το Z-Library ή το Bibliotik, προσφέρουν υλικό που δεν σας φτάνει μία ζωή για να το διαβάσετε. Αλλά ταυτόχρονα μπορείτε και να ανεβάσετε και δικό σας υλικό.
Φυσικά μην περιμένετε με τα DNS του παρόχου σας να δείτε αυτά τα links. Είναι μπλοκαρισμένα και θα πρέπει να τα αλλάξετε με τα DNS του Gloudflare ή του Google.
Πρόκειται λοιπόν για μία τεράστια πηγή και οι προγραμματιστές της τεχνητής νοημοσύνης δεν το άφησαν ανεκμετάλλευτο. Οι εταιρείες τεχνητής νοημοσύνης έχουν αναγνωρίσει ότι σε στάδιο ερευνητικής εργασίας βασίστηκαν στις σκιώδεις βιβλιοθήκες.
Το GPT-1 του OpenAI εκπαιδεύτηκε στο BookCorpus, το οποίο έχει πάνω από 7.000 αδημοσίευτους τίτλους που έχουν αφαιρεθεί από την πλατφόρμα αυτοέκδοσης Smashwords.
Για την εκπαίδευση του GPT-3 , το OpenAI είπε ότι περίπου το 16 τοις εκατό των δεδομένων που χρησιμοποίησε προέρχονταν από δύο “ομάδες βιβλίων που βασίζονται στο Διαδίκτυο” που ονόμασε “Books1” και “Books2”.
Σύμφωνα με μήνυση της Σάρα Σίλβερμαν (Sarah Silverman) και δύο άλλων συγγραφέων κατά του OpenAI, το Books2 είναι πιθανότατα μια «κατάφωρα παράνομη» σκιώδης βιβλιοθήκη.
Οι προσπάθειες για το κλείσιμο αυτών των τοποθεσιών έχουν αποτύχει. Πέρυσι, το FBI, με τη βοήθεια του Σωματείου Συντακτών, απήγγειλε κατηγορίες σε δύο άτομα που κατηγορούνται για τη διαχείριση της Z-Library για παραβίαση πνευματικών δικαιωμάτων, απάτη και ξέπλυμα χρήματος.
Αλλά στη συνέχεια, ορισμένοι από αυτούς τους ιστότοπους μεταφέρθηκαν στον Dark Web και τους ιστότοπους torrent, καθιστώντας δυσκολότερο τον εντοπισμό τους. Και επειδή πολλοί από αυτούς τους ιστότοπους λειτουργούν εκτός των Ηνωμένων Πολιτειών και ανώνυμα, η τιμωρία των χειριστών είναι πραγματικά δύσκολη υπόθεση.
Πάντως μετά από όλη αυτή την φασαρία οι εταιρείες τεχνολογίας γίνονται όλο και πιο αυστηρές σχετικά με τα δεδομένα που χρησιμοποιούνται για την εκπαίδευση των συστημάτων τους.