Πειρατικές βιβλιοθήκες και εκπαίδευση AI

Η εκπαίδευση της τεχνητής νοημοσύνης βασίστηκε στις σκιώδεις πειρατικές βιβλιοθήκες;

ebooks

Οι New York Times σε άρθρο τους αναφέρουν ότι οι λεγόμενες σκιώδεις βιβλιοθήκες που είναι χώροι παράνομης αποθήκευσης εκατομμυρίων τίτλων βιβλίων, σε πολλές περιπτώσεις χωρίς άδεια, χρησιμοποιούνται ως δεδομένα εκπαίδευσης μοντέλων AI.

Στο διαδίκτυο υπάρχουν αρκετοί file sharing χώροι που φιλοξενούν ένα απίστευτο όγκο βιβλίων, περιοδικών και γενικά έντυπης ύλης, που κανονικά θα έπρεπε να πληρώσετε για να τα αποκτήσετε.

Δωρεάν βιβλιοθήκες όπως το Library Genesis, το Z-Library ή το Bibliotik, προσφέρουν υλικό που δεν σας φτάνει μία ζωή για να το διαβάσετε. Αλλά ταυτόχρονα μπορείτε και να ανεβάσετε και δικό σας υλικό.

library genesis

Φυσικά μην περιμένετε με τα DNS του παρόχου σας να δείτε αυτά τα links. Είναι μπλοκαρισμένα και θα πρέπει να τα αλλάξετε με τα DNS του Gloudflare ή του Google.

Πρόκειται λοιπόν για μία τεράστια πηγή και οι προγραμματιστές της τεχνητής νοημοσύνης δεν το άφησαν ανεκμετάλλευτο. Οι εταιρείες τεχνητής νοημοσύνης έχουν αναγνωρίσει ότι σε στάδιο ερευνητικής εργασίας βασίστηκαν στις σκιώδεις βιβλιοθήκες.

Το GPT-1 του OpenAI εκπαιδεύτηκε στο BookCorpus, το οποίο έχει πάνω από 7.000 αδημοσίευτους τίτλους που έχουν αφαιρεθεί από την πλατφόρμα αυτοέκδοσης Smashwords.

Για την εκπαίδευση του GPT-3 , το OpenAI είπε ότι περίπου το 16 τοις εκατό των δεδομένων που χρησιμοποίησε προέρχονταν από δύο “ομάδες βιβλίων που βασίζονται στο Διαδίκτυο” που ονόμασε “Books1” και “Books2”.

books

Σύμφωνα με μήνυση της Σάρα Σίλβερμαν (Sarah Silverman) και δύο άλλων συγγραφέων κατά του OpenAI, το Books2 είναι πιθανότατα μια «κατάφωρα παράνομη» σκιώδης βιβλιοθήκη.

Οι προσπάθειες για το κλείσιμο αυτών των τοποθεσιών έχουν αποτύχει. Πέρυσι, το FBI, με τη βοήθεια του Σωματείου Συντακτών, απήγγειλε κατηγορίες σε δύο άτομα που κατηγορούνται για τη διαχείριση της Z-Library για παραβίαση πνευματικών δικαιωμάτων, απάτη και ξέπλυμα χρήματος.

Αλλά στη συνέχεια, ορισμένοι από αυτούς τους ιστότοπους μεταφέρθηκαν στον Dark Web και τους ιστότοπους torrent, καθιστώντας δυσκολότερο τον εντοπισμό τους. Και επειδή πολλοί από αυτούς τους ιστότοπους λειτουργούν εκτός των Ηνωμένων Πολιτειών και ανώνυμα, η τιμωρία των χειριστών είναι πραγματικά δύσκολη υπόθεση.

Πάντως μετά από όλη αυτή την φασαρία οι εταιρείες τεχνολογίας γίνονται όλο και πιο αυστηρές σχετικά με τα δεδομένα που χρησιμοποιούνται για την εκπαίδευση των συστημάτων τους.

spread the news

X (Twitter) Bluesky Facebook Reddit Email

Αφήστε μια απάντηση Ακύρωση απάντησης

Η ηλ. διεύθυνση σας δεν δημοσιεύεται. Τα υποχρεωτικά πεδία σημειώνονται με *

Σχόλιο *

Το μήνυμα σας δεν θα δημοσιευτεί εάν:
1. Περιέχει υβριστικά, συκοφαντικά, ρατσιστικά, προσβλητικά ή ανάρμοστα σχόλια.
2. Προκαλεί βλάβη σε ανηλίκους.
3. Παρενοχλεί την ιδιωτική ζωή και τα ατομικά και κοινωνικά δικαιώματα άλλων χρηστών.
4. Διαφημίζει προϊόντα ή υπηρεσίες ή διαδικτυακούς τόπους .
5. Περιέχει προσωπικές πληροφορίες (διεύθυνση, τηλέφωνο κλπ).

Όνομα *

Email *

Comment for robots Please empty this comment field to prove you're human.

Website

Πειρατικές βιβλιοθήκες και εκπαίδευση AI

Get the best viral stories straight into your inbox!

spread the news

Written by Δημήτρης

Tim Cook κέρδισε 74,6 εκατομμύρια δολάρια το 2024

Apple: 9 δις δολάρια έλλειμμα το πρώτο τρίμηνο του 2019

Dragonfly: Ανοικτή επιστολή στην Google

Αφήστε μια απάντηση Ακύρωση απάντησης