Συχνά θεωρούμε δεδομένο το διαδίκτυο. Είναι ένας ωκεανός πληροφοριών στα χέρια μας—και απλά λειτουργεί.
Ωστόσο, αυτό το σύστημα βασίζεται σε σμήνη “ανιχνευτών”—ρομπότ (crawlers) που περιφέρονται στον ιστό, επισκέπτονται εκατομμύρια ιστότοπους κάθε μέρα και αναφέρουν τι βλέπουν.
Αυτός είναι ο τρόπος με τον οποίο τροφοδοτεί η Google τις μηχανές αναζήτησής της, ο τρόπος με τον οποίο ορίζει η Amazon τις ανταγωνιστικές τιμές και ο τρόπος με τον οποίο η Kayak συγκεντρώνει ταξιδιωτικές λίστες.
Πέρα από τον κόσμο του εμπορίου, τα προγράμματα ανίχνευσης είναι απαραίτητα για την παρακολούθηση της ασφάλειας του ιστού, την ενεργοποίηση εργαλείων προσβασιμότητας και τη διατήρηση ιστορικών αρχείων. Οι ακαδημαϊκοί, οι δημοσιογράφοι και οι κοινωνίες των πολιτών βασίζονται επίσης σε αυτά για τη διεξαγωγή ερευνητικής έρευνας.
Τα crawlers είναι ενδημικά. Αντιπροσωπεύοντας πλέον το ήμισυ της κίνησης στο Διαδίκτυο, σύντομα θα ξεπεράσουν την ανθρώπινη κίνηση. Αυτό το αόρατο μετρό του Ιστού μεταφέρει πληροφορίες από τοποθεσία σε τοποθεσία, μέρα και νύχτα. Πρόσφατα, εξυπηρετούν έναν ακόμη σκοπό: Εταιρείες όπως την OpenAI χρησιμοποιούν δεδομένα ανιχνευμένα στον ιστό για να εκπαιδεύσουν τα συστήματα τεχνητής νοημοσύνης τους, όπως το ChatGPT.
Όπως είναι λογικό, οι ιστότοποι αντεπιτίθενται τώρα φοβούμενοι ότι αυτό το χωροκατακτητικό είδος – οι ανιχνευτές AI – θα τους εκτοπίσει. Αλλά υπάρχει ένα πρόβλημα: Αυτή η συμπεριφορά απειλεί επίσης τη διαφάνεια και τα ανοιχτά σύνορα του ιστού, που επιτρέπουν σε εφαρμογές που δεν είναι AI να επιβιώνουν. Αν δεν σκεφτούμε πώς θα το διορθώσουμε, ο ιστός θα ενισχύεται όλο και περισσότερο με logins, paywalls και διόδια πρόσβασης που δεν θα εμποδίζουν μόνο την τεχνητή νοημοσύνη αλλά και τους πραγματικούς χρήστες ή τους χρήσιμους ανιχνευτές.
Ένα σύστημα σε αναταραχή
Για να κατανοήσουμε το πρόβλημα, είναι σημαντικό να κατανοήσουμε πώς λειτουργούσε ο ιστός μέχρι πρόσφατα, όταν τα προγράμματα ανίχνευσης και οι ιστότοποι λειτουργούσαν μαζί σε μια σχετική συμβίωση. Τα προγράμματα ανίχνευσης ήταν σε μεγάλο βαθμό αδιάσπαστα και θα μπορούσαν ακόμη και να είναι ωφέλιμα, φέρνοντας άτομα σε ιστότοπους από μηχανές αναζήτησης όπως την Google ή το Bing σε αντάλλαγμα για τα δεδομένα τους.
Με τη σειρά τους, οι ιστότοποι επέβαλαν λίγους περιορισμούς στα προγράμματα ανίχνευσης. Οι ιστότοποι τότε αλλά και τώρα χρησιμοποιούν μηχανικά αναγνώσιμα αρχεία, που ονομάζονται αρχεία robots.txt, για να καθορίσουν ποιο περιεχόμενο επιτρέπεται να φτάσουν οι ανιχνευτές.
Τώρα η τεχνητή νοημοσύνη έχει φέρει αναστάτωση στο οικοσύστημα των ανιχνευτών.
Όπως συμβαίνει με ένα χωροκατακτητικό είδος, οι ανιχνευτές της τεχνητής νοημοσύνης έχουν μια ακόρεστη και αδιάκριτη όρεξη για δεδομένα, άρθρα, ακαδημαϊκές εργασίες και αναρτήσεις της Wikipedia, του Reddit, ιστοτόπους κριτικών και ιστολόγια. Όλες οι μορφές δεδομένων βρίσκονται στο μενού κείμενο, πίνακες, εικόνες, ήχος και βίντεο. Και τα συστήματα της τεχνητής νοημοσύνης που προκύπτουν μπορούν να χρησιμοποιηθούν με τρόπους που ανταγωνίζονται άμεσα τις πηγές των δεδομένων τους. Οι ειδησεογραφικοί ιστότοποι φοβούνται ότι τα AI chatbot θα πάρουν τους αναγνώστες τους. Καλλιτέχνες και σχεδιαστές φοβούνται ότι οι γεννήτριες εικόνων AI θα παραπλανήσουν τους πελάτες τους. Τα forum κωδικοποίησης φοβούνται ότι το AI θα αντικαταστήσει τους προγραμματιστές τους.
Σαν απάντηση, οι ιστότοποι αρχίζουν να απομακρύνουν κλείνουν την πόρτα στους ανιχνευτές. Το κίνητρο είναι το ίδιο: τα συστήματα τεχνητής νοημοσύνης και οι ανιχνευτές που τα τροφοδοτούν, μπορεί να υπονομεύσουν τα οικονομικά συμφέροντα οποιουδήποτε δημοσιεύει περιεχόμενο στον Ιστό, χρησιμοποιώντας τα δεδομένα των ίδιων των ιστότοπων. Αυτή η συνειδητοποίηση έχει πυροδοτήσει μια σειρά από μέτρα που προς το παρόν δεβ είναι ορατά.
Η αντεπίθεση
Οι εκδότες του Ιστού έχουν απαντήσει στην τεχνητή νοημοσύνη με αγωγές παραβίασης πνευματικών δικαιωμάτων. Η ΕΕ επέβαλε νομοθεσία για την τεχνητή νοημοσύνη για την προστασία των κατόχων πνευματικών δικαιωμάτων.
Ωστόσο, οι νομοθετικές ετυμηγορίες θα μπορούσαν να χρειαστούν χρόνια, ενώ οι συνέπειες της υιοθέτησης της τεχνητής νοημοσύνης είναι άμεσες. Έτσι, στο μεταξύ, οι δημιουργοί δεδομένων έχουν επικεντρωθεί στο να κλείσουν την πόρτα των δεδομένων στην πηγή: τα προγράμματα ανίχνευσης ιστού.
Από τα μέσα του 2023, οι ιστότοποι θέτουν περιορισμούς ανίχνευσης σε πάνω από το 25% των δεδομένων υψηλότερης ποιότητας. Ωστόσο, πολλοί από αυτούς τους περιορισμούς μπορούν απλά να αγνοηθούν και ενώ μεγάλοι προγραμματιστές τεχνητής νοημοσύνης όπως η OpenAI και η Anthropic ισχυρίζονται ότι σέβονται τους περιορισμούς των ιστότοπων, έχουν κατηγορηθεί ότι τους αγνοούν.
Τώρα οι ιστότοποι στρέφονται στην τελευταία τους εναλλακτική: τις τεχνολογίες κατά της ανίχνευσης. Μια πληθώρα νέων startups (TollBit, ScalePost, κ.λπ.) και εταιρειών υποδομής ιστού όπως η Cloudflare (εκτιμάται ότι υποστηρίζει το 20% της παγκόσμιας κυκλοφορίας ιστού), έχουν αρχίσει να προσφέρουν εργαλεία για τον εντοπισμό, τον αποκλεισμό της μη ανθρώπινης κυκλοφορίας. Αυτά τα εργαλεία δημιουργούν εμπόδια που κάνουν τους ιστότοπους πιο δύσκολους στην πλοήγηση ή να απαιτούν εγγραφή.
Αυτά τα μέτρα όμως προσφέρουν άμεση προστασία. Σε τελική ανάλυση, οι εταιρείες τεχνητής νοημοσύνης δεν μπορούν να χρησιμοποιήσουν ότι δεν μπορούν να αποκτήσουν, ανεξάρτητα από το τι θα αποφασίσουν τα δικαστήρια.
Όμως το αποτέλεσμα είναι ότι οι μεγάλοι εκδότες, τα φόρουμ και οι ιστότοποι συχνά κλείνουν την πόρτα σε όλους τους ανιχνευτές — ακόμη και σε αυτούς που δεν αποτελούν απειλή.
Πώς θα χάσουμε
Καθώς αυτό το παιχνίδι γάτας και ποντικιού επιταχύνεται, οι μεγάλοι παίκτες κάνουν παιχνίδι. Οι μεγάλοι ιστότοποι και εκδότες θα υπερασπίζονται το περιεχόμενό τους ενώπιον του δικαστηρίου ή θα διαπραγματεύονται συμβόλαια. Οι τεράστιες εταιρείες τεχνολογίας μπορούν να αντέξουν οικονομικά να αδειοδοτήσουν μεγάλα σύνολα δεδομένων ή να δημιουργήσουν ισχυρούς ανιχνευτές για να παρακάμπτουν τους περιορισμούς. Ωστόσο, οι μικροί δημιουργοί, όπως οι εικαστικοί καλλιτέχνες, οι εκπαιδευτικοί του YouTube ή οι bloggers, έχουν μόνο δύο επιλογές: να κρύψουν το περιεχόμενό τους πίσω από logins και paywalls ή να τα βγάλουν εντελώς offline.
Για τους πραγματικούς χρήστες, αυτό θα κάνει δυσκολότερη την πρόσβαση σε άρθρα ειδήσεων, την προβολή περιεχομένου από τους αγαπημένους τους δημιουργούς και την πλοήγηση στον ιστό χωρίς logins, απαιτήσεις συνδρομής και captchas σε κάθε βήμα.
Ο Shayne Longpre είναι υποψήφιος διδάκτορας στο MIT, και η έρευνά του επικεντρώνεται στη διασταύρωση της τεχνητής νοημοσύνης και της πολιτικής. Είναι επικεφαλής της Πρωτοβουλίας Προέλευσης Δεδομένων.