Η OpenAI ανακοίνωσε ένα νέο πρόγραμμα ανίχνευσης ιστού, το GPTBot. Αυτό το bot θα συλλέγει δημόσια διαθέσιμα δεδομένα για σκοπούς εκπαίδευσης των μοντέλων τεχνητής νοημοσύνης, κάτι το οποίο η επιχείρηση ισχυρίζεται ότι θα γίνει με διαφάνεια και υπευθυνότητα.
Σύμφωνα με την τεκμηρίωση έκδοσης της OpenAI, ο ανιχνευτής ιστού δεν θα συμπεριλαμβάνει πηγές που χρειάζονται πρόσβαση σε paywall, πληροφορίες προσωπικής ταυτοποίησης (PII) ή υλικό που παραβιάζει τους εταιρικούς κανονισμούς. Σύμφωνα με την εταιρεία, η κυκλοφορία του bot θα βοηθήσει στην αύξηση της ακρίβειας και των δυνατοτήτων των συστημάτων AI στο μέλλον.
Αυτό το βήμα δεν υπόσχεται μόνο να βελτιώσει τις δυνατότητες και την ασφάλεια των μοντέλων τεχνητής νοημοσύνης, αλλά πυροδοτεί και πάρα πολλές συζητήσεις σχετικά για τηνν ηθική των δεδομένων, την ιδιοκτησία και τη χρήση τους στην ψηφιακή εποχή.
Αναγνωρίζοντας ότι υπάρχουν προβλήματα απορρήτου, η OpenAI δίνει την δυνατότητα στους webmasters να επιλέγουν το ποσοστό που θα μοιράζονται οι σελίδες τους με το GPTBot. Οι webmasters θα μπορούν να περιορίσουν πλήρως την πρόσβαση του GPTBot ή να καθορίσουν τις σελίδες τις οποίες μπορεί να περιηγηθεί, κάνοντας αλλαγές στο αρχείο robots.txt.
Για παράδειγμα:
Καθολικός Αποκλεισμός
User-agent: GPTBot
Disallow: /
Οι παρακάτω εντολές μπορούν να χρησιμοποιηθούν για επιλεγμένη πρόσβαση:
User-agent: GPTBot
Allow: /directory-1/
Disallow: /directory-2/
Εύρος IP
Το bot της OpenAI, θα κυκλοφορεί στους ιστότοπους με τις παρακάτω IP
20.15.240.64/28
20.15.240.80/28
20.15.240.96/28
20.15.240.176/28
20.15.241.0/28
20.15.242.128/28
20.15.242.144/28
20.15.242.192/28
40.83.2.64/28