Για να ζητήσετε από τις εταιρείες που συλλέγουν δεδομένα από το web να εξαιρέσουν την ιστοσελίδα σας, πρέπει να επεξεργαστείτε (ή να δημιουργήσετε) ένα αρχείο που βρίσκεται στον ιστότοπό σας και ονομάζεται “robots.txt”.
Το robots.txt είναι ένα σύνολο οδηγιών για bots και προγράμματα ανίχνευσης web. Μέχρι σήμερα χρησιμοποιόταν ως επί το πλείστον για την παροχή χρήσιμων πληροφοριών στις μηχανές αναζήτησης καθώς τα bots τους σκανάρουν συνεχώς το web.
Εάν λοιπόν οι ιδιοκτήτες ιστότοπων θέλουν να ζητήσουν από μια συγκεκριμένη μηχανή αναζήτησης ή κάποιο άλλο bot να μην σαρώσει τον ιστότοπό τους, μπορούν να προσθέσει μια εντολή στο αρχείο robots.txt. Τα bots μπορούν πάντα να αγνοήσουν την εντολή, αλλά πολλές υπηρεσίες ανίχνευσης σέβονται το αίτημα.
Όλα αυτά μπορεί να ακούγονται τεχνικά, αλλά στην πραγματικότητα δεν είναι τίποτα περισσότερο από ένα μικρό αρχείο κειμένου που βρίσκεται στο root (/) του ιστότοπού σας, όπως “https://www.example.com/robots.txt”.
Οποιοσδήποτε μπορεί να δει αυτό το αρχείο σε οποιονδήποτε ιστότοπο. Για παράδειγμα, εδώ είναι το robots.txt των New York Times, το οποίο προς το παρόν αποκλείει τόσο το ChatGPT όσο και το Bard.
Ας δούμε όμως και το robots.txt της chatgpt.com
´Όπως θα δείτε το robots.txt της ChatGPT (chatgpt.com) δεν επιτρέπει bots από την Anthropic, ενώ η Anthropic τα επιτρέπει όλα