Ο πόλεμος των robots.txt

Για να ζητήσετε από τις εταιρείες που συλλέγουν δεδομένα από το web να εξαιρέσουν την ιστοσελίδα σας, πρέπει να επεξεργαστείτε (ή να δημιουργήσετε) ένα αρχείο που βρίσκεται στον ιστότοπό σας και ονομάζεται “robots.txt”.

Το robots.txt είναι ένα σύνολο οδηγιών για bots και προγράμματα ανίχνευσης web. Μέχρι σήμερα χρησιμοποιόταν ως επί το πλείστον για την παροχή χρήσιμων πληροφοριών στις μηχανές αναζήτησης καθώς τα bots τους σκανάρουν συνεχώς το web.robots txt

Εάν λοιπόν οι ιδιοκτήτες ιστότοπων θέλουν να ζητήσουν από μια συγκεκριμένη μηχανή αναζήτησης ή κάποιο άλλο bot να μην σαρώσει τον ιστότοπό τους, μπορούν να προσθέσει μια εντολή στο αρχείο robots.txt. Τα bots μπορούν πάντα να αγνοήσουν την εντολή, αλλά πολλές υπηρεσίες ανίχνευσης σέβονται το αίτημα.

Όλα αυτά μπορεί να ακούγονται τεχνικά, αλλά στην πραγματικότητα δεν είναι τίποτα περισσότερο από ένα μικρό αρχείο κειμένου που βρίσκεται στο root (/) του ιστότοπού σας, όπως “https://www.example.com/robots.txt”.

Οποιοσδήποτε μπορεί να δει αυτό το αρχείο σε οποιονδήποτε ιστότοπο. Για παράδειγμα, εδώ είναι το robots.txt των New York Times, το οποίο προς το παρόν αποκλείει τόσο το ChatGPT όσο και το Bard.

Ας δούμε όμως και το robots.txt της chatgpt.com

´Όπως θα δείτε το robots.txt της ChatGPT (chatgpt.com) δεν επιτρέπει bots από την Anthropic, ενώ η Anthropic τα επιτρέπει όλα

iGuRu.gr The Best Technology Site in Greeceggns

Get the best viral stories straight into your inbox!















Written by giorgos

Ο Γιώργος ακόμα αναρωτιέται τι κάνει εδώ....

Αφήστε μια απάντηση

Η ηλ. διεύθυνση σας δεν δημοσιεύεται. Τα υποχρεωτικά πεδία σημειώνονται με *

Το μήνυμα σας δεν θα δημοσιευτεί εάν:
1. Περιέχει υβριστικά, συκοφαντικά, ρατσιστικά, προσβλητικά ή ανάρμοστα σχόλια.
2. Προκαλεί βλάβη σε ανηλίκους.
3. Παρενοχλεί την ιδιωτική ζωή και τα ατομικά και κοινωνικά δικαιώματα άλλων χρηστών.
4. Διαφημίζει προϊόντα ή υπηρεσίες ή διαδικτυακούς τόπους .
5. Περιέχει προσωπικές πληροφορίες (διεύθυνση, τηλέφωνο κλπ).