Τι είναι το web crawler

iGuRu.gr > Τι είναι το web crawler

Σίγουρα έχετε ακούσει διάφορους περίεργους όρους στο κόσμο της ηλεκτρονικής τεχνολογίας και του διαδικτύου. Μία τέτοια περίεργη λέξη είναι και το web crawler. Ας δούμε τι είναι και πως δουλεύει όλη η φάμπρικα που υπάρχει από πίσω.

Ανακαλύψτε περισσότερα άρθρα στα αποτελέσματα αναζήτησης.

Το iGuRu.gr προτιμώμενη πηγή

Τι είναι το Crawler

Το web crawler ή spider ή spiderbot που στα Ελληνικά αναφέρεται ως “ανιχνευτής ιστού” ή “αράχνη” είναι ένα πρόγραμμα που κυκλοφορεί στο διαδίκτυο συλλέγοντας ιστοσελίδες. Ένα τέτοιο πρόγραμμα ακολουθεί κάθε σύνδεση μέσα σε μια ιστοσελίδα, καταχωρώντας τoν κάθε σύνδεσμο και σελίδα, έως ότου φτάσει σε αδιέξοδο. Έπειτα αρχίζει από την αρχή με μια νέα ιστοσελίδα.

Είναι δηλαδή ένα bot ή στα Ελληνικά ένα διαδικτυακό ρομπότ, που τριγυρνάει το διαδίκτυο ανιχνεύοντας συνδέσμους και ιστοσελίδες, και χρησιμοποιείται συνήθως από διάφορες μηχανές αναζήτησης (Google, Bing κλπ), με σκοπό να συγκεντρώσει στοιχεία για τη βάση δεδομένων τους, ώστε όταν εσείς αναζητήσετε κάτι να μπορούν να σας εμφανίζουν γρήγορα τα πιο σχετικά αποτελέσματα αναζήτησης. Η εργασία που κάνει ο crawler (ανιχνευτής) ονομάζεται αντίστοιχα crawling (ανίχνευση ή προσπέλαση σε ελεύθερη μετάφραση).

Τι είναι το crawling

Οι ιστοσελίδες και όλοι οι webmasters γνωρίζουν ότι οι ανιχνευτές των μηχανών αναζήτησης (search engine crawlers) διατρέχουν ανά τακτά χρονικά διαστήματα την ιστοσελίδα τους για να δουν άμα υπάρχουν αλλαγές ή ανανεώσεις, από την τελευταία φορά που την επισκέφτηκαν.

Εάν υπάρχουν αλλαγές ή ανανεώσεις, τότε ενημερώνουν την βάση δεδομένων των μηχανών αναζήτησης (Intexing) με το νέο περιεχόμενο και τα νέα backlinks. Με απλά λόγια, το Indexing είναι η διαδικασία προσθήκης ιστοσελίδων μίας μηχανής αναζήτησης στα δεδομένα της.

Ο ανιχνευτής της Google και κάθε άλλης μηχανής αναζήτησης, δεν λειτουργεί σε πραγματικό χρόνο, για αυτό και υπάρχει μια καθυστέρηση στην αποτύπωση των πραγματικών αποτελεσμάτων αναζήτησης. Αυτή η καθυστέρηση μπορεί να κρατήσει από μερικές ώρες έως και εβδομάδες, ανάλογα με το πόσο γρήγορα θα γίνει το crawling και η ενημέρωση των νέων δεδομένων.

Σε ιστοσελίδες οι οποίες έχουν συχνότερη ή καθημερινή ενημέρωση, όπως μία ειδησεογραφική ιστοσελίδα, η διαδικασία του crawling είναι σχεδόν καθημερινή και πολλές φορές απαιτούνται λίγα λεπτά για να καταγραφεί στο Google Index μια νέα σελίδα ή ένα νέο άρθρο ή ένα νέο βίντεο.

Για παράδειγμα μία είδηση που ανέβηκε στην ιστοσελίδα μίας εφημερίδας στις 10 και 20, λογικά θα εμφανιστεί στα αποτελέσματα αναζήτησης στις 10 και 21. Αυτό σημαίνει ότι το crawling γίνεται σχεδόν ανά ένα λεπτό, λόγω της φύσης της ιστοσελίδας.

Πως λειτουργεί η ανίχνευση ιστού (crawling)

Καταρχήν κάθε μηχανή αναζήτησης χρησιμοποιεί το δικό της ανιχνευτή. Όταν βρίσκουν μία ιστοσελίδα το πρώτο που κάνουν είναι να κατεβάζουν ένα μικρό αρχειάκι, το robots.txt. Το αρχείο αυτό περιέχει τους κανόνες που θα πρέπει να ακολουθήσουν οι crawlers, για το ποιο περιεχόμενο θα προσπελάσουν και ποιο όχι.

Ένα τυπικό robots.txt από μια ιστοσελίδα θα πρέπει να έχει την παρακάτω μορφή:
Host: https://iguru.gr User-agent: * Disallow: /wp-admin/ Allow: *.css

Στη συνέχεια οι ανιχνευτές (web crawlers), χρησιμοποιούν από μόνοι τους μια σειρά από κανόνες και αλγορίθμους για να καθορίσουν πόσο συχνά θα επισκέπτονται την ιστοσελίδα σας, ποιες και πόσες σελίδες θα προσπελάζουν και ποιες και πόσες θα προσθέτουν στον δείκτη τους.

Αν έχετε ήδη μία ιστοσελίδα σίγουρα θα αναρωτιέστε αν η δική σας έχει αρχείο robots.txt για να κατευθύνει τα ρομπότ των μηχανών αναζήτησης. Οι έτοιμες ιστοσελίδες που είναι για τα μεγάλα CMS (όπως WordPress, Joomla κλπ) έχουν προεγκατεστημένο ένα τέτοιο αρχείο. Μόνο αν έχετε φτιάξει εσείς την ιστοσελίδα σας ή έχετε χρησιμοποιήσεις μία custom ιστοσελίδα χτισμένη με κώδικα, τότε πιθανά δεν έχετε και θα πρέπει να το προσθέσετε με το χέρι.

Συνοπτικά μέχρι στιγμής

Crawler: Ένα αυτόματο πρόγραμμα μίας μηχανής αναζήτησης το οποίο ψάχνει συνεχώς πληροφορίες που υπάρχουν στο Internet.

Crawling: Η διαδικασία ψαξίματος του crawler

Indexing: Η καταχώρηση αυτών που βρίσκει ο crawler σε μια τεράστια βάση δεδομένων της μηχανής αναζήτησης.

Processing: Η διαδικασία κάνει η μηχανή αναζήτησης για να ψάξει στην βάση της τα δεδομένα που ταιριάζουν σε μία αναζήτηση ενός χρήστη. Όταν αναζητάτε κάτι στο Google, η μηχανή αναζήτησης χρησιμοποιεί έναν αλγόριθμο για να υπολογίσει ποια δεδομένα ταιριάζουν.

Retrieving: Η παρουσίαση των αποτελεσμάτων στον χρήστη. Η μηχανή αναζήτησης χρησιμοποιεί έναν αλγόριθμο για να και παρουσιάσει στο χρήστη τα αποτελέσματα της αναζήτησής του. Κανείς δεν ξέρει πως ακριβώς δουλεύει ο αλγόριθμος της κάθε μηχανής αναζήτησης.

Backlinks: Οι σύνδεσμοι προς εσάς, από έναν εξωτερικό ιστότοπο. Δημιουργούνται όταν ένας ξένος ιστότοπος συνδέεται με την ιστοσελίδα σας με την χρήση υπερσυνδέσμου. Όταν εσείς βάζετε ένα σύνδεσμο προς μία άλλη σελίδα τότε για εσάς αυτός ο σύνδεσμος ονομάζεται external link και για την άλλη σελίδα ονομάζεται backlink.

Τι ακριβώς ψάχνουν οι Web Crawlers;

Οι ανιχνευτές ιστού τριγυρνάνε στις ιστοσελίδες ψάχνοντας για:

Backlinks
Xml Sitemaps
Εικόνες, βίντεο, ήχους και γενικά αρχεία που δεν είναι κείμενο

Από τις εικόνες οι web crawlers λαμβάνουν τα meta δεδομένα της εικόνας όπως το εναλλακτικό κείμενο. Μέσω των backlinks προσπαθούν να ανακαλύψουν νέα urls και νέα backlinks. Το xml sitemap ή αλλιώς xlm χάρτης ιστοτόπου είναι ένα αρχείο σε μορφή xml που περιέχει αναλυτικά όλα τα urls ενός ιστοτόπου σας καθώς επίσης και συμπληρωματικές πληροφορίες για αυτά. Αυτές οι πληροφορίες αποδίδονται μέσα από συγκεκριμένα πεδία (tags) του xml αρχείου και ενημερώνουν τις μηχανές αναζήτησης για τη βαρύτητα (σημασία) του εκάστοτε url, τον ρυθμό ανανέωσης του περιεχομένου του κ.ά.

Για να ταξινομηθεί μια ιστοσελίδα στο ίντερνετ, θα πρέπει αυτή να έχει ένα τουλάχιστον backlink από μια άλλη ιστοσελίδα που έχει ήδη προσπελαστεί από τα ρομπότ και που είναι ήδη ταξινομημένη στις μηχανές αναζήτησης.

Πως να ελέγξετε άμα η ιστοσελίδα σας έχει ταξινομηθεί στη Google

Αν έχετε μία ιστοσελίδα και δεν γνωρίζεται αν αυτή έχει ταξινομηθεί στη Google, μπορείτε να κάνετε τον εξής πολύ απλό έλεγχο:

Πηγαίνετε στην γραμμή αναζήτησης της Google και γράψτε: site:η_ιστοσελίδα_σας.gr

Άμα θα λάβετε κάποιο αποτέλεσμα αναζήτησης στο οποίο εμφανίζεται και η ιστοσελίδα σας, τότε δεν υπάρχει πρόβλημα. Έχει ταξινομηθεί το site σας στις μηχανές αναζήτησης. Εάν όχι τότε θα πρέπει να λάβετε τα απαραίτητα μέτρα για να αρχίσει η ιστοσελίδα σας να εμφανίζεται.

Η μάχη της δημοσιότητας και των αποτελεσμάτων αναζήτησης

Το μεγάλο στοίχημα για τους κατασκευαστές ιστοσελίδων είναι να μπορέσουν να κάνουν τον αλγόριθμο της Google να εμφανίσει την δικά τους ιστοσελίδα τουλάχιστον στην πρώτη σελίδα των αποτελεσμάτων.

Η Google είναι η πρώτη προτίμηση σε σχέση με τις μηχανές αναζήτησης Bing, DuckDuckGo κλπ, γιατί είναι αυτή που χρησιμοποιείται από τον περισσότερο κόσμο και κατά συνέπεια προσφέρει και καλύτερες αποδόσεις διαφήμισης. Όσο περισσότερος κόσμος ψάχνει μέσω της Google τόσο πιο αποτελεσματική θα είναι μία διαφήμιση σας, αλλά και τόσο περισσότερο κόσμος θα οδηγηθεί προς την ιστοσελίδα σας αν αυτή εμφανιστεί στην πρώτη σελίδα των αποτελεσμάτων αναζήτησης.

Κανείς δεν ξέρει πως “σκέφτεται” ο αλγόριθμος της Google. Γιατί δηλαδή όταν κάνετε αναζήτηση ένα όρο, σας βγάζει τα αποτελέσματα της με την συγκεκριμένη σειρά. Φυσικά τα πρώτα αποτελέσματα κερδίζουν και τα πιο πολλά κλικς και άρα αν η ιστοσελίδα σας βρεθεί στις πρώτες θέσεις τόσο μεγαλύτερη επισκεψιμότητα θα έχετε.

Και εδώ εμφανίζεται μία νέα υπηρεσία που ονομάζεται SEO. H Search Engine Optimization (SΕΟ) ή στα Ελληνικά “Βελτιστοποίηση Ιστοσελίδων για τις Μηχανές Αναζήτησης” είναι οι διαδικασίες βελτιστοποίησης στη δομή, στο περιεχόμενο και στα τεχνικά χαρακτηριστικά ενός ιστότοπου, ώστε να είναι φιλικός προς τους χρήστες και τις μηχανές αναζήτησης του διαδικτύου.

Και αφού ο αλγόριθμος κάθε μηχανής αναζήτησης έχει μυστικό τον τρόπο λειτουργίας του έτσι και η υπηρεσία SEO έχει μεγάλο χρηματικό κόστος για να σας ανεβάσει σε δημοτικότητα. Οι ακριβότερες εξ αυτών υπάρχει πιθανότητα να συνεργάζονται “στενά” με τις καλύτερες μηχανές αναζήτησης και το όλο δίδυμο να δουλεύει συμπληρωματικά.

Επίλογος

Το Web Crawler είναι ένα πρόγραμμα που ψάχνει εκ των προτέρων το διαδίκτυο για ιστοσελίδες. Το Crawling είναι μια διαδικασία που πραγματοποιείται αυτοματοποιημένα και σε ανύποπτο χρόνο από τις μηχανές αναζήτησης για όλες σχεδόν τις ιστοσελίδες που υπάρχουν στο ίντερνετ.

Όλοι οι κατασκευαστές ιστοσελίδων (τουλάχιστον οι νόμιμοι) θέλουν να τους βλέπουν οι Web Crawler γιατί έτσι μπορούν να γίνουν γνωστοί σε ευρύτερο κοινό.