Πολλοί έχουν την αφελή προσδοκία ότι μπορούν να εντοπίσουν οτιδήποτε σχετικά με το World Wide Web, χρησιμοποιώντας μηχανές αναζήτησης όπως την Google ή το Yahoo ή την Ask.com ή το Bing. Η αλήθεια είναι ότι όλες αυτές οι μηχανές αναζήτησης έχουν ευρετηριάσεις από το 10% του συνόλου του ιστού. Το υπόλοιπο 90% ονομάζεται “Invisible Web“, ή “Cloaked Web” ή “Deep Web.”
Αυτό σημαίνει ότι υπάρχουν τεράστιοι όγκοι δεδομένων που είναι διαθέσιμοι στο κοινό, αλλά παραμένουν κρυμμένοι από τις μηχανές αναζήτησης που όλοι γνωρίζουν.
Ίσως σας είναι δύσκολο να κατανοήσετε πως δισεκατομμύρια ιστοσελίδες δεν μπορούν να εμφανιστούν στα αποτελέσματα της Google. Όμως υπάρχουν. Τα ρομπότ ‘spiders’ που σαρώνουν και αρχειοθετούν το world wide web έχουν περιορισμένες δυνατότητες.
Για να καταλάβετε καλύτερα, ας ξεκινήσουμε με κάποια νούμερα για το μέγεθος των υπηρεσιών που προσφέρουν οι: Google.com, Yahoo.com, Cyberatlas, και το MIT. Τα στατιστικά στοιχεία είναι από το καλοκαίρι του 2013:
Η Google.com έχει 40 δισεκατομμύρια δημόσιες ιστοσελίδες στα αρχεία της. 100 + δις από αυτές είναι στατικές ιστοσελίδες και δημόσια διαθέσιμες. Αυτές οι σελίδες μπορούν εύκολα να βρεθούν από την Google, αλλά και άλλες μηχανές αναζήτησης.
11 + δις στατικές σελίδες κρύβονται από το κοινό, αφού έχουν δηλώσει ότι περιέχουν ιδιωτικό περιεχόμενο, ή είναι στο intranet. Αυτές είναι οι εταιρικές σελίδες που είναι ανοιχτές μόνο για τους υπαλλήλους των συγκεκριμένων εταιρειών.
450+ δισεκατομμύρια σελίδες έχουν βάσεις δεδομένων που είναι εντελώς αόρατες στην Google. Παραδείγματος χάρη, κυβερνητικές βάσεις δεδομένων με στοιχεία φορολογίας κλπ.
Η Google, θεωρείται ότι έχει την καλύτερη βάση δεδομένων στις αναζητήσεις σήμερα.Τα spiders της εταιρείας καταγράφουν εκατομμύρια ιστοσελίδες κάθε εβδομάδα.
Έτσι, αν το Google έχει αποθηκεύσει μόνο ένα 8-10% του World Wide Web και οι άλλες μηχανές αναζήτησης, έχουν ακόμη μικρότερες βάσεις δεδομένων, τότε πού κρύβεται το υπόλοιπο 92% του περιεχομένου στο διαδίκτυο;
Το “Invisible Web” (ή “Deep Web” ή “Cloaked Web”) είναι το περιεχόμενο που δεν εμφανίζεται στις μηχανές αναζήτησης.
Πιο συγκεκριμένα: το Invisible Web αποτελείται από 220 + δισεκατομμύρια ιστοσελίδες που δεν έχουν αποθηκευτεί σαν στατικές ιστοσελίδες. Το Invisible Web αποτελείται από σελίδες on-demand και βάσεις δεδομένων. Δηλαδή σελίδες που υπάρχουν μόνο ως εκθέσεις των μεταβαλλόμενων δεδομένων. Ως τον Αύγουστο του 2007, τα spiders ρομπότ δεν είχαν προχωρήσει αρκετά για να διαβάσουν αυτές τις ιδιωτικές βάσεις δεδομένων. Πρόσβαση μπορούν να έχουν μόνο άνθρωποι, και αυτοί μόνο αν έχουν τις γνώσεις.
Τεχνική ορολογία:
“Spider”: Ένα πρόγραμμα τεχνητής νοημοσύνης, ή ρομπότ, που έχει σταλεί να διαβάσει εκατομμύρια στατικών ιστοσελίδων του δημόσιου Ιnternet. Οι πληροφορίες που συλλέγονται από τα Spiders, αποθηκεύονται σε βάσεις δεδομένων, τις οποίες χρησιμοποιούν οι μηχανές αναζήτησης.
“Database-Driven Web Content”: ιστοσελίδες που υπάρχουν μόνο προσωρινά, και δημιουργούνται μόνο όταν οι αναγνώστες ζητούν απαντήσεις από μια μεγάλη βάση δεδομένων. Οι προσωρινές αυτές ιστοσελίδες είναι δυναμικές, και συνήθως δεν μπορούν να αποθηκευτούν σε σελιδοδείκτες. Συνήθως έχουν εξαιρετικά μεγάλες διευθύνσεις URL.
Το Invisible Web περιέχει Dynamic Web Pages. Αυτό σημαίνει ότι μια βάση δεδομένων σας δημιουργεί μια προσωρινή σελίδα για να απαντήσει στην ερώτηση σας! Καλό ε;
Table of Contents
Πώς μπορώ να χρησιμοποιήσω το Invisible Web;
Υπάρχουν πάρα πολλοί που ρωτάνε ακριβώς το ίδιο. Ας δούμε παρακάτω μερικές αξιόλογες βάσεις δεδομένων.
Ανθρωπιστικές Επιστήμες
Voice of the Shuttle: Ξεκίνησε το 1994, και είναι μια από τις παλαιότερες και μεγαλύτερες βάσεις ανθρωπιστικών δεδομένων στο Web.
Ειδικές βάσεις της κυβέρνησης των ΗΠΑ
University of Michigan Government Documents Center: Θα βρείτε πάρα πολλά δεδομένα, έρευνες, στατιστικά στοιχεία, καθώς και άλλα πολλά από τα υψηλά επίπεδα της κυβέρνησης των ΗΠΑ. Οι βάσεις δεδομένων που προσφέρονται περιλαμβάνουν Τέχνες, Επιστήμες Υγείας, Κοινωνικών Επιστημών και Διεθνών Σπουδών.
USA.gov: Ένα portal σταθμός για πολλούς φορείς της κυβέρνησης των Ηνωμένων Πολιτειών. Περιλαμβάνει κυβερνητικές θέσεις, υπηρεσίες, και πληροφορίες για την εύρεση επιχορηγήσεων, δάνειων και οικονομική βοήθεια.
Υγεία και Επιστήμη
PsycNET: Χρησιμοποιήστε τη βάση δεδομένων του American Psychological Association για να βρείτε αποσπάσματα και ολόκληρα περιοδικά για διάφορα θέματα ψυχολογίας.
Scirus: Ένα εργαλείο αναζήτησης που λειτουργεί αποκλειστικά για επιστημονικές πληροφορίες. Το εκπληκτικό εργαλείο αναζήτησης έχει εκατοντάδες εκατομμυρία επιστημονικών, και ακαδημαϊκών εγγράφων για να βοηθήσουν ερευνητές από όλο τον κόσμο.
Healthfinder: Περιέχει πληροφορίες από πάνω από χίλιες διαφορετικές βάσεις δεδομένων υγείας στο διαδίκτυο.
RXList:Αν ψάχνετε για αξιόπιστες πληροφορίες για φάρμακα, τότε αυτή η βάση δεδομένων είναι για σας.
Mega-Portal
Το Πανεπιστήμιο της Καλιφόρνιας, Riverside διατηρεί το InfoMine, μια απίστευτη πηγή γνώσης που κατά την τελευταία καταμέτρηση περιείχε πάνω από 100.000 συνδέσεις και πρόσβαση σε εκατοντάδες, αν όχι χιλιάδες, βάσεις δεδομένων.
Γενικά υπάρχουν πάρα πολλές, ιστοσελίδες που έχουν συσταθεί για να φέρνουν στην επιφάνεια δεδομένα από το Invisible Web. Η CompletePlanet.com είναι μία από αυτές. Περιέχει “πάνω από 70.000 βάσεις δεδομένων.”
Οι περισσότερες από τις πληροφορίες σχετικά με το αόρατο Web διατηρούνται από ακαδημαϊκά ιδρύματα. Υπάρχουν οι «ακαδημαϊκές πύλες» που μπορούν να σας βοηθήσουν να βρείτε αυτές τις πληροφορίες. Για να βρείτε σχεδόν κάθε εκπαιδευτικό πόρο στον Ιστό, απλά πληκτρολογήστε τον παρακάτω όρο στην αγαπημένη σας μηχανή αναζήτησης:
site:.edu “θέμα που αναζητώ”
Η αναζήτησή σας θα σας επιστρέψει αποτελέσματα σχετικά μόνο με edu sites. Εάν θέλετε να αναζητήσετε κάτι από ένα συγκεκριμένο πανεπιστήμιο χρησιμοποιήσετε το URL του πανεπιστημίου στην αναζήτησή σας:
site:www.πενεπιστήμιο.gr “θέμα που αναζητώ”
Αυτή είναι μόνο η κορυφή του παγόβουνου. Όλα αυτά που έχουμε αναφέρει σε αυτό το άρθρο μόλις αρχίζουν να αγγίζουν τους τεράστιους πόρους που διατίθενται στο Invisible Web. Όσο περνά ο καιρός, το Invisible Web γίνεται μεγαλύτερο.