Google macht blind
 
Wer das Internet durchsucht, der googelt. Die Suchmaschine ist mittlerweile zum Synonym für Internet-Recherche geworden. Wenn eine Seite nicht in einer Suchmaschine verzeichnet ist, dann existiert sie für die meisten Surfer nicht. Das ist aber im wahrsten Sinne des Wortes oberflächlich. Denn wenn das Internet das Meer ist, dann sind die Suchmaschinen Fischer, die vom Bootsrand aus nach unten schauen. Viel mehr als die Oberfläche bekommen sie nicht zu Gesicht.
Zugegeben, der Vergleich ist dreist. Schließlich kennt allein Google als die größte Suchmaschine im Internet geschätzte 20 Milliarden Webseiten. Trotzdem drängt sich das Bild von Wasseroberfläche und Tiefsee auf. Denn was Google weiß, macht höchstens ein paar Prozent des gesamten Internet aus. Der Rest ist für die Suchmaschine unsichtbar. Deshalb nennt man ihn auch „Deep Web“ oder „Invisible Web“.

Wie tief es unter der Oberfläche noch weiter geht, darüber streiten selbst die Experten. Angestoßen hat das Thema vor sechs Jahren die Firma Bright Planet. In einer Studie sagen die Amerikaner, dass das Deep Web etwa 500 Mal so groß sei, wie sein sichtbarer Bruder. Allerdings verkauft Bright Planet auch eine Suchtechnik, um das Deep Web zu durchsuchen. Unabhängigere Forscher wie Dirk Lewandowski, der an der Universität Düsseldorf Informationswissenschaft lehrt, stapeln da schon etwas tiefer. Die Bright Planet-Studie sei nicht verlässlich, schreibt er, denn zum einen sei die durchschnittliche Seitengröße zu hoch eingeschätzt worden. Zum anderen habe man nicht die Anzahl der Dokumente gezählt, sondern deren Größe in Byte. Weil es aber bisher keine verlässlichen Studien gibt, können auch Lewandowski und seine Kollegen nur vage schätzen: zwei bis fünfzig Mal so viele unsichtbare wie sichtbare Seiten veranschlagen sie.

Aber auch solche konservativeren Schätzungen bestreiten nicht: Das Deep Web ist riesig. „Trotzdem werden die Suchmaschinen zunehmend zu Torwächtern des Internet“, bemerkt Lewandowski. „Denn sie suggerieren, dass alle verfügbaren Informationen mit nur einem System durchsucht werden können.“

Dabei erscheint es bei näherer Betrachtung sogar logisch, dass die Suchmaschinen mit vielen Inhalten überfordert sind. Die so genannten „Spider“ oder „Robots“, die für sie das Netz durchkämmen, sind nämlich ziemlich simple Programme. Ihr größtes Manko: Ohne Text geht gar nichts. Bilder, Musikdateien, Programme, Seiten mit Flash-Animationen – all das bleibt für sie unsichtbar. Auch können sie keine Formulare ausfüllen, um zum Beispiel Telefon-, Bibliotheks- und sonstige Verzeichnisse zu durchsuchen. Und passwortgeschützte Seiten sind ohnehin außerhalb ihrer Reichweite.

Die Unfähigkeit der Robots geht so weit, dass sie noch nicht mal selbständig Adressen eingeben können. Sie können nur dann auf eine neue Seite gelangen, wenn sie auf einer bereits bekannten Seite verlinkt ist. Wer also eine neue Website bastelt, bleibt so lange im Verborgenen, bis eine bereits registrierte Seite auf das eigene Angebot verlinkt – oder bis er seine Seite eigenhändig bei einem Suchdienst anmeldet. Und auch dann müssen die Suchmaschinen diesem Link erst folgen, was je nach Bekanntheitsgrad der verlinkenden Seite schon mal mehrere Wochen dauern kann durchaus verschmerzt werden kann. Aber auch, wer zum Beispiel nach einer Fernsehserie oder nach Musik "googelt", hat ein Problem. Selbst wenn es eine Mediendatei kostenlos im Internet gibt, finden sie die Suchmaschine nur, wenn sie durch eine gute Beschreibung, also einen Text, ergänzt wird. Das ist gerade bei Filesharing-Plattformen selten der Fall.

Besonders ärgerlich ist es, wenn Google bei einer Recherche für Uni, Schule oder Beruf einen wichtigen Aufsatz, ein Quellenverzeichnis oder einen interessanten Autor nicht findet, obwohl die Dokumente eigentlich frei zugänglich wären. Auch von diesen Daten gibt es noch eine ganze Menge. Dass Suchmaschinen auch sie nicht finden, ist der Wirtschaftlichkeit geschuldet: Um Speicherplatz zu sparen, durchsuchen die Robots meist nur die ersten paar Verzeichnisebenen einer Seite und speichern nur etwa 100 Kilobyte aus jedem Dokument. Für die meisten Webseiten reicht das völlig. Aber gerade im akademischen Bereich, wo es oft verzweigte Verzeichnisse und große PDF-Dokumente gibt, verschluckt dieses Vorgehen einen Großteil der Informationen.

Dass das nicht so bleiben kann, haben mittlerweile sowohl einige kommerzielle Anbieter, als auch öffentliche Stellen erkannt. Google, die Uni Bielefeld und noch einige andere Anbieter stellen deswegen auch Suchmaschinen ins Netz, die speziell nach wissenschaftlichen Dokumenten suchen sollen. Größte technische Hürde sind dabei nach wie vor Datenbanken: Beinahe jeder, der große Mengen Daten digitalisiert, stellt zunächst Rohdaten ins Netz. Anschließend bastelt er sich dafür
ein eigenes Suchsystem, das die Daten je nach Anfrage zu sinnvollen Ergebnissen zusammenfasst – und mit dem die Suchmaschinen nicht zurechtkommen. Zwar gibt es so genannte „Open Archive“-Standards, die das ändern sollen, doch noch benutzt sie kaum jemand.

Für Tiefseefischer lautet deshalb die Devise: Google nicht aussortieren, sondern je nach Bedarf ergänzen. Neben vier großen akademischen Suchmaschinen gibt es tausende, die nach Themengebiet geordnet zumindest teile des Deep Web zugänglich machen.

Von Stefan Mauer
 
Nützliche Links:
http://scholar.google.com:
Wissenschaftliche Suchmaschine von Google
http://www.scirus.com:
Größte wissenschaftliche Suchmaschine, betrieben vom Verlag Elsevier Science
http://www.base-search.net:
Wissenschaftliche Suchmaschine der Uni Bielefeld
http://www.vascoda.de:
Wissenschaftliche Suchmaschine der Uni Hannover
http://www.ub.uni-bielefeld.de/biblio/search/services: Linksammlung zu Suchmaschinen und Suchmaschinenverzeichnissen der Uni Bielefeld