18.8.06

HOK Lesen: Suchen und Finden: Das unsichtbare Web

Die Informationswissenschaftler Mayr und Lewandowski nehmen in einer aktuellen Publikation das Thema des "unsichtbaren Webs" oder des "Deep Web" (oder in ihrem Fall präziser: des "invisible academic web") auf: jener Teil des Webs, der von Suchmaschinen nicht erfasst wird und damit für die meisten Nutzer/innen des Internets unsichtbar bleibt. Dazu gehören einerseits Seiten, die aus technischen Gründen von den Suchrobotern nicht gefunden werden oder deren Inhalte nicht indiziert werden können. Nicht gefunden werden Seiten, zu welchen keine oder falsche Links führen, aber auch Bereiche oder ganze Websites, deren Betreiber willentlich die Suchroboter mit entsprechenden Einstellungen ausschliessen und ihre Inhalte nicht in die Suchmaschinen indiziert haben wollen (ein Umstand, den Mayr und Lewandowski in ihren Übelegungen nicht berücksichtigen). Zu den nicht indizierbaren Dateien gehörten früher auch PDF-Dateien, heute sind es Musik-, Video- aber auch Flash-Dateien, während Bild-Dateien ja schon ziemlich gut in die Suchmaschinen-Abfragen eingebunden wurden.

Zum unsichtbaren Web (und hierauf konzentrieren sich Mayr und Lewandowski) gehören auch die zahlreichen via Web erreichbaren Datenbanken: angefangen von öffentlich zugänglichen Bibliothekskatalogen bis hin zu kostenpflichtigen Text- und Bilddatenbanken. Nicht (mehr) dazu gehören datenbankbasierte Web-Angebote wie etwas Amazon, deren Inhalte durch zahlreiche dynamische Verlinkungen von den Suchrobotern umfassend indiziert werden können.

Eine Studie von Michael K. Bergman aus dem Jahr 2001 schätzte, dass die Datenmenge in den Datenbanken jene des in Suchmaschinen indizierten Webs um das 550-fache (!) übersteige. Mayr und Lewandowski kommen bei einer kritischen Würdigung nun zum Schluss, dass die wirklich für wissenschaftliche Zwecke interessanten und relevanten Text-Datenbanken vielleicht gleich viel Daten beherbergen wie das "offene Web" auch: also in der Grössenordnung von einigen Milliarden Dokumenten. Weggerechnet wären dabei Datenbanken mit technischen Inhalten oder Rohdaten und Bilder (zum Beispiel Satellitenbilder). Ob sie beispielsweise Patentrecht- oder Zeitungsvolltext-Datenbanken auch zu der relevanten Menge gezählt haben, erläutern Mayr und Lewandowski nicht näher.

Sie gehen auch nicht näher auf den (von ihnen erwähnten) Umstand ein, dass im "offenen Web" nur ein Bruchteil der Inhalte wissenschaftlichen Ursprungs sind. Eine Schätzung von Lawrence und Giles (aus dem Jahr 1999) geht davon aus, dass 6% der im Web auffindbaren Inhalte als wissenschaftlich bezeichnet werden können. Folglich sind im unsichtbaren Web fast zwanzigmal mehr wissenschaftlich relevanten Daten vorhanden als im offenen Web.

Natürlich versuchen die Suchmaschinen, die sich als Suchinstrumente zu stark etabliert haben, um den Nutzer/innen wieder Datenbankabfragen beliebt machen zu können, die Inhalte des unsichtbaren Webs zu erschliessen: Google Scholar oder Scirus suchen gezielt Inhalte dieser Datenbanken ab und sind zu diesem Zweck Kooperationen mit wissenschaftlichen Verlagen und Datenbankbetreibern eingegangen. Oftmals kann man Inhalte zwar finden, muss diese aber bezahlen, wenn man sie einsehen will.

Mayr und Lewandowski plädieren einerseits dafür, genauere Untersuchungen über Art und Umfang des unsichtbaren Webs anzustellen (sie selber stellen nach eigener Deklaration nur plausible Überlegungen an), und andererseist, dass sich verschiedene Körperschaften und Institution in Kooperationen zur Erschliessung des unsichtbaren Webs zusammenschliessen sollten (ähnlich dem von ihnen erwähnten, aber nicht sehr erfolgreichen Projekt Vascoda). Ähnliche Forderungen zu europäischen Gegeninitiativen zu den US-amerikanischen Projeken zur Erschliessung des Webs (insbesondere durch Google) sind auch schon erhoben worden, etwa im Zusammenhang mit dem Buch-Digitalisierungsprojekt von Google.

Literatur:
Übersicht: HOK Lesen: Suchen und Finden