Suchfibel
/ Gastbeiträge
/ Suchroboter und Web-Verzeichnisse - gemeinsam sind sie stark
Suchroboter und Web-Verzeichnisse - gemeinsam sind sie stark
von Annette Stegger
"Was wollen Sie: Nadel oder Heuhaufen" so wirbt eine große Suchmaschine. Nimmt man sie beim Wort und gibt ins Suchfeld "Nadel" ein,
so schlägt sie mit mehr als 2000 Fundstellen zurück - zu viele und wieder ein Heuhaufen, in dem man sich nur schwer zurechtfindet!
Es bleibt dabei: Auf die Frage "Mit welcher Suchmaschine finde ich genau das, was ich suche?" gibt es noch keine eindeutige Antwort.
Das liegt einmal an den unterschiedlichen Dingen, nach denen die User suchen. Während der eine User ein umfangreiches
Themengebiet allgemein erkunden möchten "Modernes Theater" oder "Bildungspolitik", verwendet der andere die Suchmaschine wie ein Fremdwörterlexikon
und gibt einen seltenen Begriff ein, wie "Paronychie" - eitrige Nagelbettentzündung. Die zur Verfügung stehenden Suchhilfen sind selbst sehr verschieden
aufgebaut und reagieren deshalb auf solche Abfragen sehr unterschiedlich. Je nach dem, mit welchem Suchprogramm man die erste oder die zweite Frage
beantworten möchte, stellt sich Erfolg ein - oder eben auch nicht.
Es gilt dabei, die zwei große Typen von Suchhilfen voneinander zu unterscheiden: auf der einen Seite
stehen die Kataloge, Verzeichnisse oder Indizes, auf der anderen die Suchroboter, Crawler oder Spider. Zum ersten Typ, den Katalogen,
gehören YAHOO, WEB.DE, DINO oder ALLESKLAR. Zum Typ Suchroboter gehören FIREBALL, LYCOS oder EXCITE.
Ein Blick auf die wesentlichen Unterschiede kann für die eigene Suche sehr nützlich sein.
Die erstgenannten, Kataloge bzw. Verzeichnisse, stehen gewissermaßen in der Tradition des Bibliothekswesens.
Experten sichten zusammenhängende Webangebote also etwa die Präsentation einer Firma oder eines Vereins im WWW. Das gesamte Angebot
wird mit ein bis zwei Sätzen von den Redakteuren beschrieben. Dabei werden auch Beurteilungskriterien bzw. suchrelevante Stichwörter
hinzugefügt, die letztlich die Rangfolge auf der Ergebnisseite zusätzlich beeinflussen können. Schließlich wird das so bearbeitete Angebot in
eine inhaltliche Kategorie eingeordnet. Die Suche erfolgt dann über das "Durchblättern" der Kategorien und Unterkategorien, oder direkt mit Hilfe
der Eingabe von Suchworten. Etwa ein Drittel der Nutzer eines Kataloges wählt den ersten Weg und stöbert in den Kategorien.
Hier kann man besonders gut ein ganzes Themengebiet erkunden.
Den handbearbeiteten Katalogen und Verzeichnissen stehen die Suchroboter oder Suchmaschinen gegenüber.
Sie durchsuchen permanent das Internet, folgen jedem Link und speichern jeden Textschnipsel. Weil sie automatisch arbeiten, können wesentlich
größere Datenmengen registriert werden. Fireball hat z.B. etwa 5 Mio. Seiten im Volltext erfaßt, dagegen enthält auch ein großer Katalog "nur" etwa 200.000 Einträge.
Die Suche erfolgt bei den Robotern ausschließlich über die Eingabe von Suchworten. Der Vorteil: Es werden auch zu
den ausgefallensten Begriffen irgendwelche (wenn auch nicht immer sinnvolle) Antworten gefunden. Der Nachteil: Bei allgemeinen Suchbegriffen
(siehe unser Beispiel mit der Nadel) werden sehr viele Ergebnisseiten angezeigt, bei Themen wie "Tennis" sind es auch
schon mal über 50.000 Fundstellen.
Dafür bieten alle Suchroboter zum Teil sehr ausgefeilte Hilfen, mit denen eine Suche verfeinert -
und die Ergebnismenge vermindert und auf das wirklich Wichtige reduziert werden kann. Theoretisch läßt sich durch sinnvolle Verknüpfungen
verschiedener Suchwörter die Ergebnismenge deutlich überschaubarer gestalten. Die Praxis zeigt aber, daß die sog. Komfort- oder Expertensuche
nur von weniger als 5% der Anwender benutzt wird.
Am allerhäufigsten ist bei Katalogen und Robotern die simple Einwortsuche. Bei vielen Fundstellen
kommt dabei der Rangfolge der Ergebnisse eine Schlüsselrolle zu. Rund 60 Prozent der User schauen sich nur die erste Ausgabeseite
an und blättern nicht weiter. Was nicht unter den ersten zehn bis zwanzig Treffern steht, gilt praktisch als nicht gefunden.
Die Gesamtmenge der Ergebnisse ist dagegen zweitrangig. Aus der Sicht eines durchschnittlichen Abfragers
macht es schließlich keinen großen Unterschied, ob einige Hundert oder einige Tausend Treffer gefunden werden.
Bei den Katalogen erleichtert die redaktionelle Bearbeitung eine sinnvolle, dem User entgegenkommende
Sortierung - sofern sie wegen Ihrer beschränkten Datenmenge überhaupt etwas finden.
Hier ist besonders aufschlussreich eine Verteilung der Suchwörter nach Häufigkeit. Das Web-Verzeichnis ALLESKLAR
hat dazu eine Stichprobe von 100.000 zufälligen Sucheingaben analysiert. Die Ergebnisse gelten prinzipiell auch für andere Suchdienste und Roboter,
wie verschiedene Plausibilitätsuntersuchungen bei der Life-Suche anderer Verzeichnisse und Roboter zeigen.
Sehr deutlich fällt eine starke Konzentration auf nur wenige Suchworte auf.
Die häufigsten zehn Suchwörter machen bereits 15% der gesamten Sucheingaben aus, die häufigsten 60 bereits 25%. Nur 700 Wörter decken 50% aller Abfragen ab.
Fast immer bekommen die User zu diesen 700 Top-Wörtern - also etwa der Hälfte aller Abfragen -
bei jedem größeren Katalog ein sehr befriedigendes Ergebnis. Es ist in der Regel deutlich besser als die gleiche Suchabfrage bei den
Robotern. Hier kommen die spezifischen Vorteile der Kataloge zum Tragen. Die redaktionelle Bearbeitung führt dazu, daß die besten
Treffer mit größerer Wahrscheinlichkeit am Anfang stehen. Zu den Top-Suchworten sind häufig gleichnamige Kategorien vorhanden.
Auf diese kann zusätzlich verwiesen werden, womit Suchwörter in einen größeren Zusammenhang gestellt werden.
Bei der anderen Hälfte der Sucheingaben - also der großen Menge der selten eingegebenen Wörter -
zeigt sich dagegen die Stärke der Roboter. Die Zahl der Treffer wird hier bei den Katalogen zunehmend kleiner.
Bei den extrem seltenen und Fachwörtern (in etwa 10 Prozent der Fälle) können sie überhaupt keine Antwort
aus dem eigenen Datenbestand geben. Das enttäuschende Ergebnis: "0-Treffer" oder "keinen Eintrag gefunden".
Als Faustregel gilt: Bei der einen Hälfte der Suchvorgänge, also bei den Top-Wörtern,
ist ein ausreichend großer Katalog eigentlich immer den Suchrobotern überlegen. Bei der anderen Hälfte ist dagegen das Resultat der Roboter besser.
Doch wer möchte schon gerne vor einer Suchabfrage darüber nachdenken, ob er nun einen allgemeinen -
wahrscheinlich unter den Top-Suchwörtern anzusiedelnden - Begriff sucht oder eines der speziellen Fachwörter, um danach zu entscheiden,
welchem Suchprogramm er seine Abfrage anvertraut. Diese Entscheidung sollte eine gute Suchhilfe dem User von vornherein abnehmen.
Kataloge und Suchmaschinen schließen sich deshalb immer häufiger zusammen. Wenn z.B. bei YAHOO - vom Kern her ein Katalog - nichts
in den eigenen redaktionell bearbeiteten Daten vorhanden ist, wird einfach das Suchergebnis des großen amerikanischen Roboters INKTOMI
eingespielt, vom User meist völlig unbemerkt. In gleicher Weise verfährt ALLESKLAR. Suchanfragen, die aus dem eigenen Datenbestand nicht
beantwortet werden können, werden automatisch an FIREBALL weitergeleitet. Umgekehrt ergänzen bereits auch einige Suchroboter ihr
Angebot mit einem Katalog. Zum Beispiel verlinkt LYCOS alternativ auf die Ergebnisse von WEB.DE. Während im ersten Fall die beiden
Systeme nahtlos ineinander integriert werden, handelt es sich im zweiten Fall lediglich um einen additiven Zusammenschluß. Der User
eines Suchroboters muß den angeschlossenen Katalog gesondert bedienen. Hier liegt für die Suchmaschinen in Zukunft eine
interessante Herausforderung. Um die eigenen Ergebnisse durch Katalogergebnisse zu verbessern muß eine softwaregesteuerte
Verschmelzung beider Ergebnisstrukturen möglich gemacht werden, die zugleich eine flexible und in sich logische Rangfolge bei
den Suchergebnissen garantiert: erst die Stecknadel, dann die Nähnadel, Sicherheitsnadel, Stricknadel, Hutnadel und letztendlich auch noch das Nadelkissen im Heuhaufen.
Der Artikel ist in redigierter Form in der Zeitschrift Net-Investor 3/99 erschienen.
Zur Autorin:
Annette Stegger ist geschäftsführende Gesellschafterin der V3 Informationsdienste GmbH.
Nach dem Staatsexamen in Anglistik und Germanistik arbeitete sie als Journalistin, war mehrere
Jahre in der Regionalredaktion einer Tageszeitung tätig, bis sie sich selbständig machte. (as@allesklar.de)
Das deutsche Web-Vezeichnis ALLESKLAR wird betrieben von der V3 Informationsdienste GmbH und Co. KG.
Die Firma hat ihren Sitz im Techno-Park der Gesellschaft für Mathematik und Datenverarbeitung in
Sankt Augustin bei Bonn. Sie wurde 1996 gegründet.
Zur Zeit sind in dem Katalog rund 200.000 URLs in 10.000 verschiedenen Kategorien verzeichnet.
ALLESKLAR kann als einziges deutsches Verzeichnis beliebig zugeschnittene Regionalverzeichnisse aus seinem Gesamtbestand filtern.
Für alle 16 Bundesländer, alle Großstädte aber auch alle Dörfer und Kleinstädte werden unter http://www.allesklar.de/regional/
separate Internetverzeichnisse angeboten. Es sind jeweils die umfangreichsten für ihr Gebiet. Daraus entwickelte sich ein eigener Geschäftszweig.
Für verschiedene regionale Tageszeitungen betreibt ALLESKLAR individuelle Regionalverzeichnisse, die exakt auf das jeweilige Verbreitungsgebiet
der Zeitung zugeschnitten sind und in deren Layout erscheinen ALLESKLAR hat rund 25.000 Visitors und knapp 1 Million Pageviews (nach IVW).
|