Suchfibel / Suchmaschinen TechnikSuchmaschinen Roboter

Suchmaschinen Roboter

Woher wissen diese tollen Maschinen das, was sie wissen? Ihnen geht es genauso wie uns Menschen: Sie müssen dafür ackern. Sie schicken vollautomatische Informationssammler los. Diese Dinger heißen auch Bots, Crawler oder Spider.

Die Sammelprogramme der Suchmaschinen tragen klingende Namen wie Scooter (AltaVista), ArchitextSpider (Excite), Slurp the Web Hound (HotBot), oder Spidey (WebCrawler). Der bekannteste ist zweifellos der Googlebot. Diese Programme folgen Stück für Stück den Links in den HTML-Dokumenten, ähnlich wie ein menschlicher Surfer, der alle Links einer Seite anklickt, beginnend mit den bereits vorhandenen Daten und den URLs, die von den Seitenbetreibern angemeldet wurden. Programmierer nennen dieses Tun Harvesting (Ernten, Sammeln).

Imagemaps sind Grafiken, die innerhalb eines Bildes zu verschiedenen anderen Seiten verweisen. Das kann eine Reihe Schalter sein, die zu einem Bild zusammengefasst sind oder eine Landkarte, die bei einem Klick auf ein Land zu der jeweils zugehörigen Seite verweist.

Manche Maschinen steigen drei und mehr weitere Linkebenen weiter hinunter in eine Site und schicken den Inhalt der gefundenen Dokumente zurück; andere begnügen sich mit den Links der ersten Seite und ignorieren alle internen weiterführenden Links der zweiten Ebene, sofern es keine externen Links sind. Google schafft es, den größten Teil jeder Webseite einzusammeln; dabei werden Domains, die eine hohe Popularität (bei Google Page Rank) haben, gründlicher erfaßt.

Da die Bots bei der Wortsuche fast ausschließlich <a href="...">- Links folgen, werden manchmal keine Frames-Seiten indiziert. Auch Seiten, die nur über Imagemaps zu erreichen sind, bleiben einigen Suchmaschinen und damit auch den Suchenden verborgen, wenn nicht ein gewöhnlicher Textlink zusätzlich hinführt. Manche Bots haben zwar inzwischen die Fähigkeit Framesverweisen oder Imagemaps zu folgen. Das sind aber beileibe nicht alle.

Die Zyklen, in denen diese Web Bots ihre Runde ziehen, variieren zwischen wenigen Minuten in Falle der News- und Blog-Bots, und einigen Tagen und mehreren Wochen. Einige Suchmaschinen sind in der Lage, die Besuchsfrequenz der Robots gezielt danach zu steuern, wie häufig die zu indexierende Seite upgedated wird. Googles Roboter beispielsweise kommt sogar täglich vorbei, wenn die Seiten entsprechend häufig aktualisiert werden und die Seite einen hohen Page Rank hat.

Mit der Datei robots.txt, die auf jedem Server im Rootverzeichnis liegen sollte, kann den Search Bots die Indizierung bestimmter Dateien oder Verzeichnisse "untersagt" werden. Fast alle halten sich daran.

Meist ist es nicht nur ein einsamer Crawler, der sich durch das Netz hangelt, sondern eine ganze Gruppe, die zentral gesteuert wird. Dabei müssen sich die einzelnen Teile aufeinander abstimmen; schließlich soll dieselbe Site nicht mehrmals hintereinander gescannt werden. Die Software zur Fernsteuerung vieler Crawler ist ein faszinierendes Stück Programmierkunst.

Nach manchen Untersuchungen soll der Traffic, der von Robots im Netz verursacht wird, bis zu 7% des gesamten Netzverkehrs betragen. Kein Wunder bei der Menge an Robotern, die sich im Netz tummeln. Man kann sogar beobachten, wie fleißig der Google Roboter ist. Für Webmaster gibt es die Google Webmaster Tools.

Es gibt eine ganze Seite zum Thema Meta Tags.

So ein Roboter hat es nicht einfach, er muss ja nicht nur die Verkehrsregeln des robots.txt beachten, sondern auch noch die Anweisungen in den Meta-Tags. Auch dort können den Robotern Hinweise gegeben werden, ob er das Dokument zum Indexieren weiterleiten soll oder nicht und ob er den Links folgen oder es lieber bleiben lassen soll.

Bleiben noch die Metasuchmaschinen. Sie sind eigentlich "Abgreifer" (natürlich mit freundlicher Genehmigung der Suchmaschinenbetreiber) und sammeln gar nicht selber. Die übergeben den Suchstring an verschiedene Suchmaschinen, lassen diese in derem jeweiligen Datenbestand suchen, greifen dann das Resultat ab und verarbeiten es zusammen mit den Ergebnissen der anderen parallel abgefragten Maschinen zu einer eigenen Trefferliste.Natürlich bleibt dann noch mehr zu tun: Alle Ergebnisse werden fein säuberlich sortiert und prima übersichtlich präsentiert.

 


HTML: Hyper Text Markup Language.In diesem Dokumenten- format sind die Seiten im World Wide Web verfasst.
URL bedeutet: Universal Resource Locator: Eindeutige Netzadresse