suchmaschinen


Suchfibel / Suchmaschinen für Webmaster / Draussen bleiben! robots.txt

Draussen bleiben! robots.txt

Es kann sinnvoll sein bestimmte Bereiche von Websites vom Indexieren durch Suchrobots auszuschließen; etwa dann, wenn dort Programmdateien liegen oder Dokumente, an denen noch gearbeitet wird. Vielleicht sollen Formularergebnisse, Logfiles oder schnell wechselnde Informationsseiten vor dem Zugriff durch Webcrawler geschützt werden, weil die Inhalte nur kurze Zeit im Netz stehen und der Eintrag im Suchindex in jedem Fall inaktuell wäre.

Zu diesem Zweck haben sich die Roboterprogrammierer auf einen Standard geeinigt, den robots.txt. Diese ASCII-Datei muss im Root Verzeichnis eines Servers liegen und regelt, welche "Agenten" welchen Bereich absuchen dürfen und welchen nicht. Fast alle Suchmaschinenrobots suchen zuerst nach der Datei robots.txt. Auch wenn Sie eigentlich Ihre gesame Site durchsuchbar halten wollen, sollten Sie eine solche Datei anlegen, denn es macht meist keinen Sinn, Logfiles und das CGI Verzeichnis zu durchsuchen. Diese Ordner sind schonmal Standardeinträge. Auch Framesrahmen, Scriptdateien und Ordner mit Icons brauchen wirklich nicht durchgekramt zu werden.

In diesem Projekt wurde beispielsweise der Ordner /fussnote vom Indexieren ausgenommen, da dort nur kleine Fußnotenseiten mit vergleichsweise wenig Information untergebracht sind. Zudem führt oft kein Link zu einer anderen Seite dieses Projektes und sämtliche Informationen sind im Glossar noch einmal zusammengefasst.

Die robots.txt Datei besteht aus zwei Teilen. Im ersten wird der Roboter genannt, im zweiten das oder die Verzeichnisse, die nicht besucht werden dürfen. Sieht zum Beispiel so aus:

User-agent: webcrawler
Disallow:/suchfibelpro/fussnote/

Dem Webcrawler wird also der Zugriff auf den Ordner /suchfibelpro/fussnote verwehrt. Alle Robots kann man ansprechen, indem man den üblichen Platzhalter verwendet:

User-agent: *
Disallow:/suchfibelpro/fussnote/
Disallow: /cgi-bin/
Disallow: /logs/
Disallow:/testpages/

Auch einzelne Dateien lassen sich ausschließen:

User-agent: *
Disallow: /privat/privatissimo.html
Disallow: /testpages/version5.html

Wenn man einen bestimmten Robot komplett von der Site fernhalten möchte, kann man das tun, indem der Name und dann kein Verzeichnis genannt wird. Wichtig ist der Slash /.

User-agent: EmailCollector
Disallow: /

Lässt man den Slash weg, so kann man die gesamte Site freigeben, in diesem Beispiel für den Robot Spider.

User-agent: Spider
Disallow:

Die Einträge lassen sich auch kombinieren. Bei umfassenden robots.txt-Dateien kann man auch Kommentare einfügen. Sie werden mit dem Doppelkreuz # eingeleitet. So finden Mitarbeiter oder Sie sich selber nach längerer Pause wieder zurecht.

# alle robots

User-agent: *
Disallow:/suchfibelpro/fussnote/
Disallow: /cgi-bin/
Disallow: /logs/
Disallow: /testpages/

# email Sammler draussenbleiben

User-agent:EmailCollector
Disallow: /

# Robots die durchdrehen fliegen raus

User-agent: GagaRobot
Disallow: /

Dieses komplette "Draußenbleiben" kann erwünscht sein, wenn man einem E-Mail Sammler den Zutritt verwehren möchte. Solche Sammler werden häufig dazu missbraucht, die Adressdatenbestände von Spammern aufzufüllen, die dann den Leuten unerwünschten Werbemüll via E-Mail zuschicken. Diese aggressiven Robots beachten aber die robots.txt Datei leider oft nicht. Kein Wunder, denn wer sich nicht scheut die Leute mit dummdreisten Werbesprüchen zu belästigen, dem ist auch die Netiquette der Robots schnurz.

Hin und wieder kommt es vor, dass Robots "durchdrehen" und eine Site häufig und mit hoher Bandbreite scannen. Wenn Sie dies merken, zum Beispiel anhand der Logfiles, dann sperren Sie ihn mittels robots.txt einfach aus. Und dann hoffen sie, dass der Robot diese Anweisung dann auch befolgt ...

Manche Robots kommen - aus unbekannten Gründen - mit robots.txt Dateien nicht klar, die größer als 1 kB sind. Scheint ein Software Bug zu sein. Achten Sie deshalb darauf, die Unterverzeichnisse nicht allzu detailliert aufzuführen. Beschränken Sie sich im Zweifelsfalle darauf, ganze Verzeichnisbäume zu sperren oder lassen sie ausführliche Kommentare weg. Andernfalls kann es passieren, dass die gesamte Site ausgeschlossen wird.

Die englische Originalseite zu robots.txt und ausführliche Informationen und Hintergrundmaterial zum Themenkomplex Robots gibt es bei WebCrawler auf der Dokumentationsseite für Robots.

Seitenanfang



Kontext:

 englische Originalseite: Robots Exclusion Protocol


 Dokumen- tationsseite für Robots


 Logfiles sind automatisch erstellte Dateien, die jede Aktion des WWW-Servers protokollieren. Festgehalten wird zum Beispiel Art und Zeitpunkt abgeforderter Dateien, Die IP-Nummer der Besucher, die vor dem Seitenaufruf zuletzt besuchte Seite, und vieles mehr.


  AlsRoot (Wurzel) -verzeichnis bezeichnet man die erste und unterste Ebene eines Servers (oder auch einer Festplatte). Diese Ebene enthält sämtliche Daten und Verzeichnisse und steht selber in keinem Ordner.


 Spamming bedeutet im Internet das Überfluten von Informations- einheiten mit unerwünschter oder unpassender Information. Das ist für Suchmaschinen ein echtes Problem.


 Netiquette setzt sich aus den Worten Net und Etiquette zusammen und meint die höflichen Umgangs- formen im Netz. Im Netz kann man an  verschie- denen Stellen nachlesen, wie man es vermeidet, durch unbedachtes Tun den Leuten auf die Nerven zu gehen.


  Als Bandbreite bezeichnet man die Übertragungs- kapazität einer Internet- verbindung. Je mehr Daten pro Sekunde transportiert werden können, desto höher die Bandbreite.






Impressum | Hilfe | Buchbestellung



Created by 23.10.2009 ID: 140 SORT: 600 PAPA: 1
Suchfibel Home