Die Suchfibel / Bessere Dokumente

Wünschenswert ist eine Verbesserung der Qualität von HTML Dokumenten hinsichtlich ihrer Durchsuchbarkeit, zumindest im akademischen Bereich. Für jede Haus- und Doktorarbeit gibt es formale Vorgaben, an die sich alle halten müssen. Es spricht eigentlich alles dafür, solche Vorgaben auch für Dokumente vorzuschreiben, die übers Netz zugänglich gemacht werden. Dazu zählt beispielsweise das Einfügen von relevanten Stichworten auf der jeweiligen Seite ebenso wie die Verschlagwortung von ganzen Projekten innerhalb der dafür vorgesehenen Metafelder.

Tragischerweise ist das Interesse an solchen Dokumentenauszeichnungen innerhalb von Universitäten sehr gering ausgeprägt. In den letzten Jahren hat sich diesbezüglich sehr wenig getan.

Das Wissen um die Vorgehensweise der Spider ist hingegen vor allem im kommerziellen Bereich immer wichtiger geworden; nur wer gefunden wird, kann auch Geschäfte machen. Viele Sitebetreiber legen inzwischen großen Wert auf gut auffindbare Dokumente und beauftragen sogar darauf spezialisierte Firmen, die "Visibility" in Suchmaschinen zu verbessern.

Cascading Style Sheets

Dazu kommt die verbesserte Strukturierung von HTML-Dokumenten aufgrund logischer Merkmale, durch konsequente Trennung von Inhalt und Form. Schon jetzt nimmt diese Trennung langsam Gestalt an: Cascading Stylesheets (CSS) ersetzen zunehmend die umständlichen Angaben in einem HTML-Dokument über Schriftgröße, Fonts, Position und Farbe. Bis dato existiert eine Reihe Dokumente, die sich durch Ihre physische Auszeichnung dagegen widersetzen, von Suchmaschinen indexiert zu werden: Sei es, dass der Autor bestimmte Befehle verwendet hat, mit denen die Suchmaschinen nicht zurechtkommen oder auch, dass er zugunsten eines optisch knalligen Auftrittes wichtige Teile wie die Überschrift als Bild gestaltet hat und somit für einen Robot eigentlich gar keine Überschrift existiert. Oder um des coolen Aussehens willen komplett auf Text verzichtet und alles in bunte Bildchen packt.

Dublin Core

Wer hier erstmal an kühles Irisches Bier denkt, der ist leider schief gewickelt. Dublin ist eine Stadt in Amerika, Ohio, Sitz einer Softwarefirma und der Ort des Ursprungs des Gedankens, die Metainformationen von Dokumenten zu standardisieren.

Schon jetzt ist im HTML-Standard der erste Ansatz einer Information über die Information selber realisiert. Das Dokument selber enthält Informationen darüber, wer es wann erstellt hat, welche Stichworte relevant sind und wie man den Inhalt in wenigen Zeilen zusammenfassen kann. Was diese Dokumente nicht enthalten, sind Informationen über mögliche Links zu anderen, inhaltlich verwandten Dokumenten, zu Quelldokumenten, zu solchen, die Bezug auf eben dieses Dokument nehmen oder das oder die bibliothekarischen Schlagworte, unter denen das Dokument archiviert wird; es sei denn, der Autor kennt diese und ist auch willens diese Links einzubauen. Das wird allerdings schwierig, wenn es sich um solche Dokumente handelt, die sich auf eben dieses Ursprungsdokument beziehen und somit zum Zeitpunkt dessen Erstellung noch gar nicht existieren.

All diese Dokumente, die nicht nur von akademischem Interesse sind, sondern auch einen Ansatz bieten, tatsächlich sämtliches Wissen der Menschheit "at your fingertips" verfügbar zu machen, schaffen die Möglichkeit, eine Information tatsächlich im weltweiten Kontext einzubinden, in ein Netz einzuweben. Dass dieses Einweben der eigentliche Autor nur schwerlich vornehmen kann liegt nicht nur in der Tatsache begründet, dass die Entwicklung der Zeitmaschine immer noch nicht abgeschlossen ist und der Autor daher gar nicht die zukünftig auf sein Werk verweisenden Links einbinden kann. Es gibt eine Reihe weiterer Gründe:

Jeder Autor ist glücklich sein Werk vollendet zu haben und in den allerseltensten Fällen willens, auch noch Metadaten einzubauen. In vielen Fällen ist er auch gar nicht dazu in der Lage, etwa deshalb, weil er den bibliothekarischen Schlagwortkatalog nicht kennt. Also müssen andere Profis her, deren Job die Verwaltung von Dokumenten und Daten sowieso ist. Bibliothekare sind geschult im Kategorisieren und Sortieren. Verlage und Lektoren sind eine weitere Gruppe, die schon jetzt die Aufgabe wahrnehmen, das Relevante vom Unwichtigen zu unterscheiden. Bislang geschah das einfach durch das Ablehnen von Manuskripten oder im Veröffentlichungfall durch das Erstellen eines Klappentextes und die Verschlagwortung für die Buchkataloge. Es spricht nichts dagegen, diesen Job jetzt auf elektronische Werke auszudehnen, zumal eine Reihe von Publikationen in zunehmendem Maße zusätzlich zur Papierversion auch in digitaler Form erscheinen; und sei es nur als Exzerpt auf den Webseiten des Verlages oder Kurzinformation auf den Katakalogseiten eines Buchversenders.

Wer sich zum Thema Metainformation schon einmal schlau (noch schlauer!) machen möchte, dem seien die Seiten des Dublin Core (englisch) und an der Universität Göttingen (deutsch) empfohlen.

PICS

Die Platform for Internet Content Selection ist ein bereits eingeführter Standard. Mit dem PICS-Schema werden Internetseiten auf ihre jugendgefährdende Potenz hin eingestuft. Dazu gehören verschiedene Stufen von Pornografie, begonnen bei der altmeisterlichen Darstellung entblößter Göttinnen im Altertum bis hin zur detailreichen Darstellung, na sagen wir mal, ungewöhnlicher Sexualpraktiken. Dazu gehört die Verwendung "offensiver" Sprache auf bestimmten Seiten ebenso wie politisch extreme Inhalte, Darstellung von Gewalt und andere. Das PICS-Schema ist seitens der Seitenanbieter eine freiwillige Meta-Auszeichnung des Angebotes. Details hierzu finden Sie auf den Seiten des WWW-Consortiums.