suchmaschinen


Suchfibel / Suchmaschinen Software / Agenten / Die Sammler: Offlinereader

Die Sammler: Offlinereader

"Sag mir, was Du haben willst, und ich bringe es Dir." Klingt erstmal ziemlich nach dem freundlichen Geist aus der Flasche, hat aber leider einen gewaltigen Haken. Ein Sammler will sehr, sehr genau wissen, was er heranschaffen soll. Ganz konkret: Die genaue URL. Das setzt voraus, dass Sie ebendiese bereits kennen und auch, dass Sie wissen, was in etwa auf dieser Website zu finden ist.

Solche Programme nennt man Offline Reader. Der Grund: Sie können mit einer unglaublichen Geschwindigkeit ganze Web Projekte downloaden. Anschließend kann die Verbindung ins Internet wieder unterbrochen werden. Ein guter Offline Reader bereitet die gesammelten Daten so auf, dass sie bequem und in Ruhe ohne tickenden Telefonzähler offline gelesen werden können.

Bis hierhin definierten sich die besonderen Eigenschaften nur aus den Fähigkeiten der Programmierer. Jetzt sind Sie dran: Einem solchen Offline Reader müssen Sie ganz genau klar machen, wie weit seine Sammelwut gehen darf. Sie müssen also neben der Adresse auch die Suchtiefe und eine Reihe anderer Parameter bestimmen. Offline Reader hangeln sich genau wie die großen Suchmaschinen anhand der Links innerhalb eines Projektes weiter.

Folgende Kriterien müssen Sie berücksichtigen:

  • Auf welcher Dateiebene beginnt der Download? Ist die gesamte Site aufzusammeln oder nur ein Unterordner? Wie lautet die ganz genaue URL?
  • Sollen die Links nur innerhalb des Ordners, innerhalb der Site oder innerhalb des gesamten Internet verfolgt werden?
  • Wie viele Linkebenen sollen verfolgt werden?
  • Welche Art von Daten sollen downgeloaded werden? Nur Seiten und Bilder oder auch alle zum Download angebotenen Dateien, Videos und Töne?
  • Was ist die Höchstgrenze an herunter zu ladenden Kilo- oder Megabytes?

Diese Fragen sind elementar und wenn Sie hier schlampig nachdenken, bekommen Sie die Quittung in Form eines riesigen Datenberges und einer gesalzenen Telefonrechnung. Es macht Sinn sich erst mal mit dem Brauser einen Eindruck der Seiten zu verschaffen, dann wissen Sie, worauf Sie sich einlassen. Schränken Sie den Download lieber erst auf einen kleineren Teil der Website ein; ein guter Offline Reader kann eine spätere Ergänzung in das bereits gespeicherte Projekt einbauen.

Es ist auch schlau solche Aktionen auf Zeiten mit günstigen Telefontarifen und geringer Netzbelastung zu verschieben. Zu diesem Zweck haben mache Programme eingebaute Timer oder lassen sich über die betriebssystemeigenen Zeitautomaten steuern. So kann man die Apparate auch nachts um drei für sich schuften lassen. Bei unbeaufsichtigter Tätigkeit ist allerdings eine sorgfältige Planung um so wichtiger.

Folgende Strategien haben sich bewährt:

  • Ein abgeschlossenes Projekt liegt zumeist in einem eigenen Ordner. Beispielsweise http://www.domain.com/projekte/gartenbau/. Ergo sollen keine externen Links verfolgt werden, sondern nur alle im Ordner /gartenbau. Die Zahl der Links kann weit gefasst werden, da durch Frameskonstruktionen schnell eine große Linktiefe innerhalb eines Projektes erreicht wird. Spezielle Dateiformate wie Videos oder Töne sollten wegen der großen Datenmengen erst mal ausgeschlossen werden.
  • Eine Seite mit Linksammlungen soll verfolgt werden. Also muss dem Agenten die Verfolgung interner Links untersagt, die Verfolgung externer Links aber erlaubt werden. Tragen Sie hier auf jeden Fall nur eine einzige Linktiefe ein. So bekommen Sie die Titelseite jedes Projektes und können dann gesondert entscheiden, ob Sie die eine oder andere Site genauer erforschen wollen. Schon die Aktivierung von zwei Linktiefen kann zu einem Mega-Download ausarten, denn Sie wissen schließlich noch nicht, welche Datenmengen in welcher Verlinkungsstruktur sich hinter den externen Einstiegsseiten verbergen.
  • Eine komplette Website mit allen Dateien bekommt man, indem man keine Restriktionen setzt außer der, keine externen Links zu verfolgen.

Gute Offline Reader verfügen über viele Möglichkeiten, den Download zu spezifizieren; es lohnt sich, in der jeweiligen Programmbeschreibung etwas genauer nachzulesen.

Software für Windows und Mac:

  • Mit web2map kann man komplette Websites und Homepages kopieren und in einer Recherche-Übersicht verwalten. Das Programm erstellt selbststständig eine Übersichtsseite mit Links zu den Seiten der übertragenen Website. Weitere Features: Volltextsuche, Linkchecker, integrierter Browser (IE), automatische Generierung von HTML-Übersichten; sogar Sitemaps lassen sich editieren. Web2map gibt es als kostenlose 30-Tage-Testversion, danach zahlt man 45 Euro.
  • HTTrack lädt eine ganze Webseite auf einen Rutsch und erstellt eine komplette Kopie. Nützlich ist die Funktion die Struktur einer Site auf dem lokalen Rechner abzubilden. Es gibt jede Menge weitere Möglichkeiten. Shareware.
  • Wget ist etwas für Freunde der Kommandozeile und damit fortgeschrittene Nutzer. Jede Menge Konfigurationsmöglichkeiten, aber auch erheblicher Lernaufwand.
  • Der Web Devil ist ein Offline Reader für Macs. Das Programm unterstützt neben HTML-Quelltext, Grafiken und JavaScript auch Shockwave- und Flash-Dateien. Mit der Version 5.1 ist Web Devil auch unter Apples neuem Betriebssystem MacOS X lauffähig. Nach der kostenlosen Testversion zahlt man 24,95 $ für die Vollversion.

Seitenanfang



Kontext:

 web2map


 HTTrack


 Wget


 Web Devil






Impressum | Hilfe | Buchbestellung



Created by 23.10.2009 ID: 152 SORT: 210 PAPA: 151
Suchfibel Home