Mittwoch, 18. Januar 2012

Mit welcher Websitegrabbern kann ich Webseiten spiegeln?

Diese Frage taucht oft in Foren auf: wie kann ich Webpräsenzen komplett sichern, so, dass die Seiten auf der Festplatte untereinander verlinkt werden und offline duchgesehen werden. Für die Fortgeschrittenen lautet die Frage: welchen Websitegrabber soll ich nehmen?

 Das verwendete Programm muss dabei nicht nur die Daten herunterladen, sondern auch die Links umschreiben, so dass z.B. die Menüpunkte nicht zu Internet-URI verweisen, sondern zu den entsprechenden heruntergeladenen Seiten auf der Festplatte.





Ich hatte mich schon früher mit der Frage beschäftigt, aber im Laufe der Jahre haben sich die Umstände geändert. Und da ich vor der Umstrukturierung eines meiner Blogs eine Sicherung durchführen wollte, musste ich über  die aktuelle Lage recherchieren. Neu ist auch, dass ich jetzt vorzugsweise mit einem Mac arbeite und nur ungern auf Windows-Programme zurückgreife, auch wenn ich letztere mit Hilfe von Parallel Desktop auch verwenden könnte.

Das ist schnell erledigt, dachte ich, aber ich täuschte mich. Eine erste Recherche vor Wochen war ernüchternd und erst eine zweite Recherche gestern brachten Ergebnisse.

Hier eine Zusammefassung:

Das auch heute noch oft zitierte Firefox-addon "Spiderzilla" wird seit Jahren nicht mehr weiter entwickelt und ist in neueren Firefox-Versionen nicht einsetzbar. Das war auch für mich ein geniales Tool, das ich gern benutzt habe. Das Addon funktionierte übrigens nur auf Windows-Rechnern, also in Verbindung mit Windows-Versionen von Firefox.

Aktuelle Alternativen sind:

  • Scrapbook - Firefox Addon, läuft auf allen Plattformen (Windows. Linux, Mac)
  • HTTRACK - Standalone-Programm, hauptsächlich für Windows und Linux. theoretisch auch Mac
  • WGet, Easy WGet, GNU WGet für Windows/linux
    und CocoaWGet für Apple-Mac
  • Sitesucker - die Alternative zu Httrack für Mac-User (von mir jetzt genutzt)
  • Xaldon WebSpider - für Windows, derzeit noch kaum bekannt und besprochen

Für mich tauchte die Frage nach einer Software deswegen auf, weil ich ein Blog auf blogspot sichern wollte, bevor ich es umstrukturiere (regensburg-365.blogspot.com). Das ginge natürlich auch mit einer Export-Funktion auf blogspot, ähnlich wie bei Wordpress-Installationen. Hier wird eine so genannte XML-Datei erstellt. Dort sind aber nur die Textdaten und Verknüpfungen, nicht die Bilder gespeichert. Dazu benötigt man eben einen Webseitengrabber und ein bisschen Einarbeitung in die Frage, wieviel Levels man herunterladen muss, um die Bilder mit zu erhalten.

HTTRACK und WGET sind im Grunde Kommandozeilen-Tools mit einer so irrsinig großen Menge an Einstellungsmöglichkeiten, dass sie als kompliziert gelten. In Foren wird oft nach deutschen Anleitungen gesucht. Die Tools wurden jeweils um grafische Oberflächen erweitert, die aber nicht so viele Feineinstellungen zulassen.

Am Interessantesten scheint dabei HTTRACK zu sein. Dies gibt es mit grafischer Oberfläche direkt von der Herstellerseite aus. Für Mac-User wird es kompliziert: diese müssen das HTTRACK-Programm kompilieren; die Anleitung dazu auf HTTRACK sieht nicht einfach aus und ich persönlich habe keine Zeit für solche Spielereien.

Oft wird nach eine HTTRACK-Alternative für Mac OS gefragt, und die richtige Antwort lautet: SiteSucker. Das Programm habe ich angetestet und ist scheint (neben Scrapbook) die einzig ausreichende Alternative zu sein.

Das Cocoa WGet ist eine schon komplett kompiliertes Mac-Programm, das auf WGet basiert. Es lässt aber nur ein paar wenige Einstellungsmöglichkeiten zu und zeigte sich für mich - beim ersten Test - als eher unbrauchbar. Die für Windows geschriebenen grafischen Derivate von WGet dagegen haben mehr Einstellungsmöglichkeiten. Getestet habe ich sie nicht.

Das Firefox-Addon "Scrapbook" schließlich war mir als eine Art Spezial-Lesezeichen-Programm schon früher bekannt. Dass man es als Webseitengrabber einsetzen kann und damit Offline-Versionen einer Webseite erstellen kann, wusste ich nicht und ist auch nicht gerade einfach erkennbar. Ich habe es aber ebenfalls angetestet. Man speichert die kompletten Seiten und macht dann einen "Export als HTML". Dann erhält man einen Satz von Dateien auf der Festplatte, die untereinander verlinkt sind, eine Offline-Version also. Die Bilder kann man ebenfalls herunterladen. Auch hier sind wie bei wget und httrack mehrere Levels einstellbar.

Zu den einzelnen Programmen gibt es noch einiges zu sagen, weshalb ein zweiter Teil folgt. Ich habe Screenshots erstellt, die ich dann zeigen werde. Ein kompletter Test der Alternativen ist mir aus Zeitgründen nicht möglich und derzeit ist kein Helfer verfügbar, der Zeit dafür hätte.

Die bei den Recherchen gefundenen deutschen Anleitungen habe ich in die Datenbank des User-Archivs eingetragen; nachfolgend ein paar Auszüge (ohne Anspruch auf Vollständigkeit).




www.sitesucker.us/mac/mac.html
Rubrik: Internet; Typ: Sonstige_Literatur

http://www.httrack.com/page/2/
Rubrik: Internet; Typ: Sonstige_Literatur

http://www.httrack.com/html/index.html
Rubrik: Internet; Typ: Sonstige_Literatur

http://www.lehrer-online.de/httrack.php
Rubrik: Internet; Typ: Sonstige_Literatur

lehrerfortbildung-bw.de/werkstatt/internet/httrack/
Rubrik: Internet; Typ: Sonstige_Literatur

ebookbrowse.com/anleitung-httrack-ppt-d112600739
Rubrik: Internet; Typ: Sonstige_Literatur

http://www.chip.de/bildergalerie/WinHTTrack-Webseiten-komplett-downloaden-Galerie_37665900.html
Rubrik: Internet; Typ: Sonstige_Literatur

http://blog.laukien.com/software/tools/webseite-mit-httrack-spiegeln.html
Rubrik: Internet; Typ: Sonstige_Literatur

www.websitetooltester.com/news/jimdo-1und1-diy-homepage-backup-erstellen/
Rubrik: Internet; Typ: Sonstige_Literatur

www.sitesucker.us/mac/mac.html
Rubrik: Internet; Typ: Sonstige_Literatur

http://www.itler.net/2010/10/webseiten-downloaden-speichern-komplett-mit-unterverzeichnissen-anleitung/
Rubrik: Internet; Typ: Sonstige_Literatur

http://www.xaldon.de/support.php?app=1&action=2
Rubrik: Internet; Typ: Sonstige_Literatur



http://www.cul.de/data/freex52005pr.pdf
Rubrik: Sonstige Themen; Typ: Sonstige_Literatur

http://www.gnu.org/software/wget/manual/
Rubrik: Internet; Typ: Sonstige_Literatur

http://www.pro-linux.de/artikel/2/624/2,webseiten-herunterladen-mit-gnu-wget.html
Rubrik: Internet; Typ: Sonstige_Literatur

http://de.wikipedia.org/wiki/Wget
Rubrik: Internet; Typ: Sonstige_Literatur

Nachtrag:
Derzeit aktuelle Versionen von HTTRACK gemäß Downloadseite
http://www.httrack.com/page/2/en/index.html



Version Click file to download Current version
Windows 2000/XP/Vista/Seven installer version
WinHTTrack (also included: command line version)
httrack-3.44.1.exe   [alternate site] 3.44-1
3.64 MiB (3820712 B)
(28/Feb/2011)
Windows Vista/Seven 64-bit installer version
WinHTTrack (also included: command line version)
httrack_x64-3.44.1.exe   [alternate site] 3.44-1
4.14 MiB (4340569 B)
(28/Feb/2011)
Windows 2000/XP/Vista/Seven without installer (eg: USB key)
WinHTTrack (also included: command line version)
32-bit: httrack-noinst-3.44.1.zip   [alternate site]

64-bit: httrack_x64-noinst-3.44.1.zip   [alternate site]
3.44-1
4 MiB (4192830 B)
(28/Feb/2011)
Linux/OSX/BSD/Unix sources version
WebHTTrack (also included: httrack, command line version)
httrack-3.44.1.tar.gz   [alternate site] 3.44-1
1.59 MiB (1664216 B)
(28/Feb/2011)
Packaged versions (external links)
Debian package (see also) Distribution Package - apt-get install webhttrack 3.44-1
Ubuntu package Distribution Package - apt-get install webhttrack -
Gentoo package Distribution Package - emerge httrack -
RPM package (Mandriva & RedHat) Search at rpmfind.net.. -
OSX (MacPorts) package MacPorts Package - sudo port install httrack -
Fedora package Distribution Package - yum install httrack -
FreeBSD i386 package Search at www.freebsd.org.. -
a

  © Blogger template 'Fly Away' by Ourblogtemplates.com 2008

Back to TOP