Navigation überspringen.
Startseite

Hathihelper

Zusätzlich zur Möglichkeit, Hathitrust-Digitalisate als PDF-Datei zu laden (--> [29.08.2010] Hathitrust - PDF-Download), gibt es auch einen weiteren Weg, um Titel vollständig und automatisiert zu laden. Es handelt sich um ein Python-Skript: Hathihelper.

Siehe die Webseite: http://library.sciencemadness.org/library/hathi/. Das Skript wird in zwei Varianten angeboten: 1. hathihelper.py (für Python 2.5) und 2. hathihelper30.py (für Python 2.6 bis 3.0). Beim Aufruf über die Unix-Kommandozeile erhält man folgende Mitteilung:

myhost-2:~ user$ hathihelper.py -h
Warning: simplejson library not found. JSON metadata will not be parsed.
Usage: hathihelper.py [options]

Options:
  -h, --help            show this help message and exit
  -i IDENTIFIER, --identifier=IDENTIFIER
                        Volume identifier (example: miun.abr0732.0001.001).
                        This parameter is required.
  -r, --refresh         Download files again even if they are already saved to
                        disk.
  -m, --metadata-only   Only get metadata. Do not retrieve page images or OCR
                        text.

Mit dem Kommando: python hathihelper.py -i uc1.b3151617 sorgt das Skript für den Download des Digitalisats mit der Identifikationsnummer uc1.b3151617. Als Ergebnis erhält man eine Verzeichnisstruktur mit den Scans (in den Formaten JPEG 2000 und Tiff) sowie (wenn vorhanden) mit OCR-Daten. Hier das Titelblatt des heruntergeladenen Werks (in stark reduzierter Größe, das Original ist ein Graustufenbild in der Größe 3582 × 5430 mit 600 dpi):

Python ist bei manchen Unix-Derivaten (wie MacOS X) sowie bei diversen Linux-Distributionen bereits standardmäßig installiert. Unter Windows ist das nicht der Fall, man muß Python erst herunterladen (siehe die offizielle Webseite) und im System aufspielen. Das Skript nutzt übrigens extensiv das Programm Identify aus dem Image Magick-Paket; deshalb empfiehlt es sich, dieses ebenfalls zu installieren (siehe die offizielle Image Magick Webseite).

Die Einschränkungen, die Hathitrust den Nutzern außerhalb der USA auferlegt, gelten allerdings auch für das Hathihelper-Skript. Die Titel, die unter vorgeschobenen Urheberrechtsgründen blockiert sind, bleiben auch hier gesperrt. Hier hilft nur der Workaround, die http_proxy-Variable (in der Bash) mit einem US-amerikanischen Proxy zu besetzen.