000
08.10.2009, 08:27 Uhr
marko_oette
|
Ich möchte in diesem Beitrag kurz illustrieren, wie ich Bücher mit Adobe Acrobat 9 Pro digitalisiere, welche Vorteile das bringt und welche Voraussetzungen dafür erfüllt sein müssen.
Ausgangsmatereal
Als Ausgangsmatereal kann entweder ein gescanntes Buch (JPEG, PNG, ...) oder ein bereits existierendes PDF mit Bilddaten dienen.
Ich habe gestern Abend das von Günter in diesem Beitrag zur Verfügung gestellte Buch neu digitalisiert. Hier gibt es die neue, optimierte Version. Leider sind einige Seiten kaum lesbar, da wie von Thomas bereits angemerkt diese Seiten mit viel geringerer Auflösung gescannt wurden.
Ergebnis
Nach dem Überarbeiten erhält man ein neues PDF mit Textinhalten und vektorisierten Schriftzeichen. Für den Leser bedeutet das: freie Skalierbarkeit, Volltextsuche und Recherche, sowie die Möglichkeit des Kopierens von Textinhalten. Die Größenreduktion durch alle angewendeten Prozesse beträgt zwischen 80% und 90% (Im Beispiel 85%: von 104 MiB auf 15,9 MiB).
Vorgehen
Durchgeführt wurden folgende Schritte mit Acrobat 9 Pro: - Neubrechnen (Drucken als PDF) des original PDF auf 194x280mm (kleinste Seitengröße) bei 600dpi als PDF Standard 1.5 (mind Acrobat 6) Dieser Schritt ist bei 130 Seiten äußerst Zeitaufwändig (auf einem Pentium D 3,0 GHz und 4 GiB RAM: 45Minuten) und wäre nicht notwendig wenn alle Seiten mit einer Auflösung von mind. 150 und max. ~1200 dpi gescannt werden. Das neue PDF im Beispiel war zunächst 250 MiB groß, da kleine Seiten hoch und große Seiten herunter gerechnet wurden.
- "Gescannte PDF Datei Optimieren": Korrigieren der Winkel, Raster und Kanten; Entfernen der Papiermerkmale etc. - Dauer: ca. 30 Minuten
- Automatische OCR Texterkennung: Sprache Deutsch; 300 dpi; Buchstaben mittels ClearScan ausgeben (Vektorisieren) Der Vorgang dauert am längsten: Über eine Stunde. Man kann auch eine andere Ausgabeart wählen (zB. "Durchsuchbares Bild": Pixeldaten bleiben erhalten) jedoch kann diese Anzeigevariante nicht skaliert werden und sieht bei hohem Zoomfaktor dann entsprechend schlecht aus.
Voraussetzungen Das Ergebnis kann sich zwar bereits sehen lassen, kann aber noch optimiert werden, indem das Buch entsprechend anders eingescannt wird. Am einfachsten ist es für den OCR Mechanismus Texte in Bildern zu erkennen, wenn diese sehr kontrastreich sind. (Also entweder Graustufen mit hohem Kontrast oder S/W.) - Für die Texterkennung eignen sich Scans mit Auflösungen von 150 bis 600dpi am ehesten. Optimal sind 300dpi. Hier gilt auf jeden Fall nicht: Viel hilft viel - denn wenn das Bild zu groß ist, ist es auch komplizierter und Zeitaufwändiger dieses zu analysieren. - Bei zu großen Bildern verweigert des OCR Mechanismus sogar die Arbeit, dann muss neu berechnet werden. Bei zu geringer Auflösung (wie im Beispiel teilweise geschehen) kann der OCR Mechanismus keine Buchstaben erkennen. Auch verzichtet werden sollte auf Bilder die nicht in Leserichtung liegen. Diese müssen vorher gedreht werden.
Fazit Ich denke, die erreichten Ergebnisse können sich sehen lassen. Auf diese Weise wird ein Buch dauerhaft und nachhaltig konserviert. Ich weiß, dass nicht jeder hier über die Mittel (Acrobat 9 Pro, passende Hardware) verfügt um die og. Schritte durchzuführen. Ich biete aber gern an, das für euch zu übernehmen. Damit das Ergebnis ein tolles Ergebnis wird und wir Freude an der gelsiteten Arbeit haben, muss das Ausgangsmatereal aber bestimmte Anforderungen erfüllen. -- Bitte - wenn nötig - Kontakt via Email, ich bin selten im Forum. |