000
27.10.2014, 02:15 Uhr
Hobi
|
Ich habe angefangen das Buch Personalcomputer EC1834 einzuscannen. Der Hintergrund war, dass ich das Buch sehr viel als Referenz verwende und immer wieder darin suche. Vielleicht kann gibt es auch noch andere, die sich dafür interessieren:
EC1834preview
Auf der anderen Seite gibt es originelle Textstellen, die ohne Kontext kaum zu verstehen sind. Das allein ist es Wert das Buch der Nachwelt in digitaler Form zu erhalten.
Zitat: | ermöglicht eine Busverlängerung im Grundgefäß |
Was zum T. ist ein Grundgefäß? Ein Topf auf dem Boden eines See's? Gemeint war sicherlich sowas wie Basisgerät.
Wer hat schonmal versucht ein Buch einzuscannen und als Text suchbar zu machen? Ich habe am Wochenende mehrer Versuche unternommen: Es gibt die Möglichkeit die Grafik als suchbares PDF abzuspeichern, da aber recht viele Fehler beim Scannen auftreten, habe ich davon abgesehen und bin doch dazu übergegangen den Text zu nehmen und etwas zu bearbeiten.
Am Anfang war das Problem graue Schrift auf gelben Hintergrund mit deutlicher Holzstrukturierung (Rauschen + das Buch war schon recht alt) in OCR taugliche Schwarz-Weiss Grafik zu verwandeln. Das ging in mehreren Schritten: Kontrasterhöhung (bzw Kanten finden), Helligkeit erhöhen (das Rauschen des Papiers entfernen), Blur (Verwaschen) - Das Buch hat einen Nadeldruckerfont verwendet, so dass die Buchstaben aus einzelnen Punkten bestanden. Der Blureffekt hat die Punkte etwas besser zu normal aussehende Zeichen verwaschen. vorher:
nachher:
Was nimmt man als OCR Programm? http://www.newocr.com/ NewOCR ging relativ zügig. Die Qualität war, trotz des Nadeldruckerfont, gut. Es hat ein gutes Wörterbuch und verfügt über eine API, so dass ich die Hoffnung habe den Text später mal automatisch zu generieren.
Der Scannvorgang nimmt auch geraume Zeit in Anspruch ca. 1 Minute pro Seite.
Im Endeffekt liege ich bei etwa 12.5 Minuten pro Seite, d.h. ich brauche wahrscheinlich noch Monate. Ziel ist es die Zeit weiter zu drücken in dem ich die Bildeffekte und OCR ohne Mausklick, per Kommandozeile ausführe.
Als Kür kommt noch die Silbentrennung und Suchen in Bildern. Da die Suchfunktion getrennte Worte nicht erkennt, habe ich letztendlich versucht die Worte manuell wieder zusammenzufügen und auch (selten) manuell zu trennen. Openoffice benutzt Ctrl-Minus als Trennungshilfe. Als Workaround habe ich einige Suchbegriffe unter die Bilder gelegt, so dass sie nicht sichtbar sind. Mit der PDF-Suchfunktion kann man dann wieder indirekt die entsprechenden Bilder suchen.
Einen Teil der Zeit kann ich verringern, in dem die Bildeffekte automatisch per Kommandozeile angewendet werden.
Gibt es jemanden der ein grösseres Werk eingescannt und verarbeitet hat und mir ggf. weiterhelfen kann die Arbeit effektiver zu erledigen. -- ------------------------------------------- Corontäne ------------------------------------------- Dieser Beitrag wurde am 27.10.2014 um 02:56 Uhr von Hobi editiert. |