Robotrontechnik-Forum

Registrieren || Einloggen || Hilfe/FAQ || Suche || Mitglieder || Home || Statistik || Kalender || Admins

Willkommen Gast!

Robotrontechnik-Forum » Sonstiges » Dokumente und Bücher digitalisieren » Themenansicht

Autor

Thread - Seiten: -1-

000
27.10.2014, 02:15 Uhr
Hobi

Ich habe angefangen das Buch Personalcomputer EC1834 einzuscannen. Der Hintergrund war, dass ich das Buch sehr viel als Referenz verwende und immer wieder darin suche. Vielleicht kann gibt es auch noch andere, die sich dafür interessieren:

EC1834preview

Auf der anderen Seite gibt es originelle Textstellen, die ohne Kontext kaum zu verstehen sind. Das allein ist es Wert das Buch der Nachwelt in digitaler Form zu erhalten.

Zitat:

ermöglicht eine Busverlängerung im Grundgefäß

Was zum T. ist ein Grundgefäß? Ein Topf auf dem Boden eines See's? Gemeint war sicherlich sowas wie Basisgerät.

Wer hat schonmal versucht ein Buch einzuscannen und als Text suchbar zu machen? Ich habe am Wochenende mehrer Versuche unternommen:
Es gibt die Möglichkeit die Grafik als suchbares PDF abzuspeichern, da aber recht viele Fehler beim Scannen auftreten, habe ich davon abgesehen und bin doch dazu übergegangen den Text zu nehmen und etwas zu bearbeiten.

Am Anfang war das Problem graue Schrift auf gelben Hintergrund mit deutlicher Holzstrukturierung (Rauschen + das Buch war schon recht alt) in OCR taugliche Schwarz-Weiss Grafik zu verwandeln. Das ging in mehreren Schritten: Kontrasterhöhung (bzw Kanten finden), Helligkeit erhöhen (das Rauschen des Papiers entfernen), Blur (Verwaschen) - Das Buch hat einen Nadeldruckerfont verwendet, so dass die Buchstaben aus einzelnen Punkten bestanden. Der Blureffekt hat die Punkte etwas besser zu normal aussehende Zeichen verwaschen.
vorher:

nachher:

Was nimmt man als OCR Programm? http://www.newocr.com/ NewOCR ging relativ zügig. Die Qualität war, trotz des Nadeldruckerfont, gut. Es hat ein gutes Wörterbuch und verfügt über eine API, so dass ich die Hoffnung habe den Text später mal automatisch zu generieren.

Der Scannvorgang nimmt auch geraume Zeit in Anspruch ca. 1 Minute pro Seite.

Im Endeffekt liege ich bei etwa 12.5 Minuten pro Seite, d.h. ich brauche wahrscheinlich noch Monate. Ziel ist es die Zeit weiter zu drücken in dem ich die Bildeffekte und OCR ohne Mausklick, per Kommandozeile ausführe.

Als Kür kommt noch die Silbentrennung und Suchen in Bildern. Da die Suchfunktion getrennte Worte nicht erkennt, habe ich letztendlich versucht die Worte manuell wieder zusammenzufügen und auch (selten) manuell zu trennen. Openoffice benutzt Ctrl-Minus als Trennungshilfe.
Als Workaround habe ich einige Suchbegriffe unter die Bilder gelegt, so dass sie nicht sichtbar sind. Mit der PDF-Suchfunktion kann man dann wieder indirekt die entsprechenden Bilder suchen.

Einen Teil der Zeit kann ich verringern, in dem die Bildeffekte automatisch per Kommandozeile angewendet werden.

Gibt es jemanden der ein grösseres Werk eingescannt und verarbeitet hat und mir ggf. weiterhelfen kann die Arbeit effektiver zu erledigen.
--
-------------------------------------------
Corontäne
-------------------------------------------

Dieser Beitrag wurde am 27.10.2014 um 02:56 Uhr von Hobi editiert.

Profil || Private Nachricht || Suche

Zitatantwort || Editieren || Löschen

001
27.10.2014, 09:05 Uhr
P.S.

Hallo Hobi,
na, da hast Du Dir ja was vorgenommen!
Das Original habe ich als pdf - allerdings nicht OCR-bearbeitet, sondern die Seiten sind direkt als Bild in die pdf eingefügt - deshalb die sehr große Datei von 31 bzw. 36MB.
Ich habe einen A4-Flachbett-Scanner, bei dem ein Scan-Vorgang SW nur wenige Sekunden dauert. Für die OCR-Bearbeitung verwende ich immer noch das alte OmniPage SE von 2002 und bin damit eigentlich recht zufrieden. Die Umwandungszeit einer Buchseite zu Word-Text geht auch innerhalb weniger Sekunden, dafür ist die Erkennung in Abhängigkeit der Vorlagenqualität nicht immer richtig, d.h. Nacharbeit ist dann i.d.R. angesagt. Hilfreich wäre, wenn die Rechtschreib-Intelligenz von Word mit einintegriert werden könnte. Der in Word abgelegte Text (mit halbwegs richtiger Formatierung) wird zwar als orthografisch/gramatikalisch fehlerhaft angezeigt, wünschenswert wäre aber, wenn die Korrektur gleich automatisch vorgenommen werden würde. Die Funktionalität der Rechtschreib-Intelligenz von Word (???.dll) müßte das eigentlich möglich machen.
Bilder behandle ich weiterhin auch als Bilder mit minimaler Umgrenzung - OmniPage läßt das zu - und integriere die dann an passender Stelle wieder im Word-Text.
So ist z.B. das 235-Seiten dicke Buch "Digitaler Signalprozessor U320C20" von Dipl.-Ing. Gert Heuer - erschienen 1990 im Verlag Technik gescannt und OCR-bearbeitet worden. Wegen der vielen Bilder ist aber trotzdem ein Gesamtumfang von 27MB daraus geworden. Eine Word-Seite A4 reiner Text hat i.d.R. ca. 22-25kB, hingegen mit Bild-Einlagen das schnell mal auch 500-700kB werden können.
Auch viele andere Bücher wurden von mir gescannt und OCR-bearbeitet - siehe http://www.ps-blnkd.de/eBooks.pdf.

Das Wissen der Menschheit gehört allen Menschen! -
Wissen ist Macht, wer glaubt, der weis nichts! -
Unwissenheit schützt vor Strafe nicht! -
Gegen die Ausgrenzung von Unwissenden und für ein liberalisiertes Urheberrecht!
PS

Profil || Private Nachricht || Suche

Zitatantwort || Editieren || Löschen

002
27.10.2014, 09:42 Uhr
Hobi

Könnte ich eventuell mal 10 Seiten zur Probe bekommen, um zu sehen, ob sie für mich OCR tauglich sind. Wenn ja, wäre ich einen Schritt weiter.
--
-------------------------------------------
Corontäne
-------------------------------------------

Profil || Private Nachricht || Suche

Zitatantwort || Editieren || Löschen

003
28.10.2014, 08:52 Uhr
P.S.

@Hobi <002>
... 10 Seiten wovon?

Das Wissen der Menschheit gehört allen Menschen! -
Wissen ist Macht, wer glaubt, der weis nichts! -
Unwissenheit schützt vor Strafe nicht! -
Gegen die Ausgrenzung von Unwissenden und für ein liberalisiertes Urheberrecht!
PS

Profil || Private Nachricht || Suche

Zitatantwort || Editieren || Löschen

004
28.10.2014, 09:51 Uhr
Hobi

vom Buch, vorzugsweise aus der Mitte mit viel Text. Wenn die Vorlage fuers OCR brauchabr ist, kann ich die Zeit für das Scannen einsparen.
--
-------------------------------------------
Corontäne
-------------------------------------------

Profil || Private Nachricht || Suche

Zitatantwort || Editieren || Löschen

005
28.10.2014, 19:29 Uhr
Olli

Ich hab die P8000-Bücher für die es keine Textdateien gab einfach abgeschrieben..... also so richtig mit TIFF auf den rechten Bildschirm, Textpad auf dem anderen Bildschirm und dann blind drauf los getippt.
Ich weiss nicht, ob man da nicht schneller als 12.5 Minuten je Seite ist

--
P8000 adventures: http://pofo.de/blog/?/categories/1-P8000

Profil || Private Nachricht || Suche

Zitatantwort || Editieren || Löschen

006
28.10.2014, 20:38 Uhr
holm

Avatar von holm

Ollis neuer Spitzname: Schreibmaschine!

Wahnsinn. OCr zu Fuß..bei mir hätten die Seiten genau so viele Buchstabendreher wie Buchstaben..

Gruß,

Holm
--
float R,y=1.5,x,r,A,P,B;int u,h=80,n=80,s;main(c,v)int c;char **v;
{s=(c>1?(h=atoi(v[1])):h)*h/2;for(R=6./h;s%h||(y-=R,x=-2),s;4<(P=B*B)+
(r=A*A)|++u==n&&putchar(*(((--s%h)?(u<n?--u%6:6):7)+"World! \n"))&&
(A=B=P=u=r=0,x+=R/2))A=B*2*A+y,B=P+x-r;}

Profil || Private Nachricht || Suche

Zitatantwort || Editieren || Löschen

007
29.10.2014, 08:17 Uhr
P.S.

@Hobi <004>
Damit kann ich leider nicht dienen - das Buch zum U320C20 hatte ich mir auch nur ausgeliehen und schnell gescannt usw.
Die Scan-Bilder existieren nicht mehr...

Das Wissen der Menschheit gehört allen Menschen! -
Wissen ist Macht, wer glaubt, der weis nichts! -
Unwissenheit schützt vor Strafe nicht! -
Gegen die Ausgrenzung von Unwissenden und für ein liberalisiertes Urheberrecht!
PS

Profil || Private Nachricht || Suche

Zitatantwort || Editieren || Löschen

008
29.10.2014, 19:09 Uhr
Olli

Nun.. die Druckqualität der Bücher ist einfach mit heutigen Maßstäben gerechnet schlecht. Da muss man - wie man auch hier sieht - einen recht hohen Aufwand reinstecken das maschinenlesbar zu bekommen. Und dann hat man trotzdem noch eine ganze Menge Fehlern vor allem bei technischen Dokumentationen.
Noch dazu störte mich, das teilweise sehr komische Formatierungen rauskamen und in "plain text" das ganze teilweise sehr grausam aussah. Aber gerade "plain text" möchte ich als Basis der P8000-Bücher haben (da eh keinerlei Formatierung enthalten ist die über nroff/troff-Fähigkeiten herausgeht) da man daraus allerlei anderes machen kann und.... mit grep&co problemlos drin suchen kann

Also blieb nur.... abschreiben. Erkennt man bei den PDFs die "abgeschrieben" wurden von mir auf dem Deckblatt. da steht das dann unten. Z.B. bei

http://pofo.de/P8000/notes/books/UDOS_Systemhandbuch/1987_05/UDOS_Systemhandbuch.pdf

18h für 86 Seiten. OK - macht rechnerisch 13 Minuten je Seite

Wobei... ich habe auch schon einige Schaubilder in anderen Büchern nachgemalt... die sind etwas aufwändiger als bloßes abtippen.

PS: und auch ich finde immer noch hin und wieder einen Typo in meinem abgeschriebenen

--
P8000 adventures: http://pofo.de/blog/?/categories/1-P8000

Dieser Beitrag wurde am 29.10.2014 um 19:14 Uhr von Olli editiert.

Profil || Private Nachricht || Suche

Zitatantwort || Editieren || Löschen

009
29.10.2014, 20:52 Uhr
Rolli

Nach meinem Kenntnisstand leben allen Autoren des Buches noch. Wurde denn schon mal versucht, mit diesen Kontakt aufzunehmen?

Gruß
Rolli
--
Wer Phantasie hat, ist noch lange kein Phantast

Profil || Private Nachricht || Suche

Zitatantwort || Editieren || Löschen

010
30.10.2014, 06:34 Uhr
Hobi

Einige der Autoren habe ich versucht anzuschreiben, schon aus dem Grund herauszubekommen, ob noch mehr Dokumentationen existieren. Leider ohne Erfolg.

Zitat:

Ich weiss nicht, ob man da nicht schneller als 12.5 Minuten je Seite ist

Mit professioneller Erfahrung vielleicht. Bei mir reicht es allenfalls als Fingerübung zum Blindschreiben. Im besten Fall oder bei kleineren Texten komme ich unter die 10min pro Seite. Dennoch der Vorschlag ist gut, ich muss halt noch fleissig üben.

Momentan bin ich bei Seite 60 von 350. Sprich 600 Minuten, nichteingerechnet eventuelle Pausen. Leider schleichen sich auch schwer zu findende Fehler ein. So zum Beispiel habe ich mich gewundert, warum ich den Text KR580 nicht finden konnte: KR58oWW55! Grrr und da sind sicher noch mehr WM/ÜO/0o Fehler, bei denen die Rechtschreibkontrolle versagt hat.
--
-------------------------------------------
Corontäne
-------------------------------------------

Dieser Beitrag wurde am 30.10.2014 um 06:36 Uhr von Hobi editiert.

Profil || Private Nachricht || Suche

Zitatantwort || Editieren || Löschen

011
06.11.2014, 08:45 Uhr
Hobi

Mittlerweile gibt es Fortschritte bei der Optimierung. Das Scannen geht etwas schneller ~40s pro Seite, noch schneller geht es kaum. Vielleicht liegt auch es an der VG-Wort-Bremse. Dennoch ist es erstmal ausreichend. Der Scanneranteil liegt so bei max. 5%. Oder in Worten 300 *40s ~ 4h Scannen.

dazu noch 90s die Grafik bearbeiten (beschreiden, automatische Farbanpassung, SW Umwandlung, OCR) http://www.onlineocr.net/

Wenn die Seite keine Tabellen oder Formatierungen enthaelt, komme ich bei etwa 5 min im besten Fall an. Der Durchschnitt liegt immernoch bei 11 min; Sprich Formatierungen und Tabellen brauchen einen Grossteil der Zeit.

Vielleicht sollte man doch zu TeX wechseln und so den Anteil fuer die manuelle Formatierung verringern.

S. 108 ... Gibt es eventuell Freiwillige, die mithelfen würden?
--
-------------------------------------------
Corontäne
-------------------------------------------

Profil || Private Nachricht || Suche

Zitatantwort || Editieren || Löschen

Seiten: -1- [ Sonstiges ]