Spaß mit OCR Software

Heute musste ich einen Text einscannen und per OCR Software (die zum Glück bei meiner Drucker/Scanner Combo dabei war) in verwendbaren Text umwandeln lassen. Beim ersten Versuch lag das Blatt verkehrt herum im Scanner, also auf dem Kopf, ich dachte, die Software würde das schon hinbekommen und habs einfach mal eingescannt und durch die Texterkennungssoftware gejagt. Leider war das Ergebnis nicht der Text den ich brauchte, sondern selbiger tatsächlich auf dem Kopf gelesen und dann in ASCII Zeichen umgewandelt. Das ganze sah zugegebenermaßen etwas nach Datenmüll aus.

Ich fand das dann so lustig, dass ich mal ein paar Zeilen von dem Müll im IRC gepostet habe und irgendwie stellten wir dann fest, dass man doch ein bißchen was erkennen kann.

Und nun wirds spannend! Ich hab dann den über Kopf interpretierten Text noch einmal über Kopf eingescannt und durch die OCR Software geschickt. Das was dabei rauskommt sieht zwar auf den ersten Blick auch komisch aus, aber wer sich mit l33t sp34k auskennt, und als IRC junkies tun wir das, der kann den Text wahrscheinlich lesen. Hier mal ein paar Beispiele was mit Wörtern passiert, wenn man sie zwei Mal über Kopf durch die Texterkennung jagt:

Sie => S18
jetzt => J8+Z+
können => ~<6nn8n

Weil das Thema nun wirklich anfing mich zu interessieren habe ich noch mal einen Standard Blindtext über Kopf eingescannt, von der OCR Software interpretieren lassen, ausgedruck und das Ergebnis wieder über Kopf eingescannt und durch die OCR Software geschickt. Das ergibt dann folgendes:

Lorem ipsum dolor sit amet, consectetur adipisicing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua. Ut enim ad minim veniam, quis nostrud exercitation ullamco laboris nisi ut aliquip ex ea commodo consequat. Duis aute irure dolor in reprehenderit in voluptate velit esse cillum dolore eu fugiat nulla pariatur. Excepteur sint occaecat cupidatat non proident, sunt in culpa qui officia deserunt mollit anim id est laborum.

Zwischenergebnis:

'wnJoqol +sa p~ w~uo +~lloW +unJasap O~J~~~O ~nb odlnJ u~ +uns '+uap~oJd uou +o+op~dnJ +oJaoJJo +u~s Jna+daJX3 'Jn+o~Jod 0llnu +o~6n~ na aJoloP wnll~J assa +~laA a+o+dnlOA u~ +~Japua4aJdaJ u~ JOloP aJnJ~ a+no s~na '+onbasuoJ 0pOWWOJ oa xa d~nb~lo +n ~s~u S~Joqol oJwolln uo~+o+~JJaxa pnJ+sou s~nb 'WO~UaA W~U~W po w~ua +n 'onb~lo ou6ow aJoloP +a aJoqol +n +unp~p~Ju~ Jodwa+ powsn~a op pas '+~la 6u~J~s~d~po Jn+a+JaSUOJ '+awo +~s JOloP wnsd~ waJol

Endresultat:

10[OM -PSUM d010[ s-+ OMO+, ronsO[+o+U[ od-p-s~[~ng 0l~+, sod do o~usMod +OMPO[ -n[~d~dun+ u+ lobo[o 0+ d010[0 Mogno 0l~quo, u+ on~M od M~n~M Von~OM, qu~s nos+ [ud OXO[[-+o+-on UllOM[O 10bo[~S n-s~ u+ 0l~qu~P ox 00 [OMMOd0 [onsoquo+, ou-s ou+o ~[U[O d010[ -n [OP[ovondo[-+ ~n VOluP+o+o VOl-+ osso [-llUM d010[0 DU ~ug-o+ nUl10 PO[~o+U[, fX[OP+oU[ s~n+ 0[[00[0+ [up-do+o+ non p[o-don+, sun+ ~n [U1PO qu- O-~~[-O doso[un+ MOll-+ on-M -d os+ 10bo[uM,

Hier ein paar Wörter aus dem Blindtext:

dolor => JOloP => d010[
Ut => +n => u+
sunt => +uns => sun+
qui =>  => qu-
mollit => +~lloW => Moll-+
id => p~ => -d
in => u~ => ~n
laborum => 'wnJoqol => 10bo[uM

Jetzt ist die Frage ob das zu irgendwas nützlich ist? Wie wärs damit, die nächste vertrauliche E-Mail drucke ich aus, verschlüssle sie mit meiner OCR Software, schick den Müll per Mail an den Empfänger, der druckt es aus und scannt es ein und benutzt dann die (am besten selbe) OCR Software um wieder einen leserlichen Text zu erhalten ... mir gefällt die Idee ^^


Kommentare