Abfotografierte Dokumente im JPG-Format nach Worten durchsuchen

Art.No-70-31

Cadet 1st Year
Registriert
Nov. 2018
Beiträge
12
Liebe Community,

ich hoffe ich bin in diesem Sub-Forum richtig, falls nicht, bitte nicht böse sein.

Zum Thema: ich betreibe schon länger Ahnenforschung bzgl der Kriegszeit meines Großvaters. Nach dem Zweiten Weltkrieg haben die Alliierten millionen Akten und Dokumente der Deutschen abfotografiert und auf Mikrofilmrollen gebannt. Zur passenden Einheit meines Großvaters habe ich die Akten bestellt und digital erhalten - im JPG Format. Da es ist sich auch zehntausende Seiten ist es fast unmöglich, seinen spezifischen Namen zu suchen bzw. auch nach gewissen Orten zu suchen.

Lange Rede kurzer Sinn: gibts eine Möglichkeit, JPG-Dateien die Schriftdokumente ablichteten, digital nach "Namen/Worten" zu durchsuchen?

zB in einem Ordner befinden sich mehr als 1.000 JPG-Files solcher Art. Gibt es irgendein Tool, dass diese JPG-Files nach Namen durchsucht? Soweit ich weiß, gibt es Webseiten, bei denen man einzelne Files hochladne kann zum Durchsuchen, doch das bring tmir nichts, weil es sich wirklich um tausende und abertausende Files handelt.

Habt ihr eine Idee?


LG M
 
Dafür müssen die Dokumente mit OCR-Software verarbeitet werden.
 
nur, wennst die scans einer texterkennung (ocr) unterziehst.
wei du kannst es lesen, ob texdokument oder bild.
aber für einen computer ist text text, und bilder ein pixelbrei.

klar, wie gut das ocr funktioniert, hängt stark an der qualität der scans.
wenn stark komprimierte jpg´s, wird das ein problem sein.
und korrigieren wirst auch müssen, sogar im besten fall.

ist halt so. bei computern fehlt das korrigierende bewustsein.
weil: ned nur, daß der computer ned weiss, was er tut, er weiss nedmal, daß er was tut.
 
...weil das nicht die Frage des TE war!
 
Alle Bilder mit ocr in ein PDF verwandeln und dann damit arbeiten.
 
Adobe Acrobat kann auch in "Bilder-PDFs" Text durchsuchen. Da wird dann vorher einfach einmal alles per OCR durchlaufen.

Die Frage ist halt wie gut die Qualität der Fotos ist. OCR funktioniert nur, wenn es auch einigermaßen lesbar ist.
 
Zuletzt bearbeitet:
Vielleicht hat ja auch jemand anders ähnlich gesucht, wenn du die Einheit kennst.

https://www.lexikon-der-wehrmacht.de/inhaltsverzeichnis1.htm

https://www.forum-der-wehrmacht.de/
Da wird viel nach Verwandten/Vermissten gefragt.

https://www.maparchive.ru/
Hier kann man sich Armeegruppen, Divisionen usw. und deren Werdegang anzeigen lassen (meist mit Datum, Ort usw.).
Das sind PDFs, die man dann entsprechend auch durchsuchen könnte - wenn man wüsste, wo man anfangen muss (z.B. eben Einheit kennen).

Wobei du das ja vermutlich kennst.
 
Wenn Du die Unterlagen mit Microsoft Lens auf dem Handy fotografierst und als Word-Dokument speicherst, wird automatisch eine OCR durchgeführt und Du erhältst ein Textdokument.
 
Wenn man mich zwänge, würde ich es so machen:

1. ca. 200 JPG-Dateien in Adobe zusammenfassen als PDF
2. OCR in der Datei mit Adobe
3. Abspeichern
4. go to 1
 
Nein, aber ich finde es noch eine gut handhabbare Zahl, um nicht zu große Dateien zu bekommen.
Man kann auch 1000 Seiten machen und das im Hintergrund arbeiten lassen. Dauert natürlich ...
 
  • Gefällt mir
Reaktionen: cartridge_case
Zurück
Oben