PDF-Seite von "Durchscan"-Fragmenten befreihen

Chippo · 11. Juni 2021

Hallo. Ich habe eine Anleitung aus dem Netz für ein altes Spiel. Als man die Seiten gescannt hat, wurden auch Texte und Grafiken von der anderen Blattseite mit auf der gescannten Seite abgebildet. Wortfindungs-Probleme... Ihr wisst schon, wenn auf Seite 1 teilweise das zu sehen ist, was eigentlich auf Seite 2 gehört.
Das ist ziemlich lästig und man sieht es besonders gut wenn man die PDF dann auch noch ausdruckt

Gibt es ein Tool, was automatisch erkennt was da nicht hingehört und rausfiltert?

Um dieses PDF hier geht es:
https://ia600700.us.archive.org/23/...ware/Solo_Flight_1983_Microprose_Software.pdf

computerbase107 · 11. Juni 2021

Kleinere Erfolge konnte ich mit gezielter Kontrasterhöhung plus dem Spiel mit der Gradation erreichen. Dies geht aber nur Seite für Seite, je nach Inhalt.
Bei dem genannten Dokument geht es in der Regel "nur" um Schriften und Skizzen ohne viel Grautöne.
Hier sollte die Kontrasterhöhung gut funktionieren.

Wenn es hier eine schnellere effektivere Methode gibt, so bin ich auch interessiert.

DeusoftheWired · 11. Juni 2021

Es geht dir also um die minimal durchscheinenden Buchstaben der Hinterseite? Automatisiert wird man da wenig machen können. Ich würde eine OCR drüberjagen und alles, was nach ihr nicht stimmt, manuell korrigieren.

Tornhoof · 11. Juni 2021

Es gibt https://github.com/unpaper/unpaper oder das uralte https://scantailor.org/

Zusammen mit https://ocrmypdf.readthedocs.io/en/latest/ gibts dann OCR

Wenn du ocrmypdf mit --remove-background aufraufst (hab ich mit docker probiert), sieht eine typische Seite so aus:

Chippo · 11. Juni 2021

Gut, wenn alles nicht bringt, dann muss ich halt handgreiflich werden. Sind ja nur 18 Seiten... Danke.

kartoffelpü · 11. Juni 2021

Mal händisch in paint.net versucht:

E: Level Adjustment war für die Seite die einzige Sache, die benötigt habe.

Demon_666 · 11. Juni 2021

Bei ganz schwierigen scans/pdfs habe ich mit tesseract von google ziemlich gute Ergebnisse erzielt. Vorher ggf. das Bild nochmal bearbeiten (Kontrast etc.).
Allerdings muss man damit schon ein wenig rumprobieren und es macht reine Texterkennung.

Edit:
Falls das manual als PDF nicht in besserer Qualität zu bekommen ist: Stell doch mal ne Suchanfrage in diversen Foren (z.B. hier

). Vielleicht hat ja jemand da was besserers oder ein Original.

Suche

PDF-Seite von "Durchscan"-Fragmenten befreihen

Chippo

Gast

computerbase107

Rear Admiral

DeusoftheWired

Fleet Admiral

Tornhoof

Commander

Chippo

Gast

kartoffelpü

Admiral

Demon_666

Commodore

Ähnliche Themen