PDF-Seite von "Durchscan"-Fragmenten befreihen

C

Chippo

Gast
Hallo. Ich habe eine Anleitung aus dem Netz für ein altes Spiel. Als man die Seiten gescannt hat, wurden auch Texte und Grafiken von der anderen Blattseite mit auf der gescannten Seite abgebildet. Wortfindungs-Probleme... Ihr wisst schon, wenn auf Seite 1 teilweise das zu sehen ist, was eigentlich auf Seite 2 gehört.
Das ist ziemlich lästig und man sieht es besonders gut wenn man die PDF dann auch noch ausdruckt:( Gibt es ein Tool, was automatisch erkennt was da nicht hingehört und rausfiltert?

Um dieses PDF hier geht es:
https://ia600700.us.archive.org/23/...ware/Solo_Flight_1983_Microprose_Software.pdf
 
Kleinere Erfolge konnte ich mit gezielter Kontrasterhöhung plus dem Spiel mit der Gradation erreichen. Dies geht aber nur Seite für Seite, je nach Inhalt.
Bei dem genannten Dokument geht es in der Regel "nur" um Schriften und Skizzen ohne viel Grautöne.
Hier sollte die Kontrasterhöhung gut funktionieren.

Wenn es hier eine schnellere effektivere Methode gibt, so bin ich auch interessiert.
 
Es geht dir also um die minimal durchscheinenden Buchstaben der Hinterseite? Automatisiert wird man da wenig machen können. Ich würde eine OCR drüberjagen und alles, was nach ihr nicht stimmt, manuell korrigieren.
 
Es gibt https://github.com/unpaper/unpaper oder das uralte https://scantailor.org/

Zusammen mit https://ocrmypdf.readthedocs.io/en/latest/ gibts dann OCR

Wenn du ocrmypdf mit --remove-background aufraufst (hab ich mit docker probiert), sieht eine typische Seite so aus:
1623401707150.png
1623401730174.png
 
Zuletzt bearbeitet:
Gut, wenn alles nicht bringt, dann muss ich halt handgreiflich werden. Sind ja nur 18 Seiten... Danke.
 
Mal händisch in paint.net versucht:
1623402053536.png


E: Level Adjustment war für die Seite die einzige Sache, die benötigt habe.
 
Bei ganz schwierigen scans/pdfs habe ich mit tesseract von google ziemlich gute Ergebnisse erzielt. Vorher ggf. das Bild nochmal bearbeiten (Kontrast etc.).
Allerdings muss man damit schon ein wenig rumprobieren und es macht reine Texterkennung.

Edit:
Falls das manual als PDF nicht in besserer Qualität zu bekommen ist: Stell doch mal ne Suchanfrage in diversen Foren (z.B. hier ;)). Vielleicht hat ja jemand da was besserers oder ein Original.
 
Zurück
Oben