CSS-Klassen einfach ändern bei ePub (oder XML oder HTML)

Mr. Brooks

Lt. Commander
Registriert
Aug. 2011
Beiträge
1.441
Hallo,

ich habe mir zuletzt ein paar Möglichkeiten gesucht um aus gescannten Büchern ePub-Formate zu erstellen. Das geht bei reinem Text mit tesseract-ocr und anschließender Bearbeitung in einem Editor mit Regex sehr gut, bei Büchern mit Bildern oder regelmäßig wechselnden Absatzformatierungen (zuletzt z. B. ein Sachbuch in den Zitate anders formatiert wurden) eignet sich Omnipage besser. Das läuft bei mir derzeit als Testversion in einer virtuellen Maschine. Bei reinem Text bevorzuge ich dennoch tesseract.

Leider erzeugt Omnipage für fast jeden Absatz und für fast jede Überschrift eigene CSS-Klassen, die sich aber kaum unterscheiden. Meist liegen die Unterschiede im Abstand nach oben und/oder unten. Der eigentliche Text liegt in einer Datei "content0.xhtml", die CSS-Formatierungen in einer separaten Datei "stylesheet.css". Hier mal zwei kurze Bsp.

HTML:
<p class="pc1"><span class="sc1"><b>Überschrift</b></span></p>

HTML:
p.pc1 {
  text-align: left;
  text-indent: 0%;
  margin-left: 0%;
  margin-top: 0;
  margin-bottom: 0;
}
span.sc1 {
  font-size: 133%;
  font-family: "Arial", sans-serif;
}

Ich bin grds. in der Lage mich in einfachem HTML oder CSS zurecht zu finden, Experte bin ich aber nicht. Es genügt um ePubs anzupassen. Ich passe die Klassen im ePub-Editor von Calibre an mittels Suche/Ersetzen und Regex. Ich benenne zunächst die Klassen für die Überschriften um, z. B. von "pc1" in "pc99". Das verhindert, dass hinterher bei der Bearbeitung des Textes Überschriften geändert werden.

Problem: Das manuelle Umbenennen der Klassen echt echt mühselig, v.a. wenn man in Sachbüchern dennoch einiges an unterschiedlichen Klassen braucht. Ich suche eine Möglichkeit das im gesamten Dokument auf einmal umzubenennen. Sagen wir überall in der content0.xhtml und der stylesheet.css soll aus der Klasse pc1 die Klasse pc99 werden.

Geht das automatisch zu machen oder muss ich da wie bisher manuell herumfummeln?

Mr. Brooks
 
Das ist ja wahnsinnig aufwändig, was du da vorhast.

Du müsstest ja erstmal ein Buch einscannen, jede Seite einzeln, und dann noch übelst viel von Hand herum pfriemeln, bis du irgendwann ein EBook bekommst, was aber immer noch schlecht ist und Fehler hat.

Deshalb mal die Frage: wozu soll das Ganze gut sein? Das lohnt sich doch für eine Person überhaupt nicht. Wie viele Leute sollen diese Bücher hinterher nutzen und wieso holst du dir nicht direkt das ebook vom Verlag?
 
Zuletzt bearbeitet:
Zurück
Oben