Word Datei (.doc) in ASCII

acidDance

Lieutenant
Registriert
Aug. 2005
Beiträge
886
Moinsen!

Ich habe hier riesige .doc Dateien, wo Daten drinstehn die später in eine Oracle DB sollen. Erstmal sollen die Daten jedoch formatiert in eine .txt geschrieben werden in ASCII.

Der Aufbau der .doc Datei sieht so aus (Beispiel Werte eingefügt):

PHP:
1                                                      2005 Mai 20
Hier steht der Text. Der kann auch zwei oder mehr Zeilen umfassen.
= Buchband I, Nr. 123, S. 123.
Blablub Ausführung.
Anh. blablub 1, 2, 3.
Blablubba = Rep. 1, Nr. 1.

2                                                     2006 April 3
Hier steht der Text. Der kann auch zwei oder mehr Zeilen umfassen.
= Buchband I, Nr. 123, S. 123.
Blablub Ausführung.
Anh. blablub 1, 2, 3.
Blablubba = Rep. 1, Nr. 1.


usw.

Das ganze soll dann so umgewandelt werden:

Code:
1|20.05.2005|Hier steht der Text. Der kann auch zwei oder mehr Zeilen umfassen.|Buchband I, Nr. 123, S. 123|Blablub Ausführung|Anh. blablub 1, 2, 3|Blablubba = Rep. 1, Nr. 1|
2|03.04.2006|Hier steht der Text. Der kann auch zwei oder mehr Zeilen umfassen.|Buchband I, Nr. 123, S. 123|Blablub Ausführung|Anh. blablub 1, 2, 3|Blablubba = Rep. 1, Nr. 1|
Das Trennzeichen ist also ein |

Die Frage ist jetz nur, mit welcher Sprache ich das am besten Löse. Java und PHP kann ich einigermaßen und sollte auch kein Problem sein zu verstehen. VB wär auch ne möglichkeit, weils da son "Word Converter" geben soll.
Und WIE ich das mache, wär auch gut zu wissen^^ ;)
 
Zuletzt bearbeitet:
Versuch doch die Dateien unter Word in einem anderen Format abzuspeichern, "nur Text", "RTF" oder "MSDOS mit ASC", kannst ja mal durchtesten was in Frage käme, die Originaldatei bleibt doch erhalten.
 
Also das mit der .txt is OK. Sieht im groben genauso aus.
Nur das Problem sind halt auch z.B. die Datumangaben:

Manchmal so:
2000 Oktober 5

Manchmal aber auch so:
Neustadt, 2000 Oktober 8

Oder so:
[Herbst 2000]


Das Datum befindet sich ja leider auch noch immer in der gleichen Zeile wie die Nummer. Man müsste also das was da vorsteht irgendwie wegschneiden.

Außerdem fällt im unteren Bereich der Dokument meist die Ziele mit dem "=" weg. Das heißt also es existieren nur noch 3 Zeilen unter dem Text. Hmmm.... könnte ne Hardcore Schleife werden^^
 
Zurück
Oben