Wrapper: HTML zu XML

momdiavlo

Lt. Commander
Registriert
Apr. 2007
Beiträge
1.178
Hi CB`ler,

ich möchte einen ziemlich simplen (Tree-based?) Wrapper erstellen, weiß aber noch nicht in welcher Sprache bzw. allgemein wie ich das am besten realisieren könnte. Der Wrapper muss nur eine einzige Sache können: Aus einer HTML-Datei bestimmte Dinge in eine XML-Datei extrahieren. Zum Beispiel den Text im <p>-Element der HTML-Datei in ein <xyz>-Element der XML-Datei. Es geht dabei nur um eine einzige HTML-Datei. Es geht also nicht darum, eine Datenbank im Internet zu durchforsten oder ähnliches.

Ich brauche nur ein paar Anhaltspunkte oder vielleicht gibt es irgendwo ein Tutorial?
 
Spannende Frage: Ist deine HTML-Datei XML-konform geschrieben? Wenn ja, lässt sich das ganze mit jedem XML-nach-DOM-Parser machen, sowas existiert für quasi jede Sprache (oder eben XSLT, wobei das außer der W3-Seite quasi niemand unterstützt).

Ansonsten kann man das auch im Browser per Javascript lösen:
- Formular erstellen, wo du den HTML-Text eingibst
- Dann ein Dummy-Element erstellen, welches du mit dem eingegeben Text fütterst
- Dann einfach mit dem DOM arbeiten.
Siehe StackOverflow, erste Antwort.
 
Zuletzt bearbeitet:
Vielen Dank, das sollte mir vorerst weiterhelfen.

@VikingGe
Ja, ist XML-konform. Mal schauen, ob ich mich da als Anfänger durchbeißen kann.

@blablub1212
Danke, Python wäre natürlich sehr schön, schaue ich mir etwas genauer an!
 
Ich glaub mit XSLT macht man sich da mehr Arbeit als nötig, im Endeffekt sollte das jeder Dom Parser können. IN PHP Simple XML oder domdocument, evtl noch mit XPATH. Im Enddefekt brauchst du nur vom body aus durchs Dom iterieren, auf deine Tags abprüfen und entsprechend übersetzen, sollte im Zweifelsfall auch mit Javascript direkt in der Browserkonsole gehen.
 
Zurück
Oben