Java HTMLParser und Tag-content Extraktion

Helios co. · 29. Juni 2010

Hallo @all,

ich möchte ein html-File parsen und den content bestimmter Tags extrahieren. Ich benutze den Java-eigenen Swing html-Parser.

Das Einlesen des html-files klappt auch so weit gut. Das Ergebnis ist ein String.

Jetzt möchte ich aber diesen String parsen und den Inhalt bestimmter Tags speichern. Leider habe ich nur schlechte Beispiele dazu gefunden.
Kann mir da jemand helfen?

Im Voraus vielen Dank!

Fatal Error · 29. Juni 2010

du könntest zum beispiel jdom verwenden. http://www.jdom.org/ Ist sehr einfach und hat ne gute dokumentation auf der seite

simon04 · 29. Juni 2010

Erfüllt die Bibliothek jsoup deine Ansprüche? Beispiele zum Parsen sind hier aufgeführt.

Grüße

Fatal Error · 29. Juni 2010

simon04 schrieb:
Erfüllt die Bibliothek jsoup deine Ansprüche? Beispiele zum Parsen sind hier aufgeführt.

Grüße

die hört sich ja noch besser an. kannte ich garnicht, danke dafür!

Helios co. · 29. Juni 2010

Danke für die schnellen Antworten!

Ich habe mir jetzt jsoup näher angeschat, und es sieht wirklich gut aus! Ich konnte damit leicht ein HTML-file einlesen (entweder lokal oder aus dem Netz), abspeichern und den content bestimmter Tags extrahieren.

Vielen Dank! Ich hoffe, dass wenn ich noch Fragen habe,ich euch weiter nerven darf

---------------------------------------------------------------------------------------------------------------

Und wie angekündigt, hier bin ich

Und zwar habe ich folgendes:

<span class="mwpphu-timestamp"><abbr title="2010-06-30T03:09:18-0700">3 hours ago</abbr></span>

Jetzt möchte ich aber nicht an den eigentlichen Wert, sprich "3 Hours" sondern an den Timestamp "2010-06-30T03:09:18-0700". Leider ist mir nicht klar welche Methode (gibt es überhauopt so eine?) das leiefern kann.

Hat einer ein Idee. Danke für eure Mühe im Voraus!

Nachtrag:

Habs geschafft. Für die Nachwelt:

aElement.select("abbr").attr("title")

Das liefert einen String denman leicht weiterverarbeiten kann.

Suche

Java HTMLParser und Tag-content Extraktion

Helios co.

Lt. Commander

Fatal Error

Lt. Junior Grade

simon04

Ensign

Fatal Error

Lt. Junior Grade

Helios co.

Lt. Commander

Ähnliche Themen