Java HTMLParser und Tag-content Extraktion

Helios co.

Lt. Commander
Registriert
März 2005
Beiträge
1.863
Hallo @all,

ich möchte ein html-File parsen und den content bestimmter Tags extrahieren. Ich benutze den Java-eigenen Swing html-Parser.

Das Einlesen des html-files klappt auch so weit gut. Das Ergebnis ist ein String.

Jetzt möchte ich aber diesen String parsen und den Inhalt bestimmter Tags speichern. Leider habe ich nur schlechte Beispiele dazu gefunden.
Kann mir da jemand helfen?

Im Voraus vielen Dank!
 
Erfüllt die Bibliothek jsoup deine Ansprüche? Beispiele zum Parsen sind hier aufgeführt.

Grüße
 
Danke für die schnellen Antworten!

Ich habe mir jetzt jsoup näher angeschat, und es sieht wirklich gut aus! Ich konnte damit leicht ein HTML-file einlesen (entweder lokal oder aus dem Netz), abspeichern und den content bestimmter Tags extrahieren.

Vielen Dank! Ich hoffe, dass wenn ich noch Fragen habe,ich euch weiter nerven darf :)

---------------------------------------------------------------------------------------------------------------

Und wie angekündigt, hier bin ich :)

Und zwar habe ich folgendes:
<span class="mwpphu-timestamp"><abbr title="2010-06-30T03:09:18-0700">3 hours ago</abbr></span>

Jetzt möchte ich aber nicht an den eigentlichen Wert, sprich "3 Hours" sondern an den Timestamp "2010-06-30T03:09:18-0700". Leider ist mir nicht klar welche Methode (gibt es überhauopt so eine?) das leiefern kann.

Hat einer ein Idee. Danke für eure Mühe im Voraus!

Nachtrag:


Habs geschafft. Für die Nachwelt:
aElement.select("abbr").attr("title")

Das liefert einen String denman leicht weiterverarbeiten kann.
 
Zuletzt bearbeitet:

Ähnliche Themen

Zurück
Oben