PHP preg_match für HTML Tags

Shadow1701 · 5. Mai 2025

Ich grüße euch.

Wieder einmal stehe ich scheinbar auf dem Schlauch.

Ich habe ein preg_match das prinzipiell so aussieht: "|<tagstart>([^<]*)<tagend>|"

Soweit so unkompliziert, es sei den, innerhalb dieser beiden Tags finden sich jetzt weitere tags. Dann funktioniert das Ganze nicht mehr.

Funktioniert: <tagstart>das ist der text den ich brauche<tagend>
Funktioniert nicht: <tagstart>das ist der <strong>text</strong> den ich brauche<tagend>

Die Tags kann ich aber nicht einfach so löschen, bzw. kann ich das erst wenn ich die Rückgabe von preg_match erhalten habe. Die unerwünschten tags, die die Ausführung verhindern, ändern sich auch andauernd.

Wie löse ich das?

ElliotAlderson · 5. Mai 2025

Nimm nen HTML Parser:
https://stitcher.io/blog/html-5-in-php-84
https://github.com/Masterminds/html5-php

floq0r · 5. Mai 2025

Und er klär mal was du überhaupt vorhast.
Im Übrigen: https://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags

Wo bin ich hier · 5. Mai 2025

strip_tags?
https://www.php.net/manual/en/function.strip-tags.php

Shadow1701 · 5. Mai 2025

da eine Erklärung eingefordert wurde:
ich soll ein bestehende Script minimal anpassen, in diesem Script wird regex genutzt um HTML zu zerpflücken, das ist schon das erste Problem.

Es werden Dateien mit irgendwelchen texten importiert aus dem ganz bestimmte Teile importiert werden sollen.

Das passiert prinzipiell mit verschiedenen Versionen von "|<tagstart>([^<]*)<tagend>|".

Es ist mir bewusst, dass preg_match für HTML Dateien eigentlich, bzw. nur mit Tricks nutzbar ist. Die Frage ist jetzt wie ich das mit sowenig Aufwand wie möglich zum Funktionieren bringe.

Danke für die Links, ich muss mich wahrscheinlich damit abfinden, dass das mit dem minimalen Aufwand nichts wird. Ich werde es mit strip_tags versuchen, vielleicht habe ich ja Glück und die Quelldateien werden damit korrekt abgearbeitet, wenn nicht muss ich das Script wohl doch umbauen.

ElliotAlderson · 5. Mai 2025

Shadow1701 schrieb:
Es ist mir bewusst, dass preg_match für HTML Dateien eigentlich, bzw. nur mit Tricks nutzbar ist. Die Frage ist jetzt wie ich das mit sowenig Aufwand wie möglich zum Funktionieren bringe.

Je nach HTML gar nicht -> HTML5 Parser.
Das Parsen des HTMLs ist jetzt aber kein Hexenwerk:

HTML parsen
Nodes durchlaufen bis zur gewünschten Stelle
Nodeinhalt ausgeben und mittels strip_tags das HTML entfernen.

Shadow1701 · 5. Mai 2025

Alles klar und vielen dank, ich werde einen HTML parser nehmen, hab ich noch nie gemacht, werde ich aber sicher irgendwie schaffen.

sandreas · 5. Mai 2025

@Shadow1701 Nimm DOMDocument und XPath:

https://stackoverflow.com/questions/2571232/parse-html-with-phps-html-domdocument

Suche

PHP preg_match für HTML Tags

Shadow1701

Ensign

ElliotAlderson

Banned

floq0r

Captain

Wo bin ich hier

Lt. Commander

Shadow1701

Ensign

ElliotAlderson

Banned

Shadow1701

Ensign

sandreas

Lieutenant

Ähnliche Themen