Dateien mit sed bearbeiten

moonwalker99 · 22. August 2011

Ich möchte bei vielen html-Dateien den gesamten Inhalt zwischen <style> und </style>, der sich aber über viele Zeilen erstreckt, löschen. Mit regulären Ausdrücken habe ich schon etwas Erfahrung, hier bin ich aber überfragt. Was ist, wenn innerhalb der Dateien mehrere <style>...</style> Ausdrücke stehen? Ich möchte den anderen Inhalt nicht verlieren.

Michael · 27. August 2011

Im Grunde musst Du einen Ausdruck schaffen, der folgende Bedinungen sucht:

Code:

<style>'kein, 1 oder mehrere Zeichen'</style>

was bei sed ein Punkt ist (.)
und durch folgendes ersetzt:

Code:

<style></style>

Das sollte genügen. Die Schwierigkeit in der Praxis solcher Szenarien ist aber, die Steuerzeichen vor der bash zu verstecken bzw. zu escapen!

moonwalker99 · 27. August 2011

Das Problem ist eher, eine unbestimmte Anzahl von Zeilenumbrüchen mit zu berücksichtigen.

mensch183 · 29. August 2011

sed kann zwar auch mehrzeilig (sed -n '1h; 1!H; ${ g; s/bla/blubb/g; p}') kann aber nur greedy matchen, würde also in deinem Fall vom allerersten <style> bis zum allerletzten </style> genau einen großen Match erzielen und alles dazwischen entfernen, was du nicht haben willst - zumindest wenn du bequem mit sowas wie .* zwischen den 2 Tags arbeiten möchtest.

Ich empfehle perl. Da kann man mit ".*?" non greedy, also möglichst kurz suchen und ersetzen:

perl -p0777 -e 's|(<style>).*?(</style>)|$1$2|gis' file.html

bzw. gleich (ohne Backups) für alle Files in einem Rutsch
perl -p0777 -e 's|(<style>).*?(</style>)|$1$2|gis' -i *.html

enteon · 31. August 2011

kann auch nur von sed abraten, ein vergessenes zeichen kann einem da schon mal eine stunde nervern kosten :'(

Vektor · 31. August 2011

Man kann das mit sed auch machen. Das mit dem Multiline-Replace ist Standardtechnik bei sed. Man muss halt nur den Fakt umgehen, dass sed greedy ist, also

Code:

sed -n '1h;1!H;${g;s?<s>[^<s>]*</s>??g;p}'

.

Suche

Dateien mit sed bearbeiten

moonwalker99

Lt. Commander

Michael

Re-aktions-Pinguin

moonwalker99

Lt. Commander

mensch183

Captain

enteon

Gast

Vektor

Lt. Commander

Ähnliche Themen

Passend zum Thema

CB-Funk-Podcast #160 Xbox „Project Helix“ mit FSR Diamond & Linux vs. Windows

Test Linux (Mesa 26) vs. Windows 11 Aktuelle Gaming-Benchmarks mit Radeon RX & GeForce RTX

Linux-News der Woche Nvidia geht Performance-Probleme an