sed ersetzt nur ersten String pro Zeile

FatManStanding · 30. August 2023

Hallo,

ich will Zeichen zwischen - oder -Tags durch andere Zeichen ersetzen. Es kommt vor, dass in den Tags noch weitere Zeichen stehen. Das sieht dann so aus:

Code:

sed -i 's/<sub>2\(.*\)<\/sub>/<sub>AAA\1<\/sub>/g' neu.txt

In dem Fall soll eine 2 innerhalb eines -Tags durch 'AAA' ersetzt werden (das ist sinnlos, es geht nur um das Prinzip). Das geht allers grds., es wird aber immer nur das erste gefundene Muster pro Zeile ersetzt. Führe ich das ganze ein zweites mal für die geänderte Datei aus, wird das zweite gefundene Muster ersetzt, weil es ja in dem zweiten Durchlauf das erste pro Zeile ist. Wieso wird immer nur das erste ersetzt? Wenn ich einfach irgendein Zeichen ersetzte und kein Regex verwende wird alles ersetzt.

FMS

Edit
Wenn der Text z. B. so aussieht

23 bez 23 bez
23 bez 23 bez

findet sed nicht nur "23 " sondern "23 bez 23 ". Ich kenne gierige und nicht gierige Suchen nur i.V.m. Regex, also ".?" statt ".".

CoMo · 30. August 2023

Ersetze mal das (.*\) durch (.*?\)

FatManStanding · 30. August 2023

Da ersetzt er überhaupt nichts mehr.

CoMo · 30. August 2023

Und mit sed -E?

Bohnenhans · 30. August 2023

Naja das ist ja eigentlich erst mal ganz normales Verhalten denke ich

Ein Weg wäre z.B. das wenn möglich mehr einzugrenzen

Also in obigem Beispiel - nur mal als Beispiel

Code:

echo "<sub>23 </sub> bez <sub>23 </sub> bez" | sed 's/<sub>[0-9]* <\/sub>/<sub>AAA<\/sub>/g'
das liefert dann
<sub>AAA</sub> bez <sub>AAA</sub> bez

Das Problem ist halt .*deckt ALLES was zwischen dem ersten und dem letzten steht als 1 Brocken ab also auch alle , dazwischen

0x8100 · 30. August 2023

ist der input xml? dann bietet sich eher xmlstarlet an.

nutrix · 30. August 2023

Sed arbeitet schon immer nur zeilenweise. Wichtig sind einige Optionen wie das g am Ende für global.

Historisch hat mal Zeilen gelesen und dann durch einen Pipe gejagt mit einem sed oder awk hinterher.

Bohnenhans · 30. August 2023

Also ich hab das mal kurz allgemeiner gemacht, das sollte alles zwischen Tags ersetzen

Also einfach zu sagen das "</" gehört nicht mehr zu dem Teil in den Tag sondern ist das Tag-Blockende

Sed kennt ja nicht die "Klammerfunktion" von Tags das erste im Text und das letzte sind alles was es sieht bei .*

Code:

echo "<sub>LALALALA</sub> bez <sub>Bananenbrotbackmaschine</sub> bez" |  sed 's/<sub>.[^<\/]*/<sub>AAA/g'

Ergebnis =>  <sub>AAA</sub> bez <sub>AAA</sub> bez

FatManStanding · 30. August 2023

@ Bohnenhans

Sehe ich das korrekt, dass hiermit

Code:

sed 's/<sub>.[^<\/]*/<sub>AAA/g'

nach jedem '' gefolgt von irgendwas außer < und / gesucht wird?

Bohnenhans · 30. August 2023

es wird nach dem Text der mit "" beginnt und mit den nächsten darauffolgenden "</" aufhört gesucht

Denke das sollte funktionieren ausser natürlich im Text zwischen ...</ kommt das vor

Bei verschachtelten Tags muste halt dann die "Abbruchbedingung" anpassen, musst halt mal testen ob das schon ausreichet.

nutrix · 30. August 2023

/ ist ein Sonderzeiten. Ich würde hier lieber als Trenner ; verwenden.

Code:

sed 's;<sub>.[^</]*;<sub>AAA;g'

Suche

sed ersetzt nur ersten String pro Zeile

FatManStanding

Lt. Junior Grade

CoMo

Commander

FatManStanding

Lt. Junior Grade

CoMo

Commander

Bohnenhans

Commander

0x8100

Admiral

nutrix

Lt. Commander

Bohnenhans

Commander

FatManStanding

Lt. Junior Grade

Bohnenhans

Commander

nutrix

Lt. Commander

Ähnliche Themen