[Notepad++] Makro erstellen, suchen-löschen innerhalb von HTML-tags

lagom · 8. Oktober 2014

Hallöchen,

erst einmal entschuldigung für mein Unwissen, zwar kann ich mehr als meinem Laptop ein- und ausschalten, doch als "Experte" oder "Profi" bei Weitem nicht bezeichnen.

Worum geht's?
Folgendes: Ich habe ziemlich viele Treffer aus einer Korpussuche, die ungefähr so aussehen:

A09 bleiben, der sich für die Bereitstellung von Raum für Kunst und Kultur einsetzt.
A09 man geplant, den Neubau im Jahr 2010 in Betrieb zu nehmen, daher auch der Name des

Nun benötige ich eine Liste aller fettgedruckter Wortgruppen, um diese danach nach Häufigkeit mit Trefferanzahl zu sortieren.

Deswegen habe ich das Dokument als html abgespeichert und in Notepad++ geöffnet. Jedoch komme ich nun nicht weiter.
Ich möchte nun gerne alles was nicht innerhalb von steht löschen, um eine Liste zu bekommen.
Meine kläglichen Versuche ein entsprechendes Makro anzulegen sind bisher gescheitert. Es passiert einfach nicht das, was passieren soll. Über Hilfe hierbei wäre ich schonmal sehr dankbar.

Beim nächsten Schritt - die Liste nach Häufigkeit zu sortieren, inklusive der Anzahl der Treffer - habe ich noch weniger Ahnung, wie ich vorgehen soll...

Danke für die Mühe!

Grüße,
lagom

simpsonsfan · 8. Oktober 2014

Hi.

Zunächst mal wirst du hier hören, dass Regex für sowas nicht gemacht sind, da man mit Regex kein HTML parsen kann. Was auch so ist.

Da du hier ja aber immer nur einfach Tags hast und nichts verschachteltes kann man das auch mit Notepad finden, wenn es auch etwas umständlich wird.

Und zwar machst du folgendes:

In Notepad nach

()([\w,\s]*)()

suchen und durch

\n$0\n

ersetzen. Dann unter Vorkommnisse markieren wieder nach dem gleichen suchen und Lesezeichen setzen anklicken. Nun kannst du im Menü Suchen->Lesezeichen->Zeilen ohne Lesezeichen löschen.
Zum Schluss nochmal Suchen und Ersetzen nach obiger Suchgruppe und ersetzen durch

$2

.

Damit solltest du dann erstmal eine Liste deiner Begriffe haben.

Ergänzung (8. Oktober 2014)

Den zweiten Schritt würde ich schlicht mit Excel machen. Man könnte zwar ein Skript oder irgendwas schreiben, aber v.a. wenn das keine regelmäßige Sache ist, lohnt sich das nicht. Also einfach die durch Schritt 1 erhaltene Liste in Excel laden und dann eine Spalte daneben mit =ZÄHLENWENN(A:A;A1) nebenan, die Spalte nochmal kopieren und nur die Inhalte einfügen und dann einfach Duplikate entfernen und nach der Häufigkeitenspalte sortieren.

lagom · 8. Oktober 2014

Danke für die schnelle Hilfe!

Wenn ich ()([\w,\s]*)() in der Suche eingebe, findet er keinerlei Treffer, was ja eigentlich nicht sein kann.

Ein Auszug aus meiner HTML:

A09*
Schnee und Kälte die Strassen vielerorts im Appenzellerland in eine
Schlittel-, wenn

Woran kann das nun liegen?

simpsonsfan · 8. Oktober 2014

Hast du auch den Haken auf Regular Expressions gestellt?

lagom · 8. Oktober 2014

simpsonsfan schrieb:
Hast du auch den Haken auf Regular Expressions gestellt?

Nein.

Danke!

Jetzt findet er Treffer, sieht dann nach dem ersten Suchen/Ersetzten so aus:

man geplant, den Neubau im Jahr 2010 in Betrieb zu nehmen, daher auch

Im nächsten Schritt passiert genau das Gegenteil. Wenn ich nach ()([\w,\s]*)() suche und durch $2 ersetze, bleibt mein Kontext stehen und die fettgedruckten Ausdrücke verschwinden.

Also genau das Gegenteil von dem, was ich wollte.

simpsonsfan · 8. Oktober 2014

Wie jetzt? Die \n fügen eigentlich eine neue Zeile ein, welche dann mit einem Lesezeichen markiert wird, sodass die restlichen Zeilen mit der Funktion Zeilen ohne Lesezeichen löschen gelöscht werden können. Und dann im Anschluss willst du ja wohl noch die -Tags entfernen, das ist das zweite Suchen und ersetzen.

lagom · 8. Oktober 2014

Nach dem ersten Suchen/Ersetzen wird mir sowas ausgespuckt:

Im Anschluss an ein Bürogebäude mit Schauraum
Im Zusammenhang mit der Umnutzung des
Es handelt sich um eine Pilotfiliale, die in Bezug auf Nachhaltigkeit
bleiben, der sich für die Bereitstellung von Raum für Kunst und Kultur
man geplant, den Neubau im Jahr 2010 in Betrieb zu nehmen, daher auch
Die Kosten dürften sich ohne Hotel auf einen tiefen zweistelligen

Also eigentlich noch zu viele Informationen, weil auch das, was zwischen und steht, erhalten bleibt.

simpsonsfan · 8. Oktober 2014

Werden also keine Zeilenumbrüche eingefügt? Beim ersten Ersetzen wird auch noch nichts gelöscht, das Löschen erfolgt erst durch Zeilen ohne Lesezeichen löschen.

Wenn bei dir die Zeilenumbrüche nicht funktionieren, stimmt irgendwas mit deinem Notepad nicht, welche Version hast du?

lagom · 8. Oktober 2014

Beim Ersetzen hängt sich das Programm immer mal wieder auf. Ich hatte gerade auch schon kurzzeitig so eine Liste, wie ich sie wollte, aber beim nächsten Mal hängt er sich wieder auf. Die über 9000 Treffer scheinen das Programm wohl etwas zu überfordern...

simpsonsfan · 8. Oktober 2014

Schon möglich, dann müsstest du entweder andere Programme testen oder die Datei erstmal in kleinere Stücke aufspalten.

lagom · 8. Oktober 2014

Ja, aber ich bin erstmal froh, dass es so funktioniert. Danke für die kompetente Hilfe.

simpsonsfan · 8. Oktober 2014

Bitte. Gut, wenn es jetzt erstmal klappt.

Suche

[Notepad++] Makro erstellen, suchen-löschen innerhalb von HTML-tags

lagom

Cadet 2nd Year

simpsonsfan

Captain

lagom

Cadet 2nd Year

simpsonsfan

Captain

lagom

Cadet 2nd Year

simpsonsfan

Captain

lagom

Cadet 2nd Year

simpsonsfan

Captain

lagom

Cadet 2nd Year

simpsonsfan

Captain

lagom

Cadet 2nd Year

simpsonsfan

Captain