URL Scraper

SSD1TB · 10. Juli 2024

Gibt es ein Tool welches URL`s von einer Website sammelt und in einer Textdatei speichert?
So dass man zum Beispiel einen Webkatalog als URL eingibt und alle Links zu externen Seiten welche dieser enthält
können exportiert werden?
Habe schon einen Haufen solcher gefunden, aber keinser taugt was oder kostet über 100 Dollar.
Ein einfacher Spider würde eigentlich reichen, er muss nur due URL`s speichern.

n0dau42 · 10. Juli 2024

Kannst du dir relativ einfach selber coden:

https://www.geeksforgeeks.org/extract-all-the-urls-from-the-webpage-using-python/

DEADBEEF · 10. Juli 2024

Könntest ganz billig mit curl die jeweilige seite aufrufen und dann den jeweiligen code greppen. Z.b href bei html oder was auch immer da eingesetzt wird.
Das kannst du dann wiederum in eine txt datei umleiten

SaxnPaule · 10. Juli 2024

Das Problem ist, dass einfaches Crawling nicht mehr wie früher funktioniert, da fast alle modernen Seiten viel Javascript haben und sich der Inhalt der Seite dynamisch ändert, ohne dass sich die eigentliche URL ändert.

Dadurch gibt es auch keine Sitemaps mit tausenden URLs mehr.

SSD1TB · 10. Juli 2024

Ich habe webcopy benutzt um ganze Websites herunterzuladen, und habe ein BASIC Programm geschrieben was die URL`s extrahiert. Ist nur etwas langwierig.
Ich möchte eine ganze Website crwalen, keine Einzelseiten.

SaxnPaule · 10. Juli 2024

SSD1TB schrieb:
Ich möchte eine ganze Website crwalen, keine Einzelseiten.

Das funktioniert so ohne Weiteres nur mit statischen Links und statischem Content.

andy_m4 · 10. Juli 2024

DEADBEEF schrieb:
Könntest ganz billig mit curl die jeweilige seite aufrufen und dann den jeweiligen code greppen. Z.b href bei html oder was auch immer da eingesetzt wird.

So als Ergänzung zu Deiner Idee:
Da tut es im Grunde ein Einzeiler a-la:
curl -s "https://grab.this.com/" | grep -oP '(?<=\")https?://[^\"]+'
Wenn man will kann man noch ein |uniq dran hängen, um doppelte URLs rauszufiltern und noch einen |sort, falls man noch sortieren will. Und ein > /path/to/mylinklist.txt, wenn man das dann noch in eine Datei schreiben will.
Die Tools die man dafür braucht, sind auch bestimmt günstiger als 100 Dollar. :-)

Ergänzung (10. Juli 2024)

SaxnPaule schrieb:
Das Problem ist, dass einfaches Crawling nicht mehr wie früher funktioniert, da fast alle modernen Seiten viel Javascript haben und sich der Inhalt der Seite dynamisch ändert

Ein durchaus valider Punkt. Ist das der Fall, und bereitet das Probleme dann muss man da anders rangehen.
Evtl. dann mit sowas wie phantomJS
Und dann via document.querySelectorAll('a') die Links einsammeln.

Karl1b · 11. Juli 2024

@SSD1TB

Genau das was du suchst habe ich schonmal geschrieben:

https://github.com/Karl1b/webmontag

SSD1TB · 12. Juli 2024

Hallo Karl1b,
Ich habe ein Tool gefunden, nennt sich XENU, läuft recht flott.
Danke für Deinen Link, ich brauche dafür LINUX und die Entwicklerumgebung go oder wie installiert man das?

Karl1b · 12. Juli 2024

Ich kann dir leider beim Thema Windows(?) nicht weiterhelfen, kenne mich nur mit Linux aus, und fasse Windows nur für viel Schmerzensgeld an ;-) . Dachte du nimmst bestimmt eh Linux.

Aber wenn du schon ein Tool gefunden hast ist ja alles gut.

PS: Go ist eine sehr gute Programmiersprache.

SSD1TB · 12. Juli 2024

Ich habe LINUX auf einem zweiten schwächeren Rechner. Werde beim nächsten Laptop auf LINUX umstellen weil Windows eigentlich Trojan heissen müsste.

andy_m4 · 12. Juli 2024

SSD1TB schrieb:
Danke für Deinen Link, ich brauche dafür LINUX und die Entwicklerumgebung go oder wie installiert man das?

Steht auf der Seite. Und im Grunde sollte das so im Groben auch unter Windows funktionieren.
Und falls man an einer Stelle stolpern sollte, dann muss man halt sich den konkreten Fall mal angucken.

Suche

SSD1TB

Ensign

n0dau42

Ensign

DEADBEEF

Commander

SaxnPaule

Fleet Admiral

SSD1TB

Ensign

SaxnPaule

Fleet Admiral

andy_m4

Admiral

Karl1b

Gast

SSD1TB

Ensign

Karl1b

Gast

SSD1TB

Ensign

andy_m4

Admiral

Ähnliche Themen