URL Scraper

SSD1TB

Ensign
Registriert
Okt. 2010
Beiträge
242
Gibt es ein Tool welches URL`s von einer Website sammelt und in einer Textdatei speichert?
So dass man zum Beispiel einen Webkatalog als URL eingibt und alle Links zu externen Seiten welche dieser enthält
können exportiert werden?
Habe schon einen Haufen solcher gefunden, aber keinser taugt was oder kostet über 100 Dollar.
Ein einfacher Spider würde eigentlich reichen, er muss nur due URL`s speichern.
 
Könntest ganz billig mit curl die jeweilige seite aufrufen und dann den jeweiligen code greppen. Z.b href bei html oder was auch immer da eingesetzt wird.
Das kannst du dann wiederum in eine txt datei umleiten
 
Das Problem ist, dass einfaches Crawling nicht mehr wie früher funktioniert, da fast alle modernen Seiten viel Javascript haben und sich der Inhalt der Seite dynamisch ändert, ohne dass sich die eigentliche URL ändert.

Dadurch gibt es auch keine Sitemaps mit tausenden URLs mehr.
 
Ich habe webcopy benutzt um ganze Websites herunterzuladen, und habe ein BASIC Programm geschrieben was die URL`s extrahiert. Ist nur etwas langwierig.
Ich möchte eine ganze Website crwalen, keine Einzelseiten.
 
DEADBEEF schrieb:
Könntest ganz billig mit curl die jeweilige seite aufrufen und dann den jeweiligen code greppen. Z.b href bei html oder was auch immer da eingesetzt wird.
So als Ergänzung zu Deiner Idee:
Da tut es im Grunde ein Einzeiler a-la:
curl -s "https://grab.this.com/" | grep -oP '(?<=\")https?://[^\"]+'
Wenn man will kann man noch ein |uniq dran hängen, um doppelte URLs rauszufiltern und noch einen |sort, falls man noch sortieren will. Und ein > /path/to/mylinklist.txt, wenn man das dann noch in eine Datei schreiben will.
Die Tools die man dafür braucht, sind auch bestimmt günstiger als 100 Dollar. :-)
Ergänzung ()

SaxnPaule schrieb:
Das Problem ist, dass einfaches Crawling nicht mehr wie früher funktioniert, da fast alle modernen Seiten viel Javascript haben und sich der Inhalt der Seite dynamisch ändert
Ein durchaus valider Punkt. Ist das der Fall, und bereitet das Probleme dann muss man da anders rangehen.
Evtl. dann mit sowas wie phantomJS
Und dann via document.querySelectorAll('a') die Links einsammeln.
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: DEADBEEF
Hallo Karl1b,
Ich habe ein Tool gefunden, nennt sich XENU, läuft recht flott.
Danke für Deinen Link, ich brauche dafür LINUX und die Entwicklerumgebung go oder wie installiert man das?
 
Ich kann dir leider beim Thema Windows(?) nicht weiterhelfen, kenne mich nur mit Linux aus, und fasse Windows nur für viel Schmerzensgeld an ;-) . Dachte du nimmst bestimmt eh Linux.

Aber wenn du schon ein Tool gefunden hast ist ja alles gut.

PS: Go ist eine sehr gute Programmiersprache.
 
Ich habe LINUX auf einem zweiten schwächeren Rechner. Werde beim nächsten Laptop auf LINUX umstellen weil Windows eigentlich Trojan heissen müsste.
 
SSD1TB schrieb:
Danke für Deinen Link, ich brauche dafür LINUX und die Entwicklerumgebung go oder wie installiert man das?
Steht auf der Seite. Und im Grunde sollte das so im Groben auch unter Windows funktionieren.
Und falls man an einer Stelle stolpern sollte, dann muss man halt sich den konkreten Fall mal angucken.
 
Zurück
Oben