Webpages als HTML automatisiert speichern

Niklagaming · 10. August 2020

Hallo zusammen,
ich stehe momentan vor einem Problem das ich nicht so recht gelöst bekomme.
Ich möchte auf einer Website mehrere Seiten als HTML downloaden und abspeichern. Da es sich um viele Seiten handelt will ich das ganze automatisieren. Dabei taucht das Problem auf, dass die Seiten über einen Button aufgerufen werden, dessen Link sich aber mit jeder Seite ändert. Im Endeffekt würde mir ein Marko reichen welches die Seite mit fortlaufender Nummer speichert, dann auf den genannten Link klickt und sich dann "neustartet". Ich hab leider keine Ahnung wie ich das einigermaßen umsetze und bin mit googlen leider auch nicht weit gekommen. Meistens scheitert es einfach daran das sich der Link hinter dem besagten Button immer ändert.
Ich wäre sehr dankbar wenn mir jemand einen Denkanstoß geben könnte.

Vielen Dank!

BeBur · 10. August 2020

Das Stichwort dazu heißt "Scraping". Es gibt einschlägige Addons für Browser.
Oder möchtest du X-mal wirklich 1:1 den selben Button von der selben Unterseite aufrufen? Das geht mit den normalen Tools eventuell nicht. Das ginge mit ein wenig Scripting falls du Grundlagen von PowerShell, Bash oder Python beherrschst.

Niklagaming · 10. August 2020

Im Endeffekt ändert sich wirklich nur der Inhalt der Unterseite, der Rest bleibt gleich. Die Länge variiert aber, sprich die Position des Buttons ist nicht immer an der selben Stelle.
Mir fehlt die Idee wie ich mit Python auf eine Website zugreife und mich über Python auf der Website einlogge. Das ist denke ich mal das grundlegende Problem...

Bamu · 10. August 2020

Mit den meisten Programmiersprachen lässt sich diese Aufgabe bewältigen. Für Python z.B. gibt es Bibliotheken wie Requests und Beautiful Soup mit denen du Webseiten auslesen und auch speichern kannst.

p4cx · 10. August 2020

Ich habe mit Python und Selenium (Python Selenium Docs) schon mal einen Scraper gebaut. Es ist leicht zu nutzen und nutzt den Browser. Login, Inhalte von dynamischen Popups, etc. gehen damit einwandfrei.

Kann aber zu den, von @Bamu vorgeschlagenen Bibliotheken nix sagen, also was für deinen Zweck dann besser ist, das musst du selber herausfinden.

Bamu · 10. August 2020

Beautiful Soup ist relativ einfach zu benutzen, Selenium würde ich nur verwenden, wenn die Inhalte nicht direkt ausgelesen werden können und man den Umweg über den Browserihnhalt gehen muß.

netzgestaltung · 10. August 2020

alt aber gut: wget -r:
https://www.lifewire.com/uses-of-command-wget-2201085

Suche

Webpages als HTML automatisiert speichern

Niklagaming

Lt. Junior Grade

BeBur

Commodore

Niklagaming

Lt. Junior Grade

Bamu

Ensign

p4cx

Ensign

Bamu

Ensign

netzgestaltung

Captain

Ähnliche Themen