Webcrawler für Seiten mit Vorschau?

innergetic · 12. Januar 2024

Hallo zusammen,
ich suche Hilfe bei einem Problem: ein Kollege hat Fotos einer Veranstaltung online gestellt, aber in der schlechtestmöglichen Weise: Verteilt über zehn Seiten, jeweils mit einem Vorschaubild, auf das man dann klicken muss, um das nächste zu sehen. Kein Weiterblättern, man muss dann das Bild wieder schließen (SEHR kleines X), das nächste anklicken usw. Bis ich da durch bin ist wieder Weihnachten.
Ich habe gefragt, ob er mich nicht einfach einen Stick oder einen Link zur Cloud geben kann, aber findet, dass die Seite ausreicht. Er hat nicht mal Werbung o.ä. geschaltet, da entgeht ihm nicht mal was...

Also meine Frage: hat jemand einen Tipp, einen Webcrawler o.ä., einfach zu bedienen für so etwas? Die Bilder liegen auch schön hierarchisiert in Ordnern,
beispielseite.de/fotos/WNF/1
beispielseite.de/fotos/WNF/2
beispielseite.de/fotos/WNF/3
der Crawler müsste also "nur"
beispielseite.de/fotos/WNF/[1 - 250] aufrufen und dann je das Bild auf jeder Seite speichern.

Bin dankbar für alle Anregungen.

DaysShadow · 12. Januar 2024

So etwas ist mit Python relativ leicht geschrieben, aber muss man halt programmieren können. Bezweifle dass es eine fertige App gibt mit der du das erledigt bekommst.

YY247 · 12. Januar 2024

Probier mal JDownloader.
https://jdownloader.org/jdownloader2

Damit hab ich zumindest in den letzten Jahren immer mal wieder gute Erfahrungen gemacht.

Ponderosa · 12. Januar 2024

Vielleicht ist Googlebot-Image ja was passendes

aluis · 12. Januar 2024

Ich habe früher für sowas immer HTTrack benutzt. Damit kannst du eine komplette Kopie von beispielseite.de auf deinen Rechner ziehen. Die Bilder liegen dann ja wie auf der Webseite schön in einem Ordner...

Die Software ist frei und unterstützt sogar Basic Authentifikation. Damit damals immer komplette Pornoseiten auf meinem PC gezogen ^^ Ist aber wirklich schon 20 Jahre her...

0x8100 · 12. Januar 2024

innergetic schrieb:
beispielseite.de/fotos/WNF/1
beispielseite.de/fotos/WNF/2
beispielseite.de/fotos/WNF/3

ist das der link zum eigentlichen bild? dann müsste eigentlich sowas in der powershell reichen:

PowerShell:

for ($i=1; $i -le 250; $i=$i+1 ) {Invoke-WebRequest http://beispielseite.de/fotos/WNF/$i -OutFile c:\Temp\bild_$i.jpg;}

DukNukem · 12. Januar 2024

@innergetic Haben die Bilder alle den gleichen Dateinamen?
Wenn ja, mit einem Programm deiner Wahl (wäre bei mir wohl Excel) die 250 Links erzeugen und dann via cmd und curl oder ähnlichem herunterladen.
https://stackoverflow.com/questions...a-website-using-powershell-or-from-windows-co

Haben die zusätzlich auch noch unterschiedliche Dateinamenn könntest du nur die Links zu den Ordnern erzeugen und dann mal probieren ob der von @YY247 genannte JD dann das bild findet.

DaysShadow schrieb:
So etwas ist mit Python relativ leicht geschrieben, aber muss man halt programmieren können.

Rein aus interesse von mir. Für den Fall, dass die Dateien auch noch unterschiedlich benannt sind. Wie würde an das via Python machen?
So wie in den Tutorials?
https://www.geeksforgeeks.org/how-to-download-all-images-from-a-web-page-in-python/
https://thepythoncode.com/article/download-web-page-images-python
und dann nur die 250 mal für "beispielseite.de/fotos/WNF/1" ausführen, damit darin dann alle Bilder gedownloadet werden?
Oder könnte da uns noch der Hoster mit irgendwelchen Einstellungen in die Suppe spucken?

Schon einmal vielen Dank für die kleine Weiterbildung!

DaysShadow · 12. Januar 2024

DukNukem schrieb:
So wie in den Tutorials?

Ja, bei deinem ersten Link ist es ja auch vollkommen namensunabhängig und das muss es für einen echten Crawler ja auch sein. Man sucht nach den img-Elementen und lädt dann den angegebenen Content herunter (oder versucht es).

In der Annahme der Link vom TE öffnet eben nicht direkt die Bilder sondern eine Seite auf dem das Bild mit Vorschaufunktion eingebettet ist würde man das in einem Loop die 250 mal machen und jeweils das Bild oder die Bilder dann herunterladen. Wenn ich mal so etwas bastle schaue ich mir immer erst per Hand im Browser die Seite mit den DevTools (STRG-SHIFT-I für Chrom(e/iums) an, denn oft haben bestimmte Elemente ja eine CSS Klasse oder andere Tags anhand derer man die gewünschten Elemente sehr gut filtern kann.

Für den TE würde ich daher auch nicht von einem Crawler sondern einem Downloader sprechen, er weiß ja was da ist und was er will, er kommt halt nur händisch schlecht ran

(Kann natürlich auch sein, dass das hier mit irgendeinem Tool gelöst werden kann - bei mir ist es dann einfach der Spaß an der Sache der mich zu der Lösung führt)

innergetic · 16. Januar 2024

Danke allen, ich probiere das in einem ruhigen moment mal aus!

Suche

Webcrawler für Seiten mit Vorschau?

innergetic

Cadet 2nd Year

DaysShadow

Admiral

YY247

Lieutenant

Ponderosa

Gast

aluis

Lieutenant Pro

0x8100

Fleet Admiral

DukNukem

Lt. Commander

DaysShadow

Admiral

innergetic

Cadet 2nd Year