Daten aus handvoll Websites aggregieren und (offline) aufbereiten (Vorgehensweise)

Pepte

Newbie
Registriert
Aug. 2015
Beiträge
1
Hallooo,
ich brauche keine dringende Hilfe und mein PC geht auch noch. Aber:

Ich mache mir hin und wieder Gedanken über ein kleines Projekt. Ich habe eigentlich keine/kaum Erfahrungen in der Programmierung. Es geht mir dabei auch weniger um konkrete Programmierung, sondern eher um die Schritte und die Möglichkeiten mit der meine Ideen umsetzbar wären.

Es gibt im Netz eine handvoll Websites die ich nutze um mich zu informieren. Dort bekomme ich neben einem Info-Text auch entsprechende Daten zu bestimmten Angeboten: Adresse, Name, Bilder, Preise, Marke, etc. Oft sind aber auch nicht alle eintragbaren Daten in den Websites eingetragen. Insgesamt würde es sich wohl um maximal tausend solcher Datensätze handeln.

Nun würde ich gerne diese Daten aus den paar Websites aggregieren und nach meinen eigenen Vorstellungen aufbereiten und durchsuchbar machen (alles auf meinem PC, also nicht online stellen).

Die Frage ist nun, wie mache ich das? Mit welchen Techniken? Ich habe Begriffe wie Aggregation, Webcrawler und Wrapper schon mal gehört, aber so auf den ersten Blick sieht das alles eine Nummer zu hoch aus. Zu hoch 1. für mich, aber 2. könnte ich mir vorstellen, dass meine Idee auch gar nicht so schwer umzusetzen ist.

Vielleicht gibt es ja auch schon Tools mit denen ich das leicht umsetzen könnte? Bzw. was für Tools für Teilaufgaben könnte man da empfehlen? Und wie gesagt, wie sähe da erst mal ein grobes Konzept aus, wie geht man da vor?

Viele Grüße und einen schönen Abend,

Pepte
 
Würde eher Ruby empfehlen, mit 2 Zeilen kann man sich da die komplette Webseite holen
 
Pepte schrieb:
Ich habe eigentlich keine/kaum Erfahrungen in der Programmierung. Es geht mir dabei auch weniger um konkrete Programmierung, sondern eher um die Schritte und die Möglichkeiten mit der meine Ideen umsetzbar wären.
Ein wenig Erfahrung bedeutet hoffentlich nicht, dass Du schon mal nen Videorekorder programmiert hast. :-)

Pepte schrieb:
Vielleicht gibt es ja auch schon Tools mit denen ich das leicht umsetzen könnte?
Um Programmierung wirst Du aber nicht drum herum kommen. Das Problem ist zu speziell als das es da fertige Lösungen gibt.

Pepte schrieb:
Bzw. was für Tools für Teilaufgaben könnte man da empfehlen? Und wie gesagt, wie sähe da erst mal ein grobes Konzept aus, wie geht man da vor?


Also 1.musst Du natürlich die Sachen von der Webseite holen. Das heißt, Du musst die Infos die Du brauchst aus den ganzen Daten die sonst noch auf der Webseite sind herausextrahieren. Der grobe Ablauf ist zwar bei allen Webseiten gleich, aber das konkrete rausfiltern muss natürlich für jede Webseite extra umgesetzt werden.
2.musst Du das speichern. Da die Daten eine gewisse Struktur haben, wird es irgendwie in Tabellenform gespeichert. Entweder direkt in einer Datenbank oder im sogenannten CSV-Format (was programmiertechnisch am einfachsten ist). Dann kriegst Du die Daten auch problemlos rein in Excel (oder LibreOffice oder was auch immer) und dann kannst Du sie dann schon direkt durchsuchen, sortieren was auch immer. Dann hast Du dafür schon mal keinen Programmieraufwand mehr.

Pepte schrieb:
Die Frage ist nun, wie mache ich das? Mit welchen Techniken? Ich habe Begriffe wie Aggregation, Webcrawler und Wrapper schon mal gehört, aber so auf den ersten Blick sieht das alles eine Nummer zu hoch aus. Zu hoch 1. für mich, aber 2. könnte ich mir vorstellen, dass meine Idee auch gar nicht so schwer umzusetzen ist.
Im Prinzip ist es nicht sooooo schwer. Allerdings wenn die Programmierkenntnisse eher bescheiden sind, dann ist es kein triviales Unterfangen. Man sollte zumindest eine gewisse Ausdauer und Experimentierfreudigkeit mitbringen, wenn man sich aus dem Stand da rantrauen möchte.

Welche Programmier-Sprache man konkret wählt ... nunja. Ein paar wurden hier ja schon genannt. Schön wäre, wenn Du Näheres zu Deinen Vorkenntnissen sagen könntest. Vielleicht kann man darauf aufbauen.

Gruß
Andy
 
Als erstes würde ich prüfen ob die Webseiten irgend eine API zum abgreifen der Inhalte bereitstellen, das würde die Arbeit ungemein erleichtern.

Wenn das nicht der Fall ist, dann kann es durchaus beliebig schwierig werden. Das Schlechteste ist natürlich, wenn man auf sog. Screenscraping angewiesen ist. Vor allem wenn der Betreiber irgendwas am Layout usw. verändert musst du dein Programm an die neuen Gegebenheiten anpassen.
 
Zurück
Oben