Inhalt von span's in Excel oder Access kriegen

dani4u

Ensign
Registriert
Mai 2008
Beiträge
249
Hallo.

Ich habe hier eine Webseite, mit etwa 10.000 verschiedenen Artikeln. Diese Webseite gehört nicht mir, sondern ist von einer Firma.

Ich habe vor in nächster Zeit einige Produkte dort zu kaufen, und möchte gerne mit Excel kalkulieren. Bisher hab ich es so gemacht dass ich alles per Hand in meine Excel-Tabelle eingegeben habe.

Ich hoffe es kennt hier jemand eine Lösung für mein Problem, da es sicher auch toller wäre, das gesamte Produktsortiment in der Tabelle zu haben.

Ich bin für alles offen, finde mich in HTML, PHP, XML, CSS, Java eigentlich gut zurecht, kann aber noch nichts sinnvolles selber schreiben.

Wenn ich die gezielten Daten in eine SQL-Datenbank kriege, wär das schon einiges hilfreicher.
Dabei spielt es keine Rolle ob MSSQL oder MySQL etc. hauptsache ich kann die Daten aus der Webseite parsen.

Zum schluss noch ein Beispiel aus einer der rund 10.000 HTML Seiten:

<span id="price1" class="largeName">4,99</span>

hiermit wäre die id "price1" zur identifikation gegeben.
Natürlich ist das bei allen anderen angaben auch der fall.

Achja, es sollte automatisch passieren. D.h.: Man sollte nicht manuell durch die tausende von Produkt-ids gehen müssen... was aber denke ich klar ist.


Hoffe es kennt wer ne software/addon für Access o.ä.
 
Du weisst dass es Betreiber gar nicht gerne sehen wenn Ihre Produktdatenbank ausgelesen wird ;) Such mal auf der Seite ggf. gibt es einen CSV-Download der Artikeldaten.

Aber ganz allgemein würd ich dir empfehlen reguläre Ausdrücke mal anzusehen:
Code:
<span\s*id="price1".*>(.*)<\/span>

Den kannst du auf den HTML-Quellcode der Seite loslassen und er gibt dir den Preis zurück.

Edit: Ins Access würde ich es wiederum über CSV importieren den dein "Preisroboter" als Ausgabe generiert.
 
Zuletzt bearbeitet:
Das weiss ich natürlich, das ding ist aber dass ich die palette eben gerne in der excel datei hätte, da ich in 2-3jahren diese tabelle wieder brauchen werde..
Ausserdem ist es zum privaten Gebrauch. Und ich denke nicht dass der Betreiber großartig was dagegen hätte, denn ich kaufe ja umso mehr, wenn ich weiß was alles definitiv kostet und nicht nur "ungefähr" ;o)

was du mir da an code geschrieben hast versteh ich nicht.. wie soll ich das loslassen?

dachte vielleicht kennt jemand ein kleines skript oder programm das einem die sachen schön rausholt..
 
Zuletzt bearbeitet:
Bei sowas Speziellem wirst du wohl kaum was Fertiges finden. Und es wird auch kaum jemand sonst Interesse dran haben. Hast du eigentlich den Händler schonmal nach ner kompletten Preisliste gefragt?

was du mir da an code geschrieben hast versteh ich nicht.. wie soll ich das loslassen?
Das ist ein Teil eines Codes aber natürlich nichts Komplettes das du jetzt so loslassen kannst und damit eine Exceltabelle rauskommt. Wenn du schon behauptest, PHP zu können, dann solltest du das auch verstehen und eine Lösung erstellen können; bei konkreten Fragen helfen wir dir sicherlich. Wenn du allerdings vollkommen fertige Lösung suchst, bist du im Programmieren-Forum definitiv falsch.

Als ersten Schritt müsstest du mal alle Seiten crawlen. Evtl. kannst du das ganz einfach machen indem du wget (gibts auch für Windows) mit der recursive-Option ausführst (es gibt auch andere Tools um Webseiten offline verfügbar zu machen -> google mal). Andernfalls müsstest du was in PHP bauen um die Start-Seite abzurufen und zu parsen und sich dann langsam durch alle Artikel durchzuhangeln. Bei 10000 Artikeln kann das aber schnell zu einer Sperrung deiner IP führen (=> evtl. IP zwischendurch regelmäßig wechseln)...
Der zweite Schritt ist dann das Parsen der erhaltenen Seiten nach ProduktID und Preis was dann über so eine regular expression wie oben gehen könnte (Stichwort preg_match_all()). Und dann bist du ja praktisch am Ziel. Im Grunde ist das Ganze mit PHP kein großer Akt wenn man PHP kann. Java würde ich hier eher nicht nehmen weil die in PHP vorhandenen Funktionen für solche Einsatzzwecke wirklich extrem gut einsetzbar sind (curl oder file_get_contents sowie preg_match_all) und die Programmierung somit deutlich schneller als mit Java gehen sollte (außer natürlich du bist ein totaler Java-Guru ;) ).
 
Zuletzt bearbeitet:
danke für die antwort.

ja, hab ich mir schon gedacht.
nein hab ich nicht. es ist n internationales unternehmen, und ich denke nicht dass die einem sowas in die hand drücken. Wobei man durch das genaue kalkulieren auch ne menge spart, wie ich bisher schon gemerkt habe.

das mit wget ist ne gute idee, danke.
vielleicht sollte ich mich wirklich bei php dran hängen..

ich habe nie gesagt ich kann php.

was ich kann ist html, css, xml. und hier eben nur die grundlagen. nix mit sternchen ^^

mit php habe ich in sofern zutun, dass ich vor ein paar jahren mit webspell und anderen cms zutun hatte. bzw. ich hab mich eben viel mit content management beschäftigt, und da bot sich php am liebsten an.

mittlerweile bin ich n richtiger joomla-fan. naja wie dem auch sei...

was ich gesagt habe war: ich finde mich im code von php zurecht wenn ich etwas suche, bzw. nen fehler beheben will.
das heißt weder dass ich php kann, noch dass ich überhaupt die syntax richtig verstehe.. ^^


hatte halt gehofft es gibt bereits in excel bzw access ne funktion... von normalen tabellen kann man ja über excel direkt auslesen lassen.. nur über div's nicht.
 
Zurück
Oben