Adressextration...wie?

benny1233

Lieutenant
Registriert
Jan. 2010
Beiträge
716
Adressextraktion...wie?

Hallo Leute!

Ich stehe vor folgendem Problem! Ich möchte aus einer Googleabfrage die nach Firmen aus bestimmten Bereichen kommen oder bestimmte Leistungen anbieten, die Kontaktdaten extrahieren. Dafür ist sicher ein Software nötig und sicher muss man auch einen Entwickler damit beauftragen. Wo finde ich nun so einen Entwickler? Was muss der können? Hat jemand eine Idee?

Gruß Benny
 
Zuletzt bearbeitet:
benny1233 schrieb:
Hallo Leute!

Ich möchte aus einer Googleabfrage die nach Firmen aus bestimmten Bereichen kommen oder bestimmte Leistungen anbieten, die Kontaktdaten extrahieren.

Gruß Benny

Kannst du das etwas genauer erklären, ich versteh grad nur Bahnhof.
 
ich möchte z.b. alle firmen haben, die business intelligence lösungen anbieten. ich gebe also bei google ein: softwarenbieter business intelligence ein. dann soll die software automatisch alle firmen rausfiltern und die kontaktdaten in eine excel-tabelle oder eine datenbank einfügen!
 
Wie soll das funktionieren? Woher soll eine Software wissen, wo auf einer Seite die Adresse steht und welcher Teil des Seitentextes diese enthält? Software, die Texte verstehend lesen kann, gibt es leider noch nicht, da hilft der fähigste Entwickler nix... DUNnets Vorschlag ist nicht der schlechteste, ansonsten hilft wohl nur good ol' handwork ;)
 
ich habe aber schon davon gehört, dass sowas geht!
 
Für genau diesen zweck gibt es bereits etliche Internetseiten. Leider fällt mir nur grad keine ein.

Ansonsten wirst du mit einer selbstprogrammierten Software nicht viel glück haben. Woher soll die Software auch wissen wo sie die Informationen her bekommt. Google's Rückmeldungen auf solche Anfragen sind zu Unterschiedlich als das man eine Software daür schreiben könnte.

Einzige möglichkeit ist, das sich die Firmen selbst über ein Formular in eine Datenbank eintragen. Aber wie gesagt, es gibt solche Seiten bereits.
Ergänzung ()

BrainFart schrieb:
Wie soll das funktionieren? Woher soll eine Software wissen, wo auf einer Seite die Adresse steht und welcher Teil des Seitentextes diese enthält? Software, die Texte verstehend lesen kann, gibt es leider noch nicht, da hilft der fähigste Entwickler nix... DUNnets Vorschlag ist nicht der schlechteste, ansonsten hilft wohl nur good ol' handwork ;)

Das stimm nicht ganz, denn Google selbst ist eine Texteverstehende-Software.
Da liegt aber auch der knackpunkt. Ich weiß nicht wie hoch dein Budget für Programmierer ist, aber wenn du einer Software wie google Kokurenz machen willst, dann wirst du es schwer haben und eine paar Millionen aufbrinegn müssen.
 
Zuletzt bearbeitet:
...extraktion...
edit: del_me
 
Enteroctopus schrieb:
Das stimm nicht ganz, denn Google selbst ist eine Texteverstehende-Software.
Da liegt aber auch der knackpunkt. Ich weiß nicht wie hoch dein Budget für Programmierer ist, aber wenn du einer Software wie google Kokurenz machen willst, dann wirst du es schwer haben und eine paar Millionen aufbrinegn müssen.

Jein, natürlich kann Google Texte in dem Sinn "verstehen", dass es sie hinsichtlich fester Algorithmen analysieren und zu seinen Zwecken beurteilen kann, allerdings könnte der Begriff "Texteversteh-Software" bei technisch weniger versierten Menschen den Eindruck erwecken, man könnte Google einen Roman zum Lesen geben und es nachher auffordern, einen Aufsatz über den Inhalt zu schreiben ;)
 
nennt man sowas nicht spider-software?
 
Das würde gehen, wenn die Anbieter Tags verwenden würden, die für das "sematische web" bestimmt sind.
Anderer Vorschlag:

Die Software kann auch wie ein Crawler vorgehen, sie nimmt die Hauptseite der Firma, sucht alle links auf ihr raus und folgt diesen links, vorrausgesetzt die domäne des Ziels ist identisch (damit wirklich nur auf der firmenseite geblieben wird). Auf jeder Seite, die besucht wird, sucht es per regex oder Wörterbuch nach stellen, wo eine Adresse steht. bei dieser Lösung wirst du in der Excel aber keine differenzierten Spalten machen können mit "Straße, PLZ" (bzw. schon, aber das macht es noch komplizierter). Per Data-Cleansing könntest du auch noch mehr erreichen.
Findet er auf der aktuellen Seite keine Adressen, sucht er wieder alle Links raus und folgt diesen (vorrausgesetzt gleiche Domäne und die seite wurde noch nicht besucht).

Warum hier alle denken, dass sowas nicht geht weiß ich nicht, das Programm muss doch nicht den Text eines <a> links verstehen um ihn zu besuchen x_X. Einfach bsuchen, Nach Wörtern wie "Kontakt" / "Anschrift" etc suchen oder per Regex Textstellen raussuchen, die ein Adressformat haben (Gibt genug Regex Seiten wo man sowas findet)
 
Zuletzt bearbeitet:
benny1233 schrieb:
Ich stehe vor folgendem Problem! Ich möchte aus einer Googleabfrage die nach Firmen aus bestimmten Bereichen kommen oder bestimmte Leistungen anbieten, die Kontaktdaten extrahieren. Dafür ist sicher ein Software nötig und sicher muss man auch einen Entwickler damit beauftragen. Wo finde ich nun so einen Entwickler? Was muss der können? Hat jemand eine Idee?

Die Frage kommt mir bekannt vor... Hab ich Dir da nicht schon in einem anderen Forum was zu geschrieben...?

BrainFart schrieb:
Wie soll das funktionieren? Woher soll eine Software wissen, wo auf einer Seite die Adresse steht und welcher Teil des Seitentextes diese enthält? Software, die Texte verstehend lesen kann, gibt es leider noch nicht, da hilft der fähigste Entwickler nix... DUNnets Vorschlag ist nicht der schlechteste, ansonsten hilft wohl nur good ol' handwork ;)

Bisschen Kreativität mal an den Tag legen... :D

Die Adressen ergooglen ist sehr simpel, z.B.:

http://maps.google.de/maps?f=q&sour...+Hessen&t=m&z=13&ei=1_7hTvLGFMO1OK7rmJoM&pw=2

Die Firmen sind jeweils gekennzeichnet mit

Code:
class="name lname"

Und die Adressen mit

Code:
class="adr"

Auslesen mit Regex, XSLT oder sonst was, in der Anfrage "Frankfurt" durch die nächste Stadt ersetzen, und weiter geht es.

Das ist doch wirklich extrem schnell runterprogrammiert.
 
ok, und wo bekomme ich jemanden her, der sowas kann? möglichst schnell!
 
kann mir nicht mal jemand einen programmierer besorgen, der sowas kann? :D
 
das was es kostet! aber das dann wohl besser telefonisch (mindestens). da möchte ich dann schon sicher gehen, dass es das wird was ich brauche. sowas kann ja auch schnell teuer werden. hauptsache, es geht schnell!
 
Zurück
Oben