Listensuchabfrage

Noobius

Newbie
Registriert
März 2017
Beiträge
7
Hallo,
ich möchte gerne Listen von Google auf bestimmte Kriterien durchsuchen lassen. Zum Beispiel habe ich eine Liste von Personen und ich will wissen welche von diesen genau bei welchen Online-Zeitungen verzeichnet sind. Am besten wäre es natürlich dies in einer Tabelle auszugeben können. Also solches Muster z. B.:
[...]
Max Mustermann: Einträge bei: spiegel online(3), focus(1), bild(10)
Maxime Mustermann: keine Suchergebnisse nach ausgewählten Kriterien vorhanden
[...]
Die einzelnen Suchsummierungen könnte ich mir dann anzeigen lassen. Oder ich will mir z
B. ausgebenlassen in welchen Datenbänken die Personen sind und wissen ob sie einem preis gewonnen haben in dem ich die Suchen z.B. Nach Max Mustermann + Preis/Auszeichnung/Ehrungen usw. filtere und dann sehen kann ob es Einträge dazu gibt.
Natürlich könnte man auch jeden Eintrag der Liste einzeln googlen und auswerten aber das wird bei großen Datensätzen schon aufwendiger. Gibt es da überhaupt von Google oder vergleichbaren Sucbanbietern oder externe Lösungen zu?

Freue mich auf Antworten
 
Dein Beispiel hat schon ein großes Problem, denn was ist mit Treffern die nicht "Max Mustermann" heißen sondern z,B. "M. Mustermann" oder Max M." ? Außerdem sind Namen kein eindeutiges Merkmal, du brauchst da schon einen eindeutigen Wert um jemanden zu identifizieren wie z.B. die Mischung aus Name und Geburtsdatum wobei du da auch noch doppelte Treffer finden kannst.

Grundsätzlich nennt man das, was du suchst einen Webcrawler aber die kann man relativ einfach aussperren entweder durch die robots.txt sofern du dich an den robots-exclusion-standard hälst. Tust du dies nicht weil du nur juristisch/moralisch bedenkliches vor hast oder meinst ein selbstgeschriebener Crawler sei eine gute Idee gibt es weitere Mittel und Wege dies auszusperren.
Entweder per Captcha auf den Seiten bei zu vielen Aufrufen pro Zeiteinheit von einer Adresse oder ich fange dies vorher mit iptables/$firewall ab.
 
Das stimmt natürlich. Das solche Probleme entstehen hatte ich mir auch schon gedacht. Durch eine Regel die den Anfangsbuchstaben mit Punkt von Vor und Nachnamen als Abkürzung zu lässt liese es sich vielleicht umgehen(+Sonderregeln für Spitznamen z.B. Maximilian und Max Mustermann). Das der Name kein Identifikator für die Identität ist, ist mir klar. Dass das Programm aber alles schafft und ich nicht selbst die Ergebnisse noch prüfen müsste wäre aber auch utopisch - das müsste selbstverständlich selbst ausgewertet werden. Moralisch verwerliches oder kommerzieles habe ich nicht vor. Juristisch auch nicht da ich nach legalen Anbieter suche. Webcrawler haben ja keinen guten Ruf und werden wie von dir angesprochen ja oft gesperrt oder sonstig gehindert. Daher suche ich nach etw. das nicht so einfach gehindert wird. Wäre dies z.B. eine spezielle Google Suchmaschiene die vor den kulumierten Werten ebenso Werbung schaltet wie sonst wo, wo wäre das das Problem?Wahrscheinlich würden die einzelnen Seiten das dann auch als Botanfrage deuten und blocken.
 
Zuletzt bearbeitet:
Zurück
Oben