News Neuer Suchindex bei Google

bitfunker

ewohner
Registriert
Okt. 2001
Beiträge
18.283
Google hat bekannt gegeben, dass der Suchindex auf eine neue Architektur namens Caffeine umgestellt wurde. Diese soll das Web mit weniger Verzögerung durchkämmen und so für aktuellere Ergebnisse sorgen. Hierzu bedient man sich einer neuen Infrastruktur; die Oberfläche der Suchmaschine bleibt unverändert.

Zur News: Neuer Suchindex bei Google
 
Wie bewältigen die bitte solche stetig ansteigende Datenmengen?:o
 
Täglich mehrere hundert gb ... wo ist das Problem ... wir sprechen hier von Google.
Die haben auch noch genug Speicher um offene WLAN Netze und ganze Städte in 3 Dimensionen abzuspeichern. Die stemmen noch ganz andere Datenmengen.
 
sowas lässt sich gut was kosten :)
 
vorallem, wie durchsucht man so viel innerhalb von den paar sekunden die nach einem klick auf den googlebutton bleiben?
irgendwas damit haben wohl die illuminaten zu tun.
 
@ Velika

ich glaube nicht das google die paar Tausend 2TB platten schmerzhaft findet^^ die Lachen da eher drüber :D

An sich finde ich das neue Konzept eigentlich ganz gut warum warten bis alle Daten da sind wenn man auch Zwischenergebnisse liefern kann
 
Nur mal zur Anregung

100 Millionen GigaByte = 100000 1TB-Platten.
 
Hmm also auf meinen Seiten war der Googlebot immer mehrmals täglich, das mit dem "wochenlang" müssen wohl einzelfälle gewesen sein sonst wäre es ja sinnlos gewesen dass der Googlebot so fleißig ist.

Interessant wirds erst so richtig wenn Google mal eine semantische Suche veröffentlicht.
 
DVNO schrieb:
vorallem, wie durchsucht man so viel innerhalb von den paar sekunden die nach einem klick auf den googlebutton bleiben?
irgendwas damit haben wohl die illuminaten zu tun.
Die Rechenzentren von Google sind nun nicht gerade schwach ausgestattet und da darüber dann ja der Index abgesucht wird geht das eben recht schnell.

@News
Und ich dachte schon Google wäre schnell und jetzt noch schneller, wunderbar. Nur noch viel effektiver wird schwierig.
 
Bei solchen News erinerre ich mich immer an einige frühe Star Trek TNG Folgen, bei denen der Schiffscomputer teils noch mehrere Minuten bis Stunden brauchte um eine Suchabfrage auszuführen...nunja, heute 20 Jahre später macht Google ähnliches in Sekundenbruchteilen. In den späten 80ern schienen Warpantrieb und co wohl plausibler zu sein als das schnelle Auffinden bestimmter Daten :lol:
 
Zuletzt bearbeitet:
Ennox schrieb:
Jedenfalls nicht mit SSDs :D

doch, z.m. zum teil sogar sehr wahrscheinlich. allerdings nicht mit unseren consumer flash-ssds

edit: zu dem schnellen durchsuchen: dazu gibt es effiziente datenstrukturen. ne ganze menge sogar, jeh nach anwendung (z.b. avl-bäume, skip-listen, a-b-bäume und einige andere). mit denen durchsucht man in logarithmischer zeit. mit spezielen hash tables auch in konstanter zeit, aber sie verrbrauchen wesentlich mehr speicher. bei benutzung von cuckoo hash tables geht das aber auch besser.
 
Zuletzt bearbeitet:
@DVNO

des ist gar nicht mal so extrem kompliziert. Alles was du brauchst sind ein paar hunderttausend Gigaherz Rechenleistung um mehrere tausend Anfragen pro Sekunde bedienen zu können, mehrere redundatnte 10Gbit Anbindungen ans Internet für jedes Rechenzentrum + mehrere Uplinks für internes Netzwerk, eine hochperformante Datenbank, die wiederum ebenfalls mit hoher redundanz arbeitet, LOKALISIERTE Suchergebnisse nach Standort des Benutzers (Vergleicht mal die Suchergebnisse von Google DE und EN in Deutschland, sucht euch dann einen Proxy in den USA oder Frankreich und sucht dann mal nach Sucheregbnissen in DE und EN - ihr werdet nichtmal Ansatzweise dieselben Ergebnisse gelierfert bekomen) und dann braucht man natürlich eine schlaue Datenstruktur für den Index.

Einen Index zu durchsuchen ist DANN nämlich eigentlich keine große Sache mehr, zumal dür nur die Anzahl der Gesamtergebnisse sowie die ersten 10 Ergebnisse brauchst. Die Berechnung des Indexes ist das, was deutlich mehr Leistung erfordert. DAS wäre für mich eher die Frage, wie das zu bewerkstelligen ist. Aber mit genügend Rechenleistung, einem guten Algorythmus scheint das ja ganz gut zu klappen ^^
 
was mich persönlich irgendwie stört ist das die verknüpfungen wie z.b
# Seiten auf Deutsch
# Seiten aus Deutschland
nicht mehr da sind erst wenn man ne suche gestartet hat dan als menü links
 
TchiboMann schrieb:
Die Berechnung des Indexes ist das, was deutlich mehr Leistung erfordert. DAS wäre für mich eher die Frage, wie das zu bewerkstelligen ist. Aber mit genügend Rechenleistung, einem guten Algorythmus scheint das ja ganz gut zu klappen ^^

falls es dich interessiert:
parallelisierte matrix-vektor-multiplikation und das net wird als eine übergangsmatrix dargestellt deren stationäre verteilung als grenzverteilung einer ergodischen markoffkette berrechnet wird. die berrechnung ist iterativ und immer wieder die oben genannte berrechnung eines vektors mal einer matrix. das geht gut zu parallelisieren.

mit ein paar zusätzlichen kniffen kann man da noch ein paar faktoren rausholen. was google da macht ist 1. kein geheimnis (bis auf die paar feinheiten) da es publiziert wurde und 2. ansich ne einfache sache.

bei interesse kannst du danach googlen ( ;) ) oder ich kanns dir auch gern per pm erklären. hab das schon oft genug meinen studenten erklärt :p
 
Hab neulich an der Uni einem Vortrag von einem Google Mitarbeiter über die Zukunft des Internets gelauscht... Der meinte, die haben mehrere Teams, die den ganzen Tag nichts anderes machen als Festplatten nachzuschieben ;) Stell ich mir extrem spannend vor.
 
Zurück
Oben