Big Data: Die Potentiale von Daten verstehen, Projekte daraus verwirklichen und seine Daten entfalten.

Im Jahr 2004 wurde der Begriff „googeln“ in den Duden aufgenommen. Seitdem ist viel geschehen. Wer regelmäßig Google nutzt, hat vermutlich bemerkt, dass in der englischsprachigen Version seit 2008 und in der deutschen Version seit 2009 schon ab dem ersten eingetippten Buchstaben Vorschläge von Google kommen, das Wort zu vervollständigen. Meist erscheinen auch dazu passende Suchbegriffe. Je mehr eingetippt wird, desto näher kommt Googles Vorschlag dem eigenen Suchwunsch.

Diese Funktion nennt sich Google Suggest und ist selbst nicht nur ein Vorschlag. Denn sie lässt sich nicht deaktivieren. Nicht verwechselt werden sollte sie mit Google Instant. Dabei handelt es sich um eine Funktion, die bereits während der Eingabe Suchergebnisse liefert. Hat das etwas mit Statistik zu tun? Ja, sogar eine ganze Menge.

Autocomplete, Big Data und Statistik

Die jeweiligen Vorschläge basieren auf der Analyse der Häufigkeiten der Suchanfragen anderer Nutzer sowie dem eigenen Suchverhalten. Die häufigsten Suchbegriffe, welche mit den eingetippten Buchstaben beginnen, und dann die am häufigsten in Kombination mit dem Suchbegriff eingegeben Wörter erscheinen oben in der Liste der Vorschläge.

Doch Google kann sich auch dem Benutzer individuell anpassen: Besitze ich ein Konto bei Google Mail, Google+, YouTube oder einem anderen mit Google verbundenen Dienst, dann schlägt Google mir auch die eigenen bereits eingegebenen Suchbegriffe zur Vervollständigung vor – zur Unterscheidung zu den allgemeinen Vorschlägen farblich markiert. Google berücksichtigt zudem den geografischen Hintergrund des Benutzers: Wer aus Berlin nach „Bahnhof“ sucht, erhält andere Ergebnisse als jemand aus Köln; deutsche Suchen nach „McDonalds“ liefern andere Ergebnisse als eine Suche aus Großbritannien.

Personalisierte Suche

Die Algorithmen, welche Google zur Erstellung der jeweiligen Vorschläge verwendet, sind ein gut gehütetes Betriebsgeheimnis. Analysiert werden aber nicht nur die Häufigkeiten der eingegeben Suchbegriffe selber, sondern auch die Wortkombinationen. Verfügt Google über weitere Informationen, beispielsweise über Wohnort, Geschlecht, Alter oder bevorzugte Seiten des Benutzers, werden die Vorschläge noch individueller. Von der statistischen Methodik her ist das zwar nicht besonders schwierig, aber die Kunst besteht in der Auswertung gewaltiger Daten- und Informationsmengen, bevor dann bis zu vier Vorschläge auf dem Bildschirm aufleuchten. Das bedeutet aber auch, dass jeder einzelne Benutzer Google durch seine Suche mit verändert – es handelt sich dabei also gewissermaßen um ein „Gemeinschaftsprojekt“.

Google verwendet somit nicht nur die unbedingten oder marginalen relativen Häufigkeiten von Anfragen, die sich (stark vereinfacht ausgedrückt) als der Anteil der jeweiligen Suchanfrage an allen Anfragen zum jeweiligen Zeitpunkt errechnen lassen. Vielmehr nutzt Google auch bedingte relative Häufigkeiten, ein Instrument der Bayesianischen Statistik. Dabei werden weitere Eigenschaften der Person, die die Anfrage stellt, berücksichtigt.  

Dieser Beitrag eröffnet eine vierteilige Serie über die Chancen und Risiken von Google Suggest.

Weiterführende Links: