Big Data: Die Potentiale von Daten verstehen, Projekte daraus verwirklichen und seine Daten entfalten.

Einer der Pioniere der Computertechnologie, Alan Turing, träumte bereits davon, dass es einmal möglich sein wird, sich mit einer Maschine zu unterhalten. Mit Big Data und dem Semantic Web könnte Turings Traum bald Wirklichkeit werden. Der nach Alan Turing benannte “Turing-Test” ist eine Versuchsanordnung, bei der eine Person einem Gegenüber Fragen stellt. Allerdings sieht der Fragensteller sein Gegenüber nicht, weiß damit auch nicht, ob ihm eine Maschine oder ein Mensch antwortet. Die Antworten selbst sollen Aufschluss darüber geben, ob ein Mensch sie gegeben hat oder nicht. Eine künstliche Intelligenz, der es möglich ist, Sprache und Bedeutung zu verstehen, muss sehr viele Informationen auf einmal auswerten.

Wie das Semantic Web Sprache versteht

Das Wort “Golf” kann ganz verschiedenes bedeuten. Es ist eine Sportart, ein Autotyp, aber auch der Teil des Meers wie der Golf von Mexiko. Wann welche Bedeutung des Wortes gemeint ist, hängt stark vom Kontext ab. In einem Gespräch ist uns sehr schnell klar, was jeweils mit Golf gemeint ist. Wenn jemand allerdings in den Google-Suchschlitz das Wort Golf eintippt, weiß der Suchalgorithmus im Regelfall nicht automatisch, wonach wir suchen. Inzwischen besitzt Google eine ganze Menge Informationen über seine Nutzer, sodass die Suchmaschine Annahmen machen kann, nach was eine Person sucht. Deswegen sehen Suchergebnisse, bei identischen Suchbegriffen, nicht immer gleich aus.

Diese Unterschiede zu verstehen ist nur der erste winzige Schritt in die Richtung intelligente Mensch-Maschine-Kommunikation. Die manchmal witzigen und verschrobenen Antworten von Siri zeigen, wie weit der Weg noch ist, bis eine künstliche Intelligenz wirklich versteht, was wir meinen. Zudem sind die Antworten im Moment mehr oder weniger stark formalisiert und vorgegeben. Siri kann also nicht wirklich aus einem Wortschatz auswählen und Sätze bilden. Oder neue Worte dazulernen, auch wenn wir versuchen würden, ihr die Worte zu erklären.

[selectivetweet]Mit dem #SemanticWeb beginnt die Technik uns Menschen zu verstehen, wenn wir sprechen. #BigData[/selectivetweet]

Die Chance aber besteht, dass ein Computer sich selbständig die Bedeutung von Worten erschließt. Dazu ist es “nur” nötig, eine genügen große Menge von Texten nach dem entsprechenden Wort und seiner jeweiligen Verwendung zu analysieren. Denn die Semantik, also die Bedeutung der Worte, entstehen aus ihrer Verwendung. Der Satz “Ich gehe Golf spielen” kann nur auf eine Sportart verweisen. Das heißt, wenn das Wort “Golf” im Zusammenhang mit dem Wort “spielen” auftaucht, ist die Sportart Golf gemeint. Manchmal ist es aber nicht so eindeutig. Nur der Satz “Ich gehe zum Golf” genügt beispielsweise nicht aus, um eindeutig zu identifizieren, was gemeint ist. In solchen Fällen sind mehr Informationen notwendig. Um so komplexe Zusammenhänge zu analysieren sind enorme Datenmengen in Echtzeit auszuwerten.

  • Was steht in den Sätzen davor und danach?
  • Wer sagt den Satz?
  • In welcher Situation fällt der Satz? etc.

Semantic Web: Das Web 3.0 wird uns verstehen

Dank Big Data wird das Semantic Web, auch Web 3.0 genannt, die Fähigkeit erwerben, uns zu verstehen. Dank vieler Informationen, die zu jeder Zeit verfügbar sind und einbezogen werden können. Ein Smartphone beispielsweise weiß, ob sich sein Besitzer gerade zuhause aufhält, im Urlaub ist, auf dem Weg zu einem Termin ist, welche Uhrzeit gerade ist etc.

Solche Umgebungsvariablen helfen, um bestimmte Bedeutungen auszuschließen oder wahrscheinlich zu machen. Den Status quo dessen, was derzeit möglich ist, stellte das Computerprogramm Watson unter Beweis, als es in der Fernsehsendung Jeopardy gegen die menschlichen Herausforderer gewann. Dazu wertete er eine Textdatenbank mit 100 Gigabyte in Echtzeit aus. Allerdings nutzte er dazu nicht nur einen einzigen intelligenten Algorithmus, sondern eine große Menge von verschiedener Algorithmen, die alle gleichzeitig dieselbe Aufgabe bearbeiteten.

[selectivetweet float=“left“]Mit #BigData wird aus dem Web 2.0 das #Web 3.0 – auch #SemanticWeb genannt.[/selectivetweet]

Je mehr Algorithmen auf das gleiche Ergebnis kamen, desto wahrscheinlicher war die Antwort richtig. Das Prinzip des Semantic Web, auf dem auch Watson beruht, hat den Vorteil in größeren Zusammenhängen zu “denken”. Damit Watson zu dieser Leistung fähig war, benötigte er 90 Server und insgesamt 16 Terabyte Ram. Da es nur eine Frage der Rechenleistung ist, um die Bedeutung der Sprache zu verstehen, ist es also nur eine Frage der Zeit, bis das Semantic Web Wirklichkeit wird.