Bilder sind Zeichen. Diese wichtige Einsicht ist nicht selbstverständlich. Da Bilder auch die Realität abbilden, können wir „verstehen“, was wir auf Bildern sehen, weil es diese Ähnlichkeitsbeziehung gibt. Sehen wir ein Bild von einem mit Gras bewachsenen Hügel, auf dem ein Mensch steht, der den Sonnenuntergang betrachtet, verstehen wir dieses Bild, weil wir Hügel, Mensch und Sonnenuntergängen aus unserer Erfahrung heraus kennen. Aber wie bringt man einem Computer bei, was auf Bildern zu sehen ist, wo ihnen doch sowohl diese Form der Seh-Erfahrung und das Weltwissen als auch unser Bild-Verständnis fehlen? Diese Frage ist alles andere als trivial, weil sie doch darüber entscheidet, ob und wie Unternehmen, die über gigantische Archive verfügen, Bilder verwalten und die darin steckenden Informationen nutzen können.
Die Frage ist also, wie es gelingen kann, Computern beziehungsweise intelligenten Programmen beizubringen, was überhaupt auf Bildern zu sehen ist und wie dieser Bildinhalt zu verstehen ist. Es gibt eine ganze Reihe von Bildtypen, die wir problemlos lesen können, und das obwohl es in einigen Fällen den eingangs erwähnten Realitätsbezug nicht gibt oder obwohl die Bedeutung dessen, was ein Bild darstellt, komplexer ist als der reine Ähnlichkeitsbezug. Ein Symbol ist beispielsweise mehr als ein bloßes Abbild eines Gegenstandes. Mit einer Rose oder einem Herz können wir starke Affekte wie Liebe zum Ausdruck bringen und wollen dem Gegenüber nicht nur das Bild einer bestimmten Pflanze oder eines Organs zeigen. Auch Gemälde oder mit Photoshop veränderte Fotografien zeigen nicht mehr einfach nur die Realität, sondern erzählen Geschichten, machen vielleicht Anspielungen auf andere Bilder oder verwenden einen speziellen Code.
Warum Google Bilder findet… und warum nicht
Die Bildsuche von Google gibt es zwar seit vielen Jahren. Diese funktionierte aber lange Jahre nur deshalb, weil der Suchalgorithmus von Google die Texte durchsuchte, in denen auch Bilder vorkamen. Die Begleittexte lieferten die gesuchten Stichworte und so kam das Ergebnis zustande. Die Annahme, dass Texte und Bilder zusammengehören und sich gegenseitig erklären, musste als Annahme gegeben sein, damit die Google Bilder-Suche erfolgreich war. Während Google inzwischen auf Deep-Learning-Algorithmen umgestellt hat, basieren Bildsuchen in anderen Bildarchiven großen Teils noch auf der Verschlagwortung von Bildern, sprich: Metadaten. Bildagenturen wie Shutterstock oder 500px lassen ihre Kunden beim Upload die entsprechenden Keywords hinzufügen. Eine solche Kombination aus Text und Bild stellt eine effektive Möglichkeit dar, um mit Bildern umzugehen. Aber diese Methode hat genau an diesem Punkt auch ihre Grenzen: Beispielsweise aufgrund von Homonymen, also Wörtern die etwas unterschiedliches bezeichnen, obwohl sie genau gleich klingen oder geschrieben werden. Sie können zu falschen Suchergebnissen führen. Eine Bildsuche nach „Golf“ kann sowohl zu Ergebnissen beinhalten, die ein Auto der Marke VW enthalten oder die eine bestimmten Sportart darstellen, aber sogar eine Meeresformation zeigen (z.B. „Golf von Mexiko“).
Auch Falschschreibungen von den Suchenden selbst können das Suchergebnis verfälschen oder zumindest die Suche erschweren. Nicht nur, dass solche Methoden per se keine adäquate Lösung des Problems darstellt, es stellt sich darüber hinaus die Frage: Was machen wir mit Bildarchiven, die aus vielen Millionen von Bildern bestehen? Diese von Hand durchzugehen und mit Stichworten zu versehen, ist ein Ding der Unmöglichkeit oder zumindest hochgradig ineffizient. Deep Learning, ein Teilaspekt von Machine Learning, basiert auf der Idee von neuronalen Netzwerken. Algorithmen dieser Art können, sind sie erst einmal trainiert, erstaunliche Dinge leisten:
[selectivetweet]Mit der Hilfe von #DeepLearningAlgorithmen lernen Computer, Bilder zu verstehen. #BigData[/selectivetweet]
Wie klassifiziert Facebook alle Bilder, die auf die Plattform hochgeladen werden?
Auch Facebook arbeitet seit längerem an einem auf künstlicher Intelligenz beruhenden Algorithmus, der dazu in der Lage ist, Bilder zu verstehen. Das Ziel ist es unter anderem die nur visuell wahrnehmbaren Inhalte auch all den Menschen zugänglich zu machen, die blind oder sehbehindert sind. Allein in Deutschland, für das bezeichnender Weise exakte Zahlen fehlen, handelt es sehr wahrscheinlich um weit mehr als 1,2 Mio. Menschen (Stand: 2002).
Wie genau und wie umfassend Facebook dabei ist, Bilder erkennen zu lassen, lässt sich mit der frei erhältlichen Extension für Google Chrome nachvollziehen. Mit„Show Facebook Computer Vision Tags“ lassen sich alle Labels sichtbar machen, die Facebook einem Bild automatisch zuordnet:
Auch mit dem kostenlosen Online-Tool „akiwi“ ist es möglich, für seine eigenen Bilder solche Keywords zur Verschlagwortung automatisch finden zu lassen. Akiwi entstand als Studentenprojekt im Kontext der Forschung der Hochschule für Technik und Wirtschaft Berlin (HTW), wo man sich seit längerem mit Deep Learning und visueller Navigation sowie Bildanalyse beschäftig. All diese Versuche stehen aber an der Schnittstelle zwischen Bilderkennung und Verfahren zur textbasierten Bildsuche.
Bilder als wichtige Datenquelle erschließen
Inzwischen verfügen nicht nur soziale Netzwerke, Bild- und Medienagenturen sowie Foto-Communities wie Flickr und E-Commerce-Händler über unvorstellbare Mengen an Bilddaten. Nahezu jedes größere Unternehmen hat in seinen Daten-Archiven neben Textdokumenten, Tabellen oder Maschinendaten auch Bilder gespeichert. Angesichts der Unzulänglichkeiten der textbasierten Bildsuche stellt sich die dringliche Frage, wie es möglich ist erstens Algorithmen zu entwickeln, die selbständig Bilder erkennen und zweitens ob es neue Wege gibt, Bilder zu durchsuchen. Darum beschäftigen sich die Forscher an der HTW mit neuen visuellen Verfahren, zur Darstellung von großen Bilddatenbanken und zur Bildsuche. Das Prinzip von Google-Maps aufgreifend stellt Picsbuffet Bilder in Form einer Bilder-Landkarte dar, über die die Nutzer in Vogelperspektive fliegen.
Dieses neue Prinzip, Bilder darzustellen, hat gegenüber herkömmlichen Darstellungsformen, bei denen Listen von oben nach unten durchsucht werden müssen, viele Vorteile: Duplikate werden sofort erkannt und ähnliche Bilder in Gruppen dargestellt. Nimmt man das praktische Beispiel E-Commerce, so wird es durch die alternative Darstellungs- und Suchform möglich, ähnliche Produkte auf einen Blick zu finden. Aber nicht nur bei der Produktsuche können mit Deep-Learning-Algorithmen neue Präsentationsformen entwickelt werden. Auch bei der Suche nach urheberrechtswidrig gebrauchten Bildern wäre eine auf den Prinzipien von Deep Learning basierte Bildsuche überlegen.
Deep Learning: Maschinen lernen, Bilder zu sehen und zu verstehen
Entwicklungen in diesem Bereich sind darum so wichtig, weil sie einen wichtigen Bestandteil beim Autonomen Fahren spielen. Bilderkennung ist insofern wichtig, als dass autonom fahrende Autos Bilder wie Verkehrszeichen sehen und richtig kategorisieren können müssen. Sobald die Deep-Learning-Algorithmen einmal trainiert sind, leisten sie erstaunliches. Das „German Traffic Sign Recognition Benchmark“ des Instituts für Neuroinformatik der Universität Bochum übertraf schon vor vielen Jahren die Leistung von Menschen bei der selben Aufgabe bei weitem. Doch nicht nur weil Deep-Learning-Algorithmen exakter und schneller arbeiten, sind sie in Zukunft unverzichtbar. Allein durch die schiere Menge der Datenmassen ist es notwendig, Maschinen das Sehen und Verstehen von visuellen Informationen beizubringen. Deep-Learning-Netzwerke schaffen die Grundlage zur Verwaltung von Big Data, erschließen das wirtschaftliche Potenzial, das in Bilddaten steckt, und stellen einen wichtigen Baustein für weitere künftige Entwicklungen dar. Während heute daran gearbeitet wird, die Mensch-Maschine-Kommunikation mittels natürlicher Sprache zu optimieren, wird es in Zukunft möglich sein, dass Maschinen ihre Umwelt sehen und interpretieren können.