Big Data: Die Potentiale von Daten verstehen, Projekte daraus verwirklichen und seine Daten entfalten.

In Deutschland erscheinen pro Jahr ca. 100.000 neue Buch-Publikationen. Oft erfassen die Statistiker E-Books noch nicht, insofern dürfte die tatsächliche Zahl deutlich höher liegen. Weltweit erscheinen seit dem Jahr 2000 jährlich mehr als 1.000.000 Bücher. Hinzu kommen alle Online-Veröffentlichungen. Lesen kann man die gesamte Menge an Texten schon lange nicht mehr. Wer heute noch Aussagen über Trends in der Literatur oder der Wissenschaft machen möchte, kommt an Big Data nicht mehr vorbei. Aber handelt es sich bei den Datenanalysen noch um Textanalysen in einem geisteswissenschaftlichen Sinne?

Seit einigen Jahren befassen sich Wissenschaftler unter dem Sammelbegriff „Digital Humanities“ mit Fragestellungen wie diesen.

[longquote source=“Quelle: https://de.wikipedia.org/wiki/Digital_Humanities“]Das Fach Digital Humanities (deutsch: „digitale Geisteswissenschaften“) umfasst die Anwendung von computergestützten Verfahren und die systematische Verwendung von digitalen Ressourcen in den Geistes- und Kulturwissenschaften.[/longquote]

Ob die Digital Humanities ein eigenes Fach oder nur eine bestimmte Methode in den Geistes- und Kulturwissenschaften ist, ist noch nicht abschließend geklärt und auch weniger wichtig als ihre Funktion: Die Digital Humanities sind das Bindeglied zwischen digitaler bzw. computergestützter Informationsverarbeitung und den Geistes- und Kulturwissenschaften.

[selectivetweet float=“left“]Die #DigitalHumanities sind das Bindeglied zwischen Geistes- und Kulturwissenschaften und Informatik.[/selectivetweet]

Die Geisteswissenschaften als Hilfswissenschaft

Einer der prominentesten Berührungspunkte von Geisteswissenschaften und Data Science findet sich an den Schnittstellen zu praktischen Anwendungsfällen. Dort dienen die geisteswissenschaftlichen Einzeldisziplinen als Hilfswissenschaften, mit deren Unterstützung bestimmte Fragestellung gelöst werden können. So werden die quantitative Textanalyse (Text Mining), die Sentimentanalyse (zur Erkennung von Stimmungen in sozialen Netzwerken, Foren und Blogs) und Bildanalysen verwendet, um Vorhersagen über Finanztrends und Wirtschaftsentwicklungen, Wahlentscheidungen, politische Einstellungen und Protestbewegungen, oder in der Marktforschung und Trendanalyse zu treffen. Über diesen Umweg kamen neue Methoden zur Text- und Bildauswertung wieder zurück in die Geistes- und Kulturwissenschaften, wo sie wiederum zu neuen Einsichten, aber auch zu ganz neuen Fragestellungen führten.

Der praktische Nutzen der Computerlinguistik

Ein wichtiges Beispiel für so eine Schnittstelle zwischen Informatik und Geisteswissenschaften ist die Computerlinguistik, die digitale Sprachwissenschaft. Inzwischen gehen die Entwicklungen in der Computerlinguistik so weit, dass sie kaum mehr nur als Hilfswissenschaft bezeichnet werden darf. Der erste Schritt war eine Übersetzung der natürlichen Sprache in logisch-abstrakte Regeln, um sie für Algorithmen und Programme verständlich zu machen. Inzwischen ist die Computerlinguistik im Herzen der Erforschung von künstlicher Intelligenz, Text Mining, Sprachsteuerung, Verbesserung von Suchmaschinen und von Schreib- und Übersetzungsprogrammen.

Der Computer als blinder Fleck der Data Sciences

Eine der Fragestellungen der Digital Humanities richtet sich auf die neuen computergestützten Untersuchungsmethoden selbst. Sie fragen danach, wie die datenbasierte Forschung die Wissenschaften und ihr Erkenntnisinteresse verändert haben. In historischer und theoretischer Hinsicht untersuchen sie Bedingungen der Datenerzeugung und Datenverarbeitung. Sie zeigen, wie datengetriebene Wissenschaften ihre Daten erzeugen und hinterfragen diese Bedingungen ihrer Herstellung.

Beispielsweise wird in der Kognitionsforschung versucht zu verstehen, wie das menschliche Gehirn funktioniert. Die dazu verwendeten Modelle basieren aber auf Gesetzmäßigkeiten, die der Logik von Computern und Programmiersprachen folgen – alles, was jenseits dieser Gesetzmäßigkeiten liegt, wird automatisch von der Erkenntnis ausgeschlossen. Selbst wenn es gelingen sollte, ein menschliches Gehirn zu simulieren, wie es das Human Brain Projekt (HBP) versucht, so lassen sich am Ende nur Aussagen über die Simulation und nicht über den mit ihr abgebildeten Gegenstand, das Gehirn, treffen.

Die Europäische Union glaubt jedoch daran, dass das Gehirn in einem Computer abgebildet und untersucht werden kann und unterstützt das HBP mit einer Milliarde Euro. Im menschlichen Auge ist der Blinde Fleck, der Ort, an dem alle Sehnerven zusammenlaufen, gerade der Bereich, der selbst nichts wahrnehmen kann. Auf ähnliche Weise ist der Computer der Blinde Fleck vieler datengetriebener Forschungsprojekte.

Die Grundoperationen: Sammeln, Ordnen und Interpretieren

Daten zu sammeln, zu ordnen und zu analysieren ist in vielen geistes- und kulturwissenschaftlichen Fächern zunächst kein neuer Ansatz, sondern eine der Grundoperationen. Allerdings verändern sich die Fragestellungen einzelner wissenschaftlicher Arbeit erheblich, wenn die Datenmenge steigt. In den letzten Jahren entstanden enorme Textarchive wovon Google Books sicher das bekannteste ist. Aber auch in Deutschland gibt es ambitionierte Unternehmungen wie das Deutsche Textarchiv oder die Deutsche Digitale Bibliothek. Solche großen Datenbanken ermöglichen es Forschungsmaterial in ganz anderen Größenordnungen zu untersuchen.

Nehmen wir zunächst eine traditionell angefertigte Doktorarbeit, die sich mit der Entwicklung der Gattung des Romans im 19. Jahrhundert beschäftigt. [url_preview orientation=“left“ newtab=“true“]https://bigdatablog.de/2015/08/24/big-data-als-voraussetzung-fuer-das-semantic-web/[/url_preview]Wie viel Forschungsmaterial könnte ein geübter Leser in mehreren Jahren sichten, ordnen und interpretieren? Vielleicht zwischen 250 und 350 Bücher – das wäre schon eine riesige Menge, bei der allein aufgrund des Lektüreaufwands keine umfangreiche Einzelanalyse jedes Werkes mehr möglich wäre. Mithilfe von digitalen Textdatenbanken wird es mit einem Mal möglich, 6.000 oder wenn nötig auch 60.000 Werke auszuwerten. Auch hier würde am Ende keine detaillierte Einzelanalyse aller Werke stehen. Aber mit semantischen Analysemethoden ließen sich über einzelne Begriffe, Konzepte oder Erzählmuster Aussagen treffen.

 

Philologische Fragestellungen und Datenanalysen

Die Analyse von Mustern, die Texten zugrunde liegen, kann sowohl digital als auch „von Hand“ erfolgen. Der deutsch-russische Strukturalist und Literaturwissenschaftler Vldadimir Propp untersuchte beispielsweise 1928 in seiner berühmten Studie „Die Morphologie des Märchens“ die Grundstrukturen und Erzählmuster, die allen Märchen zugrunde liegen. Dazu verglich er viele „Datensätze“, also verschiedenste Märchen miteinander, um Gemeinsamkeiten zu erkennen und zu abstrahieren. Fragestellungen wie diese, die typisch für den Strukturalismus sind, gehen den Big Data Sciences zwar historisch voraus, ähneln sich aber in ihren Methoden.

Die Formalisten und Strukturalisten des 20. Jahrhunderts wären mit Sicherheit glühende Anhänger datenbasierter Geisteswissenschaften gewesen. Darüber hinaus finden sich viele andere philologische und kulturwissenschaftliche Fragestellungen und Arbeitsbereiche, die eine hohe Kompatibilität und Anschlussfähigkeit zu Big Data Analytics aufweisen: überall dort, wo wiederkehrende Muster untersucht werden wie in der der Motivgeschichte, bei der Analyse von Metaphern oder bei der Begriffsgeschichte.

[selectivetweet float=“left“]Die #DigitalHumanities suchen nach Schnittstellen von Text- bzw. Bildanalyse und Datenanalyse.[/selectivetweet]

Über das Potenzial von Big Data in den Geisteswissenschaften

Der Volkswirtschaftler Steffen Roth nutzte in einer viel beachteten Studie (PDF) den Google Ngram Viewer, der mit dem weltweit größten digitalen Bucharchivs arbeitet. Mit Ngram lässt sich die Häufigkeit darstellen, mit der ein Begriff in den Publikationen zu einer bestimmten Zeit auftaucht. Roth kam zu sehr überraschenden Einsichten, was die Karriere von bestimmten ökonomischen Begriffen betrifft, die als typisch für moderne Gesellschaften gelten. Im Gegensatz zur verbreiteten Forschungsmeinung tauchten ökonomische Begriffe aber nicht besonders häufig in modernen Texten auf.

Solche zum Teil überraschenden Ergebnisse sind im Moment noch mit Vorsicht zu genießen und auch keine Seltenheit. In der Google-Books-Datenbank, der weltweit größten Sammlung digitalisierter Texte, finden sich im Moment (Stand Dezember 2015) erst ca. 13-15% aller jemals gedruckten Bücher. Das sind immerhin beachtliche 15 Millionen Bücher, die insgesamt etwa 4,5 Milliarden Seiten umfassen. Doch die entscheidende Frage ist: welche Bücher befinden sich in dem Archiv und welche nicht? Die Häufung eines bestimmten Begriffs zu einer bestimmten Zeit kann immer noch an wenigen Autoren oder Einzelwerken hängen. Für auf den ersten Blick überraschende Treffer, finden bei der Überprüfung der einzelnen Fundstellen einfache Erklärungen. Doch trotz solcher „Kinderkrankheiten“ und blinder Flecken ist das enorme Potenzial, das in Big-Data-Analysen für die Geistes- und Kulturwissenschaften offensichtlich.