Big Data – das ist viel mehr als nur eine große Menge Daten. Parallel zur Datenmenge steigt der Grad an Komplexität, was insbesondere rechtliche Aspekte von Daten und den Umgang damit betrifft. Viele Fragen sind noch unbeantwortet und müssen deswegen diskutiert werden.
Allein die Frage, welche Gesetze zur Klärung herangezogen werden müssen, ist nicht abschließend geklärt. Obwohl es sich bei Big Data nicht um ein Bild oder einen Text im traditionellen Verständnis handelt, kann das Urheberrecht greifen. Denn wenn eine Datensammlung in ihrer Struktur so sehr von einem Urheber geprägt ist, dass sie als originäre Schöpfung gelten kann, greift das Urheberrecht. Es kann auch vorkommen, dass umfangreichere Texte in Big Data enthalten sind, die wiederum durch das Urheberrecht geschützt sind. Auch dann dürfen die Daten nur mit Zustimmung der Urheber weiterverarbeitet werden.
Daneben sind das Telemediengesetz und im Fall von Eigentumsfragen das allgemeine Zivilrecht (BGB) relevant. Allen anderen voran wird jedoch das Bundesdatenschutzgesetz und die Datenschutzgesetze der einzelnen Ländern sowie die Europäische Datenschutzverordnung herangezogen, um den rechtlichen Rahmen für den Umgang mit Big Data zu bestimmen. Besonders im Fokus des Datenschutzes stehen die sogenannten “personenbezogenen Daten” und damit der rechtliche Schutz von Personen. Ohne Rechtssicherheit und Datenschutz wird in Zukunft kein Unternehmen die Wettbewerbsvorteile von Big Data nutzen können.
Grund genug sich genauer vor Augen zu führen, welche Daten dem Datenschutz unterliegen und welche Schwierigkeiten es im Zusammenhang mit Big Data gibt. In einem ersten Schritt muss geklärt werden, was genau personenbezogene Daten sind. In einem zweiten Schritt kann man dann fragen, inwieweit es sich bei Big Data überhaupt um personenbezogene Daten handelt. Und in einem dritten Schritt lässt sich abschließend klären, wie die datenschutzrechtliche Seite von Big Data zu bewerten ist. Beim rechtlichen Schutz der personenbezogene Daten ist es zunächst ganz gleich, ob sie aus der analogen oder der digitalen Welt kommen.
Daten aus der analogen Welt
Nehmen wir mal eine Stadt wie Köln, in der ich lebe. Wie viele Daten wären nötig, um mich als Individuum, rechtlich gesprochen als “natürliche Person” zu identifizieren? In Köln leben etwa 1 Millionen Menschen. Ich bin männlich wie circa 500.000 andere in dieser Stadt. Ich bin 39 Jahre alt, also in der Gruppe der 35-50jährigen – bleiben noch 120.000. Ich wohne und arbeite in der Innenstadt – es bleiben noch etwa 10.000 auf die all das auch zutrifft. Ich bin hier in Deutschland geboren, habe ein Konto bei der Sparkasse, bin nicht vorbestraft und fahre kein eigenes Auto. Bleiben vielleicht noch 3.000-5.000. Ich bin Firmengründer, schreibe Bücher, habe an einer Hochschule unterrichtet und trete regelmäßig als Keynote-Speaker öffentlich auf.
Mit diesen Angaben bin ich sehr wahrscheinlich schon ziemlich eindeutig identifizierbar. Diese Daten über mich sind weder geheim noch schwer zu bekommen und dazu sogar recht grob gerastert. Es sind keine detaillierten Angaben wie mein genaues Geburtsdatum, meine Wohn- oder Arbeitsadresse, meine Kontonummer oder gar mein Name.
Die deutschen und europäischen Gesetzestexte sind bei diesem Fall nicht eindeutig, ob es sich bereits um personenbezogene Daten handelt, die besonderem Schutz unterliegen. Denn eine einzelne Angabe für sich genommen würde zur erfolgreichen Identifizierung meiner Person nicht genügen. Erst das Zusammenspiel aller Daten können zu mir als Person führen.
Daten aus der digitalen Welt
In der digitalen Welt sieht das einerseits ganz ähnlich aus und gleichzeitig ist alles ganz anders. Ich kaufe online ein, höre online Musik, schaue Videos, lese Blogs, google.
Allein die Chronik meines Browsers stellt einen ziemlich einzigartigen, digitalen Fingerabdruck von mir dar. Über meine IP-Adresse ist es wiederum möglich, mich mithilfe meines Internetproviders eindeutig zu identifizieren. Deswegen zählt diese seit 2009 zu den personenbezogenen Daten – der Browser-Fingerprint hingegen nach wie vor nicht. Über meine IP-Adresse können jedoch auch andere Personen ins Netz, so dass diese Information nicht mit 100%iger Sicherheit zu mir führt.
[selectivetweet float=“right“]Unsere digitalen Spuren sind vieldeutiger und gleichzeitig persönlicher als die analogen Angaben.[/selectivetweet]In der digitalen Welt sind die Spuren, die wir hinterlassen, in der Regel vieldeutiger und gleichzeitig persönlicher als die vergleichbaren analogen Angaben wie “männlich, 39 Jahre alt, Keynote-Speaker…”. Das macht die juristische Lage so schwierig. Die scheinbar eindeutige IP-Adresse führt nur mithilfe des Providers zu mir als natürliche Person. Aber an dieser Stelle verhält es sich ähnlich wie bei Autokennzeichen. Erst eine Behörde kann den registrierten Fahrzeughalter eindeutig identifizieren. Das heißt aber noch lange nicht, dass dieser mit dem auf ihn registrierten Auto fährt. Welche „natürliche Person“ gerade surft, lässt sich über die IP-Adresse nicht eindeutig bestimmen.
Sind Big Data personenbezogene Daten?
Was hat all das nun mit Big Data zu tun: durch Big Data können die unterschiedlichsten Informationen über einzelne, natürliche Personen erlangt werden. Jede Information für sich genommen, führt nicht unbedingt zu bestimmten Individuen, wie beispielsweise das Attribut “männlich” mich noch nicht unter 500.000 Kölnern identifiziert.
Verknüpft eine Analyse eine große Menge Daten miteinander oder wird ein Datensatz mit Daten aus anderen Quellen angereichert, kann es aber durchaus passieren, dass genügend Informationen zusammenkommen, um einzelne Personen genau zu herauszufiltern. Kommen zum Beispiel Suchanfragen bei einer Auswertung hinzu – wer googelt sich hin und wieder nicht selbst? – wird die Sache meist sehr einfach.
Auch Daten aus Nutzungs- und Reaktionsdaten oder “soziodemografische Daten” (Alter, Geschlecht, Wohnort, Familienstand etc.) sind sehr eindeutig. Bis hierher wäre die Sache schon schwierig genug. Doch das Ganze ist noch weit komplexer: Big Data beinhaltet nicht zwangsläufig Daten über Personen. Big Data sind Daten zu allem möglichen: Wetterdaten, Aktienkurse, Daten, die beim Betrieb einer Maschine in der Produktion entstehen, Daten zu Lagerbeständen, Verkehrsdaten, und so weiter. All diese Daten können in einem Daten-Pool gleichberechtigt neben Personendaten stehen, auch wenn letztgenannte bei einer Auswertung gar keine Rolle spielen.
Analysen können auch vollständig ohne Personendaten auskommen oder im Ergebnis nichts mit natürlichen Personen zu tun haben – Big Data und Datenschutz haben also nicht per Definition miteinander zu tun, weil zu einem großen Teil Daten nicht personenbezogen sind. Verschiedene Datentypen erfordern aus rechtlicher Perspektive eine unterschiedliche und differenzierte Betrachtungsweise.
Anonymisierung von Daten
Die Frage, ob es sich bei Big Data um personenbezoge Daten handelt, lässt sich also nicht generell beantworten. Wie ich oben gezeigt habe, kann auch die Verkettung von anonymen Daten einen Personenbezug herstellen – in der analogen wie in der digitalen Welt.
Die Datenschutzbehörden sind in diesem Punkt sehr restriktiv und vertreten die strenge Auffassung, dass auch Daten personenbezogen sind, die allein nicht genügen, um eine Person zu identifizieren. Die liberale Gegenposition dazu würde sogar die IP-Adresse, die an sich bereits eine anonyme Folge von Ziffern ist, nicht als personenbezogenes Datum werten. Selbst wenn die Instanzen, die Daten erheben, auswerten und darstellen, die Daten anonymisieren, befinden sie sich in der paradoxen Situation, dass sie im Grunde dem Interesse aller Seiten gerecht werden und trotzdem den Standards der Datenschutzgesetzen nicht genügen würden.
Zur Zeitgemäßheit der Datenschutzgesetze
Für Big Data gibt es (noch) keine eigenen Gesetze. So lange es keine gesonderten Regelungen gibt, muss bei den Fällen, in denen personenbezogene Daten in Big Data vorkommen, auf das bestehende Gesetz zurückgegriffen werden.
Die Datenschutzgesetze in ihrer jetzigen Form und Big Data stehen aber bis dahin in einem natürlichen Spannungsverhältnis. Das Datenschutzgesetz stammt aus einer völlig anderen Zeit – es wurde in den 70er und 80er Jahren konzipiert – und ist schon allein deswegen nur bedingt auf die technologischen Neuerungen anwendbar. Das Gesetz geht davon aus, dass nur so wenige Daten wie möglich erhoben und gespeichert werden.
[selectivetweet float=“right“]Sind #Datenschutz und #BigData vereinbar?[/selectivetweet]Big Data macht das Gegenteil davon. Die Anwendungen leben davon, auf möglichst große Datenmengen zugreifen zu können. Aber, Daten bedeutet dabei nicht automatisch, dass sie personenbezogen sind. Das zu betonen ist wichtig und macht nochmals deutlich, warum die Datenschutzgesetze bei Big Data nicht das alleinige Maß der Dinge sein können. Vielmehr müssen die Anwendungen solange an einer für alle beteiligten Interessen gerecht werdenden Lösung arbeiten, bis die Gesetzgebung den Anforderungen des digitalen Zeitalters gerecht wird.