Business-IT
31.08.2020
KI-Systeme
1. Teil: „Machine Learning und der Datenschutz“

Machine Learning und der Datenschutz

Automatische ObjekterkennungAutomatische ObjekterkennungAutomatische Objekterkennung
Zapp2Photo / shutterstock.com
Synthetische Daten können das KI-Training anonymisieren. Bei diesem Vorgang werden die Daten allerdings schon verarbeitet - wozu es bereits einer Rechtsgrundlage bedarf.
Der Beitrag wurde erstellt von Behrang Raji. Er ist Referent beim Hamburgischen Beauftragten für Datenschutz und Informationsfreiheit. Mit dem Text drückt Raji seine private Meinung aus.
Selbstlernende algorithmische Systeme, hier vereinfacht KI-Systeme genannt, sind datengetrieben. In einer zunehmend vernetzten Gesellschaft produziert jeder Einzelne im Alltag eine große Menge an Daten. Unternehmen wie ein Versandhändler oder ein Supermarkt haben ein wirtschaftliches Interesse daran, zu wissen, wann ein Kunde wahrscheinlich ein Produkt kaufen wird.
Das Verhalten von Menschen ist zwar komplex, aber bestimmten Verhaltensweisen liegt ein Muster zugrunde. Manche sind offensichtlich, etwa dass Kunden im Sommer mehr Eiscreme kaufen als im Winter, manche weniger. Hier könnten Big-Data-Analysen durch KI-Systeme verborgene Muster zutage fördern. So hat etwa ein Kreditkartenunternehmen festgestellt, dass Personen, die Filzplättchen für Stuhlbeine gekauft haben, um das Zerkratzen von Böden zu verhindern, kreditwürdiger sind, wie Lior J. Strahilevitz in der „Harvard Business Review“ berichtet hat. Selbst die Produkte, mit denen ein Nutzer surft, sind einem Muster folgend gewählt worden. Apple-Nutzer bevorzugen zum Beispiel entsprechend luxuriöse Produkte und Leistungen. 
KI-Systeme können gewiss nicht menschliches Verhalten in jeder Situation vorhersagen. Doch sie ermöglichen durch eine Approximation, einen Teil der durch das Verhalten erzeugten Daten zu „erklären“. Die prädiktive Kraft dieser Systeme liegt jedoch einzig in der Feststellung von statistischen Korrelationen zwischen Datenpunkten. Die „Erklärung“ erschöpft sich im Aufspüren von Mustern, von Ist-Zuständen. Warum solche Muster vorhanden sind, bleibt der Sozialforschung vorbehalten. KI-Systeme stehen insoweit - abhängig von der Ausgestaltung und dem Einsatzfeld - typischerweise in einem Spannungsverhältnis mit dem Datenschutzrecht.

Gebote und Verbote

Der Anwendungsbereich der Datenschutz-Grundverordnung (DSGVO) ist unter anderem abhängig von der Verarbeitung personenbezogener Daten. Wegen der sich schnell weiterentwickelnden Informationstechnologie ist der Begriff der personenbezogenen Daten sehr weit gefasst. Gemäß
Art. 4 Nr. 1 DSGVO sind personenbezogene Daten „alle Informationen, die sich auf eine identifizierte oder identifizierbare natürliche Person beziehen; als identifizierbar wird eine natürliche Person angesehen, die direkt oder indirekt (…) identifiziert werden kann“.   
Durch Big-Data-Auswertungen können selbst Messwerte eines Geräts (Maschinendaten) durch Verknüpfung mit weiteren Informationen Personenbezug erlangen. Die zunehmende Vernetzung von Alltagsgeräten und die einfache Auswertung ihrer Daten führt schließlich dazu, dass fast alle Informationen Personenbezug aufweisen. KI-Systeme fordern rechtliche Schutzimplikationen geradezu heraus. Sehr pro­blematisch sind die Auswirkungen dieser zunehmenden Data­fizierung sämtlicher Lebensbereiche.
Das Datenschutzrecht und der Diskriminierungsschutz sollen als Schutzinstitute harmonisch ineinandergreifen. Datenschutz knüpft grundsätzlich bei der Verarbeitung und damit in einem der Entscheidung vorgelagerten Bereich an und bezweckt auch Diskriminierungsschutz. Das wird etwa deutlich an Art. 9 DSGVO, der die Verarbeitung besonderer Kategorien von personenbezogenen Daten unter erhöhte Rechtmäßigkeitsvoraussetzungen stellt, weil vor allem mit der Verarbeitung solcher Daten ein erhöhtes Diskriminierungsrisiko einhergeht. Art. 9 DSGVO konstatiert insoweit ein informa­tionelles Diskriminierungsverbot und konkretisiert damit
Art. 21 der europäischen Grundrechtecharta (GRCh).
Diskriminierungsverbote knüpfen hingegen meist an den nachgelagerten Bereich an, wenn Entscheidungen über einzelne Personen oder Personengruppen getroffen werden sollen (vgl. § 2 Allgemeines Gleichbehandlungsgesetz (AGG) sowie Art. 3 Abs. 3 GG).
KI-Systeme verlangen insbesondere im Trainingsprozess eine riesige Menge an (personenbezogenen) Daten, was datenschutzrechtlich heikel sein kann. Andererseits können Diskriminierungsrisiken nur dann minimiert werden, wenn KI-Systeme mit einer ausreichenden Menge an guten und repräsentativen Daten trainiert worden sind. Insofern kommen Datenschutzgebote und Diskriminierungsverbote durch die Funktionsweise von KI-Systemen in eine Gemengelage. 
2. Teil: „Anonymisierungstechniken“

Anonymisierungstechniken

Als sowohl wettbewerbs- als auch datenschutzfreundliche Lösung werden neue Anonymisierungstechniken erwartungsvoll gefeiert, die die sich vergrößernde Kluft schließen sollen. Die DSGVO stellt im Erwägungsgrund 26 klar, dass die Verordnung und ihr umfangreicher Pflichtenkatalog keine Anwendung finden, sofern anonyme Daten verwendet werden. Wenn jedoch ohne unverhältnismäßigen Aufwand der Personenbezug wiederhergestellt werden kann, handelt es sich nur um eine Pseudonymisierung.
Juristisch unterscheidet man zwei Anonymisierungsformen: Bei der klassischen Form besteht objektiv eine Unmöglichkeit der De-Identifizierung, bei der anderen würde die De-Identifizierung einen unverhältnismäßigen Aufwand erfordern. Angesichts der enormen Rechenkapazitäten von KI-Systemen stellt sich allerdings die Frage, was noch als unverhältnismäßiger Aufwand betrachtet werden kann. Insofern wird teilweise dafür plädiert, den Begriff des personenbezogenen Datums in Zeiten von Big Data und KI neu zu denken. Gemeint ist damit, den Begriff auf de-anonymisierbare Daten auszuweiten.
Bei der klassischen Anonymisierung werden alle Identifizierungsmerkmale entfernt. Der Nachteil: Verlust der Werthaltigkeit der Daten. Daneben können etwa auch Zusammenfassungen von Daten zu statistischen Daten - abhängig vom Aggregationsniveau - anonyme Daten darstellen.

Synthetische Daten

  • Synthetische Daten: Das Beratungshaus Gartner stuft synthetische Daten als eine „Emerging Technology“ ein.
    Quelle:
    Gartner
Auf den Vormarsch sind synthetische Daten. Bei dieser Anonymisierungstechnik kommen Generative Adversarial Networks (GAN) zum Einsatz (Beispiele mit weiterführenden Erklärungen finden sich auf https://thispersondoesnotexist.com). Dabei lernen zwei neuronale Netze im Zusammenspiel. Das eine Netz (Diskriminator) kennt die Originaldaten, etwa Gesichter. Das andere (Generator) lernt die Gesichtsbildern innewohnende Gesetzmäßigkeit und produziert eigenständige synthetische Gesichtsbilder. Die Aufgabe des Diskriminators besteht darin, die realen Gesichtsbilder von synthetischen zu unterscheiden. Der Trainingsprozess hat dann ein Optimum erreicht, wenn der Diskriminator die synthetischen nicht mehr von den Originaldaten unterscheiden kann. Bei diesem Synthetisierungsvorgang werden Originaldaten (personenbezogen) in eine synthetische Repräsentation (anonyme Daten) überführt. Eine De-Identifizierung ist nicht mehr möglich.

Game Changer

Datengetriebene KI-Systeme sind vor allem in der lernenden Trainingsphase auf ausreichend Datenbestände in guter Qualität angewiesen. Synthetische Daten, so heißt es im Gutachten der Datenethikkommission 2019, können im Gegensatz zu den Daten mit Personenbezug beliebig produziert und in der Trainingsphase eingesetzt werden, etwa um ungewöhnliche Datenkonstellationen zu testen. Die Weitergabe an Dritte ist möglich, was Kollaborationen mit Geschäftspartnern erlaubt. Letzteres fördert zudem den Mittelstand, da sonst nur die bekannten Global Player in der Lage wären, KI-Systeme zu entwickeln. 
Die Werthaltigkeit bleibt bei synthetischen Daten erhalten und das System kann durch gezielte Ausmerzung von Verzerrungen insgesamt besser austariert werden, was einer Diskriminierungsvermeidung dienlich sein kann. Im Gegensatz zu klassischen Anonymisierungsverfahren, bei denen der Wert und damit die Erkenntnisse aus den Daten weitgehend verloren gehen, können solche Techniken Innovationen fördern und gleichzeitig - aus datenschutzrechtlicher Sicht - die Rechte und Freiheiten der Betroffenen schützen. Soll eine gewisse Qualität der Daten erhalten bleiben, ist meist bei klassischer Anonymisierung eine De-Identifizierung mit verhältnismäßigem Aufwand eben doch möglich, sodass es sich um Pseudonymisierung und nicht um Anonymisierung handelt.
3. Teil: „Synthetisierung als Verarbeitung“

Synthetisierung als Verarbeitung

Mit der Überführung der Originaldaten in synthetische Daten soll der Personenbezug entfallen, sodass die Anonymisierung als Verarbeitungsvorgang gemäß Art. 4 Nr. 2 DSGVO verstanden werden kann. (Siehe dazu das Positionspapier des Bundesbeauftragen für den Datenschutz und die Informationsfreiheit BfDI vom 29. Juni 2020.) Die Anonymisierung kann als Löschung (objektive Unmöglichkeit der De-Identifizierung) oder als Veränderung (De-Identifizierung nur mit unverhältnismäßigem Aufwand möglich), jedenfalls aber als Verwendung verstanden werden.
Somit ist das Synthetisieren der Daten eine Verarbeitung, die einer Rechtsgrundlage bedarf. In Betracht käme eine Einwilligung (Art. 6 Abs. 1 lit. a) oder Art. 9 Abs. 2 lit. a) DSGVO) sowie - zumindest für nicht besondere Kategorien von personenbezogenen Daten - ein überwiegendes berechtigtes Inte­resse gemäß Art. 6 Abs. 1 S. 1 lit. f) DSGVO. Die Daten, die anonymisiert werden, sind grundsätzlich zu einem anderen Zweck erhoben worden. Daher liegt eine Weiterverarbeitung zu einem anderen Zweck vor. Für die Beurteilung der Rechtmäßigkeit muss ein Kompatibilitätstest nach Maßgabe des Art. 6 Abs. 4 DSGVO durchgeführt werden.
  • Trainingsdaten: KI-Systeme werden mit synthe­tischen Gesichtsbildern trainiert.
    Quelle:
    Nvidia
Fraglich ist, ob in diesen Fällen überhaupt auf die Zweck­änderung gemäß Art. 6 Abs. 4 DSGVO zurückgegriffen werden kann. Teilweise wird vertreten, dass die Vorschrift im Fall einer Weiterverarbeitung voraussetzt, dass nach der Zweck­änderung noch ein Personenbezug vorhanden ist. Dieser Auffassung ist zuzustimmen. Lediglich der Zweck wird geändert, es bleibt aber eine Verarbeitung im Sinne der DSGVO.
Dem steht eine Anwendbarkeit des Art. 6 Abs. 4 jedoch nicht im Weg. Die Überführung in die Anonymität selbst ist der Verarbeitungsvorgang, der am Maßstab des Art. 6 Abs. 4 DSGVO zu messen ist, nicht hingegen die Nutzung der anonymen Daten, die außerhalb des Anwendungsbereichs der DSGVO fällt.

Des einen Freud, des anderen Leid?

Aus datenschutzrechtlicher Sicht ist es zu begrüßen, wenn KI-Systeme mit synthetischen, tatsächlich anonymen Daten trainiert werden. Damit wird per se ein Grundrechtseingriff (Art. 8 GRCh) vermieden.
Es bleibt allerdings abzuwarten und bedarf weiterer Untersuchungen, ob mit synthetischen Daten wirklich etwas gewonnen ist. Diese vermeintlich gute Entwicklung kann nämlich insgesamt einen Bumerangeffekt bewirken. So wird dem Antidiskriminierungsrecht ein wichtiger Flankenschutz wegfallen, der Datenschutz. Der Zweck des Synthetisierens ist ja gerade, dass der Informationsgehalt erhalten bleibt, um die gewonnenen Erkenntnisse in Entscheidungen einfließen zu lassen. Diese Erkenntnisse können daher weiter genutzt werden, um Entscheidungen über Personengruppen zu treffen. Es ist damit einfacher - auch für Unternehmen, die nicht Google oder Facebook heißen -, an Verhaltensdaten zu kommen, die mit einer statistischen Inferenz dafür genutzt werden können, um zum Beispiel hyperpersonalisierte Werbung anzubieten.
Das bedeutet, dass durch die Verfügbarkeit von synthetischen Daten der Markt sich dahingehend entwickeln wird, dass Dienste insgesamt individualisierter ausgestaltet werden, da aufwendig zu erstellende Trainingsdaten für eigene KI-Systeme eingekauft werden können.
Was für Auswirkungen der Hype um synthetische Daten auf die Rechte und Freiheiten von Betroffenen haben wird, wird sich erst noch zeigen. Auch wenn bestimmte Entwicklungen für einige Grundrechte mehr Sicherheit bieten, sollten sich dadurch keine Schutzlücken für andere Grundrechte auftun.

mehr zum Thema