Die Rückgewinnung und Re-identifizierung personenbezogener Daten aus anonymisierten und pseudonymisierten Daten mit Hilfe moderner Software ( XML/NLP) am Bespiel des eGK/TI Systems der gematik

In der Telemedizin und den medizinischen informationellen Systemen können die medizinischen Datenbestände, die Download PDF Patienteninformationen enthalten zusammengeführt und ausgewertet werden. Die Zusammenführung und Auswertung personenbezogener Patienteninformationen ist prinzipiell vom Gesetzgeber verboten und unterliegt strengen Regeln des Datenschutzes.

Mit Hilfe modernster Software für Textverarbeitung können den zusammengeführten Daten die identifizierenden Merkmale entzogen werden. D.h. vereinfacht ausgedrückt, es werden z.B. aus einer zusammenhängenden Datenmenge, die bei einem Krankenhausaufenthalt während einer Operation für Sie enstanden sind , ihr Name und die komplette Adresse entfernt. Weiterhin versucht man alle anderen persönlichen Identifikationsmerkmale, wie z.B. die Beschreibung eines ungewöhnlichen Leberflecks oder Tatoos zu entfernen.

Der Prozess kann darauf abzielen alles zu anonymisieren oder Pseudonyme einzusetzen, die an Stelle ihrer Identität treten. Die auf diese Weise verarbeiteten Daten aus den Quellsystemen werden weiter in einer zentralen Datenbank neu abgespeichert. Damit entsteht ein riesiger Datenpool für Gesundheitsdaten und medizinische Daten, der mit Hilfe ausgeklügelter Software in alle denkbaren Richtungen weiterverarbeitet werden kann.

Erklärtes Ziel dabei ist es umfangreiche medizinische Rohdatenbestände zu generieren, die statistisch ausgewertet werden können. Die möglichen Auswertungen sollen die Behandlungsqualität verbessern oder die Grundlage für die Entwicklung leistungsfähigerer Medikamente liefern. Die entstehenden Möglichkeiten sind nahezu grenzenlos.

Die IT-Unternehmen, die an den Konzepten und Technologien für diese Megauswertungen arbeiten, stehen vor dem Problem eine datenschutzkonforme Sekundärnutzung strukturierter und freitextlicher Daten mit Hilfe der Cloudtechnologien streng einhalten zu müssen. Jede bekannt gewordene Möglichkeit, aus den anonymisierten Datenbeständen erneut Rückschlüsse auf Personen zu ziehen, würde den sofortigen Stopp von Seiten des Gesetzgebers erzwingen.

Die IT-Unternehmen versuchen deswegen einen Grad der technischen Entfernung personenbezogener Merkmale aus den zusammengeführten Daten zu erzielen, der es unmöglich machen soll eine Re-identifizierung von Personen durchzuführen.

Es ist allerdings vollkommen unwichtig welcher Grad der Entfernung technisch realisiert wird, denn die gleichen Konzepte und Technologien der Textentfernung, ermöglichen ebenso eine semantische Erschließung der gewonnenen Textinformationen in Bezug auf eine Re-inditifizierung persönlicher Merkmale und somit der Rückgewinnung persönlicher Informationen.

Ganz sicher soll nicht Fortschritt verhindert werden, warum jedoch schreiten wir in diesen Formen fort und entwickeln keine anderen Alternativen? Ein zweiter Aspekt neben dieser Frage ist die Entfesselung von Technologien, wie z.B. der Nutzung der Atomkraft, die in der Folge extrem schwer zu kontrollieren ist. Die Informationstechnologie erreicht mittlerweile die gleiche gefährliche Sprengkraft wie die Nutzung der Atomtechnologien. In der Logik warten wir also auf den GAU, das Fukushima-Event (NSA?) in der Informationstechnologie, damit wir anfangen aufzuwachen und uns fragen wie wir das Ganze verändern können.

Eine weitere philosophische Auseinandersetzung mit diesen Themen ist jedoch nicht Gegenstand dieser Ausarbeitung, mir geht es um die Beziehungen der cloud-basierten Auswertung von 'Big Health Data' im größten IT-Infrastruktur Projekt Deutschlands, der elektronischen Gesundheitskarte und telematischen Infrastruktur (eGK/TI) für die Verarbeitung und Sammlung aller medizinischen Daten aller Deutschen.

Meine konkreten Anknüpfungspunkte sind dabei die Analysen und Darstellungen zur Produktion der XML-Daten, die im  eGK/TI-System erzeugt werden.

Nachfolgend wird erklärt auf welche Weise anonymisierte Daten, die aus XML extrahiert, wieder zu personenbezogenen Daten werden können.

Fiktiver reduzierter Beispielsdatensatz, der in ungefährer Form so im  eGK/TI-System entstehen kann:

>

<vorname>

Martin

</vorname>

<nachname>

Mustermann

</nachname>

<geburtsdatum>

1.1.1970   

</geburtsdatum>

<plz> 

8868 

</plz>

<ort> 

Musterhausen

</ort>

<kostentraeger>

AOK 

</kostentraeger> 

<betriebsstätte>

Krankenhaus München

</betriebsstätte>

<geschlecht>

Männlich 

</geschlecht>

<documentation1>

Zweit Hüftprothese, Herzschwäche, blutverdünnende     Medikation, Prostata-Leiden, Herzflimmern, Niedriger Blutdruck

</documentation1>

<documentation2>

2. Operationen wegen Sturz

</documentation2>

<rezepte>

Traubenzucker

</rezepte>

<minderung1>

Versicherter nimmt nicht an Stichprobe teil

</minderung1>

<minderung2>

mit Erwerbsminderungsrente

</minderung2>

<personengruppe>

Sozialhilfeempfänger 

</personengruppe>

<dmpkennzeichnung>

keine 

</dmpkennzeichnung>

Anonymisieren wir diesen stark vereinfachten personenbezogenen Datensatz

<vorname>

 

</vorname>

<nachname>

 

</nachname>

<geburtsdatum>

1.1.1970   

</geburtsdatum>

<plz> 

 

</plz>

<ort> 

Musterhausen

</ort>

<kostentraeger>

AOK 

</kostentraeger> 

<betriebsstätte>

Krankenhaus München

</betriebsstätte>

<geschlecht>

Männlich 

</geschlecht>

<documentation1>

Zweit Hüftprothese, Herzschwäche, blutverdünnende     Medikation, Prostata-Leiden, Herzflimmern, Niedriger Blutdruck

</documentation1>

<documentation2>

2. Operationen wegen Sturz

</documentation2>

<rezepte>

Traubenzucker

</rezepte>

<minderung1>

Versicherter nimmt nicht an Stichprobe teil

</minderung1>

<minderung2>

mit Erwerbsminderungsrente

</minderung2>

<personengruppe>

Sozialhilfeempfänger 

</personengruppe>

<dmpkennzeichnung>

keine 

</dmpkennzeichnung>

usw.

usw.

Die verbliebenen Informationen können auf den ersten Blick nicht mehr der Person Martin Mustermann zugeordnet werden. Nun hat Herr Mustermann schon eine lange Krankengeschichte hinter sich, seit 10 Jahren lebt er mit einer Hüftprothese und hat sich in Internetforen mit anderen Leidtragenden dazu ausgetauscht. Dabei ist alles was er in den Blogforen und Chats geschreiben hat von den weltweiten Suchmaschinen erfasst und gespeichert worden. Das heißt ähnliche lautende Informationen sind in ähnlichen Beziehungen in verschiedenen Speicherorten verkettet..

_ _ 54 Jahre alt, Musterhausen, Kriegsverletzung rechter Oberarm und Hüftprothese, mit Erwerbsminderungsrente und Hartz4 Sozialleistungen _ _

und bilden somit eine informationelle Schnittmenge die charekteristische Merkmale aufweist. Die Schnittmenge kann Datengruppen zugeordnet werden. In diesem Beispiel, der Datengruppe der Kriegsversehrten oder der Gruppe der Männer die 54 Jahre alt sind, oder der Gruppe die im Ausland gekämpft haben müssen, weil 1970 der Krieg in Deutschland schon lange beendet war.

Den möglichen Auswertungen von Daten sind keinerlei Grenzen gesetzt. Wie erleben es wenn wir unseren Namen bei Google eingeben und sehen in welchem neuen Beziehungen unsere persönlichen Daten aufgelistet werden. Auch die Wegnahme der Informationen <geburtsdatum> und <ort> würde vollkommen ausreichen diese Art der Re-identifizierung von Daten zu ermöglichen.

Im Kontext der elektronischen Gesundheitskarte geht es auch um die andauernde Behauptungen der Befürworter z.B. im Sachstandsbericht der Bundesärztekammer vom 11.04.2014, der u.a. aussagt, die TI (telematische Infrastruktur)  sieht keine Speicherung von Millionen von Patientendaten vor. Begründet wird dies mit abenteuerlichen Aussagen zentraler und dezentraler Vernetzung und der indirekten service-basierenden Durchleitung von Daten durch Schichten von einem Punkt zum anderen.

Hinweis: "Hier muss die weitere Aufklärung einsetzen unter Einbeziehung der neuartigen Möglichkeiten dezentraler und zentraler Vernetzung von Daten und Funktionen in physischen und virtuellen Rechenzentren. Und dazu gehört auch die Betrachtung direkter und indirekter Verlinkung in eine einzige Ansicht. Dem Endanwender erscheint dieses neu verknotete Netz und die Sicht auf eine Datenmenge als einziges einheitliches System."

Dieses stark vereinfachte Beispiel diente dem Zweck Ihnen diesen Sachverhalt näher zu bringen. In Wirklichkeit sind diese Zusammenhänge weitaus komplizierter und es reichen oft hunderte von DINA4 Seiten nicht aus alles nachvollziehbar zu beschreiben.

Wenn Sie mehr wissen wollen dann lesen Sie folgenden Ausarbeitungen auf meinen oder externen Webseiten:

 

 

 

 

 

 

 

 

 

 

 Neue Positionen für den Widerstand gegen die elektronische Gesundheitskarte (eGK) und telematische Infrastruktur (TI) auf Basis technischer Analysen und neuerer Meldungen zur eGK/TI

2002063

Gesamtarchitektur EGK und TI: Telematische Infrastruktur (TI-System), Komponenten und Rechenzentren

Rolf D. Lenkewitz

Impressum

Inhalte sind lizensiert unter Creative Commons
news2

Impressum

www.rdlenkewitz.eu