Ist es angemessen, anonymisierte Daten auszutauschen?

Der Leiter der HM Hospitales hat kürzlich bekannt gegeben, dass er der wissenschaftlichen Gemeinschaft 2.157 anonymisierte Krankenakten von COVID-19-Patienten, die in diesen Krankenhäusern behandelt wurden, zur Verfügung gestellt hat.

Gesundheitswesen

Eine lobenswerte Initiative, die uns jedoch veranlasst, einige Fragen zu stellen:

Bietet die Anonymisierung persönlicher oder vertraulicher Daten wirklich eine Garantie für die Privatsphäre?
Ist die Veröffentlichung anonymisierter Datenbanken derzeit der beste Weg, der wissenschaftlichen Gemeinschaft zu helfen, präzise Modelle des maschinellen Lernens zu erstellen, um in der Forschung, in diesem Fall der biomedizinischen Forschung, voranzukommen?

Eine anonymisierte Datenbank ist anfällig für so genannte Rückidentifikationsangriffe, mit denen versucht wird, die vermeintlich anonymen Datensätze zu den Datensätzen einer anderen verwandten Datenbank oder Datenquelle zurückzuverfolgen, um vertrauliche Informationen aus dieser zu extrahieren. Beispielsweise gelang es zwei Forschern der Universität von Texas, Filmbewertungen von Netflix-Benutzern in einer Datenbank zu deanonymisieren, die das Unternehmen für einen Wettbewerb zur Verbesserung seines Bewertungssystems freigegeben hatte. Die verwendete Technik basierte auf einer einfachen Idee: In einer Filmdatenbank mit einer riesigen Anzahl von Einträgen gibt es nicht viele Nutzer, die die gleichen Filme gleich bewerten. Und da die Bewertungen eines Nutzers einzigartig oder fast einzigartig sind, sollte es nicht allzu schwierig sein , diesen Nutzer anhand von nur wenigen Hilfsinformationen aus einer anderen Quelle zu identifizieren.

Der Artikel erklärt, dass ein hochdimensionaler Datensatz wie der von Netflix die Chancen, ein Register zu deanonymisieren und gleichzeitig die Menge der dafür erforderlichen Zusatzinformationen zu reduzieren, erheblich erhöht. Außerdem können die Deanonymisierungsalgorithmen dadurch robust gegenüber Datenstörungen oder falschen Hilfsinformationen sein. Die Forscher demonstrierten dies, indem sie die Bewertungen auf Netflix mit der IMDb-Datenbank verglichen, in der viele Netflix-Benutzer ebenfalls Bewertungen für von ihnen angesehene Filme eingegeben hatten. So gelang es ihnen, die IMDb-Benutzerprofile, oft mit den echten Namen der Benutzer, zu ihren Netflix-Bewertungen (die theoretisch privat sind) zurückzuverfolgen.. Dies war selbst dann möglich, wenn der Benutzer nur sehr wenige Bewertungen auf IMDb veröffentlicht hatte und obwohl diese nicht unbedingt exakt den Bewertungen desselben Benutzers auf Netflix entsprachen.

MPC-Learning ist ein von GMV und vom Ministerium für Wirtschaft und digitale Transformation kofinanziertes Projekt im Bereich F+E+i, das sich auf mathematische Techniken konzentriert, die numerische Berechnungen durchführen, ohne Daten austauschen zu müssen.

Ein bekannter Fall im medizinischen Bereich ist die Offenlegung der Gesundheitsdaten und Krankengeschichte des Gouverneurs des Bundesstaates Massachusetts durch die MIT-Studentin Latanya Sweeney, die auf die Idee kam, eine anonyme medizinische Datenbank mit den Wählerlisten von Cambridge abzugleichen. Die Zensusliste enthielt unter anderem die Namen, Adressen, Postleitzahlen, Geburtsdaten und das Geschlecht der damals 54.000 örtlichen Wähler aus sieben Postleitzahlengebieten. Durch die Kombination dieser Informationen mit Datensätzen aus der anonymisierten Datenbank konnte die Studentin die Krankengeschichte des Gouverneurs leicht finden: nur sechs Personen in Cambridge hatten das gleiche Geburtsdatum wie er, drei davon waren Männer, und nur einer, also der Gouverneur, lebte in der entsprechenden Postleitzahlgegend. Der Artikel „The 'Re-Identification' of Governor William Weld's Medical Information“ nimmt sich dieses Falls an, weist aber darauf hin, dass diese Rückidentifizierung nur möglich wurde, weil der Gouverneur eine Persönlichkeit des öffentlichen Lebens war und einen öffentlich bekannten Krankenhausaufenthalt hinter sich hatte (er wurde bei einer öffentlichen Veranstaltung ohnmächtig und die Bilder davon kursierten in allen Fernsehsendern). Nichtsdestotrotz ist es sehr wahrscheinlich, dass dasselbe Verfahren auch bei der Suche nach Informationen einer bekannten Person oder einer Person, die im Internet zu viele Informationen weitergibt, funktionieren würde.

Bedeutet dies, dass wir auf die Verwendung anonymisierter Daten für die wissenschaftliche Forschung verzichten sollten?

Wahrscheinlich nicht, oder noch nicht. Derzeit scheint es noch nicht möglich zu sein, alle Datensätze einer anonymisierten Datenbank massenhaft neu zu identifizieren. Obwohl es einige Studien gibt, die Einzelfälle unter bestimmten Umständen präsentieren, wird wohl niemand behaupten, dass diese Möglichkeit angesichts der großen wissenschaftlichen Fortschritte dank des Austauschs anonymisierter medizinischer Datenbanken ein überhöhter Preis ist. Es dient jedoch als Denkanstoß und zeigt, dass wir, wenn wir unsere Datensätze im Interesse der medizinischen Forschung austauschen wollen, sorgfältig über die Anonymisierungstechnik nachdenken sollten. Es zeigt auch, dass der Datenschutz möglicherweise noch nicht gewährleistet ist oder dass die betreffende Datenbank einfach nicht für eine anonymisierte Veröffentlichung geeignet ist. . Außerdem könnte es sein, dass in Zukunft neue Techniken auftauchen, die alle oder einen Teil der Informationen offenbaren, die wir verbergen wollten.

Gerade deshalb ist es jetzt vielleicht an der Zeit, über Alternativen zur gemeinsamen Nutzung von Daten nachzudenken. Ganz abgesehen von der Anonymisierung gewinnt diese Idee an Zugkraft, wenn wir uns auch die folgende Frage stellen: Wäre es nicht besser, zu einem Kooperationsszenario überzugehen, in dem jedes Krankenhaus, jede Gruppe, jede Organisation usw. in einem verbundenen Lernnetzwerk zusammenarbeitet, anstatt dass jeder seine eigene anonymisierte Datenbank veröffentlicht?? Das föderierte Lernen ist ein Modell des „Verteilten Rechnens“, das konzipiert wurde, um die Privatsphäre und Vertraulichkeit von Daten zu wahren. Es besteht darin, die (maschinellen Lern-) Modelle dorthin zu bringen, wo die Daten sind, anstatt mit einem einzigen zentralisierten Datensatz zu arbeiten. Dies würde nicht nur dazu dienen, die Unzulänglichkeiten der Datenbankanonymisierung und die rechtlichen Hindernisse für die gemeinsame Nutzung klinischer Daten zu überwinden, sondern eine solche Zusammenarbeit zwischen mehreren Organisationen würde auch den Zugang zu mehr Daten eröffnen (d. h. nicht nur die 2.157 von HM Hospitales bereitgestellten Aufzeichnungen) und somit die Erstellung genauerer Modelle möglich machen.

Aufgrund solcher Fälle und der eigenen Erfahrungen von GMV mit seinen Kunden hat GMV den Datenschutz schon immer als entscheidenden Faktor betrachtet. So sehr, dass GMV jetzt am Projekt MPC-Learning teilnimmt: Sicheres und geschütztes maschinelles Lernen durch geheimen Datenaustausch. MPC-Learning ist ein von GMV und vom Ministerium für Wirtschaft und digitale Transformation, kofinanziertes Projekt im Bereich F+E+i, das sich auf mathematische Techniken konzentriert, die numerische Berechnungen durchführen, ohne Daten austauschen zu müssen.

Klicken Sie hier für mehr Information über MPC-Learning, die Alternativlösung von GMV.

Autoren: Luis Porras Díaz und Juan Miguel Auñón

Neuen Kommentar hinzufügen

Drucken