¿Es conveniente compartir datos anonimizados?

El director de HM Hospitales ha anunciado recientemente que han puesto a disposición de la comunidad científica 2.157 historias clínicas anonimizadas de pacientes de Covid-19 tratados en sus hospitales.

Sanidad

Una buena iniciativa que, sin embargo, nos lleva a plantearnos un par de cuestiones:

Si la anonimización de datos personales o confidenciales es realmente una garantía para asegurar la privacidad.
Si publicar bases de datos anonimizadas es, a día de hoy, la mejor forma de contribuir a que la comunidad científica elabore modelos de aprendizaje automático precisos para avanzar en la investigación (en este caso) biomédica.

Una base de datos anonimizada es susceptible de sufrir lo que se conoce como un ataque de re-identificación, que consiste en intentar trazar los registros supuestamente anónimos a los registros de otra base o fuente de datos relacionada para extraer de ésta la información confidencial. Por ejemplo, dos investigadores de la Universidad de Texas se las ingeniaron para desanonimizar las valoraciones de películas que habían hecho los usuarios de Netflix en una base de datos publicada por la compañía para una competición dirigida a mejorar su sistema de recomendación. La técnica utilizada se basaba en una idea sencilla: en la base de datos de las películas, con una enorme cantidad de campos, no hay muchos usuarios que puntúen igual las mismas películas, y puesto que las valoraciones de un usuario son únicas o casi únicas, no debería ser muy difícil identificar a este usuario con solo un poco de información auxiliar obtenida de otra fuente.

El artículo explica que en una base de datos de alta dimensionalidad como la de Netflix aumenta enormemente la probabilidad de desanonimizar un registro, al tiempo que se reduce drásticamente la cantidad de información auxiliar requerida para ello, y además, permite que los algoritmos de desanonimización sean robustos frente a perturbaciones o información auxiliar incorrecta. Lo demostraron cruzando las valoraciones en Netflix con la base de datos IMDb, donde muchos usuarios de Netflix habían introducido también valoraciones de películas que habían visto, y consiguieron trazar perfiles de usuarios de IMDb, a menudo con sus nombre reales, a sus valoraciones (teóricamente privadas) en Netflix, y esto era posible incluso aunque el usuario hubiera publicado en IMDb muy pocas valoraciones y éstas solo se parecieran aproximadamente a las que el mismo usuario había hecho en Netflix.

MPC-Learning es un proyecto cofinanciado por GMV, dentro del área de I+D+i, y por el Ministerio de Asuntos Económicos y Transformación Digital, y se focaliza en técnicas matemáticas capaces de realizar cálculo numérico sin necesidad de compartir datos.

En el ámbito médico un caso popular fue la revelación de los datos y el historial clínico del gobernador del estado de Massachusetts, cuando a una estudiante del MIT, Latanya Sweeney, se le ocurrió cruzar una base de datos médicos anonimizados con el censo de votantes de la localidad de Cambridge, en ese mismo estado. El censo contenía, entre otras cosas, el nombre, dirección, código postal, fecha de nacimiento y sexo de los entonces 54.000 votantes de la localidad, que estaban distribuidos en siete códigos postales. Combinando esta información con los registros de la base de datos anonimizada la estudiante fue capaz de encontrar el historial médico del gobernador con facilidad: Solo seis personas en Cambridge compartían su fecha de nacimiento, de las cuales tres eran hombres y solo una, el gobernador, vivía en su código postal. El artículo “The 'Re-Identification' of Governor William Weld's Medical Information” revisa este caso, aunque matiza que la re-identificación fue posible porque el gobernador era un personaje público que sufrió un periodo de hospitalización conocido por todos (se desvaneció en un acto público y las imágenes circularon por todas las cadenas de TV). No obstante es fácil suponer que el mismo procedimiento serviría para encontrar la información de un conocido, o de alguien que comparta demasiada información personal en internet.

Por lo tanto, ¿deberíamos renunciar a utilizar datos anonimizados para la investigación científica?

Probablemente no, o todavía no. A día de hoy no parece que la re-identificación pueda hacerse de forma masiva sobre todos los registros de cualquier base de datos anonimizada, y aunque hay multitud de estudios que presentan casos de re-identificación en determinadas circunstancias, nadie diría que esta posibilidad sea un precio excesivo a pagar frente a los grandes avances científicos que permite el intercambio de bases de datos médicas anonimizadas. Sin embargo, sí que nos da pie a pensar que si queremos compartir nuestros conjuntos de datos para avanzar en una investigación debemos elegir cuidadosamente la técnica de anonimización, y que aun así es posible que la privacidad no esté garantizada, o que directamente nuestra base de datos no sea apta para publicarla anonimizada. Y con todo, puede que en el futuro aparezcan nuevas técnicas que revelen toda o parte de la información que hemos querido ocultar.

Por ello, tal vez haya llegado el momento de plantearse apostar por otras alternativas para compartir datos, una idea que, al margen de la anonimización, viene reforzada por la siguiente cuestión: ¿No sería mejor que en vez de que cada hospital, grupo, entidad, etc. publique su base de datos anonimizada, que vayamos a un escenario de cooperación en el que todas estas entidades se integrasen en una red de aprendizaje federado? El aprendizaje federado es un modelo de computación distribuido orientada a preservar la privacidad y la confidencialidad de los datos, que consiste en llevar los modelos (de aprendizaje automático) a donde están los datos en vez de trabajar con un único dataset centralizado. Esto no solo serviría para salvar el obstáculo de las deficiencias que puede presentar la anonimización de una base de datos y solventar los impedimentos legales de compartir datos clínicos, sino que una colaboración de este tipo entre varias organizaciones permitiría contar con más datos (es decir no solo las 2.157 historias clínicas que comparte HM Hospitales) y, por lo tanto, obtener modelos más precisos.

Debido a casos como estos, y a la propia experiencia de GMV con sus clientes, GMV siempre ha considerado la privacidad de los datos como un punto a tener en cuenta. Tanto es así que a día de hoy GMV participa en el proyecto MPC-Learning: Aprendizaje automático seguro y protegido mediante compartición de secretos. MPC-Learning es un proyecto cofinanciado por GMV, dentro del área de I+D+i, y por el Ministerio de Asuntos Económicos y Transformación Digital, y se focaliza en técnicas matemáticas capaces de realizar cálculo numérico sin necesidad de compartir datos.

Pincha aquí para más información sobre MPC-Learning, la alternativa de GMV

Autores: Luis Porras Díaz y Juan Miguel Auñón

Añadir nuevo comentario

Imprimir