É conveniente partilhar dados anonimizados?

O diretor da HM Hospitales anunciou recentemente que colocaram à disposição da comunidade científica 2157 histórias clínicas anonimizadas de pacientes de Covid-19 tratados nos seus hospitais.

Saúde

Uma boa iniciativa que, no entanto, nos leva a colocar-nos algumas questões:

Se a anonimização de dados pessoais ou confidenciais é realmente uma garantia para assegurar a privacidade.
Se publicar bases de dados anonimizadas é, neste momento, a melhor forma de contribuir para que a comunidade científica elabore modelos de aprendizagem automática precisos para avançar na investigação (neste caso) biomédica.

Uma base de dados anonimizada é suscetível de sofrer o que se conhece como um ataque de reidentificação, que consiste em tentar rastrear os registos supostamente anónimos aos registos de outra base ou fonte de dados relacionada para extrair desta a informação confidencial. Por exemplo, dois investigadores da Universidade do Texas conseguiram desanonimizar as avaliações de filmes que tinham feito os utilizadores de Netflix numa base de dados publicada pela companhia para uma competição dirigida a melhorar o seu sistema de recomendação. A técnica utilizada baseava-se numa ideia simples: na base de dados dos filmes, com uma enorme quantidade de campos, não há muitos utilizadores que pontuem igualmente os mesmos filmes, e já que as avaliações de um utilizador são únicas ou quase únicas, não deveria ser muito difícil identificar este utilizador com apenas um pouco de informação auxiliar obtida de outra fonte.

O artigo explica que numa base de dados de alta dimensionalidade como a da Netflix, aumenta enormemente a probabilidade de desanonimizar um registo, ao mesmo tempo que se reduz drasticamente a quantidade de informação auxiliar exigida para isso e, para além disso, permite que os algoritmos de desanonimização sejam fortes contra perturbações ou informação auxiliar incorreta. Demonstraram-no cruzando as avaliações na Netflix com a base de dados IMDb, na qual muitos utilizadores da Netflix tinham introduzido também avaliações de filmes que tinham visto, e conseguiram traçar perfis de utilizadores de IMDb, com frequência com os seus nomes reais, as suas avaliações (teoricamente privadas) na Netflix, e isto era possível mesmo que o utilizador tivesse publicado no IMDb muito poucas avaliações e que estas só se parecessem aproximadamente às que o mesmo utilizador tinha feito na Netflix.

O MPC-Learning é um projeto cofinanciado pela GMV, dentro da área de I+D+i, e pelo Ministério de Assuntos Económicos e Transformação Digital, focando-se em técnicas matemáticas capazes de realizar cálculo numérico sem necessidade de partilhar dados.

No âmbito médico, um caso popular foi a revelação dos dados e o histórico clínico do governador do estado de Massachusetts, quando a uma estudante do MIT, Latanya Sweeney, lhe ocorreu cruzar uma base de dados médicos anonimizados com o censo de votantes da localidade de Cambridge, nesse mesmo estado. O censo continha, entre outras coisas, o nome, endereço, código postal, data de nascimento e sexo dos então 54 000 votantes da localidade, que estavam distribuídos em sete códigos postais. Combinando esta informação com os registos da base de dados anonimizada, a estudante foi capaz de encontrar o histórico médico do governador com facilidade: Só seis pessoas em Cambridge partilhavam a sua data de nascimento, das quais três eram homens e só uma, o governador, vivia no seu código postal. O artigo «The 'Re-Identification' of Governor William Weld's Medical Information» revê este caso, apesar de salientar que a reidentificação foi possível porque o governador era uma personagem pública que sofreu um período de hospitalização conhecido por todos (desmaiou num ato público e as imagens circularam por todas as cadeias de televisão). Não obstante, é fácil supor que o mesmo procedimento serviria para encontrar a informação de um conhecido, ou de alguém que partilhe demasiada informação pessoal na internet.

Portanto, deveríamos renunciar à utilização de dados anonimizados para a investigação científica?

Provavelmente não, ou ainda não. Atualmente, não parece que a reidentificação se possa fazer de forma massiva sobre todos os registos de qualquer base de dados anonimizada e, apesar de haver inúmeros estudos que apresentam casos de reidentificação em determinadas circunstâncias, ninguém diria que esta possibilidade seja um preço excessivo a pagar perante os grandes avanços científicos que permite o intercâmbio de bases de dados médicas anonimizadas. No entanto, dá-nos a ocasião de pensar que, se queremos partilhar os nossos conjuntos de dados para avançar numa investigação, devemos escolher cuidadosamente a técnica de anonimização, e que ainda assim é possível que a privacidade não esteja garantida, ou que a nossa base de dados não seja diretamente apta para publicar anonimizada. E mesmo assim, é possível que no futuro apareçam novas técnicas que revelem toda ou parte da informação que quisemos ocultar.

Por isso, talvez tenha chegado o momento de se apostar por outras alternativas para partilhar dados, uma ideia que, à margem da anonimização, é reforçada pela seguinte questão: Não seria melhor que, em vez de que cada hospital, grupo, entidade, etc. publicasse a sua base de dados anonimizada, caminhássemos no sentido de um cenário de cooperação em que todas estas entidades se integrassem numa rede de aprendizagem federada? A aprendizagem federada é um modelo de computação distribuído, orientada para a preservação, a privacidade e a confidencialidade dos dados, o que consiste em levar os modelos (de aprendizagem automática) até onde estão os dados, em vez de trabalhar com um único dataset centralizado. Isto não apenas serviria para salvar o obstáculo das deficiências que pode apresentar a anonimização de uma base de dados e solucionar os impedimentos legais de partilhar dados clínicos, mas uma colaboração deste tipo entre várias organizações permitiria contar com mais dados (isto é, não só as 2157 histórias clínicas que o HM Hospitales partilha) e, portanto, obter modelos mais precisos.

Devido a casos como estes, e à própria experiência da GMV com os seus clientes, a GMV considerou sempre a privacidade dos dados como um ponto a ter em conta. Tanto é assim que, atualmente, a GMV participa no projeto MPC-Learning: Aprendizagem automática segura e protegida através da compartimentação de segredos. O MPC-Learning é um projeto cofinanciado pela GMV, dentro da área de I+D+i, e pelo Ministério de Assuntos Económicos e Transformação Digital, focalizando-se em técnicas matemáticas capazes de realizar cálculo numérico sem necessidade de partilhar dados.

Clique aqui para mais informação sobre o MPC-Learning, a alternativa da GMV

Autores: Luis Porras Díaz e Juan Miguel Auñón

Adicionar novo comentário

Imprimir