L'anonymisation des données, insuffisante pour protéger notre vie privée



Nos données personnelles sont-elles correctement protégées ? Des chercheurs de l’UCLouvain et de l’Imperial College London ont montré dans un article publié dans Nature Communication qu’il était possible de retrouver et d’identifier des personnes à partir de données anonymes. 

 

« Nous sommes souvent convaincu que l’anonymat va maintenir en sécurité nos informations personnelles. Notre article montre que la désidentification ne suffit absolument pas pour protéger la confidentialité des données des personnes », explique le Dr. Julien Hendrickx, un des co-auteurs. Selon le Dr. Yves-Alexandre de Montjoye, « les entreprises et les gouvernements ont minimisé le risque de la ré-identification », pensant que les bases de données sont trop incomplètes pour une telle reconnaissance. « Nos résultats contredisent cela et démontrent qu’un hackeur peut facilement et rapidement estimer la probabilité que le dossier trouvé appartient bien à la personne qu’il recherche. »  

 

Pour parvenir à ces résultats, les chercheurs ont utilisé le machine learning. Ils ont développé un algorithme pour qu’à partir de quelques centaines ou milliers d’informations et de la corrélation entre ces attributs, il puisse parvenir à l’identité des individus. Si à partir de petites bases de données la chance de correspondance est faible, la multiplication des informations (comme la date de naissance exacte, le nombre/le sexe des enfants) permet d’augmenter ces chances : « Au fur et à mesure qu’on a de plus en plus d’informations de plus en plus riches, ces informations deviennent trop riches et permettent d’identifier des personnes de manière unique », commente Luc Rocher. A titre d’exemple, « aux États-Unis, 15 attributs démographiques (date de naissance, code postal, âge, statut marital, etc.) suffiraient à identifier de manière correcte 99,98% des Américains dans n’importe quelle base de données anonymes ».

 

En mai 2018, Les institutions européennes ont mis en place le Règlement général de protection des données (RGPD). Luc Rocher souligne les limites de cette réglementation : « Dans le cadre légal actuel, le RGPD en Europe, toute donnée anonymisée ne requiert plus le consentement des personnes. Une fois qu’une donnée est anonymisée, elle peut être partagée ou revendue librement. » Cela se fait particulièrement pour les données de santé, comme en Belgique où certains hôpitaux revendent des données anonymes à des tiers. 

 

Les chercheurs concluent en plaidant pour une meilleure utilisation et protection de ces données. Ils incitent les responsables politiques à faire plus pour préserver la confidentialité des informations personnelles : « En matière de standards, il est crucial d’être rigoureux et de prendre en compte tout risque futur. Il faut peut-être aussi changer de mode de diffusion pour les données personnelles ».

 

 

Pour aller plus loin : 

Un entreprise de tests ADN expose en libre accès les dossiers génétiques de plus de 3000 clients

Données de santé : des experts inquiets

Données de santé : un consentement « présumé » problématique

 


Sources: 

RTBR (23/07/2019) - Des chercheurs montrent qu'on peut vous réidentifier avec vos données anonymisées, non protégées par le RGPD

TechXplore (23/07/2019) - Anonymizing personal data 'not enough to protect privacy,' shows new study