Anonymisation de données de santé : changement de paradigme

Sommaire

Aucun titre dans cet article

Example H3

‍Pourquoi anonymiser les données de santé ?

Les données de santé sont parmi les plus sensibles que l’on puisse manipuler. Elles concernent l’intimité des personnes, leur état physique ou mental, leur parcours de soins… Leur divulgation peut avoir des conséquences majeures pour les personnes dont elles sont issues. C’est pourquoi leur utilisation est particulièrement encadrée.

‍

Si la personne concernée par les données de santé est identifiée ou identifiable, ces données sont considérées comme des données personnelles. Cela implique que leur utilisation respecte les règles posées par le RGPD, par la loi française dite Informatique et Libertés et par les règles posées par la CNIL (référentiels, méthodologies de référence voire autorisation spécifique).

‍

A l’inverse, une donnée anonyme ou anonymisée sort du périmètre du RGPD : elle n’est plus considérée comme une donnée personnelle, ce qui permet d’éviter différentes démarches auprès des personnes dont les données sont issues (information, voire consentement), auprès de la CNIL (déclaration ou demande d’autorisation) et auprès des partenaires (contrats spécifiques).

‍

De fait, utiliser des données anonymisées facilite les réutilisations, par exemple à des fins statistiques ou de recherche. C'est la raison pour laquelle de nombreux acteurs du secteur souhaitent disposer de données anonymisées.

Anonymisation : ce que dit le RGPD

Le considérant 26 du RGPD précise que les principes de protection des données ne s’appliquent pas à des informations anonymisées, c’est-à-dire à des données personnelles rendues anonymes de telle manière que la personne ne soit pas ou plus identifiable.

‍

Cela implique :

de pouvoir démontrer que la réidentification d’une personne est devenue matériellement impossible, même de façon indirecte en croisant les données obtenues de différentes sources ou par déduction ;
de prendre en compte tous les moyens raisonnables susceptibles d'être utilisés pour tenter d’identifier les individus, en prenant en considération l'ensemble des facteurs objectifs, tels que le coût et le temps nécessaire à l'identification,
de réévaluer régulièrement les possibilités de réidentification au regard de l'évolution des technologies et ressources disponibles.

Pour pouvoir s’exonérer du respect du RGPD et des règles françaises en la matière, il est indispensable de mener une analyse sérieuse des risques de réidentification. En effet, les conséquences d’une erreur en la matière peuvent être lourdes, d’autant que la CNIL applique jusqu’à présent une interprétation stricte de cette notion.

Différence entre anonymisation et pseudonymisation

La confusion entre anonymisation et pseudonymisation est très fréquente, mais elle entraîne de nombreuses erreurs juridiques et expose à de lourdes sanctions.

‍

La pseudonymisation consiste à modifier des données personnelles de façon à ce qu’elles ne puissent plus être attribuées à une personne précise sans avoir recours à des informations supplémentaires conservées séparément et soumises à des mesures techniques et organisationnelles.

‍

💡 Exemple : remplacer les noms et prénoms d’un patient par un code ou identifiant patient en conservant une table de correspondance qui permet de retrouver l’identité des personnes à partir du code.

‍

La pseudonymisation est particulièrement utile :

Elle permet de respecter le principe de minimisation des données qui impose de ne pas utiliser des données qui ne sont pas nécessaires; comme c’est le cas en matière de recherche, de statistiques ou de développement d’outils d’IA;
Elle permet de respecter l’obligation d’assurer la sécurité et la confidentialité des données;
Dans certains cas détaillés ci-dessous - mais pas dans tous les cas - elle permet d’anonymiser les données.

‍Comment anonymiser des données de santé : méthodes et cadre juridique‍

Techniques d’anonymisation recommandées par la CNIL

La CNIL, comme les autres autorités européennes, recommande une démarche en deux temps :

Transformation des données,
Évaluation du risque de réidentification.

Suppression des identifiants et variables rares

Première étape : supprimer toutes les informations directement ou quasi-identifiantes,telles que :

noms, prénoms, adresses, numéros de sécurité sociale,
dates exactes (de naissance, d’admission…),
données géographiques fines (code postal, commune…),
toute variable trop rare (âge très avancé, maladie rare…).

Généralisation, randomisation, agrégation

Une fois les identifiants supprimés, on applique des techniques d’affaiblissement de précision:

généralisation : regrouper des valeurs précises (ex. : tranche d’âge 60–70 ans au lieu de 67 ans),
randomisation : introduire un certain niveau d’aléa dans les données (ex. : décaler légèrement une date ou une valeur),
agrégation : regrouper plusieurs données en une seule (ex. : moyenne des consultations dans une région).

Évaluation du risque de réidentification

L’évaluation repose sur 3 critères reconnus :

Non-individualisation : on ne doit pas pouvoir isoler un individu,
Non-corrélation : on ne doit pas pouvoir croiser les données entre elles ou avec d’autres jeux externes,
Non-inférence : on ne doit pas pouvoir déduire de nouvelles informations sur une personne.

Si ces trois conditions sont remplies ou si le risque de réidentification est démontré comme négligeable, les données peuvent être considérées comme anonymes.

‍

💡 Bon à savoir: le Health Data Hub propose un modèle d’analyse du caractère anonyme. La méthode n’est pas figée, mais le résultat est ce qui compte : l’impossibilité effective de réidentifier une personne.

Les limites de l’anonymisation des données de santé

Un haut risque de réidentification

Les données de santé ont des caractéristiques propres qui facilitent la réidentification des personnes :

Richesse : il s'agit rarement d'une information isolée sur un individu (son taux d'hémoglobine seul, par exemple) mais d'une série d'information qui constituent un véritable jeu de données (taux d'hémoglobine, d'hématies, de leucocytes, date de prélèvement, âge, contexte clinique tel que grossesse, pathologie, traitement, etc.),
Rareté : de nombreuses informations constituent des caractéristiques distinctives des individus - a fortiori lorsqu'il s'agit d'un jeu de données,
Réplication : elles sont partagées par de nombreux acteurs. Par exemple, des résultats d'analyse sanguine sont susceptibles d'être détenus par le laboratoire d'analyse médicale mais également par le médecin prescripteur, par le médecin traitant, par les autorités sanitaires et un laboratoire pharmaceutique, en cas de suspicion d'effet indésirable d'un médicament, par un organisme réalisant des recherches, ainsi que par tous les fournisseurs de services numériques impliqués dans la transmission, le traitement ou la conservation de ces données.
Conservation longue : Les différents acteurs impliqués dans le soin ou dans la recherche sont tenus de conserver les données de santé des patients pendant de nombreuses années.

Cas pratique : la décision de la CNIL du 5 septembre 2024

Dans cette affaire, la CNIL a considéré que des données administratives et médicales associées à un identifiant unique par médecin n’étaient pas anonymes, mais personnelles et simplement pseudonymisées.

‍

Les raisons évoquées :

Possibilité d’isolement d’un individu dans le jeu de données,
Corrélation possible entre plusieurs variables sensibles (région, spécialité, historique…),
Risque de croisement avec des données externes (géolocalisation, open data).

🔴 La société a été sanctionnée par une amende de 800 000 € pour une série de fautes découlant de la requalification de données anonymes en données personnelles.

Risques juridiques en cas d’anonymisation insuffisante

Le problème majeur : une anonymisation mal évaluée peut être requalifiée a posteriori par la CNIL.

Dans ce cas :

le traitement entre dans le champ du RGPD et de la loi Informatique et Liberté, ce qui implique notamment :
- de pouvoir justifier du droit de les utiliser,
- d’avoir informé les personnes de l’utilisation de leurs données,
- d’avoir réalisé une analyse d’impact sur la protection des données,
- d’avoir vérifié la conformité du traitement à différents référentiels,
- d’avoir réalisé une déclaration auprès de la CNIL ou sollicité une autorisation préalable.
S’il n’a pas été déclaré ou encadré correctement, il peut donner lieu à :
- sanctions financières,
- interdiction d’exploitation du jeu de données,
- atteinte à la réputation de l’acteur concerné.

Une évolution majeure : une nouvelle façon d’appréhender l’anonymisation

L’approche antérieure : une appréciation absolue de l’anonymisation

Jusqu’à récemment, une donnée était considérée comme personnelle dès lors que quelqu’un était en mesure d’identifier la personne concernée, même si ce n’était pas le cas de celui qui traite les données.

‍

Concrètement : même si vous n’aviez pas vous-mêmes les moyens d’identifier la personne, si d’autres étaient en mesure de procéder à cette réidentification, vous étiez soumis au RGPD. Les données pseudonymisées étaient considérées comme des données personnelles puisque - par définition - une réidentification grâce à des informations supplémentaires était possible.

‍

Le caractère anonyme des données était apprécié dans l’absolu, quelles que soient les circonstances et notamment les capacités de réidentification de l’acteur considéré.

‍

Cette approche rendait l’anonymisation de données de santé extrêmement difficile et pouvait être perçue comme injustement contraignante au regard des risques pour les personnes concernées.

‍

L’approche relative consiste, au contraire, à apprécier le caractère personnel d’une donnée en fonction des moyens de réidentification dont dispose l’acteur qui les utilise.

L’arrêt de la Cour de justice de l’Union européenne du 4 septembre 2025

Dans cette affaire :

Une autorité collecte des données personnelles, remplace les informations nominatives par un code en conservant une table de correspondance (pseudonymisation) puis les adresse à un cabinet de conseil,
Le cabinet de conseil reçoit les données pseudonymisées (sans la table de correspondance) qu’il analyse puis restitue l’autorité en question.

La question qui se posait était celle de savoir si les données pseudonymisées en question devaient être considérées comme personnelles ou anonymes.

‍

La CJUE juge que :

Les données pseudonymisées peuvent être des données personnelles ou des données anonymes, en fonction des situations,
Le caractère personnel ou anonyme des données s’apprécie du point de vue de chaque acteur, de telle sorte que :
- Pour l’acteur qui dispose de moyens pour identifier les personnes, comme la table de correspondance, les données sont personnelles,
- Pour l’acteur qui ne dispose pas de ces moyens, les données sont anonymes.

💬 En résumé: une même donnée peut être personnelle pour l’émetteur, mais anonyme pour le destinataire.

‍

Un changement de paradigme pour la recherche en santé

En matière de recherche en santé, y compris le développement d’outils d’intelligence artificielle, la norme est de recourir à des données pseudonymisées. Jusqu’à présent ces données devaient être considérées comme personnelles, avec toutes les conséquences que cela implique.

‍

Désormais, dans certains cas, les données utilisées pourraient être considérées comme anonymes, facilitant ainsi grandement leur utilisation. Cela ne sera toutefois pas toujours le cas et doit être vérifié.

Comment s’assurer du caractère anonyme aujourd’hui ?‍

Les points suivants doivent être soigneusement évalués :

L’existence de mesures permettant d’empêcher le destinataire des données d’accéder aux informations permettant de réidentifier les personnes à partir des données pseudonymisées;
L’absence d’autres moyens de réidentification pour le destinataire, y compris par recoupement avec d’autres informations dont il pourrait disposer par ailleurs.

Cette analyse nécessite d’être réalisée au cas par cas en tenant des spécificités propres à chaque destinataire et en impliquant les parties impliquées.

Les points de vigilance

Anonymisation ne vaut pas exonération de toute obligation. Le responsable de la collecte des données doit informer les personnes de l’ensemble des destinataires des données, y compris lorsque celles-ci seront anonymes pour le destinataire.
Un cadre juridique en cours de consolidation. Il faut s’attendre à ce que des précisions soient apportées dans les semaines ou mois à venir. A ce jour, ni la CNIL, ni le Comité européen de la protection des données (CEPD) ne se sont prononcés sur les conséquences de cet arrêt qui remet en question la vision stricte retenue jusqu’à présent.

Ce qu'il faut retenir

L’anonymisation des données de santé est un enjeu juridique, technique et éthique majeur. Si elle permet de sortir du champ du RGPD, sa mise en œuvre reste complexe et risquée, surtout pour des jeux de données riches et sensibles.

Dans un contexte où les autorités adoptent une lecture stricte du droit, il est essentiel de :

documenter rigoureusement les démarches d’anonymisation,
évaluer les risques de réidentification de manière approfondie,
ne pas confondre pseudonymisation et anonymisation,
et, si besoin, s’entourer de conseils juridiques spécialisés.

Vous traitez des données de santé et vous doutez de leur statut juridique ?

Mieux vaut sécuriser vos pratiques dès aujourd’hui pour éviter des soucis à l’avenir.