Conformité RGPD

Comprendre l’anonymisation des données de santé

August 1, 2025
L’anonymisation vise à transformer des données personnelles de manière à ce qu’aucune identification, directe ou indirecte, ne soit possible, même en croisant des bases de données issues de plusieurs sources.
Article banner image

Pourquoi anonymiser les données de santé ?

Les données de santé sont parmi les plus sensibles que l’on puisse manipuler. Elles concernent l’intimité des personnes, leur état physique ou mental, leur parcours de soins…

Dès lors qu’elles peuvent être reliées,directement ou indirectement, à une personne identifiée, elles sont considérées comme des donnéespersonnelles.Celaimplique que leur utilisation respecte les règles posées par leRGPD, par la loi française dite Informatique et Libertés et par lesrègles posées par la CNIL (référentiels, méthologie deréférence voire autorisation spécifique).

A l’inverse, une donnée anonyme ou anonymisée sort du périmètre du RGPD: elle n’est plus considérée comme une donnée personnelle, ce qui permet d’éviterdifférentes démarches auprèsdes personnes dont les données sont issues (information, voireconsentement), auprès de la CNIL (déclaration ou demanded’autorisation) et auprès des partenaires (contrats spécifiques).

De fait, utiliser des données anonymisées facilite les réutilisations, par exemple à des fins statistiques ou de recherche. C'est la raison pour laquelle de nombreux acteurs du secteur souhaitent disposer de données anonymisées.

Anonymisation et conformité RGPD :ce que dit le droit

Le considérant 26 du RGPD précise que les principes de protection des données ne s’appliquent pas à des informations anonymisées,c’est-à-dire à des données personnelles rendues anonymes de telle manière que la personne ne soit pas ou plus identifiable.

Cela implique :

  • de pouvoir démontrer que la réidentification d’une personne est devenue matériellement impossible, même de façon indirecte en croisant les données obtenues de différentes sources ou par déduction ;
  • de prendre en compte tous les moyens raisonnablement susceptibles d'être utilisés par celui qui détient les données ou par un tiers pour tenter d’identifier les individus, en prenant en considération l'ensemble des facteurs objectifs, tels que le coût et le temps nécessaire à l'identification,
  • de réévaluer régulièrement les possibilités de réidentification au regard de l'évolution des technologies et ressources disponibles. 

En cas de doute, mieux vaut être prudent d'autant que la CNIL applique une interprétation stricte de cette notion.

Différence entre données anonymisées et pseudonymisées

La confusion entre anonymisationet pseudonymisation est très fréquente, mais elle entraîne de nombreuses erreurs juridiques et expose à de lourdes sanctions.

Les données pseudonymisées, sont celles qui ont été traitées de façon à ce qu’elles ne puissent plus être attribuées à une personne précise sans avoir recours à des informations supplémentaires conservées séparément et soumises à des mesures techniques et organisationnelles.

💡 Exemple: les données associées à un code ouidentifiant patient sont des données pseudonymisées et non desdonnées anonymisées, même si la table de correspondance qui permetde retrouver l’identité des personnes à partir du code estconservée par une autre personne.

Comment anonymiser des données desanté : méthodes et cadre juridique

Techniques d’anonymisationrecommandées par la CNIL

La CNIL,comme les autres autorités européennes, recommande une démarcheen deux temps :

  1. Transformation des données,
  2. Évaluation du risque de réidentification.

Suppression des identifiants etvariables rares

Première étape : supprimer toutes les informations directement ou quasi-identifiantes,telles que :

  • noms, prénoms, adresses, numéros de sécurité sociale,
  • dates exactes (de naissance, d’admission…),
  • données géographiques fines (code postal, commune…),
  • toute variable trop rare (âge très avancé, maladie rare…).

Généralisation, randomisation,agrégation

Une fois les identifiants supprimés, onapplique des techniquesd’affaiblissement de précision:

  • généralisation : regrouper des valeurs précises (ex. : tranche d’âge 60–70 ans au lieu de 67 ans),
  • randomisation : introduire un certain niveau d’aléa dans les données (ex. : décaler légèrement une date ou une valeur),
  • agrégation : regrouper plusieurs données en une seule (ex. : moyenne des consultations dans une région).

Évaluation du risque deréidentification

L’évaluation repose sur 3 critères reconnus :

  1. Non-individualisation : on ne doit pas pouvoir isoler un individu,
  2. Non-corrélation : on ne doit pas pouvoir croiser les données entre elles ou avec d’autres jeux externes,
  3. Non-inférence : on ne doit pas pouvoir déduire de nouvelles informations sur une personne.

Si ces trois conditions sont remplies ou si le risque de réidentification est démontré comme négligeable, les données peuvent être considérées comme anonymes.

💡 Bon à savoir: le Health Data Hub propose un modèle d’analyse du caractère anonyme. La méthode n’est pas figée, mais le résultat est ce qui compte : l’impossibilité effective de réidentifier une personne.

Les limites de l’anonymisation des données de santé

Un haut risque de réidentification

Les donnéesde santé ont des caractéristiquespropres qui facilitent la réidentification des personnes :

  • Richesse : il s'agit rarement d'une information isolée sur un individu (son taux d'hémoglobine seul, par exemple) mais d'une série d'information qui constituent un véritable jeu de données (taux d'hémoglobine, d'hématies, de leucocytes, date de prélèvement, âge, contexte clinique tel que grossesse, pathologie, traitement, etc.),
  • Rareté : de nombreuses informations constituent des caractéristiques distinctives des individus - a fortiori lorsqu'il s'agit d'un jeu de données,
  • Réplication : elles sont partagées par de nombreux acteurs. Par exemple, des résultats d'analyse sanguine sont susceptibles d'être détenus par le laboratoire d'analyse médicale mais également par le médecin prescripteur, par le médecin traitant, par les autorités sanitaires et un laboratoire pharmaceutique, en cas de suspicion d'effet indésirable d'un médicament, par un organisme réalisant des recherches, ainsi que par tous les fournisseurs de services numériques impliqués dans la transmission, le traitement ou la conservation de ces données.
  • Conservation longue : Les différents acteurs impliqués dans le soin ou dans la recherche sont tenus de conserver les données de santé des patients pendant de nombreuses années.

Cas pratique : la décision de laCNIL du 5 septembre 2024

Dans cette affaire, la CNIL a considéré quedes données administratives et médicales associées à unidentifiant unique par médecin n’étaient pas anonymes, mais simplement pseudonymisées.

Les raisons évoquées :

  • Possibilité d’isolement d’un individu dans le jeu de données,
  • Corrélation possible entre plusieurs variables sensibles (région, spécialité, historique…),
  • Risque de croisement avec des données externes (géolocalisation, open data).
🔴 La société a été sanctionnée par une amende de 800 000 €pour une série de faute découlant de la requalification de données anonymes en données personnelles.

Risques juridiques en cas d’anonymisation insuffisante

Le problème majeur : une anonymisation mal évaluée peut être requalifiée a posteriori en pseudonymisation par la CNIL.

Dans ce cas :

  • le traitement entre dans le champ du RGPD et de la loi Informatique et Liberté, ce qui implique notamment :
    • de pouvoir justifier du droit de les utiliser,
    • d’avoir informé les personnes de l’utilisation de leurs données,
    • d’avoir réalisé une analyse d’impact sur la protection des données,  
    • d’avoir vérifié la conformité du traitement à différents référentiels,
    • d’avoir réalisé une déclaration auprès de la CNIL ou solliciter une autorisation préalable.
  • S’il n’a pas été déclaré ou encadré correctement, il peut donner lieu à :
    • sanctions financières,
    • interdiction d’exploitation du jeu de données,
    • atteinte à la réputation de l’acteur concerné.

Une évolution en cours : vers une approche relative de l’anonymisation ?

Approche absolue vs approche relative : de quoi parle-t-on ?

Aujourd’hui, l’approche dominante est dite « absolue » : une donnée est considérée comme personnelle dès lors que quelqu’un, quelque part, peut raisonnablement identifier la personne concernée, même si ce n’est pas le cas de celui qui traite les données.

Concrètement : même si vous n’avez pas les moyens de réidentifier une personne, vous êtes soumis au RGPD si d’autres le peuvent.

L’approche relative, au contraire, consisterait à apprécier le caractère personnel d’une donnée en fonction des moyens de réidentification réels de l’acteur qui les utilise.

L’apport du Tribunal de l’Unioneuropéenne (avril 2023)

Dans un arrêt du 26avril 2023, le Tribunal de l’UEa adopté une lecture relative :

  • Un cabinet de conseil (Deloitte) avait reçu des données collectées par une autorité européenne ;
  • Ces données auraient pu permettre une réidentification par l’émetteur… mais pas par le destinataire ;
  • Le Tribunal en a déduit que les données n’étaient pas personnelles pour Deloitte.

💬 En résumé: une même donnée pourrait être personnelle pour l’émetteur, mais anonyme pour le destinataire.

Prise de position du CEPD et de laCNIL

Malgré cette décision, la tendance des autoritésreste très prudente :

  • Le Comité européen de la protection des données (CEPD) continue à défendre une vision absolue et stricte ;
  • La CNIL, dans sa décision du 5 septembre 2024, n’a pas tenu compte de l’approche relative, bien que l’arrêt du Tribunal ait déjà été rendu.

La CNIL estime qu’il suffitque le risque de réidentification existe, même en théorie, pour que les données soient considérées comme personnelles.

Que retenir en pratique aujourd’hui?

Même si une évolutiondu droit semble amorcée,notamment à l’échelle européenne, les professionnels doiventrester prudents :

  • La CJUE n’a pas encore tranché (un pourvoi est en cours),
  • Les autorités françaises n’ont pas modifié leurs pratiques,
  • Les sanctions prononcées par la CNIL montrent que le risque juridique reste élevé.

💡 Tant que le droit n’évolue pasclairement, il est recommandé de se conformer à l’approche absolue, notamment pour les données de santé.

Ce qu'il faut retenir

L’anonymisation des données de santé est un enjeu juridique, technique et éthique majeur. Si elle permet — en théorie — de sortir du champ du RGPD, sa mise en œuvre reste complexe et risquée, surtout pour des jeux de données riches et sensibles.

Dans un contexte où les autorités adoptent unelecture stricte du droit, il est essentiel de :

  • documenter rigoureusement les démarches d’anonymisation,
  • tester les risques de réidentification de manière approfondie,
  • ne pas confondre pseudonymisation et anonymisation,
  • et, si besoin, s’entourer de conseils juridiques spécialisés.

Vous traitez des données de santé et vous doutez deleur statut juridique ?

Mieux vaut sécuriser vos pratiques dès aujourd’hui pour vous éviter de gros soucis à l’avenir.

FAQ – Anonymisation des données de santé

01

Quelle est la différence entre anonymisation et pseudonymisation des données de santé ?

X

L’anonymisation rend les données irréversiblement non identifiables, même par recoupement avec d’autres fichiers. Elle permet de sortir du champ du RGPD.
La pseudonymisation, en revanche, remplace les identifiants directs, mais les données restent réidentifiables avec des informations complémentaires. Elles restent donc soumises au RGPD.

02

Comment anonymiser correctement des données de santé selon la CNIL ?

X

La CNIL recommande une démarche en deux temps :

  1. Transformer les données : suppression des identifiants, généralisation, randomisation…
  2. Évaluer le risque de réidentification, en vérifiant les critères de non-individualisation, non-corrélation et non-inférence.
    Seules les données présentant un risque négligeable peuvent être considérées comme anonymes.

03

Quels sont les risques en cas d’anonymisation jugée insuffisante ?

X

Si la CNIL estime que l’anonymisation est incomplète, les données sont requalifiées en données personnelles.
En l’absence de conformité au RGPD, cela peut entraîner :

  • des sanctions financières (ex. : 800 000 € en 2024),
  • l’interdiction d’utiliser le jeu de données,
  • une atteinte à votre réputation réglementaire.

04

Peut-on anonymiser des données de santé et les réutiliser librement ?

X

Oui, si et seulement si l’anonymisation est complète, documentée et irréversible. Dans ce cas, vous pouvez utiliser les données sans consentement, sans notification à la CNIL, et en dehors du périmètre du RGPD.

⚠️ Cependant, pour les données de santé, il est souvent plus prudent de partir du principe qu’elles restent personnelles, sauf preuve solide du contraire.

Prendre contact

Discutons ensemble de votre projet, recevez une réponse sous 48h !

NOM & prénom
Entreprise
Téléphone
E-mail
Message
Envoyer
Merci pour votre message ! Nous vous répondrons dans les plus brefs délais.
Oups! Une erreur est survenue lors de l'envoi de votre message. Veuillez rafraîchir la page et réessayer.
Nous utilisons des Cookies pour mesurer l'audience de notre site internet. Vous pouvez vous opposer aux traitements basés sur l'intérêt légitime à tout moment en cliquant sur 'Refuser'. Pour plus d'informations : Politique de confidentialité