Publicité en cours de chargement...

Publicité en cours de chargement...

Préparation des données de santé pour l'utilisation secondaire, des lignes directrices !

20 oct. 2025 - 22:59,
Tribune-
Marguerite Brac de La Perrière

Écouter l'article

0:000:00
Illustration Préparation des données de santé pour l'utilisation secondaire, des lignes directrices !
L'Union européenne (UE) encourage l'utilisation des données de santé à des fins secondaires, notamment la recherche, l'innovation et l'élaboration de politiques, considérant qu'un "accès fluide et sécurisé aux données favorisera le développement de nouveaux traitements et médicaments et optimisera l'utilisation des ressources, le tout dans le but ultime d'améliorer la santé des citoyens à travers l'Europe".

TEHDAS2, la deuxième action commune « Vers un espace européen des données de santé », vise à élaborer des lignes directrices et des spécifications techniques afin de "faciliter l'utilisation transfrontalière des données de santé et d'aider les détenteurs de données, les utilisateurs de données et les nouveaux organismes d'accès aux données de santé à s'acquitter de leurs responsabilités et obligations définies dans le règlement sur l'espace européen des données de santé (EHDS)", en produisant des lignes directrices concrètes et des spécifications techniques destinées à être utilisées pour établir les actes d'exécution.

Des lignes directrices ont ainsi été produites, le 5 septembre 2025, sur la minimisation, la pseudonymisation, l'anonymisation et la génération de données synthétiques au sein de l'espace européen des données de santé (EHDS) par les organismes responsables de l'accès aux données[1]. Les lignes directrices ne sont pas destinées à encadrer la mise à disposition de données de "gré à gré" mais auront vocation à être suivies, modulo les responsabilités de traitements qui y sont définies.

Minimisation des données, le principe fondateur

La minimisation des données, principe central du RGPD, impose que seules les données strictement nécessaires à la finalité poursuivie soient collectées et traitées. Ce principe irrigue toutes les étapes du cycle de vie des données : de la collecte initiale àl’utilisation finale, en passant par l’évaluation des demandes d’accès et l’export des résultats. Concrètement, la minimisation se traduit par la réduction du volume de données, la limitation de la granularité (par exemple, regrouper les âges en tranches plutôt qu’utiliser l’âge exact), la restriction des périodes temporelles ou des zones géographiques, et la suppression des variables sensibles ou superflues.

Le guide TEHDAS2 propose d’opérer cette minimisation selon cinq dimensions : « Qui » (population étudiée), « Quoi » (variables nécessaires), « Quand » (période temporelle), « Où » (périmètre géographique) et « Comment » (méthodes d’échantillonnage ou d’agrégation). Pour chacune, le demandeur doit justifier ses choix et exclure toute information non pertinente ou présentant un risque supplémentaire pour la vie privée. De manière concrète et à titre d'exemple, dans le cadre d’une étude sur l’incidence d’une maladie à faible incidence, l’année de naissance ou une tranche d’âge (par exemple, 0-5 ans, 6-10 ans, etc.) sera préférée à la date de naissance exacte. De même, si l’étude porte sur une région spécifique, le code postal à deux chiffres ou la région administrative remplacera le code postal complet, afin de limiter le risque de ré-identification. Enfin, pour une analyse longitudinale, c'est la durée depuis un événement (par exemple, « 6 mois après le diagnostic ») qui sera traitée plutôt que la date précise de l’événement.

Pseudonymisation et anonymisation, protéger sans la donnée

Pour mémoire, la pseudonymisation consiste à remplacer les identifiants directs (nom, numéro de sécurité sociale, etc.) par des pseudonymes, stockés séparément et protégés par des mesures techniques et organisationnelles appropriées. Cette technique permet de lier différents jeux de données relatifs à une même personne, sans révéler son identité, et facilite l’exercice des droits des personnes (retrait du consentement, information sur des résultats importants). La pseudonymisation doit être réversible pour garantir ces droits, sauf cas particuliers où l’irréversibilité est justifiée. Concrètement, dans une base de données de santé, le nom et le numéro de sécurité sociale des patients sont remplacés par un identifiant aléatoire unique. La table de correspondance entre l’identifiant et l’identité réelle est conservée dans un environnement sécurisé, accessible uniquement par une entité de confiance (par exemple, un tiers de confiance ou l'organisme responsable de l'accès aux données), aux seules fins, si nécessaire, de recontacter un patient en cas de découverte d’un risque de santé lors d’une étude.

L’anonymisation vise à transformer les données de sorte qu’aucune personne ne puisse être identifiée par des moyens raisonnables[2]. Diverses méthodes existent : perturbation (ajout de bruit), généralisation (k-anonymat, l-diversité), suppression, agrégation, cryptographie, floutage d’images, masquage de texte, etc. Concrètement, s'agissant d'images médicales, il s'agit par exemple de flouter les éléments identifiants du patient et de supprimer les métadonnées DICOM contenant des informations personnelles. S'agissant de textes libres (comptes rendus médicaux), des outils sont utilisés pour détecter et masquer les noms, adresses ou numéros de téléphone. Pour les données tabulaires, l’application du k-anonymat garantit qu’au moins k individus partagent les mêmes caractéristiques, rendant la ré-identification beaucoup plus difficile, voire impossible selon par l'utilisateur, par des moyens raisonnables…

Données synthétiques : vers une nouvelle ère de la valorisation sécurisée

La génération de données synthétiques constitue une avancée majeure pour concilier valorisation scientifique et protection de la vie privée. Elle consiste à créer des jeux de données artificiels, statistiquement proches des données réelles mais sans information personnelle directe. Ces données sont produites à partir de modèles statistiques ou d’intelligence artificielle (réseaux de neurones, GANs, modèles bayésiens, etc.) entraînés sur les données réelles. Concrètement, pour un laboratoire souhaitant partager un jeu de données de patients diabétiques pour entraîner des modèles d’intelligence artificielle, sans exposer les données réelles, il est possible d'utiliser un générateur de données synthétiques pour produire un jeu de données artificiel qui conserve les mêmes distributions d’âge, de sexe, de résultats de laboratoire, etc., mais au sein duquel aucune ligne ne correspond à un patient réel. Avant diffusion, des outils d’évaluation doivent être utilisés pour procéder à une étude des risques de ré-identification et de fidélité statistique pour l’usage prévu.

La gouvernance des données de santé dans l’EHDS repose sur l'articulation entre utilité scientifique, sécurité juridique et respect des droits fondamentaux. La minimisation, la pseudonymisation, l’anonymisation et la génération de données synthétiques constituent les piliers de la gestion éthique et efficace des données de santé, au service de la recherche et de l’innovation en santé, dans le respect des droits et libertés des citoyens européens.


[1] Draft Guideline for Health Data Access Bodies on data minimisation,  pseudonymisation, anonymisation and synthetic data

[2] Voir l'article sur les notions de pseudonymisation et anonymisation : Pseudonymisation et donnée à caractère personnel, des notions subjectives

photo de Brac de La Perrière
Marguerite Brac de La Perrière

Avocate associée, Numérique & Santé

Avez-vous apprécié ce contenu ?

A lire également.

Illustration Paul Milon, de l'informatisation des mairies à la convergence hospitalière

Paul Milon, de l'informatisation des mairies à la convergence hospitalière

01 déc. 2025 - 18:48,

Actualité

- Pierre Derrouch, DSIH

Ce n’est pas à l’hôpital que Paul Milon fait ses premiers pas dans le numérique, mais en participant à partir de 1985 au mouvement d’informatisation les mairies. « C’était la première fois qu’on équipait ces collectivités », se souvient le DSI du GHT du Var. Une expérience qui incidemment le conduir...

Illustration Inria et Doctolib s’associent pour la recherche en intelligence artificielle en santé

Inria et Doctolib s’associent pour la recherche en intelligence artificielle en santé

01 déc. 2025 - 12:13,

Communiqué

- Doctolib

Inria, l’Institut national de recherche en sciences et technologies du numérique et Doctolib annoncent la signature d’un partenariat inédit en matière de recherche pour faire émerger des modèles d'intelligence artificielle cliniques à la fois fiables et souverains dans le domaine de la santé.

Illustration Comment le numérique peut-il faciliter les liens au sein et entre les territoires ?

Comment le numérique peut-il faciliter les liens au sein et entre les territoires ?

20 oct. 2025 - 16:26,

Tribune

-
Arnaud HAVE

Le numérique n’est pas seulement un instrument technique : c’est l’infrastructure invisible qui relie les acteurs, fait circuler la donnée et soutient les dynamiques de coopération à l’échelle d’une population.

Illustration Lutte contre les fraudes : Asafo-Pharma dépasse les 15 000 signalements en un an

Lutte contre les fraudes : Asafo-Pharma dépasse les 15 000 signalements en un an

23 oct. 2025 - 18:15,

Brève

- Rédaction, DSIH

Un an après son lancement à l’été 2024, Asafo-Pharma, l’outil de signalement des fausses ordonnances de l’Assurance Maladie, affiche des résultats significatifs : plus de 15 000 suspicions transmises par les pharmacies via Ameli-Pro, dont trois sur quatre confirmées comme frauduleuses. L’outil, qui ...

Lettre d'information.

Ne manquez rien de la e-santé et des systèmes d’informations hospitaliers !

Inscrivez-vous à notre lettre d’information hebdomadaire.