Publicité en cours de chargement...

Anonymisation : comparatif de trois outils (partie II)

10 mars 2020 - 11:18,

Tribune - Cédric Cartau

Intelligence artificielleIntelligence artificielle SécuritéSécurité E-santéE-santé

Dans un précédent article, nous avons examiné deux solutions d’anonymisation et notamment celle d’Arcad Software.

Le troisième outil est celui de WeData, et je ne vais pas y aller par quatre chemins : dans la vie d’un ingénieur, il y a très peu de moments où l’on est littéralement scotché par les solutions techniques que l’on découvre. Pour ce qui me concerne, la première fois remonte à l’achat de l’extension 16 Ko de mon ZX81, et la dernière au vendredi 17 janvier à 10 h 30, quand l’équipe de WeData m’a déroulé une présentation technique assez précise de leur solution. L’idée est que, même en supprimant les caractères directement identifiants d’une DB (nom, prénom, date de naissance, etc.), il est démontré (voir les travaux de Luc Rocher – https://www.rocher.lc/ –, qui ont fait l’objet d’un précédent article dans les colonnes de DSIH[1]) qu’à partir de six traits il est possible de remonter aux individus dans 95 % des cas (99 % avec sept traits). En gros, les approches classiques algorithmiques ne conviennent plus puisqu’il faudrait brouiller tellement de colonnes que la DB n’aurait plus aucun sens (si on supprime tellement de colonnes de la DB RH qu’à la fin il ne reste plus que les codes postaux des villes de naissance, on ne va pas pouvoir faire grand-chose du résultat).

En substance, WeData a mis au point un algorithme d’avatarisation, qui consiste, pour chaque ligne dans la base (par exemple un patient), à construire un « patient fictif » qui est le patient d’origine pour lequel, pour chaque trait, on a introduit un « bruit » aléatoire. À titre d’illustration, si un fichier contient la taille en centimètres de chaque patient, après avoir supprimé les noms et prénoms, on ajoute 2 cm au premier, 3 cm au deuxième, on enlève 2 cm au troisième, etc. Ces ajouts et retraits sont aléatoires de sorte que si l’on rejoue le film une seconde fois on n’obtiendra pas le même résultat (non-réversibilité du bruit). De plus (et c’est là que c’est fort), les propriétés statistiques du nouvel ensemble de données sont très proches des données d’origine (même courbe de Gauss, mêmes moyennes et écarts types à epsilon près) et le delta entre les deux ensembles de données (l’original et le résultat avatarisé), qui n’est forcément pas nul, est lui-même mathématiquement quantifiable. Mieux encore : les possibilités de réidentification pour un attaquant potentiel qui disposerait de l’ensemble avatarisé sont mathématiquement quantifiables, en fonction des différents paramètres utilisés lors du processus d’avatarisation (et inutile de dire qu’on est sur des queues de pouillèmes). Aucune des solutions décrites dans le précédent volet ne permet à ma connaissance de parvenir à ce résultat.

Bon, en fait, le procédé d’avatarisation est un peu plus complexe, et je laisse le soin à WeData de le décrire dans un article à paraître dans le prochain numéro de DSIH. Reprenons l’exemple d’anonymisation du fichier des adresses des agents de l’établissement, pour lequel l’approche algorithmique consistait à remplacer chaque numéro de la rue par une plage de valeurs. Dans cet exemple, ce type de mesure convient, mais l’approche WeData va plus loin car elle consiste à utiliser une adresse fictive (changement de rue et de numéro à la fois) de telle sorte que la nouvelle adresse transmise ne soit pas suffisamment éloignée de la précédente pour changer le choix de l’emplacement de l’arrêt de bus et à rendre ainsi quasi impossible la réidentification de l’adresse réelle de l’agent. En effet, à moins d’accepter de tourner au hasard pendant des heures dans tout un quartier, vous conviendrez que c’est nettement plus complexe que de remonter une rue du numéro 1 au numéro 50.

La technologie donne le vertige tant ses applications potentielles imaginables sont nombreuses. Par exemple, transmission avatarisée de codification des actes aux commissaires aux comptes dans le cadre de leurs contrôles annuels, transmission de cohortes avatarisées aux internes pour leur thèse, transmission de base avatarisée à un éditeur pour recherche de bug, etc. Si la technologie semble avoir d’abord été mise au point pour le secteur de la recherche, ses applications sont immenses et permettent de résoudre les problèmes de manipulation de grands ensembles de données sensibles (cf. les débats sur l’entrepôt de données de recherche national).

Pour clore le sujet (si tant est que cela soit possible), il faut savoir que la question de l’anonymisation se traite différemment selon au moins trois configurations bien identifiées : celle des grands ensembles de données nominatives (pour lesquels Arcad Software et WeData offrent une réponse valable), celle des données en marge (par exemple un jeu de 100 sages-femmes comprenant un unique individu masculin) et enfin celle des petits ensembles telle la population de patients atteints d’une maladie rare (dans certains cas, moins de 50 dans toute la France). Et, à titre personnel, je serais curieux de savoir si cette technique d’avatarisation conserve les propriétés de la loi de Benford (qui stipule que dans une série de nombres, le chiffre de premier rang – par exemple les milliers – qui apparaît le plus souvent est « 1 », suivi de « 2 », etc.). Si tel est le cas, je prédis un changement radical de la fonction de contrôleur financier.

[1] /article/3568/vous-prendrez-bien-un-peu-de-donnees-personnelles.html

Avez-vous apprécié ce contenu ?

A lire également.

Des lignes directrices sur la portée des obligations applicables aux modèles d'IA à usage général (1)

29 juil. 2025 - 11:09,

Actualité

Marguerite Brac de La Perrière

Le règlement (UE) 2024/1689 (AI Act), entré en vigueur le 1er août 2024, vise à encadrer le développement et l’utilisation de l’intelligence artificielle dans l’Union européenne, en conciliant innovation technologique et protection des droits fondamentaux.

Dernier billet philosohico-cyber avant la plage

21 juil. 2025 - 10:00,

Tribune

Cédric Cartau

À l’approche des congés d’été, l’heure est à la réflexion — et pas seulement sur la température de l’eau ou le bon dosage de crème solaire. Entre arnaques bancaires de plus en plus sophistiquées, dérives technologiques, illusions cyber-industrielles et lacunes dans la gouvernance publique, ce billet...

Données de santé et intelligence artificielle : la France lance sa stratégie nationale pour accélérer l’innovation en santé

07 juil. 2025 - 23:57,

Actualité

- DSIH

Le ministre chargé de la Santé et de l’Accès aux soins, Yannick Neuder, a réuni ce 1er juillet un Comité stratégique exceptionnel pour présenter les premières étapes de la stratégie nationale sur l’intelligence artificielle (IA) et l’utilisation secondaire des données de santé. Objectif : structurer...

Ce qu’il fallait retenir de l’édition 2025 du congrès APSSIS

01 juil. 2025 - 00:00,

Actualité

- DSIH

La 13ᵉ édition du congrès APSSIS, qui s’est tenue en juin 2025, a une nouvelle fois confirmé sa place centrale dans l’écosystème de la cybersécurité en santé. Au fil de trois jours de conférences, de débats et de rencontres, RSSI, DPO, DSI, juristes et institutionnels ont croisé leurs expertises pou...

Anonymisation : comparatif de trois outils (partie II)

Avez-vous apprécié ce contenu ?

A lire également.

Des lignes directrices sur la portée des obligations applicables aux modèles d'IA à usage général (1)

29 juil. 2025 - 11:09,

Actualité

Dernier billet philosohico-cyber avant la plage

21 juil. 2025 - 10:00,

Tribune

Données de santé et intelligence artificielle : la France lance sa stratégie nationale pour accélérer l’innovation en santé

07 juil. 2025 - 23:57,

Actualité

Ce qu’il fallait retenir de l’édition 2025 du congrès APSSIS

01 juil. 2025 - 00:00,

Actualité

Lettre d'information.

Ne manquez rien de la e-santé et des systèmes d’informations hospitaliers !

A propos

Nous suivre

Contact

Special Partner

Publicité

Rédaction

Abonnement

Nos marques