Anonymisation : comparatif de trois outils (partie I)
A priori, on se dit que les meilleurs pour anonymiser une DB sont les éditeurs de DB eux-mêmes. Je suis donc allé faire un petit tour sur le site d’Oracle et rapidement on tombe sur une solution de « Data Masking and Subsetting » (la fiche descriptive n’est pas datée, je ne suis pas en mesure de dire si elle est récente ou pas, mais elle est en tout cas postérieure à 2016). Le concept de « data masking » est simple : il s’agit de supprimer des colonnes ou des lignes dans une table. Il existe depuis au moins la version 92 de SQL sous la forme de vues (Create View). On se demande ce qui a bien pu passer par la tête des rédacteurs de la fiche pour en faire un produit marketing (un élève de 3e en stage de découverte à occuper peut-être ?). À noter que si le masquage de colonnes est statique, celui des lignes peut être dynamique par l’insertion d’une clause « Where ». Le « data subsetting » est plus intéressant car il consiste à remplacer des données réelles par des substituts, le tout en live sur une base de production (le requêteur ne voyant que ce que le Data Subsetting lui laisse voir) ou sur une seconde base dédiée à l’interrogation. Le remplacement peut être réalisé par des outils plus ou moins sophistiqués : remplacement en un pour un, remplacement conditionnel avec algorithmes de calcul, appel à une procédure stockée, etc. Cette solution correspond à une approche purement technique de l’anonymisation, est totalement propriétaire et ne doit pas être en tête de gondole de l’éditeur : en dix ans de poste de RSSI et après deux années de RGPD, pas une seule fois je n’ai vu de communication Oracle sur ce sujet (qui a peut-être d’autres outils en magasin mais que je n’ai pas trouvés) ni entendu parler d’une implémentation dans le monde de la santé (mais bon, je n’ai pas la prétention d’être en ligne directe avec les 3 000 établissements du pays). Bref, on est dans l’entrée de gamme.
Plus intéressante est l’approche d’Arcad Software. Fondamentalement, les mêmes principes de base sont adoptés, à savoir triturer de la donnée pour la rendre anonyme. Mais, première différence, l’outil est totalement agnostique et fonctionne a priori avec tous les moteurs SGBD. Deuxième différence, même si, comme dans la solution Oracle, une plateforme d’administration centralisée permet de construire les processus d’anonymisation, il existe un moteur de simulation pour visualiser le résultat potentiel : pour des algorithmes d’anonymisation simple, on ne voit pas l’utilité, mais dès que cela se complique, c’est bien de pouvoir visualiser le résultat avant de filer toute la base RH à l’éditeur. À noter que le produit fonctionne sur la base d’une création de DB bis : contrairement au concept de vue, il ne peut pas fonctionner « à la volée » pour tout type de SGBD ; c’est le prix de l’agnosticisme. Troisième différence, et elle est de taille, le produit propose une bibliothèque d’API pour les classiques tels les numéros de sécu, de CB, d’immatriculation de véhicules, etc. Bref, un gros toolkit bien utile et qui peut couvrir un bon paquet d’usages, d’autant que la solution met à disposition des outils de scripting qui permettent de construire ses propres algorithmes internes spécifiques au métier. La plupart des besoins d’anonymisation sont couverts, sauf des cas très précis qui relèvent essentiellement de la recherche ou de besoins très spécifiques, voir plus loin.
Prenons plutôt un exemple d’usage, qui correspond à un cas réel. Imaginons qu’il faille transmettre aux services Transport de la Ville la liste des agents de l’établissement de santé (qui est souvent le premier employeur) pour redéfinir la carte des bus et des trams. Ce qui intéresse le service Transport est évidemment les adresses physiques (rue et numéro de rue) et, bien entendu, il est hors de question de transmettre ces deux colonnes qui sont totalement identifiantes. Ne transmettre que la colonne « Rue » sans les numéros n’est pas utile puisque, dans des rues très longues, habiter au numéro 10 ou au numéro 510 n’a pas le même impact sur l’emplacement de l’arrêt de bus. Les approches algorithmiques classiques conduisent à transmettre le nom de la rue en première colonne, et une plage de numéros (par exemple « 01-50 », ou « 51-100 ») en seconde colonne, ce qui permet d’anonymiser a minima le fichier. Le produit d’Arcad Software permet de le faire très facilement. Attention cependant : cette approche algorithmique peut rendre complexe dans certains cas l’anonymisation des données avec un niveau de sécurité suffisant, et peut devenir un projet à part entière dans le projet.
Et puis, je suis tombé sur WeData.
À suivre…
Avez-vous apprécié ce contenu ?
A lire également.

Le DLP, ou l’archétype du techno-solutionnisme béat
20 avril 2026 - 10:27,
Tribune
-On n’est pas exactement dans un matraquage publicitaire de haute intensité, mais cela revient tout de même assez régulièrement, comme la grippe de saison ou les allergies aux plastiques des tongs d’été. En tout cas, régulièrement, il se trouve un commercial lambda pour nous ressortir une offre préte...

La cyber face au défi des modèles mentaux
14 avril 2026 - 08:41,
Tribune
-Un modèle mental, c’est un prisme au travers duquel nous regardons la réalité. Des lunettes filtrantes si vous préférez.

Comment quantifier un risque
31 mars 2026 - 08:06,
Tribune
-Après avoir expliqué qu’une PSSI et une appréciation des risques ne servaient à rien (ici 1) -mais un peu quand même -, intéressons-nous à un autre sujet brûlant qui déchaîne les passions, pire que JR (2) et la fin du Prisonnier (3) : la quantification du risque.

Publication d’un corpus inédit de comptes rendus médicaux fictifs en open data pour accélérer l’IA en santé
26 mars 2026 - 19:08,
Actualité
- Rédaction, DSIHDans un contexte réglementaire européen exigeant, qui garantit un accès et un partage sécurisés des données de santé, le projet PARTAGES apporte une réponse opérationnelle aux défis posés à l’IA en santé. Coordonné par la Plateforme des données de santé (Health Data Hub) et réunissant 32 partenaires...
