Publicité en cours de chargement...
Anonymisation : comparatif de trois outils (partie I)
A priori, on se dit que les meilleurs pour anonymiser une DB sont les éditeurs de DB eux-mêmes. Je suis donc allé faire un petit tour sur le site d’Oracle et rapidement on tombe sur une solution de « Data Masking and Subsetting » (la fiche descriptive n’est pas datée, je ne suis pas en mesure de dire si elle est récente ou pas, mais elle est en tout cas postérieure à 2016). Le concept de « data masking » est simple : il s’agit de supprimer des colonnes ou des lignes dans une table. Il existe depuis au moins la version 92 de SQL sous la forme de vues (Create View). On se demande ce qui a bien pu passer par la tête des rédacteurs de la fiche pour en faire un produit marketing (un élève de 3e en stage de découverte à occuper peut-être ?). À noter que si le masquage de colonnes est statique, celui des lignes peut être dynamique par l’insertion d’une clause « Where ». Le « data subsetting » est plus intéressant car il consiste à remplacer des données réelles par des substituts, le tout en live sur une base de production (le requêteur ne voyant que ce que le Data Subsetting lui laisse voir) ou sur une seconde base dédiée à l’interrogation. Le remplacement peut être réalisé par des outils plus ou moins sophistiqués : remplacement en un pour un, remplacement conditionnel avec algorithmes de calcul, appel à une procédure stockée, etc. Cette solution correspond à une approche purement technique de l’anonymisation, est totalement propriétaire et ne doit pas être en tête de gondole de l’éditeur : en dix ans de poste de RSSI et après deux années de RGPD, pas une seule fois je n’ai vu de communication Oracle sur ce sujet (qui a peut-être d’autres outils en magasin mais que je n’ai pas trouvés) ni entendu parler d’une implémentation dans le monde de la santé (mais bon, je n’ai pas la prétention d’être en ligne directe avec les 3 000 établissements du pays). Bref, on est dans l’entrée de gamme.
Plus intéressante est l’approche d’Arcad Software. Fondamentalement, les mêmes principes de base sont adoptés, à savoir triturer de la donnée pour la rendre anonyme. Mais, première différence, l’outil est totalement agnostique et fonctionne a priori avec tous les moteurs SGBD. Deuxième différence, même si, comme dans la solution Oracle, une plateforme d’administration centralisée permet de construire les processus d’anonymisation, il existe un moteur de simulation pour visualiser le résultat potentiel : pour des algorithmes d’anonymisation simple, on ne voit pas l’utilité, mais dès que cela se complique, c’est bien de pouvoir visualiser le résultat avant de filer toute la base RH à l’éditeur. À noter que le produit fonctionne sur la base d’une création de DB bis : contrairement au concept de vue, il ne peut pas fonctionner « à la volée » pour tout type de SGBD ; c’est le prix de l’agnosticisme. Troisième différence, et elle est de taille, le produit propose une bibliothèque d’API pour les classiques tels les numéros de sécu, de CB, d’immatriculation de véhicules, etc. Bref, un gros toolkit bien utile et qui peut couvrir un bon paquet d’usages, d’autant que la solution met à disposition des outils de scripting qui permettent de construire ses propres algorithmes internes spécifiques au métier. La plupart des besoins d’anonymisation sont couverts, sauf des cas très précis qui relèvent essentiellement de la recherche ou de besoins très spécifiques, voir plus loin.
Prenons plutôt un exemple d’usage, qui correspond à un cas réel. Imaginons qu’il faille transmettre aux services Transport de la Ville la liste des agents de l’établissement de santé (qui est souvent le premier employeur) pour redéfinir la carte des bus et des trams. Ce qui intéresse le service Transport est évidemment les adresses physiques (rue et numéro de rue) et, bien entendu, il est hors de question de transmettre ces deux colonnes qui sont totalement identifiantes. Ne transmettre que la colonne « Rue » sans les numéros n’est pas utile puisque, dans des rues très longues, habiter au numéro 10 ou au numéro 510 n’a pas le même impact sur l’emplacement de l’arrêt de bus. Les approches algorithmiques classiques conduisent à transmettre le nom de la rue en première colonne, et une plage de numéros (par exemple « 01-50 », ou « 51-100 ») en seconde colonne, ce qui permet d’anonymiser a minima le fichier. Le produit d’Arcad Software permet de le faire très facilement. Attention cependant : cette approche algorithmique peut rendre complexe dans certains cas l’anonymisation des données avec un niveau de sécurité suffisant, et peut devenir un projet à part entière dans le projet.
Et puis, je suis tombé sur WeData.
À suivre…
Avez-vous apprécié ce contenu ?
A lire également.

Les SI de santé : c’est tout de même assez dingue en 2025 que…
28 avril 2025 - 21:51,
Tribune
-Forcément, dans la cyber on voit passer quasiment tous les projets IT d’une organisation : en principe, ils doivent tous suivre une étape d’homologation, sans parler de ceux qui mettent en œuvre des traitements RGPD enclenchant mécaniquement et a minima une inscription à un registre interne.

Le GHT Hôpitaux de Provence optimise ses flux patients avec la solution M-SESAME de Maincare
24 avril 2025 - 10:06,
Communiqué
- MaincareLe GHT Hôpitaux de Provence, un des groupements hospitaliers les plus importants de France avec 13 établissements et un bassin de 2 millions d’habitants, a choisi la solution M-SESAME, développée par Atout Majeur Concept, distribuée et intégrée par Maincare, pour répondre à ses besoins en matière de...

Webinaire – Coordination & Automatisation : La nouvelle gestion du travail des hôpitaux avec l’AP-HP
14 avril 2025 - 22:20,
Communiqué
Dans un contexte de transformation numérique et d’optimisation des ressources, les établissements de santé doivent relever des défis de plus en plus complexes : multiplication des projets transverses, dispersion des outils, surcharge administrative et difficultés de coordination entre directions mét...

Optimisation de la chaîne AFRT : un enjeu clé pour les établissements de santé
07 avril 2025 - 11:25,
Tribune
-La maîtrise de la chaîne Admission-Facturation-Recouvrement-Trésorerie (AFRT) est un enjeu stratégique pour les établissements de santé. Un circuit bien structuré garantit une meilleure expérience patient, une facturation fiable et une trésorerie optimisée. Dans ce contexte, le Département d’Informa...