D’où proviennent les données qui ont fuitées ?
Écouter l'article

Plongeons ensemble dans le passé pour tenter d’y voir plus clair.
En février 2021, les données de près de 500 000 patients d’un groupe de laboratoires étaient diffusées sur Raid Forums [1]. Tout le monde a d’abord pensé à un piratage du SI du groupe, mais en avril 2022, une sanction publique (à l’époque) de la CNIL à l’encontre de l’éditeur a mis en avant qu’un dump de la base de données avait tout simplement été placé sur un serveur FTP, exposé sur Internet et non suffisamment sécurisé, dans le cadre d’une migration du SIL [2].
En novembre 2023, une base de données de 2,5 millions, puis de 35 millions d’utilisateurs LinkedIn était publiée sur le successeur de Raid Forums [3]. Malgré ce qu’annonçait l’auteur de cette fuite de données, cette base semblait être construite de toutes pièces à partir d’informations récoltées sur des profils publics LinkedIn, comme le nom, le prénom et l’employeur, le tout associé au nom de domaine de l’employeur et combinant des prenom.nom@nom_de_domaine_employeur.fr pour tenter d’avoir des adresses légitimes. Dans certains cas, les adresses de messageries existaient, même si ce n’était pas forcément les adresses utilisées pour les comptes LinkedIn des utilisateurs concernés, et que dans le lot, il y avait quand même beaucoup d’adresses inexistantes. Même si un piratage avait bien eu lieu en 2012 et que les données avaient été diffusées publiquement en 2016.
Au mois d’août 2024, un pirate proposait au téléchargement, un fichier de 60 000 comptes utilisateurs du site caf.fr.
Là encore, contrairement à l’emballement qu’il y a pu avoir sur les réseaux sociaux autour d’un potentiel piratage, ni le site, ni le SI de la CNAF n’ont été piratés. La présence de mêmes comptes avec plusieurs mots de passe, les loupés avec des comptes qui ne semblent pas concerner la CNAF et le lot de déchets importants dans ce fichier, laissent penser à une extraction pour le site caf.fr de données collectées directement sur les terminaux des personnes concernées via un infostealer. À noter que parmi les 60 000 accès annoncés, seuls 5 000 étaient valides et ont été très rapidement fermés par l’équipe sécurité de la CNAF, qui a également sensibilisé les allocataires sur la très probable compromission de leurs terminaux.
Bien sûr, dans de nombreux cas, la fuite de données provient bien du piratage de tout ou partie du SI de l’entité concernée, mais comme le montrent les exemples ci-dessus, pas toujours ! Soyons donc prudents dans nos conclusions et le relai que nous pouvons faire de certaines communications relatives à des fuites de données.
[1] https://dsih.fr/articles/4132/retour-sur-la-recente-fuite-de-donnees-concernant-500-000-patients-francais
[2] https://www.legifrance.gouv.fr/cnil/id/CNILTEXT000045614368
[3] https://www.troyhunt.com/hackers-scrapers-fakers-whats-really-inside-the-latest-linkedin-dataset/
Avez-vous apprécié ce contenu ?
A lire également.

Le DLP, ou l’archétype du techno-solutionnisme béat
20 avril 2026 - 10:27,
Tribune
-On n’est pas exactement dans un matraquage publicitaire de haute intensité, mais cela revient tout de même assez régulièrement, comme la grippe de saison ou les allergies aux plastiques des tongs d’été. En tout cas, régulièrement, il se trouve un commercial lambda pour nous ressortir une offre préte...

La cyber face au défi des modèles mentaux
14 avril 2026 - 08:41,
Tribune
-Un modèle mental, c’est un prisme au travers duquel nous regardons la réalité. Des lunettes filtrantes si vous préférez.

Comment quantifier un risque
31 mars 2026 - 08:06,
Tribune
-Après avoir expliqué qu’une PSSI et une appréciation des risques ne servaient à rien (ici 1) -mais un peu quand même -, intéressons-nous à un autre sujet brûlant qui déchaîne les passions, pire que JR (2) et la fin du Prisonnier (3) : la quantification du risque.

Publication d’un corpus inédit de comptes rendus médicaux fictifs en open data pour accélérer l’IA en santé
26 mars 2026 - 19:08,
Actualité
- Rédaction, DSIHDans un contexte réglementaire européen exigeant, qui garantit un accès et un partage sécurisés des données de santé, le projet PARTAGES apporte une réponse opérationnelle aux défis posés à l’IA en santé. Coordonné par la Plateforme des données de santé (Health Data Hub) et réunissant 32 partenaires...
