Données de Santé & système d’IA : Les données d’entrainement anonymisées ou pseudonymisées ? (I)

Protection de la vie privée vs Qualité des données

Le choix de l’algorithme pour anonymiser les données d’entrainement d’un système d’IA

Eléonore Scaramozzino, Avocat partenaire de Constellation Avocats

Un fabricant de dispositif médical avec Intelligence Artificielle embarquée, peut-il considérer que l’anonymisation du jeu de données d’entraînement lui permet d’échapper aux exigences du règlement UE 2016/679 relatif à la protection des données à caractère personnel (RGPD)(1) ?

L’efficacité des algorithmes d’apprentissage automatique (machine learning) ou d’apprentissage profond (deep learning) dépend du volume, de la valeur, variété, véracité et vélocité des données, puisque les corrélations sont construites avec les données. L’apprentissage automatique repose sur des appariements de données et donc sur la corrélation de données et non sur la causalité. La notion de causalité est étrangère à l’IA statistique, comme à de nombreuses techniques d’analyse de données massives, même si des hypothèses causales interviennent souvent de manière implicite dans le choix des ensembles de données et de leur catégorisation. Les données d’entraînement vont jouer un rôle déterminant dans la qualité, la fiabilité des résultats attendus des dispositifs médicaux avec IA embarquée. La valeur de l’input va influencer la valeur de l’output (garbage in /garbage out : gigo). La qualité de la donnée d’entrainement est donc déterminante pour la valeur de l’algorithme autoapprenant, mais également pour son interprétabilité.

De manière générale, les données pseudonymisées ont une qualité informative, supérieure aux données anonymisées, mais sont soumises aux exigences du RGPD, et nécessitent l’adoption de mesures de sécurité pour réduire le risque de ré-identification. Le fabricant de DM avec système d’IA est conduit à opérer une mise en balance entre qualité des données pseudonymisées et sécurité garantie par les données anonymisées qui échappent à la réglementation sur la protection des données à caractère personnel. Cependant, cette recherche d’équilibre se révèle complexe à mettre en œuvre, car les techniques d’anonymisation sont nombreuses et il existe plusieurs algorithmes pour une technique. Par ailleurs, elles ne préservent pas toutes contre les risques de ré-identification. Le choix de la technique d’anonymisation dépend du modèle souhaité de protection de la vie privée, pour contrer les types d’attaques redoutées, et son efficacité dépend du choix de l’algorithme qui l’implémentera. L’examen des techniques montre que les éditeurs s’orientent vers un cumul de techniques et donc d’algorithme permettant de conserver la qualité tout en garantissant la sécurité des données.

Le régime des données d’entraînement d’un système d’IA

1.1 Définition d’un système d’IA

L’expression “Intelligence artificielle” fut utilisée pour la première fois en 1956, lors d’une conférence du Dartmouth College à Hanover, New Hampshire, à laquelle participaient notamment à cette conférence l’informaticien et chercheur en sciences cognitives Marvin Minsky (Turing Award 1969) et l’inventeur du langage de programmation LISP John McCarthy (Turing Award 1971).

En informatique, l’intelligence artificielle est définie comme le « champ interdisciplinaire théorique et pratique qui a pour objet la compréhension de mécanismes de la cognition et de la réflexion, et leur imitation par un dispositif matériel et logiciel, à des fins d’assistance ou de substitution à des activités humaines » (JO du 9 décembre 2018).

Les branches de l’IA

Sur le plan technique, l’IA comprend deux grandes branches : symbolique et statistique. Alors que l’IA symbolique dépend de la formalisation logique de la connaissance d’un domaine, l’IA statistique peut se sous-diviser avec une approche statistique fondée sur une estimation bayésienne, d’une part, et, une approche fondée sur un entraînement des algorithmes d’apprentissage automatique (machine learning) par un important volume de données. Un algorithme d’IA statistique “ simule la dimension inductive du raisonnement humain. Lorsqu’on parle d’IA en 2021, on se réfère à ce type de technique. L’IA va établir une correspondance (mapping) entre un ensemble de données et un ensemble d’étiquettes (reconnaissance de forme) ou entre deux ensembles de données (cas de la traduction).

L’IA neuronale, version perfectionnée de l’IA d’apprentissage automatique, repose sur des modèles de réseaux neuronaux simulant le mode d’apprentissage du cerveau. Il s’agit d’apprentissage “profond” (deep learning), modèles reposant sur plusieurs couches superposées de neurones formels. Les réseaux neuronaux représentent le sous-domaine le plus complexe et le plus avancé de l’IA statistique.

Le projet de règlement établissant des règles harmonisées concernant l’intelligence artificielle (2) propose ces trois approches d’IA

Définition de l’IA selon le projet de règlement européen IA

La proposition de règlement de l’UE définit l’IA comme : « système d’intelligence artificielle» (système d’IA), un logiciel qui est développé au moyen d’une ou plusieurs des techniques et approches énumérées à l’annexe I et qui peut, pour un ensemble donné d’objectifs définis par l’homme, générer des résultats tels que des contenus, des prédictions, des recommandations ou des décisions influençant les environnements avec lesquels il interagit;(article 3 (1)) (projet de règlement sur les systèmes d’IA).

La définition de l’IA est donc basée sur les caractéristiques fonctionnelles clés du logiciel, en particulier la capacité, pour un ensemble donné d’objectifs définis par l’homme, à générer des résultats tels que du contenu, des prédictions, des recommandations ou des décisions qui influencent l’environnement avec lequel le système interagit.

L’apprentissage peut être

Apprentissage automatique	Processus par lequel un algorithme évalue et améliore ses performances sans l’intervention d’un programmeur, en répétant son exécution sur des jeux de données jusqu’à obtenir, de manière régulière, des résultats pertinents
Apprentissage non supervisé	Apprentissage automatique dans lequel l’algorithme utilise un jeu de données brutes et obtient un résultat en se fondant sur la détection de similarités entre certaines de ces données
Apprentissage supervisé	Apprentissage automatique dans lequel l’algorithme s’entraîne à une tâche déterminée en utilisant un jeu de données assorties chacune d’une annotation indiquant le résultat attendu

Source : Glossaire Evaluation des dispositifs médicaux par la CNEiMTS, HAS-LPPR : Dépôt d’un dossier auprès de la Commission nationale d’évaluation des dispositifs médicaux et des technologies de santé, septembre 2021 53, Journal officiel du 09/12/2018

L’apprentissage peut également être par renforcement, fédéré, centralisé ou autre.

1.2-Régulation de l’IA à haut risque : approche par les risques

Régulation fondée sur les risques

Selon le projet de la Commission européenne en avril 2021, l’IA est régulée par une approche fondée sur les risques.

La pyramide de criticité est basée sur 4 types de risques : plus le risque augmente plus la règle se durcit

Annexe II relative à la liste d’actes législatifs d’harmonisation de l’UE inclut :

Les dispositifs médicaux relevant du :
- Règlement (UE) 2017/745 du Parlement européen et du Conseil du 5 avril 2017 relatif aux dispositifs médicaux, modifiant la directive 2001/83/CE, le règlement (CE) nº 178/2002 et le règlement (CE) nº 1223/2009 et abrogeant les directives du Conseil 90/385/CEE et 93/42/CEE (JO L 117 du 5.5.2017, p. 1) ;
- Règlement (UE) 2017/746 du Parlement européen et du Conseil du 5 avril 2017 relatif aux dispositifs médicaux de diagnostic in vitro et abrogeant la directive 98/79/CE et la décision 2010/227/UE de la Commission (JO L 117 du 5.5.2017, p. 176).

les systèmes d’IA utilisés comme composant de sécurité d’un DM ou DMDIV

Les dispositifs médicaux, les dispositifs médicaux de diagnostic in vitro et les systèmes d’IA utilisés comme composant de sécurité de ces DM sont des Système d’IA appartenant à la catégorie d’IA à haut risque. Ils sont donc soumis à des exigences spécifiques.

Certification des systèmes d’IA : Marquage CE

Les IA embarquées dans les Dispositifs médicaux sont considérées comme des systèmes d’IA à haut risque. Ils sont autorisés sur le marché européen sous réserve du respect de certaines exigences obligatoires et d’une évaluation ex ante de la conformité.

Le système d’IA à haut risque doit respecter un système de gestion des risques, qui comprend :

Identification et analyse des risques ;
Evaluation des risques (utilisation conforme à la destination et mauvaise utilisation raisonnablement prévisible)
Evaluation d’autres risques susceptibles d’apparaître, sur la base de l’analyse des données recueillies au moyen du système de surveillance après commercialisation ;
Adoption de mesures appropriées de gestion des risques

Une documentation technique relative à un système d’IA à haut risque ainsi qu’une notice d’utilisation contenant des informations notamment sur les niveaux d’exactitude et les métriques pertinents en matière d’exactitude des systèmes d’IA à haut risque, sont établies avant que ce système ne soit mis sur le marché ou mis en service et est tenue à jour.

Le projet de règlement retient le principe de garantie humaine pour les systèmes d’IA à haut risque. Ce contrôle humain pendant la période d’utilisation du système d’IA vise à prévenir ou à réduire au minimum les risques pour la santé, la sécurité ou les droits fondamentaux qui peuvent apparaître dans des conditions normales d’utilisation ou en cas de mauvaise utilisation. Ce contrôle humain est assuré par des mesures qui sont intégrées par le fournisseur du système d’IA à haut risque et / ou qui se prêtent à une mise en œuvre par l’utilisateur. La conception et le développement des systèmes d’IA à haut risque doivent permettent, compte tenu de leur destination, d’atteindre un niveau approprié d’exactitude, de robustesse et de cybersécurité, et de fonctionner de manière cohérente à cet égard tout au long de leur cycle de vie.

Les solutions techniques visant à garantir la cybersécurité des systèmes d’IA à haut risque sont adaptées aux circonstances pertinentes et aux risques. Les solutions techniques destinées à remédier aux vulnérabilités spécifiques à l’IA comprennent, le cas échéant, des mesures ayant pour but de prévenir et de maîtriser les attaques visant à manipuler le jeu de données d’entraînement («empoisonnement des données»), les données d’entrée destinées à induire le modèle en erreur («exemples adverses») ou les défauts du modèle.

Les fournisseurs de systèmes d’IA à haut risque mettent en place un système de gestion de la qualité, apposent le marquage « CE » de conformité sur leurs systèmes d’IA à haut risque. L’évaluation de conformité est fondée soit sur un contrôle interne soit sur une procédure d’évaluation de la conformité fondée sur une évaluation du système de gestion de la qualité et l’évaluation de la documentation technique avec intervention d’un organisme notifié.

1.3. Articulation Règlement DM et Projet de règlement IA

S’agissant des dispositifs médicaux avec IA embarquée, les exigences applicables aux systèmes d’IA définies dans le projet de règlement feront l’objet d’une vérification dans le cadre des procédures existantes d’évaluation de la conformité prévues dans le règlement 2017/745 et le règlement 2017/746 pour les DMDIV.

En ce qui concerne l’interaction entre les exigences,

le projet de règlement définit des exigences destinées à couvrir les risques en matière de sécurité spécifiques aux systèmes d’IA,
le règlement 2017/745 et le règlement 2017/746 visent à garantir la sécurité globale du produit final et peuvent par conséquent contenir des exigences spécifiques relatives à l’intégration sûre d’un système d’IA dans le produit final.

Cela étant, les exigences ex ante essentielles applicables aux systèmes d’IA à haut risque définies dans la présente proposition devront être prises en considération lors de l’adoption

1.4 La réglementation des données d’entrainement

Le système de contrôle ex ante instauré dans le projet de règlement sur les systèmes d’IA s’applique au machine learning pour les données d’entraînement, de test et de validation. C’est dans la phase d’entraînement que le système d’intelligence artificielle construit un modèle à partir de données. Le modèle, étant la construction mathématique générant une inférence ou une prédiction à partir de données d’entrée (source : HAS LPPR : Dépôt d’un dossier auprès de la Commission nationale d’évaluation des dispositifs médicaux et des technologies de santé, septembre 2021)

Définition des données d’entraînement, validation, test

Le projet de règlement des systèmes d’IA définit à son article 3 :

(29) «données d’entraînement», les données utilisées pour entraîner un système d’IA en ajustant ses paramètres entraînables, y compris les poids d’un réseau neuronal;
(30) «données de validation», les données utilisées pour fournir une évaluation du système d’IA entraîné et pour régler ses paramètres non entraînables et son processus d’apprentissage, notamment, afin d’éviter tout sur ajustement; le jeu de données de validation pouvant être un jeu de données distinct ou faire partie du jeu de données d’apprentissage, selon une division variable ou fixe;
(31) «données de test», les données utilisées pour fournir une évaluation indépendante du système d’IA entraîné et validé afin de confirmer les performances attendues de ce système avant sa mise sur le marché ou sa mise en service;
(32) «données d’entrée», les données fournies à un système d’IA ou directement acquises par celui-ci et à partir desquelles il produit un résultat

L’examen des données d’entraînement par la CNEDiMT : une étape essentielle dans l’évaluation du service attendu

La CNEDiMTS vise à apprécier le service attendu/rendu (SA/SR) d’un dispositif médical connecté avec un système d’IA et, si ce dernier est suffisant, sur l’appréciation de l’amélioration du service attendu/rendu (ASA/ASR). Cette évaluation est définie par les articles R. 165-11 et R. 165-11-1 du code de la sécurité sociale. L’appréciation des données d’entraînement est intégrée dans l’évaluation d’un DM connecté avec IA embarqué pour son inscription à la liste des produits et prestations remboursées (LPPR) de l’article L 165-1 du CSP (3). Un questionnaire spécifique au données d’entraînement, il inclut également les données d’évaluation et de test, a été établi, il permet la CNEDiMT de connaître :

origine des données d’entraînement (données saisies par le patient, capteur, données générées à partir de modèle de patients virtuels extraites de corpus de données ouverts ou achetés et indiquer lesquels, le cas échéant, ainsi que leur caractère pérenne ou non) ;
données manquantes au sein des données brutes pour déterminer les risques de biais ;
méthodologie de séparation (méthodes utilisées et proportions) et de segmentation (aléatoire, par date, par individu, etc.) des jeux de données d’entrainement, de validation et de test ;
caractéristiques des variables, mode d’acquisition des variables (patients/capteurs/extraites de corpus de données ouverts ou achetés…) ;
prétraitements appliqués aux données d’entraînement (les actions de nettoyage des données, de transformation, de réduction, d’augmentation (ajouts de bruits artificiels, de perturbations artificielles simulant des variations météorologiques ou des défauts capteurs, etc.) et les données concernées et la proportion des données modifiées par ces prétraitements

Les exigences applicables aux données d’entraînement

Dans son projet la Commission européenne insiste sur la qualité des données d’entraînement, de test et de validation, des algorithmes de type machine learning. Pour éviter les biais, elle propose que les éditeurs puissent traiter des données à caractère personnel sensibles. Ces jeux de données de haute qualité nécessitent l’adoption de pratique de gouvernance et de gestion des données appropriées. Des informations sont demandées sur les données et les processus d’entraînement, d’essai et de validation utilisés, ainsi que le système de gestion des risques mis en place, et une documentation technique mise à jour.

Les jeux de données d’entraînement, comme les données de validation et de test sont soumis à des exigences en matière de gouvernance et de gestion des données (art 10.2 du projet de règlement).

Des conditions sur les jeux de données d’entraînement, de validation et de test

« Ces jeux doivent être pertinents, représentatifs, exempts d’erreurs et complets. Ils possèdent les propriétés statistiques appropriées, y compris, le cas échéant, en ce qui concerne les personnes ou groupes de personnes à l’égard desquels le système d’IA à haut risque est destiné à être utilisé. Ces caractéristiques des jeux de données peuvent être présentes au niveau des jeux de données pris individuellement ou d’une combinaison de ceux-ci. » (10.3)

Les jeux de données d’entraînement, de validation et de test tiennent compte, dans la mesure par la destination, des caractéristiques ou éléments propres au contexte géographique, comportemental ou fonctionnel spécifique dans lequel le système d’IA à haut risque est destiné à être utilisé (10.4)

Information sur les données d’entraînement et intégration dans la documentation technique

Les systèmes d’IA sont accompagnés d’information, dont notamment des informations sur les données d’entraînement, de validation et de test utilisés, compte tenu de la destination du système d’IA.

L’entraînement fait l’objet dans la documentation technique d’une description complète et détaillée du processus et de la justification de l’entraînement, des tests et de la validation du système d’IA.

Accès aux données d’entraînement par les autorités de surveillance

Dans le cadre de leurs activités, les autorités de surveillance du marché ont pleinement accès aux jeux de données d’entraînement, de validation et de test utilisés par le fournisseur, y compris par l’intermédiaire d’interfaces de programmation d’applications (API) ou d’autres moyens et outils techniques appropriés permettant d’octroyer un accès à distance (art 64).

1.5 Les données d’entraînement et le RGPD

L’article 10 alinéa 5 du projet de règlement précise que « Dans la mesure où cela est strictement nécessaire aux fins de la surveillance, de la détection et de la correction des biais en ce qui concerne les systèmes d’IA à haut risque, les fournisseurs de ces systèmes peuvent traiter des catégories particulières de données à caractère personnel visées à l’article 9, paragraphe 1, du règlement (UE) 2016/679, à l’article 10 de la directive (UE) 2016/680 et à l’article 10, paragraphe 1, du règlement (UE) 2018/1725, sous réserve de garanties appropriées pour les droits et libertés fondamentaux des personnes physiques, y compris des limitations techniques relatives à la réutilisation ainsi que l’utilisation des mesures les plus avancées en matière de sécurité et de protection de la vie privée, telles que la pseudonymisation, ou le cryptage lorsque l’anonymisation peut avoir une incidence significative sur l’objectif poursuivi ».

Il en résulte que les données de santé pseudonymisées ou cryptées peuvent être utilisées pour l’entrainement, s’il est établi que la procédure d’anonymisation est susceptible d’impacter sérieusement le résultat attendu.

Dans son avis du 21 juin 2021, l’EDPB, Le comité européen de la protection des données et le CEPD ont adopté un avis conjoint sur la proposition de règlement de la Commission européenne établissant des règles harmonisées concernant l’intelligence artificielle (IA). Dans cet avis, il est précisé que ces systèmes seraient dans une écrasante majorité des cas appelés à exploiter des données personnelles, impliquant donc un enjeu majeur d’articulation du règlement sur l’intelligence artificielle avec le RGPD et la directive « Police-Justice ». Selon les autorités de protection, la classification d’un système d’IA comme « à haut risque » ne signifiait pas que son utilisation était autorisée et pouvait être déployé dans tous les cas. En effet, le respect des obligations légales découlant de la législation de l’Union y compris en matière de protection des données personnelles, doit être une condition préalable à l’entrée sur le marché européen en tant que produit portant le marquage CE.

La donnée pseudonymisée relève du champ d’application du RGPD.

La donnée est considérée comme pseudonymisée, dès lors qu’il est possible de remonter à la personne par des moyens raisonnables. Elle reste soumise aux exigences du RGPD et de la loi Informatique et liberté. La pseudonymisation est un «processus par lequel les données perdent leur caractère nominatif. Elle diffère de l’anonymisation car les données restent liées à la même personne dans tous les systèmes informatiques sans que l’identité ne soit révélée. La norme 25237 : 2017 établit un certain nombre de principes et d’exigences visant à garantir la protection de la vie privée, grâce à des services de pseudonymisation ayant pour objet de protéger les informations de santé à caractère personnel.

En revanche, dès que le lien entre la personne et la donnée est cassé de manière irréversible, la donnée est qualifiée de donnée anonymisée. Elle échappe à la réglementation relative à la protection des données à caractère personnel.

Considérant 26 du RGPD

La donnée anonymisée : hors du champ du RGPD

La question de l’anonymisation a été traitée par le G.29, devenu le EDPB (Le comité européen de protection des données)

Dans son avis (4), le Groupe de travail de l’article 29 (GW 29) précise que l’anonymisation de données, visant la protection de la vie privée, a pour objectif d’empêcher

la singularisation d’un individu dans un ensemble de données,
le lien entre deux enregistrements (dont l’un correspond à des données propres à un individu) au sein d’un ensemble de données (ou entre deux ensembles de données distincts) ;
la déduction d’informations dans ce jeu de données.

Les données, suite au processus d’anonymisation sont sous une forme qui ne permet pas de remonter à l’individu et dont la combinaison avec d’autres données ne devrait pas permettre de les identifier.

L’anonymisation offreune sécurité en limitant et en principe en écartant le risque de réidentification, puisque le lien entre les données et la personne est détruit de manière irréversible, mais doit également permettre de traiter des données de valeur. L’anonymisation est identifiée à une mesure de sécurité permettant d’accroître la confiance entre les personnes concernées et l’éditeur de la solution technologique avec IA embarquée, qui collectent les données.

En statistique, les macro-données sont des données agrégées décrivant un ensemble d’individus et échappant à la règlementation des données à caractère personnel dès lors qu’il est impossible de remonter à l’individu. Alors que les micro-données sont des informations de base caractérisant un individu vis-à-vis d’un attribut (par exemple, le prénom d’une personne). Elles peuvent contribuer à l’identification d’un individu ou à sa quasi-identification. On distingue 4 groupes d’attribut d’une micro-donnée.

Le fabricant de DM avec système d’IA doit choisir entre sécurité et conservation de la valeur des données.

La valeur d’une donnée repose sur sa précision, sa cohérence (propriété statistique), son exactitude, sa véracité. Après un processus d’anonymisation, comment mettre à la disposition des utilisateurs un jeu de données dont les risques de ré-identification sont réduits, tout en maintenant la qualité des données.

Le maintien de la qualité des données :

nécessite d’éviter au maximum la perte de données,
vise à satisfaire un besoin d’usage,
garantit la crédibilité des données, par le maintien de la précision des données, la crédibilité, la cohérence, l’exactitude et la véracité des données.

La recherche d’un équilibre entre valeur et protection de la vie privée

L’objectif pour le fabricant d’un Dispositif médical avec IA embarqué est d’utiliser des données conservant leur valeur tout en préservant la vie privée.

L’objectif d’un processus d’anonymisation est de fournir un jeu de données anonymisées utiles et sécurisées. Ce processus vise à conserver une certaine qualité des jeux de données, tout en réduisant les risques de ré-idenitification des données :

le risque d’individualisation (possibilité d’isoler un individu) ;
risque de corrélation (possibilité de relier des ensembles de données distincts concernant un même individu) ;
risque d’inférence (possibilité de déduction d’information sur un individu) Avec la possibilité de lier des données de différentes sources, le risque nul de ré-identification ne peut être garanti par les techniques d’anonymisation.

II.- Anonymisation des données d’entraînement : Technique d’anonymisation et modèle de protection de la vie privée

2.1 Identification des types d’attaques

Le RGPD est fondé sur une approche par les risques. Il impose à tout responsable de traitement d’adopter des mesures de sécurité (art 32), et notamment des mesures de pseudonymisation, la privacy by design et la privacy by default (art 25), et d’effectuer des analyses d’impact sur la protection de la vie privée (AIDP) lorsque le traitement est susceptible d’engendrer un risque élevé pour les droits et les libertés des personnes physiques concernées (art 35).

Le choix d’une technique d’anonymisation est fondé sur la détermination du modèle de protection de la vie privée des patients concernés par le traitement de leurs données médicales. Pour déterminer le modèle de protection de la vie privée, l’éditeur devra identifier au préalable les attaques potentielles.

L’attaquant ou l’adversaire est un terme utilisé en sécurité informatique, et notamment en cryptographie, pour désigner l’utilisateur potentiellement mal intentionné, contre lequel on met en place des obstacles pour éviter toute divulgation d’information confidentielle

La préservation de la vie privée à des fins de fouille de données est connue sous le nom de Privacy Preserving Data Mining (PPDM). L’objectif est de manipuler des données où l’information sensible est protégée. La préservation de la vie privée à des fins de publication (Privacy Preserving Data Publishing : PPDP) étudie comment immuniser les données contre les attaques de la vie privée à des fins de publication.

Les attaques contre les données

Un attaquant, pour accéder à l’information sensible, utilise des stratégies fondées avant tout sur sa connaissance du contexte. Dans ces stratégies, ou modèles d’attaque, l’adversaire déduit des informations sensibles sur sa victime en établissant des liens ou encore en procédant à des inférences probabilistes

Dans les scénarii d’attaque les attaquants veulent obtenir les données sensibles de leurs victimes.

2.2. Les modèles de protection de la vie privée

La phase d’identification des risques d’attaques à la vie privée terminée, la phase de sélection des techniques d’anonymisation adaptées au modèle de sécurité pertinent et qui garantissent la valeur des données pour un entrainement de l’algorithme d’apprentissage automatique de type machine learning ou d’apprentissage profond de type deep learning. En effet, certaines techniques d’anonymisation sont perturbatrices, car les données en résultant sont dénaturées.

D’autres modèles se sont développés pour remédier aux autres types d’attaques.

2.3. Les techniques de protection

A ces modèles de protection de la vie privée correspondent des techniques.

Techniques pour garantir la k-anonymat

Techniques pour garantir la l-diversité dans les tables anonymes

Autres techniques

Avatarisation des données

L’avatarisation est une méthode permettant d’anonymiser les données de façon plus sûre. Elle consiste à remplacer les données d’un patient par les données d’un avatar qui lui “ressemble”, créé artificiellement au moyen d’un algorithme. Les GAN (Generative Adversarial Networks), algorithmes d’apprentissage profond non supervisé, sont entraînés à générer des images de synthèse à partir d’images réelles. Ce procédé a notamment été médiatisé par le deepfake. Désormais utilisés en médecine, ces algorithmes permettent de générer des images supplémentaires pour pallier au manque de données disponibles

En fonction du degré de confidentialité que l’on souhaite appliquer aux données, le logiciel renverra une base de données plus ou moins proche de la réalité, dont les analyses statistiques obtenues demeureront plus ou moins superposables. Il devient alors possible d’exploiter publiquement cette base de données, et ensuite de reproduire l’ensemble des analyses sur la base de données originale, en milieu interne sécurisé.

Apprentissage sur des données chiffrées (training over encrypted data)

Le cryptage entièrement homomorphe est un type spécial de méthodes de cryptographie qui permet d’effectuer des ajouts et multiplications sur des données chiffrées. Son intégration dans les algorithmes d’apprentissage automatique commence. Cette technique pourrait se révéler une stratégie raisonnable pour des données de sensibilité élevée.

L’agrégation sécurisée

Il s’agit technique différente mais proche de la sécurisation des communications d’informations entre différentes parties, en suggérant des moyens de partager en toute sécurité des informations sur des modèles. Il est particulièrement utile lorsqu’il est combiné avec l’apprentissage fédéré

L’apprentissage automatique fédéré (federated machine learning)

L’apprentissage automatique fédéré est un système décentralisé/distribué qui forme un algorithme sur plusieurs serveurs décentralisés contenant des échantillons de données locaux (nœuds), sans échange de leurs échantillons de données. Les itérations d’entraînement sont effectuées en local et les résultats du calcul sont renvoyés à un référentiel central pour mettre à jour l’algorithme principal.

Son principal avantage réside dans la capacité des données à rester avec leur propriétaire. La topologie de fédération est flexible (partage de modèle entre les nœuds et agrégation ultérieure (stratégie peer-to-peer) ou décentralisation complète, combinée, par exemple, avec le suivi des contributions/pistes d’audit à l’aide de blockchains).

Cependant, l’apprentissage automatique fédéré ne garantit pas la confidentialité et la sécurité, il évite des transferts de data, ce qui contribue à limiter les risques d’attaque, mais une absence de mesure de sécurité, comme le cryptage des données, permettrait à un attaquant de les détourner directement à partir des nœuds ou d’interférer avec le processus de communication. Par ailleurs le contrôle qualité, intégrité est rendu plus difficile dans un système décentralisé. Il existe des vulnérabilités au niveau des algorithmes locaux (absence de cryptage), des mises à jour (sécurisation), ce qui générer des risques d’attaques.

Les réseaux de neurones représentent une forme de mécanisme de mémoire, avec des représentations compressées des données d’entraînement stockées dans leur pondération. Il est donc possible de reconstruire des parties des données d’entraînement à partir des pondérations de l’algorithme sur un nœud décentralisé. Ces attaques d’inversion ou de reconstruction de modèles peuvent provoquer de fortes fuites de données : les images peuvent être reconstruites avec une précision, conduisant à une visualisation des données d’entraînement originales. L’apprentissage fédéré doit être complété par des mesures de sécurité.

2.4. Choix de l’algorithme rattaché à la technique envisagée

Toute technique d’anonymisation est fortement liée à l’algorithme choisi pour son application .

Le choix de l’algorithme répond au besoin de sécurité, de qualité et la garantie des performances. La comparaison des algorithmes est difficile en raison de la variabilité des métriques associées aux critères d’évaluation (métrique de qualité, métrique de complétude des données, temps d’exécution de l’algorithme, compte tenu d’un certain nombre de paramètres tels que la taille du QI, la valeur de k, la taille de la table originale, sa densité…)

Pour une k-anomymisation par généralisation de micro-données, l’ensemble des paramètres est composé de

-l’algorithme servant à l’anonymisation,

-du critère d’évaluation de l’algorithme,

-de la métrique d’évaluation associée au critère,

-de la valeur de k,

-du nombre d’attributs constituant le QI,

– de la distribution des données.

Certaines techniques sont perturbatrices, dans la mesure où les données résultantes sont dénaturées.

La généralisation, par exemple, n’est pas perturbatrice. Elle diminue la précision des données mais ne provoque pas d’autre transformation. Le k-anonymat, de par sa définition, oblige k individus à partager le même QI. Cette contrainte d’anonymat affecte négativement l’utilité des données. En effet, plus la taille de la classe d’équivalence est grande, plus l’utilité des données est amoindrie. Ainsi, elle préserve l’usage des données à des fins de test ou d’entrainement. Il convient de préciser que ces techniques ne s’appliquent pas à tous les attributs, mais seulement aux attributs continus (IE et AS) ou, au contraire, aux attributs catégoriels (IE et AS), ou aux attributs faisant partie du QI. Il existe des variantes d’une technique.

Le choix de la technique et de l’algorithme diminuant le risque de ré-identification de données sensibles, tout en maintenant leur utilité.

Par exemple, la technique de généralisation, se limitant à diminuer la précision des données est mise en œuvre par plusieurs algorithmes, qui garantisse le respect de la vie privée tout en garantissant la qualité des données anonymisées qui fournissent.

Pour éviter que le processus de transformation des données par généralisation ne dégrade trop leur précision, la plupart de ces algorithmes utilisent, au cours de leur processus, une métrique permettant d’orienter le codage des données. Ces métriques de guidage (« search metrics ») sont le plus souvent associées à un seul algorithme. D’autres métriques de qualité ou d’évaluation existent, appelées « data metrics ». Elles permettent de mesurer la qualité des données de la table anonyme en la comparant à la qualité des données de la table originale. Les métriques de compromis servent à établir un équilibre souhaité entre l’utilité des données et la préservation de la vie privé

Conclusion

A la question un fabricant de DM avec un système d’IA doit-il anonymiser les données d’entraînement ? La réponse conduit à s’interroger sur la nécessité d’anonymiser le jeu de données par rapport aux finalités d’un processus d’anonymisation et sur l’algorithme qui mettra en œuvre la technique d’anonymisation sélectionnée en fonction du modèle de protection de la vie privée choisi.

Les choix techniques sont induits par le type de modèle de protection de la vie privée souhaité ainsi que le domaine d’applicabilité des techniques. Un modèle de protection de la vie privée est défini pour contrer un ou plusieurs scénarios d’attaque. L’application d’une technique nécessite l’exécution d’un algorithme.

NOTE

1-Règlement (UE) 2016/679 du Parlement européen et du Conseil du 27 avril 2016 relatif à la protection des personnes physiques à l’égard du traitement des données à caractère personnel et à la libre circulation de ces données, et abrogeant la directive 95/46/CE (règlement général sur la protection des données) (Texte présentant de l’intérêt pour l’EEE) OJ L 119, 4.5.2016, p. 1–88
2-La proposition de règlement de l’UE établissant des règles harmonisées concernant l’intelligence artificielle COM (2021) 206 final ;
3-HAS- LPPR : Dépôt d’un dossier auprès de la Commission nationale d’évaluation des dispositifs médicaux et des technologies de santé, septembre 2021, Annexe 5. Informations descriptives spécifiques à fournir pour les fonctionnalités du dispositif médical s’appuyant sur des procédés d’apprentissage automatique (technologies relevant du champ de l’intelligence artificielle)
4-Opinion 05/2014 on Anonymisation Techniques, 10.04.2014, WP216, Article 29 Data Protection Working Party

Données de Santé & système d’IA : Les données d’entrainement anonymisées ou pseudonymisées ? (I)

Le choix de l’algorithme pour anonymiser les données d’entrainement d’un système d’IA

Eléonore Scaramozzino, Avocat partenaire de Constellation Avocats