L’entrainement fédéré de l’IA : sécurité des données de santé d’entraînement

Posted by

Eléonore Scaramozzino, Avocat Partenaire, Constellation Avocats

En santé, Le recours à l’Intelligence artificielle (IA) vise à développer cette médecin de précision, personnalisée préventive à grande échelle. L’IA permet d’accélérer la recherche médicale en utilisant sa capacité à générer des informations médicales allant de l’identification des biomarqueurs du cancer au dépistage des patients et à la prédiction génétique à partir de l’imagerie. L’IA permet égal d’accélérer la mise au point de nouveaux médicaments, de traitements et de vaccins à moindre coût, tout en améliorant la qualité et la sécurité générale du processus de production. L’IA peut aider à prédire les résultats et les réponses aux traitements, augmentant ainsi l’efficacité des soins préventifs;

L’accès et le traitement d’un volume important de données de santé de valeur et variées augmentent la capacité des professionnels de la santé à mieux comprendre les cas et les symptômes de leurs patients et donc à fournir un meilleur retour d’information, des conseils et un suivi adaptés.

L’Intelligence artificielle (IA) est un terme générique. A l’origine une IA est un algorithme dont le but est de prendre des décisions, relevant d’une certaine forme d’intelligence. L’IA symbolique est un domaine de l’IA dans lequel les algorithmes suivent un ensemble de règles explicites. L’algorithme se contente d’exécuter les ordres. Aujourd’hui l’intelligence artificielle et tout particulièrement en santé a quasiment toujours recours à des modèles mathématiques basés sur de l’apprentissage automatique ou machine learning, utilisant une base de données d’apprentissage. L’apprentissage automatique constitue un sous-domaine de l’IA, dans lequel les algorithmes apprennent à partir des données, à partir d’exemples à exécuter des tâches  pour lesquelles ils n’ont pas été spécialement programmés. Il répète l’exécution sur des jeux de données (données d’entraînement) jusqu’à obtenir de manière régulière des résultats pertinents. Les algorithmes utilisés sont des algorithmes paramétriques fournissant un résultat pour chaque jeu de données fourni, le résultat dépendant des paramètres de l’algorithme. L’apprentissage automatique permet de mettre à jour de manière itérative les paramètres de l’algorithme pour obtenir un résultat le plus proche possible d’un résultat attendu par le programmeur. Le domaine du Machine Learning est lui-même composé de sous-domaines. Le Deep learning (apprentissage profond) est un sous domaine du machine learning dans lequel les algorithmes fonctionnent sur le principe des réseaux de neurones artificiels. Ces algorithmes sont majoritairement utilisés dans le domaine de la santé. L’IA de type machine learning est un système informatique matériel et/ou logiciel initialement inspiré du fonctionnement des réseaux de neurones biologiques, composé d’un ensemble de couches de neurones artificiels. Chaque neurone artificiel de la couche précédente est connecté à chaque neurone artificiel de la couche suivante. Chaque neurone artificiel est un dispositif matériel et/ou logiciel qui transforme les données d’entrée qui lui sont fournies par chaque neurone artificiel de la couche précédente auquel il est connecté, en une donnée de sortie en appliquant une fonction mathématique. La donnée de sortie est envoyée à chaque neurone artificiel de la couche suivante auquel le neurone artificiel est connecté. Le deep learning comporte un grand nombre de couches. Chaque couche correspond à un niveau croissant de complexité dans le traitement et l’interprétation des données.

L’entraînement des algorithmes auto-apprenants: une question d’équilibre

Les données d’entraînement doivent répondre au triple défi de volume, valeur et variété, qui génèrent des biais. La variété vise à éviter les biais et nécessite de diversifier les sources d’approvisionnement. La valeur et la véracité visent des données vérifiées, traitées. En effet, « garbage in-garbage out » ” la qualité de la sortie est déterminée par la qualité de l’entrée. Les modèles d’IA les plus précis sont ceux qui pourront diagnostiquer très amont de la déclaration de la maladie. Les IA les plus performantes seront les plus bénéfiques pour les patients et par voie de conséquence les plus efficientes en termes de baisse des coûts de soins, pour les hôpitaux, l’assurance maladie et les mutuelles complémentaires.

La base de données d’apprentissage est déterminante pour les performances des algorithmes d’apprentissage automatique. Dans la mesure où on ne sait pas faire d’hypothèse sur les données d’entraînement, il est difficile de déterminer le volume, la valeur et la variété des données d’entraînement pour atteindre la généralisation, c’est-à-dire la capacité de l’algorithme à garder de bonnes performances sur des données jamais vues lors de l’entrainement. Un algorithme sous-entraîné (underfitting) aura une capacité de reconnaissance limitée. L’underfitting conduit à une fonction de perte élevée. La performance de l’algorithme sera faible. Le remède est donc de le nourrir suffisamment en données de qualité et variées pour éviter les biais. A l’inverse un surentraînement de l’algorithme conduira à une situation d’overfitting, et donc à une tendance de l’algorithme à être trop précis et donc à mal généraliser. La performance de l’IA sera également considérée comme faible.

La question de biais est complexe et multi-source. Les biais peuvent également provenir par la définition des tâches par le développeur, et également par différenciation raisonnée, intentionnel pour améliorer les performances d’apprentissage de l’IA

Le federated learning : changement de paradigme dans l’apprentissage de l’IA

Le changement de volume et le traitement des données conduit à repenser la manière d’entraîner les algorithmes autoapprenants. La création de data lakes pose des problèmes de confidentialité et de sécurité. Cependant, sans l’accès à des volumes de données de valeur, le machine learning ne pourra pas être entraîné et ne pourra pas développer son potentiel.

La Commission spéciale sur l’intelligence artificielle à l’ère du numérique (AIDA) a été créée par le Parlement Européen, lors de sa séance plénière le 18 juin 2020, pour présenter une feuille de route de l’Union européenne pour l’IA. Dans son rapport sur l’intelligence artificielle à l’ère du numérique adopté le 22 mars 2022, AIDA souligne que : « l’évolution du volume et du traitement des données d’IA nécessite le développement et le déploiement de nouvelles technologies de traitement de données englobant la périphérie, s’éloignant ainsi des modèles d’infrastructure centralisés basés sur le cloud pour aller vers une décentralisation croissante des capacités de traitement de données; demande instamment le renforcement des architectures européennes d’IA à calcul intensif en tant que priorité stratégique essentielle pour maximiser l’investissement et la recherche, y compris les grappes distribuées, le déploiement de nœuds en périphérie, les initiatives de microcontrôleurs numériques et la capacité de permettre une collecte et un traitement plus rapides des données dans tous les aspects de la société » (point 127)

La méthode du guichet unique se voit concurrencer par un nouveau paradigme fondé sur l’entrainement fédéré (federated learning). L’apprentissage fédéré se définit comme une nouvelle procédure d’apprentissage automatique décentralisée. L’apprentissage fédéré repose sur un paradigme d’apprentissage, supprimant l’exigence de mise en commun des données pour le développement des modèles d’IA.

L’objectif vise à combiner les connaissances acquises à partir de données non localisées dans un même endroit. Il n’existe pas de centralisation des données mais une stratégie d’agrégation des résultats d’apprentissage des algorithmes résultant des cycles de formation locale. Les stratégies d’agrégation peuvent s’appuyer sur un seul nœud d’agrégation (modèle de Hub) ou sur plusieurs nœuds sans aucune centralisation (peer-to-peer, où les connexions existent entre les différends nœuds ou un sous-ensemble, les mises à jour du modèle ne sont partagées qu’entre certains nœuds.

L’entraînement est réalisé au plus près des données. Au lieu de collecter des données pour constituer des « data lake », bases de données spécifiques pour l’entrainement des algorithmes de type machine learning, le FL établit un modèle de circulation des modèles prédictifs. Il permet de répondre aux exigences de volume, valeur et variété des données, en déplaçant l’algorithme à entraîner vers les entrepôts de données ou les bases de données. Cet entraînement fédéré favorise l’échange de données sans les faire circuler, et donc réduit les risques de violation de données à caractère personnel. Ces données d’entraînement restées en local, sur les lieux de stockage des « producteurs de données ».

L’entraînement local terminé, les résultats seulement retournent vers le serveur central d’agrégation où ils seront confrontés pour être améliorés. Cette nouvelle version sera renvoyée vers les différents jeux de données restés sur leur lieu de stockage par l’établissement qui les a collectés. La réitération de ce mode d’apprentissage va permettre d’améliorer les versions de l’algorithme, sans aucune mise en commun de données. Ces dernières restent localisées dans les entrepôts ou les bases de données des producteurs de données.

 Dans ce modèle, l’éditeur de l’IA doit solliciter une coopération avec tous les « producteurs de données de santé » identifiés comme pertinents pour l’entrainement de l’algorithme. Il doit donc conclure des accords d’accès aux données avec la gouvernance de chaque entrepôt de donnée, base ou registre de données des hôpitaux, des centres de recherches, des laboratoires pharmaceutiques…pour l’entraînement des algorithmes. Cette approche diverge totalement du modèle de guichet unique de l’accès aux données de santé, mis en œuvre par le Health Data Hub (HDH), qui vise à identifier les données de santé produites en France et d’en faciliter l’accès.  

Les failles de sécurité : risques de cyber-attaques

En évitant la constitution d’une base de données d’entraînement, l’entraînement fédéré réduit les flux de données. Le transfert ne concerne que le modèle d’algorithme entraîné. Les données sont encodées dans l’algorithme. Elles restent en local, seuls les résultats de l’entraînement sont transférés au serveur d’agrégation central. Ce modèle permet-il pour autant de mieux protéger les données que dans un modèle centralisé ?

Sécurité des données d’entraînement au niveau du serveur local

Les mesures de sécurité doivent être mise en œuvre au niveau du serveur local, qui va stocker de manière temporaire pendant leur traitement, les données de l’entrepôt de santé. On peut considérer qu’une fois les algorithmes entraînés, l’entraîneur ne dispose plus de ces données. La Cnil devra vérifier que les données ne peuvent pas être copiées par l’entraîneur au cours de la phase d’entraînement.

Au niveau du serveur local : les données d’entraînement sont protégées par le RGPD, une fois qu’elles sont traitées, elles sont protégées par un droit de propriété. En l’espèce, les données d’entrainement sont encodées dans l’algorithme, elles sont donc protégées par le droit des logiciels. L’encodage fait disparaître l’application du RGPD et fait apparaître l’application du droit des logiciels.

Cette approche est remise en cause par le phénomène de rétro-ingénierie, au niveau du serveur d’agrégation central.  

Les failles de sécurité au niveau du serveur d’agrégation central

Certains modèles entraînés sur des corpus peuvent contenir une quasi-copie de leur base de données d’entraînement. Une attaque d’inversion du modèle permettrait de récupérer le jeu de données d’entraînement. Pour les autres modèles, les données d’entraînement sont encodées dans l’algorithme. La rétro-ingénierie des modèles permettrait de remonter aux données. Toutefois, avec un apprentissage profond, l’accès aux données initiales devient compliqué. Par ailleurs, en remontant ainsi à l’information initiale, il faudra vérifier si l’on est bien  en présence d’une donnée personnelle, compte tenu que cette donnée initiale a été transformée par le traitement algorithmique.

Les données pseudonymisées sont précisément définies dans le RGPD comme les données qui ne peuvent être rapportées à un individu sans l’ajout d’information additionnelle. Le considérant 26 du RGPD utilise la « probabilité raisonnable » (reasonable likelihood) de ré-identification comme un délimiteur de ce qui constitue une donnée personnelle, une donnée ré-identifiable. La probabilité raisonnable est définie en termes « objectifs », c’est-à-dire en fonction des possibilités techniques.

Les données pseudonymisées ont bien fait l’objet d’un traitement, qui plus est d’un traitement explicitement conçu pour protéger les droits des sujets de données, mais elles sont soumises au même statut juridique que les données personnelles dont elles sont tirées, et constituent déjà une exception au cadre juridique général des données traitées, qui sont soumises soit au droit de propriété intellectuelle, ou soit du logiciel comme dans l’entrainement fédéré.

Il apparaît dès lors que la capacité d’inférence de l’identité d’un sujet à partir de données anonymisées ou pseudonymisées est déjà prise en compte par le droit, comme le problème d’inversion. La probabilité de ré-identification est même conseillée comme mesure pour déterminer si un ensemble de données est à caractère personnel ou non.

Il en résulte que le risque d’attaque d’inversion du modèle induit un risque de ré-identification des données et donc d’un risque d’atteinte à la protection des données personnelles des personnes concernées. Il n’existe pas de barrières de sécurité mathématiquement prouvées. Un entraînement sur des données de santé anonymisées, ou des données cryptées serait de nature à réduire les risques. En effet, le procédé d’anonymisation est un processus irréversible qui cherche à protéger de 3 risques : individualisation, corrélation, inférence. L’anonymisation consiste en la réalisation d’un compromis entre la protection des individus et l’utilité future de celles-ci anonymisées. Il n’existe pas de procédé générique d’anonymisation car celle-ci dépend de trois paramètres : i) typologie des données, ii) utilisation future des données (dégradation de la valeur informative des données), iii) le temps, les méthodes validées peuvent devenir obsolètes.

Cependant les différentes techniques d’anonymisation ne protègent pas toutes contre les risques de ré-identification. En effet, même si la valeur informative des données est dégradée, il existe un risque d’inférence d’appartenance ou inférence statistique entre différents ensembles de données pouvant contenir les mêmes personnes. La simple appartenance d’un sujet de données à une base peut évidemment être une information très sensible (appartenance à une liste de patients atteints d’un cancer, patients psychiatriques). Si elles révèlent potentiellement moins d’informations que les attaques par inversion de modèles, les attaques par inférence d’appartenance peuvent révéler une information tout aussi sensible.

L’entraînement sur des données bruitées est utilisé pour réduire le pouvoir prédictif d’un algorithme.

Dans certains cas, lorsque le pouvoir prédictif du modèle algorithmique va au-delà de ce qui est strictement nécessaire à la réalisation de la tâche considérée et peut générer une faille de sécurité. Le recours à la confidentialité différentielle apparaît comme une mesure de sécurité pertinente pour réduire les risques de ré-identification. La confidentialité différentielle consiste à injecter du bruit  statistique (données aléatoires) aux données individuelles dans la base d’entraînement pour réduire la granularité des données d’apprentissage et ainsi réduire le pouvoir prédictif de l’algorithme, identifié comme problématique. En effet, lorsque ces données relatives à u grand groupe sont analysées, ce bruit est alors compensé de manière statistique. Cependant, tout est une question d’équilibre, car la méthode d’ajout de bruit peut avoir un impact sensible sur les performances du modèle.

Il en résulte l’entraîneur devra offrir des garanties de sécurité au producteur de données non seulement au niveau du serveur local mais également au niveau du serveur central d’agrégation pour protéger contre les risques de ré-identification. Des mécanismes devront été développés pour que le serveur central d’agrégation ne soit pas en mesure de reconstruire les données d’origine à partir des paramètres qui lui sont envoyés. Ces garanties devront être examinées par la Cnil au stade de la demande d’autorisation sur l’utilisation des données de santé dans ce nouveau modèle d’entrainement fédéré de l’IA.

Laisser un commentaire