Grille d’analyse de l’IA de la Cnil par rapport aux exigences du RGPD

Eléonore Scaramozzino, Avocat Partenaire, Constellation Avocats
La CNIL propose des contenus consacrés au systèmes d’intelligence artificielle. Ces ressources s’inscrivent dans une stratégie européenne visant à stimuler l’excellence dans le domaine de l’intelligence artificielle, ainsi que des règles destinées à garantir la fiabilité de ces technologies.
L’évaluation d’un système d’IA dépend de l’objectif recherche qui déterminera l’angle d’évaluation :
- L’évaluation de la phase d’apprentissage : évaluation des performances avant mise en production
- L’évaluation des risques de dérives par l’identification de biais : biais générés par une défaillance dans l’entraînement (risque d’overfitting/underfitting) ou biais générés par une défaillance de conception du modèle
- L’évaluation de la phase de production : évaluation des performances
La Cnil propose une grille d’analyse permettant aux organismes d’évaluer par eux-mêmes la maturité de leurs systèmes d’IA au regard du RGPD et des bonnes pratiques dans le domaine, dans la perspective du futur règlement européen sur l’IA
Grille d’auto-évaluation de l’IA en matière de données personnelles et d’éthique

Obligations du Responsable de traitement sur les données d’entraînement
Les données d’entraînement sont soit anonymisées, soit pseudonymisées. Le responsable de traitement peut recourir à la technique de la confidentialité différentielle.
Si les données sont anonymisées, des contraintes sont imposées au responsable de traitement pour démontrer que ces données ne permettent pas une éventuelle ré-identification. Les techniques d’anonymisation sont multiples mais toutes ne se valent pas. Le RGPD n’est pas applicable.
Si les données sont pseudonymisées. Les données d’entraînement sont soumises au respect des exigences du RGPD. Les vérifications de la compliance au RGPD devront porter, en particulier sur l’origine des données :
Cas d’une collecte spécifique
Le RT doit :
- respecter les règles d’information (art 13 du RGPD) ,
- sécuriser les données collectées dans une finalité d’entraînement définie et licite
Cas d’une réutilisation des données par rapport à une finalité ultérieure différente de la finalité d’origine
Si les données collectées pour une utilisation et sont réutilisées pour une finalité différente, le RT doit :
- vérifier le consentement / de l’information et de la non opposition
- définir les conditions d’accès
- vérifier si la base a fait l’objet d’une étude, en particulier en ce qui concerne la présence de biais ?
- adopter des mesures pour limiter les risques de mésusage ?
Pour garantir la conformité du traitement des données d’entrainement, le RT doit :
- réaliser une AIPD, une analyse des risques de réidentification, etc.) ;
- respecter le principe de minimisation, pour la collecte de ces données d’entraînement et notamment vérifier que le volume des données recueillies soit justifié au vu de la difficulté de la tâche d’apprentissage ; vérifier que les valeurs envisagées pour l’entraînement du modèle sont toutes nécessaires, en particulier si elles constituent des données sensibles Si leur collecte ne peut être évitée, elles seront supprimées ou masquées.
Qualité des données d’entraînement :
La qualité des sorties de l’algorithme est intimement liée à la qualité de l’ensemble des données d’entraînement, quelles que soient les catégories de données concernées. Certains critères doivent être vérifiés afin de limiter les risques d’erreur lors de l’utilisation de l’algorithme, en particulier lorsque celui-ci engendre des conséquences pour les personnes.
Exigences sur la qualité des données nécessitent :
- La vérification de la véracité des données ;
- En cas d’annotation, la vérification de l’utilisation de la méthode, de la formation des personnes la réalisant et du contrôle de la qualité de leur travail
Exigences sur la réduction des biais nécessitent :
- La réalisation d’une étude de biais (indication de la méthode, le cas échéant) ;
- La vérification de la représentativité des données utilisées par rapport aux données observées en environnement réel ;
- La méthodologie a été mise en œuvre pour garantir cette représentativité ;
- La réalisation d’une étude formalisée de cette représentativité ;
- L’adoption de mesures pour identifier l’existence de biais potentiels ;
- La vérification que la méthode de collecte des données d’entraînement ne génère pas de biais ;
- Les méthodes pour corriger les biais identifiés.
Si le traitement repose sur une solution d’apprentissage fédéré (federated learning),
Il convient d’évaluer le caractère indépendant et identiquement distribué des données utilisées au sein des centres (condition garantissant que les informations tirées des données reflèteront les mêmes tendances sans spécificité propre à chaque centre).
Si l’entrainement de l’IA repose sur un apprentissage continu
La garantie de la qualité des données d’apprentissage nécessite de mettre en œuvre
- un mécanisme afin de garantir la qualité des données utilisées de façon continue
- un mécanisme régulier d’évaluation des risques de perte en qualité ou de changement dans la distribution des données

Transparence du système d’IA : explicabilité
Afin d’instaurer la confiance entre les personnes concernées et le responsable du système d’IA, le plus haut niveau de transparence doit être mis en place :
– pour expliquer le fonctionnement du système lui-même ;
– pour expliquer les décisions individuelles.
La journalisation permet de faciliter l’explicabilité. Cependant cette journalisation doit être mise en œuvre dans le respect de la vie privée. Ainsi les données utilisées pour l’inférence, indicateurs de confiance, versions du système ; tout élément servant à la prise de décision d’IA doivent être journalisés dans le respect du principe de minimisation et doivent permettre d’expliquer à postériori une décision prise par l’IA. La durée de ces informations doit également être limitée. Le fonctionnement de l’IA doit être expliqué aux personnes amenées à interagir avec elle. L’explication doit être claire, compréhensible. Des outils techniques et méthodologiques peuvent être utilisés pour permettre l’explicabilité du système.
Qualité du traitement
En dehors des mesures de transparence et de supervision mises en place, des mesures techniques doivent également assurer que la qualité des sorties du système d’IA est maintenue au cours de sa durée de vie. Cette qualité peut être assurée par une analyse automatique des logs de journalisation visant à alerter l’utilisateur et/ou la personne en cas de défaillance, de fonctionnement anormal ou d’attaque. Un contrôle de la qualité et de la correspondance des données collectées en environnement réel avec les données d’apprentissage et de validation maintenu au cours de l’utilisation du système d’IA offrirait une garantie de qualité, de même qu’un contrôle de la qualité des sorties du système d’IA au cours du cycle de vie du système d’IA.
Sécurité du traitement
La sécurité du traitement nécessite une analyse des risques tenant compte des modèles d’attaques spécifiques aux algorithmes.
Attaques spécifiques : principe de précaution
En effet, de nombreuses recherches récentes prouvent que les systèmes d’IA peuvent être attaqués ou détournés de leur finalité. Ces modèles d’attaque émergents, dont les attaques par empoisonnement (data poisoning), par exemples contradictoires (adversarial attack), par exfiltration de modèles (model evasion) ou par attaque par inférence d’appartenance (membership inference) doivent être connus du fournisseur et de l’utilisateur du système d’IA. Étant donné le caractère inédit de ces attaques, la Cnil recommande l’application du principe de précaution autant que possible.
Mesures de sécurité
Pour empêcher les failles et les attaques, des mesures de sécurité doivent être adoptées à toutes les étapes du traitement, dont notamment :
- une journalisation des actions, tout au long de la chaîne, pour identifier et expliquer les comportements anormaux ;
- une analyse automatique des journaux, permettant d’identifier des tentatives d’attaques et de type inférence d’appartenance ou empoisonnement de modèle (dans le cas d’un apprentissage continu notamment) ;
- des mesures pour contrôler, en aval, la qualité des sorties du système ;
- maîtrise des accès par des mesures d’encadrement et de réduction des accès ;
- protocole spécifique pour les modifications au système d’IA (différents niveaux d’habilitation) ;
- modifications du code versionnées, permettant à un retour rapide à la dernière version fonctionnelle ;
- audit de sécurité (interne et externe) ;
- système de management des risques.
Par ailleurs la Cnil recommande l’adoption de mesures de sécurité applicables à tout traitement tel que, le système de management des risques, l’audit de sécurité (interne et externe), et de manière plus générale, les recommandations du guide de sécurité de la CNIL.
Dans certains cas, les paramètres et modèles issus de l’apprentissage du modèle peuvent être considérés comme des données personnelles. Les mesures de sécurité doivent alors être adaptées pour éviter les risques de réidentification/d’interférence d’appartenance. Pour la Cnil, il conviendra également de s’interroger sur le caractère personnel des paramètres du modèle, et le cas échéant de déterminer le niveau de sécurité approprié au regard de l’obligation de sécurité imposé par le RGPD.
Garantie de l’exercice de leurs droits par les personnes concernées
Certains traitements impliquant des systèmes d’IA peuvent s’avérer particulièrement intrusifs ou avoir des conséquences importantes pour les personnes au regard de leur ampleur, des caractéristiques des personnes concernées ou d’autres spécificités. Les conséquences du traitement sur les droits fondamentaux des personnes (droits à la liberté d’expression, à la liberté de pensée, de conscience et de religion, de circuler librement, au respect de sa vie privée et familiale, etc.) doivent être prises en compte. Une analyse d’impact sur la protection des données à caractère personnel doit être réalisée.
Information des personnes sur le traitement
L’information sur le traitement doit être claire, concise et aisément accessibles. Les personnes doivent être informées de la collecte (directe ou indirecte). Dans le cas où les utilisateurs interagissent avec une machine (bot) ou du contenu généré automatiquement (par exemple deepfake), cela doit être clairement indiqué à l’utilisateur.
Si le responsable de traitement est une administration, l’information des personnes relative à un traitement algorithmique auquel elles seraient soumises doit être prévue conformément au code des relations entre le public et l’administration et à la loi pour une République numérique. Le code source de l’algorithme est rendu public à priori.
Garantir l’exercice des droits liés à la protection des données
Il est à la charge du responsable de traitement de mettre en place les mesures nécessaires afin de garantir que les personnes concernées par le traitement pourront exercer leurs droits de manière effective. Le droit d’opposition au traitement de ses données doit pouvoir facilement être exercé par l’individu pour les phases d’entraînement comme de production, à tout moment. Le droit à l’effacement, le droit d’accès, le droit à la limitation du traitement et le droit à la rectification doivent pouvoir être facilement exercés.
En particulier, la Cnil a posé la question de l’exercice des droits dans un modèle d’IA, qui possède un risque de réidentification ou d’inférence d’appartenance, causant ainsi la classification des paramètres du modèle en tant que données personnelles.
Lorsqu’une décision est fondée exclusivement sur un traitement automatisé et peut avoir des conséquences pour les personnes, l’article 22 du RGPD et l’article 47 de la loi Informatique et Liberté s’appliquent. Ces articles prévoient, avec certaines exceptions, que toute personne a le droit de ne pas faire l’objet d’une décision fondée exclusivement sur un traitement automatisé, y compris le profilage, lorsque celle-ci pourrait avoir des effets juridiques la concernant ou l’affectant de manière significative. Les personnes devront pouvoir facilement s’opposer à une décision fondée exclusivement sur un traitement automatisé.
Mise en conformité
La mise en conformité nécessite de définir le cadre contractuel
Analyse des rôles : Responsable de traitement /Sous-traitant au sens de l’article 4 du RGPD

Tout système d’IA qui traite des données à caractère personnel, doit déterminer qui est responsable du traitement de ces données, sous-traitants et ou co-responsable de traitements, selon les définitions du RGPD. Le responsable de traitement identifié doit formaliser un cadre contractuel de responsabilité, de co-responsabilité (art 26) ou/et de sous-traitance (art 28 du RGPD). La maintenance devra également être contractualisée.
Respecter les normes, certifications et codes de bonne conduite comme preuves de conformité
De nombreuses normes (IEEE, ISO..), codes de conduites ou bonnes pratiques, et procédés de certification par un organisme tiers (LNE, bureau d’étude, etc..) ou par une autorité (HAS, ANSM, AMF..) ont été publiés afin de permettre aux fournisseurs d’IA de prouver que leur système respecte un certain niveau de conformité.
Documentation
La tenue d’une documentation à jour peut permettre au fournisseur, à l’utilisateur, à l’individu et aux autorités en charge du contrôle d’identifier les risques liés au traitement et ainsi participer à leur maîtrise. Une documentation concernant les modalités de collecte et de gestion des données d’entraînement et de production utilisées, l’algorithme, la qualité des sorties du système, les outils utilisés, la journalisation, les mesures de sécurité…Cette documentation doit être partagée avec toutes les personnes ayant à en connaître pour assurer une analyse et une maîtrise des risques efficaces (utilisateurs du système d’IA, comité d’éthique, service qualité et gestion des risques, personnes concernées, etc.).
Source : Intelligence artificielle : la CNIL publie un ensemble de ressources pour le grand public et les professionnels
