par Laura VILLARS, étudiante du Master 2 Droit des médias électroniques
La multiplication accélérée de l’usage des Intelligences Artificielles (IA) génératives, tel que ChatGPT ou Midjourney, a conduit il y a un an à l’entrée de l’IA dans le débat public. Tout cela soulève plusieurs interrogations, notamment quant à l’éthique des IA.
La notion d’« éthique » est définie par le dictionnaire de l’Académie française comme étant ce « qui a [un] rapport aux conduites humaines et aux valeurs qui les fondent »[1]. Dans le milieu professionnel, « l’’éthique » est définie comme un « ensemble des principes moraux qui s’imposent aux personnes qui exercent une même profession, qui pratiquent une même activité »[2]. S’agissant des IA, la question de l’éthique n’est pas relative uniquement à l’usage qui en est fait, mais doit se poser dès le début de sa conception. Il s’agit du concept de « boite noire » ou de « boite blanche », c’est au moment de la conception du modèle que l’on fait des choix qui vont influencer leur utilisation, autrement dit faire des choix éthiques. Pour cela, il est nécessaire d’avoir une réglementation qui encadre le développement du système de l’intelligence artificielle.
Dans le cadre de ce grand débat au sujet de l’IA, la CNIL a fait différentes interventions avec notamment la création d’un service spécialisé dans l’IA en janvier 2023 (SIA), et qui s’est renforcé tout au long de l’année, et plus récemment avec la publication le 11 octobre dernier de 7 fiches pratiques[3] relatives à l’IA, à destination des professionnelles. La CNIL a notamment continué son travail avec l’organisation du AIR2023[4] (Avenir Innovation Révolution) sur le thème de l’IA le 28 novembre 2023.
Les fiches pratiques publiés en octobre dernier, sont relatives uniquement à la phase de développement de certaines IA, ayant recours au traitement de données personnelles. Elles abordent les 7 thèmes[5] suivants :
- Déterminer le régime juridique applicable.
- Définir une finalité.
- Déterminer la qualification juridique des fournisseurs de systèmes d’IA.
- Assurer que le traitement est licite.
- Réaliser une analyse d’impact si nécessaire.
- Tenir compte de la protection des données dans la conception du système.
- Tenir compte de la protection des données dans la collecte et la gestion des données.
Tout d’abord, la CNIL rappelle que même durant la phase de développement du système de l’IA, il est obligatoire de respecter le Règlement général sur la protection des données – RGPD[6], si le système traite des données personnelles.
Focus sur la fiche pratique (n°6) relatif à la protection des données dans la conception du système :
S’agissant de la conception du système, les entreprises qui développent des IA doivent répondre à 4 questions[7] :
- Quel est l’objectif poursuivi du système ?
Autrement dit la finalité du système, ce dernier devant respecter un cahier des charges.
- Quelle est l’architecture technique du système ?
Le choix de l’architecture technique présente un enjeu important, en effet une même tâche peut être réalisé par différentes architectures de modèle d’IA ; cependant, elles n’auront pas le même niveau de performance, ni les mêmes contraintes opérationnels – le coût, ou encore l’explicabilité. De plus, dans le cadre du respect du principe de minimisation, si une architecture permet d’atteindre le même résultat en traitant moins de données personnelles, alors celle-ci devra être préféré. Enfin, cela comprend également le choix de l’algorithme et celui du protocole d’apprentissage (limitant l’accès des données). À terme, l’explicabilité va devenir un critère de sécurité, notamment si les IA doivent obtenir une autorisation de mise sur le marché.
- Quelles sont les données nécessaires ?
Le principe de minimisation prévoit que les données à caractère personnel doivent être « adéquates, pertinentes et limitées » au regard de la finalité du traitement, et qu’une attention particulière doit être accordée aux données personnelles dites sensibles (l’article 9 du RGPD). Dans la pratique, on va s’intéresser à 4 dimensions :
- Le volume : le nombre de personnes concernées, c’est à dire le volume des données, un minimum de données étant nécessaire
- Les catégories : l’âge, le sexe, des photographies, l’activité sur les réseaux sociaux ou encore les données sensibles.
- La typologie : c’est la véracité des données, si cela relève de données réelles, de synthèse, de simulations, de probabilités ou encore de données anonymisées.
- Les sources : collectées directement auprès des personnes, à partir de sources ouvertes sur internet, ou collectées à d’autres finalités. Cela implique une obligation de consentement, connaissance du traitement effectué sur les données et à quelle finalité. (Cf – Fiche pratique de la CNIL n°4)[8]
- Comment s’assurer de la validité des choix opérés ?
À l’issue de ces réponses, l’entreprise doit mener une étude pilote, et interroger un comité éthique ; il s’agit là de conditions cumulatives. L’intérêt pour les entreprises est ainsi de garantir « que les enjeux en matière d’éthique et de protection des droits et libertés des personnes soient pris en compte en amont ». À terme, cela évitera le refus d’autorisation sur le marché.
Focus sur la fiche pratique n°7
S’agissant de la collecte et de la gestion des données, nous allons l’aborder sous trois angles : la collecte, l’identification, et la conservation des données.
- La Collecte : tel que précisé précédemment, il existe plusieurs modalités de collecte et sources de données qui doivent respecter le principe de minimisation et être pertinentes à la finalité poursuivie. Un exemple peut être signalé avec la collecte de données par « moissonnage » dit « web scraping ». Cette dernière consiste à réutiliser des données publiquement accessibles extraites de sites web à l’aide d’outils dit de moissonnage. Quel que soit le moyen ou l’outil ayant conduit à la collecte de données, le responsable de traitement devra limiter la collecte, définir en amont la mise en œuvre du traitement, prévoir des critères précis pour la collecte, et s’assurer de la suppression des données non-pertinentes.
- L’identification : La sélection de données pertinentes est un procédé classique dans la conception d’IA ; cela inclut en amont un « nettoyage » des données (c’est à dire corriger les valeurs vides, détecter les valeurs aberrantes, corriger les erreurs, éliminer les doublons, supprimer les champs inutiles). Dans la pratique, on distingue trois catégories constituant la base des données :
- Les données : il s’agit de données brutes, non organisées, ayant plusieurs formes (extrait audio, image, fichier, mesures, observation, texte manuscrit) au format numérique.
- Les métadonnées associées : ce sont des « données sur des données », il s’agit d’un descriptif des données, de leurs structures et de leurs qualités.
- Les caractéristiques ou attributs dit « features » : définis comme des propriétés mesurables extraites à partir des données tel que la forme, la texture d’une image, la hauteur des sons, ou encore le tempo d’un fichier audio.
- La Conservation des données : L’article 5.1.d du RGPD impose que la conservation de données à caractère personnel doive être limitée (dans le temps). Ainsi, même lors de la phase de développement, une durée de conservation des données doit être prévue en amont. La conservation de données implique également un suivi.
[1] https://www.dictionnaire-academie.fr/article/A9E2876
[2] https://www.dictionnaire-academie.fr/article/A9E2876
[3] https://www.cnil.fr/fr/les-fiches-pratiques-ia
[4] https://www.cnil.fr/fr/rediffusion-air2023-retrouvez-levenement-en-video
[5] https://www.cnil.fr/fr/les-fiches-pratiques-ia
[6] https://www.cnil.fr/fr/reglement-europeen-protection-donnees
[7] Eric Barbry « Intelligence artificielle et bases de données d’apprentissage : comment la CNIL favorise l’innovation responsable »,Communication Commerce Électronique, (03-12-2023)
[8] https://www.cnil.fr/fr/assurer-que-le-traitement-est-licite