Le dernier avis du CEPD, rendu le 17 décembre 2024, sur la conformité du traitement de données personnelles par les modèles d’IA

Par Aurore LUNEL, étudiante en Master 2 Droit des communications électroniques

Le 17 décembre dernier, le Comité européen de la protection des données, plus couramment appelé CEPD, a rendu un avis sur le traitement des données à caractère personnel dans le cadre des phases de développement et de déploiement des modèles d’IA.

Institué en 2018 par le règlement européen sur la protection des données (RGPD), le CEPD a pour mission de formuler des avis qui visent à assurer l’application cohérente du RGPD ainsi que d’autres instruments juridiques dans l’UE telle que la directive « Police-Justice ». Dans cette dynamique, c’est sur le fondement de l’article 64 §2 du RGPD que le CEPD a cette fois été saisi le 4 septembre 2024 par l’Autorité irlandaise de protection des données de cette demande d’avis. Pour ce faire, une consultation des parties prenantes a eu lieu le 5 novembre 2024 dans le Bureau de l’UE pour l’IA pour finalement aboutir le 17 décembre dernier à la publication de ce texte. Cet avis implique de nouvelles solutions ayant pour but de rendre compatibles les modèles d’IA ayant traité pendant leur processus d’évolution des données personnelles et la règlementation imposée par le RGPD. Ladite règlementation n’ayant initialement pas pris en compte l’existence de ces modèles, une potentielle évolution du RGPD plus adaptée à ces derniers est donc à envisager afin de permettre une meilleure compatibilité.

Le traitement de données par les modèles d’IA : une problématique plus qu’actuelle pour le CEPD

L’exploitation en masse de données numériques fournies quotidiennement par chaque utilisateur s’inscrit pour les modèles d’IA comme une opportunité en termes d’innovation, leur permettant d’analyser et de produire en temps réel du contenu de plus en plus personnalisé. L’entrainement de ces modèles jusqu’à leur utilisation se produit grâce à divers algorithmes permettant de détecter de nouvelles corrélations encore inconnues jusque-là. Le traitement de ces données, par leur collecte et leur utilisation, implique par ailleurs de respecter le RGPD et les droits fondamentaux des personnes. À titre d’exemple, la création de fausses informations peut notamment amplifier les risques d’atteintes à la vie privée des personnes. Anu Talus, présidente du CEPD, disait également que « Les technologies de l’IA peuvent offrir de nombreuses possibilités et de nombreux avantages à différents secteurs et domaines de la vie. Nous devons nous assurer que ces innovations sont réalisées de manière éthique, sûre et d’une manière qui profite à tous. ». En France, c’est la CNIL qui est compétente pour veiller au respect de la protection de ces données lors de la conception et l’usage de modèles d’IA de plus en plus diversifiés. À l’échelle européenne, c’est parmi d’autres acteurs que le CEPD participe à cela. Sur cette question, Madame Talus poursuivait son propos en confiant que « L’EDPB souhaite soutenir l’innovation responsable en matière d’IA en veillant à ce que les données à caractère personnel soient protégées et dans le plein respect du règlement général sur la protection des données. ».

Et c’est en examinant de plus près les solutions proposées que l’on constate que le CEPD apporte un éclairage plutôt net sur la question à travers le prisme de 3 points principaux : les conditions dans lesquelles un modèle d’IA peut être considéré comme anonyme, si l’intérêt légitime peut être utilisé comme base juridique par les responsables de traitement pour développer ou avoir recours à un modèle d’IA et enfin, les conséquences d’un traitement illicite de données personnelles par un modèle d’IA à l’occasion d’une utilisation ultérieure à son développement.

De nouvelles réponses fournies par l’avis du CEPD

L’anonymat comme condition fondamentale à la conformité RGPD

Dans son premier point, le CEPD se prononce sur la question de l’anonymat et rejette le fait que les modèles d’IA puissent être considérés comme anonymes par défaut et ce, même si les données personnelles utilisées pour leur entrainement ont été anonymisées ou pseudonymisées. À titre informatif, c’est l’alinéa 5 de l’article 4 du RGPD qui qualifie l’anonymisation de « traitement de données à caractère personnel de telle façon que celles-ci ne puissent plus être attribuées à une personne concernée précise sans avoir recours à des informations supplémentaires, pour autant que ces informations supplémentaires soient conservées séparément et soumises à des mesures techniques et organisationnelles afin de garantir que les données à caractère personnel ne sont pas attribuées à une personne physique identifiée ou identifiable; ». Ici, le CEPD affirme d’abord que pour savoir si un modèle d’IA est anonyme, une évaluation au cas par cas par les autorités de protection des données (APD) est obligatoire.

En principe, pour qu’il soit qualifié d’anonyme, il doit être hautement improbable d’identifier directement ou indirectement les personnes dont les données ont été utilisées pour créer le modèle et d’extraire ces données personnelles du modèle par le biais de requêtes adressées à ce dernier. On parle ainsi d’impossibilité d’identification et de résistance à l’extraction. Dans le cas où le modèle d’IA est jugé non-anonyme, son utilisation reste soumise au RGPD et tout responsable de traitement devra ainsi justifier l’utilisation des données personnelles à chaque évolution du modèle. A contrario, si le modèle est jugé comme étant anonyme, chaque donnée initialement traitée lors de la phase de développement n’aura plus vocation à être traitée lors de la phase de déploiement.

Face à la complexité de ces modèles, le Comité précise cependant que, « même lorsqu’un modèle d’IA n’a pas été intentionnellement conçu pour produire des informations relatives à une personne physique identifiée ou identifiable à partir des données d’apprentissage, les informations de l’ensemble de données d’apprentissage, y compris les données à caractère personnel, peuvent toujours rester « absorbées » dans les paramètres du modèle, c’est-à-dire représentées par des objets mathématiques. Elles peuvent différer des points de données d’entraînement originaux, mais peuvent toujours conserver les informations originales de ces données, qui peuvent en fin de compte être extraites ou obtenues d’une autre manière, directement ou indirectement, à partir du modèle. ». C’est pourquoi une évaluation au cas par cas par les autorités est donc essentielle. Ces évaluations devront d’ailleurs tenir compte de « tous les moyens raisonnablement susceptibles d’être utilisés » par le responsable de traitement ou tout autre personne. Afin d’y parvenir, l’avis donne une liste non normative et non exhaustive des méthodes permettant de démontrer l’anonymat et qui peuvent donc être prises en compte par les autorités compétentes au moment de l’évaluation. Dans le cas où l’anonymat n’est pas confirmé, le responsable de traitement pourra être jugé comme responsable pour avoir manqué à ses obligations en vertu de l’article 5, alinéa 2, du RGPD, donnant lieu à un nouvel examen.

La validité du bien-fondé de l’intérêt légitime comme base juridique

Dans un deuxième point, le Comité reconnait la validité de l’intérêt légitime comme base juridique afin d’entraîner et de déployer des modèles d’IA mais sous condition stricte. Cette décision s’inscrit dans la volonté de faciliter l’innovation en restant tout de même conforme au RGPD, bien que cela induise le fait que le consentement des personnes concernées n’est pas toujours obligatoire. Cette question de l’intérêt légitime donne d’ailleurs matière à un débat initié en juillet 2023 par une décision de la Cour de justice de l’Union européenne à l’occasion de la méconnaissance de la plateforme Meta à ses obligations en termes de protection de données personnelles. Par ailleurs, les solutions proposées par le CEPD s’appliquent uniquement dans le cadre du développement de modèles d’IA sur la base d’un traitement de données personnelles.

Pour en revenir à notre sujet principal, le Comité précise que les APD devront donc se référer à un test se déroulant en 3 étapes lorsqu’elles évaluent si l’intérêt légitime constitue une base juridique appropriée pour le traitement de données à caractère personnel en vue du développement et du déploiement de ces modèles. Le premier critère repose sur l’existence d’un but légitime, soit par exemple qu’il soit réalisé pour le développement d’assistants virtuels améliorés ou encore le renforcement de la cybersécurité grâce à des algorithmes de machine learning. Comme autre critère cumulatif est requis celui de la nécessité, c’est-à-dire que les responsables doivent prouver que le traitement de données personnelles est indispensable au but fixé et que les personnes peuvent raisonnablement s’attendre à certaines utilisations de leurs données (telles que des données accessibles au public). Enfin, le critère de la proportionnalité est également indispensable et repose sur l’existence de mesures et de garanties, de nature technique, juridique ou organisationnelle, permettant de limiter les risques d’atteintes aux droits et libertés des individus ainsi que l’impact du traitement de données sur ces derniers. Il s’agit donc d’une mise en balance des intérêts, par laquelle est évoquée la possibilité de prendre des mesures d’atténuation en cas d’impact néfaste sur la personne concernée.

Cependant, l’introduction de ce test rigoureux n’efface pas un détail tout de même important : il s’agit d’une liste non normative et non exhaustive qui peut donc produire l’effet inverse en facilitant la justification d’un traitement de données par ces modèles. Cela permettrait par ailleurs d’ouvrir de nouvelles perspectives pour l’innovation en matière d’intelligence artificielle. Et si on devait aller plus loin, un point non négligeable semble avoir été oublié par le Comité dans la considération des différents modèles d’IA : le cas d’un traitement de données personnelles par les sous-espèces que sont les modèles d’IA à usage général (de type Chat GPT, Gemini…) et ceux présentant des risques systémiques. Initialement désignés et encadrés dans l’IA Act, les modèles d’IA pouvant présenter des risques systémiques visent par exemple les modèles d’IA utilisés pour la reconnaissance biométrique à distance dans des lieux publics. À la lecture de ce texte, il apparait complexe de prouver, dans le cadre du test, une balance favorable aux intérêts des titulaires de données si ce risque systémique est avéré. Le silence du Comité sur cette question apparaît ainsi comme regrettable, laissant donc un flou chargé de sens.

Les potentielles conséquences d’un traitement illicite de données à plusieurs étapes

Dans ce dernier point, le CEPD insiste sur le fait que si un modèle d’IA a été entraîné sur des données collectées ou traitées de manière illicite, cela pourra avoir un effet sur la légalité de son déploiement, sauf si ledit modèle a été anonymisé de manière effective. Ça sera notamment le cas d’un assistant virtuel basé sur des données personnelles collectées sans le consentement des personnes visées ou sans base légale valable et ce, même si le traitement ne vise pas à identifier les personnes concernées.

Afin de limiter ce risque, les autorités de contrôle disposent d’un pouvoir discrétionnaire en la matière et peuvent ainsi procéder à des évaluations sur les potentielles infractions et choisir des mesures plus appropriées, nécessaires et proportionnées, tout en prenant en compte les particularités de chaque situation. À ce titre, le Comité formule dans son avis trois potentiels scénarios. L’un d’eux correspond à la situation dans laquelle le modèle d’IA conserve des données à caractère personnel qui ont été traité lors de son développement (non-anonymisées) et qui sont ensuite réutilisées ultérieurement par le même responsable de traitement lors du déploiement de ce modèle. Par ailleurs, même si ce scénario se produit, l’évaluation au cas par cas reste obligatoire et le contexte doit ainsi être pris en compte.

À travers ces lignes directrices, le CEPD réalise un rappel à l’ordre en posant les bases d’un cadre juridique permettant une innovation technologique responsable sans pour autant porter atteinte aux droits et libertés fondamentales. Le développement de l’IA est une source indéniable de progrès qui nécessite tout de même une vigilance accrue pour rester conforme à la règlementation européenne. Malgré des imprécisions à noter, les futures orientations concernant le traitement de données personnelles par les modèles d’IA sont ainsi dessinées. Le Comité va plus loin en parlant d’un renforcement indispensable de la coopération entre régulateurs qui doit voir le jour, le but étant de faciliter l’interaction entre le droit de la protection des données et le droit de la concurrence. Ces lignes directrices sont d’ailleurs soumises à une consultation publique jusqu’au 28 février 2025. Il reste ainsi à savoir si cet avis produira l’effet escompté, face à une problématique sur le traitement des données par les modèles d’IA plus qu’actuelle.

Sources complémentaires :

RGPD : le CEPD publie un premier avis pour une IA responsable, 19 décembre 2024, Lamyline Revues

Publication de l’avis de l’EDPB du 17 décembre 2024 sur le traitement des données personnelles dans le contexte des modèles d’IA, Juliette Sénéchal, 17 janvier 2025, DALLOZ IP/IT ET COMMUNICATION

Avis du comité européen de la protection des données sur les modèles d’IA : Les principes du RGPD soutiennent une IA responsable, 18 décembre 2024, EDPB

Modèles d’IA et RGPD : le CEPD publie son avis pour une IA responsable, 19 décembre 2024, CNIL

Intelligence artificielle – Questions et réponses, 1 août 2024, Commission européenne