par Diane MICHEL, étudiante du Master 2 Droit des médias électroniques
L’intelligence artificielle (ci-après IA) est l’une des avancées technologiques les plus passionnantes et potentiellement révolutionnaires de notre époque. Le traitement du langage naturel est une branche de l’IA qui permet aux ordinateurs de comprendre le langage des humains et d’interagir avec eux. Dans ce domaine, ChatGPT (Generative Pre-trained Transformer) est un modèle du langage naturel pré-entrainé qui a été développé et publié par OpenAI en 2019.
Utilisant des réseaux de neurones artificiels, ChatGPT est capable de produire des textes cohérents et pertinents, ce qui en fait un outil précieux pour une variété d’applications, telles que la génération de contenus ou encore l’assistance virtuelle. Cependant, afin d’apprendre les modèles de langages et les relations entre les mots, cette technologie est entrainée sur un très grand ensemble de données textuelles. Il s’agit principalement de corpus (souvent très vastes et variés) de textes en langage naturel, tels que des articles de presse, des livres, des messages sur les réseaux sociaux, des conversations en ligne, etc.
Ainsi, nous comprenons que l’utilisation de ChatGPT doit être éthique et responsable, car rien ne l’empêche techniquement de générer des contenus trompeurs ou malveillants. Autrement dit, cette aspiration massive de données soulève des inquiétudes gravitant lorsqu’elle inclut des données à caractère personnel. La plainte déposée en août dernier par Lukasz Olejnik, un chercheur polonais en cybersécurité et protection de la vie privée, en est une parfaite illustration.
Un traitement illicite des données à des fins de formation de l’IA
Le chercheur polonais a déclaré s’être rendu compte des violations manifestes de ChatGPT en mars de cette année. Ce dernier a alors voulu se servir du chatbot pour rédiger sa propre biographie et l’IA s’est rapidement mise à générer des informations inexactes sur son compte. Selon la plainte, une série d’échanges de courriels a eu lieu entre Olejnik et OpenAI qui a manqué de préciser que les données personnelles du chercheur polonais se sont retrouvées dans le corpus d’entraînement du modèle linguistique GPT. Dans sa plainte, M. Olejnik affirme donc que la société américaine OpenAI a violé l’article 5, paragraphe 1, point a), du règlement général sur la protection des données (ci-après RGPD).
Selon cet article : « Les données à caractère personnel doivent être traitées de manière licite, loyale et transparente au regard de la personne concernée ». Or en l’espèce, il semblerait qu’OpenAI ignore de manière systématique les dispositions du RGPD concernant le traitement des données à des fins de formation du modèle ChatGPT. De plus, M. Olejnik accuse également l’entreprise américaine de ne fournir, en réalité, aucune information sur les opérations de traitement de ces données ce qui revient donc à violer l’article 15 du RGPD, qui consacre un droit d’accès aux données pour toutes les personnes concernées. En d’autres termes, nous comprenons qu’OpenAI, lors du développement de son chatbot, n’a jamais obtenu le consentement des personnes à pouvoir utiliser leurs données comme données d’entraînement. De surcroit, il apparaît que cette dernière n’a pas non plus informé les millions de personnes dont elle a absorbé les informations pour développer un outil commercial d’IA générative.
Le RGPD impose non seulement une base légale pour le traitement des données des personnes, mais aussi la transparence et l’équité vis-à-vis de toute opération de ce type. La société OpenAI semble donc s’être mise dans une situation des plus complexes.
Une violation du droit de rectification
Par la suite, il est important de mettre en avant que toute personne peut faire rectifier, compléter, actualiser, bloquer ou supprimer des informations la concernant lorsque des erreurs, des inexactitudes ont été détectées. Cette rectification est d’autant plus possible en présence de données dont la collecte, l’utilisation, la communication ou la conservation est interdite. Or, un autre aspect du différend entre M. Olejnik et l’OpenAI porte sur les erreurs que ChatGPT a générées à son sujet lors de la rédaction de sa biographie et sur l’incapacité de l’OpenAI à rectifier ces inexactitudes lorsqu’on le lui a demandé. Dans sa plainte, le chercheur polonais démontre ainsi que l’OpenAI a violé l’article 16 du RGPD qui dispose que : « La personne concernée a le droit d’obtenir du responsable du traitement, dans les meilleurs délais, la rectification des données à caractère personnel la concernant qui sont inexactes ».
De plus, lorsqu’un traitement fait courir un risque élevé pour les droits et libertés des personnes concernées, le responsable doit, avant la mise en œuvre, effectuer une analyse d’impact. Si cette analyse révèle un risque élevé, le RGPD prévoit, en son article 36, la possibilité d’une consultation préalable. Ainsi, si l’OpenAI n’est pas en mesure de corriger les données signalées par les utilisateurs comme étant incorrectes, il aurait été nécessaire pour cette dernière de consulter les autorités de contrôle compétentes sur ce problème, y compris par le biais de la procédure mise en place par l’article 36 du RGPD.
Une ignorance totale du privacy by design ?
Bien que cette affaire concerne la violation d’un certain nombre de réglementations en matière de protection des données, ce n’est pas la première fois que le RGPD pose problème à ChatGPT. En effet, la presse internationale a déjà recueilli un total de huit plaintes qui ont été déposées à l’encontre de ChatGPT pour des manquements similaires à ceux reprochés par Olejnik Lukasz.
Rappelons-nous, le 30 mars dernier, La Garante (la CNIL italienne) avait prononcé une suspension de ChatGPT en lui reprochant notamment des manquements à ses obligations de transparence ainsi que l’absence de base juridique des traitements de données personnelles réalisées. Mais encore, plus récemment, l’auteur George R.R. Martin, à l’origine de Game of Thrones, a décidé de rejoindre la plainte déposée par l’association américaine Authors Guild contre OpenAI qui accuse l’entreprise américaine d’avoir entraîné son modèle de langage avec des versions piratées de leurs livres reflétant ainsi un manquement aux dispositions légales encadrant la protection des droits d’auteur.
Toutes ces plaintes mettent en lumière une violation totale du principe de protection dès la conception ou privacy by design. En effet, le responsable du traitement doit, au moment de la conception, réaliser toutes les mesures techniques appropriées destinées à mettre en œuvre les principes relatifs à la protection des données afin de répondre aux exigences du RGPD. En effet, la protection des données et de la vie privée de l’utilisateur est une problématique à appréhender avant tout lancement de chatbot. Même si les CNIL européennes ont constitué une « Task Force » afin d’engager de possibles actions à l’encontre d’Open AI, il faudra suivre de très près les suites qui seront données aux plaintes adressées à Chat GPT…
Sources :
- https://uodo.gov.pl/pl/138/2823
- https://www.cnil.fr/fr/reglement-europeen-protection-donnees
- https://www.hub-franceia.fr/wp-content/uploads/2023/04/ChatGPT_Note-synthese.pdf
- https://info.haas-avocats.com/droit-digital/la-protection-des-donnees-personnelles-a-lepreuve-de-chatgpt
- Techrunch.com : maker OpenAI accused of string of data protection breaches in GDPR complaint filed by privacy researcher.