Aura : l’empoisonnement des données, nouvel outil de défense face aux systèmes d’intelligence artificielle

par Emma GARRIC, étudiante du Master 2 Droit des communications électroniques

« Il n’y a que deux types d’entreprises : celles qui ont été piratées et celles qui ne savent pas encore qu’elles l’ont été » affirme John Chambers, un ancien PDG de Cisco. Il est vrai que les entreprises sont très souvent les cibles des cybercriminels, les données pouvant être volées à des fins détournées.

« Les données sont le carburant de l’intelligence artificielle », cette affirmation est souvent reprise par les acteurs du numérique, ce qui met en lumière la dépendance croissante des systèmes d’intelligence artificielle à des volumes massifs de données pour leur entraînement. Cependant, la collecte de ces données soulève de nombreuses questions juridiques, notamment lorsqu’elles sont obtenues sans autorisation.

C’est dans ce contexte que l’outil Aura a été développé par des chercheurs d’universités chinoises et singapouriennes, conçu pour empoisonner ou altérer les données volées par des cybercriminels lorsqu’elles sont utilisées dans des systèmes d’intelligence artificielle. Cet outil marque une évolution significative dans la protection des données à l’ère de l’intelligence artificielle, face à l’essor des modèles génératifs et à l’exploitation massive de contenus issus de bases de données publiques ou privées. Aura s’inscrit donc comme un mécanisme de défense technologique.

En modifiant volontairement les données afin de les rendre inutilisables, voire trompeuses pour l’entrainement des algorithmes, cet outil ambitionne de dissuader l’appropriation illicite des données. Elle pose tout de même des questions juridiques quant à sa compatibilité avec le cadre juridique existant.

Dès lors, il convient de s’interroger sur la mesure dans laquelle l’outil Aura peut constituer un moyen légitime de protection des données face aux systèmes d’intelligence artificielle sans engendrer de nouveaux risques juridiques, ni être contraire à l’éthique.

La mise en place d’un nouvel usage : l’empoisonnement volontaire des données

Ce nouvel outil repose sur un principe très innovant : celui d’empoisonnement volontaire des données susceptibles d’être aspirées par des systèmes d’intelligence artificielle. Il s’agit concrètement d’altérer certaines informations, métadonnées ou structures de données de manière imperceptible pour un utilisateur humain mais suffisante pour perturber l’apprentissage automatique des modèles d’intelligence artificielle, tout en conservant une fidélité de 100 % pour les utilisateurs autorisés.

Ce procédé vise à protéger les détenteurs de données contre le scraping massif et l’entrainement non autorisé des modèles, notamment dans les secteurs professionnels comme les entreprises, en rendant les données exploitables uniquement dans un cadre légitime. L’objectif de cette technique est de diminuer l’utilité des données volées, en les rendant incorrectes ou trompeuses.

Cette approche s’inscrit dans une logique défensive contre les activités illégales de réutilisation de données dérobées, en perturbant les résultats que les cybercriminels pourraient attendre des données extraites de systèmes victimes. Aura se présente comme une réponse technique à une insuffisance de régulation, dans un environnement où le droit peine parfois à suivre la rapidité des innovations technologiques.

Cependant, cet usage questionne les experts qui restent perplexes ou sceptiques quant à l’efficacité ou les implications de ces méthodes, soulignant les limites ou risques potentiels d’altérer des données dans un contexte plus large. Elle introduit une logique de confrontation technologique entre producteurs de données et concepteurs de systèmes d’intelligence artificielle. L’empoisonnement volontaire peut engendrer des effets indirects, par exemple, lorsque les données altérées circulent en dehors du périmètre initialement prévu ou lorsqu’elles sont utilisées à des fins légitimes par des tiers. Cette pratique soulève ainsi la question de la proportionnalité de la réponse apportée face à l’appropriation illicite des données.

Les enjeux juridiques au regard du RGPD et de la protection des données

D’après le RGPD, toute information se rapportant à une personne physique identifiée ou identifiable constitue une donnée personnelle, notamment par référence à un identifiant, des données de localisation ou des éléments propres à son identité. Cela reste le cas, même si la donnée a été volontairement altérée ou modifiée dans un objectif de protection. En effet, l’altération ne fait pas disparaître le lien potentiel avec la personne concernée, dès lors qu’une ré-identification reste possible, même indirecte. Les acteurs mettant en œuvre un outil comme Aura demeurent donc pleinement responsables du traitement des données concernées au sens du RGPD, lorsqu’ils déterminent les finalités et les moyens de ce traitement.

Le RGPD impose le respect des principes fondamentaux de licéité, de loyauté et de transparence. Même si l’empoisonnement des données poursuit une finalité légitime de protection contre l’exploitation illicite par des systèmes d’intelligence artificielle, il ne doit en aucun cas conduire à un traitement trompeur, ni porter atteinte aux droits et libertés des personnes concernées ou des tiers. La finalité du traitement doit être clairement définie, explicite et proportionnée à l’objectif poursuivi. Les personnes concernées doivent être informées, lorsque cela est applicable, de l’existence de tels mécanismes, notamment lorsque les données altérées continuent d’être utilisées ou diffusées dans un cadre professionnel ou contractuel.

En conséquence, les principes de minimisation des données et de sécurité du traitement conservent toute leur portée. L’altération volontaire des données ne saurait justifier une collecte excessive, ni une conservation prolongée au-delà de ce qui est strictement nécessaire à la finalité de protection recherchée. Les responsables de traitement doivent veiller à limiter l’accès aux données aux seules personnes habilitées et à prévenir tout risque de diffusion incontrôlée. À cet égard, la mise en place de mesures techniques et organisationnelles appropriées, telles que la pseudonymisation, le chiffrement ou encore la journalisation des accès, apparaît indispensable afin de garantir la conformité du dispositif aux exigences du RGPD.

La responsabilité des acteurs face aux systèmes d’IA et l’IA Act

L’utilisation d’un outil comme Aura interroge également la responsabilité des différents acteurs impliqués : producteurs de données, éditeurs de solutions techniques et concepteurs de systèmes d’IA. En cas de dysfonctionnement d’un système entraîné sur des données empoisonnées, la question de l’imputabilité des dommages peut se poser, notamment lorsque les effets dépassent le cadre de la protection initialement recherchée.

Avec l’IA Act, certains systèmes d’intelligence artificielle peuvent être qualifiés de systèmes à haut risque lorsqu’ils ont des effets significatifs sur les droits fondamentaux ou les intérêts économiques des personnes. Dans ce contexte, les développeurs d’IA devront renforcer leurs mécanismes de contrôle de la qualité et de l’origine des données d’entraînement afin d’éviter toute dépendance à des sources illicites ou altérées.

De leur côté, les utilisateurs de solutions telles que Aura devront assurer une supervision humaine effective et documenter précisément les choix techniques opérés. L’outil ne peut se substituer au droit : il doit demeurer un moyen complémentaire de protection, intégré dans une stratégie globale de conformité, de gouvernance des données et de respect des principes de proportionnalité.

L’outil Aura, en introduisant l’empoisonnement volontaire des données comme mécanisme de protection, ouvre un débat inédit à la croisée du droit, de la technologie et de l’éthique. Si cette solution peut constituer un levier efficace pour renforcer la protection des données, elle ne saurait être déployée sans un encadrement juridique rigoureux. L’enjeu réside désormais dans la capacité des acteurs à concilier innovation technique, conformité réglementaire et respect des droits fondamentaux, afin que la défense des données ne devienne pas, elle-aussi, une source de risques.

Sources :

https://www.lemondeinformatique.fr/actualites/lire-aura-empoisonne-les-donnees-volees-dans-les-systemes-ia-98969.html