Le Règlement général sur la protection des données 2016-679 du 29 avril 2016 a vocation à se substituer à la directive de 1995 et entrera en vigueur le 25 mai 2018. Alors que les entreprises concentrent leurs efforts sur leur mise en conformité avec la règlementation à venir, la neutralisation de la qualification de données personnelles par les techniques d’anonymisation revêt un intérêt considérable. Toutefois la mise en œuvre d’une « bonne » anonymisation apparait complexe. Il est difficile d’échapper à la qualification de données à caractère personnel et même lorsque l’anonymisation est effective, d’autres données peuvent encore être révélées comme en témoigne le récent cas de l’application Strava.
Le recours à l’anonymisation des données à caractère personnel
Selon les termes de la commissaire à la justice de l’Union Européenne, Viviane Reding, devant la Commission européenne à Strasbourg en 2014, « De solides règles de protection des données doivent être la marque de l’Europe. Après scandales d’espionnage des données mondiales par les américains, la protection des données est plus que jamais un facteur de compétitivité. ». Selon la Loi Informatiques et Libertés (LIL), une donnée à caractère personnel est définie comme « toute information relative à une personne physique identifiée ou pouvant être identifiée, par référence à un numéro d’identification ou à un ou plusieurs éléments qui lui sont propres ». Aux termes de l’article 4 du Règlement européen, qui entrera en vigueur le 25 mai 2018, les données à caractère personnel sont entendues comme « toute information se rapportant à une personne physique identifiée ou identifiable ; est réputée être une «personne physique identifiable» une personne physique qui peut être identifiée, directement ou indirectement, notamment par référence à un identifiant, tel qu’un nom, un numéro d’identification, des données de localisation, un identifiant en ligne, ou à un ou plusieurs éléments spécifiques propres à son identité physique, physiologique, génétique, psychique, économique, culturelle ou sociale ». Ces définitions témoignent du champ d’application large que couvre la notion de données à caractère personnel. Alors que la collecte et le traitement de ces données deviennent inévitables dans la vie des affaires, l’anonymisation se présente comme un moyen d’échapper à la réglementation. L’anonymisation irréversible des données personnelles permet de sortir du périmètre de la loi Informatique Fichiers et Libertés et le RGPD prévoit qu’ « il n’y a pas lieu d’appliquer les principes de protection aux données qui ont été rendues suffisamment anonymes pour que la personne concernée ne soit plus identifiable ».
Anonyme, du grec anônumos, se dit de quelqu’un dont on ignore le nom. L’anonymat correspond à l’état de ce qui est anonyme, de ce qu’il n’est pas possible d’identifier. Si le patronyme a longtemps été l’élément fondamental constitutif d’une identité, les individus disposent désormais d’une identité élargie, qui se détermine aussi bien civilement que numériquement. L’identité numérique s’est considérablement développée avec le web 2.0 qui est un web social, fait d’interactions, de partage de contenus, d’expression de personnalités qui se définissent in fine par leur comportement en ligne. Une personne peut alors être identifiée par divers éléments qui peuvent éventuellement conduire à son identité civile.
L’anonymat peut présenter des intérêts divers au sein d’une société : il peut permettre la protection physique des personnes, une protection morale mais aussi une protection pénale (c’est le cas notamment du secret des sources en journalisme). En matière de données à caractère personnel, l’anonymat présente des intérêts pour les individus, mais aussi pour les entités collectant et traitant des données, qui souhaitent échapper à la règlementation. L’anonymisation des données rend possible la neutralisation du caractère personnel de la donnée et donc de la qualification de donnée à caractère personnel. Toutefois l’anonymisation doit être irréversible et donc répondre à certains critères, si l’anonymisation n’est pas suffisante, la règlementation trouve à s’appliquer car il s’agit alors d’une simple pseudonymisation. Bien qu’elles puissent être confondues au premier abord, l’anonymisation et la pseudonymisation sont deux techniques à distinguer clairement. La « pseudonymisation » peut laisser penser que la donnée est anonymisée, il s’agit en réalité d’une anonymisation réversible. L’ « anonymisation irréversible » consiste à supprimer tout caractère identifiant des données personnelles. Toutes les informations directement et indirectement identifiantes sont supprimées de façon à rendre impossible tout réidentification des personnes. Par conséquent, l’anonymisation irréversible permet de sortir du périmètre de la règlementation. A contrario, la « pseudonymisation » constitue une anonymisation réversible. Cela signifie qu’il est possible de lever l’anonymat en cas de besoin. Le considérant 26 du RGPD rappelle que « Les données à caractère personnel qui ont fait l’objet d’une pseudonymisation et qui pourraient être attribuées à une personne physique par le recours à des informations supplémentaires devraient être considérées comme des informations concernant une personne physique identifiable ». Les données pseudonymisées ne peuvent donc pas être considérées comme anonymes.
L’effectivité limitée de l’anonymisation
Si l’anonymisation permet encore la ré-identification par un quelconque procédé, elle est considérée comme insuffisante, il s’agit dès lors d’une pseudonymisation. En théorie la distinction est simple : elle repose sur l’impossibilité réelle d’identifier la personne, directement ou indirectement. En pratique, néanmoins, cette distinction n’est pas si évidente à apprécier puisqu’il n’y a pas d’anonymisation parfaite et qu’il s’agit davantage d’un objectif vers lequel tendre. D’ailleurs, le RGPD impose de tenir compte, pour déterminer si une personne est identifiable, de l’ensemble des moyens « susceptibles d’être raisonnablement mis en œuvre » par le responsable du traitement (ou le tiers) pour identifier la personne, ce qui montre bien qu’il existe une gradation dans les méthodes d’anonymisation et que toutes n’offrent pas la même effectivité. Certaines entreprises, à l’instar de JC Decaux ont pu penser anonymiser leurs données quand ils réalisaient en réalité une pseudonymisation. Dans l’arrêt en question en date du 8 février 2017, le Conseil d’Etat a suivi la position de la CNIL en se fondant sur l’article 2 de la loi de 1978 qui dispose que « pour déterminer si une personne est identifiable, il convient de considérer l’ensemble des moyens en vue de permettre son identification dont dispose ou auxquels peut avoir accès le responsable du traitement ou toute autre personne. » et juge que les données ne sont pas anonymes « lorsqu’il demeure possible d’individualiser une personne ou de relier entre elles des données résultant de deux enregistrements qui la concernent ».
Récemment, un exemple témoigne du fait que des données anonymisées peuvent quand même se montrer révélatrices : en janvier 2018, l’application Strava a fait parler d’elle en raison de révélations problématiques rendues possible grâce aux données personnelles collectées, bien qu’anonymisées. Cette application permet de centraliser des données sur les activités sportives de 27 millions de personnes dans le monde, utilisateurs de bracelets connectés enregistrant leur géolocalisation. La cartographie de ces données a permis de déduire la présence de bases militaires et de mouvements de troupes en raison du traçage de certains parcours récurrents dans des zones terrestres habituellement dépeuplées. L’anonymisation des données individuelles rend impossible de lier un parcours sportif au nom d’une personne, mais elles ont néanmoins pu produire d’autres informations sensibles à leur insu.
Par ailleurs, le croisement des données peut également montrer les limites de l’anonymisation ainsi qu’en témoignent plusieurs exemples. Le croisement des données permet de personnaliser des données anonymisées. Plusieurs cas l’illustrent : en 2010, Netflix a publié des données d’évaluation anonymes dans le cadre d’un important crowdsourcing dans le but d’améliorer son algorithme de recommandation. En recoupant les données divulguées avec celles du site « lMDb », un chercheur est parvenu à désanonymiser les données. La connaissance de deux notes a suffi à identifier 68% des utilisateurs.
La même chose a été démontrée avec le travail de Latanya Sweeney, une étudiante de la Carnegie Mellon University, qui a livré dans son étude « Simple Demographics Often Identify People Uniquely » une preuve édifiante que le croisement de bases de données pseudonymisées avec une base de de données non pseudonymisée peut conduire à l’identification des personnes concernées. En l’espèce, elle avait croisé une base de données médicale avec une liste électorale. Les valeurs de la liste électorale utilisées étaient neutres : date de naissance, code postal et sexe. Elles ont néanmoins permis d’identifier de nombreuses personnes parmi lesquelles le gouverneur de l’Etat en question.
Ainsi, la qualification de données à caractère personnel couvre un spectre assez large, manier les techniques de neutralisation de la qualification comme l’anonymisation s’avère être un exercice périlleux à mettre en œuvre dès lors qu’une anonymisation insuffisante ne permet pas de sortir du champ d’application de la règlementation. Dès lors qu’aucune technique ne permet d’anonymiser parfaitement les données, il est recommandé d’informer au mieux les personnes concernées et de recueillir l’avis de la CNIL sur le procédé d’anonymisation envisagé.
SOURCES :
CNIL, Cahier IP n°1 : Vie privée à l’horizon 2020 Paroles d’experts, 24 octobre 2012
CNIL, Fiche n°10 : Sécurité des données, juillet 2014
Groupe de travail « Article 29 » sur la protection des données, Avis 05/2014 sur les Techniques d’anonymisation, 10 avril 2014
Guillaume DESGENS-PASANAU, Eric FREYSSINET, L’identité à l’ère du numérique, 2009, Dalloz
L’anonymisation d’une donnée doit rendre l’identification impossible, Conseil d’Etat 8 février 2017, AJDA 2017, p. 325
TUAL (M.), « L’armée française met ses troupes en garde contre l’application de jogging Strava », Le Monde <http://www.lemonde.fr/pixels/article/2018/01/30/l-armee-francaise-met-ses-troupes-en-garde-contre-l-application-de-jogging-strava_5249157_4408996.html>