La protection des données personnelles vs la nouvelle IA générative

Par Haas Avocats

Une nouvelle intelligence artificielle (IA) générative pour créer de toutes pièces des vidéos à partir d’un prompt très simple, c’est la nouvelle création d’Open AI qui s’est concrétisée par la sortie de l’IA « Sora » le 15 février 2024. Dans la course à la génération d’images « text-to-video », la question se porte toutefois à nouveau sur les contenus utilisés par Open AI pour entrainer sa nouvelle IA.

A l’instar de son cousin ChatGPT, Sora a fait l’objet de nombreuses critiques lors de sa sortie^[1]. Et pour cause, les pays de l’Union Européenne (UE) viennent d’adopter un nouveau règlement, l’IA Act, afin de réguler les évolutions des différents systèmes d’IA. Dans cette optique, l’homologue italienne de la CNIL, la Garante per la protezione dei dati personali, a ouvert une enquête sur Sora dès sa sortie. Elle a enjoint à Open AI d’être transparent sur les données collectées pour entrainer sa nouvelle IA, et notamment s’il se trouvent parmi celles-ci, des données à caractère personnel.

Quelles sont les données d’entrainement à l’origine de Sora ?

Pour rappel, les modèles d’intelligence artificielle générative sont entrainés sur la base de contenus disponibles sur internet. Open AI justifie l’utilisation de tous types de contenus, même protégés^[2], par la notion de « faire use ». L’entreprise pionnière des modèles d’IA génératives estime que son utilisation des bases de données sans autorisation est légitimée par son usage raisonnable de ces contenus dans un but de recherche scientifique^[3].

Or, parmi ces différents contenus, peuvent être exploitées des données personnelles, protégées au sein de l’UE au titre du RGPD^[4].

L’UE a ainsi fait le pari de la régulation en érigeant la transparence comme pierre angulaire de l’IA Act (texte de régulation de l’UE sur l’intelligence artificielle). A titre d’exemple, ce règlement impose la mise à disposition de la documentation technique des modèles d'IA à usage général^[5]. Parmi cette documentation technique, se retrouvent effectivement les données d’entrainement des systèmes d’IA.

Le texte mentionne également à plusieurs reprises que ces systèmes d’IA doivent respecter la législation en matière de protection de données, et donc le RGPD.

Si Sora n’est pas considéré comme un système d’IA à haut risque au titre de l’IA Act^[6], il n’en demeure pas moins que son entrainement à partir des bases de données disponibles sur internet ou « achetées » par Open Ai, ne doit pas porter atteinte à la vie privée des personnes à travers leurs données personnelles.

La protection des données personnelles à l’épreuve de l’entrainement des IA génératives

Face à l’arrivée de l’intelligence artificielle générative sur le devant de la scène, la CNIL a publié un plan d’action pour encourager leur déploiement dans le respect de la vie privée des personnes.

Quatre volets ont été développés au sein de ce plan d’action :

Appréhender le fonctionnement des systèmes d’IA et leurs impacts sur les personnes ;
Permettre et encadrer le développement d’IA respectueuses des données personnelles ;
Fédérer et accompagner les acteurs innovants de l’écosystème IA ;
Auditer et contrôler les systèmes d’IA et protéger les personnes.

A cet égard, il est particulièrement nécessaire de favoriser, voire d’exiger la loyauté et la transparence de données pouvant avoir un impact sur la vie privée des personnes, mais constituant la base de la formation des systèmes d’IA.

Sur le plan de la sécurité de ces données personnelles également, des exigences doivent être respectées. En effet, dans son dossier sur l’IA générative^[7], le Laboratoire d’Innovation Numérique de la CNIL (LINC), a notamment indiqué que des dommages potentiels pouvaient être de l’ordre de la facilitation, voire de l’industrialisation, d’attaques, ou la réputation en ligne, par l’utilisation de données pour générer du contenu malveillant.

En prenant l’exemple de Sora, cela ne parait pas invraisemblable. Il va devenir de plus en plus simple d’usurper l’identité de quelqu’un et de la détourner à ses propres fins.

La réaction de la CNIL à la sortie de Sora est ainsi particulièrement attendue.

A noter toutefois qu’Open AI semble avoir pris la mesure du danger que pourrait représenter Sora. L’entreprise a ainsi indiqué que Sora ne sera pas disponible dans les produits d’Open AI tant que des mesures de sécurité ne seront pas mises en œuvre pour lutter contre la désinformation, les contenus haineux, ainsi que les préjugés^[8]. Il n’y a plus qu’à espérer qu’Open AI entende par-là protéger la vie privée des utilisateurs ou des personnes concernées par la réutilisation par Sora de leurs données personnelles.

****

Le cabinet HAAS Avocats est spécialisé depuis plus de vingt-cinq ans en droit des nouvelles technologies et de la propriété intellectuelle. Il accompagne de nombreux acteurs du numérique dans le cadre de leurs problématiques judiciaires et extrajudiciaires relatives au droit de la protection des données. Dans un monde incertain, choisissez de vous faire accompagner par un cabinet d’avocats fiables. Pour nous contacter, cliquez ici.

[1] L’autorité de protection des données italienne avait estimé que Chat GPT ne respectait pas la législation européenne et en avait bloqué l’utilisation en mars 2023

[2] Par le droit d’auteur ou le droit des données personnelles

[3] « Training is fair use », Communiqué de presse d’Open AI du 8 janvier 2024

[4] Règlement général sur la protection des données

[5] Chapitre V de l’IA Act

[6] Les systèmes d’IA à haut risque interviennent dans des domaines comme la biométrie, les infrastructures techniques, l’éducation, l’emploi, la bonne administration de la justice… ; Annexe III de l’IA Act :

[7] [Dossier IA générative] - De l'entraînement à la pratique : l'IA générative et ses usages | Linc (cnil.fr)

[8] Sora (openai.com)