Actualités juridiques et digitales

Épuisement des données humaines : quels enjeux pour l’entraînement de l’IA ?

Rédigé par Haas Avocats | Mar 3, 2025 9:00:00 AM

Par Haas Avocats

Elon Musk déclare que toutes les données créées par les humains pour entrainer les Intelligences artificielles (IA) sont « épuisées »[1]. Il suggère de passer à des données synthétiques auto-apprenantes avec le risque de provoquer un « effondrement du modèle ».

Epuisement/Insuffisance des données disponibles

Elon Musk déclare que « Les entreprises d’IA n'ont plus assez de données pour entraîner leurs modèles et ont « épuisé » la somme des connaissances humaines ». Il ajoute que « cette somme a été épuisée dans la formation à l'IA (…) et ce depuis l'année dernière ».

Et ces déclarations ne sont pas sans fondement dans la mesure où cet épuisement des données a été projeté et prévu dans notre période actuelle.

Il suggère ainsi à ces entreprises de s’orienter vers des données « synthétiques » ou encore du contenu créé par des modèles d'IA pour construire et affiner de nouveaux systèmes.

Solution palliative, recourir à des données synthétiques

Elon Musk affirme que le « seul moyen » de pallier le manque de contenu source est de passer à des données synthétiques créées par l'IA, c’est-à-dire « d'avoir recours à des données synthétiques qui permettent de rédiger un essai ou de proposer une thèse, puis de se noter soi-même et de passer par ce processus d'auto-apprentissage. »

Il faut souligner que Meta a utilisé des données synthétiques pour affiner son plus grand modèle d'IA Llama, tandis que Microsoft a également utilisé du contenu créé par l'IA pour son modèle Phi-4. Google et OpenAI ont également utilisé des données synthétiques dans leurs travaux sur l'IA.

Risque d’effondrement du modèle et de rendements décroissants

Cependant, la qualité de la donnée est un enjeu central dans le traitement des données synthétiques. Les données ressortant d’« hallucinations », (i.d., terme désignant des résultats inexacts ou absurdes) sont particulièrement à risque, car « comment savoir si la réponse a été hallucinée ou si c'est une vraie réponse ».

Andrew Duncan[2] a commenté cette déclaration en indiquant que ces propos concordaient avec un article universitaire estimant que les données accessibles au public pour les modèles d'IA pourraient s'épuiser dès 2026. Il a ajouté qu'une dépendance excessive à l'égard des données synthétiques risquait d'entraîner un « effondrement du modèle », terme qui fait référence à la détérioration de la qualité des résultats des modèles.

« Lorsque vous commencez à alimenter un modèle avec des éléments synthétiques, vous commencez à obtenir des rendements décroissants », a-t-il déclaré, avec le risque que les résultats soient biaisés et manquent de créativité.

Duncan a ajouté que l'augmentation du contenu généré par l'IA en ligne pourrait également entraîner l'absorption de ce contenu dans les ensembles d'entraînement des données de l'IA.

Ces déclarations sont cependant à relativiser dans la mesure où les « gros modèles » mettent en place des filtres dans le traitement des données afin de préserver une bonne qualité de donnée. Un effondrement de tous les modèles est donc, à ce stade, une éventualité qui demeure assez faible.

Enjeux juridiques autour des données de haute qualité

Les données de haute qualité et leur contrôle constituent l'un des enjeux juridiques du boom de l'IA. L'OpenAI a admis l'année dernière qu'il serait impossible de créer des outils tels que ChatGPT sans avoir accès à du matériel protégé par des droits d'auteur, tandis que les industries créatives et les éditeurs demandent une compensation pour l'utilisation de leur production dans le processus d'apprentissage du modèle.

Les propos d'Elon Musk soulignent une problématique majeure dans le développement de l’intelligence artificielle : l’épuisement des données humaines exploitables pour l’entraînement des modèles.

Si le recours aux données synthétiques apparaît comme une solution inévitable, il n’est pas sans risques, notamment en matière de qualité des résultats et de rendements décroissants.

L’éventualité d’un « effondrement du modèle » reste un sujet de préoccupation, bien que les grandes entreprises mettent en place des mécanismes pour limiter ce phénomène. L’IA a donc encore de beaux jours devant elle. A méditer…

***

Le cabinet HAAS Avocats est spécialisé depuis plus de vingt-cinq ans en droit des nouvelles technologies et de la propriété intellectuelle. Il accompagne de nombreux acteurs du numérique dans le cadre de leurs problématiques judiciaires et extrajudiciaires relatives au droit de la protection des données. Dans un monde incertain, choisissez de vous faire accompagner par un cabinet d’avocats fiables. Pour nous contacter, cliquez ici.

 

[1] Voir l’article du 9 janvier 2024 « Elon Musk says all human data for AI training ‘exhausted’ | Artificial intelligence (AI) | The Guardian »

[2] Directeur de l'IA fondamentale à l'Institut Alan Turing du Royaume-Uni