OpenAI vs DeepSeek : une accusation de distillation qui fait débat

Par Haas Avocats

Sans conteste, le lancement de DeepSeek a récemment bouleversé le monde de l'intelligence artificielle. La raison : la mise à disposition d'un modèle d'IA[i] open source, gratuit et performant[ii], qui semble avoir nécessité beaucoup moins d'énergie et de puissance de calcul. Ce développement pourrait-il marquer l'éclatement de la bulle de l'IA ?

Bien que l'avenir nous éclairera sur l'impact de cette innovation, concentrons-nous sur un aspect juridique de cette affaire. La startup américaine OpenAI a récemment accusé la chinoise DeepSeek d'avoir distillé ses modèles. Mais de quoi s'agit-il exactement ?

La distillation de modèles est une technique utilisée en apprentissage automatique pour transférer les connaissances d'un modèle complexe et performant, souvent appelé "modèle enseignant", vers un modèle normalement plus simple et plus léger, appelé "modèle étudiant".

Il s'agit d'avoir accès à l'API du modèle et de poser des questions. Les réponses sont utilisées pour entraîner un modèle. Il ne s'agit pas de copier un code-source, mais d'utiliser les réponses (output) pour créer un nouveau modèle.

Image1-Feb-10-2025-10-06-00-1407-AM

Cette technique est disponible via l'API d'OpenAI depuis octobre 2024. Ce processus permet de créer des modèles plus efficaces en termes de calcul et de ressources, tout en conservant une grande partie des performances du modèle enseignant.

Comment la propriété intellectuelle protège-t-elle les codes-source en France ?

Le Code de la propriété intellectuelle[iii] prévoit la protection des logiciels par le droit d’auteur. Cette protection a été étendue aux codes-source par la jurisprudence[iv] depuis de nombreuses années.

Cette protection empêche un concurrent de l'auteur du logiciel de se servir du savoir contenu dans celui-ci pour le développer.

Il n'est pas question ici de code source d'Open AI, mais bien de l'utilisation possible des réponses générées. La question se pose alors de savoir si le contenu généré par une intelligence artificielle est protégeable par le droit d'auteur.

Par principe, le droit d'auteur protège les œuvres originales qui sont le fruit d'un effort créatif humain. Dans la plupart des systèmes juridiques, y compris la France, l'originalité et l'intervention humaine sont des conditions essentielles pour qu'une œuvre soit protégée. Par conséquent, si un contenu est généré entièrement par une IA sans intervention humaine significative, il est généralement considéré comme ne remplissant pas ces critères.

Cependant, David Sacks, spécialiste de l'intelligence artificielle et de la cryptographie à la Maison Blanche, a déclaré qu'il était « possible » que DeepSeek ait volé la propriété intellectuelle des États-Unis. Selon lui, OpenAI dispose de preuves selon lesquelles DeepSeek aurait utilisé ses modèles comme modèles enseignants pour créer ses propres modèles.

Toutefois, si la législation ne protège pas, en principe, les réponses générées par une intelligence artificielle, comment OpenAI pourrait-elle réclamer de DeepSeek ?

Dans sa Politique de Confidentialité, OpenAI affirme ne pas revendiquer de droits d'auteur sur le contenu généré par son API. Toutefois, en examinant plus en détail la Politique d’utilisation d'OpenAI, il apparaît que cette dernière interdit clairement l'utilisation des résultats générés pour concurrencer OpenAI.

Image2-3

À cet égard, DeepSeek ne cache pas son objectif de concurrencer OpenAI.

Image3-2

Pour l'instant, il n'est pas clair que DeepSeek ait réellement utilisé la technique de distillation des modèles pour s'approprier le savoir-faire d’OpenAI. Ces accusations émanent d’OpenAI et de Microsoft, qui affirment avoir détecté que de grandes quantités de données étaient exfiltrées via des comptes de développeurs d’OpenAI à la fin de l'année 2024, comptes qu'elles croient être affiliés à DeepSeek.

Bien que les preuves n'aient pas encore été présentées, cette situation soulève des questions sur le statut juridique des résultats produits par une intelligence artificielle en termes de propriété intellectuelle, d'éthique en IA et de concurrence déloyale dans le secteur.

Paradoxalement, OpenAI a été accusée d'avoir développé ChatGPT en accédant de manière inappropriée à du contenu pour lequel elle ne détenait pas les droits. L'entreprise fait l'objet de plusieurs poursuites judiciaires à ce titre, notamment de la part du New York Times, qui affirme que la société a construit son modèle en partie en intégrant des millions d'articles du journal sans autorisation. A suivre…

***

Le cabinet HAAS Avocats est spécialisé depuis plus de vingt-cinq ans en droit des nouvelles technologies et de la propriété intellectuelle. Il accompagne de nombreux acteurs du numérique dans le cadre de leurs problématiques judiciaires et extrajudiciaires relatives au droit de la protection des données ou dans l’implémentation ou la mise à jour de procédures d’alertes professionnelles. Dans un monde incertain, choisissez de vous faire accompagner par un cabinet d’avocats fiables. Pour nous contacter, cliquez ici.

[i] Les modèles d'intelligence artificielle (IA) sont des programmes conçus pour identifier des schémas spécifiques à partir d'ensembles de données. Ils constituent le cœur d'un système d'IA, avec lequel l'utilisateur interagit via des prompts ou des requêtes.

[ii] Le modèle DeepSeek R1 est distribué sous une licence MIT, qui autorise gratuitement toute personne à exploiter le logiciel sans restriction. Cette licence inclut, sans limitation, les droits d'utiliser, copier, modifier, fusionner, publier, distribuer, sous-licencier et/ou vendre des copies du logiciel, ainsi que de permettre aux personnes auxquelles le logiciel est fourni de le faire.

[iii] Article L112-2

[iv] « Les programmes sources sont pareillement protégés par le code de la propriété intellectuelle, ainsi que les codes sources, dans la mesure où ils sont la matérialisation d’un effort intellectuel » (Tribunal de commerce de Paris, 15 octobre 2004, Conex/Tracing Server)