C’est aujourd’hui que Meta, le géant des réseaux sociaux évalué à 1,4 billions de dollars, se retrouve devant les tribunaux américains pour défendre sa pratique controversée d’utilisation de contenu protégé par le droit d’auteur. L’affaire, qui oppose le groupe de Mark Zuckerberg à une douzaine d’auteurs de renom, dont Ta-Nehisi Coates et Richard Kadrey, pourrait complètement rebattre les cartes de l’industrie de l’IA.
Le cœur du litige : LibGen et les « bibliothèques de l’ombre »
L’affaire tourne autour de l’utilisation par Meta de LibGen (Library Genesis), une bibliothèque numérique pirate contenant des millions de livres, d’articles académiques et de bandes dessinées, pour entraîner ses modèles d’IA Llama. Ces bases de données, souvent appelées « shadow libraries » (bibliothèques de l’ombre), hébergent massivement du contenu sans l’autorisation des ayants droit.
Le verdict de ce procès aura des répercussions considérables dans la bataille juridique qui oppose actuellement les créateurs de contenu aux entreprises d’intelligence artificielle. Cette affaire n’est que la partie émergée de l’iceberg, puisque Microsoft, OpenAI et Anthropic font face à des poursuites similaires concernant les données utilisées pour former leurs propres modèles de langage.
Les modèles d’IA ont été entraînés sur des centaines de milliers, voire des millions de livres, téléchargés depuis des sites pirates bien connus. Ce n’était pas accidentel.
L’argument du « fair use » contre le droit d’auteur
Meta défend sa position en invoquant le principe du « fair use » (usage équitable), un concept du droit américain qui autorise, sous certaines conditions, l’utilisation d’œuvres protégées sans l’autorisation de l’auteur. Selon l’entreprise, l’utilisation de matériaux protégés pour entraîner des grands modèles de langage (LLM) relève de cette exception si elle sert à développer une technologie « transformative », même si les données proviennent de bases pirates.
Dans ses documents juridiques, Meta précise que « l’utilisation était équitable indépendamment de la méthode d’acquisition ». Une position juridique audacieuse qui semble contredite par les preuves récoltées pendant la phase de découverte du procès.
Les e-mails compromettants
Les documents judiciaires révèlent que Meta avait initialement entamé des discussions avec des éditeurs de livres pour explorer la possibilité d’obtenir des licences légales. Selon les plaignants, l’entreprise aurait abandonné cette voie en découvrant que les œuvres étaient disponibles gratuitement via LibGen, privant ainsi les auteurs de compensation et de contrôle sur leurs créations.
Un e-mail particulièrement révélateur cité dans la procédure indique : « si nous accordons une licence à un seul livre, nous ne pourrons plus nous appuyer sur la stratégie du fair use ». Meta rétorque qu’il n’existait alors pas de marché pour l’octroi de licences à de telles fins.
Mais le plus préoccupant réside dans les communications internes dévoilées pendant la phase de découverte. Des e-mails montrent que les employés de Meta semblaient conscients de naviguer dans une zone juridique grise et discutaient de moyens d’éviter l’examen public de leur utilisation de LibGen.
Dans un e-mail de janvier dernier, Joelle Pineau, l’ancienne directrice du laboratoire de recherche en IA de Meta (FAIR), recommandait explicitement l’utilisation de la base de données LibGen. Dans un message suivant, Sony Theakanath, directeur de produit chez Meta, écrivait : « en aucun cas nous ne divulguerions publiquement que nous avons entraîné nos modèles sur LibGen« . L’e-mail comportait la mention « risque juridique », dont les détails ont été caviardés, ainsi qu’une section « risques politiques » mentionnant « copyright et PI » (propriété intellectuelle). Le message suggérait diverses mesures d’atténuation comme « supprimer les données clairement identifiées comme piratées/volées ».
La méthode d’acquisition contestée
Un autre aspect épineux du procès concerne la méthode présumée utilisée par Meta pour acquérir la base de données LibGen : le torrenting. Cette technique de partage de fichiers implique généralement que pendant le téléchargement, on participe simultanément à la redistribution du contenu vers d’autres utilisateurs.
Les documents judiciaires affirment que Meta a utilisé cette méthode tout en tentant de limiter la redistribution des contenus. Cependant, l’entreprise n’a pas fourni la garantie que cette redistribution a été totalement empêchée, et certaines preuves relatives aux données sortantes auraient été supprimées, selon les informations issues de la phase de découverte.
L’enjeu : l’avenir de l’IA générative
Il y a énormément d’incertitude actuellement.
Meta, pour sa part, reste ferme sur sa position : « Meta a développé des modèles d’IA open source transformationnels qui alimentent une incroyable innovation, productivité et créativité pour les individus et les entreprises. L’usage équitable de matériaux protégés par le droit d’auteur est vital pour cela. Nous contestons les affirmations des plaignants, et le dossier complet raconte une histoire différente. Nous continuerons à nous défendre vigoureusement et à protéger le développement de l’IA générative au bénéfice de tous. »
Un secteur en attente de clarté juridique
L’affaire Meta illustre parfaitement le flou juridique qui entoure l’entraînement des modèles d’IA et soulève des questions fondamentales sur l’équilibre entre innovation technologique et protection de la propriété intellectuelle.
Les experts du secteur estiment que l’issue de ce procès pourrait forcer l’ensemble de l’industrie à repenser ses pratiques d’acquisition de données et potentiellement à développer un marché de licences spécifiques pour l’entraînement des modèles d’IA. Une évolution qui aurait des conséquences économiques majeures pour les créateurs comme pour les géants technologiques.
Avec cette affaire, c’est tout l’écosystème de l’IA générative qui retient son souffle, conscient que le tribunal pourrait établir un précédent qui façonnera l’avenir de cette technologie révolutionnaire.