Une nouvelle affaire secoue le géant des réseaux sociaux. D’après des documents judiciaires récemment déclassifiés, Mark Zuckerberg aurait personnellement approuvé l’utilisation d’une base de données de livres piratés pour entraîner les modèles d’IA Llama de Meta.
L’affaire Kadrey v. Meta, qui implique notamment les auteurs Sarah Silverman et Ta-Nehisi Coates, prend une tournure explosive. Les plaignants affirment que Meta a sciemment utilisé LibGen, une plateforme connue pour héberger illégalement des contenus protégés par le droit d’auteur.
« Un ensemble de données que nous savons être piratées », c’est ainsi que les employés de Meta eux-mêmes décrivaient LibGen dans des communications internes.
Le plus troublant dans cette affaire est la façon dont Meta aurait tenté de dissimuler ses agissements. Nikolay Bashlykov, un ingénieur de l’équipe Llama, aurait développé un script pour supprimer toute trace de copyright dans les e-books utilisés. Cette manipulation incluait l’effacement systématique des mots « copyright » et « acknowledgments », ainsi que les métadonnées sources des articles scientifiques.
Pour obtenir ces contenus, Meta serait allé jusqu’à utiliser des réseaux de torrent, malgré les réserves exprimées par certains ingénieurs. Ahmad Al-Dahle, responsable de l’IA générative chez Meta, aurait donné son feu vert à cette pratique, ignorant les avertissements concernant sa légalité douteuse.
Les implications sont considérables. LibGen, déjà condamné à plusieurs reprises pour violation de droits d’auteur, héberge des œuvres de grands éditeurs comme Cengage Learning, Macmillan Learning et McGraw Hill. La plateforme a déjà été condamnée à des amendes de plusieurs dizaines de millions de dollars.
Cette révélation fait écho à un article du New York Times d’avril 2023, qui suggérait que Meta avait pris des raccourcis dans sa collecte de données. L’entreprise avait même envisagé d’acheter Simon & Schuster pour accéder légalement à du contenu, avant d’opter pour la voie rapide – et potentiellement illégale – de LibGen.
Le juge Vince Chhabria, qui préside l’affaire, a rejeté la demande de Meta de garder ces informations confidentielles, estimant que :
« La demande de Meta n’est pas destinée à protéger des informations commerciales sensibles, mais à éviter une mauvaise publicité. »
Bien que l’affaire ne concerne que les premiers modèles Llama de Meta, et non les versions récentes, elle soulève des questions éthiques majeures sur les pratiques des géants de la tech dans la course à l’IA. Meta maintient sa défense en s’appuyant sur le « fair use », une doctrine juridique américaine qui autorise l’utilisation d’œuvres protégées pour créer quelque chose de nouveau, à condition que la transformation soit suffisante.
La bataille juridique ne fait que commencer, et cette affaire pourrait créer un précédent majeur pour l’industrie de l’IA, alors que de nombreuses entreprises font face à des accusations similaires.