Une affaire retentissante vient secouer le monde de l’IA. Des documents judiciaires déclassifiés par un tribunal californien révèlent que Meta aurait délibérément utilisé des contenus piratés pour entraîner ses modèles d’intelligence artificielle Llama, tout en tentant de dissimuler ces pratiques.
Une course effrénée à l’IA
Dans un mail datant d’octobre 2023, Ahmad Al-Dahle, vice-président de l’IA générative chez Meta, écrivait à un chercheur :
« Notre objectif doit être GPT4. Nous devons apprendre à construire la frontière et gagner cette course. »
Pour atteindre cet objectif, Meta n’aurait pas hésité à utiliser Library Genesis (LibGen), un site connu pour héberger illégalement des livres piratés. Cette décision aurait même été validée par « MZ » – probablement Mark Zuckerberg lui-même.
Des pratiques douteuses minutieusement orchestrées
Les documents révèlent une stratégie élaborée pour masquer l’utilisation de ces contenus piratés. Sony Theakanath, directeur produit chez Meta, détaillait dans un mail les « mesures d’atténuation » prévues :
- Suppression des données marquées comme piratées
- Évitement de toute mention publique de LibGen
- Tests de sécurité pour les risques d’armes biologiques et CBRNE
L’entreprise est allée jusqu’à supprimer systématiquement :
- Les en-têtes de copyright
- Les numéros ISBN
- Les mentions « Tous droits réservés »
- Les métadonnées compromettantes
Une pénurie de données qui pousse aux extrêmes
Cette affaire s’inscrit dans un contexte plus large de « mur des données » auquel se heurtent les géants de l’IA. En 2023, Meta avait déjà épuisé pratiquement toutes les sources de textes anglophones disponibles légalement. Des solutions désespérées avaient été envisagées, comme l’acquisition de Simon & Schuster ou l’embauche de contractuels africains pour résumer des livres sans autorisation.
Le procès en cours, intenté par l’auteur Richard Kadrey et l’humoriste Sarah Silverman, pourrait avoir des répercussions majeures sur l’industrie de l’IA. Meta, comme d’autres entreprises, maintient que l’utilisation de contenus protégés pour l’entraînement d’IA relève de l' »usage équitable », une position juridique qui pourrait être sérieusement remise en question par ces révélations.