Le géant des réseaux sociaux a utilisé une version optimisée de son modèle Maverick pour grimper artificiellement dans les classements d’évaluation d’IA, provoquant la controverse dans le milieu tech.
Meta a fait une entrée remarquée ce week-end dans la course à l’IA générative en lançant deux nouveaux modèles de sa famille Llama 4 : Scout, un modèle compact, et Maverick, un modèle de taille intermédiaire. Selon Meta, Maverick surpasserait GPT-4o d’OpenAI et Gemini 2.0 Flash de Google « sur un large éventail de benchmarks largement reconnus ».
Plus impressionnant encore, Maverick s’est rapidement hissé à la deuxième place du classement LMArena, site de référence où des humains comparent les réponses de différents systèmes d’IA et votent pour les meilleures. Dans son communiqué de presse, Meta vantait fièrement le score ELO de 1417 obtenu par Maverick, le positionnant au-dessus du GPT-4o d’OpenAI et juste derrière le Gemini 2.5 Pro de Google.
La supercherie dévoilée
L’exploit semblait positionner Llama 4, un modèle open-weight de Meta, comme un concurrent sérieux face aux modèles fermés d’OpenAI, Anthropic et Google. Mais la fête a été de courte durée. Des chercheurs en IA, examinant de près la documentation de Meta, ont découvert un détail troublant.
Dans les petits caractères, Meta reconnaît que la version de Maverick testée sur LMArena n’est pas la même que celle mise à disposition du public. Selon les propres documents de l’entreprise, Meta a déployé une version chat expérimentale de Maverick sur LMArena, spécifiquement « optimisée pour la conversationnalité », comme l’a révélé en premier TechCrunch.
this would explain it: « optimized for conversationality » pic.twitter.com/5iGPpFOIEF
Face à cette révélation, LMArena a promptement réagi via son compte X : « L’interprétation de Meta concernant notre politique ne correspondait pas à ce que nous attendons des fournisseurs de modèles ». Le site a ajouté que « Meta aurait dû indiquer plus clairement que ‘Llama-4-Maverick-03-26-Experimental’ était un modèle personnalisé pour optimiser la préférence humaine ». En conséquence, LMArena a annoncé une mise à jour de ses règles pour renforcer son engagement envers des évaluations équitables et reproductibles.
La défense de Meta
Contactée par The Verge, Ashley Gabriel, porte-parole de Meta, a déclaré par email : « Nous expérimentons avec toutes sortes de variantes personnalisées ». Elle a précisé que « ‘Llama-4-Maverick-03-26-Experimental’ est une version optimisée pour le chat avec laquelle nous avons expérimenté et qui performe bien sur LMArena », ajoutant que Meta a désormais publié sa version open source et attend avec impatience de voir comment les développeurs personnaliseront Llama 4 pour leurs propres cas d’utilisation.
Techniquement, ce que Meta a fait avec Maverick n’enfreint pas explicitement les règles de LMArena. Toutefois, le site a déjà exprimé des préoccupations concernant la manipulation du système et pris des mesures pour « prévenir le surajustement et les fuites de benchmarks ». Lorsque les entreprises peuvent soumettre des versions spécialement optimisées de leurs modèles pour les tests tout en publiant des versions différentes pour le public, les classements comme LMArena perdent en pertinence comme indicateurs de performance réelle.
Simon Willison, chercheur indépendant en IA, a confié à The Verge : « C’est le benchmark général le plus respecté parce que tous les autres sont médiocres. Quand Llama 4 est sorti, le fait qu’il arrive second dans l’arène, juste après Gemini 2.5 Pro, m’a vraiment impressionné, et je m’en veux de ne pas avoir lu les petits caractères. »
D’autres accusations de manipulation
Peu après la sortie de Maverick et Scout, la communauté IA a commencé à évoquer une rumeur selon laquelle Meta aurait également entraîné ses modèles Llama 4 pour améliorer leurs performances sur les benchmarks tout en dissimulant leurs véritables limites. Ahmad Al-Dahle, vice-président de l’IA générative chez Meta, a répondu à ces accusations dans un post sur X : « Nous avons également entendu des allégations selon lesquelles nous aurions entraîné nos modèles sur des jeux de test – c’est tout simplement faux et nous ne ferions jamais cela. Selon notre meilleure compréhension, la qualité variable que les gens constatent est due à la nécessité de stabiliser les implémentations. »
Certains ont également remarqué que Llama 4 a été lancé à un moment inhabituel. Le samedi n’est généralement pas le jour où tombent les grandes nouvelles en matière d’IA. Lorsqu’un utilisateur de Threads a demandé pourquoi Llama 4 avait été publié durant le week-end, Mark Zuckerberg, PDG de Meta, a simplement répondu : « C’est à ce moment-là qu’il était prêt. »
Un lancement chaotique après des retards répétés
« C’est un lancement très confus dans l’ensemble », explique Willison, qui suit et documente attentivement les modèles d’IA. « Le score du modèle qu’ils ont obtenu est complètement sans valeur pour moi. Je ne peux même pas utiliser le modèle qui a obtenu un score élevé. »
Le chemin vers la sortie de Llama 4 n’a pas été sans embûches. Selon un récent rapport de The Information, l’entreprise a repoussé à plusieurs reprises le lancement, le modèle ne répondant pas aux attentes internes. Ces attentes sont particulièrement élevées après que DeepSeek, une startup d’IA open-source chinoise, a publié un modèle open-weight qui a suscité un énorme intérêt.
Une pratique qui pénalise le secteur
L’utilisation d’un modèle optimisé dans LMArena place les développeurs dans une position délicate. Lorsqu’ils sélectionnent des modèles comme Llama 4 pour leurs applications, ils se tournent naturellement vers les benchmarks pour s’orienter. Mais comme c’est le cas pour Maverick, ces benchmarks peuvent refléter des capacités qui ne sont pas réellement disponibles dans les modèles accessibles au public.
À mesure que le développement de l’IA s’accélère, cet épisode montre comment les benchmarks deviennent des champs de bataille. Il illustre également à quel point Meta est désireux d’être perçu comme un leader de l’IA, même si cela implique de contourner les règles établies.
Pour l’écosystème IA français et européen, cet incident soulève des questions importantes sur la transparence des évaluations et la nécessité d’établir des standards plus rigoureux pour comparer les performances des modèles d’IA. Alors que l’Europe tente de se positionner dans la course mondiale à l’IA, pouvoir se fier à des benchmarks honnêtes devient crucial pour tous les acteurs du secteur.