Plus
    ActualitésIntelligence ArtificielleMeta pris en flagrant délit de manipulation des benchmarks...

    Meta pris en flagrant délit de manipulation des benchmarks IA avec Llama 4

    -

    Le géant des réseaux sociaux a utilisé une version optimisée de son modèle Maverick pour grimper artificiellement dans les classements d’évaluation d’IA, provoquant la controverse dans le milieu tech.

    Meta a fait une entrée remarquée ce week-end dans la course à l’IA générative en lançant deux nouveaux modèles de sa famille Llama 4 : Scout, un modèle compact, et Maverick, un modèle de taille intermédiaire. Selon Meta, Maverick surpasserait GPT-4o d’OpenAI et Gemini 2.0 Flash de Google « sur un large éventail de benchmarks largement reconnus ».

    Plus impressionnant encore, Maverick s’est rapidement hissé à la deuxième place du classement LMArena, site de référence où des humains comparent les réponses de différents systèmes d’IA et votent pour les meilleures. Dans son communiqué de presse, Meta vantait fièrement le score ELO de 1417 obtenu par Maverick, le positionnant au-dessus du GPT-4o d’OpenAI et juste derrière le Gemini 2.5 Pro de Google.

    Illustration du modèle Gemini 2.5 de Google
    Image représentative du modèle Gemini 2.5 de Google, l’un des concurrents majeurs dans le classement LMArena. Source : Google

    La supercherie dévoilée

    L’exploit semblait positionner Llama 4, un modèle open-weight de Meta, comme un concurrent sérieux face aux modèles fermés d’OpenAI, Anthropic et Google. Mais la fête a été de courte durée. Des chercheurs en IA, examinant de près la documentation de Meta, ont découvert un détail troublant.

    Dans les petits caractères, Meta reconnaît que la version de Maverick testée sur LMArena n’est pas la même que celle mise à disposition du public. Selon les propres documents de l’entreprise, Meta a déployé une version chat expérimentale de Maverick sur LMArena, spécifiquement « optimisée pour la conversationnalité », comme l’a révélé en premier TechCrunch.

    this would explain it: « optimized for conversationality » pic.twitter.com/5iGPpFOIEF

    Face à cette révélation, LMArena a promptement réagi via son compte X : « L’interprétation de Meta concernant notre politique ne correspondait pas à ce que nous attendons des fournisseurs de modèles ». Le site a ajouté que « Meta aurait dû indiquer plus clairement que ‘Llama-4-Maverick-03-26-Experimental’ était un modèle personnalisé pour optimiser la préférence humaine ». En conséquence, LMArena a annoncé une mise à jour de ses règles pour renforcer son engagement envers des évaluations équitables et reproductibles.

    Screenshot du dashboard LMArena montrant les 10 premiers modèles
    Le tableau de classement LMArena affichant le top 10 des modèles d’IA au 25 mars 2025, illustrant la compétition entre les différents modèles. Source : LMArena.ai

    La défense de Meta

    Contactée par The Verge, Ashley Gabriel, porte-parole de Meta, a déclaré par email : « Nous expérimentons avec toutes sortes de variantes personnalisées ». Elle a précisé que « ‘Llama-4-Maverick-03-26-Experimental’ est une version optimisée pour le chat avec laquelle nous avons expérimenté et qui performe bien sur LMArena », ajoutant que Meta a désormais publié sa version open source et attend avec impatience de voir comment les développeurs personnaliseront Llama 4 pour leurs propres cas d’utilisation.

    Techniquement, ce que Meta a fait avec Maverick n’enfreint pas explicitement les règles de LMArena. Toutefois, le site a déjà exprimé des préoccupations concernant la manipulation du système et pris des mesures pour « prévenir le surajustement et les fuites de benchmarks ». Lorsque les entreprises peuvent soumettre des versions spécialement optimisées de leurs modèles pour les tests tout en publiant des versions différentes pour le public, les classements comme LMArena perdent en pertinence comme indicateurs de performance réelle.

    Simon Willison, chercheur indépendant en IA, a confié à The Verge : « C’est le benchmark général le plus respecté parce que tous les autres sont médiocres. Quand Llama 4 est sorti, le fait qu’il arrive second dans l’arène, juste après Gemini 2.5 Pro, m’a vraiment impressionné, et je m’en veux de ne pas avoir lu les petits caractères. »

    D’autres accusations de manipulation

    Peu après la sortie de Maverick et Scout, la communauté IA a commencé à évoquer une rumeur selon laquelle Meta aurait également entraîné ses modèles Llama 4 pour améliorer leurs performances sur les benchmarks tout en dissimulant leurs véritables limites. Ahmad Al-Dahle, vice-président de l’IA générative chez Meta, a répondu à ces accusations dans un post sur X : « Nous avons également entendu des allégations selon lesquelles nous aurions entraîné nos modèles sur des jeux de test – c’est tout simplement faux et nous ne ferions jamais cela. Selon notre meilleure compréhension, la qualité variable que les gens constatent est due à la nécessité de stabiliser les implémentations. »

    Certains ont également remarqué que Llama 4 a été lancé à un moment inhabituel. Le samedi n’est généralement pas le jour où tombent les grandes nouvelles en matière d’IA. Lorsqu’un utilisateur de Threads a demandé pourquoi Llama 4 avait été publié durant le week-end, Mark Zuckerberg, PDG de Meta, a simplement répondu : « C’est à ce moment-là qu’il était prêt. »

    Un lancement chaotique après des retards répétés

    « C’est un lancement très confus dans l’ensemble », explique Willison, qui suit et documente attentivement les modèles d’IA. « Le score du modèle qu’ils ont obtenu est complètement sans valeur pour moi. Je ne peux même pas utiliser le modèle qui a obtenu un score élevé. »

    Le chemin vers la sortie de Llama 4 n’a pas été sans embûches. Selon un récent rapport de The Information, l’entreprise a repoussé à plusieurs reprises le lancement, le modèle ne répondant pas aux attentes internes. Ces attentes sont particulièrement élevées après que DeepSeek, une startup d’IA open-source chinoise, a publié un modèle open-weight qui a suscité un énorme intérêt.

    Une pratique qui pénalise le secteur

    L’utilisation d’un modèle optimisé dans LMArena place les développeurs dans une position délicate. Lorsqu’ils sélectionnent des modèles comme Llama 4 pour leurs applications, ils se tournent naturellement vers les benchmarks pour s’orienter. Mais comme c’est le cas pour Maverick, ces benchmarks peuvent refléter des capacités qui ne sont pas réellement disponibles dans les modèles accessibles au public.

    À mesure que le développement de l’IA s’accélère, cet épisode montre comment les benchmarks deviennent des champs de bataille. Il illustre également à quel point Meta est désireux d’être perçu comme un leader de l’IA, même si cela implique de contourner les règles établies.

    Pour l’écosystème IA français et européen, cet incident soulève des questions importantes sur la transparence des évaluations et la nécessité d’établir des standards plus rigoureux pour comparer les performances des modèles d’IA. Alors que l’Europe tente de se positionner dans la course mondiale à l’IA, pouvoir se fier à des benchmarks honnêtes devient crucial pour tous les acteurs du secteur.

    Benjamin
    Benjaminhttps://www.technofeed.fr
    Passionné par les dernières technologies et notamment l'IA, je suis un amateur de tech curieux et enthousiaste qui explore les innovations qui façonnent notre monde numérique. Diplômé en communication digitale, je transforme ma fascination pour l'innovation technologique en récits captivants qui décryptent les avancées les plus prometteuses. Sur TechnoFeed, je m'attache à vulgariser des concepts complexes pour les rendre accessibles à tous, des passionnés de high-tech aux néophytes. Mon objectif : démystifier la technologie et montrer comment elle peut améliorer concrètement notre quotidien. Entre analyses pointues et regards humains, je vous invite à découvrir les technologies de demain à travers mes articles. Quand je ne suis pas plongé dans l'actualité tech, vous me trouverez probablement à tester de nouveaux outils SaaS, de nouvelles IA ou échanger avec des entrepreneurs passionnés. La technologie n'est pas qu'une histoire de machines, c'est avant tout une histoire d'hommes et de passion !

    Nos Dernières Actus

    CoreWeave cherche à lever 1,5 milliard de dollars de dette après une introduction en bourse en demi-teinte

    Le spécialiste américain des infrastructures d'IA, CoreWeave, n'a pas dit son dernier mot. Quelques semaines à peine après une...

    Apple a empoché plus de 10 milliards de dollars de commissions sur l’App Store américain en 2024

    Selon une nouvelle analyse d’Appfigures, les revenus d’Apple tirés des commissions de l’App Store américain ont plus que doublé...

    L’IA de Microsoft réduit de 70% l’épuisement des médecins à l’Hôpital d’Ottawa

    L'Hôpital d'Ottawa révolutionne la prise en charge des patients grâce à une technologie d'intelligence artificielle qui transforme les consultations...

    Huawei largue Windows et dévoile son premier laptop sous HarmonyOS : indépendance technologique chinoise

    C'est désormais officiel. Huawei a présenté hier son tout premier ordinateur portable équipé de son système d'exploitation maison, HarmonyOS...

    Tendances

    VMware : Broadcom sort l’artillerie lourde pour mater les résistances au modèle abonnement

    Depuis son acquisition coup de poing de VMware pour 69 milliards de dollars fin 2023, Broadcom n’y est pas...

    Alibaba casse les codes avec ZeroSearch : l’IA qui se passe de Google pour fouiller le web

    Alibaba vient de dévoiler une innovation qui va secouer le petit monde de l'IA. Baptisée ZeroSearch, cette prouesse technique...

    Nos Guides Pratiques

    Comment fonctionne ChatGPT ? Les dessous du chatbot le plus connu

    Comment fonctionne ChatGPT ? Le guide ultime Aujourd'hui, nous plongeons...

    Que peut-on faire avec ChatGPT ? Exemples détaillés

    Que peut-on faire avec ChatGPT ? Un guide détaillé...

    A lire égalementÀ NE PAS RATER !
    Recommandés pour vous