L’IA surpasse les tests : les développeurs doivent créer des évaluations toujours plus complexes
Les systèmes d’IA progressent à une vitesse folle, au point que les développeurs peinent à évaluer leurs réelles capacités. Une situation qui pousse la communauté tech à innover dans la création de nouveaux tests d’évaluation, appelés « evals ».
Le constat est sans appel : les benchmarks traditionnels comme les QCM ou les examens du barreau américain ne suffisent plus. Les modèles d’IA les plus récents obtiennent des scores stratosphériques, frôlant parfois la perfection. Face à cette évolution fulgurante, entreprises, ONG et gouvernements s’attellent à concevoir des tests beaucoup plus corsés.
« Concevoir des évaluations pour mesurer les capacités des systèmes d’IA avancés est étonnamment difficile », explique Marius Hobbhahn, directeur d’Apollo Research.
Un exemple parlant : FrontierMath, un benchmark créé par l’institut Epoch AI en collaboration avec des mathématiciens de renom, dont le médaillé Fields Terence Tao. Ces problèmes mathématiques sont d’une complexité inédite – 25% au niveau Olympiades internationales, 50% niveau doctorat, et 25% relevant de la recherche de pointe. Initialement, les modèles d’IA ne scoraient que 2%. Un mois plus tard, le modèle o3 d’OpenAI atteignait déjà 25,2%.
D’autres initiatives émergent :
- « Humanity’s Last Exam » : un test mastodonte couvrant physique, biologie et ingénierie électrique
- RE-Bench : simulation de tâches réelles en machine learning
- SimpleBench : des questions apparemment simples mais qui mettent les IA en difficulté
Les enjeux sont colossaux. Ces évaluations servent de système d’alerte précoce pour détecter l’émergence de capacités potentiellement dangereuses en cybersécurité ou bioterrorisme. Les grands labs comme OpenAI, Anthropic et Google DeepMind se sont d’ailleurs engagés à stopper le déploiement de leurs modèles si les tests révèlent des risques majeurs.
Le nerf de la guerre reste financier. Chaque évaluation coûte entre 1 000 et 10 000 dollars par modèle testé. La majorité des tests publics sont financés par des organisations à but non lucratif, une situation que critique Hobbhahn :
« Ce n’est pas idéal que les philanthropes subventionnent des entreprises valant des milliards. Les labs créant les risques devraient assumer ces coûts. »
La course continue. Les instituts de sécurité IA américain et britannique ont récemment testé Claude 3.5 d’Anthropic et o1 d’OpenAI, révélant des failles dans leurs garde-fous. Un constat qui renforce l’urgence d’établir des obligations légales d’audit par des tiers indépendants, pratique déjà courante dans d’autres secteurs comme la finance.
Le défi est maintenant d’anticiper : avoir des tests plus difficiles prêts avant que les modèles actuels ne les maîtrisent totalement. Une course contre la montre essentielle pour garder un œil vigilant sur les capacités croissantes de l’IA.