Une réponse au « mystère » DeepSeek
Leandro von Werra, responsable de la recherche chez Hugging Face, s’est lancé dans cette aventure baptisée « Open-R1 » avec son équipe d’ingénieurs. Leur objectif ? Décortiquer et reproduire le modèle R1, qui fait tant parler de lui depuis sa sortie, notamment après avoir détrôné ChatGPT sur l’App Store d’Apple.
« Le modèle R1 est impressionnant, mais l’absence de données ouvertes et de détails sur les expérimentations rend la recherche difficile », explique Elie Bakouch, ingénieur chez Hugging Face.
Des performances qui rivalisent avec OpenAI
Le modèle R1, développé par le laboratoire chinois DeepSeek, s’est démarqué en égalant, voire en surpassant, les performances du modèle o1 d’OpenAI sur certains benchmarks. Sa particularité ? Une capacité d’auto-vérification qui lui permet d’éviter les erreurs classiques des modèles d’IA, notamment dans les domaines scientifiques et mathématiques.
Un projet ambitieux et communautaire
Pour mener à bien ce projet, Hugging Face met les grands moyens :
- Utilisation du Science Cluster, équipé de 768 GPU Nvidia H100
- Mobilisation de la communauté tech sur GitHub et Hugging Face
- Objectif de réplication en quelques semaines
Le projet a déjà suscité un vif intérêt, récoltant 10 000 étoiles sur GitHub en seulement trois jours.
L’enjeu de la transparence
Pour Bakouch, l’enjeu va au-delà de la simple reproduction :
« Avoir le contrôle sur les données et le processus est crucial pour déployer un modèle de manière responsable dans des domaines sensibles. »
Cette initiative s’inscrit dans un contexte plus large de démocratisation de l’IA, alors que certains s’inquiètent de la domination américaine dans ce secteur. Malgré les craintes concernant les potentiels abus liés à l’open source en IA, l’équipe d’Hugging Face reste convaincue que la transparence et le partage des connaissances sont essentiels pour l’avenir du domaine.
La réussite de ce projet pourrait marquer un tournant majeur dans l’industrie de l’IA, en prouvant qu’il est possible de développer des modèles performants de manière ouverte et collaborative.