La startup chinoise DeepSeek fait parler d’elle avec ses dernières avancées technologiques qui bousculent le monde de l’IA. Focus sur les innovations majeures qui pourraient rebattre les cartes face aux géants du secteur.
DeepSeekMoE et DeepSeekMLA : la nouvelle génération de modèles
DeepSeek vient de dévoiler deux modèles d’IA particulièrement prometteurs. Le premier, DeepSeekMoE, utilise une architecture « Mixture of Experts » permettant d’activer uniquement les parties pertinentes du réseau neural selon la tâche demandée. Cette approche réduit considérablement les coûts de calcul tout en maintenant des performances de haut niveau.
Le second modèle, DeepSeekMLA, introduit une nouvelle architecture d’attention baptisée « Multi-head Latent Attention ». Cette innovation technique permet d’optimiser les mécanismes d’attention, réduisant ainsi la complexité computationnelle de 30% par rapport aux approches traditionnelles.
L’impact des restrictions américaines
Face aux sanctions américaines limitant l’accès aux puces V100 et H100 de Nvidia, DeepSeek a développé une approche astucieuse : l’utilisation de puces V3 moins coûteuses. La société a optimisé ses modèles pour fonctionner efficacement sur ce matériel plus accessible, démontrant qu’il est possible de développer des IA performantes malgré les restrictions.
« Notre objectif est de démocratiser l’accès à l’IA en prouvant qu’on peut créer des modèles puissants sans nécessairement disposer des dernières puces haut de gamme », explique le PDG de DeepSeek.
La distillation : un atout majeur
DeepSeek utilise massivement la technique de « distillation » des modèles, permettant de transférer les connaissances de grands modèles vers des versions plus compactes. Cette approche, combinée à leurs innovations architecturales, leur permet de créer des modèles plus légers mais tout aussi performants.
L’ambition AGI et la dépendance à Nvidia
Bien que DeepSeek affiche clairement ses ambitions en matière d’Intelligence Artificielle Générale (AGI), la société reste dépendante des technologies Nvidia pour ses développements. Cette situation soulève des questions sur la capacité des entreprises chinoises à maintenir leur compétitivité face aux restrictions technologiques américaines.
La société a néanmoins démontré sa capacité à innover en optimisant l’utilisation des ressources disponibles. Cette approche pragmatique pourrait inspirer d’autres acteurs du secteur confrontés à des défis similaires.
Des résultats prometteurs
Les premiers benchmarks montrent que DeepSeekMoE rivalise avec les modèles de référence sur plusieurs tâches de traitement du langage naturel, tout en consommant significativement moins de ressources. Ces résultats suggèrent que l’approche de DeepSeek pourrait redéfinir les standards de l’industrie en matière d’efficience des modèles d’IA.