La startup canadienne Cohere vient de dévoiler Command A, son nouveau modèle d’IA générative qui risque de bousculer sérieusement le paysage de l’intelligence artificielle pour les entreprises. Successeur direct de Command-R lancé en mars 2024, ce nouveau modèle frappe fort avec des performances exceptionnelles, notamment en termes de vitesse et d’efficacité énergétique.
Une montée en puissance significative
Cohere, cofondée par l’un des auteurs du célèbre article « Attention Is All You Need » qui a déclenché la révolution des grands modèles de langage (LLM) en 2017, ne cesse de monter en puissance. Avec Command A, l’entreprise canadienne double la longueur de contexte par rapport à son prédécesseur, passant à 256 000 tokens – l’équivalent d’environ 600 pages de texte.
Ce nouveau modèle s’inscrit dans une stratégie claire : proposer une alternative crédible aux mastodontes comme GPT-4o d’OpenAI ou DeepSeek-V3, tout en offrant des avantages décisifs en termes d’efficacité et de rapidité.
Des performances qui défient la concurrence
Les chiffres annoncés par Cohere sont franchement impressionnants :
- Vitesse de génération de tokens : 156 tokens par seconde, soit 1,75 fois plus rapide que GPT-4o et 2,4 fois plus rapide que DeepSeek-V3
- Temps de latence réduit : 6 500 ms pour la génération du premier token, contre 7 460 ms pour GPT-4o et 14 740 ms pour DeepSeek-V3
- Efficacité matérielle : fonctionne sur seulement deux GPUs (A100 ou H100), une amélioration majeure par rapport aux modèles concurrents qui peuvent nécessiter jusqu’à 32 GPUs
Pour les contextes longs (100 000 tokens), la différence est encore plus marquée avec une vitesse de streaming de 73 tokens/seconde, comparée à 38 pour GPT-4o et 32 pour DeepSeek-V3.
Dwaraknath Ganesan, responsable du pré-entraînement chez Cohere, a partagé son enthousiasme sur X :
« Extrêmement excité de révéler ce sur quoi nous avons travaillé ces derniers mois ! Command A est incroyable. Il peut être déployé sur seulement 2 GPU H100 ! 256K de longueur de contexte, support multilingue étendu, utilisation d’outils… très fier de cette réalisation. »
Une approche résolument tournée vers l’entreprise
Avec Command A, Cohere poursuit sa stratégie centrée sur les besoins des entreprises. Le modèle intègre des fonctionnalités clés comme :
- La génération augmentée par récupération (RAG) : pour des réponses vérifiables et de haute précision
- L’utilisation d’outils agents : permettant l’intégration dans des workflows complexes et l’interaction avec d’autres outils d’entreprise
- L’intégration à la plateforme North AI : offrant aux entreprises la possibilité d’automatiser des tâches via des agents IA sécurisés
- Scalabilité et efficacité des coûts : les déploiements privés seraient jusqu’à 50% moins chers que l’accès par API
Cette orientation « business first » n’est pas anodine pour Cohere, qui tente de gagner des parts de marché face aux géants du secteur. Selon un rapport de Menlo Ventures publié en novembre 2024, Cohere ne détenait alors que 3% de parts de marché dans les entreprises, loin derrière OpenAI (34%), Anthropic (24%) et même la jeune pousse Mistral (5%).
Un champion du multilinguisme
L’une des forces les plus impressionnantes de Command A réside dans ses capacités multilingues. Le modèle prend en charge 23 langues parmi les plus parlées au monde, incluant le français, l’anglais, l’espagnol, l’italien, l’allemand, le japonais, le coréen, l’arabe, le russe, le portugais, et bien d’autres.
Mention spéciale pour l’arabe, où Command A excelle particulièrement :
- 98,2% de précision dans les réponses en arabe à des prompts en anglais, surpassant DeepSeek-V3 (94,9%) et GPT-4o (92,2%)
- Score ADI2 (cohérence des dialectes) de 24,7, largement au-dessus de GPT-4o (15,9) et DeepSeek-V3 (15,7)
Un modèle convivial, mais parfois trop bavard
Dans sa documentation destinée aux développeurs, Cohere signale une particularité de Command A : le modèle est naturellement « bavard ». Optimisé pour la conversation, il produit par défaut des réponses verbeuses et utilise abondamment le markdown pour mettre en évidence le code.
Les développeurs souhaitant des réponses plus concises sont invités à utiliser un préambule spécifique demandant au modèle de fournir uniquement la réponse sans formatage markdown.
Disponibilité et tarification
Command A est d’ores et déjà disponible sur la plateforme Cohere avec une tarification assez compétitive :
- 2,50 $ par million de tokens en entrée
- 10,00 $ par million de tokens en sortie
Pour les chercheurs, Cohere propose également une version avec poids ouverts disponible sur Hugging Face sous licence Creative Commons Attribution Non Commercial 4.0 International. Des déploiements privés et sur site sont également disponibles sur demande.
Cette sortie intervient peu après que Cohere for AI – la filiale à but non lucratif de l’entreprise – ait publié Aya Vision, un modèle de vision multilingue open-source (réservé à la recherche) début mars.
Un concurrent sérieux sur le marché des LLM
Pierre Richemond, chercheur en IA chez Cohere, résume bien la position de Command A :
« Command A est notre nouveau modèle de 111 milliards de paramètres de niveau GPT-4o/DeepSeek V3, avec poids ouverts, offrant une longueur de contexte de 256K qui a été optimisé pour l’efficacité dans les cas d’utilisation d’entreprise. »
Avec sa combinaison unique de performances, d’efficacité et de support multilingue avancé, Command A se positionne comme un acteur sérieux sur le marché hautement compétitif des grands modèles de langage. La question est maintenant de savoir si ces avantages techniques permettront à Cohere de gagner les précieux points de parts de marché dont l’entreprise a besoin face aux géants OpenAI et Anthropic.
Pour les entreprises des secteurs de la finance, de la santé, de la médecine, des sciences et du droit, où la rapidité de réponse est cruciale, Command A pourrait bien représenter une alternative séduisante qui allie performance et maîtrise des coûts.