Microsoft dévoile trois modèles IA conçus entièrement en interne — voix, transcription et image — qui surpassent la concurrence sur plusieurs benchmarks. Un virage stratégique qui marque le début de l'émancipation du géant de Redmond vis-à-vis d'OpenAI.

Pas encore de commentaire. Lancez la discussion !
Microsoft vient de frapper un grand coup. Le géant de Redmond a dévoilé cette semaine trois modèles d'intelligence artificielle entièrement conçus en interne, baptisés MAI-Transcribe-1, MAI-Voice-1 et MAI-Image-2. Une annonce qui ne relève pas du simple lancement produit : elle marque un tournant stratégique majeur pour l'entreprise la plus valorisée au monde, qui envoie un signal clair à son partenaire historique OpenAI.
Derrière ces trois modèles se cache le travail de Microsoft AI, la division créée il y a six mois sous la direction de Mustafa Suleyman, cofondateur de DeepMind. Le premier, MAI-Transcribe-1, est un modèle de reconnaissance vocale qui prend en charge 25 langues et se classe numéro un mondial sur le benchmark FLEURS, surpassant le célèbre Whisper d'OpenAI sur 14 des 25 langues les plus utilisées. Le tout pour un coût GPU réduit de moitié par rapport à la concurrence. Le deuxième, MAI-Voice-1, génère 60 secondes d'audio expressif en moins d'une seconde sur un seul GPU, avec la possibilité de cloner une voix à partir d'un échantillon de dix secondes seulement. Enfin, MAI-Image-2 s'est directement hissé à la troisième place du classement Arena.ai des modèles de génération d'images, excellant dans le photoréalisme et le rendu de texte.
La dimension stratégique de cette annonce dépasse largement la technique. Microsoft a investi plus de 13 milliards de dollars dans OpenAI et distribue ses modèles GPT à travers Azure depuis des années. Mais en construisant ses propres fondations, Redmond réduit sa dépendance envers un partenaire devenu aussi un concurrent potentiel, notamment depuis qu'OpenAI développe ses propres produits grand public et vise une introduction en bourse. Les trois modèles MAI alimentent déjà Copilot, Bing, PowerPoint et Azure Speech, et sont disponibles immédiatement via Microsoft Foundry, la plateforme maison qui court-circuite le passage obligé par les modèles tiers.
Ce mouvement de Microsoft illustre une tendance de fond dans l'industrie : les géants de la tech ne veulent plus dépendre d'un seul fournisseur d'IA. Google pousse Gemini, Meta mise sur Llama en open source, et désormais Microsoft joue sa propre partition. La compétition ne se limite plus aux startups d'IA générative, elle se joue au cœur même des empires technologiques. Pour les développeurs et les entreprises, c'est une bonne nouvelle : plus de choix, des prix en baisse (MAI-Transcribe-1 à 0,36 dollar de l'heure, MAI-Voice-1 à 22 dollars par million de caractères), et une guerre de la qualité qui ne fait que commencer. Reste à voir comment OpenAI réagira face à un allié qui, désormais, ne cache plus son ambition de voler de ses propres ailes.