Microsoft publie trois modèles d’IA « voir, écouter, parler », visant des flux de travail d’entreprise de niveau commercial pour l’IA

ChainNewsAbmedia

Après avoir lancé le modèle de génération d’images MAI-Image-2 le 18 mars, Microsoft a de nouveau publié, le 2 avril, deux modèles liés à la voix, à savoir MAI-Transcribe-1 et MAI-Voice-1. En peu de temps, l’entreprise a complété consécutivement ses capacités en image et en audio, ce qui est perçu comme une avancée importante de sa stratégie d’IA multimodale. Ces trois modèles ne relèvent pas de simples mises à jour éparses : ils constituent un puzzle complet allant de la génération visuelle à la compréhension de la voix, puis jusqu’à la sortie vocale, montrant que Microsoft cherche à bâtir des capacités d’IA de base pouvant s’intégrer directement aux processus de travail des entreprises.

Microsoft MAI-Image-2 vise la génération d’images à usage commercial

Le MAI-Image-2 lancé pour la première fois le 18 mars par Microsoft met clairement l’accent sur le caractère « exploitable en entreprise » plutôt que sur une simple génération créative. Par rapport aux modèles d’images antérieurs davantage orientés vers le divertissement ou l’expérimentation, MAI-Image-2 met davantage l’accent sur la stabilité des sorties et la précision sémantique. Il peut conserver une composition cohérente et des détails complets sous des instructions complexes. Cela le rend plus adapté à des cas d’usage comme des supports marketing de marque, la visualisation de produits et la conception publicitaire.

Pour les entreprises, la valeur de ce type de modèle ne réside pas dans la capacité à générer des images spectaculaires, mais dans celle de produire en continu du contenu « utilisable et contrôlable », et c’est précisément le cœur de l’amélioration apportée par MAI-Image-2.

Clipto se débout ! Microsoft lance un modèle de transcription mot à mot pour réunions MAI-Transcribe-1

Juste après, le 2 avril, Microsoft a lancé MAI-Transcribe-1, qui se concentre sur les capacités de compréhension de la voix. La vocation de ce modèle est très claire : une technologie de base qui transforme la parole en données textuelles structurées. Il peut traiter des entrées vocales en temps réel, tout en conservant une grande précision de reconnaissance dans des contextes multilingues et avec des accents variés. En même temps, il présente une certaine résistance aux bruits de fond, limitant les perturbations.

Ces capacités sont particulièrement cruciales dans les environnements professionnels. Qu’il s’agisse de transcriptions mot à mot de réunions, de relevés d’appels du service client ou de l’organisation de contenu médiatique, tout dépend de la qualité stable de la conversion voix-texte. Dès lors que les données vocales peuvent être converties avec précision en texte, les processus ultérieurs de recherche, de résumé et d’analyse peuvent être entièrement automatisés. C’est aussi le rôle clé de MAI-Transcribe-1 dans l’ensemble de l’architecture IA.

Utiliser le modèle MAI-Voice-1 pour le service client, les podcasts et la voix

En correspondance, MAI-Voice-1 est chargé du côté de la sortie vocale. L’accent de ce modèle est de faire en sorte que la voix générée par l’IA se rapproche davantage d’une performance humaine, y compris la naturel de l’intonation, du rythme et des émotions. Cela lui permet d’être utilisé dans des scénarios comme la voix du service client, des assistants IA, le doublage de contenus vidéo et même la production de podcast. Par rapport à la synthèse vocale plus mécanique d’autrefois, MAI-Voice-1 met davantage l’accent sur des paramètres permettant d’ajuster le ton et le style. Ainsi, la voix n’est plus seulement un outil de transmission d’informations, mais devient une interface de communication et d’expression.

Récapitulatif des trois modèles IA « voir, écouter, parler » de Microsoft

En observant l’ensemble dans le même contexte, on constate que le déploiement de Microsoft ne relève pas d’une percée ponctuelle, mais d’une progression rapide vers l’intégration multimodale. MAI-Image-2 traite la génération visuelle, MAI-Transcribe-1 s’occupe de la compréhension de la voix, et MAI-Voice-1 réalise la génération de voix ; les trois ensemble forment la structure des capacités de base « voir, écouter, parler ».

Une fois ces capacités combinées avec les modèles de langage existants et des services cloud, elles peuvent former un flux de travail IA complet : de l’entrée des données, à la compréhension, jusqu’à la génération et la sortie, le tout effectué au sein d’un même système.

Caractéristiques

MAI-Transcribe-1

(de la voix vers le texte)

MAI-Voice-1 (du texte vers la voix) MAI-Image-2 (génération d’images à partir de texte) Fonction principale

Convertir la voix en transcription mot à mot

Générer une voix naturelle, fluide et porteuse d’émotion

Générer des images à partir de descriptions textuelles

Date de publication

2 avril 2026

2 avril 2026

18 mars 2026

Technologies clés et caractéristiques

Forte résistance au bruit, reconnaissance automatique de la langue

Contrôle des émotions, copie de la voix (Voice Prompting)

Architecture de modèles de diffusion (Diffusion-based), forte exactitude

Langues prises en charge

Anglais, chinois, espagnol, etc. 25 langues

Pour l’instant uniquement l’anglais (extension à 10+ langues à venir)

S’appuie principalement sur l’entrée texte (sans mention particulière de prise en charge multilingue)

Méthode de tarification

Par heure d’audio $0.36

Par million de caractères $22.00

Dépend de la plateforme de déploiement (par ex. MAI Playground)

Limites d’entrée/sortie

Entrée : WAV, MP3, FLAC

Entrée : texte brut ou SSML

Sortie : jusqu’à 1024×1024 pixels

Dans cet article, « Microsoft publie trois modèles IA “voir, écouter, parler” visant les flux de travail IA d’entreprise de niveau commercial » apparaît pour la première fois sur Chaîne News ABMedia.

Avertissement : Les informations contenues dans cette page peuvent provenir de tiers et ne représentent pas les points de vue ou les opinions de Gate. Le contenu de cette page est fourni à titre de référence uniquement et ne constitue pas un conseil financier, d'investissement ou juridique. Gate ne garantit pas l'exactitude ou l'exhaustivité des informations et n'est pas responsable des pertes résultant de l'utilisation de ces informations. Les investissements en actifs virtuels comportent des risques élevés et sont soumis à une forte volatilité des prix. Vous pouvez perdre la totalité du capital investi. Veuillez comprendre pleinement les risques pertinents et prendre des décisions prudentes en fonction de votre propre situation financière et de votre tolérance au risque. Pour plus de détails, veuillez consulter l'avertissement.
Commentaire
0/400
Aucun commentaire