マイクロソフトが3種類のAI「見る、聞く、話す」モデルを発表し、商用グレードのAI企業向けの業務ワークフローを狙う

ChainNewsAbmedia

3 月 18 日に画像生成モデル MAI-Image-2 をリリースした後、Microsoft は 4 月 2 日に、音声関連の 2 つのモデル MAI-Transcribe-1 と MAI-Voice-1 を再び公開した。短期間で連続して画像と音声の能力を補い、同社のマルチモーダル AI 戦略の重要な推進だと見なされている。これら 3 つのモデルは単発の更新ではなく、視覚生成から音声理解、さらに音声出力までの完成したパズルであり、Microsoft が企業の業務フローに直接組み込める AI の基盤能力を構築しようとしていることを示している。

Microsoft の MAI-Image-2 は商用向けの画像生成を狙う

3 月 18 日に Microsoft が最初にリリースした MAI-Image-2 は、明らかに「商用」に重心を置き、単なる創作生成ではない。娯楽や実験的な性格が強かった初期の画像モデルと比べて、MAI-Image-2 は出力の安定性と意味の正確さをより強く重視しており、複雑な指示の下でも構図の一貫性とディテールの完全性を維持できる。これにより、ブランドのマーケティング素材、製品ビジュアル、広告デザインなどの場面により適している。

企業にとって、この種のモデルの価値は驚くべき画像を生成できるかどうかではなく、「使えて、コントロールできる」コンテンツを継続的に出力できるかどうかにある。そしてそれこそが、MAI-Image-2 が強化した核心だ。

Clipto 挫勒但!Microsoft が会議の逐語録モデル MAI-Transcribe-1 を発表

続いて 4 月 2 日にリリースされた MAI-Transcribe-1 は、音声理解能力に焦点を当てている。このモデルの位置づけは非常に明確で、音声を構造化されたテキストデータへ変換するための基礎層技術だ。リアルタイムの音声入力を処理でき、複数の言語と異なる訛りの状況下でも高い認識精度を維持しつつ、背景ノイズに対して一定の耐性も備えている。

こうした能力は企業シーンでとりわけ重要だ。会議の逐語録、カスタマーサポート通話の記録、あるいはメディアコンテンツの整理など、どれも安定した「音声から文字への」変換品質に依存している。いったん音声データが正確に文字へ変換できれば、後続の検索、要約、分析のプロセスは全面的に自動化できる。これが、MAI-Transcribe-1 が全体の AI アーキテクチャにおける重要な役割である理由だ。

MAI-Voice-1 モデルでカスタマーサポート、Podcast の音声を作る

それに対応する MAI-Voice-1 は、音声出力側を担う。このモデルの重点は、AI が生成する音声を、より人間らしい表現に近づけることにある。イントネーション、リズム、そして感情の自然さを含めてだ。これにより、カスタマーサポートの音声、AI アシスタント、動画ナレーション、さらには podcast の制作などの場面で活用できる。過去のより機械的な音声合成と比べて、MAI-Voice-1 は調整可能な語気やスタイルをより強く重視しており、音声はもはや単なる情報伝達ツールではなく、コミュニケーションと表現の能力を持つインターフェースになる。

Microsoft の「見る、聞く、話す」3 つの AI モデル 総まとめ

3 つを同じ文脈で見ると、Microsoft の布陣は単発の飛び道具ではなく、マルチモーダル統合を素早く推進する方向性だと分かる。MAI-Image-2 は視覚生成を扱い、MAI-Transcribe-1 は音声理解を担当し、MAI-Voice-1 は音声生成を完了する。3 つが共同して、「見る、聞く、話す」の基本能力構造を構成している。

このような能力が、既存の言語モデルやクラウドサービスと結び付けば、データ入力、理解、生成から出力までを、すべて同一の体制の中で完結する、完全な AI の業務フローを形成できる。

特徴

MAI-Transcribe-1

(音声から文字へ)

MAI-Voice-1(文字から音声へ)MAI-Image-2(文字から画像生成)主な機能

音声を逐語録へ変換する

自然でスムーズ、かつ感情を備えた音声を生成する

文字の説明に基づいて画像を生成する

公開日

2026 年 4 月 2 日

2026 年 4 月 2 日

2026 年 3 月 18 日

主要技術と特性

高い耐ノイズ性 、自動言語識別

感情コントロール 、声の複製 (Voice Prompting)

拡散モデル構造 (Diffusion-based) 、精度が高い

対応言語

英語、中国語、スペイン語など 25 種類の言語

現在は英語のみ(近日 10+ 種類へ拡充予定)

主に文字入力(多国語対応は特別に明記されていない)

料金体系

1 時間の音声 $0.36 米ドル

100 万字あたり $22.00 米ドル

配備プラットフォームにより異なる(例:MAI Playground)

入出力制限

入力:WAV, MP3, FLAC

入力:プレーンテキストまたは SSML

出力:最大 1024×1024 ピクセル

この記事 Microsoft が 3 つの AI「見る、聞く、話す」モデルを発表し、商用レベルの AI 企業の業務ワークフローを狙うこと 最初に登場したのは 鏈新聞 ABMedia。

免責事項:このページの情報は第三者から提供される場合があり、Gateの見解または意見を代表するものではありません。このページに表示される内容は参考情報のみであり、いかなる金融、投資、または法律上の助言を構成するものではありません。Gateは情報の正確性または完全性を保証せず、当該情報の利用に起因するいかなる損失についても責任を負いません。仮想資産への投資は高いリスクを伴い、大きな価格変動の影響を受けます。投資元本の全額を失う可能性があります。関連するリスクを十分に理解したうえで、ご自身の財務状況およびリスク許容度に基づき慎重に判断してください。詳細は免責事項をご参照ください。
コメント
0/400
コメントなし