Together AIが700ms未満のレイテンシーを持つボイスエージェントプラットフォームを立ち上げ

AsiaTokenFund

2026-03-13 11:53:59

ローレンス・ジェンガー

2026年3月13日 01:57

Together AIは、DeepgramおよびCartesiaとの統合を備えた統一音声エージェントインフラを発表し、エンタープライズ展開をターゲットに、エンドツーエンドの遅延時間を700ms未満に抑えています。

Together AIは、音声認識、言語モデル、テキスト読み上げ処理を同じインフラクラスター上で行う統一音声エージェントプラットフォームを展開しました。33億ドル規模のAIクラウドスタートアップは、この仕組みがエンドツーエンドの遅延時間を700ミリ秒未満に抑え、自然な会話の流れを実現していると主張しています。

このプラットフォームは、Deepgramの文字起こしとCartesiaの音声合成とネイティブに連携し、Togetherの共同設置サーバー上で動作しており、複数のクラウドプロバイダー間で音声をやり取りする必要がありません。

音声にとってコロケーションが重要な理由

ほとんどの商用音声システムは、各パイプライン段階ごとに異なるベンダーを組み合わせて構築しています。音声は一つのプロバイダーに送信されて文字起こしされ、その後別のプロバイダーに渡されてLLMの応答を生成し、最後に別のシステムで音声合成されます。各段階の引き継ぎはネットワーク遅延や故障の原因となります。

Togetherの提案は、すべてを同じデータセンター内に保持することです。同社は最適な条件下で500ミリ秒未満の遅延を報告していますが、700ミリ秒はエンドツーエンド処理の上限値としています。

「音声エージェントは遅延によって生き死にします。プロバイダー間のネットワークホップは、体験が崩れる原因となるのです」と、Deepgramのパートナーシップ担当副社長のエイブ・パーセルは述べています。

パッチワークなしのモデル柔軟性

このプラットフォームは、Whisper Large v3、Minimax Speech 2.6 Turbo、Rime Arcana、Kokoroをサポートし、Togetherの全LLMカタログとも連携します。開発者は、特定の用途に合わせて音声特性や文字起こしの精度をテストするために、コンポーネントを再構築せずに交換できます。

Cartesiaは、Sonic-3およびSonic-2 TTSモデルをプラットフォームに提供します。Deepgramは、文字起こし用のNova-3、Nova-3 Multilingual、会話用のFlux、合成用のAura-2を提供します。

不透明な音声から音声へのシステムとは異なり、Togetherのモジュール式アプローチは、中間の文字起こしや応答テキストへのアクセスを維持します。チームはデータを検査、修正、ルーティングでき、多くのエンタープライズコンプライアンスワークフローの要件を満たします。