Together AIが700ms未満のレイテンシーを持つボイスエージェントプラットフォームを立ち上げ

ローレンス・ジェンガー

2026年3月13日 01:57

Together AIは、DeepgramおよびCartesiaとの統合を備えた統一音声エージェントインフラを発表し、エンタープライズ展開をターゲットに、エンドツーエンドの遅延時間を700ms未満に抑えています。

Together AIは、音声認識、言語モデル、テキスト読み上げ処理を同じインフラクラスター上で行う統一音声エージェントプラットフォームを展開しました。33億ドル規模のAIクラウドスタートアップは、この仕組みがエンドツーエンドの遅延時間を700ミリ秒未満に抑え、自然な会話の流れを実現していると主張しています。

このプラットフォームは、Deepgramの文字起こしとCartesiaの音声合成とネイティブに連携し、Togetherの共同設置サーバー上で動作しており、複数のクラウドプロバイダー間で音声をやり取りする必要がありません。

音声にとってコロケーションが重要な理由

ほとんどの商用音声システムは、各パイプライン段階ごとに異なるベンダーを組み合わせて構築しています。音声は一つのプロバイダーに送信されて文字起こしされ、その後別のプロバイダーに渡されてLLMの応答を生成し、最後に別のシステムで音声合成されます。各段階の引き継ぎはネットワーク遅延や故障の原因となります。

Togetherの提案は、すべてを同じデータセンター内に保持することです。同社は最適な条件下で500ミリ秒未満の遅延を報告していますが、700ミリ秒はエンドツーエンド処理の上限値としています。

「音声エージェントは遅延によって生き死にします。プロバイダー間のネットワークホップは、体験が崩れる原因となるのです」と、Deepgramのパートナーシップ担当副社長のエイブ・パーセルは述べています。

パッチワークなしのモデル柔軟性

このプラットフォームは、Whisper Large v3、Minimax Speech 2.6 Turbo、Rime Arcana、Kokoroをサポートし、Togetherの全LLMカタログとも連携します。開発者は、特定の用途に合わせて音声特性や文字起こしの精度をテストするために、コンポーネントを再構築せずに交換できます。

Cartesiaは、Sonic-3およびSonic-2 TTSモデルをプラットフォームに提供します。Deepgramは、文字起こし用のNova-3、Nova-3 Multilingual、会話用のFlux、合成用のAura-2を提供します。

不透明な音声から音声へのシステムとは異なり、Togetherのモジュール式アプローチは、中間の文字起こしや応答テキストへのアクセスを維持します。チームはデータを検査、修正、ルーティングでき、多くのエンタープライズコンプライアンスワークフローの要件を満たします。

企業向け要件と実運用

このプラットフォームは、データ保持なしのオプション、SOC 2タイプII認証、HIPAA準拠、専用のデータレジデンシーを持つ規制産業をターゲットとしています。顧客サポートの音声エージェントを運用し、請求や技術トラブルシューティングを担当するDecagonはすでにこのスタック上で稼働しています。

Together AIは、2025年2月に33億ドルの評価額で3億500万ドルを調達し、現在は75億ドルの評価額で資金調達交渉中と報じられています。同社は45万人以上の開発者を超え、年間収益は1億ドルを突破しています。

この音声プラットフォームのリリースは、TogetherがコアのLLM推論事業から拡大し、遅延と信頼性が依然として課題となる音声AI市場への進出を示しています。

画像出典:Shutterstock

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし
  • ピン