منصة وكيل الصوت من Together AI بزمن استجابة أقل من 700ms

لورانس جينجار

13 مارس 2026 01:57

أطلقت Together AI بنية موحدة لوكيل الصوت مع تكاملات Deepgram و Cartesia، مستهدفة عمليات النشر المؤسسية مع زمن استجابة من النهاية إلى النهاية أقل من 700 مللي ثانية.

أطلقت Together AI منصة موحدة لوكيل الصوت تحافظ على عمليات تحويل الكلام إلى نص، والنماذج اللغوية، وتحويل النص إلى كلام على نفس مجموعة البنية التحتية. وتدعي شركة السحابة الذكية التي تبلغ قيمتها 3.3 مليار دولار أن الإعداد يوفر زمن استجابة من النهاية إلى النهاية أقل من 700 مللي ثانية — بسرعة كافية لتدفق محادثة طبيعي.

تتكامل المنصة بشكل أصلي مع Deepgram للنسخ و Cartesia لتوليف الصوت، وكلاهما يعمل على خوادم مشتركة مع Together بدلاً من تبادل الصوت عبر مزودي خدمات سحابة متعددين.

لماذا يهم التواجد في نفس الموقع للحوارات الصوتية

معظم أنظمة الصوت الإنتاجية تربط بين بائعين منفصلين لكل مرحلة من مراحل الخط الإنتاجي. يصل الصوت إلى مزود واحد للنسخ، ثم يُرسل إلى آخر للرد بواسطة النموذج اللغوي، ثم يُعاد إلى ثالث لتوليف الصوت. كل عملية انتقال تضيف زمن استجابة على الشبكة ونقاط فشل.

عرض Together: إبقاء كل شيء في نفس مركز البيانات. وتذكر الشركة أن زمن الاستجابة أقل من 500 مللي ثانية في الظروف المثلى، على الرغم من أن الرقم 700 مللي ثانية يمثل الحد الأقصى المعلن لعملية المعالجة من النهاية إلى النهاية.

قال آبي بورسيل، نائب رئيس الشراكات في Deepgram: “الوكيلات الصوتية تعتمد على الزمن المستغرق، وكل قفزة على الشبكة بين المزودين هي مكان يمكن أن تتعطل فيه التجربة.”

مرونة النماذج بدون العمل المجمّع

تدعم المنصة Whisper Large v3، Minimax Speech 2.6 Turbo، Rime Arcana، وKokoro إلى جانب مجموعة النماذج اللغوية الكاملة لـ Together. يمكن للمطورين استبدال المكونات دون إعادة بناء التكاملات — وهو أمر مفيد للفرق التي تختبر خصائص صوتية مختلفة أو دقة النسخ لمهام محددة.

تقدم Cartesia نماذج TTS Sonic-3 وSonic-2 على المنصة. وتساهم Deepgram بنماذج Nova-3، Nova-3 Multilingual للنسخ، Flux للمحادثة STT، وAura-2 للتوليف.

على عكس أنظمة تحويل الكلام إلى كلام غير الشفافة، يحافظ نهج Together المعياري على الوصول إلى النصوص الوسيطة وردود الأفعال. يمكن للفرق فحص وتعديل وتوجيه البيانات أثناء التدفق — وهو مطلب للعديد من سير العمل المؤسسي للامتثال.

متطلبات المؤسسات والاستخدام في الإنتاج

تستهدف المنصة الصناعات المنظمة مع خيارات عدم الاحتفاظ بالبيانات، وشهادة SOC 2 نوع II، والامتثال لـ HIPAA، وإقامة البيانات المخصصة. تعمل Decagon، التي تدير وكلاء صوت دعم العملاء لمعالجة فواتير واستكشاف الأخطاء الفنية، بالفعل على هذا النظام.

جمعت Together AI 305 ملايين دولار في فبراير 2025 بقيمة سوقية قدرها 3.3 مليار دولار، وتفيد التقارير أن الشركة تجري الآن محادثات لجمع تمويل بقيمة 7.5 مليار دولار. وقد تجاوز عدد المطورين لديها 450,000 وبلغت إيراداتها السنوية أكثر من 100 مليون دولار.

إطلاق منصة الصوت يمثل توسع Together خارج أعمال استنتاج النماذج اللغوية الأساسية إلى سوق الذكاء الاصطناعي الصوتي المتنامي، حيث لا تزال زمن الاستجابة والموثوقية من نقاط الألم المستمرة لنشرات الإنتاج.

مصدر الصورة: Shutterstock

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • Gate Fun الساخن

    عرض المزيد
  • القيمة السوقية:$2.43Kعدد الحائزين:2
    0.01%
  • القيمة السوقية:$2.45Kعدد الحائزين:1
    0.00%
  • القيمة السوقية:$2.44Kعدد الحائزين:1
    0.00%
  • القيمة السوقية:$2.48Kعدد الحائزين:1
    0.00%
  • القيمة السوقية:$2.49Kعدد الحائزين:2
    0.00%
  • تثبيت