IOLA, cách mạng nhận diện giọng nói… Tự động chọn mô hình ASR tối ưu dựa trên ngữ cảnh

TechubNews

AIOla, công ty khởi nghiệp trí tuệ nhân tạo, đã giới thiệu một giải pháp mới có khả năng cách mạng hóa độ chính xác nhận dạng giọng nói. Hệ thống “Cổng thông minh giọng nói” do công ty phát hành có thể phân tích giọng nói của người dùng trong thời gian thực và tự động kết nối với mô hình nhận dạng giọng nói phù hợp nhất. Hệ thống này chọn mô hình tối ưu để xử lý sau khi đánh giá động các đặc tính phức tạp của ngôn ngữ.

Năm ngoái, aiOla đã công bố “DRAX”, một mô hình AI nhận dạng giọng nói vượt qua giới hạn của các phương pháp truyền thống nhờ công nghệ học luồng song song. DRAX có thể xử lý đồng thời tất cả các câu nói và thể hiện hiệu suất mạnh mẽ khi đối mặt với các biến số thực tế như tiếng ồn môi trường, ngữ điệu. Dựa trên công nghệ này, công nghệ mới “QUASAR” được giới thiệu lần này có khả năng phân tích đặc điểm giọng nói, ngữ điệu người nói, sự có mặt của tiếng ồn, ngữ cảnh và tự động chọn mô hình phù hợp nhất từ nhiều engine nhận dạng giọng nói tự động.

Hiện tại, thị trường AI giọng nói có nhiều nhà cung cấp dịch vụ ASR cạnh tranh xoay quanh tối ưu hóa cho môi trường tiếng ồn hoặc ngữ điệu, bao gồm Whisper của OpenAI, Transcribe của Amazon, Qwen2 của Alibaba và Deepgram, nhưng phần lớn các doanh nghiệp vẫn chỉ sử dụng một mô hình duy nhất đạt hiệu quả tốt nhất trong đánh giá tiêu chuẩn. Điều này dẫn đến việc trong môi trường thực tế, các lỗi nhận dạng xảy ra thường xuyên, gây giảm trải nghiệm người dùng và liên tục bị phê phán.

Người sáng lập kiêm Chủ tịch aiOla, Amir Haramaty, chỉ ra thực trạng các doanh nghiệp phải chịu đựng những hạn chế của mô hình ASR cụ thể: “Một số mô hình thể hiện xuất sắc khi xử lý tiếng Anh Mỹ, nhưng lại gặp khó khăn trong ngữ điệu Anh hoặc môi trường có tiếng ồn.” Ông nhấn mạnh: “QUASAR là hệ thống đầu tiên xem nhận dạng giọng nói như một vấn đề động chứ không phải công nghệ tĩnh.”

Trong các thử nghiệm nội bộ, aiOla đã áp dụng hệ thống này vào nhiều môi trường ngữ điệu, tiếng ồn nền và nội dung chuyên nghiệp khác nhau. Kết quả cho thấy, trong 88.8% các yêu cầu phản hồi, hệ thống có thể tự động chọn engine ASR tối ưu để nâng cao độ chính xác. Dự kiến, công nghệ này sẽ nâng cao đáng kể khả năng hiểu của các cuộc hội thoại giữa người và máy trong các lĩnh vực như hỗ trợ khách hàng, ghi chép cuộc họp, hệ thống trả lời tự động.

Haramaty nói: “Khi nhận dạng giọng nói ngày càng trở thành giao diện cơ bản kết nối con người với AI, lỗi nhận dạng đã trở nên không thể chấp nhận.” Ông gọi QUASAR là “công nghệ biến ASR thành một hạ tầng sống động,” và bổ sung: “Đây không chỉ là bước đột phá công nghệ mà còn là cuộc cách mạng có thể ảnh hưởng từ các trung tâm cuộc gọi toàn cầu xử lý hàng tỷ cuộc gọi đến các nhà phát triển độc lập tạo phụ đề.”

aiOla dự định sử dụng công nghệ này để nâng cao đáng kể tính thực dụng và độ tin cậy của giao diện AI giọng nói, tạo ra một bước ngoặt cấu trúc cho toàn bộ hệ sinh thái AI giọng nói.

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ bên thứ ba và không đại diện cho quan điểm hoặc ý kiến của Gate. Nội dung hiển thị trên trang này chỉ mang tính chất tham khảo và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Gate không đảm bảo tính chính xác hoặc đầy đủ của thông tin và sẽ không chịu trách nhiệm cho bất kỳ tổn thất nào phát sinh từ việc sử dụng thông tin này. Đầu tư vào tài sản ảo tiềm ẩn rủi ro cao và chịu biến động giá đáng kể. Bạn có thể mất toàn bộ vốn đầu tư. Vui lòng hiểu rõ các rủi ro liên quan và đưa ra quyết định thận trọng dựa trên tình hình tài chính và khả năng chấp nhận rủi ro của riêng bạn. Để biết thêm chi tiết, vui lòng tham khảo Tuyên bố miễn trừ trách nhiệm.
Bình luận
0/400
Không có bình luận