Thao tác tách rời thời gian và âm sắc này khá thú vị, cuối cùng không còn phải nghe những hiệu ứng âm thanh đóng hộp giống nhau của AI nữa, mong chờ trải nghiệm thực tế khi chơi.

Xem bản gốc
CoinNetwork
Tin tức từ币界网, nhóm ứng dụng mô hình lớn của Xiaomi đã phát hành và mở mã nguồn khung tạo video âm thanh ControlFoley. Mô hình này tập trung vào「khả năng kiểm soát」, có thể theo âm thanh phù hợp với hình ảnh, cũng có thể chấp nhận mô tả bằng văn bản hoặc âm thanh tham khảo, để âm thanh được tạo ra theo ý định của người sáng tạo. ControlFoley sử dụng bộ mã hóa âm thanh-video không gian-thời gian dựa trên việc cải tiến từ cav-mae, đồng thời giới thiệu chiến lược「tách rời thời gian và âm sắc」, đảm bảo âm thanh đồng bộ với hình ảnh. Mô hình này đạt mức SOTA mã nguồn mở trong nhiều bài kiểm tra phù hợp âm thanh cho video thông thường, báo cáo kỹ thuật, mã nguồn, trọng số mô hình và demo của dự án đều đã được mở.
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Đã ghim