Netflix Ungkap VOID: Kerangka Kerja Sumber Terbuka Untuk Penghapusan Objek Video yang Konsisten Secara Fisik

Singkatnya

Netflix telah merilis VOID, sebuah kerangka kerja AI sumber terbuka yang menghapus objek dari video sambil mempertahankan interaksi fisik yang realistis, menawarkan alternatif yang lebih canggih dibandingkan alat inpainting tradisional untuk produksi video profesional.

Netflix Launches VOID, An Open-Source AI Framework For Physically Consistent Video Object RemovalLayanan streaming global Netflix telah memperkenalkan VOID, sebuah kerangka kerja sumber terbuka yang dirancang untuk menghapus objek dari video sambil mempertahankan interaksi fisik yang mereka ciptakan, mengatasi keterbatasan yang terlihat pada alat inpainting dan penghapusan objek tradisional.

Secara historis, menghapus sebuah objek dari sebuah adegan terbilang mudah, tetapi memastikan lingkungan berperilaku realistis setelahnya telah menjadi tantangan yang signifikan. Misalnya, menghapus seseorang yang sedang memegang gitar membuat instrumen tersebut melayang secara tidak wajar, dan menghapus seorang penyelam dari sebuah kolam dapat membuat air tidak bergerak. Tim efek visual biasanya mengoreksi masalah-masalah tersebut secara manual, proses yang memakan waktu dan dapat berlangsung dari hari hingga minggu untuk satu adegan.

VOID, singkatan dari Video Object and Interaction Deletion, dimaksudkan untuk menyelesaikan komplikasi-komplikasi ini. Berbeda dari metode konvensional yang sekadar mengisi piksel yang hilang, sistem ini memprediksi hasil yang konsisten secara fisik untuk adegan setelah objek dihapus

Sistem ini memanfaatkan kombinasi teknologi untuk mencapai hal tersebut. Gemini milik Google menganalisis adegan untuk mengidentifikasi area yang akan terpengaruh oleh penghapusan, sementara SAM2 milik Meta melakukan segmentasi pada objek yang akan dihapus. Keluaran ini dienkode menjadi quadmask, sebuah peta berisi empat nilai yang menunjukkan area mana yang perlu dihapus, mana yang saling tumpang tindih, mana yang terdampak secara fisik, dan mana yang tetap tidak tersentuh. Model difusi video yang dibangun di atas CogVideoX milik Alibaba kemudian merekonstruksi adegan dengan cara yang masuk akal secara fisik. Sebuah tahap kedua opsional menerapkan optical flow untuk mengoreksi distorsi apa pun dari rekonstruksi awal.

Mendemonstrasikan Penghapusan Objek yang Konsisten Secara Fisik dalam Produksi Video

Demonstrasi VOID menunjukkan hasil yang meyakinkan: balon naik secara alami ketika pemegangnya dihapus, balok mempertahankan stabilitas saat balok yang tidak terkait dihapus, dan permukaan kolam tetap tidak terpengaruh setelah seseorang dihapus. Dalam studi preferensi manusia dengan 25 peserta, VOID disukai 64,8 persen waktu, mengungguli Runway, alternatif komersial terkemuka, yang hanya mencapai 18,4 persen.

Rilis ini menandai alat AI pertama yang tersedia untuk publik dari Netflix Research. Dilisensikan di bawah Apache 2.0, VOID dapat digunakan secara komersial dan dihosting di Hugging Face. Kebutuhan perangkat keras saat ini membatasi akses, dengan GPU VRAM 40GB yang diperlukan untuk menjalankan model, tetapi optimasi di masa depan dan penurunan biaya infrastruktur dapat memperluas ketersediaannya. VOID mewakili pergeseran dalam teknologi produksi video, beranjak dari alat penghapusan sederhana menuju sistem yang mampu memahami dan merekonstruksi adegan secara realistis, sebuah pengembangan dengan implikasi signifikan untuk alur kerja profesional.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan