Netflix представляє VOID: відкритий фреймворк для фізично послідовного видалення об'єктів із відео

Коротко

Netflix випустила VOID — відкритий AI-фреймворк, який видаляє об’єкти з відео, зберігаючи реалістичні фізичні взаємодії, пропонуючи більш просунуту альтернативу традиційним інструментам для інпейнтингу для професійного віровиробництва.

Netflix Launches VOID, An Open-Source AI Framework For Physically Consistent Video Object RemovalГлобальний стримінговий сервіс Netflix представив VOID — відкритий фреймворк, призначений для видалення об’єктів з відео з одночасним збереженням фізичних взаємодій, які вони створюють, усуваючи обмеження, що спостерігаються в традиційних інструментах для інпейнтингу та видалення об’єктів.

Історично видалення об’єкта зі сцени було доволі простим, але забезпечити, щоб довкілля після цього поводилося реалістично, стало значною проблемою. Наприклад, якщо видалити людину, яка тримає гітару, інструмент зависає не природно, а видалення дайвера з басейну може залишити воду нерухомою. Команди зі спецефектів традиційно виправляли такі проблеми вручну — процес, який може тривати від днів до тижнів для одного кадру.

VOID, скорочення від Video Object and Interaction Deletion, призначений для вирішення цих ускладнень. На відміну від звичайних методів, які лише заповнюють відсутні пікселі, система прогнозує фізично узгоджені результати для сцени після видалення об’єкта

Вона використовує комбінацію технологій для досягнення цього. Gemini від Google аналізує сцену, щоб визначити ділянки, на які вплине видалення, тоді як SAM2 від Meta сегментує об’єкти, які потрібно видалити. Ці результати кодуються в quadmask — чотиризначній мапі, яка вказує, які області потрібно стерти, які перекриваються, які зазнають фізичного впливу, а які залишаться незайманими. Відео дифузійна модель, створена на базі CogVideoX від Alibaba, потім відновлює сцену в фізично правдоподібний спосіб. Додатковий другий етап застосовує оптичний потік, щоб виправити будь-які спотворення з початкової реконструкції.

Демонстрація фізично узгодженого видалення об’єктів у віровиробництві

Демонстрації VOID демонструють переконливі результати: повітряні кульки піднімаються природно, коли прибирають їх тримача, блоки зберігають стабільність, коли видаляють незв’язані блоки, а поверхні басейну не змінюються після того, як стирають людину. У дослідженні людських уподобань із 25 учасниками VOID обирали в 64,8% випадків, що перевершує Runway — провідну комерційну альтернативу, яка досягла лише 18,4%.

Цей реліз — перший публічно доступний AI-інструмент Netflix Research. Ліцензований під Apache 2.0, VOID можна використовувати в комерційних цілях, і він розміщений на Hugging Face. Наразі апаратні вимоги обмежують доступ: для запуску моделі потрібен GPU з 40GB VRAM, але майбутні оптимізації та зниження витрат на інфраструктуру можуть розширити доступність. VOID означає зміну в технології віровиробництва — від простих інструментів для стирання до систем, здатних розуміти сцени й реалістично відтворювати їх. Це розробка з суттєвими наслідками для професійних робочих процесів.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити