Netflix lanza VOID: una herramienta para borrar objetos y personajes de sus series y películas
El gigante del streaming da un paso más en su integración de la inteligencia artificial
El gigante del streaming Netflix ha lanzado un nuevo modelo de inteligencia artificial llamado VOID. Esta herramienta, cuyas siglas significan Video Object and Interaction Deletion (Eliminación de Objetos e Interacciones en Video), elimina objetos y personajes que aparezcan en sus series o películas, y reconstruye las interacciones para modificarlas.
Hasta la fecha, los métodos que realizaban esa tarea en un vídeo funcionaban como un simple parche. Sí que servían para borrar un elemento estático y rellenar el fondo oculto tras él (técnica conocida como inpainting), ya que corregía detalles menores como sombras o reflejos. No obstante, cuando el objeto eliminado interactuaba directamente con su entorno, surgían problemas. Por ejemplo, si en un vídeo dos coches chocaban y se eliminaba uno, el otro continuaba reaccionando ante una fuerza invisible.
VOID soluciona esta barrera tecnológica mediante lo que Netflix ha denominado como "generación de vídeo contrafactual". El sistema no solo borra los píxeles, sino que comprende verdaderamente la física de la escena gracias a modelos de visión-lenguaje y difusión.
Cuando el usuario selecciona lo que desea suprimir, la IA identifica causalmente qué otras zonas del encuadre van a ser afectadas (qué objetos caerán por la gravedad, cuáles cambiarán de trayectoria o cuáles dejarán de colisionar) e integra de forma automática esos cálculos en la nueva secuencia.
Los ejemplos asombran
Ya ha habido demostraciones de esta nueva herramienta, y han sido bien acogidas por el sector. En uno de los ejemplos técnicos que mejor muestran este avance, un vídeo muestra una prensa hidráulica aplastando un pato de goma. Al usar VOID para eliminar esa máquina de la escena, la IA no se limita a borrar la prensa dejando el juguete mágicamente aplastado sobre la mesa; en su lugar, deshace la acción y muestra al pato de goma completamente intacto, haciendo ver que sin la prensa, el animal no se habría quedado así.
A nivel técnico, VOID se asienta sobre la potente arquitectura CogVideoX y ha sido entrenado de forma exhaustiva con bases de datos sintéticas que simulan miles de interacciones de choque y soporte.
Por otra parte, ha sido publicado bajo una licencia de código abierto y ya se encuentra disponible para su descarga en repositorios conocidos como GitHub o Hugging Face.
Temas
Más en Berm@tu
-
No, China no ha dejado de exportar fertilizantes a EEUU después de que Trump pidiese boicotear a España
-
Meta crea un avatar de Zuckerberg que pueda interactuar en tiempo real con sus empleados
-
Descubren que un artista viral de Reino Unido es producto de una IA
-
Utilizar chatbots puede agravar tu ansiedad, lo dice la ciencia
