| Tech

Virtualmente podemos revivir a los muertos con generadores de video con IA. ¿Deberíamos?

Un nuevo sketch de SNL revela un problema clave sobre los generadores de video con IA actuales.

Virtualmente podemos revivir a los muertos con generadores de video con IA. ¿Deberíamos? [Imagen: Captura de pantalla SNL]

Mientras subía una foto de mi abuelo Max de los años 40 y pulsaba algunos botones en el generador de videos Veo 3 de Google, vi una foto familiar familiar transformarse de blanco y negro a color.

Entonces, mi abuelo salió de la foto y caminó con seguridad hacia la cámara, con su uniforme militar perfectamente planchado y los brazos balanceándose a los lados de su larguirucha figura.

Esto es lo que la IA permite hacer ahora: revivir virtualmente a los muertos.

Como destacó un divertidísimo sketch de Saturday Night Live este fin de semana, que podamos reanimar a nuestros seres queridos fallecidos no significa necesariamente que debamos hacerlo.

Asando al perro

El sketch, que The Atlantic llama el “Momento Black Mirror” de SNL, presenta a Ashley Padilla como una abuela en una residencia de ancianos.

Sus familiares, interpretados por Sarah Sherman y Marcello Hernández, la visitan en Acción de Gracias y usan una aplicación de fotos con IA para dar vida a sus antiguas fotos familiares en videos cortos.

Al principio, todo va bien. El personaje de Padilla se maravilla con una imagen en blanco y negro de su padre saludando mientras está de pie frente a una noria giratoria.

Pero entonces, las cosas salen hilarantemente mal, como era de esperar. Una foto de familiares en una barbacoa se convierte en una escena de terror cuando la aplicación ficticia de IA hace que el padre de Padilla (interpretado por el presentador Glen Powell) ase al perro de la familia, que resulta no tener cabeza.

A medida que otras fotos cobran vida, el padre de Padilla le paga a un amigo de los bolos para que realice un acto lascivo, y en una foto de bebé, el torso de su madre se separa del cuerpo y flota en el encuadre mientras una bomba nuclear explota al fondo.

El sketch es chistoso porque es totalmente identificable. Cualquiera que haya usado generadores de video con IA sabe que pueden hacer suposiciones absurdamente disparatadas sobre las leyes de la física… a menudo con resultados espectaculares.

En mis pruebas con el generador de videos de IA RunwayML, por ejemplo, le pedí al modelo que creara un video de un gatito juguetón al atardecer.

Al principio todo parece bastante tierno, hasta que el gatito se parte en dos, con su mitad delantera intentando salir del escenario por la derecha mientras la trasera sigue retozando adorablemente.

Muéstrame los movimientos

Los generadores de video cometen estos errores debido a su forma de entrenamiento. Mientras que un modelo de IA basado en texto puede aprender leyendo prácticamente cualquier libro, sitio web y otros datos textuales publicados, la cantidad de contenido de video listo para entrenar es mucho más limitada.

La mayoría de los generadores de video de IA se entrenan con videos de plataformas de redes sociales como YouTube. Esto significa que son excelentes para crear el tipo de videos que suelen aparecer en esas plataformas.

Como ya he demostrado, si quieres ver gente tirando pasteles de boda o discutiendo acaloradamente con sus compañeros de piso, los generadores de video como Veo y Sora son excelentes. Sin embargo, para escenas menos publicadas, los datos de entrenamiento disponibles son mucho más limitados.

La mayoría de los videos en línea, por ejemplo, muestran cosas interesantes. La gente rara vez publica videos de una hora de ellos mismos caminando tranquilamente (o, como en SNL, cargando a un bebé o asando un hotdog) en YouTube o Instagram.

Esos videos serían tan aburridos que nadie querría verlos. Sin embargo, una gran cantidad de videos de este tipo de actividades cotidianas y aburridas es justo lo que las empresas de IA necesitan para entrenar adecuadamente a sus generadores de video.

Esto ha creado un mercado fascinante para este tipo de videos. Empresas como Waffle Video están surgiendo para satisfacer esta necesidad, pagando a los creadores para que se graben haciendo cosas como cortar verduras o escribir palabras específicas en trozos de papel para el entrenamiento de la IA.

Sin embargo, hasta que las empresas de IA puedan conseguir más videos de este tipo de acciones cotidianas, los generadores de video de IA tendrán dificultades para imitarlos.

Irónicamente, los generadores de video actualmente son excelentes para mostrar acciones imaginativas y dramáticas. Sin embargo, si les pides que creen el tipo de escenas cotidianas que podrías encontrar en una vieja foto familiar en blanco y negro, obtendrás a Fido en la barbacoa.

¿Reanimar a la abuela?

Todo esto nos lleva a la pregunta: ¿deberías usar las herramientas de IA actuales para “revivir” a tus seres queridos fallecidos?

Mi mejor consejo: espera un poco.

La tecnología de video con IA avanza increíblemente rápido. Las primeras herramientas que añadieron movimiento a las fotos familiares —como Deep Nostalgia de My Heritage, que se lanzó en 2021— utilizaron el aprendizaje automático para realizar su magia.

La tecnología parecía revolucionaria en su momento. Hoy, parece primitiva comparada con las escenas de movimiento completo como la de mi abuelo animado con Veo. E incluso con esos avances, Veo y sus similares siguen en su época de silla de aguacate.

Los generadores de imágenes han mejorado enormemente a medida que sus creadores han mejorado su entrenamiento. Los generadores de video experimentarán mejoras igualmente grandes, especialmente a medida que las empresas de IA invierten millones en comprar datos de entrenamiento a medida de movimientos cotidianos.

Personalmente, le di vida a una foto de mi abuelo porque pensé que al verdadero abuelo Max le haría gracia. Sin embargo, me he resistido a reanimar fotos de seres queridos fallecidos recientemente, por muchas de las razones implícitas en el sketch de SNL.

Las fotos familiares son íntimas. Es agradable ver a un ser querido que ya no está aquí sonreír y saludarte. Sin embargo, verlos partirse en dos o explotar en una bola de fuego nuclear sería perturbador, y algo que no podrías olvidar una vez que lo hayas conjurado desde las profundidades del cerebro de silicio de Sora o Veo.

Hasta que no podamos confiar en los modelos de IA para evitar este tipo de desvíos visuales aleatorios y dispersos, no deberíamos confiarles nuestros recuerdos más preciados.

Author

  • Thomas Smith

    Thomas Smith es un experto en inteligencia artificial y periodista formado en la Universidad Johns Hopkins con 15 años de experiencia. El New York Times lo elogió como un "programador veterano" por su trabajo con inteligencia artificial con interacción humana, fue probador beta de IA abierta y dirigió la agencia de fotografía basada en IA Gado Images como cofundador y director ejecutivo durante 12 años.

    View all posts

Author

  • Thomas Smith

    Thomas Smith es un experto en inteligencia artificial y periodista formado en la Universidad Johns Hopkins con 15 años de experiencia. El New York Times lo elogió como un "programador veterano" por su trabajo con inteligencia artificial con interacción humana, fue probador beta de IA abierta y dirigió la agencia de fotografía basada en IA Gado Images como cofundador y director ejecutivo durante 12 años.

    View all posts

Sobre el autor

Thomas Smith es un experto en inteligencia artificial y periodista formado en la Universidad Johns Hopkins con 15 años de experiencia. El New York Times lo elogió como un "programador veterano" por su trabajo con inteligencia artificial con interacción humana, fue probador beta de IA abierta y dirigió la agencia de fotografía basada en IA Gado Images como cofundador y director ejecutivo durante 12 años.