OpenAI presenta Sora, su revolucionario generador de vídeo con texto

OpenAI lanza Sora, generador de video con texto

En un mes que continúa con el frenetismo innovador de herramientas de inteligencia artificial, OpenAI ha presentado a “Sora”, su modelo avanzado de IA que transforma texto en video.

Después del éxito de Chat GPT y el lanzamiento de los GPT personalizados, OpenAI ha estado trabajando en algo que muchos hemos querido ver – la generación de video con prompts de texto, o text-to-video. Sería como el siguiente paso de DALL-E, en donde el prompt en vez de generar imágenes, genera vídeo. Y es que Sora, el anuncio reciente de OpenAI, es capaz de generar vídeos realistas e imaginativos de hasta un minuto de duración, siguiendo estrictamente las indicaciones del usuario y manteniendo una alta calidad visual. Puede crear escenas complejas que involucran múltiples personajes, movimientos específicos y detalles de fondo precisos.

Sora, el conversor Text-To-Video de OpenAI

Crédito: OpenAI – Prompt: A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.

Acorde al comunicado oficial de OpenAI, Sora está diseñado para comprender y simular el mundo físico en movimiento, con el objetivo final de desarrollar modelos que ayuden a resolver problemas que requieran interacción con el mundo real. Para lograr esto, Sora tiene una profunda comprensión del lenguaje, lo que le permite interpretar indicaciones con precisión y generar personajes convincentes que expresan emociones vívidas.

Crédito: OpenAI – Prompt: The camera rotates around a large stack of vintage televisions all showing different programs — 1950s sci-fi movies, horror movies, news, static, a 1970s sitcom, etc, set inside a large New York museum gallery.
Crédito: OpenAI – Prompt: The camera follows behind a white vintage SUV with a black roof rack as it speeds up a steep dirt road surrounded by pine trees on a steep mountain slope, dust kicks up from it’s tires, the sunlight shines on the SUV as it speeds along the dirt road, casting a warm glow over the scene. The dirt road curves gently into the distance, with no other cars or vehicles in sight. The trees on either side of the road are redwoods, with patches of greenery scattered throughout. The car is seen from the rear following the curve with ease, making it seem as if it is on a rugged drive through the rugged terrain. The dirt road itself is surrounded by steep hills and mountains, with a clear blue sky above with wispy clouds.

Generación de vídeos a través de prompts de texto

Crédito: OpenAI – Prompt: Drone view of waves crashing against the rugged cliffs along Big Sur’s garay point beach. The crashing blue waters create white-tipped waves, while the golden light of the setting sun illuminates the rocky shore. A small island with a lighthouse sits in the distance, and green shrubbery covers the cliff’s edge. The steep drop from the road down to the beach is a dramatic feat, with the cliff’s edges jutting out over the sea. This is a view that captures the raw beauty of the coast and the rugged landscape of the Pacific Coast Highway.

Después de trabajar en este proyecto por meses, OpenAI ha comunicado que ahora desea poner a “Sora” a disposición de un selecto grupo de profesionales, incluidos miembros de su denominado “equipo rojo” pero también entre ellos artistas visuales, diseñadores y cineastas (filmmakers) para recopilar sus comentarios y feedback respecto de la herramienta, y poder evaluar riesgos o daños potenciales.

Crédito: OpenAI – Prompt: Historical footage of California during the gold rush.
Crédito: OpenAI – Prompt: Extreme close up of a 24 year old woman’s eye blinking, standing in Marrakech during magic hour, cinematic film shot in 70mm, depth of field, vivid colors, cinematic.

También es posible a través de Sora utilizar un vídeo de referencia y transformarlo en otra cosa según el prompt que utilicemos, como se muestra en este fragmento:

Sora promete, pero aún le falta: tiene anomalías

A pesar de sus capacidades, Sora tiene claras limitaciones todavía. Puede tener dificultades con simulaciones físicas complejas, comprender casos específicos de causa y efecto, mantener la precisión espacial y seguir descripciones precisas de eventos a lo largo del tiempo.

Crédito: OpenAI – En este vídeo, la chica no tiene brazo, y el gato tiene dos patas izquierdas, jaja
Crédito: OpenAI – En este ejemplo, el vídeo representa una ubicación en la costa amalfitana y luce espectacular, pero se ve como una persona que baja la escalera desaparece de repente.

Para garantizar la seguridad, OpenAI ha anunciado que está colaborando con expertos en el dominio para probar el modelo de manera adversa, desarrollando herramientas para detectar contenido engañoso e incorporando métodos de seguridad existentes utilizados en sus otros productos. También planean colaborar profesionales y artistas de todo el mundo para comprender sus inquietudes e identificar casos de uso positivos para esta tecnología.

¿Cómo genera vídeos desde texto Sora?

Crédito: OpenAI – Prompt: A litter of golden retriever puppies playing in the snow. Their heads pop out of the snow, covered in.

Sora es un modelo de difusión que transforma gradualmente un vídeo lleno de ruido en uno coherente a lo largo de muchos pasos. Utiliza una arquitectura transformadora similar a los modelos GPT, lo que le permite entrenar con una gama más amplia de datos visuales. Sora se basa en investigaciones anteriores de los modelos DALL-E y GPT, utilizando la técnica de recaptación de DALL·E 3 para seguir las instrucciones del usuario de manera más fiel.

Sora no sólo convierte texto a vídeo desde un prompt

Crédito: OpenAI – Prompt: A stop motion animation of a flower growing out of the windowsill of a suburban house.

Además de generar vídeos a partir de texto, Sora puede animar imágenes fijas y ampliar o completar fotogramas faltantes en vídeos existentes. OpenAI cree que Sora es un paso importante hacia el desarrollo de modelos que puedan comprender y simular el mundo real, un hito crucial para lograr AGI (inteligencia artificial general).

Conclusión sobre Sora, el generador de texto a vídeo de OpenAI

Personalmente los generadores de texto a vídeo son algo que he imaginado desde antes del lanzamiento de DALL-E. Si bien aún tienen un largo camino por delante para funcionar correctamente y ser confiables, Sora da un paso al frente en esa carrera: se ve prometedor. Teniendo detrás un equipo de talentosos profesionales como OpenAI y con sus abundantes recursos económicos, es cuestión de tiempo hasta que Sora (o algún competidor?) pueda satisfacer este deseo de muchos. ¿Será una respuesta a Google? Recordemos que Google también ha explorado con generación de vídeo a través de un prompt, con el lanzamiento hace unas semanas de Google Lumiere.

De cualquier manera, es inevitable no pensar en las implicancias que estas tecnologías pueden tener. Ya hemos visto como los chatbots y herramientas de inteligencia artificial han traído disrupción al mercado actual, reemplazando a redactores o dibujantes, y ahora la amenaza se gira hacia los cineastas y creadores de vídeo. La clave una vez más radicará en adoptar estas tecnologías y ser pragmático para incorporlas al arsenal de herramientas. Me genera una mezcla de intriga y entusiasmo ver tecnologías que están cambiando el mundo y teniendo un impacto en la industria de internet y el consumo masivo en todo el mundo. Sólo me pregunto, ¿no iremos demasiado rápido?

Guido De Marco - Consultor SEO Freelance, experto en SEO tecnico

Escrito por

Guido De Marco

Consultor SEO freelance, especialista en estrategia digital y SEO técnico.
Fundador y director de la agencia SEO Celestium.

Últimos artículos en el blog de Celestium SEO