Ontem, a OpenAI, mesma empresa que desenvolveu o ChatGPT e o DALL-E, lançou seu novo modelo de IA para geração de vídeos. Por enquanto, Sora pode criar vídeos de até 60 segundos com cenas altamente detalhadas e impactantes, movimentos de câmera complexos e vários personagens realistas, tudo a partir de uma renderização super natural.

E pra quem vem acompanhando o rápido avanço desses LLMs (grandes modelos de linguagem, que é uma rede neural com muitos parâmetros), já deve ter se deparado com o de várias outras empresas que desenvolveram modelos para gerar vídeos a partir de prompts, ou instruções. Mas realmente Sora surpreende.

Leia mais

Quando observamos com olhar mais técnico, principalmente pra quem trabalha com modelagem, animação e renderização, toda a física envolvida dos vídeos, de gravidade a luz e sombra, impressiona. Coloca em outros patamares o audiovisual e certamente vai revolucionar essa indústria.

Não vou entrar aqui na discussão do futuro do audiovisual, mas a consistência e qualidade visual do pouco que vimos vai impactar fortemente. E o céu é o limite, ou não!

AI VIDEO is insanely taking over in 2024.

OpenAI just announced Sora , their first text-to-video model.

Here are 12 wild examples you can't afford to miss out on: 🧵 pic.twitter.com/cg129NfliQ

— Shruti Mishra (@heyshrutimishra) February 16, 2024

O que é e como funciona?

Sora, que significa “céu” em japonês, é um modelo muito poderoso que continuamente vai aprender, compreender e simular o mundo físico em movimento.

Já desenvolvido com toda a expertise de modelos de linguagem, como o GPT, a OpenAI consegue lançar, em sua primeira versão, um modelo que não só interpreta com precisão os prompts, mas também é capaz de gerar fundos e composições magníficas pra complementar o que foi pedido.

Já podemos usar?

Pra quem se animou e quer testar, calma! O modelo ainda não está aberto. Ele ainda está  sendo testado por "Red teamers", ou seja, especialistas em diversas áreas, justamente para evitar conteúdos impróprios. Além disso, para já incluir os s na versão pública, a OpenAI deu o a artistas visuais, cineastas e designers. São eles que indicarão possíveis falhas e sugestões para melhorar a plataforma.

Esse processo não tem tempo determinado, e portanto, não sabemos quando a novidade vai estar disponível ao público.

Preocupações

Um dos temas sensíveis são os dados que foram utilizados para treinar o modelo. Como sempre, a OpenAI não informou como treinou o Sora. Até mesmo em resposta ao jornal The New York Times, que está processando a OpenAI por violação de direitos autorais, a empresa explicou apenas ter utilizado “vídeos disponíveis publicamente”, assim como “vídeos licenciados pelos detentores dos direitos autorais”.

Outro ponto relevante é a questão da difusão de conteúdos com o intuito de enganar e gerar mais desinformação. Por isso mesmo a empresa desenvolveu uma ferramenta para ajudar a detectar o mau uso de conteúdo, assim como um classificador que avisa quando um vídeo foi gerado pelo Sora. Ainda em andamento, irão incluir códigos de metadados C2PA, para facilitar a identificação de conteúdo gerado por IA. Mas só o futuro dirá se isso vai ajudar. O que é fato é será ainda mais difícil definir o que é real ou não.

Concorrentes

Em abril do ano ado, fomos surpreendidos com a virada da Runway AI, que antes era um plataforma que ajudava a gerar textos e imagens a partir de códigos abertos, a ou a focar na geração de vídeo a partir de texto. Apesar de ainda curtos e bastante imprecisos, fiquei emocionada quando vi um possível comercial de pizza sendo feito inteiramente na plataforma.

Ao longo de 2023 vivos outras empresas desenvolvendo modelos para a criação de vídeo a partir de textos, imagens ou até aumentando pequenos trechos de vídeo. Foi assim com a Stability AI que lançou o Stable Video Diffusion, a Meta com Make-a-Video, o Pika e mais recentemente, no final do mês ado, o Google que lançou o Lumiere, pelo Google Research.

Cada um com suas particularidades técnicas e diferentes modelos de difusão, todos eles geram vídeos ainda com aparência artificial, pouco fotorealistas, e ficam mais próximos da linguagem de animação. Ah, detalhe importante: todos eles geram poucos segundos de vídeo.

Sora, pelo contrário, engana bem até demais e já faz vídeos razoavelmente longos. Apesar de ainda, assim como todos os modelos de GenAI (inteligência artificial generativa), gerar alucinações e erros óbvios, como a ausência de uma marca de mordida depois que algo foi mordido (exemplo que está no blog), entre outras dificuldades em simular cenas complexas, Sora já está muito à frente dos concorrentes. Sam Altman, CEO que tem um dos planos mais ambiciosos e ousados, certamente está mirando num futuro complexo demais pra darmos conta sozinhos, digo, sem a ajuda quase que simbiótica, de máquinas.

OpenAI's new Sora video generation AI is incredible.

But it's still not perfect.

Here are some common mistakes it makes: pic.twitter.com/1lWwWHsLfy

— Matt Shumer (@mattshumer_) February 16, 2024

Conclusão

Estamos apenas no segundo mês de 2024. A OpenAI não pára e já anunciou uma nova atualização para o ChatGPT, que vai permitir aos usuários controlar a memória do chat, criando conversas mais personalizadas. Imaginem o que ainda virá nos próximos meses.

Pra quem se interessar por "um pouco" mais de detalhes técnicos, vale a pena ar a página do projeto. Apesar de "Open", já faz tempo que a empresa não abre seus modelos, apesar de ter se aproveitado de outros modelos abertos, como o Transformer do Google. Só a título de curiosidade, o "T" do GPT vem desse modelo.

Como a própria OpenAI disse na postagem, "Sora serve de base para modelos que podem compreender e simular o mundo real, uma capacidade que acreditamos que será um marco importante para alcançar a AGI*. E olha que boa parte da interação com o mundo real já está desenvolvida. Isso nos deixa cada vez mais próximos de uma possível renderização de vídeos em 3D, o que destravaria por completo toda a computação espacial, web3 (também chamada de internet espacial) e metaverso, além de possibilitar a criação de modelos tridimensionais que poderiam invadir nosso mundo físico.

Já temos modelos de estruturas tridimensionais como o Picasso, até mesmo em nanoescala e moléculas complexas, como o BioNeMo, ambos da NVIDIA. Mas estamos avançando para um futuro no qual o real e artificial estarão tão fundidos, que a nossa vida será bem diferente da que é hoje. Fiquemos atentos, pois isso tudo vai demandar muito de nós para não nos perdemos enquanto humanidade.

*Inteligência Artificial Geral = quando a IA conseguisse ter uma capacidade cognitiva similar ou ligeiramente superior à dos humanos. Seria como se um robô como AGI pudesse literalmente agir como um ser humano, principalmente em suas formas de aprender, responder, raciocinar e compreender. Simplesmente qualquer tarefa intelectual que um ser humano faça, a AGI conseguiria.