A Google anunciou que vai lançar a versão 1.5 do Gemini para programadores e utilizadores empresariais. Para não ficar atrás, um dos maiores concorrentes da Google – a OpenAI – também fez um grande anúncio sobre IA. No entanto, este anúncio envolve um novo modelo de IA de texto para vídeo.
OpenAI: novidade transforma texto em vídeo de 60 segundos
Numa publicação de blogue e, posteriormente, nas redes sociais, a OpenAI revelou um novo modelo de IA generativo de texto para vídeo chamado Sora. O anúncio é acompanhado por clipes criados pelo software, que vão desde uma celebração do Ano Novo Lunar chinês até um monstro animado.
Introducing Sora, our text-to-video model.
Sora can create videos of up to 60 seconds featuring highly detailed scenes, complex camera motion, and multiple characters with vibrant emotions. https://t.co/7j2JN27M3W
Prompt: “Beautiful, snowy… pic.twitter.com/ruTEWn87vf
— OpenAI (@OpenAI) February 15, 2024
A OpenAI afirma que o Sora está atualmente a ser disponibilizado a algumas equipas para “avaliar áreas críticas quanto a danos ou riscos”. Estas equipas incluem especialistas em áreas como a desinformação, conteúdos de ódio e preconceitos. Para além destes testes, o Sora também será submetido às medidas de segurança que existem para o DALL-E 3. A empresa acrescenta que está a trabalhar em ferramentas para ajudar a detetar se um vídeo foi gerado pela Sora.
Embora outros como Pika e Stability AI tenham superado a OpenAI quando se trata de geração de vídeo de IA, há algumas coisas que fazem Sora se destacar. Por um lado, o Sora pode criar até 60 segundos de vídeo, enquanto os concorrentes apenas conseguem cerca de quatro segundos. Depois, há a nitidez, a resolução e a precisão do mundo circundante.
https://t.co/SOUoXiSMBY pic.twitter.com/JB4zOjmbTp
— Sam Altman (@sama) February 15, 2024
Existem mais de 35 exemplos que se podem consultar no site da OpenAI. Embora os resultados sejam impressionantes, o modelo está longe da perfeição. Aliás a empresa admite isto.
O modelo atual tem pontos fracos
Pode ter dificuldades em simular com precisão a física de uma cena complexa e pode não compreender instâncias específicas de causa e efeito. Por exemplo, uma pessoa pode dar uma dentada numa bolacha, mas depois a bolacha pode não ter uma marca de dentada.
O modelo pode também confundir pormenores espaciais de uma mensagem, por exemplo, misturando esquerda e direita, e pode ter dificuldades com descrições precisas de eventos que ocorrem ao longo do tempo, como seguir a trajetória de uma câmara específica.
Pode ver-se um exemplo disto no primeiro vídeo apresentado no blogue. O vídeo mostra uma mulher a caminhar por Tóquio. Se observar com atenção, vais reparar que as pernas da mulher mudam ou gaguejam ocasionalmente, os seus pés deslizam pelo chão e a sua roupa e cabelo mudam perto do fim.
Apesar de Sora não estar disponível para o público em geral, o Diretor Executivo Sam Altman tem vindo a aceitar sugestões dos utilizadores do X (antigo Twitter).
Receba as notícias Leak no seu e-mail. Carregue aqui para se registar. É grátis!