A Google anunciou que vai lançar a versĂ£o 1.5 do Gemini para programadores e utilizadores empresariais. Para nĂ£o ficar atrĂ¡s, um dos maiores concorrentes da Google – a OpenAI – tambĂ©m fez um grande anĂºncio sobre IA. No entanto, este anĂºncio envolve um novo modelo de IA de texto para vĂdeo.
OpenAI: novidade transforma texto em vĂdeo de 60 segundos
Numa publicaĂ§Ă£o de blogue e, posteriormente, nas redes sociais, a OpenAI revelou um novo modelo de IA generativo de texto para vĂdeo chamado Sora. O anĂºncio Ă© acompanhado por clipes criados pelo software, que vĂ£o desde uma celebraĂ§Ă£o do Ano Novo Lunar chinĂªs atĂ© um monstro animado.
Introducing Sora, our text-to-video model.
Sora can create videos of up to 60 seconds featuring highly detailed scenes, complex camera motion, and multiple characters with vibrant emotions. https://t.co/7j2JN27M3W
Prompt: “Beautiful, snowy… pic.twitter.com/ruTEWn87vf
— OpenAI (@OpenAI) February 15, 2024
A OpenAI afirma que o Sora estĂ¡ atualmente a ser disponibilizado a algumas equipas para “avaliar Ă¡reas crĂticas quanto a danos ou riscos”. Estas equipas incluem especialistas em Ă¡reas como a desinformaĂ§Ă£o, conteĂºdos de Ă³dio e preconceitos. Para alĂ©m destes testes, o Sora tambĂ©m serĂ¡ submetido Ă s medidas de segurança que existem para o DALL-E 3. A empresa acrescenta que estĂ¡ a trabalhar em ferramentas para ajudar a detetar se um vĂdeo foi gerado pela Sora.
Embora outros como Pika e Stability AI tenham superado a OpenAI quando se trata de geraĂ§Ă£o de vĂdeo de IA, hĂ¡ algumas coisas que fazem Sora se destacar. Por um lado, o Sora pode criar atĂ© 60 segundos de vĂdeo, enquanto os concorrentes apenas conseguem cerca de quatro segundos. Depois, hĂ¡ a nitidez, a resoluĂ§Ă£o e a precisĂ£o do mundo circundante.
https://t.co/SOUoXiSMBY pic.twitter.com/JB4zOjmbTp
— Sam Altman (@sama) February 15, 2024
Existem mais de 35 exemplos que se podem consultar no site da OpenAI. Embora os resultados sejam impressionantes, o modelo estĂ¡ longe da perfeiĂ§Ă£o. AliĂ¡s a empresa admite isto.
O modelo atual tem pontos fracos
Pode ter dificuldades em simular com precisĂ£o a fĂsica de uma cena complexa e pode nĂ£o compreender instĂ¢ncias especĂficas de causa e efeito. Por exemplo, uma pessoa pode dar uma dentada numa bolacha, mas depois a bolacha pode nĂ£o ter uma marca de dentada.
O modelo pode tambĂ©m confundir pormenores espaciais de uma mensagem, por exemplo, misturando esquerda e direita, e pode ter dificuldades com descrições precisas de eventos que ocorrem ao longo do tempo, como seguir a trajetĂ³ria de uma cĂ¢mara especĂfica.
Pode ver-se um exemplo disto no primeiro vĂdeo apresentado no blogue. O vĂdeo mostra uma mulher a caminhar por TĂ³quio. Se observar com atenĂ§Ă£o, vais reparar que as pernas da mulher mudam ou gaguejam ocasionalmente, os seus pĂ©s deslizam pelo chĂ£o e a sua roupa e cabelo mudam perto do fim.
Apesar de Sora nĂ£o estar disponĂvel para o pĂºblico em geral, o Diretor Executivo Sam Altman tem vindo a aceitar sugestões dos utilizadores do X (antigo Twitter).