OpenAI: novidade transforma texto em vĂ­deo de 60 segundos

A Google anunciou que vai lançar a versĂ£o 1.5 do Gemini para programadores e utilizadores empresariais. Para nĂ£o ficar atrĂ¡s, um dos maiores concorrentes da Google – a OpenAI – tambĂ©m fez um grande anĂºncio sobre IA. No entanto, este anĂºncio envolve um novo modelo de IA de texto para vĂ­deo.

OpenAI: novidade transforma texto em vĂ­deo de 60 segundos

Numa publicaĂ§Ă£o de blogue e, posteriormente, nas redes sociais, a OpenAI revelou um novo modelo de IA generativo de texto para vĂ­deo chamado Sora. O anĂºncio Ă© acompanhado por clipes criados pelo software, que vĂ£o desde uma celebraĂ§Ă£o do Ano Novo Lunar chinĂªs atĂ© um monstro animado.

A OpenAI afirma que o Sora estĂ¡ atualmente a ser disponibilizado a algumas equipas para “avaliar Ă¡reas crĂ­ticas quanto a danos ou riscos”. Estas equipas incluem especialistas em Ă¡reas como a desinformaĂ§Ă£o, conteĂºdos de Ă³dio e preconceitos. Para alĂ©m destes testes, o Sora tambĂ©m serĂ¡ submetido Ă s medidas de segurança que existem para o DALL-E 3. A empresa acrescenta que estĂ¡ a trabalhar em ferramentas para ajudar a detetar se um vĂ­deo foi gerado pela Sora.

Embora outros como Pika e Stability AI tenham superado a OpenAI quando se trata de geraĂ§Ă£o de vĂ­deo de IA, hĂ¡ algumas coisas que fazem Sora se destacar. Por um lado, o Sora pode criar atĂ© 60 segundos de vĂ­deo, enquanto os concorrentes apenas conseguem cerca de quatro segundos. Depois, hĂ¡ a nitidez, a resoluĂ§Ă£o e a precisĂ£o do mundo circundante.

Existem mais de 35 exemplos que se podem consultar no site da OpenAI. Embora os resultados sejam impressionantes, o modelo estĂ¡ longe da perfeiĂ§Ă£o. AliĂ¡s a empresa admite isto.

O modelo atual tem pontos fracos

Pode ter dificuldades em simular com precisĂ£o a fĂ­sica de uma cena complexa e pode nĂ£o compreender instĂ¢ncias especĂ­ficas de causa e efeito. Por exemplo, uma pessoa pode dar uma dentada numa bolacha, mas depois a bolacha pode nĂ£o ter uma marca de dentada.

O modelo pode tambĂ©m confundir pormenores espaciais de uma mensagem, por exemplo, misturando esquerda e direita, e pode ter dificuldades com descrições precisas de eventos que ocorrem ao longo do tempo, como seguir a trajetĂ³ria de uma cĂ¢mara especĂ­fica.
Pode ver-se um exemplo disto no primeiro vĂ­deo apresentado no blogue. O vĂ­deo mostra uma mulher a caminhar por TĂ³quio. Se observar com atenĂ§Ă£o, vais reparar que as pernas da mulher mudam ou gaguejam ocasionalmente, os seus pĂ©s deslizam pelo chĂ£o e a sua roupa e cabelo mudam perto do fim.

Apesar de Sora nĂ£o estar disponĂ­vel para o pĂºblico em geral, o Diretor Executivo Sam Altman tem vindo a aceitar sugestões dos utilizadores do X (antigo Twitter).

Ao seguir a Leak no Google NotĂ­cias estĂ¡ a ajudar-nos. Carregue aqui e depois em seguir.
Bruno Fonseca
Bruno Fonseca
Fundador da Leak, estreou-se no online em 1999 quando criou a CDRW.co.pt. Deu os primeiros passos no mundo da tecnologia com o Spectrum 48K e nunca mais largou os computadores. É viciado em telemĂ³veis, tablets e gadgets.

Leia também