OpenAI: novidade transforma texto em vídeo de 60 segundos

A Google anunciou que vai lançar a versão 1.5 do Gemini para programadores e utilizadores empresariais. Para não ficar atrás, um dos maiores concorrentes da Google – a OpenAI – também fez um grande anúncio sobre IA. No entanto, este anúncio envolve um novo modelo de IA de texto para vídeo.

OpenAI: novidade transforma texto em vídeo de 60 segundos

Numa publicação de blogue e, posteriormente, nas redes sociais, a OpenAI revelou um novo modelo de IA generativo de texto para vídeo chamado Sora. O anúncio é acompanhado por clipes criados pelo software, que vão desde uma celebração do Ano Novo Lunar chinês até um monstro animado.

A OpenAI afirma que o Sora está atualmente a ser disponibilizado a algumas equipas para “avaliar áreas críticas quanto a danos ou riscos”. Estas equipas incluem especialistas em áreas como a desinformação, conteúdos de ódio e preconceitos. Para além destes testes, o Sora também será submetido às medidas de segurança que existem para o DALL-E 3. A empresa acrescenta que está a trabalhar em ferramentas para ajudar a detetar se um vídeo foi gerado pela Sora.

Embora outros como Pika e Stability AI tenham superado a OpenAI quando se trata de geração de vídeo de IA, há algumas coisas que fazem Sora se destacar. Por um lado, o Sora pode criar até 60 segundos de vídeo, enquanto os concorrentes apenas conseguem cerca de quatro segundos. Depois, há a nitidez, a resolução e a precisão do mundo circundante.

Existem mais de 35 exemplos que se podem consultar no site da OpenAI. Embora os resultados sejam impressionantes, o modelo está longe da perfeição. Aliás a empresa admite isto.

O modelo atual tem pontos fracos

Pode ter dificuldades em simular com precisão a física de uma cena complexa e pode não compreender instâncias específicas de causa e efeito. Por exemplo, uma pessoa pode dar uma dentada numa bolacha, mas depois a bolacha pode não ter uma marca de dentada.

O modelo pode também confundir pormenores espaciais de uma mensagem, por exemplo, misturando esquerda e direita, e pode ter dificuldades com descrições precisas de eventos que ocorrem ao longo do tempo, como seguir a trajetória de uma câmara específica.
Pode ver-se um exemplo disto no primeiro vídeo apresentado no blogue. O vídeo mostra uma mulher a caminhar por Tóquio. Se observar com atenção, vais reparar que as pernas da mulher mudam ou gaguejam ocasionalmente, os seus pés deslizam pelo chão e a sua roupa e cabelo mudam perto do fim.

Apesar de Sora não estar disponível para o público em geral, o Diretor Executivo Sam Altman tem vindo a aceitar sugestões dos utilizadores do X (antigo Twitter).

Siga a Leak no Google Notícias e no MSN Portugal.

Receba as notícias Leak no seu e-mail. Carregue aqui para se registar. É grátis!

Bruno Fonseca
Bruno Fonseca
Fundador da Leak, estreou-se no online em 1999 quando criou a CDRW.co.pt. Deu os primeiros passos no mundo da tecnologia com o Spectrum 48K e nunca mais largou os computadores. É viciado em telemóveis, tablets e gadgets.

Leia também