A Google anunciou um novo e inovador modelo de IA, denominado “Veo”, que se encarregará da criação de vídeos, adaptados às visões criativas dos utilizadores. A Google está também a atualizar o seu modelo de geração de imagens, levando-o à sua terceira geração, o Imagen 3.
Veo é o novo sistema de geração de vídeo por IA da Google!
O Bard foi um dos primeiros exemplos de LLMs de IA modernos da Google. Essa versão chegou há cerca de um ano, tendo a plataforma sofrido grandes alterações nos últimos meses. Uma das maiores mudanças foi uma mudança completa de nome, rebatizando a ferramenta como Gemini, que agora se espalhou por toda a linha de produtos da empresa.
Mesmo antes de o Bard ser rebaptizado para Gemini, a Google adicionou a capacidade de pedir imagens através do modelo de conversação da IA.
Ao pedir uma imagem de uma vaca num barco, a imagem seria apresentada exatamente dessa forma, no estilo que o utilizador considerasse mais adequado. Este processo foi alimentado pelo Imagen 2, que foi a primeira versão a ser disponibilizada publicamente.
Agora a Google está a anunciar dois modelos de geração criativa, o Veo e o Imagen 3. O Veo é o mais interessante, uma vez que é algo que o público ainda não pôde experimentar. O modelo chegou especificamente para a criação de vídeos que compreendem a semântica visual e a linguagem natural, à semelhança de outros modelos modernos. Esta abordagem à criação de vídeos oferece resultados que se podem adaptar de forma criativa para se adequarem a determinados estilos.
A Google salienta que o modelo Veo será capaz de compreender “termos cinematográficos” nas instruções do utilizador, como planos aéreos e formatos de timelapse. O Veo é capaz de gerar vídeos em 1080p que podem durar mais de um minuto, o que ultrapassa os modelos actuais, como o Sora da OpenAI, que tem um máximo de 60 segundos.
O Veo baseia-se em anos de trabalho com modelos de vídeo generativos, incluindo Generative Query Network (GQN), DVD-GAN, Imagen-Video, Phenaki, WALT, VideoPoet e Lumiere – combinando arquitetura, leis de escala e outras técnicas inovadoras para melhorar a qualidade e a resolução de saída.
Entretanto a Google está a convidar criadores e realizadores a testá-lo!
Isto para melhorar o modelo de modo a que este possa acomodar uma grande variedade de estilos artísticos e casos de utilização.
Entretanto o modelo Imagen também está a receber uma atualização substancial. O Imagen 3 está posicionado como o modelo de texto para imagem da “mais alta qualidade” da Google e oferece algumas melhorias em relação ao modelo Imagen 2 que vimos no Gemini e no Bard. Entretanto talvez a maior melhoria seja a capacidade do Imagen 3 para processar texto.
Receba as notícias Leak no seu e-mail. Carregue aqui para se registar. É grátis!