Apple tem uma estratégia interessante para apostar na IA!

Para quem olha de fora, parece que a Apple está a deixar que o comboio da Inteligência Passe primeiro noutras paragens, antes de apostar tudo o que tem numa nova era que vai redefinar o que é realmente “smart” no mundo da tecnologia. Mas… As coisas não são bem assim.

Apesar do facto de a gigante Norte-Americana ainda não ter demonstrado grande vontade de fazer um gigantesco all-in em IA nos seus smartphones, tablets ou computadores. A realidade é que a Apple está a investir forte e feio na tecnologia para mais tarde ou mais cedo a implementar no seu ecossistema.

Afinal, a Apple nunca foi uma fabricante de correr atrás das coisas apenas e só para ser a primeira. Como já deve ter percebido, não vai ser com a Inteligência Artificial que isso vai mudar.

Apple tem uma estratégia interessante para apostar na IA!

iPhone

Portanto, caso não saiba, a Apple tem vindo a fazer experiências com Modelos de Linguagem de Grande Dimensão (LLMs) que alimentam a maioria das aplicações de IA actuais.

Experiências que podem facilitar a chegada da Inteligência Artificial ao mundo dos smartphones.

Afinal de contas, enquanto a grande maioria dos LLM obrigam ao uso de aceleradores de IA em combinação com uma grande capacidade de memória RAM para armazenar os modelos, a Apple parece ter uma nova forma de fazer as coisas, que vai facilitar a tarefa para dispositivos com capacidade de memória limitada.

O método envolve a construção de um modelo de custo de inferência que se harmoniza com o comportamento da memória flash, orientando a otimização em duas áreas críticas:

  • Reduzir o volume de dados transferidos da flash,
  • Ler os dados em blocos maiores e mais contíguos.

Assim, em vez de passar tudo para a memória RAM (este é o grande porquê de vários especialistas afirmarem que é preciso 12GB ou mais de RAM em qualquer smartphone moderno), a Apple pretende utilizar a memória flash para armazenar os modelos e só os transferir a pedido para a DRAM quando forem realmente necessários.

Duas técnicas principais são introduzidas nesta estrutura informada pela memória flash: “windowing” e “row-column bundling”.

Estes métodos permitem, coletivamente, executar modelos até duas vezes o tamanho da DRAM disponível. Isto com um aumento de 4-5x e 20-25x na velocidade de inferência em comparação com as abordagens de carregamento nativo na CPU e GPU, respetivamente.

Em suma, especialmente agora que os preços dos chips DRAM estão a ultrapassar os preços da memória NAND Flash. Configurações como as dos smartphones podem facilmente armazenar e inferir LLMs com vários biliões de parâmetros. Isto mesmo que a memória RAM disponível não seja suficiente.

 

Ao seguir a Leak no Google Notícias está a ajudar-nos. Carregue aqui e depois em seguir.
Nuno Miguel Oliveira
Nuno Miguel Oliveirahttps://www.facebook.com/theGeekDomz/
Desde muito novo que me interessei por computadores e tecnologia no geral, fui sempre aquele membro da família que servia como técnico ou reparador de tudo e alguma coisa (de borla). Agora tenho acesso a tudo o que é novo e incrível neste mundo 'tech'. Valeu a pena!

Leia também