Para quem olha de fora, parece que a Apple está a deixar que o comboio da Inteligência Passe primeiro noutras paragens, antes de apostar tudo o que tem numa nova era que vai redefinar o que é realmente “smart” no mundo da tecnologia. Mas… As coisas não são bem assim.
Apesar do facto de a gigante Norte-Americana ainda não ter demonstrado grande vontade de fazer um gigantesco all-in em IA nos seus smartphones, tablets ou computadores. A realidade é que a Apple está a investir forte e feio na tecnologia para mais tarde ou mais cedo a implementar no seu ecossistema.
Afinal, a Apple nunca foi uma fabricante de correr atrás das coisas apenas e só para ser a primeira. Como já deve ter percebido, não vai ser com a Inteligência Artificial que isso vai mudar.
Apple tem uma estratégia interessante para apostar na IA!
Portanto, caso não saiba, a Apple tem vindo a fazer experiências com Modelos de Linguagem de Grande Dimensão (LLMs) que alimentam a maioria das aplicações de IA actuais.
Experiências que podem facilitar a chegada da Inteligência Artificial ao mundo dos smartphones.
Afinal de contas, enquanto a grande maioria dos LLM obrigam ao uso de aceleradores de IA em combinação com uma grande capacidade de memória RAM para armazenar os modelos, a Apple parece ter uma nova forma de fazer as coisas, que vai facilitar a tarefa para dispositivos com capacidade de memória limitada.
O método envolve a construção de um modelo de custo de inferência que se harmoniza com o comportamento da memória flash, orientando a otimização em duas áreas críticas:
- Reduzir o volume de dados transferidos da flash,
- Ler os dados em blocos maiores e mais contíguos.
Assim, em vez de passar tudo para a memória RAM (este é o grande porquê de vários especialistas afirmarem que é preciso 12GB ou mais de RAM em qualquer smartphone moderno), a Apple pretende utilizar a memória flash para armazenar os modelos e só os transferir a pedido para a DRAM quando forem realmente necessários.
Duas técnicas principais são introduzidas nesta estrutura informada pela memória flash: “windowing” e “row-column bundling”.
Estes métodos permitem, coletivamente, executar modelos até duas vezes o tamanho da DRAM disponível. Isto com um aumento de 4-5x e 20-25x na velocidade de inferência em comparação com as abordagens de carregamento nativo na CPU e GPU, respetivamente.
Em suma, especialmente agora que os preços dos chips DRAM estão a ultrapassar os preços da memória NAND Flash. Configurações como as dos smartphones podem facilmente armazenar e inferir LLMs com vários biliões de parâmetros. Isto mesmo que a memória RAM disponível não seja suficiente.
Receba as notícias Leak no seu e-mail. Carregue aqui para se registar. É grátis!