menu
close

Google Apresenta Gemma 3n: Inteligência Artificial Multimodal Potente para Dispositivos Móveis

A Google lançou o Gemma 3n, um inovador modelo de IA multimodal concebido para funcionar de forma eficiente em dispositivos de consumo com apenas 2GB de memória. O modelo consegue processar áudio, texto, imagens e vídeo localmente em telemóveis, tablets e portáteis. Esta arquitetura mobile-first, desenvolvida em colaboração com fabricantes de hardware como a Qualcomm, MediaTek e Samsung, representa um avanço significativo ao tornar a IA poderosa acessível sem necessidade de ligação à cloud.
Google Apresenta Gemma 3n: Inteligência Artificial Multimodal Potente para Dispositivos Móveis

A Google lançou oficialmente o Gemma 3n, o seu mais recente modelo aberto de IA multimodal, especialmente desenvolvido para dispositivos móveis e de edge. Este lançamento marca um importante marco na disponibilização de capacidades avançadas de IA diretamente no hardware do consumidor, sem necessidade de processamento na cloud.

O Gemma 3n está disponível em dois tamanhos, baseados em parâmetros efetivos: E2B e E4B. Embora os seus números brutos de parâmetros sejam 5B e 8B respetivamente, inovações arquitetónicas permitem que funcionem com consumos de memória comparáveis a modelos tradicionais de 2B e 4B, operando com apenas 2GB (E2B) e 3GB (E4B) de memória. Esta eficiência é alcançada através de várias inovações técnicas, incluindo a arquitetura MatFormer e Embeddings por Camada.

O modelo é verdadeiramente multimodal por conceção, suportando nativamente entradas de imagem, áudio, vídeo e texto, enquanto gera saídas em texto. As suas capacidades expandidas de áudio permitem reconhecimento automático de fala (transcrição) e tradução de fala para texto de alta qualidade. Adicionalmente, o modelo aceita entradas intercaladas entre modalidades, permitindo a compreensão de interações multimodais complexas.

Para o processamento visual, o Gemma 3n integra um codificador de visão altamente eficiente, o MobileNet-V5-300M, que oferece desempenho de topo em tarefas multimodais em dispositivos edge. Este codificador suporta nativamente múltiplas resoluções de entrada (256x256, 512x512 e 768x768 píxeis), destaca-se numa vasta gama de tarefas de compreensão de imagem e vídeo, e consegue processar até 60 fotogramas por segundo num Google Pixel.

A versão E4B atinge uma pontuação LMArena superior a 1300, tornando-se o primeiro modelo com menos de 10 mil milhões de parâmetros a alcançar este marco. O Gemma 3n apresenta melhorias de qualidade em multilinguismo, suportando 140 idiomas para texto e compreensão multimodal em 35 idiomas, bem como capacidades melhoradas de matemática, programação e raciocínio.

A privacidade é um aspeto central, já que a execução local permite funcionalidades que respeitam a privacidade do utilizador e funcionam de forma fiável mesmo sem ligação à internet. O modelo foi criado em estreita colaboração com líderes de hardware móvel como a Qualcomm Technologies, MediaTek e a divisão System LSI da Samsung, estando otimizado para IA multimodal ultrarrápida, proporcionando experiências verdadeiramente pessoais e privadas diretamente nos dispositivos.

O lançamento completo segue-se a uma antevisão na Google I/O em maio de 2025, estando agora o modelo disponível através de frameworks populares como Hugging Face Transformers, llama.cpp, Google AI Edge, Ollama e MLX. Este lançamento abrangente permite aos programadores criar uma nova geração de aplicações inteligentes, executadas localmente, capazes de compreender e responder ao mundo que as rodeia.

Source:

Latest News