A Google lançou oficialmente o Gemma 3n, o seu mais recente modelo aberto de IA multimodal, especialmente desenvolvido para dispositivos móveis e de edge. Este lançamento marca um importante marco na disponibilização de capacidades avançadas de IA diretamente no hardware do consumidor, sem necessidade de processamento na cloud.
O Gemma 3n está disponível em dois tamanhos, baseados em parâmetros efetivos: E2B e E4B. Embora os seus números brutos de parâmetros sejam 5B e 8B respetivamente, inovações arquitetónicas permitem que funcionem com consumos de memória comparáveis a modelos tradicionais de 2B e 4B, operando com apenas 2GB (E2B) e 3GB (E4B) de memória. Esta eficiência é alcançada através de várias inovações técnicas, incluindo a arquitetura MatFormer e Embeddings por Camada.
O modelo é verdadeiramente multimodal por conceção, suportando nativamente entradas de imagem, áudio, vídeo e texto, enquanto gera saídas em texto. As suas capacidades expandidas de áudio permitem reconhecimento automático de fala (transcrição) e tradução de fala para texto de alta qualidade. Adicionalmente, o modelo aceita entradas intercaladas entre modalidades, permitindo a compreensão de interações multimodais complexas.
Para o processamento visual, o Gemma 3n integra um codificador de visão altamente eficiente, o MobileNet-V5-300M, que oferece desempenho de topo em tarefas multimodais em dispositivos edge. Este codificador suporta nativamente múltiplas resoluções de entrada (256x256, 512x512 e 768x768 píxeis), destaca-se numa vasta gama de tarefas de compreensão de imagem e vídeo, e consegue processar até 60 fotogramas por segundo num Google Pixel.
A versão E4B atinge uma pontuação LMArena superior a 1300, tornando-se o primeiro modelo com menos de 10 mil milhões de parâmetros a alcançar este marco. O Gemma 3n apresenta melhorias de qualidade em multilinguismo, suportando 140 idiomas para texto e compreensão multimodal em 35 idiomas, bem como capacidades melhoradas de matemática, programação e raciocínio.
A privacidade é um aspeto central, já que a execução local permite funcionalidades que respeitam a privacidade do utilizador e funcionam de forma fiável mesmo sem ligação à internet. O modelo foi criado em estreita colaboração com líderes de hardware móvel como a Qualcomm Technologies, MediaTek e a divisão System LSI da Samsung, estando otimizado para IA multimodal ultrarrápida, proporcionando experiências verdadeiramente pessoais e privadas diretamente nos dispositivos.
O lançamento completo segue-se a uma antevisão na Google I/O em maio de 2025, estando agora o modelo disponível através de frameworks populares como Hugging Face Transformers, llama.cpp, Google AI Edge, Ollama e MLX. Este lançamento abrangente permite aos programadores criar uma nova geração de aplicações inteligentes, executadas localmente, capazes de compreender e responder ao mundo que as rodeia.