menu
close

Google Lança Gemma 3n: Potente IA Multimodal para Dispositivos Móveis

O Google lançou o Gemma 3n, um modelo de IA multimodal inovador projetado para rodar de forma eficiente em dispositivos de consumo com apenas 2GB de memória. O modelo é capaz de processar áudio, texto, imagens e vídeos localmente em smartphones, tablets e laptops. Essa arquitetura mobile-first, desenvolvida em colaboração com fabricantes de hardware como Qualcomm, MediaTek e Samsung, representa um avanço significativo ao tornar IA poderosa acessível sem necessidade de conexão com a nuvem.
Google Lança Gemma 3n: Potente IA Multimodal para Dispositivos Móveis

O Google anunciou oficialmente o lançamento do Gemma 3n, seu mais recente modelo aberto de IA multimodal, desenvolvido especificamente para dispositivos móveis e de borda. Este lançamento marca um marco importante ao trazer capacidades avançadas de IA diretamente para o hardware do consumidor, sem necessidade de processamento em nuvem.

O Gemma 3n está disponível em dois tamanhos, baseados em parâmetros efetivos: E2B e E4B. Embora contem com 5 bilhões e 8 bilhões de parâmetros brutos, respectivamente, inovações arquitetônicas permitem que rodem com consumo de memória comparável a modelos tradicionais de 2B e 4B, operando com apenas 2GB (E2B) e 3GB (E4B) de memória. Essa eficiência é alcançada graças a diversas inovações técnicas, incluindo a arquitetura MatFormer e Embeddings por Camada.

O modelo é verdadeiramente multimodal por design, suportando nativamente entradas de imagem, áudio, vídeo e texto, enquanto gera saídas em texto. Suas capacidades expandidas de áudio permitem reconhecimento automático de fala (transcrição) e tradução de fala para texto de alta qualidade. Além disso, o modelo aceita entradas intercaladas entre modalidades, possibilitando a compreensão de interações multimodais complexas.

Para processamento visual, o Gemma 3n conta com um codificador de visão altamente eficiente, o MobileNet-V5-300M, que oferece desempenho de ponta para tarefas multimodais em dispositivos de borda. Esse codificador suporta nativamente múltiplas resoluções de entrada (256x256, 512x512 e 768x768 pixels), destaca-se em uma ampla gama de tarefas de compreensão de imagem e vídeo, e pode processar até 60 quadros por segundo em um Google Pixel.

A versão E4B atinge uma pontuação LMArena acima de 1300, tornando-se o primeiro modelo com menos de 10 bilhões de parâmetros a alcançar esse marco. O Gemma 3n apresenta melhorias de qualidade em multilinguismo, suportando 140 idiomas para texto e compreensão multimodal em 35 idiomas, além de capacidades aprimoradas em matemática, programação e raciocínio.

A privacidade é um recurso fundamental, já que a execução local permite funcionalidades que respeitam a privacidade do usuário e funcionam de forma confiável mesmo sem conexão à internet. O modelo foi criado em estreita colaboração com líderes em hardware móvel como Qualcomm Technologies, MediaTek e a divisão System LSI da Samsung, sendo otimizado para IA multimodal extremamente rápida, possibilitando experiências realmente pessoais e privadas diretamente nos dispositivos.

O lançamento completo ocorre após uma prévia apresentada no Google I/O em maio de 2025, com o modelo agora disponível em frameworks populares como Hugging Face Transformers, llama.cpp, Google AI Edge, Ollama e MLX. Esse lançamento abrangente capacita desenvolvedores a criar uma nova geração de aplicativos inteligentes, executados nos próprios dispositivos, capazes de compreender e responder ao mundo ao seu redor.

Source:

Latest News