Google Lança Gemma 3n: Potente IA Multimodal para Dispositivos Móveis

O Google lançou o Gemma 3n, um modelo de IA multimodal inovador projetado para rodar de forma eficiente em dispositivos de consumo com apenas 2GB de memória. O modelo é capaz de processar áudio, texto, imagens e vídeos localmente em smartphones, tablets e laptops. Essa arquitetura mobile-first, desenvolvida em colaboração com fabricantes de hardware como Qualcomm, MediaTek e Samsung, representa um avanço significativo ao tornar IA poderosa acessível sem necessidade de conexão com a nuvem.

O Google anunciou oficialmente o lançamento do Gemma 3n, seu mais recente modelo aberto de IA multimodal, desenvolvido especificamente para dispositivos móveis e de borda. Este lançamento marca um marco importante ao trazer capacidades avançadas de IA diretamente para o hardware do consumidor, sem necessidade de processamento em nuvem.

O Gemma 3n está disponível em dois tamanhos, baseados em parâmetros efetivos: E2B e E4B. Embora contem com 5 bilhões e 8 bilhões de parâmetros brutos, respectivamente, inovações arquitetônicas permitem que rodem com consumo de memória comparável a modelos tradicionais de 2B e 4B, operando com apenas 2GB (E2B) e 3GB (E4B) de memória. Essa eficiência é alcançada graças a diversas inovações técnicas, incluindo a arquitetura MatFormer e Embeddings por Camada.

O modelo é verdadeiramente multimodal por design, suportando nativamente entradas de imagem, áudio, vídeo e texto, enquanto gera saídas em texto. Suas capacidades expandidas de áudio permitem reconhecimento automático de fala (transcrição) e tradução de fala para texto de alta qualidade. Além disso, o modelo aceita entradas intercaladas entre modalidades, possibilitando a compreensão de interações multimodais complexas.

Para processamento visual, o Gemma 3n conta com um codificador de visão altamente eficiente, o MobileNet-V5-300M, que oferece desempenho de ponta para tarefas multimodais em dispositivos de borda. Esse codificador suporta nativamente múltiplas resoluções de entrada (256x256, 512x512 e 768x768 pixels), destaca-se em uma ampla gama de tarefas de compreensão de imagem e vídeo, e pode processar até 60 quadros por segundo em um Google Pixel.

A versão E4B atinge uma pontuação LMArena acima de 1300, tornando-se o primeiro modelo com menos de 10 bilhões de parâmetros a alcançar esse marco. O Gemma 3n apresenta melhorias de qualidade em multilinguismo, suportando 140 idiomas para texto e compreensão multimodal em 35 idiomas, além de capacidades aprimoradas em matemática, programação e raciocínio.

A privacidade é um recurso fundamental, já que a execução local permite funcionalidades que respeitam a privacidade do usuário e funcionam de forma confiável mesmo sem conexão à internet. O modelo foi criado em estreita colaboração com líderes em hardware móvel como Qualcomm Technologies, MediaTek e a divisão System LSI da Samsung, sendo otimizado para IA multimodal extremamente rápida, possibilitando experiências realmente pessoais e privadas diretamente nos dispositivos.

O lançamento completo ocorre após uma prévia apresentada no Google I/O em maio de 2025, com o modelo agora disponível em frameworks populares como Hugging Face Transformers, llama.cpp, Google AI Edge, Ollama e MLX. Esse lançamento abrangente capacita desenvolvedores a criar uma nova geração de aplicativos inteligentes, executados nos próprios dispositivos, capazes de compreender e responder ao mundo ao seu redor.

Source:

Google Lança Gemma 3n: Potente IA Multimodal para Dispositivos Móveis

Latest News

OpenTools.AI Lança Digest Diário de IA para Profissionais do Setor

Drones com IA da Helsing Transformam Estratégia de Defesa da Ucrânia

Ex-CTO da OpenAI garante recorde de US$ 2 bilhões para startup de IA

EraDrive, da Stanford, fecha contrato de US$ 1 milhão com a NASA para tecnologia de IA espacial

Gigantes de Hollywood Enfrentam Empresa de IA em Caso Histórico de Direitos Autorais

Revolução da IA Transforma o Cenário de Licitações Federais

Nvidia Consolida Liderança em IA com Trajetória de Crescimento Recorde

Interface Cerebral com IA Transforma Pensamentos em Palavras

Avanço da IA da China Reduz Diferença em Relação aos EUA, Aponta Estudo da RAND

Chips Quânticos Fotônicos Impulsionam o Desempenho da IA e Reduzem Consumo de Energia

Google Lança Gemma 3n: Potente IA Multimodal para Dispositivos Móveis

Related Articles

OpenTools.AI Lança Digest Diário de IA para Profissionais do Setor

Avanço da IA da China Reduz Diferença em Relação aos EUA, Aponta Estudo da RAND

Meta Lança Investida de US$ 65 Bilhões em IA com Novo Laboratório de Superinteligência

TomTom Corta Empregos enquanto IA Redefine o Futuro da Gigante de Navegação

Anthropic Enfrenta o Impacto Econômico da IA com Nova Iniciativa de Pesquisa

Latest News

OpenTools.AI Lança Digest Diário de IA para Profissionais do Setor

Drones com IA da Helsing Transformam Estratégia de Defesa da Ucrânia

Ex-CTO da OpenAI garante recorde de US$ 2 bilhões para startup de IA

EraDrive, da Stanford, fecha contrato de US$ 1 milhão com a NASA para tecnologia de IA espacial

Gigantes de Hollywood Enfrentam Empresa de IA em Caso Histórico de Direitos Autorais

Revolução da IA Transforma o Cenário de Licitações Federais

Nvidia Consolida Liderança em IA com Trajetória de Crescimento Recorde

Interface Cerebral com IA Transforma Pensamentos em Palavras

Avanço da IA da China Reduz Diferença em Relação aos EUA, Aponta Estudo da RAND

Chips Quânticos Fotônicos Impulsionam o Desempenho da IA e Reduzem Consumo de Energia