O Google anunciou que os modelos Gemini 2.5 Flash e 2.5 Pro agora estão estáveis e disponíveis para uso geral, oferecendo às organizações a confiabilidade e escalabilidade necessárias para implementar com confiança capacidades avançadas de IA em aplicações críticas. Junto a esses lançamentos, a empresa apresentou o Gemini 2.5 Flash-Lite em versão preview, descrito como seu modelo 2.5 mais rápido e econômico até o momento.
O Gemini 2.5 Flash-Lite é um modelo de raciocínio que permite o controle dinâmico do orçamento de pensamento por meio de um parâmetro na API. Diferente dos outros modelos da família 2.5, o Flash-Lite é otimizado para custo e velocidade, com o "pensamento" desativado por padrão. Apesar dessas otimizações, ele oferece suporte a todas as ferramentas nativas, incluindo Grounding com Google Search, execução de código e contexto de URL, além de chamadas de função.
O Flash-Lite entrega desempenho superior ao modelo Flash-Lite anterior e é 1,5 vez mais rápido que o 2.0 Flash, com custo reduzido. Ele foi projetado especialmente para tarefas de alto volume e sensíveis à latência, como tradução, classificação, roteamento inteligente e outras operações em larga escala e com restrições de custo.
O modelo apresenta desempenho significativamente superior ao 2.0 Flash-Lite em benchmarks de programação, matemática, ciência, raciocínio e multimodalidade, tornando-o ideal para tarefas de alto volume.
Assim como outros modelos da família Gemini 2.5, o Flash-Lite oferece recursos úteis, como a possibilidade de ativar o pensamento em diferentes orçamentos, conexão com ferramentas como Grounding com Google Search e execução de código, entrada multimodal e contexto de até 1 milhão de tokens.
Para garantir respostas atuais e factuais, o Flash-Lite pode utilizar o Google Search como ferramenta integrada, decidindo de forma inteligente quando recorrer à Busca para complementar seu conhecimento.
Além da introdução do Flash-Lite, o Google anunciou que o Gemini 2.5 Pro tornou-se o modelo líder mundial nos rankings do WebDev Arena e LMArena. Com uma pontuação ELO de 1415 no ranking de programação do WebDev Arena, ele lidera todos os rankings do LMArena, que avalia as preferências humanas em múltiplas dimensões.
Adicionalmente, o Google integrou o LearnLM diretamente ao Gemini 2.5, tornando-o o modelo líder mundial em aprendizagem. Segundo o relatório mais recente da empresa, o Gemini 2.5 Pro superou os concorrentes em todas as categorias de princípios de ciência da aprendizagem, sendo preferido por educadores e especialistas em pedagogia em diversos cenários de ensino.
O Gemini 2.5 Flash-Lite já está disponível em preview no Google AI Studio e Vertex AI, juntamente com as versões estáveis do 2.5 Flash e Pro. Desenvolvedores podem acessar o modelo (gemini-2.5-flash-lite-preview-06-17) por meio do Google Gen AI SDK, que oferece uma interface unificada para a família de modelos Gemini 2.5, tanto pela Gemini Developer API quanto pela Vertex AI Gemini API.