O Google DeepMind lançou oficialmente o Imagen 4, seu modelo de geração de imagens a partir de texto mais sofisticado até agora, oferecendo aos desenvolvedores novas ferramentas poderosas para criar visuais gerados por IA.
O lançamento, que ficou disponível em 15 de julho tanto pela API Gemini quanto pelo Google AI Studio, apresenta dois modelos distintos dentro da família Imagen 4. O modelo padrão, Imagen 4, com preço de US$ 0,04 por imagem gerada, é a principal oferta do Google para uma ampla variedade de tarefas de geração de imagens. Para aplicações mais exigentes, que requerem aderência precisa aos comandos de texto, o Imagen 4 Ultra oferece capacidades aprimoradas por US$ 0,06 por imagem.
O Imagen 4 representa um avanço significativo em relação ao seu antecessor, com o Google destacando sua "notável clareza em detalhes finos", como tecidos intrincados, gotas d'água e pelos de animais. O modelo se destaca tanto em estilos fotorrealistas quanto abstratos, suportando diversos formatos de proporção e resoluções de até 2K.
Talvez o mais notável seja o fato de o Imagen 4 resolver um desafio persistente na geração de imagens por IA: a renderização de texto, agora dramaticamente aprimorada. Esse avanço torna a tecnologia especialmente valiosa para a criação de materiais de marketing, cartazes, convites, quadrinhos e outros visuais que combinam imagens e texto.
"O Imagen 4 é um grande avanço em qualidade", afirmou Josh Woodward, líder do grupo Labs do Google. "Dedicamos muita atenção e correções à forma como ele gera texto e tipografia, então é excelente para criar slides, convites ou qualquer outra coisa em que seja necessário mesclar imagens e texto."
A integração da tecnologia ao ecossistema do Google, incluindo aplicativos do Workspace, posiciona o Imagen 4 para aumentar a produtividade em diversos fluxos de trabalho criativos e profissionais. O Google indicou que camadas adicionais de cobrança serão introduzidas nas próximas semanas, com limites de uso mais altos disponíveis mediante solicitação. A empresa também planeja lançar uma variante mais rápida do Imagen 4, que poderá operar até dez vezes mais rápido que o Imagen 3.