Google znacząco rozbudował swoje możliwości w dziedzinie sztucznej inteligencji, wprowadzając Imagen 4 – najnowocześniejszy model generowania obrazów na podstawie tekstu, dostępny obecnie w płatnym podglądzie za pośrednictwem Gemini API oraz Google AI Studio.
Imagen 4 stanowi istotny krok naprzód względem poprzednich wersji, szczególnie pod względem jakości renderowania tekstu w generowanych obrazach. W ramach premiery udostępniono dwa warianty: standardowy model Imagen 4 w cenie 0,04 USD za wygenerowany obraz oraz Imagen 4 Ultra za 0,06 USD za obraz, oferujący jeszcze większą precyzję w realizacji poleceń użytkownika. Oba modele wyposażone są w technologię znakowania SynthID, która jest niewidoczna dla ludzkiego oka, ale pozwala identyfikować treści wygenerowane przez AI.
Premiera Imagen 4 wpisuje się w szerszą strategię rozwoju rodziny modeli Gemini 2.5. Firma udostępniła ogólnie modele Gemini 2.5 Flash i Pro po udanych okresach testowych, a także zaprezentowała Gemini 2.5 Flash-Lite w wersji podglądowej. Flash-Lite to najtańszy i najszybszy model z rodziny 2.5, zoptymalizowany do zadań wymagających dużej wydajności i niskich opóźnień, takich jak klasyfikacja, tłumaczenie czy inteligentne kierowanie ruchem danych.
Pomimo nacisku na efektywność, Gemini 2.5 Flash-Lite zachowuje kluczowe możliwości rodziny 2.5, w tym kontekst okna o wielkości miliona tokenów oraz wsparcie dla natywnych narzędzi, takich jak integracja z wyszukiwarką Google czy wykonywanie kodu. W przeciwieństwie do innych modeli z tej rodziny, które domyślnie mają włączone funkcje "myślenia", Flash-Lite pozwala programistom kontrolować budżet myślenia poprzez parametry API, przy czym domyślnie funkcja ta jest wyłączona, co przekłada się na większą szybkość i niższe koszty.
Google wzbogacił także swoją ofertę dla deweloperów, udostępniając Gemini CLI – otwartoźródłowego agenta AI, który pozwala korzystać z Gemini bezpośrednio w terminalu. Narzędzie umożliwia dostęp do Gemini 2.5 Pro z poziomu wiersza poleceń, wspierając programowanie, rozwiązywanie problemów i zarządzanie zadaniami. Otwarty charakter Gemini CLI (licencja Apache 2.0) pozwala programistom na wgląd w kod, weryfikację kwestii bezpieczeństwa oraz współtworzenie projektu.
Najnowsze premiery AI od Google potwierdzają zaangażowanie firmy w dostarczanie programistom coraz potężniejszych i elastycznych narzędzi w różnych przedziałach cenowych i do różnych zastosowań – od generowania wysokiej jakości obrazów, przez wydajne przetwarzanie tekstu, po wsparcie AI dostępne bezpośrednio z poziomu terminala.