Google DeepMind secara rasmi telah melancarkan Imagen 4, model penjanaan imej daripada teks yang paling canggih setakat ini, menawarkan pembangun alat baharu yang berkuasa untuk mencipta visual berasaskan AI.
Pelancaran ini, yang mula tersedia pada 15 Julai melalui Gemini API dan Google AI Studio, memperkenalkan dua model berbeza dalam keluarga Imagen 4. Model standard Imagen 4, yang ditawarkan pada harga $0.04 bagi setiap imej yang dijana, menjadi pilihan utama Google untuk pelbagai tugasan penjanaan imej. Untuk aplikasi yang memerlukan ketepatan tinggi terhadap arahan teks, Imagen 4 Ultra menawarkan keupayaan yang dipertingkatkan pada harga $0.06 bagi setiap imej.
Imagen 4 menandakan kemajuan besar berbanding model sebelumnya, dengan Google menekankan "kejelasan luar biasa pada butiran halus" seperti fabrik rumit, titisan air, dan bulu haiwan. Model ini cemerlang dalam gaya fotorealistik mahupun abstrak, menyokong pelbagai nisbah aspek dan resolusi sehingga 2K.
Paling ketara, Imagen 4 berjaya mengatasi cabaran utama dalam penjanaan imej AI dengan peningkatan dramatik dalam penjanaan teks. Penambahbaikan ini menjadikan teknologi ini sangat bernilai untuk menghasilkan bahan pemasaran, poster, jemputan, komik, dan visual lain yang menggabungkan imej serta teks.
"Imagen 4 adalah satu lonjakan besar dari segi kualiti," ujar Josh Woodward, ketua kumpulan Labs Google. "Kami memberi perhatian dan penambahbaikan khusus pada cara ia menjana teks dan tipografi, jadi ia sangat sesuai untuk mencipta slaid atau jemputan, atau apa-apa sahaja yang memerlukan gabungan imej dan teks."
Integrasi teknologi ini ke dalam ekosistem Google, termasuk aplikasi Workspace, meletakkannya sebagai alat yang dapat meningkatkan produktiviti dalam pelbagai aliran kerja kreatif dan profesional. Google turut memaklumkan bahawa lebih banyak pilihan pengebilan akan diperkenalkan dalam beberapa minggu akan datang, dengan had kadar penggunaan yang lebih tinggi boleh dimohon. Syarikat itu juga merancang untuk melancarkan varian Imagen 4 yang lebih pantas, berpotensi beroperasi sehingga sepuluh kali ganda lebih laju berbanding Imagen 3.