Google DeepMind ने आधिकारिक तौर पर Imagen 4 लॉन्च किया है, जो अब तक का सबसे परिष्कृत टेक्स्ट-टू-इमेज जेनरेशन मॉडल है और डेवलपर्स के लिए एआई-जनरेटेड विज़ुअल्स बनाने के लिए शक्तिशाली नए टूल्स उपलब्ध कराता है।
यह रिलीज़ 15 जुलाई से Gemini API और Google AI Studio दोनों के माध्यम से उपलब्ध है और Imagen 4 परिवार के भीतर दो अलग-अलग मॉडल पेश करती है। स्टैंडर्ड Imagen 4 मॉडल, जिसकी कीमत प्रति आउटपुट इमेज $0.04 है, इमेज जेनरेशन के लिए Google का प्रमुख विकल्प है। वहीं, अधिक सटीक टेक्स्ट प्रॉम्प्ट्स की आवश्यकता वाले उपयोग के लिए Imagen 4 Ultra वेरिएंट उपलब्ध है, जिसकी कीमत प्रति इमेज $0.06 है और यह और भी बेहतर क्षमताएं प्रदान करता है।
Imagen 4 अपने पूर्ववर्ती की तुलना में उल्लेखनीय प्रगति दर्शाता है। Google ने इसके 'सूक्ष्म विवरणों में अद्भुत स्पष्टता' को रेखांकित किया है, जैसे जटिल कपड़े, पानी की बूंदें और जानवरों का फर। यह मॉडल फोटोरियलिस्टिक और अमूर्त दोनों शैलियों में उत्कृष्ट है और विभिन्न आस्पेक्ट रेशियो व 2K तक के रेजोल्यूशन को सपोर्ट करता है।
सबसे महत्वपूर्ण बात यह है कि Imagen 4 ने एआई इमेज जेनरेशन में लंबे समय से चली आ रही टेक्स्ट रेंडरिंग की चुनौती को काफी हद तक हल कर दिया है। इस सुधार के कारण यह तकनीक मार्केटिंग मटेरियल, पोस्टर, निमंत्रण पत्र, कॉमिक्स और अन्य ऐसे विज़ुअल्स के लिए बेहद उपयोगी हो गई है, जिनमें इमेजरी के साथ टेक्स्ट का संयोजन जरूरी होता है।
Google Labs समूह के प्रमुख जोश वुडवर्ड ने कहा, "Imagen 4 गुणवत्ता के मामले में एक बड़ा कदम है। हमने टेक्स्ट और टाइपोग्राफी जेनरेशन में काफी ध्यान और सुधार किया है, जिससे यह स्लाइड्स, निमंत्रण पत्र या किसी भी ऐसे कार्य के लिए शानदार है, जिसमें इमेजरी और टेक्स्ट को मिलाना हो।"
इस तकनीक का Google के इकोसिस्टम, खासकर Workspace एप्लिकेशन्स में एकीकरण, विभिन्न रचनात्मक और पेशेवर वर्कफ्लो में उत्पादकता बढ़ाने की दिशा में एक महत्वपूर्ण कदम है। Google ने संकेत दिया है कि आने वाले हफ्तों में अतिरिक्त बिलिंग टियर पेश किए जाएंगे और अनुरोध करने पर उच्च रेट लिमिट्स भी उपलब्ध कराए जाएंगे। कंपनी ने यह भी योजना बनाई है कि Imagen 4 का एक तेज वेरिएंट जारी किया जाएगा, जो Imagen 3 की तुलना में दस गुना अधिक तेज हो सकता है।