OpenAI ने GPT-4.1 नामक नए मॉडल्स की फैमिली लॉन्च की है, जिसमें GPT-4.1, GPT-4.1 मिनी और GPT-4.1 नैनो शामिल हैं, जो कोडिंग और इंस्ट्रक्शन फॉलो करने में बेहद सक्षम हैं। 14 अप्रैल को जारी किए गए ये नए मॉडल्स केवल OpenAI के एप्लिकेशन प्रोग्रामिंग इंटरफेस (API) के माध्यम से उपलब्ध हैं और कंपनी के सबसे एडवांस्ड GPT-4o मॉडल से भी बेहतर प्रदर्शन करते हैं।
इन मॉडल्स में बेहतर कॉन्टेक्स्ट समझने की क्षमता है, जो 1 मिलियन टोकन (लगभग 7.5 लाख शब्द) तक का सपोर्ट करती है और इनमें जून 2024 तक का ताज़ा ज्ञान शामिल है। SWE-बेंच वेरिफाइड, जो रियल-वर्ल्ड सॉफ्टवेयर इंजीनियरिंग स्किल्स को मापता है, पर GPT-4.1 ने 54.6% टास्क पूरे किए, जबकि GPT-4o ने 33.2% टास्क पूरे किए। यह मॉडल की कोड रिपॉजिटरी एक्सप्लोर करने, टास्क पूरी करने और ऐसा कोड जनरेट करने की क्षमता में सुधार को दर्शाता है, जो न सिर्फ चलता है बल्कि टेस्ट भी पास करता है।
OpenAI के प्रवक्ता ने बताया, "हमने GPT-4.1 को रियल-वर्ल्ड उपयोग के लिए डायरेक्ट फीडबैक के आधार पर ऑप्टिमाइज़ किया है, ताकि डेवलपर्स के लिए सबसे महत्वपूर्ण क्षेत्रों में सुधार हो सके: फ्रंटएंड कोडिंग, गैर-जरूरी एडिट्स में कमी, फॉर्मेट का सही पालन, रिस्पॉन्स स्ट्रक्चर और ऑर्डरिंग का पालन, टूल्स का लगातार उपयोग आदि। इन सुधारों से डेवलपर्स ऐसे एजेंट बना सकते हैं जो रियल-वर्ल्ड सॉफ्टवेयर इंजीनियरिंग टास्क में काफी बेहतर हैं।"
छोटे वेरिएंट्स अलग-अलग परफॉर्मेंस-कॉस्ट संतुलन पेश करते हैं। GPT-4.1 मिनी और नैनो अधिक एफिशिएंट और तेज़ हैं, हालांकि इनमें थोड़ी सटीकता की कमी हो सकती है। OpenAI का कहना है कि GPT-4.1 नैनो अब तक का सबसे तेज़ और सस्ता मॉडल है। कीमतें भी लाइनअप में काफी भिन्न हैं: GPT-4.1 की कीमत $2 प्रति मिलियन इनपुट टोकन और $8 प्रति मिलियन आउटपुट टोकन है, GPT-4.1 मिनी की कीमत $0.40 प्रति मिलियन इनपुट टोकन और $1.60 प्रति मिलियन आउटपुट टोकन है, जबकि GPT-4.1 नैनो की कीमत केवल $0.10 प्रति मिलियन इनपुट टोकन और $0.40 प्रति मिलियन आउटपुट टोकन है।
कोडिंग के अलावा अन्य मूल्यांकन में, OpenAI ने GPT-4.1 को Video-MME के जरिए टेस्ट किया, जो वीडियो कंटेंट समझने की मॉडल की क्षमता को मापता है। GPT-4.1 ने "लंबी, बिना सबटाइटल वाली" वीडियो श्रेणी में 72% सटीकता हासिल की और इस बेंचमार्क में शीर्ष स्थान प्राप्त किया।
यह लॉन्च OpenAI की कोडिंग क्षेत्र में व्यापक महत्वाकांक्षाओं के अनुरूप है। हाल ही में OpenAI की CFO सारा फ्रायर ने कंपनी के "एजेंटिक सॉफ्टवेयर इंजीनियर" बनाने के विज़न पर चर्चा की, जो पूरी ऐप एंड-टू-एंड प्रोग्राम कर सके। फ्रायर ने कहा, "यह आपके लिए सचमुच एक ऐप बना सकता है — और न सिर्फ बना सकता है, बल्कि खुद ही क्वालिटी एश्योरेंस, बग टेस्टिंग और डाक्यूमेंटेशन भी कर सकता है।"
AI कोडिंग मॉडल का क्षेत्र तेजी से प्रतिस्पर्धी बनता जा रहा है। Google का Gemini 2.5 Pro इस समय SWE-बेंच वेरिफाइड बेंचमार्क पर 63.8% के साथ शीर्ष पर है, जबकि Anthropic का Claude 3.7 Sonnet स्टैंडर्ड मोड में 62.3% और एक्सटेंडेड थिंकिंग मोड में 70.3% तक स्कोर करता है। इन प्रभावशाली बेंचमार्क्स के बावजूद, OpenAI मानता है कि आज के बेहतरीन मॉडल भी उन टास्क्स में संघर्ष करते हैं, जो विशेषज्ञों के लिए मुश्किल नहीं होते। कई अध्ययनों से पता चला है कि कोड जनरेट करने वाले मॉडल अक्सर सिक्योरिटी वल्नरेबिलिटी और बग्स को ठीक करने में असफल रहते हैं, बल्कि कभी-कभी नए बग्स भी पैदा कर देते हैं। GPT-4.1 भी तब कम विश्वसनीय हो जाता है जब उसे अधिक इनपुट टोकन प्रोसेस करने पड़ते हैं।