أطلقت شركة أوبن إيه آي عائلة جديدة من النماذج تحت اسم GPT-4.1، والتي تشمل GPT-4.1، وGPT-4.1 mini، وGPT-4.1 nano، وجميعها تتفوق في البرمجة واتباع التعليمات. تم إصدار هذه النماذج في 14 أبريل، وهي متوفرة حصريًا عبر واجهة برمجة التطبيقات (API) الخاصة بأوبن إيه آي، وتتجاوز أداء نموذج GPT-4o المتقدم من الشركة في جميع الجوانب.
تتميز النماذج بفهم سياقي محسّن، حيث تدعم حتى مليون رمز (ما يعادل تقريبًا 750,000 كلمة)، وتأتي مع معرفة محدثة حتى يونيو 2024. في اختبار SWE-bench Verified، وهو مقياس لمهارات هندسة البرمجيات الواقعية، أكمل GPT-4.1 نسبة 54.6% من المهام، مقارنة بـ 33.2% لنموذج GPT-4o. ويعكس ذلك تحسنًا في قدرة النموذج على استكشاف مستودعات الشيفرة البرمجية، وإنجاز المهام، وإنتاج شيفرة تعمل وتجتاز الاختبارات.
وأوضح متحدث باسم أوبن إيه آي: "لقد قمنا بتحسين GPT-4.1 للاستخدام الواقعي بناءً على ملاحظات مباشرة لتحسين الجوانب التي تهم المطورين أكثر: برمجة الواجهات الأمامية، تقليل التعديلات غير الضرورية، اتباع التنسيقات بشكل موثوق، الالتزام ببنية وترتيب الردود، استخدام الأدوات بشكل متسق، والمزيد." وأضاف: "هذه التحسينات تمكّن المطورين من بناء وكلاء برمجيات أفضل بكثير في مهام هندسة البرمجيات الواقعية."
تقدم النسخ الأصغر توازنات مختلفة بين الأداء والتكلفة. حيث تتميز GPT-4.1 mini وnano بالكفاءة والسرعة على حساب بعض الدقة، وتقول أوبن إيه آي إن GPT-4.1 nano هو أسرع وأرخص نموذج لديها حتى الآن. تختلف الأسعار بشكل كبير عبر المجموعة: GPT-4.1 يكلف 2 دولار لكل مليون رمز إدخال و8 دولارات لكل مليون رمز إخراج، بينما GPT-4.1 mini يكلف 0.40 دولار لكل مليون رمز إدخال و1.60 دولار لكل مليون رمز إخراج، وGPT-4.1 nano يكلف فقط 0.10 دولار لكل مليون رمز إدخال و0.40 دولار لكل مليون رمز إخراج.
في التقييمات خارج مجال البرمجة، اختبرت أوبن إيه آي نموذج GPT-4.1 باستخدام اختبار Video-MME، الذي يقيس قدرة النموذج على فهم محتوى الفيديوهات. حقق GPT-4.1 دقة بلغت 72% في فئة الفيديوهات الطويلة بدون ترجمة، متصدرًا هذا المعيار.
يتماشى هذا الإطلاق مع طموحات أوبن إيه آي الأوسع في مجال البرمجة. فقد تحدثت المديرة المالية للشركة، سارة فراير، مؤخرًا عن رؤية الشركة في إنشاء "مهندس برمجيات وكيل" قادر على برمجة تطبيقات كاملة من البداية للنهاية. وقالت فراير: "يمكنه فعليًا بناء تطبيق لك — وليس فقط بناؤه، بل أيضًا إجراء اختبارات الجودة، واكتشاف الأخطاء، وكتابة التوثيق الخاص به."
يصبح مجال نماذج الذكاء الاصطناعي للبرمجة أكثر تنافسية يومًا بعد يوم. إذ يتصدر نموذج Gemini 2.5 Pro من جوجل حاليًا اختبار SWE-bench Verified بنسبة 63.8%، بينما يسجل نموذج Claude 3.7 Sonnet من Anthropic نسبة 62.3% في الوضع القياسي وتصل إلى 70.3% في وضع التفكير المطوّل. ورغم هذه النتائج المبهرة، تعترف أوبن إيه آي بأن حتى أفضل النماذج الحالية لا تزال تواجه صعوبة في مهام لا تشكل تحديًا للخبراء. فقد أظهرت العديد من الدراسات أن النماذج المنتجة للشيفرة غالبًا ما تفشل في إصلاح، بل وتضيف أحيانًا، ثغرات أمنية وأخطاء. كما يصبح أداء GPT-4.1 أقل موثوقية كلما زاد عدد الرموز التي يحتاج إلى معالجتها.