Η OpenAI παρουσίασε μια νέα οικογένεια μοντέλων με την ονομασία GPT-4.1, συμπεριλαμβανομένων των GPT-4.1, GPT-4.1 mini και GPT-4.1 nano, τα οποία διακρίνονται στην κωδικοποίηση και την ακριβή ακολουθία οδηγιών. Τα νέα μοντέλα, που κυκλοφόρησαν στις 14 Απριλίου, είναι διαθέσιμα αποκλειστικά μέσω του API της OpenAI και ξεπερνούν το προηγμένο μοντέλο GPT-4o της εταιρείας σε όλους τους τομείς.
Τα μοντέλα διαθέτουν βελτιωμένη κατανόηση συμφραζομένων, υποστηρίζοντας έως και 1 εκατομμύριο tokens (περίπου 750.000 λέξεις) και ενημερωμένη γνώση έως τον Ιούνιο του 2024. Στο SWE-bench Verified, μέτρο πραγματικών δεξιοτήτων μηχανικής λογισμικού, το GPT-4.1 ολοκληρώνει το 54,6% των εργασιών, έναντι 33,2% για το GPT-4o. Αυτό αντικατοπτρίζει βελτιώσεις στην ικανότητα του μοντέλου να εξερευνά αποθετήρια κώδικα, να ολοκληρώνει εργασίες και να παράγει κώδικα που εκτελείται και περνά επιτυχώς τα τεστ.
"Βελτιστοποιήσαμε το GPT-4.1 για πραγματική χρήση, βασισμένοι σε άμεση ανατροφοδότηση, ώστε να βελτιωθούμε σε τομείς που ενδιαφέρουν περισσότερο τους προγραμματιστές: frontend κωδικοποίηση, λιγότερες περιττές αλλαγές, αξιόπιστη τήρηση φορμάτ, συνέπεια στη δομή και τη σειρά των απαντήσεων, σταθερή χρήση εργαλείων και άλλα", εξήγησε εκπρόσωπος της OpenAI. "Αυτές οι βελτιώσεις επιτρέπουν στους προγραμματιστές να δημιουργούν agents που είναι σημαντικά καλύτεροι σε πραγματικές εργασίες μηχανικής λογισμικού."
Οι μικρότερες παραλλαγές προσφέρουν διαφορετικές ισορροπίες απόδοσης-κόστους. Τα GPT-4.1 mini και nano είναι πιο αποδοτικά και ταχύτερα με κάποιο κόστος στην ακρίβεια, με την OpenAI να δηλώνει ότι το GPT-4.1 nano είναι το πιο γρήγορο και οικονομικό μοντέλο της μέχρι σήμερα. Οι τιμές διαφέρουν σημαντικά: το GPT-4.1 κοστίζει $2 ανά εκατομμύριο tokens εισόδου και $8 ανά εκατομμύριο tokens εξόδου, το GPT-4.1 mini $0,40/εκατομμύριο tokens εισόδου και $1,60/εκατομμύριο tokens εξόδου, ενώ το GPT-4.1 nano μόλις $0,10/εκατομμύριο tokens εισόδου και $0,40/εκατομμύριο tokens εξόδου.
Σε αξιολογήσεις πέραν της κωδικοποίησης, η OpenAI δοκίμασε το GPT-4.1 με το Video-MME, που μετρά την ικανότητα ενός μοντέλου να κατανοεί περιεχόμενο βίντεο. Το GPT-4.1 πέτυχε ακρίβεια 72% στην κατηγορία "μακρύ, χωρίς υπότιτλους" βίντεο, κατακτώντας την κορυφή σε αυτό το benchmark.
Η κυκλοφορία αυτή ευθυγραμμίζεται με τις ευρύτερες φιλοδοξίες της OpenAI στον χώρο της κωδικοποίησης. Η CFO της OpenAI, Sarah Friar, συζήτησε πρόσφατα το όραμα της εταιρείας για τη δημιουργία ενός "agentic software engineer" που μπορεί να προγραμματίσει ολόκληρες εφαρμογές από άκρη σε άκρη. "Μπορεί κυριολεκτικά να δημιουργήσει μια εφαρμογή για εσάς — και όχι μόνο να τη χτίσει, αλλά και να κάνει δικό του quality assurance, δοκιμή σφαλμάτων και συγγραφή τεκμηρίωσης", δήλωσε η Friar.
Ο χώρος των AI μοντέλων κωδικοποίησης γίνεται όλο και πιο ανταγωνιστικός. Το Gemini 2.5 Pro της Google βρίσκεται αυτή τη στιγμή στην κορυφή του SWE-bench Verified με 63,8%, ενώ το Claude 3.7 Sonnet της Anthropic πετυχαίνει 62,3% σε standard mode και έως 70,3% σε extended thinking mode. Παρά τα εντυπωσιακά αυτά benchmarks, η OpenAI αναγνωρίζει ότι ακόμα και τα καλύτερα μοντέλα σήμερα δυσκολεύονται σε εργασίες που δεν θα προβλημάτιζαν έναν ειδικό. Πολλές μελέτες έχουν δείξει ότι τα μοντέλα παραγωγής κώδικα συχνά αποτυγχάνουν να διορθώσουν, και μάλιστα εισάγουν, κενά ασφαλείας και σφάλματα. Το GPT-4.1 επίσης γίνεται λιγότερο αξιόπιστο όσο αυξάνεται ο όγκος των tokens εισόδου που καλείται να επεξεργαστεί.