menu
close

OpenAI presenta la famiglia GPT-4.1 per dominare il mercato dell’AI per la programmazione

OpenAI ha lanciato una nuova famiglia di modelli chiamata GPT-4.1, che include versioni standard, mini e nano, tutte ottimizzate per la programmazione e il rispetto delle istruzioni, con una finestra di contesto enorme da 1 milione di token. Questi modelli, disponibili esclusivamente tramite API, superano le precedenti offerte di OpenAI nei benchmark di programmazione, con il modello di punta GPT-4.1 che mostra un miglioramento del 21% rispetto a GPT-4o. Il lancio arriva mentre la concorrenza si fa più intensa, con Gemini 2.5 Pro di Google e Claude 3.7 Sonnet di Anthropic che puntano anch’essi al primato nell’AI per la programmazione.
OpenAI presenta la famiglia GPT-4.1 per dominare il mercato dell’AI per la programmazione

OpenAI ha lanciato una nuova famiglia di modelli chiamata GPT-4.1, che comprende GPT-4.1, GPT-4.1 mini e GPT-4.1 nano, tutti eccellenti nella programmazione e nell’esecuzione di istruzioni. Rilasciati il 14 aprile, questi nuovi modelli sono disponibili esclusivamente tramite l’interfaccia di programmazione (API) di OpenAI e superano in tutte le aree il modello più avanzato della società, GPT-4o.

I modelli presentano una comprensione del contesto migliorata, supportando fino a 1 milione di token (circa 750.000 parole) e dispongono di conoscenze aggiornate fino a giugno 2024. Nel benchmark SWE-bench Verified, che misura le competenze di ingegneria del software nel mondo reale, GPT-4.1 completa il 54,6% dei compiti, contro il 33,2% di GPT-4o. Questo riflette i miglioramenti nella capacità del modello di esplorare repository di codice, portare a termine compiti e produrre codice che sia eseguibile e superi i test.

"Abbiamo ottimizzato GPT-4.1 per l’utilizzo reale basandoci su feedback diretti, per migliorare nelle aree che più interessano agli sviluppatori: programmazione frontend, meno modifiche superflue, rispetto affidabile dei formati, aderenza alla struttura e all’ordine delle risposte, uso coerente degli strumenti e altro ancora", ha spiegato un portavoce di OpenAI. "Questi miglioramenti permettono agli sviluppatori di creare agenti molto più efficaci nei compiti di ingegneria del software reale."

Le varianti più piccole offrono diversi compromessi tra prestazioni e costi. GPT-4.1 mini e nano sono più efficienti e veloci a scapito di una certa accuratezza, e OpenAI afferma che GPT-4.1 nano è il modello più veloce ed economico mai realizzato. I prezzi variano notevolmente all’interno della gamma: GPT-4.1 costa 2 dollari per milione di token in input e 8 dollari per milione di token in output, GPT-4.1 mini 0,40 dollari/milione di token in input e 1,60 dollari/milione di token in output, mentre GPT-4.1 nano solo 0,10 dollari/milione di token in input e 0,40 dollari/milione di token in output.

In valutazioni oltre la programmazione, OpenAI ha testato GPT-4.1 con Video-MME, che misura la capacità di un modello di comprendere contenuti video. GPT-4.1 ha raggiunto il 72% di accuratezza nella categoria video "lunghi, senza sottotitoli", conquistando la prima posizione in questo benchmark.

Questo rilascio si inserisce nelle più ampie ambizioni di OpenAI nel settore della programmazione. La CFO di OpenAI, Sarah Friar, ha recentemente illustrato la visione dell’azienda di creare un "agente ingegnere del software" in grado di programmare intere app end-to-end. "Può letteralmente costruire un’app per te — e non solo costruirla, ma anche occuparsi del controllo qualità, del bug testing e della scrittura della documentazione", ha dichiarato Friar.

Il settore dei modelli AI per la programmazione è sempre più competitivo. Gemini 2.5 Pro di Google attualmente guida il benchmark SWE-bench Verified con il 63,8%, mentre Claude 3.7 Sonnet di Anthropic raggiunge il 62,3% in modalità standard e fino al 70,3% in modalità extended thinking. Nonostante questi benchmark impressionanti, OpenAI riconosce che anche i migliori modelli attuali hanno difficoltà con compiti che non metterebbero in crisi un esperto umano. Numerosi studi hanno dimostrato che i modelli di generazione di codice spesso non riescono a correggere, e talvolta introducono, vulnerabilità di sicurezza e bug. Inoltre, GPT-4.1 diventa meno affidabile man mano che aumenta il numero di token in input da processare.

Source: TechCrunch

Latest News