menu
close

OpenAI lancerer GPT-4.1-familien for at dominere AI-kodningsmarkedet

OpenAI har lanceret en ny modelserie kaldet GPT-4.1, som inkluderer standard-, mini- og nano-versioner. Alle er optimeret til kodning og instruktion med en enorm kontekstlængde på 1 million tokens. Disse API-eksklusive modeller overgår OpenAIs tidligere tilbud på kodningsbenchmarks, hvor flagskibet GPT-4.1 viser en forbedring på 21% i forhold til GPT-4o. Lanceringen sker samtidig med, at konkurrencen intensiveres med Googles Gemini 2.5 Pro og Anthropics Claude 3.7 Sonnet, der også kæmper om førerpositionen inden for AI-kodning.
OpenAI lancerer GPT-4.1-familien for at dominere AI-kodningsmarkedet

OpenAI har lanceret en ny modelserie kaldet GPT-4.1, som omfatter GPT-4.1, GPT-4.1 mini og GPT-4.1 nano, der alle udmærker sig inden for kodning og instruktion. De nye modeller blev frigivet den 14. april og er udelukkende tilgængelige via OpenAIs API. De overgår virksomhedens hidtil mest avancerede model, GPT-4o, på alle områder.

Modellerne har forbedret kontekstforståelse med understøttelse af op til 1 million tokens (omtrent 750.000 ord) og opdateret viden frem til juni 2024. På SWE-bench Verified, et mål for reelle softwareingeniørfærdigheder, løser GPT-4.1 54,6% af opgaverne mod 33,2% for GPT-4o. Dette afspejler forbedringer i modellens evne til at udforske kodebaser, færdiggøre opgaver og generere kode, der både kører og består tests.

"Vi har optimeret GPT-4.1 til brug i virkeligheden baseret på direkte feedback for at forbedre de områder, udviklere går mest op i: frontend-kodning, færre overflødige rettelser, pålidelig overholdelse af formater, korrekt struktur og rækkefølge i svar, konsekvent brug af værktøjer og mere," forklarer en OpenAI-talsmand. "Disse forbedringer gør det muligt for udviklere at bygge agenter, der er markant bedre til virkelige softwareingeniøropgaver."

De mindre varianter tilbyder forskellige balancer mellem ydeevne og pris. GPT-4.1 mini og nano er mere effektive og hurtigere på bekostning af en smule nøjagtighed, hvor OpenAI siger, at GPT-4.1 nano er deres hurtigste og billigste model nogensinde. Priserne varierer betydeligt: GPT-4.1 koster $2 pr. million input-tokens og $8 pr. million output-tokens, GPT-4.1 mini koster $0,40/million input-tokens og $1,60/million output-tokens, mens GPT-4.1 nano kun koster $0,10/million input-tokens og $0,40/million output-tokens.

Ved evalueringer ud over kodning testede OpenAI GPT-4.1 med Video-MME, som måler modellens evne til at forstå videoinhold. GPT-4.1 opnåede 72% nøjagtighed i kategorien "lange videoer uden undertekster" og indtog dermed førstepladsen på denne benchmark.

Denne lancering flugter med OpenAIs bredere ambitioner inden for kodning. OpenAIs CFO Sarah Friar har for nylig talt om virksomhedens vision om at skabe en "agentisk softwareingeniør", der kan programmere hele apps fra ende til anden. "Den kan bogstaveligt talt bygge en app for dig – og ikke kun bygge den, men også selv stå for kvalitetssikring, fejlfinding og dokumentation," udtalte Friar.

Markedet for AI-kodningsmodeller bliver stadig mere konkurrencepræget. Googles Gemini 2.5 Pro topper i øjeblikket SWE-bench Verified-benchmarken med 63,8%, mens Anthropics Claude 3.7 Sonnet scorer 62,3% i standardtilstand og op til 70,3% i udvidet tænkningstilstand. På trods af disse imponerende resultater anerkender OpenAI, at selv de bedste modeller i dag kæmper med opgaver, som ikke ville volde eksperter problemer. Mange undersøgelser har vist, at kodegenererende modeller ofte ikke formår at rette – og endda introducerer – sikkerhedsproblemer og fejl. GPT-4.1 bliver også mindre pålidelig, jo flere input-tokens den skal behandle.

Source: TechCrunch

Latest News