menu
close

OpenAI Lança Família GPT-4.1 para Dominar o Mercado de IA para Programação

A OpenAI lançou uma nova família de modelos chamada GPT-4.1, incluindo versões padrão, mini e nano, todas otimizadas para programação e seguimento de instruções, com uma impressionante janela de contexto de 1 milhão de tokens. Esses modelos, exclusivos para API, superam as ofertas anteriores da OpenAI em benchmarks de programação, com o GPT-4.1 principal apresentando uma melhoria de 21% em relação ao GPT-4o. O lançamento ocorre em meio à intensificação da concorrência com o Gemini 2.5 Pro do Google e o Claude 3.7 Sonnet da Anthropic, que também disputam a liderança no segmento de IA para programação.
OpenAI Lança Família GPT-4.1 para Dominar o Mercado de IA para Programação

A OpenAI lançou uma nova família de modelos chamada GPT-4.1, incluindo GPT-4.1, GPT-4.1 mini e GPT-4.1 nano, todos com excelente desempenho em programação e seguimento de instruções. Lançados em 14 de abril, esses novos modelos estão disponíveis exclusivamente por meio da interface de programação de aplicações (API) da OpenAI e superam o modelo mais avançado da empresa, o GPT-4o, em todos os quesitos.

Os modelos apresentam melhor compreensão de contexto, suportando até 1 milhão de tokens (aproximadamente 750 mil palavras) e contam com conhecimento atualizado até junho de 2024. No SWE-bench Verified, uma métrica de habilidades reais em engenharia de software, o GPT-4.1 conclui 54,6% das tarefas, contra 33,2% do GPT-4o. Isso reflete avanços na capacidade do modelo de explorar repositórios de código, finalizar tarefas e gerar códigos que funcionam e passam nos testes.

“Otimizamos o GPT-4.1 para uso no mundo real com base em feedback direto, melhorando em áreas que mais importam para desenvolvedores: programação frontend, menos edições desnecessárias, seguimento confiável de formatos, respeito à estrutura e ordem das respostas, uso consistente de ferramentas e mais”, explicou um porta-voz da OpenAI. “Essas melhorias permitem que desenvolvedores criem agentes muito mais eficientes em tarefas reais de engenharia de software.”

As variantes menores oferecem diferentes equilíbrios entre desempenho e custo. O GPT-4.1 mini e o nano são mais eficientes e rápidos, com alguma perda de precisão; a OpenAI afirma que o GPT-4.1 nano é seu modelo mais rápido e barato até hoje. Os preços variam bastante: GPT-4.1 custa US$ 2 por milhão de tokens de entrada e US$ 8 por milhão de tokens de saída; GPT-4.1 mini sai por US$ 0,40/milhão de tokens de entrada e US$ 1,60/milhão de tokens de saída; já o GPT-4.1 nano custa apenas US$ 0,10/milhão de tokens de entrada e US$ 0,40/milhão de tokens de saída.

Em avaliações além da programação, a OpenAI testou o GPT-4.1 usando o Video-MME, que mede a capacidade do modelo de compreender conteúdos em vídeos. O GPT-4.1 atingiu 72% de acurácia na categoria de vídeos longos sem legendas, conquistando o topo desse benchmark.

Esse lançamento está alinhado com as ambições mais amplas da OpenAI no segmento de programação. A CFO da OpenAI, Sarah Friar, discutiu recentemente a visão da empresa de criar um “engenheiro de software agente” capaz de programar aplicativos completos de ponta a ponta. “Ele pode literalmente construir um app para você — e não só construir, mas também realizar controle de qualidade, testes de bugs e escrever a documentação”, afirmou Friar.

O mercado de modelos de IA para programação está cada vez mais competitivo. O Gemini 2.5 Pro, do Google, atualmente lidera o benchmark SWE-bench Verified com 63,8%, enquanto o Claude 3.7 Sonnet, da Anthropic, marca 62,3% no modo padrão e chega a 70,3% no modo de raciocínio estendido. Apesar desses benchmarks impressionantes, a OpenAI reconhece que mesmo os melhores modelos atuais ainda enfrentam dificuldades em tarefas que não desafiam especialistas humanos. Diversos estudos mostram que modelos geradores de código frequentemente falham em corrigir — e até introduzem — vulnerabilidades de segurança e bugs. O GPT-4.1 também se torna menos confiável à medida que precisa processar mais tokens de entrada.

Source: TechCrunch

Latest News