menu
close

OpenAI Revela Família GPT-4.1 para Dominar o Mercado de Programação em IA

A OpenAI lançou uma nova família de modelos denominada GPT-4.1, incluindo versões standard, mini e nano, todas otimizadas para programação e seguimento de instruções, com uma impressionante janela de contexto de 1 milhão de tokens. Estes modelos, exclusivos para API, superam as ofertas anteriores da OpenAI em benchmarks de programação, com o modelo principal GPT-4.1 a apresentar uma melhoria de 21% face ao GPT-4o. Este lançamento surge numa altura em que a concorrência se intensifica, com o Gemini 2.5 Pro da Google e o Claude 3.7 Sonnet da Anthropic também a disputar a liderança no espaço da programação com IA.
OpenAI Revela Família GPT-4.1 para Dominar o Mercado de Programação em IA

A OpenAI lançou uma nova família de modelos denominada GPT-4.1, incluindo o GPT-4.1, GPT-4.1 mini e GPT-4.1 nano, todos eles excelentes em programação e seguimento de instruções. Lançados a 14 de abril, estes novos modelos estão disponíveis exclusivamente através da interface de programação de aplicações (API) da OpenAI e superam o modelo mais avançado da empresa até então, o GPT-4o, em todos os aspetos.

Os modelos apresentam uma compreensão de contexto melhorada, suportando até 1 milhão de tokens (aproximadamente 750.000 palavras) e vêm equipados com conhecimento atualizado até junho de 2024. No SWE-bench Verified, uma métrica das competências de engenharia de software no mundo real, o GPT-4.1 conclui 54,6% das tarefas, em comparação com 33,2% do GPT-4o. Isto reflete melhorias na capacidade do modelo para explorar repositórios de código, concluir tarefas e produzir código que não só executa como também passa nos testes.

"Otimizámos o GPT-4.1 para utilização no mundo real, com base em feedback direto, para melhorar nas áreas que mais importam aos programadores: programação frontend, menos edições desnecessárias, cumprimento fiável de formatos, respeito pela estrutura e ordem das respostas, utilização consistente de ferramentas, entre outros", explicou um porta-voz da OpenAI. "Estas melhorias permitem aos programadores criar agentes consideravelmente melhores em tarefas reais de engenharia de software."

As variantes mais pequenas oferecem diferentes equilíbrios entre desempenho e custo. O GPT-4.1 mini e nano são mais eficientes e rápidos, à custa de alguma precisão, sendo que a OpenAI afirma que o GPT-4.1 nano é o seu modelo mais rápido e económico de sempre. Os preços variam significativamente entre os modelos: o GPT-4.1 custa 2 dólares por milhão de tokens de entrada e 8 dólares por milhão de tokens de saída, o GPT-4.1 mini custa 0,40 dólares/milhão de tokens de entrada e 1,60 dólares/milhão de tokens de saída, e o GPT-4.1 nano apenas 0,10 dólares/milhão de tokens de entrada e 0,40 dólares/milhão de tokens de saída.

Em avaliações para além da programação, a OpenAI testou o GPT-4.1 com o Video-MME, que mede a capacidade do modelo para compreender conteúdos em vídeo. O GPT-4.1 alcançou 72% de precisão na categoria de vídeos "longos, sem legendas", conquistando o primeiro lugar neste benchmark.

Este lançamento está alinhado com as ambições mais amplas da OpenAI no domínio da programação. A CFO da OpenAI, Sarah Friar, discutiu recentemente a visão da empresa de criar um "engenheiro de software agente" capaz de programar aplicações completas de ponta a ponta. "Pode literalmente construir uma aplicação para si — e não só construí-la, mas também realizar o seu próprio controlo de qualidade, testes de bugs e redação de documentação", afirmou Friar.

O espaço dos modelos de programação com IA está cada vez mais competitivo. O Gemini 2.5 Pro da Google lidera atualmente o benchmark SWE-bench Verified com 63,8%, enquanto o Claude 3.7 Sonnet da Anthropic atinge 62,3% no modo standard e até 70,3% no modo de pensamento estendido. Apesar destes resultados impressionantes, a OpenAI reconhece que mesmo os melhores modelos atuais têm dificuldades em tarefas que não seriam problemáticas para especialistas humanos. Diversos estudos demonstraram que modelos de geração de código frequentemente não conseguem corrigir, e até introduzem, vulnerabilidades de segurança e bugs. O GPT-4.1 também se torna menos fiável à medida que tem de processar mais tokens de entrada.

Source: TechCrunch

Latest News