menu
close

OpenAI presenta la familia GPT-4.1 para dominar el mercado de la programación con IA

OpenAI ha lanzado una nueva familia de modelos denominada GPT-4.1, que incluye versiones estándar, mini y nano, todas optimizadas para programación y seguimiento de instrucciones, con una enorme ventana de contexto de un millón de tokens. Estos modelos, exclusivos para API, superan a las ofertas anteriores de OpenAI en pruebas de programación, con el modelo insignia GPT-4.1 mostrando una mejora del 21% respecto a GPT-4o. Este lanzamiento se produce en un contexto de creciente competencia con Gemini 2.5 Pro de Google y Claude 3.7 Sonnet de Anthropic, que también buscan liderar el sector de la programación con IA.
OpenAI presenta la familia GPT-4.1 para dominar el mercado de la programación con IA

OpenAI ha lanzado una nueva familia de modelos denominada GPT-4.1, que incluye GPT-4.1, GPT-4.1 mini y GPT-4.1 nano, todos ellos destacados en programación y seguimiento de instrucciones. Presentados el 14 de abril, estos nuevos modelos están disponibles exclusivamente a través de la interfaz de programación de aplicaciones (API) de OpenAI y superan en todos los aspectos al modelo más avanzado de la compañía hasta la fecha, GPT-4o.

Los modelos cuentan con una mejor comprensión del contexto, admitiendo hasta 1 millón de tokens (aproximadamente 750.000 palabras) y disponen de conocimientos actualizados hasta junio de 2024. En SWE-bench Verified, una métrica que mide habilidades de ingeniería de software en situaciones reales, GPT-4.1 completa el 54,6% de las tareas, frente al 33,2% de GPT-4o. Esto refleja mejoras en la capacidad del modelo para explorar repositorios de código, finalizar tareas y generar código que funciona y pasa las pruebas.

"Hemos optimizado GPT-4.1 para su uso en el mundo real basándonos en comentarios directos para mejorar en los aspectos que más importan a los desarrolladores: programación frontend, realizar menos ediciones innecesarias, seguir formatos de manera fiable, respetar la estructura y el orden de las respuestas, uso coherente de herramientas y más", explicó un portavoz de OpenAI. "Estas mejoras permiten a los desarrolladores crear agentes considerablemente mejores en tareas reales de ingeniería de software."

Las variantes más pequeñas ofrecen diferentes equilibrios entre rendimiento y coste. GPT-4.1 mini y nano son más eficientes y rápidas, a costa de cierta precisión, y OpenAI afirma que GPT-4.1 nano es su modelo más rápido y económico hasta la fecha. Los precios varían significativamente: GPT-4.1 cuesta 2 dólares por millón de tokens de entrada y 8 dólares por millón de tokens de salida; GPT-4.1 mini cuesta 0,40 dólares/millón de tokens de entrada y 1,60 dólares/millón de tokens de salida; y GPT-4.1 nano solo 0,10 dólares/millón de tokens de entrada y 0,40 dólares/millón de tokens de salida.

En evaluaciones más allá de la programación, OpenAI probó GPT-4.1 con Video-MME, que mide la capacidad de un modelo para comprender contenido en vídeos. GPT-4.1 alcanzó un 72% de precisión en la categoría de vídeos "largos, sin subtítulos", situándose en la primera posición de este benchmark.

Este lanzamiento está en línea con las ambiciones más amplias de OpenAI en el ámbito de la programación. La directora financiera de OpenAI, Sarah Friar, habló recientemente sobre la visión de la empresa de crear un "ingeniero de software agente" capaz de programar aplicaciones completas de principio a fin. "Literalmente puede construir una aplicación para ti —y no solo construirla, sino también encargarse de la garantía de calidad, las pruebas de errores y la redacción de la documentación", afirmó Friar.

El sector de los modelos de IA para programación es cada vez más competitivo. Gemini 2.5 Pro de Google lidera actualmente el benchmark SWE-bench Verified con un 63,8%, mientras que Claude 3.7 Sonnet de Anthropic obtiene un 62,3% en modo estándar y hasta un 70,3% en modo de pensamiento extendido. A pesar de estos impresionantes resultados, OpenAI reconoce que incluso los mejores modelos actuales tienen dificultades con tareas que no supondrían ningún problema para expertos humanos. Numerosos estudios han demostrado que los modelos generadores de código a menudo no logran corregir, e incluso introducen, vulnerabilidades de seguridad y errores. Además, GPT-4.1 se vuelve menos fiable cuanto mayor es la cantidad de tokens de entrada que debe procesar.

Source: TechCrunch

Latest News