menu
close

OpenAI presenta la familia GPT-4.1 para dominar el mercado de codificación con IA

OpenAI ha lanzado una nueva familia de modelos llamada GPT-4.1, que incluye versiones estándar, mini y nano, todas optimizadas para programación y seguimiento de instrucciones, con una enorme ventana de contexto de un millón de tokens. Estos modelos, disponibles exclusivamente vía API, superan a las ofertas anteriores de OpenAI en pruebas de codificación, destacando el modelo principal GPT-4.1 con una mejora del 21% sobre GPT-4o. Este lanzamiento ocurre mientras la competencia se intensifica con Gemini 2.5 Pro de Google y Claude 3.7 Sonnet de Anthropic, que también buscan liderar el espacio de IA para programación.
OpenAI presenta la familia GPT-4.1 para dominar el mercado de codificación con IA

OpenAI ha lanzado una nueva familia de modelos llamada GPT-4.1, que incluye GPT-4.1, GPT-4.1 mini y GPT-4.1 nano, todos los cuales sobresalen en programación y seguimiento de instrucciones. Lanzados el 14 de abril, estos nuevos modelos están disponibles exclusivamente a través de la interfaz de programación de aplicaciones (API) de OpenAI y superan en todos los aspectos al modelo más avanzado de la compañía, GPT-4o.

Los modelos cuentan con una mejor comprensión del contexto, admitiendo hasta 1 millón de tokens (aproximadamente 750,000 palabras) y están actualizados con información hasta junio de 2024. En SWE-bench Verified, una métrica que mide habilidades de ingeniería de software en el mundo real, GPT-4.1 completa el 54.6% de las tareas, frente al 33.2% de GPT-4o. Esto refleja mejoras en la capacidad del modelo para explorar repositorios de código, finalizar tareas y producir código que no solo se ejecuta, sino que también pasa las pruebas.

"Hemos optimizado GPT-4.1 para su uso en el mundo real, basándonos en retroalimentación directa para mejorar en las áreas que más importan a los desarrolladores: programación frontend, realizar menos ediciones innecesarias, seguir formatos de manera confiable, respetar la estructura y el orden de las respuestas, uso consistente de herramientas y más", explicó un portavoz de OpenAI. "Estas mejoras permiten a los desarrolladores crear agentes considerablemente mejores para tareas reales de ingeniería de software."

Las variantes más pequeñas ofrecen diferentes equilibrios entre rendimiento y costo. GPT-4.1 mini y nano son más eficientes y rápidas, aunque sacrifican algo de precisión; OpenAI afirma que GPT-4.1 nano es su modelo más rápido y económico hasta la fecha. Los precios varían significativamente: GPT-4.1 cuesta $2 dólares por millón de tokens de entrada y $8 por millón de tokens de salida; GPT-4.1 mini cuesta $0.40/millón de tokens de entrada y $1.60/millón de tokens de salida; y GPT-4.1 nano cuesta solo $0.10/millón de tokens de entrada y $0.40/millón de tokens de salida.

En evaluaciones más allá de la codificación, OpenAI probó GPT-4.1 usando Video-MME, que mide la capacidad del modelo para comprender contenido en videos. GPT-4.1 alcanzó un 72% de precisión en la categoría de videos "largos, sin subtítulos", logrando la mejor posición en este benchmark.

Este lanzamiento está alineado con las ambiciones más amplias de OpenAI en el ámbito de la programación. La directora financiera de OpenAI, Sarah Friar, habló recientemente sobre la visión de la empresa de crear un "ingeniero de software agente" capaz de programar aplicaciones completas de principio a fin. "Literalmente puede construir una app para ti —y no solo construirla, sino también encargarse de la garantía de calidad, pruebas de errores y redacción de documentación", afirmó Friar.

El espacio de modelos de IA para programación se está volviendo cada vez más competitivo. Gemini 2.5 Pro de Google actualmente lidera el benchmark SWE-bench Verified con un 63.8%, mientras que Claude 3.7 Sonnet de Anthropic obtiene un 62.3% en modo estándar y hasta un 70.3% en modo de pensamiento extendido. A pesar de estos impresionantes resultados, OpenAI reconoce que incluso los mejores modelos actuales tienen dificultades con tareas que no representarían un reto para expertos humanos. Diversos estudios han demostrado que los modelos generadores de código suelen fallar al corregir, e incluso pueden introducir, vulnerabilidades de seguridad y errores. Además, GPT-4.1 se vuelve menos confiable a medida que debe procesar más tokens de entrada.

Source: TechCrunch

Latest News