Qué trae de nuevo el GPT-5.4 en la práctica
OpenAI acaba de presentarle al mundo el GPT-5.4, que asume el puesto de modelo de inteligencia artificial más avanzado jamás creado por la empresa. Pero lo que llama la atención esta vez no es solo el salto de calidad en las respuestas — es el hecho de que, por primera vez, estamos ante un modelo con capacidad nativa de operar la computadora de forma independiente. Esto significa que la IA puede abrir aplicaciones, navegar por la web, interactuar con hojas de cálculo, documentos y presentaciones, e incluso controlar teclado y ratón a partir de capturas de pantalla, todo sin necesidad de que el usuario esté ahí guiando cada paso 🖥️. El nuevo modelo llega integrado a ChatGPT, a Codex — la herramienta de codificación de OpenAI — y también a la API, consolidando la estrategia de la empresa de transformar sus modelos de IA en verdaderos agentes autónomos capaces de resolver tareas complejas en segundo plano.
El lanzamiento del GPT-5.4 combina avances en tres frentes que OpenAI considera estratégicos: razonamiento, programación y trabajo profesional con hojas de cálculo, documentos y presentaciones. Esta combinación no es casualidad. La empresa apunta directamente al mercado corporativo, donde los profesionales pasan buena parte del día alternando entre herramientas de productividad e intentando conectar información dispersa en diferentes plataformas. Con un modelo capaz de moverse entre estas aplicaciones de forma autónoma, la promesa es que gran parte de ese trabajo operativo pueda delegarse a la inteligencia artificial.
Otro dato que merece atención es la precisión. Según la propia OpenAI, el GPT-5.4 es el modelo más factual que la empresa ha producido, presentando un 33% menos de probabilidades de generar información falsa en sus afirmaciones individuales en comparación con el GPT-5.2. Para quienes siguen el universo de la IA generativa, saben que las llamadas alucinaciones — esas respuestas inventadas que parecen convincentes pero están equivocadas — siempre han sido uno de los mayores desafíos de esta tecnología. Reducir este problema en un tercio es un avance significativo, especialmente para quienes dependen de la herramienta en contextos profesionales donde la fiabilidad de la información no se puede negociar.
El modelo también demuestra mejoras concretas en la navegación web y en la capacidad de activar herramientas y APIs de forma más precisa y eficiente para completar tareas. Además, el GPT-5.4 se destaca en preguntas que requieren la recopilación de información de múltiples fuentes. Según OpenAI, el modelo consigue realizar búsquedas más persistentes a lo largo de múltiples rondas para identificar las fuentes más relevantes, especialmente en cuestiones del tipo aguja en un pajar, sintetizando todo en una respuesta clara y bien fundamentada.
La lógica detrás de este lanzamiento es bastante directa: en lugar de solo responder preguntas de forma pasiva, la IA ahora puede actuar. Ejecuta acciones, toma decisiones intermedias y entrega resultados completos. Imagina pedirle a la IA que investigue precios de vuelos, compare opciones, rellene un formulario de reserva y organice todo en una hoja de cálculo — todo eso sin que necesites cambiar de pestaña ni hacer clic en nada. Ese es el tipo de escenario que el GPT-5.4 empieza a hacer viable, y es justamente por eso que está siendo visto como un hito en la carrera por los agentes autónomos que la industria tecnológica persigue desde hace años.
GPT-5.4 Thinking y la nueva experiencia en ChatGPT
Dentro de ChatGPT, la versión con la que los usuarios van a interactuar directamente es el GPT-5.4 Thinking, el modelo de razonamiento que acompaña este lanzamiento. Trae un cambio de experiencia que puede parecer pequeño sobre el papel, pero marca una diferencia enorme en el día a día: para consultas más complejas, el modelo mostrará un borrador de su trabajo mientras procesa la respuesta. Esto permite que el usuario siga el razonamiento en tiempo real y, si nota que algo se está desviando del camino esperado, puede ajustar o modificar la solicitud durante la propia respuesta, sin necesidad de empezar de cero ni estar añadiendo varios turnos de conversación para llegar al resultado deseado.
Esta funcionalidad ya está disponible en la aplicación web de ChatGPT y en la versión para Android. Para usuarios de iOS, OpenAI informó que el recurso llegará pronto. El GPT-5.4 Thinking estará accesible para suscriptores de los planes Plus, Team y Pro, mientras que una versión aún más robusta, llamada GPT-5.4 Pro, se está poniendo a disposición vía API y también para clientes de ChatGPT Enterprise y Edu. Este modelo Pro es descrito por OpenAI como la opción de máximo rendimiento para tareas complejas, pensado para entornos corporativos y educativos donde la exigencia sobre la calidad y la profundidad de las respuestas es mayor.
En la práctica, la posibilidad de intervenir durante el proceso de razonamiento de la IA resuelve una frustración común de quienes usan asistentes basados en modelos de lenguaje. ¿Cuántas veces has esperado a que se generara una respuesta larga por completo solo para darte cuenta de que la IA interpretó tu pregunta de forma diferente a lo que querías? Con el GPT-5.4 Thinking, este tipo de situación tiende a disminuir bastante, porque el control vuelve parcialmente a las manos del usuario incluso durante la generación de la respuesta. Es un enfoque que valora la colaboración entre humano y máquina en lugar de tratar la interacción como una vía de sentido único 💡.
Codex gana superpoderes con el nuevo modelo
Codex, que es la plataforma de ingeniería de software de OpenAI, recibió una actualización que cambia bastante la forma en que los desarrolladores pueden trabajar con asistencia de IA. Con la llegada del GPT-5.4 como motor principal, Codex ahora puede manejar tareas de programación de principio a fin con mucha más autonomía. El GPT-5.4 puede escribir código para operar computadoras, además de emitir comandos de teclado y ratón en respuesta a capturas de pantalla, lo que eleva el nivel de interacción de la herramienta con el entorno de desarrollo.
En la práctica, esto significa que un desarrollador puede describir una funcionalidad entera en lenguaje natural — algo como crear un sistema de autenticación con verificación en dos pasos — y Codex va a generar el código, crear las pruebas, identificar posibles fallos de seguridad y sugerir mejoras de rendimiento, todo dentro de un flujo continuo y sin necesidad de supervisión constante. Esta capacidad de encadenar múltiples etapas de forma autónoma es lo que diferencia esta actualización de las versiones anteriores, que ya eran buenas generando fragmentos de código pero exigían bastante intervención humana para conectar las piezas.
Para equipos de desarrollo que trabajan con plazos ajustados y proyectos complejos, el impacto puede ser considerable. Codex con GPT-5.4 no sustituye al programador, pero funciona como un compañero de equipo incansable que se encarga de las tareas más repetitivas y mecánicas mientras el equipo humano se enfoca en las decisiones de arquitectura y en la lógica de negocio. La integración con la API también abre puertas para que las empresas incorporen esta capacidad directamente en sus propios entornos de desarrollo, creando pipelines automatizados donde la IA participa activamente del ciclo de vida del software.
Vale mencionar que esta evolución de Codex también acompaña una tendencia más amplia del mercado. Empresas como Google, Anthropic y Meta están invirtiendo fuerte en modelos de IA orientados a programación y automatización de tareas. La diferencia que OpenAI intenta establecer con el GPT-5.4 es justamente esa capacidad de uso de la computadora de forma nativa, que transforma el modelo en algo más cercano a un asistente que realmente opera la máquina que a un chatbot sofisticado que solo sugiere qué hacer. Esta distinción puede parecer sutil, pero en la práctica representa un cambio fundamental en la relación entre humanos e inteligencia artificial en el entorno laboral.
El contexto de la carrera por los agentes autónomos
El lanzamiento del GPT-5.4 no ocurre en el vacío. Forma parte de un movimiento mucho mayor que se ha apoderado de la industria tecnológica en los últimos meses. La propia OpenAI ya había introducido anteriormente el ChatGPT Agent, una herramienta capaz de tomar el control de la computadora para ejecutar tareas como buscar y comprar ingredientes para una comida. En la misma época, una avalancha de otras herramientas enfocadas en agentes surgió en el mercado: Anthropic lanzó actualizaciones de Claude con capacidades orientadas a agentes y ciberseguridad, Microsoft integró agentes de IA en la barra de tareas de Windows 11, Adobe trajo agentes creativos para Photoshop y Premiere Pro, y Google implementó agentes en Google Shopping con funcionalidades de checkout y llamadas automáticas.
Todo este movimiento apunta hacia un futuro donde redes de agentes impulsados por IA operan en segundo plano, completando trabajos complejos en internet y dentro de programas sin que el usuario necesite intervenir en cada microetapa. Es el concepto de futuro agéntico que las empresas de IA están construyendo — una capa de inteligencia que se posiciona entre el usuario y las herramientas digitales, simplificando procesos que hoy requieren decenas de clics, alternancia entre pestañas y repetición manual de tareas.
Por qué los agentes autónomos importan tanto ahora
La carrera por los agentes autónomos se ha convertido en el gran campo de batalla de la industria de inteligencia artificial en 2025, y el lanzamiento del GPT-5.4 por parte de OpenAI lo deja aún más claro. La idea central es que los modelos de IA no se queden más limitados a una ventana de chat — necesitan salir de ese espacio e interactuar con el mundo digital de la misma forma en que lo haría un ser humano. Esto implica abrir navegadores, hacer clic en botones, rellenar formularios, copiar datos de una aplicación a otra y tomar decisiones intermedias sin pedir permiso en cada paso.
El GPT-5.4 representa un paso concreto en esa dirección porque incorpora estas habilidades de forma nativa, sin depender de plugins externos ni integraciones improvisadas. Para empresas y profesionales que lidian con tareas operativas repetitivas, este tipo de automatización inteligente puede liberar horas de trabajo por semana, permitiendo que la energía humana se dirija a actividades que realmente exigen creatividad, criterio y pensamiento estratégico.
Por supuesto, esta transición hacia los agentes autónomos también plantea cuestiones importantes sobre seguridad y control. Cuando una IA tiene acceso al teclado y al ratón de tu computadora, el margen para errores con consecuencias reales aumenta. OpenAI afirma que el GPT-5.4 incluye capas adicionales de protección, como confirmaciones en etapas críticas y límites de acción configurables por el usuario. Aun así, estamos en un territorio relativamente nuevo, y la experiencia práctica de los próximos meses revelará cuán robustas son realmente estas protecciones. El punto positivo es que la reducción de alucinaciones en un 33% contribuye directamente a la fiabilidad de estos agentes — al fin y al cabo, un agente autónomo que actúa basándose en información errónea puede causar problemas mucho mayores que un chatbot que simplemente da una respuesta equivocada en una conversación.
Disponibilidad y planes de acceso
El GPT-5.4 ya se está poniendo a disposición de forma gradual en ChatGPT, en Codex y en la API. El modelo de razonamiento GPT-5.4 Thinking llega para usuarios de los planes Plus, Team y Pro. Por su parte, el GPT-5.4 Pro, orientado al máximo rendimiento en tareas complejas, está disponible vía API y para clientes de ChatGPT Enterprise y Edu. Esta segmentación muestra que OpenAI está apostando por capas de acceso, garantizando que tanto usuarios individuales como grandes organizaciones encuentren la versión del modelo que mejor se ajuste a sus necesidades.
Para desarrolladores que trabajan con la API, la llegada del GPT-5.4 representa nuevas posibilidades de construir aplicaciones que van más allá de la generación de texto. La capacidad nativa de uso de la computadora abre espacio para herramientas que automatizan flujos de trabajo completos, desde el llenado de informes hasta la ejecución de rutinas complejas dentro de sistemas internos. El potencial es grande, y las primeras implementaciones prácticas deberían aparecer rápidamente conforme la comunidad de desarrolladores empiece a explorar lo que el modelo es capaz de hacer.
Qué esperar de aquí en adelante
El escenario que se dibuja para los próximos meses es de una adopción gradual, pero consistente, de estas capacidades por parte de empresas de todos los tamaños. Las startups que ya nacieron en el ecosistema de IA probablemente serán las primeras en explorar el potencial completo del GPT-5.4 y del Codex actualizado, mientras que las organizaciones más grandes deberían adoptar una postura más cautelosa, probando los agentes autónomos en entornos controlados antes de liberarlos para producción.
La competencia entre OpenAI, Google, Anthropic, Meta y Microsoft en este espacio es cada vez más intensa, y cada lanzamiento eleva el listón de lo que se espera de un modelo de inteligencia artificial. El GPT-5.4 no resuelve todos los desafíos de la IA — las alucinaciones aún existen, la cuestión de la privacidad sigue siendo debatida y el costo computacional de estos modelos permanece elevado. Pero como paso intermedio hacia un ecosistema donde agentes inteligentes realmente trabajan a nuestro lado, este lanzamiento muestra que la dirección es clara y que la velocidad de evolución no da señales de desacelerar.
En cualquier caso, el mensaje de OpenAI con este lanzamiento es claro: la era de los modelos de IA que solo conversan se está quedando atrás, y el futuro pertenece a las inteligencias artificiales que realmente hacen cosas por ti 🚀.
