Anthropic creó un marketplace de prueba donde AI agents negocian entre sí con dinero real
Los AI agents acaban de demostrar que pueden cerrar negocios mejor de lo que mucha gente esperaba.
Anthropic llevó a cabo un experimento que pocos sabían que existía: un marketplace interno donde agentes de inteligencia artificial actuaron como compradores y vendedores de verdad, con productos reales y dinero real en juego. La iniciativa fue bautizada como Project Deal y los resultados sorprendieron incluso a quienes estaban al mando.
El escenario era simple, pero el impacto fue grande.
En total, 69 empleados de la propia Anthropic participaron en la experiencia, cada uno con un presupuesto de 100 dólares — pagados en gift cards — para gastar comprando artículos de sus compañeros. Todo intermediado por agentes de IA que representaban tanto al lado comprador como al lado vendedor.
La propia empresa reconoció que la prueba fue apenas un experimento piloto con un grupo autoseleccionado de participantes, pero aun así quedó impresionada con el desempeño general. Y no es difícil entender por qué 👀
A lo largo de toda la prueba se registraron 186 transacciones, moviendo más de 4 mil dólares en valor negociado.
Pero el número más revelador no está en los valores en sí, sino en lo que ocurrió entre bastidores de esas negociaciones.
Cuatro marketplaces diferentes para entender qué funciona
Una de las partes más interesantes del Project Deal es que Anthropic no se limitó a crear un único marketplace. En realidad, la empresa ejecutó cuatro marketplaces separados, cada uno utilizando configuraciones y modelos diferentes. Solo uno de ellos era considerado el marketplace real, donde todos los participantes estaban representados por el modelo más avanzado de la compañía y donde las negociaciones serían efectivamente honradas tras el fin del experimento. Los otros tres sirvieron como entornos de estudio para comparar comportamientos y resultados bajo condiciones variadas.
Este enfoque multifacético fue fundamental para que Anthropic consiguiera extraer insights más profundos sobre la dinámica entre AI agents en escenarios comerciales. Al aislar variables como la capacidad del modelo y las instrucciones iniciales proporcionadas a los agentes, el equipo logró identificar patrones que habrían sido invisibles en una prueba única y uniforme. Fue justamente esa separación la que reveló uno de los descubrimientos más impactantes de todo el experimento.
Cuando los usuarios estaban representados por modelos más avanzados, obtenían resultados objetivamente mejores en las negociaciones. Es decir, el agente más capaz conseguía extraer más valor para su representado, ya sea negociando precios más bajos a la hora de comprar o garantizando condiciones más favorables en la venta. Esto por sí solo ya sería un hallazgo relevante, pero lo que vino después añadió una capa extra de complejidad al escenario.
El problema invisible de la disparidad entre agentes
Aquí es donde las cosas se ponen realmente provocativas. Anthropic identificó que, a pesar de la diferencia clara de rendimiento entre modelos más y menos avanzados, los propios usuarios no percibían la disparidad. Quien estaba siendo representado por un agente menos capaz no notaba que estaba saliendo en desventaja en las negociaciones. La empresa destacó que esto plantea la posibilidad real de que surjan brechas de calidad entre agentes, donde las personas del lado perdedor pueden simplemente no darse cuenta de que están en desventaja.
Este descubrimiento tiene implicaciones enormes para el futuro de los AI agents en entornos comerciales. Si un consumidor contrata un servicio de agente de IA para negociar en su nombre y ese agente es inferior al del otro lado de la mesa, la negociación ya empieza desequilibrada — y lo peor: sin que nadie lo perciba. Esto crea un escenario donde la calidad del modelo de IA que utilizas puede convertirse en un factor determinante en tu poder de negociación, casi como una ventaja competitiva silenciosa.
Para quienes siguen el mercado de inteligencia artificial, este hallazgo pone sobre la mesa una discusión importante sobre equidad y transparencia en negociaciones intermediadas por IA. Si la tendencia de uso de AI agents en transacciones comerciales sigue creciendo — y todo indica que así será — será necesario pensar en mecanismos que hagan visibles estas diferencias de capacidad, para que los usuarios puedan tomar decisiones informadas sobre qué agente utilizar.
Las instrucciones iniciales hicieron poca diferencia
Otro dato curioso que surgió del Project Deal tiene que ver con las instrucciones iniciales proporcionadas a los agentes. Anthropic reveló que las orientaciones dadas al inicio de las negociaciones no parecieron afectar significativamente la probabilidad de que una venta se concretara ni los precios finales negociados. En otras palabras, independientemente de cómo el usuario configuraba el comportamiento inicial de su agente, los resultados tendían a converger hacia un patrón similar.
Esto es particularmente interesante porque contradice una intuición común en el uso de modelos de lenguaje. Mucha gente cree que la forma en que instruyes a un agente de IA — el famoso prompt — es el factor decisivo para obtener buenos resultados. En el contexto del Project Deal, sin embargo, lo que realmente marcó la diferencia fue la capacidad intrínseca del modelo, y no la orientación que recibió antes de comenzar a negociar.
Este descubrimiento tiene implicaciones directas para empresas y desarrolladores que están construyendo soluciones basadas en AI agents. Sugiere que invertir en la calidad y la sofisticación del modelo subyacente puede ser más eficiente que dedicar tiempo a refinar prompts y scripts de comportamiento, al menos en el contexto de negociaciones autónomas. Por supuesto, esta conclusión necesita ser probada a escalas mayores y en escenarios más diversos, pero como punto de partida, es una información valiosa.
Qué se negociaba en este marketplace
A diferencia de un entorno controlado y artificial, el marketplace del Project Deal funcionaba con artículos del día a día que los propios empleados ponían a la venta, como electrónicos usados, ropa, libros, accesorios y otros bienes personales. Cada vendedor definía el precio inicial de su producto, y los AI agents entraban en escena para representar tanto a quien quería comprar como a quien quería vender, conduciendo las negociaciones de principio a fin sin que los humanos necesitaran intervenir en cada etapa del proceso. Era exactamente ese nivel de autonomía lo que Anthropic quería poner a prueba.
Lo que llamó la atención desde el comienzo fue la naturalidad con la que los agentes manejaron situaciones que normalmente requieren juicio humano. Necesitaban evaluar si un precio era justo, si había margen para descuento, cómo presentar una contrapropuesta sin alejar al otro lado y cómo cerrar el trato en el momento adecuado. Este tipo de razonamiento implica mucho más que seguir un guion fijo, y los agentes demostraron una capacidad adaptativa que sorprendió al equipo responsable del proyecto.
Además, el hecho de que el dinero fuera real cambió completamente la dinámica del experimento. Cuando hay consecuencias concretas, los participantes se toman el proceso en serio, y los empleados de Anthropic no fueron la excepción. Tenían 100 dólares para gastar y querían hacer buenas compras. Esto generó una presión legítima sobre los AI agents, que necesitaban rendir lo suficiente para ganarse la confianza de los usuarios y concluir las transacciones con éxito.
Cómo se desempeñaron los AI agents en las negociaciones
El rendimiento de los agentes a lo largo del Project Deal fue el corazón de todo. Con 186 transacciones registradas y más de 4 mil dólares en valor negociado, los números hablan por sí solos, pero lo que quedó aún más evidente fue la calidad de las interacciones. Los agentes no solo concluyeron las negociaciones — condujeron conversaciones estratégicas, identificaron el momento justo para ceder en un punto y mantenerse firmes en otro, y supieron calibrar el tono dependiendo del contexto de cada negociación. Ese nivel de sofisticación no era esperado a esta escala ni por los propios organizadores del experimento.
Uno de los aspectos más interesantes fue la forma en que los AI agents manejaron los puntos muertos. En situaciones donde comprador y vendedor estaban lejos en términos de precio, los agentes encontraron formas creativas de destrabar la conversación, ya sea sugiriendo condiciones alternativas, destacando características específicas del producto o simplemente ajustando el enfoque para hacer la propuesta más atractiva. Esto demuestra que el razonamiento de los agentes va mucho más allá de una lógica transaccional simple y empieza a acercarse a algo que, hasta hace poco, se consideraba exclusivamente humano.
El rendimiento general también se destacó por su consistencia. No fueron solo algunos casos aislados de éxito. El alto volumen de transacciones concluidas, combinado con la satisfacción reportada por los empleados participantes, indicó que los agentes lograron mantener un estándar elevado a lo largo de todo el período de prueba. Para Anthropic, esto representó una validación importante de que sus modelos de IA están listos para operar en escenarios más complejos y con mayor grado de responsabilidad.
Qué revela el Project Deal sobre el futuro de los AI agents
El Project Deal no fue simplemente un experimento interno divertido. Funcionó como un termómetro real para entender hasta dónde pueden llegar los AI agents cuando se los coloca en entornos con variables humanas genuinas. Y el resultado apuntó hacia una dirección clara: estos agentes están evolucionando rápido, y la capacidad de actuar en marketplaces con autonomía real, conduciendo transacciones de principio a fin, ya no es una promesa futura. Es una realidad probada y documentada.
Para quienes siguen el mercado de tecnología e inteligencia artificial, este experimento plantea cuestiones muy relevantes sobre cómo los AI agents pueden integrarse en plataformas comerciales. Imagina un marketplace de e-commerce donde los agentes negocian condiciones de envío, descuentos por volumen o plazos de entrega directamente con proveedores, sin que el equipo humano necesite intervenir en cada detalle. O plataformas de servicios donde los agentes ayudan a clientes a encontrar el mejor paquete dentro del presupuesto disponible, conduciendo la conversación de forma natural y personalizada. El Project Deal mostró que esa infraestructura ya tiene base para funcionar.
Además, el descubrimiento sobre la disparidad entre modelos añade una capa importante de reflexión. Si en el futuro los AI agents se utilizan ampliamente en negociaciones comerciales, la elección del modelo detrás del agente puede volverse tan relevante como la elección de un buen abogado o corredor. La diferencia es que, mientras sabemos evaluar la competencia de un profesional humano, todavía no tenemos referencias claras para medir la capacidad de un agente de IA en contextos de negociación real. El Project Deal comenzó a llenar ese vacío.
Los números que quedan
Cuando uno se detiene a mirar lo que el Project Deal produjo en términos concretos, es imposible no reconocer la relevancia de lo alcanzado. Un marketplace interno que movió más de 4 mil dólares en valor negociado, con 186 transacciones concluidas entre 69 participantes, usando agentes de IA como intermediarios en tiempo real, es un resultado que va mucho más allá de lo que la mayoría de los experimentos del sector han logrado documentar hasta ahora. No estamos hablando de simulaciones ni de escenarios hipotéticos. Cada negociación ocurrió con dinero real y personas reales del otro lado.
Estos datos también arrojan una luz interesante sobre la discusión de rendimiento en entornos económicos. La tasa de conclusión de las transacciones y el volumen financiero involucrado sugieren que los AI agents consiguieron crear suficiente valor percibido como para que los compradores se sintieran cómodos finalizando las compras. En otras palabras, los agentes pasaron la prueba más difícil de todas: la de la confianza. Y cuando un agente de IA logra ganarse la confianza de un ser humano en una negociación con dinero real en juego, eso dice mucho sobre la etapa de madurez en la que se encuentra esta tecnología.
El Project Deal también abre espacio para una conversación más amplia sobre cómo se diseñarán los próximos marketplaces. Si los AI agents pueden operar con este nivel de autonomía y eficiencia en un entorno controlado, las implicaciones para plataformas comerciales a gran escala son enormes. La experiencia de Anthropic funciona como un modelo de referencia, mostrando que es posible estructurar ecosistemas donde agentes de IA participan activamente del proceso económico — no solo como herramientas de apoyo, sino como protagonistas de las negociaciones 🚀
