Para compartir:

Amazon cierra marcador interno de IA tras empleados inflar puntuaciones y elevar costos

Amazon acaba de cerrar un experimento interno que, en teoría, tenía todo el sentido del mundo, pero que en la práctica se descarriló por completo. El episodio involucró un ranking gamificado, empleados compitiendo por puntos y una factura de computación en la nube que no dejaba de crecer sin ningún retorno productivo. Y el desenlace de esta historia trae lecciones valiosas para cualquier empresa que esté intentando incentivar la adopción de inteligencia artificial entre sus equipos.

El Kirorank era un marcador creado por empleados de la compañía para medir el uso de herramientas de inteligencia artificial dentro de la plataforma Kiro, orientada a desarrolladores. La idea era simple: cuanto más usaras la IA, más puntos acumulabas y más alto llegabas en el ranking. Parece una forma divertida de incentivar la adopción de tecnología, ¿verdad?

El problema es que la gente encontró un atajo, y ese atajo empezó a costar dinero de verdad a la empresa. 💸 En lugar de usar la IA para resolver problemas reales, algunos empleados comenzaron a activar agentes autónomos para ejecutar tareas completamente innecesarias, solo para inflar el consumo de tokens y subir en el marcador. La práctica incluso ganó un nombre internamente: tokenmaxxing. El resultado fue un perjuicio financiero directo y una lección que va mucho más allá de los pasillos de Amazon: dice mucho sobre cómo las métricas mal diseñadas pueden convertirse en trampas dentro de cualquier organización. 🎯

Qué era Kiro y cómo funcionaba el ranking

Kiro es una plataforma de desarrollo asistida por inteligencia artificial, lanzada por Amazon con el objetivo de hacer el trabajo de los programadores más eficiente y productivo. La herramienta integra agentes de IA capaces de ejecutar tareas complejas de forma autónoma, como revisar código, sugerir mejoras, generar documentación e incluso interactuar con otros sistemas, todo sin que el desarrollador necesite intervenir en cada etapa del proceso. Es, en esencia, un copiloto inteligente para quienes trabajan con tecnología en el día a día.

El Kirorank surgió como una iniciativa interna, creada por los propios empleados, para transformar el uso de esa herramienta en algo más atractivo. La lógica era gamificar la adopción de la IA: cada interacción con los agentes generaba puntos, y esos puntos determinaban la posición de cada persona en el marcador. Quien estuviera en la cima del ranking demostraba, al menos en teoría, que estaba aprovechando al máximo el potencial de la plataforma. Era una propuesta que mezclaba competencia sana con incentivo a la innovación, dos ingredientes que, combinados, suelen funcionar bien en entornos corporativos de tecnología.

Según la propia Amazon, el panel de control beta no era una herramienta formal ni aprobada oficialmente. Fue construido por un grupo de empleados que quería impulsar la concientización sobre cómo la IA puede acelerar el trabajo. A pesar de las buenas intenciones, el resultado se escapó completamente de lo planeado.

Lo que nadie previó es que la gamificación también crea un incentivo paralelo: ganar a cualquier costo. Y cuando ganar significa generar más tokens, sin importar cómo se logre, el sistema empieza a corromperse desde adentro. Algunos empleados se dieron cuenta de que no era necesario usar la IA para resolver problemas reales: bastaba con activar los agentes repetidamente, en tareas artificiales o sin propósito, para acumular puntos y escalar en el ranking. El juego se convirtió en una farsa, y Amazon solo se dio cuenta cuando los costos empezaron a aparecer en las cuentas. 😬

Reciba el mejor contenido sobre innovación en su correo electrónico.

Todas las noticias, consejos, tendencias y recursos que buscas, directamente en tu bandeja de entrada.

Al suscribirte al boletín informativo, aceptas recibir comunicaciones de Método Viral. Nos comprometemos a proteger y respetar siempre tu privacidad.

La reacción del liderazgo de Amazon

Dave Treadwell, vicepresidente sénior de Amazon, comunicó a los empleados a principios de esta semana que el marcador había sido construido con buenas intenciones. Sin embargo, dejó claro que el resultado fue el opuesto al deseado: costos adicionales generados por empleados que estaban inflando artificialmente el consumo de tokens de IA.

El mensaje de Treadwell fue directo y sin rodeos. Pidió explícitamente que los empleados no usaran inteligencia artificial solo por el hecho de usarla. El mensaje fue claro: la IA necesita servir a un propósito real, no funcionar como herramienta para manipular métricas internas. Esta orientación refleja un cambio importante en el discurso corporativo sobre adopción de IA, pasando del entusiasmo desmedido a un enfoque más pragmático y orientado a resultados.

Treadwell también instruyó a los equipos a no enfocarse en el consumo de tokens como indicador de éxito. En su lugar, dirigió a los empleados a concentrarse en construir mejores productos. Esta distinción entre uso cuantitativo y uso cualitativo de la IA es fundamental y muestra que el liderazgo de la empresa está recalibrando sus expectativas sobre cómo medir el impacto real de la tecnología.

Los tokens cuestan dinero, y mucho

Para entender la magnitud del problema, es importante saber cómo funcionan los modelos de inteligencia artificial bajo el capó. Cada vez que un agente de IA procesa una solicitud, ya sea leer un texto, generar una respuesta o ejecutar una tarea, consume tokens. Los tokens son, de forma simplificada, fragmentos de texto que el modelo lee y produce. Cuanto más compleja es la tarea, más tokens se utilizan. Y cada token tiene un costo financiero asociado, especialmente cuando hablamos de modelos avanzados ejecutándose en infraestructura de nube a gran escala.

El escenario se vuelve aún más delicado cuando consideramos que Amazon utiliza extensivamente los modelos de IA de Anthropic. Laboratorios de IA como Anthropic han migrado recientemente a modelos de precios basados en consumo, abandonando las tarifas mensuales fijas. Este cambio incrementó significativamente los costos para algunos clientes. Esto significa que cada token desperdiciado por un empleado jugando con el ranking del Kirorank representaba un costo real y creciente para la empresa.

En el contexto corporativo de Amazon, donde cientos o incluso miles de empleados tienen acceso a la plataforma Kiro, ese costo por token se multiplica de forma alarmante. Cuando las personas empezaron a usar los agentes de forma artificial, activando tareas innecesarias repetidamente solo para inflar el marcador, el consumo de tokens se disparó sin ninguna contrapartida de valor real. No había código mejorado, ninguna documentación útil, ningún problema resuelto. Era procesamiento puro siendo desperdiciado, y eso se tradujo directamente en pérdidas financieras para la empresa.

Vale recordar que Amazon tiene un presupuesto de inversión de capital estimado en 200 mil millones de dólares para este año, y la gran mayoría de ese monto está dirigido a IA e infraestructura de centros de datos. Al mismo tiempo, el gigante de la nube ha realizado despidos a gran escala justamente para reducir costos y financiar esas inversiones masivas en inteligencia artificial. Desperdiciar recursos computacionales con uso artificial de tokens va en contra de esa estrategia. 📉

Un problema que no es exclusivo de Amazon

El caso del Kirorank no es un fenómeno aislado. Empleados de Meta también fueron descubiertos intentando mejorar sus posiciones en tablas internas al aumentar artificialmente el consumo de tokens. Esto indica que el problema es sistémico en grandes empresas de tecnología que están presionando a sus equipos para adoptar IA rápidamente.

En el caso de Amazon, la presión era explícita. La empresa había establecido metas para que más del 80 por ciento de los desarrolladores utilizaran IA semanalmente. Con este tipo de meta agresiva, es natural que algunos empleados busquen atajos para demostrar adhesión, incluso si eso significa generar actividad artificial sin valor productivo.

Además de Kiro, el reportaje del Financial Times reveló que empleados de Amazon también estaban usando MeshClaw, una versión interna de la popular herramienta OpenClaw, que permite ejecutar agentes de IA en el propio hardware del usuario. Algunos colaboradores usaban este software para generar actividad adicional de IA específicamente para aumentar el consumo de tokens y demostrar adopción de la tecnología. El comportamiento era deliberado y calculado.

El episodio expone una vulnerabilidad que va más allá de Amazon y que toda empresa que está integrando IA en sus flujos de trabajo necesita considerar con seriedad. Cuando creas métricas basadas en volumen de uso, sin evaluar la calidad o el impacto real de ese uso, básicamente estás colocando un incentivo perverso en las manos equivocadas. El rendimiento real de una herramienta de IA no se mide por la cantidad de tokens consumidos, sino por el valor que genera, y esa distinción, aparentemente obvia, fue el punto ciego que derribó al Kirorank.

La nueva métrica: deployments normalizados

Con el cierre del Kirorank, Amazon ya comenzó a adoptar un enfoque diferente para medir el éxito de sus herramientas de IA. La empresa pasó a utilizar una métrica llamada deployments normalizados, que evalúa evidencias de ingenieros usando IA regularmente para crear código útil y funcional. En lugar de simplemente contar tokens, esta nueva métrica busca capturar el impacto real de la tecnología en el flujo de trabajo.

Este cambio es significativo porque representa una evolución en la forma en que las grandes empresas de tecnología piensan sobre la adopción de IA. No basta con medir si la herramienta está siendo usada: es necesario medir si está generando valor. Los deployments normalizados evalúan si el código producido con ayuda de IA está siendo efectivamente desplegado en producción, lo cual es un indicador mucho más confiable de que la tecnología está funcionando como debería.

La transición de métricas de consumo a métricas de resultado es un paso importante, pero también más difícil de implementar. Medir tokens es simple: basta con sumar números. Medir valor es complejo y requiere análisis contextual. Aun así, es el camino correcto para garantizar que la adopción de IA no se transforme en teatro corporativo.

Lo que este caso revela sobre métricas y rendimiento en IA

La historia del Kirorank es un ejemplo clásico de lo que los especialistas en gestión llaman Ley de Goodhart: cuando una métrica se convierte en un objetivo, deja de ser una buena métrica. Esto ocurre porque las personas naturalmente ajustan su comportamiento para alcanzar el número, no necesariamente el objetivo detrás de él. En el caso de Kiro, el objetivo era aumentar la adopción de inteligencia artificial de forma productiva. La métrica elegida fue el consumo de tokens. Y fue exactamente ahí donde el plan se desmoronó, porque ambas cosas no eran equivalentes.

Herramientas que usamos a diario

El rendimiento en sistemas de IA es algo notoriamente difícil de medir de forma justa y precisa. No basta con contar cuántas veces se activó un agente o cuántos tokens se consumieron. Es necesario evaluar si el resultado final fue útil, si ahorró tiempo, si mejoró la calidad del trabajo o si resolvió un problema real. Ese tipo de evaluación es mucho más complejo de automatizar y de transformar en un marcador, pero es el único que realmente captura el valor que la tecnología entrega. Herramientas como Kiro tienen un potencial inmenso, pero ese potencial solo se materializa cuando el uso está orientado por una necesidad genuina, no por competencia vacía.

Para Amazon, el cierre del Kirorank es también una oportunidad de repensar cómo va a incentivar la adopción de IA internamente de aquí en adelante. La empresa está a la vanguardia del desarrollo de inteligencia artificial, con inversiones multimillonarias en modelos, infraestructura y herramientas como el propio Kiro. Pero liderar en tecnología exige también liderar en cómo esa tecnología se gestiona y se evalúa puertas adentro. El episodio sirve como recordatorio de que incluso las empresas más avanzadas del mundo necesitan aprender, a veces de la forma más cara posible, que innovación y gamificación mal alineadas pueden generar resultados muy diferentes a los esperados. 🤔

La carrera por la adopción de IA y los riesgos de perderse en el camino

El caso de Amazon ocurre en un momento en que prácticamente todas las grandes empresas de tecnología están en una carrera frenética para integrar inteligencia artificial en cada aspecto de sus operaciones. Esa presión viene de arriba, de los consejos directivos, los inversores, el mercado, y desciende en cascada hasta los equipos operativos, que necesitan demostrar que están usando las herramientas disponibles.

El riesgo de este tipo de presión es crear una cultura de rendimiento aparente, donde lo importante es parecer que se está usando IA, no necesariamente usarla de forma inteligente. Cuando metas como tener más del 80 por ciento de los desarrolladores usando IA semanalmente se establecen sin criterios cualitativos claros, el incentivo para manipular métricas surge de forma natural. No es una cuestión de mala fe de los empleados: es una consecuencia previsible de un sistema de incentivos mal diseñado.

Las empresas que están en este camino de transformación digital y adopción de IA necesitan equilibrar la urgencia con la sabiduría. Esto significa crear marcos de evaluación que prioricen impacto sobre volumen, calidad sobre cantidad, y resultados reales sobre apariencia de progreso. La experiencia de Amazon con el Kirorank, y de Meta con situaciones similares, demuestra que ignorar ese equilibrio puede salir muy caro, tanto financieramente como en términos de cultura organizacional.

Al final del día, lo que el Kirorank deja como legado no es solo una lección sobre tokens desperdiciados o rankings manipulados. Es una reflexión más profunda sobre cómo medimos el valor de la inteligencia artificial en el entorno laboral. El rendimiento real no aparece en un marcador: aparece en los resultados concretos que la tecnología ayuda a construir. Y cuando la carrera por puntos sustituye la búsqueda de soluciones, todos pierden. Sobre todo quien está pagando la cuenta. 💡

Imagen de Rafael

Rafael

Operaciones

Transformo los procesos internos en máquinas de entrega, garantizando que cada cliente de Viral Method reciba un servicio de primera calidad y resultados reales.

Rellena el formulario y nuestro equipo se pondrá en contacto contigo en un plazo de 24 horas.

Publicaciones relacionadas

Las acciones de Amazon podrían subir tras la asociación con OpenAI.

Alianza entre Amazon y OpenAI podría impulsar ingresos de IA y valorizar acciones, dice Citi; impacto estratégico en AWS y

Moratoria sobre los centros de datos de IA: El debate sobre la energía

Moratoria: Sanders y AOC proponen pausa en construcción de centros de datos de IA en EE.UU. para evaluar impactos ambientales

Blockchain y los agentes de IA están cambiando los pagos con criptomonedas.

Agentes de IA impulsan pagos cripto con blockchain, stablecoins y x402, facilitando transacciones autónomas, micropagos y economía entre máquinas

Receba o melhor conteúdo de inovação em seu e-mail

Todas as notícias, dicas, tendências e recursos que você procura entregues na sua caixa de entrada.

Ao assinar a newsletter, você concorda em receber comunicações da Método Viral. A gente se compromete a sempre proteger e respeitar sua privacidade.

Rafael

Online

Atendimento

Calculadora Preço de Sites

Descubra quanto custa o site ideal para seu negócio

Páginas do Site

Quantas páginas você precisa?

4

Arraste para selecionar de 1 a 20 páginas

📄

⚡ Em apenas 2 minutos, descubra automaticamente quanto custa um site em 2026 sob medida para o seu negócio

👥 Mais de 0+ empresas já calcularam seu orçamento

Fale com um consultor

Preencha o formulário e nossa equipe entrará em contato.