Amazon encerra placar interno de IA após funcionários inflarem pontuações e elevarem custos
A Amazon acaba de encerrar um experimento interno que, na teoria, fazia todo sentido — mas que, na prática, saiu completamente dos trilhos. O episódio envolveu um ranking gamificado, funcionários competindo por pontos e uma conta de computação em nuvem que não parava de crescer sem nenhum retorno produtivo. E o desfecho dessa história carrega lições valiosas para qualquer empresa que esteja tentando incentivar a adoção de inteligência artificial entre seus times.
O Kirorank era um placar criado por funcionários da empresa para medir o uso de ferramentas de inteligência artificial dentro da plataforma Kiro, voltada para desenvolvedores. A ideia era simples: quanto mais você usasse a IA, mais pontos acumulava e mais alto chegava no ranking. Parece uma forma divertida de incentivar a adoção de tecnologia, certo?
O problema é que as pessoas encontraram um atalho — e esse atalho começou a custar dinheiro de verdade para a empresa. 💸 Em vez de usar a IA para resolver problemas reais, alguns funcionários passaram a acionar agentes autônomos para executar tarefas completamente desnecessárias, só para inflar o consumo de tokens e subir no placar. A prática ganhou até um nome internamente: tokenmaxxing. O resultado foi prejuízo financeiro direto e uma lição que vai muito além dos corredores da Amazon — ela diz muito sobre como métricas mal pensadas podem virar armadilhas dentro de qualquer organização. 🎯
O que era o Kiro e como o ranking funcionava
O Kiro é uma plataforma de desenvolvimento assistida por inteligência artificial, lançada pela Amazon com o objetivo de tornar o trabalho dos programadores mais eficiente e produtivo. A ferramenta integra agentes de IA que conseguem executar tarefas complexas de forma autônoma, como revisar código, sugerir melhorias, gerar documentação e até interagir com outros sistemas — tudo isso sem que o desenvolvedor precise intervenir em cada etapa do processo. É, em essência, um copiloto inteligente para quem trabalha com tecnologia no dia a dia.
O Kirorank surgiu como uma iniciativa interna, criada pelos próprios funcionários, para transformar o uso dessa ferramenta em algo mais engajante. A lógica era gamificar a adoção da IA: cada interação com os agentes gerava pontos, e esses pontos determinavam a posição de cada pessoa no placar. Quem estivesse no topo do ranking demonstrava, pelo menos na teoria, que estava aproveitando ao máximo o potencial da plataforma. Era uma proposta que misturava competição saudável com incentivo à inovação — dois ingredientes que, combinados, costumam funcionar bem em ambientes corporativos de tecnologia.
Segundo a própria Amazon, o painel de controle beta não era uma ferramenta formal nem aprovada oficialmente. Ele foi construído por um grupo de funcionários que queria impulsionar a conscientização sobre como a IA pode acelerar o trabalho. Apesar das boas intenções, o resultado fugiu completamente do planejado.
O que ninguém previu é que a gamificação também cria um incentivo paralelo: vencer a qualquer custo. E quando vencer significa gerar mais tokens, independentemente de como isso é feito, o sistema começa a se corromper por dentro. Alguns funcionários perceberam que não era necessário usar a IA para resolver problemas reais — bastava acionar os agentes repetidamente, em tarefas artificiais ou sem propósito, para acumular pontos e escalar o ranking. O jogo virou uma farsa, e a Amazon só percebeu isso quando os custos começaram a aparecer nas contas. 😬
A reação da liderança da Amazon
Dave Treadwell, vice-presidente sênior da Amazon, comunicou aos funcionários no início desta semana que o placar havia sido construído com boas intenções. Porém, ele deixou claro que o resultado foi o oposto do desejado: custos adicionais gerados por funcionários que estavam inflando artificialmente o consumo de tokens de IA.
A mensagem de Treadwell foi direta e sem rodeios. Ele pediu explicitamente que os funcionários não usassem inteligência artificial apenas pelo fato de usar. O recado foi claro: a IA precisa servir a um propósito real, não funcionar como ferramenta para manipular métricas internas. Essa orientação reflete uma mudança importante no discurso corporativo sobre adoção de IA — saindo do entusiasmo desmedido para uma abordagem mais pragmática e orientada a resultados.
Treadwell também instruiu as equipes a não focarem no consumo de tokens como indicador de sucesso. Em vez disso, ele direcionou os funcionários a se concentrarem em construir produtos melhores. Essa distinção entre uso quantitativo e uso qualitativo da IA é fundamental e mostra que a liderança da empresa está recalibrando suas expectativas sobre como medir o impacto real da tecnologia.
Tokens custam dinheiro — e muito
Para entender o tamanho do problema, é importante saber como os modelos de inteligência artificial funcionam sob o capô. Toda vez que um agente de IA processa uma solicitação — seja ler um texto, gerar uma resposta ou executar uma tarefa — ele consome tokens. Tokens são, de forma simplificada, pedaços de texto que o modelo lê e produz. Quanto mais complexa a tarefa, mais tokens são usados. E cada token tem um custo financeiro associado, especialmente quando estamos falando de modelos avançados rodando em infraestrutura de nuvem em larga escala.
O cenário fica ainda mais delicado quando consideramos que a Amazon utiliza extensivamente os modelos de IA da Anthropic. Laboratórios de IA como a Anthropic têm migrado recentemente para modelos de precificação baseados em consumo, abandonando as taxas mensais fixas. Essa mudança aumentou significativamente os custos para alguns clientes. Isso significa que cada token desperdiçado por um funcionário jogando o ranking do Kirorank representava um custo real e crescente para a empresa.
No contexto corporativo da Amazon, onde centenas ou até milhares de funcionários têm acesso à plataforma Kiro, esse custo por token se multiplica de forma assustadora. Quando as pessoas começaram a usar os agentes de forma artificial — acionando tarefas desnecessárias repetidamente apenas para inflar o placar — o consumo de tokens disparou sem nenhuma contrapartida de valor real. Não havia código melhorado, nenhuma documentação útil, nenhum problema resolvido. Era processamento puro sendo desperdiçado, e isso se traduziu diretamente em prejuízo financeiro para a empresa.
Vale lembrar que a Amazon tem um orçamento de investimento de capital estimado em 200 bilhões de dólares para este ano, e a grande maioria desse valor está direcionada para IA e infraestrutura de data centers. Ao mesmo tempo, a gigante da nuvem tem realizado demissões em larga escala justamente para reduzir custos e financiar esses investimentos massivos em inteligência artificial. Desperdiçar recursos computacionais com uso artificial de tokens vai na contramão dessa estratégia. 📉
Um problema que não é exclusivo da Amazon
O caso do Kirorank não é um fenômeno isolado. Funcionários da Meta também foram flagrados tentando melhorar suas posições em tabelas internas ao aumentar artificialmente o consumo de tokens. Isso indica que o problema é sistêmico em grandes empresas de tecnologia que estão pressionando seus times a adotar IA rapidamente.
No caso da Amazon, a pressão era explícita. A empresa havia estabelecido metas para que mais de 80 por cento dos desenvolvedores utilizassem IA semanalmente. Com esse tipo de meta agressiva, é natural que alguns funcionários busquem atalhos para demonstrar adesão — mesmo que isso signifique gerar atividade artificial sem valor produtivo.
Além do Kiro, a reportagem do Financial Times revelou que funcionários da Amazon também estavam usando o MeshClaw, uma versão interna da popular ferramenta OpenClaw, que permite rodar agentes de IA no próprio hardware do usuário. Alguns colaboradores usavam esse software para gerar atividade adicional de IA especificamente para aumentar o consumo de tokens e demonstrar adoção da tecnologia. O comportamento era deliberado e calculado.
O episódio expõe uma vulnerabilidade que vai além da Amazon e que toda empresa que está integrando IA nos seus fluxos de trabalho precisa considerar com seriedade. Quando você cria métricas baseadas em volume de uso, sem avaliar a qualidade ou o impacto real desse uso, você está basicamente colocando um incentivo perverso nas mãos erradas. O desempenho real de uma ferramenta de IA não se mede pela quantidade de tokens consumidos, mas pelo valor que ela gera — e essa distinção, aparentemente óbvia, foi o ponto cego que derrubou o Kirorank.
A nova métrica: deployments normalizados
Com o encerramento do Kirorank, a Amazon já começou a adotar uma abordagem diferente para medir o sucesso das suas ferramentas de IA. A empresa passou a utilizar uma métrica chamada deployments normalizados, que avalia evidências de engenheiros usando IA regularmente para criar código útil e funcional. Em vez de simplesmente contar tokens, essa nova métrica busca capturar o impacto real da tecnologia no fluxo de trabalho.
Essa mudança é significativa porque representa uma evolução na forma como grandes empresas de tecnologia pensam sobre adoção de IA. Não basta medir se a ferramenta está sendo usada — é preciso medir se ela está gerando valor. Deployments normalizados avaliam se o código produzido com auxílio de IA está sendo efetivamente implantado em produção, o que é um indicador muito mais confiável de que a tecnologia está funcionando como deveria.
A transição de métricas de consumo para métricas de resultado é um passo importante, mas também é mais difícil de implementar. Medir tokens é simples — basta somar números. Medir valor é complexo e exige análise contextual. Ainda assim, é o caminho certo para garantir que a adoção de IA não se transforme em teatro corporativo.
O que esse caso revela sobre métricas e desempenho em IA
A história do Kirorank é um exemplo clássico do que especialistas em gestão chamam de Lei de Goodhart: quando uma métrica se torna um alvo, ela deixa de ser uma boa métrica. Isso acontece porque as pessoas naturalmente ajustam o comportamento para atingir o número — não necessariamente o objetivo por trás dele. No caso do Kiro, o objetivo era aumentar a adoção da inteligência artificial de forma produtiva. A métrica escolhida foi o consumo de tokens. E foi exatamente aí que o plano desandou, porque as duas coisas não eram equivalentes.
O desempenho em sistemas de IA é algo notoriamente difícil de medir de forma justa e precisa. Não basta contar quantas vezes um agente foi acionado ou quantos tokens foram consumidos. É necessário avaliar se o resultado final foi útil, se economizou tempo, se melhorou a qualidade do trabalho ou se resolveu um problema real. Esse tipo de avaliação é muito mais complexo de automatizar e de transformar em um placar, mas é o único que realmente captura o valor que a tecnologia entrega. Ferramentas como o Kiro têm um potencial imenso, mas esse potencial só se realiza quando o uso é orientado por necessidade genuína, não por competição vazia.
Para a Amazon, o encerramento do Kirorank é também uma oportunidade de repensar como ela vai incentivar a adoção de IA internamente daqui para frente. A empresa está na vanguarda do desenvolvimento de inteligência artificial, com investimentos bilionários em modelos, infraestrutura e ferramentas como o próprio Kiro. Mas liderar em tecnologia exige também liderar em como essa tecnologia é gerenciada e avaliada dentro de casa. O episódio serve como um lembrete de que até as empresas mais avançadas do mundo precisam aprender — às vezes da forma mais cara possível — que inovação e gamificação mal alinhadas podem gerar resultados bem diferentes do esperado. 🤔
A corrida pela adoção de IA e os riscos de se perder no caminho
O caso da Amazon acontece em um momento em que praticamente todas as grandes empresas de tecnologia estão em uma corrida frenética para integrar inteligência artificial em cada aspecto das suas operações. Essa pressão vem de cima — dos conselhos, dos investidores, do mercado — e desce em cascata até os times operacionais, que precisam demonstrar que estão usando as ferramentas disponíveis.
O risco desse tipo de pressão é criar uma cultura de performance aparente, onde o importante é parecer que se está usando IA, não necessariamente usá-la de forma inteligente. Quando metas como ter mais de 80 por cento dos desenvolvedores usando IA semanalmente são estabelecidas sem critérios qualitativos claros, o incentivo para manipular métricas surge naturalmente. Não é uma questão de má-fé dos funcionários — é uma consequência previsível de um sistema de incentivos mal desenhado.
Empresas que estão nessa jornada de transformação digital e adoção de IA precisam equilibrar a urgência com a sabedoria. Isso significa criar frameworks de avaliação que priorizem impacto sobre volume, qualidade sobre quantidade, e resultados reais sobre aparência de progresso. A experiência da Amazon com o Kirorank — e da Meta com situações semelhantes — mostra que ignorar esse equilíbrio pode sair muito caro, tanto financeiramente quanto em termos de cultura organizacional.
No fim das contas, o que o Kirorank deixa de legado não é só uma lição sobre tokens desperdiçados ou ranking manipulado. É uma reflexão mais profunda sobre como medimos o valor da inteligência artificial no ambiente de trabalho. Desempenho real não aparece em placar — aparece nos resultados concretos que a tecnologia ajuda a construir. E quando a corrida por pontos substitui a busca por soluções, todo mundo perde. Principalmente quem está pagando a conta. 💡
