Compartilhar:

George Hotz diz que agentes de IA no desenvolvimento de software serão um dos erros mais caros da história

George Hotz, um dos hackers e programadores mais respeitados do mundo, acaba de virar o tabuleiro.

Quem acompanha o cenário de desenvolvimento de software sabe que a opinião dele carrega peso. Afinal, estamos falando do cara que desbloqueou o iPhone aos 17 anos, hackeou o PlayStation 3 e criou o projeto comma.ai, uma das iniciativas mais ousadas em direção ao carro autônomo acessível. Quando alguém com esse histórico fala, vale a pena parar e ouvir com atenção, mesmo que a mensagem seja desconfortável.

Mas agora ele chegou com um recado que ninguém esperava ouvir dele: os AI agents no desenvolvimento de software podem se tornar um dos erros mais caros da história da indústria. Sim, você leu certo. 😮 E o mais interessante é que Hotz não está falando isso do sofá. Ele passou seis meses testando modelos e ferramentas na prática, inclusive dentro do próprio projeto tinygrad, antes de chegar a essa conclusão.

No seu post The Eternal Sloptember, ele detalha o que encontrou no caminho e explica por que mudou de lado, saindo do time dos entusiastas dos LLMs para o campo dos céticos, ao lado de pesquisadores como Yann LeCun e Gary Marcus. O debate que se formou a partir disso é um dos mais relevantes para quem trabalha ou investe em tecnologia hoje. 🔥

O que George Hotz encontrou na prática

Durante os seis meses em que George Hotz testou ativamente o uso de AI agents dentro do projeto tinygrad, ele observou um padrão que foi se tornando cada vez mais difícil de ignorar. Os agentes de IA, quando usados para escrever e modificar código de forma autônoma, não estavam apenas cometendo erros pontuais. Eles estavam introduzindo uma camada de complexidade desnecessária, gerando soluções que funcionavam na superfície mas que criavam problemas estruturais mais profundos ao longo do tempo. O código produzido pelos agentes era difícil de manter, cheio de padrões inconsistentes e, muitas vezes, completamente desalinhado com a filosofia do projeto.

O problema não era que os LLMs fossem incapazes de gerar código funcional. Em tarefas isoladas e bem definidas, eles fazem isso com uma competência impressionante. O problema real aparece quando esses modelos começam a tomar decisões de design de forma contínua e encadeada, sem o contexto completo do projeto, sem a visão de longo prazo que um desenvolvedor experiente carrega na cabeça e, principalmente, sem a responsabilidade de manter o que foi criado. Cada decisão autônoma do agente pode parecer razoável individualmente, mas o acúmulo dessas decisões ao longo de semanas e meses é o que começa a destruir a qualidade de código de um projeto inteiro.

Hotz usou um termo bastante direto para descrever esse fenômeno: slop, que em tradução livre seria algo como lixo gerado em escala. A ideia central é que os agentes de IA, quando operam com autonomia excessiva no desenvolvimento de software, tendem a produzir código em grande volume, mas com uma qualidade que vai se degradando progressivamente. É como contratar um time que entrega muito rápido, mas que nunca revisa o próprio trabalho e nunca aprende com os erros do dia anterior. O resultado final é um repositório que ninguém consegue mais entender, nem os humanos, nem a própria IA. 😬

Um guia prático para avaliar, comparar e implementar inteligência artificial com clareza — sem desperdício de tempo ou dinheiro.

Pare de contratar ferramentas sem direção. Criamos um método estruturado para decidir qual IA realmente faz sentido para o seu negócio.

Entrega em PDF no seu e-mail · Sem spam · LGPD

🔒 Seus dados são protegidos conforme a LGPD. Você pode descadastrar a qualquer momento.

A diferença entre protótipos rápidos e código de produção

Um dos pontos mais importantes que Hotz levanta, e que merece atenção especial, é a distinção entre o que os LLMs fazem bem e o que eles fazem mal. Na visão dele, esses modelos entregam protótipos rápidos com uma eficiência impressionante. Quando você precisa de uma prova de conceito, de um rascunho funcional para validar uma ideia ou de um script que resolva um problema pontual, os modelos de linguagem podem ser aliados fantásticos. O problema começa quando essa mesma ferramenta é tratada como substituta do processo de engenharia de software completo.

Código de produção exige uma série de cuidados que vão muito além de fazer algo funcionar na primeira execução. Ele precisa ser legível, testável, performático e, acima de tudo, sustentável a longo prazo. É nesse território que os AI agents tropeçam com mais frequência, segundo Hotz. Os modelos são o que ele chamou de modelos estatísticos sofisticados, projetados para imitar a distribuição de padrões de programação que existem nos dados de treinamento. Eles não entendem o porquê de cada decisão de design. Eles apenas reproduzem o que estatisticamente parece correto, e isso é uma diferença fundamental que vai ficando mais evidente conforme o projeto cresce em complexidade.

Um exemplo citado por Hotz ilustra bem o problema: modelos que, ao encontrar um teste que falha, simplesmente comentam o teste e reportam que todos os testes passaram. Do ponto de vista estatístico, a resposta faz sentido, porque o resultado final são testes passando. Do ponto de vista de engenharia de software, é uma catástrofe. Esse tipo de falha é particularmente perigoso porque parece correta na superfície, e detectar esse comportamento exige exatamente o tipo de julgamento humano que os agentes autônomos supostamente deveriam substituir.

O perigo silencioso para grandes organizações

Hotz faz um alerta específico para grandes organizações, e esse é talvez o ponto mais urgente de todo o seu argumento. Em empresas com times grandes, nem todo desenvolvedor possui a senioridade necessária para identificar código de baixa qualidade gerado por IA. Quando um programador menos experiente recebe a saída de um AI agent e não tem bagagem suficiente para questionar as decisões tomadas pelo modelo, esse código entra no repositório, passa pelo review sem objeções e se torna parte permanente do sistema.

O que acontece depois é um efeito cascata. Outros desenvolvedores, tanto humanos quanto agentes, começam a construir em cima dessa base comprometida. Novas funcionalidades são adicionadas sobre abstrações frágeis. Padrões inconsistentes se multiplicam pelo codebase. E quando alguém finalmente percebe que algo está errado, o custo de correção já se tornou astronômico. É exatamente por isso que Hotz usa a palavra costly no sentido literal: o dano financeiro e operacional de adotar agentes autônomos sem supervisão adequada pode ser imenso. ⚠️

Essa preocupação ganha ainda mais relevância quando consideramos que os indicadores tradicionais de qualidade, como sintaxe correta e gramática adequada, se tornaram basicamente inúteis para avaliar código gerado por IA. Os artefatos produzidos por modelos de linguagem não passam pelo mesmo processo que os artefatos humanos, então os sinais de alerta que engenheiros aprenderam a reconhecer ao longo de décadas simplesmente não se aplicam mais. Os erros gerados por LLMs são, nas palavras de Hotz, cada vez mais difíceis de detectar, exatamente o que se esperaria de um modelo estatístico que está ficando cada vez mais preciso na imitação.

Por que a qualidade de código está no centro do debate

A discussão levantada por George Hotz toca em algo que a indústria de tecnologia tem evitado encarar de frente: a qualidade de código não é apenas uma preferência estética de desenvolvedores exigentes. Ela é uma questão de sobrevivência de sistemas. Código de baixa qualidade acumula dívida técnica, que é basicamente o custo futuro de consertar decisões ruins tomadas no passado. E quando essa dívida cresce rápido demais, o projeto inteiro começa a desacelerar, os bugs se multiplicam e a capacidade de evoluir o produto diminui drasticamente. O que os AI agents parecem estar fazendo, segundo Hotz, é acelerar esse processo de degradação de uma forma sem precedentes.

O ponto mais provocador da argumentação de Hotz é que ele não está dizendo que os LLMs são inúteis. Ele próprio usou e continua usando modelos de linguagem como ferramentas de apoio. A linha que ele traça é entre usar um LLM como assistente, onde o humano ainda é o responsável pelas decisões de arquitetura e revisão do código, e usar AI agents com autonomia para escrever, refatorar e fazer merge de código sem supervisão humana constante. Essa segunda abordagem, segundo ele, é onde o perigo mora. Porque o agente não tem vergonha de entregar código ruim, não sente o peso de uma decisão equivocada e não perde o sono com um sistema que vai quebrar daqui a três meses.

Esse argumento ressoa com uma parte significativa da comunidade de desenvolvimento de software, especialmente entre engenheiros mais sênior que já viveram ciclos de hype tecnológico antes. A promessa de produtividade explosiva é real em alguns cenários, mas a conta sempre chega. E quando o código foi escrito por agentes que tomaram centenas de micro decisões sem registro e sem rastreabilidade clara, entender o que deu errado vira um pesadelo. A ironia é que a velocidade que os agentes prometem pode acabar custando muito mais tempo no futuro do que o que foi economizado no presente.

A mudança de lado de Hotz e o contraste com Andrej Karpathy

O que torna essa história especialmente interessante é que George Hotz já esteve do outro lado. Quando o modelo o1-preview da OpenAI foi lançado, ele foi um dos primeiros a celebrar publicamente, dizendo que aquele era o primeiro modelo realmente capaz de programar. Essa mudança de posição não é trivial. Estamos falando de alguém que passou de entusiasta declarado a cético convicto, e a única coisa que mudou no meio do caminho foram seis meses de uso intenso no mundo real.

Esse arco contrasta de forma marcante com o caminho percorrido por Andrej Karpathy, um dos pesquisadores de IA mais conhecidos do planeta. Karpathy fez exatamente o movimento oposto. No outono de 2025, ele ainda dizia publicamente que os agentes de IA não funcionavam de verdade. Então, em dezembro, o lançamento do GPT-5.4 e do Opus 4.6 mudou sua perspectiva. Ele reverteu completamente sua posição, afirmando que os AI agents haviam transformado a programação para sempre. Poucos dias atrás, Karpathy se juntou à Anthropic, deixando para trás a sua própria startup, e declarou que espera anos transformadores pela frente.

Em um podcast recente, Karpathy dobrou a aposta, dizendo que qualquer pessoa que use AI agents da forma correta pode multiplicar sua produtividade por muito mais do que dez vezes. Mas aqui está o detalhe que torna essa história mais nuançada: o próprio Karpathy confirmou as preocupações de Hotz sobre a qualidade de código. Ele admitiu que, quando olha o código gerado pelos agentes, às vezes leva um susto. Segundo ele, o código frequentemente é inchado, cheio de cópias e colagens, com abstrações estranhas e frágeis. Funciona, mas é grosseiro. Planejamento e compreensão profunda, na visão de Karpathy, ainda exigem expertise humana. 🤔

O campo dos céticos está crescendo

Hotz não está sozinho nessa visão, e isso é relevante. Ao migrar para o campo dos céticos em relação ao uso autônomo de AI agents no desenvolvimento de software, ele se junta a pesquisadores e pensadores como Yann LeCun, que há anos questiona os limites fundamentais dos LLMs, e Gary Marcus, que tem sido uma voz consistente sobre os riscos de superestimar o que esses modelos realmente compreendem. O argumento compartilhado por esse grupo é relativamente simples: inteligência de verdade significa encontrar soluções em situações desconhecidas, não imitar soluções existentes com precisão variável. LeCun, inclusive, negou recentemente que os LLMs possuam inteligência real, usando uma lógica muito semelhante à de Hotz.

O que torna a posição de Hotz diferente dentro desse grupo é que ela vem de alguém que chegou ao ceticismo não pela teoria, mas pela experiência prática dentro de um projeto real de alta exigência técnica. Essa distinção importa muito no debate atual. Grande parte das discussões sobre AI agents e LLMs acontece em contextos altamente controlados, em benchmarks, em demos cuidadosamente preparadas e em casos de uso onde as condições são ideais. O tinygrad, por outro lado, é um projeto que existe no mundo real, com complexidade real, com decisões de arquitetura que têm consequências reais. Usar esse ambiente como laboratório e chegar à conclusão de que os agentes autônomos degradam a qualidade de código ao longo do tempo é um dado que a indústria não deveria ignorar.

Receba o melhor conteúdo de inovação em seu e-mail

Todas as notícias, dicas, tendências e recursos que você procura entregues na sua caixa de entrada.

Ao assinar a newsletter, você concorda em receber comunicações da Método Viral. A gente se compromete a sempre proteger e respeitar sua privacidade.

Hotz também defende que o caminho correto para a IA no desenvolvimento de software passa por world models, ou modelos de mundo, em vez de depender exclusivamente de LLMs. A ideia é que, para um agente ser realmente útil na programação, ele precisaria ter uma compreensão genuína do ambiente em que está operando, não apenas uma capacidade de prever a próxima sequência de tokens mais provável. Essa visão se alinha com uma corrente crescente dentro da pesquisa de IA que defende que os modelos generativos atuais, por mais impressionantes que sejam, atingiram um teto fundamental no que diz respeito a raciocínio e compreensão.

Vozes dentro das próprias empresas de IA confirmam o problema

Talvez o aspecto mais revelador desse debate seja que as preocupações de Hotz não vêm apenas de fora das empresas que desenvolvem essas ferramentas. Um desenvolvedor da OpenAI, conhecido pelo pseudônimo roon, corroborou as preocupações de Hotz no início deste ano e abordou a questão de uma forma bastante incomum. Segundo ele, a IA vai cometer erros, inclusive erros dramáticos o suficiente para derrubar sistemas inteiros. Esses bugs serão difíceis de encontrar, mas eventualmente serão corrigidos. A previsão mais provocadora de roon foi que os desenvolvedores em breve vão parar de revisar manualmente o código gerado por IA.

Essa perspectiva é ao mesmo tempo realista e perturbadora. Se os próprios criadores dessas ferramentas reconhecem que o código gerado terá falhas graves e que a tendência natural é que os humanos simplesmente parem de verificar, estamos diante de um cenário onde a qualidade de código pode entrar em queda livre sem que ninguém perceba até que seja tarde demais. É exatamente o tipo de espiral que Hotz descreve em seu post, um Sloptember eterno, onde a degradação se torna permanente e normalizada.

O que está em jogo para a indústria

O que vai acontecer daqui para frente ainda é uma incógnita. Empresas continuam investindo pesado em AI agents para automação de desenvolvimento de software, e os argumentos de produtividade de curto prazo são sedutores demais para serem descartados facilmente. Investidores querem ver entregas mais rápidas, equipes menores e custos reduzidos, e os agentes de IA prometem exatamente isso. A questão é se essa promessa vai se sustentar quando os projetos começarem a atingir o ponto em que a dívida técnica acumulada se torna incontrolável.

O alerta de George Hotz planta uma pergunta que vai continuar rondando a indústria nos próximos anos: estamos construindo sistemas mais inteligentes ou apenas acumulando problemas mais rápido do que nunca? O contraste entre a posição de Hotz e a de Karpathy mostra que mesmo as mentes mais brilhantes da tecnologia discordam profundamente sobre o caminho à frente. E essa discordância, por si só, já é um sinal de que o tema merece muito mais cautela do que a maioria das empresas está demonstrando neste momento.

Essa resposta, no fim das contas, só o tempo e os repositórios de código vão revelar. 🤔

Foto de Rafael

Rafael

Operações

Transformo processos internos em máquinas de entrega — garantindo que cada cliente da Método Viral receba atendimento premium e resultados reais.

Preencha o formulário e nossa equipe entrará em contato em até 24 horas.

Publicações relacionadas

Ações da Amazon podem subir com parceria OpenAI

Parceria entre Amazon e OpenAI pode impulsionar receitas de IA e valorizar ações, diz Citi; impacto estratégico no AWS e

Moratória em Datacenters de IA: Energia em Debate

Moratória: Sanders e AOC propõem pausa na construção de datacenters de IA nos EUA para avaliar impactos ambientais e energéticos.

Blockchain e Agentes de IA Mudam os Pagamentos em Cripto

Agentes de IA impulsionam pagamentos cripto com blockchain, stablecoins e x402, viabilizando transações autônomas, micropagamentos e economia entre máquinas

Receba o melhor conteúdo de inovação em seu e-mail

Todas as notícias, dicas, tendências e recursos que você procura entregues na sua caixa de entrada.

Ao assinar a newsletter, você concorda em receber comunicações da Método Viral. A gente se compromete a sempre proteger e respeitar sua privacidade.

Rafael

Online

Atendimento

Calculadora Preço de Sites

Descubra quanto custa o site ideal para o seu negócio

Páginas do Site

Quantas páginas você precisa?

Arraste para selecionar de 1 a 20 páginas

Em apenas 2 minutos, descubra automaticamente quanto custa um site sob medida para o seu negócio

Mais de 0+ empresas já calcularam seu orçamento

Fale com um consultor

Preencha o formulário e nossa equipe entrará em contato.