A revolução dos agentes de código ganhou um capítulo importante com o lançamento do Leanstral, da Mistral AI. Esses agentes já mostraram que conseguem gerar código em altíssimo nível, mas quando o assunto é software crítico ou matemática de fronteira, aparece sempre o mesmo gargalo: a revisão humana.
Em áreas como pesquisa avançada em matemática, verificação de propriedades de linguagens como Rust ou desenvolvimento de sistemas que não podem falhar, o custo não está só em escrever o código, mas principalmente em comprovar que ele está correto. E isso, hoje, ainda recai pesadamente sobre especialistas revisando cada detalhe à mão.
A proposta do Leanstral é atacar exatamente esse ponto: em vez de só gerar código, ele atua como um agente preparado para interagir com o Lean 4 e trabalhar em repositórios formais reais, ajudando a provar que o código atende a especificações rígidas. Menos tempo caçando bug sutil, mais tempo definindo o que o sistema precisa fazer.
Leanstral: agente open-source focado em Lean 4
O Leanstral é o primeiro agente de código open-source projetado especificamente para o Lean 4, um assistente de provas usado para descrever objetos matemáticos complexos e especificações formais de software. Com ele, dá para lidar desde conceitos como perfectoid spaces até propriedades de trechos de código Rust, usando frameworks já conhecidos na comunidade.
Ao contrário de sistemas que apenas embrulham modelos generalistas gigantes ou atacam problemas isolados de competição de matemática, o Leanstral foi pensado para atuar em cenários realistas de engenharia de provas, dentro de projetos formais grandes, como repositórios inteiros.
Alguns pontos centrais da proposta:
- Aberto e acessível: os pesos do modelo Leanstral são liberados sob licença Apache 2.0, o que permite uso comercial, estudo e modificação. Ele também está disponível em modo de agente dentro do Mistral Vibe e por meio de um endpoint de API gratuito, pensado para experimentação ampla.
- Eficiência com arquitetura esparsa: com cerca de 6 bilhões de parâmetros ativos, o Leanstral usa uma arquitetura altamente esparsa, otimizada para tarefas de engenharia de provas. Em vez de apostar em modelos gigantes, a Mistral foca em desempenho direcionado.
- Treinado para o mundo real: o modelo foi treinado para operar em repositórios formais reais, não só em problemas isolados. Isso muda bastante a utilidade prática quando você precisa resolver uma PR inteira, e não um exercício de competição.
- Integração com MCP: o Leanstral suporta MCPs via Mistral Vibe e foi treinado para ter performance máxima com o lean-lsp-mcp, que é amplamente usado para integrar Lean com tooling moderno.
Além disso, a Mistral anunciou a criação de um conjunto de avaliação novo, o FLTEval, que busca fugir do foco exclusivo em problemas de matemática competitiva e simular cenários mais próximos do dia a dia de quem trabalha com provas formais em projetos vivos.
Como o Leanstral é avaliado na prática
Em vez de usar apenas benchmarks de questões matemáticas soltas, o desempenho do Leanstral foi medido em um contexto bem mais exigente: completar todas as provas formais e definir corretamente novos conceitos matemáticos em cada pull request do projeto FLT.
Nesse cenário, ele foi comparado com:
- Agentes de código comerciais de ponta, como Claude Opus 4.6, Sonnet 4.6 e Haiku 4.5;
- Modelos open-source grandes, como Qwen3.5 397B-A17B, Kimi-K2.5 1T-A32B e GLM5 744B-A40B.
Comparação com modelos open-source gigantes
Na versão Leanstral-120B-A6B, o modelo mostra uma vantagem de eficiência bem clara sobre pares muito maiores. Em FLTEval, modelos como GLM5-744B-A40B e Kimi-K2.5-1T-32B batem em um teto por volta de 16,6 e 20,1 pontos, respectivamente.
Já o Leanstral consegue ultrapassar esses números com apenas um pass de inferência. E quando comparado ao Qwen3.5-397B-A17B — o competidor open-source mais forte no teste —, o contraste em eficiência fica ainda mais visível:
- O Qwen precisa de 4 passes para chegar a uma pontuação de 25,4;
- O Leanstral alcança 26,3 com apenas 2 passes e segue escalando de forma quase linear, chegando a 29,3 com o mesmo custo total.
Em outras palavras, ele faz mais com menos, o que é fundamental quando a gente fala de custo, latência e possibilidade de rodar o modelo em ambientes controlados ou on-premise.
Leanstral vs família Claude
Quando colocado lado a lado com a família Claude, o Leanstral aparece como uma opção de altíssimo custo-benefício para cenários de prova formal e engenharia de código.
Nos testes com Mistral Vibe como estrutura de suporte (sem ajustes especiais só para o benchmark), os resultados foram os seguintes:
| Modelo | Custo (US$) | Score FLTEval |
|---|---|---|
| Haiku | 184 | 23,0 |
| Sonnet | 549 | 23,7 |
| Opus | 1.650 | 39,6 |
| Leanstral | 18 | 21,9 |
| Leanstral pass@2 | 36 | 26,3 |
| Leanstral pass@4 | 72 | 29,3 |
| Leanstral pass@8 | 145 | 31,0 |
| Leanstral pass@16 | 290 | 31,9 |
Alguns destaques dessa tabela:
- Com pass@2, o Leanstral atinge 26,3 pontos, superando o Sonnet em 2,6 pontos, com um custo de 36 dólares, contra 549 dólares do Sonnet no benchmark.
- Em pass@16, o Leanstral chega a 31,9, ficando 8 pontos acima do Sonnet.
- O Claude Opus 4.6 ainda lidera em qualidade com 39,6, mas o preço dispara: cerca de 1.650 dólares, o que é 92 vezes mais caro do que rodar o Leanstral em um cenário equivalente.
Para equipes que precisam de muita prova formal, mas não podem simplesmente queimar orçamento em inferência, essa diferença é bem relevante.
Casos de uso reais com Lean 4
Respondendo dúvidas sobre mudanças em versões novas do Lean
Um dos testes práticos feitos com o Leanstral foi em cima de um problema real relatado no Proof Assistants Stack Exchange. A pergunta descrevia um código que funcionava em versões anteriores do Lean, mas que parou de compilar na versão 4.29.0-rc6. Essa versão é recente o bastante para não ter sido incluída no treino do modelo, o que torna o teste ainda mais interessante.
O erro envolvia uma tática de reescrita, a rw, que deixou de conseguir casar padrões com um type alias simples, definido assim: def T2 := List Bool. Em vez de só chutar uma solução, o Leanstral montou um código de teste reproduzindo o ambiente da falha, analisou o comportamento da definição e rastreou o problema até a igualdade definicional.
Ele identificou corretamente que o uso de def cria uma definição que precisa ser explicitamente desdobrada, o que estava atrapalhando o rw na hora de enxergar a estrutura certa para o padrão. A solução sugerida foi trocar def por abbrev, que gera um alias transparente, imediatamente igual ao tipo original aos olhos do verificador.
Com essa mudança, a tática rw volta a casar corretamente expressões como (L2 n).length na prova. O Leanstral não só chega ao conserto, como explica o motivo de forma clara, atuando como um assistente técnico que entende as sutilezas do núcleo lógico do Lean.
Raciocínio sobre programas e tradução de provas
Outro exemplo interessante veio de um experimento com definições em Rocq (Coq), extraídas de um material clássico de Semantics de Princeton. Essas definições descrevem uma linguagem imperativa simples e suas propriedades.
No teste, essas definições foram copiadas e o Leanstral foi instruído a convertê-las para Lean 4. Ele conseguiu fazer essa tradução com sucesso, incluindo a implementação de notações personalizadas equivalentes às do ambiente original.
Mais do que isso, o modelo foi capaz de, a partir apenas das afirmações das propriedades em Rocq (sem as provas), escrever provas em Lean para essas mesmas propriedades da linguagem. Ou seja, ele entendeu não só a sintaxe, mas também a semântica dos enunciados e conseguiu reconstruir demonstrações nesse novo ambiente formal.
Esse tipo de capacidade abre portas para migração gradual de bases formais de uma ferramenta para outra, além de auxiliar na educação em verificação formal, onde estudantes podem explorar linguagens diferentes sem reescrever tudo do zero.
Modos de uso e acesso ao Leanstral
O Leanstral foi lançado de forma a cobrir vários perfis de uso, desde quem só quer experimentar rápidas sessões de proving até equipes que desejam rodar o modelo em infraestrutura própria.
- Integração no Mistral Vibe: o modelo está disponível em modo agente dentro do Vibe, pronto para uso, sem configuração pesada. A ideia é permitir sessões de vibe coding e proving em Lean com comando direto.
- Labs API: a Mistral oferece um endpoint de API gratuito ou quase gratuito com o identificador labs-leanstral-2603. Esse canal foi pensado para reunir feedback real de uso e dados de observabilidade, ajudando a guiar as próximas gerações de modelos focados em código verificado.
- Pesos sob Apache 2.0: para quem precisa de controle máximo, os pesos do modelo podem ser baixados e executados em hardware próprio, seja em nuvem privada, seja on-premise. Isso é essencial para organizações que lidam com dados sensíveis ou têm requisitos fortes de compliance.
A Mistral também anunciou um relatório técnico detalhando a abordagem de treino, além do já citado FLTEval, voltado para avaliação em cenários mais próximos da prática profissional em prova formal.
Por que isso importa para o futuro da engenharia de código
O Leanstral aponta para uma mudança de fase no uso de IA em desenvolvimento de software. Em vez de só acelerar digitação ou gerar esboços que precisam ser reescritos por humanos, ele se aproxima de um assistente capaz de operar dentro de ambientes formais complexos, respeitando especificações rígidas e fornecendo provas verificáveis.
Para quem trabalha com código crítico, isso significa a possibilidade de deslocar esforço humano de tarefas repetitivas de revisão para etapas de definição de requisitos formais, arquitetura e design de sistemas. A verificação passa a ser, cada vez mais, um processo automatizado, com o engenheiro focando em dizer o que é necessário provar, e não em escrever à mão cada detalhe da prova.
O fato de tudo isso chegar em um pacote open-source, com acesso amplo, avaliação transparente e integração com tooling moderno via MCP, reforça uma tendência importante: modelos de IA especializados, eficientes e verificáveis ganhando terreno em cima de soluções gigantes genéricas, especialmente em contextos onde confiança e previsibilidade são mais importantes do que simplesmente ter o maior número bruto de parâmetros.
No fim das contas, o Leanstral não resolve sozinho todos os desafios da prova formal assistida por IA, mas é um passo relevante em direção a uma geração de agentes de código que não só escrevem, mas também sustentam matematicamente o que escrevem. E para quem vive o dia a dia de tecnologia, IA e engenharia de software, isso muda o jogo de forma bem concreta. 💻🔥
