Leanstral: a base open-source da Mistral AI para vibe-coding confiável com provas formais
O Leanstral chegou para mudar uma conversa que a galera de tecnologia vinha adiando há um bom tempo. E dessa vez, não estamos falando de mais um modelo genérico que escreve código bonito mas que ninguém sabe se funciona de verdade.
A geração de código por IA evoluiu absurdamente nos últimos anos. Agentes de IA já provaram que são ferramentas altamente capazes na hora de criar código. Mas um problema persistia como uma pedra no sapato: quem garante que o que a IA produziu está realmente certo? Em áreas críticas, como software de missão essencial, pesquisa matemática de fronteira ou sistemas onde uma falha pode custar muito caro, a revisão humana ainda era o maior gargalo do processo. O tempo e a expertise especializada necessários para verificar manualmente o código gerado se tornaram o principal impedimento da velocidade de engenharia. Especialistas precisavam gastar horas conferindo cada linha, e isso travava tudo. Projetos atrasavam, bugs escapavam, e a confiança no código gerado por IA seguia sendo questionada por quem tomava as decisões.
A visão da Mistral AI para resolver esse impasse é ambiciosa: uma nova geração de agentes de codificação que não apenas executem suas tarefas, mas que também provem formalmente que suas implementações estão corretas em relação a especificações rigorosas. Em vez de humanos ficarem depurando a lógica gerada por máquinas, eles simplesmente ditam o que querem, e o agente se encarrega de fazer e de provar que fez certo. O resultado concreto desse primeiro grande passo é o Leanstral, o primeiro agente de código open-source projetado especificamente para trabalhar com o Lean 4. 🎯
O que é o Lean 4 e por que ele é tão importante nessa história
Para entender o impacto do Leanstral, vale contextualizar o que é o Lean 4 e por que a Mistral escolheu essa linguagem como base. O Lean 4 é um assistente de provas que consegue expressar objetos matemáticos extremamente complexos, como espaços perfectóides, e também especificações de software, como propriedades de fragmentos de Rust. Ele não é apenas uma linguagem de prova; é também uma linguagem de programação funcional completa, o que significa que o mesmo código que você escreve para implementar uma função pode vir acompanhado de provas formais sobre o comportamento dessa função, no mesmo arquivo e no mesmo projeto.
Diferente de testes tradicionais, onde você verifica se o programa funciona em alguns casos específicos, uma prova formal usa matemática para demonstrar que o código se comporta corretamente em absolutamente todos os casos possíveis. Não tem margem para surpresa, não tem caso extremo que escapa, não tem bug que passa despercebido num cenário hipotético. A prova ou existe ou não existe, e quando ela existe, você tem uma garantia que nenhum teste convencional consegue oferecer.
Essa abordagem é especialmente valiosa em contextos onde falhas têm consequências sérias: sistemas embarcados em aviões, código que gerencia infraestrutura financeira, algoritmos críticos em dispositivos médicos ou qualquer software onde um erro pode significar prejuízo enorme ou risco real. Historicamente, criar essas provas era um trabalho extremamente manual, lento e que exigia profissionais com formação altamente especializada em lógica matemática. Por isso, apesar de ser uma técnica conhecida há décadas, as provas formais nunca chegaram ao mainstream do desenvolvimento de software. É exatamente nessa lacuna que o Leanstral se encaixa de forma cirúrgica.
O que torna o Leanstral diferente dos outros sistemas
A Mistral AI faz questão de destacar que o Leanstral não é apenas mais um wrapper em cima de um modelo generalista grande, nem um sistema focado apenas em resolver problemas matemáticos isolados. Ele foi projetado para ser altamente eficiente, com apenas 6 bilhões de parâmetros ativos graças a uma arquitetura esparsa, e treinado para operar em repositórios formais realistas. Essa distinção é fundamental, porque trabalhar com repositórios reais de Lean é muito mais complexo do que resolver um teorema solto. Envolve entender dependências entre arquivos, navegar por bibliotecas importadas, lidar com versões diferentes da linguagem e respeitar o contexto do projeto como um todo.
O Leanstral se apoia em três pilares principais:
- Aberto e acessível: Os pesos do modelo são disponibilizados sob licença Apache 2.0. Além disso, ele está acessível em modo agente dentro do Mistral Vibe e através de um endpoint de API gratuito. A Mistral também promete liberar um relatório técnico detalhando a abordagem de treinamento e uma nova suíte de avaliação chamada FLTEval, projetada para levar as avaliações além do foco habitual em matemática de competição.
- Eficiente e poderoso: Usando uma arquitetura altamente esparsa e otimizada para tarefas de engenharia de provas, o Leanstral aproveita inferência paralela com o Lean atuando como verificador perfeito. Isso o torna tanto performático quanto custo-eficiente quando comparado com concorrentes de código fechado muito maiores.
- Atualizável via MCP: O Leanstral suporta MCPs arbitrários através do Vibe e foi especificamente treinado para alcançar desempenho máximo com o frequentemente usado lean-lsp-mcp.
Avaliação: números que falam alto
Um dos aspectos mais impressionantes do lançamento do Leanstral são os resultados de benchmark. Em vez de usar avaliações tradicionais baseadas em problemas matemáticos isolados, a Mistral criou o FLTEval, que reflete cenários realistas de engenharia de provas. O benchmark avalia a capacidade de completar todas as provas formais e definir corretamente novos conceitos matemáticos em cada pull request do projeto FLT, o que é significativamente mais desafiador e representativo do mundo real.
Leanstral contra modelos open-source
Os resultados contra outros modelos de código aberto são bastante expressivos. O Leanstral-120B-A6B demonstra uma vantagem significativa de eficiência sobre seus pares open-source, que são muito maiores em tamanho. Modelos como o GLM5-744B-A40B e o Kimi-K2.5-1T-32B têm dificuldade em escalar, com seus scores no FLTEval estagnando em aproximadamente 16.6 e 20.1, respectivamente. O Leanstral supera ambos com apenas uma única passagem.
Até mesmo o Qwen3.5-397B-A17B, que é o competidor open-source mais forte nos testes, precisa de 4 passagens para alcançar um score de 25.4. Em contraste, o Leanstral atinge um score superior de 26.3 com apenas 2 passagens (metade do investimento computacional) e continua escalando de forma linear, chegando a 29.3 no mesmo nível de custo. Considerando que o Leanstral opera com apenas 6B de parâmetros ativos contra dezenas de bilhões dos concorrentes, esses números são notáveis. 📊
Leanstral contra a família Claude
A comparação com os modelos da Anthropic é onde o argumento de custo-benefício do Leanstral fica realmente impressionante. O Leanstral com 2 passagens atinge um score de 26.3 no FLTEval, superando o Claude Sonnet 4.6 por 2.6 pontos, enquanto custa apenas $36 para rodar, contra $549 do Sonnet. Isso é mais de 15 vezes mais barato para um resultado melhor.
Com 16 passagens, o Leanstral chega a um score de 31.9, superando confortavelmente o Sonnet por 8 pontos. O Claude Opus 4.6 ainda lidera em qualidade bruta com um score de 39.6, mas isso vem com um custo impressionante de $1.650, o que é 92 vezes mais caro do que rodar o Leanstral. O Claude Haiku 4.5, que custa $184, marca 23.0, ficando abaixo do Leanstral pass@2 que custa apenas $36.
Vale destacar que nos benchmarks, a equipe da Mistral usou o Mistral Vibe como scaffold sem nenhuma modificação específica para a avaliação, o que torna os resultados ainda mais representativos do desempenho real que qualquer pessoa pode esperar ao usar a ferramenta no dia a dia. 💰
Casos de uso no mundo real
Números de benchmark são ótimos, mas o que realmente convence é ver a ferramenta resolvendo problemas reais. A Mistral compartilhou dois estudos de caso que mostram o Leanstral em ação fora do ambiente controlado de avaliação.
Resolvendo problemas de migração entre versões do Lean
Quando mudanças que quebram compatibilidade aparecem em uma nova versão do Lean, migrar código pode ser uma dor de cabeça monumental. A equipe alimentou o Leanstral com uma pergunta real do Proof Assistants Stack Exchange sobre um script que misteriosamente parou de compilar no Lean 4.29.0-rc6, uma versão tão recente que o modelo nem sequer foi treinado com ela.
O problema envolvia uma tática rewrite (rw) que de repente falhou ao tentar fazer correspondência de padrões envolvendo um alias de tipo simples, originalmente escrito como def T2 := List Bool. Em vez de chutar uma solução genérica, o Leanstral arregaçou as mangas: construiu código de teste para recriar o ambiente com falha, diagnosticou o problema subjacente com igualdade definicional e identificou corretamente que, como def cria uma definição rígida que requer desdobramento explícito, ele estava bloqueando ativamente a tática rw de enxergar a estrutura que precisava para fazer o match.
A correção proposta foi simples e elegante: trocar def por abbrev. Como abbrev cria um alias transparente que é imediatamente definicionalmente igual ao tipo original, a tática rw voltou a funcionar perfeitamente na prova. O Leanstral completou a tarefa e ainda explicou a lógica por trás da solução de forma clara para o usuário.
Raciocinando sobre programas e traduzindo entre linguagens de prova
No segundo caso, a equipe copiou definições escritas em Rocq (anteriormente conhecido como Coq) de um material de curso da Universidade de Princeton e pediu ao Leanstral para converter para Lean. O agente fez a conversão com sucesso, incluindo a implementação de notação customizada, que é uma tarefa não trivial que exige entendimento profundo das duas linguagens. Mais impressionante ainda: quando recebeu apenas o enunciado de propriedades em Rocq, sem as provas, o Leanstral conseguiu traduzir para Lean e provar essas propriedades do zero. Esse tipo de capacidade de raciocínio entre linguagens de prova diferentes é algo que poucos sistemas no mundo conseguem fazer de forma autônoma. 🧠
Como começar a usar o Leanstral agora
O Leanstral está disponível hoje para qualquer pessoa usar, e a Mistral ofereceu múltiplas formas de acesso para atender diferentes perfis de usuários:
- Zero setup no Mistral Vibe: O Leanstral foi integrado diretamente ao Mistral Vibe para vibe-coding e provas imediatas, sem precisar configurar nada. Para ativar, basta usar
/leanstral. Depois, pressioneShift+Tabaté o modelo aparecer como Leanstral, ou então usevibe --agent lean. - API Labs: O modelo pode ser acessado via endpoint de API gratuito ou quase gratuito, usando o identificador
labs-leanstral-2603. A Mistral está mantendo esse endpoint altamente acessível por um período limitado para coletar feedback realista e dados de observabilidade que vão alimentar a próxima geração de modelos de código verificado. - Baixe os pesos: O modelo com licença Apache 2.0 pode ser baixado e executado na sua própria infraestrutura, dando total controle sobre como e onde você roda o Leanstral.
O impacto do open-source para a comunidade de IA e desenvolvimento
A decisão de lançar o Leanstral como uma solução open-source sob licença Apache 2.0 não é um detalhe menor; é uma escolha filosófica e estratégica com implicações práticas enormes. Quando uma ferramenta de IA voltada para verificação formal é fechada e proprietária, ela fica presa dentro de um ecossistema controlado, com acesso limitado por custos ou restrições de uso. Pesquisadores independentes não conseguem estudar como ela funciona, não conseguem identificar limitações e não conseguem adaptar a ferramenta para casos de uso que a empresa original não previu. O open-source derruba essas barreiras de uma vez.
Para equipes de desenvolvimento que trabalham em projetos que demandam alta confiabilidade, isso abre possibilidades concretas. Uma startup que desenvolve software financeiro pode integrar o Leanstral em seu pipeline sem pagar por um serviço caro. Uma universidade que ensina métodos formais pode usar o agente como ferramenta didática e contribuir com melhorias no código-base. Uma empresa que precisa adaptar a ferramenta para um domínio específico pode fazer isso sem depender de uma API fechada ou de um contrato comercial.
Além disso, a abertura do código cria uma dinâmica de confiança que é particularmente importante quando o assunto é verificação de corretude de software. Se você vai usar uma ferramenta para garantir que seu código está matematicamente correto, faz todo sentido querer inspecionar como essa ferramenta funciona por dentro. A transparência do Leanstral não é apenas um bônus; ela é parte fundamental do argumento de valor da ferramenta. Um sistema de verificação que você não pode auditar tem uma credibilidade inevitavelmente limitada. Com o código disponível, a comunidade pode verificar, criticar, melhorar e confiar com muito mais embasamento. 🔍
O que o Leanstral significa para o futuro do vibe-coding
O termo vibe-coding, que vem ganhando força nos últimos meses, descreve uma forma de programar onde o desenvolvedor se concentra na intenção do que quer construir e deixa a IA cuidar da implementação. É uma forma de trabalho empolgante, mas que até agora carregava um risco implícito: se você confia na IA para escrever o código, como pode ter certeza de que ele está fazendo o que deveria? O Leanstral responde essa pergunta adicionando uma camada de verificação formal ao processo. Não é mais vibe-coding no escuro; é vibe-coding com prova matemática de que as coisas estão certas.
Esse conceito de trustworthy vibe-coding, ou vibe-coding confiável, é o que a Mistral está posicionando como a próxima evolução natural da geração de código por IA. Em vez de escolher entre velocidade e confiança, a proposta é ter os dois. O desenvolvedor descreve o que quer, o agente implementa e prova, e o verificador do Lean garante que tudo está correto. Se a prova passa, a implementação está matematicamente correta. Sem discussão, sem achismo, sem horas de code review tentando encontrar bugs sutis.
O Leanstral ainda é uma ferramenta jovem, e é natural que ela evolua bastante nos próximos meses à medida que mais pessoas usam, testam e contribuem. Mas o que a Mistral AI colocou na mesa com esse lançamento já é suficiente para mudar a conversa sobre o papel dos agentes de IA na verificação de software. A combinação de open-source, desempenho competitivo com custo absurdamente menor que os concorrentes, integração nativa com o Lean 4 e uma arquitetura de agente bem pensada cria uma base sólida para que as provas formais finalmente comecem a sair dos laboratórios e entrar no cotidiano do desenvolvimento. E isso, convenhamos, era algo que estava esperando acontecer há bastante tempo. ✅
