Leanstral: la base open-source de Mistral para vibe-coding con pruebas formales
Los agentes de codificación impulsados por inteligencia artificial ya demostraron que pueden producir código a una velocidad impensable hace pocos años, pero existe un cuello de botella que sigue retrasando a todo el mundo: la necesidad de revisión humana. Cuanto más sensible y crítico es el proyecto en cuestión, mayor es el volumen de tiempo y conocimiento especializado requerido para garantizar que cada línea realmente hace lo que promete. Este es un problema antiguo, y hasta ahora la solución más común era simplemente invertir más horas de trabajo humano sobre el resultado generado por la máquina, lo que obviamente no escala bien.
La visión de Mistral para resolver este impasse es ambiciosa: crear una nueva generación de agentes de codificación que no solo ejecuten tareas, sino que también prueben formalmente que sus implementaciones son correctas respecto a especificaciones rigurosas. En lugar de pasar horas depurando lógica generada por máquina, el humano simplemente dicta lo que quiere, y el sistema se encarga tanto de la ejecución como de la verificación. El primer gran paso en esa dirección acaba de darse con el lanzamiento de Leanstral.
Qué es Leanstral y por qué importa
Leanstral es el primer agente de código open-source diseñado específicamente para trabajar con Lean 4, un asistente de pruebas formales capaz de expresar objetos matemáticos complejos, como perfectoid spaces, y especificaciones de software, como propiedades de fragmentos en Rust. A diferencia de otros sistemas de prueba existentes que funcionan como wrappers alrededor de grandes modelos generalistas o que se enfocan en problemas matemáticos aislados, Leanstral fue construido para operar en repositorios formales realistas, esos que encontramos en el día a día de proyectos serios de verificación.
La arquitectura detrás de él es dispersa: son 120 mil millones de parámetros en total, pero solo 6 mil millones quedan activos durante la inferencia. Esto significa que el modelo logra ser lo suficientemente expresivo para lidiar con problemas complejos de prueba formal sin exigir el tipo de infraestructura absurda que modelos densos de tamaño equivalente necesitarían. El resultado práctico es un costo de operación mucho menor y una latencia que permite uso interactivo real, sin esa espera eterna que ya conocemos de modelos pesados.
El modelo está disponible bajo licencia Apache 2.0, lo que significa que cualquier persona o empresa puede descargarlo, modificarlo y redistribuirlo sin restricciones comerciales. Además, Mistral prometió publicar un reporte técnico detallando el enfoque de entrenamiento y una nueva suite de evaluación llamada FLTEval, diseñada para mover los benchmarks más allá del foco tradicional en matemáticas de competición.
Tres pilares de Leanstral
Mistral destacó tres características centrales del modelo en el anuncio oficial:
- Abierto y accesible: los pesos del modelo están disponibles con licencia Apache 2.0. También funciona en modo agente dentro de Mistral Vibe y cuenta con un endpoint de API gratuito. El equipo también liberará el reporte técnico y la suite de evaluación FLTEval.
- Eficiente y poderoso: la arquitectura altamente dispersa fue optimizada para tareas de ingeniería de pruebas. Al combinar inferencia paralela con Lean como verificador perfecto, Leanstral entrega un rendimiento competitivo frente a competidores de código cerrado con un costo mucho menor.
- Actualizable vía MCP: Leanstral soporta MCPs arbitrarios a través de Vibe y fue específicamente entrenado para alcanzar rendimiento máximo con lean-lsp-mcp, una herramienta frecuentemente utilizada por la comunidad Lean.
Cómo funciona Leanstral en la práctica
Lean 4 es un lenguaje de programación y un framework de verificación formal que permite escribir proposiciones matemáticas y, a continuación, construir pruebas de que esas proposiciones son verdaderas. Se usa en proyectos académicos de formalización de las matemáticas, como Mathlib, pero también tiene aplicaciones directas en la verificación de software crítico, como sistemas embebidos, protocolos criptográficos y contratos inteligentes. El problema es que escribir pruebas en Lean exige un nivel de especialización que poquísimos desarrolladores poseen. La curva de aprendizaje es empinada y el proceso de construcción de una prueba completa puede ser extremadamente lento, incluso para quienes ya dominan la herramienta.
Es exactamente ahí donde entra Leanstral. Fue entrenado con datos específicos del ecosistema Lean 4 para ser capaz de sugerir tácticas, completar pasos intermedios e incluso generar pruebas enteras para lemas y teoremas que el usuario está intentando demostrar. En la práctica, esto transforma el flujo de trabajo de quien usa Lean de algo puramente manual y cerebral en una colaboración activa entre el humano y el modelo, donde Leanstral propone caminos y el verificador formal de Lean garantiza que esos caminos son matemáticamente válidos. Si el modelo sugiere algo incorrecto, el propio Lean rechaza la prueba, así que existe una capa de seguridad incorporada que no depende de confianza ciega en el modelo.
Otro punto relevante es la integración nativa con Mistral Vibe, la plataforma de agentes de codificación de Mistral. Con soporte al protocolo MCP — el Model Context Protocol — Leanstral puede conectarse a pipelines de desarrollo existentes y funcionar como una pieza dentro de un flujo mayor de generación y verificación de código. Esto abre posibilidades interesantes, como tener un agente que primero genera código funcional y después invoca a Leanstral para producir pruebas de que propiedades específicas de ese código se respetan.
Evaluación: el benchmark FLTEval
Para reflejar la utilidad en escenarios realistas de ingeniería de pruebas, Mistral no optó por evaluar a Leanstral únicamente con problemas matemáticos aislados. En su lugar, usaron el proyecto FLT (Fermat’s Last Theorem) como base y crearon el benchmark FLTEval, que mide la capacidad del modelo de completar todas las pruebas formales y definir correctamente nuevos conceptos matemáticos en cada pull request del proyecto. Esto es mucho más representativo del trabajo real que un ingeniero de pruebas hace en el día a día.
Leanstral fue comparado contra los principales agentes de codificación del mercado, incluyendo modelos de la familia Claude — Opus 4.6, Sonnet 4.6 y Haiku 4.5 — y modelos open-source de gran escala como Qwen3.5 397B-A17B, Kimi-K2.5 1T-A32B y GLM5 744B-A40B.
Leanstral contra modelos open-source
Leanstral-120B-A6B demostró una ventaja de eficiencia significativa sobre sus pares open-source, que son mucho más grandes en términos de parámetros activos. Modelos como GLM5-744B-A40B y Kimi-K2.5-1T-32B tuvieron dificultades para escalar, con sus puntuaciones en FLTEval estancándose en aproximadamente 16.6 y 20.1, respectivamente. Leanstral superó a ambos con un solo pase de inferencia.
Incluso Qwen3.5-397B-A17B, el competidor open-source más fuerte evaluado, necesitó 4 pases para alcanzar una puntuación de 25.4. En contraste, Leanstral alcanzó 26.3 con la mitad de esa inversión, usando pass@2, y continuó escalando de forma lineal, llegando a 29.3 al mismo nivel de costo.
Leanstral contra la familia Claude
Los resultados contra la familia Claude son donde la propuesta de valor de Leanstral queda más evidente. Con pass@2, alcanza 26.3 puntos, superando a Sonnet 4.6 por 2.6 puntos, con un costo de apenas US$ 36 contra US$ 549 de Sonnet. Con pass@16, Leanstral llega a 31.9 puntos, superando a Sonnet por 8 puntos cómodos.
Claude Opus 4.6 sigue siendo el líder en calidad absoluta, con 39.6 puntos, pero carga con un costo impresionante de US$ 1,650 — eso es 92 veces más caro que correr Leanstral. Para dar contexto, aquí está la tabla completa:
- Haiku 4.5: US$ 184 — 23.0 puntos
- Sonnet 4.6: US$ 549 — 23.7 puntos
- Opus 4.6: US$ 1,650 — 39.6 puntos
- Leanstral (pass@1): US$ 18 — 21.9 puntos
- Leanstral (pass@2): US$ 36 — 26.3 puntos
- Leanstral (pass@4): US$ 72 — 29.3 puntos
- Leanstral (pass@8): US$ 145 — 31.0 puntos
- Leanstral (pass@16): US$ 290 — 31.9 puntos
Un detalle importante: en los benchmarks, Mistral usó Mistral Vibe como scaffold sin ninguna modificación específica para la evaluación.
Casos de estudio: Leanstral en acción
Los números de benchmark están muy bien, pero lo que realmente cuenta es cómo se comporta el modelo en situaciones del mundo real. Mistral presentó dos casos de estudio que ilustran bien las capacidades de Leanstral.
Resolviendo problemas reales de migración en Lean
Cuando cambios que rompen compatibilidad llegan en una nueva versión de Lean, migrar código puede convertirse en un dolor de cabeza gigantesco. El equipo alimentó a Leanstral con una pregunta real de Proof Assistants Stack Exchange sobre un script que misteriosamente dejó de compilar en Lean 4.29.0-rc6, una versión tan reciente que ni siquiera fue usada en el entrenamiento del modelo.
El problema involucraba una táctica rewrite (rw) que repentinamente comenzó a fallar al intentar hacer matching en patrones que involucraban un alias de tipo simple, originalmente escrito como def T2 := List Bool.
En lugar de lanzar una solución a ciegas, Leanstral fue metódico. Construyó código de prueba para recrear el entorno con fallo y diagnosticó el problema subyacente relacionado con la igualdad definicional. El modelo identificó correctamente que, como def crea una definición rígida que requiere unfolding explícito, estaba bloqueando activamente la táctica rw de ver la estructura que necesitaba para hacer el matching.
La corrección propuesta fue simple y elegante: cambiar def por abbrev. Como abbrev crea un alias transparente que es inmediatamente definicionalmente igual al tipo original, la táctica rw volvió a conseguir hacer el matching perfectamente. Además de resolver el problema, Leanstral explicó el razonamiento detrás de la corrección de forma clara para el usuario. 👏
Razonando sobre programas
En el segundo caso de estudio, el equipo copió definiciones en Rocq (anteriormente conocido como Coq) de un curso de Princeton sobre lenguajes imperativos y le pidió a Leanstral que convirtiera todo a Lean 4. El modelo hizo la conversión con éxito, incluyendo la implementación de notación personalizada. Más impresionante aún: cuando recibió solo el enunciado de una proposición en Rocq, sin la prueba, Leanstral logró traducirlo a Lean y luego probar propiedades sobre programas en ese lenguaje. Este tipo de capacidad de traducción y razonamiento entre sistemas formales diferentes es extremadamente difícil y demuestra un entendimiento profundo tanto de la semántica como de la mecánica de las pruebas.
Qué cambia esto para los agentes de codificación
El impacto más significativo de Leanstral quizás no esté en las matemáticas puras, sino en lo que representa para el futuro de los agentes de codificación. Hoy, la mayoría de los agentes de IA que generan código funciona de una manera relativamente simple: recibe una instrucción, produce código y cruza los dedos para que los tests pasen. Cuando los tests fallan, el agente intenta corregir el problema en un ciclo de prueba y error. Este modelo funciona razonablemente bien para tareas simples, pero se vuelve frágil en escenarios donde la corrección del código es absolutamente crítica.
Introducir pruebas formales en ese pipeline cambia fundamentalmente la ecuación, porque el agente deja de depender solo de tests empíricos y pasa a ofrecer garantías matemáticas sobre el comportamiento del código. En lugar de tener 95% de cobertura de tests y rezar para que el 5% restante no esconda un bug catastrófico, el agente puede demostrar formalmente que ciertas propiedades son siempre verdaderas, independientemente de los inputs.
Con la integración a Mistral Vibe y el soporte al protocolo MCP, es posible imaginar workflows donde un agente de codificación genera una implementación, otro agente traduce los requisitos a especificaciones formales en Lean 4 y Leanstral se encarga de producir las pruebas de que la implementación satisface esas especificaciones. Si alguna prueba falla, el sistema sabe exactamente dónde está el problema y puede dirigir la corrección de forma mucho más precisa que un simple log de test roto. Este tipo de pipeline todavía está en etapas iniciales, pero el hecho de que todos los componentes ya existan como herramientas open-source accesibles es un paso enorme en la dirección correcta.
Cómo usar Leanstral ahora
Leanstral ya está disponible para uso inmediato a través de tres caminos:
- Mistral Vibe (zero setup): el modelo fue integrado directamente en Mistral Vibe para vibe coding y prueba inmediata, sin necesidad de configurar nada. Basta con usar el comando
/leanstralpara empezar. - API Labs: el modelo puede ser accedido a través del endpoint gratuito o casi gratuito
labs-leanstral-2603. Mistral está manteniendo este endpoint altamente accesible por un período limitado para recopilar feedback realista y datos de observabilidad que alimentarán la próxima generación de modelos de código verificado. - Descarga de los pesos: como el modelo tiene licencia Apache 2.0, cualquier persona puede descargarlo y correrlo en su propia infraestructura.
La tendencia de la especialización en IA
El lanzamiento de Leanstral también señala una tendencia más amplia en el mercado de modelos de IA: la especialización. En lugar de intentar construir un único modelo que haga todo de forma mediocre, empresas como Mistral están invirtiendo en modelos más pequeños, más eficientes y profundamente especializados en dominios específicos. Los resultados hablan por sí solos: con apenas 6 mil millones de parámetros activos, Leanstral supera a modelos con decenas de veces más parámetros activos en tareas de ingeniería de pruebas, y lo hace a una fracción del costo.
Para quienes siguen el ecosistema de inteligencia artificial, esto es un recordatorio de que no siempre el modelo más grande es el mejor modelo. A veces, lo que realmente marca la diferencia es tener la herramienta correcta para el problema correcto. Leanstral es un ejemplo claro de cómo esta filosofía puede generar resultados impresionantes sin exigir recursos computacionales absurdos. Y el hecho de que sea completamente open-source significa que la comunidad puede contribuir, adaptar y construir sobre esta base, acelerando el camino hacia un futuro donde el código generado por IA viene acompañado de garantías formales de corrección 🚀
