Mistral Medium 3.5: La Apuesta Europea por el Self-Hosting de IA de 128B Parámetros

Mistral AI ha lanzado Medium 3.5, un modelo denso de 128 mil millones de parámetros que fusiona chat, razonamiento y generación de código en un único conjunto de pesos. El lanzamiento, anunciado el 29 de abril de 2026, representa una apuesta estratégica por parte de la empresa francesa para posicionarse como la alternativa europea de referencia en un mercado dominado por gigantes estadounidenses y chinos.

Especificaciones técnicas y requisitos de hardware

Medium 3.5 es un modelo denso, lo que significa que los 128 mil millones de parámetros se cargan y activan para cada token generado. Esto contrasta con la arquitectura Mixture of Experts (MoE) que Mistral utilizó en modelos anteriores como Mistral Large 3, donde solo se activaba una fracción de los parámetros totales por token.

  • Parámetros: 128 mil millones (denso)
  • Ventana de contexto: 256.000 tokens
  • Requisitos mínimos de hardware: 4 GPUs para self-hosting
  • Coste API: 1,37 € por millón de tokens de entrada, 6,85 € por millón de tokens de salida

La decisión de optar por una arquitectura densa en lugar de MoE tiene implicaciones directas para el despliegue en infraestructuras propias. Aunque requiere más recursos por petición, ofrece un coste predecible por token y simplifica la planificación de capacidad, algo fundamental para empresas que operan con presupuestos de infraestructura fijos.

El cambio de licencia: de Apache 2.0 a MIT modificada

Uno de los aspectos más significativos del lanzamiento es el cambio de licencia. Mientras que Mistral Large 3 se distribuía bajo Apache 2.0, Medium 3.5 utiliza una licencia MIT modificada que incluye exclusiones por umbrales de ingresos.

Esto significa que el uso comercial sigue permitido, pero los proveedores que superen ciertos umbrales de ingresos deberán negociar directamente con Mistral. La licencia Apache 2.0 anterior permitía la redistribución sin restricciones de ingresos, por lo que este cambio representa un giro hacia un modelo más restrictivo que podría afectar a startups y proyectos comerciales que buscan construir sobre estos pesos abiertos.

Razonamiento configurable: un modelo para todas las tareas

Medium 3.5 introduce un parámetro de configuración por petición llamado reasoning_effort que permite ajustar el esfuerzo de razonamiento según la complejidad de la tarea. Esto elimina la necesidad de mantener modelos separados para chat básico, razonamiento profundo y generación de código.

Un endpoint, una línea de facturación y una bandera de ejecución que determina cuánto tiene que pensar el modelo. Las consultas simples se procesan con la configuración ligera, mientras que las tareas complejas de agentes que requieren planificar refactorizaciones multi-paso o leer bases de código extensas activan el modo de razonamiento intensivo. Esta unificación simplifica drásticamente la arquitectura de despliegue para equipos técnicos.

Benchmarks: los números hablan

Según los datos proporcionados por Mistral, Medium 3.5 alcanza los siguientes resultados:

  • SWE-Bench Verified: 77,6%
  • T3-Telecom: 91,4%

Estos resultados posicionan al modelo por encima de Devstral 2 y Qwen 3.5 397B A17B en benchmarks de programación y agentes, según las cifras internas de la empresa. Sin embargo, las valoraciones independientes han sido mixtas.

La competencia: Qwen 3.6 y la presión de los precios

La realidad del mercado actual presenta un desafío significativo. Alibaba Qwen 3.6, con 27 mil millones de parámetros, alcanza un 72,4% en SWE-Bench Verified, solo cinco puntos por debajo de Medium 3.5, a aproximadamente un cuarto del coste.

Los líderes actuales de los rankings de modelos de código abierto son Qwen, GLM de Zhipu AI y MiMo-V2 de Xiaomi. Medium 3.5 aún no ha conseguido posicionarse entre ellos, lo que plantea preguntas sobre la relación calidad-precio frente a alternativas más económicas y con rendimiento comparable.

Ecosistema de agentes: Vibe y Le Chat Work Mode

Junto al modelo, Mistral ha lanzado dos herramientas orientadas al uso empresarial. Vibe extiende la funcionalidad de coding a la nube mediante agentes remotos que operan en entornos aislados, pueden crear pull requests y se integran con GitHub, Linear, Jira, Sentry y Slack.

Le Chat Work Mode añade un modo de trabajo con conectores habilitados por defecto para correo y calendario, requiriendo aprobación explícita del usuario antes de ejecutar acciones sensibles. Cada llamada a herramienta y cada razonamiento se muestra al usuario, un enfoque de transparencia que aborda la fricción que ha frenado la adopción de agentes de larga duración en entornos empresariales.

Implicaciones para el self-hosting

Para los equipos que mantienen infraestructura propia, Medium 3.5 ofrece varias ventajas concretas. El requisito de solo 4 GPUs reduce significativamente la barrera de entrada comparado con modelos que requieren configuraciones de hardware más extensas. Mistral distribuye el modelo como contenedor NVIDIA NIM, facilitando el despliegue en entornos empresariales existentes.

La posibilidad de mantener los pesos dentro de la red propia de la organización responde a las preocupaciones de privacidad y soberanía de datos que muchas empresas europeas enfrentan. Sin embargo, el coste de operación y la nueva licencia modificada requieren un análisis cuidadoso del retorno de inversión frente a alternativas como Qwen 3.6 o el uso de APIs gestionadas.

Conclusión

Mistral Medium 3.5 representa una apuesta ambiciosa por consolidar chat, razonamiento y programación en un único modelo denso de pesos abiertos. La simplificación arquitectónica, el razonamiento configurable y los requisitos de hardware relativamente accesibles lo posicionan como una opción atractiva para despliegues empresariales propios.

No obstante, la brecha de precio frente a competidores como Qwen 3.6 y la nueva licencia con exclusiones comerciales introducen variables que cada equipo deberá evaluar según su escala y modelo de negocio. Para proyectos de homelab y entusiastas del self-hosting, el modelo abre posibilidades interesantes, aunque el coste de 4 GPUs sigue siendo una inversión considerable que sitúa este despliegue en el ámbito de infraestructuras serias más que de experimentación casual.

Read more