El Stack Definitivo para LLMs Locales en 2025: De los Híbridos al Full Self-Hosting

Hace cinco años, el desarrollo web tenía stacks claros: Postgres + Django + Bootstrap, o .NET + Angular. Cada uno sabía qué tecnologías elegir según el caso de uso. En 2025, el ecosistema de LLMs locales ha madurado lo suficiente como para hablar de un stack equivalente — aunque la complejidad es mayor y las opciones, más dispersas.

Una discusión reciente en Hacker News ha revelado cómo los equipos técnicos y los entusiastas del homelab están configurando sus infraestructuras de IA local. Lo que emerge no es una solución única, sino tres patrones arquitectónicos distintos que dependen del presupuesto, las necesidades de privacidad y la complejidad de las tareas.

El Problema Real: No Existe Un Solo Stack

La realidad que comparten los desarrolladores en la discusión es clara: no hay un único stack óptimo para todos los casos. La elección depende de tres factores críticos:

  • Presupuesto de hardware (€800 frente a €4.000+)
  • Nivel de privacidad requerido (datos sensibles vs. tareas generales)
  • Complejidad de las tareas (autocompletado de código vs. razonamiento de nivel empresarial)

Esto ha llevado a la proliferación de tres arquitecturas diferenciadas que analizamos a continuación.


Patrón 1: El Stack Híbrido (Uso Profesional)

La mayoría de los equipos técnicos que necesitan balancear rendimiento y coste han adoptado una arquitectura híbrida:

  • Tareas complejas (generación de código, análisis profundo): APIs de modelos de frontera (Claude, GPT-4o, Gemini 2.5 Pro)
  • Tareas rápidas y repetitivas (clasificación, extracción de datos): Modelos locales fine-tuneados de 7B-8B parámetros

Un equipo de desarrollo comentó que utiliza LangChain para orquestar el flujo entre ambos mundos, con modelos locales como Llama 3.1 8B o Mistral 7B ejecutándose en instancias GPU dedicadas (A10G en AWS/GCP). El ahorro en costes es sustancial: inferencias locales costando centavos frente a dólares por cada llamada a API de modelo grande.


Patrón 2: Full Self-Hosting (Entusiastas del Homelab)

Para quienes priorizan la privacidad absoluta o simplemente disfrutan gestionando su propia infraestructura, el stack dominante en 2025 es:

  • Orquestación: Ollama (uso general) + vLLM (modelos grandes y benchmarking)
  • Interfaz: Open WebUI como frontend principal
  • Hardware mínimo viable: Mac mini con 24GB de memoria unificada (M2/M3)
  • Setup potente: 2x RTX 3090 o 4090 para ejecutar Llama 3.1 70B con vLLM

Un usuario de Hacker News describió su configuración personal: dos RTX 3090 ejecutando Ollama y vLLM simultáneamente, con Qwen 3 32B para tareas creativas, Devstral para programación mediante el plugin Continue en VSCode, y Gemma 3 27B como modelo de uso general. El modelo de embeddings: Mixed Bread, aunque NV-Embed-v2 está ganando terreno.


Patrón 3: El Minimalista (Portátil sin GPU Dedicada)

No todos tienen acceso a hardware de gama alta. La tercera arquitectura emergente se basa en el aprovechamiento de modelos pequeños (~3B parámetros) que ejecutan eficientemente en CPUs modernas:

  • Plataforma: Ollama sobre MacBook Pro M1/M2
  • Modelos: DeepSeek distilled (3B), CodeQwen 7B para autocompletado de código
  • Base de datos: SQLite3 para contexto persistente y RAG local

Esta configuración no rivaliza con Claude o GPT-4 en razonamiento complejo, pero es completamente offline, consume batería razonablemente y permite trabajar con código sensible sin enviar nada a servidores externos.


Comparativa de Rendimiento y Coste

Los datos compartidos en la comunidad ofrecen una visión realista de qué esperar:

  • Llama 3.3 70B (Q4_K_M) en RTX 4090: ~18 tokens/segundo, requiere ~40GB VRAM
  • Mistral 7B / Llama 3.1 8B: Tiempo real en M3 Max con 36GB RAM unificada
  • CodeQwen 7B: Suficiente para autocompletado rápido, latencia baja

La principal fricción que reportan los usuarios no es el rendimiento, sino la actualización constante: nuevos modelos aparecen semanalmente y la mitad no funcionan inmediatamente con las herramientas existentes.


Recomendación: ¿Por Dónde Empezar?

Para quienes quieren probar el self-hosting de LLMs sin inversión masiva inicial:

  1. Instalar Ollama en cualquier máquina con 8GB+ de RAM
  2. Probar Llama 3.2 (3B) o DeepSeek distilled para tareas simples
  3. Añadir Open WebUI para una interfaz usable (funciona en Docker)
  4. Escalar a vLLM solo si necesitas modelos >30B o throughput masivo

La tendencia clara de 2025 es que los modelos de código abierto han alcanzado la "capa de comodidad": son lo suficientemente buenos para la mayoría de las tareas técnicas, mientras que los modelos de frontera se reservan para casos de uso verdaderamente exigentes. El stack de LLMs locales no reemplaza a los APIs de IA, pero los complementa de forma que hace viable la privacidad y el control de costes para equipos técnicos serios.

Read more