Notas del banco de pruebas.
Benchmarks reales, configuraciones probadas y notas de campo. Sin listas vacías, sin SEO-bait.

Construir un RAG local en 2026: la stack Ollama + Qdrant + LlamaIndex
Arquitectura en 4 piezas, opciones tecnicas, sizing GPU por usuarios concurrentes y TCO a 24 meses frente a GPT-4o.
Q4 vs Q5 vs Q8: que quantization para Llama 70B en 2026?
Tabla de VRAM por quant (Q3 a FP16), perdida de calidad medida, recomendaciones por GPU y tok/s estimado.
Llama 4 en local en 2026: VRAM, GPUs y alternativas realistas
Llama 4 Scout, Maverick, Behemoth: que pasa realmente en casa en 2026. VRAM por version, GPUs minimos y 5 alternativas 70-123B competitivas.
Mistral Large 123B en local: que rig, que coste real en 2026
Mistral Large 123B open-weight en casa: VRAM por quant, rig minimo (2x A6000 NVLink), ROI frente a Mistral API por volumen mensual, y cuando preferir Llama 3.3 70B.
vLLM vs Ollama en produccion: el benchmark 2026 (single user, batching, multi-user)
Benchmark real de los dos runtimes de inferencia en RTX 5090 y 2x RTX 5090 NVLink. Single user, 4 usuarios simultaneos, 10 usuarios bajo carga: quien gana cuando y por que el continuous batching lo cambia todo.
RAG soberano con Qwen 3 30B MoE: la stack completa 2026
Por que Qwen 3 30B-A3B (MoE, 3B params activos/token) es el sweet spot 2026 para un RAG soberano de equipo. Stack: vLLM + Qdrant + nomic-embed + LlamaIndex sobre un rig Pro (11.990 EUR). Todo open-weight, todo self-hosted.
Cuanto cuesta un servidor IA para una pyme en 2026?
Desglose claro del coste real de un rig IA local en 2026: hardware, software, electricidad y soporte, con tres niveles y comparativa frente a APIs cloud.
Cloud vs on-prem IA: el break-even puede llegar en 9 meses
Comparacion honesta entre APIs OpenAI / Anthropic y un rig IA local, con tres escenarios concretos de TCO a 24 meses.
RTX 5090 vs Mac Studio M3 Ultra para LLM locales
Dos filosofias y dos ganadores segun el caso: VRAM dedicada vs memoria unificada, rendimiento, multiusuario y EUR por GB.
Que GPU necesitas para ejecutar Llama 3.3 70B en local en 2026?
VRAM por quantization, GPUs compatibles, RTX 5090 vs A6000 vs H100 y comparativa coste/rendimiento frente a APIs OpenAI.