Notas del banco de pruebas.
Benchmarks reales, configuraciones probadas y notas de campo. Sin listas vacías, sin SEO-bait.

¿Qué LLM funcionan en una GPU económica (RTX 3060, 3070) en 2026?
No necesitas una RTX 5090 para empezar con la IA local. Las mejores GPU por presupuesto (RTX 3060 12 GB, 4060 Ti 16 GB, 3090 24 GB), qué cabe por VRAM, y el rey del VRAM por euro de segunda mano.
¿Se puede ejecutar un LLM en local en un Mac Mini M4? (2026)
El Mac Mini M4 ejecuta LLM locales sorprendentemente bien gracias a la memoria unificada (hasta 64 GB como VRAM). Qué modelos caben por configuración, los tok/s reales y Mac frente a una GPU dedicada.
RTX 5090 vs RTX 4090 para IA local: ¿cuál elegir en 2026?
El duelo sereno desde el ángulo que importa: qué modelos funcionan, a qué rendimiento, por qué precio. VRAM (32 vs 24 GB), ancho de banda GDDR7, tabla de modelos y veredicto por perfil.
¿Cuánta VRAM para ejecutar un LLM en local? (fórmula + tabla 2026)
El método exacto para estimar la VRAM de un LLM: peso del modelo x bytes por parámetro, caché KV, overhead. Tabla lista para usar (7B a 123B x Q4/Q5/Q8) y la tarjeta mínima por modelo.
Construir un RAG local en 2026: la stack Ollama + Qdrant + LlamaIndex
Arquitectura en 4 piezas, opciones tecnicas, sizing GPU por usuarios concurrentes y TCO a 24 meses frente a GPT-4o.
Q4 vs Q5 vs Q8: que quantization para Llama 70B en 2026?
Tabla de VRAM por quant (Q3 a FP16), perdida de calidad medida, recomendaciones por GPU y tok/s estimado.
Llama 4 en local en 2026: VRAM, GPUs y alternativas realistas
Llama 4 Scout, Maverick, Behemoth: que pasa realmente en casa en 2026. VRAM por version, GPUs minimos y 5 alternativas 70-123B competitivas.
Mistral Large 123B en local: que rig, que coste real en 2026
Mistral Large 123B open-weight en casa: VRAM por quant, rig minimo (2x A6000 NVLink), ROI frente a Mistral API por volumen mensual, y cuando preferir Llama 3.3 70B.
vLLM vs Ollama en produccion: el benchmark 2026 (single user, batching, multi-user)
Benchmark real de los dos runtimes de inferencia en RTX 5090 y 2x RTX 5090 NVLink. Single user, 4 usuarios simultaneos, 10 usuarios bajo carga: quien gana cuando y por que el continuous batching lo cambia todo.
RAG soberano con Qwen 3 30B MoE: la stack completa 2026
Por que Qwen 3 30B-A3B (MoE, 3B params activos/token) es el sweet spot 2026 para un RAG soberano de equipo. Stack: vLLM + Qdrant + nomic-embed + LlamaIndex sobre un rig Pro (11.990 EUR). Todo open-weight, todo self-hosted.
Cuanto cuesta un servidor IA para una pyme en 2026?
Desglose claro del coste real de un rig IA local en 2026: hardware, software, electricidad y soporte, con tres niveles y comparativa frente a APIs cloud.
Cloud vs on-prem IA: el break-even puede llegar en 9 meses
Comparacion honesta entre APIs OpenAI / Anthropic y un rig IA local, con tres escenarios concretos de TCO a 24 meses.
RTX 5090 vs Mac Studio M3 Ultra para LLM locales
Dos filosofias y dos ganadores segun el caso: VRAM dedicada vs memoria unificada, rendimiento, multiusuario y EUR por GB.
Que GPU necesitas para ejecutar Llama 3.3 70B en local en 2026?
VRAM por quantization, GPUs compatibles, RTX 5090 vs A6000 vs H100 y comparativa coste/rendimiento frente a APIs OpenAI.