Diario · 14 artículos

Notas del banco de pruebas.

Benchmarks reales, configuraciones probadas y notas de campo. Sin listas vacías, sin SEO-bait.

Rig IA LocalIA détouré
Banco de pruebas · destacado

¿Qué LLM funcionan en una GPU económica (RTX 3060, 3070) en 2026?

No necesitas una RTX 5090 para empezar con la IA local. Las mejores GPU por presupuesto (RTX 3060 12 GB, 4060 Ti 16 GB, 3090 24 GB), qué cabe por VRAM, y el rey del VRAM por euro de segunda mano.

· 7 min
Apple

¿Se puede ejecutar un LLM en local en un Mac Mini M4? (2026)

El Mac Mini M4 ejecuta LLM locales sorprendentemente bien gracias a la memoria unificada (hasta 64 GB como VRAM). Qué modelos caben por configuración, los tok/s reales y Mac frente a una GPU dedicada.

· 7 min
GPU

RTX 5090 vs RTX 4090 para IA local: ¿cuál elegir en 2026?

El duelo sereno desde el ángulo que importa: qué modelos funcionan, a qué rendimiento, por qué precio. VRAM (32 vs 24 GB), ancho de banda GDDR7, tabla de modelos y veredicto por perfil.

· 7 min
VRAM

¿Cuánta VRAM para ejecutar un LLM en local? (fórmula + tabla 2026)

El método exacto para estimar la VRAM de un LLM: peso del modelo x bytes por parámetro, caché KV, overhead. Tabla lista para usar (7B a 123B x Q4/Q5/Q8) y la tarjeta mínima por modelo.

· 8 min
RAG

Construir un RAG local en 2026: la stack Ollama + Qdrant + LlamaIndex

Arquitectura en 4 piezas, opciones tecnicas, sizing GPU por usuarios concurrentes y TCO a 24 meses frente a GPT-4o.

· 9 min
Quantization

Q4 vs Q5 vs Q8: que quantization para Llama 70B en 2026?

Tabla de VRAM por quant (Q3 a FP16), perdida de calidad medida, recomendaciones por GPU y tok/s estimado.

· 8 min
Llama

Llama 4 en local en 2026: VRAM, GPUs y alternativas realistas

Llama 4 Scout, Maverick, Behemoth: que pasa realmente en casa en 2026. VRAM por version, GPUs minimos y 5 alternativas 70-123B competitivas.

· 8 min
Mistral

Mistral Large 123B en local: que rig, que coste real en 2026

Mistral Large 123B open-weight en casa: VRAM por quant, rig minimo (2x A6000 NVLink), ROI frente a Mistral API por volumen mensual, y cuando preferir Llama 3.3 70B.

· 9 min
vLLM

vLLM vs Ollama en produccion: el benchmark 2026 (single user, batching, multi-user)

Benchmark real de los dos runtimes de inferencia en RTX 5090 y 2x RTX 5090 NVLink. Single user, 4 usuarios simultaneos, 10 usuarios bajo carga: quien gana cuando y por que el continuous batching lo cambia todo.

· 8 min
RAG

RAG soberano con Qwen 3 30B MoE: la stack completa 2026

Por que Qwen 3 30B-A3B (MoE, 3B params activos/token) es el sweet spot 2026 para un RAG soberano de equipo. Stack: vLLM + Qdrant + nomic-embed + LlamaIndex sobre un rig Pro (11.990 EUR). Todo open-weight, todo self-hosted.

· 9 min
Precio

Cuanto cuesta un servidor IA para una pyme en 2026?

Desglose claro del coste real de un rig IA local en 2026: hardware, software, electricidad y soporte, con tres niveles y comparativa frente a APIs cloud.

· 8 min
Estrategia

Cloud vs on-prem IA: el break-even puede llegar en 9 meses

Comparacion honesta entre APIs OpenAI / Anthropic y un rig IA local, con tres escenarios concretos de TCO a 24 meses.

· 9 min
GPU

RTX 5090 vs Mac Studio M3 Ultra para LLM locales

Dos filosofias y dos ganadores segun el caso: VRAM dedicada vs memoria unificada, rendimiento, multiusuario y EUR por GB.

· 8 min
GPU

Que GPU necesitas para ejecutar Llama 3.3 70B en local en 2026?

VRAM por quantization, GPUs compatibles, RTX 5090 vs A6000 vs H100 y comparativa coste/rendimiento frente a APIs OpenAI.

· 9 min