Diario · 10 artículos

Notas del banco de pruebas.

Benchmarks reales, configuraciones probadas y notas de campo. Sin listas vacías, sin SEO-bait.

Banco de pruebas · destacado

Construir un RAG local en 2026: la stack Ollama + Qdrant + LlamaIndex

Arquitectura en 4 piezas, opciones tecnicas, sizing GPU por usuarios concurrentes y TCO a 24 meses frente a GPT-4o.

· 9 min2026-05-12

Quantization

Q4 vs Q5 vs Q8: que quantization para Llama 70B en 2026?

Tabla de VRAM por quant (Q3 a FP16), perdida de calidad medida, recomendaciones por GPU y tok/s estimado.

· 8 min2026-05-12

Llama

Llama 4 en local en 2026: VRAM, GPUs y alternativas realistas

Llama 4 Scout, Maverick, Behemoth: que pasa realmente en casa en 2026. VRAM por version, GPUs minimos y 5 alternativas 70-123B competitivas.

· 8 min2026-05-12

Mistral

Mistral Large 123B en local: que rig, que coste real en 2026

Mistral Large 123B open-weight en casa: VRAM por quant, rig minimo (2x A6000 NVLink), ROI frente a Mistral API por volumen mensual, y cuando preferir Llama 3.3 70B.

· 9 min2026-05-12

vLLM

vLLM vs Ollama en produccion: el benchmark 2026 (single user, batching, multi-user)

Benchmark real de los dos runtimes de inferencia en RTX 5090 y 2x RTX 5090 NVLink. Single user, 4 usuarios simultaneos, 10 usuarios bajo carga: quien gana cuando y por que el continuous batching lo cambia todo.

· 8 min2026-05-12

RAG

RAG soberano con Qwen 3 30B MoE: la stack completa 2026

Por que Qwen 3 30B-A3B (MoE, 3B params activos/token) es el sweet spot 2026 para un RAG soberano de equipo. Stack: vLLM + Qdrant + nomic-embed + LlamaIndex sobre un rig Pro (11.990 EUR). Todo open-weight, todo self-hosted.

· 9 min2026-05-12

Precio

Cuanto cuesta un servidor IA para una pyme en 2026?

Desglose claro del coste real de un rig IA local en 2026: hardware, software, electricidad y soporte, con tres niveles y comparativa frente a APIs cloud.

· 8 min2026-05-08

Estrategia

Cloud vs on-prem IA: el break-even puede llegar en 9 meses

Comparacion honesta entre APIs OpenAI / Anthropic y un rig IA local, con tres escenarios concretos de TCO a 24 meses.

· 9 min2026-05-08

GPU

RTX 5090 vs Mac Studio M3 Ultra para LLM locales

Dos filosofias y dos ganadores segun el caso: VRAM dedicada vs memoria unificada, rendimiento, multiusuario y EUR por GB.

· 8 min2026-05-08

GPU

Que GPU necesitas para ejecutar Llama 3.3 70B en local en 2026?

VRAM por quantization, GPUs compatibles, RTX 5090 vs A6000 vs H100 y comparativa coste/rendimiento frente a APIs OpenAI.

· 9 min2026-05-07