GPU · 9 min de lectura

Que GPU necesitas para ejecutar Llama 3.3 70B en local en 2026?

Damien · LocalIA

Publicado 2026-05-07

VRAM por quantization, GPUs compatibles, RTX 5090 vs A6000 vs H100 y comparativa coste/rendimiento frente a APIs OpenAI.

Llama 3.3 70B es uno de los modelos open-weight de referencia para RAG y agentes locales. La condicion es simple: hace falta suficiente VRAM y elegir bien la quantization.

VRAM por quantization

Q4_K_M	~47 GB	Calidad aceptable, no cabe en una sola GPU consumer.
Q5_K_M	~58 GB	Muy buena calidad, recomendada para RAG.
Q8	~84 GB	Calidad casi FP16.
FP16	~168 GB	Precision de referencia, nivel datacenter.

Casos hardware tipicos

24-32 GB: mejor usar modelos mas pequenos o offload CPU.
48-64 GB: punto dulce 2026, especialmente 2 RTX 5090 para Q5.
80+ GB: Q8 y grandes MoE se vuelven realistas.

Recomendacion por perfil

Solo dev: una RTX 5090 y un modelo 14B-32B suele ser mas sensato.
Equipo pequeno: dos RTX 5090 para Llama 70B Q5.
Pyme juridica o medica: GPUs pro y stack RAG preinstalado.

Antes de comprar, prueba el modelo objetivo en el calculador LocalIA y mira el margen de VRAM.

Abre la calculadora / pide un presupuesto con tu modelo objetivo, usuarios y restricciones.

GPULlamaRAG

X Reddit LinkedIn