Llama405B params128k contextopopular

Llama 3.1 405B en local

Llama 3.1 405B es un LLM open-weight de la familia Llama, con 405B parámetros. Uso principal: chat, RAG and general assistance. Hardware mínimo detectado: Instinct MI325X (256 GB).

Ficha técnica
Parámetros405B
Contexto máximo128k
Q4_K_M254.6 GB
Q5_K_M311.2 GB
Q8452.6 GB
FP16905.2 GB
FamiliaLlama
Última sync2026-05-12

Quantizations disponibles

Q4_K_M
254.6GB

Aceptable. Buen compromiso si la VRAM es limitada.

Q5_K_M
311.2GB

Buena calidad. Punto dulce tamaño / precisión.

Q8
452.6GB

Calidad casi FP16. Cómodo para producción.

FP16
905.2GB

Precisión de referencia. Máxima calidad, más VRAM.

GPUs compatibles

GPUs capaces de ejecutar Llama 3.1 405B en una sola tarjeta, ordenadas por margen de VRAM.

Modelos similares

Estimaciones VRAM: parámetros x bits/8 más margen. El rendimiento real varía según motor, contexto y batch.
sync: 2026-05-12