TinyLlama1.1B params2k contextopopular

TinyLlama 1.1B en local

TinyLlama 1.1B es un LLM open-weight de la familia TinyLlama, con 1.1B parámetros. Uso principal: chat, RAG and general assistance. Hardware mínimo detectado: GTX 1650 (4 GB).

Ficha técnica
Parámetros1.1B
Contexto máximo2k
Q4_K_M0.7 GB
Q5_K_M0.8 GB
Q81.2 GB
FP162.5 GB
FamiliaTinyLlama
Última sync2026-05-12

Quantizations disponibles

Q4_K_M
0.7GB

Aceptable. Buen compromiso si la VRAM es limitada.

Q5_K_M
0.8GB

Buena calidad. Punto dulce tamaño / precisión.

Q8
1.2GB

Calidad casi FP16. Cómodo para producción.

FP16
2.5GB

Precisión de referencia. Máxima calidad, más VRAM.

GPUs compatibles

GPUs capaces de ejecutar TinyLlama 1.1B en una sola tarjeta, ordenadas por margen de VRAM.

Rigs multi-GPU recomendados

Para TinyLlama 1.1B con quantization más alta o más contexto, un rig multi-GPU da más margen.

Rig recomendado

2× GTX 1650

TinyLlama 1.1B with Ubuntu, vLLM, Open WebUI and the model already downloaded.

Configurar

Estimaciones VRAM: parámetros x bits/8 más margen. El rendimiento real varía según motor, contexto y batch.
sync: 2026-05-12