Falcon40B params2k contesto

Falcon 40B in locale

Falcon 40B è un LLM open-weight della famiglia Falcon, con 40B parametri. Uso principale: chat, RAG and general assistance. Hardware minimo rilevato: RTX 5090 (32 GB).

Scheda tecnica
Parametri40B
Contesto massimo2k
Q4_K_M25.1 GB
Q5_K_M30.7 GB
Q844.7 GB
FP1689.4 GB
FamigliaFalcon
Ultima sync2026-05-12

Quantization disponibili

Q4_K_M
25.1GB

Accettabile. Buon compromesso con VRAM limitata.

Q5_K_M
30.7GB

Buona qualità. Punto dolce tra dimensione e precisione.

Q8
44.7GB

Qualità quasi FP16. Comoda in produzione.

FP16
89.4GB

Precisione di riferimento. Qualità massima, più VRAM.

GPU compatibili

GPU capaci di eseguire Falcon 40B su una sola scheda, ordinate per margine VRAM.

Rig multi-GPU consigliati

Per Falcon 40B con quantization più alta o più contesto, un rig multi-GPU offre più margine.

Rig consigliato

4× GTX 1070

Falcon 40B with Ubuntu, vLLM, Open WebUI and the model already downloaded.

Configura

Modelli simili

Stime VRAM: parametri x bits/8 più margine. Prestazioni reali secondo engine, contesto e batch.
sync: 2026-05-12