Diario · 10 articoli

Note dal banco di prova.

Benchmark reali, configurazioni testate e note sul campo. Niente listicle, niente SEO-bait.

Rig IA LocalIA détouré
Banco di prova · in evidenza

Costruire un RAG locale nel 2026: stack Ollama + Qdrant + LlamaIndex

Architettura in 4 mattoni, scelte tecniche, sizing GPU per utenti concorrenti e TCO a 24 mesi vs GPT-4o.

· 9 min
Quantization

Q4 vs Q5 vs Q8: quale quantization per Llama 70B nel 2026?

Tabella VRAM per quant (Q3 a FP16), perdita di qualita misurata, raccomandazioni per GPU e tok/s stimati.

· 8 min
Llama

Llama 4 in locale nel 2026: VRAM, GPU e alternative realistiche

Llama 4 Scout, Maverick, Behemoth: cosa gira davvero a casa. VRAM per versione, GPU minime e 5 alternative 70-123B competitive.

· 8 min
Mistral

Mistral Large 123B in locale: quale rig, quale costo reale nel 2026

Mistral Large 123B open-weight a casa: VRAM per quant, rig minimo (2x A6000 NVLink), ROI vs Mistral API per volume mensile, e quando preferire Llama 3.3 70B.

· 9 min
vLLM

vLLM vs Ollama in produzione: il benchmark 2026 (single user, batching, multi-user)

Benchmark reale dei due runtime di inferenza su RTX 5090 e 2x RTX 5090 NVLink. Single user, 4 utenti simultanei, 10 utenti sotto carico: chi vince quando e perche il continuous batching cambia tutto.

· 8 min
RAG

RAG sovrano con Qwen 3 30B MoE: lo stack completo 2026

Perche Qwen 3 30B-A3B (MoE, 3B param attivi/token) e lo sweet spot 2026 per un RAG sovrano di team. Stack: vLLM + Qdrant + nomic-embed + LlamaIndex su un rig Pro (11.990 EUR). Tutto open-weight, tutto self-hosted.

· 9 min
Prezzo

Quanto costa un server IA per PMI nel 2026?

Scomposizione chiara del costo reale di un rig IA locale: hardware, software, elettricita e supporto, con tre livelli e confronto cloud.

· 8 min
Strategia

Cloud vs on-prem IA: il break-even puo arrivare in 9 mesi

Confronto onesto tra API OpenAI / Anthropic e un rig IA locale, con tre scenari TCO concreti su 24 mesi.

· 9 min
GPU

RTX 5090 vs Mac Studio M3 Ultra per LLM locali

Due filosofie e due vincitori secondo il caso: VRAM dedicata vs memoria unificata, throughput, multiutente ed EUR per GB.

· 8 min
GPU

Quale GPU serve per eseguire Llama 3.3 70B in locale nel 2026?

VRAM per quantization, GPU compatibili, RTX 5090 vs A6000 vs H100 e confronto costo/prestazioni rispetto alle API OpenAI.

· 9 min