Diario · 14 articoli

Note dal banco di prova.

Benchmark reali, configurazioni testate e note sul campo. Niente listicle, niente SEO-bait.

Rig IA LocalIA détouré
Banco di prova · in evidenza

Quali LLM girano su una GPU economica (RTX 3060, 3070) nel 2026?

Non serve una RTX 5090 per iniziare con l'IA locale. Le migliori GPU per budget (RTX 3060 12 GB, 4060 Ti 16 GB, 3090 24 GB), cosa entra per VRAM, e il re del VRAM per euro sull'usato.

· 7 min
Apple

Si può eseguire un LLM in locale su un Mac Mini M4? (2026)

Il Mac Mini M4 esegue LLM locali sorprendentemente bene grazie alla memoria unificata (fino a 64 GB come VRAM). Quali modelli entrano per configurazione, i tok/s reali e Mac vs GPU dedicata.

· 7 min
GPU

RTX 5090 vs RTX 4090 per l'IA locale: quale scegliere nel 2026?

Il confronto pacato dal punto di vista che conta: quali modelli girano, a che throughput, a che prezzo. VRAM (32 vs 24 GB), banda GDDR7, tabella modelli e verdetto per profilo.

· 7 min
VRAM

Quanta VRAM per eseguire un LLM in locale? (formula + tabella 2026)

Il metodo esatto per stimare la VRAM di un LLM: peso del modello x byte per parametro, cache KV, overhead. Tabella pronta all'uso (7B a 123B x Q4/Q5/Q8) e la scheda minima per modello.

· 8 min
RAG

Costruire un RAG locale nel 2026: stack Ollama + Qdrant + LlamaIndex

Architettura in 4 mattoni, scelte tecniche, sizing GPU per utenti concorrenti e TCO a 24 mesi vs GPT-4o.

· 9 min
Quantization

Q4 vs Q5 vs Q8: quale quantization per Llama 70B nel 2026?

Tabella VRAM per quant (Q3 a FP16), perdita di qualita misurata, raccomandazioni per GPU e tok/s stimati.

· 8 min
Llama

Llama 4 in locale nel 2026: VRAM, GPU e alternative realistiche

Llama 4 Scout, Maverick, Behemoth: cosa gira davvero a casa. VRAM per versione, GPU minime e 5 alternative 70-123B competitive.

· 8 min
Mistral

Mistral Large 123B in locale: quale rig, quale costo reale nel 2026

Mistral Large 123B open-weight a casa: VRAM per quant, rig minimo (2x A6000 NVLink), ROI vs Mistral API per volume mensile, e quando preferire Llama 3.3 70B.

· 9 min
vLLM

vLLM vs Ollama in produzione: il benchmark 2026 (single user, batching, multi-user)

Benchmark reale dei due runtime di inferenza su RTX 5090 e 2x RTX 5090 NVLink. Single user, 4 utenti simultanei, 10 utenti sotto carico: chi vince quando e perche il continuous batching cambia tutto.

· 8 min
RAG

RAG sovrano con Qwen 3 30B MoE: lo stack completo 2026

Perche Qwen 3 30B-A3B (MoE, 3B param attivi/token) e lo sweet spot 2026 per un RAG sovrano di team. Stack: vLLM + Qdrant + nomic-embed + LlamaIndex su un rig Pro (11.990 EUR). Tutto open-weight, tutto self-hosted.

· 9 min
Prezzo

Quanto costa un server IA per PMI nel 2026?

Scomposizione chiara del costo reale di un rig IA locale: hardware, software, elettricita e supporto, con tre livelli e confronto cloud.

· 8 min
Strategia

Cloud vs on-prem IA: il break-even puo arrivare in 9 mesi

Confronto onesto tra API OpenAI / Anthropic e un rig IA locale, con tre scenari TCO concreti su 24 mesi.

· 9 min
GPU

RTX 5090 vs Mac Studio M3 Ultra per LLM locali

Due filosofie e due vincitori secondo il caso: VRAM dedicata vs memoria unificata, throughput, multiutente ed EUR per GB.

· 8 min
GPU

Quale GPU serve per eseguire Llama 3.3 70B in locale nel 2026?

VRAM per quantization, GPU compatibili, RTX 5090 vs A6000 vs H100 e confronto costo/prestazioni rispetto alle API OpenAI.

· 9 min