Note dal banco di prova.
Benchmark reali, configurazioni testate e note sul campo. Niente listicle, niente SEO-bait.

Quali LLM girano su una GPU economica (RTX 3060, 3070) nel 2026?
Non serve una RTX 5090 per iniziare con l'IA locale. Le migliori GPU per budget (RTX 3060 12 GB, 4060 Ti 16 GB, 3090 24 GB), cosa entra per VRAM, e il re del VRAM per euro sull'usato.
Si può eseguire un LLM in locale su un Mac Mini M4? (2026)
Il Mac Mini M4 esegue LLM locali sorprendentemente bene grazie alla memoria unificata (fino a 64 GB come VRAM). Quali modelli entrano per configurazione, i tok/s reali e Mac vs GPU dedicata.
RTX 5090 vs RTX 4090 per l'IA locale: quale scegliere nel 2026?
Il confronto pacato dal punto di vista che conta: quali modelli girano, a che throughput, a che prezzo. VRAM (32 vs 24 GB), banda GDDR7, tabella modelli e verdetto per profilo.
Quanta VRAM per eseguire un LLM in locale? (formula + tabella 2026)
Il metodo esatto per stimare la VRAM di un LLM: peso del modello x byte per parametro, cache KV, overhead. Tabella pronta all'uso (7B a 123B x Q4/Q5/Q8) e la scheda minima per modello.
Costruire un RAG locale nel 2026: stack Ollama + Qdrant + LlamaIndex
Architettura in 4 mattoni, scelte tecniche, sizing GPU per utenti concorrenti e TCO a 24 mesi vs GPT-4o.
Q4 vs Q5 vs Q8: quale quantization per Llama 70B nel 2026?
Tabella VRAM per quant (Q3 a FP16), perdita di qualita misurata, raccomandazioni per GPU e tok/s stimati.
Llama 4 in locale nel 2026: VRAM, GPU e alternative realistiche
Llama 4 Scout, Maverick, Behemoth: cosa gira davvero a casa. VRAM per versione, GPU minime e 5 alternative 70-123B competitive.
Mistral Large 123B in locale: quale rig, quale costo reale nel 2026
Mistral Large 123B open-weight a casa: VRAM per quant, rig minimo (2x A6000 NVLink), ROI vs Mistral API per volume mensile, e quando preferire Llama 3.3 70B.
vLLM vs Ollama in produzione: il benchmark 2026 (single user, batching, multi-user)
Benchmark reale dei due runtime di inferenza su RTX 5090 e 2x RTX 5090 NVLink. Single user, 4 utenti simultanei, 10 utenti sotto carico: chi vince quando e perche il continuous batching cambia tutto.
RAG sovrano con Qwen 3 30B MoE: lo stack completo 2026
Perche Qwen 3 30B-A3B (MoE, 3B param attivi/token) e lo sweet spot 2026 per un RAG sovrano di team. Stack: vLLM + Qdrant + nomic-embed + LlamaIndex su un rig Pro (11.990 EUR). Tutto open-weight, tutto self-hosted.
Quanto costa un server IA per PMI nel 2026?
Scomposizione chiara del costo reale di un rig IA locale: hardware, software, elettricita e supporto, con tre livelli e confronto cloud.
Cloud vs on-prem IA: il break-even puo arrivare in 9 mesi
Confronto onesto tra API OpenAI / Anthropic e un rig IA locale, con tre scenari TCO concreti su 24 mesi.
RTX 5090 vs Mac Studio M3 Ultra per LLM locali
Due filosofie e due vincitori secondo il caso: VRAM dedicata vs memoria unificata, throughput, multiutente ed EUR per GB.
Quale GPU serve per eseguire Llama 3.3 70B in locale nel 2026?
VRAM per quantization, GPU compatibili, RTX 5090 vs A6000 vs H100 e confronto costo/prestazioni rispetto alle API OpenAI.