Di cosa hai bisogno per far girare un LLM in locale?

Abbiamo visto nel precedente articolo (Ollama: portare l’Intelligenza Artificiale sul tuo laptop) quanto sia facile implementare un modello AI sulla nostra macchina locale.
Uno degli aspetti più sorprendenti di Ollama è la sua efficienza: non serve un datacenter per far girare un modello linguistico generativo. Ma è anche vero che le prestazioni variano molto in base alla configurazione hardware. Ecco i principali elementi da considerare:

RAM

La RAM è fondamentale: i modelli in esecuzione con Ollama risiedono in memoria. Ecco una stima approssimativa per i modelli principali:

ModelloParametriRAM minima consigliata
Tiny (Phi, TinyLLaMA)~1B4 GB
Mistral7B8–12 GB
LLaMA 213B16–24 GB
LLaMA 270B48 GB+ (non consigliato in locale)

Nota: su macOS con chip M1/M2, la gestione unificata della memoria consente di ottenere prestazioni migliori a parità di RAM nominale.

GPU (opzionale ma consigliata)

Ollama può funzionare anche in modalità CPU-only, ma per tempi di risposta decenti è consigliabile avere una GPU compatibile:

  • macOS: Supporto nativo per GPU Apple Silicon (M1, M2, M3)
  • Linux: Compatibilità con GPU NVIDIA via CUDA (VRAM ≥ 6 GB consigliata)
  • Windows: Richiede WSL + supporto GPU CUDA

Spazio su disco

Ogni modello occupa dello spazio su disco. Ad esempio:

  • Mistral 7B: circa 4.5 GB
  • LLaMA 2 13B: oltre 8 GB
  • Gemma 7B: circa 5 GB

Inoltre, se utilizzi più versioni o modelli fine-tuned, è bene considerare una SSD da almeno 100 GB liberi per lavorare senza problemi.

CPU

Se non disponi di una GPU, la CPU sarà interamente responsabile dell’inferenza. Sono consigliati:

  • Intel i5/i7 o AMD Ryzen 5/7 (ultime generazioni)
  • Apple Silicon (M1 o superiore)
  • Possibilità di sfruttare istruzioni AVX/AVX2 per prestazioni ottimali

Esempi di configurazione

ConfigurazioneTipo macchinaModelli supportatiNote
BaseLaptop i5 / 8 GB RAMPhi, TinyLLaMAEsecuzione lenta, modelli base
MediaMacBook M1 / 16 GBMistral 7B, Gemma 7BEsperienza fluida e reattiva
AvanzataPC con RTX 3060 / 32 GB RAMLLaMA 13B, OpenHermesOttimo per fine-tuning e API locali
ServerWorkstation con 64 GB RAM e GPU A100LLaMA 65B, modelli GPT-styleSolo per esperimenti intensivi o utilizzi commerciali

Un ottimo alleato per il tuo vecchio laptop

Una delle sorprese più piacevoli è che Ollama, in combinazione con modelli ottimizzati come Phi 2 o TinyLLaMA, può funzionare anche su laptop datati (es. un HP EliteBook con 8 GB di RAM e CPU i5). Certo, i tempi di risposta non saranno istantanei, ma per prototipi o esperimenti locali è più che sufficiente.

Checklist pre-installazione Ollama

Prima di procedere con l’installazione, verifica questi punti per evitare problemi o esperienze sotto le aspettative:

Requisiti minimi consigliati:

Sistema operativo compatibile:

  • macOS 12+ (Apple Silicon o Intel)
  • Linux (Ubuntu, Arch, Debian, etc.)
  • Windows 11 con WSL2 + Ubuntu

RAM ≥ 8 GB (16 GB consigliati per Mistral o Gemma)

CPU con supporto AVX/AVX2 (Intel i5/i7, AMD Ryzen, Apple Silicon)

Opzionale ma raccomandata) GPU compatibile:

  • NVIDIA con CUDA (su Linux/WSL)
  • Apple M1/M2/M3 (macOS)

SSD con ≥ 20 GB liberi (più spazio se usi più modelli)

Terminale e shell compatibili (bash, zsh, fish)

Connessione internet per il download iniziale dei modelli

Benchmark lato pratico: CPU vs GPU

Questi benchmark sono indicativi e variano in base alla configurazione, ma danno un’idea chiara dei vantaggi della GPU locale. L’inferenza è misurata in token/sec (più è alto, meglio è).

ModelloHardwareModalitàToken/secNote
Mistral 7BIntel i5 10th gen / 16 GB RAMCPU~6–8Lento ma usabile
Mistral 7BApple M1 16 GB (macOS)GPU~25–30Buona reattività, ottimo per dev
Mistral 7BNVIDIA RTX 3060 / 32 GB RAMGPU~50–60Molto veloce
Phi 2Intel i5 / 8 GB RAMCPU~15–18Ottimo per hardware leggero
LLaMA 13BAMD Ryzen 9 + RTX 3090 / 64 GBGPU~40–50Reattivo anche su modelli più grandi
LLaMA 2 70BNVIDIA A100 80 GB (server)GPU~80–100Esecuzione possibile solo su server

⚠️ Nota: L’esecuzione in CPU-only è funzionale per test e sviluppo, ma non è raccomandata per produzioni real-time o modelli sopra i 7B parametri.

Nei prossimi articoli vedremo come ottimizzare Ollama su hardware limitato, comprimere i modelli con quantizzazione (es. 4-bit), e configurare ambienti Linux leggeri per inferenza veloce.

Rispondi