Abbiamo visto nel precedente articolo (Ollama: portare l’Intelligenza Artificiale sul tuo laptop) quanto sia facile implementare un modello AI sulla nostra macchina locale.
Uno degli aspetti più sorprendenti di Ollama è la sua efficienza: non serve un datacenter per far girare un modello linguistico generativo. Ma è anche vero che le prestazioni variano molto in base alla configurazione hardware. Ecco i principali elementi da considerare:
RAM
La RAM è fondamentale: i modelli in esecuzione con Ollama risiedono in memoria. Ecco una stima approssimativa per i modelli principali:
Modello | Parametri | RAM minima consigliata |
---|---|---|
Tiny (Phi, TinyLLaMA) | ~1B | 4 GB |
Mistral | 7B | 8–12 GB |
LLaMA 2 | 13B | 16–24 GB |
LLaMA 2 | 70B | 48 GB+ (non consigliato in locale) |
Nota: su macOS con chip M1/M2, la gestione unificata della memoria consente di ottenere prestazioni migliori a parità di RAM nominale.
GPU (opzionale ma consigliata)
Ollama può funzionare anche in modalità CPU-only, ma per tempi di risposta decenti è consigliabile avere una GPU compatibile:
- macOS: Supporto nativo per GPU Apple Silicon (M1, M2, M3)
- Linux: Compatibilità con GPU NVIDIA via CUDA (VRAM ≥ 6 GB consigliata)
- Windows: Richiede WSL + supporto GPU CUDA
Spazio su disco
Ogni modello occupa dello spazio su disco. Ad esempio:
- Mistral 7B: circa 4.5 GB
- LLaMA 2 13B: oltre 8 GB
- Gemma 7B: circa 5 GB
Inoltre, se utilizzi più versioni o modelli fine-tuned, è bene considerare una SSD da almeno 100 GB liberi per lavorare senza problemi.
CPU
Se non disponi di una GPU, la CPU sarà interamente responsabile dell’inferenza. Sono consigliati:
- Intel i5/i7 o AMD Ryzen 5/7 (ultime generazioni)
- Apple Silicon (M1 o superiore)
- Possibilità di sfruttare istruzioni AVX/AVX2 per prestazioni ottimali
Esempi di configurazione
Configurazione | Tipo macchina | Modelli supportati | Note |
---|---|---|---|
Base | Laptop i5 / 8 GB RAM | Phi, TinyLLaMA | Esecuzione lenta, modelli base |
Media | MacBook M1 / 16 GB | Mistral 7B, Gemma 7B | Esperienza fluida e reattiva |
Avanzata | PC con RTX 3060 / 32 GB RAM | LLaMA 13B, OpenHermes | Ottimo per fine-tuning e API locali |
Server | Workstation con 64 GB RAM e GPU A100 | LLaMA 65B, modelli GPT-style | Solo per esperimenti intensivi o utilizzi commerciali |
Un ottimo alleato per il tuo vecchio laptop
Una delle sorprese più piacevoli è che Ollama, in combinazione con modelli ottimizzati come Phi 2 o TinyLLaMA, può funzionare anche su laptop datati (es. un HP EliteBook con 8 GB di RAM e CPU i5). Certo, i tempi di risposta non saranno istantanei, ma per prototipi o esperimenti locali è più che sufficiente.
Checklist pre-installazione Ollama
Prima di procedere con l’installazione, verifica questi punti per evitare problemi o esperienze sotto le aspettative:
Requisiti minimi consigliati:
Sistema operativo compatibile:
- macOS 12+ (Apple Silicon o Intel)
- Linux (Ubuntu, Arch, Debian, etc.)
- Windows 11 con WSL2 + Ubuntu
RAM ≥ 8 GB (16 GB consigliati per Mistral o Gemma)
CPU con supporto AVX/AVX2 (Intel i5/i7, AMD Ryzen, Apple Silicon)
Opzionale ma raccomandata) GPU compatibile:
- NVIDIA con CUDA (su Linux/WSL)
- Apple M1/M2/M3 (macOS)
SSD con ≥ 20 GB liberi (più spazio se usi più modelli)
Terminale e shell compatibili (bash
, zsh
, fish
)
Connessione internet per il download iniziale dei modelli
Benchmark lato pratico: CPU vs GPU
Questi benchmark sono indicativi e variano in base alla configurazione, ma danno un’idea chiara dei vantaggi della GPU locale. L’inferenza è misurata in token/sec (più è alto, meglio è).
Modello | Hardware | Modalità | Token/sec | Note |
---|---|---|---|---|
Mistral 7B | Intel i5 10th gen / 16 GB RAM | CPU | ~6–8 | Lento ma usabile |
Mistral 7B | Apple M1 16 GB (macOS) | GPU | ~25–30 | Buona reattività, ottimo per dev |
Mistral 7B | NVIDIA RTX 3060 / 32 GB RAM | GPU | ~50–60 | Molto veloce |
Phi 2 | Intel i5 / 8 GB RAM | CPU | ~15–18 | Ottimo per hardware leggero |
LLaMA 13B | AMD Ryzen 9 + RTX 3090 / 64 GB | GPU | ~40–50 | Reattivo anche su modelli più grandi |
LLaMA 2 70B | NVIDIA A100 80 GB (server) | GPU | ~80–100 | Esecuzione possibile solo su server |
⚠️ Nota: L’esecuzione in CPU-only è funzionale per test e sviluppo, ma non è raccomandata per produzioni real-time o modelli sopra i 7B parametri.
Nei prossimi articoli vedremo come ottimizzare Ollama su hardware limitato, comprimere i modelli con quantizzazione (es. 4-bit), e configurare ambienti Linux leggeri per inferenza veloce.