Di cosa hai bisogno per far girare un LLM in locale?

Abbiamo visto nel precedente articolo (Ollama: portare l’Intelligenza Artificiale sul tuo laptop) quanto sia facile implementare un modello AI sulla nostra macchina locale.
Uno degli aspetti più sorprendenti di Ollama è la sua efficienza: non serve un datacenter per far girare un modello linguistico generativo. Ma è anche vero che le prestazioni variano molto in base alla configurazione hardware. Ecco i principali elementi da considerare:

RAM

La RAM è fondamentale: i modelli in esecuzione con Ollama risiedono in memoria. Ecco una stima approssimativa per i modelli principali:

Modello
Parametri
RAM minima consigliata
Tiny (Phi, TinyLLaMA)
~1B
4 GB
Mistral
7B
8–12 GB
LLaMA 2
13B
16–24 GB
LLaMA 2
70B
48 GB+ (non consigliato in locale)

Nota: su macOS con chip M1/M2, la gestione unificata della memoria consente di ottenere prestazioni migliori a parità di RAM nominale.

GPU (opzionale ma consigliata)

Ollama può funzionare anche in modalità CPU-only, ma per tempi di risposta decenti è consigliabile avere una GPU compatibile:

  • macOS: Supporto nativo per GPU Apple Silicon (M1, M2, M3)
  • Linux: Compatibilità con GPU NVIDIA via CUDA (VRAM ≥ 6 GB consigliata)
  • Windows: Richiede WSL + supporto GPU CUDA

Spazio su disco

Ogni modello occupa dello spazio su disco. Ad esempio:

  • Mistral 7B: circa 4.5 GB
  • LLaMA 2 13B: oltre 8 GB
  • Gemma 7B: circa 5 GB

Inoltre, se utilizzi più versioni o modelli fine-tuned, è bene considerare una SSD da almeno 100 GB liberi per lavorare senza problemi.

CPU

Se non disponi di una GPU, la CPU sarà interamente responsabile dell’inferenza. Sono consigliati:

  • Intel i5/i7 o AMD Ryzen 5/7 (ultime generazioni)
  • Apple Silicon (M1 o superiore)
  • Possibilità di sfruttare istruzioni AVX/AVX2 per prestazioni ottimali

Esempi di configurazione

Configurazione
Tipo macchina
Modelli supportati
Note
Base
Laptop i5 / 8 GB RAM
Phi, TinyLLaMA
Esecuzione lenta, modelli base
Media
MacBook M1 / 16 GB
Mistral 7B, Gemma 7B
Esperienza fluida e reattiva
Avanzata
PC con RTX 3060 / 32 GB RAM
LLaMA 13B, OpenHermes
Ottimo per fine-tuning e API locali
Server
Workstation con 64 GB RAM e GPU A100
LLaMA 65B, modelli GPT-style
Solo per esperimenti intensivi o utilizzi commerciali

Un ottimo alleato per il tuo vecchio laptop

Una delle sorprese più piacevoli è che Ollama, in combinazione con modelli ottimizzati come Phi 2 o TinyLLaMA, può funzionare anche su laptop datati (es. un HP EliteBook con 8 GB di RAM e CPU i5). Certo, i tempi di risposta non saranno istantanei, ma per prototipi o esperimenti locali è più che sufficiente.

Checklist pre-installazione Ollama

Prima di procedere con l’installazione, verifica questi punti per evitare problemi o esperienze sotto le aspettative:

Requisiti minimi consigliati:

Sistema operativo compatibile:

  • macOS 12+ (Apple Silicon o Intel)
  • Linux (Ubuntu, Arch, Debian, etc.)
  • Windows 11 con WSL2 + Ubuntu

RAM ≥ 8 GB (16 GB consigliati per Mistral o Gemma)

CPU con supporto AVX/AVX2 (Intel i5/i7, AMD Ryzen, Apple Silicon)

Opzionale ma raccomandata) GPU compatibile:

  • NVIDIA con CUDA (su Linux/WSL)
  • Apple M1/M2/M3 (macOS)

SSD con ≥ 20 GB liberi (più spazio se usi più modelli)

Terminale e shell compatibili (bash, zsh, fish)

Connessione internet per il download iniziale dei modelli

Benchmark lato pratico: CPU vs GPU

Questi benchmark sono indicativi e variano in base alla configurazione, ma danno un’idea chiara dei vantaggi della GPU locale. L’inferenza è misurata in token/sec (più è alto, meglio è).

Modello
Hardware
Modalità
Token/sec
Note
Mistral 7B
Intel i5 10th gen / 16 GB RAM
CPU
~6–8
Lento ma usabile
Mistral 7B
Apple M1 16 GB (macOS)
GPU
~25–30
Buona reattività, ottimo per dev
Mistral 7B
NVIDIA RTX 3060 / 32 GB RAM
GPU
~50–60
Molto veloce
Phi 2
Intel i5 / 8 GB RAM
CPU
~15–18
Ottimo per hardware leggero
LLaMA 13B
AMD Ryzen 9 + RTX 3090 / 64 GB
GPU
~40–50
Reattivo anche su modelli più grandi
LLaMA 2 70B
NVIDIA A100 80 GB (server)
GPU
~80–100
Esecuzione possibile solo su server

⚠️ Nota: L’esecuzione in CPU-only è funzionale per test e sviluppo, ma non è raccomandata per produzioni real-time o modelli sopra i 7B parametri.

Nei prossimi articoli vedremo come ottimizzare Ollama su hardware limitato, comprimere i modelli con quantizzazione (es. 4-bit), e configurare ambienti Linux leggeri per inferenza veloce.

Rispondi

Questo sito utilizza Akismet per ridurre lo spam. Scopri come vengono elaborati i dati derivati dai commenti.

Ads Blocker Image Powered by Code Help Pro

Ab blocker rilevato!!!

Per favore disabilita il blocco della pubblicità per proseguire.