L’AI non capisce assolutamente nulla di quello che le scrivi.
Non sa cosa sia una parola, non sa cosa sia un concetto, non ha opinioni e non ragiona. In poche parole: non è intelligente.
Eppure risponde meglio di metà delle persone che conosci. Come è possibile?
In questo articolo smontiamo un Large Language Model pezzo per pezzo. Niente metafore, niente fuffa. Quello che succede davvero quando scrivi una frase a ChatGPT, Claude o Gemini.
Passo 1 — Il tuo testo viene fatto a pezzi
Quando scrivi “Il cliente ha chiesto un rimborso per l’ordine di ieri”, il modello non vede parole. Vede frammenti chiamati token.
“Rimborso” diventa 3 pezzi: "rim" + "bor" + "so". Anche “chiesto” viene spezzato: "ch" + "iest" + "o". Quella frase da 10 parole? Per il modello sono 17 frammenti.
L’algoritmo si chiama Byte Pair Encoding (BPE) e funziona così: durante l’addestramento, parte dai singoli caratteri e fonde iterativamente le coppie che appaiono più frequentemente nel corpus. Le combinazioni più comuni diventano token interi, quelle rare restano spezzate.
Il bias linguistico
L’addestramento è fatto prevalentemente su testo inglese (80-90% del corpus). Il risultato è un bias strutturale misurabile:
| Frase | Token | Pezzi |
|---|---|---|
| ”Intelligenza artificiale” | 7 | int + ell + igen + za + art + ific + iale |
| ”Artificial intelligence” | 3 | art + ificial + intelligence |
L’italiano paga il doppio per dire la stessa cosa. Non è un bug, è una conseguenza diretta di come funziona BPE: le combinazioni inglesi sono state viste milioni di volte in più, quindi vengono fuse prima e diventano token più compatti.
Questo ha conseguenze pratiche: più token = più costo (le API fatturano a token), più contesto consumato e potenzialmente risposte di qualità leggermente inferiore perché il modello deve “ricostruire” parole che non ha mai visto intere.
Passo 2 — Ogni frammento diventa un punto nello spazio
Ogni token viene trasformato in un vettore, cioè una lista di migliaia di numeri. Immagina uno spazio a migliaia di dimensioni dove ogni parola ha una coordinata.
Parole che nel training comparivano spesso negli stessi contesti finiscono vicine tra loro in questo spazio:
| Coppia | Distanza |
|---|---|
| ”Fattura” ↔ “Pagamento” | Vicini |
| ”Neurone” ↔ “Rete neurale” | Vicini |
| ”Gatto” ↔ “Algebra” | Lontani |
Non perché il modello capisce il significato, ma perché ha visto miliardi di frasi in cui “fattura” e “pagamento” stanno insieme. In linguistica si chiama ipotesi distributiva: “una parola è conosciuta dalla compagnia che tiene”.
È statistica, non comprensione.
Questo processo si chiama embedding e la matrice che lo esegue è una delle componenti più grandi del modello: centinaia di migliaia di token, ognuno mappato in migliaia di dimensioni.
Passo 3 — Ogni parola “guarda” tutte le altre
Qui entra il meccanismo chiamato Attention, il cuore di tutto il sistema.
Ogni token nella frase genera tre segnali:
- Query — “cosa sto cercando?”
- Key — “cosa offro?”
- Value — “cosa porto?”
La Query di un token viene confrontata con le Key di tutti gli altri. Se c’è compatibilità, quel token “pesa di più” nella risposta.
Un esempio concreto
In “Il cliente ha chiesto un rimborso”, quando il modello arriva a “chiesto” deve decidere chi ha chiesto. Il meccanismo di attenzione assegna:
- Peso alto a “cliente” (è il soggetto)
- Peso basso a “un” (articolo, irrilevante)
Questo succede su decine di “teste di attenzione” in parallelo, ognuna specializzata su relazioni diverse:
- Una guarda i rapporti soggetto-verbo
- Un’altra le dipendenze lunghe (riferimenti a frasi precedenti)
- Un’altra la posizione relativa nella frase
Tutto contemporaneamente. È questo parallelismo che rende i Transformer enormemente più efficienti delle architetture precedenti (RNN, LSTM).
La formula
Per chi vuole il dettaglio tecnico, la formula dell’attenzione è:
Attention(Q, K, V) = softmax(QK^T / √d_k) × V
Dove QK^T calcola la compatibilità tra token, √d_k normalizza per evitare che i numeri esplodano, softmax trasforma tutto in pesi che sommano a 1, e V porta il contenuto effettivo.
Passo 4 — Si ripete decine di volte
Il segnale passa attraverso decine di blocchi identici chiamati layer. Ogni blocco ripete:
- Normalizzazione — stabilizza i valori
- Attention — le teste guardano le relazioni
- Connessione residua — somma l’input all’output (preserva l’informazione originale)
- Rete neurale feed-forward — trasformazione non-lineare
- Altra connessione residua — di nuovo, preserva l’informazione
A ogni passaggio la rappresentazione si arricchisce, catturando relazioni sempre più complesse. I primi layer tendono a catturare sintassi e struttura, gli ultimi semantica e ragionamento.
I modelli più potenti hanno più layer, più parametri, più dimensioni — ma il meccanismo è identico. Da un modello da 8 miliardi di parametri a uno da 1.000 miliardi cambia la scala, non l’architettura.
Passo 5 — Il dado pesato
Dopo tutti i layer, il modello prende l’ultimo vettore e lo proietta su una tabella di centinaia di migliaia di possibili token successivi. Ottiene un punteggio per ognuno, lo trasforma in probabilità tramite softmax.
Poi sceglie. Nient’altro che un lancio di dado pesato.
Aggiunge il token scelto e ripete da capo. Token dopo token, la risposta si costruisce così, senza nessun “pensiero”, piano o comprensione dietro.
Temperatura e sampling
Il dado è regolabile. Due parametri chiave controllano la generazione:
-
Temperatura — controlla quanto il dado è “truccato”. A temperatura 0 sceglie sempre il token più probabile (deterministico). A temperatura alta la distribuzione si appiattisce e il modello diventa più “creativo” (ma anche più impreciso).
-
Top-P (nucleus sampling) — invece di considerare tutti i token possibili, considera solo quelli che coprono una certa percentuale della probabilità totale. Se top-p è 0.9, ignora il 10% meno probabile.
Ecco perché la stessa domanda dà risposte diverse: ogni volta il dado viene lanciato di nuovo con probabilità leggermente diverse.
Perché allucina
Adesso è chiaro il motivo.
Se chiedi al modello “qual è il fatturato medio di una PMI italiana?”, lui non consulta un database. Genera la parola più probabile dopo “fatturato medio”. Se nei testi di training “PMI italiana” compariva spesso vicino a cifre tra 500k e 2M, il modello scriverà un numero in quel range — che suona credibile, ma potrebbe essere completamente inventato.
Il modello non distingue tra:
- Un fatto verificato
- Un pattern statistico fuorviante
- Un testo sbagliato nel corpus di training
Per lui sono tutti sequenze di token con probabilità associate. La probabilità non è verità. La fluenza non è intelligenza.
Le allucinazioni non sono un bug da fixare. Sono una conseguenza strutturale di come funziona la generazione: next-token prediction ottimizza per plausibilità, non per correttezza.
Ma allora perché funziona
Perché chi ci lavora seriamente non lo usa mai da solo.
System prompt
Regole esplicite che condizionano la distribuzione di probabilità di ogni token generato. “Rispondi solo basandoti sui documenti forniti” non è una richiesta gentile — è un vincolo che sposta le probabilità verso token coerenti con i documenti.
Temperatura bassa
Il modello aderisce ai token più probabili, meno spazio per invenzioni. Per task fattuali si usa temperatura 0 o vicina a 0.
RAG (Retrieval Augmented Generation)
Invece di chiedere al modello di “ricordare”, gli dai i documenti reali come contesto. Il modello non deve più pescare dalla memoria statistica del training — legge i documenti che gli passi e genera risposte basate su quelli.
Questo cambia tutto: il modello passa da “generatore di testo plausibile” a “sintetizzatore di informazioni da fonti verificate”.
Tool e agenti
L’AI da sola non sa fare calcoli, non sa cercare su internet, non sa interrogare un database. Ma può essere collegata a strumenti (tool) che fanno queste cose per lei. Un agente AI è un sistema che decide autonomamente quali tool usare e in che ordine.
Verifica automatica
L’ultimo pezzo: estrarre le affermazioni verificabili dalla risposta e controllarle automaticamente contro le fonti. Se il modello dice “il fatturato medio è 1.2M”, il sistema verifica se quel dato esiste nei documenti forniti.
Il quadro completo
Un LLM da solo è un generatore di testo plausibile.
Un LLM vincolato — con system prompt restrittivo, temperatura bassa, documenti reali via RAG, tool per cercare e calcolare, e verifica automatica — è uno strumento che tre anni fa non esisteva.
Non intelligente. Disruptive. Se sai come funziona.
Prossimi articoli della serie:
- Perché la stessa domanda dà risposte diverse — Temperatura e sampling spiegati
- Cos’è il RAG e perché cambia tutto — Come si dà memoria reale all’AI
- Cos’è un tool per l’AI — Le “mani” che rendono l’AI utile
Questo è il primo articolo della nostra serie “Come funziona davvero l’AI”. Seguici per i prossimi approfondimenti.