Come Funziona un LLM: Guida Completa al Funzionamento di ChatGPT, Claude e Gemini

L’AI non capisce assolutamente nulla di quello che le scrivi.

Non sa cosa sia una parola, non sa cosa sia un concetto, non ha opinioni e non ragiona. In poche parole: non è intelligente.

Eppure risponde meglio di metà delle persone che conosci. Come è possibile?

In questo articolo smontiamo un Large Language Model pezzo per pezzo. Niente metafore, niente fuffa. Quello che succede davvero quando scrivi una frase a ChatGPT, Claude o Gemini.

Passo 1 — Il tuo testo viene fatto a pezzi

Quando scrivi “Il cliente ha chiesto un rimborso per l’ordine di ieri”, il modello non vede parole. Vede frammenti chiamati token.

“Rimborso” diventa 3 pezzi: "rim" + "bor" + "so". Anche “chiesto” viene spezzato: "ch" + "iest" + "o". Quella frase da 10 parole? Per il modello sono 17 frammenti.

L’algoritmo si chiama Byte Pair Encoding (BPE) e funziona così: durante l’addestramento, parte dai singoli caratteri e fonde iterativamente le coppie che appaiono più frequentemente nel corpus. Le combinazioni più comuni diventano token interi, quelle rare restano spezzate.

Il bias linguistico

L’addestramento è fatto prevalentemente su testo inglese (80-90% del corpus). Il risultato è un bias strutturale misurabile:

Frase	Token	Pezzi
”Intelligenza artificiale”	7	`int` + `ell` + `igen` + `za` + `art` + `ific` + `iale`
”Artificial intelligence”	3	`art` + `ificial` + `intelligence`

L’italiano paga il doppio per dire la stessa cosa. Non è un bug, è una conseguenza diretta di come funziona BPE: le combinazioni inglesi sono state viste milioni di volte in più, quindi vengono fuse prima e diventano token più compatti.

Questo ha conseguenze pratiche: più token = più costo (le API fatturano a token), più contesto consumato e potenzialmente risposte di qualità leggermente inferiore perché il modello deve “ricostruire” parole che non ha mai visto intere.

Passo 2 — Ogni frammento diventa un punto nello spazio

Ogni token viene trasformato in un vettore, cioè una lista di migliaia di numeri. Immagina uno spazio a migliaia di dimensioni dove ogni parola ha una coordinata.

Parole che nel training comparivano spesso negli stessi contesti finiscono vicine tra loro in questo spazio:

Coppia	Distanza
”Fattura” ↔ “Pagamento”	Vicini
”Neurone” ↔ “Rete neurale”	Vicini
”Gatto” ↔ “Algebra”	Lontani

Non perché il modello capisce il significato, ma perché ha visto miliardi di frasi in cui “fattura” e “pagamento” stanno insieme. In linguistica si chiama ipotesi distributiva: “una parola è conosciuta dalla compagnia che tiene”.

È statistica, non comprensione.

Questo processo si chiama embedding e la matrice che lo esegue è una delle componenti più grandi del modello: centinaia di migliaia di token, ognuno mappato in migliaia di dimensioni.

Passo 3 — Ogni parola “guarda” tutte le altre

Qui entra il meccanismo chiamato Attention, il cuore di tutto il sistema.

Ogni token nella frase genera tre segnali:

Query — “cosa sto cercando?”
Key — “cosa offro?”
Value — “cosa porto?”

La Query di un token viene confrontata con le Key di tutti gli altri. Se c’è compatibilità, quel token “pesa di più” nella risposta.

Un esempio concreto

In “Il cliente ha chiesto un rimborso”, quando il modello arriva a “chiesto” deve decidere chi ha chiesto. Il meccanismo di attenzione assegna:

Peso alto a “cliente” (è il soggetto)
Peso basso a “un” (articolo, irrilevante)

Questo succede su decine di “teste di attenzione” in parallelo, ognuna specializzata su relazioni diverse:

Una guarda i rapporti soggetto-verbo
Un’altra le dipendenze lunghe (riferimenti a frasi precedenti)
Un’altra la posizione relativa nella frase

Tutto contemporaneamente. È questo parallelismo che rende i Transformer enormemente più efficienti delle architetture precedenti (RNN, LSTM).

La formula

Per chi vuole il dettaglio tecnico, la formula dell’attenzione è:

Attention(Q, K, V) = softmax(QK^T / √d_k) × V

Dove QK^T calcola la compatibilità tra token, √d_k normalizza per evitare che i numeri esplodano, softmax trasforma tutto in pesi che sommano a 1, e V porta il contenuto effettivo.

Passo 4 — Si ripete decine di volte

Il segnale passa attraverso decine di blocchi identici chiamati layer. Ogni blocco ripete:

Normalizzazione — stabilizza i valori
Attention — le teste guardano le relazioni
Connessione residua — somma l’input all’output (preserva l’informazione originale)
Rete neurale feed-forward — trasformazione non-lineare
Altra connessione residua — di nuovo, preserva l’informazione

A ogni passaggio la rappresentazione si arricchisce, catturando relazioni sempre più complesse. I primi layer tendono a catturare sintassi e struttura, gli ultimi semantica e ragionamento.

I modelli più potenti hanno più layer, più parametri, più dimensioni — ma il meccanismo è identico. Da un modello da 8 miliardi di parametri a uno da 1.000 miliardi cambia la scala, non l’architettura.

Passo 5 — Il dado pesato

Dopo tutti i layer, il modello prende l’ultimo vettore e lo proietta su una tabella di centinaia di migliaia di possibili token successivi. Ottiene un punteggio per ognuno, lo trasforma in probabilità tramite softmax.

Poi sceglie. Nient’altro che un lancio di dado pesato.

Aggiunge il token scelto e ripete da capo. Token dopo token, la risposta si costruisce così, senza nessun “pensiero”, piano o comprensione dietro.

Temperatura e sampling

Il dado è regolabile. Due parametri chiave controllano la generazione:

Temperatura — controlla quanto il dado è “truccato”. A temperatura 0 sceglie sempre il token più probabile (deterministico). A temperatura alta la distribuzione si appiattisce e il modello diventa più “creativo” (ma anche più impreciso).
Top-P (nucleus sampling) — invece di considerare tutti i token possibili, considera solo quelli che coprono una certa percentuale della probabilità totale. Se top-p è 0.9, ignora il 10% meno probabile.

Ecco perché la stessa domanda dà risposte diverse: ogni volta il dado viene lanciato di nuovo con probabilità leggermente diverse.

Perché allucina

Adesso è chiaro il motivo.

Se chiedi al modello “qual è il fatturato medio di una PMI italiana?”, lui non consulta un database. Genera la parola più probabile dopo “fatturato medio”. Se nei testi di training “PMI italiana” compariva spesso vicino a cifre tra 500k e 2M, il modello scriverà un numero in quel range — che suona credibile, ma potrebbe essere completamente inventato.

Il modello non distingue tra:

Un fatto verificato
Un pattern statistico fuorviante
Un testo sbagliato nel corpus di training

Per lui sono tutti sequenze di token con probabilità associate. La probabilità non è verità. La fluenza non è intelligenza.

Le allucinazioni non sono un bug da fixare. Sono una conseguenza strutturale di come funziona la generazione: next-token prediction ottimizza per plausibilità, non per correttezza.

Ma allora perché funziona

Perché chi ci lavora seriamente non lo usa mai da solo.

System prompt

Regole esplicite che condizionano la distribuzione di probabilità di ogni token generato. “Rispondi solo basandoti sui documenti forniti” non è una richiesta gentile — è un vincolo che sposta le probabilità verso token coerenti con i documenti.

Temperatura bassa

Il modello aderisce ai token più probabili, meno spazio per invenzioni. Per task fattuali si usa temperatura 0 o vicina a 0.

RAG (Retrieval Augmented Generation)

Invece di chiedere al modello di “ricordare”, gli dai i documenti reali come contesto. Il modello non deve più pescare dalla memoria statistica del training — legge i documenti che gli passi e genera risposte basate su quelli.

Questo cambia tutto: il modello passa da “generatore di testo plausibile” a “sintetizzatore di informazioni da fonti verificate”.

Tool e agenti

L’AI da sola non sa fare calcoli, non sa cercare su internet, non sa interrogare un database. Ma può essere collegata a strumenti (tool) che fanno queste cose per lei. Un agente AI è un sistema che decide autonomamente quali tool usare e in che ordine.

Verifica automatica

L’ultimo pezzo: estrarre le affermazioni verificabili dalla risposta e controllarle automaticamente contro le fonti. Se il modello dice “il fatturato medio è 1.2M”, il sistema verifica se quel dato esiste nei documenti forniti.

Il quadro completo

Un LLM da solo è un generatore di testo plausibile.

Un LLM vincolato — con system prompt restrittivo, temperatura bassa, documenti reali via RAG, tool per cercare e calcolare, e verifica automatica — è uno strumento che tre anni fa non esisteva.

Non intelligente. Disruptive. Se sai come funziona.

Prossimi articoli della serie:

Perché la stessa domanda dà risposte diverse — Temperatura e sampling spiegati
Cos’è il RAG e perché cambia tutto — Come si dà memoria reale all’AI
Cos’è un tool per l’AI — Le “mani” che rendono l’AI utile

Questo è il primo articolo della nostra serie “Come funziona davvero l’AI”. Seguici per i prossimi approfondimenti.

Tag: aillmmachine-learningtokenizzazioneembeddingsattentionrag

AI & Automation

E-commerce Shopify

Web Application

Piattaforme Digitali

System Integration

Consulenza & Audit

Come Funziona Davvero un'AI: LLM Spiegato Passo per Passo

Vuoi integrare l'AI nel tuo business?

Passo 1 — Il tuo testo viene fatto a pezzi

Il bias linguistico

Passo 2 — Ogni frammento diventa un punto nello spazio

Passo 3 — Ogni parola “guarda” tutte le altre

Un esempio concreto

La formula

Passo 4 — Si ripete decine di volte

Passo 5 — Il dado pesato

Temperatura e sampling

Perché allucina

Ma allora perché funziona

System prompt

Temperatura bassa

RAG (Retrieval Augmented Generation)

Tool e agenti

Verifica automatica

Il quadro completo

Costruiamo soluzioni AI che funzionano

Enterprise RAG

Custom AI Copilot

Document Intelligence

Semantic Search

Hai un progetto in mente?

Come Funziona Davvero un'AI: LLM Spiegato Passo per Passo

Vuoi integrare l'AI nel tuo business?

Passo 1 — Il tuo testo viene fatto a pezzi

Il bias linguistico

Passo 2 — Ogni frammento diventa un punto nello spazio

Passo 3 — Ogni parola “guarda” tutte le altre

Un esempio concreto

La formula

Passo 4 — Si ripete decine di volte

Passo 5 — Il dado pesato

Temperatura e sampling

Perché allucina

Ma allora perché funziona

System prompt

Temperatura bassa

RAG (Retrieval Augmented Generation)

Tool e agenti

Verifica automatica

Il quadro completo

Articoli correlati

Perché l'AI Risponde in Modo Diverso alla Stessa Domanda: Temperatura e Sampling Spiegati

Costruiamo soluzioni AI che funzionano

Enterprise RAG

Custom AI Copilot

Document Intelligence

Semantic Search

Hai un progetto in mente?

Utilizziamo i cookie

Preferenze Cookie

Cookie Necessari

Cookie Analytics

Cookie Marketing