LLM (Large Language Models): ChatGpt, Gemini ecc. Come funzionano davvero, parte 2

di Walter Quattrociocchi

Riportiamo qui altre considerazioni di Walter Quattrociocchi, Professore Ordinario di Informatica presso l’Università di Roma La Sapienza, dove dirige il Center for Data Science and Complexity for Society. Si tratta di puntualizzazioni preziose ora che, per ragioni che evidentemente non hanno nulla a che fare con la validità didattica ed educativa, si è messo in moto il circo del marketing per la “vendita” dell’Ai alla scuola (e viceversa).

Per la prima serie di riflessioni, cfr.
https://nostrascuola.blog/2025/08/26/intelligenza-artificiale-chatgpt-e-large-language-model-alcuni-chiarimenti-fondamentali/


***
Embedding – I computer non capiscono parole, elaborano numeri. Per questo ogni parola viene trasformata in un elenco di numeri chiamato vettore. Se due parole compaiono spesso nello stesso contesto (“gatto” e “cane”), i loro vettori saranno vicini; se non compaiono mai insieme (“gatto” e “trattore”), saranno lontani. È una mappa statistica, non un dizionario di significati. Nessun concetto, solo distanze in uno spazio di numeri.

Tokenizzazione – Il modello non legge il testo come facciamo noi. Spezza le frasi in piccoli pezzi chiamati token. A volte una parola è un token intero, altre volte viene spezzata: “incredibile” può diventare “in”, “credi”, “bile”. Il modello lavora solo con questi pezzi, non con concetti o frasi intere. Non c’è un “pensiero” sotto: solo pezzi da ricomporre.

Positional Encoding – Perché l’ordine delle parole non si perda, a ogni token viene aggiunta un’informazione sulla sua posizione nella frase. È così che il modello distingue tra “l’uomo morde il cane” e “il cane morde l’uomo”. Non è grammatica: è solo un trucco matematico per non confondere l’ordine. Coordinate, non regole sintattiche.

Fine-tuning e RLHF – Dopo l’addestramento di base, il modello viene “educato” con dati più mirati o con istruzioni di esseri umani (RLHF = Reinforcement Learning with Human Feedback). Qui gli umani dicono: “questa risposta va bene, questa no”. È così che il modello impara a rispondere in modo più chiaro e cortese, ma resta statistica, non personalità. Premi e punizioni, non comprensione.

Context window – Un modello non ricorda all’infinito. Ha una “finestra di contesto” che stabilisce quante parole può considerare alla volta. Se è troppo piccola, dimentica l’inizio della conversazione. Oggi i modelli più avanzati hanno finestre molto ampie e possono “tenere a mente” testi enormi in un’unica volta. Ma sempre con memoria a breve termine: finita la finestra, sparisce tutto.

Prompt engineering – Dare istruzioni chiare migliora le risposte. Non perché il modello “capisca”, ma perché guidi meglio la scelta delle parole. Domanda confusa = risposta confusa. Niente magia: solo input più mirati.

Decoding – Dopo aver calcolato la probabilità di ogni parola possibile, il modello deve sceglierne una.

Greedy decoding: prende sempre quella più probabile → testo corretto ma noioso.

Sampling: pesca a caso seguendo le probabilità → più varietà, ma rischia di dire sciocchezze.

Beam search: valuta più frasi in parallelo e sceglie la migliore → più lento ma di qualità. Non c’è ispirazione: solo diverse strategie di scelta.

Temperature e top-k – Sono le “manopole dello stile”.
Temperature regola la creatività: bassa = frasi prevedibili, alta = frasi fantasiose (a volte troppo).
Top-k dice al modello: “considera solo le k parole più probabili”.

Tutto qui: numeri, probabilità, un po’ di informatica. Tantissimi dati e tanta potenza di calcolo.
Niente coscienza. Niente magia. Niente filosofia dei termosifoni.

***

Una piccola nota di chiarimento per i tanti dotti immaginari (che teneri) che ti spiegano con la sicurezza di chi non sa di non sapere. Li vedi disquisire di LLM con l’aria di chi svela misteri, ma spesso inciampano su concetti elementari di meccanica statistica, ottimizzazione e teoria dell’informazione. Quando mancano le basi — distribuzioni, spazi vettoriali, concentrazione della misura — ogni metafora sembra un’epifania e ogni output un atto di coscienza. Non solo umanisti, sia ben chiaro. (Non è un caso che mi sto battendo per potenziare di molto nei curricula di informatica su quel fronte). Il corso di Laurea di cui sono preside porta in sé sta cosa in maniera molto importante.
Perchè è lì che nascono le leggende: “l’IA pensa”, “Mente Estesa”, “l’IA capisce”, “l’IA ragiona per abduzione debole”, “Intelligenza Aliena”. Dall’ignoranza di chi si pone come intermediario tra tecnologia e società senza capire davvero quello di cui parla. Il paradosso è che l’ignoranza fa pensare di essere profondi. Ma provare a fare metafore, senza aver capito l’oggetto, è un esercizio catastrofico.

Che poi, la realtà è molto meno retorica e molto più interessante. Gli LLM non hanno pensiero, coscienza o introspezione (e potremmo anche dire che non ce ne potrebbe fregar di meno, se non fosse argomento che porta tanti parvenue a parlare con fare da dotto immaginario).

Perché sta roba funziona? Per i dati, certo. Ma anche per la capacità di ottimizzare su scala mostruosa ciò che prima era solo teorico. Gli algoritmi c’erano già, il salto lo abbiamo avuto quando dati e potenza computazionale hanno incontrato un’ottimizzazione massiva (e ora i dati sono finiti, e difficilmente ne avremo di migliori).


La svolta è stata questa: abbiamo imparato a trasformare il linguaggio in geometria e a sfruttare la statistica su una scala mai vista prima. Si parte da quantità enormi di testi, si spezzettano in unità minime chiamate token e si guarda come questi compaiono insieme. Si stimano le co-occorrenze, cioè con quale frequenza due token stanno vicini nei dati. Da questa informazione si costruisce uno spazio geometrico in cui ogni parola è un punto: vicine se usate in contesti simili, lontane se no. Questa è la geometria del linguaggio: non viene inventata dal modello, è già nei dati, e la statistica la rende visibile.


Il modello vero e proprio — un transformer con meccanismi di self-attention — serve a sfruttare questa geometria al massimo: calcola per ogni parola le relazioni con tutte le altre, in tutto il contesto, e ottimizza miliardi di parametri per stimare la distribuzione condizionata del prossimo token dato ciò che è venuto prima. Non c’è abduzione, non c’è introspezione: solo funzioni di probabilità apprese in uno spazio vettoriale.


Con abbastanza dati e parametri, questa geometria cattura regolarità potentissime. Perché? Perché il modello impara a interpolare: immagina di avere milioni di frasi già viste, ognuna rappresentata come un punto nello spazio. Quando arriva una frase nuova, con pezzi simili a quelle vecchie ma non identica a nessuna, il modello cerca una posizione in mezzo ai punti esistenti, una specie di punto di equilibrio, da cui prende spunto per continuare la frase in modo plausibile. Non sta inventando dal nulla: sta riempiendo i buchi basandosi su quello che ha visto, come quando completi un puzzle guardando i pezzi vicini. L’interpolazione è esattamente questo: riempire il vuoto usando le somiglianze statistiche con esempi già incontrati. La fluidità che osservate nasce da qui, non da qualche magia cognitiva che i pop-filosofi fingono di intravedere.


Nella fase di decodifica, poi, si estrae ogni volta un token dalla distribuzione stimata: lo si può fare scegliendo sempre quello più probabile (greedy), o campionando a temperatura più alta per ottenere testi più vari. Cambia lo stile, non la natura del processo: resta generazione statistica (anche se il termine fa storcere il naso ai dotti immaginari).


Se il contesto è povero o la distribuzione è piatta, il modello completa come può: campiona tra possibilità plausibili, ma non verificate. Non ha accesso diretto al mondo, a meno che non lo si colleghi esplicitamente a fonti esterne. E il motivo per cui vi sembra convincente è che, oltre a stimare la probabilità delle parole, è stato addestrato a scrivere bene: tono, coerenza, forma. Ma quella che scambiate per intelligenza è solo scorrevolezza: è ciò che chiamo epistemia, l’illusione di conoscenza prodotta da un testo ben scritto, non dalla verità che contiene.


La parte davvero interessante è questa: la geometria è già nei dati. Il modello la scopre e la modella in uno spazio geometrico complesso, imparando a sfruttarla per generare testo plausibile. Non inventa nulla. A inventare sono semmai i dotti immaginari, che colmano le loro lacune con la stessa disinvoltura con cui gli LLM completano le frasi — e il paradosso è che scambiano questa ignoranza per profondità.


C’è bisogno di una maggiore igiene e di essere più esigenti.
Che dite, ci diamo una mano riconoscendo la fuffa e trattandola per quello che è?

Sull’argomento vedi anche: https://nostrascuola.blog/2025/07/22/personalizzare-lapprendimento-con-lai-mistificazioni-e-distopie/

Lascia un commento