Glossary
LLM
Large Language Model
By Buğra SözeriPublished Updated
LLM (Large Language Model) è una rete neurale addestrata su grandi quantità di testo — tipicamente centinaia di miliardi di parole — per prevedere il token successivo in una sequenza dato il contesto precedente. Il termine “large” si riferisce al conteggio dei parametri: i moderni LLM di frontiera vanno da 100 miliardi a oltre 2 trilioni di parametri.
Architettura sottostante: transformer (Vaswani et al., 2017), con variazioni sulla divisione encoder-decoder originale. La famiglia GPT è solo decoder; il BERT originale era solo encoder; T5 mantiene entrambi. I modelli di frontiera dal 2020 sono in modo schiacciante solo decoder.
Pipeline di addestramento: pre-addestramento su un ampio corpus di testo per apprendere le statistiche del linguaggio, seguito da instruction tuning e apprendimento per rinforzo dal feedback umano (RLHF) o dal feedback AI (RLAIF) per far seguire al modello le istruzioni in modo utile.
Principali famiglie di LLM al 2026: GPT di OpenAI (3.5, 4, 4o, 5), Claude di Anthropic (3.5 Sonnet, 4, 4.6, 4.7), Gemini di Google (1.5, 2, 2.5), Llama di Meta (2, 3, 4) e diverse alternative open-weight (Mistral, Qwen, DeepSeek). Confronta i prezzi API nel nostro contatore di token.
Cosa sono e cosa non sono i LLM, meccanicamente: al momento dell’inferenza, un LLM è una funzione da una sequenza di token a una distribuzione di probabilità sul token successivo. La generazione campiona da quella distribuzione (con controlli di temperatura, top-p e top-k), aggiunge il token scelto e ripete. Non esiste un “modulo di ragionamento” nel senso classico — ogni output, che si tratti di una dimostrazione matematica o di una poesia, proviene dallo stesso ciclo next-token. Il chain-of-thought prompting funziona perché scrivere il ragionamento nel contesto consente al modello di condizionare i token successivi sui propri passi intermedi, non perché attivi una diversa modalità di inferenza. L’illusione del ragionamento è un effetto collaterale dell’addestramento su un’enorme distribuzione di testo umano che già contiene ragionamento.
Perché la finestra di contesto e la tokenizzazione contano per il costo: ogni addebito API è per token in entrata e per token in uscita, e un modello con una finestra di contesto da 200 K token addebita per qualsiasi frazione di essa che effettivamente riempi. Un PDF da 50 pagine caricato nel prompt può costare pochi centesimi per la lettura e pochi centesimi per generare un riassunto di un paragrafo — la maggior parte del conto è l’input. La tokenizzazione è specifica del fornitore: il BPE di GPT, il SentencePiece di Claude e il tokenizer di Gemini producono conteggi di token diversi per lo stesso testo, quindi il modello più economico su base $/token non è necessariamente il più economico in pratica. Usa il nostro contatore di token per confrontare i conteggi di token effettivi tra i fornitori prima di scegliere. Correlato: token GPT, finestra di contesto.
Esempio pratico
Vuoi riassumere un contratto legale di 40 pagine (~25.000 parole ≈ 33.000 token) usando un modello di frontiera con prezzo a $3 per milione di token di input e $15 per milione di token di output, chiedendo un riassunto da 500 token. Costo di input: 33.000 / 1.000.000 × $3 = $0,099. Costo di output: 500 / 1.000.000 × $15 = $0,0075. Totale: ~$0,107 per riassunto. Ora immagina di farlo per 10.000 contratti: $1.070 — e questo è prima di qualsiasi retry, risparmio di batching o sconti di prompt-caching. Se invece usi un modello più economico a $0,25/$1,25 per milione, il costo per documento scende a circa $0,0095, totale ~$95 per lo stesso lavoro. La matematica spiega perché i sistemi LLM in produzione instradano i compiti facili verso modelli piccoli e riservano il modello di frontiera per il 5% più difficile.
Quando e perché è importante
Capire come funzionano i LLM previene i fallimenti più comuni in produzione. Non hanno memoria tra le chiamate API — ogni richiesta deve portare la cronologia rilevante nella finestra di contesto o usare un sistema di recupero separato. Confabulano fatti plausibilmente formattati ma falsi, in particolare per eventi recenti, attributi di entità nominate e citazioni; le mitigazioni standard sono la generazione aumentata dal recupero (RAG), l’uso di strumenti e i controlli di ancoraggio per affermazione. Sono sensibili alla formulazione del prompt in modi non ovvi — “pensa passo dopo passo” cambia significativamente la precisione su compiti aritmetici e logici, e esempi few-shot possono influenzare le risposte più della scelta del modello. Riferimento: Vaswani et al. — Attention Is All You Need (il paper del transformer).
Frequently asked questions
- Cos’è un large language model (LLM)?
- Un LLM è una rete neurale addestrata su grandi quantità di testo per prevedere e generare linguaggio. Modelli come GPT-4, Claude e Gemini hanno miliardi di parametri e possono rispondere a domande, scrivere codice, riassumere documenti ed eseguire molti compiti linguistici.
- Come genera testo un LLM?
- Un LLM produce testo un token alla volta campionando da una distribuzione di probabilità sul proprio vocabolario, condizionata su tutti i token precedenti nella conversazione. Questo processo autoregressivo continua finché viene prodotto un token di fine sequenza o viene raggiunto un limite di lunghezza.
- Qual è la differenza tra un LLM e un chatbot?
- Un LLM è il modello sottostante; un chatbot è un prodotto costruito sopra di esso. Lo stesso LLM può alimentare più interfacce — chat, API, plugin IDE — ciascuna con diversi prompt di sistema, livelli di sicurezza e UX, condividendo gli stessi pesi del modello di base.
- Cosa limita la quantità di contesto che un LLM può elaborare?
- La finestra di contesto — misurata in token — definisce la lunghezza massima combinata di input e output che il modello può gestire in una singola chiamata di inferenza. Contesti più lunghi aumentano il costo di memoria e calcolo quadraticamente per i modelli basati sull’attenzione, motivo per cui la dimensione della finestra di contesto è una specifica chiave.
Related
Published May 14, 2026 · Last reviewed May 31, 2026