Skip to content

Glossary

LLM

Large Language Model

By Published Updated

LLM (Large Language Model) è una rete neurale addestrata su grandi quantità di testo — tipicamente centinaia di miliardi di parole — per prevedere il token successivo in una sequenza dato il contesto precedente. Il termine “large” si riferisce al conteggio dei parametri: i moderni LLM di frontiera vanno da 100 miliardi a oltre 2 trilioni di parametri.

Architettura sottostante: transformer (Vaswani et al., 2017), con variazioni sulla divisione encoder-decoder originale. La famiglia GPT è solo decoder; il BERT originale era solo encoder; T5 mantiene entrambi. I modelli di frontiera dal 2020 sono in modo schiacciante solo decoder.

Pipeline di addestramento: pre-addestramento su un ampio corpus di testo per apprendere le statistiche del linguaggio, seguito da instruction tuning e apprendimento per rinforzo dal feedback umano (RLHF) o dal feedback AI (RLAIF) per far seguire al modello le istruzioni in modo utile.

Principali famiglie di LLM al 2026: GPT di OpenAI (3.5, 4, 4o, 5), Claude di Anthropic (3.5 Sonnet, 4, 4.6, 4.7), Gemini di Google (1.5, 2, 2.5), Llama di Meta (2, 3, 4) e diverse alternative open-weight (Mistral, Qwen, DeepSeek). Confronta i prezzi API nel nostro contatore di token.

Cosa sono e cosa non sono i LLM, meccanicamente: al momento dell’inferenza, un LLM è una funzione da una sequenza di token a una distribuzione di probabilità sul token successivo. La generazione campiona da quella distribuzione (con controlli di temperatura, top-p e top-k), aggiunge il token scelto e ripete. Non esiste un “modulo di ragionamento” nel senso classico — ogni output, che si tratti di una dimostrazione matematica o di una poesia, proviene dallo stesso ciclo next-token. Il chain-of-thought prompting funziona perché scrivere il ragionamento nel contesto consente al modello di condizionare i token successivi sui propri passi intermedi, non perché attivi una diversa modalità di inferenza. L’illusione del ragionamento è un effetto collaterale dell’addestramento su un’enorme distribuzione di testo umano che già contiene ragionamento.

Perché la finestra di contesto e la tokenizzazione contano per il costo: ogni addebito API è per token in entrata e per token in uscita, e un modello con una finestra di contesto da 200 K token addebita per qualsiasi frazione di essa che effettivamente riempi. Un PDF da 50 pagine caricato nel prompt può costare pochi centesimi per la lettura e pochi centesimi per generare un riassunto di un paragrafo — la maggior parte del conto è l’input. La tokenizzazione è specifica del fornitore: il BPE di GPT, il SentencePiece di Claude e il tokenizer di Gemini producono conteggi di token diversi per lo stesso testo, quindi il modello più economico su base $/token non è necessariamente il più economico in pratica. Usa il nostro contatore di token per confrontare i conteggi di token effettivi tra i fornitori prima di scegliere. Correlato: token GPT, finestra di contesto.

Esempio pratico

Vuoi riassumere un contratto legale di 40 pagine (~25.000 parole ≈ 33.000 token) usando un modello di frontiera con prezzo a $3 per milione di token di input e $15 per milione di token di output, chiedendo un riassunto da 500 token. Costo di input: 33.000 / 1.000.000 × $3 = $0,099. Costo di output: 500 / 1.000.000 × $15 = $0,0075. Totale: ~$0,107 per riassunto. Ora immagina di farlo per 10.000 contratti: $1.070 — e questo è prima di qualsiasi retry, risparmio di batching o sconti di prompt-caching. Se invece usi un modello più economico a $0,25/$1,25 per milione, il costo per documento scende a circa $0,0095, totale ~$95 per lo stesso lavoro. La matematica spiega perché i sistemi LLM in produzione instradano i compiti facili verso modelli piccoli e riservano il modello di frontiera per il 5% più difficile.

Quando e perché è importante

Capire come funzionano i LLM previene i fallimenti più comuni in produzione. Non hanno memoria tra le chiamate API — ogni richiesta deve portare la cronologia rilevante nella finestra di contesto o usare un sistema di recupero separato. Confabulano fatti plausibilmente formattati ma falsi, in particolare per eventi recenti, attributi di entità nominate e citazioni; le mitigazioni standard sono la generazione aumentata dal recupero (RAG), l’uso di strumenti e i controlli di ancoraggio per affermazione. Sono sensibili alla formulazione del prompt in modi non ovvi — “pensa passo dopo passo” cambia significativamente la precisione su compiti aritmetici e logici, e esempi few-shot possono influenzare le risposte più della scelta del modello. Riferimento: Vaswani et al. — Attention Is All You Need (il paper del transformer).

Frequently asked questions

Cos’è un large language model (LLM)?
Un LLM è una rete neurale addestrata su grandi quantità di testo per prevedere e generare linguaggio. Modelli come GPT-4, Claude e Gemini hanno miliardi di parametri e possono rispondere a domande, scrivere codice, riassumere documenti ed eseguire molti compiti linguistici.
Come genera testo un LLM?
Un LLM produce testo un token alla volta campionando da una distribuzione di probabilità sul proprio vocabolario, condizionata su tutti i token precedenti nella conversazione. Questo processo autoregressivo continua finché viene prodotto un token di fine sequenza o viene raggiunto un limite di lunghezza.
Qual è la differenza tra un LLM e un chatbot?
Un LLM è il modello sottostante; un chatbot è un prodotto costruito sopra di esso. Lo stesso LLM può alimentare più interfacce — chat, API, plugin IDE — ciascuna con diversi prompt di sistema, livelli di sicurezza e UX, condividendo gli stessi pesi del modello di base.
Cosa limita la quantità di contesto che un LLM può elaborare?
La finestra di contesto — misurata in token — definisce la lunghezza massima combinata di input e output che il modello può gestire in una singola chiamata di inferenza. Contesti più lunghi aumentano il costo di memoria e calcolo quadraticamente per i modelli basati sull’attenzione, motivo per cui la dimensione della finestra di contesto è una specifica chiave.

Related

Published May 14, 2026 · Last reviewed May 31, 2026