Skip to content

Glossary

Finestra di contesto

Il limite fisso su ciò che un LLM può leggere in una volta

By Published Updated

La finestra di contesto di un LLM è il numero massimo di token che può elaborare in una singola chiamata di inferenza. La finestra copre input e output combinati — se riempi l’input fino all’orlo non c’è spazio per la risposta del modello.

Le finestre di contesto sono cresciute notevolmente:

  • GPT-3 (2020): 2.048 token
  • GPT-3.5 (2022): 4.096 → 16.384 token
  • GPT-4 (2023): 8.192 → 32.768 → 128.000 token
  • Claude 3 (2024): 200.000 token (~150.000 parole)
  • Gemini 1.5 Pro (2024): 1.000.000 token (~750.000 parole — un lungo romanzo)
  • Modelli frontier (2026): 1-2 milioni di token comuni

Finestre più grandi consentono di inserire interi libri, codebase o lunghe cronologie di conversazioni in un singolo prompt. I limiti pratici rimangono: la velocità diminuisce a lunghezze di contesto maggiori, il costo scala linearmente con i token di input (cached o meno) e l’attenzione del modello si degrada a contesti molto lunghi in modi ben documentati (benchmark “needle in a haystack”).

Esempio pratico

Vuoi riassumere un romanzo di 250 pagine (~75.000 parole). Nel tokenizer di OpenAI (cl100k_base), quel testo arriva a circa 100.000 token. Con GPT-3 (contesto 2k), il romanzo non entra affatto — dovresti suddividerlo in 50 parti ed eseguire un albero di riassunto ricorsivo. Con GPT-3.5 16k, servirebbero ~7 parti. Con GPT-4 128k, l’intero romanzo entra con 28k token di riserva per le istruzioni e l’output. Con Claude 3 (200k), idem con ancora più margine. Con Gemini 1.5 Pro (1M), potresti inserire l’intero romanzo più i nove libri precedenti della serie e avere ancora spazio. Anche il quadro dei costi cambia: a $3/M token di input, il riassunto da 100k token costa $0,30 solo in input — economico per richiesta, ma mille richieste di questo tipo costano $300, motivo per cui le API batch e la cache dei prompt sono diventate necessità economiche.

Quando e perché è importante

La finestra di contesto è importante ogni volta che un flusso di lavoro LLM comporta più input di una tipica chat: revisione di documenti legali, refactoring a livello di codebase, sintesi di ricerca su più articoli, conversazioni di supporto clienti con lunga cronologia, loop di agenti che accumulano output degli strumenti. L’errore da evitare è assumere che “finestra più grande = risposte migliori”: l’effetto “Lost in the Middle” (Liu 2023) mostra che le informazioni collocate nel mezzo di un lungo contesto vengono richiamate meno affidabilmente rispetto alle informazioni all’inizio o alla fine. Il pattern ingegneristico pratico è: (a) mettere le istruzioni e i vincoli più critici all’inizio, (b) mettere la query immediata dell’utente alla fine, e (c) trattare la parte centrale come “materiale di riferimento che il modello può consultare ma non deve essere tenuto a usare”. Per la generazione aumentata dal recupero, finestre di contesto più piccole con recupero preciso spesso superano finestre più grandi con tutto inserito. Riferimento: Documentazione modelli OpenAI — limiti della finestra di contesto.

Il problema del costo dell’attenzione dietro le quinte: il meccanismo di attenzione del transformer originale è O(n²) nella lunghezza della sequenza — raddoppiare la finestra di contesto quadruplica il costo di calcolo di un forward pass. I modelli frontier da 1M token funzionano grazie a trucchi architetturali: FlashAttention (Tri Dao, 2022) e FlashAttention-2 (2023) ristrutturano l’operazione per essere IO-aware e riducono i costi di larghezza di banda della memoria; le varianti a attenzione sparsa (finestra scorrevole, dilated) eliminano il termine quadratico globale; e l’attenzione ring/sequence-parallel distribuisce la sequenza su più GPU. Nessuno di questi trucchi elimina lo scaling sottostante — lo spingono solo più avanti.

Perché “contesto effettivo” ≠ contesto pubblicizzato: il benchmark “needle in a haystack” inserisce un fatto unico in una posizione nota all’interno di un lungo contesto e chiede al modello di recuperarlo. I modelli frontier ottengono punteggi vicini al 100% su questo benchmark fino alla loro finestra pubblicizzata. I benchmark più difficili — recupero multi-fatto, ragionamento multi-hop sull’intero lungo contesto, riassunto che sintetizza l’intero input — mostrano punteggi significativamente inferiori oltre ~50-100K token, anche sui modelli da 1M token. La regola pratica: una finestra da 1M token è affidabile per le attività “cerca cose specifiche in questo grande documento”, ma la qualità del ragionamento si degrada tipicamente oltre i primi ~100K. Confronta le affermazioni dei provider con il tuo specifico carico di lavoro. Correlato: token GPT, LLM. Riferimento: Liu N et al. — Lost in the Middle (2023).

Frequently asked questions

Cos’è una finestra di contesto?
Una finestra di contesto è il numero massimo di token che un LLM può elaborare in una singola chiamata di inferenza — sia l'input (prompt + cronologia della conversazione) che l'output combinati. I modelli con una finestra di contesto di 200.000 token possono elaborare circa 150.000 parole in una volta.
Come influisce la finestra di contesto sull’uso pratico degli LLM?
Quando si riassume un documento legale di 500 pagine con GPT-4 (contesto 128k), uno sviluppatore deve dividere il documento in parti perché supera la finestra. Claude 3.5 con una finestra da 200k token può elaborare l'intero documento in una singola chiamata senza suddivisione.
Qual è la differenza tra finestra di contesto e memoria?
La finestra di contesto contiene tutti i token attualmente nella conversazione attiva — viene svuotata tra le sessioni. La memoria (negli agenti multi-sessione) è un sistema di recupero separato che memorizza e recupera le interazioni passate rilevanti. Il contesto è veloce e preciso; la memoria è persistente ma approssimativa.
Una finestra di contesto più grande significa risposte più lente?
Sì — i meccanismi di attenzione nei transformer scalano come O(n²) con la lunghezza della sequenza, quindi raddoppiare il contesto quadruplica approssimativamente il calcolo dell'attenzione. I modelli con finestre di contesto molto grandi usano attenzione ottimizzata (es. flash attention) per ridurre questo costo, ma contesti più lunghi aumentano comunque la latenza e il costo dell'API.

Related

Published May 14, 2026 · Last reviewed May 31, 2026