Glossary
GPT token
L’unità atomica di input e output degli LLM
By Buğra SözeriPublished Updated
Un GPT token (più in generale, un token) è l’unità elaborata da un modello linguistico di grandi dimensioni. I modelli non vedono direttamente caratteri o parole — il testo viene prima tokenizzato in una sequenza di ID interi da un vocabolario fisso, tipicamente da 50.000 a 200.000 token.
GPT-3, GPT-4 e GPT-5 di OpenAI usano tokenizzatori BPE (Byte Pair Encoding). Le parole inglesi comuni sono di solito un token (“the” → 1, “and” → 1); le parole più lunghe o rare si dividono in più token (“tokenization” → forse 3); il codice si divide molto di più (identificatori, parentesi, indentazione diventano ciascuno token separati).
Rapporti pratici:
- Prosa inglese: ~4 caratteri per token, ~0,75 parole per token
- Codice: ~2-3 caratteri per token (divisione più pesante)
- Script non latini (cinese, giapponese, arabo): può essere 1 carattere per token o peggio
Sia i token di input che quelli di output vengono fatturati. I token di output costano tipicamente 3-5 volte quelli di input. Usa il nostro contatore di token per stime in tempo reale su modelli GPT, Claude, Gemini e Llama.
La tassa sugli script non latini: un paragrafo turco, greco o russo con lo stesso contenuto semantico dell’inglese costa tipicamente 2-3 volte più token perché il tokenizzatore è stato addestrato prevalentemente su testo inglese e torna alla suddivisione a livello di carattere per script meno comuni. Un paragrafo cinese può costare 4-6 volte più token. Questo si traduce direttamente in costi — gestire lo stesso chatbot in giapponese rispetto all’inglese può facilmente raddoppiare il costo per conversazione. I tokenizzatori del 2024 (OpenAI o200k_base, il tokenizzatore più recente di Claude) hanno aggiunto molti più token non latini e hanno ridotto il divario, ma l’inglese rimane la lingua più economica per operare un LLM.
La cache del prompt cambia i calcoli: OpenAI, Anthropic e Google offrono tutti la cache del prompt dal 2024-25 — i prefissi di input ripetuti vengono addebitati al 25-90% della tariffa di input regolare dopo il primo utilizzo. Per i carichi di lavoro dei chatbot con prompt di sistema stabili e contesti lunghi, questo riduce drasticamente il costo di input effettivo. La cache è per prefisso (hash dei token iniziali) quindi il riordinamento la invalida; struttura i prompt con contenuto stabile prima, contenuto dinamico dopo. Riferimento: OpenAI tiktoken — il tokenizzatore BPE di riferimento.
Esempio pratico: contare i token in un prompt reale
Prompt: “Riassumi la seguente trascrizione della riunione in tre punti elenco.” seguito da 2.000 parole di trascrizione in inglese e una richiesta di riassunto di 200 parole. Usando il tokenizzatore cl100k_base (famiglia GPT-4, GPT-4o): l’istruzione è 11 token; 2.000 parole inglesi si tokenizzano in circa 2.700 token; il modello restituisce 200 parole ≈ 270 token di output. Ai prezzi illustrativi GPT-4o 2026 (USD 2,50/M input, USD 10/M output): costo input 2.711 / 1.000.000 × 2,50 ≈ 0,0068 USD; costo output 270 / 1.000.000 × 10 ≈ 0,0027 USD. Totale ≈ 0,95 centesimi per chiamata. Tradurre la stessa trascrizione in giapponese (~6.500 token con lo stesso tokenizzatore) e il costo per chiamata triplica all’incirca — senza che il modello svolga alcun ragionamento aggiuntivo.
Quando i conteggi dei token contano operativamente
Al di là del pricing, i token determinano la capacità della finestra di contesto. Un modello da 128.000 token può contenere circa 96.000 parole inglesi, 64.000 righe di Python o 24.000 caratteri giapponesi prima che i contenuti più vecchi vengano eliminati. Le pipeline RAG (retrieval-augmented generation) dovrebbero suddividere i documenti sorgente in finestre da 200-1.000 token per la qualità dell’embedding; blocchi troppo grandi sfocano l’embedding, blocchi troppo piccoli frammentano contenuti semanticamente correlati. Strumenti: tiktoken (OpenAI), @anthropic-ai/tokenizer (Anthropic), AutoTokenizer di Hugging Face (modelli open). Correlati: finestra di contesto, LLM. Approfondimento: Hugging Face — Riepilogo dei tokenizzatori.
Frequently asked questions
- Che cos’è un GPT token?
- Un token è la più piccola unità elaborata da un LLM — circa 4 caratteri inglesi o 0,75 parole. Il testo viene suddiviso in token tramite un tokenizzatore (es. BPE) prima che il modello lo elabori.
- Quanti token usa un paragrafo tipico?
- Un paragrafo inglese medio di 100 parole viene tokenizzato in circa 130-140 token. Lo stesso paragrafo in giapponese o cinese può costare 3-6 volte più token perché il tokenizzatore è stato addestrato prevalentemente su testo inglese.
- Qual è la differenza tra token di input e token di output?
- I token di input sono il prompt inviato al modello; i token di output sono la risposta generata. I token di output costano tipicamente 3-5 volte di più dei token di input nella maggior parte dei piani tariffari commerciali.
- Perché la cache del prompt è importante per i costi dei token?
- I prefissi di input memorizzati nella cache vengono ricaricati al 10-25% della tariffa normale nelle chiamate ripetute. Strutturare i prompt con istruzioni di sistema stabili all’inizio e contenuto dinamico alla fine massimizza il tasso di hit della cache e può ridurre drasticamente i costi per chiamata.
Related
Published May 14, 2026 · Last reviewed May 31, 2026