Skip to content

Glossary

GPT token

L’unità atomica di input e output degli LLM

By Published Updated

Un GPT token (più in generale, un token) è l’unità elaborata da un modello linguistico di grandi dimensioni. I modelli non vedono direttamente caratteri o parole — il testo viene prima tokenizzato in una sequenza di ID interi da un vocabolario fisso, tipicamente da 50.000 a 200.000 token.

GPT-3, GPT-4 e GPT-5 di OpenAI usano tokenizzatori BPE (Byte Pair Encoding). Le parole inglesi comuni sono di solito un token (“the” → 1, “and” → 1); le parole più lunghe o rare si dividono in più token (“tokenization” → forse 3); il codice si divide molto di più (identificatori, parentesi, indentazione diventano ciascuno token separati).

Rapporti pratici:

  • Prosa inglese: ~4 caratteri per token, ~0,75 parole per token
  • Codice: ~2-3 caratteri per token (divisione più pesante)
  • Script non latini (cinese, giapponese, arabo): può essere 1 carattere per token o peggio

Sia i token di input che quelli di output vengono fatturati. I token di output costano tipicamente 3-5 volte quelli di input. Usa il nostro contatore di token per stime in tempo reale su modelli GPT, Claude, Gemini e Llama.

La tassa sugli script non latini: un paragrafo turco, greco o russo con lo stesso contenuto semantico dell’inglese costa tipicamente 2-3 volte più token perché il tokenizzatore è stato addestrato prevalentemente su testo inglese e torna alla suddivisione a livello di carattere per script meno comuni. Un paragrafo cinese può costare 4-6 volte più token. Questo si traduce direttamente in costi — gestire lo stesso chatbot in giapponese rispetto all’inglese può facilmente raddoppiare il costo per conversazione. I tokenizzatori del 2024 (OpenAI o200k_base, il tokenizzatore più recente di Claude) hanno aggiunto molti più token non latini e hanno ridotto il divario, ma l’inglese rimane la lingua più economica per operare un LLM.

La cache del prompt cambia i calcoli: OpenAI, Anthropic e Google offrono tutti la cache del prompt dal 2024-25 — i prefissi di input ripetuti vengono addebitati al 25-90% della tariffa di input regolare dopo il primo utilizzo. Per i carichi di lavoro dei chatbot con prompt di sistema stabili e contesti lunghi, questo riduce drasticamente il costo di input effettivo. La cache è per prefisso (hash dei token iniziali) quindi il riordinamento la invalida; struttura i prompt con contenuto stabile prima, contenuto dinamico dopo. Riferimento: OpenAI tiktoken — il tokenizzatore BPE di riferimento.

Esempio pratico: contare i token in un prompt reale

Prompt: “Riassumi la seguente trascrizione della riunione in tre punti elenco.” seguito da 2.000 parole di trascrizione in inglese e una richiesta di riassunto di 200 parole. Usando il tokenizzatore cl100k_base (famiglia GPT-4, GPT-4o): l’istruzione è 11 token; 2.000 parole inglesi si tokenizzano in circa 2.700 token; il modello restituisce 200 parole ≈ 270 token di output. Ai prezzi illustrativi GPT-4o 2026 (USD 2,50/M input, USD 10/M output): costo input 2.711 / 1.000.000 × 2,50 ≈ 0,0068 USD; costo output 270 / 1.000.000 × 10 ≈ 0,0027 USD. Totale ≈ 0,95 centesimi per chiamata. Tradurre la stessa trascrizione in giapponese (~6.500 token con lo stesso tokenizzatore) e il costo per chiamata triplica all’incirca — senza che il modello svolga alcun ragionamento aggiuntivo.

Quando i conteggi dei token contano operativamente

Al di là del pricing, i token determinano la capacità della finestra di contesto. Un modello da 128.000 token può contenere circa 96.000 parole inglesi, 64.000 righe di Python o 24.000 caratteri giapponesi prima che i contenuti più vecchi vengano eliminati. Le pipeline RAG (retrieval-augmented generation) dovrebbero suddividere i documenti sorgente in finestre da 200-1.000 token per la qualità dell’embedding; blocchi troppo grandi sfocano l’embedding, blocchi troppo piccoli frammentano contenuti semanticamente correlati. Strumenti: tiktoken (OpenAI), @anthropic-ai/tokenizer (Anthropic), AutoTokenizer di Hugging Face (modelli open). Correlati: finestra di contesto, LLM. Approfondimento: Hugging Face — Riepilogo dei tokenizzatori.

Frequently asked questions

Che cos’è un GPT token?
Un token è la più piccola unità elaborata da un LLM — circa 4 caratteri inglesi o 0,75 parole. Il testo viene suddiviso in token tramite un tokenizzatore (es. BPE) prima che il modello lo elabori.
Quanti token usa un paragrafo tipico?
Un paragrafo inglese medio di 100 parole viene tokenizzato in circa 130-140 token. Lo stesso paragrafo in giapponese o cinese può costare 3-6 volte più token perché il tokenizzatore è stato addestrato prevalentemente su testo inglese.
Qual è la differenza tra token di input e token di output?
I token di input sono il prompt inviato al modello; i token di output sono la risposta generata. I token di output costano tipicamente 3-5 volte di più dei token di input nella maggior parte dei piani tariffari commerciali.
Perché la cache del prompt è importante per i costi dei token?
I prefissi di input memorizzati nella cache vengono ricaricati al 10-25% della tariffa normale nelle chiamate ripetute. Strutturare i prompt con istruzioni di sistema stabili all’inizio e contenuto dinamico alla fine massimizza il tasso di hit della cache e può ridurre drasticamente i costi per chiamata.

Related

Published May 14, 2026 · Last reviewed May 31, 2026