Perché i miei conteggi di token non corrispondono esattamente?

Ogni famiglia di modelli utilizza un tokenizer diverso. I modelli più recenti di OpenAI usano o200k_base; GPT-4 Turbo e 3.5 usano cl100k_base; Anthropic fornisce il proprio tokenizer derivato da SentencePiece; Google usa SentencePiece; Llama usa una variante compatibile con tiktoken. La modalità 'Incolla testo' usa un'euristica di 4 caratteri per token che si colloca entro ±10% di qualsiasi tokenizer per testo in inglese, ma può discostarsi di più per codice o script non latini. Per un valore esatto, usa 'Specifica token' con il conteggio del tokenizer di ciascun fornitore.

Perché il tasso di output è più alto di quello di input?

I token di output vengono generati sequenzialmente e ciascuno richiede un passaggio completo attraverso il modello — costano più calcolo dei token di input, che possono essere elaborati in batch. I fornitori trasferiscono questo costo: la maggior parte prezza l'output a 3–5 volte il tasso di input. Ecco perché il rapporto output:input è così importante per la spesa totale.

Sono inclusi gli sconti dell'API batch?

No. OpenAI, Anthropic e Google offrono endpoint batch con circa il 50% di sconto sul prezzo di listino per i carichi di lavoro non in tempo reale. Se puoi tollerare un'attesa di 24 ore, dimezza i valori mostrati qui. Il caching dei prompt (anche 50–90% di sconto sulla parte memorizzata nella cache) è anch'esso escluso — modella la parte memorizzata nella cache separatamente.

Calcolatore del Costo API LLM

Costo per chiamata, proiezione mensile, tutti i principali modelli su un'unica schermata.

Buğra SözeriIA

Updated June 10, 2026 · Published June 10, 2026

Reviewed by Convertitive

I prezzi tra i principali LLM ospitati si estendono su due ordini di grandezza — GPT-4o costa circa 17 volte di più per token di output rispetto a Gemini 1.5 Flash, e Claude Opus è altre 7 volte al di sopra. Scegliere il modello giusto è per metà una questione di budget, per metà una questione di capacità. Incolla un prompt (o digita un conteggio di token se lo hai già dal nostro contatore di token), scegli un profilo di carico di lavoro, e il calcolatore mostra il costo per chiamata, una proiezione mensile e un confronto fianco a fianco di tutti i modelli nella tabella.

Prompt text

Heuristic token estimate (~4 chars/token for prose). Drop a real prompt — system message + user turn + any tool defs — for the closest cost reading.

Workload preset

Model

Calls per day

Input tokens: 42
Output tokens: 42
Per call: $0.000756
Per month: $22.68

Claude 3.5 Sonnet — $3.00 / 1M input, $15.00 / 1M output · context 200k. Output ratio 1×. Monthly = per-call × calls/day × 30.

Compare all models

Model	Provider	Per call	Per month
Gemini 1.5 Flash	Google	<$0.0001	$0.4725
Gemini 2.0 Flash	Google	<$0.0001	$0.6300
GPT-4o mini	OpenAI	<$0.0001	$0.9450
Llama 3.3 70B (Together / Fireworks)	Meta	<$0.0001	$2.22
GPT-3.5 Turbo	OpenAI	<$0.0001	$2.52
Claude 3.5 Haiku	Anthropic	$0.000202	$6.05
Gemini 1.5 Pro	Google	$0.000263	$7.88
Llama 3.1 405B (Together / Fireworks)	Meta	$0.000294	$8.82
GPT-4o	OpenAI	$0.000525	$15.75
o1-mini	OpenAI	$0.00063	$18.90
Claude Sonnet 4	Anthropic	$0.000756	$22.68
Claude 3.5 Sonnet	Anthropic	$0.000756	$22.68
GPT-4 Turbo	OpenAI	$0.00168	$50.40
o1 (reasoning)	OpenAI	$0.00315	$94.50
Claude Opus 4	Anthropic	$0.00378	$113.40

Pricing as of 2026-05-30. Discounts (batch API, prompt caching, enterprise contracts) and fine-tuning surcharges are not applied — check the vendor’s live pricing page before committing to spend.

How to use

Scegli una modalità di input
Incolla il prompt completo (messaggio di sistema + turno utente + definizioni degli strumenti) per un conteggio euristico dei token, oppure passa a 'Specifica token' se conosci già il conteggio da tiktoken o dall'endpoint count_tokens di Anthropic.
Scegli un preset di carico di lavoro
Il rapporto output:input determina gran parte del costo — i token di output sono 3–5 volte più costosi di quelli di input per la maggior parte dei fornitori. Chat ≈ 1×, classificazione ≈ 0,05×, generazione di codice 3×, riassunto 0,2×.
Imposta le chiamate al giorno
Costo per chiamata × chiamate/giorno × 30 = proiezione mensile. Usa la tabella di confronto per vedere quale modello rientra nel budget al tuo livello di traffico.
Copia il confronto
Fai clic su 'Copia come tabella Markdown' per incollare la matrice dei costi fianco a fianco in un documento, ticket o messaggio Slack.

Frequently asked questions

Perché i miei conteggi di token non corrispondono esattamente?: Ogni famiglia di modelli utilizza un tokenizer diverso. I modelli più recenti di OpenAI usano o200k_base; GPT-4 Turbo e 3.5 usano cl100k_base; Anthropic fornisce il proprio tokenizer derivato da SentencePiece; Google usa SentencePiece; Llama usa una variante compatibile con tiktoken. La modalità 'Incolla testo' usa un'euristica di 4 caratteri per token che si colloca entro ±10% di qualsiasi tokenizer per testo in inglese, ma può discostarsi di più per codice o script non latini. Per un valore esatto, usa 'Specifica token' con il conteggio del tokenizer di ciascun fornitore.
Perché il tasso di output è più alto di quello di input?: I token di output vengono generati sequenzialmente e ciascuno richiede un passaggio completo attraverso il modello — costano più calcolo dei token di input, che possono essere elaborati in batch. I fornitori trasferiscono questo costo: la maggior parte prezza l'output a 3–5 volte il tasso di input. Ecco perché il rapporto output:input è così importante per la spesa totale.
Sono inclusi gli sconti dell'API batch?: No. OpenAI, Anthropic e Google offrono endpoint batch con circa il 50% di sconto sul prezzo di listino per i carichi di lavoro non in tempo reale. Se puoi tollerare un'attesa di 24 ore, dimezza i valori mostrati qui. Il caching dei prompt (anche 50–90% di sconto sulla parte memorizzata nella cache) è anch'esso escluso — modella la parte memorizzata nella cache separatamente.

Calcolatore del Costo API LLM

Compare all models

How to use

Scegli una modalità di input

Scegli un preset di carico di lavoro

Imposta le chiamate al giorno

Copia il confronto

Frequently asked questions

Strumenti correlati