Calcolatore del Costo API LLM
Costo per chiamata, proiezione mensile, tutti i principali modelli su un'unica schermata.
I prezzi tra i principali LLM ospitati si estendono su due ordini di grandezza — GPT-4o costa circa 17 volte di più per token di output rispetto a Gemini 1.5 Flash, e Claude Opus è altre 7 volte al di sopra. Scegliere il modello giusto è per metà una questione di budget, per metà una questione di capacità. Incolla un prompt (o digita un conteggio di token se lo hai già dal nostro contatore di token), scegli un profilo di carico di lavoro, e il calcolatore mostra il costo per chiamata, una proiezione mensile e un confronto fianco a fianco di tutti i modelli nella tabella.
Heuristic token estimate (~4 chars/token for prose). Drop a real prompt — system message + user turn + any tool defs — for the closest cost reading.
- Input tokens
- 42
- Output tokens
- 42
- Per call
- $0.000756
- Per month
- $22.68
Claude 3.5 Sonnet — $3.00 / 1M input, $15.00 / 1M output · context 200k. Output ratio 1×. Monthly = per-call × calls/day × 30.
Compare all models
| Model | Provider | Per call | Per month |
|---|---|---|---|
| Gemini 1.5 Flash | <$0.0001 | $0.4725 | |
| Gemini 2.0 Flash | <$0.0001 | $0.6300 | |
| GPT-4o mini | OpenAI | <$0.0001 | $0.9450 |
| Llama 3.3 70B (Together / Fireworks) | Meta | <$0.0001 | $2.22 |
| GPT-3.5 Turbo | OpenAI | <$0.0001 | $2.52 |
| Claude 3.5 Haiku | Anthropic | $0.000202 | $6.05 |
| Gemini 1.5 Pro | $0.000263 | $7.88 | |
| Llama 3.1 405B (Together / Fireworks) | Meta | $0.000294 | $8.82 |
| GPT-4o | OpenAI | $0.000525 | $15.75 |
| o1-mini | OpenAI | $0.00063 | $18.90 |
| Claude Sonnet 4 | Anthropic | $0.000756 | $22.68 |
| Claude 3.5 Sonnet | Anthropic | $0.000756 | $22.68 |
| GPT-4 Turbo | OpenAI | $0.00168 | $50.40 |
| o1 (reasoning) | OpenAI | $0.00315 | $94.50 |
| Claude Opus 4 | Anthropic | $0.00378 | $113.40 |
Pricing as of . Discounts (batch API, prompt caching, enterprise contracts) and fine-tuning surcharges are not applied — check the vendor’s live pricing page before committing to spend.
How to use
Scegli una modalità di input
Incolla il prompt completo (messaggio di sistema + turno utente + definizioni degli strumenti) per un conteggio euristico dei token, oppure passa a 'Specifica token' se conosci già il conteggio da tiktoken o dall'endpoint count_tokens di Anthropic.
Scegli un preset di carico di lavoro
Il rapporto output:input determina gran parte del costo — i token di output sono 3–5 volte più costosi di quelli di input per la maggior parte dei fornitori. Chat ≈ 1×, classificazione ≈ 0,05×, generazione di codice 3×, riassunto 0,2×.
Imposta le chiamate al giorno
Costo per chiamata × chiamate/giorno × 30 = proiezione mensile. Usa la tabella di confronto per vedere quale modello rientra nel budget al tuo livello di traffico.
Copia il confronto
Fai clic su 'Copia come tabella Markdown' per incollare la matrice dei costi fianco a fianco in un documento, ticket o messaggio Slack.
Frequently asked questions
- Perché i miei conteggi di token non corrispondono esattamente?
- Ogni famiglia di modelli utilizza un tokenizer diverso. I modelli più recenti di OpenAI usano o200k_base; GPT-4 Turbo e 3.5 usano cl100k_base; Anthropic fornisce il proprio tokenizer derivato da SentencePiece; Google usa SentencePiece; Llama usa una variante compatibile con tiktoken. La modalità 'Incolla testo' usa un'euristica di 4 caratteri per token che si colloca entro ±10% di qualsiasi tokenizer per testo in inglese, ma può discostarsi di più per codice o script non latini. Per un valore esatto, usa 'Specifica token' con il conteggio del tokenizer di ciascun fornitore.
- Perché il tasso di output è più alto di quello di input?
- I token di output vengono generati sequenzialmente e ciascuno richiede un passaggio completo attraverso il modello — costano più calcolo dei token di input, che possono essere elaborati in batch. I fornitori trasferiscono questo costo: la maggior parte prezza l'output a 3–5 volte il tasso di input. Ecco perché il rapporto output:input è così importante per la spesa totale.
- Sono inclusi gli sconti dell'API batch?
- No. OpenAI, Anthropic e Google offrono endpoint batch con circa il 50% di sconto sul prezzo di listino per i carichi di lavoro non in tempo reale. Se puoi tollerare un'attesa di 24 ore, dimezza i valori mostrati qui. Il caching dei prompt (anche 50–90% di sconto sulla parte memorizzata nella cache) è anch'esso escluso — modella la parte memorizzata nella cache separatamente.
Strumenti correlati
- Visualizzatore Finestra di Contesto LLMVisualizzare e analizzare la finestra di contesto LLM.
- Contatore di Token e Calcolatore di Costo APIContare i token e calcolare i costi delle API AI.
- MutuoRata mensile, interessi totali e costo del mutuo.
- Interesse compostoCrescita del capitale con versamenti regolari.
- ManciaCalcolare la mancia e dividere il conto.
- IVAAggiungere o scorporare l'IVA da un importo.