Skip to content

Contatore di Token e Calcolatore di Costo API

Token nel tuo prompt, euro sulla tua bolletta — entrambi stimati mentre scrivi.

Buğra SözeriStrumenti IA
Updated · Published
Reviewed by Redazione Convertitive

Il conteggio dei token e la spesa API scalano in modo lineare. Conoscere il conteggio in anticipo ti consente di dimensionare correttamente le finestre di contesto, pianificare i costi delle esecuzioni API e individuare i prompt che non ci stanno. Il widget qui sotto stima i token in modo euristico (nessun tokenizer nel browser), applica il risultato ai prezzi attuali per milione per i principali modelli ospitati e fornisce un costo per chiamata basato su un rapporto output/input scelto.

Characters
219
Words
33
Tokens (est.)
55
Style detected
Prose

Per-call API cost

Estimates assume the input above plus an output of length 1× the input.

Input cost
$0.000165
Output cost
$0.000825
Total per call
$0.00099

Claude Sonnet 4.6 pricing — $3.00 / 1M input, $15.00 / 1M output. Context window: 200k tokens.

Token counts are heuristic (~4 chars / token for prose, ~3.5 for code). Real tokenizer output may differ by ±10% — the ‘exact’ count needs the model’s BPE tables, which we don’t ship in the browser.

How to use

  1. Incolla il tuo prompt

    Tutto ciò che invieresti al modello — prompt di sistema, messaggio utente, definizioni di strumenti, ecc. Il conteggio dei token e il rilevamento dello stile si aggiornano mentre scrivi.

  2. Scegli il modello e il rapporto di output

    I token di output costano 3–5× di più dei token di input presso la maggior parte dei fornitori, quindi ottenere il rapporto giusto è importante. 1× è un valore predefinito sicuro per risposte brevi; 0,3× per compiti di classificazione; 3–5× per la generazione di codice.

  3. Leggi la riga dei costi

    Costo di input + costo di output = totale per chiamata. Moltiplica per il volume di richieste atteso per proiettare la spesa mensile.

Frequently asked questions

Perché il conteggio non è esatto?
La tokenizzazione esatta richiede la tabella BPE / SentencePiece del modello stesso. OpenAI include tiktoken; Anthropic e Google includono i propri SDK. Caricare queste tabelle in un browser aggiungerebbe ~10 MB di JavaScript per modello, il che non vale la pena per una stima rapida. L'euristica rimane entro il 10% per il testo in inglese e il codice.
Come viene rilevato lo stile?
Se più del 6% dei caratteri sono simboli tipici del codice o JSON ({ } [ ] < > ; : = ( ) | ", '), lo stile viene classificato come 'codice' e il rapporto caratteri/token scende da 4 a 3,5. Tutto il resto viene trattato come prosa.
I prezzi sono aggiornati?
I prezzi vengono aggiornati periodicamente e riflettono il prezzo di listino pubblico di ciascun fornitore per l'accesso diretto all'API. Non vengono applicati sconti (API batch, caching dei prompt, contratti aziendali). Verifica la pagina dei prezzi del fornitore prima di firmare un contratto.
Cosa significa 'rapporto di output'?
Quanto sarà lunga la risposta del modello rispetto al tuo prompt. Un rapporto di 1× significa che l'output ha circa la stessa lunghezza dell'input. I compiti di classificazione hanno rapporti di ~0,05; la generazione di codice di 2–5×; la riscrittura in formato lungo di 1,5–3×.
Il costo include la finestra di contesto?
Sì. La fatturazione moderna dell'API addebita ogni token nella conversazione, inclusi eventuali prompt di sistema, turni precedenti e definizioni di strumenti. Esegui il tuo prompt completo assemblato attraverso il widget per la stima più accurata.
Che dire del caching dei prompt?
La maggior parte dei principali fornitori offre ora una tariffa scontata (50–90% di sconto) per le parti ripetute di un prompt. Questa calcolatrice non applica sconti di caching perché dipendono dal tasso di successo; per un sistema in produzione, modella la parte in cache separatamente al prezzo di input in cache del fornitore.
Il testo non inglese è più costoso?
Sì, sensibilmente. I tokenizer sono stati addestrati prevalentemente sull'inglese; gli script latini non inglesi pagano un premio del 10–20% in token, e gli script CJK possono pagare 2–4 volte il tasso per carattere. Finché non includiamo un vero tokenizer, considera l'euristica come un limite inferiore per i contenuti non in inglese.

About

Perché token e non caratteri

I grandi modelli linguistici addebitano i token perché questa è l'unità di calcolo. Un tokenizer BPE suddivide il testo in frammenti di sotto-parole: le parole comuni sono spesso un singolo token, le parole rare o composte possono essere diverse. 'Convertitive' ad esempio è tipicamente 4 token, mentre 'the' è 1 — non esiste una regola chiara per carattere o per parola. L'euristica qui è una calibrazione che funziona perché, mediata su abbastanza testo, il rapporto è stabile.

Note sulla pianificazione dei costi

Per un prodotto chat che prevede 100K conversazioni al giorno con ~3K token di input e ~600 token di output per turno alle tariffe GPT-4o: 100.000 × 3.000 × $ 2,50 / 1M = $ 750/giorno di input, 100.000 × 600 × $ 10 / 1M = $ 600/giorno di output. Totale ≈ $ 1.350/giorno o ~$ 40.000/mese. Dimezza con GPT-4o mini, dimezza di nuovo con il caching dei prompt.

Strumenti correlati