Cos’è la cache dei prompt e quanto può ridurre la mia fattura API LLM?

La cache dei prompt memorizza la KV cache per un prefisso del prompt ripetuto e addebita il 10–25% delle tariffe di input normali sugli hit della cache. Un chatbot con un system prompt da 3.500 token ripetuto su 400.000 turni può ridurre i costi di input del 70–90% — la singola ottimizzazione con la leva più alta per i carichi di lavoro ad alto input.

Quanto sconta l’API batch di OpenAI o Anthropic?

Sia l’endpoint batch di OpenAI che l’API di batching dei messaggi di Anthropic offrono il 50% di sconto sul prezzo di listino in cambio della consegna asincrona entro 24 ore. Per le pipeline di elaborazione dati e i lavori di generazione di contenuti che non necessitano di risposte immediate, questo è un risparmio di costo gratuito.

Qual è il costo approssimativo di esecuzione di un chatbot di assistenza clienti su Claude Sonnet 4 a 100.000 conversazioni al mese?

Senza ottimizzazione: circa $8.100/mese. Con la cache dei prompt sul system prompt statico: circa $4.320/mese (riduzione del 47%). L’aggiunta del livello del modello (routing delle conversazioni più semplici a Haiku) riduce ulteriormente la fattura a circa $3.300/mese — un risparmio totale del 59%.

Quanti token ci sono in una parola inglese tipica?

Circa 1,3 token per parola (circa 4 caratteri per token) per la prosa in inglese. Il codice ha in media circa 2,5 caratteri per token. I testi non latini come il cinese e il giapponese hanno in media 1–2 caratteri per token e sono proporzionalmente più costosi da elaborare.

Guide

Come funziona davvero il pricing dei token LLM (e dove ti sorprende)

I token di output costano 4-5× quelli di input. I prompt in cache costano 10× meno. La maggior parte delle sorprese di fatturazione deriva dalla mancata comprensione di questi due numeri.

By Buğra SözeriPublished May 14, 2026

Ogni grande API LLM — OpenAI, Anthropic, Google, Meta via cloud — addebita per token. Le pagine di marketing citano prezzi come “$5 per milione di token di input, $15 per milione di token di output.” La matematica sembra semplice. Cinque posti in cui la fattura effettiva diverge dalla stima semplice:

1. L’output costa 4-5× l’input

Ogni modello frontier moderno addebita significativamente di più per l’output rispetto all’input. Rapporti tipici al momento della scrittura: famiglia OpenAI GPT-4 ~5×, famiglia Claude ~3-5×, famiglia Gemini ~4×. L’economia è semplice: i token di input vengono consumati dal passaggio di elaborazione del contesto del modello una volta; i token di output vengono generati uno alla volta attraverso decine o centinaia di passaggi forward.

Implicazione pratica: le applicazioni di recupero con contesto lungo (dove si inserisce molto contesto e si chiede una risposta breve) sono più economiche per risposta utile rispetto alle applicazioni di generazione lunga (dove il modello scrive pagine). Se la tua fattura è alta e stai generando poco output, il gonfiamento dell’input è il colpevole. Se stai generando molto output, concentrati prima sugli output più brevi.

2. I prompt in cache sono radicalmente più economici

OpenAI e Anthropic offrono entrambi la cache dei prompt: i token di input che corrispondono a un prefisso visto di recente vengono fatturati al 10-90% del prezzo di input normale. La cache vive tipicamente 5-10 minuti. I tassi di hit della cache dipendono da quanto sono prevedibili i tuoi prompt.

Implicazione pratica: progetta i prompt in modo che il prefisso sia stabile tra le chiamate. Metti le istruzioni di sistema e qualsiasi contesto statico in cima; metti la variazione per-richiesta dell’utente in fondo. Un chatbot con un system prompt coerente può vedere le fatture di input scendere del 70-90% dagli hit della cache durante una conversazione a più turni.

3. Le API batch hanno il 50% di sconto

L’endpoint batch di OpenAI e l’API di batching dei messaggi di Anthropic offrono entrambi il 50% di sconto sul prezzo di listino in cambio della consegna asincrona (tipicamente entro 24 ore). Per i carichi di lavoro che non necessitano di risposte immediate — elaborazione notturna dei dati, pipeline di generazione di contenuti, backfill degli embedding — passare al batch è un risparmio del 50% gratuito.

4. Usa modelli di livello inferiore per i passaggi di recupero

Un pattern comune nell’AI in produzione: una catena di chiamate al modello in cui il primo passaggio è “decidere cosa recuperare” e il secondo passaggio è “rispondere usando ciò che è stato recuperato.” Il passaggio di decisione raramente ha bisogno del modello più intelligente disponibile — GPT-4o-mini o Claude Haiku di solito è sufficiente. Riservare il modello di livello frontier per il passaggio della risposta finale in genere riduce il costo della pipeline dell’80-90% con un impatto minimo sulla qualità.

5. Stima la lunghezza dell’output in modo aggressivo

La singola più grande fonte di sorprese nella fatturazione: supponi che il modello produca una risposta breve; ne produce una lunga. Un limite di sicurezza “max_tokens: 4096” significa che potresti pagare per 4096 token di output per chiamata. La maggior parte delle API fattura ciò che è stato generato, non ciò che è stato richiesto, ma l’abitudine di consentire 4096 imposta l’assunzione di budget in modo sbagliato.

In pratica: imposta max_tokens a circa 1,5× la lunghezza che ci si aspetta effettivamente, non il massimo che si tollererebbe. Valori max_tokens più bassi spingono anche il modello a produrre risposte più brevi (si adatta in base al segnale di budget). I risparmi si compongono.

Lo strumento di stima

Il nostro contatore di token AI stima i token di input e calcola il costo per chiamata tra le principali famiglie di modelli. Usa euristiche di rapporto di caratteri (entro ~10% di precisione per l’inglese; meno preciso per il codice e le script non latine) quindi la stima è approssimativa ma utile per le decisioni di dimensionamento. Per la previsione esatta dei costi, usa la libreria del tokenizer ufficiale del fornitore.

Esempio pratico: un chatbot di assistenza clienti a 100K conversazioni/mese

Pipeline concreta. Ogni turno utente include un system prompt da 3.500 token (documenti del prodotto, linee guida sul tono, regole di rifiuto), un messaggio utente medio di 200 token e una risposta media del modello di 400 token. Le conversazioni hanno in media 4 turni. Per conversazione:

Input per turno: 3.500 (sistema) + storia accumulata + 200 (nuovo utente) ≈ 3.700 al primo turno, crescendo a ~5.800 entro il turno 4. Media per turno ~4.750.
Input totale/conversazione: 4 × 4.750 = 19.000 token di input
Output totale/conversazione: 4 × 400 = 1.600 token di output

Costo grezzo con Claude Sonnet 4 ($3 per milione di input, $15 per milione di output) a 100K conversazioni:

Input: 100.000 × 19.000 × $3 / 1M = $5.700
Output: 100.000 × 1.600 × $15 / 1M = $2.400
Totale: $8.100/mese

Ora applica la cache dei prompt. Il system prompt da 3.500 token è identico su tutti i 100K × 4 = 400K turni. Con la cache di Anthropic (letture cache a $0,30/M, sconto del 90% sull’input in cache), solo i messaggi utente e la storia crescente pagano il prezzo pieno.

Nuovo costo di input: $420 + $1.500 = $1.920 (rispetto a $5.700)
Output invariato: $2.400
Nuovo totale: $4.320/mese

Riduzione del 47% con una modifica alla configurazione. Passa il 30% facile delle conversazioni (quelle che non necessitano del modello completo) a Haiku 4.5 a $1/$5 per milione, e la fattura scende di altri ~$1.000 a circa $3.300. Il risparmio totale — 59% — deriva da cache e livelli, nessuno dei quali è automatico.

Errori comuni che gonfiano la fattura

Mettere il messaggio utente in cima al prompt. Le chiavi della cache eseguono l’hash dal prefisso. Se la struttura del prompt è [variazione utente] [sistema statico] la cache non viene mai colpita. Metti sempre le parti statiche prima.
Impostare max_tokens al soffitto del modello. La maggior parte delle API fattura la generazione effettiva, non il limite — ma il modello usa il limite come segnale di lunghezza. Impostare max_tokens: 4096 quando si voleva una risposta da 200 token produce risposte più lunghe e una fattura più alta.
Incorporare ogni documento ripetutamente. Le pipeline di recupero che ri-incorporano lo stesso corpus ad ogni query pagano per embedding già posseduti. Memorizza nella cache gli embedding nel tuo vector store; la fattura dovrebbe essere quasi zero dopo il backfill iniziale.
Usare GPT-4 / Opus / Gemini Pro per la classificazione.Un classificatore di intenti a 5 classi quasi mai ha bisogno di un modello frontier. Haiku, GPT-4o-mini o Gemini Flash costano 10-30× meno e corrispondono all’accuratezza su compiti con meno di ~10 token di output.
Streaming quando non è necessario. Lo streaming non ha costi aggiuntivi, ma ogni token viene pagato nel momento in cui viene generato. Se interrompi a metà stream a causa di un timeout downstream, devi comunque pagare per ciò che è stato prodotto. Imposta timeout rigidi per richiesta nel tuo client.

Quando questa guida NON si applica

Modelli auto-ospitati / a pesi aperti.Llama, Mistral, Qwen sulle proprie GPU convertono il costo API per token in costo per ora-GPU. L’economia è dominata dall’utilizzo (un H100 a $4/ora sprecato in tempo di inattività viene comunque fatturato) e non dai token. Il giusto modello di costo è ore-GPU × duty cycle, non token × tariffa.
Deployment con capacità dedicata e fine-tuning.Le Provisioned Throughput Units di OpenAI, la capacità riservata di Anthropic e il “Provisioned Throughput” di Google fatturano tutti un importo fisso mensile per capacità garantita. Ad alto QPS questo è più economico del per-token; a basso QPS molto più costoso. Il pareggio è approssimativamente il punto in cui la tua fattura per-token supererebbe il 60% dello SKU di capacità riservata.
Carichi di lavoro solo con embedding. I modelli di embedding sono 100-1000× più economici del completamento della chat (tipicamente $0,02-0,13 per milione di token per text-embedding-3-small o voyage-3). Le cinque leve di cui sopra per lo più non si applicano; la fattura è dominata dalla dimensione del corpus e dalla frequenza degli embedding.

Per le definizioni operative delle unità alla base della fatturazione, vedi la nostra voce del glossario token GPT e la voce finestra di contesto. Per un confronto concreto dei costi per modello, il calcolatore dei costi LLM gestisce le schede tariffarie per fornitore.

Il riepilogo onesto

Su piccola scala (qualche migliaio di chiamate al mese) il pricing LLM è così economico che niente di quanto detto sopra conta. Su scala media-grande, il divario tra la stima del costo ingenua e la fattura effettiva può essere facilmente di 5-10× quando si tiene conto del gonfiamento dell’output, dei mancati hit della cache e dell’uso inutilmente di un modello frontier. Ognuna delle cinque leve di cui sopra può indipendentemente risparmiare il 50-90% su pattern di chiamata specifici. Controlla i tuoi pattern di prompt una volta, imposta la cache dove la struttura lo consente, e la fattura diventa prevedibile.

Frequently asked questions

Perché le API LLM fanno pagare di più per i token di output rispetto a quelli di input?: I token di input vengono elaborati in un singolo passaggio parallelo attraverso il modello; i token di output vengono generati uno alla volta attraverso decine o centinaia di passaggi forward sequenziali. Il costo computazionale per token di output è 4–5× più alto, il che si riflette nel pricing di OpenAI, Anthropic e Google.
Cos’è la cache dei prompt e quanto può ridurre la mia fattura API LLM?: La cache dei prompt memorizza la KV cache per un prefisso del prompt ripetuto e addebita il 10–25% delle tariffe di input normali sugli hit della cache. Un chatbot con un system prompt da 3.500 token ripetuto su 400.000 turni può ridurre i costi di input del 70–90% — la singola ottimizzazione con la leva più alta per i carichi di lavoro ad alto input.
Quanto sconta l’API batch di OpenAI o Anthropic?: Sia l’endpoint batch di OpenAI che l’API di batching dei messaggi di Anthropic offrono il 50% di sconto sul prezzo di listino in cambio della consegna asincrona entro 24 ore. Per le pipeline di elaborazione dati e i lavori di generazione di contenuti che non necessitano di risposte immediate, questo è un risparmio di costo gratuito.
Qual è il costo approssimativo di esecuzione di un chatbot di assistenza clienti su Claude Sonnet 4 a 100.000 conversazioni al mese?: Senza ottimizzazione: circa $8.100/mese. Con la cache dei prompt sul system prompt statico: circa $4.320/mese (riduzione del 47%). L’aggiunta del livello del modello (routing delle conversazioni più semplici a Haiku) riduce ulteriormente la fattura a circa $3.300/mese — un risparmio totale del 59%.
Quanti token ci sono in una parola inglese tipica?: Circa 1,3 token per parola (circa 4 caratteri per token) per la prosa in inglese. Il codice ha in media circa 2,5 caratteri per token. I testi non latini come il cinese e il giapponese hanno in media 1–2 caratteri per token e sono proporzionalmente più costosi da elaborare.

Published May 14, 2026