Cosa sono i token in un LLM?

I token sono le unità fondamentali di testo elaborate dai modelli linguistici. In inglese, 1.000 token corrispondono a circa 750 parole. I prezzi API vengono quotati per milione di token.

Data study

Prezzi API LLM a giugno 2026: analisi dei costi token input vs output

I token output costano 3-6 volte di più dei token input nella maggior parte dei modelli frontier. Il rapporto conta quanto il prezzo assoluto.

By Buğra SözeriPublished May 31, 2026

Il pricing delle API LLM segue una struttura consistente: si paga separatamente per i token input (il tuo prompt) e i token output (la risposta del modello). I token output sono quasi sempre più costosi di quelli input perché la generazione di ogni token output richiede un forward pass completo attraverso il modello, mentre i token input vengono elaborati in parallelo. Capire il rapporto conta quanto il prezzo principale.

Usa il nostro calcolatore costi LLM per stimare i costi in base alle lunghezze specifiche del tuo prompt e delle risposte usando i prezzi in questa tabella.

Tabella prezzi — giugno 2026

Tutti i prezzi sono in USD per 1 milione di token ($/1M). I prezzi provengono dalla pagina prezzi pubblica di ciascun fornitore a giugno 2026 e sono soggetti a modifiche. Sono mostrati i prezzi API standard (non batch, non cache).

Modello	Fornitore	Input $/1M	Output $/1M	Rapporto output/input	Finestra di contesto
GPT-4o	OpenAI	$2,50	$10,00	4,0×	128K
GPT-4o mini	OpenAI	$0,15	$0,60	4,0×	128K
GPT-4.1	OpenAI	$2,00	$8,00	4,0×	1M
o3	OpenAI	$10,00	$40,00	4,0×	200K
o4-mini	OpenAI	$1,10	$4,40	4,0×	200K
Claude Sonnet 4	Anthropic	$3,00	$15,00	5,0×	200K
Claude Haiku 3.5	Anthropic	$0,80	$4,00	5,0×	200K
Gemini 2.5 Pro	Google	$1,25	$10,00	8,0×	1M
Gemini 2.5 Flash	Google	$0,15	$0,60	4,0×	1M
Gemini 1.5 Flash	Google	$0,075	$0,30	4,0×	1M
Llama 3.3 70B (Together)	Together.ai	$0,18	$0,18	1,0×	128K
Llama 3.1 405B (Together)	Together.ai	$3,50	$3,50	1,0×	128K
Mistral Large 2	Mistral	$2,00	$6,00	3,0×	128K
Mistral Small 3.1	Mistral	$0,10	$0,30	3,0×	128K
Command R+	Cohere	$2,50	$10,00	4,0×	128K

Prezzi verificati dalle pagine dei fornitori a giugno 2026. Controlla sempre la pagina prezzi aggiornata del fornitore prima di impegnarti in un budget di produzione.

Analisi del rapporto output/input

Il rapporto costo output/input rivela la filosofia di pricing di ciascun fornitore. Quattro schemi sono visibili nei dati:

Rapporto 4× (OpenAI, Gemini Flash, Cohere). Il rapporto più comune. Riflette l’asimmetria computazionale della generazione autoregressiva rispetto al prefill parallelo.
Rapporto 5× (Anthropic Claude). Anthropic applica un premio output più elevato, coerente con i benchmark di output medio più lungo e le capacità di extended thinking.
Rapporto 8× (Gemini 2.5 Pro). Il rapporto più alto nella nostra tabella — il premio output di Gemini 2.5 Pro riflette le sue capacità di ragionamento esteso e generazione con contesto lungo.
Rapporto 1× (Meta Llama via Together.ai). I modelli open-weight ospitati su provider di inferenza spesso applicano la stessa tariffa per input e output, trattando i token come una unità di calcolo commodity piuttosto che differenziando per direzione di generazione.

Per i carichi di lavoro in cui l’output è lungo rispetto all’input (es. generazione di documenti, sintesi di codice, riassunti), il tasso dei token output domina il costo totale. Per le pipeline RAG con finestre di contesto ampie e risposte brevi, domina il tasso input.

Costo per 10.000 token

10.000 token corrispondono a circa 7.500 parole di prosa in inglese — un articolo breve, un file di codice medio o una conversazione a più turni. Con 100 token output per 1.000 token input (un tipico rapporto RAG):

Modello	Costo / 10K token input	Costo / 10K token output	Costo per 10K input + 1K output
GPT-4o	$0,025	$0,100	$0,026
GPT-4o mini	$0,0015	$0,006	$0,00156
Claude Sonnet 4	$0,030	$0,150	$0,0315
Gemini 2.5 Flash	$0,0015	$0,006	$0,00156
Gemini 1.5 Flash	$0,00075	$0,003	$0,00078
Llama 3.3 70B (Together)	$0,0018	$0,0018	$0,00198
Mistral Large 2	$0,020	$0,060	$0,026
o3	$0,100	$0,400	$0,104

Usa il calcolatore costi LLM per modellare il tuo rapporto prompt/output reale e confrontare il costo mensile totale tra i fornitori.

Osservazioni principali

Più economico per token (input): Gemini 1.5 Flash a $0,075/1M — meno di un centesimo di cent per 1.000 token.
Più costoso per token (output):o3 a $40/1M output — 533 volte più costoso dell’output di Gemini 1.5 Flash a $0,30/1M.
Miglior parità di costo (input = output): Meta Llama 3.3 70B via Together.ai a $0,18/1M in entrambe le direzioni. Adatto a carichi di lavoro simmetrici.
Miglior costo per RAG con contesto lungo: Gemini 1.5 Flash — sia il prezzo input più basso che una finestra di contesto da 1M token.
Sconti per prompt caching(non mostrati) possono ridurre i costi input effettivi del 50-90% per prompt di sistema ripetuti. Anthropic, OpenAI (Batch API) e Google offrono tutti caching o sconti batch che cambiano materialmente l’economia per l’uso in produzione ad alto volume.

Limitazioni e avvertenze

I prezzi cambiano frequentemente.Il pricing delle API LLM è diminuito di circa 10 volte all’anno per capacità comparabili dal 2023. I valori in questa tabella riflettono i prezzi pubblici a giugno 2026 e potrebbero già essere obsoleti al momento della lettura.
La qualità non è uguale. Un prezzo inferiore per token non significa un costo totale inferiore se il modello richiede prompt più lunghi per prestazioni equivalenti, più tentativi o post-elaborazione.
Throughput e latenza variano. Il basso prezzo di Gemini 1.5 Flash comporta limiti di quota condivisi; il throughput garantito su GPT-4o costa di più per token ma garantisce capacità.
Fine-tuning, embedding e token immagine sono esclusi. Questa tabella copre solo la generazione di testo.

Fonti

Pagina prezzi OpenAI (openai.com/api/pricing); Prezzi API Anthropic (anthropic.com/pricing); Prezzi Google AI Studio e Vertex AI (ai.google.dev/pricing); Prezzi Together.ai (together.ai/pricing); Prezzi Mistral AI (mistral.ai/technology); Prezzi Cohere (cohere.com/pricing). Tutti i prezzi verificati a giugno 2026.

Frequently asked questions

Perché i token output costano più dei token input?: La generazione di ogni token output richiede un forward pass completo attraverso il modello, mentre i token input vengono elaborati in parallelo. Questa asimmetria computazionale si riflette nel prezzo.
Cosa sono i token in un LLM?: I token sono le unità fondamentali di testo elaborate dai modelli linguistici. In inglese, 1.000 token corrispondono a circa 750 parole. I prezzi API vengono quotati per milione di token.

Published May 31, 2026