Data study
Prezzi API LLM a giugno 2026: analisi dei costi token input vs output
I token output costano 3-6 volte di più dei token input nella maggior parte dei modelli frontier. Il rapporto conta quanto il prezzo assoluto.
By Buğra SözeriPublished
Il pricing delle API LLM segue una struttura consistente: si paga separatamente per i token input (il tuo prompt) e i token output (la risposta del modello). I token output sono quasi sempre più costosi di quelli input perché la generazione di ogni token output richiede un forward pass completo attraverso il modello, mentre i token input vengono elaborati in parallelo. Capire il rapporto conta quanto il prezzo principale.
Usa il nostro calcolatore costi LLM per stimare i costi in base alle lunghezze specifiche del tuo prompt e delle risposte usando i prezzi in questa tabella.
Tabella prezzi — giugno 2026
Tutti i prezzi sono in USD per 1 milione di token ($/1M). I prezzi provengono dalla pagina prezzi pubblica di ciascun fornitore a giugno 2026 e sono soggetti a modifiche. Sono mostrati i prezzi API standard (non batch, non cache).
| Modello | Fornitore | Input $/1M | Output $/1M | Rapporto output/input | Finestra di contesto |
|---|---|---|---|---|---|
| GPT-4o | OpenAI | $2,50 | $10,00 | 4,0× | 128K |
| GPT-4o mini | OpenAI | $0,15 | $0,60 | 4,0× | 128K |
| GPT-4.1 | OpenAI | $2,00 | $8,00 | 4,0× | 1M |
| o3 | OpenAI | $10,00 | $40,00 | 4,0× | 200K |
| o4-mini | OpenAI | $1,10 | $4,40 | 4,0× | 200K |
| Claude Sonnet 4 | Anthropic | $3,00 | $15,00 | 5,0× | 200K |
| Claude Haiku 3.5 | Anthropic | $0,80 | $4,00 | 5,0× | 200K |
| Gemini 2.5 Pro | $1,25 | $10,00 | 8,0× | 1M | |
| Gemini 2.5 Flash | $0,15 | $0,60 | 4,0× | 1M | |
| Gemini 1.5 Flash | $0,075 | $0,30 | 4,0× | 1M | |
| Llama 3.3 70B (Together) | Together.ai | $0,18 | $0,18 | 1,0× | 128K |
| Llama 3.1 405B (Together) | Together.ai | $3,50 | $3,50 | 1,0× | 128K |
| Mistral Large 2 | Mistral | $2,00 | $6,00 | 3,0× | 128K |
| Mistral Small 3.1 | Mistral | $0,10 | $0,30 | 3,0× | 128K |
| Command R+ | Cohere | $2,50 | $10,00 | 4,0× | 128K |
Prezzi verificati dalle pagine dei fornitori a giugno 2026. Controlla sempre la pagina prezzi aggiornata del fornitore prima di impegnarti in un budget di produzione.
Analisi del rapporto output/input
Il rapporto costo output/input rivela la filosofia di pricing di ciascun fornitore. Quattro schemi sono visibili nei dati:
- Rapporto 4× (OpenAI, Gemini Flash, Cohere). Il rapporto più comune. Riflette l’asimmetria computazionale della generazione autoregressiva rispetto al prefill parallelo.
- Rapporto 5× (Anthropic Claude). Anthropic applica un premio output più elevato, coerente con i benchmark di output medio più lungo e le capacità di extended thinking.
- Rapporto 8× (Gemini 2.5 Pro). Il rapporto più alto nella nostra tabella — il premio output di Gemini 2.5 Pro riflette le sue capacità di ragionamento esteso e generazione con contesto lungo.
- Rapporto 1× (Meta Llama via Together.ai). I modelli open-weight ospitati su provider di inferenza spesso applicano la stessa tariffa per input e output, trattando i token come una unità di calcolo commodity piuttosto che differenziando per direzione di generazione.
Per i carichi di lavoro in cui l’output è lungo rispetto all’input (es. generazione di documenti, sintesi di codice, riassunti), il tasso dei token output domina il costo totale. Per le pipeline RAG con finestre di contesto ampie e risposte brevi, domina il tasso input.
Costo per 10.000 token
10.000 token corrispondono a circa 7.500 parole di prosa in inglese — un articolo breve, un file di codice medio o una conversazione a più turni. Con 100 token output per 1.000 token input (un tipico rapporto RAG):
| Modello | Costo / 10K token input | Costo / 10K token output | Costo per 10K input + 1K output |
|---|---|---|---|
| GPT-4o | $0,025 | $0,100 | $0,026 |
| GPT-4o mini | $0,0015 | $0,006 | $0,00156 |
| Claude Sonnet 4 | $0,030 | $0,150 | $0,0315 |
| Gemini 2.5 Flash | $0,0015 | $0,006 | $0,00156 |
| Gemini 1.5 Flash | $0,00075 | $0,003 | $0,00078 |
| Llama 3.3 70B (Together) | $0,0018 | $0,0018 | $0,00198 |
| Mistral Large 2 | $0,020 | $0,060 | $0,026 |
| o3 | $0,100 | $0,400 | $0,104 |
Usa il calcolatore costi LLM per modellare il tuo rapporto prompt/output reale e confrontare il costo mensile totale tra i fornitori.
Osservazioni principali
- Più economico per token (input): Gemini 1.5 Flash a $0,075/1M — meno di un centesimo di cent per 1.000 token.
- Più costoso per token (output):o3 a $40/1M output — 533 volte più costoso dell’output di Gemini 1.5 Flash a $0,30/1M.
- Miglior parità di costo (input = output): Meta Llama 3.3 70B via Together.ai a $0,18/1M in entrambe le direzioni. Adatto a carichi di lavoro simmetrici.
- Miglior costo per RAG con contesto lungo: Gemini 1.5 Flash — sia il prezzo input più basso che una finestra di contesto da 1M token.
- Sconti per prompt caching(non mostrati) possono ridurre i costi input effettivi del 50-90% per prompt di sistema ripetuti. Anthropic, OpenAI (Batch API) e Google offrono tutti caching o sconti batch che cambiano materialmente l’economia per l’uso in produzione ad alto volume.
Limitazioni e avvertenze
- I prezzi cambiano frequentemente.Il pricing delle API LLM è diminuito di circa 10 volte all’anno per capacità comparabili dal 2023. I valori in questa tabella riflettono i prezzi pubblici a giugno 2026 e potrebbero già essere obsoleti al momento della lettura.
- La qualità non è uguale. Un prezzo inferiore per token non significa un costo totale inferiore se il modello richiede prompt più lunghi per prestazioni equivalenti, più tentativi o post-elaborazione.
- Throughput e latenza variano. Il basso prezzo di Gemini 1.5 Flash comporta limiti di quota condivisi; il throughput garantito su GPT-4o costa di più per token ma garantisce capacità.
- Fine-tuning, embedding e token immagine sono esclusi. Questa tabella copre solo la generazione di testo.
Fonti
Pagina prezzi OpenAI (openai.com/api/pricing); Prezzi API Anthropic (anthropic.com/pricing); Prezzi Google AI Studio e Vertex AI (ai.google.dev/pricing); Prezzi Together.ai (together.ai/pricing); Prezzi Mistral AI (mistral.ai/technology); Prezzi Cohere (cohere.com/pricing). Tutti i prezzi verificati a giugno 2026.
Frequently asked questions
- Perché i token output costano più dei token input?
- La generazione di ogni token output richiede un forward pass completo attraverso il modello, mentre i token input vengono elaborati in parallelo. Questa asimmetria computazionale si riflette nel prezzo.
- Cosa sono i token in un LLM?
- I token sono le unità fondamentali di testo elaborate dai modelli linguistici. In inglese, 1.000 token corrispondono a circa 750 parole. I prezzi API vengono quotati per milione di token.
Related
Published May 31, 2026