Skip to content

Data study

Prezzi API LLM a giugno 2026: analisi dei costi token input vs output

I token output costano 3-6 volte di più dei token input nella maggior parte dei modelli frontier. Il rapporto conta quanto il prezzo assoluto.

By Published

Il pricing delle API LLM segue una struttura consistente: si paga separatamente per i token input (il tuo prompt) e i token output (la risposta del modello). I token output sono quasi sempre più costosi di quelli input perché la generazione di ogni token output richiede un forward pass completo attraverso il modello, mentre i token input vengono elaborati in parallelo. Capire il rapporto conta quanto il prezzo principale.

Usa il nostro calcolatore costi LLM per stimare i costi in base alle lunghezze specifiche del tuo prompt e delle risposte usando i prezzi in questa tabella.

Tabella prezzi — giugno 2026

Tutti i prezzi sono in USD per 1 milione di token ($/1M). I prezzi provengono dalla pagina prezzi pubblica di ciascun fornitore a giugno 2026 e sono soggetti a modifiche. Sono mostrati i prezzi API standard (non batch, non cache).

ModelloFornitoreInput $/1MOutput $/1MRapporto output/inputFinestra di contesto
GPT-4oOpenAI$2,50$10,004,0×128K
GPT-4o miniOpenAI$0,15$0,604,0×128K
GPT-4.1OpenAI$2,00$8,004,0×1M
o3OpenAI$10,00$40,004,0×200K
o4-miniOpenAI$1,10$4,404,0×200K
Claude Sonnet 4Anthropic$3,00$15,005,0×200K
Claude Haiku 3.5Anthropic$0,80$4,005,0×200K
Gemini 2.5 ProGoogle$1,25$10,008,0×1M
Gemini 2.5 FlashGoogle$0,15$0,604,0×1M
Gemini 1.5 FlashGoogle$0,075$0,304,0×1M
Llama 3.3 70B (Together)Together.ai$0,18$0,181,0×128K
Llama 3.1 405B (Together)Together.ai$3,50$3,501,0×128K
Mistral Large 2Mistral$2,00$6,003,0×128K
Mistral Small 3.1Mistral$0,10$0,303,0×128K
Command R+Cohere$2,50$10,004,0×128K

Prezzi verificati dalle pagine dei fornitori a giugno 2026. Controlla sempre la pagina prezzi aggiornata del fornitore prima di impegnarti in un budget di produzione.

Analisi del rapporto output/input

Il rapporto costo output/input rivela la filosofia di pricing di ciascun fornitore. Quattro schemi sono visibili nei dati:

  • Rapporto 4× (OpenAI, Gemini Flash, Cohere). Il rapporto più comune. Riflette l’asimmetria computazionale della generazione autoregressiva rispetto al prefill parallelo.
  • Rapporto 5× (Anthropic Claude). Anthropic applica un premio output più elevato, coerente con i benchmark di output medio più lungo e le capacità di extended thinking.
  • Rapporto 8× (Gemini 2.5 Pro). Il rapporto più alto nella nostra tabella — il premio output di Gemini 2.5 Pro riflette le sue capacità di ragionamento esteso e generazione con contesto lungo.
  • Rapporto 1× (Meta Llama via Together.ai). I modelli open-weight ospitati su provider di inferenza spesso applicano la stessa tariffa per input e output, trattando i token come una unità di calcolo commodity piuttosto che differenziando per direzione di generazione.

Per i carichi di lavoro in cui l’output è lungo rispetto all’input (es. generazione di documenti, sintesi di codice, riassunti), il tasso dei token output domina il costo totale. Per le pipeline RAG con finestre di contesto ampie e risposte brevi, domina il tasso input.

Costo per 10.000 token

10.000 token corrispondono a circa 7.500 parole di prosa in inglese — un articolo breve, un file di codice medio o una conversazione a più turni. Con 100 token output per 1.000 token input (un tipico rapporto RAG):

ModelloCosto / 10K token inputCosto / 10K token outputCosto per 10K input + 1K output
GPT-4o$0,025$0,100$0,026
GPT-4o mini$0,0015$0,006$0,00156
Claude Sonnet 4$0,030$0,150$0,0315
Gemini 2.5 Flash$0,0015$0,006$0,00156
Gemini 1.5 Flash$0,00075$0,003$0,00078
Llama 3.3 70B (Together)$0,0018$0,0018$0,00198
Mistral Large 2$0,020$0,060$0,026
o3$0,100$0,400$0,104

Usa il calcolatore costi LLM per modellare il tuo rapporto prompt/output reale e confrontare il costo mensile totale tra i fornitori.

Osservazioni principali

  • Più economico per token (input): Gemini 1.5 Flash a $0,075/1M — meno di un centesimo di cent per 1.000 token.
  • Più costoso per token (output):o3 a $40/1M output — 533 volte più costoso dell’output di Gemini 1.5 Flash a $0,30/1M.
  • Miglior parità di costo (input = output): Meta Llama 3.3 70B via Together.ai a $0,18/1M in entrambe le direzioni. Adatto a carichi di lavoro simmetrici.
  • Miglior costo per RAG con contesto lungo: Gemini 1.5 Flash — sia il prezzo input più basso che una finestra di contesto da 1M token.
  • Sconti per prompt caching(non mostrati) possono ridurre i costi input effettivi del 50-90% per prompt di sistema ripetuti. Anthropic, OpenAI (Batch API) e Google offrono tutti caching o sconti batch che cambiano materialmente l’economia per l’uso in produzione ad alto volume.

Limitazioni e avvertenze

  • I prezzi cambiano frequentemente.Il pricing delle API LLM è diminuito di circa 10 volte all’anno per capacità comparabili dal 2023. I valori in questa tabella riflettono i prezzi pubblici a giugno 2026 e potrebbero già essere obsoleti al momento della lettura.
  • La qualità non è uguale. Un prezzo inferiore per token non significa un costo totale inferiore se il modello richiede prompt più lunghi per prestazioni equivalenti, più tentativi o post-elaborazione.
  • Throughput e latenza variano. Il basso prezzo di Gemini 1.5 Flash comporta limiti di quota condivisi; il throughput garantito su GPT-4o costa di più per token ma garantisce capacità.
  • Fine-tuning, embedding e token immagine sono esclusi. Questa tabella copre solo la generazione di testo.

Fonti

Pagina prezzi OpenAI (openai.com/api/pricing); Prezzi API Anthropic (anthropic.com/pricing); Prezzi Google AI Studio e Vertex AI (ai.google.dev/pricing); Prezzi Together.ai (together.ai/pricing); Prezzi Mistral AI (mistral.ai/technology); Prezzi Cohere (cohere.com/pricing). Tutti i prezzi verificati a giugno 2026.

Frequently asked questions

Perché i token output costano più dei token input?
La generazione di ogni token output richiede un forward pass completo attraverso il modello, mentre i token input vengono elaborati in parallelo. Questa asimmetria computazionale si riflette nel prezzo.
Cosa sono i token in un LLM?
I token sono le unità fondamentali di testo elaborate dai modelli linguistici. In inglese, 1.000 token corrispondono a circa 750 parole. I prezzi API vengono quotati per milione di token.

Related

Published May 31, 2026