Data study
LLM-API-Preise im Juni 2026: Aufschlüsselung der Kosten für Input- vs. Output-Token
Output-Token kosten bei den meisten Frontier-Modellen das 3- bis 6-Fache von Input-Token. Das Verhältnis zählt ebenso viel wie der absolute Preis.
By Buğra SözeriPublished
Die LLM-API-Preisbildung folgt einer einheitlichen Struktur: Sie zahlen separat für Input-Token (Ihr Prompt) und Output-Token (die Antwort des Modells). Output-Token sind fast immer teurer als Input-Token, weil die Erzeugung jedes Output-Tokens einen vollständigen Forward-Pass durch das Modell erfordert, während Input-Token parallel verarbeitet werden. Das Verhältnis zu verstehen zählt ebenso viel wie der schlagzeilen- trächtige Preis.
Nutzen Sie unseren LLM-Kosten- rechner, um die Kosten für Ihre spezifischen Prompt- und Antwortlängen anhand der Preise in dieser Tabelle zu schätzen.
Preistabelle — Juni 2026
Alle Preise sind in USD pro 1 Million Token ($/1 Mio.). Die Preise stammen von der öffentlichen Preisseite jedes Anbieters, Stand Juni 2026, und können sich ändern. Es werden die Standard- API-Preise (nicht Batch, nicht gecacht) gezeigt.
| Modell | Anbieter | Input $/1 Mio. | Output $/1 Mio. | Output/Input-Verhältnis | Kontextfenster |
|---|---|---|---|---|---|
| GPT-4o | OpenAI | $2.50 | $10.00 | 4,0× | 128K |
| GPT-4o mini | OpenAI | $0.15 | $0.60 | 4,0× | 128K |
| GPT-4.1 | OpenAI | $2.00 | $8.00 | 4,0× | 1M |
| o3 | OpenAI | $10.00 | $40.00 | 4,0× | 200K |
| o4-mini | OpenAI | $1.10 | $4.40 | 4,0× | 200K |
| Claude Sonnet 4 | Anthropic | $3.00 | $15.00 | 5,0× | 200K |
| Claude Haiku 3.5 | Anthropic | $0.80 | $4.00 | 5,0× | 200K |
| Gemini 2.5 Pro | $1.25 | $10.00 | 8,0× | 1M | |
| Gemini 2.5 Flash | $0.15 | $0.60 | 4,0× | 1M | |
| Gemini 1.5 Flash | $0.075 | $0.30 | 4,0× | 1M | |
| Llama 3.3 70B (Together) | Together.ai | $0.18 | $0.18 | 1,0× | 128K |
| Llama 3.1 405B (Together) | Together.ai | $3.50 | $3.50 | 1,0× | 128K |
| Mistral Large 2 | Mistral | $2.00 | $6.00 | 3,0× | 128K |
| Mistral Small 3.1 | Mistral | $0.10 | $0.30 | 3,0× | 128K |
| Command R+ | Cohere | $2.50 | $10.00 | 4,0× | 128K |
Preise verifiziert von den Anbieter-Preisseiten im Juni 2026. Prüfen Sie stets die aktuelle Preisseite des Anbieters, bevor Sie sich auf ein Produktionsbudget festlegen.
Analyse des Output-/Input-Verhältnisses
Das Output-/Input-Kostenverhältnis offenbart die Preisphilosophie jedes Anbieters. Vier Muster sind in den Daten sichtbar:
- 4×-Verhältnis (OpenAI, Gemini Flash, Cohere). Das häufigste Verhältnis. Spiegelt die rechnerische Asymmetrie zwischen autoregressiver Generierung und parallelem Prefill wider.
- 5×-Verhältnis (Anthropic Claude). Anthropic berechnet einen höheren Output-Aufschlag, konsistent mit ihren Benchmarks für längere durchschnittliche Ausgaben und ihren erweiterten Denkfähigkeiten.
- 8×-Verhältnis (Gemini 2.5 Pro). Das höchste Verhältnis in unserer Tabelle — der Output-Aufschlag von Gemini 2.5 Pro spiegelt seine erweiterten Schlussfolgerungs- und Lang-Kontext- Generierungsfähigkeiten wider.
- 1×-Verhältnis (Meta Llama via Together.ai). Open-Weight-Modelle, gehostet bei Inferenz-Anbietern, berechnen oft denselben Satz für Input und Output und behandeln Token als Commodity-Recheneinheit, statt nach Generierungsrichtung zu differenzieren.
Bei Workloads, in denen der Output relativ zum Input lang ist (z. B. Dokumentenerstellung, Code-Synthese, Zusammenfassung), dominiert die Output-Token-Rate die Gesamtkosten. Bei RAG-Pipelines mit großen Kontextfenstern und kurzen Antworten dominiert die Input- Rate.
Kosten pro 10.000 Token
10.000 Token entsprechen etwa 7.500 Wörtern englischer Prosa — ein kurzer Artikel, eine mittlere Codedatei oder eine mehrstufige Konversation. Bei 100 Token Output pro 1.000 Token Input (ein typisches RAG-artiges Verhältnis):
| Modell | Kosten / 10K Input-Token | Kosten / 10K Output-Token | Kosten pro 10K Input + 1K Output |
|---|---|---|---|
| GPT-4o | $0.025 | $0.100 | $0.026 |
| GPT-4o mini | $0.0015 | $0.006 | $0.00156 |
| Claude Sonnet 4 | $0.030 | $0.150 | $0.0315 |
| Gemini 2.5 Flash | $0.0015 | $0.006 | $0.00156 |
| Gemini 1.5 Flash | $0.00075 | $0.003 | $0.00078 |
| Llama 3.3 70B (Together) | $0.0018 | $0.0018 | $0.00198 |
| Mistral Large 2 | $0.020 | $0.060 | $0.026 |
| o3 | $0.100 | $0.400 | $0.104 |
Nutzen Sie den LLM-Kosten- rechner, um Ihr tatsächliches Prompt-/Output-Verhältnis zu modellieren und die monatlichen Gesamtkosten über Anbieter hinweg zu vergleichen.
Wichtige Beobachtungen
- Günstigste pro Token (Input): Gemini 1.5 Flash mit $0.075/1 Mio. — weniger als ein Hundertstel Cent pro 1.000 Token.
- Teuerste pro Token (Output): o3 mit $40/1 Mio. Output — 533× teurer als Gemini 1.5 Flash Output mit $0.30/1 Mio.
- Beste Kostenparität (Input = Output): Meta Llama 3.3 70B via Together.ai mit $0.18/1 Mio. in beide Richtungen. Geeignet für symmetrische Workloads.
- Beste Kosten für Lang-Kontext-RAG: Gemini 1.5 Flash — sowohl der niedrigste Input-Preis als auch ein 1-Mio.-Token-Kontextfenster.
- Prompt-Caching-Rabatte (nicht gezeigt) können die effektiven Input-Kosten für wiederholte System-Prompts um 50–90 % senken. Anthropic, OpenAI (Batch-API) und Google bieten alle Caching- oder Batch-Rabatte an, die die Ökonomie für den Produktionseinsatz mit hohem Volumen materiell verändern.
Einschränkungen und Vorbehalte
- Preise ändern sich häufig. Die LLM-API-Preise sind seit 2023 für vergleichbare Fähigkeit um ~10× pro Jahr gesunken. Die Werte in dieser Tabelle spiegeln die öffentlichen Preise vom Juni 2026 wider und können zum Zeitpunkt des Lesens bereits veraltet sein.
- Die Qualität ist nicht gleich. Ein niedrigerer Preis pro Token bedeutet keine geringeren Gesamtkosten, wenn das Modell längere Prompts für gleichwertige Aufgabenleistung, mehr Wiederholungen oder Nachbearbeitung erfordert.
- Durchsatz und Latenz variieren. Der niedrige Preis von Gemini 1.5 Flash kommt mit geteilten Quota-Limits; bereitgestellter Durchsatz bei GPT-4o kostet mehr pro Token, garantiert aber Kapazität.
- Fine-Tuning-, Embedding- und Bild-Token sind ausgeschlossen. Diese Tabelle deckt nur Textgenerierung ab.
Quellen
OpenAI pricing page (openai.com/api/pricing); Anthropic API pricing (anthropic.com/pricing); Google AI Studio and Vertex AI pricing (ai.google.dev/pricing); Together.ai pricing (together.ai/pricing); Mistral AI pricing (mistral.ai/technology); Cohere pricing (cohere.com/pricing). Alle Preise verifiziert im Juni 2026.
Related
Published May 31, 2026