Data study

LLM-API-Preise im Juni 2026: Aufschlüsselung der Kosten für Input- vs. Output-Token

Output-Token kosten bei den meisten Frontier-Modellen das 3- bis 6-Fache von Input-Token. Das Verhältnis zählt ebenso viel wie der absolute Preis.

By Buğra SözeriPublished May 31, 2026

Die LLM-API-Preisbildung folgt einer einheitlichen Struktur: Sie zahlen separat für Input-Token (Ihr Prompt) und Output-Token (die Antwort des Modells). Output-Token sind fast immer teurer als Input-Token, weil die Erzeugung jedes Output-Tokens einen vollständigen Forward-Pass durch das Modell erfordert, während Input-Token parallel verarbeitet werden. Das Verhältnis zu verstehen zählt ebenso viel wie der schlagzeilen- trächtige Preis.

Nutzen Sie unseren LLM-Kosten- rechner, um die Kosten für Ihre spezifischen Prompt- und Antwortlängen anhand der Preise in dieser Tabelle zu schätzen.

Preistabelle — Juni 2026

Alle Preise sind in USD pro 1 Million Token ($/1 Mio.). Die Preise stammen von der öffentlichen Preisseite jedes Anbieters, Stand Juni 2026, und können sich ändern. Es werden die Standard- API-Preise (nicht Batch, nicht gecacht) gezeigt.

Modell	Anbieter	Input $/1 Mio.	Output $/1 Mio.	Output/Input-Verhältnis	Kontextfenster
GPT-4o	OpenAI	$2.50	$10.00	4,0×	128K
GPT-4o mini	OpenAI	$0.15	$0.60	4,0×	128K
GPT-4.1	OpenAI	$2.00	$8.00	4,0×	1M
o3	OpenAI	$10.00	$40.00	4,0×	200K
o4-mini	OpenAI	$1.10	$4.40	4,0×	200K
Claude Sonnet 4	Anthropic	$3.00	$15.00	5,0×	200K
Claude Haiku 3.5	Anthropic	$0.80	$4.00	5,0×	200K
Gemini 2.5 Pro	Google	$1.25	$10.00	8,0×	1M
Gemini 2.5 Flash	Google	$0.15	$0.60	4,0×	1M
Gemini 1.5 Flash	Google	$0.075	$0.30	4,0×	1M
Llama 3.3 70B (Together)	Together.ai	$0.18	$0.18	1,0×	128K
Llama 3.1 405B (Together)	Together.ai	$3.50	$3.50	1,0×	128K
Mistral Large 2	Mistral	$2.00	$6.00	3,0×	128K
Mistral Small 3.1	Mistral	$0.10	$0.30	3,0×	128K
Command R+	Cohere	$2.50	$10.00	4,0×	128K

Preise verifiziert von den Anbieter-Preisseiten im Juni 2026. Prüfen Sie stets die aktuelle Preisseite des Anbieters, bevor Sie sich auf ein Produktionsbudget festlegen.

Analyse des Output-/Input-Verhältnisses

Das Output-/Input-Kostenverhältnis offenbart die Preisphilosophie jedes Anbieters. Vier Muster sind in den Daten sichtbar:

4×-Verhältnis (OpenAI, Gemini Flash, Cohere). Das häufigste Verhältnis. Spiegelt die rechnerische Asymmetrie zwischen autoregressiver Generierung und parallelem Prefill wider.
5×-Verhältnis (Anthropic Claude). Anthropic berechnet einen höheren Output-Aufschlag, konsistent mit ihren Benchmarks für längere durchschnittliche Ausgaben und ihren erweiterten Denkfähigkeiten.
8×-Verhältnis (Gemini 2.5 Pro). Das höchste Verhältnis in unserer Tabelle — der Output-Aufschlag von Gemini 2.5 Pro spiegelt seine erweiterten Schlussfolgerungs- und Lang-Kontext- Generierungsfähigkeiten wider.
1×-Verhältnis (Meta Llama via Together.ai). Open-Weight-Modelle, gehostet bei Inferenz-Anbietern, berechnen oft denselben Satz für Input und Output und behandeln Token als Commodity-Recheneinheit, statt nach Generierungsrichtung zu differenzieren.

Bei Workloads, in denen der Output relativ zum Input lang ist (z. B. Dokumentenerstellung, Code-Synthese, Zusammenfassung), dominiert die Output-Token-Rate die Gesamtkosten. Bei RAG-Pipelines mit großen Kontextfenstern und kurzen Antworten dominiert die Input- Rate.

Kosten pro 10.000 Token

10.000 Token entsprechen etwa 7.500 Wörtern englischer Prosa — ein kurzer Artikel, eine mittlere Codedatei oder eine mehrstufige Konversation. Bei 100 Token Output pro 1.000 Token Input (ein typisches RAG-artiges Verhältnis):

Modell	Kosten / 10K Input-Token	Kosten / 10K Output-Token	Kosten pro 10K Input + 1K Output
GPT-4o	$0.025	$0.100	$0.026
GPT-4o mini	$0.0015	$0.006	$0.00156
Claude Sonnet 4	$0.030	$0.150	$0.0315
Gemini 2.5 Flash	$0.0015	$0.006	$0.00156
Gemini 1.5 Flash	$0.00075	$0.003	$0.00078
Llama 3.3 70B (Together)	$0.0018	$0.0018	$0.00198
Mistral Large 2	$0.020	$0.060	$0.026
o3	$0.100	$0.400	$0.104

Nutzen Sie den LLM-Kosten- rechner, um Ihr tatsächliches Prompt-/Output-Verhältnis zu modellieren und die monatlichen Gesamtkosten über Anbieter hinweg zu vergleichen.

Wichtige Beobachtungen

Günstigste pro Token (Input): Gemini 1.5 Flash mit $0.075/1 Mio. — weniger als ein Hundertstel Cent pro 1.000 Token.
Teuerste pro Token (Output): o3 mit $40/1 Mio. Output — 533× teurer als Gemini 1.5 Flash Output mit $0.30/1 Mio.
Beste Kostenparität (Input = Output): Meta Llama 3.3 70B via Together.ai mit $0.18/1 Mio. in beide Richtungen. Geeignet für symmetrische Workloads.
Beste Kosten für Lang-Kontext-RAG: Gemini 1.5 Flash — sowohl der niedrigste Input-Preis als auch ein 1-Mio.-Token-Kontextfenster.
Prompt-Caching-Rabatte (nicht gezeigt) können die effektiven Input-Kosten für wiederholte System-Prompts um 50–90 % senken. Anthropic, OpenAI (Batch-API) und Google bieten alle Caching- oder Batch-Rabatte an, die die Ökonomie für den Produktionseinsatz mit hohem Volumen materiell verändern.

Einschränkungen und Vorbehalte

Preise ändern sich häufig. Die LLM-API-Preise sind seit 2023 für vergleichbare Fähigkeit um ~10× pro Jahr gesunken. Die Werte in dieser Tabelle spiegeln die öffentlichen Preise vom Juni 2026 wider und können zum Zeitpunkt des Lesens bereits veraltet sein.
Die Qualität ist nicht gleich. Ein niedrigerer Preis pro Token bedeutet keine geringeren Gesamtkosten, wenn das Modell längere Prompts für gleichwertige Aufgabenleistung, mehr Wiederholungen oder Nachbearbeitung erfordert.
Durchsatz und Latenz variieren. Der niedrige Preis von Gemini 1.5 Flash kommt mit geteilten Quota-Limits; bereitgestellter Durchsatz bei GPT-4o kostet mehr pro Token, garantiert aber Kapazität.
Fine-Tuning-, Embedding- und Bild-Token sind ausgeschlossen. Diese Tabelle deckt nur Textgenerierung ab.

Quellen

OpenAI pricing page (openai.com/api/pricing); Anthropic API pricing (anthropic.com/pricing); Google AI Studio and Vertex AI pricing (ai.google.dev/pricing); Together.ai pricing (together.ai/pricing); Mistral AI pricing (mistral.ai/technology); Cohere pricing (cohere.com/pricing). Alle Preise verifiziert im Juni 2026.

Published May 31, 2026