Skip to content

Data study

LLM-API-Preise im Juni 2026: Aufschlüsselung der Kosten für Input- vs. Output-Token

Output-Token kosten bei den meisten Frontier-Modellen das 3- bis 6-Fache von Input-Token. Das Verhältnis zählt ebenso viel wie der absolute Preis.

By Published

Die LLM-API-Preisbildung folgt einer einheitlichen Struktur: Sie zahlen separat für Input-Token (Ihr Prompt) und Output-Token (die Antwort des Modells). Output-Token sind fast immer teurer als Input-Token, weil die Erzeugung jedes Output-Tokens einen vollständigen Forward-Pass durch das Modell erfordert, während Input-Token parallel verarbeitet werden. Das Verhältnis zu verstehen zählt ebenso viel wie der schlagzeilen- trächtige Preis.

Nutzen Sie unseren LLM-Kosten- rechner, um die Kosten für Ihre spezifischen Prompt- und Antwortlängen anhand der Preise in dieser Tabelle zu schätzen.

Preistabelle — Juni 2026

Alle Preise sind in USD pro 1 Million Token ($/1 Mio.). Die Preise stammen von der öffentlichen Preisseite jedes Anbieters, Stand Juni 2026, und können sich ändern. Es werden die Standard- API-Preise (nicht Batch, nicht gecacht) gezeigt.

ModellAnbieterInput $/1 Mio.Output $/1 Mio.Output/Input-VerhältnisKontextfenster
GPT-4oOpenAI$2.50$10.004,0×128K
GPT-4o miniOpenAI$0.15$0.604,0×128K
GPT-4.1OpenAI$2.00$8.004,0×1M
o3OpenAI$10.00$40.004,0×200K
o4-miniOpenAI$1.10$4.404,0×200K
Claude Sonnet 4Anthropic$3.00$15.005,0×200K
Claude Haiku 3.5Anthropic$0.80$4.005,0×200K
Gemini 2.5 ProGoogle$1.25$10.008,0×1M
Gemini 2.5 FlashGoogle$0.15$0.604,0×1M
Gemini 1.5 FlashGoogle$0.075$0.304,0×1M
Llama 3.3 70B (Together)Together.ai$0.18$0.181,0×128K
Llama 3.1 405B (Together)Together.ai$3.50$3.501,0×128K
Mistral Large 2Mistral$2.00$6.003,0×128K
Mistral Small 3.1Mistral$0.10$0.303,0×128K
Command R+Cohere$2.50$10.004,0×128K

Preise verifiziert von den Anbieter-Preisseiten im Juni 2026. Prüfen Sie stets die aktuelle Preisseite des Anbieters, bevor Sie sich auf ein Produktionsbudget festlegen.

Analyse des Output-/Input-Verhältnisses

Das Output-/Input-Kostenverhältnis offenbart die Preisphilosophie jedes Anbieters. Vier Muster sind in den Daten sichtbar:

  • 4×-Verhältnis (OpenAI, Gemini Flash, Cohere). Das häufigste Verhältnis. Spiegelt die rechnerische Asymmetrie zwischen autoregressiver Generierung und parallelem Prefill wider.
  • 5×-Verhältnis (Anthropic Claude). Anthropic berechnet einen höheren Output-Aufschlag, konsistent mit ihren Benchmarks für längere durchschnittliche Ausgaben und ihren erweiterten Denkfähigkeiten.
  • 8×-Verhältnis (Gemini 2.5 Pro). Das höchste Verhältnis in unserer Tabelle — der Output-Aufschlag von Gemini 2.5 Pro spiegelt seine erweiterten Schlussfolgerungs- und Lang-Kontext- Generierungsfähigkeiten wider.
  • 1×-Verhältnis (Meta Llama via Together.ai). Open-Weight-Modelle, gehostet bei Inferenz-Anbietern, berechnen oft denselben Satz für Input und Output und behandeln Token als Commodity-Recheneinheit, statt nach Generierungsrichtung zu differenzieren.

Bei Workloads, in denen der Output relativ zum Input lang ist (z. B. Dokumentenerstellung, Code-Synthese, Zusammenfassung), dominiert die Output-Token-Rate die Gesamtkosten. Bei RAG-Pipelines mit großen Kontextfenstern und kurzen Antworten dominiert die Input- Rate.

Kosten pro 10.000 Token

10.000 Token entsprechen etwa 7.500 Wörtern englischer Prosa — ein kurzer Artikel, eine mittlere Codedatei oder eine mehrstufige Konversation. Bei 100 Token Output pro 1.000 Token Input (ein typisches RAG-artiges Verhältnis):

ModellKosten / 10K Input-TokenKosten / 10K Output-TokenKosten pro 10K Input + 1K Output
GPT-4o$0.025$0.100$0.026
GPT-4o mini$0.0015$0.006$0.00156
Claude Sonnet 4$0.030$0.150$0.0315
Gemini 2.5 Flash$0.0015$0.006$0.00156
Gemini 1.5 Flash$0.00075$0.003$0.00078
Llama 3.3 70B (Together)$0.0018$0.0018$0.00198
Mistral Large 2$0.020$0.060$0.026
o3$0.100$0.400$0.104

Nutzen Sie den LLM-Kosten- rechner, um Ihr tatsächliches Prompt-/Output-Verhältnis zu modellieren und die monatlichen Gesamtkosten über Anbieter hinweg zu vergleichen.

Wichtige Beobachtungen

  • Günstigste pro Token (Input): Gemini 1.5 Flash mit $0.075/1 Mio. — weniger als ein Hundertstel Cent pro 1.000 Token.
  • Teuerste pro Token (Output): o3 mit $40/1 Mio. Output — 533× teurer als Gemini 1.5 Flash Output mit $0.30/1 Mio.
  • Beste Kostenparität (Input = Output): Meta Llama 3.3 70B via Together.ai mit $0.18/1 Mio. in beide Richtungen. Geeignet für symmetrische Workloads.
  • Beste Kosten für Lang-Kontext-RAG: Gemini 1.5 Flash — sowohl der niedrigste Input-Preis als auch ein 1-Mio.-Token-Kontextfenster.
  • Prompt-Caching-Rabatte (nicht gezeigt) können die effektiven Input-Kosten für wiederholte System-Prompts um 50–90 % senken. Anthropic, OpenAI (Batch-API) und Google bieten alle Caching- oder Batch-Rabatte an, die die Ökonomie für den Produktionseinsatz mit hohem Volumen materiell verändern.

Einschränkungen und Vorbehalte

  • Preise ändern sich häufig. Die LLM-API-Preise sind seit 2023 für vergleichbare Fähigkeit um ~10× pro Jahr gesunken. Die Werte in dieser Tabelle spiegeln die öffentlichen Preise vom Juni 2026 wider und können zum Zeitpunkt des Lesens bereits veraltet sein.
  • Die Qualität ist nicht gleich. Ein niedrigerer Preis pro Token bedeutet keine geringeren Gesamtkosten, wenn das Modell längere Prompts für gleichwertige Aufgabenleistung, mehr Wiederholungen oder Nachbearbeitung erfordert.
  • Durchsatz und Latenz variieren. Der niedrige Preis von Gemini 1.5 Flash kommt mit geteilten Quota-Limits; bereitgestellter Durchsatz bei GPT-4o kostet mehr pro Token, garantiert aber Kapazität.
  • Fine-Tuning-, Embedding- und Bild-Token sind ausgeschlossen. Diese Tabelle deckt nur Textgenerierung ab.

Quellen

OpenAI pricing page (openai.com/api/pricing); Anthropic API pricing (anthropic.com/pricing); Google AI Studio and Vertex AI pricing (ai.google.dev/pricing); Together.ai pricing (together.ai/pricing); Mistral AI pricing (mistral.ai/technology); Cohere pricing (cohere.com/pricing). Alle Preise verifiziert im Juni 2026.

Related

Published May 31, 2026