Guide
Wie die Preisgestaltung von LLM-APIs wirklich funktioniert (und wo sie wehtut)
Ausgabe-Token kosten das 4- bis 5-Fache der Eingabe. Zwischengespeicherte Prompts kosten 10-mal weniger. Die meisten Abrechnungsüberraschungen entstehen durch Missverständnisse dieser beiden Zahlen.
By Buğra SözeriPublished Updated
Jede große LLM-API – OpenAI, Anthropic, Google, Meta-über- Cloud – berechnet pro Token. Die Marketingseiten nennen Preise wie “5 $ pro Million Eingabe-Token, 15 $ pro Million Ausgabe-Token”. Die Rechnung sieht einfach aus. Fünf Stellen, an denen die tatsächliche Rechnung von der einfachen Schätzung abweicht:
1. Ausgabe kostet das 4- bis 5-Fache der Eingabe
Jedes moderne Frontier-Modell berechnet für Ausgabe deutlich mehr als für Eingabe. Typische Verhältnisse zum Zeitpunkt des Schreibens: OpenAI-GPT-4-Familie ~5×, Claude-Familie ~3–5×, Gemini-Familie ~4×. Die Ökonomie ist einfach: Eingabe-Token werden vom kontextverarbeitenden Durchgang des Modells einmal verbraucht; Ausgabe-Token werden einzeln über dutzende oder hunderte Vorwärtsdurchläufe erzeugt.
Praktische Folge: Anwendungen mit langem Kontext und Retrieval-Augmentation (wo Sie viel Kontext hineinstopfen und eine kurze Antwort verlangen) sind pro nützlicher Antwort günstiger als Anwendungen mit langer Generierung (wo das Modell Seiten schreibt). Wenn Ihre Rechnung hoch ist und Sie wenig Ausgabe erzeugen, ist der Eingabe-Ballast der Übeltäter. Wenn Sie viel Ausgabe erzeugen, konzentrieren Sie sich zuerst auf kürzere Ausgaben.
2. Zwischengespeicherte Prompts sind radikal günstiger
OpenAI und Anthropic bieten beide Prompt-Caching: Eingabe-Token, die zu einem kürzlich gesehenen Präfix passen, werden mit 10–90 % Rabatt auf den regulären Eingabepreis berechnet. Der Cache lebt typischerweise 5–10 Minuten. Die Cache-Trefferraten hängen davon ab, wie vorhersehbar Ihre Prompts sind.
Praktische Folge: Gestalten Sie Prompts so, dass das Präfix über Aufrufe hinweg stabil ist. Setzen Sie die Systemanweisungen und jeden statischen Kontext nach oben; setzen Sie die anfragebezogene Variation des Nutzers nach unten. Ein Chatbot mit einem konsistenten System-Prompt kann die Eingaberechnungen über eine mehrteilige Konversation hinweg durch Cache-Treffer um 70–90 % senken.
3. Batch-APIs sind 50 % günstiger
OpenAIs Batch-Endpunkt und Anthropics Message-Batching-API bieten beide 50 % Rabatt auf die Listenpreise im Austausch gegen asynchrone Auslieferung (typischerweise innerhalb von 24 Stunden). Für Workloads, die keine sofortigen Antworten brauchen – nächtliche Datenverarbeitung, Content-Generierungs-Pipelines, Embedding-Backfills – ist der Wechsel zu Batch eine kostenlose Ersparnis von 50 %.
4. Bei Retrieval-Schritten auf kleinere Modelle herabstufen
Ein gängiges Muster in produktiver KI: eine Kette von Modellaufrufen, bei der der erste Schritt “entscheiden, was abgerufen wird” und der zweite “mit dem Abgerufenen antworten” ist. Der Entscheidungsschritt braucht selten das klügste verfügbare Modell – GPT-4o-mini oder Claude Haiku reicht meist völlig. Das Frontier-Modell dem finalen Antwortschritt vorzubehalten, senkt die Pipeline-Kosten typischerweise um 80–90 % bei minimalem Qualitätseinfluss.
5. Die Ausgabelänge aggressiv schätzen
Die größte Einzelquelle für Abrechnungsüberraschungen: Sie nehmen an, das Modell liefere eine kurze Antwort; es liefert eine lange. Ein Sicherheitslimit von “max_tokens: 4096” bedeutet, dass Sie pro Aufruf möglicherweise für 4096 Ausgabe-Token zahlen. Die meisten APIs berechnen, was erzeugt wurde, nicht was angefragt wurde, aber die Gewohnheit, 4096 zuzulassen, setzt die Budgetannahme falsch.
Praktisch: Setzen Sie max_tokens auf etwa das 1,5-Fache der Länge, die Sie tatsächlich erwarten, nicht auf das Maximum, das Sie tolerieren würden. Niedrigere max_tokens-Limits drängen das Modell auch zu kürzeren Antworten (es passt sich anhand des Budgetsignals an). Die Ersparnisse summieren sich.
Das Schätzwerkzeug
Unser KI-Token-Zähler schätzt Eingabe-Token und berechnet die Kosten pro Aufruf über die großen Modellfamilien. Er nutzt Zeichenverhältnis-Heuristiken (innerhalb von ~10 % Genauigkeit für Englisch; weniger genau für Code und nicht-lateinische Schriften), sodass die Schätzung grob, aber für Dimensionierungsentscheidungen nützlich ist. Für exakte Kostenprognosen verwenden Sie die offizielle Tokenizer-Bibliothek des Anbieters.
Durchgerechnetes Beispiel: ein Kundensupport-Chatbot bei 100K Konversationen/Monat
Konkrete Pipeline. Jeder Nutzer-Turn enthält einen 3.500-Token-System-Prompt (Produktdokumentation, Tonrichtlinien, Ablehnungsregeln), eine durchschnittlich 200-Token-Nutzernachricht und eine durchschnittlich 400-Token-Modellantwort. Konversationen haben im Mittel 4 Turns. Pro Konversation:
- Eingabe pro Turn: 3.500 (System) + akkumulierte Historie + 200 (neuer Nutzer) ≈ 3.700 im ersten Turn, wachsend auf ~5.800 bis Turn 4. Durchschnitt pro Turn ~4.750.
- Gesamteingabe/Konversation: 4 × 4.750 = 19.000 Eingabe-Token
- Gesamtausgabe/Konversation: 4 × 400 = 1.600 Ausgabe-Token
Naive Kosten mit Claude Sonnet 4 (3 $ pro Million Eingabe, 15 $ pro Million Ausgabe) bei 100K Konversationen:
- Eingabe: 100.000 × 19.000 × 3 $ / 1M = 5.700 $
- Ausgabe: 100.000 × 1.600 × 15 $ / 1M = 2.400 $
- Gesamt: 8.100 $/Monat
Nun Prompt-Caching anwenden. Der 3.500-Token-System-Prompt ist über alle 100K × 4 = 400K Turns identisch. Mit Anthropics Cache (Cache-Lesevorgänge zu 0,30 $/M, 90 % Rabatt auf zwischengespeicherte Eingabe) zahlen nur die Nutzernachrichten und die wachsende Historie den vollen Preis. Zwischengespeicherter Anteil: 400K × 3.500 × 0,30 $ / 1M = 420 $. Nicht zwischengespeichert: 400K × ~1.250 × 3 $ / 1M = 1.500 $.
- Neue Eingabekosten: 420 $ + 1.500 $ = 1.920 $ (gesenkt von 5.700 $)
- Ausgabe unverändert: 2.400 $
- Neues Gesamt: 4.320 $/Monat
47 % Reduktion mit einer Konfigurationsänderung. Leiten Sie die einfachen 30 % der Konversationen (jene, die nicht das volle Modell brauchen) an Haiku 4.5 zu 1 $/5 $ pro Million, und die Rechnung sinkt um weitere ~1.000 $ auf rund 3.300 $. Die Gesamtersparnis – 59 % – stammt aus Caching und Stufung, von denen keines automatisch geschieht.
Häufige Fehler, die die Rechnung aufblähen
- Die Nutzernachricht an den Anfang des Prompts setzen. Cache-Schlüssel hashen vom Präfix. Wenn Ihre Prompt-Struktur
[Nutzervariation] [statisches System]ist, trifft der Cache nie. Setzen Sie die statischen Teile immer zuerst. max_tokensauf das Modelllimit setzen. Die meisten APIs berechnen die tatsächliche Generierung, nicht das Limit – aber das Modell nutzt das Limit als Längensignal.max_tokens: 4096zu setzen, wenn Sie eine 200-Token-Antwort wollten, erzeugt längere Antworten und eine höhere Rechnung.- Jedes Dokument wiederholt einbetten. Retrieval-Pipelines, die denselben Korpus bei jeder Anfrage neu einbetten, zahlen für Embeddings, die sie bereits haben. Cachen Sie Embeddings in Ihrem Vektorspeicher; die Rechnung sollte nach dem anfänglichen Backfill nahe null sein.
- GPT-4 / Opus / Gemini Pro zur Klassifikation verwenden. Ein 5-Klassen-Intent-Klassifikator braucht fast nie ein Frontier-Modell. Haiku, GPT-4o-mini oder Gemini Flash laufen 10–30× günstiger und erreichen die gleiche Genauigkeit bei Aufgaben unter ~10 Ausgabe-Token.
- Streamen, wenn Sie es nicht müssen. Streaming verursacht keine zusätzlichen Kosten, aber jedes Token wird in dem Moment bezahlt, in dem es erzeugt wird. Wenn Sie mitten im Stream wegen eines nachgelagerten Timeouts abbrechen, schulden Sie dennoch für das Erzeugte. Setzen Sie harte Timeouts pro Anfrage in Ihrem Client.
Wann dieser Ratgeber NICHT gilt
- Selbst gehostete / Open-Weights-Modelle. Llama, Mistral, Qwen auf Ihren eigenen GPUs wandeln die API-Kosten pro Token in GPU-Stunden-Kosten um. Die Ökonomie wird von der Auslastung dominiert (eine zu 4 $/h ungenutzte H100 im Leerlauf wird trotzdem berechnet), nicht von Token. Das richtige Kostenmodell ist GPU-Stunden × Auslastungsgrad, nicht Token × Satz.
- Feinabgestimmte und kapazitätsreservierte Bereitstellungen.OpenAIs Provisioned Throughput Units, Anthropics reservierte Kapazität und Googles “Provisioned Throughput” berechnen alle pauschal pro Monat für garantierte Kapazität. Bei hohem QPS ist das günstiger als pro Token; bei niedrigem QPS deutlich teurer. Der Break-even liegt etwa dort, wo Ihre Token-Rechnung 60 % des reservierten Kapazitäts-SKU überschreiten würde.
- Reine Embedding-Workloads. Embedding- Modelle sind 100–1000× günstiger als Chat-Completion (typischerweise 0,02–0,13 $ pro Million Token für text-embedding-3-small oder voyage-3). Die fünf Hebel oben gelten meist nicht; die Rechnung wird von der Korpusgröße und der Embedding-Frequenz dominiert.
Für griffige Definitionen der Einheiten unter der Abrechnung siehe unseren GPT-Token-Glossareintrag und den Eintrag zum Kontextfenster. Für einen konkreten Kostenvergleich nach Modell behandelt der LLM-Kostenrechner die anbieterbezogenen Tarifblätter, und die OpenAI- Prompt-Caching-Dokumentation erläutert die Cache-Eignungsregeln auf der OpenAI-Seite.
Die ehrliche Zusammenfassung
In kleinem Maßstab (ein paar tausend Aufrufe pro Monat) ist die LLM-Preisgestaltung so günstig, dass nichts hiervon zählt. In mittlerem bis großem Maßstab kann die Lücke zwischen der naiven Kostenschätzung und der tatsächlichen Rechnung leicht das 5- bis 10-Fache betragen, wenn man Ausgabe-Ballast, Cache-Misses und das unnötige Verwenden des Frontier-Modells berücksichtigt. Jeder der fünf Hebel oben kann unabhängig 50–90 % bei bestimmten Aufrufmustern sparen. Prüfen Sie Ihre Prompt-Muster einmal, richten Sie Caching ein, wo die Struktur es erlaubt, und die Rechnung wird vorhersehbar.
Token-Zähl-Tools und ihre Genauigkeit
Jeder große Anbieter verwendet einen anderen Tokenizer. Token im Voraus zu zählen – für Budgetierung oder Kontingentverwaltung – erfordert die passende Bibliothek:
- OpenAI tiktoken. Der kanonische Tokenizer für GPT-4 und frühere OpenAI-Modelle. BPE-Variante, ~4 Zeichen/Token für Englisch, ~2 Zeichen/Token für Code. Verfügbar als Python- und JS-Bibliothek.
- Anthropic-Tokenizer. Claude verwendet einen proprietären BPE-Tokenizer. Die Zählungen werden über die Antwort-Metadaten der API offengelegt; das SDK liefert inzwischen einen clientseitigen Zähler zur Budgetierung mit.
- Google sentencepiece (Gemini). Andere BPE-Variante. Zählungen über den
count_tokens-Endpunkt der Gemini-API. - Zeichenverhältnis-Heuristiken. Zur groben Schätzung über Anbieter hinweg: englischer Text liegt im Mittel bei 4 Zeichen/Token; Code bei 2,5; nicht-lateinische Schriften (Chinesisch, Japanisch, Arabisch) bei 1–2. Verwenden Sie ÷4 für eine schnelle Schätzung und verifizieren Sie dann mit dem Anbieter-Tokenizer vor der Abrechnung.
Tarifblatt pro Million Token (Anfang 2026)
Anbieterpreise zum Zeitpunkt des Schreibens. Sätze ändern sich häufig; bestätigen Sie sie immer gegen die Preisseite des Anbieters, bevor Sie sich auf ein Budget festlegen.
| Modell | Eingabe ($/M Tok) | Ausgabe ($/M Tok) | Zwischengespeicherte Eingabe |
|---|---|---|---|
| OpenAI GPT-4.1 | $2.00 | $8.00 | $0.50 (75 % Rabatt) |
| OpenAI GPT-4.1 mini | $0.40 | $1.60 | $0.10 |
| OpenAI o1 | $15.00 | $60.00 | $7.50 |
| Anthropic Claude Opus 4 | $15.00 | $75.00 | $1.50 (90 % Rabatt) |
| Anthropic Claude Sonnet 4 | $3.00 | $15.00 | $0.30 |
| Anthropic Claude Haiku 4.5 | $1.00 | $5.00 | $0.10 |
| Google Gemini 2.5 Pro | $1.25 | $10.00 | $0.31 |
| Google Gemini 2.5 Flash | $0.30 | $2.50 | $0.075 |
Drei Muster fallen auf. Erstens liegt das Ausgabe-zu-Eingabe-Verhältnis bei nahezu jedem Anbieter bei 4–5× – das ist eine marktweite architektonische Kostenfolge, keine Anbieterstrategie. Zweitens beträgt die Lücke zwischen dem günstigsten und dem teuersten Frontier-Modell 12–15× – für Aufgaben, bei denen Haiku oder Gemini Flash funktionieren, ist die Ersparnis gegenüber Opus dramatisch. Drittens kostet zwischengespeicherte Eingabe typischerweise 10–25 % der regulären Eingabe – Caching ist die wirkungsvollste Einzeloptimierung bei eingabelastigen Workloads.
Für einen durchgerechneten Tarifvergleich über Ihre tatsächlichen Prompt-Formen hinweg nimmt der LLM-Kostenrechner Ihre Schätzungen für Eingabe-/Ausgabe-Token und berechnet monatliche Rechnungen über alle großen Anbieter auf einmal.
Frequently asked questions
- Warum berechnen LLM-APIs mehr für Ausgabe-Token als für Eingabe-Token?
- Eingabe-Token werden in einem einzigen parallelen Durchgang durch das Modell verarbeitet; Ausgabe-Token werden einzeln über dutzende oder hunderte sequenzielle Vorwärtsdurchläufe erzeugt. Die Rechenkosten pro Ausgabe-Token sind 4–5× höher, was sich in der Preisgestaltung bei OpenAI, Anthropic und Google widerspiegelt.
- Was ist Prompt-Caching und wie stark kann es meine LLM-API-Rechnung senken?
- Prompt-Caching speichert den KV-Cache für ein wiederholtes Prompt-Präfix und berechnet bei Cache-Treffern 10–25 % der normalen Eingabesätze. Ein Chatbot mit einem 3.500-Token-System-Prompt, der über 400.000 Turns wiederholt wird, kann die Eingabekosten um 70–90 % senken – die wirkungsvollste Einzeloptimierung für eingabelastige Workloads.
- Wie hoch ist der Batch-API-Rabatt von OpenAI oder Anthropic?
- Sowohl OpenAIs Batch-Endpunkt als auch Anthropics Message-Batching-API bieten 50 % Rabatt auf die Listenpreise im Austausch gegen asynchrone Auslieferung innerhalb von 24 Stunden. Für Datenverarbeitungs-Pipelines und Content-Generierungs-Jobs, die keine sofortigen Antworten benötigen, ist das kostenlose Ersparnis.
- Was kostet etwa der Betrieb eines Kundensupport-Chatbots auf Claude Sonnet 4 bei 100.000 Konversationen pro Monat?
- Ohne Optimierung: etwa 8.100 $/Monat. Mit Prompt-Caching auf dem statischen System-Prompt: etwa 4.320 $/Monat (47 % Reduktion). Mit zusätzlicher Modellstufung (einfachere Konversationen an Haiku leiten) sinkt die Rechnung weiter auf rund 3.300 $/Monat – eine Gesamtersparnis von 59 %.
- Wie viele Token stecken in einem typischen englischen Wort?
- Etwa 1,3 Token pro Wort (rund 4 Zeichen pro Token) für englische Prosa. Code liegt im Mittel bei etwa 2,5 Zeichen pro Token. Nicht-lateinische Schriften wie Chinesisch und Japanisch liegen im Mittel bei 1–2 Zeichen pro Token und sind proportional teurer in der Verarbeitung.
Sources & references
Authoritative references cited by this piece. Verified by Buğra Sözeri on the dates shown and re-checked at every deploy.
- OpenAI — API pricing — Maßgebliche Sätze pro Million Token für GPT-4o, GPT-4o-mini, o1 und Embeddings, verwendet in den Kostenmodellen(as of )
- Anthropic — Claude pricing — Referenz für Claude-Modellsätze einschließlich der im Artikel besprochenen Prompt-Caching-Rabatte(as of )
- Google — Gemini API pricing — Referenz für die Token-Preise von Google Gemini, zitiert im anbieterübergreifenden Vergleich(as of )
- OpenAI — tiktoken tokenizer — Kanonische Referenz für das BPE-Token-Zählmodell, das jeder Dollarangabe zugrunde liegt(as of )
Related
Published May 14, 2026 · Last reviewed May 31, 2026