Warum stimmen meine Token-Zählungen nicht exakt überein?

Jede Modellfamilie verwendet einen anderen Tokenizer. OpenAIs neuere Modelle verwenden o200k_base; GPT-4 Turbo und 3.5 verwenden cl100k_base; Anthropic liefert seinen eigenen SentencePiece-abgeleiteten Tokenizer; Google verwendet SentencePiece; Llama verwendet eine tiktoken-kompatible Variante. Der Modus 'Text einfügen' verwendet eine 4-Zeichen-pro-Token-Heuristik, die für englischen Text innerhalb von ±10% aller dieser Tokenizer liegt, aber bei Code oder nicht-lateinischen Schriften stärker abweichen kann. Für einen exakten Wert verwenden Sie 'Token angeben' mit der Zählung aus dem eigenen Tokenizer des jeweiligen Anbieters.

Warum ist die Ausgaberate höher als die Eingaberate?

Ausgabe-Token werden sequenziell generiert, und jeder erfordert einen vollständigen Forward-Pass durch das Modell — sie kosten mehr Rechenleistung als Eingabe-Token, die gebündelt verarbeitet werden können. Anbieter geben das weiter: Die meisten berechnen für Ausgaben das 3–5-Fache der Eingaberate. Deshalb ist das Ausgabe-Eingabe-Verhältnis so wichtig für die Gesamtausgaben.

Sind Batch-API-Rabatte enthalten?

Nein. OpenAI, Anthropic und Google bieten Batch-Endpunkte mit etwa 50% Rabatt auf den Listenpreis für nicht-Echtzeit-Workloads an. Wenn Sie eine 24-stündige Bearbeitungszeit tolerieren können, halbieren Sie die hier gezeigten Werte. Prompt-Caching (ebenfalls 50–90% Rabatt auf den gecachten Anteil) ist ebenso ausgeschlossen — modellieren Sie den gecachten Anteil separat.

LLM API Kostenrechner

Kosten pro Aufruf, Monatsprojektion, alle wichtigen Modelle auf einem Bildschirm.

Buğra SözeriKI

Updated June 10, 2026 · Published June 10, 2026

Reviewed by Convertitive

Die Preise der wichtigsten gehosteten LLMs erstrecken sich über zwei Größenordnungen — GPT-4o kostet pro Ausgabe-Token etwa 17-mal mehr als Gemini 1.5 Flash, und Claude Opus liegt nochmals 7-mal darüber. Das richtige Modell zu wählen ist halb Budgetfrage, halb Leistungsfrage. Fügen Sie einen Prompt ein (oder geben Sie eine Token-Anzahl ein, wenn Sie diese bereits aus unserem Token-Zähler kennen), wählen Sie ein Workload-Profil, und der Rechner zeigt Kosten pro Aufruf, eine Monatsprojektion sowie einen Modell-für-Modell- Vergleich aller Einträge in der Tabelle.

Prompt text

Heuristic token estimate (~4 chars/token for prose). Drop a real prompt — system message + user turn + any tool defs — for the closest cost reading.

Workload preset

Model

Calls per day

Input tokens: 42
Output tokens: 42
Per call: $0.000756
Per month: $22.68

Claude 3.5 Sonnet — $3.00 / 1M input, $15.00 / 1M output · context 200k. Output ratio 1×. Monthly = per-call × calls/day × 30.

Compare all models

Model	Provider	Per call	Per month
Gemini 1.5 Flash	Google	<$0.0001	$0.4725
Gemini 2.0 Flash	Google	<$0.0001	$0.6300
GPT-4o mini	OpenAI	<$0.0001	$0.9450
Llama 3.3 70B (Together / Fireworks)	Meta	<$0.0001	$2.22
GPT-3.5 Turbo	OpenAI	<$0.0001	$2.52
Claude 3.5 Haiku	Anthropic	$0.000202	$6.05
Gemini 1.5 Pro	Google	$0.000263	$7.88
Llama 3.1 405B (Together / Fireworks)	Meta	$0.000294	$8.82
GPT-4o	OpenAI	$0.000525	$15.75
o1-mini	OpenAI	$0.00063	$18.90
Claude Sonnet 4	Anthropic	$0.000756	$22.68
Claude 3.5 Sonnet	Anthropic	$0.000756	$22.68
GPT-4 Turbo	OpenAI	$0.00168	$50.40
o1 (reasoning)	OpenAI	$0.00315	$94.50
Claude Opus 4	Anthropic	$0.00378	$113.40

Pricing as of 2026-05-30. Discounts (batch API, prompt caching, enterprise contracts) and fine-tuning surcharges are not applied — check the vendor’s live pricing page before committing to spend.

How to use

Eingabemodus wählen
Fügen Sie den vollständigen Prompt (Systemnachricht + Nutzerbeitrag + Tool-Definitionen) für eine heuristische Token-Zählung ein, oder wechseln Sie zu 'Token angeben', wenn Sie die Anzahl bereits aus tiktoken oder Anthropics count_tokens-Endpunkt kennen.
Workload-Preset auswählen
Das Ausgabe-Eingabe-Verhältnis bestimmt einen großen Teil der Kosten — Ausgabe-Token sind bei den meisten Anbietern 3–5-mal teurer als Eingabe-Token. Chat ≈ 1×, Klassifizierung ≈ 0,05×, Code-Generierung 3×, Zusammenfassung 0,2×.
Aufrufe pro Tag festlegen
Kosten pro Aufruf × Aufrufe/Tag × 30 = Monatsprojektion. Nutzen Sie die Vergleichstabelle, um zu sehen, welches Modell bei Ihrem Traffic-Niveau ins Budget passt.
Vergleich kopieren
Klicken Sie auf 'Als Markdown-Tabelle kopieren', um die Kostentabelle nebeneinander in ein Dokument, Ticket oder eine Slack-Nachricht einzufügen.

Frequently asked questions

Warum stimmen meine Token-Zählungen nicht exakt überein?: Jede Modellfamilie verwendet einen anderen Tokenizer. OpenAIs neuere Modelle verwenden o200k_base; GPT-4 Turbo und 3.5 verwenden cl100k_base; Anthropic liefert seinen eigenen SentencePiece-abgeleiteten Tokenizer; Google verwendet SentencePiece; Llama verwendet eine tiktoken-kompatible Variante. Der Modus 'Text einfügen' verwendet eine 4-Zeichen-pro-Token-Heuristik, die für englischen Text innerhalb von ±10% aller dieser Tokenizer liegt, aber bei Code oder nicht-lateinischen Schriften stärker abweichen kann. Für einen exakten Wert verwenden Sie 'Token angeben' mit der Zählung aus dem eigenen Tokenizer des jeweiligen Anbieters.
Warum ist die Ausgaberate höher als die Eingaberate?: Ausgabe-Token werden sequenziell generiert, und jeder erfordert einen vollständigen Forward-Pass durch das Modell — sie kosten mehr Rechenleistung als Eingabe-Token, die gebündelt verarbeitet werden können. Anbieter geben das weiter: Die meisten berechnen für Ausgaben das 3–5-Fache der Eingaberate. Deshalb ist das Ausgabe-Eingabe-Verhältnis so wichtig für die Gesamtausgaben.
Sind Batch-API-Rabatte enthalten?: Nein. OpenAI, Anthropic und Google bieten Batch-Endpunkte mit etwa 50% Rabatt auf den Listenpreis für nicht-Echtzeit-Workloads an. Wenn Sie eine 24-stündige Bearbeitungszeit tolerieren können, halbieren Sie die hier gezeigten Werte. Prompt-Caching (ebenfalls 50–90% Rabatt auf den gecachten Anteil) ist ebenso ausgeschlossen — modellieren Sie den gecachten Anteil separat.

LLM API Kostenrechner

Compare all models

How to use

Eingabemodus wählen

Workload-Preset auswählen

Aufrufe pro Tag festlegen

Vergleich kopieren

Frequently asked questions

Verwandte Werkzeuge