Skip to content

LLM API Kostenrechner

Kosten pro Aufruf, Monatsprojektion, alle wichtigen Modelle auf einem Bildschirm.

Buğra SözeriKI
Updated · Published
Reviewed by Convertitive

Die Preise der wichtigsten gehosteten LLMs erstrecken sich über zwei Größenordnungen — GPT-4o kostet pro Ausgabe-Token etwa 17-mal mehr als Gemini 1.5 Flash, und Claude Opus liegt nochmals 7-mal darüber. Das richtige Modell zu wählen ist halb Budgetfrage, halb Leistungsfrage. Fügen Sie einen Prompt ein (oder geben Sie eine Token-Anzahl ein, wenn Sie diese bereits aus unserem Token-Zähler kennen), wählen Sie ein Workload-Profil, und der Rechner zeigt Kosten pro Aufruf, eine Monatsprojektion sowie einen Modell-für-Modell- Vergleich aller Einträge in der Tabelle.

Heuristic token estimate (~4 chars/token for prose). Drop a real prompt — system message + user turn + any tool defs — for the closest cost reading.

Input tokens
42
Output tokens
42
Per call
$0.000756
Per month
$22.68

Claude 3.5 Sonnet — $3.00 / 1M input, $15.00 / 1M output · context 200k. Output ratio 1×. Monthly = per-call × calls/day × 30.

Compare all models

ModelProviderPer callPer month
Gemini 1.5 FlashGoogle<$0.0001$0.4725
Gemini 2.0 FlashGoogle<$0.0001$0.6300
GPT-4o miniOpenAI<$0.0001$0.9450
Llama 3.3 70B (Together / Fireworks)Meta<$0.0001$2.22
GPT-3.5 TurboOpenAI<$0.0001$2.52
Claude 3.5 HaikuAnthropic$0.000202$6.05
Gemini 1.5 ProGoogle$0.000263$7.88
Llama 3.1 405B (Together / Fireworks)Meta$0.000294$8.82
GPT-4oOpenAI$0.000525$15.75
o1-miniOpenAI$0.00063$18.90
Claude Sonnet 4Anthropic$0.000756$22.68
Claude 3.5 SonnetAnthropic$0.000756$22.68
GPT-4 TurboOpenAI$0.00168$50.40
o1 (reasoning)OpenAI$0.00315$94.50
Claude Opus 4Anthropic$0.00378$113.40

Pricing as of . Discounts (batch API, prompt caching, enterprise contracts) and fine-tuning surcharges are not applied — check the vendor’s live pricing page before committing to spend.

How to use

  1. Eingabemodus wählen

    Fügen Sie den vollständigen Prompt (Systemnachricht + Nutzerbeitrag + Tool-Definitionen) für eine heuristische Token-Zählung ein, oder wechseln Sie zu 'Token angeben', wenn Sie die Anzahl bereits aus tiktoken oder Anthropics count_tokens-Endpunkt kennen.

  2. Workload-Preset auswählen

    Das Ausgabe-Eingabe-Verhältnis bestimmt einen großen Teil der Kosten — Ausgabe-Token sind bei den meisten Anbietern 3–5-mal teurer als Eingabe-Token. Chat ≈ 1×, Klassifizierung ≈ 0,05×, Code-Generierung 3×, Zusammenfassung 0,2×.

  3. Aufrufe pro Tag festlegen

    Kosten pro Aufruf × Aufrufe/Tag × 30 = Monatsprojektion. Nutzen Sie die Vergleichstabelle, um zu sehen, welches Modell bei Ihrem Traffic-Niveau ins Budget passt.

  4. Vergleich kopieren

    Klicken Sie auf 'Als Markdown-Tabelle kopieren', um die Kostentabelle nebeneinander in ein Dokument, Ticket oder eine Slack-Nachricht einzufügen.

Frequently asked questions

Warum stimmen meine Token-Zählungen nicht exakt überein?
Jede Modellfamilie verwendet einen anderen Tokenizer. OpenAIs neuere Modelle verwenden o200k_base; GPT-4 Turbo und 3.5 verwenden cl100k_base; Anthropic liefert seinen eigenen SentencePiece-abgeleiteten Tokenizer; Google verwendet SentencePiece; Llama verwendet eine tiktoken-kompatible Variante. Der Modus 'Text einfügen' verwendet eine 4-Zeichen-pro-Token-Heuristik, die für englischen Text innerhalb von ±10% aller dieser Tokenizer liegt, aber bei Code oder nicht-lateinischen Schriften stärker abweichen kann. Für einen exakten Wert verwenden Sie 'Token angeben' mit der Zählung aus dem eigenen Tokenizer des jeweiligen Anbieters.
Warum ist die Ausgaberate höher als die Eingaberate?
Ausgabe-Token werden sequenziell generiert, und jeder erfordert einen vollständigen Forward-Pass durch das Modell — sie kosten mehr Rechenleistung als Eingabe-Token, die gebündelt verarbeitet werden können. Anbieter geben das weiter: Die meisten berechnen für Ausgaben das 3–5-Fache der Eingaberate. Deshalb ist das Ausgabe-Eingabe-Verhältnis so wichtig für die Gesamtausgaben.
Sind Batch-API-Rabatte enthalten?
Nein. OpenAI, Anthropic und Google bieten Batch-Endpunkte mit etwa 50% Rabatt auf den Listenpreis für nicht-Echtzeit-Workloads an. Wenn Sie eine 24-stündige Bearbeitungszeit tolerieren können, halbieren Sie die hier gezeigten Werte. Prompt-Caching (ebenfalls 50–90% Rabatt auf den gecachten Anteil) ist ebenso ausgeschlossen — modellieren Sie den gecachten Anteil separat.

Verwandte Werkzeuge