LLM API Kostenrechner
Kosten pro Aufruf, Monatsprojektion, alle wichtigen Modelle auf einem Bildschirm.
Die Preise der wichtigsten gehosteten LLMs erstrecken sich über zwei Größenordnungen — GPT-4o kostet pro Ausgabe-Token etwa 17-mal mehr als Gemini 1.5 Flash, und Claude Opus liegt nochmals 7-mal darüber. Das richtige Modell zu wählen ist halb Budgetfrage, halb Leistungsfrage. Fügen Sie einen Prompt ein (oder geben Sie eine Token-Anzahl ein, wenn Sie diese bereits aus unserem Token-Zähler kennen), wählen Sie ein Workload-Profil, und der Rechner zeigt Kosten pro Aufruf, eine Monatsprojektion sowie einen Modell-für-Modell- Vergleich aller Einträge in der Tabelle.
Heuristic token estimate (~4 chars/token for prose). Drop a real prompt — system message + user turn + any tool defs — for the closest cost reading.
- Input tokens
- 42
- Output tokens
- 42
- Per call
- $0.000756
- Per month
- $22.68
Claude 3.5 Sonnet — $3.00 / 1M input, $15.00 / 1M output · context 200k. Output ratio 1×. Monthly = per-call × calls/day × 30.
Compare all models
| Model | Provider | Per call | Per month |
|---|---|---|---|
| Gemini 1.5 Flash | <$0.0001 | $0.4725 | |
| Gemini 2.0 Flash | <$0.0001 | $0.6300 | |
| GPT-4o mini | OpenAI | <$0.0001 | $0.9450 |
| Llama 3.3 70B (Together / Fireworks) | Meta | <$0.0001 | $2.22 |
| GPT-3.5 Turbo | OpenAI | <$0.0001 | $2.52 |
| Claude 3.5 Haiku | Anthropic | $0.000202 | $6.05 |
| Gemini 1.5 Pro | $0.000263 | $7.88 | |
| Llama 3.1 405B (Together / Fireworks) | Meta | $0.000294 | $8.82 |
| GPT-4o | OpenAI | $0.000525 | $15.75 |
| o1-mini | OpenAI | $0.00063 | $18.90 |
| Claude Sonnet 4 | Anthropic | $0.000756 | $22.68 |
| Claude 3.5 Sonnet | Anthropic | $0.000756 | $22.68 |
| GPT-4 Turbo | OpenAI | $0.00168 | $50.40 |
| o1 (reasoning) | OpenAI | $0.00315 | $94.50 |
| Claude Opus 4 | Anthropic | $0.00378 | $113.40 |
Pricing as of . Discounts (batch API, prompt caching, enterprise contracts) and fine-tuning surcharges are not applied — check the vendor’s live pricing page before committing to spend.
How to use
Eingabemodus wählen
Fügen Sie den vollständigen Prompt (Systemnachricht + Nutzerbeitrag + Tool-Definitionen) für eine heuristische Token-Zählung ein, oder wechseln Sie zu 'Token angeben', wenn Sie die Anzahl bereits aus tiktoken oder Anthropics count_tokens-Endpunkt kennen.
Workload-Preset auswählen
Das Ausgabe-Eingabe-Verhältnis bestimmt einen großen Teil der Kosten — Ausgabe-Token sind bei den meisten Anbietern 3–5-mal teurer als Eingabe-Token. Chat ≈ 1×, Klassifizierung ≈ 0,05×, Code-Generierung 3×, Zusammenfassung 0,2×.
Aufrufe pro Tag festlegen
Kosten pro Aufruf × Aufrufe/Tag × 30 = Monatsprojektion. Nutzen Sie die Vergleichstabelle, um zu sehen, welches Modell bei Ihrem Traffic-Niveau ins Budget passt.
Vergleich kopieren
Klicken Sie auf 'Als Markdown-Tabelle kopieren', um die Kostentabelle nebeneinander in ein Dokument, Ticket oder eine Slack-Nachricht einzufügen.
Frequently asked questions
- Warum stimmen meine Token-Zählungen nicht exakt überein?
- Jede Modellfamilie verwendet einen anderen Tokenizer. OpenAIs neuere Modelle verwenden o200k_base; GPT-4 Turbo und 3.5 verwenden cl100k_base; Anthropic liefert seinen eigenen SentencePiece-abgeleiteten Tokenizer; Google verwendet SentencePiece; Llama verwendet eine tiktoken-kompatible Variante. Der Modus 'Text einfügen' verwendet eine 4-Zeichen-pro-Token-Heuristik, die für englischen Text innerhalb von ±10% aller dieser Tokenizer liegt, aber bei Code oder nicht-lateinischen Schriften stärker abweichen kann. Für einen exakten Wert verwenden Sie 'Token angeben' mit der Zählung aus dem eigenen Tokenizer des jeweiligen Anbieters.
- Warum ist die Ausgaberate höher als die Eingaberate?
- Ausgabe-Token werden sequenziell generiert, und jeder erfordert einen vollständigen Forward-Pass durch das Modell — sie kosten mehr Rechenleistung als Eingabe-Token, die gebündelt verarbeitet werden können. Anbieter geben das weiter: Die meisten berechnen für Ausgaben das 3–5-Fache der Eingaberate. Deshalb ist das Ausgabe-Eingabe-Verhältnis so wichtig für die Gesamtausgaben.
- Sind Batch-API-Rabatte enthalten?
- Nein. OpenAI, Anthropic und Google bieten Batch-Endpunkte mit etwa 50% Rabatt auf den Listenpreis für nicht-Echtzeit-Workloads an. Wenn Sie eine 24-stündige Bearbeitungszeit tolerieren können, halbieren Sie die hier gezeigten Werte. Prompt-Caching (ebenfalls 50–90% Rabatt auf den gecachten Anteil) ist ebenso ausgeschlossen — modellieren Sie den gecachten Anteil separat.
Verwandte Werkzeuge
- LLM Kontext-Fenster-VisualizerTokennutzung im LLM-Kontextfenster visualisieren.
- Token-Zähler und API-KostenkalkulatorToken zählen und API-Kosten kalkulieren.
- HypothekenrechnerMonatliche Rate, Gesamtzinsen und Tilgungsplan.
- Zinseszins-RechnerKapitalwachstum mit regelmäßigen Einzahlungen.
- Trinkgeld-RechnerTrinkgeld berechnen und auf Gäste aufteilen.
- Mehrwertsteuer-RechnerMwSt. hinzufügen oder herausrechnen.