Skip to content

Token-Zähler und API-Kostenkalkulator

Tokens in deinem Prompt, Dollars auf deiner Rechnung — beides wird beim Tippen geschätzt.

Buğra SözeriKI-Werkzeuge
Updated · Published
Reviewed by Convertitive-Redaktion

Token-Anzahl und API-Ausgaben skalieren linear. Die Anzahl im Voraus zu kennen ermöglicht es dir, Kontextfenster korrekt zu dimensionieren, API-Läufe zu budgetieren und Prompts zu erkennen, die nicht passen. Das Widget unten schätzt Token-Anzahlen heuristisch (kein Tokenizer im Browser), wendet das Ergebnis auf die aktuellen Preise pro Million für die wichtigsten gehosteten Modelle an und gibt die Kosten pro Aufruf basierend auf einem gewählten Ausgabe-zu-Eingabe-Verhältnis aus.

Characters
219
Words
33
Tokens (est.)
55
Style detected
Prose

Per-call API cost

Estimates assume the input above plus an output of length 1× the input.

Input cost
$0.000165
Output cost
$0.000825
Total per call
$0.00099

Claude Sonnet 4.6 pricing — $3.00 / 1M input, $15.00 / 1M output. Context window: 200k tokens.

Token counts are heuristic (~4 chars / token for prose, ~3.5 for code). Real tokenizer output may differ by ±10% — the ‘exact’ count needs the model’s BPE tables, which we don’t ship in the browser.

How to use

  1. Deinen Prompt einfügen

    Alles, was du dem Modell senden würdest — System-Prompt, Benutzernachricht, Tool-Definitionen usw. Die Token-Anzahl und Stilerkennung werden beim Tippen aktualisiert.

  2. Modell und Ausgabeverhältnis wählen

    Ausgabe-Tokens kosten bei den meisten Anbietern 3–5× mehr als Eingabe-Tokens, daher ist das richtige Verhältnis entscheidend. 1× ist ein sicherer Standard für kurze Antworten; 0,3× für Klassifizierungsaufgaben; 3–5× für Code-Generierung.

  3. Die Kostenzeile ablesen

    Eingabekosten + Ausgabekosten = Gesamtkosten pro Aufruf. Mit dem erwarteten Anfragevolumen multiplizieren, um die monatlichen Ausgaben zu prognostizieren.

Frequently asked questions

Warum ist die Anzahl nicht exakt?
Exakte Tokenisierung erfordert die eigene BPE-/SentencePiece-Tabelle des Modells. OpenAI liefert tiktoken; Anthropic und Google liefern ihre eigenen SDKs. Das Laden dieser Tabellen im Browser würde ~10 MB JavaScript pro Modell hinzufügen, was für eine schnelle Schätzung nicht sinnvoll ist. Die Heuristik bleibt für englischen Text und Code innerhalb von 10 %.
Wie wird der Stil erkannt?
Wenn mehr als 6 % der Zeichen Symbole sind, die typisch für Code oder JSON sind ({ } [ ] < > ; : = ( ) | ", '), wird der Stil als 'Code' klassifiziert und das Zeichen-zu-Token-Verhältnis sinkt von 4 auf 3,5. Alles andere wird als Fließtext behandelt.
Sind die Preise aktuell?
Preise werden regelmäßig aktualisiert und spiegeln den öffentlichen Listenpreis jedes Anbieters für den direkten API-Zugriff wider. Rabatte (Batch-API, Prompt-Caching, Enterprise-Verträge) werden nicht angewendet. Überprüfe die Preisseite des Anbieters vor dem Vertragsabschluss.
Was bedeutet 'Ausgabeverhältnis'?
Wie lang die Antwort des Modells im Verhältnis zu deinem Prompt sein wird. Ein Verhältnis von 1× bedeutet, dass die Ausgabe ungefähr gleich lang wie die Eingabe ist. Klassifizierungsaufgaben haben Verhältnisse von ~0,05; Code-Generierung 2–5×; Langform-Umschreibung 1,5–3×.
Schließt der Preis das Kontextfenster ein?
Ja. Moderne API-Abrechnung berechnet jeden Token im Gespräch, einschließlich System-Prompt, früherer Gesprächsrunden und Tool-Definitionen. Führe deinen vollständig zusammengestellten Prompt durch das Widget für die genaueste Schätzung.
Was ist mit Prompt-Caching?
Die meisten großen Anbieter bieten jetzt einen reduzierten Preis (50–90 % Rabatt) für wiederholte Teile eines Prompts an. Dieser Kalkulator wendet keine Caching-Rabatte an, da sie von der Trefferrate abhängen; für ein Produktionssystem modelliere den gecachten Anteil separat zum Cached-Input-Preis des Anbieters.
Ist nicht-englischer Text teurer?
Ja, erheblich. Die Tokenizer wurden hauptsächlich mit englischen Texten trainiert; nicht-englische Lateinschriften zahlen eine Token-Prämie von 10–20 %, und CJK-Schriften können das 2–4-fache des Zeichenpreises zahlen. Bis wir einen echten Tokenizer liefern, behandle die Heuristik als Untergrenze für nicht-englische Inhalte.

About

Warum Token statt Zeichen

Große Sprachmodelle berechnen Token, weil das die Recheneinheit ist. Ein BPE-Tokenizer zerlegt Text in Teilwort-Chunks: Häufige Wörter sind oft ein einzelnes Token, seltene oder zusammengesetzte Wörter können mehrere sein. 'Convertitive' zum Beispiel ist typischerweise 4 Token, während 'the' 1 Token ist — es gibt keine saubere Pro-Zeichen- oder Pro-Wort-Regel. Die Heuristik hier ist eine Kalibrierung, die funktioniert, weil das Verhältnis über genug Text gemittelt stabil ist.

Notizen zur Kostenplanung

Für ein Chat-Produkt, das täglich 100K Gespräche mit ~3K Eingabe-Token und ~600 Ausgabe-Token pro Runde zu GPT-4o-Preisen erwartet: 100.000 × 3.000 × 2,50 $ / 1M = 750 $/Tag Eingabe, 100.000 × 600 × 10 $ / 1M = 600 $/Tag Ausgabe. Gesamt ≈ 1.350 $/Tag oder ~40.000 $/Monat. Mit GPT-4o mini halbieren, mit Prompt-Caching nochmals halbieren.

Verwandte Werkzeuge