Methodology
Methodik für KI-Tokens
Die Token-Anzahl ist eine heuristische Schätzung. Der Preis ist zum Aktualisierungszeitpunkt exakt. Unterschiedliche Präzisionsgrenzen.
By Buğra SözeriPublished Updated
Der Token-Zähler schätzt, wie viele Tokens ein Textstück für eine bestimmte Large-Language-Model-API verbraucht, und multipliziert das mit den aktuell veröffentlichten Preisen, um die Kosten zu schätzen. Beide Hälften dieses Satzes haben spürbare Präzisionsgrenzen.
Token-Schätzung: heuristisch, nicht exakt
Jedes moderne LLM verwendet einen Tokenizer — typischerweise BPE (Byte Pair Encoding) für GPT und Claude, SentencePiece für Gemini und Llama —, der Text in eine Folge ganzzahliger Token-IDs umwandelt. Die exakte Zuordnung ist modellspezifisch und proprietär; den eigentlichen Tokenizer auszuführen erfordert die Tokenizer-Modelldatei (typischerweise 1–5 MB), die in den Client eingebunden ist.
Wir bündeln keine Tokenizer, weil sie sich mit Modell-Releases ändern und sich die Bundle-Größe über mehr als 4 Anbieter hinweg summiert. Stattdessen verwenden wir die veröffentlichten Zeichen-zu-Token-Verhältnisse aus der Dokumentation jedes Anbieters:
- GPT-3.5/4/5: ~4 Zeichen pro Token für Englisch; höher bei Code; niedriger bei nicht-lateinischen Schriften.
- Claude 3/4: ~3,5 Zeichen pro Token. Der Claude-Tokenizer ist etwas aggressiver als der von GPT.
- Gemini: ~4 Zeichen pro Token für Englisch.
- Llama 3/4: ~4 Zeichen pro Token.
Diese Verhältnisse liegen für typischen englischen Fließtext innerhalb von ~10 % der tatsächlichen Token-Anzahl. Sie weichen stärker ab bei Code (der wegen Bezeichnertrennungen in mehr Teile zerlegt wird), bei nicht-lateinischen Schriften (Chinesisch, Japanisch, Arabisch — manchmal 2–3× mehr Tokens pro Zeichen) und bei strukturierten Daten (JSON, XML — irgendwo zwischen Englisch und Code).
Preise: exakt, aber veraltet
Jedes Modell hat veröffentlichte Preise pro Token für Eingabe- und (separat) für Ausgabe-Tokens. Wir hinterlegen diese Preise fest in einem Register, das wir manuell aktualisieren, wenn Anbieter ihre Preise ändern (typischerweise alle 1–3 Monate, wenn neue Modelle erscheinen und alte neu bepreist werden).
Die Preise im Register sind zum Zeitpunkt des jüngsten Deploys korrekt. Für eine echte Produktionskostenprognose prüfen Sie gegen die Preisseite des Anbieters — und kalkulieren Sie 15–30 % Puffer ein, weil die tatsächlichen Kosten von der Ausgabelänge abhängen, die nicht deterministisch ist.
Was wir modellieren
Für jedes Modell schätzt der Rechner:
- Eingabe-Tokens (aus dem Prompt des Nutzers).
- Ausgabe-Tokens (aus einer nutzerseitigen Schätzung oder dem Standardwert des Anbieters).
- Kosten = input_tokens × input_price + output_tokens × output_price.
- Die Gesamtsumme in USD mit 6 Nachkommastellen.
Was wir nicht modellieren
- Preise für gecachte Eingaben. Mehrere Anbieter (OpenAI, Anthropic) bieten vergünstigte Preise für Eingabe-Tokens, die einem kürzlich gesehenen Prompt-Präfix entsprechen. Gut zu wissen; hier nicht modelliert.
- Batch-API-Rabatte. Asynchrone Batch-Endpunkte bieten oft 50 % Nachlass; nicht modelliert.
- Bild-/Audio-/Video-Eingaben. Multimodale Token-Kosten variieren je nach Modell und werden anders als bei Text berechnet. Geplant.
- Preise für feinabgestimmte Modelle. Anbieter bepreisen Fine-Tunes anders als Basismodelle.
Algorithmus-Details: die BPE-Merge-Schleife
Sowohl die Tokenizer von GPT als auch von Claude sind Byte-Pair-Encoding-Varianten. Das Trainingsverfahren (Sennrich et al., 2016) beginnt mit einem Basisvokabular aus einzelnen Bytes und wendet wiederholt den Merge an:finde das häufigste benachbarte Paar (a, b) im Korpus, füge ein neues Token „ab“ zum Vokabular hinzu und ersetze jedes Vorkommen von (a, b) dadurch. Das Verfahren stoppt, wenn das Vokabular die Zielgröße erreicht — 100.277 für GPT-4os cl100k_base, ~128k für Llama 3, ~256k für Gemini. Zur Inferenzzeit wendet der Tokenizer die gespeicherte Merge-Liste gierig auf die Eingabe an.
Unsere Zeichen-Verhältnis-Heuristik überspringt die Merge-Schleife vollständig. Für ein Textstück mit N Zeichen und beobachtetem mittlerem Tokens-pro-Zeichen r: tokens ≈ ⌈N × r⌉. Die von uns verwendeten Konstanten:
| Modellfamilie | r (Tokens/Zeichen) | 1/r (Zeichen/Token) | Quelle |
|---|---|---|---|
| GPT-4o / 4.1 | 0,25 | 4,0 | OpenAI-Doku & tiktoken-Benchmark |
| Claude 3.5 / 4 | 0,286 | 3,5 | Anthropic-Doku |
| Gemini 1.5+ | 0,25 | 4,0 | Google-AI-Studio-Doku |
| Llama 3 / 4 | 0,25 | 4,0 | Meta-Modellkarte |
Kostenherleitung: Bei Eingabe-Tokens T_in, Ausgabe-Tokens T_out und den Sätzen des Anbieters pro Million Tokens p_in und p_out gilt für die Gesamtkosten in USD = (T_in × p_in + T_out × p_out) / 1.000.000. Wir runden auf sechs Nachkommastellen, um die Präzision unter einem Cent für kurze Prompts zu erhalten.
Quellen & Referenzen
Die Heuristiken auf dieser Seite werden gegen OpenAIs eigenen tiktoken Referenz-Tokenizer auf einem englischen Wikipedia-Korpus mit 100k Stichproben kalibriert. Der BPE-Algorithmus ist in Sennrich, Haddow & Birch (2016) dokumentiert; SentencePiece, verwendet von Gemini und Llama, in Kudo & Richardson (2018). Im Block Quellen & Referenzen unten finden Sie die Primärzitate und die Anbieter-Preisseiten, die wir spiegeln.
Annahmen & Grenzen
- Kalibrierung nur auf englischen Fließtext. Die Tokens-pro-Zeichen-Konstanten sind auf englischen Wikipedia-Text angepasst. Code, JSON, Chinesisch, Japanisch, Arabisch und andere nicht-lateinische Schriften können um 30–300 % abweichen (Chinesisch benötigt typischerweise 2–3× mehr Tokens pro Zeichen).
- Keine Unterstützung für Preise gecachter Eingaben. OpenAI und Anthropic bieten beide 50–90 % Rabatt auf wiederverwendete Präfix-Tokens. Die Kostenschätzung verwendet die vollen, ungecachten Preise.
- Kein Batch-API-Rabatt. Asynchrone Batch-Endpunkte halbieren typischerweise die Kosten pro Token; hier nicht berücksichtigt.
- Die Ausgabelänge ist nutzerseitig. Wir können die Antwortlänge nicht vorhersagen; ±50 % auf
T_outsind je nach Prompt typisch. - Bild- und Audio-Eingaben nicht modelliert. Jeder Anbieter zählt Nicht-Text-Tokens anders (Bildkacheln bei GPT-4o, Audiosekunden bei Gemini usw.).
- Die Preise sind eine Momentaufnahme. Das Register wird monatlich aktualisiert; Preisänderungen der Anbieter unterm Monat werden erst beim nächsten Deploy berücksichtigt.
- Preise für feinabgestimmte und reservierte Kapazität weichen ab. Die Schätzung verwendet nur die Standard-On-Demand-Sätze.
Wie genau ist die Schätzung wirklich?
Für typischen englischen Fließtext mäßiger Länge (50–5000 Zeichen) liegt unsere Token-Anzahl innerhalb von 10 % der tatsächlichen Anzahl und unsere Kostenschätzung innerhalb von 10–15 % der tatsächlichen API-Rechnung. Das reicht völlig für eine grobe Größenabschätzung — „ist dieser Prompt 1 Cent oder 1 Dollar?“ — und ist unzureichend für centgenaue Abrechnung. Für Letztere verwenden Sie den offiziellen Tokenizer des Anbieters; für alles andere ist unserer ein nützlicher Anhaltspunkt.
Frequently asked questions
- Wie schätzt Convertitive die Token-Anzahl?
- Token-Anzahlen sind heuristische Schätzungen, keine exakten Werte. Die Näherung folgt dem weithin beobachteten Verhältnis von ~4 Zeichen pro Token für englischen Fließtext, das mit dem in Sennrich et al. (2016) beschriebenen Byte-Pair-Encoding-Algorithmus (BPE) übereinstimmt. Für Code, mehrsprachigen Text oder Emojis weicht das Verhältnis ab — Code liegt im Schnitt bei ~3 Zeichen/Token, und viele Unicode-Codepunkte außerhalb der Basic Multilingual Plane kosten im cl100k_base-Vokabular von GPT-4o jeweils 1–3 Tokens.
- Welchen Tokenisierungs-Algorithmus verwenden OpenAI-Modelle?
- GPT-3.5, GPT-4 und GPT-4o verwenden Byte Pair Encoding (BPE) mit dem cl100k_base-Vokabular (100.000 Tokens). BPE führt häufige Byte-Paare iterativ zusammen, bis die Vokabulargröße erreicht ist. Die tiktoken-Bibliothek (openai/tiktoken auf GitHub) ist die maßgebliche Open-Source-Implementierung. Claude und Gemini verwenden SentencePiece-basierte Tokenizer mit überlappenden, aber unterschiedlichen Vokabularen — die exakten Token-Anzahlen unterscheiden sich zwischen den Anbietern.
- Wie genau ist die Kostenschätzung für LLMs?
- Die Preiskomponente ist zum Zeitpunkt der letzten manuellen Aktualisierung exakt; Kostenschätzungen sind nur so aktuell wie die eingebettete Preistabelle. Die Token-Anzahl ist heuristisch (±10–30 % je nach Inhaltstyp), sodass die endgültige Kostenschätzung dieselbe Varianz trägt. Für die produktive Abrechnungsprognose nutzen Sie den eigenen Tokenizer des Anbieters und dessen Live-Preis-API.
- Welche Annahmen liegen der Token-Kostenberechnung zugrunde?
- Wir nehmen an: (1) alle Tokens werden zu den Standard-Eingabe-/Ausgabesätzen ohne Prompt-Caching-Rabatt berechnet; (2) die gesamte Eingabe wird bei jeder Anfrage gesendet (keine Kontextkürzung); (3) die Ausgabelänge ist entweder vom Nutzer angegeben oder auf einen vom Anbieter veröffentlichten Standardwert gesetzt. Batch-API-Rabatte (z. B. 50 % bei der OpenAI Batch API) und Kontext-Caching-Gutschriften (z. B. das Prompt-Caching von Anthropic) werden nicht berücksichtigt.
- Woher stammen die Preisdaten?
- Die Preise werden manuell von der öffentlichen Preisseite jedes Anbieters bezogen: openai.com/pricing, anthropic.com/pricing, ai.google.dev/pricing, together.ai und replicate.com. Sie werden nach bestem Bemühen aktualisiert und können von anbieterseitig angekündigten Änderungen um Tage bis Wochen abweichen. Prüfen Sie aktuelle Sätze stets auf der Preisseite des Anbieters, bevor Sie ein Produktionsbudget festlegen.
Sources & references
Authoritative references cited by this piece. Verified by Buğra Sözeri on the dates shown and re-checked at every deploy.
- Sennrich, Haddow & Birch (2016) — Neural Machine Translation of Rare Words with Subword Units (BPE) — Die peer-reviewte Einführung von Byte Pair Encoding für neuronale Sequenzmodelle — der Algorithmus, von dem die Tokenizer von GPT und Claude abstammen.(as of )
- Kudo & Richardson (2018) — SentencePiece: A simple and language independent subword tokenizer — Definiert den SentencePiece-Algorithmus, der von Gemini, Llama und den meisten mehrsprachigen Modellen verwendet wird.(as of )
- OpenAI — Pricing (aktuelle Modell-Preisliste) — Maßgebliche Quelle für die GPT-Preise pro Million Eingabe-/Ausgabe-Tokens, die unser Register spiegelt.(as of )
- Anthropic — Models & Pricing — Maßgebliche Quelle für Claude-Modellbezeichnungen und Preise pro Token.(as of )
- OpenAI tiktoken — Referenz-BPE-Tokenizer — Der Open-Source-Tokenizer als Referenzwahrheit, an dem unsere 4-Zeichen-pro-Token-Heuristik geeicht wird.(as of )
Related
Published May 14, 2026 · Last reviewed May 31, 2026