Guide
Wie GPT-Tokenisierung wirklich funktioniert (und warum Ihre Rechnung davon abhängt)
Häufige Wörter = 1 Token. Seltene Wörter = 2–5 Token. Emojis, Code-Symbole und nicht-englischer Text verbrauchen Token schnell.
By Buğra SözeriPublished Updated
Jeder API-Aufruf an ein großes Sprachmodell wird in Token abgerechnet – weder in Zeichen noch in Wörtern. Token sind die Einheit, die das Modell tatsächlich verbraucht, nachdem Text von einem Byte-Pair-Encoding-(BPE-)Tokenizer codiert wurde. Zu verstehen, wie Tokenisierung funktioniert, ist wichtig, weil sie (a) Ihre Rechnung bestimmt und (b) erklärt, warum sich „ein 1000-Wörter-Dokument“ nicht sauber auf „eine 1000-Token-Kostenschätzung“ abbilden lässt.
Wie BPE-Tokenizer funktionieren
Der Algorithmus in wenigen Zeilen:
- Beginnen Sie mit einem Vokabular aus einzelnen Bytes (256 Einträge).
- Finden Sie das häufigste benachbarte Paar von Vokabulareinträgen in einem großen Trainingskorpus.
- Fügen Sie dieses Paar als neuen Vokabulareintrag hinzu.
- Wiederholen Sie, bis das Vokabular die Zielgröße erreicht (50k–100k Einträge bei modernen Modellen).
- Um neuen Text zu tokenisieren, ersetzen Sie Paare gierig vom längsten zum kürzesten Treffer.
Ergebnis: Häufige englische Wörter wie „the“, „and“, „understanding“ werden zu je einem einzigen Token. Seltene Wörter wie „rambunctious“ werden in 2–4 Token zerlegt (z. B. „ram“+„bunct“+„ious“). Emojis und nicht-englische Zeichen benötigen oft je 2–6 Token.
Token-Anzahlen für gängige Inhalte
Ungefähre Token-Anzahlen für GPT-4 (cl100k_base-Tokenizer):
| Inhalt | Token | Token / Wort |
|---|---|---|
| Englische Prosa (diese Seite) | ~1,3 / Wort | 1,3 |
| Nachrichtenartikel | ~1,3 / Wort | 1,3 |
| Technisches / wissenschaftliches Schreiben | ~1,5 / Wort | 1,5 |
| Programmcode (Python) | ~2 / Wort | 2,0 |
| JSON / XML (viele Satzzeichen) | ~2,5 / Wort | 2,5 |
| Spanisch / Französisch / Deutsch | ~1,6 / Wort | 1,6 |
| Russisch / Griechisch (kyrillische / griechische Schrift) | ~3–4 / Wort | 3–4 |
| Chinesisch (vereinfacht) | ~1,5 / Zeichen | 1,5/Zeichen |
| Japanisch / Koreanisch | ~1–2 / Zeichen | 1–2/Zeichen |
| Emoji ✨ | ~2–3 je | — |
Der Referenzwert für Englisch ist ~750 Wörter pro 1.000 Token. Nicht-lateinische Schriften kosten deutlich mehr Token pro Zeichen, weil sie im Trainingskorpus nicht so dicht vertreten waren.
Warum die Kostenlücke zählt
Preise pro Token bedeuten, dass nicht-englische Inhalte für dieselbe Idee 2–4× mehr kosten. Ein 1.000-Wörter-Dokument kostet:
- Englisch: ~1.300 Token → 0,013 $ zum GPT-4o-Eingabepreis (~10 $/Mio. Token).
- Russisch: ~3.500 Token → 0,035 $ (2,7× mehr für denselben Inhalt).
- Chinesisch: ~1.500 Token (pro Zeichen, dichte Schriften gleichen etwas aus) → 0,015 $.
Für ein Übersetzungsunternehmen oder ein mehrsprachiges Support-System summiert sich die Kostenasymmetrie pro Sprache schnell. Anthropic, OpenAI und Google veröffentlichen Token-Kosten pro Modell; die tatsächlichen Inhaltskosten hängen davon ab, für welche Sprache und welches Format Sie zahlen.
Tokenizer-Unterschiede zwischen Modellen
Jede Modellfamilie hat ihren eigenen Tokenizer:
- OpenAI cl100k_base (GPT-3.5, GPT-4): ~100.000-Token-Vokabular. Der englische Referenz-Tokenizer der Moderne.
- OpenAI o200k_base (GPT-4o, o-Reihe): 200.000-Token-Vokabular. Besser bei nicht-englischem Text und Code. Ein gegebenes Dokument braucht ~10–15 % weniger Token als cl100k.
- Anthropic-Claude-Tokenizer: proprietär. Annähernd ähnliche Dichte wie cl100k für Englisch; unterscheidet sich messbar bei Code und nicht-englischem Text. Anthropic veröffentlicht einen Token-Zähl-Endpunkt zur Schätzung vor dem Absenden.
- Google Gemini: nutzt SentencePiece. Grob vergleichbare Dichte mit cl100k.
Implikation: Derselbe Prompt, an GPT-4o vs. Claude vs. Gemini gesendet, ergibt keine identischen Token-Anzahlen. Die Budgetierung über Anbieter hinweg erfordert eine Token-Schätzung pro Anbieter, nicht eine einzelne Regel „1 Wort ≈ 1,3 Token“.
Wo Tokenisierung das Prompt-Design beeinflusst
- Kosten für langen Kontext. Ein 100k-Token-Kontextfenster, das Ihre gesamte Dokumentation enthält, ist großartig, bis Sie merken, dass die Kosten pro Aufruf bei typischer Nutzung 1+ $ betragen. Token-Anzahlen summieren sich über mehrstufige Gespräche.
- JSON vs. natürliche Sprache. Nach JSON-Ausgabe zu fragen kostet ~30–50 % mehr Token als nach vergleichbarer schlichter Prosa. JSONs Satzzeichen werden aggressiv tokenisiert.
- Code-Aufgaben. Code ist in Token etwa 2× dichter als Prosa. Eine 200-Zeilen-Datei könnte 2.000–3.000 Token sein. Werkzeuge, die Ihr ganzes Repo als Kontext einbeziehen, summieren sich schnell.
- Nicht-englische Sprachen. 2–4× mehr Token pro Zeichen. Für mehrsprachige Produkte ist dies ein Kostenfaktor erster Ordnung.
Wie Sie Token schätzen, bevor Sie zahlen
- Nutzen Sie ein Token-Zähl-Tool. Unser KI-Token-Zähler implementiert mehrere Tokenizer und meldet die exakte Anzahl für Ihre Eingabe.
- Nutzen Sie die offizielle Tokenizer-Bibliothek. OpenAIs
tiktoken(Python), Anthropics Tokenizer-API oder gehostete Token-Zähler. Diese sind die Wahrheit für die Abrechnung. - Faustregel. Für englische Prosa: 1 Wort ≈ 1,3 Token. Für Code: 1 Zeile ≈ 8–15 Token. Für Chinesisch: 1 Zeichen ≈ 1,5 Token.
- Budgetieren Sie auch die Ausgabe. Viele Anbieter verlangen für die Ausgabe mehr als für die Eingabe (typischerweise 3–5× pro Token). Eine 2000-Token- Ausgabe ist teurer als eine 2000-Token-Eingabe.
Der tiefere strukturelle Grund für BPE
Moderne LLMs sehen Token, keine Zeichen. Die Embeddings, die Attention und die Ausgabe des Modells sind alle über ein endliches Token-Vokabular definiert. Modelle auf Zeichenebene existieren, sind aber langsamer (jedes Zeichen ist eine Eingabeposition) und schwerer zu trainieren. Modelle auf Wortebene können unbekannte Wörter nicht handhaben (Out-of-Vocabulary-Problem). BPE ist der Kompromiss, der sich durchsetzte.
Für tieferen Hintergrund siehe unseren Glossareintrag GPT-Token und den Ratgeber, wie Token-Preise funktionieren.
Durchgang: Tokenisierung eines einzelnen Satzes
Satz: “The rambunctious cat’s purr 😺 was unmistakable.” (9 Wörter, 49 Zeichen mit dem Emoji.)
Unter cl100k_base (GPT-4):
The→ 1 Token (sehr häufiges Wort mit Variante mit führendem Leerzeichen).rambunctious→ 3 Token (ram+bunct+ious).cat→ 1 Token.’s→ 1 Token (die Apostroph-s-Kontraktion ist eine einzelne Verschmelzung).purr→ 1 Token.😺→ 3 Token (die UTF-8-Bytes des Emojis verteilen sich über mehrere BPE-Stücke).was→ 1 Token.unmistakable→ 2 Token (unm+istakable)..→ 1 Token.
Gesamt: 14 Token für 9 Wörter – ein Verhältnis von 1,56 Token pro Wort, hochgetrieben durch rambunctious(3 Token) und das Emoji (3 Token). Beide durch gängige Alternativen zu ersetzen senkt die Kosten: „The loud cat’s purr was unmistakable“ läuft auf ~9 Token für dieselbe Idee. Bei hohem API-Volumen summiert sich diese Art von Vokabular-Optimierung.
Häufige Fehler
- Token aus der Zeichenanzahl schätzen. Die Faustregel „1 Token ≈ 4 Zeichen“ liegt bei Code, JSON und nicht-englischem Text völlig daneben. Ein 1000-Zeichen-JSON-Block kann je nach Schlüsselnamen und Verschachtelung 400–800 Token sein.
- System-Prompt-Token vergessen. Ein 2000-Token-System-Prompt ist in jeder Anfrage enthalten und wird bei jedem Aufruf berechnet. Mehrstufige Agenten mit wachsendem Chatverlauf zahlen bei jeder Runde für das ganze vorige Gespräch, nicht nur für die neueste Nachricht.
- Caching-Vorteile hängen von Präfix-Stabilität ab. Prompt-Caching (wo verfügbar) greift nur, wenn die Token-Sequenz am Präfix bytegleich ist. Ein dynamisch eingefügter Zeitstempel an Position 50 macht den Cache für jeden folgenden Token ungültig. Setzen Sie dynamische Inhalte ans Ende, nicht in die Mitte.
- Den falschen Tokenizer zur Kostenschätzung nutzen. cl100k_base und o200k_base erzeugen für dieselbe Eingabe ~10–15 % unterschiedliche Token-Anzahlen. Wenn Sie Kosten für GPT-4o mit cl100k modellieren, ist die Schätzung zu hoch; für o-Reihen-Modelle ebenfalls. Nutzen Sie den Tokenizer, der zum Zielmodell passt.
- Leerzeichen aggressiv entfernen. Viele Token beginnen mit einem führenden Leerzeichen. Alle Leerzeichen zu entfernen und Wörter aneinanderzuhängen kann mehr Token erzeugen, nicht weniger, weil der Tokenizer seine häufigen „ Wort“-Verschmelzungen nicht nutzen kann und auf Byte-Ebenen-Zerlegungen zurückfällt.
Für tieferen Hintergrund siehe unseren Glossareintrag GPT-Token, den Ratgeber, wie Token-Preise funktionieren und das Cron-Ausdruck-Tutorial für ein unverwandtes, aber vergleichbar dichtes Parsing-Primitiv.
Quellen: Sennrich, Haddow & Birch, „Neural Machine Translation of Rare Words with Subword Units“ (ACL 2016, das grundlegende BPE-Paper); OpenAI-tiktoken-Repository (2024); Anthropic-Entwicklerdokumentation zu Token und Kontext (2024); Karpathy A, „Let’s build the GPT Tokenizer“- Vortrag (2024).
Frequently asked questions
- Was ist ein Token im Kontext von GPT und LLMs?
- Ein Token ist die Grundeinheit von Text, die ein Sprachmodell verarbeitet – weder ein Zeichen noch ein vollständiges Wort. Häufige englische Wörter wie 'the' oder 'cat' sind einzelne Token; seltenere Wörter werden in 2–5 Subwort-Stücke zerlegt. Ein Token entspricht im Durchschnitt etwa 4 Zeichen oder 0,75 Wörtern bei englischem Text.
- Wie funktioniert die Byte-Pair-Encoding-(BPE-)Tokenisierung?
- BPE beginnt mit einzelnen Bytes als Vokabular und verschmilzt dann iterativ das häufigste benachbarte Paar zu einem neuen Token. Nach Hunderttausenden von Verschmelzungen über einen Trainingskorpus erfasst das resultierende Vokabular häufige Wörter und Subwort-Fragmente effizient.
- Warum verbraucht nicht-englischer Text mehr Token als englischer?
- GPT-Tokenizer werden überwiegend auf englischem Text trainiert, sodass seltene Zeichen in nicht-lateinischen Schriften (Chinesisch, Arabisch, Koreanisch) jeweils auf 1–3 Bytes oder einzelne Zeichen statt auf ganze Wörter abgebildet werden können. Ein chinesischer Satz kann pro Wort 2–4× so viele Token verbrauchen wie gleichwertiges Englisch.
- Wie viele Token enthält eine typische Textseite?
- Eine Seite mit 500 Wörtern schlichten englischen Texts enthält etwa 650–700 Token, da kurze Wörter und Satzzeichen jeweils Token verbrauchen. Code, JSON und technischer Text mit ungewöhnlichen Symbolen können 20–40 % mehr Token pro Wort verbrauchen als Prosa.
- Zählt ein Emoji immer als ein Token?
- Nein – ein einzelnes Emoji umfasst oft 2–8 Token, weil komplexe Emojis (besonders Hautton-Modifikatoren und ZWJ-Sequenzen) in mehrere UTF-8-Bytes zerlegt werden, die jeweils separat tokenisiert werden können. Ein Familien-Emoji mit Hautton kann 6–10 Token verbrauchen.
- Warum beeinflusst die Tokenisierung die Kosten der Nutzung von LLM-APIs?
- LLM-APIs wie OpenAI und Anthropic berechnen pro Token, sowohl für die Eingabe (Prompt) als auch für die Ausgabe (Completion). Ein in ineffizienter Sprache geschriebener Prompt (viele seltene Wörter, Code, nicht-englischer Text) kann 2–3× mehr kosten als ein semantisch gleichwertiger Prompt in gängiger englischer Formulierung.
Sources & references
Authoritative references cited by this piece. Verified by Buğra Sözeri on the dates shown and re-checked at every deploy.
- OpenAI — tiktoken-Tokenizer — Offizieller OpenAI-BPE-Tokenizer; kanonische Referenz für die analysierten Token-Zuordnungen von GPT-3.5, GPT-4, GPT-4o(as of )
- Sennrich R, Haddow B, Birch A — Neural Machine Translation of Rare Words with Subword Units (ACL 2016) — Ursprüngliches BPE-Paper, das den Subwort-Tokenisierungsansatz begründete, den jedes moderne LLM nutzt(as of )
- Kudo T, Richardson J — SentencePiece (EMNLP 2018) — Referenz für den SentencePiece-Tokenizer, der von einigen Open-Weight-Modellfamilien genutzt wird(as of )
- Anthropic — Token-Zählung für Claude — Referenz für den anbieterübergreifenden Tokenisierungsvergleich im Artikel(as of )
- Hugging Face — Dokumentation der Tokenizers-Bibliothek — Open-Source-Referenzimplementierung, gegengeprüft für die behandelten Tokenizer-Verhalten von Open-Weight-Modellen(as of )
- Karpathy A — "Let's build the GPT Tokenizer" (Vortrag, 2024) — Didaktische Referenz für den Durchgang durch die BPE-Merge-Regeln, der der Algorithmuserklärung zugrunde liegt(as of )
Related
Published May 16, 2026 · Last reviewed May 31, 2026