Skip to content

Glossary

GPT-Token

Die atomare Einheit von LLM-Eingabe und -Ausgabe

By Published Updated

Ein GPT-Token (allgemeiner: ein Token) ist die Einheit, die ein großes Sprachmodell verarbeitet. Modelle sehen Zeichen oder Wörter nicht direkt – Text wird zunächst in eine Folge ganzzahliger IDs aus einem festen Vokabular tokenisiert, typischerweise 50.000–200.000 Tokens.

OpenAIs GPT-3, GPT-4 und GPT-5 nutzen BPE-Tokenizer (Byte Pair Encoding). Gängige englische Wörter sind meist ein Token („the“ → 1, „and“ → 1); längere oder seltenere Wörter zerfallen in mehrere Tokens („tokenization“ → vielleicht 3); Code wird weit stärker zerlegt (Bezeichner, Klammern, Einrückungen werden jeweils zu eigenen Tokens).

Praktische Verhältnisse:

  • Englische Prosa: ~4 Zeichen pro Token, ~0,75 Wörter pro Token
  • Code: ~2–3 Zeichen pro Token (stärkere Zerlegung)
  • Nicht-lateinische Schriften (Chinesisch, Japanisch, Arabisch): bis zu 1 Zeichen pro Token oder schlechter

Sowohl Eingabe- als auch Ausgabe-Tokens werden abgerechnet. Ausgabe-Tokens kosten typischerweise das 3- bis 5-Fache der Eingabe-Tokens. Nutzen Sie unseren Token-Zähler für Live-Schätzungen über GPT-, Claude-, Gemini- und Llama-Modelle hinweg.

Die Steuer auf nicht-lateinische Schriften: Ein türkischer, griechischer oder russischer Absatz mit demselben semantischen Gehalt wie ein englischer kostet typischerweise das 2- bis 3-Fache an Tokens, weil der Tokenizer überwiegend auf englischem Text trainiert wurde und bei selteneren Schriften auf zeichenweise Zerlegung zurückfällt. Ein chinesischer Absatz kann das 4- bis 6-Fache an Tokens kosten. Das schlägt sich direkt in den Kosten nieder – denselben Chatbot auf Japanisch statt Englisch zu betreiben kann die Rechnung pro Gespräch leicht verdoppeln. Die Tokenizer des Jahrgangs 2024 (OpenAIs o200k_base, Claudes neuerer Tokenizer) fügten viele zusätzliche nicht-lateinische Tokens hinzu und verkleinerten die Lücke, doch Englisch bleibt die günstigste Sprache, um ein LLM zu betreiben.

Prompt-Caching verändert die Rechnung: OpenAI, Anthropic und Google bieten seit 2024–25 alle Prompt-Caching an – wiederholte Eingabe-Präfixe werden nach dem ersten Mal mit 25–90 % des regulären Eingabetarifs berechnet. Bei Chatbot-Lasten mit stabilen System-Prompts und langen Kontexten senkt das die effektiven Eingabekosten drastisch. Der Cache arbeitet pro Präfix (Hash der führenden Tokens), Umsortieren bricht ihn also auf; strukturieren Sie Prompts mit stabilen Inhalten zuerst, dynamischen Inhalten zuletzt. Referenz: OpenAI tiktoken – der Referenz-BPE-Tokenizer.

Durchgerechnetes Beispiel: Tokens in einem echten Prompt zählen

Prompt: „Fasse das folgende Besprechungsprotokoll in drei Stichpunkten zusammen.“ gefolgt von 2.000 Wörtern englischem Protokoll und der Bitte um eine 200-Wörter-Zusammenfassung. Mit dem Tokenizer cl100k_base (GPT-4, GPT-4o-Familie): die Anweisung umfasst 11 Tokens; 2.000 englische Wörter tokenisieren zu rund 2.700 Tokens; das Modell liefert 200 Wörter ≈ 270 Ausgabe-Tokens. Bei beispielhaften GPT-4o-Preisen von 2026 (2,50 USD/M Eingabe, 10 USD/M Ausgabe): Eingabekosten 2.711 / 1.000.000 × 2,50 ≈ 0,0068 USD; Ausgabekosten 270 / 1.000.000 × 10 ≈ 0,0027 USD. Insgesamt ≈ 0,95 Cent pro Aufruf. Übersetzt man dasselbe Protokoll ins Japanische (~6.500 Tokens beim selben Tokenizer), verdreifachen sich die Kosten pro Aufruf etwa – ohne dass das Modell mehr nachdenkt.

Wann Token-Zahlen im Betrieb zählen

Über den Preis hinaus bestimmen Tokens, ob etwas ins Kontextfenster passt. Ein Modell mit 128.000 Tokens fasst grob 96.000 englische Wörter, 64.000 Zeilen Python oder 24.000 japanische Zeichen, bevor älterer Inhalt verdrängt wird. RAG-Pipelines (Retrieval-Augmented Generation) sollten Quelldokumente in Fenster von 200–1.000 Tokens zerlegen, um die Embedding-Qualität zu sichern; zu große Chunks verwischen das Embedding, zu kleine zerreißen semantisch zusammengehörigen Inhalt. Werkzeuge: tiktoken (OpenAI), @anthropic-ai/tokenizer (Anthropic), Hugging Faces AutoTokenizer (offene Modelle). Verwandt: Kontextfenster, LLM. Hintergrund: Hugging Face – Tokenizer summary.

Frequently asked questions

Was ist ein GPT-Token?
Ein Token ist die kleinste Einheit, die ein LLM verarbeitet – grob 4 englische Zeichen oder 0,75 Wörter. Text wird mit einem Tokenizer (z. B. BPE) in Tokens zerlegt, bevor das Modell ihn überhaupt sieht.
Wie viele Tokens verbraucht ein typischer Absatz?
Ein durchschnittlicher englischer Absatz mit 100 Wörtern wird zu etwa 130–140 Tokens. Derselbe Absatz auf Japanisch oder Chinesisch kann das 3- bis 6-Fache an Tokens kosten, weil der Tokenizer überwiegend auf Englisch trainiert wurde.
Was ist der Unterschied zwischen Eingabe- und Ausgabe-Tokens?
Eingabe-Tokens sind der an das Modell übergebene Prompt; Ausgabe-Tokens sind die erzeugte Antwort. Ausgabe-Tokens kosten in den meisten kommerziellen Preisstufen typischerweise das 3- bis 5-Fache der Eingabe-Tokens.
Warum ist Prompt-Caching für die Token-Kosten wichtig?
Zwischengespeicherte Eingabe-Präfixe werden bei wiederholten Aufrufen nur mit 10–25 % des normalen Tarifs berechnet. Prompts so zu strukturieren, dass stabile Systemanweisungen zuerst und dynamische Inhalte zuletzt stehen, maximiert die Cache-Trefferquote und kann die Kosten pro Aufruf drastisch senken.

Related

Published May 14, 2026 · Last reviewed May 31, 2026