Skip to content

Glossary

Kontextfenster

Die harte Grenze dessen, was ein LLM auf einmal lesen kann

By Published Updated

Das Kontextfenster eines LLM ist die maximale Anzahl an Tokens, die es in einem einzigen Inferenzaufruf verarbeiten kann. Das Fenster umfasst Eingabe und Ausgabe zusammen — wenn Sie die Eingabe bis zum Rand füllen, bleibt kein Platz für die Antwort des Modells.

Kontextfenster sind dramatisch gewachsen:

  • GPT-3 (2020): 2.048 Tokens
  • GPT-3.5 (2022): 4.096 → 16.384 Tokens
  • GPT-4 (2023): 8.192 → 32.768 → 128.000 Tokens
  • Claude 3 (2024): 200.000 Tokens (~150.000 Wörter)
  • Gemini 1.5 Pro (2024): 1.000.000 Tokens (~750.000 Wörter — ein langer Roman)
  • Frontier-Modelle (2026): 1–2 Millionen Tokens üblich

Größere Fenster ermöglichen es, ganze Bücher, Codebasen oder lange Gesprächsverläufe in einen einzigen Prompt zu legen. Praktische Grenzen bleiben: Der Durchsatz sinkt bei höheren Kontextlängen, die Kosten skalieren linear mit den Eingabe-Tokens (gecacht oder nicht), und die Modellaufmerksamkeit verschlechtert sich bei sehr langen Kontexten auf gut dokumentierte Weise (“Nadel im Heuhaufen”-Benchmarks).

Durchgerechnetes Beispiel

Sie wollen einen 250-seitigen Roman (~75.000 Wörter) zusammenfassen. In OpenAIs Tokenizer (cl100k_base) ergibt dieser Text etwa 100.000 Tokens. Auf GPT-3 (2k Kontext) passt der Roman überhaupt nicht — Sie müssten ihn in 50 Stücke zerlegen und einen rekursiven Zusammenfassungsbaum ausführen. Auf GPT-3.5 16k bräuchten Sie ~7 Abschnitte. Auf GPT-4 128k passt der ganze Roman mit 28k Tokens Reserve für Anweisungen und Ausgabe. Auf Claude 3 (200k) dasselbe mit noch mehr Spielraum. Auf Gemini 1.5 Pro (1M) könnten Sie den gesamten Roman plus die vorherigen neun Bände der Reihe unterbringen und hätten noch Platz. Auch das Kostenbild verschiebt sich: Bei 3 $/M Eingabe-Tokens kostet die 100k-Token-Zusammenfassung allein 0,30 $ an Eingabe — pro Anfrage günstig, doch tausend solcher Anfragen sind 300 $, weshalb Batch-APIs und Prompt-Caching zu wirtschaftlichen Notwendigkeiten geworden sind.

Wann und warum es zählt

Das Kontextfenster zählt immer dann, wenn ein LLM-Workflow mehr Eingabe umfasst als ein typischer Chat: Prüfung von Rechtsdokumenten, codebasisweites Refactoring, Forschungssynthese über mehrere Papiere, Kundensupport-Gespräche mit langem Verlauf, Agentenschleifen, die Tool-Ausgaben anhäufen. Der zu vermeidende Fehler ist die Annahme “größeres Fenster = bessere Antworten”: Der “Lost in the Middle”-Effekt (Liu 2023) zeigt, dass in der Mitte eines langen Kontexts platzierte Information weniger zuverlässig abgerufen wird als Information am Anfang oder Ende. Das praktische Engineering-Muster ist, (a) die kritischsten Anweisungen und Beschränkungen an den Anfang zu stellen, (b) die unmittelbare Nutzeranfrage ans Ende zu stellen und (c) die Mitte als “Referenzmaterial, das das Modell konsultieren darf, aber nicht nutzen muss” zu behandeln. Bei Retrieval-Augmented Generation übertreffen kleinere Kontextfenster mit präzisem Abruf oft größere Fenster, in die alles hineingekippt wird. Referenz: OpenAI Models documentation — context window limits.

Das Aufmerksamkeitskostenproblem hinter den Kulissen: Der ursprüngliche Transformer-Aufmerksamkeitsmechanismus ist O(n²) in der Sequenzlänge — eine Verdopplung des Kontextfensters vervierfacht die Rechenkosten eines Vorwärtsdurchlaufs. Frontier-1M-Token-Modelle funktionieren dank architektonischer Tricks: FlashAttention (Tri Dao, 2022) und FlashAttention-2 (2023) strukturieren die Operation IO-bewusst um und senken die Speicherbandbreitenkosten; Sparse-Attention-Varianten (gleitendes Fenster, dilatiert) eliminieren den globalen quadratischen Term; und Ring-/Sequenz-parallele Aufmerksamkeit verteilt die Sequenz über GPUs. Keiner dieser Tricks beseitigt die zugrunde liegende Skalierung — sie schieben die Wand nur weiter hinaus.

Warum “effektiver Kontext” ≠ beworbener Kontext: Der “Nadel im Heuhaufen”-Benchmark fügt eine eindeutige Tatsache an einer bekannten Position in einen langen Kontext ein und bittet das Modell, sie abzurufen. Frontier-Modelle erreichen in diesem Benchmark bis zu ihrem beworbenen Fenster nahezu 100 %. Die schwierigeren Benchmarks — Abruf mehrerer Fakten, mehrstufiges Schlussfolgern über den langen Kontext, Zusammenfassung, die über die gesamte Eingabe synthetisiert — zeigen jenseits von ~50–100k Tokens deutlich niedrigere Werte, selbst bei 1M-Token-Modellen. Die praktische Regel: Ein 1M-Token-Fenster ist zuverlässig für “suche bestimmte Dinge in diesem großen Dokument”-Aufgaben, doch die Schlussfolgerungsqualität verschlechtert sich typischerweise jenseits der ersten ~100k. Vergleichen Sie Anbieterangaben mit Ihrer konkreten Arbeitslast. Verwandt: GPT-Token, LLM. Referenz: Liu N et al. — Lost in the Middle (2023).

Frequently asked questions

Was ist ein Kontextfenster?
Ein Kontextfenster ist die maximale Anzahl an Tokens, die ein LLM in einem einzigen Inferenzaufruf verarbeiten kann — sowohl die Eingabe (Prompt + Gesprächsverlauf) als auch die Ausgabe zusammen. Modelle mit einem Kontextfenster von 200.000 Tokens können etwa 150.000 Wörter auf einmal verarbeiten.
Wie wirkt sich das Kontextfenster in der Praxis auf die LLM-Nutzung aus?
Beim Zusammenfassen eines 500-seitigen Rechtsdokuments mit GPT-4 (128k Kontext) muss ein Entwickler das Dokument in Abschnitte aufteilen, weil es das Fenster überschreitet. Claude 3.5 mit einem 200k-Token-Fenster kann das gesamte Dokument in einem einzigen Aufruf ohne Aufteilung verarbeiten.
Was ist der Unterschied zwischen Kontextfenster und Gedächtnis?
Das Kontextfenster enthält alle Tokens, die derzeit im aktiven Gespräch sind — es wird zwischen Sitzungen geleert. Das Gedächtnis (bei Multi-Sitzungs-Agenten) ist ein separates Abrufsystem, das relevante frühere Interaktionen speichert und abruft. Kontext ist schnell und präzise; das Gedächtnis ist beständig, aber ungefähr.
Bedeutet ein größeres Kontextfenster langsamere Antworten?
Ja — Aufmerksamkeitsmechanismen in Transformern skalieren als O(n²) mit der Sequenzlänge, sodass eine Verdopplung des Kontexts den Aufmerksamkeitsaufwand etwa vervierfacht. Modelle mit sehr großen Kontextfenstern nutzen optimierte Aufmerksamkeit (z. B. Flash Attention), um diese Kosten zu senken, doch längere Kontexte erhöhen dennoch Latenz und API-Kosten.

Related

Published May 14, 2026 · Last reviewed May 31, 2026