Was ist ein Large Language Model (LLM)?

Ein LLM ist ein neuronales Netz, das auf großen Textmengen trainiert wird, um Sprache vorherzusagen und zu erzeugen. Modelle wie GPT-4, Claude und Gemini haben Milliarden von Parametern und können Fragen beantworten, Code schreiben, Dokumente zusammenfassen und viele Sprachaufgaben erledigen.

Wie erzeugt ein LLM Text?

Ein LLM erzeugt Text Token für Token, indem es aus einer Wahrscheinlichkeitsverteilung über sein Vokabular sampelt, bedingt durch alle vorherigen Token im Gespräch. Dieser autoregressive Prozess setzt sich fort, bis ein Sequenzende-Token erzeugt wird oder eine Längenbegrenzung erreicht ist.

Was ist der Unterschied zwischen einem LLM und einem Chatbot?

Ein LLM ist das zugrunde liegende Modell; ein Chatbot ist ein darauf aufgebautes Produkt. Dasselbe LLM kann mehrere Schnittstellen antreiben – Chat, API, IDE-Plugin – jede mit unterschiedlichen Systemprompts, Sicherheitsschichten und UX, während sie sich dieselben Basismodellgewichte teilen.

Was begrenzt, wie viel Kontext ein LLM verarbeiten kann?

Das Kontextfenster – gemessen in Token – definiert die maximale kombinierte Länge von Eingabe und Ausgabe, die das Modell in einem Inferenzaufruf verarbeiten kann. Längere Kontexte erhöhen Speicher- und Rechenkosten für aufmerksamkeitsbasierte Modelle quadratisch, weshalb die Größe des Kontextfensters eine zentrale Spezifikation ist.

Glossary

LLM

Large Language Model

By Buğra SözeriPublished May 14, 2026Updated May 31, 2026

LLM (Large Language Model) ist ein neuronales Netz, das auf riesigen Textmengen trainiert wird – typischerweise Hunderte von Milliarden Wörtern –, um das nächste Token in einer Sequenz angesichts des vorangehenden Kontexts vorherzusagen. Das “Large” bezieht sich auf die Parameterzahl: moderne Spitzen-LLMs reichen von 100 Milliarden bis über 2 Billionen Parameter.

Zugrunde liegende Architektur: Transformer (Vaswani et al., 2017), mit Variationen der ursprünglichen Encoder-Decoder-Aufteilung. Die GPT-Familie ist reine Decoder; das ursprüngliche BERT war reiner Encoder; T5 behält beides. Spitzenmodelle seit 2020 sind überwiegend reine Decoder.

Trainingspipeline: Vortraining auf einem breiten Textkorpus, um Sprachstatistiken zu lernen, gefolgt von Instruction Tuning und bestärkendem Lernen aus menschlichem Feedback (RLHF) oder KI-Feedback (RLAIF), um das Modell dazu zu bringen, Anweisungen nützlich zu befolgen.

Wichtige LLM-Familien Stand 2026: OpenAIs GPT (3.5, 4, 4o, 5), Anthropics Claude (3.5 Sonnet, 4, 4.6, 4.7), Googles Gemini (1.5, 2, 2.5), Metas Llama (2, 3, 4) und mehrere Open-Weight-Alternativen (Mistral, Qwen, DeepSeek). Vergleichen Sie API-Preise in unserem Token-Zähler.

Was LLMs mechanisch sind und nicht sind: Zur Inferenzzeit ist ein LLM eine Funktion von einer Token-Sequenz zu einer Wahrscheinlichkeitsverteilung über das nächste Token. Die Erzeugung sampelt aus dieser Verteilung (mit Temperature-, Top-p- und Top-k-Steuerungen), hängt das gewählte Token an und wiederholt. Es gibt kein “Reasoning-Modul” im klassischen Sinne – jede Ausgabe, ob ein Mathematikbeweis oder ein Gedicht, stammt aus derselben Next-Token-Schleife. Chain-of-Thought-Prompting funktioniert, weil das Hineinschreiben der Argumentation in den Kontext dem Modell erlaubt, spätere Token an seinen eigenen Zwischenschritten zu bedingen, nicht weil es einen anderen Inferenzmodus auslöst. Die Illusion von Argumentation ist ein Nebeneffekt des Trainings auf einer enormen Verteilung menschlichen Texts, der bereits Argumentation enthält.

Warum Kontextfenster und Tokenisierung für die Kosten wichtig sind: Jede API-Gebühr fällt pro Token rein und pro Token raus an, und ein Modell mit einem 200.000-Token-Kontextfenster berechnet, welchen Anteil davon Sie tatsächlich füllen. Ein 50-seitiges PDF, das in den Prompt geworfen wird, kostet vielleicht ein paar Cent zum Lesen und ein paar Cent, um eine einseitige Zusammenfassung zu erzeugen – der Großteil der Rechnung ist die Eingabe. Die Tokenisierung ist anbieterspezifisch: GPTs BPE, Claudes SentencePiece und Geminis Tokenizer erzeugen für denselben Text unterschiedliche Token-Zahlen, sodass das auf Basis von $-pro-Token günstigste Modell nicht unbedingt das in der Praxis günstigste ist. Verwenden Sie unseren Token-Zähler, um tatsächliche Token-Zahlen zwischen Anbietern zu vergleichen, bevor Sie sich festlegen. Verwandt: GPT-Token, Kontextfenster.

Durchgerechnetes Beispiel

Sie möchten einen 40-seitigen Rechtsvertrag (~25.000 Wörter ≈ 33.000 Token) mit einem Spitzenmodell zusammenfassen, das mit 3 $ pro Million Eingabe-Token und 15 $ pro Million Ausgabe-Token bepreist ist, und bitten um eine 500-Token-Zusammenfassung. Eingabekosten: 33.000 / 1.000.000 × 3 $ = 0,099 $. Ausgabekosten: 500 / 1.000.000 × 15 $ = 0,0075 $. Gesamt: ~0,107 $ pro Zusammenfassung. Stellen Sie sich nun vor, dies für 10.000 Verträge zu tun: 1.070 $ – und das vor jeglichen Wiederholungen, Batching-Einsparungen oder Prompt-Caching-Rabatten. Wenn Sie stattdessen ein günstigeres Modell zu 0,25 $/1,25 $ pro Million verwenden, sinken die Kosten pro Dokument auf rund 0,0095 $, insgesamt ~95 $ für denselben Auftrag. Die Rechnung erklärt, warum produktive LLM-Systeme einfache Aufgaben an kleine Modelle leiten und das Spitzenmodell für die schwersten 5 % reservieren.

Wann und warum es zählt

Zu wissen, wie LLMs funktionieren, verhindert die häufigsten Produktionsfehler. Sie haben kein Gedächtnis zwischen API-Aufrufen – jede Anfrage muss den relevanten Verlauf im Kontextfenster mitführen oder ein separates Retrieval-System nutzen. Sie konfabulieren plausibel formatierte, aber falsche Fakten, besonders bei jüngsten Ereignissen, Eigenschaften benannter Entitäten und Zitaten; die Standardgegenmaßnahmen sind Retrieval-augmentierte Generierung (RAG), Tool-Nutzung und Prüfungen der Faktentreue pro Aussage. Sie sind auf nicht offensichtliche Weise empfindlich gegenüber der Prompt-Formulierung – “think step by step” verändert die Genauigkeit bei Arithmetik- und Logikaufgaben spürbar, und Few-Shot-Beispiele können Antworten stärker verschieben als die Modellwahl. Quelle: Vaswani et al. — Attention Is All You Need (das Transformer-Paper).

Frequently asked questions

Was ist ein Large Language Model (LLM)?: Ein LLM ist ein neuronales Netz, das auf großen Textmengen trainiert wird, um Sprache vorherzusagen und zu erzeugen. Modelle wie GPT-4, Claude und Gemini haben Milliarden von Parametern und können Fragen beantworten, Code schreiben, Dokumente zusammenfassen und viele Sprachaufgaben erledigen.
Wie erzeugt ein LLM Text?: Ein LLM erzeugt Text Token für Token, indem es aus einer Wahrscheinlichkeitsverteilung über sein Vokabular sampelt, bedingt durch alle vorherigen Token im Gespräch. Dieser autoregressive Prozess setzt sich fort, bis ein Sequenzende-Token erzeugt wird oder eine Längenbegrenzung erreicht ist.
Was ist der Unterschied zwischen einem LLM und einem Chatbot?: Ein LLM ist das zugrunde liegende Modell; ein Chatbot ist ein darauf aufgebautes Produkt. Dasselbe LLM kann mehrere Schnittstellen antreiben – Chat, API, IDE-Plugin – jede mit unterschiedlichen Systemprompts, Sicherheitsschichten und UX, während sie sich dieselben Basismodellgewichte teilen.
Was begrenzt, wie viel Kontext ein LLM verarbeiten kann?: Das Kontextfenster – gemessen in Token – definiert die maximale kombinierte Länge von Eingabe und Ausgabe, die das Modell in einem Inferenzaufruf verarbeiten kann. Längere Kontexte erhöhen Speicher- und Rechenkosten für aufmerksamkeitsbasierte Modelle quadratisch, weshalb die Größe des Kontextfensters eine zentrale Spezifikation ist.

Published May 14, 2026 · Last reviewed May 31, 2026

LLM

Durchgerechnetes Beispiel

Wann und warum es zählt

Frequently asked questions

Related