Glossary
Latenz
Zeit zwischen Anfrage und Antwort
By Buğra SözeriPublished Updated
Latenz ist die Zeit zwischen dem Senden einer Anfrage und dem Eintreffen der Antwort. In vernetzten Systemen wird sie in Millisekunden gemessen; in verteilten Systemen manchmal in Mikrosekunden; bei der vom Nutzer wahrgenommenen Latenz in Hunderten von Millisekunden, wo Menschen sie zu bemerken beginnen.
Drei Messgrößen, die jeder Ingenieur über die Latenz eines Dienstes kennen sollte:
- Mittlere (durchschnittliche) Latenz. Meist irreführend. Ein einzelner langsamer Ausreißer zieht sie nach oben.
- Median (p50) Latenz. Das Erlebnis der typischen Anfrage. Ehrlicher als der Mittelwert.
- Tail-Latenzen (p95, p99, p99,9). Das 95., 99., 99,9. Perzentil der Antwortzeiten. p99 bedeutet “1 % der Anfragen sind langsamer als dies.” Für nutzerseitige Systeme erfasst p99 das Erlebnis der unglücklichen Nutzer.
Warum Tails wichtig sind: Im großen Maßstab trifft jeder Nutzer irgendwann den Tail. Ein Dienst mit 100 ms p50 und 5000 ms p99 hat eine schnelle typische Leistung und gelegentliche 5-Sekunden-Einfrierungen. Ein Nutzer, der 100 Anfragen in einer Sitzung stellt, trifft den Tail wahrscheinlich mindestens einmal.
Latenzquellen in einer typischen HTTP-Anfrage:
- DNS: 1–50 ms beim ersten Lookup, ~0 im Cache.
- TCP-Handshake: 1 Round-Trip-Time (RTT).
- TLS-Handshake: 1–2 zusätzliche RTTs.
- Serververarbeitung: stark variabel, von Mikrosekunden bis Sekunden.
- Netzwerkausbreitung: ~5 ms NY–Chicago, ~70 ms NY–London, ~150 ms NY–Sydney. Untergrenze ist die Lichtgeschwindigkeit.
Für die reale API-Leistung zählt die Perzentilverteilung weit mehr als der Mittelwert. Nur den mittleren Latenzwert zu berichten ist eine der klassischen Arten, wie Monitoring-Dashboards in die Irre führen.
Warum p99 die Kennzahl ist, die “fühlt sich kaputt an” definiert: Ein Dienst mit 99 % der Anfragen unter 100 ms, aber 1 % mit 5 Sekunden, fühlt sich für jeden Nutzer kaputt an, der irgendwann den langsamen Pfad trifft. Die Mathematik: Wenn ein typischer Seitenaufruf 50 Backend-Aufrufe macht und p99 5 s beträgt, dann ist die Wahrscheinlichkeit, dass der Nutzer mindestens einen langsamen Aufruf trifft, 1 − (0,99)⁵⁰ ≈ 40 %. Fast jeder zweite Seitenaufruf ist langsam. Den Median zu verbessern ist unsichtbar; p99 zu senken verbessert die wahrgenommene Leistung direkt. Googles SRE-Handbuch kodifizierte dieses Prinzip (“tail latency is the latency”), und die Konvention hat sich branchenweit verbreitet. Quelle: Dean & Barroso — The Tail at Scale (CACM, 2013).
Durchgerechnetes Beispiel: Budgetverteilung über eine Anfrage
Ziel: 200 ms p95 für eine Checkout-Seite eines US-Nutzers. Die Lichtgeschwindigkeits-RTT NY–London beträgt etwa 70 ms; das ist die Untergrenze für jeden transatlantischen Aufruf. Ein typischer Fanout: 50 ms TLS + Einsparungen durch Verbindungswiederverwendung, 40 ms regionaler DB-Lesevorgang, 60 ms Zahlungsautorisierung durch Dritte, 20 ms HTML-Rendering, 30 ms clientseitige Hydration. Diese naiv addiert ergibt 200 ms – ohne jeden Spielraum für Wiederholungen, GC-Pausen oder Noisy-Neighbour-Spitzen. Die Lösung ist strukturell: den Zahlungsaufruf aus dem kritischen Pfad nehmen (auf Post-Redirect verschieben), den DB-Lesevorgang 60 s am Edge cachen und HTTP/3 über QUIC nutzen, um TLS in den Verbindungsaufbau zu falten. Jede Maßnahme schneidet 30–50 ms vom Tail.
Wie man es richtig instrumentiert
Die Aggregation nach Mittelwert verwirft gerade die Form der Verteilung, die Sie benötigen. Erfassen Sie Roh-Timings als Stichprobe oder verwenden Sie HDR-Histogramme (Gil Tenes HdrHistogram-Bibliothek, in die meisten Sprachen portiert), die Perzentile kostengünstig erhalten. Berechnen Sie Perzentile pro Region, pro Endpunkt, pro Release – eine globale p99-Regression von 5 ms kann eine 200-ms-Regression in einer einzelnen Region bedeuten, die durch die Mittelung verdeckt wird. Achten Sie auf “coordinated omission”: Lastgeneratoren, die auf eine langsame Anfrage warten, bevor sie die nächste absetzen, unterschätzen p99 um Größenordnungen. Siehe auch Perzentil und Median. Für die RTT-Aufschlüsselung auf Protokollebene dokumentiert die RFC-9000-QUIC-Spezifikation den 0-RTT- und 1-RTT-Verbindungsaufbau, der die Handshake-Latenz erheblich reduziert.
Frequently asked questions
- Was ist Latenz?
- Latenz ist die Zeit, die zwischen dem Senden einer Anfrage und dem Empfang des ersten Bytes der Antwort vergeht. Sie wird typischerweise in Millisekunden gemessen und hat drei Hauptkomponenten: Ausbreitungsverzögerung (Lichtgeschwindigkeit über Distanz), Verarbeitungsverzögerung (Serverberechnung) und Warteschlangenverzögerung (Netzwerküberlastung).
- Wie unterscheidet sich Latenz von Durchsatz?
- Latenz misst die Verzögerung einer einzelnen Anfrage; Durchsatz misst, wie viele Anfragen oder Byte pro Sekunde ein System bewältigen kann. Ein System kann gleichzeitig hohen Durchsatz und hohe Latenz haben – wie ein Massengutfrachter, der viele Container langsam transportiert.
- Warum überwachen Teams die p95- oder p99-Latenz statt des Durchschnitts?
- Durchschnittswerte verbergen das Worst-Case-Erlebnis. Das 99. Perzentil (p99) erfasst, was die langsamsten 1 % der Nutzer erleben, was oft das 5- bis 10-Fache des Medians ist. SLAs und Nutzerzufriedenheit werden typischerweise durch Tail-Latenzen gebrochen, nicht durch den Median.
- Was ist ein realistisches Latenzbudget für das Laden einer Webseite?
- Ein gängiges Ziel liegt unter 200 ms für den First Contentful Paint, grob aufgeteilt als: 50 ms DNS + TLS, 50 ms Serververarbeitung, 100 ms Netzwerk-Roundtrips und Rendering. Jeder zusätzliche API-Aufruf, CDN-Miss oder synchrone Skript erhöht die Summe.
Related
Published May 16, 2026 · Last reviewed May 31, 2026