Glossary
Latencia
Tiempo entre petición y respuesta
By Buğra SözeriPublished Updated
La latencia es el tiempo entre el envío de una petición y la llegada de la respuesta. En sistemas en red se mide en milisegundos; en sistemas distribuidos a veces en microsegundos; en la latencia percibida por el usuario, en los cientos de milisegundos donde los humanos empiezan a notarla.
Tres mediciones que todo ingeniero debería conocer sobre la latencia de un servicio:
- Latencia media (promedio). Normalmente engañosa. Un solo valor atípico lento la sube.
- Latencia mediana (p50). La experiencia de una petición típica. Más honesta que la media.
- Latencias de cola (p95, p99, p99,9). Los percentiles 95, 99 y 99,9 de los tiempos de respuesta. p99 significa “el 1% de las peticiones son más lentas que esto.” Para sistemas orientados al usuario, p99 captura la experiencia de los usuarios con mala suerte.
Por qué importan las colas: a escala, cada usuario llega a la cola eventualmente. Un servicio con p50 de 100 ms y p99 de 5000 ms tiene un rendimiento típico rápido y congelaciones ocasionales de 5 segundos. Un usuario que realiza 100 peticiones en una sesión probablemente llegará a la cola al menos una vez.
Fuentes de latencia en una petición HTTP típica:
- DNS: 1-50 ms en la primera consulta, ~0 si está en caché.
- Negociación TCP: 1 tiempo de ida y vuelta (RTT).
- Negociación TLS: 1-2 RTT adicionales.
- Procesamiento del servidor: muy variable, de microsegundos a segundos.
- Propagación en red: ~5 ms NY-Chicago, ~70 ms NY-Londres, ~150 ms NY-Sydney. El límite inferior es la velocidad de la luz.
Para el rendimiento real de una API, la distribución de percentiles importa mucho más que la media. Reportar solo la latencia media es una de las formas clásicas en que los paneles de monitoreo engañan.
Por qué p99 es la métrica que define “se siente roto”: un servicio con el 99% de las peticiones por debajo de 100 ms pero el 1% tardando 5 segundos se siente roto para cada usuario que eventualmente llega al camino lento. Las matemáticas: si una carga de página típica realiza 50 llamadas al backend y p99 es 5 s, entonces la probabilidad de que el usuario encuentre al menos una llamada lenta es 1 − (0,99)⁵⁰ ≈ 40%. Casi cada dos cargas de página son lentas. Mejorar la mediana es invisible; reducir p99 mejora directamente el rendimiento percibido. El manual de SRE de Google codificó este principio (“la latencia de cola es la latencia”), y la convención se ha extendido en toda la industria. Referencia: Dean & Barroso — The Tail at Scale (CACM, 2013).
Ejemplo práctico: asignación de presupuesto en una petición
Objetivo: 200 ms p95 para una página de pago de un usuario en EE. UU. El RTT NY-Londres a velocidad de la luz es aproximadamente 70 ms; ese es el mínimo para cualquier llamada transatlántica. Un fanout típico: 50 ms TLS + ahorros por reutilización de conexión, 40 ms lectura de base de datos regional, 60 ms autorización de pago de terceros, 20 ms renderizado HTML, 30 ms hidratación del lado del cliente. Sumando todo esto de forma naíf da 200 ms — sin margen para reintentos, pausas del recolector de basura o picos de vecino ruidoso. La solución es estructural: mover la llamada de pago fuera del camino crítico (diferir a post-redirección), cachear la lectura de la base de datos en el borde durante 60 s y usar HTTP/3 sobre QUIC para combinar TLS en la configuración de la conexión. Cada cambio recorta 30-50 ms de la cola.
Cómo instrumentarlo correctamente
Agregar por media descarta exactamente la forma de la distribución que necesitas. Muestrea tiempos brutos o usa histogramas HDR (la biblioteca HdrHistogram de Gil Tene, portada a la mayoría de los lenguajes), que preservan los percentiles de forma económica. Calcula percentiles por región, por endpoint, por versión — una regresión global de 5 ms en p99 puede significar una regresión de 200 ms en una sola región enmascarada por el promedio. Ten cuidado con la “omisión coordinada”: los generadores de carga que esperan una petición lenta antes de emitir la siguiente subestiman p99 por órdenes de magnitud. Ver también percentil y mediana. Para el desglose del RTT a nivel de protocolo, la especificación RFC 9000 QUIC documenta el establecimiento de conexión 0-RTT y 1-RTT que reduce materialmente la latencia del handshake.
Frequently asked questions
- ¿Qué es la latencia?
- La latencia es el tiempo transcurrido entre el envío de una petición y la recepción del primer byte de la respuesta. Se mide normalmente en milisegundos y tiene tres componentes principales: retardo de propagación (velocidad de la luz sobre la distancia), retardo de procesamiento (cómputo del servidor) y retardo de cola (congestión de red).
- ¿En qué se diferencia la latencia del rendimiento?
- La latencia mide el retardo de una sola petición; el rendimiento mide cuántas peticiones o bytes por segundo puede manejar un sistema. Un sistema puede tener alto rendimiento y alta latencia simultáneamente, como un carguero que transporta muchos contenedores lentamente.
- ¿Por qué los equipos monitorean la latencia p95 o p99 en lugar del promedio?
- Los promedios ocultan la peor experiencia posible. El percentil 99 (p99) captura lo que experimentan el 1% más lento de los usuarios, que a menudo es entre 5 y 10 veces la mediana. Los SLAs y la satisfacción del usuario suelen romperse por las latencias de cola, no por la mediana.
- ¿Cuál es un presupuesto de latencia realista para la carga de una página web?
- Un objetivo común es menos de 200 ms para el primer pintado con contenido, desglosado aproximadamente como: 50 ms DNS + TLS, 50 ms procesamiento del servidor, 100 ms viajes de ida y vuelta en red y renderizado. Cada llamada API adicional, fallo de CDN o script síncrono suma al total.
Related
Published May 16, 2026 · Last reviewed May 31, 2026