Glossary
Rango intercuartílico
Q3 − Q1: el 50% central
By Buğra SözeriPublished Updated
El rango intercuartílico (IQR) es la diferencia entre el percentil 75 (Q3) y el percentil 25 (Q1). Captura el 50% central de un conjunto de datos — el rango que contiene los valores “típicos”.
Para el conjunto de datos [1, 3, 4, 5, 6, 7, 8, 9, 10, 20]: Q1 = 4, Q3 = 9, IQR = 5. La mitad central de los datos se sitúa entre 4 y 9. El valor atípico 20 no afecta al IQR en absoluto.
Por qué importa el IQR: es robusto frente a los valores atípicos de una manera que la desviación estándar no lo es. Para distribuciones sesgadas (ingresos, tiempos de respuesta, tamaños de archivos), el IQR describe la dispersión mucho mejor que la DE. La regla común de 1.5 × IQR define los valores atípicos como valores por debajo de Q1 − 1.5×IQR o por encima de Q3 + 1.5×IQR — la convención de Tukey y la base de los diagramas de caja.
Usa el IQR cuando: los datos están sesgados, los valores atípicos son comunes, o quieres un resumen de un solo número que no induzca a error. Usa la desviación estándar cuando: los datos son aproximadamente normales y quieres alimentarlos a estadísticas posteriores (intervalos de confianza, regresión).
Ejemplo práctico
Latencias de solicitudes HTTP de muestra (ms): [12, 14, 18, 22, 25, 28, 31, 33, 38, 42, 45, 48, 52, 58, 64, 71, 89, 110, 180, 4200]. Media: 264 ms — arrastrada muy hacia arriba por el valor atípico de 4200 ms (probablemente un fallo de red o un arranque en frío). Mediana (Q2): 43.5 ms. Q1: 25.75 ms. Q3: 67.25 ms. IQR = Q3 − Q1 = 41.5 ms. La valla superior de Tukey de 1.5 × IQR = Q3 + 62.25 = 129.5 ms. Así que la solicitud de 180 ms es un valor atípico límite; la de 4200 ms está muy por encima — una anomalía clara que vale la pena investigar. La desviación estándar de este mismo conjunto de datos es de aproximadamente 920 ms, dominada completamente por el punto de 4200 ms, y sugeriría que la latencia típica es 264 ± 920 ms — lo cual no tiene sentido (la latencia no puede ser negativa). El resumen basado en IQR (“mediana 43.5 ms, IQR 25.75 a 67.25 ms”) es la descripción veraz del rendimiento típico.
La aritmética de cuartiles también se generaliza: los deciles dividen los datos en diez partes, los quintiles en cinco, los percentiles en cien. Las estadísticas de ingresos suelen usar deciles (“el decil superior de los asalariados de EE. UU.”), la puntuación de crédito usa percentiles (“tu FICO está en el percentil 78”), y los gráficos de crecimiento clínico trazan la altura/peso del niño frente a los percentiles de edad y sexo. El modelo mental es el mismo: resumen basado en rangos que ignora la escala de los valores.
Cuándo y por qué importa
El IQR importa cuando los datos están sesgados — que en la práctica es la mayoría de los datos del mundo real fuera de los experimentos de física. Los tiempos de respuesta, las distribuciones de ingresos, los tamaños de archivos, los períodos de atención, las ventas por tienda y casi todo en el análisis de productos tecnológicos tiene una distribución con cola derecha donde unos pocos valores grandes dominan la media. Informar “tiempo de respuesta promedio” para una API induce a error a los lectores; informar p50, p90, p99 — tres percentiles — comunica la forma de la distribución. Los ingenieros de fiabilidad del sitio aprendieron esta lección a la fuerza en los años 2000; las plataformas modernas de observabilidad (Datadog, Honeycomb, histogramas de Prometheus) usan por defecto métricas basadas en percentiles para la latencia. El error a evitar es calcular el “promedio” solo y actuar sobre él: optimizar la latencia media cuando el dolor del usuario está en el p99 desperdicia el esfuerzo de ingeniería. Referencia: Manual electrónico NIST/SEMATECH — Cuartiles.
Por qué hay nueve formas de calcular un cuartil: la posición de Q1 en un conjunto de datos de N valores es ambigua cuando N no es un múltiplo de 4 + 1, y los estadísticos han propuesto nueve convenciones para interpolar entre valores adyacentes. La función quantile() de R usa por defecto el Tipo 7 (interpolación lineal entre estadísticos de orden), la función QUARTILE.INC de Excel coincide con el Tipo 7, np.percentile() de NumPy también usa interpolación lineal por defecto, pero SAS, Minitab y el método de bisagra original de Tukey usan fórmulas diferentes. Los IQR difieren en unos pocos puntos porcentuales entre métodos en muestras pequeñas y convergen a medida que N crece. La calculadora de estadísticas de Convertitive usa el Tipo 7 porque coincide con las herramientas de análisis más usadas.
Diagramas de caja, IQR y detección de valores atípicos en sistemas de producción: la valla de 1.5 × IQR de Tukey es la base de los bigotes de los diagramas de caja y se usa ampliamente en los paneles de observabilidad (Datadog, Grafana, agregadores de cuantiles de Prometheus) para señalar valores atípicos de latencia sin asumir una distribución normal. Para datos con colas muy pesadas (latencia de solicitudes web, rendimientos financieros), incluso 1.5 × IQR es demasiado agresivo — las latencias de solicitudes rutinariamente caen en la cola de “valores atípicos” por diseño. La solución pragmática es ampliar a 3 × IQR para definiciones de valores atípicos extremos o cambiar por completo a objetivos de nivel de servicio basados en percentiles (p95, p99). Relacionado: percentil, mediana, varianza.
Frequently asked questions
- ¿Qué es el rango intercuartílico (IQR)?
- El IQR es la diferencia entre el percentil 75 (Q3) y el percentil 25 (Q1) de un conjunto de datos. Mide la dispersión del 50% central de los valores, ignorando los extremos.
- ¿Cómo se usa el IQR para detectar valores atípicos?
- La regla estándar marca como posible valor atípico cualquier valor por debajo de Q1 − 1.5×IQR o por encima de Q3 + 1.5×IQR. Los diagramas de caja usan exactamente esta regla para determinar los extremos de los bigotes y señalar los puntos extremos.
- ¿Cuál es la diferencia entre el IQR y la desviación estándar?
- La desviación estándar mide la dispersión respecto a la media y es sensible a los valores atípicos; el IQR mide la dispersión respecto a la mediana y es robusto frente a ellos. Para distribuciones sesgadas o datos con valores atípicos, el IQR es una medida de dispersión más informativa.
- ¿Cuándo debo reportar el IQR en lugar de la desviación estándar?
- Reporta el IQR cuando los datos estén sesgados o contengan valores atípicos — los resultados de ensayos clínicos, las distribuciones de ingresos y las métricas de tiempo de respuesta son casos típicos. Se combina naturalmente con la mediana, igual que la desviación estándar se combina con la media.
Related
Published May 16, 2026 · Last reviewed May 31, 2026