Glossary
Intervallo interquartile
Q3 − Q1: il 50% centrale
By Buğra SözeriPublished Updated
L’intervallo interquartile (IQR) è la differenza tra il 75° percentile (Q3) e il 25° percentile (Q1). Cattura il 50% centrale di un dataset — l’intervallo che contiene i valori “tipici”.
Per il dataset [1, 3, 4, 5, 6, 7, 8, 9, 10, 20]: Q1 = 4, Q3 = 9, IQR = 5. La metà centrale dei dati si trova tra 4 e 9. Il valore anomalo 20 non influisce affatto sull’IQR.
Perché l’IQR è importante: è robusto rispetto ai valori anomali in un modo in cui la deviazione standard non lo è. Per distribuzioni asimmetriche (reddito, tempi di risposta, dimensioni dei file), l’IQR descrive la dispersione molto meglio della SD. La comune regola 1,5 × IQR definisce i valori anomali come valori al di sotto di Q1 − 1,5×IQR o al di sopra di Q3 + 1,5×IQR — la convenzione di Tukey, e la base dei box plot.
Usa l’IQR quando: i dati sono asimmetrici, i valori anomali sono comuni, o desideri un riepilogo in un solo numero che non tragga in inganno. Usa la deviazione standard quando: i dati sono approssimativamente normali e vuoi fornirli a statistiche successive (intervalli di confidenza, regressione).
Esempio pratico
Latenze di richiesta HTTP di esempio (ms): [12, 14, 18, 22, 25, 28, 31, 33, 38, 42, 45, 48, 52, 58, 64, 71, 89, 110, 180, 4200]. Media: 264 ms — trascinata in alto dal valore anomalo di 4200 ms (probabilmente un problema di rete o un avvio a freddo). Mediana (Q2): 43,5 ms. Q1: 25,75 ms. Q3: 67,25 ms. IQR = Q3 − Q1 = 41,5 ms. Recinto superiore 1,5 × IQR di Tukey = Q3 + 62,25 = 129,5 ms. Quindi la richiesta da 180 ms è un valore anomalo borderline; la richiesta da 4200 ms è ben oltre — un’anomalia evidente che vale la pena indagare. La deviazione standard di questo stesso dataset è circa 920 ms, dominata interamente dal punto a 4200 ms, e suggerirebbe che la latenza tipica è 264 ± 920 ms — il che è privo di significato (la latenza non può essere negativa). Il riepilogo basato sull’IQR (“mediana 43,5 ms, IQR da 25,75 a 67,25 ms”) è la descrizione veritiera delle prestazioni tipiche.
L’aritmetica dei quartili si generalizza anche: i decili dividono i dati in dieci parti, i quintili in cinque, i percentili in cento. Le statistiche sul reddito usano tipicamente i decili (“il decile superiore dei redditi statunitensi”), il credit scoring usa i percentili (“il tuo FICO è all’78° percentile”), e le carte di crescita clinica tracciano altezza/peso dei bambini rispetto ai percentili per età e sesso. Il modello mentale è lo stesso: riepilogo basato sul rango che ignora la scala dei valori.
Quando e perché è importante
L’IQR è importante ogni volta che i dati sono asimmetrici — il che in pratica descrive la maggior parte dei dati del mondo reale al di fuori degli esperimenti di fisica. I tempi di risposta, le distribuzioni del reddito, le dimensioni dei file, i tempi di attenzione, le vendite per negozio e quasi tutto nell’analisi dei prodotti tech ha una distribuzione con coda destra in cui alcuni valori grandi dominano la media. Riportare il “tempo di risposta medio” per un’API fuorvia i lettori; riportare p50, p90, p99 — tre percentili — comunica la forma della distribuzione. Gli ingegneri dell’affidabilità dei siti hanno imparato questa lezione a proprie spese negli anni 2000; le moderne piattaforme di osservabilità (Datadog, Honeycomb, istogrammi Prometheus) predefiniscono tutte metriche basate sui percentili per la latenza. L’errore da evitare è calcolare solo la “media” e agire su di essa: ottimizzare la latenza media quando il dolore dell’utente è al p99 spreca sforzo ingegneristico. Riferimento: NIST/SEMATECH e-Handbook — Quartili.
Perché esistono nove modi per calcolare un quartile: la posizione di Q1 in un dataset di N valori è ambigua quando N non è un multiplo di 4 + 1, e gli statistici hanno proposto nove convenzioni per interpolare tra valori adiacenti. La funzione quantile() di R predefinisce il Tipo 7 (interpolazione lineare tra statistiche d’ordine), QUARTILE.INC di Excel corrisponde al Tipo 7, np.percentile() di NumPy predefinisce anch’esso il lineare, ma SAS, Minitab e il metodo delle cerniere originale di Tukey usano tutti formule diverse. Gli IQR differiscono di alcuni punti percentuali tra i metodi su campioni piccoli e convergono all’aumentare di N. Il calcolatore statistiche di Convertitive usa il Tipo 7 perché corrisponde agli strumenti di analisi più diffusi.
Box plot, IQR e rilevamento dei valori anomali nei sistemi di produzione: il recinto 1,5 × IQR di Tukey è la base per i baffi dei box plot ed è ampiamente usato nei dashboard di osservabilità (Datadog, Grafana, aggregatori di quantili Prometheus) per segnalare le anomalie di latenza senza assumere una distribuzione normale. Per dati con code molto pesanti (latenza delle richieste web, rendimenti finanziari), anche 1,5 × IQR è troppo aggressivo — le latenze delle richieste si trovano routinariamente nella coda dei “valori anomali” per design, e segnalarle come anomalie genera rumore. La soluzione pragmatica è ampliare a 3 × IQR per le definizioni di valori anomali estremi o passare completamente agli obiettivi del livello di servizio basati sui percentili (p95, p99). Correlati: percentile, mediana, varianza.
Frequently asked questions
- Che cos’è l’intervallo interquartile (IQR)?
- L’IQR è la differenza tra il 75° percentile (Q3) e il 25° percentile (Q1) di un dataset. Misura la dispersione del 50% centrale dei valori, ignorando gli estremi.
- Come si usa l’IQR per rilevare i valori anomali?
- La regola standard segna come potenziale valore anomalo qualsiasi valore inferiore a Q1 − 1,5×IQR o superiore a Q3 + 1,5×IQR. I box plot usano esattamente questa regola per determinare le estremità dei baffi e segnalare i punti estremi.
- Qual è la differenza tra IQR e deviazione standard?
- La deviazione standard misura la dispersione rispetto alla media ed è sensibile ai valori anomali; l’IQR misura la dispersione rispetto alla mediana ed è robusto rispetto ad essi. Per distribuzioni asimmetriche o dati con valori anomali, l’IQR è una misura di dispersione più informativa.
- Quando dovrei riportare l’IQR invece della deviazione standard?
- Riporta l’IQR quando i dati sono asimmetrici o contengono valori anomali — i risultati degli studi clinici, le distribuzioni del reddito e le metriche dei tempi di risposta sono casi tipici. Si abbina naturalmente con la mediana, così come la deviazione standard si abbina con la media.
Related
Published May 16, 2026 · Last reviewed May 31, 2026