Guide
Deviazione standard spiegata senza la notazione matematica
Cosa misura, perché la formula ha due versioni e come leggere il risultato senza una laurea in statistica.
By Buğra SözeriPublished
La deviazione standardè un numero che riassume quanto un insieme di valori è disperso. Una deviazione standard piccola significa che i valori sono strettamente raggruppati attorno alla media. Una grande significa che sono dispersi. Questo è l’intero concetto. Tutto il resto — la formula, il dibattito n-1 vs n, la curva a campana — è solo meccanismi per rendere la dispersione confrontabile tra dataset e dimensioni campionarie diverse.
Cosa misura davvero
Immagina due classi che hanno entrambe un punteggio medio di 75.
- Classe A: i punteggi sono 73, 74, 75, 76, 77. Deviazione standard: 1,6.
- Classe B: i punteggi sono 55, 65, 75, 85, 95. Deviazione standard: 15,8.
Stessa media, distribuzioni molto diverse. La classe A è uniforme; la classe B ha un ampio intervallo. La deviazione standard cattura quella differenza in un unico numero.
L’unità della deviazione standard è la stessa unità dei dati. Punteggi dei test in punti → deviazione standard in punti. Altezze in centimetri → deviazione standard in centimetri. Questo rende il numero direttamente interpretabile.
Come calcolarla (in tre passi)
- Trova la media. Somma i valori, dividi per il conteggio.
- Calcola la distanza quadratica di ogni valore dalla media. Per la classe A sopra, la media è 75. Le distanze quadratiche sono: (73-75)² = 4, (74-75)² = 1, (75-75)² = 0, (76-75)² = 1, (77-75)² = 4. Somma: 10.
- Dividi per n-1 (campione) o n (popolazione), poi estrai la radice quadrata. Classe A: 10/(5-1) = 2,5; sqrt(2,5) = 1,58.
L’elevamento al quadrato è ciò che fa sì che le grandi deviazioni dominino quelle piccole — una deviazione di 4 contribuisce con 16 alla somma; una deviazione di 1 contribuisce con 1. La radice quadrata alla fine riporta il risultato nell’unità originale.
n vs n-1: perché esistono due formule
Se hai tutti i dati (ogni valore della popolazione), dividi per n. Se hai un campioneestratto da una popolazione più grande e vuoi stimare la deviazione standard di quella popolazione, dividi per n-1. La versione n-1 è chiamata deviazione standard campionaria; la versione n è la deviazione standard di popolazione.
Perché la versione campionaria usa n-1? Perché la media del campione è essa stessa un punto del campione, il campione sottostima la dispersione reale della popolazione (i punti dati sono, in media, più vicini alla propria media che alla vera media della popolazione). Dividere per n-1 gonfia la stima quanto basta per correggere il bias in media. Questo si chiama correzione di Bessel.
In pratica: se stai calcolando la deviazione standard da un campione (cosa che la maggior parte dei calcoli del mondo reale fa), usa n-1. STDEV.S di Excel e statistics.stdev di Python usano n-1 di default.STDEV.P di Excel e numpy.std usano n di default. Scegliere la funzione sbagliata cambia silenziosamente i risultati di qualche percentuale su campioni piccoli.
Come leggere il numero
Una volta ottenuta la deviazione standard, ecco l’intuizione utile:
- ~68% dei valori si trova entro ±1 deviazione standard dalla media (per distribuzioni approssimativamente normali).
- ~95% si trova entro ±2 deviazioni standard.
- ~99,7% si trova entro ±3 deviazioni standard.
Questa “regola 68-95-99,7” (chiamata anche regola empirica) vale per qualsiasi distribuzione approssimativamente a forma di campana. Per la classe A sopra: media 75, DS 1,58. L’intervallo [73,4; 76,6] dovrebbe contenere circa il 68% dei valori — e guardando i numeri effettivi, tre dei cinque (60%) rientrano in quell’intervallo. Abbastanza vicino per un campione di cinque.
Per le distribuzioni non normali (dati fortemente asimmetrici, dati bimodali, dati ricchi di outlier) la regola empirica non si applica in modo pulito. In quei casi, i percentili o l’intervallo interquartile descrivono la dispersione meglio della deviazione standard.
Esprimere una singola osservazione in “quante deviazioni standard dalla media” è così utile da avere un nome proprio: il punteggio z. Per la classe A, uno studente che ha ottenuto 78 ha un punteggio z di (78 − 75) / 1,58 ≈ 1,9 — quasi due DS sopra la media, che lo colloca nel top ~3% di una distribuzione normale.
Quando la deviazione standard è lo strumento sbagliato
Tre casi:
- Outlier.Un valore estremo gonfia drammaticamente la deviazione standard. I dati sul reddito sono un esempio classico — un singolo miliardario in un campione di mille persone tira la deviazione standard molto più in alto di qualsiasi nozione intuitiva di dispersione tipica. Usa invece l’intervallo interquartile o la deviazione assoluta mediana.
- Distribuzioni asimmetriche. Quando la maggior parte dei valori è piccola e pochi sono molto grandi (o viceversa), la media e la deviazione standard insieme non descrivono la forma. Riporta percentili o quartili.
- Dati categorici.La deviazione standard richiede una scala numerica dove la distanza ha significato. Non si può calcolare una deviazione standard significativa dei valori [“rosso”, “blu”, “verde”].
Varianza: la cugina della deviazione standard
La varianza è lo stesso calcolo senza la radice quadrata finale. È in unità quadratiche (punti², cm²), più difficile da interpretare direttamente ma più facile da trattare matematicamente — le varianze si possono sommare tra fonti indipendenti, mentre le deviazioni standard no. In pratica, si calcola la varianza e si riporta la deviazione standard.
Esempio pratico rapido
Dataset: [4, 8, 6, 5, 3, 7]
- Media: (4+8+6+5+3+7) / 6 = 5,5
- Deviazioni quadratiche: (4-5,5)² = 2,25, (8-5,5)² = 6,25, (6-5,5)² = 0,25, (5-5,5)² = 0,25, (3-5,5)² = 6,25, (7-5,5)² = 2,25
- Somma delle deviazioni quadratiche: 17,5
- Varianza campionaria (÷ n-1): 17,5 / 5 = 3,5
- Deviazione standard campionaria: √3,5 = 1,87
Verifica con il nostro calcolatore di statistiche— calcola media, mediana, entrambe le versioni della deviazione standard e i percentili in un’unica operazione.
La conclusione pratica
La deviazione standard risponde a “quanto sono dispersi questi dati?” nelle unità proprie dei dati. Per dati approssimativamente normali, la regola 68/95/99,7 permette di tradurre il numero in un’immagine mentale rapida. Per dati asimmetrici o ricchi di outlier, torna ai percentili. E controlla sempre se lo strumento che stai usando applica il divisore n-1 (campione) o n (popolazione) — la differenza è piccola ma reale.
Analisi: confronto di due linee di produzione
Due linee di produzione che producono alberi di 100 mm. Venti campioni ciascuna, tutte le misurazioni entro tolleranza:
- Linea A: media 100,00 mm, DS campionaria 0,05 mm.
- Linea B: media 100,00 mm, DS campionaria 0,20 mm.
Medie identiche. La linea A è quattro volte più consistente. Sotto la regola 68/95/99,7, la linea A mantiene il 99,7% dei pezzi entro ±0,15 mm dal nominale; l’intervallo del 99,7% della linea B è ±0,60 mm. Se la tolleranza ingegneristica è ±0,30 mm, la linea A produce zero pezzi fuori tolleranza in aspettativa; la linea B ne produce circa il 13% fuori tolleranza. La deviazione standard mette in luce la differenza in un numero; le sole medie suggerirebbero che le linee fossero indistinguibili.
Questa è la versione ingegneristica dell’esempio sul reddito — stesso centro, dispersione diversa, conseguenze drammaticamente diverse. I grafici SPC (statistical process control) nella produzione funzionano esattamente su questa logica: monitora media e DS nel tempo; segnala la linea quando la DS aumenta anche se la media rimane stabile.
Errori comuni
- Usare n vs n-1 in modo incoerente in un report.Mescolare
STDEV.Sdi Excel connumpy.stddi default nella stessa analisi produce piccole ma reali discrepanze. Scegli una convenzione per progetto e documentala. - Riportare la DS senza n. La deviazione standard di tre misurazioni è essenzialmente non informativa. Con n=3, la tua stima della DS ha il proprio errore standard di ~40%. Riporta la dimensione del campione accanto a ogni DS; sotto n=10 circa, tratta la DS come una stima approssimativa.
- Trattare gli “eventi a 3 sigma” come impossibili. La cifra del 99,7% vale per le distribuzioni normali. I dati del mondo reale con code pesanti (mercati, disastri naturali, latenze di rete) producono eventi a 3 sigma ordini di grandezza più spesso di quanto il modello normale preveda. La crisi finanziaria del 2008 fu un evento a 25 sigma sotto ipotesi gaussiane; sotto ipotesi a legge di potenza, era routine.
- Confondere DS con errore standard. La deviazione standard descrive la dispersione dei dati; l’errore standard della media descrive la precisione della stima della media. SEM = DS / √n, e si riduce con la dimensione del campione. Confonderli gonfia la precisione apparente.
- Sommare le deviazioni standard. Le DS non si sommano. Le varianze di variabili indipendenti si sommano; estrai la radice quadrata della somma per ottenere la DS combinata. DS_combinata = √(DS₁² + DS₂²), non DS₁ + DS₂.
Per la questione del centro della distribuzione che si abbina alla dispersione, continua con la nostra guida su media, mediana e moda.
Fonti: NIST/SEMATECH e-Handbook of Statistical Methods, §1.3.5.6 (Deviazione standard). Pubblicazione originale della correzione di Bessel: F. W. Bessel, Astronomische Nachrichten, 1819. Wasserman, All of Statistics(2004) sugli stimatori non distorti.
Frequently asked questions
- Cosa misura davvero la deviazione standard?
- La deviazione standard misura quanto un insieme di valori è disperso attorno alla media. Una deviazione standard piccola significa che i valori si raggruppano strettamente attorno alla media; una grande significa che sono ampiamente dispersi. L’unità è la stessa dei dati — punti, euro, millisecondi, ecc.
- Qual è la differenza tra deviazione standard di popolazione e deviazione standard campionaria?
- La deviazione standard di popolazione divide per n (tutti i dati). La deviazione standard campionaria divide per n−1 (correzione di Bessel) per produrre una stima non distorta quando si dispone solo di un campione. STDEV.S di Excel e statistics.stdev di Python usano n−1; numpy.std usa n di default.
- Cosa significa la regola 68-95-99,7 per la deviazione standard?
- Per distribuzioni approssimativamente normali, circa il 68% dei valori cade entro ±1 deviazione standard dalla media, il 95% entro ±2 e il 99,7% entro ±3. Questo permette di convertire rapidamente una deviazione standard in un’immagine mentale di quanto estremo sia qualsiasi valore individuale.
- Quando la deviazione standard è lo strumento sbagliato da usare?
- La deviazione standard è fuorviante quando i dati contengono outlier (un valore estremo la gonfia drammaticamente), sono fortemente asimmetrici (redditi, prezzi delle case) o sono categorici. Per dati asimmetrici, riporta invece l’intervallo interquartile o la deviazione assoluta mediana.
- Si possono sommare le deviazioni standard?
- No. Le deviazioni standard non si sommano direttamente. Le varianze di variabili indipendenti si sommano, quindi la formula corretta è DS_combinata = √(DS₁² + DS₂²). Sommare direttamente le deviazioni standard sovrastima la dispersione combinata.
Related
Published May 16, 2026