Glossary
Deviazione standard del campione
La dispersione di un dataset campione
By Buğra SözeriPublished Updated
La deviazione standard del campione è la radice quadrata della varianza campionaria:
s = √(Σ(xᵢ − x̄)² / (n − 1))
Dove x̄ è la media campionaria, n è la dimensione del campione e la somma copre tutti i valori. Il divisore n − 1 è la correzione di Bessel — compensa il fatto che la media campionaria è più vicina ai dati di quanto lo sarebbe la (sconosciuta) vera media della popolazione, il che fa sì che la somma grezza dei quadrati delle deviazionisottostimi la vera varianza della popolazione.
Usare la deviazione standard del campione quando il dataset è estratto da un gruppo più grande che non si può misurare in modo esaustivo (il che avviene quasi sempre). Usare la deviazione standard della popolazione (divisione per n) solo quando il dataset è letteralmente l’intera popolazione — ogni dipendente della propria azienda, ogni transazione di marzo.
Per grandi dimensioni campionarie la differenza è trascurabile (n vs n-1 è rumore di arrotondamento). Per piccole dimensioni campionarie — diciamo, n < 30 — la correzione è significativamente importante e si dovrebbe preferire la forma campionaria.
Il nostro calcolatore di statistiche usa per default la forma campionaria con un interruttore per passare alla popolazione.
Perché la radice quadrata reintroduce una piccola distorsione: la correzione di Bessel rende la varianza campionaria uno stimatore non distorto della varianza della popolazione, ma l’operazione di radice quadrata è non lineare e la disuguaglianza di Jensen morde — la deviazione standard del campione sistematicamentesottostima la vera deviazione standard della popolazione, anche dopo la correzione N−1. La distorsione è circa (1/4n) per dati normali, quindi 2,5% a n=10, 0,25% a n=100 e trascurabile oltre n=1000. I pacchetti statistici per lo più ignorano questo; lo stimatore della correzione c4 non distorto s × √((n−1)/2) × Γ((n−1)/2) / Γ(n/2) esiste per applicazioni in cui è rilevante (controllo qualità con dimensioni campionarie molto piccole). Riferimento: NIST/SEMATECH e-Handbook — Deviazione standard.
Esempio pratico
Cinque misurazioni di un saggio chimico: 9,8, 10,1, 9,9, 10,3, 10,4. Media x̄ = 10,10. Deviazioni quadratiche: 0,09, 0,00, 0,04, 0,04, 0,09 — somma 0,26. Varianza campionaria s² = 0,26 / 4 = 0,065; deviazione standard campionaria s ≈ 0,255. La deviazione standard della popolazione (divide per 5) sarebbe 0,228 — una sottostima del 12% della dispersione del processo sottostante quando si tratta un campione come un censimento. Per una carta di controllo della qualità con limiti di controllo a x̄ ± 3s, quella differenza sposta il limite superiore da 10,78 a 10,87, cambiando materialmente quali lotti di produzione attiverebbero un allarme fuori controllo.
Quando è importante in pratica
I test A/B, la scienza di laboratorio, i sondaggi e la finanza traggono tutti inferenze da campioni e riportano l’incertezza come ±s o come intervallo di confidenza costruito su s/√n. Usare la formula della popolazione su un campione sottostima l’incertezza e gonfia la significatività statistica — il peccato cardinale nella crisi della riproducibilità. I fogli di calcolo riflettono questa distinzione nei loro nomi di funzione:DEV.ST di Excel divide per n−1,DEV.ST.POP per n; il metodo.std() di pandas usa per default ddof=1 (campione), mentre np.std() di NumPy usa per default ddof=0(popolazione). Mescolare questi è uno degli errori numerici silenziosi più comuni nelle pipeline di dati. Vedi anche varianza e correzione di Bessel.
Frequently asked questions
- Cos’è la deviazione standard del campione?
- La deviazione standard del campione (s) misura la dispersione dei valori attorno alla media campionaria, calcolata come la radice quadrata delle deviazioni quadratiche medie usando n meno 1 (non n) al denominatore. Dividere per n meno 1 (correzione di Bessel) produce una stima non distorta della deviazione standard della popolazione.
- Perché si divide per n meno 1 invece che per n?
- La media campionaria viene calcolata dagli stessi dati, quindi è più vicina ai valori del campione di quanto lo sarebbe la vera media della popolazione. Questo fa sì che la somma ingenua dei quadrati delle deviazioni sottostimi la vera varianza. Dividere per n meno 1 corregge questa distorsione, producendo uno stimatore non distorto.
- Qual è la differenza tra la deviazione standard del campione e quella della popolazione?
- La deviazione standard della popolazione (sigma) divide per N (tutti i valori) e descrive la dispersione effettiva di una popolazione completa nota. La deviazione standard del campione (s) divide per n meno 1 e si usa quando si ha un sottoinsieme e si vuole stimare la dispersione della popolazione. Per n grande la differenza è trascurabile.
Related
Published May 14, 2026 · Last reviewed May 31, 2026