Glossary
Varianza
La deviazione standard al quadrato
By Buğra SözeriPublished Updated
Varianza è la media dei quadrati degli scarti dalla media. Per il dataset [4, 8, 6, 5, 3, 7] con media 5.5: gli scarti al quadrato sono 2.25, 6.25, 0.25, 0.25, 6.25, 2.25; somma 17.5; varianza campionaria (÷ n-1) = 3.5.
La varianza è in unità al quadrato (chilogrammi², dollari², secondi²) il che la rende difficile da interpretare direttamente. Calcolando la radice quadrata si ottiene la deviazione standard, che è nelle unità originali. Le due portano le stesse informazioni; la varianza è ciò che si calcola, la deviazione standard è ciò che si riporta.
Perché preoccuparsi della varianza? Perché le varianze sono additive tra fonti di variazione indipendenti. Se X e Y sono indipendenti, Var(X + Y) = Var(X) + Var(Y) — una proprietà che le deviazioni standard non hanno. Questo è ciò che rende la varianza l’unità naturale per l’analisi della varianza (ANOVA), la propagazione degli errori e la maggior parte della statistica teorica.
Per l’intuizione pratica del statistico dietro varianza e deviazione standard, vedere la guida deviazione standard spiegata.
Varianza della popolazione vs varianza campionaria — la scelta N vs N−1: quando si calcola la varianza sull’intera popolazione, si divide la somma degli scarti al quadrato per N. Quando si stima la varianza della popolazione da un campione, si divide per N−1 — nota come correzione di Bessel. La correzione compensa il fatto che la media campionaria è più vicina ai dati rispetto alla media della popolazione (sconosciuta), il che pregiudica al ribasso la somma grezza degli scarti al quadrato. Con campioni di piccole dimensioni la differenza è significativa; con N grande è trascurabile. R, pandas e il VAR() di Excel hanno come default N−1; np.var() di NumPy ha come default N (modificabile con ddof=1). Leggere la documentazione prima di citare una varianza — la discrepanza silenziosa del fattore N/(N−1) causa regolarmente segnalazioni di bug del tipo “ma i numeri non corrispondono”.
Insidie numeriche nel calcolo della varianza: la formula del libro di testo Var = E[X²] − (E[X])² è matematicamente corretta ma numericamente instabile — per dati raggruppati con una media grande (es. temperature in Kelvin, prezzi finanziari), calcola la differenza di due numeri grandi quasi uguali e perde la precisione in modo catastrofico. L’algoritmo online di Welford (1962) e la variante parallela di Chan-Golub-LeVeque più recente calcolano la varianza in un singolo passaggio senza sottrazione di termini quasi uguali grandi e sono lo standard moderno. NumPy e pandas li implementano internamente; implementare la formula del libro di testo su dati di produzione è un problema noto. Correlato: deviazione standard campionaria, media, calcolatore di statistiche.
Esempio pratico
Supponiamo di possedere un portafoglio azionario con due posizioni indipendenti: l’azione A ha una varianza annuale dei rendimenti Var(A) = 0.04 (quindi DS = 20%), l’azione B ha Var(B) = 0.09 (DS = 30%). Detenute singolarmente, A è meno rischiosa. Combinandole 50/50: Var(0.5·A + 0.5·B) = 0.25·Var(A) + 0.25·Var(B) = 0.01 + 0.0225 = 0.0325, quindi DS del portafoglio ≈ √0.0325 ≈ 18%. Il portafoglio diversificato ha una varianza inferiore a entrambe le componenti — l’intuizione di Markowitz del 1952 in una riga di aritmetica. Nota: questo funziona solo perché le varianze si sono sommate (assume indipendenza). Se A e B fossero perfettamente correlate, Var(0.5A + 0.5B) = 0.25·Var(A) + 0.25·Var(B) + 2·0.25·Cov(A,B) = 0.0325 + 2·0.25·0.20·0.30 = 0.0625, DS = 25% — la media delle due DS, nessun beneficio di diversificazione.
Quando e perché è importante
La varianza è l’unità operativa del rischio in finanza (teoria del portafoglio), dell’errore in fisica sperimentale (combinando le incertezze di misura tramite somma quadratica), del controllo qualità (Six Sigma mira alla riduzione della varianza piuttosto che della media perché gli spostamenti della media sono facili da calibrare, gli spostamenti della varianza richiedono una riprogettazione del processo) e del machine learning (il trade-off bias-varianza: i modelli con alta varianza si sovrappongono, i modelli con alto bias si sottoadattano). Quando si legge “indice di capacità del processo” Cpk in produzione o “tracking error” nei report di performance dei fondi, si sta leggendo una statistica derivata dalla varianza. Riportare la deviazione standard fornisce intuizione; riportare la varianza fornisce una quantità che si somma tra le fonti — entrambe sono necessarie per una comunicazione statistica fluente. Riferimento: NIST/SEMATECH e-Handbook — Misure di scala.
Frequently asked questions
- Che cos’è la varianza in statistica?
- La varianza è la media dei quadrati degli scarti dalla media: varianza della popolazione = somma di (xi meno mu)^2 divisa per N, o varianza campionaria = somma di (xi meno x-barra)^2 divisa per (n meno 1). Quantifica quanto sono dispersi i valori, in unità al quadrato dei dati originali.
- Perché la varianza è espressa in unità al quadrato?
- Elevare al quadrato gli scarti li rende tutti positivi (così negativi e positivi non si annullano) e pesa fortemente le deviazioni grandi. Lo svantaggio è che la varianza è in unità al quadrato (es. kg al quadrato), motivo per cui la deviazione standard -- la radice quadrata della varianza -- viene riportata più comunemente in unità interpretabili.
- Qual è la differenza tra varianza e deviazione standard?
- La varianza è la deviazione quadratica media; la deviazione standard è la sua radice quadrata, che ripristina le unità originali. La varianza ha la proprietà utile di essere additiva tra variabili indipendenti; la deviazione standard non si somma linearmente, rendendo la varianza preferita nelle derivazioni statistiche.
Related
Published May 16, 2026 · Last reviewed May 31, 2026