Glossary
Variance
L’écart type au carré
By Buğra SözeriPublished Updated
La variance est la moyenne des écarts quadratiques par rapport à la moyenne. Pour le jeu de données [4, 8, 6, 5, 3, 7] avec une moyenne de 5,5 : les écarts quadratiques sont 2,25, 6,25, 0,25, 0,25, 6,25, 2,25 ; somme 17,5 ; variance d’échantillon (÷ n-1) = 3,5.
La variance est en unités au carré (kilogrammes², dollars², secondes²) ce qui la rend difficile à interpréter directement. Prendre la racine carrée donne l’écart type, qui est dans les unités d’origine. Les deux portent la même information ; la variance est ce qu’on calcule, l’écart type est ce qu’on rapporte.
Pourquoi s’embêter avec la variance ? Parce que les variances sont additives entre sources de variation indépendantes. Si X et Y sont indépendants, Var(X + Y) = Var(X) + Var(Y) — une propriété que les écarts types n’ont pas. C’est ce qui fait de la variance l’unité naturelle pour l’analyse de variance (ANOVA), la propagation d’erreurs, et la plupart des statistiques théoriques.
Pour l’intuition du statisticien praticien sur la variance et l’écart type, voir le guide l’écart type expliqué.
Variance de population vs variance d’échantillon — le choix N vs N−1 : pour calculer la variance sur une population entière, on divise la somme des écarts quadratiques par N. Pour estimer la variance de population à partir d’un échantillon, on divise par N−1 — connu sous le nom de correction de Bessel. La correction compense le fait que la moyenne d’échantillon est plus proche des données que la moyenne de population (inconnue) ne le serait, ce qui biaise à la baisse la somme brute des écarts quadratiques. Pour de petits échantillons la différence est significative ; pour N grand elle est négligeable. R, pandas et VAR() d’Excel utilisent N−1 par défaut ; np.var() de NumPy utilise N par défaut (modifiable avec ddof=1). Lisez la documentation avant de citer une variance — le facteur silencieux N/(N−1) provoque régulièrement des rapports de bugs “mais les chiffres ne correspondent pas”.
Pièges numériques dans le calcul de la variance : la formule du manuel Var = E[X²] − (E[X])² est mathématiquement correcte mais numériquement instable — pour des données groupées avec une grande moyenne (ex. températures en Kelvin, prix financiers), elle calcule la différence de deux grands nombres presque égaux et perd catastrophiquement en précision. L’algorithme en ligne de Welford (1962) et la variante parallèle plus récente de Chan-Golub-LeVeque calculent la variance en un seul passage sans soustraction de grands termes presque égaux et constituent la norme moderne. NumPy et pandas les implémentent sous le capot ; recoder la formule du manuel sur des données de production est un piège connu. Connexe : écart type d’échantillon, moyenne, calculatrice statistiques.
Exemple concret
Supposons que vous possédiez un portefeuille d’actions avec deux positions indépendantes : l’action A a une variance annuelle de rendements Var(A) = 0,04 (donc ET = 20 %), l’action B a Var(B) = 0,09 (ET = 30 %). Détenues individuellement, A est moins risquée. Combinez-les à 50/50 : Var(0,5·A + 0,5·B) = 0,25·Var(A) + 0,25·Var(B) = 0,01 + 0,0225 = 0,0325, donc ET de portefeuille ≈ √0,0325 ≈ 18 %. Le portefeuille diversifié a une variance inférieure à celle de chaque composante — l’intuition de Markowitz de 1952 en une ligne d’arithmétique. Remarque : cela fonctionne uniquement parce que les variances s’additionnent (suppose l’indépendance). Si A et B étaient parfaitement corrélés, Var(0,5A + 0,5B) = 0,25·Var(A) + 0,25·Var(B) + 2·0,25·Cov(A,B) = 0,0325 + 2·0,25·0,20·0,30 = 0,0625, ET = 25 % — la moyenne des deux ET, aucun bénéfice de diversification.
Quand et pourquoi c’est important
La variance est l’unité opérationnelle du risque en finance (théorie du portefeuille), de l’erreur en physique expérimentale (combinaison des incertitudes de mesure via la somme quadratique), du contrôle qualité (Six Sigma cible la réduction de variance plutôt que la réduction de la moyenne parce que les décalages de moyenne sont faciles à ajuster, les décalages de variance nécessitent une reconception du processus), et de l’apprentissage automatique (le compromis biais-variance : les modèles à haute variance sur-ajustent, les modèles à fort biais sous-ajustent). Quand vous lisez “indice de capabilité de processus” Cpk en fabrication ou “erreur de suivi” dans les rapports de performance de fonds, vous lisez une statistique dérivée de la variance. Rapporter l’écart type donne l’intuition ; rapporter la variance donne une quantité qui s’additionne entre sources — les deux sont nécessaires pour une communication statistique fluide. Référence : NIST/SEMATECH e-Handbook — Measures of Scale.
Frequently asked questions
- Qu’est-ce que la variance en statistiques ?
- La variance est la moyenne des écarts quadratiques par rapport à la moyenne : variance de population = somme de (xi moins mu)^2 divisée par N, ou variance d’échantillon = somme de (xi moins x-barre)^2 divisée par (n moins 1). Elle quantifie la dispersion des valeurs, en unités au carré des données d’origine.
- Pourquoi la variance est-elle exprimée en unités au carré ?
- Élever les écarts au carré les rend tous positifs (les négatifs et positifs ne s’annulent pas) et pondère fortement les grands écarts. L’inconvénient est que la variance est en unités au carré (ex. kg²), c’est pourquoi l’écart type — la racine carrée de la variance — est plus souvent rapporté en unités interprétables.
- Quelle est la différence entre variance et écart type ?
- La variance est l’écart quadratique moyen ; l’écart type est sa racine carrée, restituant les unités d’origine. La variance a la propriété utile d’être additive entre variables indépendantes ; l’écart type ne s’additionne pas linéairement, rendant la variance préférable dans les dérivations statistiques.
Related
Published May 16, 2026 · Last reviewed May 31, 2026