Glossary
Correction de Bessel
Le N−1 dans la variance d’un échantillon
By Buğra SözeriPublished
La correction de Bessel est la convention consistant à diviser par N−1 au lieu de N lors du calcul de la variance et de l’écart-type d’un échantillon. La correction compense la sous-estimation systématique de la variance de la population qui résulte de l’utilisation de la moyenne de l’échantillon (qui est plus proche des données que la vraie moyenne de la population inconnue ne le serait) comme point de centrage.
Nommée d’après Friedrich Bessel, astronome et mathématicien allemand du XIXe siècle. La preuve mathématique : E[Σ(x − x̄)²] = (N−1)σ² où σ² est la vraie variance de la population et l’espérance s’étend sur tous les échantillons possibles de taille N. Diviser la somme observée par N−1 produit un estimateur non biaisé de σ².
Pour un grand N, la correction est négligeable (1/N vs 1/(N−1) diffèrent de moins de 1 % au-delà de N=100). Pour un petit N, elle importe de manière significative — à N=5, la variance corrigée est 25 % plus grande que la version non corrigée. Notre calculateur de statistiques utilise par défaut la forme corrigée de Bessel car l’ensemble de données que vous collez est presque toujours un échantillon, pas une population complète.
Quand ne pas appliquer la correction de Bessel : lorsque vous disposez réellement de l’ensemble de la population, pas d’un échantillon tiré de celle-ci. Si vous calculez la variance des notes de test de chaque élève d’une classe et que vous ne vous intéressez qu’à cette classe, divisez par N. Si vous utilisez cette classe pour estimer la variance dans l’ensemble de la population d’élèves, divisez par N−1. Les packages statistiques ne sont pas d’accord sur la valeur par défaut : np.var() de NumPy utilise N ; .var() de pandas et var() de R utilisent N−1. Lisez la documentation avant de citer un chiffre.
La correction de Bessel supprime le biais de la variance mais l’écart-type d’échantillon dérivé (la racine carrée) est toujours légèrement biaisé — la racine carrée est une fonction non linéaire et l’inégalité de Jensen entre en jeu. Pour la plupart des usages pratiques, ce biais résiduel est ignoré ; pour les travaux sur petits échantillons où cela importe, utilisez un facteur de correction c4. Voir aussi écart-type d’échantillon et variance.
Pourquoi cela importe : un exemple pratique
Considérez un échantillon de cinq notes de test : 72, 78, 80, 84, 86. La moyenne est 80. La somme des écarts au carré par rapport à la moyenne est (72−80)² + (78−80)² + (80−80)² + (84−80)² + (86−80)² = 64 + 4 + 0 + 16 + 36 = 120. Sans la correction de Bessel, la variance est 120 ÷ 5 = 24 ; avec la correction de Bessel, elle est 120 ÷ (5−1) = 30, soit une estimation 25 % plus grande. Les écarts-types correspondants sont √24 ≈ 4,90 et √30 ≈ 5,48. Si vous traitez ceci comme un échantillon tiré d’une population d’élèves plus grande, 5,48 est l’estimation non biaisée de la dispersion de la population ; 4,90 la sous-estime systématiquement. À N = 30, l’écart se réduit à 3,4 % ; à N = 100, il est de 1 % ; à N = 1000, il est de 0,1 %. La correction vaut sa complexité uniquement pour les vrais petits échantillons.
Pourquoi cela importe : intervalles de confiance et tests t
Toute procédure qui utilise l’écart-type de l’échantillon comme estimateur de substitution de l’écart-type de la population dépend de l’application de la correction de Bessel. Les intervalles de confiance autour d’une moyenne, les tests t à deux échantillons, les statistiques F de l’ANOVA et les erreurs standard de régression supposent tous le dénominateur non biaisé N−1. Oublier la correction produit des intervalles de confiance plus étroits que la réalité ne le justifie et gonfle les taux d’erreur de type I — une source discrète mais réelle de résultats non reproductibles dans les travaux empiriques sur petits échantillons. Référence : Manuel e-Statistique NIST/SEMATECH §1.3.5.6 — Écart-type.
Frequently asked questions
- Qu’est-ce que la correction de Bessel ?
- La correction de Bessel consiste à utiliser N−1 (au lieu de N) au dénominateur lors du calcul de la variance d’un échantillon. Elle corrige la sous-estimation systématique qui se produit parce que les écarts de l’échantillon sont mesurés à partir de la moyenne de l’échantillon, et non de la vraie moyenne de la population.
- Comment la correction de Bessel fonctionne-t-elle en pratique ?
- Pour un échantillon de 5 valeurs {2, 4, 4, 4, 5}, la somme des écarts au carré par rapport à la moyenne (3,8) est 5,2. Diviser par N=5 donne une variance biaisée de 1,04 ; diviser par N−1=4 donne la variance d’échantillon non biaisée de 1,3, qui estime mieux la variance de la population.
- Quelle est la différence entre variance de population et variance d’échantillon ?
- La variance de population divise par N et est exacte quand vous disposez de tous les points de données. La variance d’échantillon divise par N−1 (correction de Bessel) et est un estimateur non biaisé quand vous n’avez qu’un sous-ensemble. La plupart des fonctions VAR() des tableurs utilisent N−1 par défaut.
- Quand ne faut-il PAS appliquer la correction de Bessel ?
- Lorsque vous disposez de la population complète — chaque point de données — divisez par N. La correction de Bessel n’est appropriée que lorsque vos données constituent un échantillon tiré d’une population plus grande et que vous estimez la variance de cette population.
Related
Published May 14, 2026