Glossary
Écart-type de l’échantillon
Dispersion d’un ensemble de données échantillon
By Buğra SözeriPublished Updated
L’écart-type de l’échantillonest la racine carrée de la variance de l’échantillon :
s = √(Σ(xᵢ − x̄)² / (n − 1))
Où x̄ est la moyenne de l’échantillon, nest la taille de l’échantillon, et la somme porte sur toutes les valeurs. Le diviseur n − 1 est la correction de Bessel— il compense le fait que la moyenne de l’échantillon est plus proche des données que la vraie moyenne de la population (inconnue) ne le serait, ce qui fait que la somme brute des déviations quadratiques sous-estime la vraie variance de la population.
Utilisez l’écart-type de l’échantillon lorsque votre ensemble de données est tiré d’un groupe plus large que vous ne pouvez pas mesurer exhaustivement (ce qui est presque toujours le cas). Utilisez l’écart-type de la population (divisez par n) uniquement lorsque l’ensemble de données est littéralement toute la population — chaque employé de votre entreprise, chaque transaction en mars.
Pour des tailles d’échantillon importantes, la différence est négligeable (n vs n-1 est un bruit d’arrondi). Pour de petites tailles d’échantillon — disons, n < 30 — la correction est significativement importante et vous devriez préférer la forme échantillon.
Notre calculateur statistique utilise par défaut la forme échantillon avec un bouton pour basculer vers la population.
Pourquoi la racine carrée réintroduit un petit biais : la correction de Bessel rend la variance de l’échantillon un estimateur non biaisé de la variance de la population, mais l’opération de racine carrée est non linéaire et l’inégalité de Jensen joue — l’écart-type de l’échantillon sous-estime systématiquement le véritable écart-type de la population, même après la correction N−1. Le biais est d’environ (1/4n) pour des données normales, soit 2,5 % pour n=10, 0,25 % pour n=100, et négligeable au-delà de n=1000. Les packages statistiques ignorent généralement ceci. Référence : NIST/SEMATECH e-Handbook — Écart-type.
Exemple de calcul
Cinq mesures d’un dosage chimique : 9,8, 10,1, 9,9, 10,3, 10,4. Moyenne x̄ = 10,10. Déviations quadratiques : 0,09, 0,00, 0,04, 0,04, 0,09 — somme 0,26. Variance de l’échantillon s² = 0,26 / 4 = 0,065; écart-type de l’échantillon s ≈ 0,255. L’écart-type de la population (diviser par 5) serait 0,228 — une sous-estimation de 12 % de la dispersion du processus sous-jacent lors du traitement d’un échantillon comme un recensement. Pour un graphique de contrôle qualité avec des limites de contrôle àx̄ ± 3s, cette différence déplace la limite supérieure de 10,78 à 10,87, modifiant substantiellement quelles séries de production déclencheraient une alarme de dépassement de contrôle.
Quand cela importe en pratique
Les tests A/B, la science de laboratoire, les sondages et la finance tirent tous des inférences à partir d’échantillons et rapportent l’incertitude sous forme de ±s ou d’un intervalle de confiance construit surs/√n. Utiliser la formule de population sur un échantillon sous-estime l’incertitude et gonfle la significativité statistique — le péché cardinal dans les articles de la crise de reproductibilité. Les tableurs reflètent cette distinction dans leurs noms de fonctions : Excel’s ECARTYPE.STANDARD divise par n−1,ECARTYPE.PEARSON par n ; .std() de pandas utilise par défaut ddof=1 (échantillon), np.std()de NumPy utilise par défaut ddof=0(population). Mélanger ces fonctions est l’un des bugs numériques silencieux les plus courants dans les pipelines de données. Voir aussi variance et correction de Bessel.
Frequently asked questions
- Qu’est-ce que l’écart-type de l’échantillon ?
- L’écart-type de l’échantillon (s) mesure la dispersion des valeurs autour de la moyenne de l’échantillon, calculé comme la racine carrée des déviations quadratiques moyennes en utilisant n moins 1 (et non n) au dénominateur. Diviser par n moins 1 (correction de Bessel) produit une estimation non biaisée de l’écart-type de la population.
- Pourquoi diviser par n moins 1 plutôt que par n ?
- Une moyenne d’échantillon est calculée à partir des mêmes données, donc elle est plus proche des valeurs de l’échantillon que la vraie moyenne de la population ne le serait. Cela fait que la somme naïve des déviations quadratiques sous-estime la vraie variance. Diviser par n moins 1 corrige ce biais, produisant un estimateur non biaisé.
- Quelle est la différence entre l’écart-type de l’échantillon et l’écart-type de la population ?
- L’écart-type de la population (sigma) divise par N (toutes les valeurs) et décrit la dispersion réelle d’une population complète connue. L’écart-type de l’échantillon (s) divise par n moins 1 et est utilisé quand on dispose d’un sous-ensemble et qu’on veut estimer la dispersion de la population. Pour un grand n, la différence est négligeable.
Related
Published May 14, 2026 · Last reviewed May 31, 2026