Skip to content

Glossary

Corrélation

À quel point deux variables évoluent-elles ensemble ?

By Published Updated

La corrélation mesure le degré auquel deux variables évoluent ensemble. La mesure standard est le r de Pearson : un nombre unique de −1 à +1 où +1 signifie une relation linéaire positive parfaite, 0 signifie aucune relation linéaire, et −1 signifie une relation linéaire négative parfaite.

Interprétation pratique :

  • |r| < 0,3 — faible
  • 0,3 ≤ |r| < 0,7 — modéré
  • |r| ≥ 0,7 — fort

Trois choses que tout lecteur de coefficients de corrélation doit savoir :

  1. Le r de Pearson ne capture que les relations linéaires. Deux variables liées par une quadratique parfaite (y = x²) peuvent avoir r ≈ 0 si x s’étend sur des valeurs positives et négatives. Pour les relations non linéaires, le rhô de Spearman est l’alternative la plus robuste.
  2. La corrélation n’implique pas la causalité. Deux variables peuvent être fortement corrélées parce que A cause B, B cause A, les deux sont causées par une troisième variable, ou par pure coïncidence (surtout dans de petits échantillons).
  3. Les valeurs aberrantes distordent fortement r. Une seule valeur aberrante dans un petit jeu de données peut inverser le signe de la corrélation. Visualisez toujours les données avant de faire confiance au chiffre.

Pour les données catégorielles ou rangées par ordre, utilisez la corrélation des rangs de Spearman plutôt que Pearson. Pour les résultats binaires, consultez le coefficient phi. Pour les données catégorielles nominales à plus de deux niveaux, le V de Cramér.

Le quartet d’Anscombe — l’illustration célèbre : en 1973, le statisticien Francis Anscombe a construit quatre petits jeux de données qui partagent tous la même moyenne, la même variance, le même coefficient de corrélation (0,816) et la même droite de régression linéaire — mais semblent complètement différents quand on les trace. L’un est une tendance linéaire nette ; l’autre est une courbe parfaite ; le troisième est une droite avec une valeur aberrante ; le dernier est une ligne verticale avec un point isolé. Le quartet est encore cité comme le cas canonique pour “toujours tracer les données d’abord.” Le Datasaurus Dozen (Matejka & Fitzmaurice, 2017) étend cette idée à douze jeux de données partageant les mêmes statistiques sommaires — dont un en forme de dinosaure. Référence : NIST/SEMATECH e-Handbook — Corrélation linéaire.

Exemple de calcul

Cinq points de données (1,2), (2,4), (3,5), (4,4), (5,5). Moyennes x̄ = 3, ȳ = 4. Écarts x − x̄ : −2, −1, 0, 1, 2. Écarts y − ȳ : −2, 0, 1, 0, 1. Somme des produits croisés Σ(xᵢ − x̄)(yᵢ − ȳ) = 4 + 0 + 0 + 0 + 2 = 6. Somme des écarts au carré de x : 10 ; de y : 6. Pearson r = 6 / √(10 × 6) = 6 / 7,746 ≈ 0,775 — une forte relation linéaire positive. Un nuage de points confirmerait cette interprétation ; si le troisième point était (3, 50) au lieu de (3, 5), r resterait bien défini mais le modèle linéaire serait dominé par une seule valeur aberrante.

Quand la corrélation guide les décisions

Diversification de portefeuille : les actifs à faible corrélation par paires réduisent la variance globale même lorsque leurs volatilités individuelles sont élevées. La crise financière de 2008 a montré l’exemple catastrophique inverse — actions, obligations d’entreprises, REITs et même l’or ont tous évolué ensemble lorsque la liquidité s’est tarie, et les matrices de corrélation estimées sur les marchés calmes avaient sous-estimé le risque de queue. En ingénierie des caractéristiques ML, deux variables avec r > 0,95 sont effectivement redondantes ; en supprimer une dégrade rarement la précision du modèle et accélère l’entraînement. Pour l’expérimentation, traiter des métriques corrélées comme indépendantes gonfle le taux de faux positifs — appliquer les corrections de Bonferroni ou Benjamini-Hochberg. Connexe : régression, variance. Contexte : Coefficient de corrélation de Pearson (Wikipedia).

Frequently asked questions

Qu&rsquo;est-ce que la corrélation ?
La corrélation (r de Pearson) mesure la relation linéaire entre deux variables sur une échelle de −1 à +1. Une valeur de +1 indique une relation linéaire positive parfaite, −1 une relation linéaire négative parfaite, et 0 l&rsquo;absence de relation linéaire.
Comment la corrélation est-elle utilisée en pratique ?
Un analyste financier constate que deux actions ont une corrélation r = 0,85 — elles évoluent fortement ensemble. Ajouter la deuxième action à un portefeuille contenant la première apporte peu de diversification ; une action avec r = −0,3 en apporterait beaucoup plus.
Quelle est la différence entre corrélation et causalité ?
La corrélation mesure uniquement la co-évolution statistique, pas la cause et l&rsquo;effet. Les ventes de glaces et les noyades sont fortement corrélées car les deux augmentent en été ; la glace ne cause pas la noyade. Établir la causalité nécessite des expériences contrôlées ou des méthodes d&rsquo;inférence causale.
Quelle est la différence entre la corrélation de Pearson et de Spearman ?
Le r de Pearson mesure les relations linéaires et nécessite des données continues approximativement distribuées normalement. Le ρ (rhô) de Spearman classe d&rsquo;abord les données et mesure les relations monotones, ce qui le rend robuste aux valeurs aberrantes et adapté aux données ordinales.

Related

Published May 16, 2026 · Last reviewed May 31, 2026