Skip to content

Glossary

Régression

Ajuster des prédicteurs à des résultats

By Published Updated

La régression est une méthode statistique pour modéliser la relation entre une variable dépendante (le résultat que vous souhaitez prédire) et une ou plusieurs variables indépendantes (les prédicteurs). Le résultat est une fonction — typiquement avec des paramètres ajustés sur des données historiques — qui vous permet d’estimer le résultat à partir de nouvelles valeurs prédictives.

La forme la plus simple est la régression linéaire : y = β₀ + β₁x + ε. L’algorithme trouve les coefficients β qui minimisent la somme des résidus au carré (les “erreurs”). Pour un ensemble de données de paires (taille, poids), la régression linéaire produit la droite d’ajustement optimal à travers les points, ce qui vous permet d’estimer le poids pour n’importe quelle nouvelle taille.

Variantes courantes :

  • Régression linéaire multiple : plusieurs prédicteurs. y = β₀ + β₁x₁ + β₂x₂ + ... + ε.
  • Régression polynomiale : les prédicteurs incluent des puissances de x. y = β₀ + β₁x + β₂x² + .... Ajuste les relations courbes.
  • Régression logistique : le résultat est binaire (0/1). Le modèle produit une probabilité via la fonction logistique.
  • Ridge / lasso / elastic-net : régression linéaire avec une pénalité pour les grands coefficients. Utilisé lorsqu’il y a de nombreux prédicteurs et que l’on veut éviter le surajustement.

Les vérifications de base pour toute régression : dans quelle mesure s’ajuste-t-elle aux données d’entraînement (R², graphiques des résidus), dans quelle mesure se généralise-t-elle à de nouvelles données (validation croisée, ensemble de test de validation), les résidus semblent-ils aléatoires (ou montrent-ils des schémas que le modèle a manqués) ?

La régression est le cheval de bataille de la science empirique. La corrélation indique la force avec laquelle deux variables évoluent ensemble ; la régression vous donne l’équation qui convertit l’une en l’autre.

Les hypothèses classiques et leurs limites : la machinerie inférentielle standard de la régression linéaire (valeurs p sur les coefficients, intervalles de confiance, tests F) dépend de quatre hypothèses — linéarité, résidus indépendants, résidus de variance égale (homoscédasticité) et résidus normaux. Les données réelles violent l’une ou plusieurs de ces conditions régulièrement : les données de séries temporelles violent l’indépendance ; les rendements financiers violent l’homoscédasticité ; les petits échantillons violent la normalité. Les statisticiens modernes corrigent soit les erreurs standard (estimateurs “sandwich” robustes à l’hétéroscédasticité, erreurs standard en clusters) soit ignorent entièrement l’appareil inférentiel et utilisent le rééchantillonnage bootstrap pour estimer empiriquement les intervalles de confiance.

Là où la régression échoue silencieusement — le piège de la “régression vers la moyenne” : la technique tire son nom de l’observation de Francis Galton en 1886 selon laquelle les parents grands tendent à avoir des enfants légèrement plus petits, et les parents petits des enfants légèrement plus grands — les deux se rapprochant de la moyenne de la population. Le phénomène est purement statistique (sélection sur des valeurs extrêmes + mesure bruyante = valeurs prédites plus proches de la moyenne) et produit le piège classique consistant à confondre la “régression vers la moyenne” avec un véritable effet causal. Les performances sportives, la satisfaction client et les résultats médicaux montrent tous ce phénomène ; toute “intervention qui a aidé des personnes à l’extrême” nécessite un groupe de contrôle pour distinguer l’effet réel de la régression vers la moyenne. Référence : NIST/SEMATECH e-Handbook — Régression linéaire.

Frequently asked questions

Qu’est-ce que la régression en statistiques ?
La régression est une méthode statistique pour modéliser la relation entre une ou plusieurs variables prédictives et une variable de résultat continue. La régression linéaire ajuste une droite qui minimise la somme des résidus au carré entre les valeurs prédites et observées.
Comment la régression est-elle utilisée en pratique ?
Un détaillant utilise la régression linéaire pour prédire les ventes à partir des dépenses publicitaires et de la saisonnalité. Un médecin utilise la régression logistique pour estimer la probabilité qu’un patient développe le diabète à partir de marqueurs cliniques. Les deux utilisent le modèle pour faire des prédictions quantitatives à partir de nouvelles entrées.
Quelle est la différence entre la régression linéaire et la régression logistique ?
La régression linéaire prédit un résultat numérique continu (par exemple le prix d’une maison). La régression logistique prédit la probabilité d’un résultat binaire (par exemple défaut de prêt oui/non) en utilisant une fonction sigmoïde pour contraindre la sortie entre 0 et 1. La méthode d’ajustement et l’interprétation diffèrent substantiellement.

Related

Published May 16, 2026 · Last reviewed May 31, 2026