Skip to content

Glossary

Regressione

Adattare predittori ai risultati

By Published Updated

La regressione è un metodo statistico per modellare la relazione tra una variabile dipendente (l’esito che si vuole prevedere) e una o più variabili indipendenti (i predittori). L’output è una funzione — tipicamente con parametri adattati a dati storici — che permette di stimare l’esito da nuovi valori dei predittori.

La forma più semplice è la regressione lineare: y = β₀ + β₁x + ε. L’algoritmo trova i coefficienti β che minimizzano la somma dei quadrati dei residui (gli “errori”). Per un dataset di coppie (altezza, peso), la regressione lineare produce la retta di miglior adattamento attraverso i punti, che permette di stimare il peso da qualsiasi nuova altezza.

Varianti standard:

  • Regressione lineare multipla: diversi predittori. y = β₀ + β₁x₁ + β₂x₂ + ... + ε.
  • Regressione polinomiale: i predittori includono le potenze di x. y = β₀ + β₁x + β₂x² + .... Adatta relazioni curve.
  • Regressione logistica: l’esito è binario (0/1). Il modello produce una probabilità tramite la funzione logistica.
  • Ridge / lasso / elastic-net: regressione lineare con una penalità per coefficienti elevati. Usata quando ci sono molti predittori e si vuole evitare l’overfitting.

I controlli di sanità fondamentali per qualsiasi regressione: quanto si adatta ai dati di addestramento (R², grafici dei residui), quanto generalizza a nuovi dati (cross-validation, test set di holdout), i residui appaiono casuali (o mostrano pattern che il modello ha mancato)?

La regressione è il cavallo di battaglia della scienza empirica. La correlazione indica quanto fortemente due variabili si muovono insieme; la regressione fornisce l’equazione che converte l’una nell’altra.

Le ipotesi classiche e dove vengono violate: il macchinario inferenziale standard della regressione lineare (p-value sui coefficienti, intervalli di confidenza, F-test) dipende da quattro ipotesi — linearità, residui indipendenti, residui a varianza uguale (omoschedasticità) e residui normali. I dati del mondo reale violano una o più di queste regolarmente: i dati di serie temporali violano l’indipendenza; i rendimenti finanziari violano l’omoschedasticità; i campioni piccoli violano la normalità. Gli statistici moderni o correggono gli errori standard (stimatori “sandwich” robusti all’eteroschedasticità, SE raggruppati) o bypassano completamente il macchinario inferenziale e usano il bootstrap resampling per stimare empiricamente gli intervalli di confidenza. Le stime puntuali dei coefficienti stessi sono non distorte in condizioni molto più deboli — solo le stime di incertezza hanno bisogno di essere salvate.

Dove la regressione fallisce silenziosamente — la trappola della “regressione verso la media”: la tecnica prende il nome dall’osservazione di Francis Galton del 1886 che i genitori alti tendono ad avere figli leggermente più bassi, e i genitori bassi figli leggermente più alti — entrambi si muovono verso la media della popolazione. Estrapolando ingenuamente “il trend” da una regressione dei figli sui genitori si suggerirebbe che la popolazione convergerà verso altezze identiche nel corso delle generazioni, il che non avviene. Il fenomeno è puramente statistico (selezione su valori estremi + misurazione rumorosa = valori predetti più vicini alla media) e produce la classica trappola di confondere la “regressione verso la media” con un effetto causale reale. Le prestazioni sportive, la soddisfazione dei clienti e gli esiti medici mostrano tutti questo; qualsiasi “intervento che ha aiutato le persone all’estremo” ha bisogno di un gruppo di controllo per distinguere l’effetto reale dalla reversione alla media. Riferimento: NIST/SEMATECH e-Handbook — Regressione lineare.

Frequently asked questions

Cos’è la regressione in statistica?
La regressione è un metodo statistico per modellare la relazione tra una o più variabili predittori e una variabile di esito continua. La regressione lineare adatta una retta che minimizza la somma dei quadrati dei residui tra valori predetti e osservati.
Come viene utilizzata la regressione in pratica?
Un rivenditore usa la regressione lineare per prevedere le vendite dalla spesa pubblicitaria e dalla stagionalità. Un medico usa la regressione logistica per stimare la probabilità che un paziente sviluppi il diabete da marcatori clinici. Entrambi usano il modello per fare previsioni quantitative da nuovi input.
Qual è la differenza tra regressione lineare e regressione logistica?
La regressione lineare predice un esito numerico continuo (ad es. il prezzo di una casa). La regressione logistica predice la probabilità di un esito binario (ad es. insolvenza del prestito sì/no) usando una funzione sigmoid per vincolare l’output tra 0 e 1. Il metodo di adattamento e l’interpretazione differiscono sostanzialmente.

Related

Published May 16, 2026 · Last reviewed May 31, 2026