Skip to content

Glossary

Correlazione

Quanto strettamente si muovono insieme due variabili

By Published Updated

La correlazione misura il grado in cui due variabili si muovono insieme. La misura standard è il r di Pearson: un singolo numero da −1 a +1 dove +1 significa una perfetta relazione lineare positiva, 0 significa nessuna relazione lineare e −1 significa una perfetta relazione lineare negativa.

Interpretazione pratica:

  • |r| < 0,3 — debole
  • 0,3 ≤ |r| < 0,7 — moderata
  • |r| ≥ 0,7 — forte

Tre cose che ogni lettore di numeri di correlazione dovrebbe sapere:

  1. Il r di Pearson cattura solo le relazioni lineari. Due variabili legate da una perfetta quadratica (y = x²) possono avere r ≈ 0 se x copre valori sia positivi che negativi. Per le relazioni non lineari, il rho di Spearman è l’alternativa più robusta.
  2. La correlazione non è causalità. Due variabili possono correlarsi fortemente perché A causa B, B causa A, entrambe sono causate da una terza variabile, o per pura coincidenza (specialmente in piccoli campioni o confrontando molte coppie).
  3. Gli outlier distorcono r in modo drammatico. Un singolo outlier in un piccolo dataset può invertire il segno della correlazione. Tracciare sempre i dati prima di fidarsi del numero.

Per dati categorici o ordinali, usare la correlazione per ranghi di Spearman invece di Pearson. Per esiti binari, consultare il coefficiente phi. Per dati nominali categorici con più di due livelli, il V di Cramér.

Il quartetto di Anscombe — l’illustrazione famosa: nel 1973, lo statistico Francis Anscombe costruì quattro piccoli dataset che condividono tutti la stessa media, varianza, coefficiente di correlazione (0,816) e retta di regressione lineare — eppure appaiono completamente diversi quando tracciati. Uno è una tendenza lineare pulita; uno è una curva perfetta; uno è una retta con un singolo outlier; uno è una linea verticale con un punto anomalo. Il quartetto è ancora citato come il caso canonico di “tracciare sempre prima i dati.” Il Datasaurus Dozen (Matejka & Fitzmaurice, 2017) estende la stessa idea a dodici dataset che condividono statistiche riassuntive — incluso uno a forma di dinosauro. Entrambi fanno lo stesso punto: un singolo numero di correlazione è necessario ma mai sufficiente. Riferimento: NIST/SEMATECH e-Handbook — Correlazione Lineare.

Esempio pratico

Cinque punti dati (1,2), (2,4), (3,5), (4,4), (5,5). Medie x̄ = 3, ȳ = 4. Scarti x − x̄: −2, −1, 0, 1, 2. Scarti y − ȳ: −2, 0, 1, 0, 1. Somma dei prodotti incrociati Σ(xᵢ − x̄)(yᵢ − ȳ) = 4 + 0 + 0 + 0 + 2 = 6. Somma degli scarti al quadrato di x: 10; di y: 6. Pearson r = 6 / √(10 × 6) = 6 / 7,746 ≈ 0,775 — una forte relazione lineare positiva. Un grafico a dispersione mostrerebbe che l’interpretazione regge; se il terzo punto fosse (3, 50) invece di (3, 5), r apparirebbe ancora ben definito ma il modello lineare sarebbe dominato da un singolo outlier.

Quando la correlazione guida le decisioni

Diversificazione del portafoglio: le attività con bassa correlazione a coppie riducono la varianza complessiva anche quando le loro volatilità individuali sono alte. La crisi finanziaria del 2008 ha mostrato il contrario catastrofico — azioni, obbligazioni societarie, REITs e persino l’oro si sono mossi tutti insieme quando la liquidità si è esaurita, e le matrici di correlazione stimate da mercati calmi sottostimavano il rischio di coda. Nel feature engineering per il ML, due feature con r > 0,95 sono effettivamente ridondanti; eliminarne una raramente degrada la precisione del modello e accelera l’addestramento. Per la sperimentazione, trattare metriche correlate come indipendenti aumenta il tasso di falsi positivi — applicare le correzioni di Bonferroni o Benjamini-Hochberg. Correlati: regressione, varianza. Approfondimento: Coefficiente di correlazione di Pearson (Wikipedia).

Frequently asked questions

Cos&rsquo;è la correlazione?
La correlazione (r di Pearson) misura la relazione lineare tra due variabili su una scala da −1 a +1. Un valore di +1 significa una perfetta relazione lineare positiva, −1 significa una perfetta relazione lineare negativa e 0 significa nessuna relazione lineare.
Come si usa la correlazione in pratica?
Un analista finanziario scopre che due azioni hanno una correlazione di r = 0,85 — si muovono insieme con forza. Aggiungere la seconda azione a un portafoglio contenente la prima offre poco vantaggio di diversificazione; un&rsquo;azione con r = −0,3 ne fornirebbe molto di più.
Qual è la differenza tra correlazione e causalità?
La correlazione misura solo la co-variazione statistica, non causa ed effetto. Le vendite di gelato e i tassi di annegamento sono fortemente correlati perché entrambi aumentano in estate; il gelato non causa l&rsquo;annegamento. Stabilire la causalità richiede esperimenti controllati o metodi di inferenza causale.
Qual è la differenza tra la correlazione di Pearson e quella di Spearman?
Il r di Pearson misura le relazioni lineari e richiede dati continui approssimativamente normalmente distribuiti. Il ρ (rho) di Spearman ordina prima i dati e misura le relazioni monotone, rendendolo robusto agli outlier e adatto a dati ordinali come i punteggi di sondaggi.

Related

Published May 16, 2026 · Last reviewed May 31, 2026