Skip to content

Glossary

Correlação

Quão fortemente duas variáveis se movem juntas

By Published Updated

Correlação mede o grau em que duas variáveis se movem juntas. A medida padrão é o r de Pearson: um único número de −1 a +1 onde +1 significa relação linear positiva perfeita, 0 significa nenhuma relação linear e −1 significa relação linear negativa perfeita.

Interpretação prática:

  • |r| < 0,3 — fraca
  • 0,3 ≤ |r| < 0,7 — moderada
  • |r| ≥ 0,7 — forte

Três coisas que todo leitor de números de correlação deve saber:

  1. O r de Pearson captura apenas relações lineares. Duas variáveis relacionadas por uma quadrática perfeita (y = x²) podem ter r ≈ 0 se x varia sobre valores positivos e negativos. Para relações não lineares, o rho de Spearman é a alternativa mais robusta.
  2. Correlação não é causalidade. Duas variáveis podem se correlacionar fortemente porque A causa B, B causa A, ambas são causadas por uma terceira variável, ou pura coincidência (especialmente em amostras pequenas ou ao comparar muitos pares).
  3. Outliers distorcem r dramaticamente. Um único outlier em um conjunto de dados pequeno pode inverter o sinal da correlação. Sempre trace um gráfico dos dados antes de confiar no número.

Para dados categóricos ou classificados por rank, use a correlação de rank de Spearman em vez de Pearson. Para resultados binários, consulte o coeficiente phi. Para dados categóricos nominais com mais de dois níveis, use V de Cramér.

O quarteto de Anscombe — a ilustração famosa: em 1973, o estatístico Francis Anscombe construiu quatro pequenos conjuntos de dados que compartilham a mesma média, variância, coeficiente de correlação (0,816) e linha de regressão linear — mas parecem completamente diferentes quando plotados. Um é uma tendência linear clara; um é uma curva perfeita; um é uma linha com um único outlier; um é uma linha vertical com um ponto fora do lugar. O quarteto ainda é citado como o caso canônico de “sempre trace um gráfico dos dados primeiro.” O Datasaurus Dozen (Matejka & Fitzmaurice, 2017) estende a mesma ideia para doze conjuntos de dados com estatísticas resumidas compartilhadas — incluindo um em forma de dinossauro. Ambos fazem o mesmo ponto: um único número de correlação é necessário, mas nunca suficiente. Referência: NIST/SEMATECH e-Handbook — Correlação Linear.

Exemplo prático

Cinco pontos de dados (1,2), (2,4), (3,5), (4,4), (5,5). Médias x̄ = 3, ȳ = 4. Desvios x − x̄: −2, −1, 0, 1, 2. Desvios y − ȳ: −2, 0, 1, 0, 1. Soma dos produtos cruzados Σ(xᵢ − x̄)(yᵢ − ȳ) = 4 + 0 + 0 + 0 + 2 = 6. Soma dos desvios quadráticos de x: 10; de y: 6. Pearson r = 6 / √(10 × 6) = 6 / 7,746 ≈ 0,775 — uma relação linear positiva forte. Um gráfico de dispersão mostraria que a interpretação se sustenta; se o terceiro ponto fosse (3, 50) em vez de (3, 5), r ainda pareceria bem definido, mas o modelo linear seria dominado por um único outlier.

Quando a correlação orienta decisões

Diversificação de carteira: ativos com baixa correlação entre si reduzem a variância geral mesmo quando suas volatilidades individuais são altas. A crise financeira de 2008 mostrou o contraexemplo catastrófico — ações, títulos corporativos, REITs e até o ouro se moveram juntos quando a liquidez secou, e as matrizes de correlação estimadas em mercados calmos subestimaram o risco de cauda. Na engenharia de features de ML, dois recursos com r > 0,95 são efetivamente redundantes; remover um raramente degrada a precisão do modelo e acelera o treinamento. Para experimentação, tratar métricas correlacionadas como independentes infla a taxa de falsos positivos — aplique correções de Bonferroni ou Benjamini-Hochberg. Relacionado: regressão, variância. Contexto: Coeficiente de correlação de Pearson (Wikipedia).

Frequently asked questions

O que é correlação?
Correlação (r de Pearson) mede a relação linear entre duas variáveis em uma escala de −1 a +1. Um valor de +1 significa uma relação linear positiva perfeita, −1 significa uma relação linear negativa perfeita, e 0 significa nenhuma relação linear.
Como a correlação é usada na prática?
Um analista financeiro descobre que duas ações têm correlação r = 0,85 — elas se movem juntas fortemente. Adicionar a segunda ação a uma carteira contendo a primeira oferece pouco benefício de diversificação; uma ação com r = −0,3 proporcionaria muito mais.
Qual é a diferença entre correlação e causalidade?
A correlação mede apenas o co-movimento estatístico, não causa e efeito. As vendas de sorvete e as taxas de afogamento são fortemente correlacionadas porque ambas aumentam no verão; o sorvete não causa afogamento. Estabelecer causalidade requer experimentos controlados ou métodos de inferência causal.
Qual é a diferença entre a correlação de Pearson e a de Spearman?
O r de Pearson mede relações lineares e requer dados contínuos distribuídos de forma aproximadamente normal. O ρ (rho) de Spearman classifica os dados primeiro e mede relações monotônicas, tornando-o robusto a outliers e apropriado para dados ordinais como avaliações de pesquisa.

Related

Published May 16, 2026 · Last reviewed May 31, 2026