Glossary
Regressão
Ajustando preditores a resultados
By Buğra SözeriPublished Updated
Regressão é um método estatístico para modelar a relação entre uma variável dependente (o resultado que você quer prever) e uma ou mais variáveis independentes (os preditores). O resultado é uma função — tipicamente com parâmetros ajustados a dados históricos — que permite estimar o resultado a partir de novos valores de preditores.
A forma mais simples é a regressão linear: y = β₀ + β₁x + ε. O algoritmo encontra os coeficientes β que minimizam a soma dos resíduos quadrados (os “erros”). Para um conjunto de dados de pares (altura, peso), a regressão linear produz a linha de melhor ajuste pelos pontos, que permite estimar o peso a partir de qualquer nova altura.
Variantes padrão:
- Regressão linear múltipla: vários preditores.
y = β₀ + β₁x₁ + β₂x₂ + ... + ε. - Regressão polinomial: os preditores incluem potências de x.
y = β₀ + β₁x + β₂x² + .... Ajusta relações curvas. - Regressão logística: o resultado é binário (0/1). O modelo gera uma probabilidade via função logística.
- Ridge / lasso / elastic-net: regressão linear com penalidade para coeficientes grandes. Usada quando há muitos preditores e se quer evitar overfitting.
As verificações essenciais para qualquer regressão: quão bem ela se ajusta aos dados de treinamento (R², gráficos de resíduos), quão bem ela generaliza para novos dados (validação cruzada, conjunto de teste holdout), os resíduos parecem aleatórios (ou mostram padrões que o modelo perdeu)?
A regressão é o cavalo de batalha da ciência empírica. Correlação diz o quanto duas variáveis se movem juntas; a regressão fornece a equação que converte uma na outra.
As hipóteses clássicas e onde elas falham: a maquinaria inferencial padrão da regressão linear (valores p nos coeficientes, intervalos de confiança, testes F) depende de quatro hipóteses — linearidade, resíduos independentes, resíduos de variância igual (homocedasticidade) e resíduos normais. Dados do mundo real violam uma ou mais delas regularmente: dados de séries temporais violam a independência; retornos financeiros violam a homocedasticidade; amostras pequenas violam a normalidade. Estatísticos modernos ou corrigem os erros padrão (estimadores “sanduíche” robustos à heterocedasticidade, erros padrão em clusters) ou ignoram completamente o aparato inferencial e usam reamostragem bootstrap para estimar intervalos de confiança empiricamente. As estimativas pontuais dos coeficientes em si são não viesadas sob condições muito mais fracas — apenas as estimativas de incerteza precisam de correção.
Onde a regressão falha silenciosamente — a armadilha da “regressão à média”: a técnica recebe seu nome da observação de Francis Galton em 1886 de que pais altos tendem a ter filhos um pouco mais baixos, e pais baixos, filhos um pouco mais altos — ambos se movem em direção à média da população. Extrapolar ingenuamente “a tendência” de uma regressão de filhos sobre pais sugeriria que a população convergiria para alturas idênticas ao longo das gerações, o que não acontece. O fenômeno é puramente estatístico (seleção em valores extremos + medição ruidosa = valores previstos mais próximos da média) e produz a armadilha clássica de confundir “regressão à média” com um efeito causal real. Desempenho esportivo, satisfação do cliente e resultados médicos exibem isso; qualquer “intervenção que ajudou pessoas nos extremos” precisa de um grupo de controle para distinguir efeito real da reversão à média. Referência: NIST/SEMATECH e-Handbook — Regressão Linear.
Frequently asked questions
- O que é regressão em estatística?
- Regressão é um método estatístico para modelar a relação entre uma ou mais variáveis preditoras e uma variável de resultado contínua. A regressão linear ajusta uma linha reta que minimiza a soma dos resíduos quadrados entre valores previstos e observados.
- Como a regressão é usada na prática?
- Um varejista usa regressão linear para prever vendas a partir de gastos com publicidade e sazonalidade. Um médico usa regressão logística para estimar a probabilidade de um paciente desenvolver diabetes a partir de marcadores clínicos. Ambos usam o modelo para fazer previsões quantitativas a partir de novos dados.
- Qual é a diferença entre regressão linear e regressão logística?
- A regressão linear prevê um resultado numérico contínuo (por exemplo, preço de imóvel). A regressão logística prevê a probabilidade de um resultado binário (por exemplo, inadimplência de empréstimo sim/não) usando uma função sigmoide para restringir a saída a 0 a 1. O método de ajuste e a interpretação diferem substancialmente.
Related
Published May 16, 2026 · Last reviewed May 31, 2026