Glossary
Regresión
Ajustar predictores a resultados
By Buğra SözeriPublished Updated
Regresión es un método estadístico para modelar la relación entre una variable dependiente (el resultado que quieres predecir) y una o más variables independientes (los predictores). El resultado es una función — típicamente con parámetros ajustados a datos históricos — que te permite estimar el resultado a partir de nuevos valores de predictores.
La forma más simple es la regresión lineal: y = β₀ + β₁x + ε. El algoritmo encuentra los coeficientes β que minimizan la suma de los residuos al cuadrado (los “errores”). Para un conjunto de datos de pares (altura, peso), la regresión lineal produce la línea de mejor ajuste a través de los puntos, lo que permite estimar el peso a partir de cualquier nueva altura.
Variedades estándar:
- Regresión lineal múltiple: varios predictores.
y = β₀ + β₁x₁ + β₂x₂ + ... + ε. - Regresión polinomial: los predictores incluyen potencias de x.
y = β₀ + β₁x + β₂x² + .... Se ajusta a relaciones curvas. - Regresión logística: el resultado es binario (0/1). El modelo produce una probabilidad mediante la función logística.
- Ridge / lasso / elastic-net: regresión lineal con una penalización para coeficientes grandes. Se usa cuando hay muchos predictores y se quiere evitar el sobreajuste.
Las comprobaciones de cordura clave para cualquier regresión: ¿qué tan bien se ajusta a los datos de entrenamiento (R², gráficos de residuos), qué tan bien generaliza a nuevos datos (validación cruzada, conjunto de prueba de reserva), ¿los residuos parecen aleatorios (o muestran patrones que el modelo pasó por alto)?
La regresión es el caballo de batalla de la ciencia empírica. La correlación te dice con qué fuerza se mueven juntas dos variables; la regresión te da la ecuación que convierte una en la otra.
Los supuestos clásicos y dónde se rompen: la maquinaria inferencial estándar de la regresión lineal (valores p en coeficientes, intervalos de confianza, pruebas F) depende de cuatro supuestos — linealidad, residuos independientes, residuos de varianza igual (homocedasticidad) y residuos normales. Los datos del mundo real violan uno o más de estos regularmente: los datos de series temporales violan la independencia; los retornos financieros violan la homocedasticidad; las muestras pequeñas violan la normalidad. Los estadísticos modernos o corrigen los errores estándar (estimadores “sándwich” robustos a la heterocedasticidad, SE agrupados) o se saltan el aparato inferencial por completo y usan remuestreo bootstrap para estimar intervalos de confianza empíricamente. Las estimaciones puntuales de los coeficientes en sí mismas son insesgadas bajo condiciones mucho más débiles — solo las estimaciones de incertidumbre necesitan corrección.
Dónde la regresión falla silenciosamente — la trampa de la “regresión a la media”: la técnica recibe su nombre de la observación de Francis Galton en 1886 de que los padres altos tienden a tener hijos algo más bajos, y los padres bajos hijos algo más altos — ambos se mueven hacia la media poblacional. Extrapolar ingenuamente “la tendencia” a partir de una regresión de hijos sobre padres sugeriría que la población convergiría a alturas idénticas a lo largo de generaciones, lo que no ocurre. El fenómeno es puramente estadístico (selección en valores extremos + medición ruidosa = valores predichos más cercanos a la media) y produce la trampa clásica de confundir “regresión a la media” con un efecto causal real. El rendimiento deportivo, la satisfacción del cliente y los resultados médicos muestran todo esto; cualquier “intervención que ayudó a personas en el extremo” necesita un grupo de control para distinguir el efecto real de la reversión a la media. Referencia: NIST/SEMATECH e-Handbook — Regresión lineal.
Frequently asked questions
- ¿Qué es la regresión en estadística?
- La regresión es un método estadístico para modelar la relación entre una o más variables predictoras y una variable de resultado continua. La regresión lineal ajusta una línea recta que minimiza la suma de los residuos al cuadrado entre los valores predichos y observados.
- ¿Cómo se usa la regresión en la práctica?
- Un minorista usa regresión lineal para predecir las ventas a partir del gasto publicitario y la estacionalidad. Un médico usa regresión logística para estimar la probabilidad de que un paciente desarrolle diabetes a partir de marcadores clínicos. Ambos usan el modelo para hacer predicciones cuantitativas a partir de nuevas entradas.
- ¿Cuál es la diferencia entre regresión lineal y regresión logística?
- La regresión lineal predice un resultado numérico continuo (por ejemplo, precio de una casa). La regresión logística predice la probabilidad de un resultado binario (por ejemplo, impago de préstamo sí/no) usando una función sigmoide para restringir la salida a 0 y 1. El método de ajuste y la interpretación difieren sustancialmente.
Related
Published May 16, 2026 · Last reviewed May 31, 2026