Glossary
Varianza
La desviación estándar al cuadrado
By Buğra SözeriPublished Updated
Varianza es la media de las desviaciones al cuadrado respecto a la media. Para el conjunto de datos [4, 8, 6, 5, 3, 7] con media 5,5: las desviaciones al cuadrado son 2,25; 6,25; 0,25; 0,25; 6,25; 2,25; suma 17,5; varianza muestral (÷ n-1) = 3,5.
La varianza está en unidades al cuadrado (kilogramos², dólares², segundos²), lo que hace que sea difícil interpretarla directamente. Al sacar la raíz cuadrada obtienes la desviación estándar, que está en las unidades originales. Ambas contienen la misma información; la varianza es lo que calculas, la desviación estándar es lo que reportas.
¿Por qué molestarse con la varianza? Porque las varianzas son aditivas entre fuentes de variación independientes. Si X e Y son independientes, Var(X + Y) = Var(X) + Var(Y) — una propiedad que las desviaciones estándar no tienen. Esto es lo que convierte a la varianza en la unidad natural para el análisis de varianza (ANOVA), la propagación de errores y la mayor parte de la estadística teórica.
Para la intuición del estadístico práctico sobre varianza y desviación estándar, consulta la guía de desviación estándar explicada.
Varianza poblacional frente a muestral — la elección entre N y N−1: al calcular la varianza sobre una población completa, divide la suma de las desviaciones al cuadrado por N. Al estimar la varianza poblacional a partir de una muestra, divide por N−1 en su lugar — conocido como la corrección de Bessel. La corrección compensa el hecho de que la media muestral está más cerca de los datos que la media poblacional (desconocida), lo que sesga hacia abajo la suma bruta de las desviaciones al cuadrado. Para tamaños de muestra pequeños la diferencia es significativa; con N grande es despreciable. R, pandas y VAR() de Excel usan N−1 por defecto; np.var() de NumPy usa N por defecto (modificable con ddof=1). Lee la documentación antes de citar una varianza — la discrepancia silenciosa por un factor de N/(N−1) genera regularmente informes de errores del tipo “los números no coinciden”.
Problemas numéricos al calcular la varianza: la fórmula del libro de texto Var = E[X²] − (E[X])² es matemáticamente correcta pero numéricamente inestable — para datos muy agrupados con una media grande (p. ej., temperaturas en Kelvin, precios financieros), calcula la diferencia de dos números grandes casi iguales y pierde precisión catastróficamente. El algoritmo en línea de Welford (1962) y la variante paralela Chan-Golub-LeVeque más reciente calculan la varianza en un solo paso sin restar términos grandes casi iguales y son el estándar moderno. NumPy y pandas los implementan internamente; usar la fórmula del libro de texto con datos de producción es una trampa conocida. Relacionado: desviación estándar muestral, media, calculadora de estadísticas.
Ejemplo práctico
Supón que tienes una cartera de acciones con dos posiciones independientes: la acción A tiene una varianza anual de rendimientos Var(A) = 0,04 (DE = 20 %), la acción B tiene Var(B) = 0,09 (DE = 30 %). Individualmente, A es menos arriesgada. Combínalas 50/50: Var(0,5·A + 0,5·B) = 0,25·Var(A) + 0,25·Var(B) = 0,01 + 0,0225 = 0,0325, DE de la cartera ≈ √0,0325 ≈ 18 %. La cartera diversificada tiene menor varianza que cualquiera de sus componentes — la intuición de Markowitz de 1952 en una línea de aritmética. Nota: esto funciona solo porque las varianzas se suman (asume independencia). Si A y B estuvieran perfectamente correlacionadas, Var(0,5A + 0,5B) = 0,25·Var(A) + 0,25·Var(B) + 2·0,25·Cov(A,B) = 0,0325 + 2·0,25·0,20·0,30 = 0,0625, DE = 25 % — el promedio de las dos DE, sin beneficio de diversificación.
Cuándo y por qué importa
La varianza es la unidad operativa del riesgo en finanzas (teoría de carteras), del error en física experimental (combinando incertidumbres de medición mediante raíz de la suma de cuadrados), del control de calidad (Six Sigma apunta a la reducción de varianza en lugar de la reducción de la media porque los desplazamientos de media son fáciles de ajustar, los desplazamientos de varianza requieren rediseño del proceso) y del aprendizaje automático (el equilibrio sesgo-varianza: los modelos con alta varianza sobreajustan, los modelos con alto sesgo no se ajustan lo suficiente). Cuando lees “índice de capacidad del proceso” Cpk en fabricación o “error de seguimiento” en informes de rendimiento de fondos, estás leyendo una estadística derivada de la varianza. Reportar la desviación estándar da intuición; reportar la varianza da una cantidad que se suma entre fuentes — ambas son necesarias para una comunicación estadística fluida. Referencia: NIST/SEMATECH e-Handbook — Medidas de escala.
Frequently asked questions
- ¿Qué es la varianza en estadística?
- La varianza es la media de las desviaciones al cuadrado respecto a la media: varianza poblacional = suma de (xi menos mu)^2 dividida por N, o varianza muestral = suma de (xi menos x-barra)^2 dividida por (n menos 1). Cuantifica cuánto se dispersan los valores, en unidades al cuadrado de los datos originales.
- ¿Por qué la varianza se expresa en unidades al cuadrado?
- Elevar al cuadrado las desviaciones las hace todas positivas (para que los negativos y los positivos no se cancelen) y pondera fuertemente las desviaciones grandes. La desventaja es que la varianza está en unidades al cuadrado (p. ej., kg al cuadrado), razón por la que la desviación estándar — la raíz cuadrada de la varianza — se reporta más comúnmente en unidades interpretables.
- ¿Cuál es la diferencia entre varianza y desviación estándar?
- La varianza es la desviación cuadrática media; la desviación estándar es su raíz cuadrada, que restaura las unidades originales. La varianza tiene la propiedad útil de ser aditiva entre variables independientes; la desviación estándar no se suma linealmente, lo que hace que la varianza sea preferida en las derivaciones estadísticas.
Related
Published May 16, 2026 · Last reviewed May 31, 2026