Glossary
Variância
Desvio padrão ao quadrado
By Buğra SözeriPublished Updated
Variância é a média dos desvios quadráticos em relação à média. Para o conjunto de dados [4, 8, 6, 5, 3, 7] com média 5,5: os desvios quadráticos são 2,25, 6,25, 0,25, 0,25, 6,25, 2,25; soma 17,5; variância amostral (÷ n-1) = 3,5.
A variância está em unidades quadradas (quilogramas², dólares², segundos²), o que a torna difícil de interpretar diretamente. Extraindo a raiz quadrada, obtém-se o desvio padrão, que está nas unidades originais. Os dois carregam a mesma informação; a variância é o que você calcula, o desvio padrão é o que você reporta.
Por que se preocupar com variância afinal? Porque as variâncias são aditivas entre fontes independentes de variação. Se X e Y são independentes, Var(X + Y) = Var(X) + Var(Y) — uma propriedade que os desvios padrão não têm. É isso que torna a variância a unidade natural para análise de variância (ANOVA), propagação de erros e a maior parte da estatística teórica.
Para a intuição do estatístico prático sobre variância e desvio padrão, consulte o guia de desvio padrão explicado.
Variância populacional vs amostral — a escolha de N vs N−1: ao calcular a variância de uma população inteira, divida a soma dos desvios quadráticos por N. Ao estimar a variância populacional a partir de uma amostra, divida por N−1 em vez disso — conhecido como correção de Bessel. A correção compensa o fato de que a média amostral está mais próxima dos dados do que a média populacional (desconhecida) estaria, o que enviesaria a soma bruta dos desvios quadráticos para baixo. Em amostras pequenas, a diferença é significativa; em N grande é negligenciável. R, pandas e o VAR() do Excel têm como padrão N−1; o np.var() do NumPy tem como padrão N (substituível com ddof=1). Leia a documentação antes de citar uma variância — a discrepância silenciosa de fator N/(N−1) regularmente causa relatórios de bug “mas os números não batem”.
Armadilhas numéricas no cálculo da variância: a fórmula do livro didático Var = E[X²] − (E[X])² é matematicamente correta, mas numericamente instável — para dados agrupados com média grande (por exemplo, temperaturas em Kelvin, preços financeiros), ela calcula a diferença de dois números grandes quase iguais e perde precisão de forma catastrófica. O algoritmo online de Welford (1962) e a variante paralela mais recente de Chan-Golub-LeVeque calculam a variância em uma única passagem sem subtração de termos grandes quase iguais e são o padrão moderno. NumPy e pandas implementam isso internamente; escrever a própria fórmula do livro em dados de produção é um footgun conhecido. Relacionado: desvio padrão amostral, média, calculadora de estatísticas.
Exemplo prático
Suponha que você possua uma carteira de ações com duas posições independentes: a ação A tem variância anual de retornos Var(A) = 0,04 (portanto DP = 20%), a ação B tem Var(B) = 0,09 (DP = 30%). Mantidas individualmente, A é menos arriscada. Combine-as 50/50: Var(0,5·A + 0,5·B) = 0,25·Var(A) + 0,25·Var(B) = 0,01 + 0,0225 = 0,0325, portanto DP da carteira ≈ √0,0325 ≈ 18%. A carteira diversificada tem variância menor do que qualquer componente isolado — a intuição de Markowitz de 1952 em uma linha de aritmética. Nota: isso funciona apenas porque as variâncias se somaram (assume independência). Se A e B fossem perfeitamente correlacionadas, Var(0,5A + 0,5B) = 0,25·Var(A) + 0,25·Var(B) + 2·0,25·Cov(A,B) = 0,0325 + 2·0,25·0,20·0,30 = 0,0625, DP = 25% — a média dos dois DPs, sem benefício de diversificação.
Quando e por que isso importa
A variância é a unidade operacional de risco em finanças (teoria de carteiras), erro em física experimental (combinando incertezas de medição via raiz da soma dos quadrados), controle de qualidade (o Six Sigma visa a redução de variância em vez da redução da média, porque as mudanças de média são fáceis de ajustar, as mudanças de variância exigem redesenho do processo) e aprendizado de máquina (o trade-off viés-variância: modelos com alta variância têm sobreajuste, modelos com alto viés têm subajuste). Quando você lê o “índice de capacidade de processo” Cpk em manufatura ou “tracking error” em relatórios de desempenho de fundos, você está lendo uma estatística derivada da variância. Reportar o desvio padrão dá intuição; reportar a variância dá uma quantidade que se adiciona entre fontes — ambos são necessários para comunicação estatística fluente. Referência: NIST/SEMATECH e-Handbook — Medidas de Escala.
Frequently asked questions
- O que é variância em estatística?
- Variância é a média dos desvios quadráticos em relação à média: variância populacional = soma de (xi menos mu)^2 dividida por N, ou variância amostral = soma de (xi menos x-barra)^2 dividida por (n menos 1). Ela quantifica o grau de dispersão dos valores, em unidades quadradas dos dados originais.
- Por que a variância é expressa em unidades quadradas?
- Elevar os desvios ao quadrado os torna todos positivos (para que negativos e positivos não se cancelem) e pondera grandes desvios pesadamente. A desvantagem é que a variância está em unidades quadradas (por exemplo, kg²), razão pela qual o desvio padrão — a raiz quadrada da variância — é mais comumente relatado em unidades interpretáveis.
- Qual é a diferença entre variância e desvio padrão?
- Variância é o desvio quadrático médio; desvio padrão é sua raiz quadrada, restaurando as unidades originais. A variância tem a propriedade útil de ser aditiva entre variáveis independentes; o desvio padrão não se adiciona linearmente, tornando a variância preferida em derivações estatísticas.
Related
Published May 16, 2026 · Last reviewed May 31, 2026