Glossary
Moda
O valor mais frequente
By Buğra SözeriPublished Updated
Moda é o valor mais frequente em um conjunto de dados. Para [1, 2, 2, 3, 4, 4, 4, 5] a moda é 4 (aparece três vezes; nenhum outro aparece tanto). É a única medida de tendência central que funciona para dados não numéricos — a moda de [“vermelho”, “azul”, “vermelho”, “verde”, “vermelho”] é “vermelho.”
Três casos especiais:
- Unimodal — exatamente um valor mais frequente. O caso padrão.
- Bimodal — dois valores empatam como mais frequentes. Implica uma distribuição de população mista (por exemplo, alturas de homens e mulheres adultos combinados produzem uma distribuição bimodal).
- Sem moda — cada valor aparece exatamente uma vez. A moda é tecnicamente indefinida; algumas convenções reportam “sem moda”, outras reportam cada valor como moda.
Use a moda quando: os dados são categóricos (cores, marcas, tipos) ou você se importa especificamente com o valor mais comum, não com a tendência central. Para dados numéricos sem valores repetidos (alturas, salários) a moda é inútil — use média ou mediana.
Nossa calculadora de estatísticas reporta a moda junto com a média e a mediana, tratando o caso bimodal listando todos os valores mais frequentes.
Por que distribuições bimodais são um diagnóstico, não apenas uma curiosidade: quando um histograma de dados contínuos mostra dois picos distintos, quase sempre significa que o conjunto de dados é uma mistura de duas populações subjacentes. O exemplo clássico é a altura de humanos adultos — agrupar homens e mulheres produz uma curva bimodal; separar por sexo produz duas curvas unimodais limpas. Bimodalidade em distribuições de gasto de clientes geralmente significa uma população de tier gratuito e uma de tier pago misturadas. Bimodalidade em distribuições de tempo de resposta frequentemente significa que um caminho rápido e um lento (cache hit vs cache miss) precisam de tratamento separado. Reportar a média geral em uma distribuição bimodal raramente é útil — ajuste um modelo de mistura ou segmente os dados primeiro.
Moda para dados contínuos — estimativa de densidade por kernel: em um conjunto de dados contínuos onde a repetição exata de valor é rara, a “moda” é geralmente definida como o pico da estimativa de densidade por kernel (KDE) em vez do valor bruto mais frequente. Pacotes estatísticos (a função density() do R, o gaussian_kde do scipy em Python) calculam KDEs por padrão para este propósito. O parâmetro de largura de banda — o quão amplamente a contribuição de cada ponto de dados para a densidade se espalha — é a principal alavanca, e a regra de Silverman funciona bem para dados unimodais. Para dados bimodais, escolha uma largura de banda pequena o suficiente para que os dois picos permaneçam resolvidos. Relacionados: média, mediana. Referência: NIST/SEMATECH e-Handbook — Measures of Central Tendency.
Exemplo prático
Um varejista de roupas registra tamanhos vendidos em 200 transações: {PP: 12, P: 38, M: 64, G: 51, GG: 28, XGG: 7}. Moda = M (64 ocorrências). A moda é a única estatística que resume significativamente esta coluna — “tamanho médio” ou “tamanho mediano” exigem codificar PP-XGG como números, e qualquer codificação escolhida é arbitrária. Agora imagine o mesmo varejista adicionando uma linha infantil e agrupando os dados: o novo histograma de tamanhos é {1: 30, 2: 28, 4: 22, P: 38, M: 64, G: 51, GG: 28}. A distribuição é bimodal (pico em 1-4 para crianças, pico em M-G para adultos), e o “tamanho mais vendido” (M) engana ativamente qualquer decisão sobre estoque da linha infantil. Segmentar antes de calcular a moda — uma vez para crianças, uma vez para adultos — recupera o sinal de estoque correto: tamanho 1 é a moda infantil, M é a moda adulta.
Quando e por que isso importa
Modas orientam decisões operacionais no varejo (qual tamanho/cor/SKU estoque mais), eleições (o candidato modal vence em um sistema de pluralidade, mesmo sem maioria), sistemas de recomendação (item mais visto por categoria) e análise de linguagem natural (palavra/n-grama modal em um corpus revela tópico). A armadilha é assumir que existe uma única moda quando a população subjacente é mista. Pesquisadores de pesquisa, testadores A/B e analistas de produto enfrentam isso constantemente: qualquer conjunto de dados que agrupa usuários por segmentos (geografia, tier de plano, tipo de dispositivo) frequentemente mostra bimodalidade que desaparece ao facetá-lo. O hábito defensivo: sempre plote o histograma antes de reportar qualquer número de “tendência central”. Referência: NIST/SEMATECH e-Handbook — Histogram Interpretation: Bimodal.
Frequently asked questions
- O que é a moda?
- A moda é o valor que aparece com mais frequência em um conjunto de dados. Para [1, 2, 2, 3, 4], a moda é 2. Um conjunto de dados pode ser unimodal (uma moda), bimodal (duas modas) ou multimodal (múltiplos picos).
- Quando a moda é útil?
- A moda é mais útil para dados categóricos — o tamanho de sapato mais vendido, a categoria de ticket de suporte mais popular, a cor mais frequentemente pedida. É o único 'average' que se aplica a dados nominais (não numéricos).
- Qual é a diferença entre moda, média e mediana?
- Média é a aritmética, sensível a outliers. Mediana é o valor central, robusta a outliers. Moda é o valor mais frequente, útil para dados discretos ou categóricos. Para uma distribuição simétrica como uma curva em sino, as três são iguais.
- O que significa uma distribuição ser bimodal?
- Uma distribuição bimodal tem dois picos distintos em seu gráfico de frequência, o que significa que dois valores (ou intervalos) são especialmente comuns. Geralmente indica dois subgrupos nos dados — por exemplo, um conjunto de alturas que mistura homens e mulheres adultos.
Related
Published May 16, 2026 · Last reviewed May 31, 2026