Glossary
Moda
Il valore più frequente
By Buğra SözeriPublished Updated
Moda è il valore più frequente in un dataset. Per [1, 2, 2, 3, 4, 4, 4, 5] la moda è 4 (appare tre volte; nient’altro lo fa). È l’unica misura di tendenza centrale che funziona per dati non numerici — la moda di [«rosso», «blu», «rosso», «verde», «rosso»] è «rosso».
Tre casi speciali:
- Unimodale — esattamente un valore più frequente. Il caso standard.
- Bimodale — due valori pareggiano per il più frequente. Implica una distribuzione a popolazione mista (es. le altezze di uomini e donne adulti combinati producono una distribuzione bimodale).
- Nessuna moda — ogni valore appare esattamente una volta. La moda è tecnicamente indefinita; alcune convenzioni riportano «nessuna moda», altre riportano ogni valore come una moda.
Usa la moda quando: i dati sono categorici (colori, marchi, tipi) o ti interessa specificamente il valore più comune, non la tendenza centrale. Per dati numerici senza valori ripetuti (altezze, stipendi) la moda è inutile — usa la media o la mediana.
Il nostro calcolatore statistico riporta la moda insieme alla media e alla mediana, gestendo il caso bimodale elencando tutti i valori più frequenti.
Perché le distribuzioni bimodali sono una diagnosi, non solo una curiosità: quando un istogramma di dati continui mostra due picchi distinti, significa quasi sempre che il dataset è una miscela di due popolazioni sottostanti. L’esempio classico è le altezze degli esseri umani adulti — raggruppare uomini e donne produce una curva bimodale; separare per sesso produce due curve unimodali pulite. La bimodalità nelle distribuzioni della spesa dei clienti di solito significa che una popolazione a livello gratuito e una a livello a pagamento sono mescolate insieme. La bimodalità nelle distribuzioni dei tempi di risposta spesso significa che un percorso veloce e uno lento (cache hit vs cache miss) necessitano di trattamento separato. Riportare la media generale su una distribuzione bimodale è raramente utile — adatta prima un modello misto o separa i segmenti.
Moda per dati continui — stima della densità kernel: in un dataset continuo dove la ripetizione esatta di valori è rara, la «moda» è di solito definita come il picco della stima della densità kernel (KDE) piuttosto che il valore grezzo più frequente. I pacchetti statistici (density() di R, gaussian_kde di scipy in Python) calcolano le KDE per impostazione predefinita per questo scopo. Il parametro di larghezza di banda — quanto si diffonde il contributo di ciascun punto dati alla densità — è la principale leva, e la regola empirica di Silverman funziona bene per i dati unimodali. Per i dati bimodali, scegli una larghezza di banda abbastanza piccola da mantenere risolti i due picchi. Correlato: media, mediana. Riferimento: NIST/SEMATECH e-Handbook — Measures of Central Tendency.
Esempio pratico
Un rivenditore di abbigliamento registra le taglie vendute in 200 transazioni: {XS: 12, S: 38, M: 64, L: 51, XL: 28, XXL: 7}. Moda = M (64 occorrenze). La moda è l’unica statistica che riassume significativamente questa colonna — «taglia media» o «taglia mediana» richiedono la codifica di XS-XXL come numeri, e qualsiasi codifica scelta è arbitraria. Ora immagina che lo stesso rivenditore aggiunga una linea per bambini e metta insieme i dati: il nuovo istogramma delle taglie è {2T: 30, 4T: 28, 6: 22, S: 38, M: 64, L: 51, XL: 28}. La distribuzione è bimodale (picco a 2T-6 per i bambini, picco a M-L per gli adulti), e la «taglia più venduta» (M) fuorvia attivamente qualsiasi decisione sull’inventario della linea bambini. Segmentare prima di calcolare la moda — una volta per i bambini, una volta per gli adulti — recupera il segnale di inventario corretto: 2T è la taglia modale per i bambini, M è la taglia modale per gli adulti.
Quando e perché è importante
Le mode guidano le decisioni operative nel retail (quale taglia/colore/SKU rifornire maggiormente), nelle elezioni (il candidato modale vince un sistema a pluralità, anche senza maggioranza), nei sistemi di raccomandazione (articolo più visualizzato per categoria) e nell’analisi del linguaggio naturale (parola/n-gramma modale in un corpus rivela l’argomento). La trappola è assumere che esista una singola moda quando la popolazione sottostante è mista. I ricercatori di sondaggi, i tester A/B e gli analisti di prodotto incontrano questo continuamente: qualsiasi dataset che raggruppa utenti tra segmenti (geografia, livello del piano, tipo di dispositivo) spesso mostra bimodalità che scompare quando si suddivide. L’abitudine difensiva: traccia sempre l’istogramma prima di riportare qualsiasi numero di «tendenza centrale». Riferimento: NIST/SEMATECH e-Handbook — Histogram Interpretation: Bimodal.
Frequently asked questions
- Che cos'è la moda?
- La moda è il valore che appare più frequentemente in un dataset. Per [1, 2, 2, 3, 4], la moda è 2. Un dataset può essere unimodale (una moda), bimodale (due mode) o multimodale (picchi multipli).
- Quando è utile la moda?
- La moda è più utile per i dati categorici — la taglia di scarpa più venduta, la categoria di ticket di supporto più popolare, il colore ordinato più frequentemente. È l'unica media che si applica ai dati nominali (non numerici).
- Qual è la differenza tra moda, media e mediana?
- La media è la media aritmetica, sensibile agli outlier. La mediana è il valore centrale, robusta agli outlier. La moda è il valore più frequente, utile per dati discreti o categorici. Per una distribuzione simmetrica a campana, tutte e tre sono uguali.
- Cosa significa che una distribuzione è bimodale?
- Una distribuzione bimodale ha due picchi distinti nel suo grafico delle frequenze, il che significa che due valori (o intervalli) sono particolarmente comuni. Spesso indica due sottogruppi nei dati — ad esempio, un dataset di altezze che mescola maschi e femmine adulti.
Related
Published May 16, 2026 · Last reviewed May 31, 2026