La dissomiglianza tra due distribuzioni normali

Annali del Dipartimento di Scienze Statistiche Carlo Cecchi Università degli Studi di Bari Aldo Moro - Vol. X (2011): 43-50 Editore CLEUP, Padova - ISBN: 978-88-6129-833-0 La dissomiglianza tra due distribuzioni normali Angela Maria D'Uggento Università degli Studi di Bari Aldo Moro, Macro Area Controllo strategico, analisi statistica e programmazione Francesco Girone Università degli Studi di Bari Aldo Moro, Dipartimento di Studi aziendali e giusprivatistici Riassunto: La presente nota si propone di illustrare il procedimento mediante il quale ottenere l espressione compatta dell indice di dissomiglianza di Gini come misura globale della distanza tra distribuzioni normali, di medie diverse e di varianze diverse. L applicazione dimostra come tale formula dell indice semplice di dissomiglianza per distribuzioni normali sia di agevolissimo calcolo. Keywords: indice di dissomiglianza, distribuzione normale I paragrafi 1 e 2 sono dovuti a F. Girone e i paragrafi 3 e 4 ad A.M. D'Uggento. Autore di riferimento: Angela M. D Uggento, Università degli studi di Bari Aldo Moro, Palazzo Ateneo, p.za Umberto I, 70100 Bari; e-mail: a.duggento@das.uniba.it

D Uggento A.M., Girone F. La dissomiglianza tra due distribuzioni normali 45 1. PREMESSA Gini (1914) ha proposto come misura della divergenza tra due distribuzioni l indice semplice di dissomiglianza. Tale indice è pari alla media delle differenze in valore assoluto tra modalità cograduate o anche all area contenuta tra le corrispondenti funzioni di ripartizione (Girone, 2009). Nel caso di caratteri continui, pertanto, l indice di dissomiglianza è pari all integrale della differenza in valore assoluto tra le due funzioni di ripartizione. Il pregio dell'indice di dissomiglianza sta nel fatto che esso è una misura globale della divergenza tra due distribuzioni che considera la totalità degli aspetti (medie, variabilità, forma ecc.) e, come tale, può essere utilizzato per misurare la distanza tra distribuzioni, godendo delle tre proprietà della distanza. In questa nota ci proponiamo di ottenere una formula chiusa dell indice di dissomiglianza nel caso di due distribuzioni normali di medie diverse e di varianze diverse. 2. DEFINIZIONI Siano X₁ e X₂ due caratteri distribuiti normalmente con medie µ₁ e µ₂ e varianze σ₁² e σ₂² e quindi con funzioni di densità definite su tutto l asse reale ₁ σ₁² σ₁ 2π e σ ² σ 2π e funzioni di ripartizione 1 2 1 σ₁ 2

46 Annali del Dipartimento di Scienze Statistiche Carlo Cecchi, Vol. X (2011) e 1 σ. L indice semplice di dissomiglianza di Gini è dato dalla seguente formula: X X Non è facile ottenere il valore di tale indice sia per la presenza di quattro parametri che per la presenza del valore assoluto. Possiamo traslare le due funzioni di ripartizione in maniera da porre uguale a 0 la media più piccola, denominando la differenza tra la più grande e la più piccola con µ= µ₂ - µ₁. Questa traslazione lascia invariato l indice di dissomiglianza. Possiamo, poi, trasformare le due variabili dividendole per lo scarto quadratico medio più piccolo, in maniera da rendere unitario tale scarto quadratico medio più piccolo e indicare semplicemente il rapporto tra lo scarto quadratico medio più grande a quello più piccolo con /. Anche tale trasformazione lascia invariato l'indice di dissomiglianza. Con le suddette trasformazioni le due variabili normali hanno medie 0 e µ e varianze 1 e σ². L indice di dissomiglianza, utilizzando le variabili trasformate, quindi, dipende solo da detti due parametri. Le funzioni di ripartizione delle variabili trasformate sono: 1 e 1 σ È facile dimostrare che esse hanno il solo punto di intersezione per = a sinistra del quale F(x) G(x) e a destra del quale F(x) G(x). L indice di dissomiglianza X X si può spezzare eliminando il valore assoluto X X.

D Uggento A.M., Girone F. La dissomiglianza tra due distribuzioni normali 47 Con semplici artifici di calcolo abbiamo ottenuto il risultato X X [1]. La suddetta funzione, in termini di µ e σ, è rappresentata graficamente nella Fig.1 dalla quale emerge chiaramente che l indice semplice di dissomiglianza per due distribuzioni normali cresce al crescere di µ, ossia al crescere della differenza delle medie e al crescere di σ, ossia al crescere del rapporto tra i due scarti quadratici medi. Figura 1. Indice semplice di dissomiglianza tra due distribuzioni normali di medie 0 e µ e s.q.m. 1 e σ. 3. APPLICAZIONE La formula proposta nel presente lavoro consente di calcolare l indice semplice di dissomiglianza per due distribuzioni normali. Per una sua applicazione sono stati utilizzati i dati delle stature osservate su 172 studenti universitari, di cui 94 maschi e 78 femmine (Tab.1).

48 Annali del Dipartimento di Scienze Statistiche Carlo Cecchi, Vol. X (2011) Tabella 1. Stature osservate su 172 studenti universitari, per sesso Stature (cm) Maschi Femmine Stature (cm) Maschi Femmine 152 0 2 176 1 1 154 0 1 177 4 1 155 0 1 178 9 1 156 0 1 179 6 0 157 0 3 180 6 1 158 0 4 181 6 0 159 0 1 182 4 0 160 2 11 183 3 1 162 0 5 184 2 0 163 1 5 185 6 0 164 0 3 186 4 0 165 1 10 187 4 0 167 1 2 188 1 0 168 3 6 190 1 0 169 1 2 193 2 0 170 2 6 195 1 0 171 3 1 196 1 0 172 5 2 207 1 0 173 5 3 Totale 94 78 174 3 3 Medie 178,70 165,17 175 5 1 s.q.m. 7,65 6,51 Indichiamo con N=3.666 il minimo comune multiplo tra il numero dei maschi e quello delle femmine e con e con, per i=1,2,,n, le graduatorie ampliate, ossia moltiplicate per.. 39 e 47, rispettivamente per i maschi e per le femmine. L indice di dissomiglianza delle due distribuzioni, calcolato utilizzando la media delle differenze in valore assoluto tra osservazioni cograduate, risulta: 49.621 3.666 13,53.

D Uggento A.M., Girone F. La dissomiglianza tra due distribuzioni normali 49 Atteso che la distribuzione delle stature in gruppi omogenei è approssimativamente normale, abbiamo sostituito alle distribuzioni empiriche le curve normali con medie e varianze stimate rispettivamente per gli studenti e per le studentesse: 178,70, 165,17 e 7,65, 6,51. La differenza delle medie risulta 178,70 165,17 13,53, il rapporto tra gli scarti quadratici medi risulta 7,65 6,51 1,175. Possiamo applicare, pertanto, la formula [1] dell'indice di dissomiglianza tra due distribuzioni normali ricavata nel paragrafo precedente: 2 1 2 13,53. 1 2 Figura 2. Funzioni di ripartizione empiriche e teoriche delle distribuzioni delle stature di 94 studenti e 78 studentesse universitari.

50 Annali del Dipartimento di Scienze Statistiche Carlo Cecchi, Vol. X (2011) L'identità dei risultati consente di fare le seguenti considerazioni: - le osservazioni delle stature per i maschi e per le femmine sono ben rappresentate dalle curve normali, la qual cosa viene confermata dalla vicinanza dalle funzioni di ripartizione empiriche e teoriche rappresentate nella Fig.2; - il calcolo dell'indice di dissomiglianza risulta più agevole laddove si utilizzi la formula [1]; - il contributo all'indice di dissomiglianza è dovuto principalmente alla differenza delle medie e non alla differenza tra gli scarti quadratici medi. 4. CONSIDERAZIONI FINALI In questa nota abbiamo ottenuto l espressione in forma compatta dell indice di dissomiglianza per due variabili normali con medie e varianze diverse. Il risultato si rivela particolarmente utile quando, in varie discipline (indagini sociali, indagini di marketing, analisi dei gruppi ecc.), occorre stratificare un collettivo senza voler privilegiare i singoli aspetti (medie, variabilità, asimmetria ecc.) ma tenendo conto della distanza globale tra le distribuzioni stesse. Può essere interessante, infatti, usare il risultato dell indice di dissomiglianza globale tra le coppie di distribuzioni normali delle variabili oggetto di studio quale criterio di selezione e aggregazione delle unità statistiche. BIBLIOGRAFIA GINI C. (1914) Di una misura della dissomiglianza tra due gruppi di quantità e delle sue applicazioni allo studio delle relazioni statistiche, Reale Istituto Veneto di Scienze, Lettere ed Arti, Venezia. GIRONE G. (2009) Statistica, Cacucci Editore, Bari.