Statistica Alfonso Iodice D Enza iodicede@unina.it Università degli studi di Cassino () Statistica 1 / 1
Outline () Statistica 2 / 1
La curtosi La curtosi è la caratteristica della forma della distribuzione che misura lo spessore delle code di una distribuzione: il maggiore/minore spessore delle code della distribuzione determina un maggiore/minore appiattimento della forma della distribuzione. () Statistica 3 / 1
La curtosi La curtosi è la caratteristica della forma della distribuzione che misura lo spessore delle code di una distribuzione: il maggiore/minore spessore delle code della distribuzione determina un maggiore/minore appiattimento della forma della distribuzione. () Statistica 3 / 1
La curtosi La curtosi è la caratteristica della forma della distribuzione che misura lo spessore delle code di una distribuzione: il maggiore/minore spessore delle code della distribuzione determina un maggiore/minore appiattimento della forma della distribuzione. () Statistica 3 / 1
La curtosi La curtosi è la caratteristica della forma della distribuzione che misura lo spessore delle code di una distribuzione: il maggiore/minore spessore delle code della distribuzione determina un maggiore/minore appiattimento della forma della distribuzione. () Statistica 3 / 1
Indice di Curtosi indice di curtosi di Pearson β Tale indice di forma sempre maggiore, minore o uguale a 3. Esso rappresenta la media delle modalità standardizzate elevate alla quarta n n ( xi µ ) β = 1 n i=1 (z i ) = 1 n i=1 σ () Statistica / 1
Indice di Curtosi Distribuzione leptocurtica (β > 3) () Statistica / 1
Indice di Curtosi Distribuzione platicurtica (β < 3) () Statistica / 1
Indice di Curtosi Distribuzione normocurtica (β = 3) () Statistica / 1
Il box-plot Il grafico a scatola (box-plot) è una particolare rappresentazione di una distribuzione: gli elementi utilizzati per costruire la scatola sono i quantili e gli estremi della distribuzione. () Statistica 5 / 1
Il box-plot Il grafico a scatola (box-plot) è una particolare rappresentazione di una distribuzione: gli elementi utilizzati per costruire la scatola sono i quantili e gli estremi della distribuzione. () Statistica 5 / 1
Costruzione di un box plot Si consideri la seguente distribuzione di frequenze () Statistica 6 / 1
Costruzione di un box plot La rappresentazione evidenzia la presenza di un valore anomalo () Statistica 6 / 1
Costruzione di un box plot () Statistica 6 / 1
Costruzione di un box plot () Statistica 6 / 1
Costruzione di un box plot I valori anomali, che quindi non parteciano alla costruzione della scatola, vengono determinati dal confronto con il campo di variazione interquartile. In particolare vengono considerate due soglie: () Statistica 7 / 1
Costruzione di un box plot I valori anomali, che quindi non parteciano alla costruzione della scatola, vengono determinati dal confronto con il campo di variazione interquartile. In particolare vengono considerate due soglie: Q 1 1, 5 (Q 3 Q 1 ) rappresenta il valore al di sotto del quale una modalità considerata outlier () Statistica 7 / 1
Costruzione di un box plot I valori anomali, che quindi non parteciano alla costruzione della scatola, vengono determinati dal confronto con il campo di variazione interquartile. In particolare vengono considerate due soglie: Q 1 1, 5 (Q 3 Q 1 ) rappresenta il valore al di sotto del quale una modalità considerata outlier Q 3 + 1, 5 (Q 3 Q 1 ) rappresenta il valore al di sopra del quale una modalità considerata outlier () Statistica 7 / 1
Box plot e istogramma () Statistica 8 / 1
Box plot e istogramma () Statistica 8 / 1
Box plot e istogramma () Statistica 8 / 1
Box plot e istogramma () Statistica 8 / 1
Box plot e istogramma () Statistica 8 / 1
Misura del legame Data una variabile doppia (X, Y ), la misura del legame che caratterizza le componenti X ed Y si definisce () Statistica 9 / 1
Misura del legame Data una variabile doppia (X, Y ), la misura del legame che caratterizza le componenti X ed Y si definisce connessione se X e Y sono mutabili correlazione se X e Y sono variabili () Statistica 9 / 1
Interdipendenza e dipendenza Se le componenti di una variabile doppia (X, Y ) oggetto di studio rivestono lo stesso ruolo ai fini dell analisi si studia l interdipendenza tra X e Y. Se si vuole studiare, invece, l andamento della variabile Y rispetto ad X, si farà riferimento alla dipendenza di Y da X. () Statistica 10 / 1
Interdipendenza e dipendenza Se le componenti di una variabile doppia (X, Y ) oggetto di studio rivestono lo stesso ruolo ai fini dell analisi si studia l interdipendenza tra X e Y. Se si vuole studiare, invece, l andamento della variabile Y rispetto ad X, si farà riferimento alla dipendenza di Y da X. Y si definisce variabile dipendente X si definisce variabile indipendente () Statistica 10 / 1
Frequenze condizionate () Statistica 11 / 1
Frequenze condizionate () Statistica 11 / 1
Frequenze relative condizionate () Statistica 12 / 1
Frequenze relative condizionate La distribuzione delle frequenze relative condizionate della variabile A (k modalità) rispetto alla j sima modalità della variabile B (h modalità) si ottiene dividendo ciascun elemento dell j ma colonna (frequenza assoluta) per il rispettivo totale di di colonna n ij /n.j per i = 1,..., k. () Statistica 12 / 1
Frequenze relative condizionate () Statistica 13 / 1
Frequenze relative condizionate La distribuzione delle frequenze relative condizionate della variabile B (h modalità) rispetto alla i sima modalità della variabile A (k modalità) si ottiene dividendo ciascun elemento dell i ma riga (frequenza assoluta) per il rispettivo totale di riga n ij /n i. per j = 1,..., h. () Statistica 13 / 1
Esempio tabella 2 mutabili Ad un collettivo di 129 giornalisti di box provenienti da 10 diverse riviste di settore è stato chiesto quale fosse il migliore tra i pugili Lennox Lewis e Evander Holyfield. I dati sono espressi dalla seguente tabella a doppia entrata () Statistica 1 / 1
Calcolo frequenze relative condizionate B A () Statistica 15 / 1
Calcolo frequenze relative condizionate A B () Statistica 16 / 1
Indipendenza Le componenti di una variabile doppia (X, Y ) sono indipendenti se le distribuzioni di frequenze relative condizionate Y X e X Y sono costanti. Formalmente dovrà risultare per Y X () Statistica 17 / 1
Indipendenza Le componenti di una variabile doppia (X, Y ) sono indipendenti se le distribuzioni di frequenze relative condizionate Y X e X Y sono costanti. Formalmente dovrà risultare per Y X n i1 n.1 = n i2 n.2 = n i3 n.3 =... = n ih n.h () Statistica 17 / 1
Indipendenza Le componenti di una variabile doppia (X, Y ) sono indipendenti se le distribuzioni di frequenze relative condizionate Y X e X Y sono costanti. Formalmente dovrà risultare per Y X e per X Y n i1 n.1 = n i2 n.2 = n i3 n.3 =... = n ih n.h n 1j n 1. = n 2j n 2. = n 3j n 3. =... = n kj n k. () Statistica 17 / 1
Giudizi truccati e indipendenza Si supponga di aver manipolato i giudizi affinchè la rivista di appartenenza del giornalista sia indipendente dal pugile votato () Statistica 18 / 1
Giudizi truccati e indipendenza Dalla definizione di indipendenza, calcolando le frequenze relative condizionate delle due componenti (rivista/pugile) verifichiamo che esse sono costanti rispetto alle modalità condizionanti. Infatti () Statistica 19 / 1
Giudizi truccati e indipendenza Dalla definizione di indipendenza, calcolando le frequenze relative condizionate delle due componenti (rivista/pugile) verifichiamo che esse sono costanti rispetto alle modalità condizionanti. Infatti () Statistica 19 / 1
Giudizi truccati e indipendenza Dalla definizione di indipendenza, calcolando le frequenze relative condizionate delle due componenti (rivista/pugile) verifichiamo che esse sono costanti rispetto alle modalità condizionanti. Infatti () Statistica 19 / 1
Indipendenza Se le componenti di una variabile doppia (X, Y ) sono indipendenti (le distribuzioni di frequenze relative condizionate Y X e X Y sono costanti) e vale la seguente relazione () Statistica 20 / 1
Indipendenza Se le componenti di una variabile doppia (X, Y ) sono indipendenti (le distribuzioni di frequenze relative condizionate Y X e X Y sono costanti) e vale la seguente relazione con i = 1,..., k; j = 1,..., h ˆn ij = n i.n.j n.. () Statistica 20 / 1
Indipendenza Se le componenti di una variabile doppia (X, Y ) sono indipendenti (le distribuzioni di frequenze relative condizionate Y X e X Y sono costanti) e vale la seguente relazione ˆn ij = n i.n.j n.. con i = 1,..., k; j = 1,..., h Pertanto, data una distribuzione doppia di frequenze, il legame tra le due componenti (mutabile) varierà tra una situazione di indipendenza (assenza di legame) e un qualche grado di connessione () Statistica 20 / 1
Indice quadratico di connessione (X 2 ) Gli indici per la misura della connessioni sono basati sulle differenze tra le frequenze osservate sul collettivo n ij e le frequenze teoriche ˆn ij, che si osserverebbero sul collettivo se le mutabili considerate fossero indipendenti. () Statistica 21 / 1
Indice quadratico di connessione (X 2 ) Gli indici per la misura della connessioni sono basati sulle differenze tra le frequenze osservate sul collettivo n ij e le frequenze teoriche ˆn ij, che si osserverebbero sul collettivo se le mutabili considerate fossero indipendenti. Indice quadratico di connessione (X 2 ) è dato dalla seguente relazione X 2 = k h (n ij ˆn ij ) 2 ˆn i=1 j=1 ij () Statistica 21 / 1
Indice quadratico di connessione (X 2 ) Gli indici per la misura della connessioni sono basati sulle differenze tra le frequenze osservate sul collettivo n ij e le frequenze teoriche ˆn ij, che si osserverebbero sul collettivo se le mutabili considerate fossero indipendenti. Indice quadratico di connessione (X 2 ) è dato dalla seguente relazione X 2 = k h (n ij ˆn ij ) 2 ˆn i=1 j=1 ij in caso di indipendenza, essendo n ij = ˆn ij, risulta X 2 = 0 il massimo valore dell indice è dato dalla seguente espressione: n min(k 1, h 1) () Statistica 21 / 1
Calcolo indice di connessione Con riferimento all esempio precedente, ecco la tabella delle frequenze teoriche ˆn ij () Statistica 22 / 1
Calcolo indice di connessione Con riferimento all esempio precedente, ecco la tabella delle frequenze teoriche ˆn ij () Statistica 22 / 1
Calcolo indice di connessione Il calcolo dell indice quadratico di connessione è pertanto () Statistica 23 / 1
Calcolo indice di connessione Il calcolo dell indice quadratico di connessione è pertanto X 2 ( 5.1)2 (10 8.9)2 = + + 5.1 8.9 (7.7)2 (6 8.26)2 + + +.7 8.26 +... + (1.01)2 (10 6.99)2 + + =.01 6.99 = 0.2 + 0.1 + 1.08 + 0.62 +... + 2.26 + 1.29 = 16.68 () Statistica 23 / 1
Indice ν di Cramer avendo definito n min(k 1, h 1) come valore massimo che X 2 può assumere, è possibile ottenere una versione normalizzata dell indice di connessione. Viene definito indice ν di Cramer. () Statistica 2 / 1
Indice ν di Cramer avendo definito n min(k 1, h 1) come valore massimo che X 2 può assumere, è possibile ottenere una versione normalizzata dell indice di connessione. Viene definito indice ν di Cramer. X ν = 2 n min(k 1, h 1) con k e h numero di modalità delle componenti della mutabile doppia. L indice è normalizzato, quindi 0 ν 1. () Statistica 2 / 1
Indice ν di Cramer X ν = 2 n min(k 1, h 1) = 16.68 129 min(9, 1) = 0.13 () Statistica 25 / 1