CORSO DI LAUREA IN OTTICA E OPTOMETRIA CORSO DI INFORMATICA E STATISTICA

Dimensione: px
Iniziare la visualizzazioe della pagina:

Download "CORSO DI LAUREA IN OTTICA E OPTOMETRIA CORSO DI INFORMATICA E STATISTICA DANIELE.MONTANINO@UNISALENTO.IT"

Transcript

1 CORSO DI LAUREA IN OTTICA E OPTOMETRIA CORSO DI INFORMATICA E STATISTICA

2 CONVENZIONE SULLE CIFRE SIGNIFICATIVE La convenzione usata sul troncamento delle cifre è troncare semplicemente le cifre non significative se la cifra successiva è <5 Aumentare di una unità l ultima cifra significativa se la cifra successiva è 5 esempio: troncare a 2 cifre significative i seguenti numeri 2,35471 = 2,35 3,45567 = 3,46 8,49735 = 8,50 1,99801 = 2,00 ricordare che bisogna sempre scrivere esplicitamente tutte le cifre significative anche se queste sono zeri (come nell ultimo caso).

3 VARIABILI Variabili Qualitative (esempio colore degli occhi, visone chiara o sfocata ) Quantitative o numeriche (esempio diottrie, distanza interpupillare ) Tipi di variabili quantitative Discrete (esempio voto, età di un paziente in anni ) Continue (esempio altezza di un soggetto )

4 INSIEME DI VARIABILI Insieme di variabili { x 1, x 2, x } N { x } k k=1,n k=indice (o pedice). N=numerosità del campione esempio: i voti di 5 studenti all esame di Informatica e Statistica { x 1, x 2, x 3, x 4, x } 5 = { 28, 22, 25, 21,30}

5 SOMMA Somma (o sommatoria) di N numeri N x k k=1 = x 1 + x x N Nell esempio precedente 5 k=1 x k = =126

6 PROPRIETÀ DELLA SOMMA La somma è un operazione lineare N k=1 con A e B costanti; infatti N (Ax k + B) = A N k=1 x k + NB (Ax k + B) = (Ax 1 + B) + (Ax N + B) = A(x x N )+ (B B) k=1 N volte Per esempio nel caso precedente se moltiplichiamo per 10 e sommiamo 5 ad ogni numero abbiamo { 10x 1 + 5,10x 2 + 5,10x 3 + 5,10x 4 + 5,10x 5 + 5} = { 285, 225, 255, 215,305} che sommati danno 1285, cioè 10x126+5x5.

7 SOMMA Esercizio: provare con qualche esempio che N k=1 N k=1 k = N = k 2 = N 2 = N(N +1) 2 N(N +1)(2N +1) 6

8 PRODOTTO Prodotto (o produttoria)di N numeri N k=1 x k = x 1 x 2 Fattoriale: è definito come N k=1 x N N! = k =1 2 N Questa funzione tornerà utile in seguito. Il fattoriale è un numero che cresce molto velocemente 0!=1 (per definizione); 1!=1; 2!=2; 3!=6; 4!=24; 5!=120; 6! =720; 20!= ;

9 MEDIA DI UN CAMPIONE La media di un campione di dati è definita da X = 1 N N x k k=1 Esempio: nel caso precedente la media dei voti del campione dei cinque studenti sarà X = k=1 x k = = 25, 2

10 PROPRIETÀ DELLA MEDIA Usando le proprietà di linearità della somma è facile mostrare che la media è una operazione lineare con A e B costanti e AX + B = AX + B Ax + By + C = Ax + By + C In particolare la media degli scarti è zero X X = X X = 0

11 MEDIA GEOMETRICA La media definita precedentemente è la cosiddetta media lineare (o aritmetica). Esistono altri tipi di media. Vale la pena menzionare la media geometrica M g = N N x k k=1 questa media è usata quando sia ha a che fare con variabili moltiplicative (ad esempio tassi di crescita o di interesse).

12 MEDIA GEOMETRICA Esempio: il numero di batteri in una colonia cresce del 120% nelle prima ora, del 140% nella seconda del 130% nella terza e del 110% nella quarta ora. Qual è il tasso di crescita medio nelle quattro ore? La risposta è R = 4 1, 2 1, ,1 =1, , 5% Infatti se la colonia crescesse del 124,5% ogni ora l incremento totale finale sarebbe lo stesso.

13 FREQUENZE Le frequenze rappresentano il numero di occorrenze di una variabile sia qualitativa che quantitativa Esempio di variabile qualitativa: In un campione di 128 persone si verifica il loro colore degli occhi Colore degli occhi Frequenza Assoluta Frequenza relativa Neri 25 19,5% Nocciola 32 25,0% Blu 40 31,3% Verdi 31 24,2% Totale 128 La frequenza relativa è la frazione del numero rispetto al totale

14 FREQUENZA Vediamo il caso di una variabile quantitativa: voti di un campione di 300 studenti in un determinato esame Voto in trentesimi Studenti (frequenza) Totale 300

15 DISTRIBUZIONE DI FREQUENZA La precedente tabella può essere tradotta in istogramma. Questa sarà la distribuzione dei dati Numero di studenti Voto

16 CLASSI A volte è comodo o necessario raggruppare la variabile in esame in classi. Per esempio potremmo raggruppare la tabella dei voti precedenti in tre macroclassi : da 18 a 22, da 23 a 27 e da 28 a 30 Voti Numero di studenti Questo raggruppamento diventa evidentemente necessario quando si ha a che fare con variabili continue (esempio: l altezza di un campione di persone).

17 CUMULATIVA Dalla tabella precedente è possibile anche costruire la tabella delle cumulative Voto Studenti Cumulativa Totale 300 L ultima colonna è costruita sommando via via le frequenze precedenti. Per esempio nel caso precedente il numero di studenti che hanno preso un voto 25 sarà 200 Ovviamente la distribuzione cumulativa ha senso solo se la variabile è di tipo numerico

18 DISTRIBUZIONE CUMULATIVA Numero di studenti Voto

19 CUMULATIVA RELATIVA Dividendo le cumulative per la numerosità totale del campione si ha la cumulativa relativa. Nell esempio precedente si ha che, ad esempio, il 38.7% degli studenti ha un voto inferiore o uguale al 23. Voto Cum. relativa 18 0,7% 19 2,7% 20 6,3% 21 14,3% 22 26,0% 23 38,7% 24 55,0% 25 66,7% 26 77,7% 27 88,0% 28 94,3% 29 98,3% ,0% Numero di studenti 120,0% 100,0% 80,0% 60,0% 40,0% 20,0% 0,0% Voto

20 RIASSUMENDO Variabile frequenza assoluta frequenza relativa cumulativa assoluta cumulativa relativa x 1 n 1 f 1 s 1 c 1 x 2 n 2 f 2 s 2 c 2 x N n n f N s N c N n = N n k k=1 f k = n k n s k = k n i i=1 c k = s k n

21 MEDIA PESATA (O PONDERATA) Quando si ha a che fare con una tabella di frequenze la media di una variabile deve essere ovviamente pesata sulla frequenza della variabile X = 1 n N k=1 n k x k o alternativamente X = N k=1 f k x k questo perché la variabile x k appare n k volte nella tabella (nell esempio dei voti è come se dovessimo sommare 18 per 2 volte, 19 per 6 volte e così via e dividere per tutti e 300 gli studenti)

22 MEDIA PESATA Voto x k Studenti n k Frequenza relativa f k f k *x k ,7% 0, ,0% 0, ,7% 0, ,0% 1, ,7% 2, ,7% 2, ,3% 3, ,7% 2, ,0% 2, ,3% 2, ,3% 1, ,0% 1, ,7% 0,50 Totale studenti= 300 voto medio= 24,31

23 MEDIANA La mediana è quel valore per cui metà della distribuzione è inferiore e metà è superiore ad esso Esempio: si è misurata la miopia in un campione di studenti ottenendo la seguente distribuzione Diottrie Persone Cumulativa relativa 0, ,7% 0, ,1% 1, ,6% 1, ,0% 2, ,3% 2, ,5% 3, ,3% 3, ,8% 4, ,9% 4, ,6% 5, ,3% 5, ,7% 6, ,1% 6, ,5% 7, ,9% 7, ,2% 8, ,6% 8,5 9 99,8% 9,0 7 99,9% 9,5 3 99,9% 10, ,0% Osserviamo come il valore della cumulativa relativa assume il valore 50% in corrispondenza di 1,5 diottrie. Questa sarà il valore mediano poiché metà dei soggetti avrà una miopia inferiore a 1.5 diottrie e un altra metà superiore. Si noti come il valore della mediana non necessariamente coincida con la media (nel caso precedente vale 2 diottrie).

24 MEDIANA Voto Cum. relativa 18 0,7% 19 2,7% 20 6,3% 21 14,3% 22 26,0% 23 38,7% 24 55,0% 25 66,7% 26 77,7% 27 88,0% 28 94,3% 29 98,3% ,0% A volte la mediana non è ben definita. Riprendendo l esempio dei voti notiamo che non c è nessun valore corrispondente al 50%. In tal caso (sebbene esistano formule più sofisticate) per semplicità potremmo prendere il valore intermedio tra le classi a cavallo del 50%. Per esempio nel caso precedente il voto mediano sarebbe 23,5.

25 QUARTILI Allo stesso modo della mediana è possibile definire i quartili inferiore e superiore (ovvero i valori per cui il sotto cui troviamo il 25% e il 75% della popolazione) Diottrie Persone Cumulativa relativa 0, ,7% 0, ,1% 1, ,6% 1, ,0% 2, ,3% 2, ,5% 3, ,3% 3, ,8% 4, ,9% 4, ,6% 5, ,3% 5, ,7% 6, ,1% 6, ,5% 7, ,9% 7, ,2% 8, ,6% 8,5 9 99,8% 9,0 7 99,9% 9,5 3 99,9% 10, ,0% Seguendo il criterio precedente potremmo grosso modo identificare il quartile inferiore con il valore 1,75 e quello superiore con 2,75

26 PERCENTILI Un ulteriore raffinamento dei concetti precedenti sono i percentili. Per esempio il 90% percentile inferiore e superiore sono quei valori per cui al di sotto troviamo il 10% e il 90% della popolazione. nell esempio della miopia all incirca solo il 5% della popolazione ha meno di 0.25 diottrie mentre chi ha più di 3,5 diottrie è nel 95% percentile superiore. 100,0% 90,0% 80,0% 70,0% 90% 75% 60,0% 50,0% 40,0% 30,0% 20,0% 10,0% 0,0% 1,0 2,0 3,0 4,0 5,0 6,0 7,0 8,0 9,0 10,0 11,0 12,0 13,0 14,0 15,0 16,0 17,0 18,0 19,0 20,0 21,0 x 50% 20% 10%

27 MODA La moda è il valore più comune in una distribuzione. Per esempio nell esempio dei voti la moda è il 24 mentre nell esempio della miopia la moda è 1,5 diottrie. Talvolta una distribuzione può avere due picchi distinti ben localizzati. In tal caso la distribuzione si dice bimodale (più in generale possono esistere distribuzioni multimodali ) 1200,0 1000,0 800,0 600,0 400,0 200,0 Una distribuzione del genere può essere sintomo di due popolazioni distinte (per esempio se misurassimo la miopia ad un campione di persone in parte italiane e in parte giapponesi, popolo notoriamente più miope) 0,0 1,0 2,0 3,0 4,0 5,0 6,0 7,0 8,0 9,0 10,0 11,0 12,0 13,0 14,0 15,0 16,0 17,0 18,0 19,0 20,0 21,0

28 ESEMPIO Una fabbrica produce viti per occhiali attraverso tre macchine di lunghezza nominale 1,1mm. Si estrae un campione di 430 viti e si fa un istogramma della loro lunghezza reale Lunghezza (mm) Numero 0,85 0 0,90 2 0,95 8 1, , , , , ,25 7 1,30 1 1,35 2 1,40 4 1, , , ,60 2 1,65 1 1,70 1 1,75 0 1, ,85 0,90 0,95 1,00 1,05 1,10 1,15 1,20 1,25 1,30 1,35 1,40 1,45 1,50 1,55 1,60 1,65 1,70 1,75 1,80 Il fatto che vi è un secondo picco a 1.50 mm fa pensare che una delle macchine stia lavorando male ovvero sta producendo viti sistematicamente più lunghe di quelle programmate.

29 MEDIA PESATA SU CLASSI Talvolta occorre calcolare la media su di una tabella di classi. Prendiamo ad esempio la tabella dei voti suddivisa in classi Voti Numero di studenti Poiché non conosciamo il numero relativo di studenti relativo ad ogni voto, siamo costretti a scegliere un criterio per assegnare un voto medio ad ogni classe. La scelta più semplice è di considerare il valore centrale della classe

30 MEDIA PESATA SU CLASSI Voti Voto medio Numero di studenti La media pesata su questa tabella vale 24,18 che è solo leggermente diverso dal valore 24,31 calcolata con la tabella non suddivisa in classi. In ogni caso la suddivisione in classi provoca una perdita di informazioni e quindi fornisce un valore meno accurato per le variabili statistiche.

31 TABELLE A DOPPIA ENTRATA Un caso più generale avviene quando una tabella incrocia due (o più) variabili y 1 y 2 y M x 1 n 1,1 n 2,1 n 1,M x 2 n 2,1 n 2,2 n 2,M x N n N,1 n N,2 n N,M Una tabella di questo tipo viene detta a doppia entrata, o bivariata. In principio possono esistere anche tabelle che incrociano più di due variabili (multivariate) ma la loro rappresentazione è più difficoltosa. Per semplicità ci limiteremo a tabelle a doppia entrata.

32 TABELLE A DOPPIA ENTRATA Esempio di tabella a doppia entrata. X=colore degli occhi, Y=colore dei capelli Biondi Rossi Castani Σ Azzurri Verdi Σ Marginali di riga Marginali di colonna Totale generale Se X e Y qualitativi la tabella si dice di contingenza, se entrambi quantitativi di correlazione, se uno qualitativo e uno quantitativo si dice tabella mista.

33 MARGINALI Marginali di riga n i, = M n i, j j=1 Marginali di colonna n, j = N n i, j i=1 Totale generale N n = n i, = n, j = i=1 M j=1 N i=1 M j=1 n i, j

34 ESEMPIO DI TABELLA A DOPPIA ENTRATA Per esempio si supponga di avere la seguente tabella in cui si è misurato il grado di astigmatismo residuo su due campioni di persone che hanno eseguito due tecniche di chirurgia refrattiva (PRK o LASIK) Asitig. (diottrie) PRK LASIK n i* n *j L ultima riga sono le persone che hanno effettuato un certo tipo di intervento, l ultima colonna sono le persone che hanno un certo grado di astigmatismo residuo indipendentemente dal tipo di intervento.

35 ISTOGRAMMA E possibile costruire un istogramma per entrambe le entrate e il marginale di riga PRK LASIK PRK+LASIK ,1 0,2 0,3 0,4 0,5 0,6 Astig. (diottrie) 0,7 0,8 0,9 1 LASIK PRK PRK+LASIK

36 MEDIE PARZIALI Le medie su di una riga o una colonna costituiscono le medie parziali. Queste medie possono evidentemente essere effettuate se x e/o y sono variabili quantitative X j = 1 n j per esempio nel caso della tabella precedente possiamo calcolare solo le medie di colonna poiché le variabili di riga sono qualitative. Calcolando queste medie otteniamo separatamente l astigmatismo medio per chi ha eseguito l intervento con la PRK e la LASIK ottenendo (il calcolo è lasciato per esercizio): Media(PRK) = 0,32 Media(LASIK) = 0,46 N n i, j x i Y i = 1 n i, j y j n i i=1 M j=1 (attenzione: questo non induca alla facile conclusione che la LASIK è peggiore della PRK!)

37 MEDIE GENERALI Nelle tabelle a doppia entrata è anche possibile calcolare le medie generali delle variabili quantitative. Queste sono calcolate attraverso le formule X = 1 n Y = 1 n M j=1 N i=1 n, j X j n i, Y i = 1 n = 1 n N i=1 M j=1 n i, x i n, j y j ovvero come media pesata delle medie parziali oppure come una media delle variabili stesse pesata con i marginali di riga e di colonna (si può mostrare che si ha lo stesso risultato).

38 ESEMPIO DI MEDIE GENERALI Riprendiamo l esempio della tabella precedente: vogliamo calcolare l astigmatismo medio su tutto il campione Asitig. (diottrie) PRK LASIK n i* n *j Media 0,32 0,46 Questo può essere effettuato in due modi 1) Calcoliamo la medie delle medie pesando le medie sui marginali di colonna 42 0, , 46 X = = 0, ) Mediamo direttamente la variabile x usando come peso i marginali di riga X = = 0,39 Il risultato è lo stesso ma avendo già le medie parziali conviene il primo calcolo.

39 ESERCIZIO In questa tabella un certo numero di pazienti trattati con PRK vengono classificati in base all alla correzione apportata e all astigmatismo residuo dopo l operazione. Trovare le medie parziali di riga e di colonna e le medie generali. Fare un istogramma delle medie parziali sia per le righe che per le colonne. Cosa si potrebbe dedurne? As6gma6smo residuo Correzione apportata (dio?rie)

40 MEDIA QUADRATICA Un tipo ulteriore di media è la media quadratica, ovvero la radice quadrata della media dei quadrati M q = N k=1 N x k 2 Tale media è utile quando i vari quando i vari x k sono talvolta positivi e talvolta negativi mentre a noi interessa una media che non dipenda dal segno degli x k

41 INDICE DI VARIABILITÀ A volte a noi non interessa solo la media ma di un campione ma anche quanto questa si discosta mediamente dalla media. Tuttavia, come detto in precedenza, la media degli scarti è sempre zero 1 N N (x k X) = 0 k=1 poiché alcuni scarti sono positivi e altri negativi. Questa media non ci da quindi alcuna informazione sulla variabilità. Una possibile soluzione sarebbe di prendere la media dei valori assoluti degli scarti. Tuttavia, per diverse ragioni, la scelta migliore è prendere la media quadratica degli scarti

42 SCARTO QUADRATICO MEDIO Si definisce scarto quadratico medio quindi la media quadratica degli scarti N (x k X) 2 σ P = k=1 X N (la lettera σ è il sigma greco minuscolo). Tuttavia questa definizione ha il problema che per N=1 si ha che lo scarto medio è zero mentre per un solo dato noi vorremmo che lo scarto rimanga non definito.

43 DEVIAZIONE STANDARD Per la ragione precedente si preferisce definire la deviazione standard nella maniera seguente σ x = N k=1 (x k X) 2 N 1 un po più grande rispetto allo s.q.m. La deviazione standard è una misura della dispersione della popolazione intorno alla media. Lo scarto quadratico medio (quello cioè con N al denominatore) è talvolta definito come deviazione standard di popolazione. Per N molto grande la differenza tra i due è minima. Il quadrato dello scarto quadratico medio è detto varianza

44 DEVIAZIONE STANDARD Facciamo un esempio. Si supponga che Laura e Marco abbiano preso abbia preso i seguenti voti in 10 esami Laura={25,26,26,27,24,25,26,28,27,26} Marco={30,22,24,28,27,30,18,24,30,27} Come si vede entrambi hanno una media di 26. Però la deviazione standard dei voti di Laura è di 1,15 mentre quella di Marco è 3,97. Ciò indica che Laura è stata più costante nello studio mentre Marco ha avuto periodi di alti e bassi Notare che se avessimo usato lo scarto quadratico medio avremmo ottenuto 1,09 e 3,76, valori un poco più grandi dei precedenti.

45 CALCOLO DELLA DEVIAZIONE STANDARD Vediamo coma calcolare la deviazione standard (nel nostro caso N=10) - - Voto (x k ) x k - X (x k - X) X=26 - (x k - X) 2 = - (x k - X) 2 /(N- 1)= - (x k - X) 2 /(N- 1)= 12 12/9=1,33 1,33=1,15

46 DEVIAZIONE STANDARD SU TABELLE Per calcolare la deviazione standard su una tabella di frequenze occorre fare la media ponderata σ X = 1 N 1 N k=1 n k (x k x) 2 con n al solito la numerosità del campione N = N n k k=1

47 CALCOLO DELLA DEVIAZIONE STANDARD SU TABELLE Riprendiamo l esempio della tabella dei voti Voto (x k ) Studenti (n k ) n k (x k -X) , , , , , , , , , , , , ,69 X=24.31 n k (x k -X) 2 = n k (x k -X) 2 /(n- 1) = n k (x k -X) 2 /(n- 1) = , ,55/299=6,66 6,66=2,58

48 COEFFICIENTE DI VARIAZIONE E definito come il rapporto tra la deviazione standard è la media CV(X) = σ X / X Esempio: la media dei tempi di percorrenza dei treni sulla tratta Milano- Roma vale 350 minuti con una deviazione standard di 12 minuti, mentre sulla tratta Milano-Torino vale 280 minuti con una deviazione standard di 8 minuti. Quale delle due tratte è più affidabile? E evidente che non è possibile confrontare direttamente i due tempi di percorrenza poiché si riferiscono a diverse tratte. Tramite l indice di variabilità si ha che nel primo caso si ha CV=3,4% mentre nel secondo caso si ha CV=2,9%. I treni sulla tratta Milano-Torino sono più affidabili poiché hanno una variabilità minore rispetto all altra tratta.

49 INTERDIPENDENZA TRA VARIABILI DIVERSE A volte ci si chiede se ci può essere una qualche relazione tra due variabili X e Y. Per esempio se esiste una relazione tra ore passate al computer e problemi visivi (ad es. miopia). Si supponga per esempio di avere questa tabella in cui la miopia media di un campione di bambini viene messa in relazione alle ore giornaliere passate mediamente a giocare con la playstation. Ore passate a giocare Miopia media 0,8 1,3 1,2 2,4 2,7 3,2 Di questi dati è sempre buona norma fare un grafico!

50 GRAFICO A DISPERSIONE (SCATTER PLOT) Apparentemente c è una qualche dipendenza della miopia con il numero di ore passate a giocare ma come quantificare questa dipendenza? 3,5 3,0 Miopia media 2,5 2,0 1,5 1,0 0,5 0,0 0,0 1,0 2,0 3,0 4,0 5,0 6,0 Numero di ore medie giornaliere passate a giocare Un primo possibile indicatore è il coefficiente di correlazione lineare

51 COVARIANZA La covarianza tra due serie di dati è definita da - - COV(X,Y ) = N k=1 (x k X)(y k Y ) con X e Y medie di x k e y k. Questo coefficiente è la media del prodotto degli scarti. Questo coefficiente è positivo se mediamente i segni degli scarti sono concordi (ovvero se quando uno è positivo lo è anche l altro) e negativo quando sono discordi(cioè se uno è negativo, l altro è positivo e viceversa. Se non c è relazione tra i due segni la covarianza tende ad annullarsi. N

52 COVARIANZA Nel caso precedente per esempio si vede che c è concordanza, in effetti la covarianza è positiva e vale +0,77 - X=2,50 3,5 3,0 + Miopia 2,5 2,0 1, Y=1,93 1,0 0,5 0,0 0,0 1,0 2,0 3,0 4,0 5,0 6,0 Numero di ore medie giornaliere passate a giocare

53 CORRELAZIONE - - Detti x k e y k due serie di N dati con media X e Y si definisce coefficiente di correlazione tra X e Y la quantità R(X,Y ) = COV(X,Y ) σ XP σ Y P = N k=1 N k=1 ( x k X) y k Y ( x k X) 2 ( ) ( y k Y ) 2 Questo coefficiente è sempre un numero compreso tra -1 e 1 e ha questo significato. Più R è vicino a 1 più vi è una concordanza tra le due variabili (al crescere di una cresce l altra) Più R è vicino a -1 più vi è una discordanza tra le due variabili (al crescere di una decresce l altra) Se R è vicino a zero vi è indipendenza tra le variabili. N k=1

54 CALCOLO DEL COEFFICIENTE DI CORRELAZIONE Ore passate a giocare 0,0 1,0 2,0 3,0 4,0 5,0 Media=2,50 - (x-x) -2,5-1,5-0,5 0,5 1,5 2,5 (x- X) - 2 6,3 2,3 0,3 0,3 2,3 6,3 =17,50 Miopia media 0,8 1,3 1,2 2,4 2,7 3,2 Media=1,93 (y- Y) - -1,1-0,6-0,7 0,5 0,8 1,3 (y- Y) - 2 1,3 0,4 0,5 0,2 0,6 1,6 =4,6 (x- X)(y- Y) - - 2,8 0,9 0,4 0,2 1,2 3,2 =8.7 Il coefficiente di correlazione vale quindi R = = 0.97 il che indica che vi è un forte grado di relazione tra le ore passate a giocare e la miopia.

55 CUM GRANO SALIS Occorre sempre stare attenti però che non è detto che anche se c è un grado di relazione tra le due variabili vi è necessariamente una relazione causa-effetto tra di esse! Si potrebbe giungere a conclusioni paradossali come per esempio che l aumento temperatura globale sulla terra è causata dalla diminuzione del numero di pirati R=-0,93

56 REGRESSIONE Ci si chiede se tra le variabili X e Y esista una qualche relazione funzionale, cioè se esista una espressione Y=f(X) dove f è una qualche funzione che in qualche maniera approssimi i dati. La ricerca di una tale funzione è detta regressione Questa relazione funzionale può essere nota a priori (per esempio è noto che tra il peso di un corpo e il suo volume esiste una relazione lineare) oppure no. In questo secondo evidentemente non esiste una scelta univoca caso dallo studio del grafico a dispersione si potrebbe dedurre qual è il tipo di grafico più opportuno che approssima i dati.

57 REGRESSIONE In generale, quando si hanno a disposizione pochi punti è molto difficile stabilire qual è la funzione più opportuna 4,0 3,5 esponenziale 3,0 Miopia media 2,5 2,0 1,5 polinomio 1,0 0,5 0,0 0,0 1,0 2,0 3,0 4,0 5,0 6,0 Numero di ore medie giornaliere passate a giocare Nel caso del polinomio abbiamo una interpolazione, ovvero una curva che passa per tutti i punti. In generale non ci interessa una tale relazione funzionale, ma di una curva che si limiti ad approssimare i dati.

58 REGRESSIONE Con un gran numero di dati è più facile inferire la forma funzionale: Per esempio nel caso seguente è abbastanza evidente che i dati sono ben interpolati da una retta

59 REGRESSIONE LINEARE Qui noi ci occuperemo per semplicità del modello più semplice di regressione, ovvero quando i dati possono essere approssimati da una retta, ovvero da una relazione funzionale del tipo Y = A X + B con A e B variabili da determinare. Questo modello è detto di regressione lineare.

60 PRINCIPIO DEI MINIMI QUADRATI Per determinare i coefficienti A e B è possibile ricorrere al principio dei minimi quadrati (valido anche nel caso di regressioni non lineari). Siano x k e y k sono i nostri dati. Il valore teorico di y associato al valore x k è dato da ŷ k =Ax k +B. 3,5 3,0 Y 2,5 2,0 1,5 1,0 0,5 (x k, ŷ k ) (x k,y k ) 0,0 0,0 1,0 2,0 3,0 4,0 5,0 6,0 X

61 METODO DEI MINIMI QUADRATI Possiamo calcolare la somma dei quadrati degli scarti tra gli y k e i valori teorici ŷ k =Ax k +B. Q(A, B) = N ( y k ŷ k ) 2 = y k Ax k B k=1 N k=1 ( ) 2 questa quantità ci da una misura delle differenze tra i valori reali e quelli teorici delle y. Essa è una funzione delle variabili incognite A e B. I valori di A e B cercati sono quelli che minimizzano questa funzione, ovvero che rendono minima la differenza del quadrato degli scarti della relazione teorica con i dati reali.

62 METODO DEI MINIMI QUADRATI La minimizzazione si effettua tramite le tecniche standard dell analisi, ovvero derivando la funzione Q(A,B) rispetto ad A e a B e ponendo le derivate uguali a zero. Viene qui omessa la dimostrazione e viene dato direttamente il risultato A = R σ Y σ X B = Y AX dove R è il coefficiente di correlazione tra i dati. Come si vede il coefficiente angolare della retta e il coefficiente di correlazione sono legati tra di loro. In particolare se R>0 la retta è crescente, se R<0 decrescente (come ragionevole sia!)

63 ESEMPIO DI REGRESSIONE LINEARE Riprendiamo l esempio della miopia in funzione delle ore passate a giocare: Ore passate a giocare Miopia media Media Ricordiamo che R=0,97. Usando le formule precedenti si ha Dev. st. 0,0 1,0 2,0 3,0 4,0 5,0 2,50 2,5 1,71 0,8 1,3 1,2 2,4 2,7 3,2 1,93 1,9 0,88 A = 0, 97 0,88 = 0, 50 1, 71 B =1, 9 0, 50 2, 5 = 0, 69 Miopia 3,5 3,0 2,5 2,0 1,5 1,0 0,5 y = 0,50x + 0,69 R² = 0,93 0,0 0,0 1,0 2,0 3,0 4,0 5,0 6,0 Ore passate a giocare

64 COEFFICIENTE DI DETERMINAZIONE Dalle relazioni precedenti abbiamo che per la retta di regressione la somma dei quadrati degli scarti vale N 2 Q = k=1 " y k Y R σ % Y $ (x k X) ' # σ X & dopo qualche calcolo, ricordando la definizione di R si ottiene la relazione Q N 1 = σ Y 2 (1 R 2 ) In pratica: 1) se R 2 =1 si ha Q=0 e la retta passa esattamente per tutti i punti (determinazione perfetta) 2) Se R 2 =0 si ha Q/(N-1)=σ Y2, l errore quadratico medio non è migliore della varianza. La regressione non porta a nessun miglioramento di informazione (indifferenza o determinazione nulla) R 2 è detto coefficiente di determinazione e la regressione porta un risultato tanto migliore quanto questo è più vicino a 1.

65 PREVISIONE L uso della regressione serve per fornire una previsione (o estrapolazione) dei valori y per valori x diversi da quelli dall insieme x k. Per esempio, nel caso dell esercizio precedente vogliamo prevedere la miopia di un soggetto che passa 6 ore al giorno davanti alla playstation. Usando l equazione della retta avremo y = 0, 50 6, 0 + 0, 69 = 3, 7 si noti comunque che questa è solo una rozza estrapolazione. Valori reali potrebbero essere diversi da questa previsione.

66 MISURE DI CONNESSIONE Passiamo ad un altro esempio di verifica di relazioni. Si supponga di voler verificare se l uso di lenti bifocali può dar luogo a disturbi di emicrania ad alcuni pazienti. Vengono intervistati 94 pazienti e viene estratta la seguente tabella di contingenza Ha frequenti emicranie Non frequentii emicrania Usa lenti bifocali Non lenti bifocali Ovviamente ci possono essere altre cause per l emicrania però apparentemente sembra esserci una prevalenza di persone che usano lenti bifocali che ha problemi, cioè una connessione tra l uso di lenti ed emicranie. Vogliamo quantificare questa connessione.

67 NUMERO TEORICO IN ASSENZA DI CONNESSIONE Per capire se vi è una effettiva connessione dei due caratteri o se il fatto che l eccesso di persone che usa lenti bifocali con emicrania sia solo un fatto casuale dobbiamo confrontare questa tabella con quella teorica in cui i due caratteri sono indipendenti. Per esempio: il numero atteso di persone sul campione di 94 persone che che usa lenti bifocali e ha problemi di emicrania se non vi fosse nessuna connessione tra le due cose sarebbe n * 1,1 = = 27, 6 Numero di persone con emicrania Frazione di persone sul totale che usa lenti bifocali

68 TABELLA TEORICA DI INDIPENDENZA In pratica per ogni elemento ij il numero teorico si calcola come segue n * i, j = n n i,, j n ovvero moltiplicando i marginali di riga e colonna corrispondenti e dividendo per il numero totale (non fa nulla se non è un numero intero). Per esempio per la tabella precedente la tabella teorica sarebbe. Ha frequenti emicranie Non frequentii emicrania Usa lenti bifocali Non lenti bifocali 27,6 25, ,4 19,

69 INDICE DI CONNESSIONE (O CHI-QUADRO DI PEARSON) Per confrontare la tabella teorica con quella reale è possibile utilizzare il χ 2 (leggesi chi-quadrato) di Pearson definito come χ 2 = N M (n i, j n * i, j ) 2 = i=1 j=1 * n i, j N i=1 M j=1 2 n i, j n i, j * n dove N e M sono il numero di righe e di colonne della tabella (2 e 2 nel nostro esempio).

70 CHI-QUADRATO DI PEARSON Nel nostro caso avremmo quindi Tabella n ij Usa lenti bifocali Non lenti bifocali Ha frequenti emicranie Non frequentii emicrania 8 33 Ha frequenti Usa lenti bifocali Non lenti bifocali emicranie 27,6 25,4 emicrania 21,4 19,6 Non frequentii Tabella n* ij χ 2 = (41 27, 6)2 27, 6 + (12 25, 4)2 25, 4 resta da capire come interpretare questo numero + (8 21, 4)2 21, 4 + (33 19, 6)2 19, 6 = 31

71 CHI-QUADRATO DI PEARSON E possibile dimostrare che il χ 2 è un numero sempre compreso tra 0 e il n moltiplicato per il valore minimo tra il numero di righe meno 1 o il numero di colonne meno 1 0 χ 2 n min(n 1, M 1) E evidente che il valore 0 si può ottenere solo quando la tabella dei dati coincide esattamente con i valori teorici, cioè non c è una dipendenza tra i caratteri Di conseguenza: tanto più il valore di χ 2 si avvicina al valore massimo teorico tanto più c è dipendenza tra i due caratteri.

72 CHI-QUADRATO DI PEARSON Nel nostro caso abbiamo N=M=2 quindi il valore massimo teorico è uguale a n=94. Il valore di χ 2 =31indica che c è un livello medio di associazione, ovvero che c è una certa dipendenza tra il portare lenti bifocali e l avere spesso emicranie. Nello studio della statistica inferenziale si vedrà come quantificare meglio questo grado di associazione nel cosiddetto test del χ 2.

Dott.ssa Caterina Gurrieri

Dott.ssa Caterina Gurrieri Dott.ssa Caterina Gurrieri Le relazioni tra caratteri Data una tabella a doppia entrata, grande importanza riveste il misurare se e in che misura le variabili in essa riportata sono in qualche modo

Dettagli

Brugnaro Luca Boscaro Gianni (2009) 1

Brugnaro Luca Boscaro Gianni (2009) 1 STATISTICA PER LE PROFESSIONI SANITARIE - LIVELLO BASE Brugnaro Luca Boscaro Gianni (2009) 1 Perché la statistica Prendere decisioni Bibliografia non soddisfacente Richieste nuove conoscenze Raccolta delle

Dettagli

Analisi bivariata. Dott. Cazzaniga Paolo. Dip. di Scienze Umane e Sociali paolo.cazzaniga@unibg.it

Analisi bivariata. Dott. Cazzaniga Paolo. Dip. di Scienze Umane e Sociali paolo.cazzaniga@unibg.it Dip. di Scienze Umane e Sociali paolo.cazzaniga@unibg.it Introduzione : analisi delle relazioni tra due caratteristiche osservate sulle stesse unità statistiche studio del comportamento di due caratteri

Dettagli

STATISTICA DESCRITTIVA UNIVARIATA

STATISTICA DESCRITTIVA UNIVARIATA Capitolo zero: STATISTICA DESCRITTIVA UNIVARIATA La STATISTICA è la scienza che si occupa di fenomeni collettivi che richiedono lo studio di un grande numero di dati. Il termine STATISTICA deriva dalla

Dettagli

ESERCIZI SVOLTI PER LA PROVA DI STATISTICA

ESERCIZI SVOLTI PER LA PROVA DI STATISTICA ESERCIZI SVOLTI PER LA PROVA DI STATISTICA Stefania Naddeo (anno accademico 4/5) INDICE PARTE PRIMA: STATISTICA DESCRITTIVA. DISTRIBUZIONI DI FREQUENZA E FUNZIONE DI RIPARTIZIONE. VALORI CARATTERISTICI

Dettagli

VARIANZA CAMPIONARIA E DEVIAZIONE STANDARD. Si definisce scarto quadratico medio o deviazione standard la radice quadrata della varianza.

VARIANZA CAMPIONARIA E DEVIAZIONE STANDARD. Si definisce scarto quadratico medio o deviazione standard la radice quadrata della varianza. VARIANZA CAMPIONARIA E DEVIAZIONE STANDARD Si definisce varianza campionaria l indice s 2 = 1 (x i x) 2 = 1 ( xi 2 n x 2) Si definisce scarto quadratico medio o deviazione standard la radice quadrata della

Dettagli

MINIMI QUADRATI. REGRESSIONE LINEARE

MINIMI QUADRATI. REGRESSIONE LINEARE MINIMI QUADRATI. REGRESSIONE LINEARE Se il coefficiente di correlazione r è prossimo a 1 o a -1 e se il diagramma di dispersione suggerisce una relazione di tipo lineare, ha senso determinare l equazione

Dettagli

ESERCITAZIONE 13 : STATISTICA DESCRITTIVA E ANALISI DI REGRESSIONE

ESERCITAZIONE 13 : STATISTICA DESCRITTIVA E ANALISI DI REGRESSIONE ESERCITAZIONE 13 : STATISTICA DESCRITTIVA E ANALISI DI REGRESSIONE e-mail: tommei@dm.unipi.it web: www.dm.unipi.it/ tommei Ricevimento: su appuntamento Dipartimento di Matematica, piano terra, studio 114

Dettagli

Statistica Medica. Verranno presi in esame:

Statistica Medica. Verranno presi in esame: Statistica Medica Premessa: il seguente testo cerca di riassumere e rendere in forma comprensibile ai non esperti in matematica e statistica le nozioni e le procedure necessarie a svolgere gli esercizi

Dettagli

Università del Piemonte Orientale. Corsi di Laurea Triennale. Corso di Statistica e Biometria. Introduzione e Statistica descrittiva

Università del Piemonte Orientale. Corsi di Laurea Triennale. Corso di Statistica e Biometria. Introduzione e Statistica descrittiva Università del Piemonte Orientale Corsi di Laurea Triennale Corso di Statistica e Biometria Introduzione e Statistica descrittiva Corsi di Laurea Triennale Corso di Statistica e Biometria: Introduzione

Dettagli

Statistica descrittiva: prime informazioni dai dati sperimentali

Statistica descrittiva: prime informazioni dai dati sperimentali SECONDO APPUNTAMENTO CON LA SPERIMENTAZIONE IN AGRICOLTURA Statistica descrittiva: prime informazioni dai dati sperimentali La statistica descrittiva rappresenta la base di partenza per le applicazioni

Dettagli

Misure della dispersione o della variabilità

Misure della dispersione o della variabilità QUARTA UNITA Misure della dispersione o della variabilità Abbiamo visto che un punteggio di per sé non ha alcun significato e lo acquista solo quando è posto a confronto con altri punteggi o con una statistica.

Dettagli

Elementi di Statistica

Elementi di Statistica Elementi di Statistica Contenuti Contenuti di Statistica nel corso di Data Base Elementi di statistica descrittiva: media, moda, mediana, indici di dispersione Introduzione alle variabili casuali e alle

Dettagli

Lezione n. 2 (a cura di Chiara Rossi)

Lezione n. 2 (a cura di Chiara Rossi) Lezione n. 2 (a cura di Chiara Rossi) QUANTILE Data una variabile casuale X, si definisce Quantile superiore x p : X P (X x p ) = p Quantile inferiore x p : X P (X x p ) = p p p=0.05 x p x p Graficamente,

Dettagli

1 Associazione tra variabili quantitative COVARIANZA E CORRELAZIONE

1 Associazione tra variabili quantitative COVARIANZA E CORRELAZIONE 1 Associazione tra variabili quantitative ASSOCIAZIONE FRA CARATTERI QUANTITATIVI: COVARIANZA E CORRELAZIONE 2 Associazione tra variabili quantitative Un esempio Prezzo medio per Nr. Albergo cliente (Euro)

Dettagli

STATISTICA E PROBABILITá

STATISTICA E PROBABILITá STATISTICA E PROBABILITá Statistica La statistica è una branca della matematica, che descrive un qualsiasi fenomeno basandosi sulla raccolta di informazioni, sottoforma di dati. Questi ultimi risultano

Dettagli

STATISTICA DESCRITTIVA SCHEDA N. 5: REGRESSIONE LINEARE

STATISTICA DESCRITTIVA SCHEDA N. 5: REGRESSIONE LINEARE STATISTICA DESCRITTIVA SCHEDA N. : REGRESSIONE LINEARE Nella Scheda precedente abbiamo visto che il coefficiente di correlazione fra due variabili quantitative X e Y fornisce informazioni sull esistenza

Dettagli

STATISTICA DESCRITTIVA. Le misure di tendenza centrale

STATISTICA DESCRITTIVA. Le misure di tendenza centrale STATISTICA DESCRITTIVA Le misure di tendenza centrale 1 OBIETTIVO Individuare un indice che rappresenti significativamente un insieme di dati statistici. 2 Esempio Nella tabella seguente sono riportati

Dettagli

Cenni di statistica descrittiva

Cenni di statistica descrittiva Cenni di statistica descrittiva La statistica descrittiva è la disciplina nella quale si studiano le metodologie di cui si serve uno sperimentatore per raccogliere, rappresentare ed elaborare dei dati

Dettagli

Elementi di Statistica descrittiva Parte I

Elementi di Statistica descrittiva Parte I Elementi di Statistica descrittiva Parte I Che cos è la statistica Metodo di studio di caratteri variabili, rilevabili su collettività. La statistica si occupa di caratteri (ossia aspetti osservabili)

Dettagli

RISCHIO E RENDIMENTO DEGLI STRUMENTI FINANZIARI. Docente: Prof. Massimo Mariani

RISCHIO E RENDIMENTO DEGLI STRUMENTI FINANZIARI. Docente: Prof. Massimo Mariani RISCHIO E RENDIMENTO DEGLI STRUMENTI FINANZIARI Docente: Prof. Massimo Mariani 1 SOMMARIO Il rendimento di un attività finanziaria: i parametri rilevanti Rendimento totale, periodale e medio Il market

Dettagli

ESERCIZI DI STATISTICA DESCRITTIVA

ESERCIZI DI STATISTICA DESCRITTIVA ESERCIZI DI STATISTICA DESCRITTIVA ES1 Data la seguente serie di dati su Sesso e Altezza di 8 pazienti, riempire opportunamente due tabelle per rappresentare le distribuzioni di frequenze dei due caratteri,

Dettagli

Statistica multivariata. Statistica multivariata. Analisi multivariata. Dati multivariati. x 11 x 21. x 12 x 22. x 1m x 2m. x nm. x n2.

Statistica multivariata. Statistica multivariata. Analisi multivariata. Dati multivariati. x 11 x 21. x 12 x 22. x 1m x 2m. x nm. x n2. Analisi multivariata Statistica multivariata Quando il numero delle variabili rilevate sullo stesso soggetto aumentano, il problema diventa gestirle tutte e capirne le relazioni. Cercare di capire le relazioni

Dettagli

Appunti di Statistica Descrittiva

Appunti di Statistica Descrittiva Appunti di Statistica Descrittiva 30 dicembre 009 1 La tabella a doppia entrata Per studiare dei fenomeni con caratteristiche statistiche si utilizza l espediente della tabella a doppia entrata Per esempio

Dettagli

LA STATISTICA E IL CALCOLO DELLE PROBABILITÀ

LA STATISTICA E IL CALCOLO DELLE PROBABILITÀ LA STATISTICA E IL CALCOLO DELLE PROBABILITÀ Prof. Francesco Tottoli Versione 3 del 20 febbraio 2012 DEFINIZIONE È una scienza giovane e rappresenta uno strumento essenziale per la scoperta di leggi e

Dettagli

La categoria «ES» presenta (di solito) gli stessi comandi

La categoria «ES» presenta (di solito) gli stessi comandi Utilizzo delle calcolatrici FX 991 ES+ Parte II PARMA, 11 Marzo 2014 Prof. Francesco Bologna bolfra@gmail.com ARGOMENTI DELLA LEZIONE 1. Richiami lezione precedente 2.Calcolo delle statistiche di regressione:

Dettagli

2. Un carattere misurato in un campione: elementi di statistica descrittiva e inferenziale

2. Un carattere misurato in un campione: elementi di statistica descrittiva e inferenziale BIOSTATISTICA 2. Un carattere misurato in un campione: elementi di statistica descrittiva e inferenziale Marta Blangiardo, Imperial College, London Department of Epidemiology and Public Health m.blangiardo@imperial.ac.uk

Dettagli

Un po di statistica. Christian Ferrari. Laboratorio di Matematica

Un po di statistica. Christian Ferrari. Laboratorio di Matematica Un po di statistica Christian Ferrari Laboratorio di Matematica 1 Introduzione La statistica è una parte della matematica applicata che si occupa della raccolta, dell analisi e dell interpretazione di

Dettagli

I punteggi zeta e la distribuzione normale

I punteggi zeta e la distribuzione normale QUINTA UNITA I punteggi zeta e la distribuzione normale I punteggi ottenuti attraverso una misurazione risultano di difficile interpretazione se presi in stessi. Affinché acquistino significato è necessario

Dettagli

1 La Matrice dei dati

1 La Matrice dei dati Dispense sull uso di Excel Daniela Marella 1 La Matrice dei dati Un questionario è costituito da un insieme di domande raccolte su un determinato supporto (cartaceo o elettronico) e somministrate alla

Dettagli

8 Elementi di Statistica

8 Elementi di Statistica 8 Elementi di Statistica La conoscenza di alcuni elementi di statistica e di analisi degli errori è importante quando si vogliano realizzare delle osservazioni sperimentali significative, ed anche per

Dettagli

1) Si consideri un esperimento che consiste nel lancio di 5 dadi. Lo spazio campionario:

1) Si consideri un esperimento che consiste nel lancio di 5 dadi. Lo spazio campionario: Esempi di domande risposta multipla (Modulo II) 1) Si consideri un esperimento che consiste nel lancio di 5 dadi. Lo spazio campionario: 1) ha un numero di elementi pari a 5; 2) ha un numero di elementi

Dettagli

Il concetto di valore medio in generale

Il concetto di valore medio in generale Il concetto di valore medio in generale Nella statistica descrittiva si distinguono solitamente due tipi di medie: - le medie analitiche, che soddisfano ad una condizione di invarianza e si calcolano tenendo

Dettagli

La distribuzione Normale. La distribuzione Normale

La distribuzione Normale. La distribuzione Normale La Distribuzione Normale o Gaussiana è la distribuzione più importante ed utilizzata in tutta la statistica La curva delle frequenze della distribuzione Normale ha una forma caratteristica, simile ad una

Dettagli

Prova di autovalutazione Prof. Roberta Siciliano

Prova di autovalutazione Prof. Roberta Siciliano Prova di autovalutazione Prof. Roberta Siciliano Esercizio 1 Nella seguente tabella è riportata la distribuzione di frequenza dei prezzi per camera di alcuni agriturismi, situati nella regione Basilicata.

Dettagli

RELAZIONE TRA VARIABILI QUANTITATIVE. Lezione 7 a. Accade spesso nella ricerca in campo biomedico, così come in altri campi della

RELAZIONE TRA VARIABILI QUANTITATIVE. Lezione 7 a. Accade spesso nella ricerca in campo biomedico, così come in altri campi della RELAZIONE TRA VARIABILI QUANTITATIVE Lezione 7 a Accade spesso nella ricerca in campo biomedico, così come in altri campi della scienza, di voler studiare come il variare di una o più variabili (variabili

Dettagli

Per forma di una distribuzione si intende il modo secondo il quale si dispongono i valori di un carattere intorno alla rispettiva media.

Per forma di una distribuzione si intende il modo secondo il quale si dispongono i valori di un carattere intorno alla rispettiva media. FORMA DI UNA DISTRIBUZIONE Per forma di una distribuzione si intende il modo secondo il quale si dispongono i valori di un carattere intorno alla rispettiva media. Le prime informazioni sulla forma di

Dettagli

Anno Accademico 2014-2015. Corso di Laurea in Economia Aziendale Università di Bologna STATISTICA

Anno Accademico 2014-2015. Corso di Laurea in Economia Aziendale Università di Bologna STATISTICA Statistica, CLEA p. 1/68 Anno Accademico 2014-2015 Corso di Laurea in Economia Aziendale Università di Bologna STATISTICA Monia Lupparelli monia.lupparelli@unibo.it http://www2.stat.unibo.it/lupparelli

Dettagli

VARIABILI ALEATORIE MULTIPLE E TEOREMI ASSOCIATI. Dopo aver trattato delle distribuzioni di probabilità di una variabile aleatoria, che

VARIABILI ALEATORIE MULTIPLE E TEOREMI ASSOCIATI. Dopo aver trattato delle distribuzioni di probabilità di una variabile aleatoria, che VARIABILI ALATORI MULTIPL TORMI ASSOCIATI Fonti: Cicchitelli Dall Aglio Mood-Grabill. Moduli 6 9 0 del programma. VARIABILI ALATORI DOPPI Dopo aver trattato delle distribuzioni di probabilità di una variabile

Dettagli

Elementi di Psicometria con Laboratorio di SPSS 1

Elementi di Psicometria con Laboratorio di SPSS 1 Elementi di Psicometria con Laboratorio di SPSS 1 5-Indici di variabilità (vers. 1.0c, 20 ottobre 2015) Germano Rossi 1 germano.rossi@unimib.it 1 Dipartimento di Psicologia, Università di Milano-Bicocca

Dettagli

ANALISI DELLE FREQUENZE: IL TEST CHI 2

ANALISI DELLE FREQUENZE: IL TEST CHI 2 ANALISI DELLE FREQUENZE: IL TEST CHI 2 Quando si hanno scale nominali o ordinali, non è possibile calcolare il t, poiché non abbiamo medie, ma solo frequenze. In questi casi, per verificare se un evento

Dettagli

Scheda n.5: variabili aleatorie e valori medi

Scheda n.5: variabili aleatorie e valori medi Scheda n.5: variabili aleatorie e valori medi October 26, 2008 1 Variabili aleatorie Per la definizione rigorosa di variabile aleatoria rimandiamo ai testi di probabilità; essa è non del tutto immediata

Dettagli

l insieme delle misure effettuate costituisce il campione statistico

l insieme delle misure effettuate costituisce il campione statistico Statistica negli esperimenti reali si effettuano sempre un numero finito di misure, ( spesso molto limitato ) l insieme delle misure effettuate costituisce il campione statistico Statistica descrittiva

Dettagli

Funzioni in due variabili Raccolta di FAQ by Andrea Prevete

Funzioni in due variabili Raccolta di FAQ by Andrea Prevete Funzioni in due variabili Raccolta di FAQ by Andrea Prevete 1) Cosa intendiamo, esattamente, quando parliamo di funzione reale di due variabili reali? Quando esiste una relazione fra tre variabili reali

Dettagli

(accuratezza) ovvero (esattezza)

(accuratezza) ovvero (esattezza) Capitolo n 2 2.1 - Misure ed errori In un analisi chimica si misurano dei valori chimico-fisici di svariate grandezze; tuttavia ogni misura comporta sempre una incertezza, dovuta alla presenza non eliminabile

Dettagli

LA CORRELAZIONE LINEARE

LA CORRELAZIONE LINEARE LA CORRELAZIONE LINEARE La correlazione indica la tendenza che hanno due variabili (X e Y) a variare insieme, ovvero, a covariare. Ad esempio, si può supporre che vi sia una relazione tra l insoddisfazione

Dettagli

Come descrivere un fenomeno in ambito sanitario fondamenti di statistica descrittiva. Brugnaro Luca

Come descrivere un fenomeno in ambito sanitario fondamenti di statistica descrittiva. Brugnaro Luca Come descrivere un fenomeno in ambito sanitario fondamenti di statistica descrittiva Brugnaro Luca Progetto formativo complessivo Obiettivo: incrementare le competenze degli operatori sanitari nelle metodiche

Dettagli

1. Richiami di Statistica. Stefano Di Colli

1. Richiami di Statistica. Stefano Di Colli 1. Richiami di Statistica Metodi Statistici per il Credito e la Finanza Stefano Di Colli Dati: Fonti e Tipi I dati sperimentali sono provenienti da un contesto delimitato, definito per rispettare le caratteristiche

Dettagli

1. Distribuzioni campionarie

1. Distribuzioni campionarie Università degli Studi di Basilicata Facoltà di Economia Corso di Laurea in Economia Aziendale - a.a. 2012/2013 lezioni di statistica del 3 e 6 giugno 2013 - di Massimo Cristallo - 1. Distribuzioni campionarie

Dettagli

Relazioni statistiche: regressione e correlazione

Relazioni statistiche: regressione e correlazione Relazioni statistiche: regressione e correlazione È detto studio della connessione lo studio si occupa della ricerca di relazioni fra due variabili statistiche o fra una mutabile e una variabile statistica

Dettagli

Il concetto di correlazione

Il concetto di correlazione SESTA UNITA Il concetto di correlazione Fino a questo momento ci siamo interessati alle varie statistiche che ci consentono di descrivere la distribuzione dei punteggi di una data variabile e di collegare

Dettagli

0. Piano cartesiano 1

0. Piano cartesiano 1 0. Piano cartesiano Per piano cartesiano si intende un piano dotato di due assi (che per ragioni pratiche possiamo scegliere ortogonali). Il punto in comune ai due assi è detto origine, e funziona da origine

Dettagli

Gli eventi sono stati definiti come i possibili risultati di un esperimento. Ogni evento ha una probabilità

Gli eventi sono stati definiti come i possibili risultati di un esperimento. Ogni evento ha una probabilità Probabilità Probabilità Gli eventi sono stati definiti come i possibili risultati di un esperimento. Ogni evento ha una probabilità Se tutti gli eventi fossero ugualmente possibili, la probabilità p(e)

Dettagli

Serie numeriche e serie di potenze

Serie numeriche e serie di potenze Serie numeriche e serie di potenze Sommare un numero finito di numeri reali è senza dubbio un operazione che non può riservare molte sorprese Cosa succede però se ne sommiamo un numero infinito? Prima

Dettagli

Soluzioni Esercizi elementari

Soluzioni Esercizi elementari Soluzioni sercizi elementari Capitolo. carattere: itolo di Studio, carattere qualitativo ordinato modalità: Diploma, Licenza media, Laurea, Licenza elementare unità statistiche: Individui. carattere: Fatturato,

Dettagli

L espressione torna invece sempre vera (quindi la soluzione originale) se cambiamo contemporaneamente il verso: 1 < 0.

L espressione torna invece sempre vera (quindi la soluzione originale) se cambiamo contemporaneamente il verso: 1 < 0. EQUAZIONI E DISEQUAZIONI Le uguaglianze fra espressioni numeriche si chiamano equazioni. Cercare le soluzioni dell equazione vuol dire cercare quelle combinazioni delle lettere che vi compaiono che la

Dettagli

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 1

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 1 CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 1 Dott.ssa Antonella Costanzo a.costanzo@unicas.it A.Studio dell interdipendenza tra variabili: riepilogo Concetto relativo allo studio delle relazioni tra

Dettagli

Indice. 1 La statistica, i dati e altri concetti fondamentali ---------------------------------------------------- 3

Indice. 1 La statistica, i dati e altri concetti fondamentali ---------------------------------------------------- 3 LEZIONE ELEMENTI DI STATISTICA DESCRITTIVA PROF. CRISTIAN SIMONI Indice 1 La statistica, i dati e altri concetti fondamentali ---------------------------------------------------- 3 1.1. Popolazione --------------------------------------------------------------------------------------------

Dettagli

Regressione Mario Guarracino Data Mining a.a. 2010/2011

Regressione Mario Guarracino Data Mining a.a. 2010/2011 Regressione Esempio Un azienda manifatturiera vuole analizzare il legame che intercorre tra il volume produttivo X per uno dei propri stabilimenti e il corrispondente costo mensile Y di produzione. Volume

Dettagli

Il risultato di un analisi chimica è un informazione costituita da: un numero un incertezza un unità di misura

Il risultato di un analisi chimica è un informazione costituita da: un numero un incertezza un unità di misura Il risultato di un analisi chimica è un informazione costituita da: un numero un incertezza un unità di misura Conversione del risultato in informazione utile È necessario fare alcune considerazioni sul

Dettagli

UNIVERSITA DEGLI STUDI DI BRESCIA-FACOLTA DI MEDICINA E CHIRURGIA CORSO DI LAUREA IN INFERMIERISTICA SEDE DI DESENZANO dg STATISTICA MEDICA

UNIVERSITA DEGLI STUDI DI BRESCIA-FACOLTA DI MEDICINA E CHIRURGIA CORSO DI LAUREA IN INFERMIERISTICA SEDE DI DESENZANO dg STATISTICA MEDICA Seconda Lezione DISTRIBUZIONE DI FREQUENZA Frequenza assoluta: è il numero puro di casi per quella modalità Frequenze relative: sono il rapporto tra la frequenza assoluta con cui si manifesta una modalità

Dettagli

Corso di Psicometria Progredito

Corso di Psicometria Progredito Corso di Psicometria Progredito 2.1 Statistica descrittiva (Richiami) Prima Parte Gianmarco Altoè Dipartimento di Pedagogia, Psicologia e Filosofia Università di Cagliari, Anno Accademico 2013-2014 Sommario

Dettagli

CAPITOLO 10. Controllo di qualità. Strumenti per il controllo della qualità e la sua gestione

CAPITOLO 10. Controllo di qualità. Strumenti per il controllo della qualità e la sua gestione CAPITOLO 10 Controllo di qualità Strumenti per il controllo della qualità e la sua gestione STRUMENTI PER IL CONTROLLO E LA GESTIONE DELLA QUALITÀ - DIAGRAMMI CAUSA/EFFETTO - DIAGRAMMI A BARRE - ISTOGRAMMI

Dettagli

LE FUNZIONI A DUE VARIABILI

LE FUNZIONI A DUE VARIABILI Capitolo I LE FUNZIONI A DUE VARIABILI In questo primo capitolo introduciamo alcune definizioni di base delle funzioni reali a due variabili reali. Nel seguito R denoterà l insieme dei numeri reali mentre

Dettagli

STATISTICA DESCRITTIVA - SCHEDA N. 1 VARIABILI QUALITATIVE

STATISTICA DESCRITTIVA - SCHEDA N. 1 VARIABILI QUALITATIVE Matematica e statistica: dai dati ai modelli alle scelte www.dima.unige/pls_statistica Responsabili scientifici M.P. Rogantin e E. Sasso (Dipartimento di Matematica Università di Genova) STATISTICA DESCRITTIVA

Dettagli

ELEMENTI DI STATISTICA PER IDROLOGIA

ELEMENTI DI STATISTICA PER IDROLOGIA Carlo Gregoretti Corso di Idraulica ed Idrologia Elementi di statist. per Idrolog.-7//4 ELEMETI DI STATISTICA PER IDROLOGIA Introduzione Una variabile si dice casuale quando assume valori che dipendono

Dettagli

Parte 2. Determinante e matrice inversa

Parte 2. Determinante e matrice inversa Parte. Determinante e matrice inversa A. Savo Appunti del Corso di Geometria 013-14 Indice delle sezioni 1 Determinante di una matrice, 1 Teorema di Cramer (caso particolare), 3 3 Determinante di una matrice

Dettagli

DEFINIZIONE La statistica è una scienza che si propone di definire con dei numeri cose che non si possono numerare ne misurare.

DEFINIZIONE La statistica è una scienza che si propone di definire con dei numeri cose che non si possono numerare ne misurare. Appunti di Statistica DEFINIZIONE La statistica è una scienza che si propone di definire con dei numeri cose che non si possono numerare ne misurare. PROCESSO STATISTICO L indagine statistica comprende

Dettagli

Elementi di Psicometria

Elementi di Psicometria Elementi di Psicometria 12-Correlazione vers. 1.1 (27 novembre 2012) Germano Rossi 1 germano.rossi@unimib.it 1 Dipartimento di Psicologia, Università di Milano-Bicocca 2011-2012 G. Rossi (Dip. Psicologia)

Dettagli

STATISTICA IX lezione

STATISTICA IX lezione Anno Accademico 013-014 STATISTICA IX lezione 1 Il problema della verifica di un ipotesi statistica In termini generali, si studia la distribuzione T(X) di un opportuna grandezza X legata ai parametri

Dettagli

ANALISI DI CORRELAZIONE

ANALISI DI CORRELAZIONE ANALISI DI CORRELAZIONE Esempio: Dati raccolti da n = 129 studenti di Pavia (A.A. 21/2) Altezza (cm) Peso (Kg) Voto Algebra e Geometria Voto Fisica I Valutare la correlazione delle seguenti coppie: Peso

Dettagli

Scelte in condizioni di rischio e incertezza

Scelte in condizioni di rischio e incertezza CAPITOLO 5 Scelte in condizioni di rischio e incertezza Esercizio 5.1. Tizio ha risparmiato nel corso dell anno 500 euro; può investirli in obbligazioni che rendono, in modo certo, il 10% oppure in azioni

Dettagli

Dimensione di uno Spazio vettoriale

Dimensione di uno Spazio vettoriale Capitolo 4 Dimensione di uno Spazio vettoriale 4.1 Introduzione Dedichiamo questo capitolo ad un concetto fondamentale in algebra lineare: la dimensione di uno spazio vettoriale. Daremo una definizione

Dettagli

E naturale chiedersi alcune cose sulla media campionaria x n

E naturale chiedersi alcune cose sulla media campionaria x n Supponiamo che un fabbricante stia introducendo un nuovo tipo di batteria per un automobile elettrica. La durata osservata x i delle i-esima batteria è la realizzazione (valore assunto) di una variabile

Dettagli

PIANO CARTESIANO: un problema di programmazione lineare

PIANO CARTESIANO: un problema di programmazione lineare PIANO CARTESIANO: un problema di programmazione lineare In un laboratorio sono disponibili due contatori A, B di batteri. Il contatore A può essere azionato da un laureato che guadagna 20 euro per ora.

Dettagli

Dr. Marco Vicentini marco.vicentini@unipd.it Anno Accademico 2010 2011 Rev 30/03/2011

Dr. Marco Vicentini marco.vicentini@unipd.it Anno Accademico 2010 2011 Rev 30/03/2011 Università degli Studi di Padova Facoltà di Psicologia, L4, Psicometria, Modulo B Dr. Marco Vicentini marco.vicentini@unipd.it Anno Accademico 2010 2011 Rev 30/03/2011 Statistica descrittiva e inferenziale

Dettagli

Psicometria (8 CFU) Corso di Laurea triennale STANDARDIZZAZIONE

Psicometria (8 CFU) Corso di Laurea triennale STANDARDIZZAZIONE Psicometria (8 CFU) Corso di Laurea triennale Un punteggio all interno di una distribuzione è in realtà privo di significato se preso da solo. Sapere che un soggetto ha ottenuto un punteggio x=52 in una

Dettagli

Capitolo 9: PROPAGAZIONE DEGLI ERRORI

Capitolo 9: PROPAGAZIONE DEGLI ERRORI Capitolo 9: PROPAGAZIOE DEGLI ERRORI 9.1 Propagazione degli errori massimi ella maggior parte dei casi le grandezze fisiche vengono misurate per via indiretta. Il valore della grandezza viene cioè dedotto

Dettagli

lezione 18 AA 2015-2016 Paolo Brunori

lezione 18 AA 2015-2016 Paolo Brunori AA 2015-2016 Paolo Brunori Previsioni - spesso come economisti siamo interessati a prevedere quale sarà il valore di una certa variabile nel futuro - quando osserviamo una variabile nel tempo possiamo

Dettagli

Statistica corso base Canale N Z prof. Francesco Maria Sanna. Prove scritte di esame a.a. 2012-13

Statistica corso base Canale N Z prof. Francesco Maria Sanna. Prove scritte di esame a.a. 2012-13 Statistica corso base Canale N Z prof. Francesco Maria Sanna Prova scritta del 8/1/2013 Prove scritte di esame a.a. 2012-13 Esercizio 1 (5 punti). Nella seguente tabella è riportata la distribuzione delle

Dettagli

4. Funzioni elementari algebriche

4. Funzioni elementari algebriche ISTITUZIONI DI MATEMATICHE E FONDAMENTI DI BIOSTATISTICA 4. Funzioni elementari algebriche A. A. 2013-2014 1 Funzioni elementari Sono dette elementari un insieme di funzioni dalle quali si ottengono, mediante

Dettagli

Statistica e biometria. D. Bertacchi. Variabili aleatorie. V.a. discrete e continue. La densità di una v.a. discreta. Esempi.

Statistica e biometria. D. Bertacchi. Variabili aleatorie. V.a. discrete e continue. La densità di una v.a. discreta. Esempi. Iniziamo con definizione (capiremo fra poco la sua utilità): DEFINIZIONE DI VARIABILE ALEATORIA Una variabile aleatoria (in breve v.a.) X è funzione che ha come dominio Ω e come codominio R. In formule:

Dettagli

Esplorazione dei dati

Esplorazione dei dati Esplorazione dei dati Introduzione L analisi esplorativa dei dati evidenzia, tramite grafici ed indicatori sintetici, le caratteristiche di ciascun attributo presente in un dataset. Il processo di esplorazione

Dettagli

Metodi Matematici ed Informatici per la Biologia Esame Finale, I appello 1 Giugno 2007

Metodi Matematici ed Informatici per la Biologia Esame Finale, I appello 1 Giugno 2007 Metodi Matematici ed Informatici per la Biologia Esame Finale, I appello 1 Giugno 2007 Nome: Alberto Cognome: De Sole Matricola: 01234567890 Codice 9784507811 Esercizio Risposta Voto 1 a b c d e 1 2 V

Dettagli

Indicando con x i minuti di conversazione effettuati in un mese, con la spesa totale nel mese e con il costo medio al minuto:

Indicando con x i minuti di conversazione effettuati in un mese, con la spesa totale nel mese e con il costo medio al minuto: PROBLEMA 1. Il piano tariffario proposto da un operatore telefonico prevede, per le telefonate all estero, un canone fisso di 10 euro al mese, più 10 centesimi per ogni minuto di conversazione. Indicando

Dettagli

3.1 Successioni. R Definizione (Successione numerica) E Esempio 3.1 CAPITOLO 3

3.1 Successioni. R Definizione (Successione numerica) E Esempio 3.1 CAPITOLO 3 CAPITOLO 3 Successioni e serie 3. Successioni Un caso particolare di applicazione da un insieme numerico ad un altro insieme numerico è quello delle successioni, che risultano essere definite nell insieme

Dettagli

APPUNTI DI MATEMATICA LE FRAZIONI ALGEBRICHE ALESSANDRO BOCCONI

APPUNTI DI MATEMATICA LE FRAZIONI ALGEBRICHE ALESSANDRO BOCCONI APPUNTI DI MATEMATICA LE FRAZIONI ALGEBRICHE ALESSANDRO BOCCONI Indice 1 Le frazioni algebriche 1.1 Il minimo comune multiplo e il Massimo Comun Divisore fra polinomi........ 1. Le frazioni algebriche....................................

Dettagli

Introduzione alla Teoria degli Errori

Introduzione alla Teoria degli Errori Introduzione alla Teoria degli Errori 1 Gli errori di misura sono inevitabili Una misura non ha significato se non viene accompagnata da una ragionevole stima dell errore ( Una scienza si dice esatta non

Dettagli

Parte 3. Rango e teorema di Rouché-Capelli

Parte 3. Rango e teorema di Rouché-Capelli Parte 3. Rango e teorema di Rouché-Capelli A. Savo Appunti del Corso di Geometria 203-4 Indice delle sezioni Rango di una matrice, 2 Teorema degli orlati, 3 3 Calcolo con l algoritmo di Gauss, 6 4 Matrici

Dettagli

Elaborazione dati in Analisi Sensoriale

Elaborazione dati in Analisi Sensoriale Elaborazione dati in Analisi Sensoriale Si è parlato di interpretazione corretta dei risultati ottenuti; a questo concorrono due fattori: affidabilità e validità. Se i test fossero stati ripetuti con lo

Dettagli

I SISTEMI DI NUMERAZIONE E LA NUMERAZIONE BINARIA

I SISTEMI DI NUMERAZIONE E LA NUMERAZIONE BINARIA I SISTEMI DI NUMERAZIONE E LA NUMERAZIONE BINARIA Indice Introduzione Il sistema decimale Il sistema binario Conversione di un numero da base 10 a base 2 e viceversa Conversione in altri sistemi di numerazione

Dettagli

Regressione Lineare con un Singolo Regressore

Regressione Lineare con un Singolo Regressore Regressione Lineare con un Singolo Regressore Quali sono gli effetti dell introduzione di pene severe per gli automobilisti ubriachi? Quali sono gli effetti della riduzione della dimensione delle classi

Dettagli

Tasso di interesse e capitalizzazione

Tasso di interesse e capitalizzazione Tasso di interesse e capitalizzazione Tasso di interesse = i = somma che devo restituire dopo un anno per aver preso a prestito un euro, in aggiunta alla restituzione dell euro iniziale Quindi: prendo

Dettagli

Titolo della lezione. Analisi dell associazione tra due caratteri: indipendenza e dipendenza

Titolo della lezione. Analisi dell associazione tra due caratteri: indipendenza e dipendenza Titolo della lezione Analisi dell associazione tra due caratteri: indipendenza e dipendenza Introduzione Analisi univariata, bivariata, multivariata Analizzare le relazioni tra i caratteri, per cercare

Dettagli

Statistica descrittiva univariata

Statistica descrittiva univariata Statistica descrittiva univariata Elementi di statistica 2 1 Tavola di dati Una tavola (o tabella) di dati è l insieme dei caratteri osservati nel corso di un esperimento o di un rilievo. Solitamente si

Dettagli

Statistica descrittiva

Statistica descrittiva Corso di Laurea in Ingegneria per l Ambiente ed il Territorio Corso di Costruzioni Idrauliche A.A. 2004-05 www.dica.unict.it/users/costruzioni Statistica descrittiva Ing. Antonino Cancelliere Dipartimento

Dettagli

Riassunto 24 Parole chiave 24 Commenti e curiosità 25 Esercizi 27 Appendice

Riassunto 24 Parole chiave 24 Commenti e curiosità 25 Esercizi 27 Appendice cap 0 Romane - def_layout 1 12/06/12 07.51 Pagina V Prefazione xiii Capitolo 1 Nozioni introduttive 1 1.1 Introduzione 1 1.2 Cenni storici sullo sviluppo della Statistica 2 1.3 La Statistica nelle scienze

Dettagli

Statistica. Alfonso Iodice D Enza iodicede@unina.it

Statistica. Alfonso Iodice D Enza iodicede@unina.it Statistica Alfonso Iodice D Enza iodicede@unina.it Università degli studi di Cassino () Statistica 1 / 16 Outline 1 () Statistica 2 / 16 Outline 1 2 () Statistica 2 / 16 Outline 1 2 () Statistica 2 / 16

Dettagli

Slide Cerbara parte1 5. Le distribuzioni teoriche

Slide Cerbara parte1 5. Le distribuzioni teoriche Slide Cerbara parte1 5 Le distribuzioni teoriche I fenomeni biologici, demografici, sociali ed economici, che sono il principale oggetto della statistica, non sono retti da leggi matematiche. Però dalle

Dettagli

RELAZIONE TRA DUE VARIABILI QUANTITATIVE

RELAZIONE TRA DUE VARIABILI QUANTITATIVE RELAZIONE TRA DUE VARIABILI QUANTITATIVE Quando si considerano due o più caratteri (variabili) si possono esaminare anche il tipo e l'intensità delle relazioni che sussistono tra loro. Nel caso in cui

Dettagli