CORSO DI LAUREA IN OTTICA E OPTOMETRIA CORSO DI INFORMATICA E STATISTICA

Dimensione: px
Iniziare la visualizzazioe della pagina:

Download "CORSO DI LAUREA IN OTTICA E OPTOMETRIA CORSO DI INFORMATICA E STATISTICA DANIELE.MONTANINO@UNISALENTO.IT"

Transcript

1 CORSO DI LAUREA IN OTTICA E OPTOMETRIA CORSO DI INFORMATICA E STATISTICA

2 CONVENZIONE SULLE CIFRE SIGNIFICATIVE La convenzione usata sul troncamento delle cifre è troncare semplicemente le cifre non significative se la cifra successiva è <5 Aumentare di una unità l ultima cifra significativa se la cifra successiva è 5 esempio: troncare a 2 cifre significative i seguenti numeri 2,35471 = 2,35 3,45567 = 3,46 8,49735 = 8,50 1,99801 = 2,00 ricordare che bisogna sempre scrivere esplicitamente tutte le cifre significative anche se queste sono zeri (come nell ultimo caso).

3 VARIABILI Variabili Qualitative (esempio colore degli occhi, visone chiara o sfocata ) Quantitative o numeriche (esempio diottrie, distanza interpupillare ) Tipi di variabili quantitative Discrete (esempio voto, età di un paziente in anni ) Continue (esempio altezza di un soggetto )

4 INSIEME DI VARIABILI Insieme di variabili { x 1, x 2, x } N { x } k k=1,n k=indice (o pedice). N=numerosità del campione esempio: i voti di 5 studenti all esame di Informatica e Statistica { x 1, x 2, x 3, x 4, x } 5 = { 28, 22, 25, 21,30}

5 SOMMA Somma (o sommatoria) di N numeri N x k k=1 = x 1 + x x N Nell esempio precedente 5 k=1 x k = =126

6 PROPRIETÀ DELLA SOMMA La somma è un operazione lineare N k=1 con A e B costanti; infatti N (Ax k + B) = A N k=1 x k + NB (Ax k + B) = (Ax 1 + B) + (Ax N + B) = A(x x N )+ (B B) k=1 N volte Per esempio nel caso precedente se moltiplichiamo per 10 e sommiamo 5 ad ogni numero abbiamo { 10x 1 + 5,10x 2 + 5,10x 3 + 5,10x 4 + 5,10x 5 + 5} = { 285, 225, 255, 215,305} che sommati danno 1285, cioè 10x126+5x5.

7 SOMMA Esercizio: provare con qualche esempio che N k=1 N k=1 k = N = k 2 = N 2 = N(N +1) 2 N(N +1)(2N +1) 6

8 PRODOTTO Prodotto (o produttoria)di N numeri N k=1 x k = x 1 x 2 Fattoriale: è definito come N k=1 x N N! = k =1 2 N Questa funzione tornerà utile in seguito. Il fattoriale è un numero che cresce molto velocemente 0!=1 (per definizione); 1!=1; 2!=2; 3!=6; 4!=24; 5!=120; 6! =720; 20!= ;

9 MEDIA DI UN CAMPIONE La media di un campione di dati è definita da X = 1 N N x k k=1 Esempio: nel caso precedente la media dei voti del campione dei cinque studenti sarà X = k=1 x k = = 25, 2

10 PROPRIETÀ DELLA MEDIA Usando le proprietà di linearità della somma è facile mostrare che la media è una operazione lineare con A e B costanti e AX + B = AX + B Ax + By + C = Ax + By + C In particolare la media degli scarti è zero X X = X X = 0

11 MEDIA GEOMETRICA La media definita precedentemente è la cosiddetta media lineare (o aritmetica). Esistono altri tipi di media. Vale la pena menzionare la media geometrica M g = N N x k k=1 questa media è usata quando sia ha a che fare con variabili moltiplicative (ad esempio tassi di crescita o di interesse).

12 MEDIA GEOMETRICA Esempio: il numero di batteri in una colonia cresce del 120% nelle prima ora, del 140% nella seconda del 130% nella terza e del 110% nella quarta ora. Qual è il tasso di crescita medio nelle quattro ore? La risposta è R = 4 1, 2 1, ,1 =1, , 5% Infatti se la colonia crescesse del 124,5% ogni ora l incremento totale finale sarebbe lo stesso.

13 FREQUENZE Le frequenze rappresentano il numero di occorrenze di una variabile sia qualitativa che quantitativa Esempio di variabile qualitativa: In un campione di 128 persone si verifica il loro colore degli occhi Colore degli occhi Frequenza Assoluta Frequenza relativa Neri 25 19,5% Nocciola 32 25,0% Blu 40 31,3% Verdi 31 24,2% Totale 128 La frequenza relativa è la frazione del numero rispetto al totale

14 FREQUENZA Vediamo il caso di una variabile quantitativa: voti di un campione di 300 studenti in un determinato esame Voto in trentesimi Studenti (frequenza) Totale 300

15 DISTRIBUZIONE DI FREQUENZA La precedente tabella può essere tradotta in istogramma. Questa sarà la distribuzione dei dati Numero di studenti Voto

16 CLASSI A volte è comodo o necessario raggruppare la variabile in esame in classi. Per esempio potremmo raggruppare la tabella dei voti precedenti in tre macroclassi : da 18 a 22, da 23 a 27 e da 28 a 30 Voti Numero di studenti Questo raggruppamento diventa evidentemente necessario quando si ha a che fare con variabili continue (esempio: l altezza di un campione di persone).

17 CUMULATIVA Dalla tabella precedente è possibile anche costruire la tabella delle cumulative Voto Studenti Cumulativa Totale 300 L ultima colonna è costruita sommando via via le frequenze precedenti. Per esempio nel caso precedente il numero di studenti che hanno preso un voto 25 sarà 200 Ovviamente la distribuzione cumulativa ha senso solo se la variabile è di tipo numerico

18 DISTRIBUZIONE CUMULATIVA Numero di studenti Voto

19 CUMULATIVA RELATIVA Dividendo le cumulative per la numerosità totale del campione si ha la cumulativa relativa. Nell esempio precedente si ha che, ad esempio, il 38.7% degli studenti ha un voto inferiore o uguale al 23. Voto Cum. relativa 18 0,7% 19 2,7% 20 6,3% 21 14,3% 22 26,0% 23 38,7% 24 55,0% 25 66,7% 26 77,7% 27 88,0% 28 94,3% 29 98,3% ,0% Numero di studenti 120,0% 100,0% 80,0% 60,0% 40,0% 20,0% 0,0% Voto

20 RIASSUMENDO Variabile frequenza assoluta frequenza relativa cumulativa assoluta cumulativa relativa x 1 n 1 f 1 s 1 c 1 x 2 n 2 f 2 s 2 c 2 x N n n f N s N c N n = N n k k=1 f k = n k n s k = k n i i=1 c k = s k n

21 MEDIA PESATA (O PONDERATA) Quando si ha a che fare con una tabella di frequenze la media di una variabile deve essere ovviamente pesata sulla frequenza della variabile X = 1 n N k=1 n k x k o alternativamente X = N k=1 f k x k questo perché la variabile x k appare n k volte nella tabella (nell esempio dei voti è come se dovessimo sommare 18 per 2 volte, 19 per 6 volte e così via e dividere per tutti e 300 gli studenti)

22 MEDIA PESATA Voto x k Studenti n k Frequenza relativa f k f k *x k ,7% 0, ,0% 0, ,7% 0, ,0% 1, ,7% 2, ,7% 2, ,3% 3, ,7% 2, ,0% 2, ,3% 2, ,3% 1, ,0% 1, ,7% 0,50 Totale studenti= 300 voto medio= 24,31

23 MEDIANA La mediana è quel valore per cui metà della distribuzione è inferiore e metà è superiore ad esso Esempio: si è misurata la miopia in un campione di studenti ottenendo la seguente distribuzione Diottrie Persone Cumulativa relativa 0, ,7% 0, ,1% 1, ,6% 1, ,0% 2, ,3% 2, ,5% 3, ,3% 3, ,8% 4, ,9% 4, ,6% 5, ,3% 5, ,7% 6, ,1% 6, ,5% 7, ,9% 7, ,2% 8, ,6% 8,5 9 99,8% 9,0 7 99,9% 9,5 3 99,9% 10, ,0% Osserviamo come il valore della cumulativa relativa assume il valore 50% in corrispondenza di 1,5 diottrie. Questa sarà il valore mediano poiché metà dei soggetti avrà una miopia inferiore a 1.5 diottrie e un altra metà superiore. Si noti come il valore della mediana non necessariamente coincida con la media (nel caso precedente vale 2 diottrie).

24 MEDIANA Voto Cum. relativa 18 0,7% 19 2,7% 20 6,3% 21 14,3% 22 26,0% 23 38,7% 24 55,0% 25 66,7% 26 77,7% 27 88,0% 28 94,3% 29 98,3% ,0% A volte la mediana non è ben definita. Riprendendo l esempio dei voti notiamo che non c è nessun valore corrispondente al 50%. In tal caso (sebbene esistano formule più sofisticate) per semplicità potremmo prendere il valore intermedio tra le classi a cavallo del 50%. Per esempio nel caso precedente il voto mediano sarebbe 23,5.

25 QUARTILI Allo stesso modo della mediana è possibile definire i quartili inferiore e superiore (ovvero i valori per cui il sotto cui troviamo il 25% e il 75% della popolazione) Diottrie Persone Cumulativa relativa 0, ,7% 0, ,1% 1, ,6% 1, ,0% 2, ,3% 2, ,5% 3, ,3% 3, ,8% 4, ,9% 4, ,6% 5, ,3% 5, ,7% 6, ,1% 6, ,5% 7, ,9% 7, ,2% 8, ,6% 8,5 9 99,8% 9,0 7 99,9% 9,5 3 99,9% 10, ,0% Seguendo il criterio precedente potremmo grosso modo identificare il quartile inferiore con il valore 1,75 e quello superiore con 2,75

26 PERCENTILI Un ulteriore raffinamento dei concetti precedenti sono i percentili. Per esempio il 90% percentile inferiore e superiore sono quei valori per cui al di sotto troviamo il 10% e il 90% della popolazione. nell esempio della miopia all incirca solo il 5% della popolazione ha meno di 0.25 diottrie mentre chi ha più di 3,5 diottrie è nel 95% percentile superiore. 100,0% 90,0% 80,0% 70,0% 90% 75% 60,0% 50,0% 40,0% 30,0% 20,0% 10,0% 0,0% 1,0 2,0 3,0 4,0 5,0 6,0 7,0 8,0 9,0 10,0 11,0 12,0 13,0 14,0 15,0 16,0 17,0 18,0 19,0 20,0 21,0 x 50% 20% 10%

27 MODA La moda è il valore più comune in una distribuzione. Per esempio nell esempio dei voti la moda è il 24 mentre nell esempio della miopia la moda è 1,5 diottrie. Talvolta una distribuzione può avere due picchi distinti ben localizzati. In tal caso la distribuzione si dice bimodale (più in generale possono esistere distribuzioni multimodali ) 1200,0 1000,0 800,0 600,0 400,0 200,0 Una distribuzione del genere può essere sintomo di due popolazioni distinte (per esempio se misurassimo la miopia ad un campione di persone in parte italiane e in parte giapponesi, popolo notoriamente più miope) 0,0 1,0 2,0 3,0 4,0 5,0 6,0 7,0 8,0 9,0 10,0 11,0 12,0 13,0 14,0 15,0 16,0 17,0 18,0 19,0 20,0 21,0

28 ESEMPIO Una fabbrica produce viti per occhiali attraverso tre macchine di lunghezza nominale 1,1mm. Si estrae un campione di 430 viti e si fa un istogramma della loro lunghezza reale Lunghezza (mm) Numero 0,85 0 0,90 2 0,95 8 1, , , , , ,25 7 1,30 1 1,35 2 1,40 4 1, , , ,60 2 1,65 1 1,70 1 1,75 0 1, ,85 0,90 0,95 1,00 1,05 1,10 1,15 1,20 1,25 1,30 1,35 1,40 1,45 1,50 1,55 1,60 1,65 1,70 1,75 1,80 Il fatto che vi è un secondo picco a 1.50 mm fa pensare che una delle macchine stia lavorando male ovvero sta producendo viti sistematicamente più lunghe di quelle programmate.

29 MEDIA PESATA SU CLASSI Talvolta occorre calcolare la media su di una tabella di classi. Prendiamo ad esempio la tabella dei voti suddivisa in classi Voti Numero di studenti Poiché non conosciamo il numero relativo di studenti relativo ad ogni voto, siamo costretti a scegliere un criterio per assegnare un voto medio ad ogni classe. La scelta più semplice è di considerare il valore centrale della classe

30 MEDIA PESATA SU CLASSI Voti Voto medio Numero di studenti La media pesata su questa tabella vale 24,18 che è solo leggermente diverso dal valore 24,31 calcolata con la tabella non suddivisa in classi. In ogni caso la suddivisione in classi provoca una perdita di informazioni e quindi fornisce un valore meno accurato per le variabili statistiche.

31 TABELLE A DOPPIA ENTRATA Un caso più generale avviene quando una tabella incrocia due (o più) variabili y 1 y 2 y M x 1 n 1,1 n 2,1 n 1,M x 2 n 2,1 n 2,2 n 2,M x N n N,1 n N,2 n N,M Una tabella di questo tipo viene detta a doppia entrata, o bivariata. In principio possono esistere anche tabelle che incrociano più di due variabili (multivariate) ma la loro rappresentazione è più difficoltosa. Per semplicità ci limiteremo a tabelle a doppia entrata.

32 TABELLE A DOPPIA ENTRATA Esempio di tabella a doppia entrata. X=colore degli occhi, Y=colore dei capelli Biondi Rossi Castani Σ Azzurri Verdi Σ Marginali di riga Marginali di colonna Totale generale Se X e Y qualitativi la tabella si dice di contingenza, se entrambi quantitativi di correlazione, se uno qualitativo e uno quantitativo si dice tabella mista.

33 MARGINALI Marginali di riga n i, = M n i, j j=1 Marginali di colonna n, j = N n i, j i=1 Totale generale N n = n i, = n, j = i=1 M j=1 N i=1 M j=1 n i, j

34 ESEMPIO DI TABELLA A DOPPIA ENTRATA Per esempio si supponga di avere la seguente tabella in cui si è misurato il grado di astigmatismo residuo su due campioni di persone che hanno eseguito due tecniche di chirurgia refrattiva (PRK o LASIK) Asitig. (diottrie) PRK LASIK n i* n *j L ultima riga sono le persone che hanno effettuato un certo tipo di intervento, l ultima colonna sono le persone che hanno un certo grado di astigmatismo residuo indipendentemente dal tipo di intervento.

35 ISTOGRAMMA E possibile costruire un istogramma per entrambe le entrate e il marginale di riga PRK LASIK PRK+LASIK ,1 0,2 0,3 0,4 0,5 0,6 Astig. (diottrie) 0,7 0,8 0,9 1 LASIK PRK PRK+LASIK

36 MEDIE PARZIALI Le medie su di una riga o una colonna costituiscono le medie parziali. Queste medie possono evidentemente essere effettuate se x e/o y sono variabili quantitative X j = 1 n j per esempio nel caso della tabella precedente possiamo calcolare solo le medie di colonna poiché le variabili di riga sono qualitative. Calcolando queste medie otteniamo separatamente l astigmatismo medio per chi ha eseguito l intervento con la PRK e la LASIK ottenendo (il calcolo è lasciato per esercizio): Media(PRK) = 0,32 Media(LASIK) = 0,46 N n i, j x i Y i = 1 n i, j y j n i i=1 M j=1 (attenzione: questo non induca alla facile conclusione che la LASIK è peggiore della PRK!)

37 MEDIE GENERALI Nelle tabelle a doppia entrata è anche possibile calcolare le medie generali delle variabili quantitative. Queste sono calcolate attraverso le formule X = 1 n Y = 1 n M j=1 N i=1 n, j X j n i, Y i = 1 n = 1 n N i=1 M j=1 n i, x i n, j y j ovvero come media pesata delle medie parziali oppure come una media delle variabili stesse pesata con i marginali di riga e di colonna (si può mostrare che si ha lo stesso risultato).

38 ESEMPIO DI MEDIE GENERALI Riprendiamo l esempio della tabella precedente: vogliamo calcolare l astigmatismo medio su tutto il campione Asitig. (diottrie) PRK LASIK n i* n *j Media 0,32 0,46 Questo può essere effettuato in due modi 1) Calcoliamo la medie delle medie pesando le medie sui marginali di colonna 42 0, , 46 X = = 0, ) Mediamo direttamente la variabile x usando come peso i marginali di riga X = = 0,39 Il risultato è lo stesso ma avendo già le medie parziali conviene il primo calcolo.

39 ESERCIZIO In questa tabella un certo numero di pazienti trattati con PRK vengono classificati in base all alla correzione apportata e all astigmatismo residuo dopo l operazione. Trovare le medie parziali di riga e di colonna e le medie generali. Fare un istogramma delle medie parziali sia per le righe che per le colonne. Cosa si potrebbe dedurne? As6gma6smo residuo Correzione apportata (dio?rie)

40 MEDIA QUADRATICA Un tipo ulteriore di media è la media quadratica, ovvero la radice quadrata della media dei quadrati M q = N k=1 N x k 2 Tale media è utile quando i vari quando i vari x k sono talvolta positivi e talvolta negativi mentre a noi interessa una media che non dipenda dal segno degli x k

41 INDICE DI VARIABILITÀ A volte a noi non interessa solo la media ma di un campione ma anche quanto questa si discosta mediamente dalla media. Tuttavia, come detto in precedenza, la media degli scarti è sempre zero 1 N N (x k X) = 0 k=1 poiché alcuni scarti sono positivi e altri negativi. Questa media non ci da quindi alcuna informazione sulla variabilità. Una possibile soluzione sarebbe di prendere la media dei valori assoluti degli scarti. Tuttavia, per diverse ragioni, la scelta migliore è prendere la media quadratica degli scarti

42 SCARTO QUADRATICO MEDIO Si definisce scarto quadratico medio quindi la media quadratica degli scarti N (x k X) 2 σ P = k=1 X N (la lettera σ è il sigma greco minuscolo). Tuttavia questa definizione ha il problema che per N=1 si ha che lo scarto medio è zero mentre per un solo dato noi vorremmo che lo scarto rimanga non definito.

43 DEVIAZIONE STANDARD Per la ragione precedente si preferisce definire la deviazione standard nella maniera seguente σ x = N k=1 (x k X) 2 N 1 un po più grande rispetto allo s.q.m. La deviazione standard è una misura della dispersione della popolazione intorno alla media. Lo scarto quadratico medio (quello cioè con N al denominatore) è talvolta definito come deviazione standard di popolazione. Per N molto grande la differenza tra i due è minima. Il quadrato dello scarto quadratico medio è detto varianza

44 DEVIAZIONE STANDARD Facciamo un esempio. Si supponga che Laura e Marco abbiano preso abbia preso i seguenti voti in 10 esami Laura={25,26,26,27,24,25,26,28,27,26} Marco={30,22,24,28,27,30,18,24,30,27} Come si vede entrambi hanno una media di 26. Però la deviazione standard dei voti di Laura è di 1,15 mentre quella di Marco è 3,97. Ciò indica che Laura è stata più costante nello studio mentre Marco ha avuto periodi di alti e bassi Notare che se avessimo usato lo scarto quadratico medio avremmo ottenuto 1,09 e 3,76, valori un poco più grandi dei precedenti.

45 CALCOLO DELLA DEVIAZIONE STANDARD Vediamo coma calcolare la deviazione standard (nel nostro caso N=10) - - Voto (x k ) x k - X (x k - X) X=26 - (x k - X) 2 = - (x k - X) 2 /(N- 1)= - (x k - X) 2 /(N- 1)= 12 12/9=1,33 1,33=1,15

46 DEVIAZIONE STANDARD SU TABELLE Per calcolare la deviazione standard su una tabella di frequenze occorre fare la media ponderata σ X = 1 N 1 N k=1 n k (x k x) 2 con n al solito la numerosità del campione N = N n k k=1

47 CALCOLO DELLA DEVIAZIONE STANDARD SU TABELLE Riprendiamo l esempio della tabella dei voti Voto (x k ) Studenti (n k ) n k (x k -X) , , , , , , , , , , , , ,69 X=24.31 n k (x k -X) 2 = n k (x k -X) 2 /(n- 1) = n k (x k -X) 2 /(n- 1) = , ,55/299=6,66 6,66=2,58

48 COEFFICIENTE DI VARIAZIONE E definito come il rapporto tra la deviazione standard è la media CV(X) = σ X / X Esempio: la media dei tempi di percorrenza dei treni sulla tratta Milano- Roma vale 350 minuti con una deviazione standard di 12 minuti, mentre sulla tratta Milano-Torino vale 280 minuti con una deviazione standard di 8 minuti. Quale delle due tratte è più affidabile? E evidente che non è possibile confrontare direttamente i due tempi di percorrenza poiché si riferiscono a diverse tratte. Tramite l indice di variabilità si ha che nel primo caso si ha CV=3,4% mentre nel secondo caso si ha CV=2,9%. I treni sulla tratta Milano-Torino sono più affidabili poiché hanno una variabilità minore rispetto all altra tratta.

49 INTERDIPENDENZA TRA VARIABILI DIVERSE A volte ci si chiede se ci può essere una qualche relazione tra due variabili X e Y. Per esempio se esiste una relazione tra ore passate al computer e problemi visivi (ad es. miopia). Si supponga per esempio di avere questa tabella in cui la miopia media di un campione di bambini viene messa in relazione alle ore giornaliere passate mediamente a giocare con la playstation. Ore passate a giocare Miopia media 0,8 1,3 1,2 2,4 2,7 3,2 Di questi dati è sempre buona norma fare un grafico!

50 GRAFICO A DISPERSIONE (SCATTER PLOT) Apparentemente c è una qualche dipendenza della miopia con il numero di ore passate a giocare ma come quantificare questa dipendenza? 3,5 3,0 Miopia media 2,5 2,0 1,5 1,0 0,5 0,0 0,0 1,0 2,0 3,0 4,0 5,0 6,0 Numero di ore medie giornaliere passate a giocare Un primo possibile indicatore è il coefficiente di correlazione lineare

51 COVARIANZA La covarianza tra due serie di dati è definita da - - COV(X,Y ) = N k=1 (x k X)(y k Y ) con X e Y medie di x k e y k. Questo coefficiente è la media del prodotto degli scarti. Questo coefficiente è positivo se mediamente i segni degli scarti sono concordi (ovvero se quando uno è positivo lo è anche l altro) e negativo quando sono discordi(cioè se uno è negativo, l altro è positivo e viceversa. Se non c è relazione tra i due segni la covarianza tende ad annullarsi. N

52 COVARIANZA Nel caso precedente per esempio si vede che c è concordanza, in effetti la covarianza è positiva e vale +0,77 - X=2,50 3,5 3,0 + Miopia 2,5 2,0 1, Y=1,93 1,0 0,5 0,0 0,0 1,0 2,0 3,0 4,0 5,0 6,0 Numero di ore medie giornaliere passate a giocare

53 CORRELAZIONE - - Detti x k e y k due serie di N dati con media X e Y si definisce coefficiente di correlazione tra X e Y la quantità R(X,Y ) = COV(X,Y ) σ XP σ Y P = N k=1 N k=1 ( x k X) y k Y ( x k X) 2 ( ) ( y k Y ) 2 Questo coefficiente è sempre un numero compreso tra -1 e 1 e ha questo significato. Più R è vicino a 1 più vi è una concordanza tra le due variabili (al crescere di una cresce l altra) Più R è vicino a -1 più vi è una discordanza tra le due variabili (al crescere di una decresce l altra) Se R è vicino a zero vi è indipendenza tra le variabili. N k=1

54 CALCOLO DEL COEFFICIENTE DI CORRELAZIONE Ore passate a giocare 0,0 1,0 2,0 3,0 4,0 5,0 Media=2,50 - (x-x) -2,5-1,5-0,5 0,5 1,5 2,5 (x- X) - 2 6,3 2,3 0,3 0,3 2,3 6,3 =17,50 Miopia media 0,8 1,3 1,2 2,4 2,7 3,2 Media=1,93 (y- Y) - -1,1-0,6-0,7 0,5 0,8 1,3 (y- Y) - 2 1,3 0,4 0,5 0,2 0,6 1,6 =4,6 (x- X)(y- Y) - - 2,8 0,9 0,4 0,2 1,2 3,2 =8.7 Il coefficiente di correlazione vale quindi R = = 0.97 il che indica che vi è un forte grado di relazione tra le ore passate a giocare e la miopia.

55 CUM GRANO SALIS Occorre sempre stare attenti però che non è detto che anche se c è un grado di relazione tra le due variabili vi è necessariamente una relazione causa-effetto tra di esse! Si potrebbe giungere a conclusioni paradossali come per esempio che l aumento temperatura globale sulla terra è causata dalla diminuzione del numero di pirati R=-0,93

56 REGRESSIONE Ci si chiede se tra le variabili X e Y esista una qualche relazione funzionale, cioè se esista una espressione Y=f(X) dove f è una qualche funzione che in qualche maniera approssimi i dati. La ricerca di una tale funzione è detta regressione Questa relazione funzionale può essere nota a priori (per esempio è noto che tra il peso di un corpo e il suo volume esiste una relazione lineare) oppure no. In questo secondo evidentemente non esiste una scelta univoca caso dallo studio del grafico a dispersione si potrebbe dedurre qual è il tipo di grafico più opportuno che approssima i dati.

57 REGRESSIONE In generale, quando si hanno a disposizione pochi punti è molto difficile stabilire qual è la funzione più opportuna 4,0 3,5 esponenziale 3,0 Miopia media 2,5 2,0 1,5 polinomio 1,0 0,5 0,0 0,0 1,0 2,0 3,0 4,0 5,0 6,0 Numero di ore medie giornaliere passate a giocare Nel caso del polinomio abbiamo una interpolazione, ovvero una curva che passa per tutti i punti. In generale non ci interessa una tale relazione funzionale, ma di una curva che si limiti ad approssimare i dati.

58 REGRESSIONE Con un gran numero di dati è più facile inferire la forma funzionale: Per esempio nel caso seguente è abbastanza evidente che i dati sono ben interpolati da una retta

59 REGRESSIONE LINEARE Qui noi ci occuperemo per semplicità del modello più semplice di regressione, ovvero quando i dati possono essere approssimati da una retta, ovvero da una relazione funzionale del tipo Y = A X + B con A e B variabili da determinare. Questo modello è detto di regressione lineare.

60 PRINCIPIO DEI MINIMI QUADRATI Per determinare i coefficienti A e B è possibile ricorrere al principio dei minimi quadrati (valido anche nel caso di regressioni non lineari). Siano x k e y k sono i nostri dati. Il valore teorico di y associato al valore x k è dato da ŷ k =Ax k +B. 3,5 3,0 Y 2,5 2,0 1,5 1,0 0,5 (x k, ŷ k ) (x k,y k ) 0,0 0,0 1,0 2,0 3,0 4,0 5,0 6,0 X

61 METODO DEI MINIMI QUADRATI Possiamo calcolare la somma dei quadrati degli scarti tra gli y k e i valori teorici ŷ k =Ax k +B. Q(A, B) = N ( y k ŷ k ) 2 = y k Ax k B k=1 N k=1 ( ) 2 questa quantità ci da una misura delle differenze tra i valori reali e quelli teorici delle y. Essa è una funzione delle variabili incognite A e B. I valori di A e B cercati sono quelli che minimizzano questa funzione, ovvero che rendono minima la differenza del quadrato degli scarti della relazione teorica con i dati reali.

62 METODO DEI MINIMI QUADRATI La minimizzazione si effettua tramite le tecniche standard dell analisi, ovvero derivando la funzione Q(A,B) rispetto ad A e a B e ponendo le derivate uguali a zero. Viene qui omessa la dimostrazione e viene dato direttamente il risultato A = R σ Y σ X B = Y AX dove R è il coefficiente di correlazione tra i dati. Come si vede il coefficiente angolare della retta e il coefficiente di correlazione sono legati tra di loro. In particolare se R>0 la retta è crescente, se R<0 decrescente (come ragionevole sia!)

63 ESEMPIO DI REGRESSIONE LINEARE Riprendiamo l esempio della miopia in funzione delle ore passate a giocare: Ore passate a giocare Miopia media Media Ricordiamo che R=0,97. Usando le formule precedenti si ha Dev. st. 0,0 1,0 2,0 3,0 4,0 5,0 2,50 2,5 1,71 0,8 1,3 1,2 2,4 2,7 3,2 1,93 1,9 0,88 A = 0, 97 0,88 = 0, 50 1, 71 B =1, 9 0, 50 2, 5 = 0, 69 Miopia 3,5 3,0 2,5 2,0 1,5 1,0 0,5 y = 0,50x + 0,69 R² = 0,93 0,0 0,0 1,0 2,0 3,0 4,0 5,0 6,0 Ore passate a giocare

64 COEFFICIENTE DI DETERMINAZIONE Dalle relazioni precedenti abbiamo che per la retta di regressione la somma dei quadrati degli scarti vale N 2 Q = k=1 " y k Y R σ % Y $ (x k X) ' # σ X & dopo qualche calcolo, ricordando la definizione di R si ottiene la relazione Q N 1 = σ Y 2 (1 R 2 ) In pratica: 1) se R 2 =1 si ha Q=0 e la retta passa esattamente per tutti i punti (determinazione perfetta) 2) Se R 2 =0 si ha Q/(N-1)=σ Y2, l errore quadratico medio non è migliore della varianza. La regressione non porta a nessun miglioramento di informazione (indifferenza o determinazione nulla) R 2 è detto coefficiente di determinazione e la regressione porta un risultato tanto migliore quanto questo è più vicino a 1.

65 PREVISIONE L uso della regressione serve per fornire una previsione (o estrapolazione) dei valori y per valori x diversi da quelli dall insieme x k. Per esempio, nel caso dell esercizio precedente vogliamo prevedere la miopia di un soggetto che passa 6 ore al giorno davanti alla playstation. Usando l equazione della retta avremo y = 0, 50 6, 0 + 0, 69 = 3, 7 si noti comunque che questa è solo una rozza estrapolazione. Valori reali potrebbero essere diversi da questa previsione.

66 MISURE DI CONNESSIONE Passiamo ad un altro esempio di verifica di relazioni. Si supponga di voler verificare se l uso di lenti bifocali può dar luogo a disturbi di emicrania ad alcuni pazienti. Vengono intervistati 94 pazienti e viene estratta la seguente tabella di contingenza Ha frequenti emicranie Non frequentii emicrania Usa lenti bifocali Non lenti bifocali Ovviamente ci possono essere altre cause per l emicrania però apparentemente sembra esserci una prevalenza di persone che usano lenti bifocali che ha problemi, cioè una connessione tra l uso di lenti ed emicranie. Vogliamo quantificare questa connessione.

67 NUMERO TEORICO IN ASSENZA DI CONNESSIONE Per capire se vi è una effettiva connessione dei due caratteri o se il fatto che l eccesso di persone che usa lenti bifocali con emicrania sia solo un fatto casuale dobbiamo confrontare questa tabella con quella teorica in cui i due caratteri sono indipendenti. Per esempio: il numero atteso di persone sul campione di 94 persone che che usa lenti bifocali e ha problemi di emicrania se non vi fosse nessuna connessione tra le due cose sarebbe n * 1,1 = = 27, 6 Numero di persone con emicrania Frazione di persone sul totale che usa lenti bifocali

68 TABELLA TEORICA DI INDIPENDENZA In pratica per ogni elemento ij il numero teorico si calcola come segue n * i, j = n n i,, j n ovvero moltiplicando i marginali di riga e colonna corrispondenti e dividendo per il numero totale (non fa nulla se non è un numero intero). Per esempio per la tabella precedente la tabella teorica sarebbe. Ha frequenti emicranie Non frequentii emicrania Usa lenti bifocali Non lenti bifocali 27,6 25, ,4 19,

69 INDICE DI CONNESSIONE (O CHI-QUADRO DI PEARSON) Per confrontare la tabella teorica con quella reale è possibile utilizzare il χ 2 (leggesi chi-quadrato) di Pearson definito come χ 2 = N M (n i, j n * i, j ) 2 = i=1 j=1 * n i, j N i=1 M j=1 2 n i, j n i, j * n dove N e M sono il numero di righe e di colonne della tabella (2 e 2 nel nostro esempio).

70 CHI-QUADRATO DI PEARSON Nel nostro caso avremmo quindi Tabella n ij Usa lenti bifocali Non lenti bifocali Ha frequenti emicranie Non frequentii emicrania 8 33 Ha frequenti Usa lenti bifocali Non lenti bifocali emicranie 27,6 25,4 emicrania 21,4 19,6 Non frequentii Tabella n* ij χ 2 = (41 27, 6)2 27, 6 + (12 25, 4)2 25, 4 resta da capire come interpretare questo numero + (8 21, 4)2 21, 4 + (33 19, 6)2 19, 6 = 31

71 CHI-QUADRATO DI PEARSON E possibile dimostrare che il χ 2 è un numero sempre compreso tra 0 e il n moltiplicato per il valore minimo tra il numero di righe meno 1 o il numero di colonne meno 1 0 χ 2 n min(n 1, M 1) E evidente che il valore 0 si può ottenere solo quando la tabella dei dati coincide esattamente con i valori teorici, cioè non c è una dipendenza tra i caratteri Di conseguenza: tanto più il valore di χ 2 si avvicina al valore massimo teorico tanto più c è dipendenza tra i due caratteri.

72 CHI-QUADRATO DI PEARSON Nel nostro caso abbiamo N=M=2 quindi il valore massimo teorico è uguale a n=94. Il valore di χ 2 =31indica che c è un livello medio di associazione, ovvero che c è una certa dipendenza tra il portare lenti bifocali e l avere spesso emicranie. Nello studio della statistica inferenziale si vedrà come quantificare meglio questo grado di associazione nel cosiddetto test del χ 2.

Dott.ssa Caterina Gurrieri

Dott.ssa Caterina Gurrieri Dott.ssa Caterina Gurrieri Le relazioni tra caratteri Data una tabella a doppia entrata, grande importanza riveste il misurare se e in che misura le variabili in essa riportata sono in qualche modo

Dettagli

Elementi di Statistica

Elementi di Statistica Elementi di Statistica Contenuti Contenuti di Statistica nel corso di Data Base Elementi di statistica descrittiva: media, moda, mediana, indici di dispersione Introduzione alle variabili casuali e alle

Dettagli

ESERCIZI SVOLTI PER LA PROVA DI STATISTICA

ESERCIZI SVOLTI PER LA PROVA DI STATISTICA ESERCIZI SVOLTI PER LA PROVA DI STATISTICA Stefania Naddeo (anno accademico 4/5) INDICE PARTE PRIMA: STATISTICA DESCRITTIVA. DISTRIBUZIONI DI FREQUENZA E FUNZIONE DI RIPARTIZIONE. VALORI CARATTERISTICI

Dettagli

Brugnaro Luca Boscaro Gianni (2009) 1

Brugnaro Luca Boscaro Gianni (2009) 1 STATISTICA PER LE PROFESSIONI SANITARIE - LIVELLO BASE Brugnaro Luca Boscaro Gianni (2009) 1 Perché la statistica Prendere decisioni Bibliografia non soddisfacente Richieste nuove conoscenze Raccolta delle

Dettagli

Analisi bivariata. Dott. Cazzaniga Paolo. Dip. di Scienze Umane e Sociali paolo.cazzaniga@unibg.it

Analisi bivariata. Dott. Cazzaniga Paolo. Dip. di Scienze Umane e Sociali paolo.cazzaniga@unibg.it Dip. di Scienze Umane e Sociali paolo.cazzaniga@unibg.it Introduzione : analisi delle relazioni tra due caratteristiche osservate sulle stesse unità statistiche studio del comportamento di due caratteri

Dettagli

VARIANZA CAMPIONARIA E DEVIAZIONE STANDARD. Si definisce scarto quadratico medio o deviazione standard la radice quadrata della varianza.

VARIANZA CAMPIONARIA E DEVIAZIONE STANDARD. Si definisce scarto quadratico medio o deviazione standard la radice quadrata della varianza. VARIANZA CAMPIONARIA E DEVIAZIONE STANDARD Si definisce varianza campionaria l indice s 2 = 1 (x i x) 2 = 1 ( xi 2 n x 2) Si definisce scarto quadratico medio o deviazione standard la radice quadrata della

Dettagli

Statistica Medica. Verranno presi in esame:

Statistica Medica. Verranno presi in esame: Statistica Medica Premessa: il seguente testo cerca di riassumere e rendere in forma comprensibile ai non esperti in matematica e statistica le nozioni e le procedure necessarie a svolgere gli esercizi

Dettagli

Cenni di statistica descrittiva

Cenni di statistica descrittiva Cenni di statistica descrittiva La statistica descrittiva è la disciplina nella quale si studiano le metodologie di cui si serve uno sperimentatore per raccogliere, rappresentare ed elaborare dei dati

Dettagli

MINIMI QUADRATI. REGRESSIONE LINEARE

MINIMI QUADRATI. REGRESSIONE LINEARE MINIMI QUADRATI. REGRESSIONE LINEARE Se il coefficiente di correlazione r è prossimo a 1 o a -1 e se il diagramma di dispersione suggerisce una relazione di tipo lineare, ha senso determinare l equazione

Dettagli

STATISTICA DESCRITTIVA UNIVARIATA

STATISTICA DESCRITTIVA UNIVARIATA Capitolo zero: STATISTICA DESCRITTIVA UNIVARIATA La STATISTICA è la scienza che si occupa di fenomeni collettivi che richiedono lo studio di un grande numero di dati. Il termine STATISTICA deriva dalla

Dettagli

Anno Accademico 2014-2015. Corso di Laurea in Economia Aziendale Università di Bologna STATISTICA

Anno Accademico 2014-2015. Corso di Laurea in Economia Aziendale Università di Bologna STATISTICA Statistica, CLEA p. 1/68 Anno Accademico 2014-2015 Corso di Laurea in Economia Aziendale Università di Bologna STATISTICA Monia Lupparelli monia.lupparelli@unibo.it http://www2.stat.unibo.it/lupparelli

Dettagli

1 La Matrice dei dati

1 La Matrice dei dati Dispense sull uso di Excel Daniela Marella 1 La Matrice dei dati Un questionario è costituito da un insieme di domande raccolte su un determinato supporto (cartaceo o elettronico) e somministrate alla

Dettagli

Appunti di Statistica Descrittiva

Appunti di Statistica Descrittiva Appunti di Statistica Descrittiva 30 dicembre 009 1 La tabella a doppia entrata Per studiare dei fenomeni con caratteristiche statistiche si utilizza l espediente della tabella a doppia entrata Per esempio

Dettagli

Università del Piemonte Orientale. Corsi di Laurea Triennale. Corso di Statistica e Biometria. Introduzione e Statistica descrittiva

Università del Piemonte Orientale. Corsi di Laurea Triennale. Corso di Statistica e Biometria. Introduzione e Statistica descrittiva Università del Piemonte Orientale Corsi di Laurea Triennale Corso di Statistica e Biometria Introduzione e Statistica descrittiva Corsi di Laurea Triennale Corso di Statistica e Biometria: Introduzione

Dettagli

Indice. 1 La statistica, i dati e altri concetti fondamentali ---------------------------------------------------- 3

Indice. 1 La statistica, i dati e altri concetti fondamentali ---------------------------------------------------- 3 LEZIONE ELEMENTI DI STATISTICA DESCRITTIVA PROF. CRISTIAN SIMONI Indice 1 La statistica, i dati e altri concetti fondamentali ---------------------------------------------------- 3 1.1. Popolazione --------------------------------------------------------------------------------------------

Dettagli

ESERCITAZIONE 13 : STATISTICA DESCRITTIVA E ANALISI DI REGRESSIONE

ESERCITAZIONE 13 : STATISTICA DESCRITTIVA E ANALISI DI REGRESSIONE ESERCITAZIONE 13 : STATISTICA DESCRITTIVA E ANALISI DI REGRESSIONE e-mail: tommei@dm.unipi.it web: www.dm.unipi.it/ tommei Ricevimento: su appuntamento Dipartimento di Matematica, piano terra, studio 114

Dettagli

Per forma di una distribuzione si intende il modo secondo il quale si dispongono i valori di un carattere intorno alla rispettiva media.

Per forma di una distribuzione si intende il modo secondo il quale si dispongono i valori di un carattere intorno alla rispettiva media. FORMA DI UNA DISTRIBUZIONE Per forma di una distribuzione si intende il modo secondo il quale si dispongono i valori di un carattere intorno alla rispettiva media. Le prime informazioni sulla forma di

Dettagli

(accuratezza) ovvero (esattezza)

(accuratezza) ovvero (esattezza) Capitolo n 2 2.1 - Misure ed errori In un analisi chimica si misurano dei valori chimico-fisici di svariate grandezze; tuttavia ogni misura comporta sempre una incertezza, dovuta alla presenza non eliminabile

Dettagli

RELAZIONE TRA DUE VARIABILI QUANTITATIVE

RELAZIONE TRA DUE VARIABILI QUANTITATIVE RELAZIONE TRA DUE VARIABILI QUANTITATIVE Quando si considerano due o più caratteri (variabili) si possono esaminare anche il tipo e l'intensità delle relazioni che sussistono tra loro. Nel caso in cui

Dettagli

Capitolo 9: PROPAGAZIONE DEGLI ERRORI

Capitolo 9: PROPAGAZIONE DEGLI ERRORI Capitolo 9: PROPAGAZIOE DEGLI ERRORI 9.1 Propagazione degli errori massimi ella maggior parte dei casi le grandezze fisiche vengono misurate per via indiretta. Il valore della grandezza viene cioè dedotto

Dettagli

Relazioni statistiche: regressione e correlazione

Relazioni statistiche: regressione e correlazione Relazioni statistiche: regressione e correlazione È detto studio della connessione lo studio si occupa della ricerca di relazioni fra due variabili statistiche o fra una mutabile e una variabile statistica

Dettagli

Statistica descrittiva: prime informazioni dai dati sperimentali

Statistica descrittiva: prime informazioni dai dati sperimentali SECONDO APPUNTAMENTO CON LA SPERIMENTAZIONE IN AGRICOLTURA Statistica descrittiva: prime informazioni dai dati sperimentali La statistica descrittiva rappresenta la base di partenza per le applicazioni

Dettagli

1 Associazione tra variabili quantitative COVARIANZA E CORRELAZIONE

1 Associazione tra variabili quantitative COVARIANZA E CORRELAZIONE 1 Associazione tra variabili quantitative ASSOCIAZIONE FRA CARATTERI QUANTITATIVI: COVARIANZA E CORRELAZIONE 2 Associazione tra variabili quantitative Un esempio Prezzo medio per Nr. Albergo cliente (Euro)

Dettagli

RELAZIONE TRA VARIABILI QUANTITATIVE. Lezione 7 a. Accade spesso nella ricerca in campo biomedico, così come in altri campi della

RELAZIONE TRA VARIABILI QUANTITATIVE. Lezione 7 a. Accade spesso nella ricerca in campo biomedico, così come in altri campi della RELAZIONE TRA VARIABILI QUANTITATIVE Lezione 7 a Accade spesso nella ricerca in campo biomedico, così come in altri campi della scienza, di voler studiare come il variare di una o più variabili (variabili

Dettagli

ELEMENTI DI STATISTICA PER IDROLOGIA

ELEMENTI DI STATISTICA PER IDROLOGIA Carlo Gregoretti Corso di Idraulica ed Idrologia Elementi di statist. per Idrolog.-7//4 ELEMETI DI STATISTICA PER IDROLOGIA Introduzione Una variabile si dice casuale quando assume valori che dipendono

Dettagli

STATISTICA DESCRITTIVA SCHEDA N. 5: REGRESSIONE LINEARE

STATISTICA DESCRITTIVA SCHEDA N. 5: REGRESSIONE LINEARE STATISTICA DESCRITTIVA SCHEDA N. : REGRESSIONE LINEARE Nella Scheda precedente abbiamo visto che il coefficiente di correlazione fra due variabili quantitative X e Y fornisce informazioni sull esistenza

Dettagli

UNIVERSITA DEGLI STUDI DI BRESCIA-FACOLTA DI MEDICINA E CHIRURGIA CORSO DI LAUREA IN INFERMIERISTICA SEDE DI DESENZANO dg STATISTICA MEDICA

UNIVERSITA DEGLI STUDI DI BRESCIA-FACOLTA DI MEDICINA E CHIRURGIA CORSO DI LAUREA IN INFERMIERISTICA SEDE DI DESENZANO dg STATISTICA MEDICA Seconda Lezione DISTRIBUZIONE DI FREQUENZA Frequenza assoluta: è il numero puro di casi per quella modalità Frequenze relative: sono il rapporto tra la frequenza assoluta con cui si manifesta una modalità

Dettagli

Prova di autovalutazione Prof. Roberta Siciliano

Prova di autovalutazione Prof. Roberta Siciliano Prova di autovalutazione Prof. Roberta Siciliano Esercizio 1 Nella seguente tabella è riportata la distribuzione di frequenza dei prezzi per camera di alcuni agriturismi, situati nella regione Basilicata.

Dettagli

ESERCIZI DI STATISTICA DESCRITTIVA

ESERCIZI DI STATISTICA DESCRITTIVA ESERCIZI DI STATISTICA DESCRITTIVA ES1 Data la seguente serie di dati su Sesso e Altezza di 8 pazienti, riempire opportunamente due tabelle per rappresentare le distribuzioni di frequenze dei due caratteri,

Dettagli

La categoria «ES» presenta (di solito) gli stessi comandi

La categoria «ES» presenta (di solito) gli stessi comandi Utilizzo delle calcolatrici FX 991 ES+ Parte II PARMA, 11 Marzo 2014 Prof. Francesco Bologna bolfra@gmail.com ARGOMENTI DELLA LEZIONE 1. Richiami lezione precedente 2.Calcolo delle statistiche di regressione:

Dettagli

Un po di statistica. Christian Ferrari. Laboratorio di Matematica

Un po di statistica. Christian Ferrari. Laboratorio di Matematica Un po di statistica Christian Ferrari Laboratorio di Matematica 1 Introduzione La statistica è una parte della matematica applicata che si occupa della raccolta, dell analisi e dell interpretazione di

Dettagli

Statistica multivariata. Statistica multivariata. Analisi multivariata. Dati multivariati. x 11 x 21. x 12 x 22. x 1m x 2m. x nm. x n2.

Statistica multivariata. Statistica multivariata. Analisi multivariata. Dati multivariati. x 11 x 21. x 12 x 22. x 1m x 2m. x nm. x n2. Analisi multivariata Statistica multivariata Quando il numero delle variabili rilevate sullo stesso soggetto aumentano, il problema diventa gestirle tutte e capirne le relazioni. Cercare di capire le relazioni

Dettagli

Come descrivere un fenomeno in ambito sanitario fondamenti di statistica descrittiva. Brugnaro Luca

Come descrivere un fenomeno in ambito sanitario fondamenti di statistica descrittiva. Brugnaro Luca Come descrivere un fenomeno in ambito sanitario fondamenti di statistica descrittiva Brugnaro Luca Progetto formativo complessivo Obiettivo: incrementare le competenze degli operatori sanitari nelle metodiche

Dettagli

STATISTICA E PROBABILITá

STATISTICA E PROBABILITá STATISTICA E PROBABILITá Statistica La statistica è una branca della matematica, che descrive un qualsiasi fenomeno basandosi sulla raccolta di informazioni, sottoforma di dati. Questi ultimi risultano

Dettagli

Misure della dispersione o della variabilità

Misure della dispersione o della variabilità QUARTA UNITA Misure della dispersione o della variabilità Abbiamo visto che un punteggio di per sé non ha alcun significato e lo acquista solo quando è posto a confronto con altri punteggi o con una statistica.

Dettagli

DEFINIZIONE La statistica è una scienza che si propone di definire con dei numeri cose che non si possono numerare ne misurare.

DEFINIZIONE La statistica è una scienza che si propone di definire con dei numeri cose che non si possono numerare ne misurare. Appunti di Statistica DEFINIZIONE La statistica è una scienza che si propone di definire con dei numeri cose che non si possono numerare ne misurare. PROCESSO STATISTICO L indagine statistica comprende

Dettagli

Statistica. L. Freddi. L. Freddi Statistica

Statistica. L. Freddi. L. Freddi Statistica Statistica L. Freddi Statistica La statistica è un insieme di metodi e tecniche per: raccogliere informazioni su un fenomeno sintetizzare l informazione (elaborare i dati) generalizzare i risultati ottenuti

Dettagli

Il concetto di valore medio in generale

Il concetto di valore medio in generale Il concetto di valore medio in generale Nella statistica descrittiva si distinguono solitamente due tipi di medie: - le medie analitiche, che soddisfano ad una condizione di invarianza e si calcolano tenendo

Dettagli

RISCHIO E RENDIMENTO DEGLI STRUMENTI FINANZIARI. Docente: Prof. Massimo Mariani

RISCHIO E RENDIMENTO DEGLI STRUMENTI FINANZIARI. Docente: Prof. Massimo Mariani RISCHIO E RENDIMENTO DEGLI STRUMENTI FINANZIARI Docente: Prof. Massimo Mariani 1 SOMMARIO Il rendimento di un attività finanziaria: i parametri rilevanti Rendimento totale, periodale e medio Il market

Dettagli

Metodi Matematici ed Informatici per la Biologia Esame Finale, I appello 1 Giugno 2007

Metodi Matematici ed Informatici per la Biologia Esame Finale, I appello 1 Giugno 2007 Metodi Matematici ed Informatici per la Biologia Esame Finale, I appello 1 Giugno 2007 Nome: Alberto Cognome: De Sole Matricola: 01234567890 Codice 9784507811 Esercizio Risposta Voto 1 a b c d e 1 2 V

Dettagli

1. Distribuzioni campionarie

1. Distribuzioni campionarie Università degli Studi di Basilicata Facoltà di Economia Corso di Laurea in Economia Aziendale - a.a. 2012/2013 lezioni di statistica del 3 e 6 giugno 2013 - di Massimo Cristallo - 1. Distribuzioni campionarie

Dettagli

Regressione Lineare con un Singolo Regressore

Regressione Lineare con un Singolo Regressore Regressione Lineare con un Singolo Regressore Quali sono gli effetti dell introduzione di pene severe per gli automobilisti ubriachi? Quali sono gli effetti della riduzione della dimensione delle classi

Dettagli

PIANO CARTESIANO: un problema di programmazione lineare

PIANO CARTESIANO: un problema di programmazione lineare PIANO CARTESIANO: un problema di programmazione lineare In un laboratorio sono disponibili due contatori A, B di batteri. Il contatore A può essere azionato da un laureato che guadagna 20 euro per ora.

Dettagli

Il concetto di correlazione

Il concetto di correlazione SESTA UNITA Il concetto di correlazione Fino a questo momento ci siamo interessati alle varie statistiche che ci consentono di descrivere la distribuzione dei punteggi di una data variabile e di collegare

Dettagli

2. Un carattere misurato in un campione: elementi di statistica descrittiva e inferenziale

2. Un carattere misurato in un campione: elementi di statistica descrittiva e inferenziale BIOSTATISTICA 2. Un carattere misurato in un campione: elementi di statistica descrittiva e inferenziale Marta Blangiardo, Imperial College, London Department of Epidemiology and Public Health m.blangiardo@imperial.ac.uk

Dettagli

La distribuzione Normale. La distribuzione Normale

La distribuzione Normale. La distribuzione Normale La Distribuzione Normale o Gaussiana è la distribuzione più importante ed utilizzata in tutta la statistica La curva delle frequenze della distribuzione Normale ha una forma caratteristica, simile ad una

Dettagli

Statistica corso base Canale N Z prof. Francesco Maria Sanna. Prove scritte di esame a.a. 2012-13

Statistica corso base Canale N Z prof. Francesco Maria Sanna. Prove scritte di esame a.a. 2012-13 Statistica corso base Canale N Z prof. Francesco Maria Sanna Prova scritta del 8/1/2013 Prove scritte di esame a.a. 2012-13 Esercizio 1 (5 punti). Nella seguente tabella è riportata la distribuzione delle

Dettagli

Accuratezza di uno strumento

Accuratezza di uno strumento Accuratezza di uno strumento Come abbiamo già accennato la volta scora, il risultato della misurazione di una grandezza fisica, qualsiasi sia lo strumento utilizzato, non è mai un valore numerico X univocamente

Dettagli

Introduzione alla Teoria degli Errori

Introduzione alla Teoria degli Errori Introduzione alla Teoria degli Errori 1 Gli errori di misura sono inevitabili Una misura non ha significato se non viene accompagnata da una ragionevole stima dell errore ( Una scienza si dice esatta non

Dettagli

Lezione n. 2 (a cura di Chiara Rossi)

Lezione n. 2 (a cura di Chiara Rossi) Lezione n. 2 (a cura di Chiara Rossi) QUANTILE Data una variabile casuale X, si definisce Quantile superiore x p : X P (X x p ) = p Quantile inferiore x p : X P (X x p ) = p p p=0.05 x p x p Graficamente,

Dettagli

Statistica descrittiva univariata

Statistica descrittiva univariata Statistica descrittiva univariata Elementi di statistica 2 1 Tavola di dati Una tavola (o tabella) di dati è l insieme dei caratteri osservati nel corso di un esperimento o di un rilievo. Solitamente si

Dettagli

Indici di dispersione

Indici di dispersione Indici di dispersione 1 Supponiamo di disporre di un insieme di misure e di cercare un solo valore che, meglio di ciascun altro, sia in grado di catturare le caratteristiche della distribuzione nel suo

Dettagli

Esplorazione dei dati

Esplorazione dei dati Esplorazione dei dati Introduzione L analisi esplorativa dei dati evidenzia, tramite grafici ed indicatori sintetici, le caratteristiche di ciascun attributo presente in un dataset. Il processo di esplorazione

Dettagli

STATISTICA DESCRITTIVA. Le misure di tendenza centrale

STATISTICA DESCRITTIVA. Le misure di tendenza centrale STATISTICA DESCRITTIVA Le misure di tendenza centrale 1 OBIETTIVO Individuare un indice che rappresenti significativamente un insieme di dati statistici. 2 Esempio Nella tabella seguente sono riportati

Dettagli

Riassunto 24 Parole chiave 24 Commenti e curiosità 25 Esercizi 27 Appendice

Riassunto 24 Parole chiave 24 Commenti e curiosità 25 Esercizi 27 Appendice cap 0 Romane - def_layout 1 12/06/12 07.51 Pagina V Prefazione xiii Capitolo 1 Nozioni introduttive 1 1.1 Introduzione 1 1.2 Cenni storici sullo sviluppo della Statistica 2 1.3 La Statistica nelle scienze

Dettagli

Esercizi di Statistica

Esercizi di Statistica Esercizi di Statistica Selezione di esercizi proposti durante le esercitazioni dei corsi di Statistica tenute presso la Facoltà di Economia dell Università di Salerno Versione del 17 ottobre 2006 2 Per

Dettagli

Parte 2. Determinante e matrice inversa

Parte 2. Determinante e matrice inversa Parte. Determinante e matrice inversa A. Savo Appunti del Corso di Geometria 013-14 Indice delle sezioni 1 Determinante di una matrice, 1 Teorema di Cramer (caso particolare), 3 3 Determinante di una matrice

Dettagli

1. Richiami di Statistica. Stefano Di Colli

1. Richiami di Statistica. Stefano Di Colli 1. Richiami di Statistica Metodi Statistici per il Credito e la Finanza Stefano Di Colli Dati: Fonti e Tipi I dati sperimentali sono provenienti da un contesto delimitato, definito per rispettare le caratteristiche

Dettagli

Statistica descrittiva

Statistica descrittiva Corso di Laurea in Ingegneria per l Ambiente ed il Territorio Corso di Costruzioni Idrauliche A.A. 2004-05 www.dica.unict.it/users/costruzioni Statistica descrittiva Ing. Antonino Cancelliere Dipartimento

Dettagli

I punteggi zeta e la distribuzione normale

I punteggi zeta e la distribuzione normale QUINTA UNITA I punteggi zeta e la distribuzione normale I punteggi ottenuti attraverso una misurazione risultano di difficile interpretazione se presi in stessi. Affinché acquistino significato è necessario

Dettagli

Soluzioni Esercizi elementari

Soluzioni Esercizi elementari Soluzioni sercizi elementari Capitolo. carattere: itolo di Studio, carattere qualitativo ordinato modalità: Diploma, Licenza media, Laurea, Licenza elementare unità statistiche: Individui. carattere: Fatturato,

Dettagli

ESAME DI STATISTICA Nome: Cognome: Matricola:

ESAME DI STATISTICA Nome: Cognome: Matricola: ESAME DI STATISTICA Nome: Cognome: Matricola: ISTRUZIONI: Per la prova è consentito esclusivamente l uso di una calcolatrice tascabile, delle tavole della normale e della t di Student. I risultati degli

Dettagli

Capitolo 5 RESTAURO E RICOSTRUZIONE DI IMMAGINI

Capitolo 5 RESTAURO E RICOSTRUZIONE DI IMMAGINI Capitolo 5 RESTAURO E RICOSTRUZIONE DI IMMAGINI La differenza tra il restauro e il miglioramento (enhancement) delle immagini è che il miglioramento è un processo soggettivo, mentre il restauro è un processo

Dettagli

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 1

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 1 CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 1 Dott.ssa Antonella Costanzo a.costanzo@unicas.it A.Studio dell interdipendenza tra variabili: riepilogo Concetto relativo allo studio delle relazioni tra

Dettagli

Regressione Mario Guarracino Data Mining a.a. 2010/2011

Regressione Mario Guarracino Data Mining a.a. 2010/2011 Regressione Esempio Un azienda manifatturiera vuole analizzare il legame che intercorre tra il volume produttivo X per uno dei propri stabilimenti e il corrispondente costo mensile Y di produzione. Volume

Dettagli

INDICE PREFAZIONE VII

INDICE PREFAZIONE VII INDICE PREFAZIONE VII CAPITOLO 1. LA STATISTICA E I CONCETTI FONDAMENTALI 1 1.1. Un po di storia 3 1.2. Fenomeno collettivo, popolazione, unità statistica 4 1.3. Caratteri e modalità 6 1.4. Classificazione

Dettagli

è decidere sulla verità o falsità

è decidere sulla verità o falsità I test di ipotesi I test di ipotesi Il test delle ipotesi consente di verificare se, e in quale misura, una determinata ipotesi (di carattere sociale, biologico, medico, economico, ecc.) è supportata dall

Dettagli

E naturale chiedersi alcune cose sulla media campionaria x n

E naturale chiedersi alcune cose sulla media campionaria x n Supponiamo che un fabbricante stia introducendo un nuovo tipo di batteria per un automobile elettrica. La durata osservata x i delle i-esima batteria è la realizzazione (valore assunto) di una variabile

Dettagli

FONDAMENTI DI PSICOMETRIA - 8 CFU

FONDAMENTI DI PSICOMETRIA - 8 CFU Ψ FONDAMENTI DI PSICOMETRIA - 8 CFU STIMA DELL ATTENDIBILITA STIMA DELL ATTENDIBILITA DEFINIZIONE DI ATTENDIBILITA (affidabilità, fedeltà) Grado di accordo tra diversi tentativi di misurare uno stesso

Dettagli

LA STATISTICA E IL CALCOLO DELLE PROBABILITÀ

LA STATISTICA E IL CALCOLO DELLE PROBABILITÀ LA STATISTICA E IL CALCOLO DELLE PROBABILITÀ Prof. Francesco Tottoli Versione 3 del 20 febbraio 2012 DEFINIZIONE È una scienza giovane e rappresenta uno strumento essenziale per la scoperta di leggi e

Dettagli

CAPITOLO 10. Controllo di qualità. Strumenti per il controllo della qualità e la sua gestione

CAPITOLO 10. Controllo di qualità. Strumenti per il controllo della qualità e la sua gestione CAPITOLO 10 Controllo di qualità Strumenti per il controllo della qualità e la sua gestione STRUMENTI PER IL CONTROLLO E LA GESTIONE DELLA QUALITÀ - DIAGRAMMI CAUSA/EFFETTO - DIAGRAMMI A BARRE - ISTOGRAMMI

Dettagli

Corso di laurea in Scienze Motorie. Corso di Statistica. Docente: Dott.ssa Immacolata Scancarello Lezione 2: Misurazione, tabelle

Corso di laurea in Scienze Motorie. Corso di Statistica. Docente: Dott.ssa Immacolata Scancarello Lezione 2: Misurazione, tabelle Corso di laurea in Scienze Motorie Corso di Statistica Docente: Dott.ssa Immacolata Scancarello Lezione : Misurazione, tabelle 1 Misurazione Definizione: La misura è l attribuzione di un valore numerico

Dettagli

Valori medi e misure della tendenza centrale

Valori medi e misure della tendenza centrale TERZA UNITA Valori medi e misure della tendenza centrale Una delle maggiori cause di confusione presso l uomo della strada nonché di diffidenza verso la statistica, considerata più un arte che una scienza,

Dettagli

Elementi di Psicometria

Elementi di Psicometria Elementi di Psicometria 12-Correlazione vers. 1.1 (27 novembre 2012) Germano Rossi 1 germano.rossi@unimib.it 1 Dipartimento di Psicologia, Università di Milano-Bicocca 2011-2012 G. Rossi (Dip. Psicologia)

Dettagli

8 Elementi di Statistica

8 Elementi di Statistica 8 Elementi di Statistica La conoscenza di alcuni elementi di statistica e di analisi degli errori è importante quando si vogliano realizzare delle osservazioni sperimentali significative, ed anche per

Dettagli

Corso di Psicometria Progredito

Corso di Psicometria Progredito Corso di Psicometria Progredito 2.1 Statistica descrittiva (Richiami) Prima Parte Gianmarco Altoè Dipartimento di Pedagogia, Psicologia e Filosofia Università di Cagliari, Anno Accademico 2013-2014 Sommario

Dettagli

Dr. Marco Vicentini marco.vicentini@unipd.it Anno Accademico 2010 2011 Rev 30/03/2011

Dr. Marco Vicentini marco.vicentini@unipd.it Anno Accademico 2010 2011 Rev 30/03/2011 Università degli Studi di Padova Facoltà di Psicologia, L4, Psicometria, Modulo B Dr. Marco Vicentini marco.vicentini@unipd.it Anno Accademico 2010 2011 Rev 30/03/2011 Statistica descrittiva e inferenziale

Dettagli

1) Si consideri un esperimento che consiste nel lancio di 5 dadi. Lo spazio campionario:

1) Si consideri un esperimento che consiste nel lancio di 5 dadi. Lo spazio campionario: Esempi di domande risposta multipla (Modulo II) 1) Si consideri un esperimento che consiste nel lancio di 5 dadi. Lo spazio campionario: 1) ha un numero di elementi pari a 5; 2) ha un numero di elementi

Dettagli

Titolo della lezione. Analisi dell associazione tra due caratteri: indipendenza e dipendenza

Titolo della lezione. Analisi dell associazione tra due caratteri: indipendenza e dipendenza Titolo della lezione Analisi dell associazione tra due caratteri: indipendenza e dipendenza Introduzione Analisi univariata, bivariata, multivariata Analizzare le relazioni tra i caratteri, per cercare

Dettagli

Appunti di complementi di matematica

Appunti di complementi di matematica Appunti di complementi di matematica UITA STATISTICA: è l unità su cui si raccolgono le informazioni oggetto dell indagine e possono essere individui, famiglie, oggetti. UIVERSO STATISTICO O POLAZIOE STATISTICA

Dettagli

STIMARE valori ed eseguire ANALISI DI REGRESSIONE

STIMARE valori ed eseguire ANALISI DI REGRESSIONE STIMARE valori ed eseguire ANALISI DI REGRESSIONE È possibile impostare una serie di valori che seguono una tendenza lineare semplice oppure una tendenza con crescita esponenziale. I valori stimati vengono

Dettagli

OCCUPATI SETTORE DI ATTIVITA' ECONOMICA

OCCUPATI SETTORE DI ATTIVITA' ECONOMICA ESERCIZIO 1 La tabella seguente contiene i dati relativi alla composizione degli occupati in Italia relativamente ai tre macrosettori di attività (agricoltura, industria e altre attività) negli anni 1971

Dettagli

UNIVERSITÀ DEGLI STUDI DI MILANO-BICOCCA A. A. 2008-2009 FACOLTÀ DI ECONOMIA. Programma del modulo di STATISTICA I (6 crediti)

UNIVERSITÀ DEGLI STUDI DI MILANO-BICOCCA A. A. 2008-2009 FACOLTÀ DI ECONOMIA. Programma del modulo di STATISTICA I (6 crediti) UNIVERSITÀ DEGLI STUDI DI MILANO-BICOCCA A. A. 2008-2009 FACOLTÀ DI ECONOMIA Programma del modulo di STATISTICA I (6 crediti) ECOCOM (lettere A-Lh): ECOCOM (lettere Li-Z): ECOBAN: ECOAMM (Lettere A-Lh):

Dettagli

Scheda n.5: variabili aleatorie e valori medi

Scheda n.5: variabili aleatorie e valori medi Scheda n.5: variabili aleatorie e valori medi October 26, 2008 1 Variabili aleatorie Per la definizione rigorosa di variabile aleatoria rimandiamo ai testi di probabilità; essa è non del tutto immediata

Dettagli

Elementi di Statistica descrittiva Parte I

Elementi di Statistica descrittiva Parte I Elementi di Statistica descrittiva Parte I Che cos è la statistica Metodo di studio di caratteri variabili, rilevabili su collettività. La statistica si occupa di caratteri (ossia aspetti osservabili)

Dettagli

Metodi statistici per le ricerche di mercato

Metodi statistici per le ricerche di mercato Metodi statistici per le ricerche di mercato Prof.ssa Isabella Mingo A.A. 2013-2014 Facoltà di Scienze Politiche, Sociologia, Comunicazione Corso di laurea Magistrale in «Organizzazione e marketing per

Dettagli

Dai dati al modello teorico

Dai dati al modello teorico Dai dati al modello teorico Analisi descrittiva univariata in R 1 Un po di terminologia Popolazione: (insieme dei dispositivi che verranno messi in produzione) finito o infinito sul quale si desidera avere

Dettagli

LEZIONI DI STATISTICA E CALCOLO DELLE PROBABILITA STATISTICA

LEZIONI DI STATISTICA E CALCOLO DELLE PROBABILITA STATISTICA LEZIONI DI STATISTICA E CALCOLO DELLE PROBABILITA UMBERTO MAGAGNOLI Materiale per il Corso di lezioni di STATISTICA Laurea magistrale in Matematica Facoltà di Scienze Matematiche, Fisiche e Naturali Università

Dettagli

STATISTICA (A-K) a.a. 2007-08 Prof.ssa Mary Fraire Test di STATISTICA DESCRITTIVA Esonero del 2007

STATISTICA (A-K) a.a. 2007-08 Prof.ssa Mary Fraire Test di STATISTICA DESCRITTIVA Esonero del 2007 A STATISTICA (A-K) a.a. 007-08 Prof.ssa Mary Fraire Test di STATISTICA DESCRITTIVA Esonero del 007 STESS N.O. RD 00 GORU N.O. RD 006 ) La distribuzione del numero degli occupati (valori x 000) in una provincia

Dettagli

Elaborazione dati in Analisi Sensoriale

Elaborazione dati in Analisi Sensoriale Elaborazione dati in Analisi Sensoriale Si è parlato di interpretazione corretta dei risultati ottenuti; a questo concorrono due fattori: affidabilità e validità. Se i test fossero stati ripetuti con lo

Dettagli

l insieme delle misure effettuate costituisce il campione statistico

l insieme delle misure effettuate costituisce il campione statistico Statistica negli esperimenti reali si effettuano sempre un numero finito di misure, ( spesso molto limitato ) l insieme delle misure effettuate costituisce il campione statistico Statistica descrittiva

Dettagli

Funzioni in due variabili Raccolta di FAQ by Andrea Prevete

Funzioni in due variabili Raccolta di FAQ by Andrea Prevete Funzioni in due variabili Raccolta di FAQ by Andrea Prevete 1) Cosa intendiamo, esattamente, quando parliamo di funzione reale di due variabili reali? Quando esiste una relazione fra tre variabili reali

Dettagli

Analisi delle relazioni tra due caratteri

Analisi delle relazioni tra due caratteri Analisi delle relazioni tra due caratteri Le misure di connessione misurano il grado di associazione tra due caratteri qualsiasi sotto il profilo statistico (e non causale in quanto non è compito della

Dettagli

Analisi dei dati. Statistica descrittiva

Analisi dei dati. Statistica descrittiva Analisi dei dati DATI GREZZI SINTESI DELLE OSSERVAZIONI ELABORAZIONE DATI Statistica descrittiva Si occupa dell analisi di un certo fenomeno relativo a un certo gruppo di soggetti (popolazione) sulla base

Dettagli

Da una a più variabili: derivate

Da una a più variabili: derivate Da una a più variabili: derivate ( ) 5 gennaio 2011 Scopo di questo articolo è di evidenziare le analogie e le differenze, relativamente al calcolo differenziale, fra le funzioni di una variabile reale

Dettagli

4. Funzioni elementari algebriche

4. Funzioni elementari algebriche ISTITUZIONI DI MATEMATICHE E FONDAMENTI DI BIOSTATISTICA 4. Funzioni elementari algebriche A. A. 2013-2014 1 Funzioni elementari Sono dette elementari un insieme di funzioni dalle quali si ottengono, mediante

Dettagli

ANALISI DI CORRELAZIONE

ANALISI DI CORRELAZIONE ANALISI DI CORRELAZIONE Esempio: Dati raccolti da n = 129 studenti di Pavia (A.A. 21/2) Altezza (cm) Peso (Kg) Voto Algebra e Geometria Voto Fisica I Valutare la correlazione delle seguenti coppie: Peso

Dettagli

CONTROLLI STATISTICI

CONTROLLI STATISTICI CONTROLLI STATISTICI Si definisce Statistica la disciplina che si occupa della raccolta, effettuata in modo scientifico, dei dati e delle informazioni, della loro classificazione, elaborazione e rappresentazione

Dettagli

Strumenti statistici per l analisi di dati genetici

Strumenti statistici per l analisi di dati genetici Strumenti statistici per l analisi di dati genetici Luca Tardella + Maria Brigida Ferraro 1 email: luca.tardella@uniroma1.it Lezione #1 Introduzione al software R al suo utilizzo per l implementazione

Dettagli

Indici (Statistiche) che esprimono le caratteristiche di simmetria e

Indici (Statistiche) che esprimono le caratteristiche di simmetria e Indici di sintesi Indici (Statistiche) Gran parte della analisi statistica consiste nel condensare complessi pattern di osservazioni in un indicatore che sia capace di riassumere una specifica caratteristica

Dettagli