La media e la mediana sono indicatori di centralità, che indicano un centro dei dati.

Documenti analoghi
Esercizi di statistica descrittiva. Giulia Simi (Università di Siena) Istituzione di matematica e fondamenti di Biostatistica Siena / 30

Statistica descrittiva in due variabili

Scale Logaritmiche. Matematica con Elementi di Statistica a.a. 2015/16

La retta di regressione

Regressione Lineare Semplice e Correlazione

REGRESSIONE E CORRELAZIONE

Teoria e tecniche dei test. Concetti di base

Programmazione con Foglio di Calcolo Cenni di Statistica Descrittiva

La regressione lineare. Rappresentazione analitica delle distribuzioni

Prof. Anna Paola Ercolani (Università di Roma) Lez Indicatori di dispersione

UNIVERSITÀ DEGLI STUDI DI ROMA LA SAPIENZA

Università del Piemonte Orientale Specializzazioni di area sanitaria Statistica Medica

Statistica di base per l analisi socio-economica

Piano cartesiano e Retta

Σ (x i - x) 2 = Σ x i 2 - (Σ x i ) 2 / n Σ (y i - y) 2 = Σ y i 2 - (Σ y i ) 2 / n. 13. Regressione lineare parametrica

Statistica. Alfonso Iodice D Enza

SCOPO DELL ANALISI DI CORRELAZIONE

METODO DEI MINIMI QUADRATI

Indici di Dispersione

Trasformazioni Logaritmiche

Lezioni di Statistica del 15 e 18 aprile Docente: Massimo Cristallo

Regressione e Correlazione (cap. 11) Importazione dati da file di testo

METODO DEI MINIMI QUADRATI

x, y rappresenta la coppia di valori relativa La rappresentazione nel piano cartesiano dei punti ( x, y ),( x, y ),...,( x, y )

Statistica. Alfonso Iodice D Enza

Indicatori di Posizione e di Variabilità. Corso di Laurea Specialistica in SCIENZE DELLE PROFESSIONI SANITARIE DELLA RIABILITAZIONE Statistica Medica

Statistica. Alfonso Iodice D Enza

UNITÀ DIDATTICA 5 LA RETTA

Condizione di allineamento di tre punti

Una funzione può essere:

Lezione 4 a - Misure di dispersione o di variabilità

LEZIONI IN LABORATORIO Corso di MARKETING L. Baldi Università degli Studi di Milano. Strumenti statistici in Excell

STATISTICA esercizi svolti su: INTERPOLAZIONE PONDERATA, REGRESSIONE E CORRELAZIONE

EQUAZIONE DELLA RETTA

La statistica. Elaborazione e rappresentazione dei dati Gli indicatori statistici. Prof. Giuseppe Carucci

Distribuzioni secondo due caratteri. Rappresentazioni e prime sintesi

INDICATORI DI TENDENZA CENTRALE

Statistica Un Esempio

TRACCIA DI STUDIO. Indici di dispersione assoluta per misure quantitative

1 Nozioni utili sul piano cartesiano

STATISTICA 1 ESERCITAZIONE 6

CORSO DI LAUREA IN INFERMIERISTICA. LEZIONI DI STATISTICA Parte II Elaborazione dei dati Variabilità

Quadro riassuntivo di geometria analitica

Punti nel piano cartesiano

Covarianza, correlazione e retta di regressione. Paola Lecca, CIBIO UNITN Corso di Matematica e Statistica 2

STATISTICHE DESCRITTIVE Parte II

INDICATORI DI TENDENZA CENTRALE

STATISTICA APPLICATA Prof.ssa Julia Mortera. Concentrazione

Dati campionari:media, varianza, bruchi

Prof. Anna Paola Ercolani (Università di Roma) Lez Indicatori di tendenza centrale

La matrice delle correlazioni è la seguente:

Quaderno per il recupero del debito MATEMATICA ANNO SCOLASTICO 2016/2017 Prof.ssa Migliaccio Gabriella CLASSE III

Statistica. Matematica con Elementi di Statistica a.a. 2015/16

Relazioni statistiche: regressione e correlazione

LE COORDINATE CARTESIANE

Variabili aleatorie continue

CORSO DI LAUREA IN INFERMIERISTICA. LEZIONI DI STATISTICA Elaborazione dei dati Valori medi

GEOMETRIA ANALITICA 1 IL PIANO CARTESIANO

Esercizio 2: voto e ore dedicate allo studio

INDICATORI DI TENDENZA CENTRALE

PAROLE CHIAVE Accuratezza, Accuracy, Esattezza, PRECISIONE, Precision, Ripetibilità, Affidabilità, Reliability, Scarto quadratico medio (sqm), Errore

DISTRIBUZIONI DOPPIE (ANALISI DESCRITTIVE) Fulvio De Santis a.a Prerequisiti Popolazione, unità, carattere Come nascono i dati:

GEOMETRIA ANALITICA Prof. Erasmo Modica

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 4

Ricordiamo. 1. Tra le equazioni delle seguenti rette individua e disegna quelle parallele all asse delle ascisse:

UNIVERSITÀ di ROMA TOR VERGATA

Lezione 10: Interpolazione lineare Corso di Statistica Facoltà di Economia Università della Basilicata. Prof. Massimo Aria

LO STUDIO DI FUNZIONE ESERCIZI CON SOLUZIONI

LA RETTA. La retta è un insieme illimitato di punti che non ha inizio, né fine.

E la rappresentazione grafica, in questo caso, è la dispersione x,y, cioè una nuvola di punti nel piano cartesiano

LA RETTA NEL PIANO CARTESIANO

Statistica. POPOLAZIONE: serie di dati, che rappresenta linsieme che si vuole indagare (reali, sperimentali, matematici)

Minimi quadrati pesati per la Regressione Lineare

Sperimentazioni di Fisica I mod. A Statistica - Lezione 2

Nozioni di statistica

Capitolo 3 Sintesi e descrizione dei dati quantitativi

(x B x A, y B y A ) = (4, 2) ha modulo

1/4 Capitolo 4 Statistica - Metodologie per le scienze economiche e sociali 2/ed Copyright 2008 The McGraw-Hill Companies srl

Corso di Laurea in Farmacia Modulo di Matematica ed Informatica, 3 giugno Giustificare adeguatamente le soluzioni dei seguenti esercizi

La Variabilità statistica

Statistica Descrittiva Soluzioni 6. Indici di variabilità, asimmetria e curtosi

Oggi ultima lezione in aula non c è lezione, fate il tutorato di fisica come al solito

ESERCITAZIONE IV - Soluzioni

1. (Da Medicina e Odontoiatria 2012) Determinare l'area del triangolo che ha come vertici i punti (0,0), (0,1), (13,12) del piano cartesiano:

DISTRIBUZIONE CAMPIONARIA CONGIUNTA

GEOMETRIA ANALITICA

Funzioni elementari: funzioni potenza

Test per la correlazione lineare

BLAND-ALTMAN PLOT. + X 2i 2 la differenza ( d ) tra le due misure per ognuno degli n campioni; d i. X i. = X 1i. X 2i

Interpolazione Statistica

Statistiche e relazioni

Esercizio L1 L2 L3 L4 L5 L6 L7 L8. Sia f (x) = 4 x. Allora f (x + 1) f (x) è uguale a. Risposta. Risulta immediatamente

Secondo parziale di Matematica per l Economia (esempio)

Elementi di Statistica

Piano cartesiano e retta

Circonferenze del piano

Dispensa di Statistica

La variabilità. Dott. Cazzaniga Paolo. Dip. di Scienze Umane e Sociali

SCHEDA DIDATTICA N 7

Transcript:

La media e la mediana sono indicatori di centralità, che indicano un centro dei dati. Un indicatore che sintetizza in un unico numero tutti i dati, nascondendo quindi la molteplicità dei dati.

Per esempio, il reddito medio è un numero che ci consente di confrontare la ricchezza di un Paese con un altro. Ma nasconde il fatto che in un singolo Paese possono esserci famiglie estremamente ricche e altre molto povere.

Esempio Vengono testati 2 farmaci concorrenti A e B. I risultati, in termini di sopravvivenza, su due gruppi di 5 pazienti sono i seguenti: A 3 4,5 5 6 6,5 B 1,2 2 4 8 9,8 Quale farmaco ha dato i migliori risultati?

A B 3 1,2 4,5 2 5 4 6 8 6,5 9,8 La sopravvivenza media prodotta dal farmaco A e dal farmaco B è data da x A = 3 + 4,5 + 5 5 + 6 + 6,5 = 25 5 = 5 x B 1,2 + 3 + 4 + 8 + 8,8 25 = = = 5 5 5 La media è la stessa! Quindi quale farmaco scegliere?

Consideriamo un insieme di dati statistici x 1, x 2,, x n. Sia x la loro media aritmetica. I valori x x, x x, 1 2 x n x si chiamano scarti

La varianza dell insieme di dati statistici x 1, x 2,, x n è il numero Var = 1 n n ( x x ) i i = 1 2 cioè la media aritmetica degli scarti al quadrato. Tale numero è una misura di quanto i dati sono mediamente dispersi attorno alla loro media.

Calcoliamo la Varianza dei dati dell esempio precedente. A 3 4,5 5 6 6,5 B 1,2 2 4 8 9,8 Varianza per i dati relativi al farmaco A: Var A = ( (3 5) 2 + (4,5 5) 2 + (5 5) 2 + + (6 5) 2 + (6,5 5) 2 ) / 5 =(2 2 + (-0,5) 2 + 0 2 + 1 2 + 1,5 2 ) / 5 = 1,5

A 3 4,5 5 6 6,5 B 1,2 2 4 8 9,8 Varianza per i dati relativi al farmaco B: Var B = ( (1,2 5) 2 + (2 5) 2 + (4 5) 2 + + (8 5) 2 + (9,8 5) 2 ) / 5 =((-3,8) 2 + (-3) 2 + (-1) 2 + 3 2 + 4,8 2 ) / 5 = 11,3 I risultati che produce il farmaco A sono quindi più affidabili di quelli del farmaco B.

Nella pratica alla varianza si preferisce la sua radice quadrata, che è chiamata deviazione standard (o scarto quadratico medio): s = = Var 1 n n ( x x ) i i = 1 Tale numero ha il vantaggio di avere la stessa dimensione dei dati x 1, x n, e dà una misura di quanto i dati sono distanti dalla loro media. 2

Con riferimento all esempio precedente, abbiamo che la deviazione standard relativa al farmaco A è s A = Var A = 1,5 = 1,22 mentre quella relativa al farmaco B è s B = Var B = 11,3 = 3,36

Quando i dati vengono forniti attraverso una tabella delle frequenze, sappiamo che la media aritmetica è una media ponderata. Anche nel calcolo della varianza, e quindi la deviazione standard, si deve tener conto dei pesi dati dalle frequenze.

In presenza di una tabella delle frequenze dato x k frequenza x 1 f 1 x 2 f 2 f k per il calcolo della varianza e della deviazione standard si usa la formula Var = k i = 1 f i ( x k i = 1 f i x i ) 2, s = Var

Esempio Riprendiamo l esempio di ieri del giudizio degli studenti Giudizio 1 2 3 4 5 6 7 8 9 10 Frequenza 10 20 30 25 40 25 25 20 3 2 Avevamo calcolato una media aritmetica (ponderata) di 4,9. Si calcoli la deviazione standard.

Conviene considerare la seguente tabella, per facilitare i calcoli: Giudizio Frequenza x i 4,9 (x i 4,9) 2 1 10 2 20 3 30 4 25 5 40 6 25 7 25 8 20 9 3 10 2

Giudizio (x i ) Frequenza (f i ) x i 4,9 (x i 4,9) 2 1 10-3,9 15,21 2 20-2,9 8,41 3 30-1,9 3,61 4 25-0,9 0,81 5 40 0,1 0,01 6 25 1,1 1,21 7 25 2,1 4,41 8 20 3,1 9,61 9 3 4,1 16,81 10 2 5,1 26,01

Vogliamo usare la formula Var = k i = 1 f i ( x k i = 1 f i x i ) 2, s = Var

Giudizio x i Frequenza f i x i 4,9 (x i 4,9) 2 f i (x i 4,9) 2 1 10-3,9 15,21 152,1 2 20-2,9 8,41 168,2 3 30-1,9 3,61 108,3 4 25-0,9 0,81 20,25 5 40 0,1 0,01 0,4 6 25 1,1 1,21 30,25 7 25 2,1 4,41 110,25 8 20 3,1 9,61 192,2 9 3 4,1 16,81 50,43 10 2 5,1 26,01 52,02 somma: 884,4

Si ottiene dunque che Var = 884,4 / 200 = 4,42 e s = 2,10

Distribuzione a due caratteri e regressione lineare

Finora ci siamo concentrati su una sola caratteristica di una data popolazione (per esempio il giudizio degli studenti, l efficacia di un farmaco, ecc)

Consideriamo ora una situazione nuova. Vogliamo cioè studiare due caratteristiche di una data popolazione e vedere se c è una correlazione tra di esse.

Per esempio, dato un certo insieme di persone, studiamo due caratteristiche di questa popolazione: età pressione arteriosa L obiettivo è capire se c è una relazione tra queste due grandezze

Supponiamo che la nostra popolazione sia composta da n persone. Per ciascuna persona ci annotiamo - l età x i - la pressione y i

Età (x) 25 30 42 55 55 63 70 Pressione (y) 120 125 135 140 145 140 160

In generale otteniamo così n coppie (x 1,y 1 ), (x 2,y 2 ),. (x n,y n ) che individuano n punti P 1, P 2,. P n in un sistema di assi cartesiani

Si ottiene così una nube di punti. Essenzialmente può capitare uno dei seguenti 4 casi.

a) Nel primo caso, al crescere di x anche i corrispondenti valori di y tendono a crescere. Vi è quindi una correlazione positiva

b) Nel secondo caso, al crescere di x anche i corrispondenti valori di y tendono a diminuire. Si parla di correlazione negativa

c) Nel terzo caso, al crescere di x anche i corrispondenti valori di y tendono a rimanere costanti. Si parla di indifferenza della caratteristica y rispetto alla x

d) Nell ultimo caso la nube di punti evidenzia l assenza di alcuna correlazione tra i valori di x e di y

Il nostro obiettivo è di studiare i casi a) e b), cioè quando la nube di punti evidenzia una correlazione tra la variabile x e la y. Vogliamo trovare una legge matematica che esprima una tale correlazione.

Più precisamente vogliamo capire se è possibile esprimere la y come funzione lineare della variabile x

Tornando all esempio, rappresentiamo sul piano cartesiano le 7 coppie di punti che avevamo annotato

Età (x) 25 30 42 55 55 63 70 Pressione (y) 120 125 135 140 145 140 160

170 160 150 140 Pressione 130 120 110 100 90 80 0 10 20 30 40 50 60 70 80 Età

È quindi lecito supporre che possa esservi una relazione lineare tra età di una persona e pressione arteriosa. Vogliamo esprimere quantitativamente questa relazione lineare.

Il grafico di una funzione lineare è una retta. Quello che noi vogliamo trovare è quindi una retta che passi bene in mezzo ai punti P, P, P, e che 1 2 n quindi possa esprimere con la migliore approssimazione possibile la relazione tra la variabile x (età) e y (pressione).

Tale retta si chiama retta di regressione lineare 180 170 160 150 140 Pressione 130 120 110 100 90 80 0 10 20 30 40 50 60 70 80 90 100 Età

Esiste una tale retta? È unica? Come trovarne l equazione?

Consideriamo una generica retta y = mx +q In corrispondenza delle ascisse x 1, x 2,, x n le rispettive ordinate saranno y i = mx i + q

L errore che si commette nell approssimare la nostra serie di punti P 1 (x 1,y 1 ), P 1 (x 1,y 1 ), P n (x n,y n ) con i punti della retta y = mx + q è misurato dalla somma delle lunghezze y i (mx i + q)

Si dimostra che esiste un unica retta (cioè esistono unici m e q) affinché la quantità n i = 1 ( y i ( mx i + q 2 )) sia la più piccola possibile. Tale retta si chiama retta di regressione lineare.

Si dimostra che 1. Il coefficiente angolare della retta di regressione è dato dalla formula m n ( x i = i = 1 n i = 1 x ( x i )( y i x) 2 y )

2. La retta di regressione passa per il punto M( x, y ) cioè il punto (chiamato baricentro) le cui coordinate sono le medie aritmetiche delle ascisse e delle ordinate dei punti P 1 (x 1,y 1 ), P 2 (x 2,y 2 ),, P n (x n,y n ).

con Quindi l equazione della retta di regressione è y = mx + q m = n i = 1 ( x n i i = 1 x)( y ( x i i x) 2 y ), q = y mx

A titolo di esempio calcoliamo la retta di regressione per la serie di dati relativi alle osservazioni di età e pressione. Intanto si ha subito che x = 48,57 e y = 137,86

Età Pressione x i 48,57 y i 137,86 x y 25 120-23,57-17,86 30 125-18,57-12,86 42 135-6,57-2,86 55 140 6,43 2,14 55 145 6,43 7,14 63 140 14,43 2,14 70 160 21,43 22,14

x i 48,57 y i 137,86 (x i 48,57 )(y i 137,86) (x i 48,5) 2-23,57-17,86 420,92 555,61-18,57-12,86 238,78 344,90-6,57-2,86 18,78 43,18 6,43 2,14 13,78 41,33 6,43 7,14 45,92 41,33 14,43 2,14 30,92 208,18 21,43 22,14 474,49 459,18 somma 1243,57 1693,71

Quindi m = n i = 1 q = y ( x x )( y y ) n i i = 1 ( x x ) i i 2 1243,57 = = 0,73 1693,71 mx = 137,9 0,73 48,57 = 102,4 La retta ha dunque equazione y = 0,73 x +102,4

Quanto la retta trovata approssima bene i dati? Cioè con quale bontà la retta di regressione riesce a dare una schematizzazione fedele del fenomeno?

Viene introdotto il seguente numero, chiamato coefficiente di correlazione (o coefficiente di Pearson) ( )( ) ( ) ( ) = = = = n i i n i i n i i i y y x x y y x x r 1 2 1 2 1

Si dimostra che 1 r 1. Quanto più r è vicino a 1 oppure a -1 tanto più i punti P 1, P 2,, P n sono vicini alla retta e la retta di regressione descrive con sempre maggiore approssimazione il fenomeno.

Quando r = 1 oppure r = -1, i punti P 1, P 2, P n sono allineati e sono punti appartenenti alla retta di regressione.

Invece, valori di r prossimi a 0 stanno a significare che non vi è alcuna correlazione lineare tra le due variabili x e y. Quindi la retta di regressione non è adatta per schematizzare il fenomeno.

Cionondimeno potrebbero esserci correlazioni di altro tipo (esponenziale, quadratica, ecc.) tra le due variabili.