Statistica descrittiva in due variabili

Documenti analoghi
Statistica descrittiva in due variabili

Statistica descrittiva in due variabili

7. STATISTICA DESCRITTIVA

SCOPO DELL ANALISI DI CORRELAZIONE

Esercizi di statistica

Matematica Lezione 22

STATISTICA esercizi svolti su: INTERPOLAZIONE PONDERATA, REGRESSIONE E CORRELAZIONE

La media e la mediana sono indicatori di centralità, che indicano un centro dei dati.

REGRESSIONE E CORRELAZIONE

COME SI STUDIANO MOLTISSIME MISURE?

Dispensa di Statistica

Statistica. Esercitazione 4 17 febbraio 2011 Medie condizionate. Covarianza e correlazione

Regressione & Correlazione

Vogliamo determinare una funzione lineare che meglio approssima i nostri dati sperimentali e poter decidere sulla bontà di questa approssimazione.

METODO DEI MINIMI QUADRATI

Fondamenti e metodi analisi empirica nelle scienze sociali

Corso in Statistica Medica

Test per la correlazione lineare

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 6

Esercizi su distribuzioni doppie, dipendenza, correlazione e regressione (Statistica I, IV Canale)

Corso di Laurea in Scienze dell Organizzazione Facoltà di Sociologia, Università degli Studi di Milano-Bicocca a.a. 2009/2010.

La regressione lineare. Rappresentazione analitica delle distribuzioni

PROBABILITÀ SCHEDA N. 5 SOMMA E DIFFERENZA DI DUE VARIABILI ALEATORIE DISCRETE

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 3

Distribuzioni secondo due caratteri. Rappresentazioni e prime sintesi

Regressione Lineare Semplice e Correlazione

Statistica. Alfonso Iodice D Enza

La media e la mediana sono indicatori di centralità, che indicano un centro dei dati.

Capitolo 2. Cenni di geometria analitica nel piano

Esercizi su Regressione e Connessione

Statistica. Alfonso Iodice D Enza

Argomenti della lezione:

Variabili indipendenti qualitative. In molte applicazioni si rende necessario l introduzione di un fattore a due o più livelli.

STATISTICA. Esercitazione 5

La statistica. Elaborazione e rappresentazione dei dati Gli indicatori statistici. Prof. Giuseppe Carucci

ESERCITAZIONI N. 3 corso di statistica

Statistica. Esercitazione 4 15 maggio 2012 Connessione. Medie condizionate. Covarianza e correlazione

Indipendenza, Dipendenza e interdipendenza

PROBABILITÀ SCHEDA N. 5 SOMMA E DIFFERENZA DI DUE VARIABILI ALEATORIE DISCRETE

Materiale didattico per il corso di Statistica I Quinta esercitazione SOLUZIONI

STATISTICA DESCRITTIVA BIVARIATA

Rappresentazioni grafiche di distribuzioni doppie

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 5

Correlazione lineare e regressione

Statistica Esercitazione. alessandro polli facoltà di scienze politiche, sociologia, comunicazione

Analisi dell associazione tra due caratteri

APPLICAZIONE DELLA DEVIATA GAUSSIANA STANDARD

Il problema lineare dei minimi quadrati

Capitolo 12. Suggerimenti agli esercizi a cura di Elena Siletti. Esercizio 12.1: Suggerimento

Piano cartesiano e Retta

BLAND-ALTMAN PLOT. + X 2i 2 la differenza ( d ) tra le due misure per ognuno degli n campioni; d i. X i. = X 1i. X 2i

Prova d esame di Statistica - II canale - nuovo ordinamento Dott.ssa C. Conigliani 19/06/2003

Tecniche di sondaggio

Corso di Psicometria Progredito

DISTRIBUZIONI DOPPIE (ANALISI DESCRITTIVE) Fulvio De Santis a.a Prerequisiti Popolazione, unità, carattere Come nascono i dati:

Dipartimento di Sociologia e Ricerca Sociale. Corso di Laurea in Sociologia. Insegnamento di Statistica (a.a ) dott.ssa Gaia Bertarelli

E la rappresentazione grafica, in questo caso, è la dispersione x,y, cioè una nuvola di punti nel piano cartesiano

Esercizi Svolti. 2. Costruire la distribuzione delle frequenze cumulate del tempo di attesa

Elaborazione statistica di dati

Consideriamo due variabili quantitative Y e X, e supponiamo di essere interessati a comprendere come la Y

Metodi Quantitativi per Economia, Finanza e Management. Lezione n 4 Analisi Bivariata I Parte

L'analisi bivariata (analisi della varianza e correlazione) Prof. Stefano Nobile. Corso di Metodologia della ricerca sociale

Statistica Elementare

ESEMPI DI DOMANDE PER LA PROVA SCRITTA DI STATISTICA SOCIALE

Esercitazione III Soluzione

Cognome e Nome:... Corso di laurea:...

Analisi bivariata. Il caso di caratteri quantitativi

assuma valori in un determinato intervallo è data dall integrale della sua densità ( = )=

per togliere l influenza di un fattore es.: quoziente di mortalità = morti / popolazione

METODO DEI MINIMI QUADRATI

Corso di Laurea in Ingegneria Informatica e Automatica (M-Z) Università di Roma La Sapienza

Casa dello Studente. Casa dello Studente

Dipartimento di Sociologia e Ricerca Sociale. Corso di Laurea in Sociologia. Insegnamento di Statistica (a.a ) dott.ssa Gaia Bertarelli

Modelli probabilistici variabili casuali

Esercitazione: 16 novembre 2009 SOLUZIONI

Esercizi di statistica descrittiva. Giulia Simi (Università di Siena) Istituzione di matematica e fondamenti di Biostatistica Siena / 30

L analisi dei dati. Primi elementi. EEE- Cosmic Box proff.: M.Cottino, P.Porta

1 Fit di dati sperimentali: il χ 2. Il metodo dei minimi quadrati.

Distribuzioni Doppie e Relazioni tra Variabili Esercitazione n 03

Analisi congiunta di più fenomeni

STATISTICA. Regressione-1

Statistica Esercitazione. alessandro polli facoltà di scienze politiche, sociologia, comunicazione

La variabilità. Dott. Cazzaniga Paolo. Dip. di Scienze Umane e Sociali

Esercizio 1 Questa tabella esprime i tempi di durata di 200 apparecchiature elettriche:

La statistica descrittiva seconda parte. a cura della prof.ssa Anna Rita Valente

Parametri statistici

Statistica di base per l analisi socio-economica

ESERCITAZIONI N. 3 corso di statistica

Ricordiamo. 1. Tra le equazioni delle seguenti rette individua e disegna quelle parallele all asse delle ascisse:

Sperimentazioni di Fisica I mod. A Statistica - Lezione 2

UNIVERSITÀ di ROMA TOR VERGATA

Statistica descrittiva III

ESAME. 9 Gennaio 2017 COMPITO B

STATISTICA (2) ESERCITAZIONE Dott.ssa Antonella Costanzo

Si assuma di avere portato a termine le seguenti rilevazioni di produzione e di alimento somministrato

Nel modello omoschedastico la varianza dell errore non dipende da i ed è quindi pari a σ 0.

3.1 Classificazione dei fenomeni statistici Questionari e scale di modalità Classificazione delle scale di modalità 17

Transcript:

Statistica descrittiva in due variabili Dott Nicola Pintus AA 2018-2019

Indichiamo con U la popolazione statistica e con u i le unità statistiche Ad ogni unità statistica associamo i caratteri osservati x i, y i u i (x i, y i ) Otteniamo quindi due serie di n-uple ordinate X = (x 1, x 2, ) Y = (y 1, y 2, )

Fino ad ora ad ogni unità statistica associavamo un solo carattere osservato Ora consideriamo due caratteri per ogni unità statistica Primo problema Come estendere la rappresentazione tabellare a questa situazione? Secondo problema Con quale probabilità posso affermare che i due caratteri dipendono? Terzo problema Quale tipo di dipendenza sussiste fra le due variabili?

Tabelle a due entrate Esempio Abbiamo misurato altezza e peso in un gruppo di 10 bambini che frequentano un corso di arti marziali: (u 1, 91, 17) (u 2, 95, 19) (u 3, 99, 27) (u 4, 100, 29) (u 5, 94, 21) (u 6, 96, 19) (u 7, 110, 22) (u 8, 99, 25) (u 9, 127, 32) (u 10, 92, 17) Costruiamo le modalità per l altezza e le modalità per il peso M 1 = [90, 110) M 2 = [110, 130) N 1 = [15, 25) N 2 = [25, 35)

Tabelle a due entrate Distribuzioni di frequenze assolute Coloriamo i caratteri a seconda della modalità di appartenenza: (u 1, 91, 17) (u 2, 95, 19) (u 3, 99, 27) (u 4, 100, 29) (u 5, 94, 21) (u 6, 96, 19) (u 7, 110, 22) (u 8, 99, 25) (u 9, 127, 32) (u 10, 92, 17) Creiamo la tabella a due entrate, detta tabella di contingenza: P A [90, 110) [110, 130) [15, 25) 5 1 [25, 35) 3 1 Le entrate di questa tabella sono le frequenze assolute osservate Attenzione! La rappresentazione tabellare dipende dalle modalità scelte per i due caratteri

Tabelle a due entrate Distribuzioni marginali P A [90, 110) [110, 130) [15, 25) 5 1 6 [25, 35) 3 1 4 8 2 10 In rosso abbiamo indicato la distribuzione marginale orizzontale

Tabelle a due entrate Distribuzioni condizionate P A [90, 110) [110, 130) [15, 25) 5 1 6 [25, 35) 3 1 4 8 2 10 In rosso abbiamo indicato la distribuzione di A condizionata ad avere la variabile P nell intervallo [15, 25)

Variabili indipendenti Definizione Due variabili sono indipendenti se le distribuzioni orizzontali relative (eventualmente trasformate in percentuali) coincidono con la distribuzione marginale orizzontale P A [90, 110) [110, 130) [15, 25) 83% 17% [25, 35) 75% 25% 80% 20%

Variabili indipendenti Se alle variabili X e Y si associano rispettivamente le modalità {N 1, } e {M 1, } allora Definizione X Y M 1 M 2 M h N 1 f 11 f 12 f 1h f 1 N 2 f 21 f 22 f 2h f 2 N k f k1 f k2 f kh f k f 1 f 2 f h N X e Y sono indipendenti se 1 1 1 f 1 (f 11, ), f 2 (f 21, ), f k (f k1, ) e 1 N (f 1, f 2, ) coincidono

Variabili indipendenti Se X e Y sono indipendenti allora ovvero f ij = f j f i N f ij = f i f j N i, j i, j Definizione Indichiamo con ν ij = f i f j N le frequenze attese Ne discende che due variabili sono indipendenti se le frequenze osservate coincidono con quelle attese

Dipendenza fra variabili Il test χ 2 Problema: capire se le variabili X e Y dipendono Le variabili X e Y dipendono se le frequenze ottenute f ij sono molto differenti da quelle attese ν ij Una proposta per misurare quanto le frequenze osservate sono diverse dalle frequenze attese è il calcolo di χ 2 = k h i=1 j=1 (f ij ν ij ) 2 ν ij La quantità χ 2 è proporzionale allo scarto quadratico medio fra le frequenze osservate e le frequenze attese pesato rispetto alle frequenze attese

Dipendenza fra variabili Il test χ 2 : l esempio guida Esempio Dobbiamo studiare una macchina diagnostica sui tumori Consideriamo un campione di 30 persone di cui 15 sane e 15 malate Abbiamo ottenuto i seguenti risultati: Positivo Negativo Malato 12 3 15 Sano 5 10 15 17 13 30 Ricaviamo la tabella delle frequenze attese: Positivo Negativo Malato 85 65 Sano 85 65

Dipendenza fra variabili Il test χ 2 : l esempio guida Calcoliamo χ 2 : χ 2 = (12 85)2 85 + (3 65)2 65 + (5 85)2 85 + (10 65)2 65 665 Abbiamo calcolato χ 2 Come procediamo adesso? Da un punto di vista qualitativo se χ 2 è grande allora X e Y sono dipendenti Al contrario se χ 2 è vicino a 0 allora X e Y sono indipendenti Il test χ 2 ci permette di calcolare con che fiducia si può affermare che le due variabili sono dipendenti

Dipendenza fra variabili Il test χ 2 : l esempio guida Prima dobbiamo calcolare il numero dei gradi di libertà: df = (h 1)(k 1) Per l esempio che stiamo considerando abbiamo che df = 1

Dipendenza fra variabili Il test χ 2 : l esempio guida Per il calcolo di valore di fiducia dobbiamo consultare la tabella dei valori critici Concentriamoci alla riga per cui si ha df = 1 Abbiamo ottenuto χ 2 665: in tale riga consideriamo il più grande valore minore di χ 2 α df 01 005 0025 001 0005 0001 1 2706 3841 5024 6635 7879 1083 2 4605 5991 7378 9210 1060 1382 3 6251 7815 9348 1134 1284 1627 Nella tabella si ha 6635 a cui corrisponde α = 001 Il valore α% è la percentuale di errore che si commette nell affermare che due variabili sono dipendenti

Dipendenza fra variabili Il test χ 2 : l esempio guida α% è la percentuale di sfiducia, allora (1 α)% è la percentuale di fiducia di dipendenza delle due variabili Per l esempio che stiamo considerando abbiamo che F = 1 001 = 99% Dunque possiamo affermare che le due variabili sono dipendenti con una fiducia del 99%

Dipendenza fra variabili Il test χ 2 Esempio Vogliamo confrontare l efficacia di due farmaci che curano la stessa malattia I due farmaci hanno diversi prezzi Vogliamo capire se il prezzo del farmaco sia dipendente dall efficacia del farmaco Su un campione di 250 malati otteniamo i seguenti risultati: Farmaco caro Farmaco economico Guarigione 45 154 Non guarigione 5 46

Dipendenza fra variabili Il test χ 2 Determiniamo le frequenze attese: Farmaco caro Farmaco economico Guarigione 398 1592 199 Non guarigione 102 408 51 50 200 Calcoliamo χ 2 : χ 2 = (398 45)2 398 + (1592 154)2 1592 Il numero dei gradi di libertà è 1 + (102 5)2 102 + (408 46)2 406 416

Dipendenza fra variabili Il test χ 2 Per il calcolo di valore di fiducia dobbiamo consultare la tabella dei valori critici Concentriamoci alla riga per cui si ha df = 1 Abbiamo ottenuto χ 2 416: in tale riga consideriamo il più grande valore minore di χ 2 α df 01 005 0025 001 0005 0001 1 2706 3841 5024 6635 7879 1083 2 4605 5991 7378 9210 1060 1382 3 6251 7815 9348 1134 1284 1627 Il livello di fiducia è F = 1 005 = 95%

Dipendenza fra variabili Il test χ 2 Esempio Sono dati i vettori X = (3, 0, 3, 4, 9, 9, 2, 2) Y = (2, 1, 1, 4, 4, 8, 2, 2) Calcolare media, mediana e varianza Calcolare con che fiducia le variabili sono dipendenti dividendo l ampiezza di X e Y nei due sottointervalli: valori minori della media; valori maggiori o uguali della media

Dipendenza fra variabili Il test χ 2 Avremo e X = 4 mediana(x ) = 3 Var(X ) = 95 Y = 3 mediana(y ) = 2 Var(Y ) = 475 Per il calcolo della fiducia tramite il test χ 2 abbiamo le seguenti modalità: per la variabile X per la variabile Y M 1 = {X < 4}, M 2 = {X 4} N 1 = {X < 3}, N 2 = {X 3}

Dipendenza fra variabili Il test χ 2 Ricaviamo la tabella di contingenza: Y X M 1 M 2 N 1 5 0 5 N 2 0 3 3 5 3 Ricaviamo la tabella delle frequenza attese: Y X M 1 M 2 N 1 3125 1875 5 N 2 1875 1125 3 5 3 8

Dipendenza fra variabili Il test χ 2 Ricaviamo il valore di χ 2 : χ 2 = (5 3125)2 3125 + (0 1875)2 1875 + (0 1875)2 1875 + (3 1125)2 1125 = 8 Il numero dei gradi di libertà è 1 Consultiamo la tabella dei valori critici nella riga in cui si ha df = 1 α df 01 005 0025 001 0005 0001 1 2706 3841 5024 6635 7879 1083 Il valore più grande minore di χ 2 è nella colonna per cui α = 0005 Quindi il livello di fiducia è F = 1 α = 995%

Diagramma di dispersione Supponiamo di aver misurato su un campione statistico U due variabili statistiche X e Y di tipo quantitativo X = (x 1, x 2,, x N ) Y = (y 1, y 2,, y N ) Vogliamo capire se è possibile determinare una funzione y = f (x) tale che approssimi bene l associazione x i y i

Diagramma di dispersione Consideriamo l insieme delle coppie {(x i, y i )} e disegnamo questi punti in un piano cartesiano Esempio sull altezza e peso dei 10 bambini del corso di arti marziali 35 30 y 25 20 95 100 105 110 115 120 125 130 x

La regressione lineare Il diagramma di dispersione può farci intuire che tipo di funzione f i dati seguono Andremo ad analizzare una situazione particolare, cercando di capire come risolvere i due seguenti problemi: trovare un modo quantitativo per decidere quanto il diagramma di dispersione sia sufficientemente vicino a seguire un andamento di una retta; se il diagramma di dispersione è sufficientemente vicino a seguire l andamento di una retta allora trovare l equazione di questa retta Quindi il caso particolare che stiamo analizzando è quello per cui f è l equazione di una retta

La covarianza Definizione Date due serie di dati X = (x 1,, x N ) e Y = (y 1,, y N ) definiamo covarianza di X e Y Cov(X, Y ) = 1 N N (x i X )(y i Y ) = XY X Y i=1 La covarianza di X e Y è un numero che fornisce una misura di quanto le due varino assieme (ossia è una misura della loro dipendenza) Cov(X, Y ) > 0 significa che all aumentare (rispettivamente diminuire) di una variabile anche l altra aumenta (risp diminuisce) Cov(X, Y ) < 0 significa che all aumentare (rispettivamente diminuire) di una variabile anche l altra diminuisce (risp aumenta)

Diagramma di dispersione Covarianza positiva

Diagramma di dispersione Covarianza negativa

Diagramma di dispersione Covarianza nulla

Diagramma di dispersione Covarianza Esempio Calcoliamo Cov(X, Y ) in cui Le medie sono X = 4 e Y = 5 X = (8, 3, 4, 1) Y = (2, 9, 6, 3) x k y k x k X y k Y (x k X )(y k Y ) 8 2 4 3 12 3 9 1 4 4 4 6 0 1 0 1 3 3 2 6 Cov(X, Y ) = 1 4 4 i=1 (x i X )(y i Y ) = 10 4 = 25

Diagramma di dispersione Coefficiente di correlazione lineare Definizione Date due serie di dati X = (x 1,, x N ) e Y = (y 1,, y N ) definiamo il coefficiente di correlazione lineare di X e Y A volte viene indicato anche con r ρ(x, Y ) = Cov(X, Y ) σ X σ Y ρ(x, Y ) è un numero compreso fra 1 e 1 Questo coefficiente è un indice che esprime un eventuale relazione di linearità fra X e Y Se ρ 1 allora fra i caratteri sussiste un legame lineare Teorema Se X e Y sono variabili indipendenti allora ρ(x, Y ) = 0

Diagramma di dispersione Coefficiente di correlazione lineare 4 2 ρ = 1 4 2 ρ = 05 4 3 2 1 ρ = 0 2 4 ρ = 05 2 4 ρ = 1 1 2 3 4 4 2 4 2 2 4 2 4

Diagramma di dispersione La retta di regressione lineare Dobbiamo cercare di risolvere il problema di individuare quanto due variabili dipendano da una legge di tipo lineare Quale è la migliore retta y = mx + q che approssima i dati? 35 30 y 25 20 95 100 105 110 115 120 125 130 x

Diagramma di dispersione La retta di regressione lineare y (x k, mx k + q) P k = (x k, y k ) x Per ogni punto del diagramma di dispersione misuriamo la differenza fra l ordinata del punto P k = (x k, y k ) e l ordinata del punto sulla retta di ascissa x k Otteniamo il vettore ɛ in cui ɛ k = y k (mx k + q) ɛ = (ɛ 1,, ɛ N )

Diagramma di dispersione La retta di regressione lineare La migliore retta, ovvero quella che chiameremo retta di regressione, sarà quella per cui il vettore degli errori verticali ɛ è tale che ɛ = 0; Var(ɛ) è la più piccola possibile Si può dimostrare che tale retta ha equazione: y Y = Cov(X, Y ) Var(X ) ( x X )

Diagramma di dispersione La retta di regressione lineare Questione: ma se calcolassimo la retta considerando gli errori orizzontali, la retta di regressione che otteniamo è uguale? Non necessariamente Si può dimostrare che la retta che rende nulla la media degli errori orizzontali e la varianza la più piccola ha equazione y Y = Var(Y ) ( ) x X Cov(X, Y )

Diagramma di dispersione La retta di regressione lineare Dunque, otteniamo due rette di regressione, l una che utilizza gli errori verticali e l altra che utilizza gli errori orizzontali retta sulla X y Y = m X ( x X ) m X = Cov(X,Y ) Var(X ) retta sulla Y y Y = m Y ( x X ) my = Var(Y ) Cov(X,Y )

Diagramma di dispersione La retta di regressione lineare Esempio Consideriamo i due vettori X = (1, 2, 1, 3, 2, 1) Y = (1, 3, 2, 3, 2, 3) Trovare le rette di regressione Facilmente troviamo che X = 5 3 Y = 7 3

Diagramma di dispersione La retta di regressione lineare Esempio Calcoliamo Var(X ), Var(Y ) e Cov(X, Y ) Quindi abbiamo che x k x k X y k y k Y 1 1 5 3 = 2 3 1 1 7 3 = 4 3 2 2 5 3 = 1 3 3 3 7 3 = 2 3 1 1 5 3 = 2 3 2 2 7 3 = 1 3 3 3 5 3 = 4 3 3 3 7 3 = 2 3 2 2 5 3 = 1 3 2 2 7 3 = 1 3 1 1 5 3 = 2 3 3 3 7 3 = 2 3 Cov(X, Y ) = 5 18, Var(X ) = 5 9, Var(Y ) = 5 9

Diagramma di dispersione La retta di regressione lineare La retta di regressione sulla X è y 7 3 = 5 12 La retta di regressione sulla Y è y 7 3 = 12 5 ( x 5 ) 3 ( x 5 ) 3 4 3 2 1 y r Y r X x 05 1 15 2 25 3 35 4

Diagramma di dispersione La retta di regressione lineare Ritorniamo al problema che stiamo risolvendo: quando il diagramma di dispersione è sufficientemente vicino ad essere il grafico di una retta? Quando le due rette di regressione approssimativamente coincidono Come troviamo una misura di ciò? Andremo a misurare l angolo θ che le due rette formano: 4 y r Y 3 2 θ r X 1 x 1 2 3 4

Diagramma di dispersione La retta di regressione lineare Se θ 0 allora le due rette hanno i coefficienti angolari quasi uguali (m X m Y ), la nuvola dei dati può essere ben rappresentata dall unica retta di regressione Più θ è maggiore di 0 più la nuvola dei dati non può essere rappresentata dalle rette di regressione lineare θ 0 θ 0 4 4 2 2 2 4 2 4

Diagramma di dispersione La retta di regressione lineare Consideriamo la quantità: Allora m X m Y m X m Y = Cov(X, Y ) Var(X ) Var(Y ) Cov(X, Y ) = Cov(X, Y )2 Var(X )Var(Y ) = ( ) Cov(X, Y ) 2 σ X σ Y Quindi m X m Y = ( ) Cov(X, Y ) 2 = ρ(x, Y ) 2 σ X σ Y

Diagramma di dispersione La retta di regressione lineare Definizione Date due serie di dati X = (x 1,, x N ) e Y = (y 1,, y N ) definiamo l indice di determinazione o coefficiente di determinazione di X e Y la quantità ρ(x, Y ) 2 Il valore ρ(x, Y ) 2 rappresenta una percentuale di quanta parte di variazione di un carattere è spiegata dal legame lineare con l altro carattere

Diagramma di dispersione La retta di regressione lineare Esempio Sono dati i vettori X = (1, 2, 3, 4) Y = (05, 2, 27, 3) Disegnare in un diagramma di dispersione i dati Ricavare le rette di regressione di X Ricavare il coefficiente di determinazione e dire se i dati seguono una legge di tipo lineare

Diagramma di dispersione La retta di regressione lineare Il diagramma di dispersione è 4 3 2 1 y 1 2 3 4 x Abbiamo che X = 5 2 Y = 41 20 Var(X ) = 5 4 Var(Y ) = 373 40 Cov(X, Y ) = 41 40

Diagramma di dispersione La retta di regressione lineare Da cui abbiamo che y 41 20 = 41 50 (x 5 2 ) e y 41 20 = 373 410 (x 5 2 ) 4 3 2 1 y r Y r X x 1 2 3 4 Poi abbiamo che ρ(x, Y ) 2 90%

Diagramma di dispersione La retta di regressione lineare Esempio Sono dati i vettori X = (0, 1, 2) Y = (01, 09, 22) Disegnare in un diagramma di dispersione i dati Ricavare le rette di regressione Ricavare il coefficiente di determinazione e dire se i dati seguono una legge di tipo lineare

Diagramma di dispersione La retta di regressione lineare Il diagramma di dispersione è 2 y 1 1 2 x Abbiamo che X = 1 Y = 16 15 Var(X ) = 2 3 Var(Y ) = 337 300 Cov(X, Y ) = 21 20

Diagramma di dispersione La retta di regressione lineare Da cui abbiamo che y 16 15 = 21 (x 1) 20 e 16 y 15 = 337 (x 1) 315 2 y r Y r X 1 05 05 1 15 2 25 Poi abbiamo che ρ(x, Y ) 2 98% x

Esercizio Un ricercatore era interessato a studiare l effetto di diverse dosi di un farmaco sulla frequenza delle pulsazioni umane Nell esperimento sono state usate quattro dosi A ognuna delle dosi erano state abbinate in modo casuale tre persone Dopo aver registrato le pulsazioni di ogni individuo a priori, ai soggetti è stata somministrata la dose prevista Le pulsazioni furono registrate dopo un ora I cambiamenti nelle pulsazioni in battiti al minuto sono riportati nella tabella qui sotto Dose (ml/kg peso corporeo) 15 15 15 20 20 20 Cambiamento pulsazioni (bpm) 20 21 19 16 17 17 Dose (ml/kg peso corporeo) 25 25 25 30 30 30 Cambiamento pulsazioni (bpm) 15 13 14 8 10 8 Per semplicità di esposizione la tabella è stata divisa in due 1 Calcolare l equazione delle rette di regressione del cambiamento delle pulsazioni in funzione della dose assunta 2 Calcolare l indice di determinazione e commentare il risultato