STATISTICA BIVARIATA: ALCUNI STIMOLI DI APPROFONDIMENTO (Tecn. Lab. Biomedico e Tecn. Fisiop. e Perfus. Cardiovascolare 3 Anno)

Documenti analoghi
RELAZIONE TRA DUE VARIABILI QUANTITATIVE

RELAZIONE TRA DUE VARIABILI QUANTITATIVE

Variabili indipendenti qualitative. In molte applicazioni si rende necessario l introduzione di un fattore a due o più livelli.

Test F per la significatività del modello

Università del Piemonte Orientale Specializzazioni di area sanitaria Statistica Medica

STATISTICA INFERENZIALE PER VARIABILI QUALITATIVE

Statistica. Lezione 8

Metodi statistici per l economia (Prof. Capitanio) Slide n. 10. Materiale di supporto per le lezioni. Non sostituisce il libro di testo

Statistica multivariata Donata Rodi 17/10/2016

Prova Scritta di METODI STATISTICI PER L AMMINISTRAZIONE DELLE IMPRESE (Milano, )

Prof.ssa G. Serio, Prof. P. Trerotoli, Cattedra di Statistica Medica, Università di Bari 1/16. Malato vs non malato. Esposto vs non esposto

3.1 Classificazione dei fenomeni statistici Questionari e scale di modalità Classificazione delle scale di modalità 17

Σ (x i - x) 2 = Σ x i 2 - (Σ x i ) 2 / n Σ (y i - y) 2 = Σ y i 2 - (Σ y i ) 2 / n. 13. Regressione lineare parametrica

STATISTICA INFERENZIALE PER VARIABILI QUALITATIVE

Metodologia Sperimentale Agronomica / Metodi Statistici per la Ricerca Ambientale

Errori (o bias) negli studi epidemiologici

CHEMIOMETRIA. CONFRONTO CON VALORE ATTESO (test d ipotesi) CONFRONTO DI VALORI MISURATI (test d ipotesi) CONFRONTO DI RIPRODUCIBILITA (test d ipotesi)

Statistica Applicata all edilizia: il modello di regressione

Statistica - metodologie per le scienze economiche e sociali /2e S. Borra, A. Di Ciaccio - McGraw Hill

Università del Piemonte Orientale Corso di Laurea in Medicina e Chirurgia. Corso di Statistica Medica. Correlazione. Regressione Lineare

p = p q OR = p q Misura l esistenza di una malattia. E legato alla incidenza in quanto - Prevalenza = Incidenza x tempo medio di durata della malattia

Corso integrato di informatica, statistica e analisi dei dati sperimentali Esercitazione VII

ANALISI MULTIVARIATA

i dati escludono vi sia una relazione tra variabile indipendente e variabile dipendente (rispettivamente

Casa dello Studente. Casa dello Studente

Esempio di calcolo di rischio relativo

0 altimenti 1 soggetto trova lavoroentro 6 mesi}

Il confronto fra medie

N.B. Per la risoluzione dei seguenti esercizi, si fa riferimento alle Tabelle riportate alla fine del documento.

FACOLTÀ DI SOCIOLOGIA CdL in SCIENZE DELL ORGANIZZAZIONE ESAME di STATISTICA 21/09/2011

lezione n. 6 (a cura di Gaia Montanucci) Verosimiglianza: L = = =. Parte dipendente da β 0 e β 1

Esercitazione del

16/04/2015. L epidemiologia osservazionale può essere classifica anche in base al tipo di dati che raccoglie. Studi osservazionali: studi analitici

PROCEDURE/TECNICHE DI ANALISI / MISURE DI ASSOCIAZIONE A) ANALISI DELLA VARIANZA

Classe di fosfatasemia Totale Numero soggetti

STATISTICA (2) ESERCITAZIONE Dott.ssa Antonella Costanzo

Giorno n. clienti di attesa

Esercitazioni di statistica

IL CONFRONTO TRA LE VARIANZE DI DUE POPOLAZIONI

Sommario. Capitolo 1 I dati e la statistica 1. Capitolo 2 Statistica descrittiva: tabelle e rappresentazioni grafiche 25

Schema lezione 5 Intervalli di confidenza

Premessa: la dipendenza in media

Analisi della varianza

ˆp(1 ˆp) n 1 +n 2 totale di successi considerando i due gruppi come fossero uno solo e si costruisce z come segue ˆp 1 ˆp 2. n 1

Statistica. Esercitazione 14. Alfonso Iodice D Enza Università degli studi di Cassino. Statistica. A. Iodice. Verifica di ipotesi

0.1 Percorrenza e Cilindrata

Il χ 2 (Pearson, 1900)

ESERCIZI. Regressione lineare semplice CAPITOLO 12 Levine, Krehbiel, Berenson, Statistica II ed., 2006 Apogeo

Statistica inferenziale. La statistica inferenziale consente di verificare le ipotesi sulla popolazione a partire dai dati osservati sul campione.

STATISTICA AZIENDALE Modulo Controllo di Qualità

Capitolo 8. Intervalli di confidenza. Statistica. Levine, Krehbiel, Berenson. Casa editrice: Pearson. Insegnamento: Statistica

Statistica. Alfonso Iodice D Enza

Intervalli di confidenza

Facoltà di Economia - Università di Pavia Simulazione Prova Scritta di Statistica Sociale 19 dicembre 2012

Intervallo di fiducia del coefficiente angolare e dell intercetta L intervallo di fiducia del coefficiente angolare (b 1 ) è dato da:

Istituzioni di Statistica e Statistica Economica

Scuola di specializzazione In Fisica Sanitaria a.a. 2005/2006 Epidemiologia Prof. Maria Antonietta Penco

Ringraziamenti dell Editore

Distribuzione Gaussiana - Facciamo un riassunto -

Analisi descrittiva: calcolando medie campionarie, varianze campionarie e deviazioni standard campionarie otteniamo i dati:

Esercizio 1 GRAFICO 1. X e Y sono indipendenti. X e Y non sono correlate. La correlazione tra X e Y è <1. X e Y sono perfettamente correlate

Distribuzioni campionarie

a.a Esercitazioni di Statistica Medica e Biometria Corsi di Laurea triennali Ostetricia / Infermieristica Pediatrica I anno

Esercizio 1. Stima intervallare: IC per la media incognita (varianza ignota)

Statistica. Alfonso Iodice D Enza

Caratterizzazione dei consumi energetici (parte 3)

Esercitazione 8 maggio 2014

Test di ipotesi su due campioni

REGRESSIONE lineare e CORRELAZIONE. Con variabili quantitative che si possono esprimere in un ampio ampio intervallo di valori

Il numero di gradi di libertà del quantile di riferimento è uguale al numero di elementi del campione meno uno;

LABORATORIO 5. ANALISI DELLA VARIANZA AD UN CRITERIO DI CLASSIFICAZIONE

Il modello di regressione lineare multipla. Il modello di regressione lineare multipla

Analisi della varianza a una via

Ogni misura è composta di almeno tre dati: un numero, un'unità di misura, un'incertezza.

Analisi della varianza

Laboratorio R Corso di Algebra e Modelli lineari (Anno Accademico )

REGRESSIONE E CORRELAZIONE

Test per la correlazione lineare

NOTE DALLE LEZIONI DI STATISTICA MEDICA ED ESERCIZI VERIFICA DI IPOTESI PER IL CONFRONTO TRA DUE PROPORZIONI

Approssimazione normale alla distribuzione binomiale

Corso di Psicometria Progredito

8. ANALISI DELLA COVARIANZA (ANCOVA)

PSICOMETRIA. Corso di laurea triennale (classe 34) VERIFICA DELL IPOTESI CON DUE CAMPIONI

Lezione 4 a - Misure di dispersione o di variabilità

Regressione multipla

Statistica - metodologie per le scienze economiche e sociali S. Borra, A. Di Ciaccio - McGraw Hill

STATISTICA. Esercizi vari

VALUTAZIONE EPIDEMIOLOGICA DELLO STATO DI SALUTE DELLA POPOLAZIONE RESIDENTE NEL COMUNE DI ANAGNI

CAMPIONAMENTO - ALCUNI TERMINI CHIAVE

Introduzione alla Regressione Logistica

Ulteriori applicazioni del test del Chi-quadrato (χ 2 )

Prefazione Ringraziamenti dell'editore Il sito web dedicato al libro Test online: la piattaforma McGraw-Hill Education Guida alla lettura

ANALISI DELLA VARIANZA

Regressione lineare multipla CORSO DI ANALISI DEI DATI Anno Accademico 2009/2010, I ciclo

b) E necessario formulare delle ipotesi per calcolare l intervallo di confidenza ottenuto al punto a? (motivare brevemente la risposta):

Concetti principale della lezione precedente

Esercizi riassuntivi di Inferenza

STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA

Note sulla probabilità

TOPOGRAFIA 2013/2014. Prof. Francesco-Gaspare Caputo

Transcript:

STATISTICA BIVARIATA: ALCUNI STIMOLI DI APPROFONDIMENTO (Tecn. Lab. Biomedico e Tecn. Fisiop. e Perfus. Cardiovascolare 3 Anno) 1) ASSOCIAZIONE TRA DUE CARATTERI RISCHIO RELATIVO E ODDS RATIO In uno studio retrospettivo 1, mirato a verificare se il consumo di caffè influenzi il rischio di infarto del miocardio, sono stati raccolti i dati su pazienti residenti in una cittadina. Il consumo di caffè è stato classificato come basso ( 3 tazzine al giorno) o alto (> 3 tazzine al giorno). I risultati sono mostrati in tabella. infarto si infarto no consumo di caffè consumo di caffè basso alto basso alto 48 78 135 13 Si vuole valutare l incidenza di infarto nei consumatori di caffè (alto/basso) e se l alto consumo di caffè aumenti il rischio di infarto rispetto al basso consumo. Si costruisce anzitutto la tabella x: caffè alto 78 13 1400 caffè basso 48 135 1400 totale 16 674 800 Si possono condurre, quindi, i seguenti passi di analisi. A) Esame delle proporzioni di infarto nei due gruppi (alto/basso): p a = 78/1400 = 5.6% p b = 48/135 = 3.4%. Differenza = p a p b =.% : nel gruppo caffè alto c è il.% in più di eventi rispetto al gruppo caffè basso. Rischio relativo = RR = p a /p b = 1.65: nel gruppo caffè alto c è un rischio di circa 1.6 volte superiore di avere l infarto rispetto all altro gruppo; il rischio relativo è una misura del grado di associazione tra evento e gruppo e risulta tanto più elevato (superiore a 1) quanto più l evento è associato al gruppo. Variazione percentuale = RR 1 = (p a p b )/p b = 65%: nel gruppo caffè alto si rileva un 65% in più di rischio di infarto rispetto all altro gruppo. B) Test χ per l analisi di associazione tra infarto e consumo caffè: si sottopone a verifica l'ipotesi che non esista associazione tra consumo di caffè ed insorgenza dell infarto. 1 In questi tipi di studio lo sperimentatore inizia raccogliendo i cosiddetti casi, ossia gli individui che presentano la malattia in studio, e sceglie un adatto gruppo di paragone o di controllo che comprenderà individui sani. 1

H 0 : non esiste associazione (la proporzione di persone che si sono ammalate nel gruppo caffè alto è uguale alla proporzione di coloro che si sono ammalati nel gruppo caffè basso). H 1 : esiste un'associazione (la proporzione di persone che si sono ammalate nel gruppo caffè alto è diverso da quella di coloro che si sono ammalati nell altro gruppo). La tabella delle frequenze teoriche è la seguente: Si ottiene: caffè alto 63 1337 1400 caffè basso 63 1337 1400 totale 16 674 800 χ = (78 63) /63 + (13 1337) /1337 + (48 63) /63 + (135 1337) /1337 = 7.48 p-value = 0.006 <0.01. Si rifiuta allora l ipotesi H 0 che le proporzioni di persone che hanno avuto l infarto sono uguali nei due gruppi caffè alto e caffè basso e si è portati a concludere per un associazione statisticamente significativa tra infarto e consumo di caffè. C) Odds Ratio Considerato un evento di probabilità p, l Odds dell evento è definito dalla quantità: Nel caso di tabelle x: Odds = p/(1 p). si definisce l Odds Ratio come: evento si evento no totale gruppo 1 a b a+b gruppo c d c+d totale a+c b+d n Poiché il rischio relativo RR è dato da: p1 (1 p1) p1(1 p ) ad OR = = =. p (1 p ) p (1 p ) bc 1 P robab(even to nel gruppo RR = P robab(even to nel gruppo Risulta (nel caso di evento raro): 1) ) a (a + b) = c (c + d a b ad Probab(eve nto nel gruppo 1) OR = =. c d bc Probab(eve nto nel gruppo )

L OR è una misura di associazione tra caratteri qualitativi dicotomici e si usa negli studi retrospettivi (caso-controllo) per una stima del rischio di evento tra due gruppi. Così, in situazioni reali, si è spesso in presenza di un evento (ad es. malattia) e di un fattore di rischio (o un trattamento) dicotomizzato in gruppi e si intende misurare il rischio di evento di uno dei due gruppi rispetto all altro. Una valore dell OR maggiore di 1 indica un aumento di rischio, un valore vicino a 1 si riferisce a nessuna differenza, mentre per un valore inferiore a 1 c è diminuzione di rischio. Si può determinare anche l intervallo di confidenza (IC) per l OR (ad es. al livello di confidenza del 95%), partendo 1 1 1 1 dal fatto che il suo errore standard è dato da: SE(ln(OR)) = + + +. Calcolate le quantità : a b c d inf = ln(or) 1.96 SE(ln(OR)) e sup = ln(or)+1.96 SE(ln(OR)), l estremo inferiore e quello superiore dell intervallo di confidenza sono dati da: estremo inferiore IC 95% = exp(inf) e estremo superiore IC 95% = exp(sup) Nel problema inizialmente posto: caffè alto 78 13 1400 caffè basso 48 135 1400 totale 16 674 800 OR = (78 135)/(48 13) = 1.66. E si determina, poi, l intervallo di confidenza al 95%: ln(or)=ln(1.66)=0.508 SE(ln(OR))= 1 / 78 + 1/13 + 1/ 48 + 1/135 = 0. 187 inf = ln(or) 1.96 SE(ln(OR)=0.508 1.96 0.187=0.140 sup = ln(or)+1.96 SE(ln(=R)=0.508+1.96 0.187=0.875 estremo inferiore IC = exp(inf) = exp(0.140)=1.15 estremo superiore IC = exp(sup) = exp(0.875)=.40 OR=1.66, IC 95%: [1.15;.40]. Pertanto il consumo di caffè risulta associato con il rischio di sviluppare infarto del miocardio; l OR=1.66 indica che chi fa un alto consumo di caffè ha un rischio 1.66 volte più alto di avere l infarto rispetto a chi fa un basso consumo di caffè. L intervallo di confidenza [1.15;.40] non contiene l unità e quindi, anche con l analisi dell OR, si può dire che l associazione risulta statisticamente significativa. Il simbolo ln che compare nelle formule indica il logaritmo in base il numero di Nepero. 3

) ASSOCIAZIONE TRA DUE CARATTERI FATTORI CONFONDENTI Quando si analizza la relazione tra un fattore di esposizione (o un trattamento) ed una malattia, un fattore confondente è un terzo carattere che è indipendentemente associato all esposizione ed è anche un fattore di rischio per la malattia. La presenza di un fattore confondente può alterare l associazione osservata tra esposizione ed evento. Ad esempio, nel caso del problema analizzato in 1), si supponga che il ricercatore abbia stratificato i soggetti in fumatori e non fumatori, ottenendo i seguenti risultati: infarto si infarto no consumo caffè consumo caffè basso alto basso alto fumatori 8 70 37 930 non fumatori 0 8 980 39 Calcolando l incidenza di infarto e l OR nei i gruppi (fumatori e non) per valutare l impatto dell alto consumo di caffè sul rischio di infarto, si ottiene: fumatori caffè alto 70 930 1000 caffè basso 8 37 400 totale 98 130 1400 incidenza infarto = 98/1400 = 7% OR F = 1 IC 95%: [0.63; 1.58] non fumatori caffè alto 8 39 400 caffè basso 0 980 1000 totale 8 137 1400 incidenza infarto = 8/1400 = % OR NF = 1 IC 95%: [0.43;.9] Pertanto, il fumo è un fattore confondente per l infarto in relazione al consumo di caffè: chi fuma tende anche a bere più caffè di chi non fuma e il fumo è un fattore di rischio per l infarto. Il caffè non ha influenza sull infarto e l associazione che si osserva è solo dovuta al confondimento del fumo. Tale conclusione viene rafforzata attraverso l analisi di associazione tra infarto e fumo: fumatori 98 130 1400 non fumatori 8 137 1400 totale 16 674 800 χ = 40.7 p=1.7 10-10 (altamente significativo) OR = 3.69 IC 95%: [.41; 5.65]. 4

3) SIGNIFICATIVITÀ DELLA RETTA DI REGRESSIONE Esempio 1 In tabella sono riportati i valori assunti dai due caratteri quantitativi età (ETÀ) e pressione sistolica (PAS) misurati in un campione di 8 soggetti: soggetto ETÀ (anni) PAS (mmhg) 1 131 8 114 3 35 11 4 47 111 5 51 130 6 56 145 7 67 176 8 81 17 La semplice rappresentazione grafica dei valori osservati e della retta di regressione fornisce alcune indicazioni importanti per l'interpretazione delle relazioni esistenti tra i due caratteri PAS (variabile Y) ed ETÀ (variabile X). I parametri a e b della retta di regressione Y = b X + a si stimano attraverso il principio dei minimi quadrati e risulta: b = CODEV(X, Y) DEV(X) DEV(X)= (x i x) n i= 1 i= 1 e a = y b x, CODEV(X,Y) = (x i x)(yi y). Pertanto: Interpretando i valori dei coefficienti della retta di regressione si può dire: n b= 1.54 e a = 68.75 l aumento medio della pressione è di circa b=1.5 mmhg per l aumento di un anno di età. alla nascita il valore della pressione sarebbe (!) di a=68.75 mmhg, ma questa è una indicazione teorica perché non è possibile stimare il valore della pressione arteriosa per età fuori del range considerato ( 81 aa). Il valore del coefficiente di regressione b indica di quanto aumenta in media la variabile dipendente Y all'aumento di una unità della variabile indipendente X. Con il metodo dei minimi quadrati è sempre possibile ottenere la retta che meglio si adatta ai dati rilevati, indipendentemente dalla dispersione dei punti intorno alla retta. Tuttavia il semplice calcolo della retta non è affatto sufficiente ai fini dell analisi statistica. 5

La retta potrebbe indicare: una relazione reale tra le due variabili, se il valore di b è alto e la dispersione dei punti intorno alla retta è ridotta; relazione casuale o non significativa, quando la dispersione dei punti intorno alla retta è aprossimativamente uguale a quella intorno alla media. La figura che segue esprime alcune situazioni di dipendenza o meno. Il coefficiente b della retta di regressione, che determina appunto la quantità di variazione di Y per ogni unità aggiuntiva di X, è calcolato da osservazioni sperimentali. Ciò che tuttavia interessa al ricercatore è la relazione esistente nella popolazione, e sebbene il valore di b sia differente da zero, non è detto che nella popolazione al variare di X si abbia una variazione di Y. La significatività del coefficiente di regressione nella popolazione (β) può essere saggiata mediante la verifica dell ipotesi nulla: H 0 : β= 0. Accettando H 0 si assume che il valore reale del coefficiente angolare sia β= 0, dunque al variare di X, Y resta costante e uguale al valore dell'intercetta a, pertanto non esiste alcun legame tra X e Y. Rifiutando H 0, si accetta l ipotesi alternativa H 1 : β 0. Dunque al variare di X si ha una corrispondente variazione sistematica di Y. Un metodo per la verifica della significatività della retta calcolata è il test F di Fisher-Snedecor, che si basa sulla scomposizione delle devianze. La somma dei quadrati delle distanze tra i tre punti y i, ŷ i e y definiscono le tre devianze: devianza totale, devianza della regressione o devianza dovuta alla regressione, devianza d'errore o devianza residua: n devianza totale = (y y) i= 1 i n devianza di regressione = ( ŷ y) i= 1 i n devianza residua = (y i= 1 i ŷ ) i devianza totale = devianza di regressione + devianza residua 6

Dividendo la devianza di regressione e quella residua per i relativi gradi di libertà (1 ed n 1 gdl rispettivamente) si stimano la varianza di regressione e la varianza residua. Il rapporto: Varianza di Regression e Varianza Residua determina il valore del test F di Fisher con 1 e n gdl (indicato con F (1,n-) ). Senza entrare nel merito della trattazione della distribuzione di tale statistica, si tenga semplicemente presente che per applicare la metodologia del test F si può far riferimento alle Tavole della F : Se l F calcolato sui dati campionari è inferiore a quello tabulato (per il prefissato valore di probabilità e i gradi di libertà corrispondenti) l ipotesi nulla H 0 non può essere rifiutata (non esiste regressione lineare statisticamente significativa). Se l F calcolato supera quello tabulato si rifiuta l'h 0 e si accetta H 1 (la regressione lineare tra le due variabili è significativa). Se β=0, la varianza dovuta alla regressione e quella residua sono stime indipendenti e non viziate della variabilità dei dati. Se β 0, la varianza residua è una stima non viziata della variabilità dei dati, mentre la varianza dovuta alla regressione è stima di una grandezza maggiore della varianza residua. Di conseguenza. il rapporto tra le due varianze è da ritenersi utile alla verifica dell'ipotesi β=0. Si tenga comunque presente che rifiutare H 0 : non significa che non esiste relazione tra le due variabili, ma solamente che non esiste una relazione di tipo lineare; significa che potrebbe esistere una relazione di tipo differente, come quella curvilinea di secondo grado o di grado superiore. La trasformazione di uno o di entrambi gli assi è spesso sufficiente per ricondurre una relazione di tipo curvilineo a quella lineare: la crescita esponenziale di una popolazione nel tempo, generata da tassi costanti, diviene lineare con la trasformazione logaritmica del tempo, usualmente riportato sull'asse delle ascisse; la relazione curvilinea tra lunghezza e peso di individui della stessa specie diviene lineare con la trasformazione mediante radice cubica del peso, correlato linearmente al volume; l'analisi statistica permette qualsiasi tipo di trasformazione che determini una relazione lineare tra due variabili Tornando all esempio 1, supposto che il campione estratto dalla popolazione oggetto di studio sia significativo, con le tecniche dell inferenza statistica occorre verificare: se la retta può essere assunta come rappresentativa di una relazione lineare tre le due variabili; se è corretto affermare che, nella popolazione di riferimento, ad una variazione di età corrisponde un cambiamento lineare della pressione sistolica; se, mediante il test F, β=0 (ipotesi H 0 ) oppure β 0 (ipotesi H 1 ). Si calcola la seguente tabella: Devianza gdl Varianza Regressione 6543.1 1 6543.1 Residua 687.8 6 447.9 Totale 930.9 7 7

F (1,6) = In merito alla valutazione del risultato si può dire: 6543.1 =14.61 447.9 il valore critico riportato nelle tavole di F per 1 e 6 gdl e per un livello di significatività α=0.01 è pari a 13.75; il valore calcolato di F è superiore a quello critico; si rifiuta H 0 : si può supporre un rapporto lineare tra le variazioni di età e pressione sistolica. La stima della significatività della retta (verifica dell'esistenza di una relazione lineare tra le variabili) può essere condotta anche con il test t di Student, con risultati equivalenti al test F. Il test t è : fondato su calcoli didatticamente meno evidenti di quelli del test F, ma offre il vantaggio di poter essere applicato sia in test unilaterali (β>0 oppure β<0) che in test bilaterali (β 0); basato sul rapporto tra il valore del coefficiente di regressione b (che rappresenta la risposta media di Y ai diversi valori di X entro il suo intervallo di variazione) ed il suo errore standard SE(b) dato da: SE(b) = Varianza Residua DEV(X) e utilizza la statistica: b β t (n-) = = F (1,n ) SE(b) dove β è il valore atteso e i gdl sono n. Coefficiente Errore Standard t Significatività Constante 68.748 0.850 3.97.016 ETÀ 1.538.40 3.8.009 Si evidenzia anche in tal modo un rapporto lineare significativo tra le variazioni di età e pressione sistolica. Utilizzando il software R, dopo aver introdotto i caratteri ETA e PAS e costruito il modello lineare: > ETA=c(,8,35,47,51,56,67,81) > PAS=c(131,114,11,111,130,145,176,17) > mod=lm(pas~eta) attraverso il comando: anova(mod) si ottiene: Df Sum Sq Mean Sq F value Pr(>F) ETA 1 6543.0 6543.0 14.606 0.008743 ** Residuals 6 687.8 448.0 dove Df indica i gdl, Sum Sq le devianze, Mean Sq le varianze e Pr(>F) il p-value, essendo quest ultimo minore di 0.01 si rifiuta l H 0. Col comando summary(mod) si ottengono i coefficienti del modello regressivo ma anche valori del coefficiente di determinazione R-squared, che, per i dati in esame, permette di propendere per la bontà del modello. 8

Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) 68.7481 0.8504 3.97 0.01647 * ETA 1.5375 0.403 3.8 0.00874 ** Multiple R-squared: 0.7088, Adjusted R-squared: 0.6603 In ogni caso va osservato che l esempio proposto ha una funzione esclusivamente didattica e che senza dubbio una inferenza con un numero di dati così eseguo ha scarso significato applicativo. Di seguito sono proposte altre due applicazioni della regressione, con alcuni risultati, lasciando al lettore l opportunità di commentare i risultati. Esercizio n. X = Consumo pro-capite di tabacco per sigarette (kg/anno), Y = Quoziente di mortalità per tumore maligno della laringe, trachea, bronchi e polmoni (per 100.000 abitanti) Anni 1985 1986 1987 1988 1989 1990 1991 199 1993 1994 X 0.81 0.417 0.485 0.604 0.648 0.657 0.660 0.719 0.761 0.790 Y 5.05 5.07 5.81 6.50 7.16 8.38 8.14 8.05 8.56 9.00 Sempre attraverso l utilizzo di R si ottengono i risultati del test F ed i coefficienti b ed a: Df Sum Sq Mean Sq F value Pr(>F) X 1 17.4051 17.4051 61.658 4.993e-05 *** Residuals 8.583 0.83 Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) 1.9759 0.687.894 0.001 * X 8.685 1.0989 7.85 4.99e-05 *** Multiple R-squared: 0.885, Adjusted R-squared: 0.8708. Si può dire che qualora il consumo annuo di tabacco pro-capite aumenti di 1 kg si avrà, mediamente, un aumento di circa 9/100.000 della mortalità nella popolazione analizzata. 10 Analisi dei residui 9, Decessi per 100.000 ab. 8 7 6 5 4 3 1 0,1, Y = 1.98 + 8.63 X,3,4,5,6 R = 0.94 Rsq = 0.88,7,8 Residui relativi (residui/decessi osservati),1 0,0 -,1 -, 4 5 6 7 8 9 Consumo tabacco (kg/anno) Decessi stimati dal modello 9

Esempio 3 Studio della relazione tra Capacità Vitale CV (=volume massimo di aria che è possibile contenere nei polmoni dopo un inspirazione profonda) di un campione di fumatori rispetto al numero di sigarette fumate giornalmente dagli stessi. Soggetto N Sigarette (X) CV (l aria) (Y) 1 6.5 4 6.5 3 5 6.0 4 6 5.9 5 7 5.5 6 8 5.5 7 9 5.0 8 10 4.0 9 11 4.0 10 1 4.4 11 13 4.1 1 14 3.5 13 15 3.4 14 16 3. 15 0.8 16.5 Ecco i risultati in R: Df Sum Sq Mean Sq F value Pr(>F) Sigarette 1 4.1889 4.1889 00.5 1.097e-09 *** Residuals 14 1.6911 0.108 Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) 6.9970 0.1935 36.16 3.16e-15 *** Sigarette -0.50 0.0159-14.15 1.10e-09 *** Multiple R-squared: 0.9347, Adjusted R-squared: 0.93 Il valore b = 0.5 indica che ogni sigaretta in più fumata comporta in media una diminuzione di capacità vitale pari a 0.5 l. L intercetta a = 6.99 rappresenta il valore medio di CV per i non fumatori. 10