Regressione logistica

Dimensione: px
Iniziare la visualizzazioe della pagina:

Download "Regressione logistica"

Transcript

1 SMID a.a. 2004/2005 Corso di Metodi Statistici in Biomedicina Regressione logistica 31/1/2005

2 Regressione categoriale Una delle applicazioni più utili della regressione multipla potrebbe essere quella di predire la mortalità o la morbilità incidenti cerebro-vascolari, infarto, cancro o altro La regressione multipla non può essere applicata a dati categorici come la morte o l'infarto miocardico queste variabili presentano due sole possibilità 0 o 1 (si o no, vivo o morto, infarto o non infarto) Per analizzarle con un approccio multivariato, esse devono essere trasformate e la trasformazione da utilizzare è quella in logit

3 Modelli logistici La costruzione dei modelli logistici, si base sul metodo della probabilità più verosimile o maximum likelihood Seguiamo un campione di 10 pazienti per un certo periodo di tempo siamo interessati a stabilire la mortalità, abbiamo solo due possibili esiti: vivo o morto Sappiamo che nel periodo di osservazione 3 pazienti sono deceduti (con probabilità p) e che 7 sono sopravvissuti (eventi mutualmente escludentisi) con naturalmente probabilità (1-p)

4 Probabilità totale La stima della probabilità della nostra osservazione è p TOT = (p) 3 (1-p) 7 Nel modello possiamo attribuire varie probabilità al rischio di morte (p) un rischio del 10% o 20% o 30% o altri valori La domanda che ci poniamo è: quanto è verosimile (likely) un certo rischio (per esempio: mortalità 10%, sopravvivenza 90%) tenuto conto che noi osserviamo una mortalità del 30% (e quindi una sopravvivenza del 70%)?

5 Verosimiglianza Calcoliamo la probabilità per varie ipotesi di rischio per esempio quella del 10%: (0.10) 3 (0.90) 7 = = ( ) quella del 20%: (0.20) 3 (0.80) 7 = = ( ) quella del 30%: (0.30) 3 (0.70) 7 = = ( ) Ripetendo il calcolo (calcolo iterativo) per ulteriori valori di rischio troviamo che la probabilità più alta è proprio quella che coincide con un rischio del 30%!

6 Maximum likelihood Avendo controllato (test) tutti i possibili valori di rischio che la probabilità p può assumere l ipotesi di rischio del 30% è quella che meglio è supportata dai nostri dati La conclusione è abbastanza logica una certa ipotesi di rischio è tanto più verosimile quanto più è simile al rischio effettivamente osservato Il rischio che ha la verosimiglianza più alta è definito il valore più verosimile (maximum likelihood) Questo valore coincide con la proporzione osservata dell esito dicotomico (morto/vivo) nel campione

7 Equazione logistica Abbiamo potuto prevedere l'esito (outcome) del rischio vivo/morto in base ai determinanti del rischio Se oltre a registrare l'esito misuriamo anche una o più variabili che riteniamo possano influenzarlo ad esempio: l'ipertrofia ventricolare sinistra, la pressione arteriosa media possiamo costruire un modello più complesso che cerca di predire l'esito a partire da più variabili mortalità = β 0 + β 1 massa ventricolare + β 2 PAM y = β 0 + β 1 x 1 + β 2 x 2 trovare i vari β i in modo da massimizzare la probabilità di y

8 Relazione funzionale Il metodo deve massimizzare la probabilità di ottenere i valori osservati della variabile dipendente (vivo/morto) in base a un'equazione costruita con i dati relativi alla pressione arteriosa media e alla massa ventricolare sinistra La likelihood sarà massima quando i coefficienti dell'equazione saranno tali da predire il più accuratamente possibile l'esito caso per caso se vogliamo stimare la probabilità di morte a partire da una (o più) variabili indipendenti, dobbiamo generare un modello a partire dai nostri dati

9 Modello E' ovvio che il modello sarà efficace riuscirà cioè a predire la mortalità realmente osservata solo se le variabili considerate influenzano la mortalità In questo caso noi attribuiamo alla mortalità la probabilità prevista dal modello e concludiamo che le variabili indipendenti determinano la mortalità Se invece i dati di mortalità (0/1) previsti dal modello non coincidono con i dati di mortalità osservati, il modello è inefficace e concludiamo che le variabili indipendenti che abbiamo scelto non influenzano la mortalità

10 Correlazioni Possiamo paragonare il metodo della maximum likelihood alla correlazione lineare La retta di regressione è costruita in maniera tale da minimizzare la distanza di ciascun dato dalla retta, allo stesso modo la maximum likelihood è calcolata per minimizzare la differenza tra i dati di mortalità osservati e quelli previsti dal modello Così come la retta predice perfettamente i dati se essi giacciono tutti sulla retta, allo stesso modo il modello basato sulla maximum likelihood predice perfettamente la mortalità quando dati previsti e dati osservati coincidono

11 Uso calcolatore Il metodo si basa sul calcolo iterativo il computer "testa" vari coefficienti di regressione il calcolo si arresta quando i coefficienti di regressione (β i dell'equazione del nostro esempio) massimizzano la previsione della variabile dipendente L'equivalente del coefficiente di correlazione (r) nella regressione logistica è il likelihood ratio (LR) rapporto tra la likelihood di ottenere i valori della variabile dipendente quando è vera l'ipotesi nulla ossia il modello non consente di predire la variabile dipendente (outcome) diviso per la likelihood calcolata sulla base dei dati del nostro campione

12 Valore di LR Quando il modello non predice la variabile dipendente la likelihood del denominatore sarà uguale a quella del numeratore il rapporto LR = 1 e l'ipotesi nulla H 0 risulta vera Tanto più efficace è il modello tanto più basso sarà il likelihood ratio (LR) (che tenderà ad avvicinarsi sempre più allo 0) Per verificare la distanza di LR tra 1 a 0 vale la pena di convertire il likelihood ratio in valori di χ 2 χ 2 = 2 ln(lr)

13 Significatività Consultando la distribuzione χ 2 possiamo stabilire se il nostro modello ben predice la variabile dipendente Il likelihood ratio, il suo valore corrispondente di χ 2 e la probabilità relativa sono calcolati dal computer Nella regressione multipla era possibile stabilire se un certo coefficiente di regressione era significativo o meno paragonando il coefficiente di determinazione del modello con il coefficiente di determinazione di un modello ridotto che escludeva il coefficiente di regressione in questione la significatività dei coefficienti di una regressione logistica viene calcolata allo stesso modo

14 Significatività logistica Paragonando il LR del modello globale con quello di un modello ridotto nel quale viene esclusa la variabile corrispondente al coefficiente che si vuol testare Per la massa ventricolare andrà paragonato il full model con il reduced model che esclude la massa ventricolare Occorre operare la trasformazione dei dati in logit la variabile dipendente si trasforma in una funzione logistica utilizzando la formula p = ln p 1 p

15 Probabilità a favore Il rapporto tra p (la probabilità di morte) e (1-p) la probabilità complementare, cioè la sopravvivenza, sono chiamati odds o probabilità a favore Gli odds sono il tipico modo che gli scommettitori usano per quantificare la probabilità di vincere ci consentono di trasformare una variabile categorica (si/no) in una variabile che esprime la p dell'evento Quando la probabilità di morte è del 50% (o 0.5) gli odds sono uguali a / (1 0.5) = 1 la relativa funzione logistica è uguale a 0 ln 1 = 0

16 Probabilità Un vantaggio dei logit è che la probabilità ad essi corrispondente può variare da 0 a 1 cioè nell'ambito della stessa scala sulla quale è espressa abitualmente la probabilità di un evento ln p 1 p p p = ln p 1 p = β 0 + β 1 x 1 + β 2 x 2 +. p = 1/[1 + exp (β 0 + β 1 x 1 + β 2 x )]

17 Funzione logistica Probabilità di malattia 1,0 p(y x) = eα+βx 1-e α+βx 0,8 0,6 0,4 0,2 0,0 x

18 Esempio Se la funzione logistica dell'equazione che predice la sopravvivenza (SV) in base alla massa ventricolare (LVM) e alla pressione arteriosa media (PAM) è SV = LVM MAP la probabilità di morte per una massa ventricolare di 120 g/m 2 e una MAP di 110 mmhg è: p = 1 / [1 + exp ( )] = 1 / [1+ exp ( 0.95)] = 1 / [ ] = se LVM = 110 g/m 2 p = (16.4 %) se LVM = 130 g/m 2 p = (43.2 %)

19 Odds ratio Stima dell'influenza della massa ventricolare sulla sopravvivenza indipendentemente dalla PAM valutazione più immediata calcolando gli odds ratio Il calcolo degli odds ratio (OR) per aumento della massa ventricolare sinistra da 120 a 130 g/m 2 OR = exp ( ) = 1.54 la probabilità di morte è 1.54 volte più alta quando la massa ventricolare sinistra aumenta da 120 a 130 g/m 2 Aumento della pressione da 110 a 120 mmhg OR = exp ( ) = 1.91

20 Conclusioni Non si può concludere che ai fini della sopravvivenza è più importante un aumento della pressione di 10 mmhg che un aumento della massa ventricolare di 10 g/m 2 Non possiamo farlo perché sappiamo che le due scale non si equivalgono (10 mmhg è una misura ben diversa da 10 g/m 2 ) coeff. errore χ p χ IC (95 %) β LVM MAP

21 Esercizio 1 Età (Age) e sintomi di malattia coronarica (CHD) Età CHD Età CHD Età CHD Come analizzereste i dati?

Correlazione e regressione

Correlazione e regressione SMID a.a. 2004/2005 Corso di Metodi Statistici in Biomedicina Correlazione e regressione 28/1/2005 Relazioni Che rapporto c'è tra la pressione arteriosa e il peso corporeo? relazione tra due variabili

Dettagli

SMID a.a. 2005/2006 Corso di Statistica per la Ricerca Sperimentale Test sopravvivenza 20/3/2006

SMID a.a. 2005/2006 Corso di Statistica per la Ricerca Sperimentale Test sopravvivenza 20/3/2006 SMID a.a. 25/26 Corso di Statistica per la Ricerca Sperimentale Test sopravvivenza 2/3/26 Rischio assoluto Valutare il rischio è un elemento chiave per predire gli eventi futuri Al medico interessa poco

Dettagli

Esercizi di statistica

Esercizi di statistica Esercizi di statistica Test a scelta multipla (la risposta corretta è la prima) [1] Il seguente campione è stato estratto da una popolazione distribuita normalmente: -.4, 5.5,, -.5, 1.1, 7.4, -1.8, -..

Dettagli

per togliere l influenza di un fattore es.: quoziente di mortalità = morti / popolazione

per togliere l influenza di un fattore es.: quoziente di mortalità = morti / popolazione Rapporti statistici di composizione la parte rispetto al tutto percentuali di derivazione per togliere l influenza di un fattore es.: quoziente di mortalità = morti / popolazione di frequenza (tassi) rapporti

Dettagli

SMID a.a. 2004/2005 Corso di Metodi Statistici in Biomedicina Regressione di Cox 7/3/2005

SMID a.a. 2004/2005 Corso di Metodi Statistici in Biomedicina Regressione di Cox 7/3/2005 SMID a.a. 2004/2005 Corso di Metodi Statistici in Biomedicina Regressione di Cox 7/3/2005 Procedura di Mantel-Haenszel Dati relativi a pazienti maschi nel primo anno di follow-up stratificati per età e

Dettagli

STATISTICA MULTIVARIATA SSD MAT/06

STATISTICA MULTIVARIATA SSD MAT/06 Università degli studi di Ferrara Dipartimento di Matematica A.A. 2018/2019 I semestre STATISTICA MULTIVARIATA SSD MAT/06 LEZIONE 4 - Questioni di analisi e applicazione della regressione lineare Pratica

Dettagli

lezione n. 6 (a cura di Gaia Montanucci) Verosimiglianza: L = = =. Parte dipendente da β 0 e β 1

lezione n. 6 (a cura di Gaia Montanucci) Verosimiglianza: L = = =. Parte dipendente da β 0 e β 1 lezione n. 6 (a cura di Gaia Montanucci) METODO MASSIMA VEROSIMIGLIANZA PER STIMARE β 0 E β 1 Distribuzione sui termini di errore ε i ε i ~ N (0, σ 2 ) ne consegue : ogni y i ha ancora distribuzione normale,

Dettagli

Parametri statistici

Parametri statistici SMID a.a. 2004/2005 Corso di Metodi Statistici in Biomedicina Parametri statistici 24/1/2005 Deviazione standard della media La variabilità di una distribuzione può quindi essere espressa da un indice

Dettagli

La relazione causa-effetto

La relazione causa-effetto La relazione causa-effetto valutare il rischio in epidemiologia associazione statistica e rapporto causa-effetto gli studi analitici: generalità Misurare l incidenza di malattia in un gruppo di popolazione...

Dettagli

Metodi statistici per la ricerca sociale Capitolo 15. Regressione logistica: modellare variabili risposta categoriali

Metodi statistici per la ricerca sociale Capitolo 15. Regressione logistica: modellare variabili risposta categoriali Metodi statistici per la ricerca sociale Capitolo 15. Regressione logistica: modellare variabili risposta categoriali Alessandra Mattei Dipartimento di Statistica, Informatica, Applicazioni (DiSIA) Università

Dettagli

Esercitazione. 24 Aprile 2012

Esercitazione. 24 Aprile 2012 Esercitazione 24 Aprile 2012 Il modello di regressione logistica viene utilizzato quando si è interessati a studiare o analizzare la relazione causale tra una variabile dipendente dicotomica e una o più

Dettagli

ANALISI MULTIVARIATA

ANALISI MULTIVARIATA ANALISI MULTIVARIATA Marcella Montico Servizio di epidemiologia e biostatistica... ancora sulla relazione tra due variabili: la regressione lineare semplice VD: quantitativa VI: quantitativa Misura la

Dettagli

TABELLE DI CONTINGENZA

TABELLE DI CONTINGENZA TABELLE DI CONTINGENZA Frequenze di dati nominali raggruppati in categorie sono spesso organizzate in forma di tabella di contingenza. Il caso più semplice implica due variabili casuali dicotomiche; le

Dettagli

SMID a.a. 2004/2005 Corso di Metodi Statistici in Biomedicina Prognosi clinica 28/2/2005

SMID a.a. 2004/2005 Corso di Metodi Statistici in Biomedicina Prognosi clinica 28/2/2005 SMID a.a. 2004/2005 Corso di Metodi Statistici in Biomedicina Prognosi clinica 28/2/2005 Formulazione La prognosi non è altro che la stima della probabilità di un certo esito Quando il medico fa una previsione

Dettagli

Statistica multivariata! Analisi fattoriale

Statistica multivariata! Analisi fattoriale Parte 3 : Statistica multivariata Quando il numero delle variabili rilevate sullo stesso soggetto aumentano, il problema diventa gestirle tutte e capirne le relazioni. Statistica multivariata! Analisi

Dettagli

MISURA DELLA VARIAZIONE CONCOMITANTE (COVARIAZIONE/ CONTROVARIAZIONE) DI VARIABILI CARDINALI O QUASI- CARDINALI

MISURA DELLA VARIAZIONE CONCOMITANTE (COVARIAZIONE/ CONTROVARIAZIONE) DI VARIABILI CARDINALI O QUASI- CARDINALI ANALISI DELLA CORRELAZIONE MISURA DELLA VARIAZIONE CONCOMITANTE (COVARIAZIONE/ CONTROVARIAZIONE) DI VARIABILI CARDINALI O QUASI- CARDINALI VINCOLI CHE SI IMPONGONO ALLA SUA UTILIZZAZIONE: LA RELAZIONE

Dettagli

Esercizi di statistica inferenziale

Esercizi di statistica inferenziale Dipartimento di Fisica SMID a.a. 004/005 Esercizi di statistica inferenziale Prof. Maria Antonietta Penco tel. 0103536404 penco@fisica.unige.it 6/1/005 Esercizio1 E noto che un grande numero di pazienti

Dettagli

Computazione per l interazione naturale: Regressione probabilistica

Computazione per l interazione naturale: Regressione probabilistica Computazione per l interazione naturale: Regressione probabilistica Corso di Interazione Naturale Prof. Giuseppe Boccignone Dipartimento di Informatica Università di Milano boccignone@di.unimi.it boccignone.di.unimi.it/in_2018.html

Dettagli

Esame di Statistica del 19 settembre 2006 (Corso di Laurea Triennale in Biotecnologie, Università degli Studi di Padova).

Esame di Statistica del 19 settembre 2006 (Corso di Laurea Triennale in Biotecnologie, Università degli Studi di Padova). Esame di Statistica del 19 settembre 2006 (Corso di Laurea Triennale in Biotecnologie, Università degli Studi di Padova). Cognome Nome Matricola Es. 1 Es. 2 Es. 3 Es. 4 Somma Voto finale Attenzione: si

Dettagli

Statistica multivariata Donata Rodi 17/10/2016

Statistica multivariata Donata Rodi 17/10/2016 Statistica multivariata Donata Rodi 17/10/2016 Quale analisi? Variabile Dipendente Categoriale Continua Variabile Indipendente Categoriale Chi Quadro ANOVA Continua Regressione Logistica Regressione Lineare

Dettagli

Rischio per categorie

Rischio per categorie SMID a.a. 2004/2005 Corso di Metodi Statistici in Biomedicina Rischio per categorie 14/2/2005 Il rischio si può misurare Rischio in termini proporzionali o non proporzionali ossia come rapporto tra due

Dettagli

Tempo disponibile: 60 minuti

Tempo disponibile: 60 minuti Corso di Specialistica in Biotecnologie Statistica medica. A.A. 005-006 6 Marzo 006 Tempo disponibile: 60 minuti 1. Conducete uno studio clinico controllato randomizzato di fase III per misurare l'effetto

Dettagli

Esercizi sull associazione di variabili categoriche

Esercizi sull associazione di variabili categoriche Dipartimento di Fisica SMID a.a. 004/005 Esercizi sull associazione di variabili categoriche Prof. Maria Antonietta Penco penco@fisica.unige.it tel. 003536404 7//005 Esercizio Tra i 40 e 50 anni la probabilità

Dettagli

Si assuma di avere portato a termine le seguenti rilevazioni di produzione e di alimento somministrato

Si assuma di avere portato a termine le seguenti rilevazioni di produzione e di alimento somministrato Regressione Lineare Semplice Si assuma di avere portato a termine le seguenti rilevazioni di produzione e di alimento somministrato QUANTITA' DI ALIMENTO PRODUZIONE 2 10 2 9 1.5 5 1 2 1 3 1.5 4 2 7 2 9

Dettagli

Psicometria con Laboratorio di SPSS 2

Psicometria con Laboratorio di SPSS 2 Psicometria con Laboratorio di SPSS 2 Regressione lineare semplice (vers. 1.2, 20 marzo 2018) Germano Rossi 1 germano.rossi@unimib.it 1 Dipartimento di Psicologia, Università di Milano-Bicocca 2017-18

Dettagli

STATISTICA. Regressione-3 L inferenza per il modello lineare semplice

STATISTICA. Regressione-3 L inferenza per il modello lineare semplice STATISTICA Regressione-3 L inferenza per il modello lineare semplice Regressione lineare: GRAFICO DI DISPERSIONE & & analisi residui A. Valutazione preliminare se una retta possa essere una buona approssimazione

Dettagli

Psicometria con Laboratorio di SPSS 1

Psicometria con Laboratorio di SPSS 1 Psicometria con Laboratorio di SPSS 1 1-Panoramica delle tecniche: Spiegazione intuitiva vers. 1.1 (vers. 1.1, 14 marzo 2018) Germano Rossi 1 germano.rossi@unimib.it 1 Dipartimento di Psicologia, Università

Dettagli

1. In uno studio viene misurata la pressione arteriosa sistolica a 36 soggetti, con i seguenti risultati. Media = 172,8 Deviazione standard= 24,25

1. In uno studio viene misurata la pressione arteriosa sistolica a 36 soggetti, con i seguenti risultati. Media = 172,8 Deviazione standard= 24,25 1. In uno studio viene misurata la pressione arteriosa sistolica a 36 soggetti, con i seguenti risultati. Media = 172,8 Deviazione standard= 24,25 Commento generale: in questo esercizio l unica stima della

Dettagli

Analisi della regressione multipla

Analisi della regressione multipla Analisi della regressione multipla y = β 0 + β 1 x 1 + β 2 x 2 +... β k x k + u 2. Inferenza Assunzione del Modello Classico di Regressione Lineare (CLM) Sappiamo che, date le assunzioni Gauss- Markov,

Dettagli

Case study. viene espressa in unità µmol per ora per grammo di peso secco.

Case study. viene espressa in unità µmol per ora per grammo di peso secco. Vengono studiate due specie diverse (ma dello stesso genere) di piante di interesse agronomico. In particolare, i ricercatori vogliono misurare la capacità dell'apparato radicale di tali piante di assorbire

Dettagli

Statistica (parte II) Esercitazione 4

Statistica (parte II) Esercitazione 4 Statistica (parte II) Esercitazione 4 Davide Passaretti 03/03/016 Test sulla differenza tra medie (varianze note) Un negozio di scarpe è interessato a capire se le misure delle scarpe acquistate da adulti

Dettagli

0 altimenti 1 soggetto trova lavoroentro 6 mesi}

0 altimenti 1 soggetto trova lavoroentro 6 mesi} Lezione n. 16 (a cura di Peluso Filomena Francesca) Oltre alle normali variabili risposta che presentano una continuità almeno all'interno di un certo intervallo di valori, esistono variabili risposta

Dettagli

Elementi di Epidemiologia per la Valutazione Comparativa di Esito

Elementi di Epidemiologia per la Valutazione Comparativa di Esito Elementi di Epidemiologia per la Valutazione Comparativa di Esito La valutazione della qualità dell assistenza: quali domande? L incidenza di alcuni esiti negativi dell assistenza ospedaliera (come la

Dettagli

Metodi statistici per la ricerca sociale Capitolo 9. Regressione Lineare e Correlazione Esercitazione

Metodi statistici per la ricerca sociale Capitolo 9. Regressione Lineare e Correlazione Esercitazione Metodi statistici per la ricerca sociale Capitolo 9. Regressione Lineare e Correlazione Esercitazione Alessandra Mattei Dipartimento di Statistica, Informatica, Applicazioni (DiSIA) Università degli Studi

Dettagli

Esame di Statistica del 1 settembre 2004 (Corso di Laurea in Biotecnologie, Università degli Studi di Padova). Cognome Nome Matricola

Esame di Statistica del 1 settembre 2004 (Corso di Laurea in Biotecnologie, Università degli Studi di Padova). Cognome Nome Matricola Esame di Statistica del 1 settembre 004 (Corso di Laurea in Biotecnologie, Università degli Studi di Padova). Cognome Nome Matricola Es. 1 Es. Es. Es. 4 Somma Voto finale Attenzione: si consegnano SOLO

Dettagli

Luigi Santoro. Hyperphar Group S.p.A., MIlano

Luigi Santoro. Hyperphar Group S.p.A., MIlano Come modellare il rischio Luigi Santoro Hyperphar Group S.p.A., MIlano Gli argomenti discussi Le definizioni del termine rischio L utilità di un modello predittivo di rischio Come costruire modelli predittivi

Dettagli

Indipendenza, Dipendenza e interdipendenza

Indipendenza, Dipendenza e interdipendenza Indipendenza, Dipendenza e interdipendenza In analisi bivariata la tabella di contingenza consente di esaminare congiuntamente due variabili consente di rilevare le relazioni esistenti tra le variabili

Dettagli

Metodo dei Minimi Quadrati. Dott. Claudio Verona

Metodo dei Minimi Quadrati. Dott. Claudio Verona Metodo dei Minimi Quadrati Dott. Claudio Verona E in generale interessante studiare l andamento di una variabile in funzione di un altra e capire se c è una funzione matematica che le lega. Viceversa è

Dettagli

le scale di misura scala nominale scala ordinale DIAGNOSTICA PSICOLOGICA lezione si basano su tre elementi:

le scale di misura scala nominale scala ordinale DIAGNOSTICA PSICOLOGICA lezione si basano su tre elementi: DIAGNOSTICA PSICOLOGICA lezione! Paola Magnano paola.magnano@unikore.it si basano su tre elementi: le scale di misura sistema empirico: un insieme di entità non numeriche (es. insieme di persone; insieme

Dettagli

STATISTICA (2) ESERCITAZIONE Dott.ssa Antonella Costanzo

STATISTICA (2) ESERCITAZIONE Dott.ssa Antonella Costanzo STATISTICA (2) ESERCITAZIONE 7 11.03.2014 Dott.ssa Antonella Costanzo Esercizio 1. Test di indipendenza tra mutabili In un indagine vengono rilevate le informazioni su settore produttivo (Y) e genere (X)

Dettagli

Stima dei parametri. I parametri di una pdf sono costanti che caratterizzano la sua forma. r.v. parameter. Assumiamo di avere un campione di valori

Stima dei parametri. I parametri di una pdf sono costanti che caratterizzano la sua forma. r.v. parameter. Assumiamo di avere un campione di valori Stima dei parametri I parametri di una pdf sono costanti che caratterizzano la sua forma r.v. parameter Assumiamo di avere un campione di valori Vogliamo una funzione dei dati che permette di stimare i

Dettagli

STATISTICA. Regressione-4 ovvero Macron!

STATISTICA. Regressione-4 ovvero Macron! STATISTICA Regressione-4 ovvero Macron! Eravamo partiti da qui Stipendio medio orario 2013 Voto per Le Pen Stipendio medio orario (2013) [11,12) [12,13) [13,14) [14,15) [15,23] Eravamo partiti da qui Stipendio

Dettagli

Capitolo 12 La regressione lineare semplice

Capitolo 12 La regressione lineare semplice Levine, Krehbiel, Berenson Statistica II ed. 2006 Apogeo Capitolo 12 La regressione lineare semplice Insegnamento: Statistica Corso di Laurea Triennale in Ingegneria Gestionale Facoltà di Ingegneria, Università

Dettagli

Dispensa di Statistica

Dispensa di Statistica Dispensa di Statistica 1 parziale 2012/2013 Diagrammi... 2 Indici di posizione... 4 Media... 4 Moda... 5 Mediana... 5 Indici di dispersione... 7 Varianza... 7 Scarto Quadratico Medio (SQM)... 7 La disuguaglianza

Dettagli

Esercitazione del

Esercitazione del Esercizi sulla regressione lineare. Esercitazione del 21.05.2013 Esercizio dal tema d esame del 13.06.2011. Si consideri il seguente campione di n = 9 osservazioni relative ai caratteri ed Y: 7 17 8 36

Dettagli

Cognome e nome. 2 In uno studio viene misurata la pressione arteriosa sistolica a 5 maschi adulti, con i seguenti risultati : 129; 134; 142; 128; 146

Cognome e nome. 2 In uno studio viene misurata la pressione arteriosa sistolica a 5 maschi adulti, con i seguenti risultati : 129; 134; 142; 128; 146 Statistica medica. Biotecnologie mediche A.a. 2004-2005 1 Febbraio 2005 Tempo previsto 60 minuti Cognome e nome 1 Indicate a quale categoria appartengono le seguenti variabili: Nominale Ordinale Numerica

Dettagli

Cognome e nome. 1. In uno studio viene misurata la pressione arteriosa sistolica a 36 soggetti, con i seguenti risultati.

Cognome e nome. 1. In uno studio viene misurata la pressione arteriosa sistolica a 36 soggetti, con i seguenti risultati. 1. In uno studio viene misurata la pressione arteriosa sistolica a 36 soggetti, con i seguenti risultati. Media = 164 Deviazione standard= 24 1.1 Calcolate, scrivendo le formule che utilizzate: coefficiente

Dettagli

Test delle Ipotesi Parte I

Test delle Ipotesi Parte I Test delle Ipotesi Parte I Test delle Ipotesi sulla media Introduzione Definizioni basilari Teoria per il caso di varianza nota Rischi nel test delle ipotesi Teoria per il caso di varianza non nota Test

Dettagli

Università del Piemonte Orientale Specializzazioni di area sanitaria Statistica Medica

Università del Piemonte Orientale Specializzazioni di area sanitaria Statistica Medica Università del Piemonte Orientale Specializzazioni di area sanitaria Statistica Medica Regressione Lineare e Correlazione Argomenti della lezione Determinismo e variabilità Correlazione Regressione Lineare

Dettagli

Computazione per l interazione naturale: Regressione probabilistica

Computazione per l interazione naturale: Regressione probabilistica Computazione per l interazione naturale: Regressione probabilistica Corso di Interazione Naturale Prof. Giuseppe Boccignone Dipartimento di Informatica Università di Milano boccignone@di.unimi.it boccignone.di.unimi.it/in_2016.html

Dettagli

Analisi della varianza

Analisi della varianza Università degli Studi di Padova Facoltà di Medicina e Chirurgia Facoltà di Medicina e Chirurgia - A.A. 2009-10 Scuole di specializzazione Lezioni comuni Disciplina: Statistica Docente: dott.ssa Egle PERISSINOTTO

Dettagli

L'analisi bivariata (analisi della varianza e correlazione) Prof. Stefano Nobile. Corso di Metodologia della ricerca sociale

L'analisi bivariata (analisi della varianza e correlazione) Prof. Stefano Nobile. Corso di Metodologia della ricerca sociale L'analisi bivariata (analisi della varianza e correlazione) Prof. Stefano Nobile Corso di Metodologia della ricerca sociale L analisi della varianza (ANOVA) La tecnica con cui si esplorano le relazioni

Dettagli

lezione 4 AA Paolo Brunori

lezione 4 AA Paolo Brunori AA 2016-2017 Paolo Brunori dove eravamo arrivati - abbiamo individuato la regressione lineare semplice (OLS) come modo immediato per sintetizzare una relazione fra una variabile dipendente (Y) e una indipendente

Dettagli

Studi di sopravvivenza

Studi di sopravvivenza Scuola di Specializzazione in Fisica Sanitaria a.a. 25/26 Corso di Informatica e Statistica Medica Studi di sopravvivenza 5/3/26 Analisi della sopravvivenza Fissare un punto di partenza ben identificabile

Dettagli

Metodologie Quantitative

Metodologie Quantitative Metodologie Quantitative Regressione Lineare Nozioni di base M Q Marco Perugini Milano-Bicocca 1 I COMUNICAZIONE MERCOLEDI 11 NOVEMBRE NON CI SARA LEZIONE DI MQ Concetti base Con l analisi di regressione

Dettagli

Statistica multivariata

Statistica multivariata Statistica multivariata Quando il numero delle variabili rilevate sullo stesso soggetto aumentano, il problema diventa gestirle tutte e capirne le relazioni. Analisi multivariata Cercare di capire le relazioni

Dettagli

Statistica multivariata

Statistica multivariata Parte 3 : Statistica multivariata Quando il numero delle variabili rilevate sullo stesso soggetto aumentano, il problema diventa gestirle tutte e capirne le relazioni. Analisi multivariata Cercare di capire

Dettagli

Gli studi longitudinali (o di coorte) sono utilizzati: per la stima dell incidenza delle patologie per la stima della mortalità

Gli studi longitudinali (o di coorte) sono utilizzati: per la stima dell incidenza delle patologie per la stima della mortalità Prof.ssa G. Serio, Prof. P. Trerotoli, Cattedra di Statistica Medica, Università di Bari /6 Gli studi longitudinali (o di coorte) sono utilizzati: per la stima dell incidenza delle patologie per la stima

Dettagli

Metodi Statistici per la Ricerca Sociale: Formulario

Metodi Statistici per la Ricerca Sociale: Formulario Metodi Statistici per la Ricerca Sociale: Formulario Attenzione. Il Formulario contiene una selezione delle formule. Le formule non riportate sono supposte note Associazione tra variabili categoriche Misure

Dettagli

2 In uno studio viene misurata la pressione arteriosa sistolica a 5 maschi adulti, con i seguenti risultati : 127; 134; 142; 128; 144

2 In uno studio viene misurata la pressione arteriosa sistolica a 5 maschi adulti, con i seguenti risultati : 127; 134; 142; 128; 144 Statistica medica. A.a. 2004-2005 1 Febbraio 2005 Tempo previsto 60 minuti SOLUZIONI 1 Indicate a quale categoria appartengono le seguenti variabili: Nominale Ordinale Numerica a. Età in anni X b. Provincia

Dettagli

ECONOMETRIA: Laboratorio I

ECONOMETRIA: Laboratorio I ECONOMETRIA: Laboratorio I Luca De Angelis CLASS - Università di Bologna Programma Laboratorio I Valori attesi e varianze Test di ipotesi Stima di un modello lineare attraverso OLS Valore atteso Data una

Dettagli

Introduzione alla Regressione Logistica

Introduzione alla Regressione Logistica Introduzione alla Regressione Logistica Contenuto regressione lineare semplice e multipla regressione logistica lineare semplice La funzione logistica Stima dei parametri Interpretazione dei coefficienti

Dettagli

Computazione per l interazione naturale: Regressione probabilistica

Computazione per l interazione naturale: Regressione probabilistica Computazione per l interazione naturale: Regressione probabilistica Corso di Interazione Naturale Prof. Giuseppe Boccignone Dipartimento di Informatica Università di Milano boccignone@di.unimi.it boccignone.di.unimi.it/in_2017.html

Dettagli

Simulazione di esercizi su test di significatività e 95%CI

Simulazione di esercizi su test di significatività e 95%CI Simulazione di esercizi su test di significatività e 95%CI 1) In un trial clinico vennero trattati 10 pazienti ipertesi con un preparato di Rawolfia. I valori pressori (in mmhg) riscontrati prima del trattamento

Dettagli

Cognome e nome Tempo disponibile: 60 minuti

Cognome e nome Tempo disponibile: 60 minuti Corso di Laurea in Medicina e Chirurgia Statistica medica. A.A. 005-006 6 Marzo 006 Cognome e nome Tempo disponibile: 60 minuti 1. Conducete uno studio clinico controllato randomizzato di fase III per

Dettagli

Partorire negli ospedali italiani Anno 2015

Partorire negli ospedali italiani Anno 2015 Partorire negli ospedali italiani Anno 2015 Le principali informazioni di cui tenere conto NUMERO DI PARTI Le maternità con un basso numero di parti possono non garantire la sicurezza della donna e del

Dettagli

Vogliamo determinare una funzione lineare che meglio approssima i nostri dati sperimentali e poter decidere sulla bontà di questa approssimazione.

Vogliamo determinare una funzione lineare che meglio approssima i nostri dati sperimentali e poter decidere sulla bontà di questa approssimazione. S.S.I.S. TOSCANA F.I.M. II anno FUNZIONI DI REGRESSIONE E METODO DEI MINIMI QUADRATI Supponiamo di star conducendo uno studio sulla crescita della radice di mais in funzione del contenuto di saccarosio

Dettagli

Minimi quadrati vincolati e test F

Minimi quadrati vincolati e test F Minimi quadrati vincolati e test F Impostazione del problema Spesso, i modelli econometrici che stimiamo hanno dei parametri che sono passibili di interpretazione diretta nella teoria economica. Consideriamo

Dettagli

viii Indice generale

viii Indice generale Indice generale 1 Introduzione al processo di ricerca 1 Sommario 1 Il processo di ricerca 3 Concetti e variabili 5 Scale di misura 8 Test di ipotesi 10 Evidenza empirica 10 Disegni di ricerca 11 Sintesi

Dettagli

IL CRITERIO DELLA MASSIMA VEROSIMIGLIANZA

IL CRITERIO DELLA MASSIMA VEROSIMIGLIANZA Metodi per l Analisi dei Dati Sperimentali AA009/010 IL CRITERIO DELLA MASSIMA VEROSIMIGLIANZA Sommario Massima Verosimiglianza Introduzione La Massima Verosimiglianza Esempio 1: una sola misura sperimentale

Dettagli

Esercitazioni di probabilità e statistica Test ipotesi

Esercitazioni di probabilità e statistica Test ipotesi Esercitazioni di probabilità e statistica Test ipotesi Esercizio 2.: Due ditte producono un certo tipo di macchinario. La ditta A ne ha prodotti 6 e venduto, la ditta B ne ha venduti 4 su 9. Si formuli

Dettagli

Argomenti della lezione:

Argomenti della lezione: Lezione 7 Argomenti della lezione: La regressione semplice Il modello teorico Il calcolo dei parametri Regressione lineare Esamina la relazione lineare tra una o più variabili esplicative (o indipendenti,

Dettagli

CAPITOLO 11 ANALISI DI REGRESSIONE

CAPITOLO 11 ANALISI DI REGRESSIONE VERO FALSO CAPITOLO 11 ANALISI DI REGRESSIONE 1. V F Se c è una relazione deterministica tra due variabili,x e y, ogni valore dato di x,determinerà un unico valore di y. 2. V F Quando si cerca di scoprire

Dettagli

Statistica multivariata

Statistica multivariata Parte 3 : Statistica multivariata Quando il numero delle variabili rilevate sullo stesso soggetto aumentano, il problema diventa gestirle tutte e capirne le relazioni. Analisi multivariata Cercare di capire

Dettagli

Cognome e nome. Distribuzione Gaussiana; Media = 122,4 mmhg; Deviazione standard= 14,28 mmhg

Cognome e nome. Distribuzione Gaussiana; Media = 122,4 mmhg; Deviazione standard= 14,28 mmhg Statistica medica. A.a. 2004-2005 15 Febbraio 2005 Tempo previsto 60 minuti Cognome e nome Avete consegnato l'esercitazione di Abilità Informatiche? _SI_ _NO_ LE SOLUZIONI SONO SCRITTE NELLE ULTIME PAGINE

Dettagli

Stima dell intervallo per un parametro

Stima dell intervallo per un parametro Stima dell intervallo per un parametro In aggiunta alla stima puntuale di un parametro dobbiamo dare l intervallo che rappresenta l incertezza statistica. Questo intervallo deve: comunicare in modo obbiettivo

Dettagli

Le sperimentazioni cliniche controllate: aspetti statistici II. Scardapane Marco

Le sperimentazioni cliniche controllate: aspetti statistici II. Scardapane Marco Le sperimentazioni cliniche controllate: aspetti statistici II Scardapane Marco Correlazione fra due variabili continue Che relazione intercorre fra peso e altezza? La pressione arteriosa sistolica è correlata

Dettagli

Elementi di Epidemiologia per la Valutazione Comparativa di Esito. Mirko Di Martino

Elementi di Epidemiologia per la Valutazione Comparativa di Esito. Mirko Di Martino Elementi di Epidemiologia per la Valutazione Comparativa di Esito Mirko Di Martino Roma, 2019 I contenuti del corso Misure di occorrenza (frequenza) Misure di associazione P-value e intervalli di confidenza

Dettagli

9. Test del χ 2 e test di Smirnov-Kolmogorov. 9.1 Stimatori di massima verosimiglianza per distribuzioni con densità finita

9. Test del χ 2 e test di Smirnov-Kolmogorov. 9.1 Stimatori di massima verosimiglianza per distribuzioni con densità finita 9. Test del χ 2 e test di Smirnov-Kolmogorov 9. Stimatori di massima verosimiglianza per distribuzioni con densità finita Supponiamo di avere un campione statistico X,..., X n e di sapere che esso è relativo

Dettagli

Contenuti: Capitolo 14 del libro di testo

Contenuti: Capitolo 14 del libro di testo Test d Ipotesi / TIPICI PROBLEMI DI VERIFICA DI IPOTESI SONO Test per la media Test per una proporzione Test per la varianza Test per due campioni indipendenti Test di indipendenza Contenuti Capitolo 4

Dettagli

Elementi di Psicometria con Laboratorio di SPSS 1

Elementi di Psicometria con Laboratorio di SPSS 1 Elementi di Psicometria con Laboratorio di SPSS 1 10-Significatività statistica per la correlazione vers. 1.0 (5 novembre 2014) Germano Rossi 1 germano.rossi@unimib.it 1 Dipartimento di Psicologia, Università

Dettagli

Modelli per variabili dipendenti limitate. Amedeo Argentiero.

Modelli per variabili dipendenti limitate. Amedeo Argentiero. Modelli per variabili dipendenti limitate Amedeo Argentiero amedeo.argentiero@unipg.it Problema 1. Si desidera stimare la probabilità di accadimento di un evento (essere disoccupato, probabilità di sposarsi,

Dettagli

Ulteriori applicazioni del test del Chi-quadrato (χ 2 )

Ulteriori applicazioni del test del Chi-quadrato (χ 2 ) Ulteriori applicazioni del test del Chi-quadrato (χ 2 ) Finora abbiamo confrontato con il χ 2 le numerosità osservate in diverse categorie in un campione con le numerosità previste da un certo modello

Dettagli

Copyright Esselibri S.p.A.

Copyright Esselibri S.p.A. 70 3000 500 000 1500 1000 500 A B C D (a) Capitolo Terzo A B C D 500 1000 1500 000 5003000 3500 Fig. 1 - Ortogramma a colonne (a) e ortogramma a nastri (b) 4. MISURE DI ASSOCIAZIONE E DI COGRADUAZIONE

Dettagli

Obiettivo: confrontare due proporzioni, studiare il legame in presenza di un fattore di stratificazione

Obiettivo: confrontare due proporzioni, studiare il legame in presenza di un fattore di stratificazione Prof.ssa G. Serio, Prof. P. Trerotoli, Cattedra di Statistica Medica, Università di Bari 1/13 Il chi-quadro di Mantel-Haenszel Obiettivo: confrontare due proporzioni, studiare il legame in presenza di

Dettagli

Analisi di Regressione Multipla

Analisi di Regressione Multipla Analisi di Regressione Multipla Stima OLS della relazione Test Score/STR : TestScore! = 698.9.8 STR, R =.05, SER = 18.6 (10.4) (0.5) E una stima credibile dell effetto causale sul rendimento nei test di

Dettagli

Corso integrato di informatica, statistica e analisi dei dati sperimentali Esercitazione VII

Corso integrato di informatica, statistica e analisi dei dati sperimentali Esercitazione VII Corso integrato di informatica, statistica e analisi dei dati sperimentali Esercitazione VII Un breve richiamo sul test t-student Siano A exp (a 1, a 2.a n ) e B exp (b 1, b 2.b m ) due set di dati i cui

Dettagli

Il χ 2 (Pearson, 1900)

Il χ 2 (Pearson, 1900) Il χ 2 (Pearson, 1900) Relazioni tra variabili: le tabelle di contingenza "The Physicians' Health Study" è uno studio clinico randomizzato condotto allo scopo di valutare il possibile eetto di riduzione

Dettagli

Corso di Psicometria Progredito

Corso di Psicometria Progredito Corso di Psicometria Progredito 5. La correlazione lineare Gianmarco Altoè Dipartimento di Pedagogia, Psicologia e Filosofia Università di Cagliari, Anno Accademico 2013-2014 Sommario 1 Tipi di relazione

Dettagli

Interpretazione dei risultati di RCT relativi a dati di sopravvivenza. Roberto D Amico - Università degli Studi di Modena e Reggio Emilia

Interpretazione dei risultati di RCT relativi a dati di sopravvivenza. Roberto D Amico - Università degli Studi di Modena e Reggio Emilia Interpretazione dei risultati di RCT relativi a dati di sopravvivenza Roberto D Amico - Università degli Studi di Modena e Reggio Emilia Interpretazione dei risultati di un RCT Popolazione Pazienti Campione

Dettagli

II ESERCITAZIONE ESERCIZIO

II ESERCITAZIONE ESERCIZIO II ESERCITAZIONE ESERCIZIO 1 Quale percentuale di osservazioni sotto la curva normale standardizzata cade nell'intervallo compreso tra i valori z=-1 e z=+1? a) 66% circa b) 70,2% circa c) 68,2% circa d)

Dettagli

Presentazione dell edizione italiana

Presentazione dell edizione italiana Presentazione dell edizione italiana Prefazione xiii xvii 1 Introduzione 1 1.1 Statistica e medicina.......................... 1 1.2 Statistica e matematica........................ 2 1.3 Statistica ed

Dettagli

a.a Esercitazioni di Statistica Medica e Biometria Corsi di Laurea triennali Ostetricia / Infermieristica Pediatrica I anno

a.a Esercitazioni di Statistica Medica e Biometria Corsi di Laurea triennali Ostetricia / Infermieristica Pediatrica I anno a.a. 2007-2008 Esercitazioni di Statistica Medica e Biometria Corsi di Laurea triennali Ostetricia / Infermieristica Pediatrica I anno Dott.ssa Daniela Alessi daniela.alessi@med.unipmn.it 1 Argomenti:

Dettagli

p = p q OR = p q Misura l esistenza di una malattia. E legato alla incidenza in quanto - Prevalenza = Incidenza x tempo medio di durata della malattia

p = p q OR = p q Misura l esistenza di una malattia. E legato alla incidenza in quanto - Prevalenza = Incidenza x tempo medio di durata della malattia - Prevalenza (prevalence) è una misura della proporzione di persone ammalate in un certo periodo. Può essere misurata in modo puntiforme (point prevalence) oppure su un periodo (period prevalence). - Prevalenza

Dettagli

L A B C di R. Stefano Leonardi c Dipartimento di Scienze Ambientali Università di Parma Parma, 9 febbraio 2010

L A B C di R. Stefano Leonardi c Dipartimento di Scienze Ambientali Università di Parma Parma, 9 febbraio 2010 L A B C di R 0 20 40 60 80 100 2 3 4 5 6 7 8 Stefano Leonardi c Dipartimento di Scienze Ambientali Università di Parma Parma, 9 febbraio 2010 La scelta del test statistico giusto La scelta della analisi

Dettagli

Introduzione alla statistica per la ricerca in sanità

Introduzione alla statistica per la ricerca in sanità Introduzione alla statistica per la ricerca in sanità Modulo La verifica delle ipotesi: il test statistico dott. Eugenio Traini eugenio.traini@burlo.trieste.it Verifica d Ipotesi - 1 Che cos è un ipotesi

Dettagli

Old Faithful, Yellowstone Park. Statistica e biometria. D. Bertacchi. Dati congiunti. Tabella. Scatterplot. Covarianza. Correlazione.

Old Faithful, Yellowstone Park. Statistica e biometria. D. Bertacchi. Dati congiunti. Tabella. Scatterplot. Covarianza. Correlazione. Coppie o vettori di dati Spesso i dati osservati sono di tipo vettoriale. Ad esempio studiamo 222 osservazioni relative alle eruzioni del geyser Old Faithful. Old Faithful, Yellowstone Park. Old Faithful

Dettagli

Esame di Istituzioni di Matematiche II del 11 luglio 2001 (Corso di Laurea in Biotecnologie, Universitá degli Studi di Padova). Cognome Nome Matricola

Esame di Istituzioni di Matematiche II del 11 luglio 2001 (Corso di Laurea in Biotecnologie, Universitá degli Studi di Padova). Cognome Nome Matricola Esame di Istituzioni di Matematiche II del 11 luglio 2001 (Corso di Laurea in Biotecnologie, Universitá degli Studi di Padova). Cognome Nome Matricola Es. 1 Es. 2 Es. 3 Es. 4 Somma Voto finale Attenzione:

Dettagli

Esercitazione del 29 aprile 2014

Esercitazione del 29 aprile 2014 Esercitazione del 9 aprile 014 Esercizio 10.13 pg. 94 Complemento: Calcolare la probabilità che un negozio apra tra le sette e venti e le nove e quaranta del mattino. Soluzione: Siccome non è nota la distribuzione

Dettagli