TECNICHE DI ANALISI DEI DATI MODELLI LINEARI

Documenti analoghi
REGRESSIONE LINEARE. È caratterizzata da semplicità: i modelli utilizzati sono basati essenzialmente su funzioni lineari

I MODELLI LINEARI GENERALIZZATI GLM

La Regressione X Variabile indipendente o esplicativa. La regressione. La Regressione. Y Variabile dipendente

NOTE DALLE LEZIONI DI STATISTICA MEDICA ED ESERCIZI

Campo di applicazione

Regressione e correlazione

Relazioni tra variabili: Correlazione e regressione lineare

La regressione. La Regressione. La Regressione. min. min. Var X. X Variabile indipendente (data) Y Variabile dipendente

materiale didattico I incontro

Correlazione lineare

Laboratorio 2B A.A. 2012/2013. Elaborazione Dati. Lab 2B CdL Fisica

03/03/2012. Campus di Arcavacata Università della Calabria

Relazione funzionale e statistica tra due variabili Modello di regressione lineare semplice Stima puntuale dei coefficienti di regressione

PIANIFICAZIONE DEI TRASPORTI

FACOLTÀ DI SOCIOLOGIA CdL in SCIENZE DELL ORGANIZZAZIONE ESAME di STATISTICA 17/09/2012

Regressione Multipla e Regressione Logistica: concetti introduttivi ed esempi

PREVEDONO: Capitolo 17 del libro di testo. Copyright 2005 The McGraw-Hill Companies srl

Oltre la regressione lineare

STATISTICA A K (63 ore) Marco Riani

LA VARIABILITA. Nella metodologia statistica si distinguono due aspetti della variabilità:

L analisi della correlazione lineare

Capitolo 3. Cap. 3-1

RAPPRESENTAZIONE DI MISURE. carta millimetrata

1) Le medie e le varianze calcolate su n osservazioni relative alle variabili quantitative X ed Y sono tali che. σ x

Corso di. Dott.ssa Donatella Cocca

Laboratorio 2B A.A. 2013/2014. Elaborazione Dati. Lab 2B CdL Fisica

y. E' semplicemente la media calcolata mettendo

Ad esempio, potremmo voler verificare la legge di caduta dei gravi che dice che un corpo cade con velocità uniformemente accellerata: v = v 0 + g t

Strada B. Classe Velocità valore frequenza Frequ. ass Frequ. % hi Freq. Cum

Correlazione, Regressione, Test non parametrici

Statistica - metodologie per le scienze economiche e sociali /2e S. Borra, A. Di Ciaccio - McGraw Hill

La t di Student. Per piccoli campioni si definisce la variabile casuale. = s N. detta t di Student.

PRIMA PROVA INTERMEDIA DI STATISTICA (COD /6045/5047/4038/371/377) 26 ottobre 2015 COMPITO D

L ANALISI MONOVARIATA: Variabilità e mutabilità. Prof. Maria Carella

Definizione di campione

Corsi di Laurea in Farmacia e CTF Prova di Matematica

L'Analisi in Componenti Principali. Luigi D Ambra Dipartimento di Matematica e Statistica Università di Napoli Federico II

NOTE DALLE LEZIONI DI STATISTICA MEDICA ED ESERCIZI

L ANALISI MONOVARIATA: Variabilità e mutabilità. Prof. Maria Carella

Test delle Ipotesi e Analisi della Varianza (ANalysis Of VAriance: ANOVA)

NOTE DALLE LEZIONI DI STATISTICA MEDICA ED ESERCIZI CONFRONTO DI PIU MEDIE IL METODO DI ANALISI DELLA VARIANZA

S O L U Z I O N I. 1. Effettua uno studio qualitativo della funzione. con particolare riferimento ai seguenti aspetti:

Regressione lineare con un singolo regressore

3 CAMPIONAMENTO DI BERNOULLI E DI POISSON

Statistica Descrittiva

Lezioni di Statistica (25 marzo 2013) Docente: Massimo Cristallo

si utilizzano per confrontare le distribuzioni

Sistemi Intelligenti Stimatori e sistemi lineari - III

LA VARIABILITA. IV lezione di Statistica Medica

Esame di Statistica tema B Corso di Laurea in Economia Prof.ssa Giordano Appello del 15/07/2011

Matematica II: Calcolo delle Probabilità e Statistica Matematica

Regressioni con variabili strumentali

La regressione nella stima immobiliare

Scienze Geologiche. Corso di Probabilità e Statistica. Prove di esame con soluzioni

Analisi bivariata con variabili quantitative

SERIE STORICHE, TREND, MEDIE MOBILI, REGRESSIONE Andrea Prevete

Modelli con varabili binarie (o qualitative)

Capitolo 3 Covarianza, correlazione, bestfit lineari e non lineari

Università di Cassino Corso di Statistica 1 Esercitazione del 28/01/2008 Dott. Alfonso Piscitelli. Esercizio 1

ANALISI STATISTICA DELLE INCERTEZZE CASUALI

LA CALIBRAZIONE NELL ANALISI STRUMENTALE

Analisi della Varianza

Precisione e Cifre Significative

* PROBABILITÀ - SCHEDA N. 2 LE VARIABILI ALEATORIE *

Propagazione delle incertezze

Analisi degli errori. Introduzione J. R. Taylor, Introduzione all analisi degli errori, Zanichelli, Bo 1986

Variabili statistiche - Sommario

Ettore Limoli. Lezioni di Matematica Prof. Ettore Limoli. Sommario. Calcoli di regressione

STATISTICA DESCRITTIVA - SCHEDA N. 5 REGRESSIONE LINEARE

Sistemi Intelligenti Relazione tra ottimizzazione e statistica - IV Alberto Borghese

Fisica Generale I Misure di grandezze fisiche e incertezze di misura Lezione 3 Facoltà di Ingegneria Livio Lanceri

Misure dirette utilizzate per il calcolo della misura indiretta X:

Esame di Statistica TEMA B Corso di Laurea in Economia Prof.ssa S. Giordano 15 Febbraio 2013

Esame di Statistica tema A Corso di Laurea in Economia Prof.ssa Giordano Appello del 15/07/2011

ESERCIZIO 4.1 Si consideri una popolazione consistente delle quattro misurazioni 0, 3, 12 e 20 descritta dalla seguente distribuzione di probabilità:

Modelli descrittivi, statistica e simulazione

TIPI DI ANALISI DEI DATI ORGANIZZATI IN MATRICI CASI X VARIABILI

Dipartimento di Statistica Università di Bologna. Matematica Finanziaria aa lezione 20: 16 maggio 2012

Fisica Generale I Misure di grandezze fisiche e incertezze di misura Lezione 3 Facoltà di Ingegneria Livio Lanceri

UNIVERSITÀ DEGLI STUDI DI TORINO CORSO DI LAUREA IN CHIMICA Dispense ad esclusivo uso introduttivo per il modulo di Fisica C

Metodi Quantitativi per Economia, Finanza e Management

Metodologie informatiche per la chimica

Appunti di Econometria

Esame di Statistica Corso di Laurea in Economia Prof.ssa Giordano 14 Settembre 2012

ELEMENTI DI STATISTICA

Che cos è l ESCS e come si valuta

Sommario. Obiettivo. Quando studiarla? La concentrazione. X: carattere quantitativo tra le unità statistiche. Quando studiarla?

Tutorato di Complementi di Analisi Matematica e Statistica 23 e 30 marzo 2017

Probabilità cumulata empirica

Misure indipendenti della stessa grandezza, ciascuna con una diversa precisione.

Teoria degli errori. La misura implica un giudizio sull uguaglianza tra la grandezza incognita e la grandezza campione. Misure indirette: velocita

Appunti di statistica descrittiva Versione provvisoria

Elementi di statistica

Lezione n. 10. Legge di Raoult Legge di Henry Soluzioni ideali Deviazioni dall idealit. idealità Convenzioni per le soluzioni reali

Propagazione degli errori statistici. Test del χ 2 per la bontà di adattamento. Metodo dei minimi quadrati.

La likelihood. , x 3. , x 2. ,...x N

CARATTERISTICHE DEI SEGNALI RANDOM

Le soluzioni della prova scritta di Matematica per il corso di laurea in Farmacia (raggruppamento M-Z)

IL MODELLO DI MACK. Materiale didattico a cura di Domenico Giorgio Attuario Danni di Gruppo Società Cattolica di Assicurazioni

ANALISI ESPLORATIVA DI SERIE DI OSSERVAZIONI

Transcript:

TECNICHE DI ANALISI DEI DATI AA 16/17 PROF. V.P. SENESE Quest materal sono dsponbl per tutt gl student al seguente ndrzzo: https://goo.gl/rwabbd Seconda Unverstà d Napol (SUN) Dpartmento d Pscologa TECNICHE DI ANALISI DEI DATI Prof. V.P. Senese MODELLI LINEARI LA REGRESSIONE LA REGRESSIONE SEMPLICE (E MULTIPLA) L ANALISI DELLA VARIANZA DISEGNI UNIVARIATI (DISEGNI FATTORIALI SEMPLICI E MISTI) 1

MODELLI LINEARI Quando n una rcerca è possble dstnguere (n base alla teora) tra varabl ndpendent e varabl dpendent l rcercatore può essere nteressato a verfcare la presenza della relazone causale supposta (tra le varabl) ne dat raccolt (osservazon camponare). Prma d nzare un qualsas dscorso sulle relazon d causaltà tra varabl dobbamo rbadre la dstnzone tra covarazone e causazone. MODELLI LINEARI COVARIAZIONE (Covaranza, Correlazone o Assocazone): quando semplcemente osservamo che due varabl presentano varazon concomtant. CAUSAZIONE: quando pensamo che sano propro le varazon della varable X a determnare le varazon della varable Y. Identfchamo la DIREZIONALITÀ e l esstenza del LEGAME DIRETTO tra le due varabl. Mentre la covarazone è osservable la causazone appartene al domno della teora!!!

REGRESSIONE LINEARE Quando la relazone s rfersce a due varabl d tpo quanttatvo (I o R) l anals che può essere mpegata è l anals della regressone lneare. In questo caso l obettvo è quello d voler verfcare se la capactà d prevedere valor d una data varable Y, E(Y), aumenta conoscendo valor assunt da una data varable X. REGRESSIONE LINEARE PREVISIONE DEI PUNTEGGI Sappamo che quando non conoscamo l punteggo Y d un soggetto, la mglore prevsone che possamo fare è usare come valore d rfermento l punteggo medo n Y: Y Y Y E Y Ipotes: Questo modello assume che tutt le osservazon vengono dalla stessa popolazone e che le dfferenze osservate sono dovute solo all errore. 3

REGRESSIONE LINEARE Se supponamo che l punteggo Y dpende dal punteggo X del soggetto, possamo provare a prevedere l valore d Y n base alla seguente formula: E Y Y X In pratca, potzzamo che (mantenendo la componente stocastca) se la teora è vera, allora l valore atteso d Y è funzone lneare d X. REGRESSIONE LINEARE L anals d regressone (lneare) è una tecnca d anals de dat che esamna la relazone tra una (o pù) varabl esplcatve (VI o predttor) e una varable crtero (o VD). Lo studo della relazone può avere un duplce scopo: ESPLICATIVO es. sottoporre a verfca un modello teorco PREDITTIVO es. ndvduare la combnazone lneare d varabl che consentono d stmare n modo ottmale la VD 4

VotoM REGRESSIONE LINEARE La regressone lneare s dce semplce quando abbamo una sola VD (o crtero) e una sola VI (o predttore). L potes che vene formulata rguarda l nfluenza della VI sulla VD. frustrazone predttore aggressvtà crtero crtero coeffcente errore Yˆ x costante predttore REGRESSIONE LINEARE Da un punto d vsta grafco vene ndvduata quella retta che, data la relazone tra le varabl, consente d prevedere al meglo puntegg nella varable dpendente a partre da quell nella varable ndpendente. Dagramma d dspersone 1 9 8 7 6 5 4 5 6 7 8 9 1 11 1 13 14 15 TestA 5

VotoM REGRESSIONE LINEARE Dato un dagramma d dspersone tra due varabl, la retta d regressone è la mglore delle rette nel senso che è quella retta che passa pù vcna a tutt punt (mnmzza tutte le dstanze tra punt e la retta). S scegle n base al metodo de mnm quadrat. S defnsce mglore la retta che rende mnma la somma de quadrat degl error, coè: ( Y Yˆ ) pù pccolo possble Dagramma d dspersone 1 9 8 7 6 5 4 testa 5 6 7 8 9 1 11 1 13 14 15 6

VotoM VotoM Dagramma d dspersone 1 9 8 7 6 5 4 testa 5 6 7 8 9 1 11 1 13 14 15 ( Y Yˆ) Dagramma d dspersone 1 9 8 7 6 5 4 testa 5 6 7 8 9 1 11 1 13 14 15 ( Y Yˆ) 7

VotoM Dagramma d dspersone 1 9 8 7 6 5 4 (ntercetta) valore d y predetto quanto x è zero Dx Dy y' x testa 6 7 8 9 1 11 1 13 14 15 (coeffcente d regressone ) ncremento d y quando aumenta x ndca l angolo che la retta forma con l asse delle ascsse, coè l nclnazone COEFFICIENTE DI REGRESSIONE Esprme la relazone tra X e Y ne termn delle untà d msura delle due varabl. Non è standardzzato (± ) e s nterpreta solo l segno. se = 1 per ogn ncremento untaro d X c è un ncremento untaro d Y (45 ) ; y' x se = per ogn ncremento untaro d X c è un ncremento doppo d Y ( untà) ; se =.5 per ogn ncremento untaro d X c è un ncremento d mezza untà d Y. 8

COEFFICIENTE DI REGRESSIONE STANDARDIZZATO Il coeffcente d regressone standardzzato ( ± 1) esprme la relazone tra la varable dpendente (Y) e la varable ndpendente (X) n untà d msura standard (punt z). N.B. Solo nella regressone semplce corrsponde al coeffcente d correlazone. COEFFICIENTE DI DETERMINAZIONE Il coeffcente d determnazone (r ) ndca la proporzone d varanza (%) della varable crtero (Y) spegata da quella del predttore (X). Il valore è compreso tra e 1. predttore crtero REGRESSIONE LINEARE I coeffcent d regressone e della popolazone vengono stmat a partre da coeffcent d regressone camponar a e b: POPOLAZIONE Y 1x1 CAMPIONE Y a b1 x1 e 9

COEFFICIENTE DI REGRESSIONE Il coeffcente d regressone è smboleggato come: (beta) quando c s rfersce al coeffcente non standardzzato della popolazone; b quando c s rfersce al coeffcente non standardzzato calcolato nel campone; (beta) quando c s rfersce al coeffcente standardzzato (punt z) calcolato nel campone. PARAMETRI Nella regressone semplce le formule per l calcolo de parametr sono le seguent: b n 1 ( X n 1 X )( Y ( X X ) Y ) a Y bx 1

Y depresson e 61; ds 13 54 7 DEPRESSIONE 1 95 9 85 8 75 7 65 Y o E( 6 55 5 45 4 35 3 5 3 35 4 45 5 55 6 65 7 75 8 85 9 95 1 15 ANSIA Y j ) 6 5 Y depresson e 61; ds 13 DEPRESSIONE 54 7 1 95 9 Y 85 8 75 7 65 6 Y 55 5 45 4 35 3 5 3 35 4 45 5 55 6 65 7 75 8 85 9 95 1 15 ANSIA ' 6 5 11

Y depresson e 61; ds 13 DEPRESSIONE 54 7 1 95 9 85 8 75 7 65 6 55 5 45 4 35 3 5 3 35 4 45 5 55 6 65 7 75 8 85 9 95 1 15 ANSIA Yˆ 6 5 SIGNIFICATIVITÀ DELLA PREVISIONE Scomposzone Devanza totale, nelle component d errore e d effetto : SQ tot SQ reg SQ err La somma de quadrat totale (SQ tot ) è data da una componente d errore (SQ err ) e da una componente spegata dalla regressone (SQ reg ) 1

SIGNIFICATIVITÀ DELLA PREVISIONE SQ tot SQ reg SQ err Y Y Y ˆ Y Y Yˆ DEVIANZA SPIEGATA SQ reg SQ tot DEVIANZA TOTALE SQ err DEVIANZA NON SPIEGATA o RESIDUA SIGNIFICATIVITÀ DELLA PREVISIONE Per verfcare la sgnfcatvtà della prevsone, s confrontano le due varanze. La prevsone è sgnfcatva se la varanza spegata dalla regressone è maggore d quella resdua. Le varanze s calcolano dvdendo le devanze per grad d lbertà opportun. GDL tot GDL reg GDL err N 1 ( k) ( N k 1) N = numero d osservazon k = numero d predttor 13

SIGNIFICATIVITÀ DELLA PREVISIONE Per confrontare la due varanze e verfcare se quella spegata dalla regressone è maggore d quella resdua, s calcola la statstca F. La varanza spegata dalla regressone va al numeratore, quella resdua al denomnatore. F var spegata var errore F Var Var reg res N Dev k Dev k reg res 1 H : la varanza spegata H : F 1 H : F 1 1 è uguale a quella resdua (casuale) k gdl F n k 1 SIGNIFICATIVITÀ DELLA PREVISIONE La verfca dell potes nulla (H ) fatta utlzzando la statstca F rguarda l modello complessvo; s assume che tutte le k varabl ndpendent non nfluenzno n modo sgnfcatvo la varable dpendente: H 3 1... k H 3 1 1 o o o... o k 14

SIGNIFICATIVITÀ DELLA PREVISIONE Se la F è sgnfcatva (H 1 ) allora l anals prosegue per verfcare quale predttore ha determnato l effetto. Vene qund defnta una specfca potes nulla (H ) per cascun predttore. H H 1 Solo nella regressone semplce questo test è rdondante dal momento che c è un solo predttore. Il test statstco approprato per la verfca è l valore t (un campone): t b H s b b s b gdl t n k 1 BONTÀ DI ADATTAMENTO La statstca maggormente mpegata per la valutazone della bontà d adattamento del modello (goodness-of-ft) è l R che vene stmato con la seguente formula: R dev spegata dev totale R n j1 n j1 ( Yˆ ( Y j j Y Y ) ) Il coeffcente d determnazone (r ) ndca la proporzone d varanza (%) della varable crtero (Y) spegata da quella del predttore (X). Il valore è compreso tra e 1. 15

ASSUNZIONI Oltre all assunzone d lneartà la regressone multpla s basa sulle seguent assunzon: La meda degl error d predzone (e) attorno ad ogn valore (Y ) predetto deve essere uguale a. Gl error d predzone (e) attorno ad ogn valore (Y ) predetto debbono essere dstrbut normalmente. La varanza degl error d predzone (e) attorno ad ogn valore (Y ) predetto deve essere uguale (omoschedastca). (e) (e) (e) OK (Y ) Non Normaltà (Y ) (Y ) Non Omoschedastctà POWER (k = 1) 16

POWER (k = 3) ESEMPIO #1 Il voto medo n matematca predce l voto al test d statstca? MBQ sqz Regressone semplce con una varable ndpendente (MBQ; VI-I) e una varable dpendente (sqz; VD-I). H H 1.5 17

ESEMPIO #1 Anals grafca della relazone Correlazone ESEMPIO #1 R F test a e b t test CI 95% 18

ESEMPIO #1 ESEMPIO #1 Questo rsultato c porta a respngere l potes nulla e a supportare l potes alternatva. H H 1 Il voto medo n matematca (MBQ) nfluenza sgnfcatvamente l voto al test d statstca (sqz), F(1,83) = 8.85, p <.1, R =.58. In partcolare, dat evdenzano una relazone postva tra le due varabl, b =.93, =.58, 95%CI b [.59;.17], ovvero coloro che hanno un voto n matematca pù alto hanno un voto maggore al test d statstca. 19

ESEMPIO # L età nfluenza la capactà d copare la fgura d Rey? Età ROCF Regressone semplce con una varable ndpendente (Età; VI-R) e una varable dpendente (ROCF; VD-R). H H 1.5 ESEMPIO # Dat real N = 17

ESEMPIO # ESEMPIO # 1

ESEMPIO #