8. REGRESSIONE E CORRELAZIONE

Documenti analoghi
RELAZIONI TRA VARIAIBLI

Equazioni. Prerequisiti. Definizioni e concetti generali. Incognita Lettera (di solito X) alla quale è possibile sostituire dei valori numerici

Le disequazioni di primo grado

Disequazioni in una incognita

REGRESSIONE E CORRELAZIONE

Unità Didattica N 28

Soluzioni degli esercizi su sistemi di equazioni dierenziali e alle dierenze 4. Corso di Metodi Matematici per le Scienze Economiche e Finanziarie

Corso di Economia Politica Esercitazione 1 8 marzo 2013

LE FUNZIONI REALI DI VARIABILE REALE

ASINTOTI di una funzione

REALTÀ E MODELLI SCHEDA DI LAVORO

DISCIPLINA: Matematica Ordinamento CLASSE: 3^ SEZ.: Alunno/a:. Voto proposto dal Consiglio di Classe:..

La retta è il luogo geometrico dei punti che soddisfano la seguente relazione

Capitolo 12. Suggerimenti agli esercizi a cura di Elena Siletti. Esercizio 12.1: Suggerimento

( 3)( 9) x =. 3 = ; 3 = 28 ± 2 28z. 3 x. 1 x 2 2 = = 3. z = 3, da z 1 si ha:

( ) ( ) d x = ω. dsenθ dθ. d 2 senθ dθ 2. = d dθ. = sen θ. = d cosθ dθ. d 2 cosθ dθ. dcosθ dθ. = cosθ dθ. = d( senθ) = d sen θ dθ

SOMMATORI. Il circuito di figura, detto sommatore invertente, fornisce in uscita una combinazione lineare dei segnali d ingresso, del tipo V

LE LEGGI GEOMETRICHE LA CONDIZIONE DI PARALLELISMO

Lezione 10: Interpolazione lineare Corso di Statistica Facoltà di Economia Università della Basilicata. Prof. Massimo Aria

DIPARTIMENTO DI INGEGNERIA DELL INFORMAZIONE

Appendice 1 Elementi di elettrotecnica

Prova pratica di Esperimentazioni di Fisica 2 (mattina del )

REALTÀ E MODELLI SCHEDA DI LAVORO

x, y rappresenta la coppia di valori relativa La rappresentazione nel piano cartesiano dei punti ( x, y ),( x, y ),...,( x, y )

DISCIPLINA: Matematica CLASSE: 3^ SEZ.: SCIENTIFICO. Alunno/a: Voto proposto dal Consiglio:

Informazioni personali Si prega di indicare il proprio nome, cognome e numero di matricola nei seguenti campi. Nome e cognome: Matricola:

Diagramma di Hubble. Lega magnitudine e redshift. Ricordiamo che: L 2. c H 1 = L 1

SCUOLE ITALIANE ALL ESTERO (EUROPA) SESSIONE ORDINARIA 2013 QUESITO 1

REALTÀ E MODELLI SCHEDA DI LAVORO

Valutazione obiettivi Manuale operativo del valutatore

4 C. Prati. Il teorema del campionamento

11. Resistenza all'urto

CAPITOLO I convertitori D/A a resistenze pesate Schema a blocchi Cause di incertezza

Relazione sulle Fuel Cells Robin%Dallimore%Mallaby% %Giuseppina%De%Bona% %Andrea%De%Nigris% %Fabio%Fabbris% Aldo %Tommaso%Grimaldi

Nelle ipotesi fatte (popolazione di dimensione infinita), il numero di chiamate offerte assume una distribuzione di Poisson.

INTRODUZIONE AI SEGNALI

MATEMATICA - CLASSE I. Obiettivi minimi di apprendimento matematica I. Competenze

Lezioni di Statistica del 15 e 18 aprile Docente: Massimo Cristallo

Tecniche di stima del costo del capitale azionario

S I M I L I T U D I N E G E O M E T R I C A D E I T R A S F O R M A T O R I

Milano Serravalle Milano Tangenziali S.p.A.

PROGRAMMAZIONE DISCIPLINARE PER COMPETENZE SECONDO BIENNIO PROFESSIONALE SERVIZI COMMERCIALI

Esercizi su distribuzioni doppie, dipendenza, correlazione e regressione (Statistica I, IV Canale)

Modo d impiego CONTROL PLUS. Vi ringraziamo per aver scelto un telecomando Meliconi. UTILIZZO TASTI E FUNZIONI

La regressione lineare. Rappresentazione analitica delle distribuzioni

VERIFICA IN CONTINUA E IN ALTERNATA DEL COMPORTAMENTO DI UN CONDENZATORE

Statistica. Alfonso Iodice D Enza

Vi ringraziamo per aver scelto un telecomando Meliconi.

Statistica. Alfonso Iodice D Enza

Parte II (Il Condizionamento)

= (dove V ed I sono valori efficaci).

RIASSUNTO TESI: L EVOLUZIONE DELL INFORMATIVA FINANZIARIA NEI BILANCI DELLE IMPRESE

Cosa vedremo. Lezione 4. Dati. Tipo di dato. Tipo di dato. I Dati: Gli oggetti che conosce il computer

Obiettivo. Dal problema al risultato Algoritmo. Imparare a PROGRAMMARE

EQUAZIONI DI MAXWELL

Dispensa di Statistica

Competenze, conoscenze ed abilità del secondo Biennio e del quinto Anno FISICA

2. Circuiti Lineari con Amplificatori Operazionali

MODELLO DI PROGRAMMAZIONE DISCIPLINARE PER COMPETENZE ANNO SCOLASTICO

La variabilità. Dott. Cazzaniga Paolo. Dip. di Scienze Umane e Sociali

ISTITUTO DI ISTRUZIONE SUPERIORE P.ALDI - GROSSETO SEZIONE LICEO SCIENTIFICO

Teoria e tecniche dei test. Concetti di base

SCOPO DELL ANALISI DI CORRELAZIONE

Metodologia Sperimentale Agronomica / Metodi Statistici per la Ricerca Ambientale

Regressione Lineare Semplice e Correlazione

Statistica. Alfonso Iodice D Enza

Fisica II. 13 Esercitazioni

Statistica. Alfonso Iodice D Enza

IL SECONDO PRINCIPIO DELLA TERMODINAMICA

L entropia e il II principio della termodinamica

SCHEMA DI VALUTAZIONE DELL OFFERTA

Metodi statistici per l economia (Prof. Capitanio) Slide n. 10. Materiale di supporto per le lezioni. Non sostituisce il libro di testo

La statistica. Elaborazione e rappresentazione dei dati Gli indicatori statistici. Prof. Giuseppe Carucci

La gestione informatizzata del farmaco

COMPITI VACANZE ESTIVE 2017 MATEMATICA Scuola Media Montessori Cardano al Campo (VA)

Analisi della sopravvivenza

Dispensa 3 CORSO DI PROGRAMMAZIONE A.A CORSO DI LAUREA IN SCIENZE E TECNOLOGIE INFORMATICHE CESENA. Laboratorio

PROGRAMMAZIONE D AREA DI MATEMATICA_. SECONDO BIENNIO e QUINTO ANNO (Liceo Scientifico/Scienze Applicate) ANNO SCOLASTICO DOCENTI:

Covarianza, correlazione e retta di regressione. Paola Lecca, CIBIO UNITN Corso di Matematica e Statistica 2

Perché i modelli concettuali?

= CAPITOLO I SISTEMI DI NUMERAZIONE E CODICI

Test ingresso lauree magistrali_fin Risposte

N. INSPX10 Rev. 00 SISTEMA DI MISURA DI ENERGIA ELETTRICA Data COMPENSAZIONE DELLE PERDITE

RISULTATI PROVE INVALSI

Abitabilità a Trento: un quadro interpretativo. Obiettivi dell analisi

Test ingresso FIN

Esercitazione di Statistica Indici di associazione

Premessa. misurazione dell energia elettrica nei casi di. Per la. essi di misura. provvede a stimare. non orari o che si tratti. giorno.

La variabilità. Antonello Maruotti

Statistica 1 A.A. 2015/2016

Distribuzioni secondo due caratteri. Rappresentazioni e prime sintesi

La media e la mediana sono indicatori di centralità, che indicano un centro dei dati.

Statistica. Alfonso Iodice D Enza

Università del Piemonte Orientale Specializzazioni di area sanitaria Statistica Medica

ESERCITAZIONE RETI IDRAULICHE

PROCEDURE/TECNICHE DI ANALISI / MISURE DI ASSOCIAZIONE A) ANALISI DELLA VARIANZA

Corso di Laurea in Scienze dell Organizzazione Facoltà di Sociologia, Università degli Studi di Milano-Bicocca a.a. 2009/2010.

Test ingress FIN

Amplificatore operazionale

Per risolvere le equazioni alle differenze si può utilizzare il metodo della Z-trasformata.

Transcript:

UNIVERSITA DEGLI STUDI DI PERUGIA DIPARTIMENTO DI FILOSOFIA SCIENZE SOCIALI UMANE E DELLA FORMAZIONE Crs di Laurea in Scienze per l'investigazine e la Sicurezza 8. REGRESSIONE E CORRELAZIONE Prf. Maurizi Pertichetti Statistica sciale

8. REGRESSIONE E CORRELAZIONE Cme abbiam già dett, nell'analisi dei dati si è sempre più interessati a studiare se tra due più caratteri, cngiuntamente cnsiderati sulle unità statistiche di una pplazine, vi pssa essere una qualche relazine ed eventualmente quale ne pssa essere la misura. E abbiam anche dett che in particlare vi è interesse a studiare l'esistenza di frme di dipendenza ( indipendenza) attravers l'esplicitazine di una funzine analitica. Nell'analisi statistica per regressine si intende la ricerca di un mdell att a descrivere la relazine esistente tra una variabile dipendente e una più variabili indipendenti esplicative. La scelta dell'una dell'altra variabile cme indipendente nn è arbitraria ma legata alla natura del fenmen, nel sens che si sceglie cme indipendente la variabile che sia lgicamente antecedente rispett all'altra. Per effettuare una regressine si fa riferiment a mdelli terici di vari tip: lineare, parablic, espnenziale, lgaritmic, etc. Per cui una vlta accertata l'esistenza di una relazine tra due variabili, si deve cercare di trvare la funzine statistica, vver l'espressine analitica di tale relazine stt frma di equazine che leghi fra lr le variabili. Per evidenziare il tip di legame tra le variabili è di ntevle ausili il diagramma in crdinate cartesiane, a dispersine, scatter plt, ssia il diagramma empiric cstituit dalle n cppie di sservazini sulle variabili e rappresentate da una nuvla di punti. Generalmente una funzine statistica è rappresentata in termini grafici da una spezzata, in cui si assumn cme variabili indipendenti le mdalità del carattere X, pste sull'asse delle ascisse, e cme variabili dipendenti le crrispndenti mdalità di Y, pste sull'asse delle rdinate. Dall'analisi del diagramma a dispersine è spess pssibile avere una rappresentazine intuitiva del tip di relazine e di cnseguenza di quale mdell teric (lineare, parablic, espnenziale, lgaritmic, etc cme dett) adttare. Cn interplazine si intende l'individuazine di una funzine matematica che passi per tutti i punti (,) dati fra di essi. La funzine csì individuata dvrà rappresentare al megli l'andament espress dai punti.

Il prcediment si attua sia analiticamente sia graficamente: la rappresentazine analitica cnsiste nel trvare una funzine matematica che rappresenti nel miglir md pssibile la distribuzine sservata del fenmen; la rappresentazine grafica cnsiste nel sstituire al diagramma rappresentativ dei dati sservati una curva terica assciata ad una funzine matematica. Per realizzare una crretta rappresentazine analitica in un prcess di interplazine, l statistic deve: mutuare dalla matematica una funzine terica in grad di rappresentare cn una legge matematica la distribuzine empirica, vver una vlta trvata, la legge matematica sstituirà nelle diverse applicazini la legge statistica; determinare numericamente i parametri che cmpain nella funzine matematica; verificare il grad di accstament tra i valri empirici ( sservati) delle frequenze delle intensità e i valri terici ttenuti attravers la funzine matematica. Limiterem l'analisi all'iptesi in cui la relazine tra variabili (causa effett) sia di tip lineare e pertant che la funzine terica atta a rappresentare tale relazine sia un'equazine di prim grad, vver che ad interplare efficacemente la nuvla di punti sia una retta. La retta sarà detta retta di regressine e la sua equazine sarà chiamata equazine di regressine di Y su X. Psta in frma esplicita, la generica equazine cannica di prim grad in due incgnite della retta di regressine è data da: * a+b. Ad gni equazine di quest tip, una vlta assegnati i valri ad a e b, crrispnde una e una sla retta del pian cartesian. Assunta cme variabile indipendente e cme variabile dipendente, dalla gemetria analitica sappiam che a e b sn numeri reali fissati nn cntempraneamente nulli: a b si chiama intercetta della retta sull'asse delle Y, vver il valre della quand ; si chiama ceficiente anglare della retta e da la sua pendenza, vver l'angl che essa frma cn l'asse delle ascisse. i * a+b b a i A secnda del valre assunt dal cefficiente b si desume l'assciazine tra X e Y, infatti se: b >, l'assciazine tra le variabili e è psitiva, nel sens che al crescere di anche cresce; b <, l'assciazine tra le variabili e è negativa, nel sens che al crescere di la variabile decresce; b, nn esiste assciazine lineare tra e. b > b < b

Se dunque è una retta, retta di regressine, il mdell più apprpriat in grad di descrivere la relazine tra le variabili il prblema che si pne è quell di individuare in maniera analitica la miglire retta interplante, ssia la miglire cppia di parametri a e b da utilizzare. Esistn diversi metdi per determinare i parametri di una funzine matematica in un prcediment di interplazine, tuttavia quell più utilizzat è il metd dei minimi quadrati che si definisce cme quel metd che cnsente di determinare valri dei parametri tali per cui la retta terica che ne risulta ha la prprietà di rendere minima la smma dei quadrati degli scarti tra valri terici e valri sservati. Immaginiam di aver effettuat alcune sservazini e di aver riprtat i risultati sul un diagramma in crdinate cartesiane. 11 8 1 12 6 5 2 4 1 1 2 3 4 5 6 7 8 9 1 11 12 Iptizzand l'esistenza di una relazine lineare, il prblema, per descrivere tale relazine tra le variabili, è quell di individuare in maniera analitica la miglire retta interplante. la retta, una vlta trvata, diverrà la reglarità matematica che sstituirà, megli dire apprssimerà, l'esperienza statistica, csicché ciascun dei valri i delle sservazini, vver della distribuzine empirica, in crrispndenza di ciascun valre di i sarà sstituit da quell teric i * del mdell che verrà ad incrciarsi cn la retta.

Se dunque si stabilisce che per ciascun valre di i, i valri terici sn dati dalle i *, mentre i valri sservati sn dati dalle i, e altresì che la funzine interplatrice è Y* f(; a,b), quell dei minimi quadrati è il metd che cnsente di determinare i valri dei parametri di quella retta terica in grad di rendere la (*) 2 min, vver di rendere minima la smma dei quadrati degli scarti (nel grafic che segue, dve ne sn stati presi due a cas cme esempi, gli scarti sn quelli evidenziati in rss) tra valri terici e valri sservati. i j i * j * i i j Date due variabili X e Y, se la funzine terica è lineare, ciè del tip Y* a + bx, la teria dimstra che i parametri a e b determinati cn il metd dei minimi quadrati crrispndn alle seguenti espressini: n b μ n 2 ( ) 2 a bμ E si dimstra altresì che la retta dei minimi quadrati ha la caratteristica di passare per il baricentr della nuvla dei punti identificat dalle crdinate (μ, μ ), vver le medie delle distribuzini dei due caratteri. Esempi di determinazine dell equazine cannica della retta di regressine di Y su X. 4 1 7 3 1 5 11 6 14 8 46 23 4 21 2 16 49 5 1 66 121 112 196 253 482 μ 9,2 μ 4,6 b n n 2 ( ) 2 5*25346*23 27, 5*482(46) 294, 2,741 ppure b /n 253(46*23)/5 253, 211,6 41,4 2 ( ) 2 /n 482(46) 2 /n 482, 423,2 58,8,741 a μ bμ 4,6,741*9,2 1,8776 Y* a + bx Y* 1,8776 +,741X Y* 1,8776 +,741X 1,8776 +,741*9,2 4,6

Ulteriri espressini per il calcl del parametr b. 2 4 1 4 16 7 3 21 49 μ 9,2 1 5 5 1 μ 4,6 11 6 66 121 14 8 112 196 46 23 253 482 (Xμ) 5,2 2,2,8 1,8 4,8, (Yμ) 3,6 1,6,4 1,4 3,4, (Xμ)*(Yμ) 18,72 3,52,32 2,52 16,32 41,4 (Xμ) 2 27,4 4,84,64 3,24 23,4 58,8 (Xμ)*(Yμ) b (Xμ) 2 41,4 58,8,741 Cv (X,Y) b Var (X) (XY)/n(μ *μ ) 253 / 5 9,2 * 4,6 X 2 /n(μ ) 2 482 / 5 84,64 8,28 11,76,741 Una vlta scelta la funzine da adattare alla distribuzine empirica e i relativi parametri, l'esigenza che si pne è quella di valutare il grad di affidabilità del mdell. Si rende pprtun ciè misurare la dispersine dei dati sservati intrn alla retta prescelta. Tra i diversi indici elabrati assume particlare riliev l'indice di determinazine lineare. Si tratta di un indice della bntà di accstament della retta di regressine alla nuvla di punti sservati. In simbli R 2 1 L'indice di determinazine lineare è in grad di frnire la frza della relazine rappresentata dalla retta di regressine. Se vale significa che la variabilità dei valri di Y nn risulta spiegata dalla regressine. Quand vale 1 tutti i punti sperimentali giaccin sulla retta di regressine, per cui la regressine spiega una gran parte della variabilità dei valri di Y e quindi il mdell di regressine è apprpriat per descrivere l'assciazine tra le variabili. Esempi di calcl dell'indice di determinazine R 2 8 1 98 2 1.4 3 1.2 4 1.24 5 1.55 6.81 *8+134 μ 1.135 ( * ) 2 ( μ ) 2 * 8 934 1.68 1.22 1.336 1.47 6.81 * 46 28 2 96 8 (*) 2 2.116 784 4 9.216 6.4 18.52 < R 2 < 1 (μ ) 2 112.225 24.25 9.25 4.225 11.25 172.225 332.75 R 2 1 ( * ) 2 ( μ ) 2 18.52 1 332.75 1,557,9443 Il risultat evidenzia un ttim accstament. Va altresì sttlineat che nel metd dei minimi quadrati applicat al mdell di regressine lineare semplice, la smma dei dati sservati è sempre uguale a quella dei dati terici.

Nell'analisi statistica di una distribuzine dppia di caratteri entrambi quantitativi, una trattazine a parte è dedicata all studi di una particlare relazine: l'interdipendenza. Per misurare la crrelazine tra due variabili è necessari fare riferiment alla cvarianza, la cui espressine è: ρ ( μ Cv(X,Y) Ϭ )( μ ) n La cvarianza è una misura della cntempranea variazine di due caratteri X e Y, che ltre a descrivere la dispersine delle variabili, esprime anche la relazine tra lr. Il su segn, a differenza di quell della varianza che è sempre psitiv, può essere psitiv negativ, a secnda che la relazine tra le due variabili sia, rispettivamente, diretta (ci sia ciè cncrdanza), inversa (se vi è discrdanza). Il numeratre della cvarianza, indicat cn Cd(X,Y), è denminat cdevianza. La cvarianza cstituisce il numeratre di un'imprtante misura del grad di dipendenza lineare tra le due variabili: il cefficiente di crrelazine lineare di BravaisPearsn, la cui espressine è: Ϭ Ϭ Ϭ ( μ )( μ ) ( μ ) 2 * ( μ ) 2 dve Ϭ Ϭ sn l scart quadratic medi, rispettivamente della variabile X e della variabile Y. Il cefficiente di crrelazine assume valri cmpresi tra 1 e +1 : 1 ρ +1 se ρ nn vi è relazine di tip lineare tra i due caratteri (sn linearmente incrrelati). μ ρ μ se ρ ± 1 esiste, tra i due caratteri, un legame lineare perfett di tip cncrde (ρ + 1) discrde (ρ 1). μ ρ +1 ρ 1 μ μ talvlta ρ può assumere un valre elevat pur nn sussistend alcuna relazine tra le variabili, ma per l'influenza esercitata sulle stesse da un più fattri cmuni, in tal cas si dice che esiste una crrelazine spuria.

Il cefficiente di crrelazine lineare di BravaisPearsn, può essere espress anche nel seguente md: ρ n 2 ( ) 2 * n 2 ( ) 2 Riassumend: il cefficiente di crrelazine lineare di BravaisPearsn ρ è un indice della linearità della relazine fra le variabili X e Y. Valri di ρ vicini a +1 1 indican un'elevata linearità della relazine, quindi l'interplazine lineare frnisce un'ttima apprssimazine. Viceversa, valri di ρ vicini all indican indipendenza tra X e Y ppure una relazine nn lineare. Inltre, cme si è vist, se il cefficiente è psitiv, Y tende ad aumentare cn X e l'inclinazine della retta dei minimi quadrati è psitiva, mentre se il cefficiente è negativ Y tende a diminuire all'aumentare di X e l'inclinazine della retta dei minimi quadrati è negativa. Si dimstra che cefficiente di crrelazine lineare di BravaisPearsn, è pari alla radice quadrata dell'indice di determanazine lineare, in simbli: ρ ± R 2 n Piché ρ assume valri fra +1 e 1 e R 2 assume valri fra e +1, tant più R 2 è prssim a +1, tant miglire sarà la rappresentazine di Y tramite le retta di regressine. E' evidente che se R 2 1 ( ciè ρ ± 1), allra Y è linearmente dipendente da X ed esiste una regressine lineare perfetta ( crrelazine lineare perfetta). La retta di regressine è quindi in grad di rappresentare perfettamente Y. Esempi di calcl dell'indice di determinazine R 2 e di ρ * * (*) 2 (μ ) 2 8 8 112.225 1 98 934 46 2.116 24.25 2 1.4 1.68 28 784 9.25 3 1.2 1.22 2 4 4.225 4 1.24 1.336 96 9.216 11.25 5 1.55 1.47 8 6.4 172.225 15 6.81 6.81 18.52 332.75 μ 1.135 *8+134 R 2 ρ 33 225 Il risultat fa rilevare una crrelazine diretta tra le due variabili. Si dimstra anche che: ρ 1 ( * ) 2 18.52 ( μ ) 2 1 332.75 n n 2 ( ) 2 * n 2 ( ) 2 116.22 * 12.15 ± R 2 ±,9443,9718 48.372.6 1 2 1 4 9 16 25 55,557 2 64. 96.4 1.81.6 1.44. 1.537.6 2.42.5 8.62.1,9443 6*19.37 15*6.81 6*55 (15 ) 2 * 6*8.62.1 (6.81) 2 46.376.1 14.7 14.478,691 98 2.8 3.6 4.96 7.75 19.37,9718

Altri esempi di calcl dell'indice di determinazine di ρ 2 2 1 2 1 4 2 4 4 1.6 3 6 9 3.6 4 8 16 6.4 5 1 25 1. 15 3 55 22. 2 8 18 32 5 1.1 n ρ n 2 ( ) 2 * n 2 ( ) 2 6*1.1 15*3 6*55 (15 ) 2 * 6*22. (3) 2 6.6 4.5 33 225 * 132. 9. 2.1 1, 2.1 2 2 25 62.5 1 8 1 64. 8 2 5 4 25 1 3 9 4 6 16 3.6 24 5 25 15 1.115 55 76.125 1.5 ρ n n 2 ( ) 2 * n 2 ( ) 2 6 * 1.5 15 * 1.115 6 * 55 225 * 6 * 76.125 1.243.225 6.3 33 225 * 16.725 4.236.75 1.243.225 1.425 17.729,1,588