Relazioni statistiche: regressione e correlazione



Documenti analoghi
Il concetto di valore medio in generale

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 8

Regressione Mario Guarracino Data Mining a.a. 2010/2011

Capitolo 12 La regressione lineare semplice

Analisi bivariata. Dott. Cazzaniga Paolo. Dip. di Scienze Umane e Sociali paolo.cazzaniga@unibg.it

SOLUZIONI D = (-1,+ ).

LA CORRELAZIONE LINEARE

1. Distribuzioni campionarie

RELAZIONE TRA VARIABILI QUANTITATIVE. Lezione 7 a. Accade spesso nella ricerca in campo biomedico, così come in altri campi della

MINIMI QUADRATI. REGRESSIONE LINEARE

13. Campi vettoriali

Fondamenti e didattica di Matematica Finanziaria

VARIANZA CAMPIONARIA E DEVIAZIONE STANDARD. Si definisce scarto quadratico medio o deviazione standard la radice quadrata della varianza.

Dimensione di uno Spazio vettoriale

Analisi delle relazioni tra due caratteri

Teoria in sintesi 10. Attività di sportello 1, 24 - Attività di sportello 2, 24 - Verifica conclusiva, 25. Teoria in sintesi 26

VARIABILI ALEATORIE MULTIPLE E TEOREMI ASSOCIATI. Dopo aver trattato delle distribuzioni di probabilità di una variabile aleatoria, che

Esempi di funzione. Scheda Tre

FUNZIONE. Si scrive: A B f: A B x y=f(x) (si legge: f funzione da A in B) x f y= f(x)

Prova di autovalutazione Prof. Roberta Siciliano

Laboratorio di Didattica dell analisi: Analisi a priori sulla funzione valore assoluto

Dott.ssa Caterina Gurrieri

Un po di statistica. Christian Ferrari. Laboratorio di Matematica

LE FUNZIONI A DUE VARIABILI

FASCI DI RETTE. scrivere la retta in forma esplicita: 2y = 3x + 4 y = 3 2 x 2. scrivere l equazione del fascio di rette:

Metodologia per l analisi dei dati sperimentali L analisi di studi con variabili di risposta multiple: Regressione multipla

STATISTICA DESCRITTIVA SCHEDA N. 5: REGRESSIONE LINEARE

LA RETTA. Retta per l'origine, rette orizzontali e verticali

INTEGRALI DEFINITI. Tale superficie viene detta trapezoide e la misura della sua area si ottiene utilizzando il calcolo di un integrale definito.

Analisi della performance temporale della rete

La categoria «ES» presenta (di solito) gli stessi comandi

CONCETTO DI LIMITE DI UNA FUNZIONE REALE

Capitolo 13: L offerta dell impresa e il surplus del produttore

Indici di dispersione

Statistica. Le rappresentazioni grafiche

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 1

Funzioni. Parte prima. Daniele Serra

Prof. Silvio Reato Valcavasia Ricerche. Il piano cartesiano

STATISTICA IX lezione

Prof.ssa Paola Vicard

DOMINIO E LIMITI. Esercizio 3 Studiare gli insiemi di livello della funzione f, nei seguenti casi: 1) f(x,y) = y2 x 2 + y 2.

1. PRIME PROPRIETÀ 2

.y 6. .y 4. .y 5. .y 2.y 3 B C C B. B f A B f -1

0 < a < 1 a > 1. In entrambi i casi la funzione y = log a (x) si può studiare per punti e constatare che essa presenta i seguenti andamenti y

GIROSCOPIO. Scopo dell esperienza: Teoria fisica. Verificare la relazione: ω p = bmg/iω

ESAME DI STATO DI LICEO SCIENTIFICO CORSO SPERIMENTALE P.N.I. 2004

(a cura di Francesca Godioli)

E naturale chiedersi alcune cose sulla media campionaria x n

Esercizi su dominio limiti continuità - prof. B.Bacchelli. Riferimenti: R.Adams, Calcolo Differenziale 2. Capitoli 3.1, 3.2.

MATEMATICA 5 PERIODI

2. Leggi finanziarie di capitalizzazione

Corso di laurea in Scienze Motorie Corso di Statistica Docente: Dott.ssa Immacolata Scancarello Lezione 14: Analisi della varianza (ANOVA)

Excel Terza parte. Excel 2003

PROBABILITÀ - SCHEDA N. 2 LE VARIABILI ALEATORIE

Funzioni inverse Simmetrie rispetto alla bisettrice dei quadranti dispari. Consideriamo la trasformazione descritta dalle equazioni : = y

Pro e contro delle RNA

1 Associazione tra variabili quantitative COVARIANZA E CORRELAZIONE

Correzione dell Esame di Statistica Descrittiva (Mod. B) 1 Appello - 28 Marzo 2007 Facoltà di Astronomia

LE FUNZIONI MATEMATICHE

Capitolo 2 Distribuzioni di frequenza

FUNZIONI / ESERCIZI SVOLTI

Studio di funzioni ( )

Soluzione di equazioni quadratiche

LEZIONE n. 5 (a cura di Antonio Di Marco)

SOLUZIONE DEL PROBLEMA 1 TEMA DI MATEMATICA ESAME DI STATO 2015

LE SUCCESSIONI 1. COS E UNA SUCCESSIONE

1) A partire dalla seguente tabella a doppia entrata per le variabili QUALIFICA FUNZIONALE e STIPENDIO PERCEPITO (3 classi): STIPENDIO PERCEPITO

MATEMATICA. { 2 x =12 y 3 y +8 x =0, si pone il problema di trovare, se esistono, un numero x ed un numero y che risolvano entrambe le equazioni.

ESERCIZI SVOLTI PER LA PROVA DI STATISTICA

LEZIONE 31. B i : R n R. R m,n, x = (x 1,..., x n ). Allora sappiamo che è definita. j=1. a i,j x j.

Dimensionamento delle strutture

Lezione 10: Il problema del consumatore: Preferenze e scelta ottimale

LEZIONE 7. Esercizio 7.1. Quale delle seguenti funzioni è decrescente in ( 3, 0) e ha derivata prima in 3 che vale 0? x x2. 2, x3 +2x +3.

MD 9. La macroeconomia delle economie aperte. UD 9.1. Macroeconomia delle economie aperte

Funzioni. Funzioni /2

Slide Cerbara parte1 5. Le distribuzioni teoriche

STUDIO DEL SEGNO DI UNA FUNZIONE

Anno 5 4. Funzioni reali: il dominio

Statistica Applicata all edilizia Lezione 2: Analisi descrittiva dei dati

Basi di matematica per il corso di micro

Geometria analitica di base (prima parte)


TRAVE SU SUOLO ELASTICO

SEGNO DELLA FUNZIONE. Anche in questo caso, per lo studio del segno della funzione, occorre risolvere la disequazione: y > 0 Ne segue:

I NUMERI DECIMALI. che cosa sono, come si rappresentano

Consideriamo due polinomi

GEOMETRIA DELLE MASSE

2 + (σ2 - ρσ 1 ) 2 > 0 [da -1 ρ 1] b = (σ ρσ1 σ 2 ) = (σ 1

Per studio di funzione intendiamo un insieme di procedure che hanno lo scopo di analizzare le proprietà di una funzione f ( x) R R

2 FUNZIONI REALI DI VARIABILE REALE

Amplificatori Audio di Potenza

Statistica descrittiva: prime informazioni dai dati sperimentali

1. Scopo dell esperienza.

Probabilità II Variabili casuali discrete

Statistica Matematica A - Ing. Meccanica, Aerospaziale I prova in itinere - 19 novembre 2004

11. Analisi statistica degli eventi idrologici estremi

Indice. 1 La disoccupazione di 6

Il coefficiente di correlazione di Spearman per ranghi

0. Piano cartesiano 1

Transcript:

Relazioni statistiche: regressione e correlazione È detto studio della connessione lo studio si occupa della ricerca di relazioni fra due variabili statistiche o fra una mutabile e una variabile statistica o fra due Mutabili statistiche. È di notevole interesse perché permette di individuare legami fra fenomeni diversi. Tale e può essere effettuato sia sull intera popolazione statistica, sia su un campione estratto da essa. Esistono metodi diversi per la ricerca della connessione secondo che si vogliano esaminare i legami fra due variabili, oppure fra due mutabili, oppure fra una variabile e una mutabile. In statistica è più importante lo studio della connessione fra due variabili, studio che si può effettuare o ricercando se una variabile è dipendente dall altra, oppure se si influenzano reciprocamente. Funzione di Regressione E la funzione che esprime il legame di dipendenza dì una variabile dall altra è molto utile perché permette di valutare, entro i limiti dell intervallo dei dati rilevati, il valore della variabile dipendente al variare della variabile indipendente. Ad esempio, se di un bene, non di prima necessità, sì sono rilevate, al variare del prezzo, le relative quantità domandate, si può determinare, mediante il metodo dei minimi quadrati, la funzione della domanda che esprime il legame fra il prezzo e la quantità domandata dai consumatori e quindi il produttore ha la possibilità di prevedere, per un prezzo prefissato, la corrispondente quantità di bene domandata. La funzione più utilizzata, soprattutto se i dati rilevati sono numerosi, è la funzione lineare; sì parla allora di regressione lineare. Se invece fra le due variabili non esiste un legame di dipendenza di una variabile dall altra si possono verificare i seguenti casi: esse possono influenzarsi reciprocamente, cioè esiste fra loro una correlazione. possono essere entrambe dipendenti da un altra grandezza possono essere indipendenti. Il confronto fra due variabili si effettua solo se fra esse esiste un legame logico, perché la meccanica applicazione delle diverse tecniche può portare a risultati assurdi. Correlazione fra due variabili La correlazione si misura mediante indici ed esprime la «forza», o «intensità», del loro legame. Fra i vari indici introdotti il più importante e il più utile è il coefficiente di correlazione lineare. Talvolta l analisi della correlazione precede lo studio della regressione, in quanto una variabile viene confrontata con varie altre per vedere quelle più connesse fra loro. Correlazione fra due mutabili o fra una variabile e una mutabile Il loro grado di correlazione è dato da alcuni indici di cui il più importante è quello di Pearson.

Regressione lineare Siano X e Y due variabili statistiche (oppure, come si preferisce dire, sia data una variabile statistica doppia di cui X e Y sono le componenti), consideriamo le coppie (x i, y i ) dei valori associati; se il numero delle coppie non è grande, si usa una Tabella a semplice entrata, altrimenti una Tabella a doppia entrata. Per prima cosa occorre fare una rappresentazione grafica mediante un diagramma, che rappresenta le coppie dei valori rilevati (x i, y i ); si ottiene così un diagramma a dispersione. Sia Y la variabile dipendente e X la variabile indipendente. Se esiste una relazione lineare, i punti si distribuiscono vicino a una retta, come nei primi due schemi qui riportati di diagrammi a dispersione; se invece i punti sono molto dispersi, come nel terzo schema, non esiste alcuna relazione. Retta di regressione di Y rispetto a X Si ottiene applicando il Metodo dei minimi quadrati: Il coefficiente di regressione b 1 indica di quanto varia lay al variare di una unità di X e se Y è crescente o decrescente. Se, per esempio, b 1 valesse 10, al crescere di una unità di X, la Y crescerebbe di 10 unità, mentre se b1 valesse 0,5, al crescere di una unità di X, la Y crescerebbe di mezza unità. Retta di regressione di X rispetto a Y Si può anche determinare, se ha senso logico, la retta di regressione di X rispetto a Y, che ha equazione (ottenuta dalla precedente scambiando X con Y): Le rette di regressione possono anche essere scritte nel modo seguente, sostituendo ad a 1 e a 2 le loro espressioni:

da cui si deduce che entrambe passano per il punto ( ( y) x; baricentro della distribuzione, le cui coordinate sono le medie aritmetiche, rispettivamente dei valori di X e dei valori di Y. Le due rette di regressione coincidono quando tutti i punti del diagramma a dispersione appartengono a una retta, invece quanto maggiore è la dispersione, tanto maggiore è l angolo formato dalle due rette. Caso estremo si ha quando b 1 = b 2 = 0; le rette, allora, hanno equazione y = y e x = x e sono, quindi, parallele agli assi cartesiani. È però importante notare che la condizione b 1 = b 2 = 0, in generale, non indica che le due variabili X e Y sono indipendenti, ma piuttosto indica che non esiste regressione lineare, ossia che le due variabili non sono linearmente dipendenti, potrebbero però essere legate da una relazione di tipo parabolico, o di tipo esponenziale ecc. (Vedi esempi 1,2,3). Correlazione fra due variabili L analisi della correlazione fra due variabili conduce a misurare la forza, o l intensità, del legame fra le due variabili. Si misura mediante l indice di Bravais-Pearson detto Indice di correlazione lineare Tale indice può essere espresso mediante la covarianza fra X ed Y (varianza congiunta) la varianza di X e la varianza di y. Sostituendo si ottiene:

Se tutti i punti giacciono su una retta parallela all asse delle ascisse, o parallela all asse delle ordinate l indice r assume la forma indeterminata 0/0 perché si annullano numeratore e denominatore. Relazione fra r e i coefficienti angolari delle rette di regressione b 1 e b 2 Questa relazione ci permette di dimostrare facilmente che se le due rette di regressione coincidono il coefficiente r vale + 1 oppure meno 1. Infatti in tal caso risulta b 2 = 1 / b1

Varianza spiegata e Varianza non spiegata Elevando a quadrato e sommando, per gli n punti si ottiene: Poiché si dimostra sostituendo che l ultima sommatoria è nulla = Varianza attribuibile alla relazione che sussiste fra X ed Y. Viene detta Varianza spiegata. E calcolata come differenza dalla retta di regressione dal valore medio. = E detta varianza non spiegata in quanto non è imputabile alla relazione fra X ed Y ma ad altri fattori.

Esempio Coefficiente di determinazione

Esempio Esempio Calcolare il coefficiente di correlazione lineare fra le variabili X e Y della Tabella dell esercizio 3.