REGRESSIONE lineare e CORRELAZIONE. Con variabili quantitative che si possono esprimere in un ampio ampio intervallo di valori
|
|
- Benvenuto Costantino
- 7 anni fa
- Visualizzazioni
Transcript
1 REGRESSIONE lineare e CORRELAZIONE Con variabili quantitative che si possono esprimere in un ampio ampio intervallo di valori Y X La NATURA e la FORZA della relazione tra variabili si studiano con la REGRESSIONE e la CORRELAZIONE FORMA della relazione OBIETTIVO: predire o stimare il valore di una variabile in corrispondenza di un dato valore dell altra variabile Misura la FORZA della relazione
2 Y C è un buon adattamento dei dati alla retta ma il modello curvilineo fornisce un miglior adattamento Y X La relazione è lineare, è sufficientemente forte da giustificare l uso dell equazione per predire Y da X X Y la relazione non è lineare, il modello curvilineo descrive meglio i dati X
3 Non sussiste relazione tra le variabili, ovvero al variare di X non corrisponde una variazione analoga di Y Y X La relazione sussiste è lineare ma non è sufficientemente forte da far sì che X serva a predire Y La relazione è lineare, è sufficientemente forte da giustificare l uso dell equazione per predire Y da X, ma si evidenziano due punti outliers
4 MODELLO DI REGRESSIONE lineare semplice X Y Variabile INDIPENDENTE, controllata dal ricercatore. Vale a dire, il ricercatore sceglie un valore di X ed ottiene uno o più valori di Y Variabile DIPENDENTE (regressione di Y su X) Y = α + βx + e I valori della variabile Y dipendente sono determinati dai valori della variabile X indipendente in relazione ad un coefficiente angolare β, ad un valore α di intercetta ed un valore e di errore residuo casuale Assunzioni : L-I-N-E L = Linearità della relazione I = Indipendenza dei campioni N = Normalità delle distribuzioni E = Eguaglianza delle varianze di Y 130
5 f (X,Y) µ y x = α + βx Y X 2 X 1 µ y x1 µ y x2 X 3 µ y x3 X X 4 µ y x4 Inoltre: 1. X è detta variabile FISSA. I valori di X sono scelti dal ricercatore. X è una variabile NON CASUALE 2. X è misurata senza errore (l errore di misura in X è trascurabile) 3. Per ogni valore di X c è una sottopopolazione di Y; questa sottopopolazione deve essere DISTRIBUITA NORMALMENTE 4. Le VARIANZE delle sottopopolazioni Y sono UGUALI 5. Le MEDIE delle sottopopolazioni di Y giacciono sulla STESSA RETTA ( linearità) 6. I valori di Y sono STATISTICAMENTE INDIPENDENTI. Quando estraiamo un campione assumiamo che i valori di Y estratti in corrispondenza di un dato X in nessun modo dipendono dai valori di Y estratti per un altro valore di X.
6 L equazione della retta è Y= a + bx Determinazione della retta di regressione, ovvero dei coefficienti beta ed alfa, b ed a. In funzione della retta dei minimi quadrati ovvero quella che rende minori, rispetto a qualsiasi altra retta, le distanze dei punti dalla linea determinata dalla funzione y= bx+a DEVIAZIONE RETTA AI MINIMI QUADRATI
7 Calcolo manuale dei coefficienti a e b b = n n xy x 2 ( x)( y) ( x) 2 a = y b n x Nel corso non vengono effettuati calcoli Manuali ed i coefficienti sono determinati mediante Excel, R o Stata Esempio di regressione lineare file dati regressionelm1.xls Grafico tipo dispersione XY, inserisci linea di tendenza Visualizza equazione e R 2 ( attenzione a R 2 = coefficiente di determinazione non r Pearson di correlazione r Pearson = radq di R 2 )
8 statura/peso statura=x peso =Y regressione del peso sulla statura peso Kg y = x R 2 = peso Lineare (peso) statura m età/statura età=x statura=y regressione della statura sull'età y = x R 2 = statura m età anni statura Lineare (statura)
9 Regressione lineare semplice in R Dopo aver aperto il file dati e comandi base > fit= lm(peso~ statura) >coefficients(fit) (Intercept) statura alfa beta Y= X Statura=X peso= Y fit= lm(statura~eta) > coefficients(fit) (Intercept) eta alfa beta Y= X Età=X Statura= Y
10 SIGNIFICATIVITA DEI COEFFICIENTI E FORZA DELLA RELAZIONE Prima di giungere a qualsiasi conclusione rispetto alla analisi di regressione E necessario valutare la significatività dei coefficienti della regressione mediante test di ipotesi specifici valutare la forza della relazione con i coefficiente di correlazione r e di determinazione R 2 valutare la bontà del modello di regressione mediante l analisi dei residui
11 Significatività dei coefficienti I pacchetti statistici forniscono analisi relative alla significatività dei coefficienti mediante: 1) La determinazione dell errore standard dei coefficienti alfa e beta e quindi con il calcolo di un valore di t di Student e relativa probabilità sotto l ipotesi H0 che i coefficienti alfa e beta hanno valore 0 e Ha valore diverso da 0 2) Viene fornito l intervallo di confidenza degli stessi coefficienti per cui a seconda che se esso contenga o meno 0 è possibile decidere in merito alla loro significatività 3) Viene effettuato un test F relativo al rapporto varianza dovuta alla regressione (scarto quadratico medio dei valori calcolati dalla retta sulla media generale) / varianza dei residui (scarto quadratico medio dei valori effettivi da quelli della retta) Nella ipotesi H0 che il rapporto sia 1 ( ovvero che la retta di regressione sia poco esplicativa della dispersione dei dati) Rispetto alla Ha rapporto > di 1 ( ovvero che la retta di regressione sia ben esplicativa della dispersione dei dati) Vedi anche schema grafico coefficiente determinazione
12 Esempio di regressione lineare file dati regressionelm1.xls Regressione statura (x) peso (y) Statistica della regressione R multiplo R al quadrato R al quadrato corretto Errore standard Osservazioni ANALISI VARIANZA gdl SQ MQ F Significatività F Regressione Residuo Totale Coefficienti Errore standard Stat t Valore di significatività Inferiore 95% Superiore 95% Intercetta statura Il coefficiente beta = è diverso da 0 in maniera significativa. Il suo IC al 95% non contiene 0. La pendenza è quindi significativamente diversa da 0. Il coefficiente alfa intercetta non è diverso da 0, il suo IC 95% contiene 0, l intercetta alfa non è diversa da 0 La regressione è significativa ovvero il rapporto tra varianza dovuta alla regressione / varianza dovuta ai residui è > di 1, ovvero la retta spiega la variazione e la relazione
13 Comandi in R statura (x) peso (y) > fit= lm(peso~ statura) > summary(fit) Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) statura ** --- Signif. codes: 0 *** ** 0.01 * Residual standard error: on 33 degrees of freedom Multiple R-squared: , Adjusted R-squared: F-statistic: on 1 and 33 DF, p-value: Il coefficiente beta =86.04 è diverso da 0 in maniera significativa. La pendenza è quindi significativamente diversa da 0. Il coefficiente alfa intercetta non è diverso da 0, La regressione è significativa ovvero il rapporto tra varianza dovuta alla regressione / varianza dovuta ai residui è > di 1, ovvero la retta spiega la variazione e la relazione Viene fornito anche il coefficiente R 2 di determinazione
14 Esempio di regressione lineare file dati regressionelm1.xls OUTPUT RIEPILOGO Statistica della regressione R multiplo R al quadrato R al quadrato corretto Errore standard Osservazioni Regressione eta (x) statura (y) ANALISI VARIANZA gdl SQ MQ F Significatività F Regressione Residuo Totale Coefficienti Errore standard Stat t Valore di significatività Inferiore 95% Superiore 95% Intercetta eta Il coefficiente beta = non è diverso da 0 in maniera significativa. Il suo IC al 95% contiene 0. La pendenza è quindi non significativamente diversa da 0. Il coefficiente alfa intercetta è diverso da 0, il suo IC 95% non contiene 0, l intercetta alfa è diversa da 0 La regressione è non significativa per alfa= 0.05 (ma lo è per alfa=0.1) ovvero il rapporto tra varianza dovuta alla regressione / varianza dovuta ai residui non è > di 1, ovvero la retta non spiega la variazione e la relazione.
15 Comandi in R eta (x) statura (y) > fit= lm (statura~ eta) > summary(fit) Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) <2e-16 *** eta Signif. codes: 0 *** ** 0.01 * Residual standard error: on 33 degrees of freedom Multiple R-squared: , Adjusted R-squared: F-statistic: on 1 and 33 DF, p-value: Il coefficiente beta = non è diverso da 0 in maniera significativa. La pendenza è quindi non significativamente diversa da 0. Il coefficiente alfa intercetta è diverso da 0. La regressione è non significativa per alfa= 0.05 (ma lo è per alfa=0.1) ovvero il rapporto tra varianza dovuta alla regressione / varianza dovuta ai residui non è > di 1, ovvero la retta non spiega la variazione e la relazione. Viene fornito anche il coefficiente R 2 di determinazione
16 COEFFICIENTE DI DETERMINAZIONE Per valutare la forza dell equazione di regressione possiamo confrontare la dispersione dei punti intorno alla retta e la dispersione dei punti intorno alla media Y ( Y ) Y media La dispersione intorno alla retta è molto MINORE di quella intorno alla media! non possiamo giudicare ad occhio MA dobbiamo trovare una MISURA OGGETTIVA X COEFFICIENTE DI DETERMINAZIONE
17 120 Y i deviazione non spiegata deviazione totale deviazione spiegata 60 Y Yˆi Consideriamo un punto Y i Distanza verticale dalla retta Y Distanza verticale tra la retta di ^ regressione Y e la retta Y Mostra quanto della deviazione totale può essere ridotto quando si fitta una retta di regressione ai dati Distanza verticale tra il punto osservato Y i e la retta di regressione Y Cioè quella deviazione che rimane dopo aver fittato la retta di regressione ^ DEVIAZIONE TOTALE y i y DEVIAZIONE SPIEGATA yˆ y DEVIAZIONE NON SPIEGATA y i yˆ
18 ( y y) = ( yˆ y) + ( y yˆ ) i i i i DEV. TOTALE DEV. SPIEGATA DEV. NON SPIEGATA Se noi misuriamo queste deviazioni al quadrato e le sommiamo su tutti i punti: 2 ( ) 2 y = ( ˆ ) + ( ˆ i y yi y yi yi ) SOMMA QUADRATI TOTALE SOMMA QUADRATI SPIEGATI 2 SOMMA QUADRATI NON SPIEGATI SST SSR SSE SST = SSR + SSE SST, SSR, SSE sono misure di dispersione SST: dispersione dei valori di y intorno alla media SSR: dispersione dei valori di y spiegata dalla relazione lineare tra Y ed X SSE: dispersione dei valori di y intorno alla retta di regressione
19 La retta descrive bene la relazione tra Y ed X se i valori determinati dalla retta sono vicini a tutti quelli reali ovvero se la deviazione dei valori SPIEGATA dalla retta (distanze dalla retta dalla media generale) costituisce una ampia porzione della deviazione TOTALE (distanze dei valori reali dalla media generale ). Per determinare la grandezza di questa porzione È necessario calcolare il rapporto SSR/SST ovvero la somma dei quadrati spiegati dalla regressione / somma dei quadrati totale Questo rapporto identifica il coefficiente di determinazione r = SSR 2 Coefficiente di determinazione SST Tanto più grande è r 2 tanto meglio la RETTA fitta i dati 149
20 r 2 = r 2 = 0.40 a b r 2 grande, adeguamento ottimo r 2 piccolo, adeguamento povero r 2 = 1 r 2 = 0 c d r 2 = 1 r 2 = 0 150
21 Comandi in R > fit= lm(peso~ statura) > summary(fit) Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) statura ** --- Signif. codes: 0 *** ** 0.01 * Residual standard error: on 33 degrees of freedom Multiple R-squared: , Adjusted R-squared: F-statistic: on 1 and 33 DF, p-value: Nell esempio di analisi prima effettuato Il coefficiente beta =86.04 è diverso da 0 La regressione è significativa coefficiente R 2 di determinazione indica che la regressione statura/peso spiega solo il 21,14% della variabilità del peso che quindi è influenzato anche da altri fattori oltre la statura ( es. robustezza, massa grassa, obesità)
22 Comandi in R eta (x) statura (y) > fit= lm (statura~ eta) > summary(fit) Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) <2e-16 *** eta Signif. codes: 0 *** ** 0.01 * Residual standard error: on 33 degrees of freedom Multiple R-squared: , Adjusted R-squared: F-statistic: on 1 and 33 DF, p-value: Il coefficiente beta = non è diverso da 0 in maniera significativa. La regressione è non significativa coefficiente R 2 di determinazione indica che la regressione eta/statura spiega solo il 9,71% della variabilità dell età che quindi appare poco legata alla statura
23 ANALISI DEI RESIDUI Per la verifica della bontà del modello della regressione si effettua una analisi dei residui, ovvero della distribuzione delle differenza (scarti-residui) tra i valori effettivi dei punti XY e quelli determinati dalla retta di regressione. I valori dei residui vengono standardizzati-normalizzati in maniera tale da variare attorno al valore 0 ed assumere valori corrispondenti a probabilità di Z normale standardizzata, per cui valori di residui pari o superiori a e quindi corrispondenti a probabilità molto basse (inferiori al 0.05, 5%) devono essere presenti in numero molto limitato. In un buon modello di regressione i valori dei residui si collocano in una fascia ristretta attorno ai valori determinati dalla retta di regressione, i residui si distribuiscono inoltre con una distribuzione normale gaussiana simmetrica attorno ai valori della retta di regressione. In un modello non buono i valori dei residui standardizzati spaziano in una fascia molto amplia con molti casi che eccedono i valori +-2. In un modello non buono di regressione i valori dei residui standardizzati risentono di una tendenza ad aumentare, diminuire o variare in funzione dei valori della Y prevista dalla regressione ( e quindi anche della avariabile X).
24 modello buono: residui in una fascia ristretta ed uniforme modello non buono: residui in una fascia troppo ampia e con netta tendenza modello non buono: residui con netta tendenza
25 Esempio di analisi residui con dati regressionelm1.xls peso/statura OUTPUT RESIDUI statura peso Previsto peso Residui Residui standard
26 peso/statura Residui standard eta/statura differenze stand. dalla Y prevista valori della retta di regressione, previsti Si evidenzia una distribuzione dei residui attorno ai valori della retta di regressione non molto amplia ma con 2 casi che arrivano ed eccedono il valore 2 + come outliers, entrambi positivi non si osserva particolare tendenza -autocorrelazione Analisi in R
27 Esempio di analisi residui con dati regressionelm1.xls statura / eta OUTPUT RESIDUI eta statura Previsto statura Residui Residui standard
28 eta/statura Residui standard eta/statura differenze stand. dalla Y prevista valori della retta di regressione, previsti Si evidenzia una distribuzione dei residui attorno ai valori della retta di regressione amplia con casi che arrivano ai valori + e 2 ma non si osserva particolare tendenza -autocorrelazione Analisi in R
29 MODELLO DI CORRELAZIONE La misura della forza specifica della relazione tra due variabili viene valutata mediante il calcolo del coefficiente di correlazione che ha logica analoga del coefficiente di determinazione individuato nella regressione ma può assumere valori negativi o positivi a seconda del tipo di relazione tra le variabili: Il coefficiente di correlazione varia tra 1 e 0 per variabili tra le quali vi è un rapporto inversamente proporzionale ( all aumentare di X diminuisce Y) Il coefficiente di correlazione varia tra 0 e +1 per variabili tra le quali vi è un rapporto direttamente proporzionale ( all aumentare di X diminuisce Y) Per valori del coefficiente di correlazione pari a 0 la relazione tra le variabili è inesistente, per valori pari a +-1 la relazione è perfetta
30 Il coefficiente di correlazione più usato è quello r prodotto momento di Pearson, che necessita diverse condizioni di verifica delle assunzioni. L alternativa non parametrica più usata è quella del coefficiente rho di Spearman che necessita di condizioni di verifica delle assunzioni meno stringentie procede con l assegnazione dei ranghi. Nei pacchetti statistici ed in particolare in R è possibile effettuare una valutazione relativa alla significatività statistica dei coefficienti di correlazione ovvero valutare se il valore determinato è significativamente diverso da 0. Viene quindi esposto il p-value di significatività (Per rho di Spearman questo è possibile per n>30 altrimenti si ricorre ad apposite tavole) Viene impostato un test di ipotesi sulla statistica test Ipotesi nulla: ρ = 0 (ρ è il coefficiente di correlazione della popolazione, r del campione). significatività alfa per t con GDL = n-2 t = r n r
31 Correlazione parametrica r prodotto momento di Pearson Assunzioni: LINE entrambe le variabili devono essere quantitative continue a livello di misurazione entrambe le variabili devono seguire una distribuzione normale la relazione tra le variabili è lineare Le sottopopolazioni di X ed Y hanno la stessa varianza r = n n x ( )( ) iyi xi yi 2 ( ) 2 2 x ( ) i xi n yi yi 2 La correlazione tra due variabili aleatorie X e Y è il rapporto tra la loro covarianza * e il prodotto delle loro deviazioni standard: r = coefficiente di determinazione * Date due variabili aleatorie X e Y, chiamiamo covarianza di X e Y la media dei prodotti dei loro scostamenti dalla media:
32 Esempio di analisi correlazione con dati regressionelm1.xls Correlazione età/ statura solo comandi in R con significatività >cor.test(eta, statura) Pearson's product-moment correlation data: eta and statura t = , df = 33, p-value = alternative hypothesis: true correlation is not equal to 0 95 percent confidence interval: sample estimates: cor t = r n 2 in questo caso r= e il suo p-value=0.068 ovvero non significativo per alfa= r cor.test(eta, statura, method="spearman") Spearman's rank correlation rho data: eta and statura S = , p-value = alternative hypothesis: true rho is not equal to 0 sample estimates: rho in questo caso rho= ed il suo p value= ovvero non significativo per alfa=
33 Esempio di analisi correlazione con dati regressionelm1.xls Correlazione peso/ statura solo comandi in R con significatività >cor.test(peso, statura) Pearson's product-moment correlation data: peso and statura t = , df = 33, p-value = alternative hypothesis: true correlation is not equal to 0 95 percent confidence interval: sample estimates: cor in questo caso r= 0.46 e il suo p-value= ovvero significativo per alfa= 0.05 >cor.test(peso, statura, method="spearman") Spearman's rank correlation rho data: peso and statura S = , p-value = alternative hypothesis: true rho is not equal to 0 sample estimates: rho in questo caso rho= ed il suo p value= ovvero significativo per alfa= 0.05
34 Evidenziando rispetto allo scatterplot statura m età/statura età=x statura=y regressione della statura sull'età y = x R 2 = età anni statura Lineare (statura) F-statistic: on 1 and 33 DF, p-value: Pearson r = p-value = Spearman rho = p-value = Non significativi
35 Evidenziando rispetto allo scatterplot statura/peso statura=x peso =Y regressione del peso sulla statura peso Kg y = x R 2 = peso Lineare (peso) statura m F-statistic: on 1 and 33 DF, p-value: Pearson r= 0.46 e il suo p-value= Spearman rho= ed il suo p value= significativi
Esercizio 1 GRAFICO 1. X e Y sono indipendenti. X e Y non sono correlate. La correlazione tra X e Y è <1. X e Y sono perfettamente correlate
Esercizio 1 Osservare il grafico 1 riportato in figura che mette in relazione una variabile dipendente Y ed una variabile indipendente X e rispondere alle seguenti domande. 400 300 200 GRAFICO 1 100 0
DettagliRegressione. Monica Marabelli. 15 Gennaio 2016
Regressione Monica Marabelli 15 Gennaio 2016 La regressione L analisi di regressione é una tecnica statistica che serve a studiare la relazione tra variabili. In particolare, nel modello di regressione
DettagliIl modello di regressione (VEDI CAP 12 VOLUME IEZZI, 2009)
Il modello di regressione (VEDI CAP 12 VOLUME IEZZI, 2009) Quesito: Posso stimare il numero di ore passate a studiare statistica sul voto conseguito all esame? Potrei calcolare il coefficiente di correlazione.
DettagliAnalisi grafica residui in R. Da output grafico analisi regressionelm1.csv Vedi dispensa. peso-statura
Analisi grafica residui in R Da output grafico analisi regressionelm1.csv Vedi dispensa peso-statura 1) Il plot in alto a sinistra mostra gli errori residui contro i loro valori stimati. I residui devono
DettagliStatistica. Capitolo 12. Regressione Lineare Semplice. Cap. 12-1
Statistica Capitolo 1 Regressione Lineare Semplice Cap. 1-1 Obiettivi del Capitolo Dopo aver completato il capitolo, sarete in grado di: Spiegare il significato del coefficiente di correlazione lineare
DettagliRegressione Lineare Semplice e Correlazione
Regressione Lineare Semplice e Correlazione 1 Introduzione La Regressione è una tecnica di analisi della relazione tra due variabili quantitative Questa tecnica è utilizzata per calcolare il valore (y)
DettagliTest per la correlazione lineare
10 Test per la correlazione lineare Istituzioni di Matematica e Statistica 2015/16 E. Priola 1 Introduzione alla correlazione lineare Problema: In base ai dati che abbiamo possiamo dire che c è una qualche
DettagliLABORATORIO DI PROBABILITA E STATISTICA
UNIVERSITA DEGLI STUDI DI VERONA LABORATORIO DI PROBABILITA E STATISTICA Docente: Bruno Gobbi 6 ESERCIZI RIEPILOGATIVI PRIME 3 LEZIONI REGRESSIONE LINEARE: SPORT - COLESTEROLO ESERCIZIO 8: La tabella seguente
DettagliCapitolo 12 La regressione lineare semplice
Levine, Krehbiel, Berenson Statistica II ed. 2006 Apogeo Capitolo 12 La regressione lineare semplice Insegnamento: Statistica Corso di Laurea Triennale in Ingegneria Gestionale Facoltà di Ingegneria, Università
DettagliLaboratorio di Statistica Aziendale Modello di regressione lineare multipla
Laboratorio di Statistica Aziendale Modello di regressione lineare multipla Michela Pasetto michela.pasetto2@unibo.it Definizione del modello OLS (semplice) L obiettivo della regressione lineare è di valutare
DettagliCORSO DI STATISTICA (parte 1) - ESERCITAZIONE 6
CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 6 Dott.ssa Antonella Costanzo a.costanzo@unicas.it Esercizio 1. Associazione, correlazione e dipendenza tra caratteri In un collettivo di 11 famiglie è stata
DettagliAnova e regressione. Andrea Onofri Dipartimento di Scienze Agrarie ed Ambientali Universitá degli Studi di Perugia 22 marzo 2011
Anova e regressione Andrea Onofri Dipartimento di Scienze Agrarie ed Ambientali Universitá degli Studi di Perugia 22 marzo 2011 Nella sperimentazione agronomica e biologica in genere è normale organizzare
DettagliOld Faithful, Yellowstone Park. Statistica e biometria. D. Bertacchi. Dati congiunti. Tabella. Scatterplot. Covarianza. Correlazione.
Coppie o vettori di dati Spesso i dati osservati sono di tipo vettoriale. Ad esempio studiamo 222 osservazioni relative alle eruzioni del geyser Old Faithful. Old Faithful, Yellowstone Park. Old Faithful
DettagliNel modello omoschedastico la varianza dell errore non dipende da i ed è quindi pari a σ 0.
Regressione [] el modello di regressione lineare si assume una relazione di tipo lineare tra il valore medio della variabile dipendente Y e quello della variabile indipendente X per cui Il modello si scrive
DettagliStatistica multivariata Donata Rodi 17/10/2016
Statistica multivariata Donata Rodi 17/10/2016 Quale analisi? Variabile Dipendente Categoriale Continua Variabile Indipendente Categoriale Chi Quadro ANOVA Continua Regressione Logistica Regressione Lineare
DettagliSTATISTICA A K (60 ore)
STATISTICA A K (60 ore) Marco Riani mriani@unipr.it http://www.riani.it Richiami sulla regressione Marco Riani, Univ. di Parma 1 MODELLO DI REGRESSIONE y i = a + bx i + e i dove: i = 1,, n a + bx i rappresenta
DettagliStatistica di base per l analisi socio-economica
Laurea Magistrale in Management e comunicazione d impresa Statistica di base per l analisi socio-economica Giovanni Di Bartolomeo gdibartolomeo@unite.it Definizioni di base Una popolazione è l insieme
DettagliEsercitazione del
Esercizi sulla regressione lineare. Esercitazione del 21.05.2013 Esercizio dal tema d esame del 13.06.2011. Si consideri il seguente campione di n = 9 osservazioni relative ai caratteri ed Y: 7 17 8 36
DettagliUniversità del Piemonte Orientale Corso di Laurea in Medicina e Chirurgia. Corso di Statistica Medica. Correlazione. Regressione Lineare
Università del Piemonte Orientale Corso di Laurea in Medicina e Chirurgia Corso di Statistica Medica Correlazione Regressione Lineare Corso di laurea in medicina e chirurgia - Statistica Medica Correlazione
DettagliCorrelazione e regressione
Correlazione e regressione Il termine associazione è largamente usato nella letteratura scientifica ed esprime la relazione che esiste tra due variabili Per studiare l associazione tra due variabili bisogna
DettagliMetodologia Sperimentale Agronomica / Metodi Statistici per la Ricerca Ambientale
DIPARTIMENTO DI SCIENZE AGRARIE E AMBIENTALI PRODUZIONE, TERRITORIO, AGROENERGIA Marco Acutis marco.acutis@unimi.it www.acutis.it CdS Scienze della Produzione e Protezione delle Piante (g59) CdS Biotecnologie
DettagliRegressione lineare semplice
Regressione lineare semplice Prof. Giuseppe Verlato Sezione di Epidemiologia e Statistica Medica, Università di Verona Statistica con due variabili var. nominale, var. nominale: gruppo sanguigno - cancro
DettagliESERCITAZIONE IV - Soluzioni
umero di omicidi ESERCITAZIOE IV - Soluzioni Esercizio I. a),00 12,00 10,00 8,00 6,00 4,00 2,00 0,00 0 5 10 15 20 25 Popolazione povera (%) b) Poiché i due caratteri in analisi sono quantitativi per calcolare
DettagliR - Esercitazione 6. Andrea Fasulo Venerdì 22 Dicembre Università Roma Tre
R - Esercitazione 6 Andrea Fasulo fasulo.andrea@yahoo.it Università Roma Tre Venerdì 22 Dicembre 2017 Il modello di regressione lineare semplice (I) Esempi tratti da: Stock, Watson Introduzione all econometria
DettagliStatistica descrittiva: analisi di regressione
Statistica descrittiva: analisi di regressione L analisi di regressione permette di esplorare le relazioni tra due insiemi di valori (p.e. i valori di due attributi di un campione) alla ricerca di associazioni.
DettagliUniversità del Piemonte Orientale Specializzazioni di area sanitaria Statistica Medica
Università del Piemonte Orientale Specializzazioni di area sanitaria Statistica Medica Regressione Lineare e Correlazione Argomenti della lezione Determinismo e variabilità Correlazione Regressione Lineare
DettagliLa regressione lineare semplice
La regressione lineare semplice Il modello di regressione lineare semplice - 1 y = β 0 + βx + ε 10 8 Una retta nel piano Variabile Y 6 4 2 0 0 1 2 3 4 Variabile X 1 Il modello di regressione lineare semplice
DettagliLEZIONI IN LABORATORIO Corso di MARKETING L. Baldi Università degli Studi di Milano. Strumenti statistici in Excell
LEZIONI IN LABORATORIO Corso di MARKETING L. Baldi Università degli Studi di Milano Strumenti statistici in Excell Pacchetto Analisi di dati Strumenti di analisi: Analisi varianza: ad un fattore Analisi
DettagliUniversità del Piemonte Orientale Corso di Laurea in Medicina e Chirurgia. Corso di Statistica Medica. Correlazione. Regressione Lineare
Università del Piemonte Orientale Corso di Laurea in Medicina e Chirurgia Corso di Statistica Medica Correlazione Regressione Lineare Corso di laurea in medicina e chirurgia - Statistica Medica Correlazione
DettagliRegressione & Correlazione
Regressione & Correlazione Monia Ranalli Ranalli M. Dipendenza Settimana # 4 1 / 20 Sommario Regressione Modello di regressione lineare senplice Stima dei parametri Adattamento del modello ai dati Correlazione
DettagliMetodologie Quantitative
Metodologie Quantitative Regressione Lineare Nozioni di base M Q Marco Perugini Milano-Bicocca 1 I COMUNICAZIONE MERCOLEDI 11 NOVEMBRE NON CI SARA LEZIONE DI MQ Concetti base Con l analisi di regressione
DettagliDispensa di Statistica
Dispensa di Statistica 1 parziale 2012/2013 Diagrammi... 2 Indici di posizione... 4 Media... 4 Moda... 5 Mediana... 5 Indici di dispersione... 7 Varianza... 7 Scarto Quadratico Medio (SQM)... 7 La disuguaglianza
DettagliArgomenti della lezione:
Lezione 7 Argomenti della lezione: La regressione semplice Il modello teorico Il calcolo dei parametri Regressione lineare Esamina la relazione lineare tra una o più variabili esplicative (o indipendenti,
DettagliIndice. centrale, dispersione e forma Introduzione alla Statistica Statistica descrittiva per variabili quantitative: tendenza
XIII Presentazione del volume XV L Editore ringrazia 3 1. Introduzione alla Statistica 5 1.1 Definizione di Statistica 6 1.2 I Rami della Statistica Statistica Descrittiva, 6 Statistica Inferenziale, 6
DettagliStatistica - metodologie per le scienze economiche e sociali /2e S. Borra, A. Di Ciaccio - McGraw Hill
Statistica - metodologie per le scienze economiche e sociali /e S Borra, A Di Ciaccio - McGraw Hill Es 6 Soluzione degli esercizi del capitolo 6 In base agli arrotondamenti effettuati nei calcoli, si possono
DettagliLABORATORIO DI PROBABILITA E STATISTICA
UNIVERSITA DEGLI STUDI DI VERONA LABORATORIO DI PROBABILITA E STATISTICA Docente: Bruno Gobbi Corso di laurea in Informatica e Bioinformatica 4 ESERCIZI RIEPILOGATIVI PRIME 3 LEZIONI 1 - STATISTICA DESCRITTIVA
DettagliStatistiche di sintesi
Esercizio 2 E stato condotto uno studio per valutare la variazione della pressione sistolica in funzione dell etá. I dati sono riportati nel file sbp.xls. Effettua un analisi di regressione e disegna gli
DettagliTeoria e tecniche dei test. Concetti di base
Teoria e tecniche dei test Lezione 2 2013/14 ALCUNE NOZIONI STATITICHE DI BASE Concetti di base Campione e popolazione (1) La popolazione è l insieme di individui o oggetti che si vogliono studiare. Questi
DettagliSTATISTICA. Esercitazione 5
STATISTICA Esercitazione 5 Esercizio 1 Ad un esame universitario sono stati assegnati in modo casuale due compiti diversi con i seguenti risultati: Compito A Compito B Numero studenti 102 105 Media dei
DettagliDAL CAMPIONE ALLA POPOLAZIONE: LA STIMA DEI PARAMETRI
DAL CAMPIONE ALLA POPOLAZIONE: LA STIMA DEI PARAMETRI Andrea Onofri Dipartimento di Scienze Agrarie ed Ambientali Università degli Studi di Perugia Versione on-line: http://www.unipg.it/ onofri/rtutorial/index.html
DettagliLaboratorio R Corso di Algebra e Modelli lineari (Anno Accademico )
Laboratorio R Corso di Algebra e Modelli lineari (Anno Accademico 05-6) REGRESSIONE LINEARE SEMPLICE OPEN STATISTICA 8.44 Per 8 settimanali, appartenenti alla medesima fascia di prezzo e presenti in edicola
DettagliStatistica. Alfonso Iodice D Enza
Statistica Alfonso Iodice D Enza iodicede@unicas.it Università degli studi di Cassino () Statistica 1 / 33 Outline 1 2 3 4 5 6 () Statistica 2 / 33 Misura del legame Nel caso di variabili quantitative
DettagliBLAND-ALTMAN PLOT. + X 2i 2 la differenza ( d ) tra le due misure per ognuno degli n campioni; d i. X i. = X 1i. X 2i
BLAND-ALTMAN PLOT Il metodo di J. M. Bland e D. G. Altman è finalizzato alla verifica se due tecniche di misura sono comparabili. Resta da comprendere cosa si intenda con il termine metodi comparabili
DettagliLM 88 SOCIOLOGIA E RICERCA SOCIALE. Metodi Statistici per la Ricerca Sociale. Regressione lineare e correlazione
LM 88 SOCIOLOGIA E RICERCA SOCIALE Metodi Statistici per la Ricerca Sociale Regressione lineare e correlazione 1. Su un campione di individui sono rilevati i caratteri X (peso in Kg) e Y (altezza in cm),
DettagliIndipendenza, Dipendenza e interdipendenza
Indipendenza, Dipendenza e interdipendenza In analisi bivariata la tabella di contingenza consente di esaminare congiuntamente due variabili consente di rilevare le relazioni esistenti tra le variabili
DettagliESAME. 9 Gennaio 2017 COMPITO B
ESAME 9 Gennaio 2017 COMPITO B Cognome Nome Numero di matricola 1) Approssimare tutti i calcoli alla quarta cifra decimale. 2) Ai fini della valutazione si terrà conto solo ed esclusivamente di quanto
DettagliCOGNOME.NOME...MATR..
STATISTICA 29.01.15 - PROVA GENERALE (CHALLENGE) Modalità A (A) ai fini della valutazione verranno considerate solo le risposte riportate dallo studente negli appositi riquadri bianchi: in caso di necessità
DettagliL'analisi bivariata (analisi della varianza e correlazione) Prof. Stefano Nobile. Corso di Metodologia della ricerca sociale
L'analisi bivariata (analisi della varianza e correlazione) Prof. Stefano Nobile Corso di Metodologia della ricerca sociale L analisi della varianza (ANOVA) La tecnica con cui si esplorano le relazioni
DettagliTest F per la significatività del modello
Test F per la significatività del modello Per verificare la significatività dell intero modello si utilizza il test F Si vuole verificare l ipotesi H 0 : β 1 = 0,, β k = 0 contro l alternativa che almeno
DettagliStatistica descrittiva in due variabili
Statistica descrittiva in due variabili Dott Nicola Pintus AA 2018-2019 Indichiamo con U la popolazione statistica e con u i le unità statistiche Ad ogni unità statistica associamo i caratteri osservati
DettagliMatematica Lezione 22
Università di Cagliari Corso di Laurea in Farmacia Matematica Lezione 22 Sonia Cannas 14/12/2018 Indici di posizione Indici di posizione Gli indici di posizione, detti anche misure di tendenza centrale,
DettagliEsercizi di statistica
Esercizi di statistica Test a scelta multipla (la risposta corretta è la prima) [1] Il seguente campione è stato estratto da una popolazione distribuita normalmente: -.4, 5.5,, -.5, 1.1, 7.4, -1.8, -..
DettagliESERCIZI. Regressione lineare semplice CAPITOLO 12 Levine, Krehbiel, Berenson, Statistica II ed., 2006 Apogeo
Insegnamento: Statistica Corso di Laurea Triennale in Ingegneria Gestionale Facoltà di Ingegneria, Università di Padova Docenti: Prof. L. Salmaso, Dott. L. Corain ESERCIZI Regressione lineare semplice
DettagliAntonella Bodini Istituto di Matematica Applicata e Tecnologie Informatiche E. Magenes del CNR
Antonella Bodini Istituto di Matematica Applicata e Tecnologie Informatiche E. Magenes del CNR Materiale ad uso dei ricercatori che hanno seguito il corso di formazione interna in Statistica, edizione
DettagliLABORATORIO 5. ANALISI DELLA VARIANZA AD UN CRITERIO DI CLASSIFICAZIONE
LABORATORIO 5. ANALISI DELLA VARIANZA AD UN CRITERIO DI CLASSIFICAZIONE 5.1 ESEMPIO DI ANOVA AD UNA VIA In un esperimento un gruppo di bambini è stato assegnato a caso a 3 trattamenti, allo scopo di determinare
Dettagli1. variabili dicotomiche: 2 sole categorie A e B
Variabile X su scala qualitativa (due categorie) modello di regressione: variabili quantitative misurate almeno su scala intervallo (meglio se Y è di questo tipo e preferibilmente anche le X i ) variabili
DettagliVariabili indipendenti qualitative. In molte applicazioni si rende necessario l introduzione di un fattore a due o più livelli.
Variabili indipendenti qualitative Di solito le variabili nella regressione sono variabili continue In molte applicazioni si rende necessario l introduzione di un fattore a due o più livelli Ad esempio:
DettagliRegressione Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007
Regressione Esempio Un azienda manifatturiera vuole analizzare il legame che intercorre tra il costo mensile Y di produzione e il corrispondente volume produttivo X per uno dei propri stabilimenti. Volume
DettagliRappresentazioni grafiche di distribuzioni doppie
Rappresentazioni grafiche di distribuzioni doppie Distribuzione doppia di frequenze Tabella di contingenza Tabella di correlazione Stereogramma Distribuzione unitaria doppia di 2 caratteri quantitativi
DettagliIl modello di regressione
Il modello di regressione Capitolo e 3 A M D Marcello Gallucci Milano-Bicocca Lezione: II Concentti fondamentali Consideriamo ora questa ipotetica ricerca: siamo andati in un pub ed abbiamo contato quanti
DettagliEsercizio 2: voto e ore dedicate allo studio
La seguente tabella riporta il voto riportato da 10 studenti all esame di Statistica Sociale e il numero di ore di lezione non seguite dallo studente (il corso prevede 30 ore di lezione). Ci si chiede
DettagliOgni misura è composta di almeno tre dati: un numero, un'unità di misura, un'incertezza.
Ogni misura è composta di almeno tre dati: un numero, un'unità di misura, un'incertezza. Misure ripetute forniscono dati numerici distribuiti attorno ad un valore centrale indicabile con un indice (indice
DettagliEsercitazione 5 - Statistica (parte II) Davide Passaretti 9/3/2017
Esercitazione 5 - Statistica (parte II) Davide Passaretti 9/3/2017 Contents 1 Inferenza sulla regressione semplice 1 1.1 Test sulla pendenza della retta................................... 1 1.2 Test sull
DettagliCapitolo 8. Intervalli di confidenza. Statistica. Levine, Krehbiel, Berenson. Casa editrice: Pearson. Insegnamento: Statistica
Levine, Krehbiel, Berenson Statistica Casa editrice: Pearson Capitolo 8 Intervalli di confidenza Insegnamento: Statistica Corso di Laurea Triennale in Economia Dipartimento di Economia e Management, Università
Dettagli0.1 Percorrenza e Cilindrata
0.1 Percorrenza e Cilindrata Iniziamo ora un analisi leggermente più complessa basata sempre sui concetti appena introdotti. Innanzi tutto possiamo osservare, dal grafico ottenuto con il comando pairs,
DettagliRegressione semplice: come applicarla come interpretare i risultati
Regressione semplice: come applicarla come interpretare i risultati Questo materiale è utile ai fini dell esecuzione della regressione con software statistico. Questo materiale non è in alcun modo utile
DettagliMetodi Statistici per il Management
Metodi Statistici per il Management Statistica Multivariata I Simone Borra - Roberto Rocci Introduzione e obiettivi La statistica multivariata si occupa di analizzare e studiare in modo simultaneo un set
DettagliEsame di Statistica A-Di Prof. M. Romanazzi
1 Università di Venezia Esame di Statistica A-Di Prof. M. Romanazzi 12 Giugno 2015 Cognome e Nome..................................... N. Matricola.......... Valutazione Il punteggio massimo teorico di
DettagliMetodi statistici per la ricerca sociale Capitolo 11. Regressione Multipla e Correlazione
Metodi statistici per la ricerca sociale Capitolo 11. Regressione Multipla e Correlazione Alessandra Mattei Dipartimento di Statistica, Informatica, Applicazioni (DiSIA) Università degli Studi di Firenze
DettagliIl modello di regressione
Il modello di regressione Capitolo e 3 A M D Marcello Gallucci Milano-Bicocca Lezione: II Concentti fondamentali Consideriamo ora questa ipotetica ricerca: siamo andati in un pub ed abbiamo contato quanti
DettagliMetodi statistici per l economia (Prof. Capitanio) Slide n. 10. Materiale di supporto per le lezioni. Non sostituisce il libro di testo
Metodi statistici per l economia (Prof. Capitanio) Slide n. 10 Materiale di supporto per le lezioni. Non sostituisce il libro di testo 1 REGRESSIONE LINEARE Date due variabili quantitative, X e Y, si è
Dettagliper togliere l influenza di un fattore es.: quoziente di mortalità = morti / popolazione
Rapporti statistici di composizione la parte rispetto al tutto percentuali di derivazione per togliere l influenza di un fattore es.: quoziente di mortalità = morti / popolazione di frequenza (tassi) rapporti
DettagliCHEMIOMETRIA. CONFRONTO CON VALORE ATTESO (test d ipotesi) CONFRONTO DI VALORI MISURATI (test d ipotesi) CONFRONTO DI RIPRODUCIBILITA (test d ipotesi)
CHEMIOMETRIA Applicazione di metodi matematici e statistici per estrarre (massima) informazione chimica (affidabile) da dati chimici INCERTEZZA DI MISURA (intervallo di confidenza/fiducia) CONFRONTO CON
DettagliCAPITOLO 3 Esperimenti con un singolo fattore: l Analisi della Varianza
Douglas C. Montgomery Progettazione e analisi degli esperimenti 006 McGraw-Hill CAPITOLO 3 Esperimenti con un singolo fattore: l Analisi della Varianza Metodi statistici e probabilistici per l ingegneria
DettagliSTATISTICA (2) ESERCITAZIONE Dott.ssa Antonella Costanzo
STATISTICA (2) ESERCITAZIONE 7 11.03.2014 Dott.ssa Antonella Costanzo Esercizio 1. Test di indipendenza tra mutabili In un indagine vengono rilevate le informazioni su settore produttivo (Y) e genere (X)
DettagliStatistica. Alfonso Iodice D Enza
Statistica Alfonso Iodice D Enza iodicede@gmail.com Università degli studi di Cassino () Statistica 1 / 24 Outline 1 2 3 4 5 () Statistica 2 / 24 Dipendenza lineare Lo studio della relazione tra caratteri
DettagliCorso di Laurea in Economia Aziendale. Docente: Marta Nai Ruscone. Statistica
Corso di Laurea in Economia Aziendale Docente: Marta Nai Ruscone Statistica a.a. 2015/2016 1 Lezione 3 1) Grafico a dispersione 2) La correlazione lineare -la covarianza funzione di excel: covarianza()
DettagliFac-simile prova di esame
UNIVERSITÀ CA FOSCARI DI VENEZIA FACOLTÀ DI ECONOMIA Statistica Computazionale I Prof. Stefano Tonellato COGNOME.................................... NOME.................................... MATRICOLA....................................
Dettaglii dati escludono vi sia una relazione tra variabile indipendente e variabile dipendente (rispettivamente
TEST DI AUTOVALUTAZIONE - SETTIMANA 6 I diritti d autore sono riservati. Ogni sfruttamento commerciale non autorizzato sarà perseguito. Metodi statistici per la biologia Parte A. La retta di regressione.2
DettagliStatistica Applicata all edilizia: il modello di regressione
Statistica Applicata all edilizia: il modello di regressione E-mail: orietta.nicolis@unibg.it 27 aprile 2009 Indice Il modello di Regressione Lineare 1 Il modello di Regressione Lineare Analisi di regressione
DettagliIntroduzione alla statistica con Excel
Introduzione alla statistica con Excel Davide Sardina davidestefano.sardina@unikore.it Università degli studi di Enna Kore Corso di Laurea in Servizio Sociale A.A. 2017/2018 Variabili quantitative e qualitative
DettagliStatistica economica
Statistica economica a.a. 013/14 Dr. Luca Secondi 10.a. Output tipico di un modello di regressione lineare multipla 1 Le analisi basate sul modello di regressione prevedono la stima dei coefficienti associati
Dettagli1.1 Obiettivi della statistica Struttura del testo 2
Prefazione XV 1 Introduzione 1.1 Obiettivi della statistica 1 1.2 Struttura del testo 2 2 Distribuzioni di frequenza 2.1 Informazione statistica e rilevazione dei dati 5 2.2 Distribuzioni di frequenza
DettagliTecniche di sondaggio
SMID a.a. 2005/2006 Corso di Statistica per la Ricerca Sperimentale Tecniche di sondaggio 24/1/2006 Nomenclatura Indicheremo con P una popolazione, con N la sua numerosità, con k la sua etichetta e con
DettagliTest delle Ipotesi Parte I
Test delle Ipotesi Parte I Test delle Ipotesi sulla media Introduzione Definizioni basilari Teoria per il caso di varianza nota Rischi nel test delle ipotesi Teoria per il caso di varianza non nota Test
DettagliLA REGRESSIONE LINEARE SEMPLICE
LA REGRESSIONE LINEARE SEMPLICE Se due variabili X e Y sono tra loro correlate, e sono entrambe su scala a intervalli o rapporti equivalenti, la tecnica statistica della regressione lineare consente di
DettagliSTATISTICA. Regressione-4 ovvero Macron!
STATISTICA Regressione-4 ovvero Macron! Eravamo partiti da qui Stipendio medio orario 2013 Voto per Le Pen Stipendio medio orario (2013) [11,12) [12,13) [13,14) [14,15) [15,23] Eravamo partiti da qui Stipendio
Dettaglilezione n. 6 (a cura di Gaia Montanucci) Verosimiglianza: L = = =. Parte dipendente da β 0 e β 1
lezione n. 6 (a cura di Gaia Montanucci) METODO MASSIMA VEROSIMIGLIANZA PER STIMARE β 0 E β 1 Distribuzione sui termini di errore ε i ε i ~ N (0, σ 2 ) ne consegue : ogni y i ha ancora distribuzione normale,
DettagliSTATISTICA. Regressione-2
STATISTICA Regressione-2 Esempio Su un campione di =5unità sono state osservate due variabili, ed : x i 1 2 3 4 5 y i 1.5 2.5 3 2.5 3.5 1. Rappresentare l andamento congiunto di in funzione di mediante
DettagliUniversità del Piemonte Orientale Corso di Laurea specialistica in Biotecnologie mediche. Corso di Statistica Medica. Correlazione
Università del Piemonte Orientale Corso di Laurea specialistica in Biotecnologie mediche Corso di Statistica Medica Correlazione Regressione Lineare Statistica Medica Correlazione e Regressione lineare
DettagliAnalisi della Regressione Lineare
Analisi della Regressione Lineare Master in Tecnologie Bioinformatiche 29/09/06 Adriano Decarli 1 29/09/06 Adriano Decarli 2 29/09/06 Adriano Decarli 3 29/09/06 Adriano Decarli 4 29/09/06 Adriano Decarli
DettagliCasa dello Studente. Casa dello Studente
Esercitazione - 14 aprile 2016 ESERCIZIO 1 Di seguito si riporta il giudizio (punteggio da 0 a 5) espresso da un gruppo di studenti rispetto alle diverse residenze studentesche di un Ateneo: a) Si calcolino
DettagliMETODI STATISTICI PER LA BIOLOGIA. Paolo Dai Pra e Francesco Caravenna
METODI STATISTICI PER LA BIOLOGIA. Paolo Dai Pra e Francesco Caravenna 18 marzo 2008 NOME 1. Parte A 1.1. Sono stati raccolti 7 dati relativi ad una variabile x. Si sa che 3 dati hanno valore 5; 2 dati
DettagliLABORATORIO DI PROBABILITA E STATISTICA
LABORATORIO DI PROBABILITA E STATISTICA Docente: Bruno Gobbi 3 LA REGRESSIONE LINEARE ES. STUDIO RELAZIONE ALTEZZA - PESO Soggetto Altezza Peso A 174 75 B 166 63 C 173 70 D 171 71 E 168 68 F 167 68 G 165
DettagliAPPLICAZIONE DELLA DEVIATA GAUSSIANA STANDARD
APPLICAZIONE DELLA DEVIATA GAUSSIANA STANDARD In una popolazione di ragazze di età inclusa tra i 18 e i 25 anni, la concentrazione di emoglobina nel sangue (x) approssima la distribuzione gaussiana con
Dettagli