Analisi della regressione
|
|
- Amando Bellini
- 6 anni fa
- Visualizzazioni
Transcript
1 Analisi della regressione L analisi della regressioneè una tecnica statistica per modellare e investigare le relazioni tra due (o più) variabili. Nella tavola è riportata la % di purezza di ossigeno, rilasciata in un processo di distillazione chimica, e il livello di idrocarbonio, presente nel condensatoreprincipale di unità di distillazione. Dati salvati in un file Osservazioni Liv.Idrocarbonio Purezza 1 0,99 90,01 2 1,02 89,05 3 1,15 91,43 4 1,29 93,74 5 1,46 96,73 6 1,36 94,45 7 0,87 87,59 8 1,23 91,77 9 1,55 99, ,4 93, ,19 93, ,15 92, ,98 90, ,01 89, ,11 89, ,2 90, ,26 93, ,32 93, ,43 94, ,95 87,33 2 1
2 Con questa concatenazione di functionsè possibile far leggere i dati in un file memorizzati sotto forma di tabella e assegnarli ad una variabile. > dati<-matrix(scan("c:/programmi/r/r-3.0.2/regressionedati.r", + n=20*2),20,2,byrow=true) Read 40 items Un primo modo di studiare che tipo di relazione sussiste tra le popolazioniche hanno generato i dati è il diagramma di dispersione (scatter plot). > datix<-dati[,1] > datiy<-dati[,2] > plot(datix,datiy,xlab='purezza + ossigeno',ylab='% di idrocarbonio') 3 CONSIDERAZIONI SULLO SCATTER DIAGRAM Le correlazioni, possibilmente positiva o possibilmente negativa, sono In forse quando i punti rappresentativi delle coppie di dati, pur disponendosiattorno ad una delle due diagonali del diagramma, presentano una dispersione piuttosto accentuata tale da far presumere l esistenza di altre cause che intervengono a determinare l'effetto studiato. 2
3 C è un modo per misurare il grado di correlazione tra due variabili aleatorie? [ ] [ ] S e µ = E X e µ = E Y, si definisce covarianza di X X e Y, la quantità D efin izion e Y C ov(x,y ) = E [( X µ )( Y µ )]. X Y cov( X, Y ) = E[ XY ] µ µ Teorema : Se X e Y sono indipendenti, Cov( X, Y ) = 0. Il viceversa non vale. X Y Controesempio X p( x) Y 3 2 = X Cov( X, Y ) = 0 5 Teorema : Var( X ± Y ) = Var( X ) + Var( Y ) ± 2cov( X, Y ) Definizione La correlazione tra le variabili aleatorie X e Y è la quantità: cov( X, Y ) σ XY ρ = = Var( X ) Var( Y ) σ σ Se la covarianzatra due variabili aleatorie è positiva, negativa o nulla, anche la correlazione sarà positiva, negativa o nulla. Teorema : La correlazione tra le variabili aleatorie X e Y gode della seguente proprietà: -1 ρ 1 Teorema : Se ρ = ± 1 P( Y = ax ± b) = 1 X Y 6 3
4 Il coefficiente di correlazione non è una misura generale della relazione tra due variabili, ma esprime solo il grado di linearità della correlazione in un grafico a dispersione. Gli outlierspossono modificare significativamente il valore del coefficiente di correlazione. 4
5 In R la functionper calcolare il coefficiente di correlazione è cor() Bisogna specificare in input il tipo di coefficiente da calcolare: in questo caso quello di Pearson. > cor(datix, datiy, method="pearson") [1]
6 Se si immagina che la relazione tra Xe Ysia lineare, allora bisogna ricercare i coefficienti della trasformazione Y = mx + b + ε m, b coefficienti di regressione X (livello di idrocarbonio) var. aleat. indipendente Y (purezza dell'ossigeno) var. aleat. dipendente ε ε = ε = σ 2 (errore casuale), E[ ] 0, Var[ ]. Come si calcolano i coefficienti? IL METODO DEI MINIMI QUADRATI Minimizzare la distanza tra i punti delle osservazioni e la retta stessa. 11 residui Si cerca il minimo della funzione rispetto m e b L a b y mx b n = i i i= 1 (, ) ( ) 2 6
7 La funzione di R per stimare un modello di regressione lineare è lm (linear models). L output di tale funzione è molto complesso: in generaleè opportuno salvarlo in una variabile di classe per poi estrarne le quantità necessarie all analisi dei dati >result<-lm( datiy~ datix) >summary(result) Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) < 2e-16 *** datix e-09 *** --- Signif. codes: 0 *** ** 0.01 * Pertanto il modello lineare stimato è y = x y = Possiamo sovrapporre la retta al grafico con il comando: > abline(lm(datiy ~ datix)) 14 7
8 >summary(result) Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) < 2e-16 *** datix e-09 *** --- Signif. codes: 0 *** ** 0.01 * L errore standard misura il grado di precisione della stima dei parametri. 15 >summary(result) Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) < 2e-16 *** datix e-09 *** --- Signif. codes: 0 *** ** 0.01 * E l output di un test per verificare se i valori dei coefficienti sono nulli. La legenda associa alle stelle un valore numerico: quando questi valori numerici sono inferiori a 0.05, allora si può ritenere non vera l ipotesi che i coefficienti sono nulli. 16 8
9 >summary(result) Multiple R-squared: , Adjusted R-squared: R^2 è noto nella letteratura come coefficiente di determinazione. > rho<-cor(datix, datiy, method="pearson") > rho^2 [1] Spiega quanta parte della variabilità della Y è imputabile alla variabilità della X, in questo caso l 87%. Il valore numerico è ottenuto usando una formula corretta e più robusta. I valori vengono riportati entrambi perché grosse discrepanze segnalano la presenza di valori anomali. 17 > summary(result) F-statistic: on 1 and 18 DF, p-value: 1.227e-09 Questo è un test per stabilire se è valido il modello con predittore Y = mx + b + ε oppure quello senza predittore Y = b + ε L esito del test si legge analogamente a prima. Si osservi che questo test equivale al test per riconoscere se m =
10 ANALISI DEI RESIDUI > summary(result) Residuals: Min 1Q Median 3Q Max Residual standard error: on 18 degrees of freedom Si definiscono residui le distanze tra i valori della variabile dipendente ottenuti mediante la retta di regressione e quelli osservati. e = y yˆ i i i Anche in questo caso l errore standard misura la variabilità dell errore stocastico εinserito nel modello 2 Perchè il modello sia valido è necessario provare che ε N(0, σ ) 19 Per ora usiamo due strumenti grafici. Il grafico dei residui e il qqnorm. > str(result) Listof12 $ coefficients : Namednum[1:2] attr(*, "names")= chr[1:2] "(Intercept)" "datix" $ residuals : Named num[1:20] attr(*, "names")= chr[1:20] "1" "2" "3" "4"... $ effects : Named num[1:20] attr(*, "names")= chr[1:20] "(Intercept)" "datix" "" ""... $ rank : int2 $ fitted.values: Named num[1:20] attr(*, "names")= chr[1:20] "1" "2" "3" "4"... $ assign : int[1:2] 0 1 $ qr :Listof5..$ qr : num[1:20, 1:2] attr(*, "dimnames")=list of $ : chr[1:20] "1" "2" "3" "4" $ : chr[1:2] "(Intercept)" "datix"....-attr(*, "assign")= int[1:2] 0 1..$ qraux: num[1:2]
11 > qqnorm(result$residuals) > I punti si distribuiscono lungo una retta. > plot(1:20,result$residuals,type='p', + main='grafico dei residui', + xlab='residui') > abline(h=0, lwd=2) La dispersione non presenta particolari patterns. ESEMPI DI GRAFICI DI RESIDUI Omoschedasticità= varianza costante per l errore Eteroschedasticità= varianza diversa per l errore 11
12 La relazione tra due campioni casuali non è sempre lineare. A volte è possibile trasformare opportunamente le scale di misurazione perché il modello di regressione lineare sia sufficiente. Il seguente datasetrappresenta il peso corporeo espresso in kg e il peso del cervello espresso in gr. per 62 diverse specie di mammiferi. > cervello<-matrix(scan("c:/programmi/r/r-3.0.2/cervello.txt", + skip=1,n=62*2),62,2,byrow=true) Read 124 items Effettuando un diagramma di dispersione dei dati, si osserva un andamento molto lontano da quello lineare. Provando a rappresentare i dati in scala logaritmica, si ottiene > plot(log(cervello[,1]),log(cervello[,2]),type='p',main='scatter-plot + Scala Log',xlab='Peso corporeo',ylab='peso cervello') > abline(lm(log(cervello[,2]) ~ log(cervello[,1])) ) > 12
13 Torniamo all esercizio sul fittingdei dati: Esempio: si misura il tempo di vita di 20 lampadine, che è stato riportato di seguito. Stimare la funzione guasto, la funzione di affidabilità, la densitàdi guasto, il tempo medio di vita. Determinare quale modello teorico potrebbe descrivere il tempo di vita. 10,45 2,30 19,71 49,81 46,89 69,08 0,32 11,36 43,20 3,24 6,10 1,01 0,71 3,89 5,38 0,37 7,29 9,12 17,52 9,60 Usando i probabilityplottingpapers, avevamo stabilito che il modello di Weibull si adattava bene ai dati. Usando la function fitdistr() > stima<-fitdistr(dati,"weibull") > str(stima) Listof5 $ estimate: Named num [1:2] attr(*, "names")= chr[1:2] "shape" "scale" $ sd : Namednum [1:2] attr(*, "names")= chr[1:2] "shape" "scale" Usando la regressione sui dati del probability plotting paper? E necessario costruire il modello di regressione tra > source('datiprimoesercizio.r') > x<-log(sort(dati)) > index<-seq(1,20,1) > cdf<-(index-0.3)/20.4 > z<-log(log(1/(1-cdf))) Per ottenere i coefficienti è sufficiente che: > result<-lm(z ~ x) > result Coefficients: (Intercept) x Con fitdistr() $ estimate: "shape" "scale Ovviamente questi non sono i parametri di scala e di forma, perché nella retta di regressione associata al probability plottingpaperè z = β x β logα m = β e b= β logα ossia β = e α =
14 Un caso in cui l uso Del Modello di regressione è necessario L esercizio che segue si riferisce a un campione casuale di 90 tempi di guasto. I tempi sono ripartiti in modalità e viene fornita la tabella seguente. Rank Tempo guasto # guasti Guasti cum. Median rank%
15 Un altro modo per leggere le tabelle di dati In R, aprire un file dove riportare i dati e salvarlo con estensione.csv. Questi file, una volta letti con il comando read.csv() producono delle matrici con la stessa struttura di quella usata nel file > guasti<-read.csv("c:/programmi/r/guasti.csv",header=f,sep=",") Per costruire il probability plotting paper relativo al modello di Weibull > guasti V1 V > x=log(guasti[,1]) > cdf=(cumsum(guasti[,2])-0.3)/(90+0.4) > y=log(log(1/(1-cdf))) Grafico Non Corretto 15
16 Anche ricostruendo il campione casuale a partire dalla tabella > dati<-c(rep(guasti[1,1],guasti[1,2])) > dati [1] [20] > for(i in 2:17) { + dati<-c(dati, rep(guasti[i,1],guasti[i,2])) + } > dati [1] [13] [25] [37] [49] [61] [73] [85] > Il grafico che ne risulta non consente di ritenere adeguato il modello di Weibull perchévi sono molti dati che si ripetono 16
17 Nel grafico originale invece riconosciamo tre andamenti: Rank Tempo guasto # guasti Guasti cum. Median rank%
18 Num.prova Tempo guasto # guasti Guasti cum. Median rank% Num.prova Tempo guasto # guasti Guasti cum. Median rank%
19 > dati1<-dati[1:37] > dati2<-dati[38:74] > dati3<-dati[74:90] > library(mass) > stima1<-fitdistr(dati1,'weibull') Error in fitdistr(dati1, "weibull") : optimization failed In addition: Warning messages: 1: In densfun(x, parm[1], parm[2],...) : NaNs produced 2: In densfun(x, parm[1], parm[2],...) : NaNs produced Il motivo dell errore è che nella formula che stima uno dei due parametri della Weibull, compaiono le distanze tra i dati al denominatore. Si può ovviare all inconveniente usando la regressione lineare. Una procedura più corretta consiste nell uso dei cosiddetti modelli lineari generalizzati. Tuttavia ci accontentiamo di costruire un modello di regressione per ciascuno dei 3 sottogruppi trovati. Per il primo gruppo: > guasti1<-guasti[1:4,1] > x<-log(sort(guasti1)) > fas<-guasti[1:4,2] > cdf<-(cumsum(fas)-0.3)/37.4 > z<-log(log(1/(1-cdf))) > result<-lm(z ~ x) > result Coefficients: (Intercept) x Con la trasformazione vista prima: β =0.980 e α =
20 Per il secondo gruppo: > guasti2<-guasti[5:11,1] > x<-log(sort(guasti2)) > fas<-guasti[5:11,2] > cdf<-(cumsum(fas)-0.3)/37.4 > z<-log(log(1/(1-cdf))) > result<-lm(z ~ x) > result Coefficients: (Intercept) x Con la trasformazione vista prima: β =2.643 e α = > Per il terzo gruppo: > guasti3<-guasti[12:17,1] > x<-log(sort(guasti3)) > fas<-guasti[12:17,2] > cdf<-(cumsum(fas)-0.3)/37.4 > z<-log(log(1/(1-cdf))) > result<-lm(z ~ x) > result Coefficients: (Intercept) x Con la trasformazione vista prima: β =2.183 e α = > 20
21 L esempio mostra come per questo componente le informazioni circa il tasso di guasto siano ripartite lungo l arco temporale. La affidabilità totale è una somma di affidabilità, ciascuna si riferisce a un periodo della vita, secondo dei pesi che restituiscono il peso di quel tasso di guasto lungo l arco temporale R( t) = a R ( t) + a R ( t) + a R ( t) con a + a + a = Iperesponenziale f ( t) = a f ( t) + a f ( t) + a f ( t) F( t) = a F ( t) + a F ( t) + a F ( t) MISTURE Nell esempio è: β t 37 t 16 t R( t) = exp + exp + exp 90 α 90 α 90 α β β 3 21
Il modello di regressione (VEDI CAP 12 VOLUME IEZZI, 2009)
Il modello di regressione (VEDI CAP 12 VOLUME IEZZI, 2009) Quesito: Posso stimare il numero di ore passate a studiare statistica sul voto conseguito all esame? Potrei calcolare il coefficiente di correlazione.
DettagliLABORATORIO DI PROBABILITA E STATISTICA
UNIVERSITA DEGLI STUDI DI VERONA LABORATORIO DI PROBABILITA E STATISTICA Docente: Bruno Gobbi 6 ESERCIZI RIEPILOGATIVI PRIME 3 LEZIONI REGRESSIONE LINEARE: SPORT - COLESTEROLO ESERCIZIO 8: La tabella seguente
DettagliREGRESSIONE lineare e CORRELAZIONE. Con variabili quantitative che si possono esprimere in un ampio ampio intervallo di valori
REGRESSIONE lineare e CORRELAZIONE Con variabili quantitative che si possono esprimere in un ampio ampio intervallo di valori Y X La NATURA e la FORZA della relazione tra variabili si studiano con la REGRESSIONE
DettagliProva scritta di Affidabilità dei sistemi e controllo statistico di qualità
Prova scritta di Affidabilità dei sistemi e controllo statistico di qualità 1. a) La funzione di affidabilità è: Soluzioni 28 Gennaio 2016 = = 4. b) La probabilità che il sistema si guasti tra 0.4 e 1.4
DettagliStatistica. Capitolo 12. Regressione Lineare Semplice. Cap. 12-1
Statistica Capitolo 1 Regressione Lineare Semplice Cap. 1-1 Obiettivi del Capitolo Dopo aver completato il capitolo, sarete in grado di: Spiegare il significato del coefficiente di correlazione lineare
Dettagli0.1 Percorrenza e Cilindrata
0.1 Percorrenza e Cilindrata Iniziamo ora un analisi leggermente più complessa basata sempre sui concetti appena introdotti. Innanzi tutto possiamo osservare, dal grafico ottenuto con il comando pairs,
DettagliAnalisi grafica residui in R. Da output grafico analisi regressionelm1.csv Vedi dispensa. peso-statura
Analisi grafica residui in R Da output grafico analisi regressionelm1.csv Vedi dispensa peso-statura 1) Il plot in alto a sinistra mostra gli errori residui contro i loro valori stimati. I residui devono
DettagliCONFRONTO DIDUE CAMPIONI CASUALI
CONFRONTO DIDUE CAMPIONI CASUALI ( x, x,, x ) ( y, y,, y ) 1 n 1 n POPOLAZIONE 1 POPOLAZIONE Le due popolazioni hanno lo stesso modello stocastico? Le due popolazioni hanno la stessa media? Le due popolazioni
DettagliEsercitazione del
Esercizi sulla regressione lineare. Esercitazione del 21.05.2013 Esercizio dal tema d esame del 13.06.2011. Si consideri il seguente campione di n = 9 osservazioni relative ai caratteri ed Y: 7 17 8 36
DettagliStatistica multivariata Donata Rodi 17/10/2016
Statistica multivariata Donata Rodi 17/10/2016 Quale analisi? Variabile Dipendente Categoriale Continua Variabile Indipendente Categoriale Chi Quadro ANOVA Continua Regressione Logistica Regressione Lineare
DettagliStatistica 1 A.A. 2015/2016
Corso di Laurea in Economia e Finanza Statistica 1 A.A. 2015/2016 (8 CFU, corrispondenti a 48 ore di lezione frontale e 24 ore di esercitazione) Prof. Luigi Augugliaro 1 / 35 Il modello di regressione
DettagliLa regressione lineare. Rappresentazione analitica delle distribuzioni
La regressione lineare Rappresentazione analitica delle distribuzioni Richiamiamo il concetto di dipendenza tra le distribuzioni di due caratteri X e Y. Ricordiamo che abbiamo definito dipendenza perfetta
DettagliProva scritta di Affidabilità dei sistemi e controllo statistico di qualità
Prova scritta di Affidabilità dei sistemi e controllo statistico di qualità 18 Febbraio 2016 1. La probabilità di errore nella trasmissione di una cifra binaria attraverso un certo canale di comunicazione
DettagliEsercizio 1 GRAFICO 1. X e Y sono indipendenti. X e Y non sono correlate. La correlazione tra X e Y è <1. X e Y sono perfettamente correlate
Esercizio 1 Osservare il grafico 1 riportato in figura che mette in relazione una variabile dipendente Y ed una variabile indipendente X e rispondere alle seguenti domande. 400 300 200 GRAFICO 1 100 0
DettagliStatistica. Alfonso Iodice D Enza
Statistica Alfonso Iodice D Enza iodicede@gmail.com Università degli studi di Cassino () Statistica 1 / 24 Outline 1 2 3 4 5 () Statistica 2 / 24 Dipendenza lineare Lo studio della relazione tra caratteri
DettagliModelli con predittori qualitativi e modelli con interazioni. Strumenti quantitativi per la gestione
Modelli con predittori qualitativi e modelli con interazioni Strumenti quantitativi per la gestione Emanuele Taufer file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/3d_viq.html#(1) 1/26 Utilizzare
DettagliStatistica. Alfonso Iodice D Enza
Statistica Alfonso Iodice D Enza iodicede@unicas.it Università degli studi di Cassino () Statistica 1 / 33 Outline 1 2 3 4 5 6 () Statistica 2 / 33 Misura del legame Nel caso di variabili quantitative
Dettagli27 Marzo (a) Formulare una ipotesi sul modello tempo di vita di questa valvola e sottoporla a verifica.
Prova scritta di Affidabilità dei sistemi e Controllo statistico di qualità 27 Marzo 20 Tempo di lavoro: 2 ore. Gli esercizi vanno svolti in un file word. Riportare su questo file sia i grafici che eventuali
DettagliRegressione Lineare Semplice e Correlazione
Regressione Lineare Semplice e Correlazione 1 Introduzione La Regressione è una tecnica di analisi della relazione tra due variabili quantitative Questa tecnica è utilizzata per calcolare il valore (y)
DettagliStatistica. Alfonso Iodice D Enza
Statistica Alfonso Iodice D Enza iodicede@unina.it Università degli studi di Cassino () Statistica 1 / 1 Outline 1 () Statistica 2 / 1 Outline 1 2 () Statistica 2 / 1 Outline 1 2 3 () Statistica 2 / 1
DettagliLABORATORIO 5. ANALISI DELLA VARIANZA AD UN CRITERIO DI CLASSIFICAZIONE
LABORATORIO 5. ANALISI DELLA VARIANZA AD UN CRITERIO DI CLASSIFICAZIONE 5.1 ESEMPIO DI ANOVA AD UNA VIA In un esperimento un gruppo di bambini è stato assegnato a caso a 3 trattamenti, allo scopo di determinare
DettagliSTATISTICA A K (60 ore)
STATISTICA A K (60 ore) Marco Riani mriani@unipr.it http://www.riani.it Richiami sulla regressione Marco Riani, Univ. di Parma 1 MODELLO DI REGRESSIONE y i = a + bx i + e i dove: i = 1,, n a + bx i rappresenta
DettagliEsercizi su distribuzioni doppie, dipendenza, correlazione e regressione (Statistica I, IV Canale)
Esercizi su distribuzioni doppie, dipendenza, correlazione e regressione (Statistica I, IV Canale) Esercizio 1: Un indagine su 10.000 famiglie ha dato luogo, fra le altre, alle osservazioni riportate nella
DettagliEsercitazione 5 - Statistica (parte II) Davide Passaretti 9/3/2017
Esercitazione 5 - Statistica (parte II) Davide Passaretti 9/3/2017 Contents 1 Inferenza sulla regressione semplice 1 1.1 Test sulla pendenza della retta................................... 1 1.2 Test sull
DettagliVariabili aleatorie. continue. Discreto continuo
Variabili aleatorie continue Discreto continuo.18 Uniforme discreta, n=11 n=21 n=11 n=6 n=51 n=51 Uniforme.16.14.12.1.8.6?.4.2 1 1 2 2 3 3 4 4 5 5 6 6 7 7 Per passare dal modello discreto al modello continuo
DettagliAntonella Bodini Istituto di Matematica Applicata e Tecnologie Informatiche E. Magenes del CNR
Antonella Bodini Istituto di Matematica Applicata e Tecnologie Informatiche E. Magenes del CNR Materiale ad uso dei ricercatori che hanno seguito il corso di formazione interna in Statistica, edizione
DettagliStatistica di base per l analisi socio-economica
Laurea Magistrale in Management e comunicazione d impresa Statistica di base per l analisi socio-economica Giovanni Di Bartolomeo gdibartolomeo@unite.it Definizioni di base Una popolazione è l insieme
DettagliAssociazione tra caratteri quantitativi: gli indici di correlazione
Associazione tra caratteri quantitativi: gli indici di correlazione Per correlazione si intende una relazione tra due variabili tale che a ciascun valore della prima variabile corrisponda con una certa
DettagliLaboratorio di Statistica 1 con R Esercizi per la Relazione. I testi e/o i dati degli esercizi contassegnati da sono tratti dai libri consigliati
Laboratorio di Statistica 1 con R Esercizi per la Relazione I testi e/o i dati degli esercizi contassegnati da sono tratti dai libri consigliati nel corso. Esercizio 1. 1. Facendo uso dei comandi
DettagliLABORATORIO DI PROBABILITA E STATISTICA
UNIVERSITA DEGLI STUDI DI VERONA LABORATORIO DI PROBABILITA E STATISTICA Docente: Bruno Gobbi Corso di laurea in Informatica e Bioinformatica 4 ESERCIZI RIEPILOGATIVI PRIME 3 LEZIONI 1 - STATISTICA DESCRITTIVA
DettagliStatistica - metodologie per le scienze economiche e sociali /2e S. Borra, A. Di Ciaccio - McGraw Hill
Statistica - metodologie per le scienze economiche e sociali /e S Borra, A Di Ciaccio - McGraw Hill Es 6 Soluzione degli esercizi del capitolo 6 In base agli arrotondamenti effettuati nei calcoli, si possono
DettagliStatistica Applicata all edilizia: il modello di regressione
Statistica Applicata all edilizia: il modello di regressione E-mail: orietta.nicolis@unibg.it 27 aprile 2009 Indice Il modello di Regressione Lineare 1 Il modello di Regressione Lineare Analisi di regressione
DettagliREGRESSIONE E CORRELAZIONE
REGRESSIONE E CORRELAZIONE Nella Statistica, per studio della connessione si intende la ricerca di eventuali relazioni, di dipendenza ed interdipendenza, intercorrenti tra due variabili statistiche 1.
DettagliCorso integrato di informatica, statistica e analisi dei dati sperimentali Esercitazione VII
Corso integrato di informatica, statistica e analisi dei dati sperimentali Esercitazione VII Un breve richiamo sul test t-student Siano A exp (a 1, a 2.a n ) e B exp (b 1, b 2.b m ) due set di dati i cui
DettagliRegressione Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007
Regressione Esempio Un azienda manifatturiera vuole analizzare il legame che intercorre tra il costo mensile Y di produzione e il corrispondente volume produttivo X per uno dei propri stabilimenti. Volume
DettagliDispensa di Statistica
Dispensa di Statistica 1 parziale 2012/2013 Diagrammi... 2 Indici di posizione... 4 Media... 4 Moda... 5 Mediana... 5 Indici di dispersione... 7 Varianza... 7 Scarto Quadratico Medio (SQM)... 7 La disuguaglianza
DettagliEsercizi di statistica
Esercizi di statistica Test a scelta multipla (la risposta corretta è la prima) [1] Il seguente campione è stato estratto da una popolazione distribuita normalmente: -.4, 5.5,, -.5, 1.1, 7.4, -1.8, -..
DettagliCAPITOLO 11 ANALISI DI REGRESSIONE
VERO FALSO CAPITOLO 11 ANALISI DI REGRESSIONE 1. V F Se c è una relazione deterministica tra due variabili,x e y, ogni valore dato di x,determinerà un unico valore di y. 2. V F Quando si cerca di scoprire
DettagliSTATISTICA 1, metodi matematici e statistici Introduzione al linguaggio R Esercitazione 7:
esercitazione 7 p. 1/13 STATISTICA 1, metodi matematici e statistici Introduzione al linguaggio R Esercitazione 7: 20-05-2004 Luca Monno Università degli studi di Pavia luca.monno@unipv.it http://www.lucamonno.it
DettagliValidazione dei modelli Strumenti quantitativi per la gestione
Validazione dei modelli Strumenti quantitativi per la gestione Emanuele Taufer Validazione dei modelli Il data set Auto I dati Il problema analizzato Validation set approach Diagramma a dispersione Test
DettagliModelli con predittori qualitativi e modelli con interazioni
Modelli con predittori qualitativi e modelli con interazioni Strumenti quantitativi per la gestione Emanuele Taufer Utilizzare variabili indipendenti qualitative (VIQ) Codifica binaria 0,1 Esempio: salari
DettagliESAME. 9 Gennaio 2017 COMPITO B
ESAME 9 Gennaio 2017 COMPITO B Cognome Nome Numero di matricola 1) Approssimare tutti i calcoli alla quarta cifra decimale. 2) Ai fini della valutazione si terrà conto solo ed esclusivamente di quanto
Dettagli> cement <- read.table("i:/modelli/cement.dat", col.names=c("tempo", "resist")) > attach(cement)
Laboratorio 6 Analisi dei residui 6.1 Analisi dei dati CEMENT.DAT I dati riportati nel file cement.dat si riferiscono ad uno studio sulla resistenza del cemento alla tensione. La resistenza dipende, tra
Dettaglix, y rappresenta la coppia di valori relativa La rappresentazione nel piano cartesiano dei punti ( x, y ),( x, y ),...,( x, y )
Università degli Studi di Basilicata Facoltà di Economia Corso di Laurea in Economia Aziendale - a.a. 0/03 lezioni di statistica del 5 e 8 aprile 03 - di Massimo Cristallo - A. Le relazioni tra i fenomeni
DettagliCognome e Nome:... Corso di laurea:...
Statistica - corso base Prof. B. Liseo Prova di esame dell 8 gennaio 201 Cognome e Nome:................................................................... Corso di laurea:.......................................................................
DettagliPROCEDURE/TECNICHE DI ANALISI / MISURE DI ASSOCIAZIONE A) ANALISI DELLA VARIANZA
PROCEDURE/TECNICHE DI ANALISI / MISURE DI ASSOCIAZIONE A) ANALISI DELLA VARIANZA PROCEDURA/TECNICA DI ANALISI DEI DATI SPECIFICAMENTE DESTINATA A STUDIARE LA RELAZIONE TRA UNA VARIABILE NOMINALE (ASSUNTA
DettagliStatistica. Esercitazione 4 17 febbraio 2011 Medie condizionate. Covarianza e correlazione
Corso di Laurea in Scienze dell Organizzazione Facoltà di Sociologia, Università degli Studi di Milano-Bicocca a.a. 2010/2011 Statistica Esercitazione 4 17 febbraio 2011 Medie condizionate. Covarianza
DettagliLABORATORIO DI PROBABILITA E STATISTICA
LABORATORIO DI PROBABILITA E STATISTICA Docente: Bruno Gobbi 3 LA REGRESSIONE LINEARE ES. STUDIO RELAZIONE ALTEZZA - PESO Soggetto Altezza Peso A 174 75 B 166 63 C 173 70 D 171 71 E 168 68 F 167 68 G 165
DettagliSTATISTICA (2) ESERCITAZIONE Dott.ssa Antonella Costanzo
STATISTICA (2) ESERCITAZIONE 7 11.03.2014 Dott.ssa Antonella Costanzo Esercizio 1. Test di indipendenza tra mutabili In un indagine vengono rilevate le informazioni su settore produttivo (Y) e genere (X)
DettagliEsplorazione dei dati. Lucidi e dataset tratti da Turini - Analisi dei Dati, Dip. Inf. Unipi
Esplorazione dei dati Lucidi e dataset tratti da Turini - Analisi dei Dati, Dip. Inf. Unipi Analisi mono e bivariata Si utilizzano indicatori sintetici che individuano, con un singolo valore, proprieta`
DettagliSoluzioni della prova scritta del 6 Marzo 2013 (a.a. 2012/2013)
Soluzioni della prova scritta del 6 Marzo 2013 (a.a. 2012/2013) 1. Per monitorare se la produzione è in controllo statistico costruiamo una carta p. Se x è il vettore dei dati assegnati, le percentuali
DettagliRegressione lineare semplice
Regressione lineare semplice Strumenti quantitativi per la gestione Emanuele Taufer Regressione lineare (RL) La regressione lineare per i dati Advertising Analisi d interesse Regressione lineare semplice
DettagliSCOPO DELL ANALISI DI CORRELAZIONE
CORRELAZIONE 1 SCOPO DELL ANALISI DI CORRELAZIONE STUDIARE LA RELAZIONE TRA DUE VARIABILI X E Y 2 diagrammi di dispersione un diagramma di dispersione (o grafico di dispersione) èuna rappresentazione grafica
DettagliStatistica. Alfonso Iodice D Enza
Statistica Alfonso Iodice D Enza iodicede@unina.it Università degli studi di Cassino () Statistica 1 / 24 Outline 1 () Statistica 2 / 24 Outline 1 2 () Statistica 2 / 24 Outline 1 2 3 () Statistica 2 /
DettagliCovarianza, correlazione e retta di regressione. Paola Lecca, CIBIO UNITN Corso di Matematica e Statistica 2
Covarianza, correlazione e retta di regressione Paola Lecca, CIBIO UNITN Corso di Matematica e Statistica 2 Questa presentazione è stata preparata attingendo dai seguenti testi S. M. Iacus, Statistica,
DettagliVariabili indipendenti qualitative. In molte applicazioni si rende necessario l introduzione di un fattore a due o più livelli.
Variabili indipendenti qualitative Di solito le variabili nella regressione sono variabili continue In molte applicazioni si rende necessario l introduzione di un fattore a due o più livelli Ad esempio:
DettagliLezione 18. Statistica. Alfonso Iodice D Enza Università degli studi di Cassino. Lezione 18. A. Iodice
Statistica Alfonso Iodice D Enza iodicede@unicas.it Università degli studi di Cassino () Statistica 1 / 45 Outline 1 2 3 4 5 () Statistica 2 / 45 Modello di In molte applicazioni il ruolo delle variabili
DettagliProva scritta di Complementi di Probabilità e Statistica. 7 Dicembre 2012
Prova scritta di Complementi di Probabilità e Statistica 7 Dicembre. Un ingegnere vuole investigare se le caratteristiche di una superficie metallica sono influenzate dal tipo di pittura usata e dal tempo
Dettaglilezione n. 6 (a cura di Gaia Montanucci) Verosimiglianza: L = = =. Parte dipendente da β 0 e β 1
lezione n. 6 (a cura di Gaia Montanucci) METODO MASSIMA VEROSIMIGLIANZA PER STIMARE β 0 E β 1 Distribuzione sui termini di errore ε i ε i ~ N (0, σ 2 ) ne consegue : ogni y i ha ancora distribuzione normale,
DettagliPAROLE CHIAVE Accuratezza, Accuracy, Esattezza, PRECISIONE, Precision, Ripetibilità, Affidabilità, Reliability, Scarto quadratico medio (sqm), Errore
PAROLE CHIAVE Accuratezza, Accuracy, Esattezza, PRECISIONE, Precision, Ripetibilità, Affidabilità, Reliability, Scarto quadratico medio (sqm), Errore medio, Errore quadratico medio (eqm), Deviazione standard,
DettagliR - Esercitazione 6. Andrea Fasulo Venerdì 22 Dicembre Università Roma Tre
R - Esercitazione 6 Andrea Fasulo fasulo.andrea@yahoo.it Università Roma Tre Venerdì 22 Dicembre 2017 Il modello di regressione lineare semplice (I) Esempi tratti da: Stock, Watson Introduzione all econometria
DettagliCorso di Laurea in Scienze dell Organizzazione Facoltà di Sociologia, Università degli Studi di Milano-Bicocca a.a. 2009/2010.
Corso di Laurea in Scienze dell Organizzazione Facoltà di Sociologia, Università degli Studi di Milano-Bicocca a.a. 2009/2010 Statistica Esercitazione 4 12 maggio 2010 Dipendenza in media. Covarianza e
DettagliFac-simile prova di esame
UNIVERSITÀ CA FOSCARI DI VENEZIA FACOLTÀ DI ECONOMIA Statistica Computazionale I Prof. Stefano Tonellato COGNOME.................................... NOME.................................... MATRICOLA....................................
DettagliUniversità del Piemonte Orientale Specializzazioni di area sanitaria Statistica Medica
Università del Piemonte Orientale Specializzazioni di area sanitaria Statistica Medica Regressione Lineare e Correlazione Argomenti della lezione Determinismo e variabilità Correlazione Regressione Lineare
DettagliCorso di Psicometria Progredito
Corso di Psicometria Progredito 5. La correlazione lineare Gianmarco Altoè Dipartimento di Pedagogia, Psicologia e Filosofia Università di Cagliari, Anno Accademico 2013-2014 Sommario 1 Tipi di relazione
DettagliFasi del modello di regressione
Fasi del modello di regressione Specificazione del modello: scelta del tipo di funzione da utilizzare per descrivere un fenomeno; definizione delle ipotesi di base Stima dei parametri: uso di stimatori
DettagliProva scritta Affidabilità dei sistemi stocastici e controllo statistico di qualità 28 Marzo 2013
Prova scritta Affidabilità dei sistemi stocastici e controllo statistico di qualità 28 Marzo 2013 1. Un azienda che produce batterie per cellulari sta effettuando dei test per confrontare tre tipi diversi
DettagliRegressione multipla
Regressione multipla L obiettivo è costruire un modello probabilistico per spiegare la variabile y tramite più di una variabile indipendente x 1, x 2,..., x k. Esempio: Per un efficiente progettazione
DettagliANALISI DELLE SERIE STORICHE
ANALISI DELLE SERIE STORICHE De Iaco S. s.deiaco@economia.unile.it UNIVERSITÀ del SALENTO DIP.TO DI SCIENZE ECONOMICHE E MATEMATICO-STATISTICHE FACOLTÀ DI ECONOMIA 24 settembre 2012 Indice 1 Funzione di
DettagliMetodi statistici per l economia (Prof. Capitanio) Slide n. 10. Materiale di supporto per le lezioni. Non sostituisce il libro di testo
Metodi statistici per l economia (Prof. Capitanio) Slide n. 10 Materiale di supporto per le lezioni. Non sostituisce il libro di testo 1 REGRESSIONE LINEARE Date due variabili quantitative, X e Y, si è
DettagliData Mining. Prova parziale del 20 aprile 2017: SOLUZIONE
Università degli Studi di Padova Corso di Laurea Magistrale in Informatica a.a. 2016/2017 Data Mining Docente: Annamaria Guolo Prova parziale del 20 aprile 2017: SOLUZIONE ISTRUZIONI: La durata della prova
DettagliBLAND-ALTMAN PLOT. + X 2i 2 la differenza ( d ) tra le due misure per ognuno degli n campioni; d i. X i. = X 1i. X 2i
BLAND-ALTMAN PLOT Il metodo di J. M. Bland e D. G. Altman è finalizzato alla verifica se due tecniche di misura sono comparabili. Resta da comprendere cosa si intenda con il termine metodi comparabili
Dettagli3.1 Classificazione dei fenomeni statistici Questionari e scale di modalità Classificazione delle scale di modalità 17
C L Autore Ringraziamenti dell Editore Elenco dei simboli e delle abbreviazioni in ordine di apparizione XI XI XIII 1 Introduzione 1 FAQ e qualcos altro, da leggere prima 1.1 Questo è un libro di Statistica
DettagliStatistica Un Esempio
Statistica Un Esempio Un indagine sul peso, su un campione di n = 100 studenti, ha prodotto il seguente risultato. I pesi p sono espressi in Kg e sono stati raggruppati in cinque classi di peso. classe
DettagliCURVE DI DURATA: Introduzione e Rappresentazione analitica
CURVE DI DURATA: Introduzione e Rappresentazione analitica Premesse Si definisce durata di una portata Q riferita ad una sezione di misura, l'intervallo di tempo in cui le portate naturali del corso d
DettagliLezioni di Statistica del 15 e 18 aprile Docente: Massimo Cristallo
UIVERSITA DEGLI STUDI DI BASILICATA FACOLTA DI ECOOMIA Corso di laurea in Economia Aziendale anno accademico 2012/2013 Lezioni di Statistica del 15 e 18 aprile 2013 Docente: Massimo Cristallo LA RELAZIOE
DettagliTest per la correlazione lineare
10 Test per la correlazione lineare Istituzioni di Matematica e Statistica 2015/16 E. Priola 1 Introduzione alla correlazione lineare Problema: In base ai dati che abbiamo possiamo dire che c è una qualche
DettagliLaboratorio di R - 3 a lezione Prof. Mauro Gasparini
Laboratorio di R - 3 a lezione Prof. Mauro Gasparini 1. Verifica di ipotesi: il test t di Student In R è disponibile la funzione t.test che effettua il test t di Student ad un campione, a due campioni
DettagliEsercizio 8. Ne segue, ovviamente che le aree geografiche di riferimento sono Africa e America del Sud.
Esercizio 8 La Swiss Economic Research della Union Bank of Switzerland conduce un controllo periodico dei livelli dei prezzi e dei salari nella principali città del mondo. Una delle variabili rilevate
DettagliRegressione lineare semplice
Regressione lineare semplice Prof. Giuseppe Verlato Sezione di Epidemiologia e Statistica Medica, Università di Verona Statistica con due variabili var. nominale, var. nominale: gruppo sanguigno - cancro
DettagliESPERIENZA DI LABORATORIO N 1. 1) Misura diretta mediante tester della resistenza elettrica dei resistori R1, R2, R3 e calcolo degli errori di misura.
ESPERIENZA DI LABORATORIO N. ) Misura diretta mediante tester della resistenza elettrica dei resistori R, R, R3 e calcolo degli errori di misura. Dalla misurazione diretta delle singole resistenze abbiamo
DettagliMulticollinearità. Strumenti quantitativi per la gestione
Multicollinearità Strumenti quantitativi per la gestione Emanuele Taufer file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/3c_mc.html#(1) 1/13 Quando non tutto va come dovrebbe Si parla di multi-collinearità
DettagliAFFIDABILITA DEI SISTEMI STOCASTICI (semplici)
AFFIDABILITA DEI SISTEMI STOCASTICI (semplici) Un sistema (o uno qualsiasi dei suoi componenti) può essere soggetto a stress casuali. Es: un fusibile in un circuito; una trave di acciaio sotto carico;
DettagliLezione 10: Interpolazione lineare Corso di Statistica Facoltà di Economia Università della Basilicata. Prof. Massimo Aria
Lezione 10: Interpolazione lineare Corso di Statistica Facoltà di Economia Università della Basilicata Prof. Massimo Aria aria@unina.it Il concetto di interpolazione In matematica, e in particolare in
DettagliTeoria e tecniche dei test. Concetti di base
Teoria e tecniche dei test Lezione 2 2013/14 ALCUNE NOZIONI STATITICHE DI BASE Concetti di base Campione e popolazione (1) La popolazione è l insieme di individui o oggetti che si vogliono studiare. Questi
DettagliTest di ipotesi su due campioni
2/0/20 Test di ipotesi su due campioni Confronto tra due popolazioni Popolazioni effettive: unità statistiche realmente esistenti. Esempio: Confronto tra forze lavoro di due regioni. Popolazioni ipotetiche:
DettagliLa multicollinearità sorge quando c è un elevata correlazione tra due o più variabili esplicative.
Lezione 14 (a cura di Ludovica Peccia) MULTICOLLINEARITA La multicollinearità sorge quando c è un elevata correlazione tra due o più variabili esplicative. In un modello di regressione Y= X 1, X 2, X 3
Dettagli1.4. Siano X B(1, 1/2) e Y B(1, 1/2) variabili aleatorie indipendenti. Quale delle seguenti affermazioni é falsa? E(X + Y ) = 1 V ar(x + Y ) = 1/2
Statistica N. Crediti: Cognome: Laurea Triennale in Biologia Nome: 4 settembre 2012 Matricola: 1. Parte A 1.1. Siano x 1, x 2,..., x 10 i dati relativi al peso di 10 neonati espressi in chilogrammi e y
DettagliQuiz di verifica Classificazione
Quiz di verifica Classificazione Strumenti Quantitativi per la gestione Le domande 1 4 si riferiscono al seguente problema: Supponiamo di raccogliere dati per un gruppo di studenti della classe di SQG
Dettaglii dati escludono vi sia una relazione tra variabile indipendente e variabile dipendente (rispettivamente
TEST DI AUTOVALUTAZIONE - SETTIMANA 6 I diritti d autore sono riservati. Ogni sfruttamento commerciale non autorizzato sarà perseguito. Metodi statistici per la biologia Parte A. La retta di regressione.2
DettagliStatistica. Matematica con Elementi di Statistica a.a. 2015/16
Statistica La statistica è la scienza che organizza e analizza dati numerici per fini descrittivi o per permettere di prendere delle decisioni e fare previsioni. Statistica descrittiva: dalla mole di dati
DettagliStatistica. Esercitazione 16. Alfonso Iodice D Enza iodicede@unicas.it. Università degli studi di Cassino. Statistica. A. Iodice
Esercitazione 16 Alfonso Iodice D Enza iodicede@unicas.it Università degli studi di Cassino () 1 / 24 Studio della relazione tra due variabili Commonly Asked Questions Qual è la relazione tra la spesa
DettagliFacoltà di Scienze Statistiche Corso di Laurea in Statistica ed Informatica per l Azienda ESERCIZI DI ALLENAMENTO a.a.
Facoltà di Scienze Statistiche Corso di Laurea in Statistica ed Informatica per l Azienda ESERCIZI DI ALLENAMENTO a.a. 2008 PARTE I 1. Si consideri il seguente modello di regressione lineare su dati cross
DettagliStatistica. Esercitazione 4 15 maggio 2012 Connessione. Medie condizionate. Covarianza e correlazione
Corso di Laurea in Scienze dell Organizzazione Facoltà di Sociologia, Università degli Studi di Milano-Bicocca a.a. 2011/2012 Statistica Esercitazione 4 15 maggio 2012 Connessione. Medie condizionate.
DettagliIntroduzione alla Regressione Logistica
Introduzione alla Regressione Logistica Contenuto regressione lineare semplice e multipla regressione logistica lineare semplice La funzione logistica Stima dei parametri Interpretazione dei coefficienti
DettagliCORSO DI STATISTICA (parte 1) - ESERCITAZIONE 5
CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 5 Dott.ssa Antonella Costanzo a.costanzo@unicas.it Esercizio 1. Misura dell associazione tra due caratteri Uno store manager è interessato a studiare la relazione
DettagliPresentazione dell edizione italiana
1 Indice generale Presentazione dell edizione italiana Prefazione xi xiii Capitolo 1 Una introduzione alla statistica 1 1.1 Raccolta dei dati e statistica descrittiva... 1 1.2 Inferenza statistica e modelli
DettagliIl modello di regressione
Il modello di regressione Capitolo e 3 A M D Marcello Gallucci Milano-Bicocca Lezione: II Concentti fondamentali Consideriamo ora questa ipotetica ricerca: siamo andati in un pub ed abbiamo contato quanti
DettagliTest F per la significatività del modello
Test F per la significatività del modello Per verificare la significatività dell intero modello si utilizza il test F Si vuole verificare l ipotesi H 0 : β 1 = 0,, β k = 0 contro l alternativa che almeno
DettagliOgni misura è composta di almeno tre dati: un numero, un'unità di misura, un'incertezza.
Ogni misura è composta di almeno tre dati: un numero, un'unità di misura, un'incertezza. Misure ripetute forniscono dati numerici distribuiti attorno ad un valore centrale indicabile con un indice (indice
Dettagli