Analisi della regressione

Transcript

1 Analisi della regressione L analisi della regressioneè una tecnica statistica per modellare e investigare le relazioni tra due (o più) variabili. Nella tavola è riportata la % di purezza di ossigeno, rilasciata in un processo di distillazione chimica, e il livello di idrocarbonio, presente nel condensatoreprincipale di unità di distillazione. Dati salvati in un file Osservazioni Liv.Idrocarbonio Purezza 1 0,99 90,01 2 1,02 89,05 3 1,15 91,43 4 1,29 93,74 5 1,46 96,73 6 1,36 94,45 7 0,87 87,59 8 1,23 91,77 9 1,55 99, ,4 93, ,19 93, ,15 92, ,98 90, ,01 89, ,11 89, ,2 90, ,26 93, ,32 93, ,43 94, ,95 87,33 2 1

2 Con questa concatenazione di functionsè possibile far leggere i dati in un file memorizzati sotto forma di tabella e assegnarli ad una variabile. > dati<-matrix(scan("c:/programmi/r/r-3.0.2/regressionedati.r", + n=20*2),20,2,byrow=true) Read 40 items Un primo modo di studiare che tipo di relazione sussiste tra le popolazioniche hanno generato i dati è il diagramma di dispersione (scatter plot). > datix<-dati[,1] > datiy<-dati[,2] > plot(datix,datiy,xlab='purezza + ossigeno',ylab='% di idrocarbonio') 3 CONSIDERAZIONI SULLO SCATTER DIAGRAM Le correlazioni, possibilmente positiva o possibilmente negativa, sono In forse quando i punti rappresentativi delle coppie di dati, pur disponendosiattorno ad una delle due diagonali del diagramma, presentano una dispersione piuttosto accentuata tale da far presumere l esistenza di altre cause che intervengono a determinare l'effetto studiato. 2

3 C è un modo per misurare il grado di correlazione tra due variabili aleatorie? [ ] [ ] S e µ = E X e µ = E Y, si definisce covarianza di X X e Y, la quantità D efin izion e Y C ov(x,y ) = E [( X µ )( Y µ )]. X Y cov( X, Y ) = E[ XY ] µ µ Teorema : Se X e Y sono indipendenti, Cov( X, Y ) = 0. Il viceversa non vale. X Y Controesempio X p( x) Y 3 2 = X Cov( X, Y ) = 0 5 Teorema : Var( X ± Y ) = Var( X ) + Var( Y ) ± 2cov( X, Y ) Definizione La correlazione tra le variabili aleatorie X e Y è la quantità: cov( X, Y ) σ XY ρ = = Var( X ) Var( Y ) σ σ Se la covarianzatra due variabili aleatorie è positiva, negativa o nulla, anche la correlazione sarà positiva, negativa o nulla. Teorema : La correlazione tra le variabili aleatorie X e Y gode della seguente proprietà: -1 ρ 1 Teorema : Se ρ = ± 1 P( Y = ax ± b) = 1 X Y 6 3

4 Il coefficiente di correlazione non è una misura generale della relazione tra due variabili, ma esprime solo il grado di linearità della correlazione in un grafico a dispersione. Gli outlierspossono modificare significativamente il valore del coefficiente di correlazione. 4

5 In R la functionper calcolare il coefficiente di correlazione è cor() Bisogna specificare in input il tipo di coefficiente da calcolare: in questo caso quello di Pearson. > cor(datix, datiy, method="pearson") [1]

6 Se si immagina che la relazione tra Xe Ysia lineare, allora bisogna ricercare i coefficienti della trasformazione Y = mx + b + ε m, b coefficienti di regressione X (livello di idrocarbonio) var. aleat. indipendente Y (purezza dell'ossigeno) var. aleat. dipendente ε ε = ε = σ 2 (errore casuale), E[ ] 0, Var[ ]. Come si calcolano i coefficienti? IL METODO DEI MINIMI QUADRATI Minimizzare la distanza tra i punti delle osservazioni e la retta stessa. 11 residui Si cerca il minimo della funzione rispetto m e b L a b y mx b n = i i i= 1 (, ) ( ) 2 6

7 La funzione di R per stimare un modello di regressione lineare è lm (linear models). L output di tale funzione è molto complesso: in generaleè opportuno salvarlo in una variabile di classe per poi estrarne le quantità necessarie all analisi dei dati >result<-lm( datiy~ datix) >summary(result) Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) < 2e-16 *** datix e-09 *** --- Signif. codes: 0 *** ** 0.01 * Pertanto il modello lineare stimato è y = x y = Possiamo sovrapporre la retta al grafico con il comando: > abline(lm(datiy ~ datix)) 14 7

8 >summary(result) Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) < 2e-16 *** datix e-09 *** --- Signif. codes: 0 *** ** 0.01 * L errore standard misura il grado di precisione della stima dei parametri. 15 >summary(result) Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) < 2e-16 *** datix e-09 *** --- Signif. codes: 0 *** ** 0.01 * E l output di un test per verificare se i valori dei coefficienti sono nulli. La legenda associa alle stelle un valore numerico: quando questi valori numerici sono inferiori a 0.05, allora si può ritenere non vera l ipotesi che i coefficienti sono nulli. 16 8

9 >summary(result) Multiple R-squared: , Adjusted R-squared: R^2 è noto nella letteratura come coefficiente di determinazione. > rho<-cor(datix, datiy, method="pearson") > rho^2 [1] Spiega quanta parte della variabilità della Y è imputabile alla variabilità della X, in questo caso l 87%. Il valore numerico è ottenuto usando una formula corretta e più robusta. I valori vengono riportati entrambi perché grosse discrepanze segnalano la presenza di valori anomali. 17 > summary(result) F-statistic: on 1 and 18 DF, p-value: 1.227e-09 Questo è un test per stabilire se è valido il modello con predittore Y = mx + b + ε oppure quello senza predittore Y = b + ε L esito del test si legge analogamente a prima. Si osservi che questo test equivale al test per riconoscere se m =

10 ANALISI DEI RESIDUI > summary(result) Residuals: Min 1Q Median 3Q Max Residual standard error: on 18 degrees of freedom Si definiscono residui le distanze tra i valori della variabile dipendente ottenuti mediante la retta di regressione e quelli osservati. e = y yˆ i i i Anche in questo caso l errore standard misura la variabilità dell errore stocastico εinserito nel modello 2 Perchè il modello sia valido è necessario provare che ε N(0, σ ) 19 Per ora usiamo due strumenti grafici. Il grafico dei residui e il qqnorm. > str(result) Listof12 $ coefficients : Namednum[1:2] attr(*, "names")= chr[1:2] "(Intercept)" "datix" $ residuals : Named num[1:20] attr(*, "names")= chr[1:20] "1" "2" "3" "4"... $ effects : Named num[1:20] attr(*, "names")= chr[1:20] "(Intercept)" "datix" "" ""... $ rank : int2 $ fitted.values: Named num[1:20] attr(*, "names")= chr[1:20] "1" "2" "3" "4"... $ assign : int[1:2] 0 1 $ qr :Listof5..$ qr : num[1:20, 1:2] attr(*, "dimnames")=list of $ : chr[1:20] "1" "2" "3" "4" $ : chr[1:2] "(Intercept)" "datix"....-attr(*, "assign")= int[1:2] 0 1..$ qraux: num[1:2]

11 > qqnorm(result$residuals) > I punti si distribuiscono lungo una retta. > plot(1:20,result$residuals,type='p', + main='grafico dei residui', + xlab='residui') > abline(h=0, lwd=2) La dispersione non presenta particolari patterns. ESEMPI DI GRAFICI DI RESIDUI Omoschedasticità= varianza costante per l errore Eteroschedasticità= varianza diversa per l errore 11

12 La relazione tra due campioni casuali non è sempre lineare. A volte è possibile trasformare opportunamente le scale di misurazione perché il modello di regressione lineare sia sufficiente. Il seguente datasetrappresenta il peso corporeo espresso in kg e il peso del cervello espresso in gr. per 62 diverse specie di mammiferi. > cervello<-matrix(scan("c:/programmi/r/r-3.0.2/cervello.txt", + skip=1,n=62*2),62,2,byrow=true) Read 124 items Effettuando un diagramma di dispersione dei dati, si osserva un andamento molto lontano da quello lineare. Provando a rappresentare i dati in scala logaritmica, si ottiene > plot(log(cervello[,1]),log(cervello[,2]),type='p',main='scatter-plot + Scala Log',xlab='Peso corporeo',ylab='peso cervello') > abline(lm(log(cervello[,2]) ~ log(cervello[,1])) ) > 12

13 Torniamo all esercizio sul fittingdei dati: Esempio: si misura il tempo di vita di 20 lampadine, che è stato riportato di seguito. Stimare la funzione guasto, la funzione di affidabilità, la densitàdi guasto, il tempo medio di vita. Determinare quale modello teorico potrebbe descrivere il tempo di vita. 10,45 2,30 19,71 49,81 46,89 69,08 0,32 11,36 43,20 3,24 6,10 1,01 0,71 3,89 5,38 0,37 7,29 9,12 17,52 9,60 Usando i probabilityplottingpapers, avevamo stabilito che il modello di Weibull si adattava bene ai dati. Usando la function fitdistr() > stima<-fitdistr(dati,"weibull") > str(stima) Listof5 $ estimate: Named num [1:2] attr(*, "names")= chr[1:2] "shape" "scale" $ sd : Namednum [1:2] attr(*, "names")= chr[1:2] "shape" "scale" Usando la regressione sui dati del probability plotting paper? E necessario costruire il modello di regressione tra > source('datiprimoesercizio.r') > x<-log(sort(dati)) > index<-seq(1,20,1) > cdf<-(index-0.3)/20.4 > z<-log(log(1/(1-cdf))) Per ottenere i coefficienti è sufficiente che: > result<-lm(z ~ x) > result Coefficients: (Intercept) x Con fitdistr() $ estimate: "shape" "scale Ovviamente questi non sono i parametri di scala e di forma, perché nella retta di regressione associata al probability plottingpaperè z = β x β logα m = β e b= β logα ossia β = e α =

14 Un caso in cui l uso Del Modello di regressione è necessario L esercizio che segue si riferisce a un campione casuale di 90 tempi di guasto. I tempi sono ripartiti in modalità e viene fornita la tabella seguente. Rank Tempo guasto # guasti Guasti cum. Median rank%

15 Un altro modo per leggere le tabelle di dati In R, aprire un file dove riportare i dati e salvarlo con estensione.csv. Questi file, una volta letti con il comando read.csv() producono delle matrici con la stessa struttura di quella usata nel file > guasti<-read.csv("c:/programmi/r/guasti.csv",header=f,sep=",") Per costruire il probability plotting paper relativo al modello di Weibull > guasti V1 V > x=log(guasti[,1]) > cdf=(cumsum(guasti[,2])-0.3)/(90+0.4) > y=log(log(1/(1-cdf))) Grafico Non Corretto 15

16 Anche ricostruendo il campione casuale a partire dalla tabella > dati<-c(rep(guasti[1,1],guasti[1,2])) > dati [1] [20] > for(i in 2:17) { + dati<-c(dati, rep(guasti[i,1],guasti[i,2])) + } > dati [1] [13] [25] [37] [49] [61] [73] [85] > Il grafico che ne risulta non consente di ritenere adeguato il modello di Weibull perchévi sono molti dati che si ripetono 16

17 Nel grafico originale invece riconosciamo tre andamenti: Rank Tempo guasto # guasti Guasti cum. Median rank%

18 Num.prova Tempo guasto # guasti Guasti cum. Median rank% Num.prova Tempo guasto # guasti Guasti cum. Median rank%

19 > dati1<-dati[1:37] > dati2<-dati[38:74] > dati3<-dati[74:90] > library(mass) > stima1<-fitdistr(dati1,'weibull') Error in fitdistr(dati1, "weibull") : optimization failed In addition: Warning messages: 1: In densfun(x, parm[1], parm[2],...) : NaNs produced 2: In densfun(x, parm[1], parm[2],...) : NaNs produced Il motivo dell errore è che nella formula che stima uno dei due parametri della Weibull, compaiono le distanze tra i dati al denominatore. Si può ovviare all inconveniente usando la regressione lineare. Una procedura più corretta consiste nell uso dei cosiddetti modelli lineari generalizzati. Tuttavia ci accontentiamo di costruire un modello di regressione per ciascuno dei 3 sottogruppi trovati. Per il primo gruppo: > guasti1<-guasti[1:4,1] > x<-log(sort(guasti1)) > fas<-guasti[1:4,2] > cdf<-(cumsum(fas)-0.3)/37.4 > z<-log(log(1/(1-cdf))) > result<-lm(z ~ x) > result Coefficients: (Intercept) x Con la trasformazione vista prima: β =0.980 e α =

20 Per il secondo gruppo: > guasti2<-guasti[5:11,1] > x<-log(sort(guasti2)) > fas<-guasti[5:11,2] > cdf<-(cumsum(fas)-0.3)/37.4 > z<-log(log(1/(1-cdf))) > result<-lm(z ~ x) > result Coefficients: (Intercept) x Con la trasformazione vista prima: β =2.643 e α = > Per il terzo gruppo: > guasti3<-guasti[12:17,1] > x<-log(sort(guasti3)) > fas<-guasti[12:17,2] > cdf<-(cumsum(fas)-0.3)/37.4 > z<-log(log(1/(1-cdf))) > result<-lm(z ~ x) > result Coefficients: (Intercept) x Con la trasformazione vista prima: β =2.183 e α = > 20

21 L esempio mostra come per questo componente le informazioni circa il tasso di guasto siano ripartite lungo l arco temporale. La affidabilità totale è una somma di affidabilità, ciascuna si riferisce a un periodo della vita, secondo dei pesi che restituiscono il peso di quel tasso di guasto lungo l arco temporale R( t) = a R ( t) + a R ( t) + a R ( t) con a + a + a = Iperesponenziale f ( t) = a f ( t) + a f ( t) + a f ( t) F( t) = a F ( t) + a F ( t) + a F ( t) MISTURE Nell esempio è: β t 37 t 16 t R( t) = exp + exp + exp 90 α 90 α 90 α β β 3 21