Università di Padova Dipartimento di Tecnica e Gestione dei sistemi industriali Corso di Laurea Specialistica in Ingegneria Civile Elaborato di analisi statistica a.a. 5-6 Prof. L. Salmaso Dott. L. Corain
INDICE ) STATISTICA A CAMPIONE....)Statistica descrittiva ad un campione: tabella ed istogramma di frequenza, indici di sintesi....)statistica inferenziale ad un campione sulla media: intervallo di confidenza, verifica di ipotesi....3) Statistica inferenziale ad un campione sulla proporzione: intervallo di confidenza, verifica di ipotesi... ) STATISTICA A CAMPIONI....) Statistica descrittiva a due campioni: tabella e poligoni di frequenza, confronto principali indici di sintesi....) Statistica inferenziale a due campioni sulle medie: verifica di ipotesi sulle varianze, verifica di ipotesi sulla differenza delle medie....3) Statistica inferenziale a due campioni sulle proporzioni: test Z, test Chi-quadro... 3) STATISTICA A C CAMPIONI... 3.) Anova via... 3.) Regressione lineare multipla...
) STATISTICA A CAMPIONE.) Statistica descrittiva Il primo passo dell esercitazione consiste nell estrazione dei dati dal dataset. Il campione a cui facciamo riferimento per la nostra analisi è quello dei valori dei provini portati a rottura in prove interne per barre di acciaio di diametro 6mm. Con gli strumenti della statistica descrittiva andiamo a rappresentare il campione: Interne rottura diam 6 63 6 67 6 63 63 65 69 63 6 587 59 67 64 573 583 595 69 66 59 Descriptive Statistics: Interne rottura diam 6 Variable N Mean Median TrMean StDev SE Mean Interne 66,5 6,5 67,7 4,58 3,6 Variable Minimum Maximum Q Q3 Interne 573, 63, 59,75 67, Tabella di frequenza Snervamento frequenza Intervallo assoluta % 57,5-575,5 5 575,5-58,5 58,5-587,5 587,5-59,5 59,5-597,5 5 597,5-6,5 6,5-67,5 67,5-6,5 6,5-67,5 6 3
67,5-6,5 3 5 6,5-67,5 5 totale complessivo Descriptive Statistics Variable: C A-Squared: P-Value: C: 6 Anderson-Darling Normality Test,88,3 575 585 595 65 65 65 95% Confidence Interval for Mu 595 65 65 95% Confidence Interval for Median Mean StDev Variance Skewness Kurtosis N Minimum st Quartile Median 3rd Quartile Maximum 599,47,86 596,88 66,5 4,578,53-8,6E- -3,E- 573, 59,75 6,5 67, 63, 95% Confidence Interval for Mu 63,73 95% Confidence Interval for Sigma,9 95% Confidence Interval for Median 66,765 Dai grafici ottenuti possiamo ricavare numerose informazioni sul campione. Esso presenta asimmetria negativa, cioè abbiamo che la media risulta essere minore della mediana. Ciò si può rilevare dall indice di Skewness e dalla forma della curva. Il test di normalità Anderson-Darling ci dice che, assumendo un indice di significatività pari ad alpha=.5 la distribuzione non può essere assunta normale, grazie al confronto col p-value. Tra i grafici troviamo anche il Boxplot, con cui possiamo avere un idea immediata di quali sono il valore centrale e la varianza del nostro campione. Nella scatola è contenuto il 5% dei nostri dati e la linea all interno indica il valore della mediana; i due valori estremali del contenitore sono detti primo e terzo interquartile..) Statistica inferenziale ad un campione sulla media: intervallo di confidenza, verifica di ipotesi rispetto al valore assegnato (colonna " sample test mean", alternativa a due code) One-Sample T: Interne rottura diam 6 Test of mu = 6 vs mu not = 6 Variable N Mean StDev SE Mean Interne rott 66,5 4,58 3,6
Variable 95,% CI T P Interne rott ( 599,43; 63,7) -,5,64 Histogram of C9 (with Ho and 95% t-confidence interval for the mean) 8 6 Frequency 4 X _ Ho [ ] 57 58 59 6 6 6 C9 Abbiamo svolto una verifica di ipotesi sulla media del campione. Non è stato possibile rifiutare l ipotesi nulla perché il valore del p-value è,64>,5, quindi si può fare inferenza sul parametro media della popolazione dicendo che esso assume il valore 6 (assumendo la significatività considerata). E stato condotto un test-t perché la varianza della popolazione è incognita. Statistica test T X μ = S n S è la varianza campionaria, quindi una stima di quella reale incognita. Essa sarà tanto migliore quanto più grande è la numerosità campionaria (per n>3 molto buona) e si avvicinerà pertanto al test Z; rispetto alla distribuzione normale la T-student ha le code più importanti. Minitab ha costruito l intervallo di confidenza e mostra graficamente che il valore dell ipotesi nulla cade dentro di esso.
.3) Costruire una tabella che calcoli la proporzione di campioni "non di qualità" in base alla soglia assegnata (colonna "no quality threshold") Interne rottura diam 6 Test qualità(>6) 63 conforme 6 conforme 67 conforme 6 conforme 63 conforme 63 conforme 65 conforme 69 conforme 63 conforme 6 conforme 587 non conforme 59 non conforme 67 conforme 64 conforme 573 non conforme 583 non conforme 595 non conforme 69 conforme 66 conforme 59 non conforme TOTALE non conformi 6 In questa tabella sono riassunti i valori del campione messi a confronto con la quantità di soglia, che per la nostra esercitazione è pari a 6; solo i valori di rottura maggiori di questa quantità sono conformi..4) Statistica inferenziale ad un campione sulla proporzione: intervallo di confidenza, verifica di ipotesi rispetto al valore assegnato Test and CI for One Proportion Test of p =,3 vs p >,3 Exact Sample X N Sample p 95,% Lower Bound P-Value 6,3,39554,584 Abbiamo studiato la proporzione di barre non conformi, andando a costruire l intervallo di confidenza, e quindi svolgendo la verifica di ipotesi H : p=.3 e H : p>.3. Usiamo come statistica test Z = X np np p ( )
sulla popolazione binomiale conforme/non conforme. Il test è a una coda, infatti l ipotesi alternativa ammette solo un confronto unilaterale (>). Il p-value ci dice che l ipotesi nulla non può essere rifiutata perché esso risulta essere >,5, pertanto la probabilità di trovare barre non conformi si può assumere non maggiore del 3%.
) STATISTICA A CAMPIONI.) La seconda parte dell esperienza consiste nell estrarre dal dataset i dati relativi alla rottura in prove interne per il diametro di barra mm e nel confronto col campione precedente. Interne rottura diam 59 65 69 63 63 6 6 589 598 598 59 6 63 67 64 64 598 6 595 59 Interne rottura diam 6 63 6 67 6 63 63 65 69 63 6 587 59 67 64 573 583 595 69 66 59 Andando ad analizzare con la statistica descrittiva il secondo campione: Descriptive Statistics Variable: Diametro Anderson-Darling Normality Test A-Squared: P-Value:,35,57 59 6 6 6 63 Mean StDev Variance Skewness Kurtosis N 64,5,55 6,68,75886,78499 95% Conf idence Interv al f or Mu Minimum st Quartile Median 3rd Quartile Maximum 598,78 589, 595,75 6,5 6,5 63, 95% Conf idence Interv al f or Mu 69,38 6 65 6 95% Conf idence Interv al f or Sigma 8,56 6,439 95% Conf idence Interv al f or Median 95% Conf idence Interv al f or Median 598, 69,765
Possiamo fare un confronto col precedente: Per questo campione si può assumere una distribuzione approssimatamente normale, infatti il test di normalità Anderson Darling ci fornisce un p-value di,57 e quindi non è possibile rifiutare l ipotesi nulla; A differenza del primo, questo campione presenta asimmetria positiva, ossia il valore della media è maggiore di quello della mediana; Il secondo campione presenta un range interquartile meno esteso rispetto al precedente, ciò significa che i valori si concentrano più vicini alla mediana; Anche la varianza è molto maggiore (6 contro ) testimoniando ancora la maggior vicinanza dei dati al valor medio; I due indici di Skewness dei campioni differiscono di segno, infatti il primo presenta asimmetria negativa, il secondo positiva..)statistica descrittiva a due campioni: tabella e poligoni di frequenza, confronto principali indici di sintesi Usiamo gli strumenti della statistica descrittiva per confrontare le caratteristiche delle distribuzioni dei due campioni. Possiamo notare come la loro media sia piuttosto simile, ma il valore delle mediane è piuttosto lontano; ciò accade a causa della forte asimmetria del campione avente 6 come diametro. Dai boxplots si può notare come il nuovo campione sia distribuito simmetricamente, a differenza dell altro. Descriptive Statistics: vs 6 Variable C N Mean Median TrMean StDev C 64,5 6,5 63,39,6 6 66,5 6,5 67,7 4,58 Variable C SE Mean Minimum Maximum Q Q3 C,5 589, 63, 595,75 6,5 6 3,6 573, 63, 59,75 67,
Boxplots di Rottura per Diametro 63 6 Rottura 6 6 59 58 57 Diametro 6 Dotplots di rottura per diametro 63 6 Rottura 6 6 59 58 57 6 Diametro
.3) Statistica inferenziale a due campioni sulle medie: verifica di ipotesi sulle varianze, verifica di ipotesi sulla differenza delle medie Vogliamo confrontare le due popolazioni, e in particolare le medie. Prima di tutto, visto che le varianze delle popolazioni non sono conosciute, andiamo a svolgere un test per verificare l ipotesi di uguaglianza. Questo viene effettuato dal programma con il Levene s test e la statistica test f a una coda. L ipotesi nulla e quella alternativa sono: H : H : σ = σ σ σ Test for Equal Variances for -rottura- 95% Confidence Intervals for Sigmas Factor Levels 6 8 3 8 3 F-Test Test Statistic:,596 Levene's Test Test Statistic:,8 P-Value :,68 P-Value :,373 Boxplots of Raw Data 6 57 58 59 6 -rottura- Abbiamo quindi verificato l uguaglianza delle varianze, infatti il valore del p-value supera quello della soglia di significatività. Pertanto andiamo ad effettuare un test sulle medie, tenendo conto del risultato appena ottenuto. Ipotesi nulla e alternativa sono rispettivamente: 6 6 63 H : μ = μ H : μ μ
La statistica test che useremo è : T = X X S ( μ μ ) n p + n Dove S p è lo stimatore pooled della varianza, calcolato proporzionalmente alle varianze e alle numerosità campionarie. Two-Sample T-Test and CI: -rottura-; -diametro- Two-sample T for -rottura- -diametr N Mean StDev SE Mean 64,,3,5 6 66,3 4,6 3,3 Difference = mu () - mu (6) Estimate for difference: -, 95% CI for difference: (-,54; 6,4) T-Test of difference = (vs not =): T-Value = -,53 P-Value =,596 DF = 38 Both use Pooled StDev = 3, Boxplots of -rottura by -diametr (means are indicated by solid circles) 63 6 6 -diametro- -rottura- 6 59 58 57 6 Il p-value,596>,5 ci dice che bisogna accettare l ipotesi nulla; si può pertanto assumere uguaglianza delle medie per le due popolazioni. μ = μ
Anche graficamente si può vedere la vicinanza delle medie (dal grafico dei boxplot)..4) Statistica inferenziale a due campioni sulle proporzioni: test Z, test Chi-quadro μ = media pop. φ6 μ = media pop. φ 3) STATISTICA A CAMPIONI Vogliamo studiare la tensione di rottura avendo a disposizione 5 campioni di provini di barre di acciaio aventi diverso diametro. Abbiamo pertanto un fattore (il diametro) con cinque diversi livelli di trattamento. Costruire una tabella di riepilogo con media e dev. std. della variabile di interesse, rispetto a tutti i gruppi Diam Diam Diam 4 Diam 6 Diam 8 59 58 67 63 6 65 58 63 6 6 69 598 589 67 65 63 597 67 6 6 63 586 593 63 633 6 574 65 63 6 6 58 57 65 6 589 584 6 69 63 598 64 6 63 67 598 58 576 6 634 59 595 64 587 63 6 66 66 59 69 63 63 67 67 64 67 63 65 64 66 64 593 66 573 6 64 66 63 583 68 598 59 66 595 69 6 597 593 69 64 595 634 598 66 65 59 63 599 59 6 Media 64,5 598,5 64,45 66,5 6,5 Deviazione standard,559 7,5969 5,46635 4,57783 9,68643
Dotplots of Rottura by Diametro 64 63 6 Rottura 6 6 59 58 57 Diametro 4 6 8 Boxplots of Rottura by Diametro 64 63 6 Rottura 6 6 59 58 57 Diametro 4 6 8 Dai grafici riportati si possono valutare a colpo d occhio la tendenza centrale, la dispersione e l allontanamento dalla simmetria dei valori dei nostri cinque campioni. 3.) ANOVA UNA VIA L analisi della varianza (anova) si utilizza per confrontare le medie quando vi sono più livelli di un singolo fattore.
Nel nostro caso abbiamo valori di tensioni di rottura ottenute per cinque diversi diametri delle barre di acciaio; il nostro fattore di interesse è pertanto il diametro e siamo in presenza di cinque trattamenti. Se vi fossero solo due metodi di trattamento, l esperimento potrebbe essere analizzato usando il test t a due campioni, come abbiamo fatto in precedenza. I risultati ottenuti nella tabella precedente possono essere descritti per mezzo del seguente modello statistico lineare µ= media generale della variabile risposta yij = μ + τ + ε τ i = effetto sulla media dell i-esimo livello del fattore (i=,,3,4,5) i ij ε ij = errore casuale Gli effetti dei trattamenti sono definiti come scarti dalla media generale µ, pertanto vale la seguente uguaglianza: a i= τ = i Lo scopo di questo test è di verificare l uguaglianza tra le medie verifica di ipotesi per l ipotesi nulla: Ho τ τ =... = τ : = a = μ i e questo equivale ad una L ipotesi alternativa viceversa risulta essere che almeno uno dei τ i sia non nullo e quindi la variazione dei livelli del fattore non influenza la risposta media. L analisi della varianza suddivide la variabilità dei dati in due parti: una considera la distanza della media per un trattamento dalla media generale, e l altra invece la differenza dei dati dalla media del proprio specifico trattamento, e quindi dovuta all errore casuale. SS = SS + SS T Trattamenti E Dividendo per i gradi di libertà definiamo le seguenti quantità: MSTrattament i = SSTrattamenti /( a ) media quadratica MS E = SS E /[ a( n )] errore quadratico medio Che ci servono per la verifica di ipotesi per cui useremo la statistica test F:
MS F o = MS Trattamenti e potremo rifiutare l ipotesi nulla se essa cade nell intervallo fo > fα, a, a( n ) ossia i livelli dei fattori influenzano la variabile risposta. Col software Minitab abbiamo ottenuto questi risultati: E One-way ANOVA: Rottura versus Diametro Analysis of Variance for Rottura Source DF SS MS F P Diametro 4 585 456 7,4, Error 95 865 96 Total 99 4477 Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev ---------+---------+---------+------- 64,5,6 (-----*-----) 598,5 7,59 (-----*-----) 4 64,45 5,47 (-----*------) 6 66,5 4,58 (-----*-----) 8 6,5 9,68 (-----*-----) ---------+---------+---------+------- Pooled StDev = 4, 6 6 6 Fisher's pairwise comparisons Family error rate =,8 Individual error rate =,5 Critical value =,985 Intervals for (column level mean) - (row level mean) -,9 4,7 4 6 4-9, -5, 8,4,5 6 -, -6,9 -,6 6,6,7 7, 8-5,8-3,7-5,4-3,6-8, -4, -7,8-6, Dalla nostra analisi risulta pertanto che i diversi trattamenti influenzano la media; il p-value viene infatti segnato come. Uno strumento che ci da Minitab per la comparazione diretta tra due campioni è la Fisher pairwise comparisons: nella matrice che si crea se l intervallo derivante dal confronto tra un campione e l altro comprende lo, allora non posso rifiutare l ipotesi nulla e pertanto le medie sono uguali.
Nel nostro caso si può vedere come il campione avente diametro 8 si discosti da tutti gli altri. Ora andiamo a verificare l adeguatezza del modello con i grafici: Histogram of the Residuals (response is Rottura) Frequency -4-3 - - Residual 3 4 Residuals Versus the Fitted Values (response is Rottura) 4 3 Residual - - -3-4 6 6 6 Fitted Value Residuals Versus the Order of the Data (response is Rottura) 4 3 Residual - - -3-4 3 4 5 6 7 8 9 Observation Order
Normal Probability Plot of the Residuals (response is Rottura) 3 Normal Score - - -3-4 -3 - - Residual 3 4 3.) REGRESSIONE LINEARE MULTIPLA SiO CaO TiO AlO3 KO 57,86 4,44,,, 53,98 3,4,89 4,67 3,9 6,83,99,88 7,94,38 5,6,3,95 6,4 3,44 55,35,89,93 5,53 4,3 57,87,5,95 3,4 3,9 5,85,4 6,53 3,58 54,9,9,96 6,6 4,6 53,98,5,97 6,8 4, 5,9,39,99 7,54 4, 55,56,,94 5,77 4,6 5,59,,6 9,3 3,39 53,55,6,96 6,88 4,9 5,58 3,7,84 3,44 3,88 57,9 6,75,96 8,4,3 55,99,99,97 5,7 4,6 6,48,9,94,38 3,3 59,68,6,87 3,36 56,78,4, 4,97 3,56 57,5,98,9 3,88 3,9 53,6,86,94 5,53 4,9 54,53,67,89 5,3 4,6 56,83,3,95 3,63 3,68 56,94,3,98 5,5 3,9 47,84 6,54,7,44 3,6 6,6,6,93,7 3,9 59,3 4,88,97 8,5,99 6,7 4,38,9 8,33,7 6,39,57,9,84 3,5 57,79 4,85,79,94 6,49,5,84 7,7,7 6,8,7,8,9 3,74 57,3 5,44,4,97,
5,7,94,97 6,94 3,9 La regressione lineare multipla consiste nel trovare una relazione lineare tra una variabile risposta dipendente e delle variabili indipendenti, dette regressori; formalizzando: Y = β + β x +... + β n x n +ε i Y variabile risposta β valore dell intercetta β coefficiente di regressione, i k ε termine di errore casuale La nostra esercitazione consiste nello svolgere una regressione lineare multipla sui componenti di un tipo di ceramica. Bisogna selezionare le variabili significative e costruire il modello. Regression Analysis: SiO versus CaO; TiO; AlO3; KO The regression equation is SiO = 7,5 -,4 CaO +,9 TiO -,58 AlO3 +,7 KO Predictor Coef SE Coef T P Constant 7,475 4,3 6,86, CaO -,4,556-9,, TiO,89 5,44 4,3, AlO3 -,5753,856-8,49, KO,7,7953,88,385 S =, R-Sq = 9,3% R-Sq(adj) = 9,% Analysis of Variance Source DF SS MS F P Regression 4 367,39 9,87 75,66, Residual Error 9 35,98,4 Total 33 4,58 Il primo modello costruito presenta tutte quattro le variabili; dal test-t risulta che una di queste non è significativa, e pertanto la scartiamo e costruiamo un nuovo modello con tre variabili. Regression Analysis: SiO versus CaO; TiO; AlO3 The regression equation is SiO = 75, -,46 CaO + 9, TiO -,43 AlO3 Predictor Coef SE Coef T P Constant 75,46,93 5,74, CaO -,465,373 -,67, TiO 8,95 3,4 6,3, AlO3 -,486,893-7,44,
S =,98 R-Sq = 9,% R-Sq(adj) = 9,% Analysis of Variance Source DF SS MS F P Regression 3 366,37,,37, Residual Error 3 36,4, Total 33 4,5 La verifica mi dice che tutte le tre variabili sono significative, quindi posso fermare la procedura ed ho ottenuto il modello lineare che volevo. Minitab da la possibilità di selezionare automaticamente le variabili significative; basta impostare il programma sul metodo stepwise e lui produce un risultato uguale a quello da noi ottenuto. Stepwise Regression: SiO versus CaO; TiO; AlO3; KO Backward elimination. Alpha-to-Remove:,5 Response is SiO on 4 predictors, with N = 34 Step Constant 7,48 75,5 CaO -,4 -,46 T-Value -9, -,67 P-Value,, TiO,9 9, T-Value 4,3 6,3 P-Value,, AlO3 -,575 -,49 T-Value -8,49-7,44 P-Value,, KO,7 T-Value,88 P-Value,385 S,, R-Sq 9,6 9, R-Sq(adj) 9,5 9, C-p 5, 3,8 Ora per verificare il modello andiamo ad osservare i grafici dei residui:
Histogram of the Residuals (response is SiO) 8 7 6 Frequency 5 4 3 -,5 -, -,5 -, -,5 -,,5,,5, Residual I residui si distribuiscono approssimativamente in maniera normale. Nel grafico dei quantili per i residui possiamo notare un andamento lineare. Normal Probability Plot of the Residuals (response is SiO) Normal Score - - - - Residual Gli altri grafici ci mostrano che sono verificate l omoschedasticità e l indipendenza dei valori dei residui. Residuals Versus the Fitted Values (response is SiO) Residual - - 5 5 54 56 58 6 6 64 Fitted Value
Residuals Versus the Order of the Data (response is SiO) Residual - - 5 5 5 3 Observation Order