Corso di Statistica Industriale

Documenti analoghi
Corso di Statistica Industriale

Metodi statistici per l economia (Prof. Capitanio) Slide n. 10. Materiale di supporto per le lezioni. Non sostituisce il libro di testo

Esercitazione del

STATISTICA A K (60 ore)

Regressione Lineare Semplice e Correlazione

Statistica 1 A.A. 2015/2016

Statistica Applicata all edilizia: il modello di regressione

Statistica. Capitolo 12. Regressione Lineare Semplice. Cap. 12-1

Minimi quadrati vincolati e test F

Variabili indipendenti qualitative. In molte applicazioni si rende necessario l introduzione di un fattore a due o più livelli.

lezione n. 6 (a cura di Gaia Montanucci) Verosimiglianza: L = = =. Parte dipendente da β 0 e β 1

Il modello di regressione lineare multipla. Il modello di regressione lineare multipla

Old Faithful, Yellowstone Park. Statistica e biometria. D. Bertacchi. Dati congiunti. Tabella. Scatterplot. Covarianza. Correlazione.

Test F per la significatività del modello

R - Esercitazione 6. Andrea Fasulo Venerdì 22 Dicembre Università Roma Tre

Regressione lineare semplice

Presentazione dell edizione italiana

Test delle Ipotesi Parte I

Stima puntuale di parametri

Note sulla probabilità

Statistica multivariata Donata Rodi 17/10/2016

ESAME. 9 Gennaio 2017 COMPITO B

STATISTICA (2) ESERCITAZIONE Dott.ssa Antonella Costanzo

Dispensa di Statistica

REGRESSIONE E CORRELAZIONE

Università del Piemonte Orientale Specializzazioni di area sanitaria Statistica Medica

Regressione multipla

Statistica. Alfonso Iodice D Enza

Regressione Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007

Capitolo 6. La distribuzione normale

Il modello di regressione lineare multipla con regressori stocastici

Esercizi di statistica

La regressione lineare. Rappresentazione analitica delle distribuzioni

Statistica - metodologie per le scienze economiche e sociali /2e S. Borra, A. Di Ciaccio - McGraw Hill

ESERCITAZIONE 21 : VARIABILI ALEATORIE CONTINUE

UNIVERSITA DEGLI STUDI DI BRESCIA-FACOLTA DI MEDICINA E CHIRURGIA CORSO DI LAUREA IN INFERMIERISTICA SEDE DI DESENZANO dg STATISTICA MEDICA.

Cognome e Nome:... Corso di laurea:...

Statistica Metodologica

Capitolo 6 La distribuzione normale

Statistica. Alfonso Iodice D Enza

Lezione 18. Statistica. Alfonso Iodice D Enza Università degli studi di Cassino. Lezione 18. A. Iodice

L analisi dei dati. Primi elementi. EEE- Cosmic Box proff.: M.Cottino, P.Porta

La regressione logistica

Statistica Applicata all edilizia: alcune distribuzioni di probabilità

PROBABILITA. Distribuzione di probabilità

1.4. Siano X B(1, 1/2) e Y B(1, 1/2) variabili aleatorie indipendenti. Quale delle seguenti affermazioni é falsa? E(X + Y ) = 1 V ar(x + Y ) = 1/2

MODELLO DI REGRESSIONE LINEARE. le ipotesi del modello di regressione classico, stima con i metodi dei minimi quadrati e di massima verosimiglianza,

Università di Siena. Teoria della Stima. Lucidi del corso di. Identificazione e Analisi dei Dati A.A

IL CRITERIO DELLA MASSIMA VEROSIMIGLIANZA

UNIVERSITÀ DEGLI STUDI DI PERUGIA

Esercizio 1. La variabile casuale G, somma di due V.C. normali, si distribuisce anch essa come una normale.

LEZIONI IN LABORATORIO Corso di MARKETING L. Baldi Università degli Studi di Milano. Strumenti statistici in Excell

Capitolo 8. Intervalli di confidenza. Statistica. Levine, Krehbiel, Berenson. Casa editrice: Pearson. Insegnamento: Statistica

UNIVERSITÀ DEGLI STUDI ROMA TRE Corso di Laurea in Matematica ST410 - Statistica 1 - A.A. 2013/2014. I Esonero - 29 Ottobre Tot.

Distribuzioni e inferenza statistica

Università del Piemonte Orientale Corso di Laurea in Medicina e Chirurgia. Corso di Statistica Medica. Correlazione. Regressione Lineare

L indagine campionaria Lezione 3

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 2

CORSO DI LAUREA IN INFERMIERISTICA. LEZIONI DI STATISTICA Parte II Elaborazione dei dati Variabilità

Distribuzioni campionarie

Variabili casuali. - di Massimo Cristallo -

Università degli Studi Roma Tre Anno Accademico 2016/2017 ST410 Statistica 1

Test per l omogeneità delle varianze

Probabilità e Statistica per l Informatica Esercitazione 4

Corso integrato di informatica, statistica e analisi dei dati sperimentali Esercitazione VII

PROBABILITÀ ELEMENTARE

Corso di Laurea: Diritto per le Imprese e le istituzioni a.a Statistica. Probabilità. Lezioni : 11, 12. Docente: Alessandra Durio

CAPITOLO 11 ANALISI DI REGRESSIONE

Il Corso di Fisica per Scienze Biologiche

La verifica delle ipotesi

Probabilità classica. Distribuzioni e leggi di probabilità. Probabilità frequentista. Probabilità soggettiva

Ogni misura è composta di almeno tre dati: un numero, un'unità di misura, un'incertezza.

Calcolo delle Probabilità 2

ANOVA: ANALISI DELLA VARIANZA Prof. Antonio Lanzotti

LE DISTRIBUZIONI CAMPIONARIE

Il modello di regressione (VEDI CAP 12 VOLUME IEZZI, 2009)

4. Si supponga che il tempo impiegato da una lettera spedita dall Italia per arrivare a destinazione segua una distribuzione normale con media

Calcolo delle probabilità e statistica

Capitolo 5 Variabili aleatorie discrete notevoli Insegnamento: Statistica Applicata Corso di Laurea in "Scienze e Tecnologie Alimentari"

Analisi degli Errori di Misura. 08/04/2009 G.Sirri

Sommario. Capitolo 1 I dati e la statistica 1. Capitolo 2 Statistica descrittiva: tabelle e rappresentazioni grafiche 25

PROVE SCRITTE DI MATEMATICA APPLICATA, ANNO 2006/07

Sperimentazioni di Fisica I mod. A Statistica - Lezione 2

Politecnico di Milano - Scuola di Ingegneria Industriale. II Prova in Itinere di Statistica per Ingegneria Energetica 25 luglio 2011

DISTRIBUZIONE NORMALE (1)

Università della Calabria

Covarianza, correlazione e retta di regressione. Paola Lecca, CIBIO UNITN Corso di Matematica e Statistica 2

Lezioni di Statistica del 15 e 18 aprile Docente: Massimo Cristallo

3.1 Classificazione dei fenomeni statistici Questionari e scale di modalità Classificazione delle scale di modalità 17

Statistica. Esercitazione 16. Alfonso Iodice D Enza iodicede@unicas.it. Università degli studi di Cassino. Statistica. A. Iodice

Distribuzione esponenziale. f(x) = 0 x < 0

Intervalli di confidenza

Statistica di base per l analisi socio-economica

Corso C Geomatica. Teoria degli errori. Massimiliano Cannata

Statistica 1 A.A. 2015/2016

Σ (x i - x) 2 = Σ x i 2 - (Σ x i ) 2 / n Σ (y i - y) 2 = Σ y i 2 - (Σ y i ) 2 / n. 13. Regressione lineare parametrica

DISTRIBUZIONI DI PROBABILITA

Il metodo dei minimi quadrati. Molto spesso due grandezze fisiche x e y, misurabili direttamente, sono legate tra loro da una legge del tipo:

Università di Siena. Corso di STATISTICA. Parte seconda: Teoria della stima. Andrea Garulli, Antonello Giannitrapani, Simone Paoletti

Corso di Laurea in Ingegneria Informatica e Automatica (M-Z) Università di Roma La Sapienza

Transcript:

Corso di Statistica Industriale Corsi di Laurea Specialistica in Ingegneria Gestionale e Ingegneria Meccanica Docente: Ilia Negri

Orario del corso: Martedì: dalle 14.00 alle 16.00 Venerdì: dalle 10.30 alle 12.30 Ricevimento: Dopo la Lezione e-mail: ilia.negri@unibg.it 2

Programma del corso: L1 E1 L2 E2 L3 E3 L4 E4 L5 E5 L6 E6 L7 E7 L8 E8 L9 E9 L10 E10 L11 L12 L13 E11 Presentazione del corso - Il modello lineare semplice Presentazione dell ambiente R Il modello lineare - verifica d ipotesi e intervalli di confidenza I dati in R - prime funzioni statistica Il modello lineare con più variabili. Selezione del modello Applicazioni. Procedure stepwise forward e backward in R Analisi della varianza. Esperimenti ad un fattore. Applicazioni Modelli lineari generalizzati Applicazioni: modelli logit. Controllo della qualità - generalità. Carte di controllo per variabili Presentazione libreria qcc in R ARL e curva operativa caratteristica. Applicazioni ed esempi. Carte di controllo per attributi Applicazioni ed esempi Carte di controllo CUSUM ed EWMA Applicazioni ed esempi Controllo statistico multivariato Carta Chi quadrato e T quadrato Disegno degli esperimenti: piani fattoriali completi a due livelli. Modello della risposta sperimentale e analisi dell esperimento. Sperimentazione sotto il vincolo di budget Applicazioni ed esempi 3

Esame e altro... L esame consiste in una prova scritta con 3 esercizi. Durante il corso verranno date delle esercitazioni e dei temi da discutere. Per chi ha avuto a che fare con un processo di produzione. (Tirocinio, tesi, o altri motivi) recuperare i dati delle variabili con cui ha lavorato. Tutte le informazioni e il materiale del corso lo trovate alla pagina http://www.unibg.it/pers/?ilia.negri L esame può essere diviso in due parti. La prima parte si svolge sulla prima parte del corso ed è valida fino a settembre 2006. 4

Libri di Testo: Montgomery-Runger-Faris Hubele: Statistica per ingegneria, Egea. Montgomery: Controllo statistico della qualità, McGraw Hill. Altre letture: Draper-Smith: Applied Regression Analisysis, Wiley. Mason-Young: Multivariate Statistical Process Control with Industrial Applications, ASA SIAM. Venables-Ripley: Modern Applied Statistics with S-Plus, Springer. Iacus-Masarotto: Laboratorio di Statistica con R, McGraw Hill. 5

Il modello lineare - Richiami La più semplice relazione tra due variabili è quella lineare y = β 0 + β 1 x Se il legame tra le variabili non è deterministico per un fissato valore di x ci saranno diversi valori di y. Esempio Stiamo investigando come il tempo di rottura y di un utensile, espresso in h, varia con la forza applicata x, misurata in kg/mm 2. Se applichiamo una forza x = 20 kg/mm 2 il tempo di rottura dell utensile è una variabile aleatoria, che denotiamo con Y. Se osserviamo il tempo di rottura pari a 45 h, allora diciamo che il valore osservato di Y associato a x = 20kg/mm 2 è y = 45 h. 6

I modelli probabilistici - Richiami Un modello probabilistico è una variabile casuale che descrive il fenomeno che si sta studiando Le variabili casuali si dividono in discrete e continue Sono caratterizzate dai valori che assumono e dalla distribuzione di probabilità Esempio Variabile casuale discreta. X v.c. di Poisson. Valori che assume: k = 0, 1, 2,..., Distribuzione: P (X = k) = e λ λ k k! Esempio Variabile casuale continua. X v.c. Esponenziale Valori che assume: x 0, Distribuzione: f(x) = λe λx, x 0. P (a X b) = b a λe λx dx. 7

Grafici della distribuzione di Poisson per diversi valori del parametro λ λ = 0.3 λ = 3 λ = 10 d 0.0 0.2 0.4 0.6 d 0.00 0.05 0.10 0.15 0.20 d 0.00 0.02 0.04 0.06 0.08 0.10 0.12 0 5 10 15 20 k 0 5 10 15 20 k 0 5 10 15 20 k 8

Grafici della distribuzione Esponenziale per diversi valori del parametro λ λ = 0.5 λ = 1 λ = 5 f(x) 0.0 0.1 0.2 0.3 0.4 0.5 f(x) 0.0 0.2 0.4 0.6 0.8 1.0 f(x) 0 1 2 3 4 5 0 2 4 6 8 10 x 0 2 4 6 8 10 x 0 2 4 6 8 10 x 9

Il modello lineare probabilistico Per il modello deterministico y = β 0 + β 1 x il valore di y dipende dal valore di x. La generalizzazione di questo modello al modello probabilistico assume che la variabile Y è aleatoria e il suo valore atteso è una funzione lineare di x. Per un fissato valore di x il valore di Y si discosta dal suo valore atteso per una quantità aleatoria. Il modello è: Y = β 0 + β 1 x + ε (1) La quantità ε nel modello è una v.c. distribuita normalmente con valore atteso E(ε) = 0 e varianza V ar(ε) = σ 2. È il termine d errore del modello Senza ε ogni coppia osservata (x, y) cadrebbe sulla retta y = β 0 + β 1 x che è detta retta di regressione vera. 10

Denotiamo con x 1, x 2,..., x n i valori della variabile indipendente, con Y i e y i la v.c e il valore osservato associato a x i. Le coppie (x 1, y 1 ),... (x n, y n ) sono il risultato di n osservazioni indipendenti, sono i dati a disposizione. Supponiamo di avere queste 11 osservazioni: 1 2 3 4 5 6 7 8 9 10 11 x 15.00 16.00 17.00 18.00 19.00 20.00 21.00 22.00 23.00 24.00 25.00 y 42.83 57.77 54.90 40.09 39.18 41.44 35.24 34.75 35.09 48.75 38.27 La prima cosa da fare è rappresentarli in un grafico a dispersione: Osservazioni y 35 40 45 50 55 16 18 20 22 24 x 11

Per ogni x fissato la variabile Y è Gaussiana. La sua media e la sua varianza si deducono dal modello lineare E(Y x) = E(β 0 + β 1 x + ε) = β 0 + β 1 x + E(ε) = β 0 + β 1 x V ar(y x) = V ar(β 0 + β 1 x + ε) = V ar(β 0 + β 1 x) + V ar(ε) = 0 + σ 2 = σ 2 Esempio.(Continua) Supponiamo che il legame tra la forza applicata e il tempo di rottura sia dato dalla (1). Nel modello scelto, la media del tempo di rottura varia linearmente con la forza applicata (come?). Per una forza applicata pari a x kg/mm 2 il tempo di rottura è una variabile Gaussiana la cui media è β 0 + β 1 x e la sua varianza è σ 2. Al variare di x la media di Y cambia mentre la varianza rimane costante. Si tratta di un modello omoschedastico. 12

Riportiamo la retta vera nel grafico a dispersione delle osservazioni Le osservazioni e la retta vera Le distribuzioni di Y y 35 40 45 50 55 y = 65 1.2x La retta vera y 35 40 45 50 55 16 18 20 22 24 x 16 18 20 22 24 x 13

La densità Gaussiana per diversi valori dei parametri N(0, 1) N(0, 2) f(x) 0.0 0.1 0.2 0.3 0.4 f(x) 0.00 0.05 0.10 0.15 0.20 6 4 2 0 2 4 6 x 6 4 2 0 2 4 6 x N(3, 1) N(3, 0.5) f(x) 0.0 0.1 0.2 0.3 0.4 f(x) 0.0 0.2 0.4 0.6 0.8 6 4 2 0 2 4 6 x 6 4 2 0 2 4 6 x 14

Esempio. (Continua). Supponiamo che il legame tra la forza applicata x e il tempo di rottura y di un utensile sia descritto da una modello di regressione lineare semplice e che la vera retta di regressione sia y = 65 1.2x, σ = 8. Allora per ogni valore x della forza applicata il tempo di rottura è una v.c. gaussiana con valore atteso 65 1.2x e scarto quadratico medio σ = 8. a) Calcolare la probabilità che il tempo di rottura sia superiore a 50 ore quando x = 20 e quando x = 25. b) Denotate con Y 1 e Y 2 rispettivamente il tempo di rottura quando x 1 = 25 e x 2 = 24 calcolare la probabilità che Y 1 > Y 2. 15

La stima dei parametri del modello Supponiamo che il legame tra le variabili x e y sia il modello di Regressione Semplice dato da Y = β 0 + β 1 x + ε, E(ε) = 0, V ar(ε) = σ 2 I valori di β 0, β 1 e σ 2 sono i parametri del modello e non saranno mai noti all investigatore. Sono note invece le n osservazioni (x 1, y 1 ),..., (x n, y n ) sulle quali occorre basarsi per stimare i parametri e la vera retta di regressione. Ipotesi: ogni y i è un osservazione della v.c. Y i = β 0 + β 1 x i + ε i, e gli n errori ε 1,..., ε n sono n v.c. indipendenti e identicamente distribuite (i.i.d.) Da questa ipotesi segue l indipendenza delle v.c. Y 1,..., Y n 16

Secondo il modello i punti osservati si distribuiscono attorno alla vera retta di regressione in modo aleatorio. Dobbiamo stimare la retta di regressione del modello. Nel grafico sono disegnati i punti e due possibili rette candidate a essere la stima della vera retta di regressione Due possibili rette per il modello y 35 40 45 50 55 y = 67 1.2x y = 91 2.25x 16 18 20 22 24 x La nostra stima per la retta y = β 0 + β 1 x sarà quella che meglio si adatta (fit) ai punti osservati. Secondo il principio dei minimi quadrati (Gauss, 1777-1855) la retta che meglio si adatta ai datti è quella per la quale le distanze verticali dei punti dalla retta sono le più piccole possibili. 17

Il principio dei minimi quadrati Se denotiamo con y = b 0 + b 1 x la generica retta, la distanza verticale di un punto da questa generica retta è y i (b 0 + b 1 x i ). La somma delle distanze al quadrato è data da D(b 0, b 1 ) = n i=1 (y i (b 0 + b 1 x i )) 2 Dobbiamo trovare il minimo rispetto a b 0 e b 1. Derivando e ponendo le derivate uguali a zero otteniamo le equazioni normali nb 0 + ( x i )b 1 = y i ( x i )b 0 + ( x 2 i )b 1 = x i y i La soluzione di queste equazioni è data da b 1 = ˆβ 1 = (xi x)(y i ȳ) (xi x) 2 b 0 = ˆβ 0 = yi ˆβ 1 xi n = S xy S xx 18

Esempio 1 (Pavement Thickness Design for No-Fines Concrete Parking Lots, J. of Transportation Engr., 1995, 476-484). Si studia come la percentuale di porosità (y) sia legata all unità di peso x. x y x 2 xy y 2 1 99.00 28.80 9801.00 2851.20 829.44 2 101.10 27.90 10221.21 2820.69 778.41 3 102.70 27.00 10547.29 2772.90 729.00 4 103.00 25.20 10609.00 2595.60 635.04 5 105.40 22.80 11109.16 2403.12 519.84 6 107.00 21.50 11449.00 2300.50 462.25 7 108.70 20.90 11815.69 2271.83 436.81 8 110.80 19.60 12276.64 2171.68 384.16 9 112.10 17.10 12566.41 1916.91 292.41 10 112.40 18.90 12633.76 2124.36 357.21 11 113.60 16.00 12904.96 1817.60 256.00 12 113.80 16.70 12950.44 1900.46 278.89 13 115.10 13.00 13248.01 1496.30 169.00 14 115.40 13.60 13317.16 1569.44 184.96 15 120.00 10.80 14400.00 1296.00 116.64 Somme 1640.10 299.80 179849.73 32308.59 6430.06 19

Quelle calcolate sono le quantità che servono per trovare le stime dei parametri della retta. Infatti le formule date si possono riscrivere in questo modo ˆβ 1 = S xy S xx = xi y i ( x i )( y i )/n x 2 i ( x i ) 2, ˆβ 0 = ȳ ˆβ 1 x /n Sostituendo i valori trovati nella tabella otteniamo ˆβ 1 = 32308.59 (1640.10)(299.80)/15 179849.73 (1640.10) 2 /15 = 0.90473066 0.905 ˆβ 0 = 299.80/15 ( 0.90473066)1640.10/15 = 118.909917 118.91 Quindi per un aumento di 1 pcf di unità di peso ci si aspetta un cambiamento della porosità associato pari a 0.905% (cioè una diminuzione dello 0.905%). L equazione della retta di regressione stimata risulta y = 118.91 0.905x La retta stimata serve per stimare il valore medio di Y quando x = x ovvero la stima puntuale del valore di Y data una nuova osservazione x = x. Ad esempio per x = 110 il valore medio della porisità stimata è y = 19.4%. 20

porosita 15 20 25 porosita 15 20 25 100 105 110 115 120 peso 100 105 110 115 120 peso 21

La stima di σ 2 Non dobbiamo dimenticare che tra i parametri del modello vi è anche la varianza dell errore ε. La stima di questa varianza si basa sui residui. I residui sono definiti come e i = y i ŷ i, dove ŷ i = ˆβ 0 + ˆβ 1 x i Si verifica che la somma dei residui è nulla. La stima della varianza dell errore la si ottiene come ˆσ 2 = s 2 (yi ŷ = i ) 2 = SSE n 2 n 2 Il denominatore n 2 è pari ai gradi di libertà associati alla stima degli errori e è dovuto al fatto che per ottenere s 2 due parametri devono essere stimati. Lo stimatore S 2 lo si ottiene sostituendo a y i le v.c. Y i. Si può dimostrare che E(S 2 ) = σ 2. Il calcolo di SSE può essere effettuato senza calcolare tutti i residui. Vale infatti la relazione SSE = y 2 i ˆβ 0 yi ˆβ 1 xi y i. 22

La stima di σ 2 per i dati dell esempio la otteniamo da x y ŷ e e 2 1 99.00 28.80 29.34 0.54 0.29 2 101.10 27.90 27.44 0.46 0.21 3 102.70 27.00 25.99 1.01 1.01 4 103.00 25.20 25.72 0.52 0.27 5 105.40 22.80 23.55 0.75 0.56 6 107.00 21.50 22.10 0.60 0.36 7 108.70 20.90 20.57 0.33 0.11 8 110.80 19.60 18.67 0.93 0.87 9 112.10 17.10 17.49 0.39 0.15 10 112.40 18.90 17.22 1.68 2.83 11 113.60 16.00 16.13 0.13 0.02 12 113.80 16.70 15.95 0.75 0.56 13 115.10 13.00 14.78 1.78 3.15 14 115.40 13.60 14.50 0.90 0.82 15 120.00 10.80 10.34 0.46 0.21 Somme 1.640.10 299.80 299.80 4.707346e-13 11.44 SSE n 2 = 6430.06 (118.91)(299.80) ( 0.905)(32308.59) 13 = 11.44 13 = 0.88. 23

Il coefficiente di determinazione Per valutare la bontà di adattamento del modello stimato ai dati si ricorre ad un indice che tiene conto della percentuale di variabilità di y che il modello riesce a spiegare. La variabilità totale di y è data dalla somma totale dei quadrati SST = (y i ȳ) 2 = y 2 i ( y i ) 2 /n SSE può essere interpretata come una misura di quanta variabilità di y il modello non riesce a spiegare. Poiché la retta dei minimi quadrati è quella ottenuta minimizzando la somma al quadrato degli errori si deduce che SSE SST e l uguaglianza vale solo se la retta di regressione è la retta y = ȳ. L indice r 2 = 1 SSE è detto coefficiente di determinazione SST si interpreta come la proporzione di variabilità delle y osservate che è spiegata dal modello. Esempio. (Continua) Abbiamo un r 2 molto alto. r 2 = 1 SSE SST = 1 11.4388 6430.06 299.80 2 /15 = 1 11.44 438.06 = 0.974 24

Esercizio: per i dati nella tabella a pagina 11, calcolare la stima col metodo dei minimi quadrati dei coefficienti della retta di regressione: Y = β 0 + β 1 x + ε. Calcolare quindi la stima della varianza degli errori ε e il valore del coefficiente di determinazione. Commentare i risultati ottenuti. 25