Laboratorio di Probabilità e Statistica
|
|
|
- Giorgiana Di Lorenzo
- 6 anni fa
- Visualizzazioni
Transcript
1 Laboratorio di Probabilità e Statistica lezione 9 Massimo Guerriero Ettore Benedetti
2 Indice Lezione Prerequisiti dalla lezione scorsa Analisi di regressione: Cambiamenti di scala Schema generale sull analisi di regressione Analisi di regressione in ambito inferenziale Bande di confidenza Estensioni del modello di regressione
3 Prerequisiti dalla lezione scorsa Disegnare grafici di dispersione Costruzione del modello (es retta di regressione) Valutazione del modello Considerazioni, deduzioni sul modello (es trattamento outlier, significatività)
4 Cambiamenti di scala 1/3 Spesso ci si accorge dal grafico di dispersione dei dati che questi non si distribuiscono lungo una retta del tipo Y=a+bX Es > x<-c(75,76,77,78,79,80,81) > y<-c(21,155,117,107,92,89,8) > cor(x,y) [1] > plot(x,y) > model<-lm(y~x) > abline(model, col="blue",lw=2) > yy<-predict(model,dataframe(x)) > e<-y-yy > plot(e) > abline(h=0, col="blue", lwd=2)
5 Cambiamenti di scala 2/3 L andamento dei punti nel grafico sembra di tipo esponenziale negativo quindi, se vogliamo ricondurci ad una forma funzionale lineare, possiamo passare ai logaritmi naturali Y = e -X log(y) = log(e -X ) = -X Vogliamo quindi pensare ad un modello di regressione lineare del tipo: log(y) = a+bx (trascuriamo il segno meno, verrà incluso nei coefficienti a e b)
6 Cambiamenti di scala 3/3 Abbiamo quindi semplicemente effettuato un cambiamento di scala sulla variabile Y Es > cor(x,log(y)) [1] > plot(x,log(y)) > model2<-lm(log(y)~x) > abline(model2, col="blue",lw=2) < yy<-predict(model2,dataframe(x)) < e<-log(y)-yy < plot(e) < abline(h=0,col="blue",lwd=2)
7 Schema generale sull analisi di regressione 1 Decidere chi è la variabile dipendente (Y) e chi quella indipendente (X) 2 Rappresentare i dati su un grafico di dispersione: plot(x,y) 3 Se i dati non appaiono allineati, provare ad effettuare cambiamenti di scala 4 Calcolare l indice di correlazione: cor(x,y) se risulta troppo vicino a 0, non eseguire l analisi 5 Calcolare i coefficienti a e b della retta di regressione: lm(y~x) e rappresentarla sul grafico: abline(lm(y~x)) 6 Tracciare il grafico dei residui e calcolare R 2, se compaiono evidenti irregolarità, o l indice è troppo basso, il modello è sospetto (ripartire dal 3) 7 Utilizzare il modello per le previsioni con cautela (range conosciuto fissato xmin, xmax)
8 Consegna 1 Calcolare e confrontare R 2 per i due modelli che abbiamo visto nelle slide precedenti 2 Si sono raccolti i risultati di 7 prove di frenata a velocità diverse Studiare la relazione tra le due variabili spazio di frenata Y e velocità X, proponendo un modello interpretativo per spiegarle < x <- c(33, 49, 65, 33, 79, 49, 93) < y <- c(53, 145, 2121, 65, 3845, 1123, 5042) Suggerimento Provare con Y = a + b X
9 Indice Lezione Prerequisiti dalla lezione scorsa Analisi di regressione: Cambiamenti di scala Schema generale sull analisi di regressione Analisi di regressione in ambito inferenziale Bande di confidenza Estensioni del modello di regressione
10 Analisi di regressione in ambito inferenziale 1/2 L analisi di regressione può essere effettuata anche su osservazioni campionarie modellando gli errori con un opportuna legge di probabilità Il modello di regressione lineare diventa del tipo: Y i = a + bx i + ε i Dove le Y i sono variabili casuali per effetto delle ε i Ipotesi minimali fatte sugli errori del modello sono: E(ε i ) = 0 (errori centrati) Cov(ε i, ε j ) = 0 se i j (incorrelazione) Var(ε i ) = σ 2 costante (omoschedasticità)
11 Analisi di regressione in ambito inferenziale 2/2 I coefficienti a e b si calcolano sempre allo stesso modo, si può però migliorare la parte inferenziale del problema aggiungendo ulteriori ipotesi sugli errori ε i In particolare si può assumere che gli errori siano distribuiti come delle variabili casuali di tipo normale ovvero: ε i ~ N(0, σ 2 ) Questo implica due risultati importanti relativi alle distribuzioni degli stimatori a e b: a ~ N(a, σ a2 ) b ~ N(b, σ b2 ) Con σ a 2 = Var( a) = σ 2 1 n + n i=1 x2 n x i x n 2 e σ b 2 = Var( b) = n i=1 σ 2 x i x 2 n
12 Bande di confidenza 1/2 Sempre in ambito inferenziale, è possibile studiare intervalli di confidenza per la retta di regressione: le cosiddette bande di confidenza Esistono due tipi di bande di confidenza: 1 Bande di confidenza: forniscono un indicazione sulla qualità della retta di regressione stessa 2 Bande di previsione: Sono molto più larghe delle bande di confidenza, esprimono l attendibilità previsiva della retta di regressione
13 Bande di confidenza 2/2 Esempio in R: > data(cars) > attach(cars) > model<-lm(dist~speed) > plot(speed,dist) > abline(model, col="blue",lw=2) «confidence» > pc<-predict(model,interval="c") > matlines(speed,pc[,2:3],lty=1:1,col=6:6, lwd=2:2) «prediction» > pp<-predict(model,interval="p") > matlines(speed,pp[,2:3],lty=1:1,col=3:3, lwd=2:2) > detach()
14 Estensioni del modello di regressione 1/5 Molto spesso è riduttivo pensare che solo le variabili X e Y entrino in gioco in un modello di tipo lineare: L andamento di Y è intuitivamente spiegato da più variabili Stiamo parlando di un modello del tipo: Y= f(x 1, X 2,, X k ) Che assume il seguente aspetto: Y = β 0 + β 1 X 1 + β 2 X β k X k dove β =(β 0, β 1,, β k ) è il vettore dei coefficienti del modello Come nel caso unidimensionale, si suppone che vi sia un errore gaussiano: yi = β 0 + β 1 x i1 + β 2 x i2 + + β k x ik + ε i
15 Estensioni del modello di regressione 2/5 Tale modello (con ε i ), può essere scritto in forma matriciale: Dove: y = Xβ y = (y1, y2,, yn) e X = x 11 x 21 x n1 x 12 x 22 x n2 x 1k x 2k x nk
16 Estensioni del modello di regressione 3/5 In R: Vediamo un applicazione di modello con 2 regressori: > x1<-dataset$hlib_lv > x2<-dataset$hlib_we > y<-dataset$h_pc > lm(y~x1+x2) Call: lm(formula = y ~ x1 + x2) Coefficients: (Intercept) x1 x Spesso i dati si presentano come dataframe, quindi si può usare la forma contratta: > lm(h_pc ~ hlib_lv + hlib_we, data=dataset) Call: lm(formula = h_pc ~ hlib_lv + hlib_we, data = dataset) Coefficients: (Intercept) hlib_lv hlib_we
17 Estensioni del modello di regressione 4/5 In R: Infine, se si vuole un modello passante per l origine, si deve includere «-1» tra i regressori, ovvero: > lm(h_pc ~ hlib_lv + hlib_we -1, data=dataset) Call: lm(formula = h_pc ~ hlib_lv + hlib_we - 1, data = dataset) Coefficients: hlib_lv hlib_we
18 Estensioni del modello di regressione 5/5 - Rappresentazione Grafica - > x1<-dataset$hlib_lv > x2<-dataset$hlib_we > y<-dataset$h_pc > model<-lm(y~x1+x2) > installpackages("scatterplot3d") > library("scatterplot3d") > scatter<-scatterplot3d(x1, x2, y,highlight3d=t) > scatter$plane3d(model)
19 Consegna 1 Riprendendo il secondo esercizio dell ultima consegna della lezione scorsa (numero 8), calcolare le bande di confidenza e quelle di previsione 2 Provare ad installare il pacchetto scatterplot3d dalla sezione packages -> Install Packages, finita l installazione selezionarlo 3 Generare un modello che metta in relazione lineare la spesa per internet al mese spesa_mese con le ore passate al pc e sul table (h_pc, h_tablet) 4 Verificare se la relazione lineare potrebbe effettivamente esistere generando lo scatteplot3d
Il modello di regressione (VEDI CAP 12 VOLUME IEZZI, 2009)
Il modello di regressione (VEDI CAP 12 VOLUME IEZZI, 2009) Quesito: Posso stimare il numero di ore passate a studiare statistica sul voto conseguito all esame? Potrei calcolare il coefficiente di correlazione.
Statistica. Capitolo 12. Regressione Lineare Semplice. Cap. 12-1
Statistica Capitolo 1 Regressione Lineare Semplice Cap. 1-1 Obiettivi del Capitolo Dopo aver completato il capitolo, sarete in grado di: Spiegare il significato del coefficiente di correlazione lineare
STATISTICA A K (60 ore)
STATISTICA A K (60 ore) Marco Riani [email protected] http://www.riani.it Richiami sulla regressione Marco Riani, Univ. di Parma 1 MODELLO DI REGRESSIONE y i = a + bx i + e i dove: i = 1,, n a + bx i rappresenta
Metodi statistici per l economia (Prof. Capitanio) Slide n. 10. Materiale di supporto per le lezioni. Non sostituisce il libro di testo
Metodi statistici per l economia (Prof. Capitanio) Slide n. 10 Materiale di supporto per le lezioni. Non sostituisce il libro di testo 1 REGRESSIONE LINEARE Date due variabili quantitative, X e Y, si è
Statistica multivariata Donata Rodi 17/10/2016
Statistica multivariata Donata Rodi 17/10/2016 Quale analisi? Variabile Dipendente Categoriale Continua Variabile Indipendente Categoriale Chi Quadro ANOVA Continua Regressione Logistica Regressione Lineare
Capitolo 12 La regressione lineare semplice
Levine, Krehbiel, Berenson Statistica II ed. 2006 Apogeo Capitolo 12 La regressione lineare semplice Insegnamento: Statistica Corso di Laurea Triennale in Ingegneria Gestionale Facoltà di Ingegneria, Università
Covarianza, correlazione e retta di regressione. Paola Lecca, CIBIO UNITN Corso di Matematica e Statistica 2
Covarianza, correlazione e retta di regressione Paola Lecca, CIBIO UNITN Corso di Matematica e Statistica 2 Questa presentazione è stata preparata attingendo dai seguenti testi S. M. Iacus, Statistica,
Esercitazione del
Esercizi sulla regressione lineare. Esercitazione del 21.05.2013 Esercizio dal tema d esame del 13.06.2011. Si consideri il seguente campione di n = 9 osservazioni relative ai caratteri ed Y: 7 17 8 36
Regressione Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007
Regressione Esempio Un azienda manifatturiera vuole analizzare il legame che intercorre tra il costo mensile Y di produzione e il corrispondente volume produttivo X per uno dei propri stabilimenti. Volume
Test delle Ipotesi Parte I
Test delle Ipotesi Parte I Test delle Ipotesi sulla media Introduzione Definizioni basilari Teoria per il caso di varianza nota Rischi nel test delle ipotesi Teoria per il caso di varianza non nota Test
Regressione Lineare Semplice e Correlazione
Regressione Lineare Semplice e Correlazione 1 Introduzione La Regressione è una tecnica di analisi della relazione tra due variabili quantitative Questa tecnica è utilizzata per calcolare il valore (y)
La multicollinearità sorge quando c è un elevata correlazione tra due o più variabili esplicative.
Lezione 14 (a cura di Ludovica Peccia) MULTICOLLINEARITA La multicollinearità sorge quando c è un elevata correlazione tra due o più variabili esplicative. In un modello di regressione Y= X 1, X 2, X 3
LABORATORIO DI PROBABILITA E STATISTICA
UNIVERSITA DEGLI STUDI DI VERONA LABORATORIO DI PROBABILITA E STATISTICA Docente: Bruno Gobbi 6 ESERCIZI RIEPILOGATIVI PRIME 3 LEZIONI REGRESSIONE LINEARE: SPORT - COLESTEROLO ESERCIZIO 8: La tabella seguente
R - Esercitazione 6. Andrea Fasulo Venerdì 22 Dicembre Università Roma Tre
R - Esercitazione 6 Andrea Fasulo [email protected] Università Roma Tre Venerdì 22 Dicembre 2017 Il modello di regressione lineare semplice (I) Esempi tratti da: Stock, Watson Introduzione all econometria
Nel modello omoschedastico la varianza dell errore non dipende da i ed è quindi pari a σ 0.
Regressione [] el modello di regressione lineare si assume una relazione di tipo lineare tra il valore medio della variabile dipendente Y e quello della variabile indipendente X per cui Il modello si scrive
COGNOME.NOME...MATR..
STATISTICA 29.01.15 - PROVA GENERALE (CHALLENGE) Modalità A (A) ai fini della valutazione verranno considerate solo le risposte riportate dallo studente negli appositi riquadri bianchi: in caso di necessità
0 altimenti 1 soggetto trova lavoroentro 6 mesi}
Lezione n. 16 (a cura di Peluso Filomena Francesca) Oltre alle normali variabili risposta che presentano una continuità almeno all'interno di un certo intervallo di valori, esistono variabili risposta
Indice. centrale, dispersione e forma Introduzione alla Statistica Statistica descrittiva per variabili quantitative: tendenza
XIII Presentazione del volume XV L Editore ringrazia 3 1. Introduzione alla Statistica 5 1.1 Definizione di Statistica 6 1.2 I Rami della Statistica Statistica Descrittiva, 6 Statistica Inferenziale, 6
lezione n. 6 (a cura di Gaia Montanucci) Verosimiglianza: L = = =. Parte dipendente da β 0 e β 1
lezione n. 6 (a cura di Gaia Montanucci) METODO MASSIMA VEROSIMIGLIANZA PER STIMARE β 0 E β 1 Distribuzione sui termini di errore ε i ε i ~ N (0, σ 2 ) ne consegue : ogni y i ha ancora distribuzione normale,
Statistica Applicata all edilizia: il modello di regressione
Statistica Applicata all edilizia: il modello di regressione E-mail: [email protected] 27 aprile 2009 Indice Il modello di Regressione Lineare 1 Il modello di Regressione Lineare Analisi di regressione
Rappresentazioni grafiche di distribuzioni doppie
Rappresentazioni grafiche di distribuzioni doppie Distribuzione doppia di frequenze Tabella di contingenza Tabella di correlazione Stereogramma Distribuzione unitaria doppia di 2 caratteri quantitativi
IL CRITERIO DELLA MASSIMA VEROSIMIGLIANZA
Metodi per l Analisi dei Dati Sperimentali AA009/010 IL CRITERIO DELLA MASSIMA VEROSIMIGLIANZA Sommario Massima Verosimiglianza Introduzione La Massima Verosimiglianza Esempio 1: una sola misura sperimentale
ESAME. 9 Gennaio 2017 COMPITO B
ESAME 9 Gennaio 2017 COMPITO B Cognome Nome Numero di matricola 1) Approssimare tutti i calcoli alla quarta cifra decimale. 2) Ai fini della valutazione si terrà conto solo ed esclusivamente di quanto
Statistica Inferenziale
Statistica Inferenziale a) L Intervallo di Confidenza b) La distribuzione t di Student c) La differenza delle medie d) L intervallo di confidenza della differenza Prof Paolo Chiodini Dalla Popolazione
Regressione lineare semplice
Regressione lineare semplice Prof. Giuseppe Verlato Sezione di Epidemiologia e Statistica Medica, Università di Verona Statistica con due variabili var. nominale, var. nominale: gruppo sanguigno - cancro
Dispensa di Statistica
Dispensa di Statistica 1 parziale 2012/2013 Diagrammi... 2 Indici di posizione... 4 Media... 4 Moda... 5 Mediana... 5 Indici di dispersione... 7 Varianza... 7 Scarto Quadratico Medio (SQM)... 7 La disuguaglianza
Università del Piemonte Orientale Specializzazioni di area sanitaria Statistica Medica
Università del Piemonte Orientale Specializzazioni di area sanitaria Statistica Medica Regressione Lineare e Correlazione Argomenti della lezione Determinismo e variabilità Correlazione Regressione Lineare
3.1 Classificazione dei fenomeni statistici Questionari e scale di modalità Classificazione delle scale di modalità 17
C L Autore Ringraziamenti dell Editore Elenco dei simboli e delle abbreviazioni in ordine di apparizione XI XI XIII 1 Introduzione 1 FAQ e qualcos altro, da leggere prima 1.1 Questo è un libro di Statistica
Statistica. Alfonso Iodice D Enza
Statistica Alfonso Iodice D Enza [email protected] Università degli studi di Cassino () Statistica 1 / 24 Outline 1 2 3 4 5 () Statistica 2 / 24 Dipendenza lineare Lo studio della relazione tra caratteri
STATISTICA 1, metodi matematici e statistici Introduzione al linguaggio R Esercitazione 7:
esercitazione 7 p. 1/13 STATISTICA 1, metodi matematici e statistici Introduzione al linguaggio R Esercitazione 7: 20-05-2004 Luca Monno Università degli studi di Pavia [email protected] http://www.lucamonno.it
Il modello di regressione lineare multipla. Il modello di regressione lineare multipla
Introduzione E la generalizzazione del modello di regressione lineare semplice: per spiegare il fenomeno d interesse Y vengono introdotte p, con p > 1, variabili esplicative. Tale generalizzazione diventa
LEZIONI IN LABORATORIO Corso di MARKETING L. Baldi Università degli Studi di Milano. Strumenti statistici in Excell
LEZIONI IN LABORATORIO Corso di MARKETING L. Baldi Università degli Studi di Milano Strumenti statistici in Excell Pacchetto Analisi di dati Strumenti di analisi: Analisi varianza: ad un fattore Analisi
Statistica di base per l analisi socio-economica
Laurea Magistrale in Management e comunicazione d impresa Statistica di base per l analisi socio-economica Giovanni Di Bartolomeo [email protected] Definizioni di base Una popolazione è l insieme
Statistica. Alfonso Iodice D Enza
Statistica Alfonso Iodice D Enza [email protected] Università degli studi di Cassino () Statistica 1 / 1 Outline 1 () Statistica 2 / 1 Outline 1 2 () Statistica 2 / 1 Outline 1 2 3 () Statistica 2 / 1
CAPITOLO 11 ANALISI DI REGRESSIONE
VERO FALSO CAPITOLO 11 ANALISI DI REGRESSIONE 1. V F Se c è una relazione deterministica tra due variabili,x e y, ogni valore dato di x,determinerà un unico valore di y. 2. V F Quando si cerca di scoprire
Tipi di variabili. Indici di tendenza centrale e di dispersione
Tipi di variabili. Indici di tendenza centrale e di dispersione L. Boni Variabile casuale In teoria della probabilità, una variabile casuale (o variabile aleatoria o variabile stocastica o random variable)
Teoria e tecniche dei test. Concetti di base
Teoria e tecniche dei test Lezione 2 2013/14 ALCUNE NOZIONI STATITICHE DI BASE Concetti di base Campione e popolazione (1) La popolazione è l insieme di individui o oggetti che si vogliono studiare. Questi
tabelle grafici misure di
Statistica Descrittiva descrivere e riassumere un insieme di dati in maniera ordinata tabelle grafici misure di posizione dispersione associazione Misure di posizione Forniscono indicazioni sull ordine
MODELLO DI REGRESSIONE LINEARE. le ipotesi del modello di regressione classico, stima con i metodi dei minimi quadrati e di massima verosimiglianza,
MODELLO DI REGRESSIONE LINEARE le ipotesi del modello di regressione classico, stima con i metodi dei minimi quadrati e di massima verosimiglianza, teorema di Gauss-Markov, verifica di ipotesi e test di
i dati escludono vi sia una relazione tra variabile indipendente e variabile dipendente (rispettivamente
TEST DI AUTOVALUTAZIONE - SETTIMANA 6 I diritti d autore sono riservati. Ogni sfruttamento commerciale non autorizzato sarà perseguito. Metodi statistici per la biologia Parte A. La retta di regressione.2
Università degli Studi Roma Tre Anno Accademico 2016/2017 ST410 Statistica 1
Università degli Studi Roma Tre Anno Accademico 2016/2017 ST410 Statistica 1 Lezione 1 - Mercoledì 28 Settembre 2016 Introduzione al corso. Richiami di probabilità: spazi di probabilità, variabili aleatorie,
Metodo dei Minimi Quadrati. Dott. Claudio Verona
Metodo dei Minimi Quadrati Dott. Claudio Verona E in generale interessante studiare l andamento di una variabile in funzione di un altra e capire se c è una funzione matematica che le lega. Viceversa è
Prova di recupero di Probabilità e Statistica - A * 21/04/2006
Prova di recupero di Probabilità e Statistica - A * /04/006 (NB: saranno prese in considerazione solo le risposte adeguatamente motivate) tempo di lavoro: Due ore. Per conseguire la patente di guida, un
Corso di Statistica Industriale
Corso di Statistica Industriale Corsi di Laurea Specialistica in Ingegneria Gestionale e Ingegneria Meccanica Docente: Ilia Negri Orario del corso: Martedì: dalle 14.00 alle 16.00 Venerdì: dalle 10.30
1.1 Obiettivi della statistica Struttura del testo 2
Prefazione XV 1 Introduzione 1.1 Obiettivi della statistica 1 1.2 Struttura del testo 2 2 Distribuzioni di frequenza 2.1 Informazione statistica e rilevazione dei dati 5 2.2 Distribuzioni di frequenza
Laboratorio di Statistica Aziendale Modello di regressione lineare semplice
Laboratorio di Statistica Aziendale Modello di regressione lineare semplice Dott.ssa Michela Pasetto [email protected] Caricamento del dataset Il dataset SalesData si trova nella cartella condivisa
Σ (x i - x) 2 = Σ x i 2 - (Σ x i ) 2 / n Σ (y i - y) 2 = Σ y i 2 - (Σ y i ) 2 / n. 13. Regressione lineare parametrica
13. Regressione lineare parametrica Esistono numerose occasioni nelle quali quello che interessa è ricostruire la relazione di funzione che lega due variabili, la variabile y (variabile dipendente, in
Variabili indipendenti qualitative. In molte applicazioni si rende necessario l introduzione di un fattore a due o più livelli.
Variabili indipendenti qualitative Di solito le variabili nella regressione sono variabili continue In molte applicazioni si rende necessario l introduzione di un fattore a due o più livelli Ad esempio:
LABORATORIO DI PROBABILITA E STATISTICA
UNIVERSITA DEGLI STUDI DI VERONA LABORATORIO DI PROBABILITA E STATISTICA Docente: Bruno Gobbi Corso di laurea in Informatica e Bioinformatica 4 ESERCIZI RIEPILOGATIVI PRIME 3 LEZIONI 1 - STATISTICA DESCRITTIVA
Statistica Applicata all edilizia Lezione: approccio stocastico all analisi delle serie storiche
Lezione: approccio stocastico all analisi delle serie storiche E-mail: [email protected] 3 maggio 2011 Programma 1 Approccio stocastico all analisi delle serie storiche Programma Approccio stocastico
Test per la correlazione lineare
10 Test per la correlazione lineare Istituzioni di Matematica e Statistica 2015/16 E. Priola 1 Introduzione alla correlazione lineare Problema: In base ai dati che abbiamo possiamo dire che c è una qualche
