Modelli con predittori qualitativi e modelli con interazioni. Strumenti quantitativi per la gestione
|
|
- Fabriciano Lorenzi
- 6 anni fa
- Visualizzazioni
Transcript
1 Modelli con predittori qualitativi e modelli con interazioni Strumenti quantitativi per la gestione Emanuele Taufer file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/3d_viq.html#(1) 1/26
2 Utilizzare variabili indipendenti qualitative (VIQ) I modelli di regressione possono includere VIQ (o categoriche) Le categorie di una VIQ sono definite livelli Poiché i livelli di una VIQ non sono misurati su una scala numerica naturale, per evitare di introdurre relazioni inesistenti o soggettive nel modello è necessario usare un codice binario. Una soluzione è quella di definire nuove variabili, le cd variabili dummy, che possono assumere due soli valori: 0 oppure 1. Nei dati ExecSal.txt abbiamo incontrato una variabile qualitativa: Gender che classifica le unità in M e F file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/3d_viq.html#(1) 2/26
3 Codifica binaria 0,1 Supponiamo in prima battuta, di voler modellare il Salario ( Y carattere qualitativo Gender (M o F). ) in funzione del Definiamo la variabile binaria (o dummy): ={ 0 se l'unità è F x i 1 se l'unità è M Il nostro semplice modello assume due possibili valori = + + ={ β0 ε i se l'unità è F β0 + β1 + ε i se l'unità è M y i β0 β1x i ε i + file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/3d_viq.html#(1) 3/26
4 β0 può essere interpretato come il salario atteso per il gruppo delle donne β0 + β1 è il salario atteso per il gruppo dei maschi β1 può essere inerpretato come differenza media tra i salari dei due gruppi il gruppo codificato con il valore definito anche livello base. 0 diventa quello di riferimento, In questo semplice modello i valori previsti sono solo due: i redditi medi per i due gruppi file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/3d_viq.html#(1) 4/26
5 Esempio: salari dei manager Carichiamo il data set ExecSal.txt Es=read.table(" Poiché la variabile Gender nel dataset è codificata come variabile numerica procediamo a trasformarla in factor (variabile qualitativa) con i livelli M e F Es$Gender=factor(Es$Gender,levels=c(0,1),labels=c("F","M")) str(es) 'data.frame': 100 obs. of 6 variables: $ Salary : int $ Experience: int $ Education : int $ Gender : Factor w/ 2 levels "F","M": $ Employees : int $ Assets : int file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/3d_viq.html#(1) 5/26
6 Scatter-plot e frequenze summary(gender) F M file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/3d_viq.html#(1) 6/26
7 RLS - output reg< lm(salary~gender) summary(reg) Call: lm(formula = Salary ~ Gender) Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) < 2e 16 *** GenderM e 05 *** Signif. codes: 0 '***' '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: on 98 degrees of freedom Multiple R squared: , Adjusted R squared: F statistic: on 1 and 98 DF, p value: 5.61e 05 file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/3d_viq.html#(1) 7/26
8 Interpretazione Il salario medio per il gruppo delle donne è Il salario medio per il gruppo dei maschi è = I maschi percepiscono in media un salario più elevato rispetto al gruppo delle donne. La differenza media è pari a Il t-test relativo a β1 è significativo, indicando che la differenza media di salari tra maschi e femmine è da consederare una differenza strutturale piuttosto che un risultato casuale. il test F indica che nel complesso il modello funziona, sebbene R 2 = 0.15 sia molto basso (difficile aspettarsi quacosa di diverso con questi dati). file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/3d_viq.html#(1) 8/26
9 Dati e rette stimate Si noti che i salari medi forniti dalla regressione sono le medie dei due gruppi mean(salary[gender=="f"]) [1] mean(salary[gender=="m"]) [1] file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/3d_viq.html#(1) 9/26
10 file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/3d_viq.html#(1) 10/26
11 VIQ con più di due livelli Di regola, se la VIQ ha livelli sono necessarie variabili dummy per la codifica. q = 3, 4 q 1 Il livello non codificato diventa quello di riferimento. Esempio: se una VIQ ha tre livelli, A, B and C, è necessario definire due dummy x i1 x i2 ={ ={ se l'unità è A altrimenti se l'unità è B altrimenti Il livello C diventa la categoria di riferimento. Si veda il testo per ulteriori dettagli ed esempi. file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/3d_viq.html#(1) 11/26
12 Modelli con interazioni Nell analisi dei dati Advertising abbiamo usato un modello additivo Sales = + TV + Radio + ε β0 β1 β2 dove l effetto di TV è sempre pari a β1 indipendentemente dalla spesa in Radio Supponiamo che la spesa per la pubblicità radiofonica in realtà aumenti l efficacia della pubblicità televisiva, In questa situazione, dato un budget fisso di $ , spendendone metà in Radio e per metà in TV dovrebbe aumentare in misura superiore le vendite rispetto alla scelta di allocare l intero importo solo a TV Nel marketing, questo è noto come effetto sinergico, e in statistica viene indicato come un effetto di interazione. file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/3d_viq.html#(1) 12/26
13 Modello bivariato con interazione Un modo per consentire effetti di interazione è includere un terzo predittore, chiamato termine di interazione, che è costruito calcolando il prodotto di X1 e X2. Ossia Y = ε β0 β1 X1 β2 X2 β3 X1X2 Per capire come funziona l inclusione del termine di interazione si noti che possiamo riformulare Y = + ( + ) + + ε β0 β1 β3 X2 X1 β2 X2 dove possiamo notare che l effetto di X1 dipende anche da X2 e viceversa. file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/3d_viq.html#(1) 13/26
14 Advertising - continua Un modello lineare che utilizza Radio, TV, e un interazione tra i due per prevedere le vendite prende la forma Sales = + TV + Radio + Radio TV + ε β0 β1 β2 β3 Possiamo interpretare β3 come aumento dell efficacia della pubblicità TV per un incremento unitario di pubblicità Radio (o viceversa). Estimate Std. Error t value Pr(> t ) (Intercept) TV Radio TV:Radio RSE R.squared Adj.R.squared F.statistic p.value file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/3d_viq.html#(1) 14/26
15 Il p-value per il termine di interazione, TV indicando che vi è una forte evidenza per chiaro che il vero rapporto non è additivo. : 0 Ha Radio, è estremamente basso, β3. In altre parole, è R 2 per il modello è 96.8 rispetto all 89.7 per il modello con TV e Radio ma senza termine di interazione. In questo esempio, i p-value associati a TV, Radio (effetti principali), e TV Radio (interazione) sono tutti statisticamente significativi (Tabella 3.9), e quindi è ovvio che tutte e tre le variabili dovrebbero essere incluse nel modello. Può capitare che il termine di interazione abbi un p-value piccolo, ma gli effetti principali associati (in questo caso, TV e Radio) no. Il principio gerarchico afferma che se includiamo un interazione in un modello, dobbiamo includere anche gli effetti principali, anche se i p-value associati non sono significativi. file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/3d_viq.html#(1) 15/26
16 Interazione tra variabile quantitativa e variabile qualitativa Riprendiamo in considerazione il dataset ExecSal.txt e, per il momento, consideriamo le sole due variabili Experience e Gender Confrontiamo i due modelli M1 M2 Salary = + Gender + Exp + ε β0 β1 β2 Salary = + Gender + Exp + Gender Exp + ε β0 β1 β2 β3 file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/3d_viq.html#(1) 16/26
17 Poiché gender è una variabile dummy, i modelli possono essere riscritti come M1 ={ Salary β 0 + β2 Exp + ε β0 β1 β2 + + Exp + ε se l'unità è F se l'unità è M M2 ={ + Salary β 0 β2 Exp + ε β0 β1 β2 β3 + + ( + )Exp + ε se l'unità è F se l'unità è M β1 β3 indica il differenziale medio di Salario M - F indica il differenziale medio di salario per unità di Experience In altre parole il M2 ammette un tasso di crescita di salario, in base all esperienza, diversa per i due gruppi file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/3d_viq.html#(1) 17/26
18 Grafici M1 - M2 file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/3d_viq.html#(1) 18/26
19 Stima M1 - M2 M1 Estimate Std. Error t value Pr(> t ) (Intercept) GenderM Experience M2 Estimate Std. Error t value Pr(> t ) (Intercept) GenderM Experience GenderM:Experience file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/3d_viq.html#(1) 19/26
20 Bontà di adattamento M1 - M2 M1 RSE R.squared Adj.R.squared F.statistic p.value M2 RSE R.squared Adj.R.squared F.statistic p.value file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/3d_viq.html#(1) 20/26
21 In base al M1 un anno di esperienza è pagato in media M che per F In base al M2 un anno di esperienza è pagato in media per M = sia per per F e il p-value del t-test relativo a Gender nel M2 NON è significativo tuttavia la variabile non è in discussione per criterio di gerarchia il p-value del t-test relativo all interazione nel M2 è significativo e pertanto il M2 è preferito al M1 file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/3d_viq.html#(1) 21/26
22 Relazioni non-lineari In alcuni casi, la relazione tra variabile risposta e predittori può essere non lineare. Un modo molto semplice per estendere direttamente il modello lineare a relazioni non lineari, è quello di utilizzare la regressione polinomiale. Ad esempio la regressione quadratica o cubica Y = ε β0 β1x1 β2x 2 1 Y = ε β0 β1x1 β2x 2 1 β3x 3 1 permettono di seguire andamenti non lineari dei dati. Si noti che il modello è ancora lineare nei parametri e quindi può essere stimato semplicemente usando il metodo dei minimi quadrati. L uso di potenze di ordine troppo elevato può diventare tuttavia file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/3d_viq.html#(1) 22/26
23 numericamente instabile e produrre overfitting file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/3d_viq.html#(1) 23/26
24 Modelli di regressione multipla In generale un modello di regressione può contenere diverse componenti variabili quantitative e variabili qualitative interazioni tra variabili quantitave e qualitative (qualsiasi combinazione) componenti polinomiali (variabili al quadrato, al cubo, ) Dal punto di vista pratico la regressione lineare può diventare un strumento di analisi molto potente e flessibile. file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/3d_viq.html#(1) 24/26
25 Potenziali problemi 1. Non-linearità. 2. Correlazione degli errori. 3. Varianza non-costante negli errori. 4. Valori anomali. 5. Osservazioni influenti. 6. Collinearità. Si veda il testo per una breve panoramica file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/3d_viq.html#(1) 25/26
26 Riferimenti bibliografici An Introduction to Statistical Learning, with applications in R. (Springer, 2013) Alcune delle figure in questa presentazione sono tratte dal testo con il permesso degli autori: G. James, D. Witten, T. Hastie e R. Tibshirani file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/3d_viq.html#(1) 26/26
Modelli con predittori qualitativi e modelli con interazioni
Modelli con predittori qualitativi e modelli con interazioni Strumenti quantitativi per la gestione Emanuele Taufer Utilizzare variabili indipendenti qualitative (VIQ) Codifica binaria 0,1 Esempio: salari
DettagliRegressione lineare multipla Strumenti quantitativi per la gestione
Regressione lineare multipla Strumenti quantitativi per la gestione Emanuele Taufer Regressione lineare multipla (RLM) Esempio: RLM con due predittori Stima dei coefficienti e previsione Advertising data
DettagliMulticollinearità. Strumenti quantitativi per la gestione
Multicollinearità Strumenti quantitativi per la gestione Emanuele Taufer file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/3c_mc.html#(1) 1/13 Quando non tutto va come dovrebbe Si parla di multi-collinearità
DettagliRegressione lineare semplice
Regressione lineare semplice Strumenti quantitativi per la gestione Emanuele Taufer Regressione lineare (RL) La regressione lineare per i dati Advertising Analisi d interesse Regressione lineare semplice
DettagliIl modello di regressione (VEDI CAP 12 VOLUME IEZZI, 2009)
Il modello di regressione (VEDI CAP 12 VOLUME IEZZI, 2009) Quesito: Posso stimare il numero di ore passate a studiare statistica sul voto conseguito all esame? Potrei calcolare il coefficiente di correlazione.
DettagliValidazione dei modelli Strumenti quantitativi per la gestione
Validazione dei modelli Strumenti quantitativi per la gestione Emanuele Taufer Validazione dei modelli Il data set Auto I dati Il problema analizzato Validation set approach Diagramma a dispersione Test
DettagliLABORATORIO DI PROBABILITA E STATISTICA
UNIVERSITA DEGLI STUDI DI VERONA LABORATORIO DI PROBABILITA E STATISTICA Docente: Bruno Gobbi 6 ESERCIZI RIEPILOGATIVI PRIME 3 LEZIONI REGRESSIONE LINEARE: SPORT - COLESTEROLO ESERCIZIO 8: La tabella seguente
Dettagli0.1 Percorrenza e Cilindrata
0.1 Percorrenza e Cilindrata Iniziamo ora un analisi leggermente più complessa basata sempre sui concetti appena introdotti. Innanzi tutto possiamo osservare, dal grafico ottenuto con il comando pairs,
DettagliAntonella Bodini Istituto di Matematica Applicata e Tecnologie Informatiche E. Magenes del CNR
Antonella Bodini Istituto di Matematica Applicata e Tecnologie Informatiche E. Magenes del CNR Materiale ad uso dei ricercatori che hanno seguito il corso di formazione interna in Statistica, edizione
DettagliAnalisi grafica residui in R. Da output grafico analisi regressionelm1.csv Vedi dispensa. peso-statura
Analisi grafica residui in R Da output grafico analisi regressionelm1.csv Vedi dispensa peso-statura 1) Il plot in alto a sinistra mostra gli errori residui contro i loro valori stimati. I residui devono
DettagliEsercizio 1 GRAFICO 1. X e Y sono indipendenti. X e Y non sono correlate. La correlazione tra X e Y è <1. X e Y sono perfettamente correlate
Esercizio 1 Osservare il grafico 1 riportato in figura che mette in relazione una variabile dipendente Y ed una variabile indipendente X e rispondere alle seguenti domande. 400 300 200 GRAFICO 1 100 0
DettagliIntroduzione alla Regressione Logistica
Introduzione alla Regressione Logistica Contenuto regressione lineare semplice e multipla regressione logistica lineare semplice La funzione logistica Stima dei parametri Interpretazione dei coefficienti
DettagliLABORATORIO 5. ANALISI DELLA VARIANZA AD UN CRITERIO DI CLASSIFICAZIONE
LABORATORIO 5. ANALISI DELLA VARIANZA AD UN CRITERIO DI CLASSIFICAZIONE 5.1 ESEMPIO DI ANOVA AD UNA VIA In un esperimento un gruppo di bambini è stato assegnato a caso a 3 trattamenti, allo scopo di determinare
DettagliRegressione logistica. Strumenti quantitativi per la gestione
Regressione logistica Strumenti quantitativi per la gestione Emanuele Taufer file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/4a_rlg.html#(1) 1/25 Metodi di classificazione I metodi usati per analizzare
DettagliData Mining. Prova parziale del 20 aprile 2017: SOLUZIONE
Università degli Studi di Padova Corso di Laurea Magistrale in Informatica a.a. 2016/2017 Data Mining Docente: Annamaria Guolo Prova parziale del 20 aprile 2017: SOLUZIONE ISTRUZIONI: La durata della prova
DettagliEsercitazione Statistica Computazionale B Modelli di regressione lineare semplice Verifica di ipotesi - Analisi della varianza
Esercitazione Statistica Computazionale B Modelli di regressione lineare semplice Verifica di ipotesi - Analisi della varianza 3 maggio 2005 Esercizio 1 Consideriamo l esempio del libro di testo Annette
DettagliModelli non lineari Strumenti quantitativi per la gestione
Modelli non lineari Strumenti quantitativi per la gestione Emanuele Taufer Metodi per affrontare problemi non lineari Regressione polinomiale Esempio: modellare i picchi di domanda di energia Fattori che
DettagliModelli non lineari. Strumenti quantitativi per la gestione
Modelli non lineari Strumenti quantitativi per la gestione Emanuele Taufer file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/7_gam.html#(5) 1/54 Metodi per affrontare problemi nonlineari Regressione
DettagliRegressioni Non Lineari
Regressioni Non Lineari Fino ad ora abbiamo solo considerato realazioni lineari Ma le relazioni lineari non costituiscono sempre le migliori approssimazioni La regressione multipla può anche essere formulata
DettagliANALISI DELLA VARIANZA
ANALISI DELLA VARIANZA Il data set coagulation contenuto nella libreria faraway contiene i tempi di coagulazione del sangue (misurato in secondi) di 24 animali sottoposti casualmente a quattro tipi di
DettagliRegressione logistica
Regressione logistica Strumenti quantitativi per la gestione Emanuele Taufer Metodi di classificazione Tecniche principali Alcuni esempi Data set Default I dati La regressione logistica Esempio Il modello
DettagliConfronto fra gruppi: il metodo ANOVA. Nicola Tedesco (Statistica Sociale) Confronto fra gruppi: il metodo ANOVA 1 / 23
Confronto fra gruppi: il metodo ANOVA Nicola Tedesco (Statistica Sociale) Confronto fra gruppi: il metodo ANOVA 1 / 23 1 Nella popolazione, per ciascun gruppo la distribuzione della variabile risposta
DettagliMetodi per la riduzione della dimensionalità. Strumenti quantitativi per la gestione
Metodi per la riduzione della dimensionalità Strumenti quantitativi per la gestione Emanuele Taufer file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/6c_pca.html#(1) 1/25 Introduzione Gli approcci
DettagliCAPITOLO 5 Introduzione ai piani fattoriali
Douglas C. Montgomery Progettazione e analisi degli esperimenti 2006 McGraw-Hill CAPITOLO 5 Introduzione ai piani fattoriali Metodi statistici e probabilistici per l ingegneria Corso di Laurea in Ingegneria
DettagliStatistica. Capitolo 12. Regressione Lineare Semplice. Cap. 12-1
Statistica Capitolo 1 Regressione Lineare Semplice Cap. 1-1 Obiettivi del Capitolo Dopo aver completato il capitolo, sarete in grado di: Spiegare il significato del coefficiente di correlazione lineare
DettagliAnalisi Discriminante Strumenti quantitativi per la gestione
Analisi Discriminante Strumenti quantitativi per la gestione Emanuele Taufer Un esempio introduttivo Approccio con Bayes Perchè un altro metodo di classificazione? Classificazione con Bayes Analisi discriminante
DettagliREGRESSIONE lineare e CORRELAZIONE. Con variabili quantitative che si possono esprimere in un ampio ampio intervallo di valori
REGRESSIONE lineare e CORRELAZIONE Con variabili quantitative che si possono esprimere in un ampio ampio intervallo di valori Y X La NATURA e la FORZA della relazione tra variabili si studiano con la REGRESSIONE
DettagliFac-simile prova di esame
UNIVERSITÀ CA FOSCARI DI VENEZIA FACOLTÀ DI ECONOMIA Statistica Computazionale I Prof. Stefano Tonellato COGNOME.................................... NOME.................................... MATRICOLA....................................
DettagliAnalisi discriminante in R Strumenti quantitativi per la gestione
Analisi discriminante in R Strumenti quantitativi per la gestione Emanuele Taufer Default data LDA con R Output Plot Previsione Tabella di classificazione Cambiare il criterio di classificazione Costruire
DettagliProva scritta di Affidabilità dei sistemi e controllo statistico di qualità
Prova scritta di Affidabilità dei sistemi e controllo statistico di qualità 1. a) La funzione di affidabilità è: Soluzioni 28 Gennaio 2016 = = 4. b) La probabilità che il sistema si guasti tra 0.4 e 1.4
DettagliQuiz di verifica Classificazione
Quiz di verifica Classificazione Strumenti Quantitativi per la gestione Le domande 1 4 si riferiscono al seguente problema: Supponiamo di raccogliere dati per un gruppo di studenti della classe di SQG
DettagliLABORATORIO DI PROBABILITA E STATISTICA
UNIVERSITA DEGLI STUDI DI VERONA LABORATORIO DI PROBABILITA E STATISTICA Docente: Bruno Gobbi Corso di laurea in Informatica e Bioinformatica 4 ESERCIZI RIEPILOGATIVI PRIME 3 LEZIONI 1 - STATISTICA DESCRITTIVA
DettagliIl BOOM degli ascolti dei programmi culinari. ha inciso sulle iscrizioni all istituto alberghiero???
Il BOOM degli ascolti dei programmi culinari ha inciso sulle iscrizioni all istituto alberghiero??? 60000 50000 40000 30000 20000 10000 0 2007 2008 2009 2010 2011 2012 2013 2014 gli ingredienti sono: Anno
DettagliRegressione Lineare Semplice e Correlazione
Regressione Lineare Semplice e Correlazione 1 Introduzione La Regressione è una tecnica di analisi della relazione tra due variabili quantitative Questa tecnica è utilizzata per calcolare il valore (y)
Dettagli> d = alimentazione == "benz" > mean(percorr.urbana[!d]) - mean(percorr.urbana[d]) [1] 2.385627. > sd(percorr.urbana[d]) [1] 2.
A questo punto vale la pena di soffermarci di più sull alimentazione. Intanto cerchiamo di indagare se l alimentazione è davvero un fattore significativo per la percorrenza come è luogo comune pensare.
DettagliAnalisi descrittiva: calcolando medie campionarie, varianze campionarie e deviazioni standard campionarie otteniamo i dati:
Obiettivi: Esplicitare la correlazione esistente tra l altezza di un individuo adulto e la lunghezza del suo piede e del suo avambraccio. Idea del progetto: Il progetto nasce dall idea di acquistare scarpe
DettagliAnalisi della regressione
Analisi della regressione L analisi della regressioneè una tecnica statistica per modellare e investigare le relazioni tra due (o più) variabili. Nella tavola è riportata la % di purezza di ossigeno, rilasciata
DettagliVariabili indipendenti qualitative. In molte applicazioni si rende necessario l introduzione di un fattore a due o più livelli.
Variabili indipendenti qualitative Di solito le variabili nella regressione sono variabili continue In molte applicazioni si rende necessario l introduzione di un fattore a due o più livelli Ad esempio:
DettagliLEZIONE N. 11 ( a cura di MADDALENA BEI)
LEZIONE N. 11 ( a cura di MADDALENA BEI) F- test Assumiamo l ipotesi nulla H 0 :β 1,...,Β k =0 E diverso dal verificare che H 0 :B J =0 In realtà F - test è più generale H 0 :Aβ=0 H 1 :Aβ 0 A è una matrice
DettagliVerifica di ipotesi sui coefficienti di regressione. Verifica di ipotesi sul coefficiente angolare
Verifica di ipotesi sui coefficienti di regressione Per il momento supponiamo di muoverci nel contesto del modello gaussiano. Vogliamo capire se alcune nostre congetture sui coefficienti di regressione
DettagliL elasticità e le sue applicazioni in economia Introduzione
L elasticità e le sue applicazioni in economia Introduzione Fino ad ora l analisi su domanda, offerta ed equilibrio di mercato è stata di tipo qualitativo. Se vogliamo avere una misura quantitativa degli
DettagliEsercizio 8. Ne segue, ovviamente che le aree geografiche di riferimento sono Africa e America del Sud.
Esercizio 8 La Swiss Economic Research della Union Bank of Switzerland conduce un controllo periodico dei livelli dei prezzi e dei salari nella principali città del mondo. Una delle variabili rilevate
DettagliEsercitazione 5 - Statistica (parte II) Davide Passaretti 9/3/2017
Esercitazione 5 - Statistica (parte II) Davide Passaretti 9/3/2017 Contents 1 Inferenza sulla regressione semplice 1 1.1 Test sulla pendenza della retta................................... 1 1.2 Test sull
DettagliLaboratorio R Corso di Algebra e Modelli lineari (Anno Accademico 2011-12)
Laboratorio R Corso di Algebra e Modelli lineari (Anno Accademico 011-1) REGRESSIONE LINEARE SEMPLICE OPEN STATISTICA 8.44 Per 8 settimanali, appartenenti alla medesima fascia di prezzo e presenti in edicola
DettagliESERCITAZIONE C. Analisi di dati sperimentali PARTE 3: REGRESIONE
Università degli Studi di Padova Facoltà di Scienze MM.FF.NN. Corso di Laurea Magistrale: Biologia Sanitaria/Biologia Molecolare Insegnamento: Statistica Applicata Docente: Prof.ssa Alessandra R. Brazzale
DettagliLa regressione lineare multipla
13 La regressione lineare multipla Introduzione 2 13.1 Il modello di regressione multipla 2 13.2 L analisi dei residui nel modello di regressione multipla 9 13.3 Il test per la verifica della significatività
Dettaglilezione 10 AA Paolo Brunori
AA 2016-2017 Paolo Brunori Redditi svedesi - il dataset contiene i dati di reddito di 838 individui - il dataset contiene le variabili: sex = sesso age = età edu = anni di istruzione y_gross = reddito
Dettaglie applicazioni al dominio del Contact Management Andrea Brunello Università degli Studi di Udine
e applicazioni al dominio del Contact Management Parte V: combinazione di Università degli Studi di Udine In collaborazione con dott. Enrico Marzano, CIO Gap srl progetto Active Contact System 1/10 Contenuti
Dettagli> cement <- read.table("i:/modelli/cement.dat", col.names=c("tempo", "resist")) > attach(cement)
Laboratorio 6 Analisi dei residui 6.1 Analisi dei dati CEMENT.DAT I dati riportati nel file cement.dat si riferiscono ad uno studio sulla resistenza del cemento alla tensione. La resistenza dipende, tra
DettagliSTATISTICA 1, metodi matematici e statistici Introduzione al linguaggio R Esercitazione 7:
esercitazione 7 p. 1/13 STATISTICA 1, metodi matematici e statistici Introduzione al linguaggio R Esercitazione 7: 20-05-2004 Luca Monno Università degli studi di Pavia luca.monno@unipv.it http://www.lucamonno.it
DettagliLEZIONI IN LABORATORIO Corso di MARKETING L. Baldi Università degli Studi di Milano. Strumenti statistici in Excell
LEZIONI IN LABORATORIO Corso di MARKETING L. Baldi Università degli Studi di Milano Strumenti statistici in Excell Pacchetto Analisi di dati Strumenti di analisi: Analisi varianza: ad un fattore Analisi
DettagliEsercizio 4 (Regressione multipla)
Esercizio (Regressione multipla) DATI Il data set employee.sav (o employee.xls; fonte SPSS) contiene 7 dati relativi agli impiegati di un azienda. Le variabili sono ID Employee Code BDATE Date of Birth
DettagliTest F per la significatività del modello
Test F per la significatività del modello Per verificare la significatività dell intero modello si utilizza il test F Si vuole verificare l ipotesi H 0 : β 1 = 0,, β k = 0 contro l alternativa che almeno
DettagliFasi del modello di regressione
Fasi del modello di regressione Specificazione del modello: scelta del tipo di funzione da utilizzare per descrivere un fenomeno; definizione delle ipotesi di base Stima dei parametri: uso di stimatori
DettagliIndici di variabilità ed eterogeneità
Indici di variabilità ed eterogeneità Corso di STATISTICA Prof. Roberta Siciliano Ordinario di Statistica, Università di apoli Federico II Professore supplente, Università della Basilicata a.a. 011/01
DettagliIndice. 1 Introduzione ai modelli lineari 2. 2 Dataset 3. 3 Il Modello 8. 4 In pratica 12 4.1 Peso e percorrenza... 12
Indice 1 Introduzione ai modelli lineari 2 2 Dataset 3 3 Il Modello 8 4 In pratica 12 41 Peso e percorrenza 12 1 Capitolo 1 Introduzione ai modelli lineari Quando si analizzano dei dati, spesso si vuole
DettagliStatistica di base per l analisi socio-economica
Laurea Magistrale in Management e comunicazione d impresa Statistica di base per l analisi socio-economica Giovanni Di Bartolomeo gdibartolomeo@unite.it Definizioni di base Una popolazione è l insieme
DettagliIn via preliminare, confrontiamo la distribuzione del peso del cuore nei due sessi.
Laboratorio 12 Analisi della covarianza 12.1 Analisi del dataset CATS.DAT I dati contenuti nel file cats.dat presentano il peso del corpo ed il peso del cuore di alcuni gatti di sesso femminile (1) e maschile
DettagliSTATISTICA A K (60 ore)
STATISTICA A K (60 ore) Marco Riani mriani@unipr.it http://www.riani.it Richiami sulla regressione Marco Riani, Univ. di Parma 1 MODELLO DI REGRESSIONE y i = a + bx i + e i dove: i = 1,, n a + bx i rappresenta
DettagliCAPITOLO 11 ANALISI DI REGRESSIONE
VERO FALSO CAPITOLO 11 ANALISI DI REGRESSIONE 1. V F Se c è una relazione deterministica tra due variabili,x e y, ogni valore dato di x,determinerà un unico valore di y. 2. V F Quando si cerca di scoprire
DettagliLABORATORIO DI PROBABILITA E STATISTICA
LABORATORIO DI PROBABILITA E STATISTICA Docente: Bruno Gobbi 3 LA REGRESSIONE LINEARE ES. STUDIO RELAZIONE ALTEZZA - PESO Soggetto Altezza Peso A 174 75 B 166 63 C 173 70 D 171 71 E 168 68 F 167 68 G 165
Dettagli3.1 Classificazione dei fenomeni statistici Questionari e scale di modalità Classificazione delle scale di modalità 17
C L Autore Ringraziamenti dell Editore Elenco dei simboli e delle abbreviazioni in ordine di apparizione XI XI XIII 1 Introduzione 1 FAQ e qualcos altro, da leggere prima 1.1 Questo è un libro di Statistica
DettagliGiorno n. clienti di attesa
Esercizio 1 Un aspetto cruciale per la qualità del servizio ai clienti in un supermercato è il cosiddetto checkout (ovvero il tempo che il cliente impiega dal momento in cui si mette in fila alla cassa
DettagliLa regressione lineare. Rappresentazione analitica delle distribuzioni
La regressione lineare Rappresentazione analitica delle distribuzioni Richiamiamo il concetto di dipendenza tra le distribuzioni di due caratteri X e Y. Ricordiamo che abbiamo definito dipendenza perfetta
DettagliEsercitazione del
Esercizi sulla regressione lineare. Esercitazione del 21.05.2013 Esercizio dal tema d esame del 13.06.2011. Si consideri il seguente campione di n = 9 osservazioni relative ai caratteri ed Y: 7 17 8 36
DettagliStatistica Applicata all edilizia: il modello di regressione
Statistica Applicata all edilizia: il modello di regressione E-mail: orietta.nicolis@unibg.it 27 aprile 2009 Indice Il modello di Regressione Lineare 1 Il modello di Regressione Lineare Analisi di regressione
DettagliEsplorazione dei dati. Lucidi e dataset tratti da Turini - Analisi dei Dati, Dip. Inf. Unipi
Esplorazione dei dati Lucidi e dataset tratti da Turini - Analisi dei Dati, Dip. Inf. Unipi Analisi mono e bivariata Si utilizzano indicatori sintetici che individuano, con un singolo valore, proprieta`
Dettaglistima per intervallo
stima per intervallo intervalli di fiducia confidence interval una affermazione come questa: CI(95%): lim inf < µ < lim sup p = 0.95 che la media della popolazione sia compresa nell intervallo fra lim
DettagliStatistica multivariata
Parte 3 : Statistica multivariata Quando il numero delle variabili rilevate sullo stesso soggetto aumentano, il problema diventa gestirle tutte e capirne le relazioni. Analisi multivariata Cercare di capire
DettagliStatistical learning Strumenti quantitativi per la gestione
Statistical learning Strumenti quantitativi per la gestione Emanuele Taufer Vendite Simbologia Reddito Statistical learning A cosa ci serve f? 1 Previsione 2 Inferenza Previsione Errore riducibile e errore
DettagliProva scritta di Affidabilità dei sistemi e controllo statistico di qualità
Prova scritta di Affidabilità dei sistemi e controllo statistico di qualità 18 Febbraio 2016 1. La probabilità di errore nella trasmissione di una cifra binaria attraverso un certo canale di comunicazione
DettagliDAL CAMPIONE ALLA POPOLAZIONE: LA STIMA DEI PARAMETRI
DAL CAMPIONE ALLA POPOLAZIONE: LA STIMA DEI PARAMETRI Andrea Onofri Dipartimento di Scienze Agrarie ed Ambientali Università degli Studi di Perugia Versione on-line: http://www.unipg.it/ onofri/rtutorial/index.html
DettagliSommario. Capitolo 1 I dati e la statistica 1. Capitolo 2 Statistica descrittiva: tabelle e rappresentazioni grafiche 25
Sommario Presentazione dell edizione italiana Prefazione xv xiii Capitolo 1 I dati e la statistica 1 Statistica in pratica: BusinessWeek 1 1.1 Le applicazioni in ambito aziendale ed economico 3 Contabilità
DettagliStrumenti di indagine per la valutazione psicologica
Strumenti di indagine per la valutazione psicologica 1.5 Correlazione e causazione Davide Massidda davide.massidda@gmail.com Metodi simmetrici vs asimmetrici Relazioni tra variabili Nei metodi di studio
Dettaglilezione n. 6 (a cura di Gaia Montanucci) Verosimiglianza: L = = =. Parte dipendente da β 0 e β 1
lezione n. 6 (a cura di Gaia Montanucci) METODO MASSIMA VEROSIMIGLIANZA PER STIMARE β 0 E β 1 Distribuzione sui termini di errore ε i ε i ~ N (0, σ 2 ) ne consegue : ogni y i ha ancora distribuzione normale,
DettagliStatistica - metodologie per le scienze economiche e sociali S. Borra, A. Di Ciaccio - McGraw Hill
- metodologie per le scienze economiche e sociali S. Borra, A. Di Ciaccio - McGraw Hill Es. Soluzione degli esercizi del capitolo 8 home - indice In base agli arrotondamenti effettuati nei calcoli, si
DettagliRegressione Semplice. Correlazioni. sconto leverage. sconto Correlazione di Pearson 1,275. Sign. (a due code),141
Regressione Semplice Analisi Per avere una prima idea della struttura di dipendenza fra le variabili in esame, possiamo cominciare col costruire la matrice di correlazione delle variabili presenti nel
DettagliRICHIAMI DI STATISTICA DESCRITTIVA E DI INFERENZA: LA VERIFICA DI IPOTESI: TEST BASATI SU UN CAMPIONE
RICHIAMI DI STATISTICA DESCRITTIVA E DI INFERENZA: LA VERIFICA DI IPOTESI: TEST BASATI SU UN CAMPIONE 1 La verifica di ipotesi Finora abbiamo visto come si utilizza una statistica campionaria per stimare
DettagliPremessa: la dipendenza in media
Premessa: la dipendenza in media Supponiamo di avere K diversi livelli di un fattore che potrebbero influire su una determinata variabile. Per esempio supponiamo di domandarci se la diversificazione (intesa
DettagliLa media e la mediana sono indicatori di centralità, che indicano un centro dei dati.
La media e la mediana sono indicatori di centralità, che indicano un centro dei dati. Un indicatore che sintetizza in un unico numero tutti i dati, nascondendo quindi la molteplicità dei dati. Per esempio,
DettagliVARIETÀ. zona geografica A B C D
Anova a 2 vie con repliche (( chiarire che non devono essere esattamente nello stesso numero per ogni cella ovvero per le ripetizioni dei de fattori ma che excel li legge così) Esercizio-esempio 1 Il valore
DettagliRegressione Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007
Regressione Esempio Un azienda manifatturiera vuole analizzare il legame che intercorre tra il costo mensile Y di produzione e il corrispondente volume produttivo X per uno dei propri stabilimenti. Volume
DettagliIl modello di regressione
Il modello di regressione Capitolo e 3 A M D Marcello Gallucci Milano-Bicocca Lezione: II Concentti fondamentali Consideriamo ora questa ipotetica ricerca: siamo andati in un pub ed abbiamo contato quanti
DettagliFunzioni di regressione non lineari
Funzioni di regressione non lineari Eduardo Rossi 2 2 Università di Pavia (Italy) Maggio 2013 Rossi Regressione nonlineare Econometria - 2013 1 / 25 Sommario Funzioni di regressione non lineari - note
DettagliMulticollinearità Strumenti quantitativi per la gestione
Strumenti quantitativi per la gestione Emanuele Taufer Quando non tutto va come dovrebbe I dati Scatter plot Correlazioni RLS e RLM Individuare la MC Variance Inflation Factor Cosa fare in caso di MC Alcune
DettagliRegressione multipla
Regressione multipla L obiettivo è costruire un modello probabilistico per spiegare la variabile y tramite più di una variabile indipendente x 1, x 2,..., x k. Esempio: Per un efficiente progettazione
DettagliSTATISTICA (modulo I - Statistica Descrittiva) Soluzione Esercitazione I
2. e 3. STATISTICA (modulo I - Statistica Descrittiva) Soluzione Esercitazione I 1. Le unità statistiche sono costituite dai singoli ristoranti, mentre la popolazione è costituita da tutte le unità del
DettagliAnalisi della Varianza Fattoriale
Analisi della Varianza Fattoriale AMD Marcello Gallucci marcello.gallucci@unimib.it Ripasso dell ANOVA Lo studio degli effetti di una serie di variabili indipendenti nominale (gruppi) su un variabile dipendente
DettagliGENETICA QUANTITATIVA
GENETICA QUANTITATIVA Caratteri quantitativi e qualitativi I caratteri discontinui o qualitativi esibiscono un numero ridotto di fenotipi e mostrano una relazione genotipo-fenotipo semplice I caratteri
DettagliLa multicollinearità sorge quando c è un elevata correlazione tra due o più variabili esplicative.
Lezione 14 (a cura di Ludovica Peccia) MULTICOLLINEARITA La multicollinearità sorge quando c è un elevata correlazione tra due o più variabili esplicative. In un modello di regressione Y= X 1, X 2, X 3
DettagliIl metodo della regressione
Il metodo della regressione Consideriamo il coefficiente beta di una semplice regressione lineare, cosa significa? È una differenza tra valori attesi Anche nel caso classico di variabile esplicativa continua
DettagliDispensa di Statistica
Dispensa di Statistica 1 parziale 2012/2013 Diagrammi... 2 Indici di posizione... 4 Media... 4 Moda... 5 Mediana... 5 Indici di dispersione... 7 Varianza... 7 Scarto Quadratico Medio (SQM)... 7 La disuguaglianza
DettagliCAPITOLO 4 Blocchi casualizzati, quadrati latini e piani collegati
Douglas C. Montgomery Progettazione e analisi degli esperimenti 2006 McGraw-Hill CAPITOLO 4 Blocchi casualizzati, quadrati latini e piani collegati Metodi statistici e probabilistici per l ingegneria Corso
DettagliIl modello di regressione lineare multipla. Il modello di regressione lineare multipla
Introduzione E la generalizzazione del modello di regressione lineare semplice: per spiegare il fenomeno d interesse Y vengono introdotte p, con p > 1, variabili esplicative. Tale generalizzazione diventa
DettagliMetodi di regressione multivariata
Metodi di regressione multivariata Modellamento dei dati per risposte quantitative I metodi di regressione multivariata sono strumenti utilizzati per ricercare relazioni funzionali quantitative tra un
DettagliLaboratorio di R - 3 a lezione Prof. Mauro Gasparini
Laboratorio di R - 3 a lezione Prof. Mauro Gasparini 1. Verifica di ipotesi: il test t di Student In R è disponibile la funzione t.test che effettua il test t di Student ad un campione, a due campioni
DettagliLa previsione delle vendite dei lm
La previsione delle vendite dei lm L'industria cinematograca è un business con un alto prolo e un'elevata variabilità nei ricavi. Nel 2005, gli americani hanno speso 8.8 miliardi di dollari di biglietti
DettagliIl modello spazio temporale per la previsione dell'erosione nel breve termine. Note Metodologiche
Il modello spazio temporale per la previsione dell'erosione nel breve termine Note Metodologiche 1 Analisi della dinamica temporale dei fenomeni meteo marini sulla Spiaggia di Alimini Descrizione dei dati
DettagliStatistica. Alfonso Iodice D Enza
Statistica Alfonso Iodice D Enza iodicede@unicas.it Università degli studi di Cassino () Statistica 1 / 33 Outline 1 2 3 4 5 6 () Statistica 2 / 33 Misura del legame Nel caso di variabili quantitative
DettagliParità del potere d'acquisto - è vera?
Parità del potere d'acquisto - è vera? Il principio della parità del potere d'acquisto (PPP) aerma che nel lungo periodo i tassi di cambio tendono a riprodurre le dierenze nel tasso di inazione tra le
Dettagli