Modelli con predittori qualitativi e modelli con interazioni
|
|
|
- Bernarda Beretta
- 9 anni fa
- Visualizzazioni
Transcript
1 Modelli con predittori qualitativi e modelli con interazioni Strumenti quantitativi per la gestione Emanuele Taufer Utilizzare variabili indipendenti qualitative (VIQ) Codifica binaria 0,1 Esempio: salari dei manager Scatter plot e frequenze RLS output Interpretazione Dati e rette stimate VIQ con più di due livelli Modelli con interazioni Modello bivariato con interazione Advertising continua Interazione tra variabile quantitativa e variabile qualitativa Grafici M2 Stima M2 Bontà di adattamento M2 Relazioni non lineari Modelli di regressione multipla Potenziali problemi Riferimenti bibliografici Utilizzare variabili indipendenti qualitative (VIQ) I modelli di regressione possono includere VIQ (o categoriche) Le categorie di una VIQ sono definite livelli Poiché i livelli di una VIQ non sono misurati su una scala numerica naturale, per evitare di introdurre relazioni inesistenti o soggettive nel modello è necessario usare un codice binario. Una soluzione è quella di definire nuove variabili, le cd variabili dummy, che possono assumere due soli valori: 0 oppure 1. Nei dati ExecSal.txt abbiamo incontrato una variabile qualitativa: Gender che classifica le unità in M e F Codifica binaria 0,1 Supponiamo in prima battuta, di voler modellare il Salario ( Y ) in funzione del carattere qualitativo Gender (M o F). Definiamo la variabile binaria (o dummy): file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/3d_viq.html 1/9
2 x i ={ 0 se l'unità è F 1 se l'unità è M 10/13/2015 Modelli con predittori qualitativi e modelli con interazioni Il nostro semplice modello assume due possibili valori = + + ={ β0 ε i se l'unità è F β0 + β1 + ε i se l'unità è M y i β0 β1x i ε i + β0 β0 può essere interpretato come il salario atteso per il gruppo delle donne + β1 è il salario atteso per il gruppo dei maschi β1 può essere inerpretato come differenza media tra i salari dei due gruppi il gruppo codificato con il valore diventa quello di riferimento, definito anche livello base. In questo semplice modello i valori previsti sono solo due: i redditi medi per i due gruppi Esempio: salari dei manager Carichiamo il data set ExecSal.txt 0 Es=read.table(" Poiché la variabile Gender nel dataset è codificata come variabile numerica procediamo a trasformarla in factor (variabile qualitativa) con i livelli M e F Es$Gender=factor(Es$Gender,levels=c(0,1),labels=c("F","M")) str(es) 'data.frame': 100 obs. of 6 variables: $ Salary : int $ Experience: int $ Education : int $ Gender : Factor w/ 2 levels "F","M": $ Employees : int $ Assets : int Scatter plot e frequenze ## Warning: package 'ggplot2' was built under R version file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/3d_viq.html 2/9
3 summary(gender) F M RLS output reg< lm(salary~gender) summary(reg) Call: lm(formula = Salary ~ Gender) Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) < 2e 16 *** GenderM e 05 *** Signif. codes: 0 '***' '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: on 98 degrees of freedom Multiple R squared: , Adjusted R squared: F statistic: on 1 and 98 DF, p value: 5.61e 05 Interpretazione file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/3d_viq.html 3/9
4 Il salario medio per il gruppo delle donne è Il salario medio per il gruppo dei maschi è I maschi percepiscono in media un salario più elevato rispetto al gruppo delle donne. La differenza media è pari a Il t test relativo a β1 è significativo, indicando che la differenza media di salari tra maschi e femmine è da consederare una differenza strutturale piuttosto che un risultato casuale. il test F indica che nel complesso il modello funziona, sebbene R 2 (difficile aspettarsi quacosa di diverso con questi dati). Dati e rette stimate = = 0.15 sia molto basso Si noti che i salari medi forniti dalla regressione sono le medie dei due gruppi mean(salary[gender=="f"]) [1] mean(salary[gender=="m"]) [1] VIQ con più di due livelli q = 3, 4 q 1 Di regola, se la VIQ ha livelli sono necessarie variabili dummy per la codifica. Il livello non codificato diventa quello di riferimento. Esempio: se una VIQ ha tre livelli, A, B and C, è necessario definire due dummy file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/3d_viq.html 4/9
5 x i1 x i2 ={ ={ se l'unità è A altrimenti se l'unità è B altrimenti Il livello C diventa la categoria di riferimento. Si veda il testo per ulteriori dettagli ed esempi. Modelli con interazioni Nell analisi dei dati Advertising abbiamo usato un modello additivo Sales = β0 + β1t V + β2radio + ε dove l effetto di TV è sempre pari a β1 indipendentemente dalla spesa in Radio Supponiamo che la spesa per la pubblicità radiofonica in realtà aumenti l efficacia della pubblicità televisiva, In questa situazione, dato un budget fisso di $ , spendendone metà in Radio e per metà in TV dovrebbe aumentare in misura superiore le vendite rispetto alla scelta di allocare l intero importo solo a TV Nel marketing, questo è noto come effetto sinergico, e in statistica viene indicato come un effetto di interazione. Modello bivariato con interazione Un modo per consentire effetti di interazione è includere un terzo predittore, chiamato termine di interazione, che è costruito calcolando il prodotto di X1 e X2. Ossia Per capire come funziona l inclusione del termine di interazione si noti che possiamo riformulare dove possiamo notare che l effetto di X1 dipende anche da X2 e viceversa. Advertising continua Y = β0 + β1x1 + β2x2 + β3x1x2 + ε Y = β0 + ( β1 + β3x2) X1 + β2x2 + ε Un modello lineare che utilizza Radio, TV, e un interazione tra i due per prevedere le vendite prende la forma Sales = β0 + β1t V + β2radio + β3radio T V + ε Possiamo interpretare β3 come aumento dell efficacia della pubblicità TV per un incremento unitario di pubblicità Radio (o viceversa). ## Warning: package 'xtable' was built under R version file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/3d_viq.html 5/9
6 EstimateStd. Errort valuepr(> t ) (Intercept) TV Radio TV:Radio (TV:Radio) RSER.squaredAdj.R.squaredF.statisticp.value Il p value per il termine di interazione, TV Radio, è estremamente basso, indicando che vi è una forte evidenza per H a : β3 0. In altre parole, è chiaro che il vero rapporto non è additivo. R 2 per il modello è 96.8 rispetto all 89.7 per il modello con TV e Radio ma senza termine di interazione. In questo esempio, i p value associati a TV, Radio (effetti principali), e TV Radio (interazione) sono tutti statisticamente significativi (Tabella 3.9), e quindi è ovvio che tutte e tre le variabili dovrebbero essere incluse nel modello. Può capitare che il termine di interazione abbia un p value piccolo, ma gli effetti principali associati (in questo caso, TV e Radio) no. Il principio gerarchico afferma che se includiamo un interazione in un modello, dobbiamo includere anche gli effetti principali, anche se i p value associati non sono significativi. Interazione tra variabile quantitativa e variabile qualitativa Riprendiamo in considerazione il dataset ExecSal.txt e, per il momento, consideriamo le sole due variabili Experience e Gender Confrontiamo i due modelli M2 Salary = β0 + β1gender + β2exp + ε Salary = β0 + β1gender + β2exp + β3gender Exp + ε Poiché gender è una variabile dummy, i modelli possono essere riscritti come Salary ={ β 0 + β2 Exp + ε β0 β1 β2 + + Exp + ε se l'unità è F se l'unità è M M2 Salary ={ β 0 + β2 Exp + ε β0 β1 β2 β3 + + ( + )Exp + ε se l'unità è F se l'unità è M file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/3d_viq.html 6/9
7 β1 indica il differenziale medio di Salario M F β3 indica il differenziale medio di salario per unità di Experience In altre parole il M2 ammette un tasso di crescita di salario, in base all esperienza, diversa per i due gruppi Grafici M2 ## Warning: package 'gridextra' was built under R version Stima M2 Estimate Std. Error t valuepr(> t ) (Intercept) Gender Experience M2 Estimate Std. Error t valuepr(> t ) (Intercept) GenderM Experience GenderM:Experience Bontà di adattamento M2 RSE R.squaredAdj.R.squaredF.statisticp.value file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/3d_viq.html 7/9
8 . M2 RSE R.squaredAdj.R.squaredF.statisticp.value In base al un anno di esperienza è pagato in media In base al M2 un anno di esperienza è pagato in media per M sia per M che per F per F e il p value del t test relativo a Gender nel M2 NON è significativo tuttavia la variabile non è in discussione per criterio di gerarchia il p value del t test relativo all interazione nel M2 è significativo e pertanto il M2 è preferito al Relazioni non lineari In alcuni casi, la relazione tra variabile risposta e predittori può essere non lineare. Un modo molto semplice per estendere direttamente il modello lineare a relazioni non lineari, è quello di utilizzare la regressione polinomiale. Ad esempio la regressione quadratica o cubica = permettono di seguire andamenti non lineari dei dati. Si noti che il modello è ancora lineare nei parametri e quindi può essere stimato semplicemente usando il metodo dei minimi quadrati. L uso di potenze di ordine troppo elevato può diventare tuttavia numericamente instabile e produrre overfitting Modelli di regressione multipla In generale un modello di regressione può contenere diverse componenti variabili quantitative e variabili qualitative interazioni tra variabili quantitave e qualitative (qualsiasi combinazione) componenti polinomiali (variabili al quadrato, al cubo, ) Dal punto di vista pratico la regressione lineare può diventare un strumento di analisi molto potente e flessibile. Potenziali problemi Y = β0 + β1x1 + β2x1 2 + ε Y = β0 + β1x1 + β2x1 2 + β3x1 3 + ε file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/3d_viq.html 8/9
9 1. Non linearità. 2. Correlazione degli errori. 3. Varianza non costante negli errori. 4. Valori anomali. 5. Osservazioni influenti. 6. Collinearità. Si veda il testo per una breve panoramica Riferimenti bibliografici An Introduction to Statistical Learning, with applications in R. (Springer, 2013) Alcune delle figure in questa presentazione sono tratte dal testo con il permesso degli autori: G. James, D. Witten, T. Hastie e R. Tibshirani file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/3d_viq.html 9/9
Regressione lineare multipla Strumenti quantitativi per la gestione
Regressione lineare multipla Strumenti quantitativi per la gestione Emanuele Taufer Regressione lineare multipla (RLM) Esempio: RLM con due predittori Stima dei coefficienti e previsione Advertising data
Regressione lineare semplice
Regressione lineare semplice Strumenti quantitativi per la gestione Emanuele Taufer Regressione lineare (RL) La regressione lineare per i dati Advertising Analisi d interesse Regressione lineare semplice
Il modello di regressione (VEDI CAP 12 VOLUME IEZZI, 2009)
Il modello di regressione (VEDI CAP 12 VOLUME IEZZI, 2009) Quesito: Posso stimare il numero di ore passate a studiare statistica sul voto conseguito all esame? Potrei calcolare il coefficiente di correlazione.
Regressione logistica
Regressione logistica Strumenti quantitativi per la gestione Emanuele Taufer Metodi di classificazione Tecniche principali Alcuni esempi Data set Default I dati La regressione logistica Esempio Il modello
Validazione dei modelli Strumenti quantitativi per la gestione
Validazione dei modelli Strumenti quantitativi per la gestione Emanuele Taufer Validazione dei modelli Il data set Auto I dati Il problema analizzato Validation set approach Diagramma a dispersione Test
Multicollinearità. Strumenti quantitativi per la gestione
Multicollinearità Strumenti quantitativi per la gestione Emanuele Taufer file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/3c_mc.html#(1) 1/13 Quando non tutto va come dovrebbe Si parla di multi-collinearità
LABORATORIO DI PROBABILITA E STATISTICA
UNIVERSITA DEGLI STUDI DI VERONA LABORATORIO DI PROBABILITA E STATISTICA Docente: Bruno Gobbi 6 ESERCIZI RIEPILOGATIVI PRIME 3 LEZIONI REGRESSIONE LINEARE: SPORT - COLESTEROLO ESERCIZIO 8: La tabella seguente
Analisi grafica residui in R. Da output grafico analisi regressionelm1.csv Vedi dispensa. peso-statura
Analisi grafica residui in R Da output grafico analisi regressionelm1.csv Vedi dispensa peso-statura 1) Il plot in alto a sinistra mostra gli errori residui contro i loro valori stimati. I residui devono
Introduzione alla Regressione Logistica
Introduzione alla Regressione Logistica Contenuto regressione lineare semplice e multipla regressione logistica lineare semplice La funzione logistica Stima dei parametri Interpretazione dei coefficienti
Data Mining. Prova parziale del 20 aprile 2017: SOLUZIONE
Università degli Studi di Padova Corso di Laurea Magistrale in Informatica a.a. 2016/2017 Data Mining Docente: Annamaria Guolo Prova parziale del 20 aprile 2017: SOLUZIONE ISTRUZIONI: La durata della prova
Modelli non lineari Strumenti quantitativi per la gestione
Modelli non lineari Strumenti quantitativi per la gestione Emanuele Taufer Metodi per affrontare problemi non lineari Regressione polinomiale Esempio: modellare i picchi di domanda di energia Fattori che
Regressione logistica. Strumenti quantitativi per la gestione
Regressione logistica Strumenti quantitativi per la gestione Emanuele Taufer file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/4a_rlg.html#(1) 1/25 Metodi di classificazione I metodi usati per analizzare
Regressioni Non Lineari
Regressioni Non Lineari Fino ad ora abbiamo solo considerato realazioni lineari Ma le relazioni lineari non costituiscono sempre le migliori approssimazioni La regressione multipla può anche essere formulata
Confronto fra gruppi: il metodo ANOVA. Nicola Tedesco (Statistica Sociale) Confronto fra gruppi: il metodo ANOVA 1 / 23
Confronto fra gruppi: il metodo ANOVA Nicola Tedesco (Statistica Sociale) Confronto fra gruppi: il metodo ANOVA 1 / 23 1 Nella popolazione, per ciascun gruppo la distribuzione della variabile risposta
Analisi Discriminante Strumenti quantitativi per la gestione
Analisi Discriminante Strumenti quantitativi per la gestione Emanuele Taufer Un esempio introduttivo Approccio con Bayes Perchè un altro metodo di classificazione? Classificazione con Bayes Analisi discriminante
Esercizio 1 GRAFICO 1. X e Y sono indipendenti. X e Y non sono correlate. La correlazione tra X e Y è <1. X e Y sono perfettamente correlate
Esercizio 1 Osservare il grafico 1 riportato in figura che mette in relazione una variabile dipendente Y ed una variabile indipendente X e rispondere alle seguenti domande. 400 300 200 GRAFICO 1 100 0
REGRESSIONE lineare e CORRELAZIONE. Con variabili quantitative che si possono esprimere in un ampio ampio intervallo di valori
REGRESSIONE lineare e CORRELAZIONE Con variabili quantitative che si possono esprimere in un ampio ampio intervallo di valori Y X La NATURA e la FORZA della relazione tra variabili si studiano con la REGRESSIONE
ANALISI DELLA VARIANZA
ANALISI DELLA VARIANZA Il data set coagulation contenuto nella libreria faraway contiene i tempi di coagulazione del sangue (misurato in secondi) di 24 animali sottoposti casualmente a quattro tipi di
ESERCITAZIONE C. Analisi di dati sperimentali PARTE 3: REGRESIONE
Università degli Studi di Padova Facoltà di Scienze MM.FF.NN. Corso di Laurea Magistrale: Biologia Sanitaria/Biologia Molecolare Insegnamento: Statistica Applicata Docente: Prof.ssa Alessandra R. Brazzale
Regressione Lineare Semplice e Correlazione
Regressione Lineare Semplice e Correlazione 1 Introduzione La Regressione è una tecnica di analisi della relazione tra due variabili quantitative Questa tecnica è utilizzata per calcolare il valore (y)
Esercitazione Statistica Computazionale B Modelli di regressione lineare semplice Verifica di ipotesi - Analisi della varianza
Esercitazione Statistica Computazionale B Modelli di regressione lineare semplice Verifica di ipotesi - Analisi della varianza 3 maggio 2005 Esercizio 1 Consideriamo l esempio del libro di testo Annette
La regressione lineare multipla
13 La regressione lineare multipla Introduzione 2 13.1 Il modello di regressione multipla 2 13.2 L analisi dei residui nel modello di regressione multipla 9 13.3 Il test per la verifica della significatività
LEZIONE N. 11 ( a cura di MADDALENA BEI)
LEZIONE N. 11 ( a cura di MADDALENA BEI) F- test Assumiamo l ipotesi nulla H 0 :β 1,...,Β k =0 E diverso dal verificare che H 0 :B J =0 In realtà F - test è più generale H 0 :Aβ=0 H 1 :Aβ 0 A è una matrice
Analisi descrittiva: calcolando medie campionarie, varianze campionarie e deviazioni standard campionarie otteniamo i dati:
Obiettivi: Esplicitare la correlazione esistente tra l altezza di un individuo adulto e la lunghezza del suo piede e del suo avambraccio. Idea del progetto: Il progetto nasce dall idea di acquistare scarpe
L elasticità e le sue applicazioni in economia Introduzione
L elasticità e le sue applicazioni in economia Introduzione Fino ad ora l analisi su domanda, offerta ed equilibrio di mercato è stata di tipo qualitativo. Se vogliamo avere una misura quantitativa degli
Variabili indipendenti qualitative. In molte applicazioni si rende necessario l introduzione di un fattore a due o più livelli.
Variabili indipendenti qualitative Di solito le variabili nella regressione sono variabili continue In molte applicazioni si rende necessario l introduzione di un fattore a due o più livelli Ad esempio:
LEZIONI IN LABORATORIO Corso di MARKETING L. Baldi Università degli Studi di Milano. Strumenti statistici in Excell
LEZIONI IN LABORATORIO Corso di MARKETING L. Baldi Università degli Studi di Milano Strumenti statistici in Excell Pacchetto Analisi di dati Strumenti di analisi: Analisi varianza: ad un fattore Analisi
Statistical learning Strumenti quantitativi per la gestione
Statistical learning Strumenti quantitativi per la gestione Emanuele Taufer Vendite Simbologia Reddito Statistical learning A cosa ci serve f? 1 Previsione 2 Inferenza Previsione Errore riducibile e errore
STATISTICA A K (60 ore)
STATISTICA A K (60 ore) Marco Riani [email protected] http://www.riani.it Richiami sulla regressione Marco Riani, Univ. di Parma 1 MODELLO DI REGRESSIONE y i = a + bx i + e i dove: i = 1,, n a + bx i rappresenta
Statistica di base per l analisi socio-economica
Laurea Magistrale in Management e comunicazione d impresa Statistica di base per l analisi socio-economica Giovanni Di Bartolomeo [email protected] Definizioni di base Una popolazione è l insieme
CAPITOLO 11 ANALISI DI REGRESSIONE
VERO FALSO CAPITOLO 11 ANALISI DI REGRESSIONE 1. V F Se c è una relazione deterministica tra due variabili,x e y, ogni valore dato di x,determinerà un unico valore di y. 2. V F Quando si cerca di scoprire
Indici di variabilità ed eterogeneità
Indici di variabilità ed eterogeneità Corso di STATISTICA Prof. Roberta Siciliano Ordinario di Statistica, Università di apoli Federico II Professore supplente, Università della Basilicata a.a. 011/01
Test F per la significatività del modello
Test F per la significatività del modello Per verificare la significatività dell intero modello si utilizza il test F Si vuole verificare l ipotesi H 0 : β 1 = 0,, β k = 0 contro l alternativa che almeno
Esercizio 4 (Regressione multipla)
Esercizio (Regressione multipla) DATI Il data set employee.sav (o employee.xls; fonte SPSS) contiene 7 dati relativi agli impiegati di un azienda. Le variabili sono ID Employee Code BDATE Date of Birth
Esercitazione del
Esercizi sulla regressione lineare. Esercitazione del 21.05.2013 Esercizio dal tema d esame del 13.06.2011. Si consideri il seguente campione di n = 9 osservazioni relative ai caratteri ed Y: 7 17 8 36
LABORATORIO DI PROBABILITA E STATISTICA
LABORATORIO DI PROBABILITA E STATISTICA Docente: Bruno Gobbi 3 LA REGRESSIONE LINEARE ES. STUDIO RELAZIONE ALTEZZA - PESO Soggetto Altezza Peso A 174 75 B 166 63 C 173 70 D 171 71 E 168 68 F 167 68 G 165
La regressione lineare. Rappresentazione analitica delle distribuzioni
La regressione lineare Rappresentazione analitica delle distribuzioni Richiamiamo il concetto di dipendenza tra le distribuzioni di due caratteri X e Y. Ricordiamo che abbiamo definito dipendenza perfetta
Esplorazione dei dati. Lucidi e dataset tratti da Turini - Analisi dei Dati, Dip. Inf. Unipi
Esplorazione dei dati Lucidi e dataset tratti da Turini - Analisi dei Dati, Dip. Inf. Unipi Analisi mono e bivariata Si utilizzano indicatori sintetici che individuano, con un singolo valore, proprieta`
Statistica Applicata all edilizia: il modello di regressione
Statistica Applicata all edilizia: il modello di regressione E-mail: [email protected] 27 aprile 2009 Indice Il modello di Regressione Lineare 1 Il modello di Regressione Lineare Analisi di regressione
Premessa: la dipendenza in media
Premessa: la dipendenza in media Supponiamo di avere K diversi livelli di un fattore che potrebbero influire su una determinata variabile. Per esempio supponiamo di domandarci se la diversificazione (intesa
Regressione Semplice. Correlazioni. sconto leverage. sconto Correlazione di Pearson 1,275. Sign. (a due code),141
Regressione Semplice Analisi Per avere una prima idea della struttura di dipendenza fra le variabili in esame, possiamo cominciare col costruire la matrice di correlazione delle variabili presenti nel
lezione n. 6 (a cura di Gaia Montanucci) Verosimiglianza: L = = =. Parte dipendente da β 0 e β 1
lezione n. 6 (a cura di Gaia Montanucci) METODO MASSIMA VEROSIMIGLIANZA PER STIMARE β 0 E β 1 Distribuzione sui termini di errore ε i ε i ~ N (0, σ 2 ) ne consegue : ogni y i ha ancora distribuzione normale,
DAL CAMPIONE ALLA POPOLAZIONE: LA STIMA DEI PARAMETRI
DAL CAMPIONE ALLA POPOLAZIONE: LA STIMA DEI PARAMETRI Andrea Onofri Dipartimento di Scienze Agrarie ed Ambientali Università degli Studi di Perugia Versione on-line: http://www.unipg.it/ onofri/rtutorial/index.html
GENETICA QUANTITATIVA
GENETICA QUANTITATIVA Caratteri quantitativi e qualitativi I caratteri discontinui o qualitativi esibiscono un numero ridotto di fenotipi e mostrano una relazione genotipo-fenotipo semplice I caratteri
Statistica multivariata
Parte 3 : Statistica multivariata Quando il numero delle variabili rilevate sullo stesso soggetto aumentano, il problema diventa gestirle tutte e capirne le relazioni. Analisi multivariata Cercare di capire
Multicollinearità Strumenti quantitativi per la gestione
Strumenti quantitativi per la gestione Emanuele Taufer Quando non tutto va come dovrebbe I dati Scatter plot Correlazioni RLS e RLM Individuare la MC Variance Inflation Factor Cosa fare in caso di MC Alcune
3.1 Classificazione dei fenomeni statistici Questionari e scale di modalità Classificazione delle scale di modalità 17
C L Autore Ringraziamenti dell Editore Elenco dei simboli e delle abbreviazioni in ordine di apparizione XI XI XIII 1 Introduzione 1 FAQ e qualcos altro, da leggere prima 1.1 Questo è un libro di Statistica
La media e la mediana sono indicatori di centralità, che indicano un centro dei dati.
La media e la mediana sono indicatori di centralità, che indicano un centro dei dati. Un indicatore che sintetizza in un unico numero tutti i dati, nascondendo quindi la molteplicità dei dati. Per esempio,
Sommario. Capitolo 1 I dati e la statistica 1. Capitolo 2 Statistica descrittiva: tabelle e rappresentazioni grafiche 25
Sommario Presentazione dell edizione italiana Prefazione xv xiii Capitolo 1 I dati e la statistica 1 Statistica in pratica: BusinessWeek 1 1.1 Le applicazioni in ambito aziendale ed economico 3 Contabilità
Verifica di ipotesi sui coefficienti di regressione. Verifica di ipotesi sul coefficiente angolare
Verifica di ipotesi sui coefficienti di regressione Per il momento supponiamo di muoverci nel contesto del modello gaussiano. Vogliamo capire se alcune nostre congetture sui coefficienti di regressione
Giorno n. clienti di attesa
Esercizio 1 Un aspetto cruciale per la qualità del servizio ai clienti in un supermercato è il cosiddetto checkout (ovvero il tempo che il cliente impiega dal momento in cui si mette in fila alla cassa
Il metodo della regressione
Il metodo della regressione Consideriamo il coefficiente beta di una semplice regressione lineare, cosa significa? È una differenza tra valori attesi Anche nel caso classico di variabile esplicativa continua
VARIETÀ. zona geografica A B C D
Anova a 2 vie con repliche (( chiarire che non devono essere esattamente nello stesso numero per ogni cella ovvero per le ripetizioni dei de fattori ma che excel li legge così) Esercizio-esempio 1 Il valore
Strumenti di indagine per la valutazione psicologica
Strumenti di indagine per la valutazione psicologica 1.5 Correlazione e causazione Davide Massidda [email protected] Metodi simmetrici vs asimmetrici Relazioni tra variabili Nei metodi di studio
Analisi della Varianza Fattoriale
Analisi della Varianza Fattoriale AMD Marcello Gallucci [email protected] Ripasso dell ANOVA Lo studio degli effetti di una serie di variabili indipendenti nominale (gruppi) su un variabile dipendente
La multicollinearità sorge quando c è un elevata correlazione tra due o più variabili esplicative.
Lezione 14 (a cura di Ludovica Peccia) MULTICOLLINEARITA La multicollinearità sorge quando c è un elevata correlazione tra due o più variabili esplicative. In un modello di regressione Y= X 1, X 2, X 3
Statistica. Alfonso Iodice D Enza
Statistica Alfonso Iodice D Enza [email protected] Università degli studi di Cassino () Statistica 1 / 24 Outline 1 2 3 4 5 () Statistica 2 / 24 Dipendenza lineare Lo studio della relazione tra caratteri
Il modello di regressione
Il modello di regressione Capitolo e 3 A M D Marcello Gallucci Milano-Bicocca Lezione: II Concentti fondamentali Consideriamo ora questa ipotetica ricerca: siamo andati in un pub ed abbiamo contato quanti
Statistica. Alfonso Iodice D Enza
Statistica Alfonso Iodice D Enza [email protected] Università degli studi di Cassino () Statistica 1 / 33 Outline 1 2 3 4 5 6 () Statistica 2 / 33 Misura del legame Nel caso di variabili quantitative
Il modello di regressione lineare multipla. Il modello di regressione lineare multipla
Introduzione E la generalizzazione del modello di regressione lineare semplice: per spiegare il fenomeno d interesse Y vengono introdotte p, con p > 1, variabili esplicative. Tale generalizzazione diventa
Metodi di regressione multivariata
Metodi di regressione multivariata Modellamento dei dati per risposte quantitative I metodi di regressione multivariata sono strumenti utilizzati per ricercare relazioni funzionali quantitative tra un
Dispensa di Statistica
Dispensa di Statistica 1 parziale 2012/2013 Diagrammi... 2 Indici di posizione... 4 Media... 4 Moda... 5 Mediana... 5 Indici di dispersione... 7 Varianza... 7 Scarto Quadratico Medio (SQM)... 7 La disuguaglianza
Laboratorio di R - 3 a lezione Prof. Mauro Gasparini
Laboratorio di R - 3 a lezione Prof. Mauro Gasparini 1. Verifica di ipotesi: il test t di Student In R è disponibile la funzione t.test che effettua il test t di Student ad un campione, a due campioni
Statistica Descrittiva Soluzioni 6. Indici di variabilità, asimmetria e curtosi
ISTITUZIONI DI STATISTICA A A 2007/2008 Marco Minozzo e Annamaria Guolo Laurea in Economia del Commercio Internazionale Laurea in Economia e Amministrazione delle Imprese Università degli Studi di Verona
Analisi della varianza
Università degli Studi di Padova Facoltà di Medicina e Chirurgia Facoltà di Medicina e Chirurgia - A.A. 2009-10 Scuole di specializzazione Lezioni comuni Disciplina: Statistica Docente: dott.ssa Egle PERISSINOTTO
Regressione multipla
Regressione multipla L obiettivo è costruire un modello probabilistico per spiegare la variabile y tramite più di una variabile indipendente x 1, x 2,..., x k. Esempio: Per un efficiente progettazione
CAPITOLO 4 Blocchi casualizzati, quadrati latini e piani collegati
Douglas C. Montgomery Progettazione e analisi degli esperimenti 2006 McGraw-Hill CAPITOLO 4 Blocchi casualizzati, quadrati latini e piani collegati Metodi statistici e probabilistici per l ingegneria Corso
Corso integrato di informatica, statistica e analisi dei dati sperimentali Esercitazione VII
Corso integrato di informatica, statistica e analisi dei dati sperimentali Esercitazione VII Un breve richiamo sul test t-student Siano A exp (a 1, a 2.a n ) e B exp (b 1, b 2.b m ) due set di dati i cui
STATISTICA ESERCITAZIONE 13
STATISTICA ESERCITAZIONE 13 Dott. Giuseppe Pandolfo 9 Marzo 2015 Errore di I tipo: si commette se l'ipotesi nulla H 0 viene rifiutata quando essa è vera Errore di II tipo: si commette se l'ipotesi nulla
Statistica - metodologie per le scienze economiche e sociali S. Borra, A. Di Ciaccio - McGraw Hill
- metodologie per le scienze economiche e sociali S. Borra, A. Di Ciaccio - McGraw Hill Es. Soluzione degli esercizi del capitolo 8 home - indice In base agli arrotondamenti effettuati nei calcoli, si
Lezioni di Statistica del 15 e 18 aprile Docente: Massimo Cristallo
UIVERSITA DEGLI STUDI DI BASILICATA FACOLTA DI ECOOMIA Corso di laurea in Economia Aziendale anno accademico 2012/2013 Lezioni di Statistica del 15 e 18 aprile 2013 Docente: Massimo Cristallo LA RELAZIOE
LA DISTRIBUZIONE NORMALE o DI GAUSS
p. 1/2 LA DISTRIBUZIONE NORMALE o DI GAUSS Osservando gli istogrammi delle misure e degli scarti, nel caso di osservazioni ripetute in identiche condizioni Gli istogrammi sono campanulari e simmetrici,
Esercizi di ripasso. Monica Marabelli. 22 Gennaio 2016
Esercizi di ripasso Monica Marabelli 22 Gennaio 2016 Esercizio 1 Tre diverse diete sono state testate per valutare la loro efficacia nel determinare una diminuzione di peso. Verifica se almeno una delle
CHEMIOMETRIA. CONFRONTO CON VALORE ATTESO (test d ipotesi) CONFRONTO DI VALORI MISURATI (test d ipotesi) CONFRONTO DI RIPRODUCIBILITA (test d ipotesi)
CHEMIOMETRIA Applicazione di metodi matematici e statistici per estrarre (massima) informazione chimica (affidabile) da dati chimici INCERTEZZA DI MISURA (intervallo di confidenza/fiducia) CONFRONTO CON
Laboratorio R Corso di Algebra e Modelli lineari (Anno Accademico 2011-12)
Laboratorio R Corso di Algebra e Modelli lineari (Anno Accademico 011-1) REGRESSIONE LINEARE SEMPLICE OPEN STATISTICA 8.44 Per 8 settimanali, appartenenti alla medesima fascia di prezzo e presenti in edicola
Analisi della Varianza - II
Analisi della Varianza - II M Q ANOVA entro i soggetti, modelli misti, ANCOVA Marco Perugini Milano-Bicocca 1 Lez: XXIX ANOVA a una via la VARIANZA Possiamo stimare la varianza (MQ = media dei quadrati)
IL CRITERIO DELLA MASSIMA VEROSIMIGLIANZA
Metodi per l Analisi dei Dati Sperimentali AA009/010 IL CRITERIO DELLA MASSIMA VEROSIMIGLIANZA Sommario Massima Verosimiglianza Introduzione La Massima Verosimiglianza Esempio 1: una sola misura sperimentale
Funzioni di regressione non lineari
Funzioni di regressione non lineari Eduardo Rossi 2 2 Università di Pavia (Italy) Maggio 2013 Rossi Regressione nonlineare Econometria - 2013 1 / 25 Sommario Funzioni di regressione non lineari - note
Capitolo 8. Intervalli di confidenza. Statistica. Levine, Krehbiel, Berenson. Casa editrice: Pearson. Insegnamento: Statistica
Levine, Krehbiel, Berenson Statistica Casa editrice: Pearson Capitolo 8 Intervalli di confidenza Insegnamento: Statistica Corso di Laurea Triennale in Economia Dipartimento di Economia e Management, Università
Dall Analisi Fattoriale alla Regressione Lineare
Dall Analisi Fattoriale alla Regressione Lineare Metodi Quantitativi per Economia, Finanza e Management Esercitazione n 10 Consegna Lavoro di gruppo La scadenza per la consegna del lavoro di gruppo è fissata
Tipi di variabili. Indici di tendenza centrale e di dispersione
Tipi di variabili. Indici di tendenza centrale e di dispersione L. Boni Variabile casuale In teoria della probabilità, una variabile casuale (o variabile aleatoria o variabile stocastica o random variable)
SMID a.a. 2004/2005 Corso di Metodi Statistici in Biomedicina Regressione di Cox 7/3/2005
SMID a.a. 2004/2005 Corso di Metodi Statistici in Biomedicina Regressione di Cox 7/3/2005 Procedura di Mantel-Haenszel Dati relativi a pazienti maschi nel primo anno di follow-up stratificati per età e
