Regressione con componenti principali (PCR) Strumenti quantitativi per la gestione
|
|
- Matteo Fumagalli
- 7 anni fa
- Visualizzazioni
Transcript
1 Regressione con componenti principali (PCR) Strumenti quantitativi per la gestione Emanuele Taufer Dati Hitters Eliminare le righe con dati mancanti PCR Variabili nell oggetto creato da pcr() Coefficienti delle variabili nella PCR Pesi dei primi due fattori Punteggi fattoriali CP1 e CP2 Plot dei punteggi fattoriali Summary Individuare il numero di componenti da usare PCR con 6 CP Previsione Individuare solo alcuni sottoinsiemi delle previsioni Plot previsto osservato Regressione con PLS Individuare il numero di PLS da usare Variabili nell oggetto creato da plsr() Riferimenti bibliografici Dati Hitters Un data frame con 322 osservazioni su giocatori della major league di baseball con 20 variabili Obbiettivo: per il campionato di baseball USA, prevedere il salario per un giocatore nel 1987 sulla base delle statistiche per giocatore nella stagione precedente 1. AtBat: Number of times at bat in Hits: Number of hits in HmRun: Number of home runs in Runs: Number of runs in RBI: Number of runs batted in Walks: Number of walks in Years: Number of years in the major leagues 8. CAtBat: Number of times at bat during his career 9. CHits: Number of hits during his career 10. CHmRun: Number of home runs during his career 11. CRuns: Number of runs during his career 12. CRBI: Number of runs batted in during his career 13. CWalks: Number of walks during his career file:///c:/users/emanuele.taufer/dropbox/3%20sqg/labs/l6_ _PCR.html 1/13
2 14. League: A factor with levels A and N indicating player s league at the end of Division: A factor with levels E and W indicating player s division at the end of PutOuts: Number of put outs in Assists: Number of assists in Errors: Number of errors in Salary: 1987 annual salary on opening day in thousands of dollars 20. NewLeague: A factor with levels A and N indicating player s league at the beginning of 1987 library(islr) data(hitters) head(hitters) AtBat Hits HmRun Runs RBI Walks Years CAtBat CHits Andy Allanson Alan Ashby Alvin Davis Andre Dawson Andres Galarraga Alfredo Griffin CHmRun CRuns CRBI CWalks League Division PutOuts Assists Andy Allanson A E Alan Ashby N W Alvin Davis A W Andre Dawson N E Andres Galarraga N E Alfredo Griffin A W Errors Salary NewLeague Andy Allanson 20 NA A Alan Ashby N Alvin Davis A Andre Dawson N Andres Galarraga N Alfredo Griffin A Eliminare le righe con dati mancanti missing< is.na(hitters) apply(missing, 2, sum) AtBat Hits HmRun Runs RBI Walks Years CAtBat CHits CHmRun CRuns CRBI CWalks League Division PutOuts Assists Errors Salary NewLeague Hitters< Hitters[complete.cases(Hitters),] ## elimino le righe con "NA" head(hitters) file:///c:/users/emanuele.taufer/dropbox/3%20sqg/labs/l6_ _PCR.html 2/13
3 AtBat Hits HmRun Runs RBI Walks Years CAtBat CHits Alan Ashby Alvin Davis Andre Dawson Andres Galarraga Alfredo Griffin Al Newman CHmRun CRuns CRBI CWalks League Division PutOuts Assists Alan Ashby N W Alvin Davis A W Andre Dawson N E Andres Galarraga N E Alfredo Griffin A W Al Newman N E Errors Salary NewLeague Alan Ashby N Alvin Davis A Andre Dawson N Andres Galarraga N Alfredo Griffin A Al Newman A dim(hitters) [1] PCR La regressione con le CP può esser fatta utilizzando la funzione pcr() della libreria pls library(pls) set.seed(2) pcr.fit=pcr(salary~., data=hitters, scale=true, validation ="CV") La sintassi di pcr() è simile a quella di lm() L opzione scale=true standardizza i predittori prima di calcolare le CP L opzione validation=cv produce una cross validazione 10 fold sui risultati per determinare il numero ottimale di CP da usare Variabili nell oggetto creato da pcr() names(pcr.fit) file:///c:/users/emanuele.taufer/dropbox/3%20sqg/labs/l6_ _PCR.html 3/13
4 [1] "coefficients" "scores" "loadings" "Yloadings" [5] "projection" "Xmeans" "Ymeans" "fitted.values" [9] "residuals" "Xvar" "Xtotvar" "fit.time" [13] "ncomp" "method" "scale" "validation" [17] "call" "terms" "model" Coefficienti delle variabili nella PCR coeff< as.data.frame(pcr.fit$coefficients) coeff[,1:2] Salary.1 comps Salary.2 comps AtBat Hits HmRun Runs RBI Walks Years CAtBat CHits CHmRun CRuns CRBI CWalks LeagueN DivisionW PutOuts Assists Errors NewLeagueN Pesi dei primi due fattori pcr.fit$loadings[,1:2] file:///c:/users/emanuele.taufer/dropbox/3%20sqg/labs/l6_ _PCR.html 4/13
5 Comp 1 Comp 2 AtBat Hits HmRun Runs RBI Walks Years CAtBat CHits CHmRun CRuns CRBI CWalks LeagueN DivisionW PutOuts Assists Errors NewLeagueN Punteggi fattoriali CP1 e CP2 pcr.fit$scores[1:20,1:2] Comp 1 Comp 2 Alan Ashby Alvin Davis Andre Dawson Andres Galarraga Alfredo Griffin Al Newman Argenis Salazar Andres Thomas Andre Thornton Alan Trammell Alex Trevino Andy VanSlyke Alan Wiggins Bill Almon Buddy Bell Buddy Biancalana Bruce Bochy Barry Bonds Bobby Bonilla Bob Brenly Plot dei punteggi fattoriali Plotta solo alcuni dati, es. righe a:b file:///c:/users/emanuele.taufer/dropbox/3%20sqg/labs/l6_ _PCR.html 5/13
6 a< 10 b< 30 plot(pcr.fit$scores[a:b,1],pcr.fit$scores[a:b,2], xlab="prima CP",ylab="Seconda CP") text(pcr.fit$scores[a:b,1],pcr.fit$scores[a:b,2], row.names(hitters[a:b,]), pos=4, ce x=1) Summary summary(pcr.fit) file:///c:/users/emanuele.taufer/dropbox/3%20sqg/labs/l6_ _PCR.html 6/13
7 Data: X dimension: Y dimension: Fit method: svdpc Number of components considered: 19 VALIDATION: RMSEP Cross validated using 10 random segments. (Intercept) 1 comps 2 comps 3 comps 4 comps 5 comps 6 comps CV adjcv comps 8 comps 9 comps 10 comps 11 comps 12 comps 13 comps CV adjcv comps 15 comps 16 comps 17 comps 18 comps 19 comps CV adjcv TRAINING: % variance explained 1 comps 2 comps 3 comps 4 comps 5 comps 6 comps 7 comps X Salary comps 9 comps 10 comps 11 comps 12 comps 13 comps 14 comps X Salary comps 16 comps 17 comps 18 comps 19 comps X Salary I risultati della cross validazione sono espressi come la radice dello MSE (RMSEP). Ci sono due stime cross validazione: cv è la stima ordinaria della cross validazione adjcv è una stima corretta per ridurre il bias nella stima di CV Individuare il numero di componenti da usare validationplot(pcr.fit, val.type="msep") file:///c:/users/emanuele.taufer/dropbox/3%20sqg/labs/l6_ _PCR.html 7/13
8 PCR con 6 CP pcr.fit=pcr(salary~., data=hitters, scale=true, ncomp=6) summary(pcr.fit) Data: X dimension: Y dimension: Fit method: svdpc Number of components considered: 6 TRAINING: % variance explained 1 comps 2 comps 3 comps 4 comps 5 comps 6 comps X Salary Previsione Se si preferisce, è possibile usare la funzione predict() per ottenere le previsoni del modello file:///c:/users/emanuele.taufer/dropbox/3%20sqg/labs/l6_ _PCR.html 8/13
9 pcr.pred< predict(pcr.fit) pcr.pred< as.data.frame(pcr.pred) # è preferibile costruire un data.frame con le previs ioni pcr.pred< cbind(hitters$salary,pcr.pred) head(pcr.pred) Hitters$Salary Salary.1 comps Salary.2 comps Alan Ashby Alvin Davis Andre Dawson Andres Galarraga Alfredo Griffin Al Newman Salary.3 comps Salary.4 comps Salary.5 comps Alan Ashby Alvin Davis Andre Dawson Andres Galarraga Alfredo Griffin Al Newman Salary.6 comps Alan Ashby Alvin Davis Andre Dawson Andres Galarraga Alfredo Griffin Al Newman Individuare solo alcuni sottoinsiemi delle previsioni pcr.pred[50:70, c(1,7)] file:///c:/users/emanuele.taufer/dropbox/3%20sqg/labs/l6_ _PCR.html 9/13
10 Hitters$Salary Salary.6 comps Don Baylor Daryl Boston Darnell Coles Dave Concepcion Doug DeCinces Darrell Evans Dwight Evans Damaso Garcia Dan Gladden Dave Henderson Donnie Hill Davey Lopes Don Mattingly Dale Murphy Dwayne Murphy Dave Parker Dan Pasqua Darrell Porter Dick Schofield Don Slaught Darryl Strawberry Plot previsto osservato plot(hitters$salary,pcr.pred[,7],main="pcr con 6 componenti",xlab="osservato",ylab="pre visto",col="red") file:///c:/users/emanuele.taufer/dropbox/3%20sqg/labs/l6_ _PCR.html 10/13
11 Regressione con PLS La regressione con i PLS può esser fatta utilizzando la funzione plsr() della libreria pls set.seed(1) pls.fit=pcr(salary~., data=hitters, scale=true, validation ="CV") summary(pls.fit) file:///c:/users/emanuele.taufer/dropbox/3%20sqg/labs/l6_ _PCR.html 11/13
12 Data: X dimension: Y dimension: Fit method: svdpc Number of components considered: 19 VALIDATION: RMSEP Cross validated using 10 random segments. (Intercept) 1 comps 2 comps 3 comps 4 comps 5 comps 6 comps CV adjcv comps 8 comps 9 comps 10 comps 11 comps 12 comps 13 comps CV adjcv comps 15 comps 16 comps 17 comps 18 comps 19 comps CV adjcv TRAINING: % variance explained 1 comps 2 comps 3 comps 4 comps 5 comps 6 comps 7 comps X Salary comps 9 comps 10 comps 11 comps 12 comps 13 comps 14 comps X Salary comps 16 comps 17 comps 18 comps 19 comps X Salary La sintassi di plsr() è simile a quella di lm() L opzione scale=true standardizza i predittori prima di calcolare i PLS L opzione validation=cv produce una cross validazione 10 fold sui risultati per determinare il numero ottimale di PLS da usare Individuare il numero di PLS da usare validationplot(pls.fit, val.type="msep") file:///c:/users/emanuele.taufer/dropbox/3%20sqg/labs/l6_ _PCR.html 12/13
13 Variabili nell oggetto creato da plsr() names(pls.fit) [1] "coefficients" "scores" "loadings" "Yloadings" [5] "projection" "Xmeans" "Ymeans" "fitted.values" [9] "residuals" "Xvar" "Xtotvar" "fit.time" [13] "ncomp" "method" "scale" "validation" [17] "call" "terms" "model" Riferimenti bibliografici An Introduction to Statistical Learning, with applications in R. (Springer, 2013) file:///c:/users/emanuele.taufer/dropbox/3%20sqg/labs/l6_ _PCR.html 13/13
Metodi per la riduzione della dimensionalità. Strumenti quantitativi per la gestione
Metodi per la riduzione della dimensionalità Strumenti quantitativi per la gestione Emanuele Taufer file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/6c_pca.html#(1) 1/25 Introduzione Gli approcci
DettagliValidazione dei modelli Strumenti quantitativi per la gestione
Validazione dei modelli Strumenti quantitativi per la gestione Emanuele Taufer Validazione dei modelli Il data set Auto I dati Il problema analizzato Validation set approach Diagramma a dispersione Test
DettagliRegressione lineare multipla Strumenti quantitativi per la gestione
Regressione lineare multipla Strumenti quantitativi per la gestione Emanuele Taufer Regressione lineare multipla (RLM) Esempio: RLM con due predittori Stima dei coefficienti e previsione Advertising data
DettagliMulticollinearità. Strumenti quantitativi per la gestione
Multicollinearità Strumenti quantitativi per la gestione Emanuele Taufer file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/3c_mc.html#(1) 1/13 Quando non tutto va come dovrebbe Si parla di multi-collinearità
DettagliModelli con predittori qualitativi e modelli con interazioni. Strumenti quantitativi per la gestione
Modelli con predittori qualitativi e modelli con interazioni Strumenti quantitativi per la gestione Emanuele Taufer file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/3d_viq.html#(1) 1/26 Utilizzare
DettagliRegressione logistica. Strumenti quantitativi per la gestione
Regressione logistica Strumenti quantitativi per la gestione Emanuele Taufer file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/4a_rlg.html#(1) 1/25 Metodi di classificazione I metodi usati per analizzare
DettagliRegressione logistica
Regressione logistica Strumenti quantitativi per la gestione Emanuele Taufer Metodi di classificazione Tecniche principali Alcuni esempi Data set Default I dati La regressione logistica Esempio Il modello
DettagliModelli con predittori qualitativi e modelli con interazioni
Modelli con predittori qualitativi e modelli con interazioni Strumenti quantitativi per la gestione Emanuele Taufer Utilizzare variabili indipendenti qualitative (VIQ) Codifica binaria 0,1 Esempio: salari
DettagliRegressione lineare semplice
Regressione lineare semplice Strumenti quantitativi per la gestione Emanuele Taufer Regressione lineare (RL) La regressione lineare per i dati Advertising Analisi d interesse Regressione lineare semplice
DettagliIl modello di regressione (VEDI CAP 12 VOLUME IEZZI, 2009)
Il modello di regressione (VEDI CAP 12 VOLUME IEZZI, 2009) Quesito: Posso stimare il numero di ore passate a studiare statistica sul voto conseguito all esame? Potrei calcolare il coefficiente di correlazione.
DettagliMulticollinearità Strumenti quantitativi per la gestione
Strumenti quantitativi per la gestione Emanuele Taufer Quando non tutto va come dovrebbe I dati Scatter plot Correlazioni RLS e RLM Individuare la MC Variance Inflation Factor Cosa fare in caso di MC Alcune
DettagliMetodi di regressione multivariata
Metodi di regressione multivariata Modellamento dei dati per risposte quantitative I metodi di regressione multivariata sono strumenti utilizzati per ricercare relazioni funzionali quantitative tra un
DettagliMetodi per la riduzione della dimensionalità Strumenti quantitativi per la gestione
Metodi er la riduzione della dimensionalità Strumenti quantitativi er la gestione Emanuele Taufer Introduzione Combinazioni lineari Regressione lineare sulle variabili trasformate Dettaglio teorico Metodi
DettagliLaboratorio R Corso di Algebra e Modelli lineari (Anno Accademico 2011-12)
Laboratorio R Corso di Algebra e Modelli lineari (Anno Accademico 011-1) REGRESSIONE LINEARE SEMPLICE OPEN STATISTICA 8.44 Per 8 settimanali, appartenenti alla medesima fascia di prezzo e presenti in edicola
Dettagli0.1 Percorrenza e Cilindrata
0.1 Percorrenza e Cilindrata Iniziamo ora un analisi leggermente più complessa basata sempre sui concetti appena introdotti. Innanzi tutto possiamo osservare, dal grafico ottenuto con il comando pairs,
DettagliAnalisi Discriminante Strumenti quantitativi per la gestione
Analisi Discriminante Strumenti quantitativi per la gestione Emanuele Taufer Un esempio introduttivo Approccio con Bayes Perchè un altro metodo di classificazione? Classificazione con Bayes Analisi discriminante
DettagliEsercitazione Statistica Computazionale B Modelli di regressione lineare semplice Verifica di ipotesi - Analisi della varianza
Esercitazione Statistica Computazionale B Modelli di regressione lineare semplice Verifica di ipotesi - Analisi della varianza 3 maggio 2005 Esercizio 1 Consideriamo l esempio del libro di testo Annette
DettagliModelli non lineari Strumenti quantitativi per la gestione
Modelli non lineari Strumenti quantitativi per la gestione Emanuele Taufer Metodi per affrontare problemi non lineari Regressione polinomiale Esempio: modellare i picchi di domanda di energia Fattori che
DettagliStatistical learning Strumenti quantitativi per la gestione
Statistical learning Strumenti quantitativi per la gestione Emanuele Taufer Vendite Simbologia Reddito Statistical learning A cosa ci serve f? 1 Previsione 2 Inferenza Previsione Errore riducibile e errore
DettagliModelli non lineari. Strumenti quantitativi per la gestione
Modelli non lineari Strumenti quantitativi per la gestione Emanuele Taufer file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/7_gam.html#(5) 1/54 Metodi per affrontare problemi nonlineari Regressione
DettagliL analisi fattoriale
L analisi fattoriale Scopo dell analisi fattoriale e quello di identificare alcune variabili latenti (fattori) in grado di spiegare i legami, le interrelazioni e le dipendenze tra le variabili statistiche
DettagliLuigi Santoro. Hyperphar Group S.p.A., MIlano
Come modellare il rischio Luigi Santoro Hyperphar Group S.p.A., MIlano Gli argomenti discussi Le definizioni del termine rischio L utilità di un modello predittivo di rischio Come costruire modelli predittivi
DettagliCovarianza, correlazione e retta di regressione. Paola Lecca, CIBIO UNITN Corso di Matematica e Statistica 2
Covarianza, correlazione e retta di regressione Paola Lecca, CIBIO UNITN Corso di Matematica e Statistica 2 Questa presentazione è stata preparata attingendo dai seguenti testi S. M. Iacus, Statistica,
Dettaglie applicazioni al dominio del Contact Management Andrea Brunello Università degli Studi di Udine
e applicazioni al dominio del Contact Management Parte V: combinazione di Università degli Studi di Udine In collaborazione con dott. Enrico Marzano, CIO Gap srl progetto Active Contact System 1/10 Contenuti
DettagliStrumenti informatici Calcolare il coefficiente di correlazione di Pearson con Excel e SPSS
Strumenti informatici 7.3 - Calcolare il coefficiente di correlazione di Pearson con Excel e SPSS Il coefficiente di correlazione di Pearson può essere calcolato con la funzione di Excel =CORRELAZIONE(Matrice1;Matrice2),
Dettagli> d = alimentazione == "benz" > mean(percorr.urbana[!d]) - mean(percorr.urbana[d]) [1] 2.385627. > sd(percorr.urbana[d]) [1] 2.
A questo punto vale la pena di soffermarci di più sull alimentazione. Intanto cerchiamo di indagare se l alimentazione è davvero un fattore significativo per la percorrenza come è luogo comune pensare.
DettagliANALISI DELLA VARIANZA
ANALISI DELLA VARIANZA Il data set coagulation contenuto nella libreria faraway contiene i tempi di coagulazione del sangue (misurato in secondi) di 24 animali sottoposti casualmente a quattro tipi di
DettagliAnalisi grafica residui in R. Da output grafico analisi regressionelm1.csv Vedi dispensa. peso-statura
Analisi grafica residui in R Da output grafico analisi regressionelm1.csv Vedi dispensa peso-statura 1) Il plot in alto a sinistra mostra gli errori residui contro i loro valori stimati. I residui devono
DettagliPaolo Oliveri SPETTROSCOPIA NIR E CHEMIOMETRIA Genova 15, febbraio 2008
Paolo Oliveri SPETTROSCOPIA NIR E CHEMIOMETRIA Genova, 15 febbraio 2008 TECNOLOGIA STRUMENTI Wilhelm Herschel 17 marzo 1800 Prime applicazioni 1940-1950 CHEMIOMETRIA FDA lincomicina in soia 1986 SPETTRO
DettagliProva scritta di Affidabilità dei sistemi e controllo statistico di qualità
Prova scritta di Affidabilità dei sistemi e controllo statistico di qualità 1. a) La funzione di affidabilità è: Soluzioni 28 Gennaio 2016 = = 4. b) La probabilità che il sistema si guasti tra 0.4 e 1.4
DettagliESERCITAZIONE C. Analisi di dati sperimentali PARTE 3: REGRESIONE
Università degli Studi di Padova Facoltà di Scienze MM.FF.NN. Corso di Laurea Magistrale: Biologia Sanitaria/Biologia Molecolare Insegnamento: Statistica Applicata Docente: Prof.ssa Alessandra R. Brazzale
DettagliEstratto dal Cap. 8 di: Statistics for Marketing and Consumer Research, M. Mazzocchi, ed. SAGE, 2008.
LEZIONI IN LABORATORIO Corso di MARKETING L. Baldi Università degli Studi di Milano BIVARIATE AND MULTIPLE REGRESSION Estratto dal Cap. 8 di: Statistics for Marketing and Consumer Research, M. Mazzocchi,
DettagliLABORATORIO DI PROBABILITA E STATISTICA
UNIVERSITA DEGLI STUDI DI VERONA LABORATORIO DI PROBABILITA E STATISTICA Docente: Bruno Gobbi 6 ESERCIZI RIEPILOGATIVI PRIME 3 LEZIONI REGRESSIONE LINEARE: SPORT - COLESTEROLO ESERCIZIO 8: La tabella seguente
DettagliEx. 1 & 2: Costi, curve apprendimento ed economie di scala
Ex. 1 & 2: Costi, curve apprendimento ed economie di scala Economia Applicata M Andrea Bastianin Argomenti 1. Rendimenti di scala 2. Curve di apprendimento Riferimenti: Berndt, cap. 3 Nerlove, M. (1963).
DettagliCAPITOLO 4 Blocchi casualizzati, quadrati latini e piani collegati
Douglas C. Montgomery Progettazione e analisi degli esperimenti 2006 McGraw-Hill CAPITOLO 4 Blocchi casualizzati, quadrati latini e piani collegati Metodi statistici e probabilistici per l ingegneria Corso
DettagliIndice generale. Introduzione. Capitolo 1 Essere uno scienziato dei dati... 1
Introduzione...xi Argomenti trattati in questo libro... xi Dotazione software necessaria... xii A chi è rivolto questo libro... xii Convenzioni utilizzate... xiii Scarica i file degli esempi... xiii Capitolo
DettagliTecniche di riconoscimento statistico
On AIR s.r.l. Tecniche di riconoscimento statistico Applicazioni alla lettura automatica di testi (OCR) Parte 9 Alberi di decisione Ennio Ottaviani On AIR srl ennio.ottaviani@onairweb.com http://www.onairweb.com/corsopr
DettagliAnalisi delle Componenti Principali
Struttura e proprietà degli alimenti Analisi delle Componenti Principali Dott. Rossella Di Monaco Dipartimento di Scienza degli Alimenti CORSO di LAUREA MAGISTRALE in SCIENZE E TECNOLOGIE ALIMENTARI La
DettagliIntroduzione alla Regressione Logistica
Introduzione alla Regressione Logistica Contenuto regressione lineare semplice e multipla regressione logistica lineare semplice La funzione logistica Stima dei parametri Interpretazione dei coefficienti
DettagliMetodologia di applicazione dei modelli di massima verosimiglianza per il trattamento dei dati missing
Metodologia di applicazione dei modelli di massima verosimiglianza per il trattamento dei dati missing Erminio A. Bonizzoni Congresso nazionale BIAS 9/3 aprile 9 Sesto Fiorentino Firenze Stimatori di Massima
DettagliIndice. 1 Introduzione ai modelli lineari 2. 2 Dataset 3. 3 Il Modello 8. 4 In pratica 12 4.1 Peso e percorrenza... 12
Indice 1 Introduzione ai modelli lineari 2 2 Dataset 3 3 Il Modello 8 4 In pratica 12 41 Peso e percorrenza 12 1 Capitolo 1 Introduzione ai modelli lineari Quando si analizzano dei dati, spesso si vuole
DettagliSimulazione. Definizione dei parametri. Confronto e validazione. Modello del sistema. Valori di aspettazione delle osservabili
Simulazione L'applicazione principale di metodi Monte Carlo è la simulazione di processi che hanno delle caratteristiche di casualità: processi stocastici (es. random walk, simulazione di code, sistemi
DettagliEsercizio 4 (Regressione multipla)
Esercizio (Regressione multipla) DATI Il data set employee.sav (o employee.xls; fonte SPSS) contiene 7 dati relativi agli impiegati di un azienda. Le variabili sono ID Employee Code BDATE Date of Birth
DettagliAnalisi di Regressione Multivariata. β matrice incognita dei coeff. di regressione (regr. lineare in β)
Analisi di Regressione Multivariata Regressione: metodologia per dedurre info e per anticipare risposte di una variabile dip. Modello classico di regressione lineare: Y {z} n k = {z} X β + ρ {z} {z} n
DettagliConfronto fra gruppi: il metodo ANOVA. Nicola Tedesco (Statistica Sociale) Confronto fra gruppi: il metodo ANOVA 1 / 23
Confronto fra gruppi: il metodo ANOVA Nicola Tedesco (Statistica Sociale) Confronto fra gruppi: il metodo ANOVA 1 / 23 1 Nella popolazione, per ciascun gruppo la distribuzione della variabile risposta
DettagliEsercizio 1 Nella seguente tabella sono riportate le lunghezze in millimetri di 40 foglie di platano:
4. STATISTICA DESCRITTIVA ESERCIZI Esercizio 1 Nella seguente tabella sono riportate le lunghezze in millimetri di 40 foglie di platano: 138 164 150 132 144 125 149 157 146 158 140 147 136 148 152 144
DettagliStatistica multivariata Donata Rodi 21/11/2016
Statistica multivariata Donata Rodi 21/11/2016 PCA Tecnica di riduzione delle dimensioni che descrive la struttura multivariata dei dati per analisi descrittive e inferenziali Descrive la variazione di
DettagliMODELLI RIDOTTI COME SI EFFETTUA IL TEST DI NULLITÀ DI UN SOTTOINSIEME DI COEFFICIENTI IN SAS
MODELLI RIDOTTI COME SI EFFETTUA IL TEST DI NULLITÀ DI UN SOTTOINSIEME DI COEFFICIENTI IN SAS proc reg data=fitness; model Oxygen=Age Weight RunTime RunPulse RestPulse MaxPulse ; test Weight, RestPulse;
DettagliProf. Anna Paola Ercolani (Università di Roma) Lez Indicatori di dispersione
Consentono di descrivere la variabilità all interno della distribuzione di requenza tramite un unico valore che ne sintetizza le caratteristiche CAMPO DI VARIAZIONE DIFFERENZA INTERQUARTILE SCOSTAMENTO
DettagliEsempi di utilizzo dati: Piattaforma R Versione 3.3
Indagine sulle imprese industriali e dei servizi BIRD Bank of Italy Remote access to micro Data Esempi di utilizzo dati: Piattaforma R Versione 3.3 Febbraio 2016 1 Sommario Esempi di utilizzo dei dati:
DettagliCorso di Statistica Industriale
Corso di Statistica Industriale Corsi di Laurea Specialistica in Ingegneria Gestionale e Ingegneria Meccanica Docente: Ilia Negri Orario del corso: Martedì: dalle 14.00 alle 16.00 Venerdì: dalle 10.30
DettagliANOVA a un fattore between in R
ANOVA a un fattore between in R Il file Excel Il file sinburn.xlsx contiene i dati dello studio sulla sindrome da burnout in quindici infermieri ospedalieri di tre diversi reparti. Importare dati in R
DettagliLa riparametrizzazione dei Modelli Lineari e le procedure GLM e MIXED di SAS
La riparametrizzazione dei Modelli Lineari e le procedure GLM e MIXED di SAS E.D Arcangelo, C.Vitiello DIPARTIMENTO DI STATISTICA Sapienza Universita di Roma 11 dicembre 2012 E.D Arcangelo, C.Vitiello
DettagliAnalisi dei Fattori. Francesca Marta Lilja Di Lascio Dip.to di Scienze Statistiche P. Fortunati Università di Bologna
Università di Bologna - Facoltà di Scienze Statistiche Laurea Triennale in Statistica e Ricerca Sociale Corso di Analisi di Serie Storiche e Multidimensionali Analisi dei Fattori Francesca Marta Lilja
DettagliLe previsioni contano
Le previsioni contano Marketing Area: previsione della domanda, delle vendite, preferenze dei consumatori. Retail Area: previsione della domanda per ottimizzare i carichi di magazzino. IT Area: previsione
Dettagli> cement <- read.table("i:/modelli/cement.dat", col.names=c("tempo", "resist")) > attach(cement)
Laboratorio 6 Analisi dei residui 6.1 Analisi dei dati CEMENT.DAT I dati riportati nel file cement.dat si riferiscono ad uno studio sulla resistenza del cemento alla tensione. La resistenza dipende, tra
DettagliAnalisi Univariata & Esercizi
Analisi Univariata & Esercizi Metodi Quantitativi per Economia, Finanza e Management Esercitazione n 3 Lavoro di Gruppo Inviare entro oggi 16/10/2015, a gmagistrelli@liuc.it e gdeppieri@liuc.it: nome,
DettagliLABORATORIO 5. ANALISI DELLA VARIANZA AD UN CRITERIO DI CLASSIFICAZIONE
LABORATORIO 5. ANALISI DELLA VARIANZA AD UN CRITERIO DI CLASSIFICAZIONE 5.1 ESEMPIO DI ANOVA AD UNA VIA In un esperimento un gruppo di bambini è stato assegnato a caso a 3 trattamenti, allo scopo di determinare
DettagliANALISI STATISTICA DELLE PROPRIETÀ ACUSTICHE DI SERRAMENTI DA DATI DI LABORATORIO
ANALISI STATISTICA DELLE PROPRIETÀ ACUSTICHE DI SERRAMENTI DA DATI DI LABORATORIO Valeria Fumagalli (1), Chiara Scrosati (2), Riccardo Borgoni (3), Fabio Scamoni (2) 1) Facoltà di Scienze Statistiche,
DettagliISTITUTO OMNICOMPRENSIVO ALTO ORVIETANO FABRO PROGRAMMAZIONE ANNUALE MATEMATICA CLASSE II SECONDARIA I GRADO
ISTITUTO OMNICOMPRENSIVO ALTO ORVIETANO FABRO PROGRAMMAZIONE ANNUALE MATEMATICA CLASSE II SECONDARIA I GRADO MACRO INDICA TORI OBIETTIVI DI APPRENDIMENTO Curricolo verticale OBIETTIVI DI APPRENDIMENTO
DettagliStima dei parametri di modelli lineari
Stima dei parametri di modelli lineari Indice Introduzione................................ 1 Il caso studio................................ 2 Stima dei parametri............................ 3 Bontà delle
DettagliTRACCIA DI STUDIO. Indici di dispersione assoluta per misure quantitative
TRACCIA DI STUDIO Un indice di tendenza centrale non è sufficiente a descrivere completamente un fenomeno. Gli indici di dispersione assolvono il compito di rappresentare la capacità di un fenomeno a manifestarsi
DettagliUniversità del Piemonte Orientale. Corso di Laurea in Biotecnologie. Corso di Statistica Medica. Statistica Descrittiva: Variabili numeriche
Università del Piemonte Orientale Corso di Laurea in Biotecnologie Corso di Statistica Medica Statistica Descrittiva: Variabili numeriche Corso triennale biotecnologie - Statistica Medica Statistica descrittiva
DettagliStrumenti informatici Realizzare l analisi della varianza con Excel e SPSS
Strumenti informatici 6.4 - Realizzare l analisi della varianza con Excel e SPSS Excel non dispone di una funzione che realizzi l analisi della varianza, a meno di aver installato uno dei moduli aggiunti
DettagliCarte di controllo CUSUM. Le carte a somme cumulate risultano utili quando occorre individuare scostamenti dal valore centrale di piccola entità.
Carte di controllo CUSUM Le carte a somme cumulate risultano utili quando occorre individuare scostamenti dal valore centrale di piccola entità. Le carte Shewart utilizzano le informazioni solo dell ultimo
DettagliESAME. 9 Gennaio 2017 COMPITO B
ESAME 9 Gennaio 2017 COMPITO B Cognome Nome Numero di matricola 1) Approssimare tutti i calcoli alla quarta cifra decimale. 2) Ai fini della valutazione si terrà conto solo ed esclusivamente di quanto
DettagliRICERCHE DI MERCATO. 5.6 Analisi Fattoriale (Componenti Principali)
RICERCHE DI MERCATO 5.6 Analisi Fattoriale (Componenti Principali) Prof. L. Neri Dip. di Economia Politica Premessa Come evidenziato in precedenza l approccio di segmentazione per omogeneità prevede la
DettagliModulo III - Introduzione ad R
Modulo III - Introduzione ad R Elisabetta Ronchieri Università di Ferrara Dipartimento di Economia e Management e-mail: elisabetta.ronchieri@unife.it 7 Novembre 2016 Elisabetta Ronchieri Modulo III.1 -
DettagliEsplorazione dei dati. Lucidi e dataset tratti da Turini - Analisi dei Dati, Dip. Inf. Unipi
Esplorazione dei dati Lucidi e dataset tratti da Turini - Analisi dei Dati, Dip. Inf. Unipi Analisi mono e bivariata Si utilizzano indicatori sintetici che individuano, con un singolo valore, proprieta`
DettagliESERCIZI. Regressione lineare semplice CAPITOLO 12 Levine, Krehbiel, Berenson, Statistica II ed., 2006 Apogeo
Insegnamento: Statistica Corso di Laurea Triennale in Ingegneria Gestionale Facoltà di Ingegneria, Università di Padova Docenti: Prof. L. Salmaso, Dott. L. Corain ESERCIZI Regressione lineare semplice
DettagliPrestazioni di accuratezza e precisione del sistema Accu-Chek Active. Introduzione. Metodo
Prestazioni di accuratezza e precisione del sistema Accu-Chek Active I. ACCURATEZZA L'accuratezza del sistema è stata valutata in conformità con ISO 15197. Introduzione Lo scopo dello studio era di determinare
DettagliUna Breve Introduzione a E-views
1 Dipartimento di Economia Politica e Metodi Quantitativi Università di Pavia 25 Febbraio 2008 Outline Specificazione ARIMA 1 Specificazione ARIMA 2 3 Per specificare una modello ARIMA è necessario differenziare
DettagliESERCIZI SVOLTI Giuliano Bonollo - Michele Bonollo
ESERCIZI SVOLTI Giuliano Bonollo - Michele Bonollo 1 La seguente tabella riporta le frequenze relative riguardanti gli studenti di un università e gli esiti dell esame da essi sostenuto. Qual è la percentuale
DettagliPrestazioni di accuratezza e precisione del sistema Accu-Chek Compact e Accu-Chek Compact Plus. Introduzione. Metodo
Prestazioni di accuratezza e precisione del sistema Accu-Chek Compact e Accu-Chek Compact Plus I. ACCURATEZZA L'accuratezza del sistema è stata valutata in conformità con ISO 15197. Introduzione Lo scopo
DettagliIntroduzione. Eduardo Rossi 2. Marzo Università di Pavia (Italy) Rossi Introduzione Econometria / 11
Eduardo Rossi 2 2 Università di Pavia (Italy) Marzo 2014 Rossi Introduzione Econometria - 2014 1 / 11 Econometria significa misurazione economica. Lo scopo dell econometria è molto più ampio. Definizione
DettagliApprendimento automatico e Reti Neurali. Francesco Sambo tel
Apprendimento automatico e Reti Neurali Francesco Sambo www.dei.unipd.it/~sambofra francesco.sambo@dei.unipd.it tel. 049 827 7834 Apprendimento automatico Capacità di un agente di sintetizzare nuova conoscenza
DettagliREGRESSIONE LINEARE. In questo documento presentiamo alcune opzioni analitiche della procedura della regressione
REGRESSIONE LINEARE In questo documento presentiamo alcune opzioni analitiche della procedura della regressione lineare di SPSS che non sono state incluse nel testo pubblicato. Si tratta di opzioni che,
DettagliAnalisi Bivariata. Metodi Quantitativi per Economia, Finanza e Management. Esercitazione n 4
Analisi Bivariata Metodi Quantitativi per Economia, Finanza e Management Esercitazione n 4 Lavoro di gruppo Inviare il questionario via mail a gdeppieri@liuc.it e gmagistrelli@liuc.it entro oggi 30/10/2015
DettagliAN INTER-MODELS DISTANCE FOR CLUSTERING UTILITY FUNCTIONS 1
Statistica Applicata Vol. 18, n. 3, 2006 521 AN INTER-MODELS DISTANCE FOR CLUSTERING UTILITY FUNCTIONS 1 Elvira Romano, Carlo Lauro Dipartimento di Matematica e Statistica, Università di Napoli Federico
DettagliIntroduzione al software R
Introduzione al software R 1 1 Università di Napoli Federico II cristina.tortora@unina.it il software R Si tratta di un software molto flessibile che permette di compiere praticamente qualsiasi tipo di
DettagliEsempi di confronti grafici
Esempi di confronti grafici Esempi di confronti grafici 7/3 Capitolo 3 LE MEDIE La media aritmetica La media geometrica La trimmed mean La mediana La moda I percentili Statistica - Metodologie per
DettagliAttivazione profilo SAS SAS OnDemand for Academics E-learnings. Metodi Quantitativi per Economia, Finanza e Management
Attivazione profilo SAS SAS OnDemand for Academics E-learnings Metodi Quantitativi per Economia, Finanza e Management Creazione profilo SAS Creare un profilo SAS utilizzando la mail della LIUC, vi arriverà
DettagliUniversità del Piemonte Orientale. Corso di laurea in biotecnologie. Corso di Statistica Medica. Le distribuzioni teoriche di probabilità.
Università del Piemonte Orientale Corso di laurea in biotecnologie Corso di Statistica Medica Le distribuzioni teoriche di probabilità. La distribuzione di probabilità binomiale Corso di laurea in biotecnologie
Dettagliviii Indice generale
Indice generale 1 Introduzione al processo di ricerca 1 Sommario 1 Il processo di ricerca 3 Concetti e variabili 5 Scale di misura 8 Test di ipotesi 10 Evidenza empirica 10 Disegni di ricerca 11 Sintesi
DettagliCrediti: Vecchio ordinamento: Econometria I: 5 Econometria II: 4 Nuovo ordinamento: 6 / 9 (cfr. indirizzo scelto)
ECONOMETRIA Prof. Giovanni Urga Crediti: Vecchio ordinamento: Econometria I: 5 Econometria II: 4 Nuovo ordinamento: 6 / 9 (cfr. indirizzo scelto) VECCHIO ORDINAMENTO Lo studente che non sceglie di passare
DettagliCalcolo di una Regressione lineare semplice con Excel
Calcolo di una Regressione lineare semplice con Excel Inserire i dati In un tabellone vuoto di Excel, inserire i dati di X e di Y. Ad esempio i dati della Tabella 0.1 dovrebbero essere inseriti in Excel
DettagliGRAFICI DI PROBABILITÀ Prof. Antonio Lanzotti
UNIVERSITÀ DEGLI STUDI DI NAPOLI FEDERICO II DIPARTIMENTO DI INGEGNERIA AEROSPAZIALE D.I.A.S. STATISTICA PER L INNOVAZIONE a.a. 2007/2008 GRAFICI DI PROBABILITÀ Prof. Antonio Lanzotti A cura di: Ing. Giovanna
DettagliStatistica Sociale - modulo A
Statistica Sociale - modulo A e-mail: stella.iezzi@uniroma2.it Uno dei principali limiti della media aritmetica e che essa risente fortemente dei valori estremi della distribuzione. Cosi pu accadere che
DettagliIL NUOVO MODELLO PER LA PREVISIONE POLLINICA. Stefano Marchesi Direzione Tecnica Centro Tematico Regionale Ambiente Salute
IL NUOVO MODELLO PER LA PREVISIONE POLLINICA Stefano Marchesi Direzione Tecnica Centro Tematico Regionale Ambiente Salute La presenza del polline in atmosfera concentrazione pollinica [numero di granuli/mc
Dettagli1 Esercizi di Matlab. L operatore : permette di estrarre sottomatrici da una matrice assegnata. Vediamo alcuni esempi.
Esercizi di Matlab L operatore : permette di estrarre sottomatrici da una matrice assegnata. Vediamo alcuni esempi. Esempio Consideriamo la matrice A formata da n = righe e m = colonne M = 5 6 7 8. 9 0
DettagliMATLAB Elementi di grafica Costrutti di programmazione
MATLAB Elementi di grafica Costrutti di programmazione Operazioni punto Le operazioni punto agiscono su array che abbiano le stesse dimensioni:.* prodotto elemento per elemento./ divisione elemento per
DettagliCriteri di Valutazione della scheda (solo a carattere indicativo)
Criteri di Valutazione della scheda (solo a carattere indicativo) Previsioni - A Sono state fatte le previsioni e discussi i valori attesi insieme al ragionamento con cui sono stati calcolati? E stata
DettagliClassificazione Validazione Decision Tree & kmeans. Renato Mainetti
Classificazione Validazione Decision Tree & kmeans Renato Mainetti Apprendimento Supervisionato e Non Supervisionato: forniamo input e output Non supervisionato: forniamo solo input 2 Apprendimento Supervisionato
DettagliCAPITOLO 11 ANALISI DI REGRESSIONE
VERO FALSO CAPITOLO 11 ANALISI DI REGRESSIONE 1. V F Se c è una relazione deterministica tra due variabili,x e y, ogni valore dato di x,determinerà un unico valore di y. 2. V F Quando si cerca di scoprire
Dettagli3.1 Classificazione dei fenomeni statistici Questionari e scale di modalità Classificazione delle scale di modalità 17
C L Autore Ringraziamenti dell Editore Elenco dei simboli e delle abbreviazioni in ordine di apparizione XI XI XIII 1 Introduzione 1 FAQ e qualcos altro, da leggere prima 1.1 Questo è un libro di Statistica
DettagliFINANCIAL ECONOMETRICS AND EMPIRICAL FINANCE - MODULE 2. (8448) 70 minuti. Cognome Nome Matricola
FINANCIAL ECONOMETRICS AND EMPIRICAL FINANCE - MODULE 2 (8448) 70 minuti Cognome Nome Matricola Rispondi alle seguenti domande scegliendo la/e risposta/e che ritieni più appropriata/e. Per ogni domanda
DettagliLa regressione lineare multipla
13 La regressione lineare multipla Introduzione 2 13.1 Il modello di regressione multipla 2 13.2 L analisi dei residui nel modello di regressione multipla 9 13.3 Il test per la verifica della significatività
DettagliCurricolo Verticale Scuola Secondaria di I Grado I. C. S. Via Libertà San Donato Milanese (MI) CLASSE PRIMA
CLASSE PRIMA TRAGUARDI per lo sviluppo delle competenze OBIETTIVI CONTENUTI al termine della classe 3 a Comprendere il significato logico dei numeri nell insieme N e rappresentarli sulla retta orientata.
DettagliEsercizi su distribuzioni doppie, dipendenza, correlazione e regressione (Statistica I, IV Canale)
Esercizi su distribuzioni doppie, dipendenza, correlazione e regressione (Statistica I, IV Canale) Esercizio 1: Un indagine su 10.000 famiglie ha dato luogo, fra le altre, alle osservazioni riportate nella
DettagliAnalisi della varianza (anova) a due vie: parcelle di diverse dimensioni
Analisi della varianza (anova) a due vie: parcelle di diverse dimensioni Andrea Onofri 31 gennaio 2012 Indice 1 Motivazioni dei disegni a split-plot 1 2 Calcolo dell ANOVA a split-plot 4 2.1 SED, confronti
Dettagli