HR analyics. Analisi con le CP e analisi predittiva
|
|
- Antonino Ranieri
- 4 anni fa
- Visualizzazioni
Transcript
1 HR analyics Analisi con le CP e analisi predittiva SQG file:///g:/il%20mio%20drive/2%20corsi/3%20sqg/labs/l10-hr_predictive.html#(1) 1/24
2 Dati Human Resources (HR) In questa esercitazione viene analizzato un set di dati su dipendenti di un azienda. L obiettivo è capire perché i dipendenti lasciano l azienda e, si spera, escogitare una strategia per mantenere i migliori. library(ggplot2) library(ggfortify) file:///g:/il%20mio%20drive/2%20corsi/3%20sqg/labs/l10-hr_predictive.html#(1) 2/24
3 Caricare i dati HR=read.csv(" str(hr) ## 'data.frame': obs. of 10 variables: ## $ satisfaction_level : num ## $ last_evaluation : num ## $ number_project : int ## $ average_montly_hours : int ## $ time_spend_company : int ## $ Work_accident : int ## $ left : int ## $ promotion_last_5years: int ## $ Department : Factor w/ 10 levels "accounting","hr",..: ## $ salary : Factor w/ 3 levels "high","low","medium": file:///g:/il%20mio%20drive/2%20corsi/3%20sqg/labs/l10-hr_predictive.html#(1) 3/24
4 Trasforma le variabili left (il nostro obiettivo), work accident e promotion last 5years in factor HR$left=factor(HR$left,levels=c(0,1),labels=c("No","Yes")) HR$Work_accident=factor(HR$Work_accident,levels=c(0,1),labels=c("No","Yes")) HR$promotion_last_5years=factor(HR$promotion_last_5years,levels=c(0,1),labels=c("No","Yes")) str(hr) ## 'data.frame': obs. of 10 variables: ## $ satisfaction_level : num ## $ last_evaluation : num ## $ number_project : int ## $ average_montly_hours : int ## $ time_spend_company : int ## $ Work_accident : Factor w/ 2 levels "No","Yes": ## $ left : Factor w/ 2 levels "No","Yes": ## $ promotion_last_5years: Factor w/ 2 levels "No","Yes": ## $ Department : Factor w/ 10 levels "accounting","hr",..: ## $ salary : Factor w/ 3 levels "high","low","medium": file:///g:/il%20mio%20drive/2%20corsi/3%20sqg/labs/l10-hr_predictive.html#(1) 4/24
5 Una panoramica summary(hr) table(hr$left,hr$promotion_last_5years) table(hr$left,hr$work_accident) 3571 (23.81%) hanno lasciato la compagnia 2169 (14.46%) hanno avuto un infortunio 169 di quelli che hanno avuto un incidente hanno lasciato (7.79%) 319 (2.13%) hanno avuto una promozione negli ultimi 5 anni 19 di quelli che hanno avuto una promozione hanno lasciato (5.96%) file:///g:/il%20mio%20drive/2%20corsi/3%20sqg/labs/l10-hr_predictive.html#(1) 5/24
6 PCA Si esegua una PCA sulle variabili quantitative. L obiettivo è avere una visione generale della struttura dei dati. Le variabili qualitative non sono considerate. pca.hr=prcomp(hr[,c(1:5)],scale=true) summary(pca.hr) ## Importance of components: ## PC1 PC2 PC3 PC4 PC5 ## Standard deviation ## Proportion of Variance ## Cumulative Proportion file:///g:/il%20mio%20drive/2%20corsi/3%20sqg/labs/l10-hr_predictive.html#(1) 6/24
7 Loadings delle prime 3 CP pca.hr$rotation[,1:3] ## PC1 PC2 PC3 ## satisfaction_level ## last_evaluation ## number_project ## average_montly_hours ## time_spend_company PC1 Potrebbe essere definita impegno. Essenzialmente una media delle variabili che indicano il coinvolgimento del dipendente nelle varie attività. PC2 principalmente legata al livello di soddisfazione. file:///g:/il%20mio%20drive/2%20corsi/3%20sqg/labs/l10-hr_predictive.html#(1) 7/24
8 Biplot autoplot(pca.hr,shape = FALSE, data=hr,colour="left",label=true,label.size = 1, loadings = TRUE, loadings.colour = 'blue',loadings.label = TRUE, loadings.label.size = 4,loadings.label.colour="blue") file:///g:/il%20mio%20drive/2%20corsi/3%20sqg/labs/l10-hr_predictive.html#(1) 8/24
9 Analisi PCA È interessante notare che ci sono tre gruppi principali di dipendenti che hanno lasciato l azienda (si ricordi che satisfaction level ha un coefficiente negativo in PC1): gruppo A (in basso a sinistra), che identifica i dipendenti con alti livelli di ore trascorse in azienda, punteggio elevato raggiunto nell ultima valutazione e molti progetti assegnati; gruppo B (in alto a sinistra), caratterizzato da bassi livelli di soddisfazione e alti livelli di ore trascorse in azienda; gruppo C (a destra), riguardante i soggetti con ore mensili più basse, bassi livelli nell ultima valutazione e progetti assegnati. file:///g:/il%20mio%20drive/2%20corsi/3%20sqg/labs/l10-hr_predictive.html#(1) 9/24
10 Gruppo A Costituito da soggetti che hanno deciso di lasciare il posto di lavoro pur avendo ottenuto valutazioni elevate. Questa decisione potrebbe essere motivata dal carico di lavoro eccessivo a cui questi dipendenti sono sottoposti; infatti sia il numero di progetti che le ore trascorse in azienda sono elevati. Questi sono dipendenti che l azienda vorrebbe mantenere Potrebbero essere offerte una riduzione del carico di lavoro (ore medie mensili e numero di progetti), che sembrano avere un livello soglia oltre il quale il dipendente lascerà In alternativa, potrebbero essere offerti incentivi monetari o non monetari. file:///g:/il%20mio%20drive/2%20corsi/3%20sqg/labs/l10-hr_predictive.html#(1) 10/24
11 Gruppo B Simili a quelli del gruppo A possono essere classificati come lavoratori altamente performanti; tuttavia, sembrano meno soddisfatti della posizione lavorativa ricoperta. Essendo lavoratori produttivi, la loro perdita sarebbe dannosa per l azienda. Dall analisi grafica possiamo notare che all interno del gruppo B è possibile isolare un sottogruppo estremo (identificato nella parte più a sinistra), che sembra aver superato un valore di soglia per le ore medie mensili delle variabili e il numero di progetti. Pertanto, gli incentivi monetari o non monetari potrebbero essere inefficaci; l intervento diretto sul carico di lavoro sembra obbligatorio in questo caso. file:///g:/il%20mio%20drive/2%20corsi/3%20sqg/labs/l10-hr_predictive.html#(1) 11/24
12 Gruppo C Dipendenti poco performanti e con bassi livelli legati all ultima valutazione. file:///g:/il%20mio%20drive/2%20corsi/3%20sqg/labs/l10-hr_predictive.html#(1) 12/24
13 Analisi predittiva Proviamo a costruire dei modelli per l analisi e la previsione. Per la validazione dei modelli spezziamo il data set in training e test (validation set approach) Selezionare 9000 unità come set training. Le restanti 6000 verranno utilizzate per la convalida (set di test) set.seed(2) train=sample(nrow(hr), 9000) HR.train=HR[train,] HR.test=HR[-train,] file:///g:/il%20mio%20drive/2%20corsi/3%20sqg/labs/l10-hr_predictive.html#(1) 13/24
14 Modello di regressione logistica glm.fit<-glm(left~.,family=binomial,data=hr.train) summary(glm.fit) ## ## Call: ## glm(formula = left ~., family = binomial, data = HR.train) ## ## Deviance Residuals: ## Min 1Q Median 3Q Max ## ## ## Coefficients: ## Estimate Std. Error z value Pr(> z ) ## (Intercept) e-09 *** ## satisfaction_level < 2e-16 *** ## last_evaluation e-05 *** ## number_project < 2e-16 *** ## average_montly_hours e-10 *** ## time_spend_company < 2e-16 *** ## Work_accidentYes < 2e-16 *** ## promotion_last_5yearsyes e-06 *** ## Departmenthr ## DepartmentIT ## Departmentmanagement ## Departmentmarketing ## Departmentproduct_mng ## DepartmentRandD ** ## Departmentsales ## Departmentsupport ## Departmenttechnical ## salarylow < 2e-16 *** ## salarymedium < 2e-16 *** ## --- ## Signif. codes: 0 '***' '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 ## ## (Dispersion parameter for binomial family taken to be 1) ## ## Null deviance: on 8999 degrees of freedom ## Residual deviance: on 8981 degrees of freedom ## AIC: ## ## Number of Fisher Scoring iterations: 5 file:///g:/il%20mio%20drive/2%20corsi/3%20sqg/labs/l10-hr_predictive.html#(1) 14/24
15 Tavola di classificazione sui dati test #Predict probaility for test data Pred.Pr.glm<- predict(glm.fit,hr.test,type="response") #Predict the class "no" "yes" for test data Pred.Class.test<-rep("No",nrow(HR.test)) Pred.Class.test[Pred.Pr.glm>0.5]="Yes" #Build the classification table addmargins(table(hr.test$left,pred.class.test)) ## Pred.Class.test ## No Yes Sum ## No ## Yes ## Sum Errore test 0.21 Sensitivita 0.38 Specificita 0.92 file:///g:/il%20mio%20drive/2%20corsi/3%20sqg/labs/l10-hr_predictive.html#(1) 15/24
16 Curva ROC sui dati test #create prediction and performance objects pred.glm <- prediction(pred.pr.glm, HR.test$left) perf.glm <- performance(pred.glm, measure = "tpr", x.measure = "fpr") #plot ROC plot(perf.glm,colorize=true,lwd=4,main="roc Logistic model") # AUC Auc=performance(pred.glm, measure = "auc",fpr.stop=0.5) Auc@y.values[[1]][1] ## [1] file:///g:/il%20mio%20drive/2%20corsi/3%20sqg/labs/l10-hr_predictive.html#(1) 16/24
17 Un albero di classificazione tree.fit<-tree(left~.,hr.train) plot(tree.fit,lwd=3) text(tree.fit,pretty=0,col="blue",cex=1.5) file:///g:/il%20mio%20drive/2%20corsi/3%20sqg/labs/l10-hr_predictive.html#(1) 17/24
18 Validazione dell albero # predict probabilities Pred.Pr.tree<-round(predict(tree.fit,HR.test),digits=4) # predict the class Pred.Class.tree<-predict(tree.fit,HR.test,type="class") # Classification table addmargins(table(hr.test$left,pred.class.tree)) ## Pred.Class.tree ## No Yes Sum ## No ## Yes ## Sum Errore test 0.03 Sensitivita 0.91 Specificita 0.99 file:///g:/il%20mio%20drive/2%20corsi/3%20sqg/labs/l10-hr_predictive.html#(1) 18/24
19 Curva ROC (dati test) # ROC pred.tree <- prediction(pred.pr.tree[,2], HR.test$left) perf.tree <- performance(pred.tree, measure = "tpr", x.measure = "fpr") plot(perf.tree,colorize=true,lwd=4,main="roc Classification tree") #AUC Auc=performance(pred.tree, measure = "auc",fpr.stop=0.5) Auc@y.values[[1]][1] ## [1] file:///g:/il%20mio%20drive/2%20corsi/3%20sqg/labs/l10-hr_predictive.html#(1) 19/24
20 Random Forest rf.fit<-randomforest(left~.,hr.train,mtray=3,importance=true,ntree=1000) rf.fit ## ## Call: ## randomforest(formula = left ~., data = HR.train, mtray = 3, importance = TRUE, ## Type of random forest: classification ## Number of trees: 1000 ## No. of variables tried at each split: 3 ## ## OOB estimate of error rate: 1.17% ## Confusion matrix: ## No Yes class.error ## No ## Yes file:///g:/il%20mio%20drive/2%20corsi/3%20sqg/labs/l10-hr_predictive.html#(1) 20/24
21 Importance plot varimpplot(rf.fit,lwd=2,pch=19,cex=1.5,col="blue") file:///g:/il%20mio%20drive/2%20corsi/3%20sqg/labs/l10-hr_predictive.html#(1) 21/24
22 Validazione sul test set # Predict probabilities Pred.Pr.rf<-predict(rf.fit,HR.test,type="prob") # Predict class Pred.Class.rf<-predict(rf.fit,HR.test) # Classification table addmargins(table(hr.test$left,pred.class.rf)) ## Pred.Class.rf ## No Yes Sum ## No ## Yes ## Sum Errore test Sensitivita Specificita file:///g:/il%20mio%20drive/2%20corsi/3%20sqg/labs/l10-hr_predictive.html#(1) 22/24
23 Curva ROC e AUC # ROC pred.rf <- prediction(pred.pr.rf[,2],hr.test$left) perf.rf <- performance(pred.rf, measure = "tpr", x.measure = "fpr") plot(perf.rf,colorize=true,lwd=4,main="roc Random Forest") #AUC Auc=performance(pred.rf, measure = "auc",fpr.stop=0.5) Auc@y.values[[1]][1] ## [1] file:///g:/il%20mio%20drive/2%20corsi/3%20sqg/labs/l10-hr_predictive.html#(1) 23/24
24 Curve ROC - tutti i modelli plot(perf.glm, col="blue",lwd=4, main=" ROC Curves") plot(perf.tree, col="red",lwd=4,add=true) plot(perf.rf, col="green",lwd=4,add=true) legend(0.6,0.6,c('logistic','tree',"random Forest"), col=c('blue','red',"green"),lwd=4) file:///g:/il%20mio%20drive/2%20corsi/3%20sqg/labs/l10-hr_predictive.html#(1) 24/24
Analisi discriminante in R. Strumenti quantitativi per la gestione
Analisi discriminante in R Strumenti quantitativi per la gestione Emanuele Taufer file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/labs/l4-lda.html#(1) 1/25 Default data Carichiamo il
DettagliQuiz di verifica - Alberi e FC Strumenti Quantitativi per la gestione
Quiz di verifica - Alberi e FC Strumenti Quantitativi per la gestione Le domande 1-6 si riferiscono al seguente problema Un data set contiene i dati sui consumi di diversi tipi di automobili e alcune loro
DettagliFallstudium 8 - Soluzioni Dr Giorgio Pioda 15 gennaio 2019
Fallstudium 8 - Soluzioni Dr Giorgio Pioda 15 gennaio 2019 Regressione logistica La regressione logistica è molto utile per valutare l impatto di descrittori (x) scalari o categoriali sulla probabilità
DettagliCereal data- analisi con gli alberi di classificazione
Cereal data- analisi con gli alberi di classificazione Emanuele Taufer file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/labs/l8-cereal-tree.html#(1) 1/32 Cereal.dat Per migliorare la commercializzazione
DettagliI modelli lineari generalizzati: il modello di Poisson
I modelli lineari generalizzati: il modello di Poisson Massimo Borelli May 13, 2014 Massimo Borelli () I modelli lineari generalizzati: il modello di Poisson May 13, 2014 1 / 15 Contenuti 1 Motivazioni
DettagliValidazione dei modelli. Strumenti quantitativi per la gestione
Validazione dei modelli Strumenti quantitativi per la gestione Emanuele Taufer file:///g:/il%20mio%20drive/2%20corsi/3%20sqg/labs/l5-validazione.html#(1) 1/27 Validazione dei modelli In questo esempio
DettagliBagging e Foreste Casuali con R
Bagging e Foreste Casuali con R Emanuele Taufer file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/labs/l8-bagging-fc.html#(10) 1/10 Bagging e Foreste casuali con R Utilizziamo ancora una
DettagliIntroduzione alla Regressione Logistica
Introduzione alla Regressione Logistica Contenuto regressione lineare semplice e multipla regressione logistica lineare semplice La funzione logistica Stima dei parametri Interpretazione dei coefficienti
DettagliStatistiche di sintesi
Esercizio 2 E stato condotto uno studio per valutare la variazione della pressione sistolica in funzione dell etá. I dati sono riportati nel file sbp.xls. Effettua un analisi di regressione e disegna gli
DettagliAnova e regressione. Andrea Onofri Dipartimento di Scienze Agrarie ed Ambientali Universitá degli Studi di Perugia 22 marzo 2011
Anova e regressione Andrea Onofri Dipartimento di Scienze Agrarie ed Ambientali Universitá degli Studi di Perugia 22 marzo 2011 Nella sperimentazione agronomica e biologica in genere è normale organizzare
DettagliESERCITAZIONE C. Analisi di dati sperimentali PARTE 3: REGRESIONE
Università degli Studi di Padova Facoltà di Scienze MM.FF.NN. Corso di Laurea Magistrale: Biologia Sanitaria/Biologia Molecolare Insegnamento: Statistica Applicata Docente: Prof.ssa Alessandra R. Brazzale
DettagliRegressione. Monica Marabelli. 15 Gennaio 2016
Regressione Monica Marabelli 15 Gennaio 2016 La regressione L analisi di regressione é una tecnica statistica che serve a studiare la relazione tra variabili. In particolare, nel modello di regressione
DettagliAnalisi discriminante in R Strumenti quantitativi per la gestione
Analisi discriminante in R Strumenti quantitativi per la gestione Emanuele Taufer Default data LDA con R Output Plot Previsione Tabella di classificazione Cambiare il criterio di classificazione Costruire
DettagliValidazione dei modelli Strumenti quantitativi per la gestione
Validazione dei modelli Strumenti quantitativi per la gestione Emanuele Taufer Validazione dei modelli Il data set Auto I dati Il problema analizzato Validation set approach Diagramma a dispersione Test
DettagliRegressione logistica. Strumenti quantitativi per la gestione
Regressione logistica Strumenti quantitativi per la gestione Emanuele Taufer file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/classes/4a_rlg.html#(22) 1/28 Metodi di classificazione I
DettagliLaboratorio di Statistica Aziendale Modello di regressione lineare multipla
Laboratorio di Statistica Aziendale Modello di regressione lineare multipla Michela Pasetto michela.pasetto2@unibo.it Definizione del modello OLS (semplice) L obiettivo della regressione lineare è di valutare
DettagliLABORATORIO 5. ANALISI DELLA VARIANZA AD UN CRITERIO DI CLASSIFICAZIONE
LABORATORIO 5. ANALISI DELLA VARIANZA AD UN CRITERIO DI CLASSIFICAZIONE 5.1 ESEMPIO DI ANOVA AD UNA VIA In un esperimento un gruppo di bambini è stato assegnato a caso a 3 trattamenti, allo scopo di determinare
DettagliMetodi statistici per la ricerca sociale ANOVA e ANCOVA in
Metodi statistici per la ricerca sociale ANOVA e ANCOVA in Alessandra Mattei Dipartimento di Statistica, Informatica, Applicazioni (DiSIA) Università degli Studi di Firenze mattei@disia.unifi.it LM 88
DettagliAnalisi grafica residui in R. Da output grafico analisi regressionelm1.csv Vedi dispensa. peso-statura
Analisi grafica residui in R Da output grafico analisi regressionelm1.csv Vedi dispensa peso-statura 1) Il plot in alto a sinistra mostra gli errori residui contro i loro valori stimati. I residui devono
Dettagli0.1 Percorrenza e Cilindrata
0.1 Percorrenza e Cilindrata Iniziamo ora un analisi leggermente più complessa basata sempre sui concetti appena introdotti. Innanzi tutto possiamo osservare, dal grafico ottenuto con il comando pairs,
DettagliLABORATORIO DI PROBABILITA E STATISTICA
UNIVERSITA DEGLI STUDI DI VERONA LABORATORIO DI PROBABILITA E STATISTICA Docente: Bruno Gobbi 6 ESERCIZI RIEPILOGATIVI PRIME 3 LEZIONI REGRESSIONE LINEARE: SPORT - COLESTEROLO ESERCIZIO 8: La tabella seguente
DettagliModelli con predittori qualitativi e modelli con interazioni. Strumenti quantitativi per la gestione
Modelli con predittori qualitativi e modelli con interazioni Strumenti quantitativi per la gestione Emanuele Taufer file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/3d_viq.html#(1) 1/26 Utilizzare
DettagliEsercitazione finale - corso R base Francesco Vidoli Ottobre 2018
Esercitazione finale - corso R base Francesco Vidoli Ottobre 2018 Passo 1: Leggere il file di input (il file si trova a questo indirizzo: https://fvidoli.weebly.com/uploads/2/3/0/8/ 23088460/dati_medici.csv),
DettagliClassificazione k-nn con R. Strumenti quantitativi per la gestione
Classificazione k-nn con R Strumenti quantitativi per la gestione Emanuele Taufer file:///g:/il%20mio%20drive/2%20corsi/3%20sqg/labs/l1-knn.html#(1) 1/16 Altezza e peso degli adulti Le statistiche sull
DettagliAlberi di decisione con R
Alberi di decisione con R Emanuele Taufer file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/labs/l8-alberi_di_decisione.html#(1) 1/14 Implementare gli alberi decisionali con R Per adattare
DettagliIl modello di regressione (VEDI CAP 12 VOLUME IEZZI, 2009)
Il modello di regressione (VEDI CAP 12 VOLUME IEZZI, 2009) Quesito: Posso stimare il numero di ore passate a studiare statistica sul voto conseguito all esame? Potrei calcolare il coefficiente di correlazione.
DettagliAntonella Bodini Istituto di Matematica Applicata e Tecnologie Informatiche E. Magenes del CNR
Antonella Bodini Istituto di Matematica Applicata e Tecnologie Informatiche E. Magenes del CNR Materiale ad uso dei ricercatori che hanno seguito il corso di formazione interna in Statistica, edizione
DettagliModelli con predittori qualitativi e modelli con interazioni
Modelli con predittori qualitativi e modelli con interazioni Strumenti quantitativi per la gestione Emanuele Taufer Utilizzare variabili indipendenti qualitative (VIQ) Codifica binaria 0,1 Esempio: salari
DettagliSelezione del modello Strumenti quantitativi per la gestione
Selezione del modello Strumenti quantitativi per la gestione Emanuele Taufer Migliorare il modello di regressione lineare (RL) Metodi Selezione Best subset Selezione stepwise Stepwise forward Stepwise
DettagliMulticollinearità. Strumenti quantitativi per la gestione
Multicollinearità Strumenti quantitativi per la gestione Emanuele Taufer file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/3c_mc.html#(1) 1/13 Quando non tutto va come dovrebbe Si parla di multi-collinearità
DettagliRegressione lineare multipla Strumenti quantitativi per la gestione
Regressione lineare multipla Strumenti quantitativi per la gestione Emanuele Taufer Regressione lineare multipla (RLM) Esempio: RLM con due predittori Stima dei coefficienti e previsione Advertising data
DettagliRegressione con componenti principali (PCR) Strumenti quantitativi per la gestione
Regressione con componenti principali (PCR) Strumenti quantitativi per la gestione Emanuele Taufer Dati Hitters Eliminare le righe con dati mancanti PCR Variabili nell oggetto creato da pcr() Coefficienti
DettagliMetodi di regressione multivariata
Metodi di regressione multivariata Modellamento dei dati per risposte quantitative I metodi di regressione multivariata sono strumenti utilizzati per ricercare relazioni funzionali quantitative tra un
DettagliQuiz di verifica Classificazione
Quiz di verifica Classificazione Strumenti Quantitativi per la gestione Le domande 1 4 si riferiscono al seguente problema: Supponiamo di raccogliere dati per un gruppo di studenti della classe di SQG
DettagliEsercizio 1 GRAFICO 1. X e Y sono indipendenti. X e Y non sono correlate. La correlazione tra X e Y è <1. X e Y sono perfettamente correlate
Esercizio 1 Osservare il grafico 1 riportato in figura che mette in relazione una variabile dipendente Y ed una variabile indipendente X e rispondere alle seguenti domande. 400 300 200 GRAFICO 1 100 0
DettagliEsercizio Dire quale variabile debba essere usata come regressore e quale sia la variabile risposta.
Esercizio 1 Il file elettr.txt contiene dei dati sui consumi in miliardi di kilowatt/ora (eleccons) e sul prodotto interno lordo in miliardi di dollari (gdp) su 30 paesi in un determinato anno. Il prodotto
DettagliAnalisi delle CP. Dati USArrests
Analisi delle CP Dati USArrests Emanuele Taufer file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/labs/l10-pca-usarrests.html#(1) 1/12 Dati USArrests Per ciascuno dei 50 stati degli USA,
Dettagli1. ISTOGRAMMI E GRAFICI DI ALCUNE DENSITA (COMPLEMENTO ALLA LEZIONE PRECEDENTE)
1. ISTOGRAMMI E GRAFICI DI ALCUNE DENSITA (COMPLEMENTO ALLA LEZIONE PRECEDENTE) Riprendiamo l esempio X = seq(-5,5,0.01) Y= dnorm(x) plot(x,y) Si poteva automatizzare la scelta delle X ponendo: X=rnorm(1000)
DettagliProva scritta di Affidabilità dei sistemi e controllo statistico di qualità
Prova scritta di Affidabilità dei sistemi e controllo statistico di qualità 1. a) La funzione di affidabilità è: Soluzioni 28 Gennaio 2016 = = 4. b) La probabilità che il sistema si guasti tra 0.4 e 1.4
DettagliSiete invitati a cambiare un po di parametri dell esercizio (es. aumentare Nrow; diminuire sig2; diminuire i coefficienti di X3 ed X4).
1. ALLINEAMENTO DI FATTORI, ESEMPI SINTETICI Esercizio. Creare una tabella con dati sintetici in cui sia percepibile il fenomeno dell allineamento ed esaminare le sue conseguenze. Consideriamo il modello
DettagliAncova: il modello lineare in generale
Ancova: il modello lineare in generale Massimo Borelli May 9, 2014 Massimo Borelli () Ancova: il modello lineare in generale May 9, 2014 1 / 18 Contenuti 1 L analisi della covarianza la notazione di Wilkinson
DettagliANOVA 2. Monica Marabelli. 15 Gennaio 2016
ANOVA 2 Monica Marabelli 15 Gennaio 2016 ANOVA a una via Nella scorsa esercitazione abbiamo visto che nell Analisi della Varianza (ANOVA) si considerano le medie di una variabile dipendente (quantitativa)
DettagliLaboratorio R Corso di Algebra e Modelli lineari (Anno Accademico )
Laboratorio R Corso di Algebra e Modelli lineari (Anno Accademico 05-6) REGRESSIONE LINEARE SEMPLICE OPEN STATISTICA 8.44 Per 8 settimanali, appartenenti alla medesima fascia di prezzo e presenti in edicola
DettagliLuigi Santoro. Hyperphar Group S.p.A., MIlano
Come modellare il rischio Luigi Santoro Hyperphar Group S.p.A., MIlano Gli argomenti discussi Le definizioni del termine rischio L utilità di un modello predittivo di rischio Come costruire modelli predittivi
DettagliAnalisi esplorativa dei dati - Iris data set Emanuele Taufer
Analisi esplorativa dei dati - Iris data set Emanuele Taufer Contents Iris flower data............................................... 1 Iris Setosa.................................................. 1 Iris
DettagliRegressione lineare semplice. Strumenti quantitativi per la gestione
Regressione lineare semplice Strumenti quantitativi per la gestione Emanuele Taufer file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/3a_rls.html#(1) 1/33 Regressione lineare (RL) La RL è uno degli
DettagliStima della qualità dei classificatori per l analisi dei dati biomolecolari
Stima della qualità dei classificatori per l analisi dei dati biomolecolari Giorgio Valentini e-mail: valentini@dsi.unimi.it Rischio atteso e rischio empirico L` apprendimento di una funzione non nota
DettagliMultiple Logistic Regression
Multiple Logistic Regression f(- ) Logistic function ( ) + e 0 + e /2 0 f( + ) (+ ) + e + e +. ก. ก Fitting Multiple Logistic Regression ก (Outcome, Dependent, Response) discrete (two
DettagliPer opportuna conoscenza, si trasmette, in una alla presente, file
GRANTS FOR UNIVERSITY OF WESTERN SICILY Direzione Protocollo n. 27454 Nota inviata esclusivamente via e-mail Palermo, 19/ /12/2018 Ai Sigg.ri Dirigenti dirigenti.tutti@ersupalermo.gov.it Alla UOB 1 Concorsi
DettagliProva scritta di Statistica Applicata alle Decisioni Aziendali Prof.ssa Conigliani -...
Prova scritta di Statistica Applicata alle Decisioni Aziendali Prof.ssa Conigliani -... COGNOME:............................................................ NOME:.....................................................................
DettagliSimulazione della prova scritta di Statistica Applicata alle Decisioni Aziendali - Prof.ssa Conigliani
Attenzione: da questi compiti sono stati rimossi gli esercizi che riguardano argomenti che dall a.a. 2015-2016 non sono piu in programma, come ad esempio il campionamento da popolazioni finite Simulazione
Dettagli> d = alimentazione == "benz" > mean(percorr.urbana[!d]) - mean(percorr.urbana[d]) [1] 2.385627. > sd(percorr.urbana[d]) [1] 2.
A questo punto vale la pena di soffermarci di più sull alimentazione. Intanto cerchiamo di indagare se l alimentazione è davvero un fattore significativo per la percorrenza come è luogo comune pensare.
DettagliVARIETÀ. zona geografica A B C D
Anova a 2 vie con repliche (( chiarire che non devono essere esattamente nello stesso numero per ogni cella ovvero per le ripetizioni dei de fattori ma che excel li legge così) Esercizio-esempio 1 Il valore
DettagliAnalisi Discriminante Strumenti quantitativi per la gestione
Analisi Discriminante Strumenti quantitativi per la gestione Emanuele Taufer Un esempio introduttivo Approccio con Bayes Perchè un altro metodo di classificazione? Classificazione con Bayes Analisi discriminante
DettagliVariabili socioeconomiche e demografiche del voto per Brexit Tendenze territoriali
Variabili socioeconomiche e demografiche del voto per Brexit Tendenze territoriali XIV Convegno Italiano degli Utenti di Stata Firenze 16 Novembre 2017 Dr. Leonardo S. Alaimo I risultati del referendum
DettagliANOVA 2. Silvia Parolo. January 16, 2015
ANOVA 2 Silvia Parolo January 16, 2015 Verifica degli assunti normalità dei residui entro gruppi omoschedasticità dei residui entro gruppi indipendenza dei residui entro gruppi Esempio è stato condotto
DettagliValutazione delle Prestazioni di un Classificatore. Performance Evaluation
Valutazione delle Prestazioni di un Classificatore Performance Evaluation Valutazione delle Prestazioni Una volta appreso un classificatore è di fondamentale importanza valutarne le prestazioni La valutazione
DettagliLABORATORIO DI PROBABILITA E STATISTICA
UNIVERSITA DEGLI STUDI DI VERONA LABORATORIO DI PROBABILITA E STATISTICA Docente: Bruno Gobbi Corso di laurea in Informatica e Bioinformatica 4 ESERCIZI RIEPILOGATIVI PRIME 3 LEZIONI 1 - STATISTICA DESCRITTIVA
DettagliAnalisi Discriminante. Strumenti quantitativi per la gestione
Analisi Discriminante Strumenti quantitativi per la gestione Emanuele Taufer file:///g:/il%20mio%20drive/2%20corsi/3%20sqg/classes/4-2_ad.html#(33) 1/39 AD Tecnica di classificazione che sfrutta combinazioni
DettagliAnalisi della varianza a due fattori
Laboratorio 11 Analisi della varianza a due fattori 11.1 Analisi del dataset PENICILLIN.DAT I dati contenuti nel file penicillin.dat, si riferiscono ad un esperimento di produzione di penicillina tendente
DettagliRegressione lineare semplice
Regressione lineare semplice Strumenti quantitativi per la gestione Emanuele Taufer Regressione lineare (RL) La regressione lineare per i dati Advertising Analisi d interesse Regressione lineare semplice
DettagliCAPITOLO 3 Esperimenti con un singolo fattore: l Analisi della Varianza
Douglas C. Montgomery Progettazione e analisi degli esperimenti 006 McGraw-Hill CAPITOLO 3 Esperimenti con un singolo fattore: l Analisi della Varianza Metodi statistici e probabilistici per l ingegneria
DettagliLaboratorio R Corso di Algebra e Modelli lineari (Anno Accademico 2011-12)
Laboratorio R Corso di Algebra e Modelli lineari (Anno Accademico 011-1) REGRESSIONE LINEARE SEMPLICE OPEN STATISTICA 8.44 Per 8 settimanali, appartenenti alla medesima fascia di prezzo e presenti in edicola
DettagliIl BOOM degli ascolti dei programmi culinari. ha inciso sulle iscrizioni all istituto alberghiero???
Il BOOM degli ascolti dei programmi culinari ha inciso sulle iscrizioni all istituto alberghiero??? 60000 50000 40000 30000 20000 10000 0 2007 2008 2009 2010 2011 2012 2013 2014 gli ingredienti sono: Anno
DettagliEstratto dal Cap. 8 di: Statistics for Marketing and Consumer Research, M. Mazzocchi, ed. SAGE, 2008.
LEZIONI IN LABORATORIO Corso di MARKETING L. Baldi Università degli Studi di Milano BIVARIATE AND MULTIPLE REGRESSION Estratto dal Cap. 8 di: Statistics for Marketing and Consumer Research, M. Mazzocchi,
DettagliModelli non lineari e cross validazione. Strumenti quantitativi per la gestione
Modelli non lineari e cross validazione Strumenti quantitativi per la gestione Emanuele Taufer file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/labs/l3-temperature_max.html#(24) 1/28 Metodi
DettagliModelli non lineari. Strumenti quantitativi per la gestione
Modelli non lineari Strumenti quantitativi per la gestione Emanuele Taufer file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/7_gam.html#(5) 1/54 Metodi per affrontare problemi nonlineari Regressione
DettagliUNIVERSITA DEGLI STUDI DI PADOVA FACOLTA DI SCIENZE STATISTICHE CORSO DI LAUREA IN STATISTICA E TECNOLOGIA INFORMATICA
UNIVERSITA DEGLI STUDI DI PADOVA FACOLTA DI SCIENZE STATISTICHE CORSO DI LAUREA IN STATISTICA E TECNOLOGIA INFORMATICA TESI DI LAUREA CONFRONTO TRA MODELLI STATISTICI NON PARAMETRICI :UNA APPLICAZIONE
DettagliEsercitazione Statistica Computazionale B Modelli di regressione lineare semplice Verifica di ipotesi - Analisi della varianza
Esercitazione Statistica Computazionale B Modelli di regressione lineare semplice Verifica di ipotesi - Analisi della varianza 3 maggio 2005 Esercizio 1 Consideriamo l esempio del libro di testo Annette
DettagliStima dei parametri di modelli lineari
Stima dei parametri di modelli lineari Indice Introduzione................................ 1 Il caso studio................................ 2 Stima dei parametri............................ 3 Bontà delle
DettagliPulse Sense: la matematica per l individuazione di anomalie in un tracciato elettrocardiografico
Pulse Sense: la matematica per l individuazione di anomalie in un tracciato elettrocardiografico Pasqualina Fragneto Quando i matematici non entrano in aula Trento 2017 1 AST Applied Math Team Che cosa
DettagliMetodi Quantitativi per Economia, Finanza e Management. Lezione n 8 Regressione lineare multipla: le ipotesi del modello, la stima del modello
Metodi Quantitativi per Economia, Finanza e Management Lezione n 8 Regressione lineare multipla: le ipotesi del modello, la stima del modello 1. Introduzione ai modelli di regressione 2. Obiettivi 3. Le
DettagliTECNICHE DI CLASSIFICAZIONE
TECNICHE DI CLASSIFICAZIONE La tecnica di classificazione più conosciuta è la cluster analysis, che ha l obiettivo di identificare gruppi di soggetti (o oggetti) omogenei al loro interno ed eterogenei
DettagliLivello di esposizione. animale Basso Moderato Alto
Esercizio -Esempio 1 (anova 2 vie con blocchi) I tassi respiratori (ispirazioni al minuto) sono stati misurati in otto animali usati per un esperimento, con tre livelli di esposizione al monossido di carbonio.
DettagliCAPITOLO 5 Introduzione ai piani fattoriali
Douglas C. Montgomery Progettazione e analisi degli esperimenti 2006 McGraw-Hill CAPITOLO 5 Introduzione ai piani fattoriali Metodi statistici e probabilistici per l ingegneria Corso di Laurea in Ingegneria
DettagliMetodi Statistici per il Management
Metodi Statistici per il Management Statistica Multivariata I Simone Borra - Roberto Rocci Introduzione e obiettivi La statistica multivariata si occupa di analizzare e studiare in modo simultaneo un set
DettagliStatistica multivariata Donata Rodi 21/11/2016
Statistica multivariata Donata Rodi 21/11/2016 PCA Tecnica di riduzione delle dimensioni che descrive la struttura multivariata dei dati per analisi descrittive e inferenziali Descrive la variazione di
DettagliINTRODUZIONE A R Lezione 4
INTRODUZIONE A R Lezione 4 Silvia Bacci e Silvia Pandolfi 1 La regressione lineare 1.1 Regressioni lineare semplice Per applicare il metodo di regressione lineare scegliamo il dataset cars relativo alle
DettagliValutazione di modelli
Valutazione di modelli venerdì, 03 Novembre 2006 Giuseppe Manco References: Chapter 3, Mitchell Chapters 4.5, 5.7, Tan, Steinbach, Kumar Underfitting, Overfitting 500 cerchi, 500 triangoli. Cerchi: 0.5
DettagliRiconoscimento e recupero dell informazione per bioinformatica
Riconoscimento e recupero dell informazione per bioinformatica Classificazione: validazione Manuele Bicego Corso di Laurea in Bioinformatica Dipartimento di Informatica - Università di Verona Introduzione
DettagliFallstudium 3 - Soluzioni Dr Giorgio Pioda 22 novembre 2018
Fallstudium 3 - Soluzioni Dr Giorgio Pioda 22 novembre 2018 Fallstudium 3 - Soluzioni Considerando i dati di misurazione della concentrazione di carbamazepina 1 nel sangue determinata con due apparecchi
DettagliModelli non lineari Strumenti quantitativi per la gestione
Modelli non lineari Strumenti quantitativi per la gestione Emanuele Taufer Metodi per affrontare problemi non lineari Regressione polinomiale Esempio: modellare i picchi di domanda di energia Fattori che
DettagliMulti classificatori. Prof. Matteo Golfarelli Alma Mater Studiorum - Università di Bologna
Multi classificatori Prof. Matteo Golfarelli Alma Mater Studiorum - Università di Bologna Combinazione di classificatori Idea: costruire più classificatori di base e predire la classe di appartenza di
DettagliFac-simile prova di esame
UNIVERSITÀ CA FOSCARI DI VENEZIA FACOLTÀ DI ECONOMIA Statistica Computazionale I Prof. Stefano Tonellato COGNOME.................................... NOME.................................... MATRICOLA....................................
DettagliBusiness Intelligence e CRM CLAMM G.Tassinari. Laboratorio Regressione Logistica. 24 Settembre 2014 S.Benigni
Business Intelligence e CRM CLAMM G.Tassinari Laboratorio Regressione Logistica 24 Settembre 2014 S.Benigni Obiettivo dell Analisi Individuare quali variabili possono incidere nella decisione di un impresa
DettagliRegressione logistica. Strumenti quantitativi per la gestione
Regressione logistica Strumenti quantitativi per la gestione Emanuele Taufer file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/4a_rlg.html#(1) 1/25 Metodi di classificazione I metodi usati per analizzare
DettagliREGRESSIONE lineare e CORRELAZIONE. Con variabili quantitative che si possono esprimere in un ampio ampio intervallo di valori
REGRESSIONE lineare e CORRELAZIONE Con variabili quantitative che si possono esprimere in un ampio ampio intervallo di valori Y X La NATURA e la FORZA della relazione tra variabili si studiano con la REGRESSIONE
DettagliEsercizio 8. Ne segue, ovviamente che le aree geografiche di riferimento sono Africa e America del Sud.
Esercizio 8 La Swiss Economic Research della Union Bank of Switzerland conduce un controllo periodico dei livelli dei prezzi e dei salari nella principali città del mondo. Una delle variabili rilevate
DettagliCORSO EDAMI LE UNIVERSITÀ AMERICANE
ORSO EMI LE UNIVERSITÀ MERINE Mario Romanazzi dicembre 06 Introduzione I dati di questo studio provengono dalla libreria del testo di riferimento del corso ata Mining for usiness Intelligence di G. Shmueli,
DettagliOLS multivariato: effetti parziali, multicollinearità
OLS multivariato: effetti parziali, multicollinearità CONCETTI DA RECUPERARE Per stimare questo modello utilizziamo le seguenti variabili esplicative educ, exper e tenure Primo passo da compiere sarà quello
DettagliSTATISTICA CORSO BASE. Prova scritta del Tempo: 2 ore Cognome e Nome:... Matricola:...
STATISTICA CORSO BASE. Prova scritta del 7-2-2013. Tempo: 2 ore Cognome e Nome:.............................. Matricola:.............................. Attenzione: Prima di affrontare la prova si consiglia
Dettaglistima per intervallo
stima per intervallo intervalli di fiducia confidence interval una affermazione come questa: CI(95%): lim inf < µ < lim sup p = 0.95 che la media della popolazione sia compresa nell intervallo fra lim
Dettagli6. Partial Least Squares (PLS)
& C. Di Natale: (PLS) Partial Least Squares PLS toolbox di MATLAB 1 Da PCR a PLS approccio geometrico Nella PCR la soluzione del problema della regressione passa attraverso la decomposizione della matrice
DettagliCorso di Laurea in Economia Aziendale. Docente: Marta Nai Ruscone. Statistica. a.a. 2015/2016
Corso di Laurea in Economia Aziendale Docente: Marta Nai Ruscone Statistica a.a. 2015/2016 1 Indici di posizione GLI INDICI DI POSIZIONE sono indici sintetici che evidenziano le caratteristiche essenziali
DettagliANALISI DELLA VARIANZA
ANALISI DELLA VARIANZA Il data set coagulation contenuto nella libreria faraway contiene i tempi di coagulazione del sangue (misurato in secondi) di 24 animali sottoposti casualmente a quattro tipi di
DettagliAnalisi della regressione
Analisi della regressione L analisi della regressioneè una tecnica statistica per modellare e investigare le relazioni tra due (o più) variabili. Nella tavola è riportata la % di purezza di ossigeno, rilasciata
DettagliEsperimenti longitudinali e misure ripetute. Massimo Borelli. Motivazioni. Un esempio tipicamente biotec. Anova sbagliate Anova r.m.
May 14, 2014 Contenuti 1 2 il peso delle gemelle: 1 misura > alice = 73.6 > ellen = 73.8 Le gemelle hanno lo stesso peso? Alice è laureata in matematica Ellen è laureata in statistica il peso delle gemelle:
DettagliPredizione della fibrosi epatica in bambini con steatosi epatica non alcolica. Giorgio Bedogni.
Predizione della fibrosi epatica in bambini con steatosi epatica non alcolica Giorgio Bedogni Problema È possibile predire in maniera non invasiva la presenza di fibrosi epatica in bambini con steatosi
DettagliIntroduzione a R. Silvia Parolo. 14 November 2014
Introduzione a R Silvia Parolo 14 November 2014 Cos è R?? è un tool per l analisi di dati è anche un linguaggio di programmazione si può scaricare da http: // www. r-project. org/ primi passi in R R può
DettagliRegressione logistica
Regressione logistica Strumenti quantitativi per la gestione Emanuele Taufer Metodi di classificazione Tecniche principali Alcuni esempi Data set Default I dati La regressione logistica Esempio Il modello
Dettagli