Cereal data- analisi con gli alberi di classificazione

Dimensione: px
Iniziare la visualizzazioe della pagina:

Download "Cereal data- analisi con gli alberi di classificazione"

Transcript

1 Cereal data- analisi con gli alberi di classificazione Emanuele Taufer file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/labs/l8-cereal-tree.html#(1) 1/32

2 Cereal.dat Per migliorare la commercializzazione dei propri prodotti per la prima colazione, una società interviste 880 persone, registrando la loro età, il sesso, lo stato civile e se hanno un stile di vita attivo (sulla base del fatto che essi praticano sport almeno due volte a settimana). Ogni partecipante assaggia 3 diversi prodotti per la colazione e indica quello che preferisce. file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/labs/l8-cereal-tree.html#(1) 2/32

3 Variabili BFAST : (Y) 1. se «Breakfast bar» 2. se «Oatmeal» 3 se «Cereal» AGECAT: «Under 31», «31-45», «46-60», «Over 60» GENDER: 1 se F, 0 se M ; MARITAL: 1 se sposato; 0 se no. ACTIVE: 1 se attivo ; 0 se no file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/labs/l8-cereal-tree.html#(1) 3/32

4 Caricare i dati Cereal<-read.table(" head(cereal) ## AGECAT GENDER MARITAL ACTIVE BFAST ## ## ## ## ## ## file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/labs/l8-cereal-tree.html#(1) 4/32

5 Codificare le variabili come factors Le variabili del dataset sono codificate numericamente. È necessario (e più facile per l interpretazione dei risultati) codificarle come factors e introdurre etichette per i livelli Cereal$BFAST=factor(Cereal$BFAST,levels=c(1,2,3), labels=c("bf-bar","oatmeal","cereal")) Cereal$AGECAT=factor(Cereal$AGECAT,levels=c(1,2,3,4), labels=c("under 31","[31-45]","[46-60]","Over 60")) Cereal$GENDER=factor(Cereal$GENDER,levels=c(0,1), labels=c("m","f")) Cereal$MARITAL=factor(Cereal$MARITAL,levels=c(0,1), labels=c("non sposato","sposato")) Cereal$ACTIVE=factor(Cereal$ACTIVE,levels=c(0,1), labels=c("no","yes")) str(cereal) ## 'data.frame': 880 obs. of 5 variables: ## $ AGECAT : Factor w/ 4 levels "Under 31","[31-45]",..: ## $ GENDER : Factor w/ 2 levels "M","F": ## $ MARITAL: Factor w/ 2 levels "Non sposato",..: ## $ ACTIVE : Factor w/ 2 levels "No","Yes": ## $ BFAST : Factor w/ 3 levels "BF-bar","Oatmeal",..: head(cereal) ## AGECAT GENDER MARITAL ACTIVE BFAST ## 1 Under 31 M Sposato Yes Cereal ## 2 [46-60] M Sposato No BF-bar ## 3 Over 60 M Sposato No Oatmeal ## 4 [31-45] F Sposato Yes Oatmeal ## 5 [46-60] M Sposato No Oatmeal ## 6 Over 60 M Sposato No Cereal file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/labs/l8-cereal-tree.html#(1) 5/32

6 Validation set approach Dividiamo le unità in due parti: training set e test set. Stimiamo l albero di classificazione utilizzando il training set, e valutiamo la sua performance usando il test set. Ci sono 880 unità nel data set, prendiamone 280 per il test set Il seguente codice seleziona, in modo casuale, 600 unità (la loro posizione) da tutto il set di dati set.seed(1) train=sample(nrow(cereal), 600) train[1:10] ## [1] Con gli indici ottenuti sopra possiamo suddividere i dati in due parti: Cereal.train=Cereal[train,] # take only units that correspond to train Cereal.test=Cereal[-train,] # take only units that DO NOT correspond to train file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/labs/l8-cereal-tree.html#(1) 6/32

7 Costruzione dell albero di classificazione Per adattare un albero di classificazione (o regressione) possiamo usare la funzione tree() dalla libreria tree. L input minimo è molto semplice poiché è sufficiente indicare l equazione di regressione (o classificazione) ed i dati. (analogo a quanto già imparato per la funzione lm()) library(tree) Cereal.tree<-tree(BFAST~.,data=Cereal.train) Nota: BFAST~. indica che BFAST è la variabile dipendente e il punto che tutte le altre variabili nel set di dati devono essere utilizzate come variabili indipendenti file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/labs/l8-cereal-tree.html#(1) 7/32

8 Summary L oggetto Cereal.tree contiene i risultati della stima summary(cereal.tree) ## ## Classification tree: ## tree(formula = BFAST ~., data = Cereal.train) ## Variables actually used in tree construction: ## [1] "AGECAT" ## Number of terminal nodes: 3 ## Residual mean deviance: = 1076 / 597 ## Misclassification error rate: = 277 / 600 Per gli alberi di classificazione, la deviance riportata nell output di summary() è data da 2 m k n mk dove n mk è il numero di unità del nodo terminale m che appartiene alla classe k. log p^mk Una piccola deviance indica un albero che fornisce un buon adattamento ai dati (training). La devianza residua è la devianza divisa per = 597. n T 0, in questo caso file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/labs/l8-cereal-tree.html#(1) 8/32

9 Plot dell albero plot(cereal.tree,lwd=2) text(cereal.tree,pretty=0,cex=1.5,col="blue") file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/labs/l8-cereal-tree.html#(1) 9/32

10 Descrizione dell albero Se il grafico non è leggibile, si può utilizzare la sua descrizione Cereal.tree ## node), split, n, deviance, yval, (yprob) ## * denotes terminal node ## ## 1) root Cereal ( ) ## 2) AGECAT: Under 31,[31-45] Cereal ( ) * ## 3) AGECAT: [46-60],Over Oatmeal ( ) ## 6) AGECAT: [46-60] Cereal ( ) * ## 7) AGECAT: Over Oatmeal ( ) * Ad esempio, il nodo 2) è terminale, contiene 266 unità e classifica l unità come Cereal (prob=0.4624). La probabilità di BF-Bar è L albero utilizza solo l età come variabile per la classificazione. file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/labs/l8-cereal-tree.html#(1) 10/32

11 Sima del test error rate con i dati Cereal.test La funzione predict() può essere utilizzata per questo scopo. Nel caso di un albero di classificazione, l argomento type="class" dice ad R di fornire la classe di Y dell unità. Il codice sotto, utilizzando l albero stimato, fornisce le previsioni utilizzando il test set. Cereal.tree.pred=predict(Cereal.tree, Cereal.test, type="class") Cereal.tree.pred[1:10] ## [1] Cereal Cereal Cereal Oatmeal Cereal Cereal Oatmeal Cereal ## [9] Cereal Cereal ## Levels: BF-bar Oatmeal Cereal Per calcolare il tasso di errore di test abbiamo bisogno di confrontare le previsioni con la classe osservata nel test set. file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/labs/l8-cereal-tree.html#(1) 11/32

12 Per questo, si definisca la variabile BFAST.test che contiene solo le classi osservate in Cereal.test e si costruisca una tavola di classificazione. BFAST.test=Cereal$BFAST[-train] table(cereal.tree.pred,bfast.test) ## BFAST.test ## Cereal.tree.pred BF-bar Oatmeal Cereal ## BF-bar ## Oatmeal ## Cereal Dalla tavola possiamo stimare il test error rate ( )/nrow(Cereal.test) ## [1] file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/labs/l8-cereal-tree.html#(1) 12/32

13 Costruire un albero più grande Si definisca maggior sensibilità utilizzando la funzione tree.control() setup1=tree.control(nrow(cereal), mincut = 5, minsize = 10, mindev = 0.001) E quindi si usi tree()con l opzione control=setup1 Cereal.tree=tree(BFAST~.,data=Cereal.train,control=setup1) summary(cereal.tree) ## ## Classification tree: ## tree(formula = BFAST ~., data = Cereal.train, control = setup1) ## Number of terminal nodes: 19 ## Residual mean deviance: = / 581 ## Misclassification error rate: = 247 / 600 file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/labs/l8-cereal-tree.html#(1) 13/32

14 Plot plot(cereal.tree,type="uniform",lwd=2) text(cereal.tree,pretty=0,cex=1.2,col="blue") file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/labs/l8-cereal-tree.html#(1) 14/32

15 Tavola di classificazione (osservazioni test) Cereal.tree.pred=predict(Cereal.tree, Cereal.test, type="class") table(cereal.tree.pred,bfast.test) ## BFAST.test ## Cereal.tree.pred BF-bar Oatmeal Cereal ## BF-bar ## Oatmeal ## Cereal file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/labs/l8-cereal-tree.html#(1) 15/32

16 Test error rate stimato Albero con 19 nodi ( )/nrow(Cereal.test) ## [1] Compariamolo con il valore precedente (Albero a 3 nodi) ( )/nrow(Cereal.test) ## [1] file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/labs/l8-cereal-tree.html#(1) 16/32

17 Potare l albero La funzione cv.tree() effettua una cross-validazione per ottenere il livello ottimale di complessità dell albero. Per adattare alberi di classificazione si usi l argomento FUN=prune.misclass (nel qual caso il tasso di errore sarà il criterio guida) L output di cv.tree() riporterà: il numero di nodi terminali di ogni albero considerato (size) il corrispondente tasso di errore (dev) altri parametri (non discussi a lezione). file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/labs/l8-cereal-tree.html#(1) 17/32

18 set.seed (3) cv.cereal =cv.tree(cereal.tree,fun=prune.misclass ) cv.cereal ## $size ## [1] ## ## $dev ## [1] ## ## $k ## [1] -Inf ## [8] ## ## $method ## [1] "misclass" ## ## attr(,"class") ## [1] "prune" "tree.sequence" dev in questo caso corrisponde alla stima di cross-validazione dell errore test. file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/labs/l8-cereal-tree.html#(1) 18/32

19 Plot Riportiamo in un grafico i risultati per size e dev plot(cv.cereal$size,cv.cereal$dev,type="b", lwd=3,col="blue", xlab="terminal nodes", ylab="rss",main="cost complexity pruning" ) 6 nodi sembrano ottimali file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/labs/l8-cereal-tree.html#(1) 19/32

20 L albero potato A questo punto si utilizzi la funzione prune.misclass() per potare l albero iniziale al numero di nodi scelti in base ai risultati ottenuti dalla cross-validazione. prune.cereal=prune.misclass(cereal.tree, best =6) plot(prune.cereal,lwd=2) text(prune.cereal,pretty =0,cex=1.3,col="blue") file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/labs/l8-cereal-tree.html#(1) 20/32

21 plot(prune.cereal,lwd=2,type="uniform") text(prune.cereal,pretty =0,cex=1.3,col="blue") file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/labs/l8-cereal-tree.html#(1) 21/32

22 Stima del test error tree.pred=predict(prune.cereal, Cereal.test, type="class") table(tree.pred, BFAST.test) ## BFAST.test ## tree.pred BF-bar Oatmeal Cereal ## BF-bar ## Oatmeal ## Cereal ( )/nrow(Cereal.test) ## [1] file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/labs/l8-cereal-tree.html#(1) 22/32

23 Bagging Il Bagging è un caso specifico di una Foresta Casuale con m = p. Quindi la funzione randomforest() dalla libreria randomforest può essere usata in entrambi i casi. library (randomforest) set.seed (1) bag.cereal=randomforest(bfast~.,data=cereal,subset =train, mtry=4, importance =TRUE, ntree=1000) bag.cereal ## ## Call: ## randomforest(formula = BFAST ~., data = Cereal, mtry = 4, importance = TRUE, n ## Type of random forest: classification ## Number of trees: 1000 ## No. of variables tried at each split: 4 ## ## OOB estimate of error rate: 45.67% ## Confusion matrix: ## BF-bar Oatmeal Cereal class.error ## BF-bar ## Oatmeal ## Cereal L argomento mtry = 4 indica che tutti e 4 i predittori devono essere considerati ad ogni split dell albero; in altre parole, che stiamo facendo bagging. file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/labs/l8-cereal-tree.html#(1) 23/32

24 Stima del test error tree.pred=predict(bag.cereal, Cereal.test, type="class") table(tree.pred, BFAST.test) ## BFAST.test ## tree.pred BF-bar Oatmeal Cereal ## BF-bar ## Oatmeal ## Cereal ( )/nrow(Cereal.test) ## [1] La stima dell errore test è migliore rispetto all albero potato file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/labs/l8-cereal-tree.html#(1) 24/32

25 Foresta casuale La crescita di una foresta casuale procede esattamente come nel bagging, tranne che usiamo un valore inferiore dell argomento mtry. Per impostazione predefinita, random.forest() utilizza p/3 variabili per la costruzione di una foresta casuale di alberi di regressione, e p variabili quando si costruisce una foresta casuale di alberi di classificazione. Qua impostiamo mtry = 2. set.seed (1) rf.cereal =randomforest(bfast~.,data=cereal, subset =train, mtry=2, importance =TRUE) rf.cereal ## ## Call: ## randomforest(formula = BFAST ~., data = Cereal, mtry = 2, importance = TRUE, s ## Type of random forest: classification ## Number of trees: 500 ## No. of variables tried at each split: 2 ## ## OOB estimate of error rate: 45.5% ## Confusion matrix: ## BF-bar Oatmeal Cereal class.error ## BF-bar ## Oatmeal ## Cereal file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/labs/l8-cereal-tree.html#(1) 25/32

26 Stima del test error tree.pred=predict(rf.cereal, Cereal.test, type="class") table(tree.pred, BFAST.test) ## BFAST.test ## tree.pred BF-bar Oatmeal Cereal ## BF-bar ## Oatmeal ## Cereal ( )/nrow(Cereal.test) ## [1] peggiore rispetto al bagging file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/labs/l8-cereal-tree.html#(1) 26/32

27 Importance statistics importance(rf.cereal) ## BF-bar Oatmeal Cereal MeanDecreaseAccuracy ## AGECAT ## GENDER ## MARITAL ## ACTIVE ## MeanDecreaseGini ## AGECAT ## GENDER ## MARITAL ## ACTIVE Ci sono due misure di importanza delle variabili. La prima si basa sulla diminuzione media della precisione nelle previsioni sui campioni out-of-bag quando una data variabile viene esclusa dal modello. La seconda è una misura della diminuzione totale dell impurità del nodo che deriva dallo split su una certa variabile. Nel caso di alberi di regressione, l impurità del nodo viene misurata attraverso il training RSS. Per gli alberi di classificazione attraverso l indice di Gini. file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/labs/l8-cereal-tree.html#(1) 27/32

28 Importance plot I plot delle misure di importanza possono essere prodotti con la funzione varimpplot(). varimpplot(rf.cereal,pch=19,ce=1.5,col="blue",lwd=2) file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/labs/l8-cereal-tree.html#(1) 28/32

29 Ottenere le probabilità di previsione con le foreste casuali Per fare previsioni dato un insieme di predittori, possiamo usare la funzione predict(). L opzione type="prob" fornisce le probabilità di appartenenza a ciascun livello della variabile Y. 1. Selezioniamo 5 intervistati casualmente set.seed(5) R.units<-Cereal[sample(nrow(Cereal),5),] R.units ## AGECAT GENDER MARITAL ACTIVE BFAST ## 177 [46-60] M Sposato Yes Cereal ## 603 Over 60 M Sposato Yes Oatmeal ## 806 [31-45] F Sposato Yes Cereal ## 250 Over 60 M Sposato Yes Oatmeal ## 92 [46-60] F Sposato No Cereal file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/labs/l8-cereal-tree.html#(1) 29/32

30 2. Facciamo le previsioni Prob.Pr<-predict(rf.Cereal,R.units,type="prob") Prob.Pr ## BF-bar Oatmeal Cereal ## ## ## ## ## ## attr(,"class") ## [1] "matrix" "votes" file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/labs/l8-cereal-tree.html#(1) 30/32

31 3. Mettiamo Prob.Pr e R.units in un data.frame e confrontiamo df<-data.frame(r.units,prob.pr) df AGECAT GENDER MARITAL ACTIVE BFAST BF.bar Oatmeal Cereal 177 [46-60] M Sposato Yes Cereal Over 60 M Sposato Yes Oatmeal [31-45] F Sposato Yes Cereal Over 60 M Sposato Yes Oatmeal [46-60] F Sposato No Cereal file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/labs/l8-cereal-tree.html#(1) 31/32

32 Considerazioni conclusive Tutti i modelli testati hanno un test error rate stimato piuttosto elevato. L albero ottenuto col Bagging è quello con test error stimato minore (42.5%) Come già notato, tuttavia, l accento per questo probema è su un analisi di tipo inferenziale. Si noti che l albero potato suggerisce, in modo molto più chiaro rispetto all analisi con LDA e GLM, dei profili di consumo cui prestare attenzione Il bagging migliora la precisione ma si perde in capacità interpretativa. Tuttavia l utilizzo delle statistiche di importanza e l analisi in dettaglio dei profili di consumo ci permettono di interpretare correttamente il fenomeno. Vale la pena completare l analisi calcolando le probabilità di scelta per alcuni profili di interesse per capire più a fondo la precisione del modello per sottogruppi di consumatori file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/labs/l8-cereal-tree.html#(1) 32/32

Alberi di decisione con R

Alberi di decisione con R Alberi di decisione con R Emanuele Taufer file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/labs/l8-alberi_di_decisione.html#(1) 1/14 Implementare gli alberi decisionali con R Per adattare

Dettagli

Quiz di verifica - Alberi e FC Strumenti Quantitativi per la gestione

Quiz di verifica - Alberi e FC Strumenti Quantitativi per la gestione Quiz di verifica - Alberi e FC Strumenti Quantitativi per la gestione Le domande 1-6 si riferiscono al seguente problema Un data set contiene i dati sui consumi di diversi tipi di automobili e alcune loro

Dettagli

Bagging e Foreste Casuali con R

Bagging e Foreste Casuali con R Bagging e Foreste Casuali con R Emanuele Taufer file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/labs/l8-bagging-fc.html#(10) 1/10 Bagging e Foreste casuali con R Utilizziamo ancora una

Dettagli

HR analyics. Analisi con le CP e analisi predittiva

HR analyics. Analisi con le CP e analisi predittiva HR analyics Analisi con le CP e analisi predittiva SQG file:///g:/il%20mio%20drive/2%20corsi/3%20sqg/labs/l10-hr_predictive.html#(1) 1/24 Dati Human Resources (HR) In questa esercitazione viene analizzato

Dettagli

Classificazione k-nn con R. Strumenti quantitativi per la gestione

Classificazione k-nn con R. Strumenti quantitativi per la gestione Classificazione k-nn con R Strumenti quantitativi per la gestione Emanuele Taufer file:///g:/il%20mio%20drive/2%20corsi/3%20sqg/labs/l1-knn.html#(1) 1/16 Altezza e peso degli adulti Le statistiche sull

Dettagli

Selezione del modello Strumenti quantitativi per la gestione

Selezione del modello Strumenti quantitativi per la gestione Selezione del modello Strumenti quantitativi per la gestione Emanuele Taufer Migliorare il modello di regressione lineare (RL) Metodi Selezione Best subset Selezione stepwise Stepwise forward Stepwise

Dettagli

Analisi discriminante in R. Strumenti quantitativi per la gestione

Analisi discriminante in R. Strumenti quantitativi per la gestione Analisi discriminante in R Strumenti quantitativi per la gestione Emanuele Taufer file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/labs/l4-lda.html#(1) 1/25 Default data Carichiamo il

Dettagli

Validazione dei modelli. Strumenti quantitativi per la gestione

Validazione dei modelli. Strumenti quantitativi per la gestione Validazione dei modelli Strumenti quantitativi per la gestione Emanuele Taufer file:///g:/il%20mio%20drive/2%20corsi/3%20sqg/labs/l5-validazione.html#(1) 1/27 Validazione dei modelli In questo esempio

Dettagli

Data Mining and Machine Learning Lab. Lezione 4 Master in Data Science for Economics, Business and Finance 2018

Data Mining and Machine Learning Lab. Lezione 4 Master in Data Science for Economics, Business and Finance 2018 Data Mining and Machine Learning Lab. Lezione 4 Master in Data Science for Economics, Business and Finance 2018 20.04.18 Marco Frasca Università degli Studi di Milano Efficienza dei loop in R Compariamo

Dettagli

Regressione logistica. Strumenti quantitativi per la gestione

Regressione logistica. Strumenti quantitativi per la gestione Regressione logistica Strumenti quantitativi per la gestione Emanuele Taufer file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/classes/4a_rlg.html#(22) 1/28 Metodi di classificazione I

Dettagli

Tecniche di riconoscimento statistico

Tecniche di riconoscimento statistico On AIR s.r.l. Tecniche di riconoscimento statistico Applicazioni alla lettura automatica di testi (OCR) Parte 9 Alberi di decisione Ennio Ottaviani On AIR srl ennio.ottaviani@onairweb.com http://www.onairweb.com/corsopr

Dettagli

Validazione dei modelli Strumenti quantitativi per la gestione

Validazione dei modelli Strumenti quantitativi per la gestione Validazione dei modelli Strumenti quantitativi per la gestione Emanuele Taufer Validazione dei modelli Il data set Auto I dati Il problema analizzato Validation set approach Diagramma a dispersione Test

Dettagli

Regressione ridge e LASSO Strumenti quantitativi per la gestione

Regressione ridge e LASSO Strumenti quantitativi per la gestione Regressione ridge e LASSO Strumenti quantitativi per la gestione Emanuele Taufer Dati Credit.csv La funzione glmnet() La funzione model.matrix() Regressione ridge Output CV Ridge Output Regressione LASSO

Dettagli

Modelli con predittori qualitativi e modelli con interazioni. Strumenti quantitativi per la gestione

Modelli con predittori qualitativi e modelli con interazioni. Strumenti quantitativi per la gestione Modelli con predittori qualitativi e modelli con interazioni Strumenti quantitativi per la gestione Emanuele Taufer file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/3d_viq.html#(1) 1/26 Utilizzare

Dettagli

Data Mining and Machine Learning Lab. Lezione 7 Master in Data Science for Economics, Business and Finance 2018

Data Mining and Machine Learning Lab. Lezione 7 Master in Data Science for Economics, Business and Finance 2018 Data Mining and Machine Learning Lab. Lezione 7 Master in Data Science for Economics, Business and Finance 2018 11.05.18 Marco Frasca Università degli Studi di Milano Svantaggi e vantaggi degli alberi

Dettagli

Analisi discriminante in R Strumenti quantitativi per la gestione

Analisi discriminante in R Strumenti quantitativi per la gestione Analisi discriminante in R Strumenti quantitativi per la gestione Emanuele Taufer Default data LDA con R Output Plot Previsione Tabella di classificazione Cambiare il criterio di classificazione Costruire

Dettagli

Regressione. Monica Marabelli. 15 Gennaio 2016

Regressione. Monica Marabelli. 15 Gennaio 2016 Regressione Monica Marabelli 15 Gennaio 2016 La regressione L analisi di regressione é una tecnica statistica che serve a studiare la relazione tra variabili. In particolare, nel modello di regressione

Dettagli

Decision trees. Analisi statistica e matematico-finanziaria II. Alfonso Iodice D Enza iodicede@unicas.it

Decision trees. Analisi statistica e matematico-finanziaria II. Alfonso Iodice D Enza iodicede@unicas.it Decision trees Analisi statistica e matematico-finanziaria II Alfonso Iodice D Enza iodicede@unicas.it Università degli studi di Cassino e del Lazio Meridionale Outline Decision trees Decision trees (DT)

Dettagli

Modelli con predittori qualitativi e modelli con interazioni

Modelli con predittori qualitativi e modelli con interazioni Modelli con predittori qualitativi e modelli con interazioni Strumenti quantitativi per la gestione Emanuele Taufer Utilizzare variabili indipendenti qualitative (VIQ) Codifica binaria 0,1 Esempio: salari

Dettagli

Corso di Riconoscimento di Forme. Sommario: Matrice di confusione Cross validation Prestazioni nel KNN

Corso di Riconoscimento di Forme. Sommario: Matrice di confusione Cross validation Prestazioni nel KNN Corso di Riconoscimento di Forme Sommario: Matrice di confusione Cross validation Prestazioni nel KNN Matrice di confusione Il semplice calcolo dell'errore di classificazione non permette di capire il

Dettagli

Naïve Bayesian Classification

Naïve Bayesian Classification Naïve Bayesian Classification Di Alessandro rezzani Sommario Naïve Bayesian Classification (o classificazione Bayesiana)... 1 L algoritmo... 2 Naive Bayes in R... 5 Esempio 1... 5 Esempio 2... 5 L algoritmo

Dettagli

Quiz di verifica Classificazione

Quiz di verifica Classificazione Quiz di verifica Classificazione Strumenti Quantitativi per la gestione Le domande 1 4 si riferiscono al seguente problema: Supponiamo di raccogliere dati per un gruppo di studenti della classe di SQG

Dettagli

Data Mining and Machine Learning Lab. Lezione 6 Master in Data Science for Economics, Business and Finance 2018

Data Mining and Machine Learning Lab. Lezione 6 Master in Data Science for Economics, Business and Finance 2018 Data Mining and Machine Learning Lab. Lezione 6 Master in Data Science for Economics, Business and Finance 2018 04.05.18 Marco Frasca Università degli Studi di Milano Esercitazione 1. Implementare la funzione

Dettagli

Modelli non lineari e cross validazione. Strumenti quantitativi per la gestione

Modelli non lineari e cross validazione. Strumenti quantitativi per la gestione Modelli non lineari e cross validazione Strumenti quantitativi per la gestione Emanuele Taufer file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/labs/l3-temperature_max.html#(24) 1/28 Metodi

Dettagli

Modelli Statistici per l Economia. Regressione lineare con un singolo regressore (terza parte)

Modelli Statistici per l Economia. Regressione lineare con un singolo regressore (terza parte) Modelli Statistici per l Economia Regressione lineare con un singolo regressore (terza parte) 1 Verifica di ipotesi su β 1 H 0 : β 1 = β 1,0 H 1 : β 1 β 1,0 Se è vera H 0 (cioè sotto H 0 ) e n è grande,

Dettagli

Alberi di Decisione (2)

Alberi di Decisione (2) Alberi di Decisione (2) Corso di AA, anno 2018/19, Padova Fabio Aiolli 05 Novembre 2018 Fabio Aiolli Alberi di Decisione (2) 05 Novembre 2018 1 / 19 Apprendimento di alberi di decisione: Bias induttivo

Dettagli

Computazione per l interazione naturale: macchine che apprendono

Computazione per l interazione naturale: macchine che apprendono Computazione per l interazione naturale: macchine che apprendono Corso di Interazione uomo-macchina II Prof. Giuseppe Boccignone Dipartimento di Scienze dell Informazione Università di Milano boccignone@dsi.unimi.it

Dettagli

Classificazione Validazione Decision Tree & kmeans. Renato Mainetti

Classificazione Validazione Decision Tree & kmeans. Renato Mainetti Classificazione Validazione Decision Tree & kmeans Renato Mainetti Apprendimento Supervisionato e Non Supervisionato: forniamo input e output Non supervisionato: forniamo solo input 2 Apprendimento Supervisionato

Dettagli

Metodi Quantitativi per Economia, Finanza e Management. Lezione n 8 Regressione lineare multipla: le ipotesi del modello, la stima del modello

Metodi Quantitativi per Economia, Finanza e Management. Lezione n 8 Regressione lineare multipla: le ipotesi del modello, la stima del modello Metodi Quantitativi per Economia, Finanza e Management Lezione n 8 Regressione lineare multipla: le ipotesi del modello, la stima del modello 1. Introduzione ai modelli di regressione 2. Obiettivi 3. Le

Dettagli

Misura della performance di ciascun modello: tasso di errore sul test set

Misura della performance di ciascun modello: tasso di errore sul test set Confronto fra modelli di apprendimento supervisionato Dati due modelli supervisionati M 1 e M costruiti con lo stesso training set Misura della performance di ciascun modello: tasso di errore sul test

Dettagli

Multicollinearità. Strumenti quantitativi per la gestione

Multicollinearità. Strumenti quantitativi per la gestione Multicollinearità Strumenti quantitativi per la gestione Emanuele Taufer file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/3c_mc.html#(1) 1/13 Quando non tutto va come dovrebbe Si parla di multi-collinearità

Dettagli

Confronto fra gruppi: il metodo ANOVA. Nicola Tedesco (Statistica Sociale) Confronto fra gruppi: il metodo ANOVA 1 / 23

Confronto fra gruppi: il metodo ANOVA. Nicola Tedesco (Statistica Sociale) Confronto fra gruppi: il metodo ANOVA 1 / 23 Confronto fra gruppi: il metodo ANOVA Nicola Tedesco (Statistica Sociale) Confronto fra gruppi: il metodo ANOVA 1 / 23 1 Nella popolazione, per ciascun gruppo la distribuzione della variabile risposta

Dettagli

Alberi di Decisione (2)

Alberi di Decisione (2) Alberi di Decisione (2) Corso di AA, anno 2017/18, Padova Fabio Aiolli 25 Ottobre 2017 Fabio Aiolli Alberi di Decisione (2) 25 Ottobre 2017 1 / 18 Apprendimento di alberi di decisione: Bias induttivo Come

Dettagli

9 Confronto fra due o più popolazioni attraverso test non parametrici

9 Confronto fra due o più popolazioni attraverso test non parametrici 9 Confronto fra due o più popolazioni attraverso test non parametrici I test non parametrici prescindono per la loro validità dalle condizioni di normalità ed omogeneità delle varianze delle popolazioni

Dettagli

TECNICHE DI CLASSIFICAZIONE

TECNICHE DI CLASSIFICAZIONE TECNICHE DI CLASSIFICAZIONE La tecnica di classificazione più conosciuta è la cluster analysis, che ha l obiettivo di identificare gruppi di soggetti (o oggetti) omogenei al loro interno ed eterogenei

Dettagli

Riconoscimento e recupero dell informazione per bioinformatica

Riconoscimento e recupero dell informazione per bioinformatica Riconoscimento e recupero dell informazione per bioinformatica Classificazione: validazione Manuele Bicego Corso di Laurea in Bioinformatica Dipartimento di Informatica - Università di Verona Introduzione

Dettagli

STATISTICA 1, metodi matematici e statistici Introduzione al linguaggio R Esercitazione 7:

STATISTICA 1, metodi matematici e statistici Introduzione al linguaggio R Esercitazione 7: esercitazione 7 p. 1/13 STATISTICA 1, metodi matematici e statistici Introduzione al linguaggio R Esercitazione 7: 20-05-2004 Luca Monno Università degli studi di Pavia luca.monno@unipv.it http://www.lucamonno.it

Dettagli

Statistica di base degli studi Real-life I

Statistica di base degli studi Real-life I Statistica di base degli studi Real-life I Scardapane Marco Gli alberi di regressione Gli alberi di regressione, o tecniche di regressione ad albero, sono metodi originariamente nati nel campo del data

Dettagli

Statistica di base degli studi Real-life I. Scardapane Marco

Statistica di base degli studi Real-life I. Scardapane Marco Statistica di base degli studi Real-life I Scardapane Marco Gli alberi di regressione Gli alberi di regressione, o tecniche di regressione ad albero, sono metodi originariamente nati nel campo del data

Dettagli

Statistica descrittiva: analisi di regressione

Statistica descrittiva: analisi di regressione Statistica descrittiva: analisi di regressione L analisi di regressione permette di esplorare le relazioni tra due insiemi di valori (p.e. i valori di due attributi di un campione) alla ricerca di associazioni.

Dettagli

e applicazioni al dominio del Contact Management Andrea Brunello Università degli Studi di Udine

e applicazioni al dominio del Contact Management Andrea Brunello Università degli Studi di Udine e applicazioni al dominio del Contact Management Parte V: combinazione di Università degli Studi di Udine In collaborazione con dott. Enrico Marzano, CIO Gap srl progetto Active Contact System 1/10 Contenuti

Dettagli

Analisi Discriminante Strumenti quantitativi per la gestione

Analisi Discriminante Strumenti quantitativi per la gestione Analisi Discriminante Strumenti quantitativi per la gestione Emanuele Taufer Un esempio introduttivo Approccio con Bayes Perchè un altro metodo di classificazione? Classificazione con Bayes Analisi discriminante

Dettagli

CART: Classification And Regression Trees

CART: Classification And Regression Trees CART: Classification And Regression Trees Antonio Manno mannoanto@libero.it, www.statistica.too.it Indice 1 Classificazione e regressione ad albero, CART 1 1.1 Classification trees............................

Dettagli

Cenni di Statistica Inferenziale

Cenni di Statistica Inferenziale Cenni di Statistica Inferenziale Teorema del limite centrale Data una variabile, qualsiasi sia la sua distribuzione, la media di tutti i suoi campioni di ampiezza n ha una distribuzione normale: dove:

Dettagli

Metodi statistici per la ricerca sociale Capitolo 13. Combinare regressione e ANOVA: predittori categoriali e quantitativi Esercitazione

Metodi statistici per la ricerca sociale Capitolo 13. Combinare regressione e ANOVA: predittori categoriali e quantitativi Esercitazione Metodi statistici per la ricerca sociale Capitolo 13. Combinare regressione e ANOVA: predittori categoriali e quantitativi Esercitazione Alessandra Mattei Dipartimento di Statistica, Informatica, Applicazioni

Dettagli

Il modello di regressione (VEDI CAP 12 VOLUME IEZZI, 2009)

Il modello di regressione (VEDI CAP 12 VOLUME IEZZI, 2009) Il modello di regressione (VEDI CAP 12 VOLUME IEZZI, 2009) Quesito: Posso stimare il numero di ore passate a studiare statistica sul voto conseguito all esame? Potrei calcolare il coefficiente di correlazione.

Dettagli

Business Intelligence per i Big Data

Business Intelligence per i Big Data Business Intelligence per i Big Data Esercitazione di laboratorio n. 6 L obiettivo dell esercitazione è il seguente: - Applicare algoritmi di data mining per la classificazione al fine di analizzare dati

Dettagli

Vogliamo determinare una funzione lineare che meglio approssima i nostri dati sperimentali e poter decidere sulla bontà di questa approssimazione.

Vogliamo determinare una funzione lineare che meglio approssima i nostri dati sperimentali e poter decidere sulla bontà di questa approssimazione. S.S.I.S. TOSCANA F.I.M. II anno FUNZIONI DI REGRESSIONE E METODO DEI MINIMI QUADRATI Supponiamo di star conducendo uno studio sulla crescita della radice di mais in funzione del contenuto di saccarosio

Dettagli

6. Partial Least Squares (PLS)

6. Partial Least Squares (PLS) & C. Di Natale: (PLS) Partial Least Squares PLS toolbox di MATLAB 1 Da PCR a PLS approccio geometrico Nella PCR la soluzione del problema della regressione passa attraverso la decomposizione della matrice

Dettagli

s a Inferenza: singolo parametro Sistema di ipotesi: : β j = β j0 H 1 β j0 statistica test t confronto con valore t o p-value

s a Inferenza: singolo parametro Sistema di ipotesi: : β j = β j0 H 1 β j0 statistica test t confronto con valore t o p-value Inferenza: singolo parametro Sistema di ipotesi: H 0 : β j = β j0 H 1 : β j β j0 statistica test t b j - b s a jj j0 > t a, 2 ( n-k) confronto con valore t o p-value Se β j0 = 0 X j non ha nessuna influenza

Dettagli

lezione n. 6 (a cura di Gaia Montanucci) Verosimiglianza: L = = =. Parte dipendente da β 0 e β 1

lezione n. 6 (a cura di Gaia Montanucci) Verosimiglianza: L = = =. Parte dipendente da β 0 e β 1 lezione n. 6 (a cura di Gaia Montanucci) METODO MASSIMA VEROSIMIGLIANZA PER STIMARE β 0 E β 1 Distribuzione sui termini di errore ε i ε i ~ N (0, σ 2 ) ne consegue : ogni y i ha ancora distribuzione normale,

Dettagli

Machine Learning: apprendimento, generalizzazione e stima dell errore di generalizzazione

Machine Learning: apprendimento, generalizzazione e stima dell errore di generalizzazione Corso di Bioinformatica Machine Learning: apprendimento, generalizzazione e stima dell errore di generalizzazione Giorgio Valentini DI Università degli Studi di Milano 1 Metodi di machine learning I metodi

Dettagli

Luigi Santoro. Hyperphar Group S.p.A., MIlano

Luigi Santoro. Hyperphar Group S.p.A., MIlano Come modellare il rischio Luigi Santoro Hyperphar Group S.p.A., MIlano Gli argomenti discussi Le definizioni del termine rischio L utilità di un modello predittivo di rischio Come costruire modelli predittivi

Dettagli

Classificazione Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007

Classificazione Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007 Classificazione Introduzione I modelli di classificazione si collocano tra i metodi di apprendimento supervisionato e si rivolgono alla predizione di un attributo target categorico. A partire da un insieme

Dettagli

Ingegneria della Conoscenza e Sistemi Esperti Lezione 4: Alberi di Decisione

Ingegneria della Conoscenza e Sistemi Esperti Lezione 4: Alberi di Decisione Ingegneria della Conoscenza e Sistemi Esperti Lezione 4: Alberi di Decisione Dipartimento di Elettronica e Informazione Apprendimento Supervisionato I dati considerati considerati degli esempi di un fenomeno

Dettagli

ANOVA. ANalysis Of VAriance. Federico Plazzi. 1 Dicembre 2015

ANOVA. ANalysis Of VAriance. Federico Plazzi. 1 Dicembre 2015 ANOVA ANalysis Of VAriance Federico Plazzi 1 Dicembre 2015 A che cosa serve? A che cosa serve? Applicazione L ANOVA ha finalità simili al test t: confrontare campioni. Al contrario del test t, però, è

Dettagli

Analisi Discriminante. Strumenti quantitativi per la gestione

Analisi Discriminante. Strumenti quantitativi per la gestione Analisi Discriminante Strumenti quantitativi per la gestione Emanuele Taufer file:///g:/il%20mio%20drive/2%20corsi/3%20sqg/classes/4-2_ad.html#(33) 1/39 AD Tecnica di classificazione che sfrutta combinazioni

Dettagli

0.1 Percorrenza e Cilindrata

0.1 Percorrenza e Cilindrata 0.1 Percorrenza e Cilindrata Iniziamo ora un analisi leggermente più complessa basata sempre sui concetti appena introdotti. Innanzi tutto possiamo osservare, dal grafico ottenuto con il comando pairs,

Dettagli

Metodi statistici per la ricerca sociale Capitolo 12. Confronto fra gruppi: L analisi della varianza. Esercitazione

Metodi statistici per la ricerca sociale Capitolo 12. Confronto fra gruppi: L analisi della varianza. Esercitazione Metodi statistici per la ricerca sociale Capitolo 12. Confronto fra gruppi: L analisi della varianza Esercitazione Alessandra Mattei Dipartimento di Statistica, Informatica, Applicazioni (DiSIA) Università

Dettagli

Lecture 10. Combinare Classificatori. Metaclassificazione

Lecture 10. Combinare Classificatori. Metaclassificazione Lecture 10 Combinare Classificatori Combinare classificatori (metodi ensemble) Problema Dato Training set D di dati in X Un insieme di algoritmi di learning Una trasformazione s: X X (sampling, transformazione,

Dettagli

Prova scritta di Statistica Applicata alle Decisioni Aziendali Prof.ssa Conigliani -...

Prova scritta di Statistica Applicata alle Decisioni Aziendali Prof.ssa Conigliani -... Prova scritta di Statistica Applicata alle Decisioni Aziendali Prof.ssa Conigliani -... COGNOME:............................................................ NOME:.....................................................................

Dettagli

Computazione per l interazione naturale: macchine che apprendono

Computazione per l interazione naturale: macchine che apprendono Computazione per l interazione naturale: macchine che apprendono Corso di Interazione uomo-macchina II Prof. Giuseppe Boccignone Dipartimento di Scienze dell Informazione Università di Milano boccignone@dsi.unimi.it

Dettagli

Alberi Decisionali Per l analisi del mancato rinnovo all abbonamento di una rivista

Alberi Decisionali Per l analisi del mancato rinnovo all abbonamento di una rivista Alberi Decisionali Per l analisi del mancato rinnovo all abbonamento di una rivista Il problema L anticipazione del fenomeno degli abbandoni da parte dei propri clienti, rappresenta un elemento fondamentale

Dettagli

Analisi esplorativa dei dati - Iris data set Emanuele Taufer

Analisi esplorativa dei dati - Iris data set Emanuele Taufer Analisi esplorativa dei dati - Iris data set Emanuele Taufer Contents Iris flower data............................................... 1 Iris Setosa.................................................. 1 Iris

Dettagli

Esercizio Dire quale variabile debba essere usata come regressore e quale sia la variabile risposta.

Esercizio Dire quale variabile debba essere usata come regressore e quale sia la variabile risposta. Esercizio 1 Il file elettr.txt contiene dei dati sui consumi in miliardi di kilowatt/ora (eleccons) e sul prodotto interno lordo in miliardi di dollari (gdp) su 30 paesi in un determinato anno. Il prodotto

Dettagli

Anova e regressione. Andrea Onofri Dipartimento di Scienze Agrarie ed Ambientali Universitá degli Studi di Perugia 22 marzo 2011

Anova e regressione. Andrea Onofri Dipartimento di Scienze Agrarie ed Ambientali Universitá degli Studi di Perugia 22 marzo 2011 Anova e regressione Andrea Onofri Dipartimento di Scienze Agrarie ed Ambientali Universitá degli Studi di Perugia 22 marzo 2011 Nella sperimentazione agronomica e biologica in genere è normale organizzare

Dettagli

Distribuzione Gaussiana - Facciamo un riassunto -

Distribuzione Gaussiana - Facciamo un riassunto - Distribuzione Gaussiana - Facciamo un riassunto - Nell ipotesi che i dati si distribuiscano seguendo una curva Gaussiana è possibile dare un carattere predittivo alla deviazione standard La prossima misura

Dettagli

Esercitazione finale - corso R base Francesco Vidoli Ottobre 2018

Esercitazione finale - corso R base Francesco Vidoli Ottobre 2018 Esercitazione finale - corso R base Francesco Vidoli Ottobre 2018 Passo 1: Leggere il file di input (il file si trova a questo indirizzo: https://fvidoli.weebly.com/uploads/2/3/0/8/ 23088460/dati_medici.csv),

Dettagli

Università del Piemonte Orientale. Corsi di laurea triennale di area tecnica. Corso di Statistica Medica. Intervalli di confidenza

Università del Piemonte Orientale. Corsi di laurea triennale di area tecnica. Corso di Statistica Medica. Intervalli di confidenza Università del Piemonte Orientale Corsi di laurea triennale di area tecnica Corso di Statistica Medica Intervalli di confidenza Corsi di laurea triennale di area tecnica - Corso di Statistica Medica -

Dettagli

Esercitazione del

Esercitazione del Esercizi sulla regressione lineare. Esercitazione del 21.05.2013 Esercizio dal tema d esame del 13.06.2011. Si consideri il seguente campione di n = 9 osservazioni relative ai caratteri ed Y: 7 17 8 36

Dettagli

Elementi di Psicometria con Laboratorio di SPSS 1

Elementi di Psicometria con Laboratorio di SPSS 1 Elementi di Psicometria con Laboratorio di SPSS 1 28-Intervalli di confidenza vers. 1.1 (21 novembre 2014) Germano Rossi 1 germano.rossi@unimib.it 1 Dipartimento di Psicologia, Università di Milano-Bicocca

Dettagli

Corso integrato di informatica, statistica e analisi dei dati sperimentali Esercitazione VII

Corso integrato di informatica, statistica e analisi dei dati sperimentali Esercitazione VII Corso integrato di informatica, statistica e analisi dei dati sperimentali Esercitazione VII Un breve richiamo sul test t-student Siano A exp (a 1, a 2.a n ) e B exp (b 1, b 2.b m ) due set di dati i cui

Dettagli

Laboratorio di Statistica Aziendale Modello di regressione lineare multipla

Laboratorio di Statistica Aziendale Modello di regressione lineare multipla Laboratorio di Statistica Aziendale Modello di regressione lineare multipla Michela Pasetto michela.pasetto2@unibo.it Definizione del modello OLS (semplice) L obiettivo della regressione lineare è di valutare

Dettagli

Stima della qualità dei classificatori per l analisi dei dati biomolecolari

Stima della qualità dei classificatori per l analisi dei dati biomolecolari Stima della qualità dei classificatori per l analisi dei dati biomolecolari Giorgio Valentini e-mail: valentini@dsi.unimi.it Rischio atteso e rischio empirico L` apprendimento di una funzione non nota

Dettagli

Elementi di Psicometria con Laboratorio di SPSS 1

Elementi di Psicometria con Laboratorio di SPSS 1 Elementi di Psicometria con Laboratorio di SPSS 1 13-Il t-test per campioni indipendenti vers. 1.1 (12 novembre 2014) Germano Rossi 1 germano.rossi@unimib.it 1 Dipartimento di Psicologia, Università di

Dettagli

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 6

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 6 CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 6 Dott.ssa Antonella Costanzo a.costanzo@unicas.it Esercizio 1. Associazione, correlazione e dipendenza tra caratteri In un collettivo di 11 famiglie è stata

Dettagli

Università del Piemonte Orientale. Corso di Laurea Triennale di Infermieristica Pediatrica ed Ostetricia. Corso di Statistica Medica

Università del Piemonte Orientale. Corso di Laurea Triennale di Infermieristica Pediatrica ed Ostetricia. Corso di Statistica Medica Università del Piemonte Orientale Corso di Laurea Triennale di Infermieristica Pediatrica ed Ostetricia Corso di Statistica Medica Le distribuzioni teoriche di probabilità La distribuzione Normale (o di

Dettagli

Computazione per l interazione naturale: macchine che apprendono

Computazione per l interazione naturale: macchine che apprendono Comput per l inter naturale: macchine che apprendono Corso di Inter uomo-macchina II Prof. Giuseppe Boccignone Dipartimento di Informatica Università di Milano boccignone@di.unimi.it http://boccignone.di.unimi.it/ium2_2014.html

Dettagli

WEKA. Ing. Antonio Brunetti Prof. Vitoantonio Bevilacqua

WEKA. Ing. Antonio Brunetti Prof. Vitoantonio Bevilacqua WEKA BIOINFORMATICS AND BIG DATA ANALYTICS Ing. Antonio Brunetti Prof. Vitoantonio Bevilacqua Indice Cosa è weka Tecnologie Hands On Weka Weka Explorer KnowledgeFlow /Simple CLI Caricare il dataset Il

Dettagli

Università del Piemonte Orientale. Corso di laurea in medicina e chirurgia. Corso di Statistica Medica. Intervalli di confidenza

Università del Piemonte Orientale. Corso di laurea in medicina e chirurgia. Corso di Statistica Medica. Intervalli di confidenza Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Intervalli di confidenza Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso

Dettagli

Data Mining. Prova parziale del 20 aprile 2017: SOLUZIONE

Data Mining. Prova parziale del 20 aprile 2017: SOLUZIONE Università degli Studi di Padova Corso di Laurea Magistrale in Informatica a.a. 2016/2017 Data Mining Docente: Annamaria Guolo Prova parziale del 20 aprile 2017: SOLUZIONE ISTRUZIONI: La durata della prova

Dettagli

Esercitazione 4 Distribuzioni campionarie e introduzione ai metodi Monte Carlo

Esercitazione 4 Distribuzioni campionarie e introduzione ai metodi Monte Carlo Esercitazione 4 Distribuzioni campionarie e introduzione ai metodi Monte Carlo 1. Gli studi di simulazione possono permetterci di apprezzare alcune delle proprietà di distribuzioni campionarie ricavate

Dettagli

Multi classificatori. Prof. Matteo Golfarelli Alma Mater Studiorum - Università di Bologna

Multi classificatori. Prof. Matteo Golfarelli Alma Mater Studiorum - Università di Bologna Multi classificatori Prof. Matteo Golfarelli Alma Mater Studiorum - Università di Bologna Combinazione di classificatori Idea: costruire più classificatori di base e predire la classe di appartenza di

Dettagli

Data Mining and Machine Learning Lab. Lezione 8 Master in Data Science for Economics, Business and Finance 2018

Data Mining and Machine Learning Lab. Lezione 8 Master in Data Science for Economics, Business and Finance 2018 Data Mining and Machine Learning Lab. Lezione 8 Master in Data Science for Economics, Business and Finance 2018 18.05.18 Marco Frasca Università degli Studi di Milano SVM - Richiami La Support Vector Machine

Dettagli

Contenuto del capitolo

Contenuto del capitolo Capitolo 8 Stima 1 Contenuto del capitolo Proprietà degli stimatori Correttezza: E(Stimatore) = parametro da stimare Efficienza Consistenza Intervalli di confidenza Per la media - per una proporzione Come

Dettagli

Questo calcolo richiede che si conoscano media e deviazione standard della popolazione.

Questo calcolo richiede che si conoscano media e deviazione standard della popolazione. Università del Piemonte Orientale Corso di laurea in biotecnologie Corso di Statistica Medica La distribuzione t - student 1 Abbiamo visto nelle lezioni precedenti come il calcolo del valore Z, riferito

Dettagli

Corso Minitab Pharma: Tecniche statistiche applicate alla produzione farmaceutica

Corso Minitab Pharma: Tecniche statistiche applicate alla produzione farmaceutica Corso Minitab Pharma: Tecniche statistiche applicate alla produzione farmaceutica Il corso si articola in 4 giornate durante le quali ogni partecipante avrà modo di apprendere ed utilizzare svariate metodologie

Dettagli

Regressione lineare semplice

Regressione lineare semplice Regressione lineare semplice Strumenti quantitativi per la gestione Emanuele Taufer Regressione lineare (RL) La regressione lineare per i dati Advertising Analisi d interesse Regressione lineare semplice

Dettagli

Statistica. Capitolo 10. Verifica di Ipotesi su una Singola Popolazione. Cap. 10-1

Statistica. Capitolo 10. Verifica di Ipotesi su una Singola Popolazione. Cap. 10-1 Statistica Capitolo 1 Verifica di Ipotesi su una Singola Popolazione Cap. 1-1 Obiettivi del Capitolo Dopo aver completato il capitolo, sarete in grado di: Formulare ipotesi nulla ed ipotesi alternativa

Dettagli

DISTRIBUZIONI DI PROBABILITA (parte 3) 1 / 34

DISTRIBUZIONI DI PROBABILITA (parte 3) 1 / 34 DISTRIBUZIONI DI PROBABILITA (parte 3) 1 / 34 Distribuzione Binomiale 2 / 34 La più importante distribuzione di probabilità per variabili casuali discrete è la distribuzione binomiale. Questa distribuzione

Dettagli

Capitolo 8. Intervalli di confidenza. Statistica. Levine, Krehbiel, Berenson. Casa editrice: Pearson. Insegnamento: Statistica

Capitolo 8. Intervalli di confidenza. Statistica. Levine, Krehbiel, Berenson. Casa editrice: Pearson. Insegnamento: Statistica Levine, Krehbiel, Berenson Statistica Casa editrice: Pearson Capitolo 8 Intervalli di confidenza Insegnamento: Statistica Corso di Laurea Triennale in Economia Dipartimento di Economia e Management, Università

Dettagli

Esercitazioni Infostat ConfInt

Esercitazioni Infostat ConfInt Esercitazioni Infostat ConfInt Matteo Re, Alessandro Di Domizio 3 Maggio 2019 1 Introduzione In questa esercitazione vedremo come stimare l intervallo di confidenza da un campione che assumiamo essere

Dettagli

ESERCITAZIONE REGRESSIONE MULTIPLA

ESERCITAZIONE REGRESSIONE MULTIPLA ESERCITAZIONE REGRESSIONE MULTIPLA Dati delle Nazioni Unite del 2005 riferiti, per diverse nazioni, al tasso di feconditá (bambini per donna) (variabile Fert), alla percentuale di donne che usa contraccettivi

Dettagli

Università del Piemonte Orientale. Corso di laurea in medicina e chirurgia. Corso di Statistica Medica. La distribuzione t - student

Università del Piemonte Orientale. Corso di laurea in medicina e chirurgia. Corso di Statistica Medica. La distribuzione t - student Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica La distribuzione t - student 1 Abbiamo visto nelle lezioni precedenti come il calcolo del valore Z,

Dettagli

Computazione per l interazione naturale: Regressione probabilistica

Computazione per l interazione naturale: Regressione probabilistica Computazione per l interazione naturale: Regressione probabilistica Corso di Interazione Naturale Prof. Giuseppe Boccignone Dipartimento di Informatica Università di Milano boccignone@di.unimi.it boccignone.di.unimi.it/in_2018.html

Dettagli

LABORATORI DI STATISTICA SOCIALE

LABORATORI DI STATISTICA SOCIALE Università degli Studi di Bergamo Dipartimento di Scienze Umane e Sociali Corso di Laurea in Scienze Psicologiche LABORATORI DI STATISTICA SOCIALE Lezione III Dott.ssa Roberta Adorni Dott.ssa Giulia Fusi

Dettagli

Statistica. Capitolo 13. Test sulla Bontà di Adattamento e Tabelle di Contingenza. Cap. 16-1

Statistica. Capitolo 13. Test sulla Bontà di Adattamento e Tabelle di Contingenza. Cap. 16-1 Statistica Capitolo 13 Test sulla Bontà di Adattamento e Tabelle di Contingenza Cap. 16-1 Obiettivi del Capitolo Dopo aver completato il capitolo, sarete in grado di: Usare il test sulla bontà di adattamento

Dettagli

Capitolo 12 La regressione lineare semplice

Capitolo 12 La regressione lineare semplice Levine, Krehbiel, Berenson Statistica II ed. 2006 Apogeo Capitolo 12 La regressione lineare semplice Insegnamento: Statistica Corso di Laurea Triennale in Ingegneria Gestionale Facoltà di Ingegneria, Università

Dettagli