Analisi discriminante in R Strumenti quantitativi per la gestione

Dimensione: px
Iniziare la visualizzazioe della pagina:

Download "Analisi discriminante in R Strumenti quantitativi per la gestione"

Transcript

1 Analisi discriminante in R Strumenti quantitativi per la gestione Emanuele Taufer Default data LDA con R Output Plot Previsione Tabella di classificazione Cambiare il criterio di classificazione Costruire la curva ROC Crossvalidazione LOOCV Stima del test error rate con LOOCV QDA LOOCV per QDA Confronto LDA QDA Confronto LDA QDA con la curva ROC Riferimenti bibliografici Default data Carichiamo il data set Default library(islr) data(default) head(default) default student balance income 1 No No No Yes No No No No No No No Yes LDA con R La funzione lda(), presente nella libreria MASS, permette di affrontare problemi di classificazione con LDA. La sintassi è analoga a quella che si usa nelle funzioni lm e glm file:///c:/users/emanuele.taufer/dropbox/3%20sqg/labs/l4_ _LDA.html 1/9

2 library(mass) lda.fit=lda(default~balance+income+student,data=default) Output lda.fit Call: lda(default ~ balance + income + student, data = Default) Prior probabilities of groups: No Yes Group means: balance income studentyes No Yes Coefficients of linear discriminants: LD1 balance e 03 income e 06 studentyes e 01 Plot plot(lda.fit) file:///c:/users/emanuele.taufer/dropbox/3%20sqg/labs/l4_ _LDA.html 2/9

3 Previsione La classificazione delle unità training (o test) può essere fatta con la funzione predict() L output di predict() contiene una serie di oggetti, utilizziamo la funzione names() per vedere quali sono e, per poterli analizzare ed utilizzare, mettiamo il tutto in un data.frame. lda.pred=predict(lda.fit, Default) names(lda.pred) [1] "class" "posterior" "x" previsione< as.data.frame(lda.pred) head(previsione) file:///c:/users/emanuele.taufer/dropbox/3%20sqg/labs/l4_ _LDA.html 3/9

4 class posterior.no posterior.yes LD1 1 No No No No No No Tabella di classificazione Costruiamo ora un data.frame, Default.LDA, che contiene i dati training e le previsioni della LDA. Costruiamo inoltre una tabella di classificazione Default.LDA< cbind(default, "pred.def"=lda.pred$class, "pr.def"=round(lda.pred$posterio r,digits=4)) head(default.lda) default student balance income pred.def pr.def.no pr.def.yes 1 No No No No Yes No No No No No No No No No No No Yes No attach(default.lda) addmargins(table(default,pred.def)) pred.def default No Yes Sum No Yes Sum Cambiare il criterio di classificazione Costruiamo una nuova variabile lda.pred.2 che classifica le unità come default=yes se la probabilità di default stimata dal modello di LDA è maggiore di lda.pred.2=rep("no",nrow(default)) lda.pred.2[default.lda$pr.def.yes>0.2]="yes" addmargins(table(default,lda.pred.2)) 0.2 file:///c:/users/emanuele.taufer/dropbox/3%20sqg/labs/l4_ _LDA.html 4/9

5 lda.pred.2 default No Yes Sum No Yes Sum Costruire la curva ROC Per costuire la curva ROC è necessario installare la libreria ROCR. Le tre righe di istruzioni indicate sotto fanno il resto library(rocr) pred < prediction(default.lda$pr.def.yes, default) perf < performance(pred, measure = "tpr", x.measure = "fpr") plot(perf, colorize=t,lwd=3) file:///c:/users/emanuele.taufer/dropbox/3%20sqg/labs/l4_ _LDA.html 5/9

6 Crossvalidazione LOOCV L opzione CV=TRUE nella funzione lda() produce un LOOCV sui dati. In questo caso l output contiene la classificazione prodotta e le probailità a posteriori (per ciascuna unità esclusa dal data set), per vederne solo una parte è opportuno mettere i risultati in un data.frame lda.fit=lda(default~balance+income+student,data=default,cv=t) names(lda.fit) [1] "class" "posterior" "terms" "call" "xlevels" lda.loocv< data.frame(lda.fit$class,lda.fit$posterior) head(lda.loocv) lda.fit.class No Yes 1 No No No No No No Stima del test error rate con LOOCV Calcoliamo una tabella di classificazione ( default=yes se la probabilità di default stimata dal modello di LDA è maggiore di ) in base ai risultati della LOOCV 0.2 lda.cv.pred.2=rep("no",nrow(default)) lda.cv.pred.2[lda.loocv$yes>0.2]="yes" addmargins(table(default,lda.cv.pred.2)) lda.cv.pred.2 default No Yes Sum No Yes Sum QDA L analisi discriminante quadratica può essere fatta utilizzando la funzione qda() qda.fit< qda(default~balance+income+student,data=default) qda.fit file:///c:/users/emanuele.taufer/dropbox/3%20sqg/labs/l4_ _LDA.html 6/9

7 Call: qda(default ~ balance + income + student, data = Default) Prior probabilities of groups: No Yes Group means: balance income studentyes No Yes LOOCV per QDA Analogamente a quanto visto per la LDA, una LOOCV può essere effettuata semplicemente inserendo l opzione CV=TRUE qda.fit< qda(default~balance+income+student,data=default,cv=true) names(qda.fit) [1] "class" "posterior" "terms" "call" "xlevels" qda.loocv< data.frame(qda.fit$class,qda.fit$posterior) head(qda.loocv) qda.fit.class No Yes 1 No No No No No No qda.cv.pred.2=rep("no",nrow(default)) qda.cv.pred.2[qda.loocv$yes>0.2]="yes" addmargins(table(default,qda.cv.pred.2)) qda.cv.pred.2 default No Yes Sum No Yes Sum file:///c:/users/emanuele.taufer/dropbox/3%20sqg/labs/l4_ _LDA.html 7/9

8 Confronto LDA QDA Utilizzando i risultati ottenuti, confrontiamo LDA e QDA comparando le stime del test error rate ottenute dalla LOOCV LDA QDA / /9667 La sensitività è pari al % ( ) La specificità è pari al % ( ) / /9667 La sensitività è pari al % ( ) La specificità è pari al % ( ) Confronto LDA QDA con la curva ROC lda.pred < prediction(lda.loocv$yes, default) lda.perf < performance(lda.pred, measure = "tpr", x.measure = "fpr") qda.pred < prediction(qda.loocv$yes, default) qda.perf < performance(qda.pred, measure = "tpr", x.measure = "fpr") plot(lda.perf, col="blue",lwd=2) plot(qda.perf, col="red",lwd=2,add=true) legend(0.6,0.6,c('lda','qda'),col=c('blue','red'),lwd=3) file:///c:/users/emanuele.taufer/dropbox/3%20sqg/labs/l4_ _LDA.html 8/9

9 Riferimenti bibliografici An Introduction to Statistical Learning, with applications in R. (Springer, 2013) Alcune delle figure in questa presentazione sono tratte dal testo con il permesso degli autori: G. James, D. Witten, T. Hastie e R. Tibshirani Tobias Sing, Oliver Sander, Niko Beerenwinkel, Thomas Lengauer. ROCR: visualizing classifier performance in R. Bioinformatics 21(20): (2005). file:///c:/users/emanuele.taufer/dropbox/3%20sqg/labs/l4_ _LDA.html 9/9

Analisi Discriminante Strumenti quantitativi per la gestione

Analisi Discriminante Strumenti quantitativi per la gestione Analisi Discriminante Strumenti quantitativi per la gestione Emanuele Taufer Un esempio introduttivo Approccio con Bayes Perchè un altro metodo di classificazione? Classificazione con Bayes Analisi discriminante

Dettagli

Regressione logistica

Regressione logistica Regressione logistica Strumenti quantitativi per la gestione Emanuele Taufer Metodi di classificazione Tecniche principali Alcuni esempi Data set Default I dati La regressione logistica Esempio Il modello

Dettagli

Regressione logistica. Strumenti quantitativi per la gestione

Regressione logistica. Strumenti quantitativi per la gestione Regressione logistica Strumenti quantitativi per la gestione Emanuele Taufer file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/4a_rlg.html#(1) 1/25 Metodi di classificazione I metodi usati per analizzare

Dettagli

Quiz di verifica Classificazione

Quiz di verifica Classificazione Quiz di verifica Classificazione Strumenti Quantitativi per la gestione Le domande 1 4 si riferiscono al seguente problema: Supponiamo di raccogliere dati per un gruppo di studenti della classe di SQG

Dettagli

Modelli con predittori qualitativi e modelli con interazioni. Strumenti quantitativi per la gestione

Modelli con predittori qualitativi e modelli con interazioni. Strumenti quantitativi per la gestione Modelli con predittori qualitativi e modelli con interazioni Strumenti quantitativi per la gestione Emanuele Taufer file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/3d_viq.html#(1) 1/26 Utilizzare

Dettagli

e applicazioni al dominio del Contact Management Andrea Brunello Università degli Studi di Udine

e applicazioni al dominio del Contact Management Andrea Brunello Università degli Studi di Udine e applicazioni al dominio del Contact Management Parte V: combinazione di Università degli Studi di Udine In collaborazione con dott. Enrico Marzano, CIO Gap srl progetto Active Contact System 1/10 Contenuti

Dettagli

Modelli con predittori qualitativi e modelli con interazioni

Modelli con predittori qualitativi e modelli con interazioni Modelli con predittori qualitativi e modelli con interazioni Strumenti quantitativi per la gestione Emanuele Taufer Utilizzare variabili indipendenti qualitative (VIQ) Codifica binaria 0,1 Esempio: salari

Dettagli

Regressione lineare multipla Strumenti quantitativi per la gestione

Regressione lineare multipla Strumenti quantitativi per la gestione Regressione lineare multipla Strumenti quantitativi per la gestione Emanuele Taufer Regressione lineare multipla (RLM) Esempio: RLM con due predittori Stima dei coefficienti e previsione Advertising data

Dettagli

Regressione lineare semplice

Regressione lineare semplice Regressione lineare semplice Strumenti quantitativi per la gestione Emanuele Taufer Regressione lineare (RL) La regressione lineare per i dati Advertising Analisi d interesse Regressione lineare semplice

Dettagli

Regressione con componenti principali (PCR) Strumenti quantitativi per la gestione

Regressione con componenti principali (PCR) Strumenti quantitativi per la gestione Regressione con componenti principali (PCR) Strumenti quantitativi per la gestione Emanuele Taufer Dati Hitters Eliminare le righe con dati mancanti PCR Variabili nell oggetto creato da pcr() Coefficienti

Dettagli

Metodi per la riduzione della dimensionalità. Strumenti quantitativi per la gestione

Metodi per la riduzione della dimensionalità. Strumenti quantitativi per la gestione Metodi per la riduzione della dimensionalità Strumenti quantitativi per la gestione Emanuele Taufer file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/6c_pca.html#(1) 1/25 Introduzione Gli approcci

Dettagli

Naïve Bayesian Classification

Naïve Bayesian Classification Naïve Bayesian Classification Di Alessandro rezzani Sommario Naïve Bayesian Classification (o classificazione Bayesiana)... 1 L algoritmo... 2 Naive Bayes in R... 5 Esempio 1... 5 Esempio 2... 5 L algoritmo

Dettagli

Statistical learning Strumenti quantitativi per la gestione

Statistical learning Strumenti quantitativi per la gestione Statistical learning Strumenti quantitativi per la gestione Emanuele Taufer Vendite Simbologia Reddito Statistical learning A cosa ci serve f? 1 Previsione 2 Inferenza Previsione Errore riducibile e errore

Dettagli

Modelli non lineari Strumenti quantitativi per la gestione

Modelli non lineari Strumenti quantitativi per la gestione Modelli non lineari Strumenti quantitativi per la gestione Emanuele Taufer Metodi per affrontare problemi non lineari Regressione polinomiale Esempio: modellare i picchi di domanda di energia Fattori che

Dettagli

Validazione dei modelli Strumenti quantitativi per la gestione

Validazione dei modelli Strumenti quantitativi per la gestione Validazione dei modelli Strumenti quantitativi per la gestione Emanuele Taufer Validazione dei modelli Il data set Auto I dati Il problema analizzato Validation set approach Diagramma a dispersione Test

Dettagli

Analisi Discriminante Canonica con R

Analisi Discriminante Canonica con R Università di Bologna - Facoltà di Scienze Statistiche Laurea Triennale in Statistica e Ricerca Sociale Corso di Analisi di Serie Storiche e Multidimensionali Prof.ssa Marilena Pillati Analisi Discriminante

Dettagli

Regressione Lineare Semplice e Correlazione

Regressione Lineare Semplice e Correlazione Regressione Lineare Semplice e Correlazione 1 Introduzione La Regressione è una tecnica di analisi della relazione tra due variabili quantitative Questa tecnica è utilizzata per calcolare il valore (y)

Dettagli

Modelli non lineari. Strumenti quantitativi per la gestione

Modelli non lineari. Strumenti quantitativi per la gestione Modelli non lineari Strumenti quantitativi per la gestione Emanuele Taufer file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/7_gam.html#(5) 1/54 Metodi per affrontare problemi nonlineari Regressione

Dettagli

DESCRIZIONE DEL DATA SET

DESCRIZIONE DEL DATA SET DESCRIZIONE DEL DATA SET Fonte: UC Irvine Machine Learning Repository Autore: Michael Redmond Nome data set: Communities and Crime CONTENUTI DEL DATA SET DI PARTENZA 125 POTENZIALI PREDITTORI Dati socio-economici

Dettagli

Pulse Sense: la matematica per l individuazione di anomalie in un tracciato elettrocardiografico

Pulse Sense: la matematica per l individuazione di anomalie in un tracciato elettrocardiografico Pulse Sense: la matematica per l individuazione di anomalie in un tracciato elettrocardiografico Pasqualina Fragneto Quando i matematici non entrano in aula Trento 2017 1 AST Applied Math Team Che cosa

Dettagli

Riconoscimento e recupero dell informazione per bioinformatica

Riconoscimento e recupero dell informazione per bioinformatica Riconoscimento e recupero dell informazione per bioinformatica Teoria della decisione di Bayes Manuele Bicego Corso di Laurea in Bioinformatica Dipartimento di Informatica - Università di Verona Sommario

Dettagli

7. ANALISI DISCRIMINANTE

7. ANALISI DISCRIMINANTE 7. ANALISI DISCRIMINANTE 7. Introduzione Uno tra i primi a parlare di analisi discriminante (AD) fu Fisher, con riferimento all'attribuzione di alcuni reperti fossili alla categoria dei primati o a quella

Dettagli

Luigi Santoro. Hyperphar Group S.p.A., MIlano

Luigi Santoro. Hyperphar Group S.p.A., MIlano Come modellare il rischio Luigi Santoro Hyperphar Group S.p.A., MIlano Gli argomenti discussi Le definizioni del termine rischio L utilità di un modello predittivo di rischio Come costruire modelli predittivi

Dettagli

METODI DI CLASSIFICAZIONE. Federico Marini

METODI DI CLASSIFICAZIONE. Federico Marini METODI DI CLASSIFICAZIONE Federico Marini Introduzione Nella parte introduttiva dell analisi multivariata abbiamo descritto la possibilità di riconoscere l origine di alcuni campioni come uno dei campi

Dettagli

Dall Analisi Fattoriale alla Regressione Lineare

Dall Analisi Fattoriale alla Regressione Lineare Dall Analisi Fattoriale alla Regressione Lineare Metodi Quantitativi per Economia, Finanza e Management Esercitazione n 10 Consegna Lavoro di gruppo La scadenza per la consegna del lavoro di gruppo è fissata

Dettagli

STATISTICA 1, metodi matematici e statistici Introduzione al linguaggio R Esercitazione 7:

STATISTICA 1, metodi matematici e statistici Introduzione al linguaggio R Esercitazione 7: esercitazione 7 p. 1/13 STATISTICA 1, metodi matematici e statistici Introduzione al linguaggio R Esercitazione 7: 20-05-2004 Luca Monno Università degli studi di Pavia luca.monno@unipv.it http://www.lucamonno.it

Dettagli

Ulteriori conoscenze di informatica Elementi di statistica Esercitazione3

Ulteriori conoscenze di informatica Elementi di statistica Esercitazione3 Ulteriori conoscenze di informatica Elementi di statistica Esercitazione3 Sui PC a disposizione sono istallati diversi sistemi operativi. All accensione scegliere Windows. Immettere Nome utente b## (##

Dettagli

Misure Ripetute. Partizione della Varianza. Marcello Gallucci

Misure Ripetute. Partizione della Varianza. Marcello Gallucci Misure Ripetute Partizione della Varianza Marcello Gallucci GLM l ANOVA a misure ripetute rappresenta un caso del modello lineare generale in cui la variabilità non è valutata tra gruppi ma tra misure

Dettagli

Stima della qualità dei classificatori per l analisi dei dati biomolecolari

Stima della qualità dei classificatori per l analisi dei dati biomolecolari Stima della qualità dei classificatori per l analisi dei dati biomolecolari Giorgio Valentini e-mail: valentini@dsi.unimi.it Rischio atteso e rischio empirico L` apprendimento di una funzione non nota

Dettagli

Riconoscimento e recupero dell informazione per bioinformatica

Riconoscimento e recupero dell informazione per bioinformatica Riconoscimento e recupero dell informazione per bioinformatica Classificazione: validazione Manuele Bicego Corso di Laurea in Bioinformatica Dipartimento di Informatica - Università di Verona Introduzione

Dettagli

5.5 Modelli per l ozono di Vicenza

5.5 Modelli per l ozono di Vicenza il modello Vl-Net3 è guidato con più forza dalle stesse variabili che influenzano maggiormente le determinazioni del modello Vl-Net2 : la temperatura, la radiazione solare, l ozono di Valdagno dell ora

Dettagli

CAPITOLO 5 Introduzione ai piani fattoriali

CAPITOLO 5 Introduzione ai piani fattoriali Douglas C. Montgomery Progettazione e analisi degli esperimenti 2006 McGraw-Hill CAPITOLO 5 Introduzione ai piani fattoriali Metodi statistici e probabilistici per l ingegneria Corso di Laurea in Ingegneria

Dettagli

Prefazione Ringraziamenti dell'editore Il sito web dedicato al libro Test online: la piattaforma McGraw-Hill Education Guida alla lettura

Prefazione Ringraziamenti dell'editore Il sito web dedicato al libro Test online: la piattaforma McGraw-Hill Education Guida alla lettura INDICE GENERALE Prefazione Ringraziamenti dell'editore Il sito web dedicato al libro Test online: la piattaforma McGraw-Hill Education Guida alla lettura XI XIV XV XVII XVIII 1 LA RILEVAZIONE DEI FENOMENI

Dettagli

Valutazione delle Prestazioni di un Classificatore. Performance Evaluation

Valutazione delle Prestazioni di un Classificatore. Performance Evaluation Valutazione delle Prestazioni di un Classificatore Performance Evaluation Valutazione delle Prestazioni Una volta appreso un classificatore è di fondamentale importanza valutarne le prestazioni La valutazione

Dettagli

27 Marzo (a) Formulare una ipotesi sul modello tempo di vita di questa valvola e sottoporla a verifica.

27 Marzo (a) Formulare una ipotesi sul modello tempo di vita di questa valvola e sottoporla a verifica. Prova scritta di Affidabilità dei sistemi e Controllo statistico di qualità 27 Marzo 20 Tempo di lavoro: 2 ore. Gli esercizi vanno svolti in un file word. Riportare su questo file sia i grafici che eventuali

Dettagli

STATISTICA 1 ESERCITAZIONE 6

STATISTICA 1 ESERCITAZIONE 6 STATISTICA 1 ESERCITAZIONE 6 Dott. Giuseppe Pandolfo 5 Novembre 013 CONCENTRAZIONE Osservando l ammontare di un carattere quantitativo trasferibile su un collettivo statistico può essere interessante sapere

Dettagli

STATISTICA A K (60 ore)

STATISTICA A K (60 ore) STATISTICA A K (60 ore) Marco Riani mriani@unipr.it http://www.riani.it Richiami sulla regressione Marco Riani, Univ. di Parma 1 MODELLO DI REGRESSIONE y i = a + bx i + e i dove: i = 1,, n a + bx i rappresenta

Dettagli

0.1 Percorrenza e Cilindrata

0.1 Percorrenza e Cilindrata 0.1 Percorrenza e Cilindrata Iniziamo ora un analisi leggermente più complessa basata sempre sui concetti appena introdotti. Innanzi tutto possiamo osservare, dal grafico ottenuto con il comando pairs,

Dettagli

Introduzione alla Regressione Logistica

Introduzione alla Regressione Logistica Introduzione alla Regressione Logistica Contenuto regressione lineare semplice e multipla regressione logistica lineare semplice La funzione logistica Stima dei parametri Interpretazione dei coefficienti

Dettagli

Tecniche di riconoscimento statistico

Tecniche di riconoscimento statistico On AIR s.r.l. Tecniche di riconoscimento statistico Applicazioni alla lettura automatica di testi (OCR) Parte 2 Teoria della decisione Ennio Ottaviani On AIR srl ennio.ottaviani@onairweb.com http://www.onairweb.com/corsopr

Dettagli

ESERCIZIO 1. Vengono riportati di seguito i risultati di un analisi discriminante.

ESERCIZIO 1. Vengono riportati di seguito i risultati di un analisi discriminante. ESERCIZIO 1. Vengono riportati di seguito i risultati di un analisi discriminante. Test di uguaglianza delle medie di gruppo SELF_EFF COLL_EFF COIN_LAV IMPEGNO SODDISF CAP_IST COLLEGHI Lambda di Wilks

Dettagli

Francesca Pierri Dipartimento di Economia Finanza e Statistica Università degli Studi di Perugia

Francesca Pierri Dipartimento di Economia Finanza e Statistica Università degli Studi di Perugia Francesca Pierri Dipartimento di Economia Finanza e Statistica Università degli Studi di Perugia Introduzione La ricerca accademica ha spesso evidenziato l esigenza di costruire indicatori delle performance

Dettagli

Classificazione Validazione Decision Tree & kmeans. Renato Mainetti

Classificazione Validazione Decision Tree & kmeans. Renato Mainetti Classificazione Validazione Decision Tree & kmeans Renato Mainetti Apprendimento Supervisionato e Non Supervisionato: forniamo input e output Non supervisionato: forniamo solo input 2 Apprendimento Supervisionato

Dettagli

Caratterizzazione dell origine geografica della mozzarella di bufala mediante spettroscopia NMR (dal progetto IZS AM 0409)

Caratterizzazione dell origine geografica della mozzarella di bufala mediante spettroscopia NMR (dal progetto IZS AM 0409) Ricerca finanziata dal Ministero della Salute Dipartimento per la Sanità Pubblica Veterinaria, la Nutrizione e la Sicurezza degli Alimenti Caratterizzazione dell origine geografica della mozzarella di

Dettagli

Elisabetta Ronchieri Elenco Progetti di Informatica Ottobre 20, 2014

Elisabetta Ronchieri Elenco Progetti di Informatica Ottobre 20, 2014 Tassi di Cambio 1 Stato dei Progetti Ogni studente deve scegliere il progetto di interesse e comunicarlo al docente. Questo ultimo fornirá allo studente il file.csv legato al progetto e cambierá lo stato

Dettagli

APPENDICE III. CONSIGLI PER L USO DEL SOFTWARE R (a cura del Dott. Lorenzo Giolli)

APPENDICE III. CONSIGLI PER L USO DEL SOFTWARE R (a cura del Dott. Lorenzo Giolli) APPENDICE III. CONSIGLI PER L USO DEL SOFTWARE R (a cura del Dott. Lorenzo Giolli) AIII.1. Installazione del software R Aprire il browser e andare alla pagina www.r-project.org e cliccare CRAN (Download,

Dettagli

MODELLI QUANTITATIVI. f x r = c

MODELLI QUANTITATIVI. f x r = c MODELLI QUANTITATIVI Qualunque sia il modello di estrazione di regolarità o di conoscenze dai dati empirici, esiste sempre una base statistica da cui occorre partire. Un fenomeno linguistico specifico

Dettagli

Indice Prefazione XIII Capitolo 1 Introduzione al Visual Basic per Excel

Indice Prefazione XIII Capitolo 1 Introduzione al Visual Basic per Excel Indice Prefazione XIII Capitolo 1 Introduzione al Visual Basic per Excel 1 1.1 Premessa 1 1.2 Lavorare in Ambiente Excel 2 1.3 Le Macro di Excel 4 Dal Linguaggio Macro al Visual Basic for Application 4

Dettagli

Regressione Lineare e Regressione Logistica

Regressione Lineare e Regressione Logistica Regressione Lineare e Regressione Logistica Stefano Gualandi Università di Pavia, Dipartimento di Matematica email: twitter: blog: stefano.gualandi@unipv.it @famo2spaghi http://stegua.github.com 1 Introduzione

Dettagli

Corso di Riconoscimento di Forme. Sommario: Matrice di confusione Cross validation Prestazioni nel KNN

Corso di Riconoscimento di Forme. Sommario: Matrice di confusione Cross validation Prestazioni nel KNN Corso di Riconoscimento di Forme Sommario: Matrice di confusione Cross validation Prestazioni nel KNN Matrice di confusione Il semplice calcolo dell'errore di classificazione non permette di capire il

Dettagli

Analisi della varianza

Analisi della varianza Analisi della varianza Prof. Giuseppe Verlato Sezione di Epidemiologia e Statistica Medica, Università di Verona ANALISI DELLA VARIANZA - 1 Abbiamo k gruppi, con un numero variabile di unità statistiche.

Dettagli

Tra vecchie e nuove disuguaglianze: la partecipazione scolastica degli studenti immigrati nelle scuole secondarie superiori in Italia

Tra vecchie e nuove disuguaglianze: la partecipazione scolastica degli studenti immigrati nelle scuole secondarie superiori in Italia Tra vecchie e nuove disuguaglianze: la partecipazione scolastica degli studenti immigrati nelle scuole secondarie superiori in Italia DAVIDE AZZOLINI e CARLO BARONE davide.azzolini@unitn.it; carlo.barone@unitn.it

Dettagli

Laboratorio R Corso di Algebra e Modelli lineari (Anno Accademico 2011-12)

Laboratorio R Corso di Algebra e Modelli lineari (Anno Accademico 2011-12) Laboratorio R Corso di Algebra e Modelli lineari (Anno Accademico 011-1) REGRESSIONE LINEARE SEMPLICE OPEN STATISTICA 8.44 Per 8 settimanali, appartenenti alla medesima fascia di prezzo e presenti in edicola

Dettagli

ESERCIZIO 1. Di seguito vengono riportati i risultati di un modello fattoriale di analisi della varianza con 3 fattori tra i soggetti.

ESERCIZIO 1. Di seguito vengono riportati i risultati di un modello fattoriale di analisi della varianza con 3 fattori tra i soggetti. ESERCIZIO. Di seguito vengono riportati i risultati di un modello fattoriale di analisi della varianza con fattori tra i soggetti. Variabile dipendente: PERF Sorgente Modello corretto Intercept SEX_96

Dettagli

Variabilità e Concentrazione Esercitazione n 02

Variabilità e Concentrazione Esercitazione n 02 Variabilità e Concentrazione Esercitazione n 02 ESERCIZIO 1 Nella tabella di seguito sono riportati i dati relativi al tempo necessario a 8 studenti per svolgere un test di valutazione (in ore): Tempo

Dettagli

Modelli e Metodi per il Supporto alle Decisioni II A.A. 2016/2017

Modelli e Metodi per il Supporto alle Decisioni II A.A. 2016/2017 Modelli e Metodi per il Supporto alle Decisioni II A.A. 2016/2017 Macroprogetto MCDA: argomenti, obiettivi, risultati attesi Metodi di base individuare fenomeni di rank reversal (tra i problemi a 6 e a

Dettagli

Corso integrato di informatica, statistica e analisi dei dati sperimentali Esercitazione VII

Corso integrato di informatica, statistica e analisi dei dati sperimentali Esercitazione VII Corso integrato di informatica, statistica e analisi dei dati sperimentali Esercitazione VII Un breve richiamo sul test t-student Siano A exp (a 1, a 2.a n ) e B exp (b 1, b 2.b m ) due set di dati i cui

Dettagli

Università Politecnica delle Marche - Facoltà di Ingegneria Ing. Informatica e Automatica - Ing. Logistica e Produzione

Università Politecnica delle Marche - Facoltà di Ingegneria Ing. Informatica e Automatica - Ing. Logistica e Produzione ANALISI NUMERICA - Primo Parziale - TEMA A PARTE I. Si chiede allo studente di trattare i seguenti argomenti nel modo più completo possibile. 1. Propagazione degli errori nel caso di operazioni elementari

Dettagli

Machine Learning: apprendimento, generalizzazione e stima dell errore di generalizzazione

Machine Learning: apprendimento, generalizzazione e stima dell errore di generalizzazione Corso di Bioinformatica Machine Learning: apprendimento, generalizzazione e stima dell errore di generalizzazione Giorgio Valentini DI Università degli Studi di Milano 1 Metodi di machine learning I metodi

Dettagli

Excel. È data la distribuzione di 1863 famiglie italiane secondo il numero di componenti:

Excel. È data la distribuzione di 1863 famiglie italiane secondo il numero di componenti: Excel È data la distribuzione di 1863 famiglie italiane secondo il numero di componenti: Calcolare per ogni classe della distribuzione: (a) le frequenze relative; Sia data la distribuzione degli studenti

Dettagli

Correzione primo compitino, testo B

Correzione primo compitino, testo B Correzione primo compitino, testo B gennaio 20 Parte Esercizio Facciamo riferimento alle pagine 22 e 2 del libro di testo Quando si ha a che fare con la moltiplicazione o la divisione di misure bisogna

Dettagli

Carta di credito standard. Carta di credito business. Esercitazione 12 maggio 2016

Carta di credito standard. Carta di credito business. Esercitazione 12 maggio 2016 Esercitazione 12 maggio 2016 ESERCIZIO 1 Si supponga che in un sondaggio di opinione su un campione di clienti, che utilizzano una carta di credito di tipo standard (Std) o di tipo business (Bsn), si siano

Dettagli

1 L analisi discriminante lineare

1 L analisi discriminante lineare 1 L analisi discriminante lineare L analisi discriminante lineare presuppone che p variabili (quantitative) Y 1,... Y p siano state misurate su osservazioni appartenenti a 2 o più gruppi: G 1,...,G k,

Dettagli

Statistical learning methods for classification and profiling

Statistical learning methods for classification and profiling Statistical learning methods for classification and profiling AGCom Workshop on the impact of online platforms on information freedom and media pluralism: Fake News and Other regulatory challenges Antonio

Dettagli

Mini dispensa di Microsoft Excel 2007 ad uso esclusivo degli studenti del corso di Programmazione e Controllo Matricole Pari

Mini dispensa di Microsoft Excel 2007 ad uso esclusivo degli studenti del corso di Programmazione e Controllo Matricole Pari Mini dispensa di Microsoft Excel 2007 ad uso esclusivo degli studenti del corso di Programmazione e Controllo Matricole Pari A cura di Gaspare Allegra 1 Un primo sguardo al programma Corso di Programmazione

Dettagli

Classificazione bio-molecolare di tessuti e geni come problema di apprendimento automatico e validazione dei risultati

Classificazione bio-molecolare di tessuti e geni come problema di apprendimento automatico e validazione dei risultati Classificazione bio-molecolare di tessuti e geni come problema di apprendimento automatico e validazione dei risultati Giorgio Valentini e-mail: valentini@dsi.unimi.it DSI Dip. Scienze dell'informazione

Dettagli

Sommario. Capitolo 1 I dati e la statistica 1. Capitolo 2 Statistica descrittiva: tabelle e rappresentazioni grafiche 25

Sommario. Capitolo 1 I dati e la statistica 1. Capitolo 2 Statistica descrittiva: tabelle e rappresentazioni grafiche 25 Sommario Presentazione dell edizione italiana Prefazione xv xiii Capitolo 1 I dati e la statistica 1 Statistica in pratica: BusinessWeek 1 1.1 Le applicazioni in ambito aziendale ed economico 3 Contabilità

Dettagli

Statistica multivariata 27/09/2016. D.Rodi, 2016

Statistica multivariata 27/09/2016. D.Rodi, 2016 Statistica multivariata 27/09/2016 Metodi Statistici Statistica Descrittiva Studio di uno o più fenomeni osservati sull INTERA popolazione di interesse (rilevazione esaustiva) Descrizione delle caratteristiche

Dettagli

Data Import pulizia dati e Probabilità. Renato Mainetti

Data Import pulizia dati e Probabilità. Renato Mainetti Data Import pulizia dati e Probabilità Renato Mainetti Importare dati in Matlab: Abbiamo visto come sia possibile generare array e matrici di dati. Per ora abbiamo sempre inserito i dati manualmente o

Dettagli

Dispensa di Statistica

Dispensa di Statistica Dispensa di Statistica 1 parziale 2012/2013 Diagrammi... 2 Indici di posizione... 4 Media... 4 Moda... 5 Mediana... 5 Indici di dispersione... 7 Varianza... 7 Scarto Quadratico Medio (SQM)... 7 La disuguaglianza

Dettagli

Regressione Logistica

Regressione Logistica Regressione Logistica Esercizio Data set: Nel data set heart.txt (o heart.sav) sono contenute informazioni riguardo 302 pazienti che hanno avuto infarto e 60 che non hanno avuto infarto in uno studio retrospettivo

Dettagli

3.1 Classificazione dei fenomeni statistici Questionari e scale di modalità Classificazione delle scale di modalità 17

3.1 Classificazione dei fenomeni statistici Questionari e scale di modalità Classificazione delle scale di modalità 17 C L Autore Ringraziamenti dell Editore Elenco dei simboli e delle abbreviazioni in ordine di apparizione XI XI XIII 1 Introduzione 1 FAQ e qualcos altro, da leggere prima 1.1 Questo è un libro di Statistica

Dettagli

Valutazione economica dell integrazione della comunità cinese a Prato: una analisi basata sulla SAM Provinciale bi-etnica

Valutazione economica dell integrazione della comunità cinese a Prato: una analisi basata sulla SAM Provinciale bi-etnica Valutazione economica dell integrazione della comunità cinese a Prato: una analisi basata sulla SAM Provinciale bi-etnica Stefano Rosignoli - IRPET XXXVII Conferenza scientifica annuale AISRe Ancona, 22

Dettagli

Laboratorio di Programmazione II Corso di Laurea in Bioinformatica Dipartimento di Informatica - Università di Verona

Laboratorio di Programmazione II Corso di Laurea in Bioinformatica Dipartimento di Informatica - Università di Verona Laboratorio di Programmazione II Corso di Laurea in Bioinformatica Dipartimento di Informatica - Università di Verona Sommario Stime puntuali ed intervalli Motivazioni Fare inferenze circa un insieme

Dettagli

Il Corso di Fisica per Scienze Biologiche

Il Corso di Fisica per Scienze Biologiche Il Corso di Fisica per Scienze Biologiche Ø Prof. Attilio Santocchia Ø Ufficio presso il Dipartimento di Fisica (Quinto Piano) Tel. 75-585 278 Ø E-mail: attilio.santocchia@pg.infn.it Ø Web: http://www.fisica.unipg.it/~attilio.santocchia/

Dettagli

Classificazione Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007

Classificazione Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007 Classificazione Introduzione I modelli di classificazione si collocano tra i metodi di apprendimento supervisionato e si rivolgono alla predizione di un attributo target categorico. A partire da un insieme

Dettagli

Corso di Analisi Matematica. Polinomi e serie di Taylor

Corso di Analisi Matematica. Polinomi e serie di Taylor a.a. 2011/12 Laurea triennale in Informatica Corso di Analisi Matematica Polinomi e serie di Taylor Avvertenza Questi sono appunti informali delle lezioni, che vengono resi disponibili per comodità degli

Dettagli

L'implementazione delle ROC Curve nei modelli GAMLSS come strumento di previsione per i Big Data

L'implementazione delle ROC Curve nei modelli GAMLSS come strumento di previsione per i Big Data L'implementazione delle ROC Curve nei modelli GAMLSS come strumento di previsione per i Big Data Paolo Mariani, Andrea Marletta Dipartimento di Economia, Metodi Quantitativi e Strategie di Impresa, Università

Dettagli

si tratta del test del chi-quadro di adattamento e di quello di indipendenza. 1 l ipotesi che la popolazione segua una legge fissata;

si tratta del test del chi-quadro di adattamento e di quello di indipendenza. 1 l ipotesi che la popolazione segua una legge fissata; di : dado : normale Finora abbiamo visto test d ipotesi per testare ipotesi differenti, ma tutte concernenti il valore atteso di una o due popolazioni. In questo capitolo vediamo come testare 1 l ipotesi

Dettagli

Corso di Psicometria Progredito

Corso di Psicometria Progredito Corso di Psicometria Progredito 5. La correlazione lineare Gianmarco Altoè Dipartimento di Pedagogia, Psicologia e Filosofia Università di Cagliari, Anno Accademico 2013-2014 Sommario 1 Tipi di relazione

Dettagli

Probabilità e Statistica Prova del 29/07/2016 Traccia E TEORIA Università degli Studi di Verona Laurea in Informatica e Bioinformatica A.A.

Probabilità e Statistica Prova del 29/07/2016 Traccia E TEORIA Università degli Studi di Verona Laurea in Informatica e Bioinformatica A.A. Prova del 29/07/2016 Traccia E TEORIA ESERCIZIO 1 X f(x) 4 24 0 20 9 18 5 38 Sulla distribuzione di valori presentata in tabella, calcolare: (a) la media aritmetica, la media armonica e la media geometrica;

Dettagli

> Ciliegi <- read.table("i:/modelli/cherry.dat", + col.names=c( diametro, altezza, volume ))

> Ciliegi <- read.table(i:/modelli/cherry.dat, + col.names=c( diametro, altezza, volume )) Laboratorio 2 Modello lineare semplice 2.1 Analisi dei dati CHERRY.DAT Riprendiamo l insieme di dati Ciliegi della precedente lezione. Se non era stato salvato, bisogna rileggerlo da file: > Ciliegi

Dettagli

CON APPLICAZIONE A CASI DI STUDIO

CON APPLICAZIONE A CASI DI STUDIO CORSO DI LAUREA IN STATISTICA E GESTIONE DELLE IMPRESE TESI DI LAUREA IMPLEMENTAZIONE DELLA CURVA ROC IN R CON APPLICAZIONE A CASI DI STUDIO Relatore: Ch.ma Prof.ssa Laura Ventura Laureando: Federico Rosina

Dettagli

Ringraziamenti dell Editore

Ringraziamenti dell Editore Indice Elenco dei simboli e delle abbreviazioni in ordine di apparizione Ringraziamenti dell Editore XI XVII 1 Introduzione FAQ e qualcos altro, da leggere prima 1 1.1 QuestoèunlibrodiStatistica....................

Dettagli

0 altimenti 1 soggetto trova lavoroentro 6 mesi}

0 altimenti 1 soggetto trova lavoroentro 6 mesi} Lezione n. 16 (a cura di Peluso Filomena Francesca) Oltre alle normali variabili risposta che presentano una continuità almeno all'interno di un certo intervallo di valori, esistono variabili risposta

Dettagli

Breve Manuale di Riferimento sulla Sintassi Linguaggi C++ e FORTRAN

Breve Manuale di Riferimento sulla Sintassi Linguaggi C++ e FORTRAN Breve Manuale di Riferimento sulla Sintassi Linguaggi e versione aggiornata al 05/02/2004 Sommario Elementi di Base... 2 Dati, Tipi e Dichiarazioni... 2 Tipi di Dato di Base... 2 Tipi di Dato Strutturati...

Dettagli

Distribuzione Gaussiana - Facciamo un riassunto -

Distribuzione Gaussiana - Facciamo un riassunto - Distribuzione Gaussiana - Facciamo un riassunto - Nell ipotesi che i dati si distribuiscano seguendo una curva Gaussiana è possibile dare un carattere predittivo alla deviazione standard La prossima misura

Dettagli

Metodi per la riduzione della dimensionalità Strumenti quantitativi per la gestione

Metodi per la riduzione della dimensionalità Strumenti quantitativi per la gestione Metodi er la riduzione della dimensionalità Strumenti quantitativi er la gestione Emanuele Taufer Introduzione Combinazioni lineari Regressione lineare sulle variabili trasformate Dettaglio teorico Metodi

Dettagli

Fondamenti di Informatica T-1

Fondamenti di Informatica T-1 Fondamenti di Informatica T-1 Introduzione al linguaggio Java - Input/Output, Variabili, Tipi Tutor: Allegra De Filippo allegra.defilippo@unibo.it a.a. 2015/2016 Fondamenti di Informatica T-1 Allegra De

Dettagli

Lab. 2 - Excel. Prof. De Michele e Farina

Lab. 2 - Excel. Prof. De Michele e Farina Lab. 2 - Excel Prof. De Michele e Farina 1 Utilizzo avanzato di un foglio elettronico: - Utilizzo di funzioni Regressioni lineari Istogrammi 2 La funzione somma restituisce la somma dei valori dei propri

Dettagli

Esplorazione grafica di dati multivariati. N. Del Buono

Esplorazione grafica di dati multivariati. N. Del Buono Esplorazione grafica di dati multivariati N. Del Buono Scatterplot Scatterplot permette di individuare graficamente le possibili associazioni tra due variabili Variabile descrittiva (explanatory variable)

Dettagli

Data Import e Probabilità. Renato Mainetti

Data Import e Probabilità. Renato Mainetti Data Import e Probabilità Renato Mainetti Importare dati in Matlab: Abbiamo visto come sia possibile generare array e matrici di dati. Per ora abbiamo sempre inserito i dati manualmente o utilizzando metodi

Dettagli

Rappresentazioni grafiche

Rappresentazioni grafiche Rappresentazioni grafiche Domenico Vistocco vistocco@unicas.it Dipartimento di Scienze Economiche UNIVERSITÀ DI CASSINO Corso di Statistica Le elaborazioni e i grafici sono stati ottenuti con il software

Dettagli

Per una valutazione made in Italy della razza Valutazione genetica del peso a 210 giorni ed accrescimento giornaliero per la razza Limousine italiana

Per una valutazione made in Italy della razza Valutazione genetica del peso a 210 giorni ed accrescimento giornaliero per la razza Limousine italiana Per una valutazione made in Italy della razza Valutazione genetica del peso a 210 giorni ed accrescimento giornaliero per la razza Limousine italiana Mauro Fioretti Ufficio Studi A.I.A. Per la razza Limousine

Dettagli

MANUALE XMGRACE. A cura di Giuseppe Ciaburro.

MANUALE XMGRACE. A cura di Giuseppe Ciaburro. MANUALE XMGRACE A cura di Giuseppe Ciaburro http://www.ciaburro.it info@ciaburro.it Indice 0.1 Introduzione........................................... 4 0.2 Avvio..............................................

Dettagli

Strumenti informatici Realizzare il test dei segni con Excel e SPSS

Strumenti informatici Realizzare il test dei segni con Excel e SPSS Strumenti informatici 4.1 - Realizzare il test dei segni con Excel e SPSS Le analisti statistiche che vengono presentate da questo punto in avanti possono essere eseguite con Excel impostando le formule

Dettagli

Indice generale. Introduzione. Capitolo 1 Essere uno scienziato dei dati... 1

Indice generale. Introduzione. Capitolo 1 Essere uno scienziato dei dati... 1 Introduzione...xi Argomenti trattati in questo libro... xi Dotazione software necessaria... xii A chi è rivolto questo libro... xii Convenzioni utilizzate... xiii Scarica i file degli esempi... xiii Capitolo

Dettagli

1) Matlab e simulazione. 2) Esempi di utilizzo. Mauro De Sanctis corso di Informazione e Codifica Università di Roma Tor Vergata

1) Matlab e simulazione. 2) Esempi di utilizzo. Mauro De Sanctis corso di Informazione e Codifica Università di Roma Tor Vergata Argomenti della Lezione 1) Matlab e simulazione 2) Esempi di utilizzo 1 Mauro De Sanctis corso di Informazione e Codifica Università di Roma Tor Vergata Matlab è un sistema di programmazione ad alto livello

Dettagli

Identificazione dei Parametri Caratteristici di un Plasma Circolare Tramite Rete Neuronale

Identificazione dei Parametri Caratteristici di un Plasma Circolare Tramite Rete Neuronale Identificazione dei Parametri Caratteristici di un Plasma Circolare Tramite Rete Neuronale Il presente lavoro, facente segiuto a quanto scritto precedentemente ha il fine di descrivere il codice di calcolo

Dettagli

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 5

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 5 CORSO DI STATISTICA (parte 2) - ESERCITAZIONE Dott.ssa Antonella Costanzo a.costanzo@unicas.it Esercizio 1. Approssimazione normale della Poisson (TLC) In un determinato tratto di strada il numero di incidenti

Dettagli