Analisi discriminante in R Strumenti quantitativi per la gestione
|
|
- Aurelia Basile
- 6 anni fa
- Visualizzazioni
Transcript
1 Analisi discriminante in R Strumenti quantitativi per la gestione Emanuele Taufer Default data LDA con R Output Plot Previsione Tabella di classificazione Cambiare il criterio di classificazione Costruire la curva ROC Crossvalidazione LOOCV Stima del test error rate con LOOCV QDA LOOCV per QDA Confronto LDA QDA Confronto LDA QDA con la curva ROC Riferimenti bibliografici Default data Carichiamo il data set Default library(islr) data(default) head(default) default student balance income 1 No No No Yes No No No No No No No Yes LDA con R La funzione lda(), presente nella libreria MASS, permette di affrontare problemi di classificazione con LDA. La sintassi è analoga a quella che si usa nelle funzioni lm e glm file:///c:/users/emanuele.taufer/dropbox/3%20sqg/labs/l4_ _LDA.html 1/9
2 library(mass) lda.fit=lda(default~balance+income+student,data=default) Output lda.fit Call: lda(default ~ balance + income + student, data = Default) Prior probabilities of groups: No Yes Group means: balance income studentyes No Yes Coefficients of linear discriminants: LD1 balance e 03 income e 06 studentyes e 01 Plot plot(lda.fit) file:///c:/users/emanuele.taufer/dropbox/3%20sqg/labs/l4_ _LDA.html 2/9
3 Previsione La classificazione delle unità training (o test) può essere fatta con la funzione predict() L output di predict() contiene una serie di oggetti, utilizziamo la funzione names() per vedere quali sono e, per poterli analizzare ed utilizzare, mettiamo il tutto in un data.frame. lda.pred=predict(lda.fit, Default) names(lda.pred) [1] "class" "posterior" "x" previsione< as.data.frame(lda.pred) head(previsione) file:///c:/users/emanuele.taufer/dropbox/3%20sqg/labs/l4_ _LDA.html 3/9
4 class posterior.no posterior.yes LD1 1 No No No No No No Tabella di classificazione Costruiamo ora un data.frame, Default.LDA, che contiene i dati training e le previsioni della LDA. Costruiamo inoltre una tabella di classificazione Default.LDA< cbind(default, "pred.def"=lda.pred$class, "pr.def"=round(lda.pred$posterio r,digits=4)) head(default.lda) default student balance income pred.def pr.def.no pr.def.yes 1 No No No No Yes No No No No No No No No No No No Yes No attach(default.lda) addmargins(table(default,pred.def)) pred.def default No Yes Sum No Yes Sum Cambiare il criterio di classificazione Costruiamo una nuova variabile lda.pred.2 che classifica le unità come default=yes se la probabilità di default stimata dal modello di LDA è maggiore di lda.pred.2=rep("no",nrow(default)) lda.pred.2[default.lda$pr.def.yes>0.2]="yes" addmargins(table(default,lda.pred.2)) 0.2 file:///c:/users/emanuele.taufer/dropbox/3%20sqg/labs/l4_ _LDA.html 4/9
5 lda.pred.2 default No Yes Sum No Yes Sum Costruire la curva ROC Per costuire la curva ROC è necessario installare la libreria ROCR. Le tre righe di istruzioni indicate sotto fanno il resto library(rocr) pred < prediction(default.lda$pr.def.yes, default) perf < performance(pred, measure = "tpr", x.measure = "fpr") plot(perf, colorize=t,lwd=3) file:///c:/users/emanuele.taufer/dropbox/3%20sqg/labs/l4_ _LDA.html 5/9
6 Crossvalidazione LOOCV L opzione CV=TRUE nella funzione lda() produce un LOOCV sui dati. In questo caso l output contiene la classificazione prodotta e le probailità a posteriori (per ciascuna unità esclusa dal data set), per vederne solo una parte è opportuno mettere i risultati in un data.frame lda.fit=lda(default~balance+income+student,data=default,cv=t) names(lda.fit) [1] "class" "posterior" "terms" "call" "xlevels" lda.loocv< data.frame(lda.fit$class,lda.fit$posterior) head(lda.loocv) lda.fit.class No Yes 1 No No No No No No Stima del test error rate con LOOCV Calcoliamo una tabella di classificazione ( default=yes se la probabilità di default stimata dal modello di LDA è maggiore di ) in base ai risultati della LOOCV 0.2 lda.cv.pred.2=rep("no",nrow(default)) lda.cv.pred.2[lda.loocv$yes>0.2]="yes" addmargins(table(default,lda.cv.pred.2)) lda.cv.pred.2 default No Yes Sum No Yes Sum QDA L analisi discriminante quadratica può essere fatta utilizzando la funzione qda() qda.fit< qda(default~balance+income+student,data=default) qda.fit file:///c:/users/emanuele.taufer/dropbox/3%20sqg/labs/l4_ _LDA.html 6/9
7 Call: qda(default ~ balance + income + student, data = Default) Prior probabilities of groups: No Yes Group means: balance income studentyes No Yes LOOCV per QDA Analogamente a quanto visto per la LDA, una LOOCV può essere effettuata semplicemente inserendo l opzione CV=TRUE qda.fit< qda(default~balance+income+student,data=default,cv=true) names(qda.fit) [1] "class" "posterior" "terms" "call" "xlevels" qda.loocv< data.frame(qda.fit$class,qda.fit$posterior) head(qda.loocv) qda.fit.class No Yes 1 No No No No No No qda.cv.pred.2=rep("no",nrow(default)) qda.cv.pred.2[qda.loocv$yes>0.2]="yes" addmargins(table(default,qda.cv.pred.2)) qda.cv.pred.2 default No Yes Sum No Yes Sum file:///c:/users/emanuele.taufer/dropbox/3%20sqg/labs/l4_ _LDA.html 7/9
8 Confronto LDA QDA Utilizzando i risultati ottenuti, confrontiamo LDA e QDA comparando le stime del test error rate ottenute dalla LOOCV LDA QDA / /9667 La sensitività è pari al % ( ) La specificità è pari al % ( ) / /9667 La sensitività è pari al % ( ) La specificità è pari al % ( ) Confronto LDA QDA con la curva ROC lda.pred < prediction(lda.loocv$yes, default) lda.perf < performance(lda.pred, measure = "tpr", x.measure = "fpr") qda.pred < prediction(qda.loocv$yes, default) qda.perf < performance(qda.pred, measure = "tpr", x.measure = "fpr") plot(lda.perf, col="blue",lwd=2) plot(qda.perf, col="red",lwd=2,add=true) legend(0.6,0.6,c('lda','qda'),col=c('blue','red'),lwd=3) file:///c:/users/emanuele.taufer/dropbox/3%20sqg/labs/l4_ _LDA.html 8/9
9 Riferimenti bibliografici An Introduction to Statistical Learning, with applications in R. (Springer, 2013) Alcune delle figure in questa presentazione sono tratte dal testo con il permesso degli autori: G. James, D. Witten, T. Hastie e R. Tibshirani Tobias Sing, Oliver Sander, Niko Beerenwinkel, Thomas Lengauer. ROCR: visualizing classifier performance in R. Bioinformatics 21(20): (2005). file:///c:/users/emanuele.taufer/dropbox/3%20sqg/labs/l4_ _LDA.html 9/9
Analisi Discriminante Strumenti quantitativi per la gestione
Analisi Discriminante Strumenti quantitativi per la gestione Emanuele Taufer Un esempio introduttivo Approccio con Bayes Perchè un altro metodo di classificazione? Classificazione con Bayes Analisi discriminante
DettagliRegressione logistica
Regressione logistica Strumenti quantitativi per la gestione Emanuele Taufer Metodi di classificazione Tecniche principali Alcuni esempi Data set Default I dati La regressione logistica Esempio Il modello
DettagliRegressione logistica. Strumenti quantitativi per la gestione
Regressione logistica Strumenti quantitativi per la gestione Emanuele Taufer file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/4a_rlg.html#(1) 1/25 Metodi di classificazione I metodi usati per analizzare
DettagliQuiz di verifica Classificazione
Quiz di verifica Classificazione Strumenti Quantitativi per la gestione Le domande 1 4 si riferiscono al seguente problema: Supponiamo di raccogliere dati per un gruppo di studenti della classe di SQG
DettagliModelli con predittori qualitativi e modelli con interazioni. Strumenti quantitativi per la gestione
Modelli con predittori qualitativi e modelli con interazioni Strumenti quantitativi per la gestione Emanuele Taufer file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/3d_viq.html#(1) 1/26 Utilizzare
Dettaglie applicazioni al dominio del Contact Management Andrea Brunello Università degli Studi di Udine
e applicazioni al dominio del Contact Management Parte V: combinazione di Università degli Studi di Udine In collaborazione con dott. Enrico Marzano, CIO Gap srl progetto Active Contact System 1/10 Contenuti
DettagliModelli con predittori qualitativi e modelli con interazioni
Modelli con predittori qualitativi e modelli con interazioni Strumenti quantitativi per la gestione Emanuele Taufer Utilizzare variabili indipendenti qualitative (VIQ) Codifica binaria 0,1 Esempio: salari
DettagliRegressione lineare multipla Strumenti quantitativi per la gestione
Regressione lineare multipla Strumenti quantitativi per la gestione Emanuele Taufer Regressione lineare multipla (RLM) Esempio: RLM con due predittori Stima dei coefficienti e previsione Advertising data
DettagliRegressione lineare semplice
Regressione lineare semplice Strumenti quantitativi per la gestione Emanuele Taufer Regressione lineare (RL) La regressione lineare per i dati Advertising Analisi d interesse Regressione lineare semplice
DettagliRegressione con componenti principali (PCR) Strumenti quantitativi per la gestione
Regressione con componenti principali (PCR) Strumenti quantitativi per la gestione Emanuele Taufer Dati Hitters Eliminare le righe con dati mancanti PCR Variabili nell oggetto creato da pcr() Coefficienti
DettagliMetodi per la riduzione della dimensionalità. Strumenti quantitativi per la gestione
Metodi per la riduzione della dimensionalità Strumenti quantitativi per la gestione Emanuele Taufer file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/6c_pca.html#(1) 1/25 Introduzione Gli approcci
DettagliNaïve Bayesian Classification
Naïve Bayesian Classification Di Alessandro rezzani Sommario Naïve Bayesian Classification (o classificazione Bayesiana)... 1 L algoritmo... 2 Naive Bayes in R... 5 Esempio 1... 5 Esempio 2... 5 L algoritmo
DettagliStatistical learning Strumenti quantitativi per la gestione
Statistical learning Strumenti quantitativi per la gestione Emanuele Taufer Vendite Simbologia Reddito Statistical learning A cosa ci serve f? 1 Previsione 2 Inferenza Previsione Errore riducibile e errore
DettagliModelli non lineari Strumenti quantitativi per la gestione
Modelli non lineari Strumenti quantitativi per la gestione Emanuele Taufer Metodi per affrontare problemi non lineari Regressione polinomiale Esempio: modellare i picchi di domanda di energia Fattori che
DettagliValidazione dei modelli Strumenti quantitativi per la gestione
Validazione dei modelli Strumenti quantitativi per la gestione Emanuele Taufer Validazione dei modelli Il data set Auto I dati Il problema analizzato Validation set approach Diagramma a dispersione Test
DettagliAnalisi Discriminante Canonica con R
Università di Bologna - Facoltà di Scienze Statistiche Laurea Triennale in Statistica e Ricerca Sociale Corso di Analisi di Serie Storiche e Multidimensionali Prof.ssa Marilena Pillati Analisi Discriminante
DettagliRegressione Lineare Semplice e Correlazione
Regressione Lineare Semplice e Correlazione 1 Introduzione La Regressione è una tecnica di analisi della relazione tra due variabili quantitative Questa tecnica è utilizzata per calcolare il valore (y)
DettagliModelli non lineari. Strumenti quantitativi per la gestione
Modelli non lineari Strumenti quantitativi per la gestione Emanuele Taufer file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/7_gam.html#(5) 1/54 Metodi per affrontare problemi nonlineari Regressione
DettagliDESCRIZIONE DEL DATA SET
DESCRIZIONE DEL DATA SET Fonte: UC Irvine Machine Learning Repository Autore: Michael Redmond Nome data set: Communities and Crime CONTENUTI DEL DATA SET DI PARTENZA 125 POTENZIALI PREDITTORI Dati socio-economici
DettagliPulse Sense: la matematica per l individuazione di anomalie in un tracciato elettrocardiografico
Pulse Sense: la matematica per l individuazione di anomalie in un tracciato elettrocardiografico Pasqualina Fragneto Quando i matematici non entrano in aula Trento 2017 1 AST Applied Math Team Che cosa
DettagliRiconoscimento e recupero dell informazione per bioinformatica
Riconoscimento e recupero dell informazione per bioinformatica Teoria della decisione di Bayes Manuele Bicego Corso di Laurea in Bioinformatica Dipartimento di Informatica - Università di Verona Sommario
Dettagli7. ANALISI DISCRIMINANTE
7. ANALISI DISCRIMINANTE 7. Introduzione Uno tra i primi a parlare di analisi discriminante (AD) fu Fisher, con riferimento all'attribuzione di alcuni reperti fossili alla categoria dei primati o a quella
DettagliLuigi Santoro. Hyperphar Group S.p.A., MIlano
Come modellare il rischio Luigi Santoro Hyperphar Group S.p.A., MIlano Gli argomenti discussi Le definizioni del termine rischio L utilità di un modello predittivo di rischio Come costruire modelli predittivi
DettagliMETODI DI CLASSIFICAZIONE. Federico Marini
METODI DI CLASSIFICAZIONE Federico Marini Introduzione Nella parte introduttiva dell analisi multivariata abbiamo descritto la possibilità di riconoscere l origine di alcuni campioni come uno dei campi
DettagliDall Analisi Fattoriale alla Regressione Lineare
Dall Analisi Fattoriale alla Regressione Lineare Metodi Quantitativi per Economia, Finanza e Management Esercitazione n 10 Consegna Lavoro di gruppo La scadenza per la consegna del lavoro di gruppo è fissata
DettagliSTATISTICA 1, metodi matematici e statistici Introduzione al linguaggio R Esercitazione 7:
esercitazione 7 p. 1/13 STATISTICA 1, metodi matematici e statistici Introduzione al linguaggio R Esercitazione 7: 20-05-2004 Luca Monno Università degli studi di Pavia luca.monno@unipv.it http://www.lucamonno.it
DettagliUlteriori conoscenze di informatica Elementi di statistica Esercitazione3
Ulteriori conoscenze di informatica Elementi di statistica Esercitazione3 Sui PC a disposizione sono istallati diversi sistemi operativi. All accensione scegliere Windows. Immettere Nome utente b## (##
DettagliMisure Ripetute. Partizione della Varianza. Marcello Gallucci
Misure Ripetute Partizione della Varianza Marcello Gallucci GLM l ANOVA a misure ripetute rappresenta un caso del modello lineare generale in cui la variabilità non è valutata tra gruppi ma tra misure
DettagliStima della qualità dei classificatori per l analisi dei dati biomolecolari
Stima della qualità dei classificatori per l analisi dei dati biomolecolari Giorgio Valentini e-mail: valentini@dsi.unimi.it Rischio atteso e rischio empirico L` apprendimento di una funzione non nota
DettagliRiconoscimento e recupero dell informazione per bioinformatica
Riconoscimento e recupero dell informazione per bioinformatica Classificazione: validazione Manuele Bicego Corso di Laurea in Bioinformatica Dipartimento di Informatica - Università di Verona Introduzione
Dettagli5.5 Modelli per l ozono di Vicenza
il modello Vl-Net3 è guidato con più forza dalle stesse variabili che influenzano maggiormente le determinazioni del modello Vl-Net2 : la temperatura, la radiazione solare, l ozono di Valdagno dell ora
DettagliCAPITOLO 5 Introduzione ai piani fattoriali
Douglas C. Montgomery Progettazione e analisi degli esperimenti 2006 McGraw-Hill CAPITOLO 5 Introduzione ai piani fattoriali Metodi statistici e probabilistici per l ingegneria Corso di Laurea in Ingegneria
DettagliPrefazione Ringraziamenti dell'editore Il sito web dedicato al libro Test online: la piattaforma McGraw-Hill Education Guida alla lettura
INDICE GENERALE Prefazione Ringraziamenti dell'editore Il sito web dedicato al libro Test online: la piattaforma McGraw-Hill Education Guida alla lettura XI XIV XV XVII XVIII 1 LA RILEVAZIONE DEI FENOMENI
DettagliValutazione delle Prestazioni di un Classificatore. Performance Evaluation
Valutazione delle Prestazioni di un Classificatore Performance Evaluation Valutazione delle Prestazioni Una volta appreso un classificatore è di fondamentale importanza valutarne le prestazioni La valutazione
Dettagli27 Marzo (a) Formulare una ipotesi sul modello tempo di vita di questa valvola e sottoporla a verifica.
Prova scritta di Affidabilità dei sistemi e Controllo statistico di qualità 27 Marzo 20 Tempo di lavoro: 2 ore. Gli esercizi vanno svolti in un file word. Riportare su questo file sia i grafici che eventuali
DettagliSTATISTICA 1 ESERCITAZIONE 6
STATISTICA 1 ESERCITAZIONE 6 Dott. Giuseppe Pandolfo 5 Novembre 013 CONCENTRAZIONE Osservando l ammontare di un carattere quantitativo trasferibile su un collettivo statistico può essere interessante sapere
DettagliSTATISTICA A K (60 ore)
STATISTICA A K (60 ore) Marco Riani mriani@unipr.it http://www.riani.it Richiami sulla regressione Marco Riani, Univ. di Parma 1 MODELLO DI REGRESSIONE y i = a + bx i + e i dove: i = 1,, n a + bx i rappresenta
Dettagli0.1 Percorrenza e Cilindrata
0.1 Percorrenza e Cilindrata Iniziamo ora un analisi leggermente più complessa basata sempre sui concetti appena introdotti. Innanzi tutto possiamo osservare, dal grafico ottenuto con il comando pairs,
DettagliIntroduzione alla Regressione Logistica
Introduzione alla Regressione Logistica Contenuto regressione lineare semplice e multipla regressione logistica lineare semplice La funzione logistica Stima dei parametri Interpretazione dei coefficienti
DettagliTecniche di riconoscimento statistico
On AIR s.r.l. Tecniche di riconoscimento statistico Applicazioni alla lettura automatica di testi (OCR) Parte 2 Teoria della decisione Ennio Ottaviani On AIR srl ennio.ottaviani@onairweb.com http://www.onairweb.com/corsopr
DettagliESERCIZIO 1. Vengono riportati di seguito i risultati di un analisi discriminante.
ESERCIZIO 1. Vengono riportati di seguito i risultati di un analisi discriminante. Test di uguaglianza delle medie di gruppo SELF_EFF COLL_EFF COIN_LAV IMPEGNO SODDISF CAP_IST COLLEGHI Lambda di Wilks
DettagliFrancesca Pierri Dipartimento di Economia Finanza e Statistica Università degli Studi di Perugia
Francesca Pierri Dipartimento di Economia Finanza e Statistica Università degli Studi di Perugia Introduzione La ricerca accademica ha spesso evidenziato l esigenza di costruire indicatori delle performance
DettagliClassificazione Validazione Decision Tree & kmeans. Renato Mainetti
Classificazione Validazione Decision Tree & kmeans Renato Mainetti Apprendimento Supervisionato e Non Supervisionato: forniamo input e output Non supervisionato: forniamo solo input 2 Apprendimento Supervisionato
DettagliCaratterizzazione dell origine geografica della mozzarella di bufala mediante spettroscopia NMR (dal progetto IZS AM 0409)
Ricerca finanziata dal Ministero della Salute Dipartimento per la Sanità Pubblica Veterinaria, la Nutrizione e la Sicurezza degli Alimenti Caratterizzazione dell origine geografica della mozzarella di
DettagliElisabetta Ronchieri Elenco Progetti di Informatica Ottobre 20, 2014
Tassi di Cambio 1 Stato dei Progetti Ogni studente deve scegliere il progetto di interesse e comunicarlo al docente. Questo ultimo fornirá allo studente il file.csv legato al progetto e cambierá lo stato
DettagliAPPENDICE III. CONSIGLI PER L USO DEL SOFTWARE R (a cura del Dott. Lorenzo Giolli)
APPENDICE III. CONSIGLI PER L USO DEL SOFTWARE R (a cura del Dott. Lorenzo Giolli) AIII.1. Installazione del software R Aprire il browser e andare alla pagina www.r-project.org e cliccare CRAN (Download,
DettagliMODELLI QUANTITATIVI. f x r = c
MODELLI QUANTITATIVI Qualunque sia il modello di estrazione di regolarità o di conoscenze dai dati empirici, esiste sempre una base statistica da cui occorre partire. Un fenomeno linguistico specifico
DettagliIndice Prefazione XIII Capitolo 1 Introduzione al Visual Basic per Excel
Indice Prefazione XIII Capitolo 1 Introduzione al Visual Basic per Excel 1 1.1 Premessa 1 1.2 Lavorare in Ambiente Excel 2 1.3 Le Macro di Excel 4 Dal Linguaggio Macro al Visual Basic for Application 4
DettagliRegressione Lineare e Regressione Logistica
Regressione Lineare e Regressione Logistica Stefano Gualandi Università di Pavia, Dipartimento di Matematica email: twitter: blog: stefano.gualandi@unipv.it @famo2spaghi http://stegua.github.com 1 Introduzione
DettagliCorso di Riconoscimento di Forme. Sommario: Matrice di confusione Cross validation Prestazioni nel KNN
Corso di Riconoscimento di Forme Sommario: Matrice di confusione Cross validation Prestazioni nel KNN Matrice di confusione Il semplice calcolo dell'errore di classificazione non permette di capire il
DettagliAnalisi della varianza
Analisi della varianza Prof. Giuseppe Verlato Sezione di Epidemiologia e Statistica Medica, Università di Verona ANALISI DELLA VARIANZA - 1 Abbiamo k gruppi, con un numero variabile di unità statistiche.
DettagliTra vecchie e nuove disuguaglianze: la partecipazione scolastica degli studenti immigrati nelle scuole secondarie superiori in Italia
Tra vecchie e nuove disuguaglianze: la partecipazione scolastica degli studenti immigrati nelle scuole secondarie superiori in Italia DAVIDE AZZOLINI e CARLO BARONE davide.azzolini@unitn.it; carlo.barone@unitn.it
DettagliLaboratorio R Corso di Algebra e Modelli lineari (Anno Accademico 2011-12)
Laboratorio R Corso di Algebra e Modelli lineari (Anno Accademico 011-1) REGRESSIONE LINEARE SEMPLICE OPEN STATISTICA 8.44 Per 8 settimanali, appartenenti alla medesima fascia di prezzo e presenti in edicola
DettagliESERCIZIO 1. Di seguito vengono riportati i risultati di un modello fattoriale di analisi della varianza con 3 fattori tra i soggetti.
ESERCIZIO. Di seguito vengono riportati i risultati di un modello fattoriale di analisi della varianza con fattori tra i soggetti. Variabile dipendente: PERF Sorgente Modello corretto Intercept SEX_96
DettagliVariabilità e Concentrazione Esercitazione n 02
Variabilità e Concentrazione Esercitazione n 02 ESERCIZIO 1 Nella tabella di seguito sono riportati i dati relativi al tempo necessario a 8 studenti per svolgere un test di valutazione (in ore): Tempo
DettagliModelli e Metodi per il Supporto alle Decisioni II A.A. 2016/2017
Modelli e Metodi per il Supporto alle Decisioni II A.A. 2016/2017 Macroprogetto MCDA: argomenti, obiettivi, risultati attesi Metodi di base individuare fenomeni di rank reversal (tra i problemi a 6 e a
DettagliCorso integrato di informatica, statistica e analisi dei dati sperimentali Esercitazione VII
Corso integrato di informatica, statistica e analisi dei dati sperimentali Esercitazione VII Un breve richiamo sul test t-student Siano A exp (a 1, a 2.a n ) e B exp (b 1, b 2.b m ) due set di dati i cui
DettagliUniversità Politecnica delle Marche - Facoltà di Ingegneria Ing. Informatica e Automatica - Ing. Logistica e Produzione
ANALISI NUMERICA - Primo Parziale - TEMA A PARTE I. Si chiede allo studente di trattare i seguenti argomenti nel modo più completo possibile. 1. Propagazione degli errori nel caso di operazioni elementari
DettagliMachine Learning: apprendimento, generalizzazione e stima dell errore di generalizzazione
Corso di Bioinformatica Machine Learning: apprendimento, generalizzazione e stima dell errore di generalizzazione Giorgio Valentini DI Università degli Studi di Milano 1 Metodi di machine learning I metodi
DettagliExcel. È data la distribuzione di 1863 famiglie italiane secondo il numero di componenti:
Excel È data la distribuzione di 1863 famiglie italiane secondo il numero di componenti: Calcolare per ogni classe della distribuzione: (a) le frequenze relative; Sia data la distribuzione degli studenti
DettagliCorrezione primo compitino, testo B
Correzione primo compitino, testo B gennaio 20 Parte Esercizio Facciamo riferimento alle pagine 22 e 2 del libro di testo Quando si ha a che fare con la moltiplicazione o la divisione di misure bisogna
DettagliCarta di credito standard. Carta di credito business. Esercitazione 12 maggio 2016
Esercitazione 12 maggio 2016 ESERCIZIO 1 Si supponga che in un sondaggio di opinione su un campione di clienti, che utilizzano una carta di credito di tipo standard (Std) o di tipo business (Bsn), si siano
Dettagli1 L analisi discriminante lineare
1 L analisi discriminante lineare L analisi discriminante lineare presuppone che p variabili (quantitative) Y 1,... Y p siano state misurate su osservazioni appartenenti a 2 o più gruppi: G 1,...,G k,
DettagliStatistical learning methods for classification and profiling
Statistical learning methods for classification and profiling AGCom Workshop on the impact of online platforms on information freedom and media pluralism: Fake News and Other regulatory challenges Antonio
DettagliMini dispensa di Microsoft Excel 2007 ad uso esclusivo degli studenti del corso di Programmazione e Controllo Matricole Pari
Mini dispensa di Microsoft Excel 2007 ad uso esclusivo degli studenti del corso di Programmazione e Controllo Matricole Pari A cura di Gaspare Allegra 1 Un primo sguardo al programma Corso di Programmazione
DettagliClassificazione bio-molecolare di tessuti e geni come problema di apprendimento automatico e validazione dei risultati
Classificazione bio-molecolare di tessuti e geni come problema di apprendimento automatico e validazione dei risultati Giorgio Valentini e-mail: valentini@dsi.unimi.it DSI Dip. Scienze dell'informazione
DettagliSommario. Capitolo 1 I dati e la statistica 1. Capitolo 2 Statistica descrittiva: tabelle e rappresentazioni grafiche 25
Sommario Presentazione dell edizione italiana Prefazione xv xiii Capitolo 1 I dati e la statistica 1 Statistica in pratica: BusinessWeek 1 1.1 Le applicazioni in ambito aziendale ed economico 3 Contabilità
DettagliStatistica multivariata 27/09/2016. D.Rodi, 2016
Statistica multivariata 27/09/2016 Metodi Statistici Statistica Descrittiva Studio di uno o più fenomeni osservati sull INTERA popolazione di interesse (rilevazione esaustiva) Descrizione delle caratteristiche
DettagliData Import pulizia dati e Probabilità. Renato Mainetti
Data Import pulizia dati e Probabilità Renato Mainetti Importare dati in Matlab: Abbiamo visto come sia possibile generare array e matrici di dati. Per ora abbiamo sempre inserito i dati manualmente o
DettagliDispensa di Statistica
Dispensa di Statistica 1 parziale 2012/2013 Diagrammi... 2 Indici di posizione... 4 Media... 4 Moda... 5 Mediana... 5 Indici di dispersione... 7 Varianza... 7 Scarto Quadratico Medio (SQM)... 7 La disuguaglianza
DettagliRegressione Logistica
Regressione Logistica Esercizio Data set: Nel data set heart.txt (o heart.sav) sono contenute informazioni riguardo 302 pazienti che hanno avuto infarto e 60 che non hanno avuto infarto in uno studio retrospettivo
Dettagli3.1 Classificazione dei fenomeni statistici Questionari e scale di modalità Classificazione delle scale di modalità 17
C L Autore Ringraziamenti dell Editore Elenco dei simboli e delle abbreviazioni in ordine di apparizione XI XI XIII 1 Introduzione 1 FAQ e qualcos altro, da leggere prima 1.1 Questo è un libro di Statistica
DettagliValutazione economica dell integrazione della comunità cinese a Prato: una analisi basata sulla SAM Provinciale bi-etnica
Valutazione economica dell integrazione della comunità cinese a Prato: una analisi basata sulla SAM Provinciale bi-etnica Stefano Rosignoli - IRPET XXXVII Conferenza scientifica annuale AISRe Ancona, 22
DettagliLaboratorio di Programmazione II Corso di Laurea in Bioinformatica Dipartimento di Informatica - Università di Verona
Laboratorio di Programmazione II Corso di Laurea in Bioinformatica Dipartimento di Informatica - Università di Verona Sommario Stime puntuali ed intervalli Motivazioni Fare inferenze circa un insieme
DettagliIl Corso di Fisica per Scienze Biologiche
Il Corso di Fisica per Scienze Biologiche Ø Prof. Attilio Santocchia Ø Ufficio presso il Dipartimento di Fisica (Quinto Piano) Tel. 75-585 278 Ø E-mail: attilio.santocchia@pg.infn.it Ø Web: http://www.fisica.unipg.it/~attilio.santocchia/
DettagliClassificazione Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007
Classificazione Introduzione I modelli di classificazione si collocano tra i metodi di apprendimento supervisionato e si rivolgono alla predizione di un attributo target categorico. A partire da un insieme
DettagliCorso di Analisi Matematica. Polinomi e serie di Taylor
a.a. 2011/12 Laurea triennale in Informatica Corso di Analisi Matematica Polinomi e serie di Taylor Avvertenza Questi sono appunti informali delle lezioni, che vengono resi disponibili per comodità degli
DettagliL'implementazione delle ROC Curve nei modelli GAMLSS come strumento di previsione per i Big Data
L'implementazione delle ROC Curve nei modelli GAMLSS come strumento di previsione per i Big Data Paolo Mariani, Andrea Marletta Dipartimento di Economia, Metodi Quantitativi e Strategie di Impresa, Università
Dettaglisi tratta del test del chi-quadro di adattamento e di quello di indipendenza. 1 l ipotesi che la popolazione segua una legge fissata;
di : dado : normale Finora abbiamo visto test d ipotesi per testare ipotesi differenti, ma tutte concernenti il valore atteso di una o due popolazioni. In questo capitolo vediamo come testare 1 l ipotesi
DettagliCorso di Psicometria Progredito
Corso di Psicometria Progredito 5. La correlazione lineare Gianmarco Altoè Dipartimento di Pedagogia, Psicologia e Filosofia Università di Cagliari, Anno Accademico 2013-2014 Sommario 1 Tipi di relazione
DettagliProbabilità e Statistica Prova del 29/07/2016 Traccia E TEORIA Università degli Studi di Verona Laurea in Informatica e Bioinformatica A.A.
Prova del 29/07/2016 Traccia E TEORIA ESERCIZIO 1 X f(x) 4 24 0 20 9 18 5 38 Sulla distribuzione di valori presentata in tabella, calcolare: (a) la media aritmetica, la media armonica e la media geometrica;
Dettagli> Ciliegi <- read.table("i:/modelli/cherry.dat", + col.names=c( diametro, altezza, volume ))
Laboratorio 2 Modello lineare semplice 2.1 Analisi dei dati CHERRY.DAT Riprendiamo l insieme di dati Ciliegi della precedente lezione. Se non era stato salvato, bisogna rileggerlo da file: > Ciliegi
DettagliCON APPLICAZIONE A CASI DI STUDIO
CORSO DI LAUREA IN STATISTICA E GESTIONE DELLE IMPRESE TESI DI LAUREA IMPLEMENTAZIONE DELLA CURVA ROC IN R CON APPLICAZIONE A CASI DI STUDIO Relatore: Ch.ma Prof.ssa Laura Ventura Laureando: Federico Rosina
DettagliRingraziamenti dell Editore
Indice Elenco dei simboli e delle abbreviazioni in ordine di apparizione Ringraziamenti dell Editore XI XVII 1 Introduzione FAQ e qualcos altro, da leggere prima 1 1.1 QuestoèunlibrodiStatistica....................
Dettagli0 altimenti 1 soggetto trova lavoroentro 6 mesi}
Lezione n. 16 (a cura di Peluso Filomena Francesca) Oltre alle normali variabili risposta che presentano una continuità almeno all'interno di un certo intervallo di valori, esistono variabili risposta
DettagliBreve Manuale di Riferimento sulla Sintassi Linguaggi C++ e FORTRAN
Breve Manuale di Riferimento sulla Sintassi Linguaggi e versione aggiornata al 05/02/2004 Sommario Elementi di Base... 2 Dati, Tipi e Dichiarazioni... 2 Tipi di Dato di Base... 2 Tipi di Dato Strutturati...
DettagliDistribuzione Gaussiana - Facciamo un riassunto -
Distribuzione Gaussiana - Facciamo un riassunto - Nell ipotesi che i dati si distribuiscano seguendo una curva Gaussiana è possibile dare un carattere predittivo alla deviazione standard La prossima misura
DettagliMetodi per la riduzione della dimensionalità Strumenti quantitativi per la gestione
Metodi er la riduzione della dimensionalità Strumenti quantitativi er la gestione Emanuele Taufer Introduzione Combinazioni lineari Regressione lineare sulle variabili trasformate Dettaglio teorico Metodi
DettagliFondamenti di Informatica T-1
Fondamenti di Informatica T-1 Introduzione al linguaggio Java - Input/Output, Variabili, Tipi Tutor: Allegra De Filippo allegra.defilippo@unibo.it a.a. 2015/2016 Fondamenti di Informatica T-1 Allegra De
DettagliLab. 2 - Excel. Prof. De Michele e Farina
Lab. 2 - Excel Prof. De Michele e Farina 1 Utilizzo avanzato di un foglio elettronico: - Utilizzo di funzioni Regressioni lineari Istogrammi 2 La funzione somma restituisce la somma dei valori dei propri
DettagliEsplorazione grafica di dati multivariati. N. Del Buono
Esplorazione grafica di dati multivariati N. Del Buono Scatterplot Scatterplot permette di individuare graficamente le possibili associazioni tra due variabili Variabile descrittiva (explanatory variable)
DettagliData Import e Probabilità. Renato Mainetti
Data Import e Probabilità Renato Mainetti Importare dati in Matlab: Abbiamo visto come sia possibile generare array e matrici di dati. Per ora abbiamo sempre inserito i dati manualmente o utilizzando metodi
DettagliRappresentazioni grafiche
Rappresentazioni grafiche Domenico Vistocco vistocco@unicas.it Dipartimento di Scienze Economiche UNIVERSITÀ DI CASSINO Corso di Statistica Le elaborazioni e i grafici sono stati ottenuti con il software
DettagliPer una valutazione made in Italy della razza Valutazione genetica del peso a 210 giorni ed accrescimento giornaliero per la razza Limousine italiana
Per una valutazione made in Italy della razza Valutazione genetica del peso a 210 giorni ed accrescimento giornaliero per la razza Limousine italiana Mauro Fioretti Ufficio Studi A.I.A. Per la razza Limousine
DettagliMANUALE XMGRACE. A cura di Giuseppe Ciaburro.
MANUALE XMGRACE A cura di Giuseppe Ciaburro http://www.ciaburro.it info@ciaburro.it Indice 0.1 Introduzione........................................... 4 0.2 Avvio..............................................
DettagliStrumenti informatici Realizzare il test dei segni con Excel e SPSS
Strumenti informatici 4.1 - Realizzare il test dei segni con Excel e SPSS Le analisti statistiche che vengono presentate da questo punto in avanti possono essere eseguite con Excel impostando le formule
DettagliIndice generale. Introduzione. Capitolo 1 Essere uno scienziato dei dati... 1
Introduzione...xi Argomenti trattati in questo libro... xi Dotazione software necessaria... xii A chi è rivolto questo libro... xii Convenzioni utilizzate... xiii Scarica i file degli esempi... xiii Capitolo
Dettagli1) Matlab e simulazione. 2) Esempi di utilizzo. Mauro De Sanctis corso di Informazione e Codifica Università di Roma Tor Vergata
Argomenti della Lezione 1) Matlab e simulazione 2) Esempi di utilizzo 1 Mauro De Sanctis corso di Informazione e Codifica Università di Roma Tor Vergata Matlab è un sistema di programmazione ad alto livello
DettagliIdentificazione dei Parametri Caratteristici di un Plasma Circolare Tramite Rete Neuronale
Identificazione dei Parametri Caratteristici di un Plasma Circolare Tramite Rete Neuronale Il presente lavoro, facente segiuto a quanto scritto precedentemente ha il fine di descrivere il codice di calcolo
DettagliCORSO DI STATISTICA (parte 2) - ESERCITAZIONE 5
CORSO DI STATISTICA (parte 2) - ESERCITAZIONE Dott.ssa Antonella Costanzo a.costanzo@unicas.it Esercizio 1. Approssimazione normale della Poisson (TLC) In un determinato tratto di strada il numero di incidenti
Dettagli