Classificazione k-nn con R. Strumenti quantitativi per la gestione

Dimensione: px
Iniziare la visualizzazioe della pagina:

Download "Classificazione k-nn con R. Strumenti quantitativi per la gestione"

Transcript

1 Classificazione k-nn con R Strumenti quantitativi per la gestione Emanuele Taufer file:///g:/il%20mio%20drive/2%20corsi/3%20sqg/labs/l1-knn.html#(1) 1/16

2 Altezza e peso degli adulti Le statistiche sull altezza e sul peso di maschi e femmine adulti ci dicono che la distribuzione di queste due caratteristiche nelle popolazioni è ben approssimata da variabili normali. Più in dettaglio abbiamo la distribuzione delle altezze per i maschi adulti è normale con media 177 cm e ds 16 cm. Indichiamolo con Altezza M N(177, 16) Analogamente, Altezza F N(165, 9) P eso M N(65, 4.5) P eso F N(55, 3.6) La correlazione tra Altezza e Peso (per entrambi i gruppi) è 0,5 file:///g:/il%20mio%20drive/2%20corsi/3%20sqg/labs/l1-knn.html#(1) 2/16

3 Dati HW Il set di dati HW.csv contiene 200 osservazioni su altezza e peso di adulti, suddivisi in M e F (nel data set i dati sono espressi in pollici e libbre): Y : M of F (qualitativa) X 1 X 2 : Altezza dell unità in pollici (quantitativa) : Peso dell unità in libbre (quantitativa) file:///g:/il%20mio%20drive/2%20corsi/3%20sqg/labs/l1-knn.html#(1) 3/16

4 Obbiettivo Creare un modello per classificare un unità come M o F in base all altezza e al peso Questo esempio giocattolo ci permetterà di visualizzare i risultati graficamente Un set di dati test, di convalida è disponibile nel file `HWTest.csv file:///g:/il%20mio%20drive/2%20corsi/3%20sqg/labs/l1-knn.html#(1) 4/16

5 Carica i dati Scarichiamo direttamente il file dall indirizzo web e vediamone le caratteristiche library(ggplot2) HW<-read.csv(" head(hw) ## X Gender Height Weight ## 1 1 F ## 2 2 F ## 3 3 F ## 4 4 F ## 5 5 F ## 6 6 F str(hw) ## 'data.frame': 200 obs. of 4 variables: ## $ X : int ## $ Gender: Factor w/ 2 levels "F","M": ## $ Height: num ## $ Weight: num file:///g:/il%20mio%20drive/2%20corsi/3%20sqg/labs/l1-knn.html#(1) 5/16

6 Scatter plot gg1<-ggplot(hw,aes(x=height,y=weight, color=gender,shape=gender))+geom_point(size=3) gg1 file:///g:/il%20mio%20drive/2%20corsi/3%20sqg/labs/l1-knn.html#(1) 6/16

7 Classificazione k-nn. Per la classificazione k-nn in R si usa la funzione knn(), che fa parte della libreria class. knn() fornisce direttamente la classe prevista per l unità utilizzando un singolo comando. La funzione richiede 4 argomenti (input): Una matrice contenente i predittori associati ai dati training, contrassegnati da XTrain sotto. Una matrice contenente i predittori associati ai dati per i quali desideriamo fare previsioni, con l etichetta XTest sotto (possiamo fare le previsioni anche per i dati training, utilizzeremo in questo caso ancora XTrain). Un vettore contenente le etichette di classe per le osservazioni training, contrassegnato con YTrain sotto. Un valore per k, il numero di vicini più vicini da utilizzare dal classificatore. Nota L output della funzione sono i valori previsti file:///g:/il%20mio%20drive/2%20corsi/3%20sqg/labs/l1-knn.html#(1) 7/16

8 Come usare la funzione knn() library(class) knn(xtrain,xtest,ytrain,k) Importante! La sintassi sopra produce le previsioni per un XTest dato il modello k-nn costruito utilizzando i dati XTrain eytrain Queste previsioni possono essere utilizzate per stimare il tasso di errore test La sintassi sotto produrrà le previsioni per XTrain dato che il modellok-nn viene generato utilizzando i dati XTrain eytrain Queste previsioni possono essere utilizzate per stimare il tasso di errore training library(class) knn(xtrain,xtrain,ytrain,k) file:///g:/il%20mio%20drive/2%20corsi/3%20sqg/labs/l1-knn.html#(1) 8/16

9 k-nn con i dati HW Nei dati HW, separare le variabili Y e X per applicare la funzione knn() Nel codice sotto la classificazione k-nn viene eseguita con k = 5 (arbitrariamente scelto). Le classi previste (p.ytrain) per i dati training vengono memorizzate nel set di dati HW. library(class) ## carica la libreria MASS XTrain=HW[,c(3,4)] ## seleziona solo altezza e peso YTrain=HW[,2] ## seleziona la variabile qualitativa ## crea l'oggetto p.ytrain che contiene le previsioni per i dati training p.ytrain=knn(xtrain,xtrain,ytrain,k=5) ## inserisci le previsioni come nuova variabile nel dataset HW HW$Predict=p.YTrain Il tasso di errore training è mean(ytrain!= p.ytrain) ## [1] file:///g:/il%20mio%20drive/2%20corsi/3%20sqg/labs/l1-knn.html#(1) 9/16

10 Rappresentare i risultati Nota. Il colore è il genere previsto. La forma è il genere osservato. Ad esempio, un cerchio blu è un F erroneamente classificato come M gg2<-ggplot(hw,aes(x=height,y=weight, color=predict,shape=gender))+geom_point(size=3) gg2 file:///g:/il%20mio%20drive/2%20corsi/3%20sqg/labs/l1-knn.html#(1) 10/16

11 Usando k=50 invece di k=5 XTrain=HW[,c(3,4)] YTrain=HW[,2] p.ytrain=knn(xtrain,xtrain,ytrain,k=55) HW$Predict=p.YTrain Il tasso di errore training è mean(ytrain!= p.ytrain) ## [1] file:///g:/il%20mio%20drive/2%20corsi/3%20sqg/labs/l1-knn.html#(1) 11/16

12 gg2<-ggplot(hw,aes(x=height,y=weight, color=predict,shape=gender))+geom_point(size=3) gg2 file:///g:/il%20mio%20drive/2%20corsi/3%20sqg/labs/l1-knn.html#(1) 12/16

13 Scegliere il modello (ossia scegliere k) Utilizziamo i dati HWtest per ottenere una stima del Tasso di errore test per diversi valori di k. Scegli il modello (cioè seleziona k) che ha il tasso di errore test più basso Preparare i dati HWTest<-read.csv(" XTest=HWTest[,c(3,4)] YTest=HWTest[,2] file:///g:/il%20mio%20drive/2%20corsi/3%20sqg/labs/l1-knn.html#(1) 13/16

14 Un loop per rendere tutto automatico Il codice riportato di seguito, per i valori di k nell intervallo 1 50, produce una stima del tasso di errore test basato sui dati HWTest p.ytest = NULL test.error.rate = NULL for(i in 1:50){ set.seed(1) p.ytest = knn(xtrain,xtest,ytrain,k=i) test.error.rate[i] = mean(ytest!= p.ytest) } Il valore di è k che minimizza il tasso di errore test stimato which.min(test.error.rate) ## [1] 9 min(test.error.rate) ## [1] 0.05 file:///g:/il%20mio%20drive/2%20corsi/3%20sqg/labs/l1-knn.html#(1) 14/16

15 Possiamo fare lo stesso per calcolare il tasso di errore training p.ytrain = NULL train.error.rate = NULL for(i in 1:50){ set.seed(1) p.ytrain = knn(xtrain,xtrain,ytrain,k=i) train.error.rate[i] = mean(ytrain!= p.ytrain) } Il valore di k che minimizza il tasso di errore training è which.min(train.error.rate) ## [1] 1 min(train.error.rate) ## [1] 0 file:///g:/il%20mio%20drive/2%20corsi/3%20sqg/labs/l1-knn.html#(1) 15/16

16 Plot degli error rate Error.rates<-data.frame("k"=1:50, "Test.error.rate"=test.error.rate,"Train.error.rate"=trai gg4<-ggplot(error.rates)+geom_line(aes(x=1/k,y=test.error.rate), color="blue")+geom_line(ae gg4 file:///g:/il%20mio%20drive/2%20corsi/3%20sqg/labs/l1-knn.html#(1) 16/16

Validazione dei modelli. Strumenti quantitativi per la gestione

Validazione dei modelli. Strumenti quantitativi per la gestione Validazione dei modelli Strumenti quantitativi per la gestione Emanuele Taufer file:///g:/il%20mio%20drive/2%20corsi/3%20sqg/labs/l5-validazione.html#(1) 1/27 Validazione dei modelli In questo esempio

Dettagli

Validazione dei modelli Strumenti quantitativi per la gestione

Validazione dei modelli Strumenti quantitativi per la gestione Validazione dei modelli Strumenti quantitativi per la gestione Emanuele Taufer Validazione dei modelli Il data set Auto I dati Il problema analizzato Validation set approach Diagramma a dispersione Test

Dettagli

Grafici in R Strumenti quantitativi per la gestione

Grafici in R Strumenti quantitativi per la gestione Grafici in R Strumenti quantitativi per la gestione Emanuele Taufer Caricare il dataset da una libreria Plot Boxplot Istogramma Scatterplot matrice Disegnare linee aggiuntive Caricare il dataset da una

Dettagli

Selezione del modello Strumenti quantitativi per la gestione

Selezione del modello Strumenti quantitativi per la gestione Selezione del modello Strumenti quantitativi per la gestione Emanuele Taufer Migliorare il modello di regressione lineare (RL) Metodi Selezione Best subset Selezione stepwise Stepwise forward Stepwise

Dettagli

Regressione logistica. Strumenti quantitativi per la gestione

Regressione logistica. Strumenti quantitativi per la gestione Regressione logistica Strumenti quantitativi per la gestione Emanuele Taufer file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/classes/4a_rlg.html#(22) 1/28 Metodi di classificazione I

Dettagli

Regressione K-Nearest Neighbors. Strumenti quantitativi per la gestione

Regressione K-Nearest Neighbors. Strumenti quantitativi per la gestione Regressione K-Nearest Neighbors Strumenti quantitativi per la gestione Emanuele Taufer file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/classes/5-5_knn.html#(1) 1/13 Regressione non parametrica

Dettagli

Modelli non lineari e cross validazione. Strumenti quantitativi per la gestione

Modelli non lineari e cross validazione. Strumenti quantitativi per la gestione Modelli non lineari e cross validazione Strumenti quantitativi per la gestione Emanuele Taufer file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/labs/l3-temperature_max.html#(24) 1/28 Metodi

Dettagli

Modelli con predittori qualitativi e modelli con interazioni. Strumenti quantitativi per la gestione

Modelli con predittori qualitativi e modelli con interazioni. Strumenti quantitativi per la gestione Modelli con predittori qualitativi e modelli con interazioni Strumenti quantitativi per la gestione Emanuele Taufer file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/3d_viq.html#(1) 1/26 Utilizzare

Dettagli

3. rappresentare mediante i grafici ritenuti più idonei le distribuzioni di frequenze assolute dei diversi caratteri;

3. rappresentare mediante i grafici ritenuti più idonei le distribuzioni di frequenze assolute dei diversi caratteri; Esercizio 1 Il corso di Statistica è frequentato da 10 studenti che presentano le seguenti caratteristiche Studente Sesso Colore Occhi Voto Soddisfazione Età Stefano M Nero 18 Per niente 21 Francesca F

Dettagli

Cereal data- analisi con gli alberi di classificazione

Cereal data- analisi con gli alberi di classificazione Cereal data- analisi con gli alberi di classificazione Emanuele Taufer file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/labs/l8-cereal-tree.html#(1) 1/32 Cereal.dat Per migliorare la commercializzazione

Dettagli

Quiz di verifica - Alberi e FC Strumenti Quantitativi per la gestione

Quiz di verifica - Alberi e FC Strumenti Quantitativi per la gestione Quiz di verifica - Alberi e FC Strumenti Quantitativi per la gestione Le domande 1-6 si riferiscono al seguente problema Un data set contiene i dati sui consumi di diversi tipi di automobili e alcune loro

Dettagli

Analisi esplorativa dei dati - Iris data set Emanuele Taufer

Analisi esplorativa dei dati - Iris data set Emanuele Taufer Analisi esplorativa dei dati - Iris data set Emanuele Taufer Contents Iris flower data............................................... 1 Iris Setosa.................................................. 1 Iris

Dettagli

Multicollinearità. Strumenti quantitativi per la gestione

Multicollinearità. Strumenti quantitativi per la gestione Multicollinearità Strumenti quantitativi per la gestione Emanuele Taufer file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/3c_mc.html#(1) 1/13 Quando non tutto va come dovrebbe Si parla di multi-collinearità

Dettagli

Regressione. Monica Marabelli. 15 Gennaio 2016

Regressione. Monica Marabelli. 15 Gennaio 2016 Regressione Monica Marabelli 15 Gennaio 2016 La regressione L analisi di regressione é una tecnica statistica che serve a studiare la relazione tra variabili. In particolare, nel modello di regressione

Dettagli

Bagging e Foreste Casuali con R

Bagging e Foreste Casuali con R Bagging e Foreste Casuali con R Emanuele Taufer file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/labs/l8-bagging-fc.html#(10) 1/10 Bagging e Foreste casuali con R Utilizziamo ancora una

Dettagli

Analisi discriminante in R Strumenti quantitativi per la gestione

Analisi discriminante in R Strumenti quantitativi per la gestione Analisi discriminante in R Strumenti quantitativi per la gestione Emanuele Taufer Default data LDA con R Output Plot Previsione Tabella di classificazione Cambiare il criterio di classificazione Costruire

Dettagli

Modelli con predittori qualitativi e modelli con interazioni

Modelli con predittori qualitativi e modelli con interazioni Modelli con predittori qualitativi e modelli con interazioni Strumenti quantitativi per la gestione Emanuele Taufer Utilizzare variabili indipendenti qualitative (VIQ) Codifica binaria 0,1 Esempio: salari

Dettagli

Quiz di verifica Classificazione

Quiz di verifica Classificazione Quiz di verifica Classificazione Strumenti Quantitativi per la gestione Le domande 1 4 si riferiscono al seguente problema: Supponiamo di raccogliere dati per un gruppo di studenti della classe di SQG

Dettagli

K-means clustering con R

K-means clustering con R K-means clustering con R Emanuele Taufer file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/labs/l-10_cluster_k-means.html#(1) 1/10 Introduzione K-means è un approccio semplice ed elegante

Dettagli

Naïve Bayesian Classification

Naïve Bayesian Classification Naïve Bayesian Classification Di Alessandro rezzani Sommario Naïve Bayesian Classification (o classificazione Bayesiana)... 1 L algoritmo... 2 Naive Bayes in R... 5 Esempio 1... 5 Esempio 2... 5 L algoritmo

Dettagli

Riconoscimento automatico di oggetti (Pattern Recognition)

Riconoscimento automatico di oggetti (Pattern Recognition) Riconoscimento automatico di oggetti (Pattern Recognition) Scopo: definire un sistema per riconoscere automaticamente un oggetto data la descrizione di un oggetto che può appartenere ad una tra N classi

Dettagli

INTRODUZIONE ALLA STATISTICA

INTRODUZIONE ALLA STATISTICA 1 / 31 INTRODUZIONE ALLA STATISTICA A.A.2017/2018 Perchè studiare la statistica 2 / 31 Le decisioni quotidiane sono spesso basate su informazioni incomplete. Perchè studiare la statistica Le decisioni

Dettagli

Laboratorio 1 Strumenti quantitativi per la gestione

Laboratorio 1 Strumenti quantitativi per la gestione Laboratorio 1 Strumenti quantitativi per la gestione Emanuele taufer Lab: Introduzione a R Comandi di base Lab: Introduzione a R Comandi di base R utilizza funzioni per eseguire le operazioni. Per eseguire

Dettagli

Corso integrato di informatica, statistica e analisi dei dati sperimentali Esercitazione VII

Corso integrato di informatica, statistica e analisi dei dati sperimentali Esercitazione VII Corso integrato di informatica, statistica e analisi dei dati sperimentali Esercitazione VII Un breve richiamo sul test t-student Siano A exp (a 1, a 2.a n ) e B exp (b 1, b 2.b m ) due set di dati i cui

Dettagli

Introduzione a R. Silvia Parolo. 14 November 2014

Introduzione a R. Silvia Parolo. 14 November 2014 Introduzione a R Silvia Parolo 14 November 2014 Cos è R?? è un tool per l analisi di dati è anche un linguaggio di programmazione si può scaricare da http: // www. r-project. org/ primi passi in R R può

Dettagli

Computazione per l interazione naturale: Modelli dinamici

Computazione per l interazione naturale: Modelli dinamici Computazione per l interazione naturale: Modelli dinamici Corso di Interazione uomo-macchina II Prof. Giuseppe Boccignone Dipartimento di Scienze dell Informazione Università di Milano boccignone@dsi.unimi.it

Dettagli

Regressione ridge e LASSO Strumenti quantitativi per la gestione

Regressione ridge e LASSO Strumenti quantitativi per la gestione Regressione ridge e LASSO Strumenti quantitativi per la gestione Emanuele Taufer Dati Credit.csv La funzione glmnet() La funzione model.matrix() Regressione ridge Output CV Ridge Output Regressione LASSO

Dettagli

STATISTICA PER LA DIGITAL ECONOMY Marco Riani

STATISTICA PER LA DIGITAL ECONOMY Marco Riani STATISTICA PER LA DIGITAL ECONOMY 2018 Marco Riani mriani@unipr.it http://www.riani.it INFORMAZIONI SUL CORSO Orario MER 11.15-12.45 (frontale) GIO 9.15-10.45 (frontale) VEN 11.00-13.00 (laboratorio) Ricevimento

Dettagli

Analisi Discriminante Strumenti quantitativi per la gestione

Analisi Discriminante Strumenti quantitativi per la gestione Analisi Discriminante Strumenti quantitativi per la gestione Emanuele Taufer Un esempio introduttivo Approccio con Bayes Perchè un altro metodo di classificazione? Classificazione con Bayes Analisi discriminante

Dettagli

Alberi di decisione con R

Alberi di decisione con R Alberi di decisione con R Emanuele Taufer file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/labs/l8-alberi_di_decisione.html#(1) 1/14 Implementare gli alberi decisionali con R Per adattare

Dettagli

Campionamento e stima di parametri

Campionamento e stima di parametri Sia X una variabile aleatoria associata a un dato esperimento. Ripetiamo l esperimento n volte, ottenendo una famiglia di valori sperimentali della v.a. X : X = (X 1, X 2,..., X n ) ogni X i é una v.a.

Dettagli

Classificatore K-NN 1

Classificatore K-NN 1 Classificatore K-NN 1 Esercizio: Implementare il classificatore K-NN: [labelassegnate_test error_test] = mio_knn( ds_train, ds_test, k) Traccia: La funzione DIST(A,B') del toolbox reti neurali calcola

Dettagli

Rischio statistico e sua analisi

Rischio statistico e sua analisi F94 Metodi statistici per l apprendimento Rischio statistico e sua analisi Docente: Nicolò Cesa-Bianchi versione 7 aprile 018 Per analizzare un algoritmo di apprendimento dobbiamo costruire un modello

Dettagli

STATISTICA PER LA DIGITAL ECONOMY 2017

STATISTICA PER LA DIGITAL ECONOMY 2017 STATISTICA PER LA DIGITAL ECONOMY 2017 Marco Riani mriani@unipr.it http://www.riani.it INFORMAZIONI SUL CORSO Orario MER 11.00-13.00 (frontale) GIO 9.00-11.00 (frontale) VEN 11.00-13.00 (laboratorio) Ricevimento

Dettagli

Lezione 05. Costruzione di grafici a torte, grafici a linee, istogrammi

Lezione 05. Costruzione di grafici a torte, grafici a linee, istogrammi Lezione 05 Costruzione di grafici a torte, grafici a linee, istogrammi Grafici a TORTA In un grafico a torta il cerchio (torta) è diviso in settori la cui ampiezza angolare è proporzionale al valore delle

Dettagli

Analisi discriminante in R. Strumenti quantitativi per la gestione

Analisi discriminante in R. Strumenti quantitativi per la gestione Analisi discriminante in R Strumenti quantitativi per la gestione Emanuele Taufer file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/labs/l4-lda.html#(1) 1/25 Default data Carichiamo il

Dettagli

STATISTICA SOCIALE - CORSO DI LAUREA IN SCIENZE TURISTICHE Prova intermedia del 15/11/07 COMPITO A

STATISTICA SOCIALE - CORSO DI LAUREA IN SCIENZE TURISTICHE Prova intermedia del 15/11/07 COMPITO A STATISTICA SOCIALE - CORSO DI LAUREA IN SCIENZE TURISTICHE Prova intermedia del 15/11/07 COMPITO A Esercizio 1 La Tabella 1 riporta alcuni dei dati raccolti in occasione di uno studio sul turismo in una

Dettagli

CAPITOLO 11 ANALISI DI REGRESSIONE

CAPITOLO 11 ANALISI DI REGRESSIONE VERO FALSO CAPITOLO 11 ANALISI DI REGRESSIONE 1. V F Se c è una relazione deterministica tra due variabili,x e y, ogni valore dato di x,determinerà un unico valore di y. 2. V F Quando si cerca di scoprire

Dettagli

Computazione per l interazione naturale: macchine che apprendono

Computazione per l interazione naturale: macchine che apprendono Computazione per l interazione naturale: macchine che apprendono Corso di Interazione uomo-macchina II Prof. Giuseppe Boccignone Dipartimento di Scienze dell Informazione Università di Milano boccignone@dsi.unimi.it

Dettagli

Lezione 5. Costruzione di grafici a torte, grafici a linee, istogrammi 1/22

Lezione 5. Costruzione di grafici a torte, grafici a linee, istogrammi 1/22 Lezione 5 Costruzione di grafici a torte, grafici a linee, istogrammi 1/22 Grafici a TORTA In un grafico a torta il cerchio (torta) è diviso in settori la cui ampiezza angolare è proporzionale al valore

Dettagli

Dipartimento di Fisica a.a. 2003/2004 Fisica Medica 2 Indici statistici 22/4/2005

Dipartimento di Fisica a.a. 2003/2004 Fisica Medica 2 Indici statistici 22/4/2005 Dipartimento di Fisica a.a. 23/24 Fisica Medica 2 Indici statistici 22/4/25 Ricerca statistica La ricerca può essere deduttiva (data una legge teorica nota cerco verifica tramite più misure) ovvero induttiva

Dettagli

Richiami di inferenza statistica. Strumenti quantitativi per la gestione. Emanuele Taufer

Richiami di inferenza statistica. Strumenti quantitativi per la gestione. Emanuele Taufer Richiami di inferenza statistica Strumenti quantitativi per la gestione Emanuele Taufer Inferenza statistica Inferenza statistica: insieme di tecniche che si utilizzano per ottenere informazioni su una

Dettagli

Esercitazioni Infostat ConfInt

Esercitazioni Infostat ConfInt Esercitazioni Infostat ConfInt Matteo Re, Alessandro Di Domizio 3 Maggio 2019 1 Introduzione In questa esercitazione vedremo come stimare l intervallo di confidenza da un campione che assumiamo essere

Dettagli

Richiami di inferenza statistica Strumenti quantitativi per la gestione

Richiami di inferenza statistica Strumenti quantitativi per la gestione Richiami di inferenza statistica Strumenti quantitativi per la gestione Emanuele Taufer Inferenza statistica Parametri e statistiche Esempi Tecniche di inferenza Stima Precisione delle stime Intervalli

Dettagli

MatLab - Testo pagina 1 di 5 101

MatLab - Testo pagina 1 di 5 101 MatLab - Testo pagina 1 di 5 101 8. FUNZIONI E SCRIPT IN MATLAB 801. Scrivere il listato di un file funzione MatLab alfa(x) che, dato un numero reale x dia come risultato la matrice p calcolata come segue:

Dettagli

Analisi Discriminante. Strumenti quantitativi per la gestione

Analisi Discriminante. Strumenti quantitativi per la gestione Analisi Discriminante Strumenti quantitativi per la gestione Emanuele Taufer file:///g:/il%20mio%20drive/2%20corsi/3%20sqg/classes/4-2_ad.html#(33) 1/39 AD Tecnica di classificazione che sfrutta combinazioni

Dettagli

Analisi Multivariata Prova intermedia del 20 aprile 2011

Analisi Multivariata Prova intermedia del 20 aprile 2011 Analisi Multivariata Prova intermedia del 20 aprile 20 Esercizio A Sia X N 3 (µ, Σ) con µ = [ 3,, 4] e 2 0 Σ = 2 5 0 0 0 2 Quali delle seguenti variabili casuali è indipendente? Motivare la risposta. A.

Dettagli

Corso di Riconoscimento di Forme. Sommario: Matrice di confusione Cross validation Prestazioni nel KNN

Corso di Riconoscimento di Forme. Sommario: Matrice di confusione Cross validation Prestazioni nel KNN Corso di Riconoscimento di Forme Sommario: Matrice di confusione Cross validation Prestazioni nel KNN Matrice di confusione Il semplice calcolo dell'errore di classificazione non permette di capire il

Dettagli

Il Teorema del limite Centrale (TLC)

Il Teorema del limite Centrale (TLC) (TLC) Teorema. Sia X 1,..., X n un campione i.i.d. per una v.a. X, avente E(X ) = µ e Var(X ) = σ 2 entrambi finiti. Allora Z n = X µ σ 2 n n Y N(0, 1) Si noti che nel calcolare Z n ho standardizzato X.

Dettagli

Tecniche di sondaggio

Tecniche di sondaggio SMID a.a. 2005/2006 Corso di Statistica per la Ricerca Sperimentale Tecniche di sondaggio 24/1/2006 Nomenclatura Indicheremo con P una popolazione, con N la sua numerosità, con k la sua etichetta e con

Dettagli

Introduzione a R. Monica Marabelli. 30 Ottobre 2015

Introduzione a R. Monica Marabelli. 30 Ottobre 2015 Introduzione a R Monica Marabelli 30 Ottobre 2015 Cos é R? R é un programma utile per l analisi dei dati R puó essere utilizzato per: elaborare dati svolgere analisi statistiche effettuare rappresentazioni

Dettagli

Data Journalism. Analisi dei dati. Angelica Lo Duca

Data Journalism. Analisi dei dati. Angelica Lo Duca Data Journalism Analisi dei dati Angelica Lo Duca angelica.loduca@iit.cnr.it Obiettivo L obiettivo dell analisi dei dati consiste nello scoprire trend, pattern e relazioni nascosti nei dati. di analisi

Dettagli

Laboratorio 3-30 settembre 2005

Laboratorio 3-30 settembre 2005 Laboratorio 3-30 settembre 2005 Le funzioni in Octave Le funzioni in Octave vengono memorizzate come una stringa di caratteri (tra apici) >> fun= 1/(1+x^2) La semplice valutazione di fun, funzione di una

Dettagli

STATISTICA AZIENDALE Modulo Controllo di Qualità

STATISTICA AZIENDALE Modulo Controllo di Qualità STATISTICA AZIENDALE Modulo Controllo di Qualità A.A. 009/10 - Sottoperiodo PROA DEL 14 MAGGIO 010 Cognome:.. Nome: Matricola:.. AERTENZE: Negli esercizi in cui sono richiesti calcoli riportare tutte la

Dettagli

Dall Analisi Fattoriale alla Regressione Lineare

Dall Analisi Fattoriale alla Regressione Lineare Dall Analisi Fattoriale alla Regressione Lineare Metodi Quantitativi per Economia, Finanza e Management Esercitazione n 10 Consegna Lavoro di gruppo La scadenza per la consegna del lavoro di gruppo è fissata

Dettagli

ANALISI DEI DATI EPIDEMIOLOGICI

ANALISI DEI DATI EPIDEMIOLOGICI ANALISI DEI DATI EPIDEMIOLOGICI Statistica descrittiva ed inferenziale Campione Media, dev. standard, RR, RD, Stat. descrittiva Statistica descrittiva ed inferenziale Popolazione Campione Media, dev.

Dettagli

CAMPIONAMENTO - ALCUNI TERMINI CHIAVE

CAMPIONAMENTO - ALCUNI TERMINI CHIAVE CAMPIONAMENTO - ALCUNI TERMINI CHIAVE POPOLAZIONE = qualsiasi insieme di oggetti (unità di analisi) di ricerca N = ampiezza della popolazione PARAMETRI = caratteristiche della popolazione [media, proporzione

Dettagli

Esercitazione finale - corso R base Francesco Vidoli Ottobre 2018

Esercitazione finale - corso R base Francesco Vidoli Ottobre 2018 Esercitazione finale - corso R base Francesco Vidoli Ottobre 2018 Passo 1: Leggere il file di input (il file si trova a questo indirizzo: https://fvidoli.weebly.com/uploads/2/3/0/8/ 23088460/dati_medici.csv),

Dettagli

STATISTICA. Regressione-3 L inferenza per il modello lineare semplice

STATISTICA. Regressione-3 L inferenza per il modello lineare semplice STATISTICA Regressione-3 L inferenza per il modello lineare semplice Regressione lineare: GRAFICO DI DISPERSIONE & & analisi residui A. Valutazione preliminare se una retta possa essere una buona approssimazione

Dettagli

Statistica descrittiva: analisi di regressione

Statistica descrittiva: analisi di regressione Statistica descrittiva: analisi di regressione L analisi di regressione permette di esplorare le relazioni tra due insiemi di valori (p.e. i valori di due attributi di un campione) alla ricerca di associazioni.

Dettagli

Computazione per l interazione naturale: processi gaussiani

Computazione per l interazione naturale: processi gaussiani Computazione per l interazione naturale: processi gaussiani Corso di Interazione uomo-macchina II Prof. Giuseppe Boccignone Dipartimento di Scienze dell Informazione Università di Milano boccignone@dsi.unimi.it

Dettagli

Parametri e statistiche. Parametri e statistiche. Distribuzioni campionarie. Popolazione Parametri Valori fissi, Statistiche o Stimatori.

Parametri e statistiche. Parametri e statistiche. Distribuzioni campionarie. Popolazione Parametri Valori fissi, Statistiche o Stimatori. Parametri e statistiche Popolazione Parametri Valori fissi, spesso non noti Campione Statistiche o Stimatori Variabili casuali, le cui determinazioni dipendono dalle particolari osservazioni scelte Parametri

Dettagli

Istituzioni di Statistica 1 Esercizi su strumenti grafici e funzione di frequenza relativa cumulata

Istituzioni di Statistica 1 Esercizi su strumenti grafici e funzione di frequenza relativa cumulata Istituzioni di Statistica 1 Esercizi su strumenti grafici e funzione di frequenza relativa cumulata Esercizio 1 La seguente tabella riguarda il tempo per passare da 0 a 100 km/h di 17 automobili tedesche

Dettagli

Laboratorio di Statistica e Analisi dei Dati

Laboratorio di Statistica e Analisi dei Dati Laboratorio di Statistica e Analisi dei Dati Nicolò Campolongo Università degli Studi di Milano nicolo.campolongo@unimi.it November 9, 2018 Nicolò Campolongo (UniMi) Lezione 1 November 9, 2018 1 / 14 Lezione

Dettagli

Introduzione al MATLAB c Parte 2

Introduzione al MATLAB c Parte 2 Introduzione al MATLAB c Parte 2 Lucia Gastaldi Dipartimento di Matematica, http://dm.ing.unibs.it/gastaldi/ 24 settembre 2007 Outline 1 M-file di tipo Script e Function Script Function 2 Elementi di programmazione

Dettagli

CONCETTI CHIAVE DELLA STATISTICA

CONCETTI CHIAVE DELLA STATISTICA CONCETTI CHIAVE DELLA STATISTICA Il nuovo curricolo fa espresso riferimento ad alcuni concetti chiave della statistica, è pertanto opportuno riferirsi ad essi. Questa breve nota non può essere esaustiva.

Dettagli

Analisi Multivariata Prova finale del 3 giugno 2010

Analisi Multivariata Prova finale del 3 giugno 2010 Analisi Multivariata Prova finale del 3 giugno 2010 Esercizi da svolgere con carta e penna Esercizio A A1 Descrivere brevemente qual è l obiettivo principale dell analisi fattoriale. A2 Scrivere il modello

Dettagli

Business Intelligence per i Big Data

Business Intelligence per i Big Data Business Intelligence per i Big Data Esercitazione di laboratorio n. 6 L obiettivo dell esercitazione è il seguente: - Applicare algoritmi di data mining per la classificazione al fine di analizzare dati

Dettagli

Analisi Numerica Corso di Laurea in Ingegneria Elettrotecnica

Analisi Numerica Corso di Laurea in Ingegneria Elettrotecnica Analisi Numerica Corso di Laurea in Ingegneria Elettrotecnica (A.A. 2016-2017) Prof.ssa Silvia Tozza Integrazione numerica 6 Dicembre 2016 Silvia Tozza Email: tozza@mat.uniroma1.it Ricevimento: Su appuntamento

Dettagli

Sistemi di Elaborazione dell Informazione 170. Caso Non Separabile

Sistemi di Elaborazione dell Informazione 170. Caso Non Separabile Sistemi di Elaborazione dell Informazione 170 Caso Non Separabile La soluzione vista in precedenza per esempi non-linearmente separabili non garantisce usualmente buone prestazioni perchè un iperpiano

Dettagli

Sviluppo di strumenti grafici su una Web Application per il data mining

Sviluppo di strumenti grafici su una Web Application per il data mining Sviluppo di strumenti grafici su una Web Application per il data mining Università degli studi di Napoli Federico II FACOLTÀ DI SCIENZE MATEMATICHE, FISICHE E NATURALI Corso di Laurea in Informatica 4

Dettagli

Classificazione di immagini aeree. Annalisa Franco

Classificazione di immagini aeree. Annalisa Franco Classificazione di immagini aeree Annalisa Franco annalisa.franco@unibo.it http://bias.csr.unibo.it/vr/ 2 Classificazione di immagini aeree Scopo di questa esercitazione è l implementazione di una tecnica

Dettagli

E n 1 n. n i. n 2. n 2 ( n

E n 1 n. n i. n 2. n 2 ( n Lezione n. 7 7.1 Ancora sulle proprietà degli stimatori Esempio 7.1 [continua dall Esempio 6.1] Studiare varianza e MSE dei due stimatori e verificare se T n raggiunge il limite di Cramer- Rao. Soluzione.

Dettagli

HR analyics. Analisi con le CP e analisi predittiva

HR analyics. Analisi con le CP e analisi predittiva HR analyics Analisi con le CP e analisi predittiva SQG file:///g:/il%20mio%20drive/2%20corsi/3%20sqg/labs/l10-hr_predictive.html#(1) 1/24 Dati Human Resources (HR) In questa esercitazione viene analizzato

Dettagli

Distribuzioni di probabilità e principi del metodo di Montecarlo. Montecarlo

Distribuzioni di probabilità e principi del metodo di Montecarlo. Montecarlo Distribuzioni di probabilità e principi del metodo di Montecarlo Simulazione di sistemi complessi Distribuzioni di probabilità Istogrammi Generazione di numeri casuali Esempi di applicazione del metodo

Dettagli

Contenuto del capitolo

Contenuto del capitolo Capitolo 8 Stima 1 Contenuto del capitolo Proprietà degli stimatori Correttezza: E(Stimatore) = parametro da stimare Efficienza Consistenza Intervalli di confidenza Per la media - per una proporzione Come

Dettagli

Computazione per l interazione naturale: Regressione lineare (MSE)

Computazione per l interazione naturale: Regressione lineare (MSE) Computazione per l interazione naturale: Regressione lineare (MSE) Corso di Interazione Naturale Prof. Giuseppe Boccignone Dipartimento di Informatica Università di Milano boccignone@di.unimi.it boccignone.di.unimi.it/in_2015.html

Dettagli

CAPITOLO 2 RAPPRESENTAZIONI GRAFICHE DEI DATI

CAPITOLO 2 RAPPRESENTAZIONI GRAFICHE DEI DATI VERO FALSO CAPITOLO 2 RAPPRESENTAZIONI GRAFICHE DEI DATI V F 1. Una tabella base di frequenza contiene 2 colonne: una per i valori delle variabili d interesse e un altra per il numero delle volte che i

Dettagli

ESERCITAZIONE REGRESSIONE MULTIPLA

ESERCITAZIONE REGRESSIONE MULTIPLA ESERCITAZIONE REGRESSIONE MULTIPLA Dati delle Nazioni Unite del 2005 riferiti, per diverse nazioni, al tasso di feconditá (bambini per donna) (variabile Fert), alla percentuale di donne che usa contraccettivi

Dettagli

Università di Cassino Corso di Statistica 1 Esercitazione del 15/10/2007 Dott. Alfonso Piscitelli. Esercizio 1

Università di Cassino Corso di Statistica 1 Esercitazione del 15/10/2007 Dott. Alfonso Piscitelli. Esercizio 1 Università di Cassino Corso di Statistica 1 Esercitazione del 15/10/2007 Dott. Alfonso Piscitelli Esercizio 1 Il seguente data set riporta la rilevazione di alcuni caratteri su un collettivo di 20 soggetti.

Dettagli

Prof. Marco Masseroli

Prof. Marco Masseroli Facoltà di Ingegneria Industriale Laurea in Ingegneria Energetica, Meccanica e dei Trasporti Dipartimento di Elettronica e Informazione Informatica B Prof. Marco Masseroli Indice Laboratorio 4: Linguaggio

Dettagli

ESPLORAZIONE DEI DATI (parte 1) 1 / 21

ESPLORAZIONE DEI DATI (parte 1) 1 / 21 ESPLORAZIONE DEI DATI (parte 1) 1 / 21 Variabili 2 / 21 Una variabile è una caratteristica oggetto di osservazione in uno studio. Variabili 2 / 21 Una variabile è una caratteristica oggetto di osservazione

Dettagli

Modelli Statistici per l Economia. Regressione lineare con un singolo regressore (terza parte)

Modelli Statistici per l Economia. Regressione lineare con un singolo regressore (terza parte) Modelli Statistici per l Economia Regressione lineare con un singolo regressore (terza parte) 1 Verifica di ipotesi su β 1 H 0 : β 1 = β 1,0 H 1 : β 1 β 1,0 Se è vera H 0 (cioè sotto H 0 ) e n è grande,

Dettagli

Prova scritta di Complementi di Probabilità e Statistica. 7 Dicembre 2012

Prova scritta di Complementi di Probabilità e Statistica. 7 Dicembre 2012 Prova scritta di Complementi di Probabilità e Statistica 7 Dicembre. Un ingegnere vuole investigare se le caratteristiche di una superficie metallica sono influenzate dal tipo di pittura usata e dal tempo

Dettagli

Introduzione al software R

Introduzione al software R Introduzione al software R 1 1 Università di Napoli Federico II cristina.tortora@unina.it il software R Si tratta di un software molto flessibile che permette di compiere praticamente qualsiasi tipo di

Dettagli

Analisi Discriminante Canonica con R

Analisi Discriminante Canonica con R Università di Bologna - Facoltà di Scienze Statistiche Laurea Triennale in Statistica e Ricerca Sociale Corso di Analisi di Serie Storiche e Multidimensionali Prof.ssa Marilena Pillati Analisi Discriminante

Dettagli

MATLAB c. Lucia Gastaldi Dipartimento di Matematica Lezione 4 (15 ottobre 2003)

MATLAB c. Lucia Gastaldi Dipartimento di Matematica  Lezione 4 (15 ottobre 2003) MATLAB c M-file. Lucia Gastaldi Dipartimento di Matematica http://dm.ing.unibs.it/gastaldi/ Lezione 4 (15 ottobre 2003) Esercizio Problema 3: la successione di funzioni f n (x) = (x 2 x) n per 0 x 1 è

Dettagli

Riconoscimento e recupero dell informazione per bioinformatica

Riconoscimento e recupero dell informazione per bioinformatica Riconoscimento e recupero dell informazione per bioinformatica Teoria della decisione di Bayes Manuele Bicego Corso di Laurea in Bioinformatica Dipartimento di Informatica - Università di Verona Sommario

Dettagli

Equazioni differenziali con valori al bordo

Equazioni differenziali con valori al bordo Equazioni differenziali con valori al bordo Lucia Gastaldi DICATAM - Sez. di Matematica, http://lucia-gastaldi.unibs.it Indice 1 Equazioni di diffusione reazione 2 Equazioni di diffusione reazione Si consideri

Dettagli

Statistica descrittiva: misure di associazione

Statistica descrittiva: misure di associazione Statistica descrittiva: misure di associazione L analisi di regressione permette di esplorare le relazioni tra due insiemi di valori (p.e. i valori di due attributi di un campione) alla ricerca di associazioni.

Dettagli

Distribuzioni di probabilità e principi del metodo di Montecarlo

Distribuzioni di probabilità e principi del metodo di Montecarlo Distribuzioni di probabilità e principi del metodo di Montecarlo Simulazione di sistemi complessi Distribuzioni di probabilità Istogrammi Generazione di numeri casuali Esempi di applicazione del metodo

Dettagli

Lezione n. 1 (a cura di Irene Tibidò)

Lezione n. 1 (a cura di Irene Tibidò) Lezione n. 1 (a cura di Irene Tibidò) Richiami di statistica Variabile aleatoria (casuale) Dato uno spazio campionario Ω che contiene tutti i possibili esiti di un esperimento casuale, la variabile aleatoria

Dettagli

Analisi economica NUTS (regioni) Europee

Analisi economica NUTS (regioni) Europee Analisi economica NUTS (regioni) Europee Con riferimento al dataset fornito: 1. Calcolare la distribuzione di frequenze assolute, relative e percentuali delle microaree NUTS per le cinque classi di popolazione

Dettagli

Istituzioni di Statistica e Statistica Economica

Istituzioni di Statistica e Statistica Economica Istituzioni di Statistica e Statistica Economica Università degli Studi di Perugia Facoltà di Economia, Assisi, a.a. 2013/14 Esercitazione n. 1 A. I dati riportati nella seguente tabella si riferiscono

Dettagli

Clustering gerarchico con R

Clustering gerarchico con R Clustering gerarchico con R Emanuele Taufer file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/labs/l-10_cluster_h-clust.html#(1) 1/10 Clustering gerarchico in R La funzione di base per

Dettagli

Scale di Misurazione Lezione 2

Scale di Misurazione Lezione 2 Last updated April 26, 2016 Scale di Misurazione Lezione 2 G. Bacaro Statistica CdL in Scienze e Tecnologie per l'ambiente e la Natura II anno, II semestre Tipi di Variabili 1 Scale di Misurazione 1. Variabile

Dettagli

ECONOMETRIA: Laboratorio I

ECONOMETRIA: Laboratorio I ECONOMETRIA: Laboratorio I Luca De Angelis CLASS - Università di Bologna Programma Laboratorio I Valori attesi e varianze Test di ipotesi Stima di un modello lineare attraverso OLS Valore atteso Data una

Dettagli

I fenomeni collettivi sono quei fenomeni il cui studio richiede una pluralità di osservazioni.

I fenomeni collettivi sono quei fenomeni il cui studio richiede una pluralità di osservazioni. Definizione di STATISTICA: La statistica si può definire come un insieme di metodi scientifici finalizzati alla conoscenza quantitativa e qualitativa dei fenomeni collettivi mediante la raccolta, l'ordinamento,

Dettagli

Statistica multivariata 27/09/2016. D.Rodi, 2016

Statistica multivariata 27/09/2016. D.Rodi, 2016 Statistica multivariata 27/09/2016 Metodi Statistici Statistica Descrittiva Studio di uno o più fenomeni osservati sull INTERA popolazione di interesse (rilevazione esaustiva) Descrizione delle caratteristiche

Dettagli