Classificazione k-nn con R. Strumenti quantitativi per la gestione
|
|
- Donata Riccardi
- 4 anni fa
- Visualizzazioni
Transcript
1 Classificazione k-nn con R Strumenti quantitativi per la gestione Emanuele Taufer file:///g:/il%20mio%20drive/2%20corsi/3%20sqg/labs/l1-knn.html#(1) 1/16
2 Altezza e peso degli adulti Le statistiche sull altezza e sul peso di maschi e femmine adulti ci dicono che la distribuzione di queste due caratteristiche nelle popolazioni è ben approssimata da variabili normali. Più in dettaglio abbiamo la distribuzione delle altezze per i maschi adulti è normale con media 177 cm e ds 16 cm. Indichiamolo con Altezza M N(177, 16) Analogamente, Altezza F N(165, 9) P eso M N(65, 4.5) P eso F N(55, 3.6) La correlazione tra Altezza e Peso (per entrambi i gruppi) è 0,5 file:///g:/il%20mio%20drive/2%20corsi/3%20sqg/labs/l1-knn.html#(1) 2/16
3 Dati HW Il set di dati HW.csv contiene 200 osservazioni su altezza e peso di adulti, suddivisi in M e F (nel data set i dati sono espressi in pollici e libbre): Y : M of F (qualitativa) X 1 X 2 : Altezza dell unità in pollici (quantitativa) : Peso dell unità in libbre (quantitativa) file:///g:/il%20mio%20drive/2%20corsi/3%20sqg/labs/l1-knn.html#(1) 3/16
4 Obbiettivo Creare un modello per classificare un unità come M o F in base all altezza e al peso Questo esempio giocattolo ci permetterà di visualizzare i risultati graficamente Un set di dati test, di convalida è disponibile nel file `HWTest.csv file:///g:/il%20mio%20drive/2%20corsi/3%20sqg/labs/l1-knn.html#(1) 4/16
5 Carica i dati Scarichiamo direttamente il file dall indirizzo web e vediamone le caratteristiche library(ggplot2) HW<-read.csv(" head(hw) ## X Gender Height Weight ## 1 1 F ## 2 2 F ## 3 3 F ## 4 4 F ## 5 5 F ## 6 6 F str(hw) ## 'data.frame': 200 obs. of 4 variables: ## $ X : int ## $ Gender: Factor w/ 2 levels "F","M": ## $ Height: num ## $ Weight: num file:///g:/il%20mio%20drive/2%20corsi/3%20sqg/labs/l1-knn.html#(1) 5/16
6 Scatter plot gg1<-ggplot(hw,aes(x=height,y=weight, color=gender,shape=gender))+geom_point(size=3) gg1 file:///g:/il%20mio%20drive/2%20corsi/3%20sqg/labs/l1-knn.html#(1) 6/16
7 Classificazione k-nn. Per la classificazione k-nn in R si usa la funzione knn(), che fa parte della libreria class. knn() fornisce direttamente la classe prevista per l unità utilizzando un singolo comando. La funzione richiede 4 argomenti (input): Una matrice contenente i predittori associati ai dati training, contrassegnati da XTrain sotto. Una matrice contenente i predittori associati ai dati per i quali desideriamo fare previsioni, con l etichetta XTest sotto (possiamo fare le previsioni anche per i dati training, utilizzeremo in questo caso ancora XTrain). Un vettore contenente le etichette di classe per le osservazioni training, contrassegnato con YTrain sotto. Un valore per k, il numero di vicini più vicini da utilizzare dal classificatore. Nota L output della funzione sono i valori previsti file:///g:/il%20mio%20drive/2%20corsi/3%20sqg/labs/l1-knn.html#(1) 7/16
8 Come usare la funzione knn() library(class) knn(xtrain,xtest,ytrain,k) Importante! La sintassi sopra produce le previsioni per un XTest dato il modello k-nn costruito utilizzando i dati XTrain eytrain Queste previsioni possono essere utilizzate per stimare il tasso di errore test La sintassi sotto produrrà le previsioni per XTrain dato che il modellok-nn viene generato utilizzando i dati XTrain eytrain Queste previsioni possono essere utilizzate per stimare il tasso di errore training library(class) knn(xtrain,xtrain,ytrain,k) file:///g:/il%20mio%20drive/2%20corsi/3%20sqg/labs/l1-knn.html#(1) 8/16
9 k-nn con i dati HW Nei dati HW, separare le variabili Y e X per applicare la funzione knn() Nel codice sotto la classificazione k-nn viene eseguita con k = 5 (arbitrariamente scelto). Le classi previste (p.ytrain) per i dati training vengono memorizzate nel set di dati HW. library(class) ## carica la libreria MASS XTrain=HW[,c(3,4)] ## seleziona solo altezza e peso YTrain=HW[,2] ## seleziona la variabile qualitativa ## crea l'oggetto p.ytrain che contiene le previsioni per i dati training p.ytrain=knn(xtrain,xtrain,ytrain,k=5) ## inserisci le previsioni come nuova variabile nel dataset HW HW$Predict=p.YTrain Il tasso di errore training è mean(ytrain!= p.ytrain) ## [1] file:///g:/il%20mio%20drive/2%20corsi/3%20sqg/labs/l1-knn.html#(1) 9/16
10 Rappresentare i risultati Nota. Il colore è il genere previsto. La forma è il genere osservato. Ad esempio, un cerchio blu è un F erroneamente classificato come M gg2<-ggplot(hw,aes(x=height,y=weight, color=predict,shape=gender))+geom_point(size=3) gg2 file:///g:/il%20mio%20drive/2%20corsi/3%20sqg/labs/l1-knn.html#(1) 10/16
11 Usando k=50 invece di k=5 XTrain=HW[,c(3,4)] YTrain=HW[,2] p.ytrain=knn(xtrain,xtrain,ytrain,k=55) HW$Predict=p.YTrain Il tasso di errore training è mean(ytrain!= p.ytrain) ## [1] file:///g:/il%20mio%20drive/2%20corsi/3%20sqg/labs/l1-knn.html#(1) 11/16
12 gg2<-ggplot(hw,aes(x=height,y=weight, color=predict,shape=gender))+geom_point(size=3) gg2 file:///g:/il%20mio%20drive/2%20corsi/3%20sqg/labs/l1-knn.html#(1) 12/16
13 Scegliere il modello (ossia scegliere k) Utilizziamo i dati HWtest per ottenere una stima del Tasso di errore test per diversi valori di k. Scegli il modello (cioè seleziona k) che ha il tasso di errore test più basso Preparare i dati HWTest<-read.csv(" XTest=HWTest[,c(3,4)] YTest=HWTest[,2] file:///g:/il%20mio%20drive/2%20corsi/3%20sqg/labs/l1-knn.html#(1) 13/16
14 Un loop per rendere tutto automatico Il codice riportato di seguito, per i valori di k nell intervallo 1 50, produce una stima del tasso di errore test basato sui dati HWTest p.ytest = NULL test.error.rate = NULL for(i in 1:50){ set.seed(1) p.ytest = knn(xtrain,xtest,ytrain,k=i) test.error.rate[i] = mean(ytest!= p.ytest) } Il valore di è k che minimizza il tasso di errore test stimato which.min(test.error.rate) ## [1] 9 min(test.error.rate) ## [1] 0.05 file:///g:/il%20mio%20drive/2%20corsi/3%20sqg/labs/l1-knn.html#(1) 14/16
15 Possiamo fare lo stesso per calcolare il tasso di errore training p.ytrain = NULL train.error.rate = NULL for(i in 1:50){ set.seed(1) p.ytrain = knn(xtrain,xtrain,ytrain,k=i) train.error.rate[i] = mean(ytrain!= p.ytrain) } Il valore di k che minimizza il tasso di errore training è which.min(train.error.rate) ## [1] 1 min(train.error.rate) ## [1] 0 file:///g:/il%20mio%20drive/2%20corsi/3%20sqg/labs/l1-knn.html#(1) 15/16
16 Plot degli error rate Error.rates<-data.frame("k"=1:50, "Test.error.rate"=test.error.rate,"Train.error.rate"=trai gg4<-ggplot(error.rates)+geom_line(aes(x=1/k,y=test.error.rate), color="blue")+geom_line(ae gg4 file:///g:/il%20mio%20drive/2%20corsi/3%20sqg/labs/l1-knn.html#(1) 16/16
Validazione dei modelli. Strumenti quantitativi per la gestione
Validazione dei modelli Strumenti quantitativi per la gestione Emanuele Taufer file:///g:/il%20mio%20drive/2%20corsi/3%20sqg/labs/l5-validazione.html#(1) 1/27 Validazione dei modelli In questo esempio
DettagliValidazione dei modelli Strumenti quantitativi per la gestione
Validazione dei modelli Strumenti quantitativi per la gestione Emanuele Taufer Validazione dei modelli Il data set Auto I dati Il problema analizzato Validation set approach Diagramma a dispersione Test
DettagliGrafici in R Strumenti quantitativi per la gestione
Grafici in R Strumenti quantitativi per la gestione Emanuele Taufer Caricare il dataset da una libreria Plot Boxplot Istogramma Scatterplot matrice Disegnare linee aggiuntive Caricare il dataset da una
DettagliSelezione del modello Strumenti quantitativi per la gestione
Selezione del modello Strumenti quantitativi per la gestione Emanuele Taufer Migliorare il modello di regressione lineare (RL) Metodi Selezione Best subset Selezione stepwise Stepwise forward Stepwise
DettagliRegressione logistica. Strumenti quantitativi per la gestione
Regressione logistica Strumenti quantitativi per la gestione Emanuele Taufer file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/classes/4a_rlg.html#(22) 1/28 Metodi di classificazione I
DettagliRegressione K-Nearest Neighbors. Strumenti quantitativi per la gestione
Regressione K-Nearest Neighbors Strumenti quantitativi per la gestione Emanuele Taufer file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/classes/5-5_knn.html#(1) 1/13 Regressione non parametrica
DettagliModelli non lineari e cross validazione. Strumenti quantitativi per la gestione
Modelli non lineari e cross validazione Strumenti quantitativi per la gestione Emanuele Taufer file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/labs/l3-temperature_max.html#(24) 1/28 Metodi
DettagliModelli con predittori qualitativi e modelli con interazioni. Strumenti quantitativi per la gestione
Modelli con predittori qualitativi e modelli con interazioni Strumenti quantitativi per la gestione Emanuele Taufer file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/3d_viq.html#(1) 1/26 Utilizzare
Dettagli3. rappresentare mediante i grafici ritenuti più idonei le distribuzioni di frequenze assolute dei diversi caratteri;
Esercizio 1 Il corso di Statistica è frequentato da 10 studenti che presentano le seguenti caratteristiche Studente Sesso Colore Occhi Voto Soddisfazione Età Stefano M Nero 18 Per niente 21 Francesca F
DettagliCereal data- analisi con gli alberi di classificazione
Cereal data- analisi con gli alberi di classificazione Emanuele Taufer file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/labs/l8-cereal-tree.html#(1) 1/32 Cereal.dat Per migliorare la commercializzazione
DettagliQuiz di verifica - Alberi e FC Strumenti Quantitativi per la gestione
Quiz di verifica - Alberi e FC Strumenti Quantitativi per la gestione Le domande 1-6 si riferiscono al seguente problema Un data set contiene i dati sui consumi di diversi tipi di automobili e alcune loro
DettagliAnalisi esplorativa dei dati - Iris data set Emanuele Taufer
Analisi esplorativa dei dati - Iris data set Emanuele Taufer Contents Iris flower data............................................... 1 Iris Setosa.................................................. 1 Iris
DettagliMulticollinearità. Strumenti quantitativi per la gestione
Multicollinearità Strumenti quantitativi per la gestione Emanuele Taufer file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/3c_mc.html#(1) 1/13 Quando non tutto va come dovrebbe Si parla di multi-collinearità
DettagliRegressione. Monica Marabelli. 15 Gennaio 2016
Regressione Monica Marabelli 15 Gennaio 2016 La regressione L analisi di regressione é una tecnica statistica che serve a studiare la relazione tra variabili. In particolare, nel modello di regressione
DettagliBagging e Foreste Casuali con R
Bagging e Foreste Casuali con R Emanuele Taufer file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/labs/l8-bagging-fc.html#(10) 1/10 Bagging e Foreste casuali con R Utilizziamo ancora una
DettagliAnalisi discriminante in R Strumenti quantitativi per la gestione
Analisi discriminante in R Strumenti quantitativi per la gestione Emanuele Taufer Default data LDA con R Output Plot Previsione Tabella di classificazione Cambiare il criterio di classificazione Costruire
DettagliModelli con predittori qualitativi e modelli con interazioni
Modelli con predittori qualitativi e modelli con interazioni Strumenti quantitativi per la gestione Emanuele Taufer Utilizzare variabili indipendenti qualitative (VIQ) Codifica binaria 0,1 Esempio: salari
DettagliQuiz di verifica Classificazione
Quiz di verifica Classificazione Strumenti Quantitativi per la gestione Le domande 1 4 si riferiscono al seguente problema: Supponiamo di raccogliere dati per un gruppo di studenti della classe di SQG
DettagliK-means clustering con R
K-means clustering con R Emanuele Taufer file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/labs/l-10_cluster_k-means.html#(1) 1/10 Introduzione K-means è un approccio semplice ed elegante
DettagliNaïve Bayesian Classification
Naïve Bayesian Classification Di Alessandro rezzani Sommario Naïve Bayesian Classification (o classificazione Bayesiana)... 1 L algoritmo... 2 Naive Bayes in R... 5 Esempio 1... 5 Esempio 2... 5 L algoritmo
DettagliRiconoscimento automatico di oggetti (Pattern Recognition)
Riconoscimento automatico di oggetti (Pattern Recognition) Scopo: definire un sistema per riconoscere automaticamente un oggetto data la descrizione di un oggetto che può appartenere ad una tra N classi
DettagliINTRODUZIONE ALLA STATISTICA
1 / 31 INTRODUZIONE ALLA STATISTICA A.A.2017/2018 Perchè studiare la statistica 2 / 31 Le decisioni quotidiane sono spesso basate su informazioni incomplete. Perchè studiare la statistica Le decisioni
DettagliLaboratorio 1 Strumenti quantitativi per la gestione
Laboratorio 1 Strumenti quantitativi per la gestione Emanuele taufer Lab: Introduzione a R Comandi di base Lab: Introduzione a R Comandi di base R utilizza funzioni per eseguire le operazioni. Per eseguire
DettagliCorso integrato di informatica, statistica e analisi dei dati sperimentali Esercitazione VII
Corso integrato di informatica, statistica e analisi dei dati sperimentali Esercitazione VII Un breve richiamo sul test t-student Siano A exp (a 1, a 2.a n ) e B exp (b 1, b 2.b m ) due set di dati i cui
DettagliIntroduzione a R. Silvia Parolo. 14 November 2014
Introduzione a R Silvia Parolo 14 November 2014 Cos è R?? è un tool per l analisi di dati è anche un linguaggio di programmazione si può scaricare da http: // www. r-project. org/ primi passi in R R può
DettagliComputazione per l interazione naturale: Modelli dinamici
Computazione per l interazione naturale: Modelli dinamici Corso di Interazione uomo-macchina II Prof. Giuseppe Boccignone Dipartimento di Scienze dell Informazione Università di Milano boccignone@dsi.unimi.it
DettagliRegressione ridge e LASSO Strumenti quantitativi per la gestione
Regressione ridge e LASSO Strumenti quantitativi per la gestione Emanuele Taufer Dati Credit.csv La funzione glmnet() La funzione model.matrix() Regressione ridge Output CV Ridge Output Regressione LASSO
DettagliSTATISTICA PER LA DIGITAL ECONOMY Marco Riani
STATISTICA PER LA DIGITAL ECONOMY 2018 Marco Riani mriani@unipr.it http://www.riani.it INFORMAZIONI SUL CORSO Orario MER 11.15-12.45 (frontale) GIO 9.15-10.45 (frontale) VEN 11.00-13.00 (laboratorio) Ricevimento
DettagliAnalisi Discriminante Strumenti quantitativi per la gestione
Analisi Discriminante Strumenti quantitativi per la gestione Emanuele Taufer Un esempio introduttivo Approccio con Bayes Perchè un altro metodo di classificazione? Classificazione con Bayes Analisi discriminante
DettagliAlberi di decisione con R
Alberi di decisione con R Emanuele Taufer file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/labs/l8-alberi_di_decisione.html#(1) 1/14 Implementare gli alberi decisionali con R Per adattare
DettagliCampionamento e stima di parametri
Sia X una variabile aleatoria associata a un dato esperimento. Ripetiamo l esperimento n volte, ottenendo una famiglia di valori sperimentali della v.a. X : X = (X 1, X 2,..., X n ) ogni X i é una v.a.
DettagliClassificatore K-NN 1
Classificatore K-NN 1 Esercizio: Implementare il classificatore K-NN: [labelassegnate_test error_test] = mio_knn( ds_train, ds_test, k) Traccia: La funzione DIST(A,B') del toolbox reti neurali calcola
DettagliRischio statistico e sua analisi
F94 Metodi statistici per l apprendimento Rischio statistico e sua analisi Docente: Nicolò Cesa-Bianchi versione 7 aprile 018 Per analizzare un algoritmo di apprendimento dobbiamo costruire un modello
DettagliSTATISTICA PER LA DIGITAL ECONOMY 2017
STATISTICA PER LA DIGITAL ECONOMY 2017 Marco Riani mriani@unipr.it http://www.riani.it INFORMAZIONI SUL CORSO Orario MER 11.00-13.00 (frontale) GIO 9.00-11.00 (frontale) VEN 11.00-13.00 (laboratorio) Ricevimento
DettagliLezione 05. Costruzione di grafici a torte, grafici a linee, istogrammi
Lezione 05 Costruzione di grafici a torte, grafici a linee, istogrammi Grafici a TORTA In un grafico a torta il cerchio (torta) è diviso in settori la cui ampiezza angolare è proporzionale al valore delle
DettagliAnalisi discriminante in R. Strumenti quantitativi per la gestione
Analisi discriminante in R Strumenti quantitativi per la gestione Emanuele Taufer file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/labs/l4-lda.html#(1) 1/25 Default data Carichiamo il
DettagliSTATISTICA SOCIALE - CORSO DI LAUREA IN SCIENZE TURISTICHE Prova intermedia del 15/11/07 COMPITO A
STATISTICA SOCIALE - CORSO DI LAUREA IN SCIENZE TURISTICHE Prova intermedia del 15/11/07 COMPITO A Esercizio 1 La Tabella 1 riporta alcuni dei dati raccolti in occasione di uno studio sul turismo in una
DettagliCAPITOLO 11 ANALISI DI REGRESSIONE
VERO FALSO CAPITOLO 11 ANALISI DI REGRESSIONE 1. V F Se c è una relazione deterministica tra due variabili,x e y, ogni valore dato di x,determinerà un unico valore di y. 2. V F Quando si cerca di scoprire
DettagliComputazione per l interazione naturale: macchine che apprendono
Computazione per l interazione naturale: macchine che apprendono Corso di Interazione uomo-macchina II Prof. Giuseppe Boccignone Dipartimento di Scienze dell Informazione Università di Milano boccignone@dsi.unimi.it
DettagliLezione 5. Costruzione di grafici a torte, grafici a linee, istogrammi 1/22
Lezione 5 Costruzione di grafici a torte, grafici a linee, istogrammi 1/22 Grafici a TORTA In un grafico a torta il cerchio (torta) è diviso in settori la cui ampiezza angolare è proporzionale al valore
DettagliDipartimento di Fisica a.a. 2003/2004 Fisica Medica 2 Indici statistici 22/4/2005
Dipartimento di Fisica a.a. 23/24 Fisica Medica 2 Indici statistici 22/4/25 Ricerca statistica La ricerca può essere deduttiva (data una legge teorica nota cerco verifica tramite più misure) ovvero induttiva
DettagliRichiami di inferenza statistica. Strumenti quantitativi per la gestione. Emanuele Taufer
Richiami di inferenza statistica Strumenti quantitativi per la gestione Emanuele Taufer Inferenza statistica Inferenza statistica: insieme di tecniche che si utilizzano per ottenere informazioni su una
DettagliEsercitazioni Infostat ConfInt
Esercitazioni Infostat ConfInt Matteo Re, Alessandro Di Domizio 3 Maggio 2019 1 Introduzione In questa esercitazione vedremo come stimare l intervallo di confidenza da un campione che assumiamo essere
DettagliRichiami di inferenza statistica Strumenti quantitativi per la gestione
Richiami di inferenza statistica Strumenti quantitativi per la gestione Emanuele Taufer Inferenza statistica Parametri e statistiche Esempi Tecniche di inferenza Stima Precisione delle stime Intervalli
DettagliMatLab - Testo pagina 1 di 5 101
MatLab - Testo pagina 1 di 5 101 8. FUNZIONI E SCRIPT IN MATLAB 801. Scrivere il listato di un file funzione MatLab alfa(x) che, dato un numero reale x dia come risultato la matrice p calcolata come segue:
DettagliAnalisi Discriminante. Strumenti quantitativi per la gestione
Analisi Discriminante Strumenti quantitativi per la gestione Emanuele Taufer file:///g:/il%20mio%20drive/2%20corsi/3%20sqg/classes/4-2_ad.html#(33) 1/39 AD Tecnica di classificazione che sfrutta combinazioni
DettagliAnalisi Multivariata Prova intermedia del 20 aprile 2011
Analisi Multivariata Prova intermedia del 20 aprile 20 Esercizio A Sia X N 3 (µ, Σ) con µ = [ 3,, 4] e 2 0 Σ = 2 5 0 0 0 2 Quali delle seguenti variabili casuali è indipendente? Motivare la risposta. A.
DettagliCorso di Riconoscimento di Forme. Sommario: Matrice di confusione Cross validation Prestazioni nel KNN
Corso di Riconoscimento di Forme Sommario: Matrice di confusione Cross validation Prestazioni nel KNN Matrice di confusione Il semplice calcolo dell'errore di classificazione non permette di capire il
DettagliIl Teorema del limite Centrale (TLC)
(TLC) Teorema. Sia X 1,..., X n un campione i.i.d. per una v.a. X, avente E(X ) = µ e Var(X ) = σ 2 entrambi finiti. Allora Z n = X µ σ 2 n n Y N(0, 1) Si noti che nel calcolare Z n ho standardizzato X.
DettagliTecniche di sondaggio
SMID a.a. 2005/2006 Corso di Statistica per la Ricerca Sperimentale Tecniche di sondaggio 24/1/2006 Nomenclatura Indicheremo con P una popolazione, con N la sua numerosità, con k la sua etichetta e con
DettagliIntroduzione a R. Monica Marabelli. 30 Ottobre 2015
Introduzione a R Monica Marabelli 30 Ottobre 2015 Cos é R? R é un programma utile per l analisi dei dati R puó essere utilizzato per: elaborare dati svolgere analisi statistiche effettuare rappresentazioni
DettagliData Journalism. Analisi dei dati. Angelica Lo Duca
Data Journalism Analisi dei dati Angelica Lo Duca angelica.loduca@iit.cnr.it Obiettivo L obiettivo dell analisi dei dati consiste nello scoprire trend, pattern e relazioni nascosti nei dati. di analisi
DettagliLaboratorio 3-30 settembre 2005
Laboratorio 3-30 settembre 2005 Le funzioni in Octave Le funzioni in Octave vengono memorizzate come una stringa di caratteri (tra apici) >> fun= 1/(1+x^2) La semplice valutazione di fun, funzione di una
DettagliSTATISTICA AZIENDALE Modulo Controllo di Qualità
STATISTICA AZIENDALE Modulo Controllo di Qualità A.A. 009/10 - Sottoperiodo PROA DEL 14 MAGGIO 010 Cognome:.. Nome: Matricola:.. AERTENZE: Negli esercizi in cui sono richiesti calcoli riportare tutte la
DettagliDall Analisi Fattoriale alla Regressione Lineare
Dall Analisi Fattoriale alla Regressione Lineare Metodi Quantitativi per Economia, Finanza e Management Esercitazione n 10 Consegna Lavoro di gruppo La scadenza per la consegna del lavoro di gruppo è fissata
DettagliANALISI DEI DATI EPIDEMIOLOGICI
ANALISI DEI DATI EPIDEMIOLOGICI Statistica descrittiva ed inferenziale Campione Media, dev. standard, RR, RD, Stat. descrittiva Statistica descrittiva ed inferenziale Popolazione Campione Media, dev.
DettagliCAMPIONAMENTO - ALCUNI TERMINI CHIAVE
CAMPIONAMENTO - ALCUNI TERMINI CHIAVE POPOLAZIONE = qualsiasi insieme di oggetti (unità di analisi) di ricerca N = ampiezza della popolazione PARAMETRI = caratteristiche della popolazione [media, proporzione
DettagliEsercitazione finale - corso R base Francesco Vidoli Ottobre 2018
Esercitazione finale - corso R base Francesco Vidoli Ottobre 2018 Passo 1: Leggere il file di input (il file si trova a questo indirizzo: https://fvidoli.weebly.com/uploads/2/3/0/8/ 23088460/dati_medici.csv),
DettagliSTATISTICA. Regressione-3 L inferenza per il modello lineare semplice
STATISTICA Regressione-3 L inferenza per il modello lineare semplice Regressione lineare: GRAFICO DI DISPERSIONE & & analisi residui A. Valutazione preliminare se una retta possa essere una buona approssimazione
DettagliStatistica descrittiva: analisi di regressione
Statistica descrittiva: analisi di regressione L analisi di regressione permette di esplorare le relazioni tra due insiemi di valori (p.e. i valori di due attributi di un campione) alla ricerca di associazioni.
DettagliComputazione per l interazione naturale: processi gaussiani
Computazione per l interazione naturale: processi gaussiani Corso di Interazione uomo-macchina II Prof. Giuseppe Boccignone Dipartimento di Scienze dell Informazione Università di Milano boccignone@dsi.unimi.it
DettagliParametri e statistiche. Parametri e statistiche. Distribuzioni campionarie. Popolazione Parametri Valori fissi, Statistiche o Stimatori.
Parametri e statistiche Popolazione Parametri Valori fissi, spesso non noti Campione Statistiche o Stimatori Variabili casuali, le cui determinazioni dipendono dalle particolari osservazioni scelte Parametri
DettagliIstituzioni di Statistica 1 Esercizi su strumenti grafici e funzione di frequenza relativa cumulata
Istituzioni di Statistica 1 Esercizi su strumenti grafici e funzione di frequenza relativa cumulata Esercizio 1 La seguente tabella riguarda il tempo per passare da 0 a 100 km/h di 17 automobili tedesche
DettagliLaboratorio di Statistica e Analisi dei Dati
Laboratorio di Statistica e Analisi dei Dati Nicolò Campolongo Università degli Studi di Milano nicolo.campolongo@unimi.it November 9, 2018 Nicolò Campolongo (UniMi) Lezione 1 November 9, 2018 1 / 14 Lezione
DettagliIntroduzione al MATLAB c Parte 2
Introduzione al MATLAB c Parte 2 Lucia Gastaldi Dipartimento di Matematica, http://dm.ing.unibs.it/gastaldi/ 24 settembre 2007 Outline 1 M-file di tipo Script e Function Script Function 2 Elementi di programmazione
DettagliCONCETTI CHIAVE DELLA STATISTICA
CONCETTI CHIAVE DELLA STATISTICA Il nuovo curricolo fa espresso riferimento ad alcuni concetti chiave della statistica, è pertanto opportuno riferirsi ad essi. Questa breve nota non può essere esaustiva.
DettagliAnalisi Multivariata Prova finale del 3 giugno 2010
Analisi Multivariata Prova finale del 3 giugno 2010 Esercizi da svolgere con carta e penna Esercizio A A1 Descrivere brevemente qual è l obiettivo principale dell analisi fattoriale. A2 Scrivere il modello
DettagliBusiness Intelligence per i Big Data
Business Intelligence per i Big Data Esercitazione di laboratorio n. 6 L obiettivo dell esercitazione è il seguente: - Applicare algoritmi di data mining per la classificazione al fine di analizzare dati
DettagliAnalisi Numerica Corso di Laurea in Ingegneria Elettrotecnica
Analisi Numerica Corso di Laurea in Ingegneria Elettrotecnica (A.A. 2016-2017) Prof.ssa Silvia Tozza Integrazione numerica 6 Dicembre 2016 Silvia Tozza Email: tozza@mat.uniroma1.it Ricevimento: Su appuntamento
DettagliSistemi di Elaborazione dell Informazione 170. Caso Non Separabile
Sistemi di Elaborazione dell Informazione 170 Caso Non Separabile La soluzione vista in precedenza per esempi non-linearmente separabili non garantisce usualmente buone prestazioni perchè un iperpiano
DettagliSviluppo di strumenti grafici su una Web Application per il data mining
Sviluppo di strumenti grafici su una Web Application per il data mining Università degli studi di Napoli Federico II FACOLTÀ DI SCIENZE MATEMATICHE, FISICHE E NATURALI Corso di Laurea in Informatica 4
DettagliClassificazione di immagini aeree. Annalisa Franco
Classificazione di immagini aeree Annalisa Franco annalisa.franco@unibo.it http://bias.csr.unibo.it/vr/ 2 Classificazione di immagini aeree Scopo di questa esercitazione è l implementazione di una tecnica
DettagliE n 1 n. n i. n 2. n 2 ( n
Lezione n. 7 7.1 Ancora sulle proprietà degli stimatori Esempio 7.1 [continua dall Esempio 6.1] Studiare varianza e MSE dei due stimatori e verificare se T n raggiunge il limite di Cramer- Rao. Soluzione.
DettagliHR analyics. Analisi con le CP e analisi predittiva
HR analyics Analisi con le CP e analisi predittiva SQG file:///g:/il%20mio%20drive/2%20corsi/3%20sqg/labs/l10-hr_predictive.html#(1) 1/24 Dati Human Resources (HR) In questa esercitazione viene analizzato
DettagliDistribuzioni di probabilità e principi del metodo di Montecarlo. Montecarlo
Distribuzioni di probabilità e principi del metodo di Montecarlo Simulazione di sistemi complessi Distribuzioni di probabilità Istogrammi Generazione di numeri casuali Esempi di applicazione del metodo
DettagliContenuto del capitolo
Capitolo 8 Stima 1 Contenuto del capitolo Proprietà degli stimatori Correttezza: E(Stimatore) = parametro da stimare Efficienza Consistenza Intervalli di confidenza Per la media - per una proporzione Come
DettagliComputazione per l interazione naturale: Regressione lineare (MSE)
Computazione per l interazione naturale: Regressione lineare (MSE) Corso di Interazione Naturale Prof. Giuseppe Boccignone Dipartimento di Informatica Università di Milano boccignone@di.unimi.it boccignone.di.unimi.it/in_2015.html
DettagliCAPITOLO 2 RAPPRESENTAZIONI GRAFICHE DEI DATI
VERO FALSO CAPITOLO 2 RAPPRESENTAZIONI GRAFICHE DEI DATI V F 1. Una tabella base di frequenza contiene 2 colonne: una per i valori delle variabili d interesse e un altra per il numero delle volte che i
DettagliESERCITAZIONE REGRESSIONE MULTIPLA
ESERCITAZIONE REGRESSIONE MULTIPLA Dati delle Nazioni Unite del 2005 riferiti, per diverse nazioni, al tasso di feconditá (bambini per donna) (variabile Fert), alla percentuale di donne che usa contraccettivi
DettagliUniversità di Cassino Corso di Statistica 1 Esercitazione del 15/10/2007 Dott. Alfonso Piscitelli. Esercizio 1
Università di Cassino Corso di Statistica 1 Esercitazione del 15/10/2007 Dott. Alfonso Piscitelli Esercizio 1 Il seguente data set riporta la rilevazione di alcuni caratteri su un collettivo di 20 soggetti.
DettagliProf. Marco Masseroli
Facoltà di Ingegneria Industriale Laurea in Ingegneria Energetica, Meccanica e dei Trasporti Dipartimento di Elettronica e Informazione Informatica B Prof. Marco Masseroli Indice Laboratorio 4: Linguaggio
DettagliESPLORAZIONE DEI DATI (parte 1) 1 / 21
ESPLORAZIONE DEI DATI (parte 1) 1 / 21 Variabili 2 / 21 Una variabile è una caratteristica oggetto di osservazione in uno studio. Variabili 2 / 21 Una variabile è una caratteristica oggetto di osservazione
DettagliModelli Statistici per l Economia. Regressione lineare con un singolo regressore (terza parte)
Modelli Statistici per l Economia Regressione lineare con un singolo regressore (terza parte) 1 Verifica di ipotesi su β 1 H 0 : β 1 = β 1,0 H 1 : β 1 β 1,0 Se è vera H 0 (cioè sotto H 0 ) e n è grande,
DettagliProva scritta di Complementi di Probabilità e Statistica. 7 Dicembre 2012
Prova scritta di Complementi di Probabilità e Statistica 7 Dicembre. Un ingegnere vuole investigare se le caratteristiche di una superficie metallica sono influenzate dal tipo di pittura usata e dal tempo
DettagliIntroduzione al software R
Introduzione al software R 1 1 Università di Napoli Federico II cristina.tortora@unina.it il software R Si tratta di un software molto flessibile che permette di compiere praticamente qualsiasi tipo di
DettagliAnalisi Discriminante Canonica con R
Università di Bologna - Facoltà di Scienze Statistiche Laurea Triennale in Statistica e Ricerca Sociale Corso di Analisi di Serie Storiche e Multidimensionali Prof.ssa Marilena Pillati Analisi Discriminante
DettagliMATLAB c. Lucia Gastaldi Dipartimento di Matematica Lezione 4 (15 ottobre 2003)
MATLAB c M-file. Lucia Gastaldi Dipartimento di Matematica http://dm.ing.unibs.it/gastaldi/ Lezione 4 (15 ottobre 2003) Esercizio Problema 3: la successione di funzioni f n (x) = (x 2 x) n per 0 x 1 è
DettagliRiconoscimento e recupero dell informazione per bioinformatica
Riconoscimento e recupero dell informazione per bioinformatica Teoria della decisione di Bayes Manuele Bicego Corso di Laurea in Bioinformatica Dipartimento di Informatica - Università di Verona Sommario
DettagliEquazioni differenziali con valori al bordo
Equazioni differenziali con valori al bordo Lucia Gastaldi DICATAM - Sez. di Matematica, http://lucia-gastaldi.unibs.it Indice 1 Equazioni di diffusione reazione 2 Equazioni di diffusione reazione Si consideri
DettagliStatistica descrittiva: misure di associazione
Statistica descrittiva: misure di associazione L analisi di regressione permette di esplorare le relazioni tra due insiemi di valori (p.e. i valori di due attributi di un campione) alla ricerca di associazioni.
DettagliDistribuzioni di probabilità e principi del metodo di Montecarlo
Distribuzioni di probabilità e principi del metodo di Montecarlo Simulazione di sistemi complessi Distribuzioni di probabilità Istogrammi Generazione di numeri casuali Esempi di applicazione del metodo
DettagliLezione n. 1 (a cura di Irene Tibidò)
Lezione n. 1 (a cura di Irene Tibidò) Richiami di statistica Variabile aleatoria (casuale) Dato uno spazio campionario Ω che contiene tutti i possibili esiti di un esperimento casuale, la variabile aleatoria
DettagliAnalisi economica NUTS (regioni) Europee
Analisi economica NUTS (regioni) Europee Con riferimento al dataset fornito: 1. Calcolare la distribuzione di frequenze assolute, relative e percentuali delle microaree NUTS per le cinque classi di popolazione
DettagliIstituzioni di Statistica e Statistica Economica
Istituzioni di Statistica e Statistica Economica Università degli Studi di Perugia Facoltà di Economia, Assisi, a.a. 2013/14 Esercitazione n. 1 A. I dati riportati nella seguente tabella si riferiscono
DettagliClustering gerarchico con R
Clustering gerarchico con R Emanuele Taufer file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/labs/l-10_cluster_h-clust.html#(1) 1/10 Clustering gerarchico in R La funzione di base per
DettagliScale di Misurazione Lezione 2
Last updated April 26, 2016 Scale di Misurazione Lezione 2 G. Bacaro Statistica CdL in Scienze e Tecnologie per l'ambiente e la Natura II anno, II semestre Tipi di Variabili 1 Scale di Misurazione 1. Variabile
DettagliECONOMETRIA: Laboratorio I
ECONOMETRIA: Laboratorio I Luca De Angelis CLASS - Università di Bologna Programma Laboratorio I Valori attesi e varianze Test di ipotesi Stima di un modello lineare attraverso OLS Valore atteso Data una
DettagliI fenomeni collettivi sono quei fenomeni il cui studio richiede una pluralità di osservazioni.
Definizione di STATISTICA: La statistica si può definire come un insieme di metodi scientifici finalizzati alla conoscenza quantitativa e qualitativa dei fenomeni collettivi mediante la raccolta, l'ordinamento,
DettagliStatistica multivariata 27/09/2016. D.Rodi, 2016
Statistica multivariata 27/09/2016 Metodi Statistici Statistica Descrittiva Studio di uno o più fenomeni osservati sull INTERA popolazione di interesse (rilevazione esaustiva) Descrizione delle caratteristiche
Dettagli