Metodi di classificazione
|
|
- Monica Festa
- 5 anni fa
- Visualizzazioni
Transcript
1 I metodi di classificazione sono metodi utilizzati per trovare modelli statistici capaci di assegnare ciascun oggetto di provenienza incognita ad una delle classi esistenti. L applicazione di questi metodi presuppone che: - gli oggetti da analizzare siano suddivisi in classi definite a priori (classificazione( supervisionata). - gli oggetti appartenenti a classi diverse siano stati campionati da popolazioni diverse.
2 ?
3 Metodi di classificazione VARIABILI o DESCRITTORI COLORE ALTEZZA PROFUMO PETALI... ROSSO ALTO ROSSO ALTO GIALLO BASSO GIALLO BASSO ROSSO ALTO Ciascun oggetto è descritto da p variabili che contengono informazione relativa alle differenze tra le classi
4 Pazienti malati di itterizia vengono curati in un ospedale. Malati gravi : intervento chirurgico Malati meno gravi : terapia E possibile sulla base dei sintomi dei pazienti e delle analisi di laboratorio fare una corretta diagnosi? Utilizzando tutta l informazione relativa ai malati precedentemente curati o operati,, è possibile costruire una regola che assegnerà i pazienti futuri ad una delle due categorie con una piccola probabilità di errore.
5 Formalizzazione del problema della classificazione: - gli oggetti possono essere pensati come punti nello spazio definito dai descrittori (variabili x); - tutti gli oggetti (punti) appartengono ad una delle classi definite; - non si conosce a priori la classe di tutti gli oggetti; - la classe di appartenenza è nota solo per alcuni oggetti; tali oggetti costituiscono il training set: insieme di oggetti per cui sono noti sia il vettore dei descrittori sia la classe; - scopo della classificazione è: utilizzare gli oggetti del training set per costruire una regola per predire la classe di nuovi oggetti sulla base della sola informazione contenuta nei descrittori.
6 Modello o regola di classificazione Class (object 1) = f [x 1 (obj.. 1), x 2 (obj.. 1),.., x p (obj.. 1)] La classe è la variabile risposta e deve essere nota per tutti gli oggetti del training set. Le variabili o descrittori x sono le variabili indipendenti che descrivono le differenze tra le classi.
7 Modello o regola di classificazione La costruzione di un modello o regola di classificazione richiede la conoscenza delle differenze tra le classi (variabili discriminanti). La migliore regola di classificazione è quella che determina la più piccola probabilità di commettere errori nelle classificazioni future, cioè che minimizza l error rate delle classificazioni future.
8 Dal punto di vista geometrico, derivare una regola di classificazione equivale a ripartire lo spazio dei descrittori in tante regioni quante sono le classi. A ciascuna regione corrisponde una classe. I punti (oggetti) che cadono in una regione vengono assegnati alla classe corrispondente a quella regione. Le superfici di separazione tra le regioni vengono chiamate superfici decisionali.
9 Superfici decisionali In prossimità delle superfici decisionali il rischio di commettere errore nella classificazione degli oggetti è molto alto. Ci si può avvalere dell opzione di rifiuto.
10 Definizione delle CLASSI per conoscenza teorica o evidenza sperimentale interpretando i risultati della cluster analysis discretizzando una variabile quantitativa Esempio: x < 2.20 classe A 2.20 < x < 3.30 classe B x > 3.30 classe C
11 tipicità degli alimenti tossicità / mutagenicità biodegradabilità volatilità persistenza riconoscimento dei minerali diagnosi mediche Importanza dei metodi di classificazione rischio ambientale dei composti chimici analisi delle immagini riconoscimento dei composti chimici attraverso i loro spettri origine di provenienza dei reperti archeologici
12 metodi di classificazione modellanti : viene definito uno spazio di classe
13 Metodi di classificazione basati sulla minima distanza Regola di classificazione: l oggetto i viene assegnato alla classe più vicina assegnare i alla classe g se D 2 g < D 2 k per ogni k g D d h d h 2 T 1 g = xi xg W xi xg distanza di Mahalanobis al quadrato
14 Metodi di classificazione basati sulla minima distanza centroidi
15 Caso asimmetrico classe nonclasse
16 Caso asimmetrico Il caso asimmetrico è difficile da modellare. E sempre meglio definire anche le classi di non interesse.. In tal modo, si possono utilizzare le differenze relative a queste classi per costruire una buona regola di classificazione per la classe di interesse.
17 Discriminant Analysis (DA) - Bayesian methods - L analisi discriminante è il metodo di classificazione più importante, basato su modelli di probabilità e sulla regola di Bayes.
18 Discriminant Analysis (DA) Supponiamo di avere due classi A e B e di voler classificare un oggetto x sulla base dei valori di p variabili. Assunzione : x ha diversa distribuzione di probabilità nelle due classi f A (x)) : probabilità di x di appartenere a A f B (x)) : probabilità di x di appartenere a B Lo spazio p-dimensionale viene diviso in due regioni esaustive e mutuamente esclusive tali che in una regione R A si ha maggior probabilità di appartenere alla classe A e nell altra regione R B maggiore probabilità di appartenere alla classe B.
19 Discriminant Analysis (DA) A B R A f A (x)) > f B (x) R B f B (x)) > f A (x) x
20 Discriminant Analysis (DA) Date G classi,, la regola probabilistica più semplice é: assegnare x i alla classe g se f g (x i ) > f k (x i ) per ogni classe k diversa da g.
21 Discriminant Analysis (DA) Probabilità a priori delle classi Oggetti di una classe si osservano più raramente di quelli appartenenti ad un altra (ex. malati di tubercolosi rispetto a malati di bronchite). Probabilità a priori delle classi differenti
22 Discriminant Analysis (DA) Probabilità a priori delle classi P A : probabilità a priori della classe A P B : probabilità a priori della classe B P A << P B Un oggetto verrà assegnato alla classe A solo se la probabilità di A f A (x) è molto più grande della probabilità di B f B (x), in tutti gli altri casi verrà assegnato a B.
23 Probabilità a priori delle classi Le probabilità a priori possono essere note oppure essere calcolate: Pg = 1/ G P = n / n g g G è il numero totale di classi (g =1,2,...,G), n g il numero di oggetti nella g-esima classe e n il numero totale di oggetti.
24 Discriminant Analysis (DA) Tenendo conto delle probabilità a priori delle classi,, la regola di classificazione diventa: assegnare x i alla classe g se P g f g (x i ) > P k f k (x i ) per ogni classe k diversa da g. Questa regola è equivalente a quella derivata dalla massimizzazione della probabilità a posteriori della classe di appartenenza. a f a f Pg x > Pk x k g and k=1,..., G i i
25 Discriminant Analysis (DA) Probabilità a posteriori La probabilità a posteriori di un oggetto x i di provenire dalla classe g è ottenuta dal teorema di Bayes: b g bg Pg fg xi Pg xi = P f x k bg k k i P g è la probabilità a priori della g-esima classe f g bg x i è la densità di probabilità dell oggetto x i nella g-esima classe
26 Discriminant Analysis (DA) Densità di probabilità Se le densità di probabilità f g (x) nelle classi non sono note a priori, allora devono essere stimate dal training set. La funzione di densità di probabilità più utilizzata è quella normale.
27 x Discriminant Analysis (DA) bg i f x Densità di probabilità normale 1 = exp M 2π / / s b g L M N 1 i b x s x g 2 O QP
28 Discriminant Analysis (DA) Densità di probabilità normale multivariata bg x L 1 = NM 1 exp π / / 2 f g i p b g Sg dxi x h T g S d g xi x h -1 g O QP matrice di covarianza della g-esima classe centroide della g- esima classe i-esimo oggetto
29 Densità di probabilità normale multivariata bg L 1 = NM 1 exp π / / 2 f g x i p b g Sg dxi x h T g S d g xi x h -1 g O QP dxi x h T g Idxi x h g Mahalanobis distance dxi x h T g dxi x h g Euclidean distance
30 Discriminant Analysis (DA) b g b g i i Pg x > Pk x k g and g=1,..., G bg P f x > P f bg x g g i k k i massimizzare dopo alcune operazioni matematiche discriminant score minimizzare D bgd h d h T -1 g xi = xi xg Sg xi xg + ln Sg 2lnPg
31 discriminant score discriminant function class centroids
32 Linear Discriminant Analysis (LDA) Nel calcolo dello score discriminante D g viene usata la matrice di covarianza within-class pooled W = n g d g 1 n G h S g Assunzione : le diverse classi rappresentano popolazioni con struttura di varianza/covarianza simile. D bgd h d h T -1 g xi = xi xg W xi xg + ln Sp 2lnPg
33 Quadratic Discriminant Analysis (QDA) Nel calcolo dello score discriminante D g viene usata la matrice di covarianza within-class propria di ogni classe S g Assunzione : le diverse classi rappresentano popolazioni con struttura di varianza/covarianza diverse. La stima delle singole matrici di covarianza within-class è significativa solo se tutte le classi sono ben rappresentate.
34 Linear o Quadratic Discriminant Analysis? QDA produce superfici decisionali più flessibili (ipersuperfici), in grado di separare anche classi con forme e orientazioni diverse. LDA produce superfici decisionali lineari (iperpiani), meno flessibili ma molto stabili soprattutto quando si hanno pochi oggetti. QDA LDA
35 K-th Nearest Neighbour metodo - K-NN metodo - Metodo di classificazione non-parametrico parametrico, basato sul concetto di analogia tra gli oggetti. Regola di classificazione : ciascun oggetto è assegnato alla classe più frequente tra i k oggetti più vicini.
36 K-th Nearest Neighbour metodo k = 3
37 KNN algoritmo scalatura dei dati; selezione della misura di distanza; calcolo della matrice delle dissimilarità; selezione dell intervallo di valori di k (i.e. 1 k 7); per ciascun oggetto, si valuta la frequenza delle classi tra i k oggetti più vicini; l oggetto è assegnato alla classe più frequente; scegliere il valore ottimale di k minimizzando la probabilità di errore nelle classificazioni future.
38 la classificazione con KNN è influenzata da informazione locale semplice Vantaggi capace di modellare classi non-lineari buone prestazioni non si ottiene un modello analitico non è invariante alla scalatura e alla misura di dissimilarità KNN algoritmo Svantaggi
39 Metodi di classificazione ad albero Sono i metodi più antichi, anche chiamati metodi di ripartizione sequenziale, poichè basati su una serie di decisioni binarie sequenziali. Caratteristica comune di questi metodi: - costruzione di un albero decisionale (insieme di regole decisionali da seguire in una sequenza ben precisa).
40 Metodi di classificazione ad albero 1 a decisione ROOT variabile con suo valore soglia LEAF KNOT decisione finale (classe) KNOT LEAF LEAF LEAF
41 Metodi di classificazione ad albero La classificazione di un nuovo oggetto avviene percorrendo l albero decisionale dalla radice fino alle foglie.. In ciascun nodo, il valore che l oggetto assume per la variabile associata al nodo viene confrontato con il valore soglia della variabile. SI x ij t? j NO Left Right
42 Metodi di classificazione ad albero X 1 < 1? Sì No X 2 < 1? X 1 < 1.5? Sì No Sì No Classe 1 Classe 2 Classe 1 Classe 2
43 Metodi di classificazione ad albero 2 X 2 1 Classe 2 Classe 1 Classe 2 Classe X 1
44 Metodi di classificazione ad albero La ripartizione dello spazio dei descrittori avviene con superfici decisionali ortogonali agli assi. Ogni classe può essere rappresentata da più celle non contigue. Le variabili che definiscono questo spazio sono solo quelle che compaiono nell albero decisionale.
45 Metodi di classificazione ad albero Vantaggi : - si possono usare sia variabili numeriche sia categoriche; - sono invarianti alla scalatura; - utilizzano solo alcune variabili di quelle iniziali o una loro combinazione lineare; - sono facili da applicare.
46 Metodi di classificazione ad albero Costruzione dell albero decisionale Come scegliere le variabili da associare ai nodi e come ripartirle? Esistono diverse regole, ciascuna tipica del metodo scelto. Il metodo più noto è il metodo CART (Classification and Regression Trees).
47 Classification and Regression Trees - CART - Proposto da Breiman,, Friedman, Olshen e Stone (1984), è il metodo di classificazione ad albero più noto. A ciascun nodo viene assegnata la variabile che meglio separa gli oggetti del training set in funzione delle loro classi. La variabile selezionata è quella che minimizza l indice di Gini : GI..= p p k k k k p k = nk n
48 Classification and Regression Trees - CART - n G : 8 n R : 10 p G = 8 / 18 p R = 10 / 18 Sì X 1 < 1? No p G = 3 / 7 p R = 4 / 7 p G = 5 / 11 p R = 6 / 11 Sì X 2 < 1? X 1 < 1.5? No Sì No Classe G Classe R Classe G Classe R
49 ESEMPIO di applicazione di CART Stima delle classi di mobilità dei POPs utilizzando descrittori molecolari VANTAGGI : stima semplice e rapida della classe di mobilità stima della classe di mobilità di composti nuovi possibilità di screening di grandi database di composti
50 Modello CART per le classi di mobilità YES 0 χ 9.24? NO YES MW 226.3? YES 1 χ 8.03? 1 χ 9.25? S e 24.52? class class class class class class
METODI DI CLASSIFICAZIONE. Federico Marini
METODI DI CLASSIFICAZIONE Federico Marini Introduzione Nella parte introduttiva dell analisi multivariata abbiamo descritto la possibilità di riconoscere l origine di alcuni campioni come uno dei campi
DettagliNaïve Bayesian Classification
Naïve Bayesian Classification Di Alessandro rezzani Sommario Naïve Bayesian Classification (o classificazione Bayesiana)... 1 L algoritmo... 2 Naive Bayes in R... 5 Esempio 1... 5 Esempio 2... 5 L algoritmo
Dettagli1.1 Obiettivi della statistica Struttura del testo 2
Prefazione XV 1 Introduzione 1.1 Obiettivi della statistica 1 1.2 Struttura del testo 2 2 Distribuzioni di frequenza 2.1 Informazione statistica e rilevazione dei dati 5 2.2 Distribuzioni di frequenza
DettagliRiconoscimento automatico di oggetti (Pattern Recognition)
Riconoscimento automatico di oggetti (Pattern Recognition) Scopo: definire un sistema per riconoscere automaticamente un oggetto data la descrizione di un oggetto che può appartenere ad una tra N classi
DettagliQuiz di verifica Classificazione
Quiz di verifica Classificazione Strumenti Quantitativi per la gestione Le domande 1 4 si riferiscono al seguente problema: Supponiamo di raccogliere dati per un gruppo di studenti della classe di SQG
DettagliTecniche di riconoscimento statistico
On AIR s.r.l. Tecniche di riconoscimento statistico Applicazioni alla lettura automatica di testi (OCR) Parte 9 Alberi di decisione Ennio Ottaviani On AIR srl ennio.ottaviani@onairweb.com http://www.onairweb.com/corsopr
DettagliRiconoscimento e recupero dell informazione per bioinformatica
Riconoscimento e recupero dell informazione per bioinformatica Teoria della decisione di Bayes Manuele Bicego Corso di Laurea in Bioinformatica Dipartimento di Informatica - Università di Verona Sommario
DettagliIL CRITERIO DELLA MASSIMA VEROSIMIGLIANZA
Metodi per l Analisi dei Dati Sperimentali AA009/010 IL CRITERIO DELLA MASSIMA VEROSIMIGLIANZA Sommario Massima Verosimiglianza Introduzione La Massima Verosimiglianza Esempio 1: una sola misura sperimentale
DettagliAnalisi Discriminante Strumenti quantitativi per la gestione
Analisi Discriminante Strumenti quantitativi per la gestione Emanuele Taufer Un esempio introduttivo Approccio con Bayes Perchè un altro metodo di classificazione? Classificazione con Bayes Analisi discriminante
DettagliClassificazione Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007
Classificazione Introduzione I modelli di classificazione si collocano tra i metodi di apprendimento supervisionato e si rivolgono alla predizione di un attributo target categorico. A partire da un insieme
DettagliCluster Analysis. La Cluster Analysis è il processo attraverso il quale vengono individuati raggruppamenti dei dati. per modellare!
La Cluster Analysis è il processo attraverso il quale vengono individuati raggruppamenti dei dati. Le tecniche di cluster analysis vengono usate per esplorare i dati e non per modellare! La cluster analysis
DettagliLuigi Santoro. Hyperphar Group S.p.A., MIlano
Come modellare il rischio Luigi Santoro Hyperphar Group S.p.A., MIlano Gli argomenti discussi Le definizioni del termine rischio L utilità di un modello predittivo di rischio Come costruire modelli predittivi
DettagliSTATISTICA MULTIVARIATA SSD MAT/06
Università degli studi di Ferrara Dipartimento di Matematica A.A. 2018/2019 I semestre STATISTICA MULTIVARIATA SSD MAT/06 LEZION 13 Analisi della interdipendenza e della dipendenza : overview Docente:
DettagliIndice. centrale, dispersione e forma Introduzione alla Statistica Statistica descrittiva per variabili quantitative: tendenza
XIII Presentazione del volume XV L Editore ringrazia 3 1. Introduzione alla Statistica 5 1.1 Definizione di Statistica 6 1.2 I Rami della Statistica Statistica Descrittiva, 6 Statistica Inferenziale, 6
DettagliAnalisi Discriminante. Strumenti quantitativi per la gestione
Analisi Discriminante Strumenti quantitativi per la gestione Emanuele Taufer file:///g:/il%20mio%20drive/2%20corsi/3%20sqg/classes/4-2_ad.html#(33) 1/39 AD Tecnica di classificazione che sfrutta combinazioni
DettagliComputazione per l interazione naturale: classificazione probabilistica
Computazione per l interazione naturale: classificazione probabilistica Corso di Interazione uomo-macchina II Prof. Giuseppe Boccignone Dipartimento di Informatica Università di Milano boccignone@di.unimi.it
DettagliTeoria delle Decisioni Bayesiana
Laurea Magistrale in Informatica Nicola Fanizzi Dipartimento di Informatica Università degli Studi di Bari 14 gennaio 2009 Sommario Introduzione Teoria delle decisioni Bayesiana - nel continuo Classificazione
DettagliAlgoritmi di classificazione supervisionati
Corso di Bioinformatica Algoritmi di classificazione supervisionati Giorgio Valentini DI Università degli Studi di Milano 1 Metodi di apprendimento supervisionato per problemi di biologia computazionale
DettagliStima dei parametri. La v.c. multipla (X 1, X 2,.., X n ) ha probabilità (o densità): Le f( ) sono uguali per tutte le v.c.
Stima dei parametri Sia il carattere X rappresentato da una variabile casuale (v.c.) che si distribuisce secondo la funzione di probabilità f(x). Per investigare su tale carattere si estrae un campione
DettagliClassificazione Mario Guarracino Data Mining a.a. 2010/2011
Classificazione Mario Guarracino Data Mining a.a. 2010/2011 Introduzione I modelli di classificazione si collocano tra i metodi di apprendimento supervisionato e si rivolgono alla predizione di un attributo
DettagliStatistica di base per l analisi socio-economica
Laurea Magistrale in Management e comunicazione d impresa Statistica di base per l analisi socio-economica Giovanni Di Bartolomeo gdibartolomeo@unite.it Definizioni di base Una popolazione è l insieme
DettagliL A B C di R. Stefano Leonardi c Dipartimento di Scienze Ambientali Università di Parma Parma, 9 febbraio 2010
L A B C di R 0 20 40 60 80 100 2 3 4 5 6 7 8 Stefano Leonardi c Dipartimento di Scienze Ambientali Università di Parma Parma, 9 febbraio 2010 La scelta del test statistico giusto La scelta della analisi
DettagliMetodi supervisionati di classificazione
Metodi supervisionati di classificazione Giorgio Valentini e-mail: valentini@dsi.unimi.it DSI - Dipartimento di Scienze dell'informazione Classificazione bio-molecolare di tessuti e geni Diagnosi a livello
DettagliTecniche di riconoscimento statistico
On AIR s.r.l. Tecniche di riconoscimento statistico Applicazioni alla lettura automatica di testi (OCR) Parte 2 Teoria della decisione Ennio Ottaviani On AIR srl ennio.ottaviani@onairweb.com http://www.onairweb.com/corsopr
DettagliIndice. Prefazione. 4 Sintesi della distribuzione di un carattere La variabilità Introduzione La variabilità di una distribuzione 75
00PrPag:I-XIV_prefazione_IAS 8-05-2008 17:56 Pagina V Prefazione XI 1 La rilevazione dei fenomeni statistici 1 1.1 Introduzione 1 1.2 Caratteri, unità statistiche e collettivo 1 1.3 Classificazione dei
DettagliCHEMIOMETRIA. CONFRONTO CON VALORE ATTESO (test d ipotesi) CONFRONTO DI VALORI MISURATI (test d ipotesi) CONFRONTO DI RIPRODUCIBILITA (test d ipotesi)
CHEMIOMETRIA Applicazione di metodi matematici e statistici per estrarre (massima) informazione chimica (affidabile) da dati chimici INCERTEZZA DI MISURA (intervallo di confidenza/fiducia) CONFRONTO CON
DettagliMachine Learning: apprendimento, generalizzazione e stima dell errore di generalizzazione
Corso di Bioinformatica Machine Learning: apprendimento, generalizzazione e stima dell errore di generalizzazione Giorgio Valentini DI Università degli Studi di Milano 1 Metodi di machine learning I metodi
DettagliComputazione per l interazione naturale: macchine che apprendono
Computazione per l interazione naturale: macchine che apprendono Corso di Interazione uomo-macchina II Prof. Giuseppe Boccignone Dipartimento di Scienze dell Informazione Università di Milano boccignone@dsi.unimi.it
DettagliPrefazione Ringraziamenti dell'editore Il sito web dedicato al libro Test online: la piattaforma McGraw-Hill Education Guida alla lettura
INDICE GENERALE Prefazione Ringraziamenti dell'editore Il sito web dedicato al libro Test online: la piattaforma McGraw-Hill Education Guida alla lettura XI XIV XV XVII XVIII 1 LA RILEVAZIONE DEI FENOMENI
DettagliElaborazione statistica di dati
Elaborazione statistica di dati CONCETTI DI BASE DI STATISTICA ELEMENTARE Taratura strumenti di misura IPOTESI: grandezza da misurare identica da misura a misura Collaudo sistemi di produzione IPOTESI:
DettagliSequenze (Sistemi) di Variabili Aleatorie Se consideriamo un numero di variabili aleatorie, generalmente dipendenti si parla equivalentemente di:
Teoria dei Fenomeni Aleatori AA 01/13 Sequenze (Sistemi) di Variabili Aleatorie Se consideriamo un numero di variabili aleatorie, generalmente dipendenti si parla equivalentemente di: N-pla o Sequenza
DettagliStatistica multivariata 27/09/2016. D.Rodi, 2016
Statistica multivariata 27/09/2016 Metodi Statistici Statistica Descrittiva Studio di uno o più fenomeni osservati sull INTERA popolazione di interesse (rilevazione esaustiva) Descrizione delle caratteristiche
DettagliCalcolo delle Probabilità e Statistica Matematica: definizioni prima parte. Cap.1: Probabilità
Calcolo delle Probabilità e Statistica Matematica: definizioni prima parte Cap.1: Probabilità 1. Esperimento aleatorio (definizione informale): è un esperimento che a priori può avere diversi esiti possibili
DettagliAlcuni concetti geometrici
Alcuni concetti geometrici spazio Euclideo bidimensionale X P x 1 x 1 x x 11 x 1 x 1 x x 1 P 1 P 1 (x 11, x 1 ) P (x 1, x ) O x 11 x 1 X 1 O (0, 0) In generale,, in uno spazio Euclideo p-dimensionale il
DettagliComputazione per l interazione naturale: classificazione probabilistica
Computazione per l interazione naturale: classificazione probabilistica Corso di Interazione Naturale Prof. Giuseppe Boccignone Dipartimento di Informatica Università di Milano boccignone@di.unimi.it boccignone.di.unimi.it/in_2016.html
DettagliAnalisi della varianza
1. 2. univariata ad un solo fattore tra i soggetti (between subjects) 3. univariata: disegni fattoriali 4. univariata entro i soggetti (within subjects) 5. : disegni fattoriali «misti» L analisi della
DettagliComputazione per l interazione naturale: classificazione supervisionata
Computazione per l interazione naturale: classificazione supervisionata Corso di Interazione uomo-macchina II Prof. Giuseppe Boccignone Dipartimento di Scienze dell Informazione Università di Milano boccignone@dsi.unimi.it
DettagliCorso di Intelligenza Artificiale A.A. 2016/2017
Università degli Studi di Cagliari Corsi di Laurea Magistrale in Ing. Elettronica Corso di Intelligenza rtificiale.. 26/27 Esercizi sui metodi di apprendimento automatico. Si consideri la funzione ooleana
DettagliComputazione per l interazione naturale: Regressione probabilistica
Computazione per l interazione naturale: Regressione probabilistica Corso di Interazione Naturale Prof. Giuseppe Boccignone Dipartimento di Informatica Università di Milano boccignone@di.unimi.it boccignone.di.unimi.it/in_2018.html
DettagliRicerca di outlier. Prof. Matteo Golfarelli Alma Mater Studiorum - Università di Bologna
Ricerca di outlier Prof. Matteo Golfarelli Alma Mater Studiorum - Università di Bologna Ricerca di Anomalie/Outlier Cosa sono gli outlier? L insieme di dati che sono considerevolmente differenti dalla
DettagliUniversità degli Studi Roma Tre Anno Accademico 2014/2015 ST410 Statistica 1
Università degli Studi Roma Tre Anno Accademico 2014/2015 ST410 Statistica 1 Lezione 1 - Martedì 23 Settembre 2014 Introduzione al corso. Richiami di probabilità: spazi di probabilità, variabili aleatorie,
DettagliFacoltà di Psicologia Università di Padova Anno Accademico Corso di Psicometria - Modulo B
Facoltà di Psicologia Università di Padova Anno Accademico 2010-2011 Corso di Psicometria - Modulo B Dott. Marco Vicentini marco.vicentini@unipd.it Rev. 27/12/2010 Regressione lineare Modello geometrico
DettagliPROBABILITÀ ELEMENTARE
Prefazione alla seconda edizione XI Capitolo 1 PROBABILITÀ ELEMENTARE 1 Esperimenti casuali 1 Spazi dei campioni 1 Eventi 2 Il concetto di probabilità 3 Gli assiomi della probabilità 3 Alcuni importanti
DettagliMulti classificatori. Prof. Matteo Golfarelli Alma Mater Studiorum - Università di Bologna
Multi classificatori Prof. Matteo Golfarelli Alma Mater Studiorum - Università di Bologna Combinazione di classificatori Idea: costruire più classificatori di base e predire la classe di appartenza di
DettagliUniversità degli Studi Roma Tre Anno Accademico 2016/2017 ST410 Statistica 1
Università degli Studi Roma Tre Anno Accademico 2016/2017 ST410 Statistica 1 Lezione 1 - Mercoledì 28 Settembre 2016 Introduzione al corso. Richiami di probabilità: spazi di probabilità, variabili aleatorie,
Dettagli62 CAPITOLO 3. STATISTICA DESCRITTIVA
62 CAPITOLO 3. STATISTICA DESCRITTIVA Raccogliamo su una popolazione di n individui i dati relativi a m caratteri (variabili) e riportiamoli in una matrice, dove le righe (n) sono relative ad individui
DettagliSequenze (Sistemi) di Variabili Aleatorie Se consideriamo un numero di variabili aleatorie, generalmente dipendenti si parla equivalentemente di:
Teoria dei Fenomeni Aleatori AA 01/13 Sequenze (Sistemi) di Variabili Aleatorie Se consideriamo un numero di variabili aleatorie, generalmente dipendenti si parla equivalentemente di: N-pla o Sequenza
DettagliClassificazione k-nn con R. Strumenti quantitativi per la gestione
Classificazione k-nn con R Strumenti quantitativi per la gestione Emanuele Taufer file:///g:/il%20mio%20drive/2%20corsi/3%20sqg/labs/l1-knn.html#(1) 1/16 Altezza e peso degli adulti Le statistiche sull
DettagliCampionamento. Una grandezza fisica e' distribuita secondo una certa PDF
Campionamento Una grandezza fisica e' distribuita secondo una certa PDF La pdf e' caratterizzata da determinati parametri Non abbiamo una conoscenza diretta della pdf Possiamo determinare una distribuzione
DettagliStatistica. Capitolo 13. Test sulla Bontà di Adattamento e Tabelle di Contingenza. Cap. 16-1
Statistica Capitolo 13 Test sulla Bontà di Adattamento e Tabelle di Contingenza Cap. 16-1 Obiettivi del Capitolo Dopo aver completato il capitolo, sarete in grado di: Usare il test sulla bontà di adattamento
DettagliAnalisi multivariata per osservazioni appaiate. Analisi multivariata per osservazioni appaiate
Introduzione Notazione Modello additivo Verifica d ipotesi Sia X una variabile q-dimensionale, a valori reali, non degenere, osservata in k tempi diversi (τ 1, τ 2,..., τ k ), sulle stesse n unità statistiche
DettagliAlberi Decisionali Per l analisi del mancato rinnovo all abbonamento di una rivista
Alberi Decisionali Per l analisi del mancato rinnovo all abbonamento di una rivista Il problema L anticipazione del fenomeno degli abbandoni da parte dei propri clienti, rappresenta un elemento fondamentale
DettagliSistemi di Elaborazione dell Informazione 170. Caso Non Separabile
Sistemi di Elaborazione dell Informazione 170 Caso Non Separabile La soluzione vista in precedenza per esempi non-linearmente separabili non garantisce usualmente buone prestazioni perchè un iperpiano
DettagliSequenze (Sistemi) di Variabili Aleatorie Se consideriamo un numero di variabili aleatorie, generalmente dipendenti si parla equivalentemente di:
Sequenze (Sistemi) di Variabili Aleatorie Se consideriamo un numero di variabili aleatorie, generalmente dipendenti si parla equivalentemente di: N-pla o Sequenza di Variabili Aleatorie Sistema di Variabili
DettagliQUANTIZZATORE VETTORIALE
QUANTIZZATORE VETTORIALE Introduzione Nel campo delle reti neurali, la scelta del numero di nodi nascosti da usare per un determinato compito non è sempre semplice. Per tale scelta potrebbe venirci in
DettagliVERIFICA DELLE IPOTESI
VERIFICA DELLE IPOTESI Ipotesi statistica parametrica non parametrica una qualunque affermazione che specifica completamente o parzialmente la distribuzione di probabilità di una v.c. X. semplice: se la
DettagliRichiami di inferenza statistica. Strumenti quantitativi per la gestione. Emanuele Taufer
Richiami di inferenza statistica Strumenti quantitativi per la gestione Emanuele Taufer Inferenza statistica Inferenza statistica: insieme di tecniche che si utilizzano per ottenere informazioni su una
DettagliRichiami di inferenza statistica Strumenti quantitativi per la gestione
Richiami di inferenza statistica Strumenti quantitativi per la gestione Emanuele Taufer Inferenza statistica Parametri e statistiche Esempi Tecniche di inferenza Stima Precisione delle stime Intervalli
DettagliElementi di statistica per l econometria
Indice Prefazione i 1 Teoria della probabilità 1 1.1 Definizioni di base............................. 2 1.2 Probabilità................................. 7 1.2.1 Teoria classica...........................
DettagliIl metodo delle osservazioni indirette
Il metodo delle osservazioni indirette Teoria della stima ai minimi quadrati Il criterio di massima verosimiglianza Sia data una grandezza η e si abbiano n osservazioni indipendenti l i (i=1,...,n) di
DettagliMetodi supervisionati di classificazione
Metodi supervisionati di classificazione Giorgio Valentini e-mail: valentini@dsi.unimi.it DSI - Dipartimento di Scienze dell'informazione Classificazione bio-molecolare di tessuti e geni Diagnosi a livello
DettagliSTATISTICA MULTIVARIATA SSD MAT/06
Università degli studi di Ferrara Dipartimento di Matematica A.A. 2018/2019 I semestre STATISTICA MULTIVARIATA SSD MAT/06 LEZIONE 4 - Questioni di analisi e applicazione della regressione lineare Pratica
DettagliComputazione per l interazione naturale: fondamenti probabilistici (2)
Computazione per l interazione naturale: fondamenti probabilistici (2) Corso di Interazione uomo-macchina II Prof. Giuseppe Boccignone Dipartimento di Scienze dell Informazione Università di Milano boccignone@di.unimi.it
DettagliLETTI PER VOI: Figura 1: la struttura ad albero
LETTI PER VOI: " Classification And Regression Trees " a cura di Cinzia Di Novi Università del Piemonte Orientale, Dipartimento di Politiche Pubbliche e Scelte Collettive Classification And Regression
DettagliApproccio statistico alla classificazione
Approccio statistico alla classificazione Approccio parametrico e non parametrico Finestra di Parzen Classificatori K-NN 1-NN Limitazioni dell approccio bayesiano Con l approccio bayesiano, sarebbe possibile
DettagliDistribuzione Gaussiana - Facciamo un riassunto -
Distribuzione Gaussiana - Facciamo un riassunto - Nell ipotesi che i dati si distribuiscano seguendo una curva Gaussiana è possibile dare un carattere predittivo alla deviazione standard La prossima misura
DettagliComputazione per l interazione naturale: Modelli dinamici
Computazione per l interazione naturale: Modelli dinamici Corso di Interazione uomo-macchina II Prof. Giuseppe Boccignone Dipartimento di Scienze dell Informazione Università di Milano boccignone@dsi.unimi.it
DettagliIndice. L Editore ringrazia. Ringraziamenti. Autori. Prefazione. Obiettivi formativi XIII XVII
Indice XI XI XIII XV XVII L Editore ringrazia Ringraziamenti Autori Prefazione Obiettivi formativi XIX Istruzioni per gli studenti XIX Un po di storia XX Cosa è la Statistica XXI Come usare questo libro
DettagliRichiami di probabilità. Decision Theory e Utilità. Richiami di probabilità. assumere certi valori in un insieme x 1, x 2, x n (dominio)
9 lezione Scaletta argomenti: Probabilità Richiami di probabilità Reti Bayesiane Decision Theory e Utilità 1 Richiami di probabilità - La formalizzazione deriva da Boole - Concetto di VARIABILE CASUALE
Dettagli1 L analisi discriminante lineare
1 L analisi discriminante lineare L analisi discriminante lineare presuppone che p variabili (quantitative) Y 1,... Y p siano state misurate su osservazioni appartenenti a 2 o più gruppi: G 1,...,G k,
DettagliUniversità di Pavia Econometria. Richiami di Statistica. Eduardo Rossi
Università di Pavia Econometria Richiami di Statistica Eduardo Rossi Università di Pavia Campione casuale Siano (Y 1, Y 2,..., Y N ) variabili casuali tali che le y i siano realizzazioni mutuamente indipendenti
DettagliIndice. Presentazione
Indice Presentazione v 1 Il problema statistico 1 1.1 Esperienze e regole 1 1.2 Un esempio introduttivo 3 1.3 Esperienze ed errori 4 1.4 Errori e fluttuazioni 6 1.5 Quando non ci sono regole 7 1.6 Conclusione
DettagliEsperimentazioni di Fisica 1. Prova in itinere del 12 giugno 2018
Esperimentazioni di Fisica 1 Prova in itinere del 1 giugno 018 Esp-1 Prova in Itinere n. - - Page of 6 1/06/018 1. (1 Punti) Quesito L incertezza da associare alle misurazioni eseguite con un certo strumento
DettagliCART: Classification And Regression Trees
CART: Classification And Regression Trees Antonio Manno mannoanto@libero.it, www.statistica.too.it Indice 1 Classificazione e regressione ad albero, CART 1 1.1 Classification trees............................
DettagliApprendimento basato sulle istanze
Apprendimento basato sulle istanze Apprendimento basato sulle istanze Apprendimento: semplice memorizzazione di tutti gli esempi Classificazione di una nuova istanza x j : reperimento degli
DettagliComputazione per l interazione naturale: Regressione lineare
Computazione per l interazione naturale: Corso di Interazione uomo-macchina II Prof. Giuseppe Boccignone Dipartimento di Scienze dell Informazione Università di Milano boccignone@dsi.unimi.it http://homes.dsi.unimi.it/~boccignone/l
DettagliRichiami di statistica e loro applicazione al trattamento di osservazioni topografiche e geodetiche
Richiami di statistica e loro applicazione al trattamento di osservazioni topografiche e geodetiche Ludovico Biagi Politecnico di Milano, DIIAR ludovico.biagi@polimi.it (materiale didattico preparato in
DettagliCenni di apprendimento in Reti Bayesiane
Sistemi Intelligenti 216 Cenni di apprendimento in Reti Bayesiane Esistono diverse varianti di compiti di apprendimento La struttura della rete può essere nota o sconosciuta Esempi di apprendimento possono
DettagliImputazione di dati categoriali mancanti: il modello di classificazione ad albero
Imputazione di dati categoriali mancanti: il modello di classificazione ad albero Antonio Manno mannoanto@libero.it, www.statistica.too.it Indice 1 Il problema dei dati mancanti 1 2 Principali tecniche
DettagliRiferimenti. Il programma di questa lezione
Politecnico di Torino Corso di Statistica Applicata 2005 Classificazione Il problema Sia dato un insieme di n oggetti e le misurazioni di diverse loro caratteristiche, cioè i vettori x 1,..., x n. Si dividano
DettagliNaive bayes. Course of Machine Learning Master Degree in Computer Science University of Rome Tor Vergata. Giorgio Gambosi. a.a.
Naive bayes Course of Machine Learning Master Degree in Computer Science University of Rome Tor Vergata Giorgio Gambosi a.a. 2018-2019 1 Features numerose In presenza di numerose features, definire un
DettagliUniversità degli Studi Roma Tre Anno Accademico 2017/2018 ST410 Statistica 1
Università degli Studi Roma Tre Anno Accademico 2017/2018 ST410 Statistica 1 Lezione 1 - Mercoledì 27 Settembre 2017 Introduzione al corso. Richiami di probabilità: spazi di probabilità, variabili aleatorie,
DettagliITI INFORMATICA: STATISTICA
ITI INFORMATICA: STATISTICA INDICE:.INFERENZA STATISTICA.IL CAMPIONAMENTO CASUALE.LA PROGRAMMAZIONE LINEARE.IL CAMPIONAMENTO STATISTICO.DISTRIBUZIONI CAMPIONARIE.L ALGORITMO DEL SIMPLESSO INFERENZA STATISTICA
DettagliStatistica per l Impresa
Statistica per l Impresa a.a. 207/208 Tecniche di Analisi Multidimensionale Analisi dei Gruppi 2 maggio 208 Indice Analisi dei Gruppi: Introduzione Misure di distanza e indici di similarità 3. Metodi gerarchici
DettagliMetodi di Geometria Algebrica per la ricostruzione statistica degli alberi filogenetici Luigi Biondi
Metodi di Geometria Algebrica per la ricostruzione statistica degli alberi filogenetici Luigi Biondi 20 Luglio 2011 Specie 1: ACGTACTACTGCAGTCCTAGCTGATCGT... Specie 2: ACTGTCGATCATGCTAATCGATGCATCG... Specie
DettagliPresentazione dell edizione italiana
1 Indice generale Presentazione dell edizione italiana Prefazione xi xiii Capitolo 1 Una introduzione alla statistica 1 1.1 Raccolta dei dati e statistica descrittiva... 1 1.2 Inferenza statistica e modelli
DettagliAnalisi della varianza
Università degli Studi di Padova Facoltà di Medicina e Chirurgia Facoltà di Medicina e Chirurgia - A.A. 2009-10 Scuole di specializzazione Lezioni comuni Disciplina: Statistica Docente: dott.ssa Egle PERISSINOTTO
DettagliIDENTIFICAZIONE dei MODELLI e ANALISI dei DATI. Lezione 20: Stima puntuale. Stimatore lineare a MEQM. Esempi. Motivazioni
IDENTIFICAZIONE dei MODELLI e ANALISI dei DATI Lezione 20: Stima puntuale Motivazioni Stima puntuale Indice di qualitá della stima Stimatore a MEQM Stimatore lineare a MEQM Il caso gaussiano Esempi 20-1
DettagliMODELLO DI REGRESSIONE LINEARE. le ipotesi del modello di regressione classico, stima con i metodi dei minimi quadrati e di massima verosimiglianza,
MODELLO DI REGRESSIONE LINEARE le ipotesi del modello di regressione classico, stima con i metodi dei minimi quadrati e di massima verosimiglianza, teorema di Gauss-Markov, verifica di ipotesi e test di
DettagliApprendimento Automatico
Apprendimento Automatico Metodi Bayesiani Fabio Aiolli 11 Dicembre 2017 Fabio Aiolli Apprendimento Automatico 11 Dicembre 2017 1 / 19 Metodi Bayesiani I metodi Bayesiani forniscono tecniche computazionali
DettagliCapitolo 5 Variabili aleatorie discrete notevoli Insegnamento: Statistica Applicata Corso di Laurea in "Scienze e Tecnologie Alimentari"
Levine, Krehbiel, Berenson Statistica Capitolo 5 Variabili aleatorie discrete notevoli Insegnamento: Statistica Applicata Corso di Laurea in "Scienze e Tecnologie Alimentari" Unità Integrata Organizzativa
DettagliModelli per la distribuzione del reddito
Modelli per la distribuzione del reddito Obiettivo trovare (semplici) funzioni matematiche che generino distribuzioni di frequenza che si adattino bene alle distribuzioni di reddito osservate e che abbiano
DettagliUlteriori conoscenze di informatica Elementi di statistica Esercitazione3
Ulteriori conoscenze di informatica Elementi di statistica Esercitazione3 Sui PC a disposizione sono istallati diversi sistemi operativi. All accensione scegliere Windows. Immettere Nome utente b## (##
DettagliAnalisi bivariata. Dott. Cazzaniga Paolo. Dip. di Scienze Umane e Sociali
Dip. di Scienze Umane e Sociali paolo.cazzaniga@unibg.it Introduzione : analisi delle relazioni tra due caratteristiche osservate sulle stesse unità statistiche studio del comportamento di due caratteri
DettagliΣ (x i - x) 2 = Σ x i 2 - (Σ x i ) 2 / n Σ (y i - y) 2 = Σ y i 2 - (Σ y i ) 2 / n. 13. Regressione lineare parametrica
13. Regressione lineare parametrica Esistono numerose occasioni nelle quali quello che interessa è ricostruire la relazione di funzione che lega due variabili, la variabile y (variabile dipendente, in
DettagliUniversità del Piemonte Orientale. Corso di laurea in biotecnologie. Corso di Statistica Medica. Le distribuzioni teoriche di probabilità.
Università del Piemonte Orientale Corso di laurea in biotecnologie Corso di Statistica Medica Le distribuzioni teoriche di probabilità. La distribuzione di probabilità binomiale Corso di laurea in biotecnologie
DettagliCorso di STATISTICA EGA - Classe 1 aa Docenti: Luca Frigau, Claudio Conversano
Corso di STATISTICA EGA - Classe 1 aa 2017-2018 Docenti: Luca Frigau, Claudio Conversano Il corso è organizzato in 36 incontri, per un totale di 72 ore di lezione. Sono previste 18 ore di esercitazione
Dettagli