METODI DI CLASSIFICAZIONE. Federico Marini
|
|
- Ugo Stefani
- 7 anni fa
- Visualizzazioni
Transcript
1 METODI DI CLASSIFICAZIONE Federico Marini
2 Introduzione Nella parte introduttiva dell analisi multivariata abbiamo descritto la possibilità di riconoscere l origine di alcuni campioni come uno dei campi di applicazione dell analisi multivariata In termini più rigorosi il problema poteva essere riformulato nei seguenti termini: si vogliono usare i campioni di origine nota (campioni di training) per derivare una regola di classificazione che permetta di classificare nuovi oggetti di origine incognita in una delle categorie studiate sulla base dei valori delle misur sperimentali. Metodi che sfruttino attivamente l informazione sui campioni noti si chiamano supervisionati
3 Classificazione Matematicamente questo significa che è necessario assegnare porzioni dello spazio a k dimensioni a ciascuna delle classi in studio. Un campione è quindi assegnato alla classe che occupa la porzione si spazio in cui esso si trova I metodi supervisionati si differenziano dai metodi non supervisionati (clustering) perché nei secondi le categorie on sono note a priori. Nei metodi supervisionati, le classi sono note e bisogna decidere a quale classe il campione vada assegnato. A B B C D
4 Classificazione, gli step La messa a punto di un metodo di classificazione si basa sui seguenti passaggi: Selezione di un training set, ovvero di oggetti la cui classificazione si a nota, sui quali viene misurato un certo numero di variabili Selezione delle variabili, in maniera da mantenere quelle che possono risultare significative per la classificazione ed eliminare quelle non utili Costruzione di una regola di classificazione utilizzando i campioni del training set Validazione della regola di classificazione così messa a punto utilizzando un set di dati indipendente
5 Le regole di classificazione Ci sono diversi tipi di metodi di classificazione in letteratura Essenzialmente si differenziano tra di loro sulla base della modo in cui si definiscono le regole di classificazione Una prima e importante differenziazione è tra i metodi che si concentrano sulla discriminazione tra le classi e quelli che invece cercano di modellare le classi stesse. La prima classe di metodi detti di classificazione pura o discriminanti cercano in maniera implicita o esplicita di trovare i confini che separano le differenti classi nello spazio multidimensionale. In questi casi la risposta che si ottiene in termini di classificazione è sempre l assegnazione ad una delle G classi disponibili.
6 I metodi di modellamento di classe La seconda tipologia di metodi detti di classificazione modellante o di modellamento di classe si concentrano invece sul cercare somiglianze tra campioni appartenenti alla stessa classe. Si modella una categoria alla volta. Un campione può essere assegnato ad una sola classe, a più classi o a nessuna.
7 I metodi discriminanti I metodi discriminanti, come detto, si concentrano sul trovare dei confini ottimali tra le classi da discriminare Un esempio è quello fatto nella parte introduttiva, per la discriminazione di pazienti eu-, iper- e ipotiroidei. In quel caso, la classificazione dei campioni poteva essere fatta misurando alcune variabili (5 nella fattispecie) sui campioni in esame, identificando i baricentri delle distribuzioni ei campioni, e tracciando delle superfici a metà strada tra i diversi baricentri.
8 Esempio
9 Considerazioni Se si considera il grafico riportato al lucido precedente, si vede come i pazienti normali si trovino ben raggruppati al centro del grafico, mentre i pazienti con disturbi formino classi relativamente disperse. Questi casi non sono infrequenti nei problemi di classificazione. In casi come questi, utilizzare delle superfici lineari per separare le classi può non essere sufficiente perché alcuni campioni potrebbero essere classificati in maniera erronea. Si potrebbero ottenere quindi risultati migliori considerando superfici quadratiche o addirittura maggiormente nonlineari
10 Esempio (quadratico)
11 Esempio (maggiore nonlinearità)
12 Metodi discriminanti prime considerazioni Uno dei principali problemi dei metodi di classificazione discriminanti è che bisogna per forza assegnare il campione ad una delle G classi disponibili È tuttavia possibile che un campione non debba essere assegnato a nessuna di queste classi Pensando all esempio dei vini, dove si prendeva in considerazione vini di tre origini differenti, ci si potrebbe trovare ad analizzare un campione che provenga da una quarta origine non contemplata nel training set. Per questo tipo di problemi è migliore un altro approccio.
13 L approccio modellante Come detto, consiste nel fare un modello separato di ciascuna categoria Gli oggetti che fittano il modello di quella categoria ne sono riconosciuti come membri, mentre gli altri vengono classificati come non membri. In termini discriminanti si potrebbe dire che i metodi di modellamento di classe discriminano tra essere membro e non essere membro della classe. In termini statistici, si può dire che i metodi di modellamento non sono altro che test per l identificazione di outliers.
14 Parametrici o non parametrici Un altra distinzione che si può operare tra i metodi di classificazione è quella tra tecniche parametriche e non parametriche. Le prime assumono che i dati seguano una particolare distribuzione statistica, per cui il calcolo del modello diventa il calcolo dei parametri di queste distribuzioni. Lo svantaggio delle tecniche parametriche è che possono portare a grandi errori quando le assunzioni di partenza non siano verificate. Il vantaggio è che permettono di ottenere più facilmente la probabilità di ottenere una classificazione corretta. D altro canto, i metodi non parametrici non assumono esplicitamente alcuna distribuzione statistica.
15 Metodi discriminanti Come detto, i metodi discriminanti procedono alla classificazione dei campioni in una di G classi disponibili. Per costruire il modello di classificazione, in tutti i casi si parte dalla Regola di Bayes: un campione va assegnato alla classe per la quale sia maggiore la sua probabilità di appartenenza Il processo di classificazione è quindi un processo a due stadi: 1. Calcolo della probabilità che un campione incognito appartenga a ciascuna delle G classi (o di una qualsiasi funzione monotona di questa probabilità detta funzione di classificazione) 2. Assegnazione del campione alla classe corrispondente alla probabilità più alta.
16 Analisi discriminante lineare (LDA) Il metodo di classificazione discriminante più vecchio (e più semplice) è la cosiddetta analisi discriminante lineare. Come suggerisce il nome, è un metodo per cui le superfici che separano le regioni di spazio corrispondenti a ciascuna classe sono lineari (rette in 2D, piani in 3D, iperpiani in nd). Statisticamente, l analisi discriminante assume che, per ciascuna categoria, la probabilità che il campione appartenga alla classe segua una distribuzione normale p(g x i ) 1 e ( 2π ) n 2 S g 1 2 x i x g ( ) T S g x i x g ( ) e che la matrice di covarianza sia la stessa per tutte le classi: S i = S j = S = G g =1 ( n g 1)S g N G
17 Analisi discriminante lineare - 2 Sotto queste ipotesi, se per ciascuna classe si calcola il logaritmo della probabilità descritta in precedenza si ottiene una funzione quadratica delle variabili misurate: f (g) = ln(p(g x i )) 1 2 x T i Sx i + x T g Sx i 1 2 x T gsx g A partire da questa espressione è possibile calcolare le equazioni che definiscono le superfici che separano le classi. Queste superfici sono caratterizzate dal fatto che la probabilità che un campione appartenga all una o l altra classe è uguale f (classe1) = f (classe2) c x T i Sx i + x T 1 Sx i 1 2 x T 1 Sx 1 = c x T i Sx i + x T 2 Sx i 1 2 x T 2Sx 2
18 Analisi discriminante lineare - 3 Dal momento che i termini quadratici, per ciascun campione, sono uguali per tutte le classi, le superfici di separazione che si ottengono sono lineari nelle variabili misurate. ( c 1 c ) 2 + ( x 1 x ) T 2 Sx i 1 ( 2 x 1 x ) T 2 S( x 1 x ) 2 = 0
19 Analisi discriminante lineare - Considerazioni Assumendo che i dati siano distribuiti in maniera gaussiana, LDA è un metodo parametrico. È necessario avere a disposizione un certo numero di campioni per i quali la classificazione sia nota. I dati misurati su questi campioni vengono utilizzati per calcolare i valori dei centroidi e della matrice di covarianza cumulata. Questi parametri rappresentano i coefficienti nelle funzioni di classificazione, come rappresentato nelle equazioni descritte in precedenza.
20 La matrice di confusione I risultati dell applicazione di un metodo di classificazione possono essere raccolti in una matrice detta matrice di confusione. Questa matrice riassume le previsioni (corrette ed errate) che vengono effettuate per i campioni. Può essere data sia in maniera assoluta che relativa. osservati predetti classe1 classe2 classe3 classe1 40 (95.24%) 2 (4.76%) 0 (0.00%) classe2 1 (2.63%) 35 (92.11%) 2 (5.26%) classe3 0 (0.00%) 3 (10.71%) 25 (89.29%) Allo stesso modo si può dare l errore complessivo: Classificazioni corrette: 100 (92.59%) Classificazioni errate: 8 (7.41%)
21 Analisi discriminante quadratica (QDA) Se superfici lineari di separazione tra le classi non sono sufficienti a garantire buone previsioni, è possibile complicare il sistema è QDA. Infatti, la QDA parte dalle stesse ipotesi statistiche dell LDA (distribuzione gaussiana), ma mantiene una matrice di covarianza diversa per ciascuna classe. Sotto queste assunzioni, le funzioni di classificazione diventano: In questo modo, dal momento che il termine quadratico è differente per ciascuna classe, le superfici di separazione saranno quadratiche anch esse: Iperboloidi Iperparaboloidi Iperellissoidi Ipersfere f (g) = ln(p(g x i )) 1 2 x T i S g x i + x T g S g x i 1 2 x T gs g x g
22 QDA - 2 Basandosi sull ipotesi di distribuzione gaussiana, anche la QDA è un metodo parametrico. I campioni di classificazione nota vengono utilizzati per stimare i centroidi e le matrici di covarianza per le varie classi. Dal momento che per ogni classe deve essere stimata una matrice di covarianza differente, il numero di campioni necessari aumenta significativamente: N tot >N var 3 per LDA N g >N var 3 per ogni classe per QDA
23 Un altro approccio alla classificazione - PLSDA I requisiti in termini di numero di campioni necessari visti nel lucido precedente rendono quei metodi inapplicabili ai risultati di molte delle moderne tecniche strumentali. Infatti, in quei casi il numero delle variabili eccede di gran lunga quello dei campioni. Inoltre, queste variabili sono molto correlate, rendendo la stima delle matrici di covarianza ancora meno stabile. Per ovviare a questi inconvenienti si può applicare alla classificazione un algoritmo usato con successo per risolvere gli stessi problemi in ambito della regressione, l algoritmo PLS.
24 Classificare attraverso la regressione È possibile trasformare un problema di classificazione in un problema di regressione, introducendo come variabili dipendenti un vettore che contenga informazioni sull appartenenza alla classe. Ad esempio, per un problema dove ci siano 3 categorie, il vettore Y sarà codificato come: [1 0 0] per i campioni della classe 1 [0 1 0] per i campioni della classe 2 [0 0 1] per i campioni della classe 3 In questo modo, statisticamente la Y rappresenta un vettore contenente le probabilità che il campione appartenga alle diverse classi in esame Il modello di classificazione viene quindi calcolato come un modello di regressione a partire da questi valori delle Y
25 PLS-DA Una volta capito come trasformare un problema di classificazione in uno di regressione, è possibile utilizzare per risolverlo algoritmi in grado di lavorare con molte variabili, come l algoritmo PLS. PLS sfrutta una proiezione dei campioni su un sottospazio a bassa dimensionalità (come la PCA). A differenza di PCA, questo spazio non è quello per cui è massima la percentuale di informazione mantenuta (varianza). PLS ricerca le sue direzioni come quelle per cui è massima la covarianza con la Y
26 statistica classica vs metodi basati su variabili latenti (astratte) LDA v Variabili indipendenti v Variabili X con minimo errore v Residui gaussiani PLS-DA v Variabili correlate v Le variabili X possono contenere rumore v Può esserci struttura nei residui Molti più campioni che variabili! Non importa
27 Metodi non parametrici - knn Come esempio di metodo di classificazione non parametrico, descriviamo rapidamente il più semplice: knn. knn non assume alcuna distribuzione di probabilità in maniera esplicita. La distribuzione di probabilità è assunta in maniera implicita dalla regola di classificazione. Questa regola di classificazione si basa sulla distanza. La regola è molto semplice: Il campione incognito va assegnato alla classe a cui appartiene la maggioranza dei sui k vicini nello spazio Per questo motivo k di solito si sceglie dispari
28 knn - 2
29 Metodi di modellamento di classe Da ultimo saranno descritte le caratteristiche dei principali metodi di classificazione modellante (o modellamento di classe). SIMCA UNEQ
30 SIMCA Ogni categoria è modellata separatamente Il modello è basato sull analisi delle componenti principali. La distanza dei campioni dal modello è una combinazione della distanza nello spazio delle PC (leverage) e dallo spazio delle PC (residui)
31 SIMCA La distanza totale dal modello della categoria viene calcolata come una combinazione delle statistiche T 2 e Q: Ci possono essere diversi modi per combinare queste distanze Il più utilizzato è: Q r = d ij = Q Q 0.95 T 2 r = T 2 ( Q ) 2 r + ( 2 T ) 2 r dove: 2 T 0.95 Sulla base di questo criterio lo spazio di classe è definito come : < 2 d ij In alternativa, si può prendere come spazio della classe quello definito dai limiti di Q e T 2 :
32 UNEQ È la versione modellante della QDA Il modello di classe si basa quindi sulla distribuzione normale multidimensionale. La distanza di un campione dalla classe è definita come la distanza di Mahalanobis dal centroide della classe stessa. Lo spazio della classe è definito dall iperellissoide corrispondente al 95% di confidenza
33 Coomans plot Con tutti i metodi di modellamento, quando si abbia più di una classe, i risultati possono essere visualizzati in un cosiddetto grafico di Coomans
Metodi di classificazione
I metodi di classificazione sono metodi utilizzati per trovare modelli statistici capaci di assegnare ciascun oggetto di provenienza incognita ad una delle classi esistenti. L applicazione di questi metodi
DettagliComputazione per l interazione naturale: macchine che apprendono
Computazione per l interazione naturale: macchine che apprendono Corso di Interazione uomo-macchina II Prof. Giuseppe Boccignone Dipartimento di Scienze dell Informazione Università di Milano boccignone@dsi.unimi.it
DettagliL A B C di R. Stefano Leonardi c Dipartimento di Scienze Ambientali Università di Parma Parma, 9 febbraio 2010
L A B C di R 0 20 40 60 80 100 2 3 4 5 6 7 8 Stefano Leonardi c Dipartimento di Scienze Ambientali Università di Parma Parma, 9 febbraio 2010 La scelta del test statistico giusto La scelta della analisi
DettagliComputazione per l interazione naturale: Regressione probabilistica
Computazione per l interazione naturale: Regressione probabilistica Corso di Interazione Naturale Prof. Giuseppe Boccignone Dipartimento di Informatica Università di Milano boccignone@di.unimi.it boccignone.di.unimi.it/in_2018.html
DettagliRiconoscimento e recupero dell informazione per bioinformatica
Riconoscimento e recupero dell informazione per bioinformatica Teoria della decisione di Bayes Manuele Bicego Corso di Laurea in Bioinformatica Dipartimento di Informatica - Università di Verona Sommario
DettagliRiconoscimento automatico di oggetti (Pattern Recognition)
Riconoscimento automatico di oggetti (Pattern Recognition) Scopo: definire un sistema per riconoscere automaticamente un oggetto data la descrizione di un oggetto che può appartenere ad una tra N classi
DettagliIL CRITERIO DELLA MASSIMA VEROSIMIGLIANZA
Metodi per l Analisi dei Dati Sperimentali AA009/010 IL CRITERIO DELLA MASSIMA VEROSIMIGLIANZA Sommario Massima Verosimiglianza Introduzione La Massima Verosimiglianza Esempio 1: una sola misura sperimentale
DettagliAnalisi Discriminante Strumenti quantitativi per la gestione
Analisi Discriminante Strumenti quantitativi per la gestione Emanuele Taufer Un esempio introduttivo Approccio con Bayes Perchè un altro metodo di classificazione? Classificazione con Bayes Analisi discriminante
DettagliAnalisi Discriminante. Strumenti quantitativi per la gestione
Analisi Discriminante Strumenti quantitativi per la gestione Emanuele Taufer file:///g:/il%20mio%20drive/2%20corsi/3%20sqg/classes/4-2_ad.html#(33) 1/39 AD Tecnica di classificazione che sfrutta combinazioni
DettagliCOGNOME.NOME...MATR..
STATISTICA 29.01.15 - PROVA GENERALE (CHALLENGE) Modalità A (A) ai fini della valutazione verranno considerate solo le risposte riportate dallo studente negli appositi riquadri bianchi: in caso di necessità
DettagliSTATISTICA MULTIVARIATA SSD MAT/06
Università degli studi di Ferrara Dipartimento di Matematica A.A. 2018/2019 I semestre STATISTICA MULTIVARIATA SSD MAT/06 LEZION 13 Analisi della interdipendenza e della dipendenza : overview Docente:
DettagliUTILIZZO DELL ANALISI DELLE COMPONENTI PRINCIPALI (PCA) DI DATI HVSR FINALIZZATO ALLA ZONAZIONE SISMICA
UTILIZZO DELL ANALISI DELLE COMPONENTI PRINCIPALI (PCA) DI DATI HVSR FINALIZZATO ALLA ZONAZIONE SISMICA Terremoto de L Aquila, 2009 Gallipoli et al., 2011 Lo scopo di questo lavoro è quello di indagare
DettagliStatistica multivariata 27/09/2016. D.Rodi, 2016
Statistica multivariata 27/09/2016 Metodi Statistici Statistica Descrittiva Studio di uno o più fenomeni osservati sull INTERA popolazione di interesse (rilevazione esaustiva) Descrizione delle caratteristiche
DettagliESERCIZIO 1. Vengono riportati di seguito i risultati di un analisi discriminante.
ESERCIZIO 1. Vengono riportati di seguito i risultati di un analisi discriminante. Test di uguaglianza delle medie di gruppo SELF_EFF COLL_EFF COIN_LAV IMPEGNO SODDISF CAP_IST COLLEGHI Lambda di Wilks
DettagliAnalisi multivariata per osservazioni appaiate. Analisi multivariata per osservazioni appaiate
Introduzione Notazione Modello additivo Verifica d ipotesi Sia X una variabile q-dimensionale, a valori reali, non degenere, osservata in k tempi diversi (τ 1, τ 2,..., τ k ), sulle stesse n unità statistiche
DettagliComputazione per l interazione naturale: Regressione probabilistica
Computazione per l interazione naturale: Regressione probabilistica Corso di Interazione Naturale Prof. Giuseppe Boccignone Dipartimento di Informatica Università di Milano boccignone@di.unimi.it boccignone.di.unimi.it/in_2016.html
DettagliCHEMIOMETRIA. CONFRONTO CON VALORE ATTESO (test d ipotesi) CONFRONTO DI VALORI MISURATI (test d ipotesi) CONFRONTO DI RIPRODUCIBILITA (test d ipotesi)
CHEMIOMETRIA Applicazione di metodi matematici e statistici per estrarre (massima) informazione chimica (affidabile) da dati chimici INCERTEZZA DI MISURA (intervallo di confidenza/fiducia) CONFRONTO CON
DettagliQuiz di verifica Classificazione
Quiz di verifica Classificazione Strumenti Quantitativi per la gestione Le domande 1 4 si riferiscono al seguente problema: Supponiamo di raccogliere dati per un gruppo di studenti della classe di SQG
DettagliStatistica multivariata! Analisi fattoriale
Parte 3 : Statistica multivariata Quando il numero delle variabili rilevate sullo stesso soggetto aumentano, il problema diventa gestirle tutte e capirne le relazioni. Statistica multivariata! Analisi
DettagliElaborazione statistica di dati
Elaborazione statistica di dati CONCETTI DI BASE DI STATISTICA ELEMENTARE Taratura strumenti di misura IPOTESI: grandezza da misurare identica da misura a misura Collaudo sistemi di produzione IPOTESI:
DettagliRicerca di outlier. Prof. Matteo Golfarelli Alma Mater Studiorum - Università di Bologna
Ricerca di outlier Prof. Matteo Golfarelli Alma Mater Studiorum - Università di Bologna Ricerca di Anomalie/Outlier Cosa sono gli outlier? L insieme di dati che sono considerevolmente differenti dalla
DettagliComputazione per l interazione naturale: Regressione probabilistica
Computazione per l interazione naturale: Regressione probabilistica Corso di Interazione Naturale Prof. Giuseppe Boccignone Dipartimento di Informatica Università di Milano boccignone@di.unimi.it boccignone.di.unimi.it/in_2017.html
DettagliComputazione per l interazione naturale: macchine che apprendono
Computazione per l interazione naturale: macchine che apprendono Corso di Interazione uomo-macchina II Prof. Giuseppe Boccignone Dipartimento di Scienze dell Informazione Università di Milano boccignone@dsi.unimi.it
DettagliAnalisi Discriminante Canonica con R
Università di Bologna - Facoltà di Scienze Statistiche Laurea Triennale in Statistica e Ricerca Sociale Corso di Analisi di Serie Storiche e Multidimensionali Prof.ssa Marilena Pillati Analisi Discriminante
DettagliEsercitazione del
Esercizi sulla regressione lineare. Esercitazione del 21.05.2013 Esercizio dal tema d esame del 13.06.2011. Si consideri il seguente campione di n = 9 osservazioni relative ai caratteri ed Y: 7 17 8 36
DettagliRiconoscimento e recupero dell informazione per bioinformatica
Riconoscimento e recupero dell informazione per bioinformatica Classificazione Manuele Bicego Corso di Laurea in Bioinformatica Dipartimento di Informatica - Università di Verona Sistema di classificazione
DettagliLuigi Santoro. Hyperphar Group S.p.A., MIlano
Come modellare il rischio Luigi Santoro Hyperphar Group S.p.A., MIlano Gli argomenti discussi Le definizioni del termine rischio L utilità di un modello predittivo di rischio Come costruire modelli predittivi
DettagliIndice. Prefazione. 4 Sintesi della distribuzione di un carattere La variabilità Introduzione La variabilità di una distribuzione 75
00PrPag:I-XIV_prefazione_IAS 8-05-2008 17:56 Pagina V Prefazione XI 1 La rilevazione dei fenomeni statistici 1 1.1 Introduzione 1 1.2 Caratteri, unità statistiche e collettivo 1 1.3 Classificazione dei
DettagliIndice. centrale, dispersione e forma Introduzione alla Statistica Statistica descrittiva per variabili quantitative: tendenza
XIII Presentazione del volume XV L Editore ringrazia 3 1. Introduzione alla Statistica 5 1.1 Definizione di Statistica 6 1.2 I Rami della Statistica Statistica Descrittiva, 6 Statistica Inferenziale, 6
DettagliComputazione per l interazione naturale: processi gaussiani
Computazione per l interazione naturale: processi gaussiani Corso di Interazione uomo-macchina II Prof. Giuseppe Boccignone Dipartimento di Scienze dell Informazione Università di Milano boccignone@dsi.unimi.it
DettagliUniversità di Pavia Econometria. Richiami di Statistica. Eduardo Rossi
Università di Pavia Econometria Richiami di Statistica Eduardo Rossi Università di Pavia Campione casuale Siano (Y 1, Y 2,..., Y N ) variabili casuali tali che le y i siano realizzazioni mutuamente indipendenti
DettagliComputazione per l interazione naturale: modelli a variabili latenti (clustering e riduzione di dimensionalità)
Computazione per l interazione naturale: modelli a variabili latenti (clustering e riduzione di dimensionalità) Corso di Interazione Naturale Prof. Giuseppe Boccignone Dipartimento di Informatica Università
DettagliComputazione per l interazione naturale: macchine che apprendono
Comput per l inter naturale: macchine che apprendono Corso di Inter uomo-macchina II Prof. Giuseppe Boccignone Dipartimento di Informatica Università di Milano boccignone@di.unimi.it http://boccignone.di.unimi.it/ium2_2014.html
DettagliEsplorazione grafica di dati multivariati. N. Del Buono
Esplorazione grafica di dati multivariati N. Del Buono Scatterplot Scatterplot permette di individuare graficamente le possibili associazioni tra due variabili Variabile descrittiva (explanatory variable)
DettagliLaboratorio di Chimica Fisica. Analisi Statistica
Università degli Studi di Bari Dipartimento di Chimica 9 giugno F.Mavelli- Laboratorio Chimica Fisica - a.a. 3-4 F.Mavelli Laboratorio di Chimica Fisica a.a. 3-4 Analisi Statistica dei Dati Analisi Statistica
DettagliNaïve Bayesian Classification
Naïve Bayesian Classification Di Alessandro rezzani Sommario Naïve Bayesian Classification (o classificazione Bayesiana)... 1 L algoritmo... 2 Naive Bayes in R... 5 Esempio 1... 5 Esempio 2... 5 L algoritmo
DettagliPrefazione Ringraziamenti dell'editore Il sito web dedicato al libro Test online: la piattaforma McGraw-Hill Education Guida alla lettura
INDICE GENERALE Prefazione Ringraziamenti dell'editore Il sito web dedicato al libro Test online: la piattaforma McGraw-Hill Education Guida alla lettura XI XIV XV XVII XVIII 1 LA RILEVAZIONE DEI FENOMENI
Dettagli9.3 Il metodo dei minimi quadrati in formalismo matriciale
9.3. IL METODO DEI MINIMI QUADRATI IN FORMALISMO MATRICIALE 121 9.3 Il metodo dei minimi quadrati in formalismo matriciale Per applicare il MMQ a funzioni polinomiali, ovvero a dipendenze di una grandezza
DettagliStima dei parametri. La v.c. multipla (X 1, X 2,.., X n ) ha probabilità (o densità): Le f( ) sono uguali per tutte le v.c.
Stima dei parametri Sia il carattere X rappresentato da una variabile casuale (v.c.) che si distribuisce secondo la funzione di probabilità f(x). Per investigare su tale carattere si estrae un campione
DettagliComputazione per l interazione naturale: classificazione probabilistica
Computazione per l interazione naturale: classificazione probabilistica Corso di Interazione uomo-macchina II Prof. Giuseppe Boccignone Dipartimento di Informatica Università di Milano boccignone@di.unimi.it
DettagliSistemi di Elaborazione dell Informazione 170. Caso Non Separabile
Sistemi di Elaborazione dell Informazione 170 Caso Non Separabile La soluzione vista in precedenza per esempi non-linearmente separabili non garantisce usualmente buone prestazioni perchè un iperpiano
DettagliStatistica multivariata
Statistica multivariata Quando il numero delle variabili rilevate sullo stesso soggetto aumentano, il problema diventa gestirle tutte e capirne le relazioni. Analisi multivariata Cercare di capire le relazioni
DettagliStatistica multivariata
Parte 3 : Statistica multivariata Quando il numero delle variabili rilevate sullo stesso soggetto aumentano, il problema diventa gestirle tutte e capirne le relazioni. Analisi multivariata Cercare di capire
DettagliSTATISTICA. Esercitazione 5
STATISTICA Esercitazione 5 Esercizio 1 Ad un esame universitario sono stati assegnati in modo casuale due compiti diversi con i seguenti risultati: Compito A Compito B Numero studenti 102 105 Media dei
DettagliUniversità degli Studi Roma Tre Anno Accademico 2017/2018 ST410 Statistica 1
Università degli Studi Roma Tre Anno Accademico 2017/2018 ST410 Statistica 1 Lezione 1 - Mercoledì 27 Settembre 2017 Introduzione al corso. Richiami di probabilità: spazi di probabilità, variabili aleatorie,
DettagliAnalisi delle corrispondenze
Capitolo 11 Analisi delle corrispondenze L obiettivo dell analisi delle corrispondenze, i cui primi sviluppi risalgono alla metà degli anni 60 in Francia ad opera di JP Benzécri e la sua equipe, è quello
DettagliL'analisi bivariata (analisi della varianza e correlazione) Prof. Stefano Nobile. Corso di Metodologia della ricerca sociale
L'analisi bivariata (analisi della varianza e correlazione) Prof. Stefano Nobile Corso di Metodologia della ricerca sociale L analisi della varianza (ANOVA) La tecnica con cui si esplorano le relazioni
DettagliSTATISTICA MULTIVARIATA SSD MAT/06
Università degli studi di Ferrara Dipartimento di Matematica A.A. 2018/2019 I semestre STATISTICA MULTIVARIATA SSD MAT/06 LEZIONE 4 - Questioni di analisi e applicazione della regressione lineare Pratica
DettagliSTATISTICA A K (60 ore)
STATISTICA A K (60 ore) Marco Riani mriani@unipr.it http://www.riani.it Richiami sulla regressione Marco Riani, Univ. di Parma 1 MODELLO DI REGRESSIONE y i = a + bx i + e i dove: i = 1,, n a + bx i rappresenta
DettagliTest delle Ipotesi Parte I
Test delle Ipotesi Parte I Test delle Ipotesi sulla media Introduzione Definizioni basilari Teoria per il caso di varianza nota Rischi nel test delle ipotesi Teoria per il caso di varianza non nota Test
DettagliMaria Prandini Dipartimento di Elettronica e Informazione Politecnico di Milano
Note relative a test di bianchezza rimozione delle componenti deterministiche da una serie temporale a supporto del Progetto di Identificazione dei Modelli e Analisi dei Dati Maria Prandini Dipartimento
DettagliCorso integrato di informatica, statistica e analisi dei dati sperimentali Esercitazione VII
Corso integrato di informatica, statistica e analisi dei dati sperimentali Esercitazione VII Un breve richiamo sul test t-student Siano A exp (a 1, a 2.a n ) e B exp (b 1, b 2.b m ) due set di dati i cui
DettagliCapitolo 1. Analisi Discriminante. 1.1 Introduzione. 1.2 Un analisi discriminante Descrizione del dataset
Capitolo 1 Analisi Discriminante 1.1 Introduzione L analisi discriminante viene condotta per definire una modalità di assegnazione dei casi a differenti gruppi, in funzione di una serie di variabili fra
DettagliNel modello omoschedastico la varianza dell errore non dipende da i ed è quindi pari a σ 0.
Regressione [] el modello di regressione lineare si assume una relazione di tipo lineare tra il valore medio della variabile dipendente Y e quello della variabile indipendente X per cui Il modello si scrive
DettagliLEZIONI IN LABORATORIO Corso di MARKETING L. Baldi Università degli Studi di Milano. Strumenti statistici in Excell
LEZIONI IN LABORATORIO Corso di MARKETING L. Baldi Università degli Studi di Milano Strumenti statistici in Excell Pacchetto Analisi di dati Strumenti di analisi: Analisi varianza: ad un fattore Analisi
DettagliStatistica di base per l analisi socio-economica
Laurea Magistrale in Management e comunicazione d impresa Statistica di base per l analisi socio-economica Giovanni Di Bartolomeo gdibartolomeo@unite.it Definizioni di base Una popolazione è l insieme
DettagliUniversità di Siena. Teoria della Stima. Lucidi del corso di. Identificazione e Analisi dei Dati A.A
Università di Siena Teoria della Stima Lucidi del corso di A.A. 2002-2003 Università di Siena 1 Indice Approcci al problema della stima Stima parametrica Stima bayesiana Proprietà degli stimatori Stime
Dettagli8. ANALISI DELLA COVARIANZA (ANCOVA)
8. ANALISI DELLA COVARIANZA (ANCOVA) L analisi della covarianza è un metodo statistico che risulta dalla combinazione dell analisi di regressione con l analisi della varianza. È utile quando all analisi
DettagliANALISI MULTIVARIATA. Federico Marini
ANALISI MULTIVARIATA Federico Marini L approccio multivariato I dati analitici vengono normalmente registrati per caratterizzare oggetti (rocce, alimenti, pazienti, etc) Questa caratterizzazione è di norma
DettagliIl modello di regressione lineare multipla. Il modello di regressione lineare multipla
Introduzione E la generalizzazione del modello di regressione lineare semplice: per spiegare il fenomeno d interesse Y vengono introdotte p, con p > 1, variabili esplicative. Tale generalizzazione diventa
DettagliStatistica (parte II) Esercitazione 4
Statistica (parte II) Esercitazione 4 Davide Passaretti 03/03/016 Test sulla differenza tra medie (varianze note) Un negozio di scarpe è interessato a capire se le misure delle scarpe acquistate da adulti
DettagliIntroduzione. Esercizio n 1. Metodo di Eulero Esplicito. Risolvere il problema ai valori iniziali: 3 2
Introduzione Nella seguente esercitazione si vogliono risolvere numericamente equazioni differenziali di diverso ordine, utilizzando metodi basati sulla discretizzazione delle stesse, ovvero sull approssimazione
Dettagli1.1 Obiettivi della statistica Struttura del testo 2
Prefazione XV 1 Introduzione 1.1 Obiettivi della statistica 1 1.2 Struttura del testo 2 2 Distribuzioni di frequenza 2.1 Informazione statistica e rilevazione dei dati 5 2.2 Distribuzioni di frequenza
DettagliBLAND-ALTMAN PLOT. + X 2i 2 la differenza ( d ) tra le due misure per ognuno degli n campioni; d i. X i. = X 1i. X 2i
BLAND-ALTMAN PLOT Il metodo di J. M. Bland e D. G. Altman è finalizzato alla verifica se due tecniche di misura sono comparabili. Resta da comprendere cosa si intenda con il termine metodi comparabili
DettagliMetodi statistici per la ricerca sociale Capitolo 13. Combinare regressione e ANOVA: predittori categoriali e quantitativi Esercitazione
Metodi statistici per la ricerca sociale Capitolo 13. Combinare regressione e ANOVA: predittori categoriali e quantitativi Esercitazione Alessandra Mattei Dipartimento di Statistica, Informatica, Applicazioni
DettagliDefinizione della variabile c 2 Distribuzione della variabile c 2
Definizione della variabile c Distribuzione della variabile c In queste definizioni ho N variabili indipendenti, nessun vincolo e quindi N coincide con i gradi di libertà In un sistema fisico dove il numero
DettagliUniversità degli Studi Roma Tre Anno Accademico 2016/2017 ST410 Statistica 1
Università degli Studi Roma Tre Anno Accademico 2016/2017 ST410 Statistica 1 Lezione 1 - Mercoledì 28 Settembre 2016 Introduzione al corso. Richiami di probabilità: spazi di probabilità, variabili aleatorie,
DettagliComputazione per l interazione naturale: classificazione probabilistica
Computazione per l interazione naturale: classificazione probabilistica Corso di Interazione Naturale Prof. Giuseppe Boccignone Dipartimento di Informatica Università di Milano boccignone@di.unimi.it boccignone.di.unimi.it/in_2016.html
DettagliComputazione per l interazione naturale: classificazione supervisionata
Computazione per l interazione naturale: classificazione supervisionata Corso di Interazione uomo-macchina II Prof. Giuseppe Boccignone Dipartimento di Scienze dell Informazione Università di Milano boccignone@dsi.unimi.it
DettagliStatistica descrittiva in due variabili
Statistica descrittiva in due variabili 1 / 65 Statistica descrittiva in due variabili 1 / 65 Supponiamo di misurare su un campione statistico due diverse variabili X e Y. Indichiamo come al solito con
DettagliAlgoritmi di classificazione supervisionati
Corso di Bioinformatica Algoritmi di classificazione supervisionati Giorgio Valentini DI Università degli Studi di Milano 1 Metodi di apprendimento supervisionato per problemi di biologia computazionale
Dettagli1 1, { x1 2x 2 + x 3 = 0 2x 2 8x 3 = 1 x 1 x 4 = = 0
a.a. 5-6 Esercizi. Sistemi lineari. Soluzioni.. Determinare quali delle quaterne, 3,, sono soluzioni del sistema di tre equazioni in 4 incognite { x x + x 3 = x 8x 3 = x x 4 =. Sol. Sostituendo ad x, x,
Dettagli1 L analisi discriminante lineare
1 L analisi discriminante lineare L analisi discriminante lineare presuppone che p variabili (quantitative) Y 1,... Y p siano state misurate su osservazioni appartenenti a 2 o più gruppi: G 1,...,G k,
DettagliAsse matematico. G8. Utilizzare le reti e gli strumenti informatici nelle attività di studio, ricerca e approfondimento
Asse matematico codici Abilità codici Conoscenze I II III IV V G8A1 G8. Utilizzare le reti e gli strumenti informatici nelle attività di studio, ricerca e approfondimento Esprimere procedimenti risolutivi
DettagliMatematica Lezione 22
Università di Cagliari Corso di Laurea in Farmacia Matematica Lezione 22 Sonia Cannas 14/12/2018 Indici di posizione Indici di posizione Gli indici di posizione, detti anche misure di tendenza centrale,
DettagliComprendere i fenomeni vuol dire studiare le relazioni tra 2 o più variabili. Esiste un legame tra le variabili?
Comprendere i fenomeni vuol dire studiare le relazioni tra 2 o più variabili. Esiste un legame tra le variabili? Quale tipo di legame? Quanto forte? Siamo sicuri che non sia dovuto al caso? Tutti i modelli
DettagliDistribuzioni e inferenza statistica
Distribuzioni e inferenza statistica Distribuzioni di probabilità L analisi statistica spesso studia i fenomeni collettivi confrontandoli con modelli teorici di riferimento. Tra di essi, vedremo: la distribuzione
DettagliTecniche di riconoscimento statistico
On AIR s.r.l. Tecniche di riconoscimento statistico Applicazioni alla lettura automatica di testi (OCR) Parte 2 Teoria della decisione Ennio Ottaviani On AIR srl ennio.ottaviani@onairweb.com http://www.onairweb.com/corsopr
DettagliCorso di Intelligenza Artificiale A.A. 2016/2017
Università degli Studi di Cagliari Corsi di Laurea Magistrale in Ing. Elettronica Corso di Intelligenza rtificiale.. 26/27 Esercizi sui metodi di apprendimento automatico. Si consideri la funzione ooleana
DettagliEsercizi svolti. delle matrici
Esercizi svolti. astratti. Si dica se l insieme delle coppie reali (x, y) soddisfacenti alla relazione x + y è un sottospazio vettoriale di R La risposta è sì, perchè l unica coppia reale che soddisfa
DettagliCapitolo 8. Intervalli di confidenza. Statistica. Levine, Krehbiel, Berenson. Casa editrice: Pearson. Insegnamento: Statistica
Levine, Krehbiel, Berenson Statistica Casa editrice: Pearson Capitolo 8 Intervalli di confidenza Insegnamento: Statistica Corso di Laurea Triennale in Economia Dipartimento di Economia e Management, Università
DettagliUniversità degli Studi di Bergamo Modulo di Geometria e Algebra Lineare (nuovo programma) 28 aprile 2014 Tema A
Università degli Studi di Bergamo Modulo di Geometria e Algebra Lineare (nuovo programma 8 aprile 04 Tema A Tempo a disposizione: ore e mezza. Calcolatrici, libri e appunti non sono ammessi. Ogni esercizio
DettagliModelli e Metodi per la Simulazione (MMS)
Modelli e Metodi per la Simulazione (MMS) adacher@dia.uniroma3.it Programma La simulazione ad eventi discreti, è una metodologia fondamentale per la valutazione delle prestazioni di sistemi complessi (di
DettagliElementi di Probabilità e Statistica - 052AA - A.A
Elementi di Probabilità e Statistica - 05AA - A.A. 014-015 Prima prova di verifica intermedia - 9 aprile 015 Problema 1. Dati due eventi A, B, su uno spazio probabilizzato (Ω, F, P), diciamo che A è in
DettagliAnalisi delle corrispondenze
Analisi delle corrispondenze Obiettivo: analisi delle relazioni tra le modalità di due (o più) caratteri qualitativi Individuazione della struttura dell associazione interna a una tabella di contingenza
Dettaglilezione 4 AA Paolo Brunori
AA 2016-2017 Paolo Brunori dove eravamo arrivati - abbiamo individuato la regressione lineare semplice (OLS) come modo immediato per sintetizzare una relazione fra una variabile dipendente (Y) e una indipendente
DettagliRaccolta di esercizi di Calcolo Numerico Prof. Michela Redivo Zaglia
Raccolta di esercizi di Calcolo Numerico Prof. Michela Redivo Zaglia Nota Bene: Gli esercizi di questa raccolta sono solo degli esempi. Non sono stati svolti né verificati e servono unicamente da spunto
DettagliIL PALLINOMETRO SCOPO
IL PALLINOMETRO SCOPO Verifica del fatto che gli errori casuali nella misura di una grandezza fisica ripetuta molte volte nelle stesse condizioni sperimentali seguono la distribuzione normale di Gauss.
DettagliComputazione per l interazione naturale: Regressione lineare Bayesiana
Computazione per l interazione naturale: Bayesiana Corso di Interazione uomo-macchina II Prof. Giuseppe Boccignone Dipartimento di Scienze dell Informazione Università di Milano boccignone@di.unimi.it
DettagliEsercitazione 3 - Statistica II - Economia Aziendale Davide Passaretti 23/5/2017
Esercitazione 3 - Statistica II - Economia Aziendale Davide Passaretti 3/5/017 Contents 1 Intervalli di confidenza 1 Intervalli su un campione 1.1 Intervallo di confidenza per la media................................
DettagliTest di ipotesi su due campioni
2/0/20 Test di ipotesi su due campioni Confronto tra due popolazioni Popolazioni effettive: unità statistiche realmente esistenti. Esempio: Confronto tra forze lavoro di due regioni. Popolazioni ipotetiche:
DettagliANALISI DELLE SERIE STORICHE
ANALISI DELLE SERIE STORICHE De Iaco S. s.deiaco@economia.unile.it UNIVERSITÀ del SALENTO DIP.TO DI SCIENZE ECONOMICHE E MATEMATICO-STATISTICHE FACOLTÀ DI ECONOMIA 24 settembre 2012 Indice 1 Funzione di
DettagliNote sulla probabilità
Note sulla probabilità Maurizio Loreti Dipartimento di Fisica Università degli Studi di Padova Anno Accademico 2002 03 1 La distribuzione del χ 2 0.6 0.5 N=1 N=2 N=3 N=5 N=10 0.4 0.3 0.2 0.1 0 0 5 10 15
DettagliMetodi statistici per la ricerca sociale Capitolo 9. Regressione Lineare e Correlazione Esercitazione
Metodi statistici per la ricerca sociale Capitolo 9. Regressione Lineare e Correlazione Esercitazione Alessandra Mattei Dipartimento di Statistica, Informatica, Applicazioni (DiSIA) Università degli Studi
DettagliCapitolo 3. Le correlazioni fra i rendimenti dei prestiti e la diversificazione di portafoglio.
Capitolo 3. Le correlazioni fra i rendimenti dei prestiti e la diversificazione di portafoglio. 3.1 Introduzione. Il terzo tassello fondamentale per poter applicare la teoria di portafoglio è la stima
DettagliStatistica multivariata
Parte 3 : Statistica multivariata Quando il numero delle variabili rilevate sullo stesso soggetto aumentano, il problema diventa gestirle tutte e capirne le relazioni. Analisi multivariata Cercare di capire
DettagliIL PALLINOMETRO SCOPO
IL PALLINOMETRO SCOPO Verifica del fatto che gli errori casuali nella misura di una grandezza fisica ripetuta molte volte nelle stesse condizioni sperimentali seguono la distribuzione normale di Gauss.
DettagliUniversità degli Studi Roma Tre Anno Accademico 2014/2015 ST410 Statistica 1
Università degli Studi Roma Tre Anno Accademico 2014/2015 ST410 Statistica 1 Lezione 1 - Martedì 23 Settembre 2014 Introduzione al corso. Richiami di probabilità: spazi di probabilità, variabili aleatorie,
DettagliLEZIONE N.8 (a cura di Teresa Fanelli) Questa forma risulta importante nel modello di regressione con più variabili.
LEZIONE N.8 (a cura di Teresa Fanelli) Forma matriciale del Modello di Regressione Semplice L assunzione di base del modello è: Y i =β 0 +x i β 1 +ε i i=1,2,..n. Lo stesso modello può essere scritto attraverso
Dettagli