Classificazione (aka Cluster Analysis)
|
|
- Leopoldo Carlucci
- 6 anni fa
- Visualizzazioni
Transcript
1 Classificazione (aka Cluster Analysis) Classificazione non gerarchica esk-means Classificazione gerarchica divisiva Classificazione gerarchica agglomerativa Legame: singolo, completo, medio, Coefficiente di correlazione cofenetica Classificazione con vincoli Metodi innovativi (machine learning) es Self-organizing maps
2 Classificazione (= Cluster Analysis) 3? Obiettivo: massimizzare l omogeneità dei gruppi (o classi o clusters) (cioè: gli oggetti simili devono essere nello stesso cluster) Problema generale: cercare le discontinuità nello spazio dei dati da classificare Discontinuità Reali o naturali : es tassonomia Arbitrarie: es ecologia delle comunità
3 Clustering non-gerarchico: k-means Si utilizza direttamente la matrice dei dati calcolando distanze euclidee Si massimizza la varianza inter-classe per un numero dato a priori di classi In pratica, equivale a cercare le classi che massimizzano il rapporto F di una MANOVA a una via Procedura iterativa: k-means Scegli un numero di classi Assegna gli oggetti alle classi (a caso o in base ad un altra classificazione) 3 Sposta gli oggetti nelle classi il cui centroide è più vicino (la varianza intra-classe diminuisce) Ripeti lo step 3 finchè non c è più nessun cambiamento nella composizione delle classi 3
4 specie A A A specie A A A A A A A A A raclasse inerz iai t inerzia interclasse n in A tra ia c zr e in ess la Classificazione non gerarchica: Analisi delle Nubi Dinamiche (un algoritmo k-means) k-means con 3 classi Y X Variabile InterSQ gdl IntraSQ gdl rapporto F X Y ** TOTALE **
5 0 08 k-means con 3 classi Y X Classe di 3 (contiene casi) Membri Statistiche Caso Distanza Variabile Min Media Max DevSt Caso 00 X Caso 0 Y Caso Caso 00 Classe di 3 (contiene casi) Membri Statistiche Caso Distanza Variabile Min Media Max DevSt Caso X Caso Y Caso 9 00 Caso Classe 3 di 3 (contiene casi) Membri Statistiche Caso Distanza Variabile Min Media Max DevSt Caso 00 X Caso 6 00 Y Svantaggi della classificazione k-means Ottimizza le classi, ma non in modo globale (iterando si può ottenere una partizione più efficace) isogna scegliere il numero di classi a priori Ma quante classi devono essere scelte?
6 classe classe classe 3 Mappa della struttura della comunità epifita di P oceanica Classificazione gerarchica Solitamente si rappresenta con un dendrogramma 6
7 Classificazione gerarchica Divisiva Si cercano partizioni successive di un insieme di oggetti in due sotto-insiemi in modo da soddisfare un criterio predefinito Agglomerativa Si aggregano gli oggetti in gruppi ed i gruppi fra loro secondo un criterio predefinito Classificazione gerarchica divisiva Si inizia con tutti gli oggetti in una sola classe, poi: 0 Association index si dividono mediante classificazioni k-means o altre tecniche divisive con partizioni in due classi; si divide ogni volta la classe più eterogenea Oppure si dividono simultaneamente tutte le classi esistenti Si tratta di tecniche efficienti, ma poco usate!
8 0 Classificazione gerarchica agglomerativa Association index Si inizia con un oggetto per classe Le classi vengono fuse finchè ne rimane una soltanto E la classe di metodi di gran lunga più ampiamente diffusa Classificazione gerarchica agglomerativa Si lavora su una matrice di dissimilarità o distanza Procedura generale: Si calcola una matrice simmetrica di dissimilarità/distanza fra le classi Le classi fra cui la dissimilarità/distanza è minima vengono fuse fra loro 3 Si calcola la dissimilarità/distanza fra la nuova classe ottenuta e tutte le altre N I diversi algoritmi differiscono nel punto 3 8
9 Classificazione gerarchica agglomerativa A C D E A C D E Prima fusione: A e D AD C E AD 0? 0 C? E? Come calcolare le nuove distanze? Classificazione gerarchica agglomerativa Legame semplice A C D E A C D E AD C E AD C? E? d(ad,)=min{d(a,), d(d,)} 9
10 Classificazione gerarchica agglomerativa Legame completo A C D E A C D E AD C E AD C? E? d(ad,)=max{d(a,), d(d,)} Classificazione gerarchica agglomerativa Legame intermedio A C D E A C D E AD C E AD C? E? d(ad,)=mean{d(a,), d(d,)} 0
11 Classificazione gerarchica agglomerativa Metodo di Ward Minimizza la varianza intra-classe Affine ad algortimi basati sul calcolo delle distanze dai centroidi di classe (come nel caso dell algoritmo k-means) Average Linkage Legame intermedio Association index
12 Legame Single Linkage singolo Legame Average intermedio Linkage Association index Association index 0 Legame Complete completo Linkage 9 Ward's Algoritmo di Ward Association index Association index Metodi di classificazione gerarchica agglomerativa Legame semplice Produce catene di oggetti, contrae lo spazio intorno alle classi Non appropriato se l errore di campionamento è grande Usato in tassonomia Invariante rispetto alle trasformazioni dei dati Legame completo Produce classi compatte e dilata lo spazio intorno a esse Non appropriato se l errore di campionamento è grande Invariante rispetto alle trasformazioni dei dati Legame intermedio, centroide, di Ward Maggiore probabilità di riconoscere partizioni naturali Non invarianti rispetto alle trasformazioni dei dati
13 distanza euclidea D 0 0 similarità di Jaccard -S stazioni stazioni S specie coefficiente di associazione di Fager & McGowan Coefficiente di correlazione cofenetica (CCC) Correlazione fra la matrice di dissimilarità originale e quella inferita in base alla classificazione CCC >~ 08 indica un buon accordo CCC <~ 08 indica che il dendrogramma non è una buona rappresentazione delle relazioni fra oggetti Si può usare il CCC per scegliere l algoritmo ottimale 3
14 Legame Single Linkage singolo Legame Average intermedio Linkage CCC=077 CCC= Association index Association index 0 Legame Complete completo Linkage 9 Ward's Algoritmo di Ward CCC=080 CCC= Association index Association index Classificazione vincolata Si definisce un vincolo di natura spaziale (es contiguità fra oggetti) o di natura temporale (es successione) Si definisce un metodo per verificare che il vincolo sia rispettato (es rete di Gabriel per rappresentare la contiguità) Si applica il vincolo ad un qualsiasi algoritmo di classificazione Le classi ottenute possono essere più vicine alla nostra percezione della realtà Il fuoco si sposta dalla composizone delle classi alle discontinuità fra di esse
15 Distanza euclidea (dati quantitativi) Rete di Gabriel k= Dissimilarità di Jaccard (dati binari) k= D =96 max D =83 max D =66 max D =7 max dissimilarità di Jaccard
16 Problemi aperti Esistono realmente classi biologicamente o ecologicamente rilevanti? Il dendrogramma rappresenta la realtà biologica (web-of-life vs tree-of-life)? Quante classi usare? le regole per la selezione sono arbitrarie! Quale metodo usare? la tecnica ottimale dipende dai dati! I dendrogrammi non sono efficienti nel visualizzare classificazioni complesse Association index
17 C è qualcosa di meglio per casi complessi? Esistono metodi di nuova generazione, che non sono ancora molto diffusi in Ecologia La loro diffusione sta crescendo, ma bisogna che siano accettati dagli ecologi In molti casi, sfruttano le capacità di calcolo attualmente disponibili per tutti Si tratta soprattutto di tecniche mutuate dal campo del Machine Learning, dell Intelligenza Artificiale e del Data Mining Ordinamento e classificazione: Self-Organizing Maps (SOMs) o Mappe di Kohonen 7
18 sp O O O 3 Campioni O i O p Specie sp sp n Inizializzazione Addestramento delle unità virtuali (iterativo) - scelta casuale di un osservazione - identificazione della best matching unit (MU) - addestramento della MU e delle unità adiacenti Proiezione delle osservazioni sulla mappa O O O O O O O O O O O O O Vettoridiriferimento (unità virtuali) Specie Osservazioni O O O j O n sp x x x j x n sp x x x j x n sp i x i sp m x m x i x ij x in x m x mj x mn Al termine della procedura di addestramento O O j O n Specie Unità Virtuali UV UV UV k UV S sp w w w k w S sp w w w k w S sp i w i w i w ik w is sp m w m w m w mk w ms 8
19 Visualizzazione delle osservazioni Specie Osservazioni O O O j O n sp x x x j x n sp x x x j x n sp i x i x i x ij x in sp m x m x m x mj x mn O n O O j Visualizzazione delle Unità Virtuali Specie Unità Virtuali UV UV UV k UV S sp w w w k w S sp w w w k w S sp i w i w i w ik w is sp m w m w m w mk w ms O n O UV k UV UV UV S O j Ogni specie ha una diversa distribuzione Specie Unità Virtuali UV UV UV k UV S sp w w w k w S sp w w w k w S sp i w i w i w ik w is sp m w m w m w mk w ms Specie Specie Specie i 9
20 Una SOM 8 x basata sui dati di presenza/assenza delle farfalle UV diurne in un sottoinsieme Specie TAV delle piccole Accordo isole circumsarde ASI MAD SPI SER SMA LAP PCE 0939 ok SAN CCO 000 SPA UD ok PAE ok CAP RAZ SOF TAV PMA ok PR ok PRA 097 ok PDA 076 ok CCR 0939 ok GCL 097 ok LSI ok LCE 076 ok CJA ok VAT 000 ok VCA 0939 ok HNE 076 ok HAR 0939 ok MJU ok LTI 000 ok LPH 000 ok LO ok LPI ok CAR 076 ok LCO ok AAG ok ACR 097 ok MOL SST MOR PIC 0939 ok CAL ok GPU 076 ok LAV PAS ILT FIG MAL LIN OGL PAL SPT CAV LE AR CAM MLT La matrice U consente di visualizzare le distanze fra gli elementi di una SOM ASI MAD SPI SER SMA LAP LAV PAS SAN CAP D D D SPA D D D UD RAZ SOF FIG ILT PAL SPT CAV LE AR MLT CAM TAV MOL SST MOR MAL LIN OGL 0
21 Un applicazione delle Self-Organizing Maps (SOMs) Dati estratti da: Marina Cobolli, Marco Lucarelli e Valerio Sbordoni (996) Le farfalle diurne delle piccole isole circumsarde iogeographia, 8: 69-8 specie 8 specie identificate in 30 isole
22 Una SOM 8 x basata sui dati di presenza/assenza delle farfalle UV diurne in un sottoinsieme Specie TAV delle piccole Accordo isole circumsarde ASI MAD SPI SER SMA LAP PCE 0939 ok SAN CCO 000 SPA UD ok PAE ok CAP RAZ SOF TAV PMA ok PR ok PRA 097 ok PDA 076 ok CCR 0939 ok GCL 097 ok LSI ok LCE 076 ok CJA ok VAT 000 ok VCA 0939 ok HNE 076 ok HAR 0939 ok MJU ok LTI 000 ok LPH 000 ok LO ok LPI ok CAR 076 ok LCO ok AAG ok ACR 097 ok MOL SST MOR PIC 0939 ok CAL ok GPU 076 ok LAV PAS ILT FIG MAL LIN OGL PAL SPT CAV LE AR CAM MLT La matrice U consente di visualizzare le distanze fra gli elementi di una SOM ASI MAD SPI SER SMA LAP LAV PAS SAN CAP D D D SPA D D D UD RAZ SOF FIG ILT PAL SPT CAV LE AR MLT CAM TAV MOL SST MOR MAL LIN OGL
23 Self-Organizing Map vs Analisi delle Coordinate Principali ASI MAD SPI SER SMA LAP LAV PAS RAZ SST SAN CAP TAV SPA MOL UD RAZ SST MOR SOF FIG ILT MAL LIN OGL PAL SPT CAV LE AR MLT CAM UD SPA MOR MOL FIG SOF 0 TAV SAN CAP 0 LIN ILT PAL LAP SPI LEMLTOGLLAV SMA -0 CAMAR PAS MAL MAD CAV SPT SER - ASI Gonepteryx cleopatra (L, 767) Foto: wwwlepsit 3
24 Gonepteryx cleopatra Altitudine Foto: wwwlepsit Classification Trees
25 Il metodo: un esempio classico Nodo larg_petalo<0 FALSO Iris setosa Nodo larg_petalo>=0 VERO Nodo 3 larg_petalo<8 VERO 3 Nodo lung_petalo<7 VERO Nodo 6 lung_petalo>=7 FALSO Iris versicolor (9%) Iris verginica (9%) Iris verginica Nodo larg_petalo>=8 FALSO Iris verginica (98%) Iris versicolor (%) 80 lung_petalo Iris setosa Iris verginica Iris versicolor larg_petalo
26 Modelli strutturali: classification tree Variabili predittive: Profondità Varianza della profondità (raggio=00 m) Distanza dal punto noto senza Posidonia più vicino (distanza dal margine della prateria stimata per eccesso) Variabile da predire: Classe di densità della prateria (secondo Giraud) Un modello per Rosignano: Radice prof<0 varz(00)<939 prof<9 prof<6 II prof>=6 varz(00)<3833 varz(00)>=3833 III II prof>=9 III varz(00)>=939 IV prof>=0 d(margine)<3997 d(margine)>=3997 III IV 6
27 Classe vera Training Classe predetta I II III IV I II 3 8 III 7 9 IV % ok Classe vera Test Classe predetta I II III IV I II 7 III 3 IV % ok In sintesi 7
28 Alcuni metodi di classificazione Tipo Tecnica Uso Non gerarchico k-means Partizionare insiemi di dati Gerarchico divisivo k-means ripetuto uona tecnica su piccoli insiemi di dati Gerarchico agglomerativo Legame semplice Tassonomia Legame completo Classi omogenee Legame intermedio, centroide, di Ward Scelta più frequente Machine learning SOM Visualizzazione di insiemi di dati complessi Classification trees Previsione e pattern recognition 8
Cluster Analysis. La Cluster Analysis è il processo attraverso il quale vengono individuati raggruppamenti dei dati. per modellare!
La Cluster Analysis è il processo attraverso il quale vengono individuati raggruppamenti dei dati. Le tecniche di cluster analysis vengono usate per esplorare i dati e non per modellare! La cluster analysis
DettagliIntroduzione all analisi di arrays: clustering.
Statistica per la Ricerca Sperimentale Introduzione all analisi di arrays: clustering. Lezione 2-14 Marzo 2006 Stefano Moretti Dipartimento di Matematica, Università di Genova e Unità di Epidemiologia
DettagliIntelligenza Artificiale. Clustering. Francesco Uliana. 14 gennaio 2011
Intelligenza Artificiale Clustering Francesco Uliana 14 gennaio 2011 Definizione Il Clustering o analisi dei cluster (dal termine inglese cluster analysis) è un insieme di tecniche di analisi multivariata
DettagliStatistica multivariata 27/09/2016. D.Rodi, 2016
Statistica multivariata 27/09/2016 Metodi Statistici Statistica Descrittiva Studio di uno o più fenomeni osservati sull INTERA popolazione di interesse (rilevazione esaustiva) Descrizione delle caratteristiche
DettagliRiconoscimento e recupero dell informazione per bioinformatica
Riconoscimento e recupero dell informazione per bioinformatica Clustering: metodologie Manuele Bicego Corso di Laurea in Bioinformatica Dipartimento di Informatica - Università di Verona Sommario Tassonomia
DettagliANALISI DEI DATI PER IL MARKETING 2014
ANALISI DEI DATI PER IL MARKETING 2014 Marco Riani mriani@unipr.it http://www.riani.it LA CLASSIFICAZIONE CAP IX, pp.367-457 Problema generale della scienza (Linneo, ) Analisi discriminante Cluster Analysis
DettagliI metodi di Classificazione automatica
L Analisi Multidimensionale dei Dati Una Statistica da vedere I metodi di Classificazione automatica Matrici e metodi Strategia di AMD Anal Discrimin Segmentazione SI Per riga SI Matrice strutturata NO
DettagliObiettivo: assegnazione di osservazioni a gruppi di unità statistiche non definiti a priori e tali che:
Cluster Analysis Obiettivo: assegnazione di osservazioni a gruppi di unità statistiche non definiti a priori e tali che: le unità appartenenti ad uno di essi sono il più possibile omogenee i gruppi sono
DettagliTecniche di Clustering basate sul Machine Learning
UNIVERSITÀ DEGLI STUDI DI NAPOLI FEDERICO II Scuola Politecnica e delle Scienze di base Area didattica Scienze Matematiche Fisiche e Naturali Corso di Laurea in Informatica Tecniche di Clustering basate
DettagliRiconoscimento e recupero dell informazione per bioinformatica. Clustering: validazione. Manuele Bicego
Riconoscimento e recupero dell informazione per bioinformatica Clustering: validazione Manuele Bicego Corso di Laurea in Bioinformatica Dipartimento di Informatica - Università di Verona Sommario Definizione
DettagliTeoria e tecniche dei test
Teoria e tecniche dei test Lezione 9 LA STANDARDIZZAZIONE DEI TEST. IL PROCESSO DI TARATURA: IL CAMPIONAMENTO. Costruire delle norme di riferimento per un test comporta delle ipotesi di fondo che è necessario
DettagliReti Neurali in Generale
istemi di Elaborazione dell Informazione 76 Reti Neurali in Generale Le Reti Neurali Artificiali sono studiate sotto molti punti di vista. In particolare, contributi alla ricerca in questo campo provengono
DettagliMisure di diversità tra unità statistiche. Loredana Cerbara
Misure di diversità tra unità statistiche Loredana Cerbara LA DISTANZA IN STATISTICA In statistica la distanza ha un significato diverso da quello che si può intuire in altre discipline, dove, peraltro,
DettagliBag of (visual) Words. BoW. Input image. Dizionario visuale. Rappresentazione
Bag of (visual) Words BoW Il modello è stato proposto con l obiettivo di rappresentare un immagine tramite un dizionario visuale. Il metodo BoW si ispira alle tecniche di rappresentazione dei documenti
DettagliIl problema del clustering
Il problema del clustering Stefano Rovetta 1 aprile 2003 Sommario Concetto di clustering Definizioni di distanze Modalità di raggruppamento Clustering con la tecnica k-means Clustering gerarchico Cautele
DettagliAnalisi della varianza
1. 2. univariata ad un solo fattore tra i soggetti (between subjects) 3. univariata: disegni fattoriali 4. univariata entro i soggetti (within subjects) 5. : disegni fattoriali «misti» L analisi della
DettagliAnalisi dei gruppi (Cluster analysis)
Capitolo 10 Analisi dei gruppi (Cluster analysis) Partendo da un collettivo multidimensionale, l analisi dei gruppi mira ad assegnarne le unità a categorie non definite a priori, formando dei gruppi di
DettagliApprendimento Automatico (Feature Selection e Kernel Learning)
Apprendimento Automatico (Feature Selection e Kernel Learning) Fabio Aiolli www.math.unipd.it/~aiolli Sito web del corso www.math.unipd.it/~aiolli/corsi/1516/aa/aa.html Servono tutti gli attributi? Gli
DettagliStrutture di accesso ai dati: B + -tree
Strutture di accesso ai dati: B + -tree A L B E R T O B E L U S S I S E C O N D A P A R T E A N N O A C C A D E M I C O 2 0 0 9-2 0 0 Osservazione Quando l indice aumenta di dimensioni, non può risiedere
DettagliAnalisi Statistica dei Dati Misurazione e gestione dei rischi a.a. 2007-2008
Analisi Statistica dei Dati Misurazione e gestione dei rischi a.a. 2007-2008 Dott. Chiara Cornalba COMUNICAZIONI La lezione del 30 ottobre è sospesa per missione all estero del Prof. Giudici. Dal 6 Novembre
DettagliData Mining in SAP. Alessandro Ciaramella
UNIVERSITÀ DI PISA Corsi di Laurea Specialistica in Ingegneria Informatica per la Gestione d Azienda e Ingegneria Informatica Data Mining in SAP A cura di: Alessandro Ciaramella La Business Intelligence
DettagliProbabilità classica. Distribuzioni e leggi di probabilità. Probabilità frequentista. Probabilità soggettiva
Probabilità classica Distribuzioni e leggi di probabilità La probabilità di un evento casuale è il rapporto tra il numero dei casi favorevoli ed il numero dei casi possibili, purchè siano tutti equiprobabili.
DettagliL indagine campionaria Lezione 3
Anno accademico 2007/08 L indagine campionaria Lezione 3 Docente: prof. Maurizio Pisati Variabile casuale Una variabile casuale è una quantità discreta o continua il cui valore è determinato dal risultato
DettagliMatrici di Raven (PM47)
Matrici di Raven (PM47) Matrici di Raven (PM47) Matrici di Raven (PM47) Matrici di Raven (PM38) TRA I TEST DI TIPICA PERFORMANCE Test proiettivi Test self-report di personalità Questionari psichiatrici
DettagliL Analisi Multidimensionale dei Dati
L Analisi Multidimensionale dei Dati Analisi Discriminante Una Statistica da vedere Area Clienti intermedi Area Buoni clienti Area Cattivi clienti Classificazione a priori Buoni Intermedi Cattivi TOT.
DettagliESTRAZIONE DI DATI 3D DA IMMAGINI DIGITALI. (Visione 3D)
ESTRAZIONE DI DATI 3D DA IMMAGINI DIGITALI () Structure From Motion Date m immagini di n punti 3D (fissi) Stimare le m matrici di proiezione P i e gli n vettori X j date le mn corrispondenze x ij SFM
DettagliAnalisi della varianza
Analisi della varianza Prof. Giuseppe Verlato Sezione di Epidemiologia e Statistica Medica, Università di Verona ANALISI DELLA VARIANZA - 1 Abbiamo k gruppi, con un numero variabile di unità statistiche.
DettagliReti Neurali. Corso di AA, anno 2016/17, Padova. Fabio Aiolli. 2 Novembre Fabio Aiolli Reti Neurali 2 Novembre / 14. unipd_logo.
Reti Neurali Corso di AA, anno 2016/17, Padova Fabio Aiolli 2 Novembre 2016 Fabio Aiolli Reti Neurali 2 Novembre 2016 1 / 14 Reti Neurali Artificiali: Generalità Due motivazioni diverse hanno spinto storicamente
DettagliCHEMIOMETRIA. CONFRONTO CON VALORE ATTESO (test d ipotesi) CONFRONTO DI VALORI MISURATI (test d ipotesi) CONFRONTO DI RIPRODUCIBILITA (test d ipotesi)
CHEMIOMETRIA Applicazione di metodi matematici e statistici per estrarre (massima) informazione chimica (affidabile) da dati chimici INCERTEZZA DI MISURA (intervallo di confidenza/fiducia) CONFRONTO CON
DettagliAlberi Decisionali Per l analisi del mancato rinnovo all abbonamento di una rivista
Alberi Decisionali Per l analisi del mancato rinnovo all abbonamento di una rivista Il problema L anticipazione del fenomeno degli abbandoni da parte dei propri clienti, rappresenta un elemento fondamentale
DettagliCalcolo della Concentrazione Rappresentativa della Sorgente (CRS)
Calcolo della Concentrazione Rappresentativa della Sorgente (CRS) Prof. Renato Baciocchi, Università di Roma Tor Vergata Emiliano Scozza Università di Roma Tor Vergata 1 Valutazione dei Dati Data Set di
DettagliAnalisi dei dati. Dr Carlo Meneghini. Sintesi Statistica
Corso Integrato di Statistica Informatica e Analisi dei dati Dr Carlo Meneghini Dip. di Fisica E. Amaldi via della Vasca Navale 84 meneghini@fis.uniroma3.it http://webusers.fis.uniroma3.it/~meneghini Sintesi
DettagliAnalisi dei Gruppi con R
Università di Bologna - Facoltà di Scienze Statistiche Laurea Triennale in Statistica e Ricerca Sociale Corso di Analisi di Serie Storiche e Multidimensionali Prof.ssa Marilena Pillati Analisi dei Gruppi
DettagliTecniche di riconoscimento statistico
On AIR s.r.l. Tecniche di riconoscimento statistico Applicazioni alla lettura automatica di testi (OCR) Parte 9 Alberi di decisione Ennio Ottaviani On AIR srl ennio.ottaviani@onairweb.com http://www.onairweb.com/corsopr
DettagliIndice della lezione. Incertezza e rischio: sinonimi? Le Ipotesi della Capital Market Theory UNIVERSITA DEGLI STUDI DI PARMA FACOLTA DI ECONOMIA
UNIVERSIT DEGLI STUDI DI PRM FCOLT DI ECONOMI Indice della lezione Corso di Pianificazione Finanziaria Introduzione al rischio Rischio e rendimento per titoli singoli La Teoria di Portafoglio di Markowitz
DettagliDistribuzione Gaussiana - Facciamo un riassunto -
Distribuzione Gaussiana - Facciamo un riassunto - Nell ipotesi che i dati si distribuiscano seguendo una curva Gaussiana è possibile dare un carattere predittivo alla deviazione standard La prossima misura
DettagliStatistica multivariata Donata Rodi 17/10/2016
Statistica multivariata Donata Rodi 17/10/2016 Quale analisi? Variabile Dipendente Categoriale Continua Variabile Indipendente Categoriale Chi Quadro ANOVA Continua Regressione Logistica Regressione Lineare
DettagliAlgoritmi di clustering
Algoritmi di clustering Dato un insieme di dati sperimentali, vogliamo dividerli in clusters in modo che: I dati all interno di ciascun cluster siano simili tra loro Ciascun dato appartenga a uno e un
DettagliOrdinamenti per confronto: albero di decisione
Ordinamenti per confronto: albero di decisione Albero di decisione = rappresentazione grafica di tutte le possibili sequenze di confronti eseguite da un algoritmo assegnato di ordinamento per confronto
DettagliDistribuzioni di probabilità
Distribuzioni di probabilità Distribuzioni di probabilità L analisi statistica spesso studia i fenomeni collettivi confrontandoli con modelli teorici di riferimento. Tra di essi, vedremo: la distribuzione
Dettagli3.1 Classificazione dei fenomeni statistici Questionari e scale di modalità Classificazione delle scale di modalità 17
C L Autore Ringraziamenti dell Editore Elenco dei simboli e delle abbreviazioni in ordine di apparizione XI XI XIII 1 Introduzione 1 FAQ e qualcos altro, da leggere prima 1.1 Questo è un libro di Statistica
DettagliUniversità del Piemonte Orientale Specializzazioni di area sanitaria Statistica Medica
Università del Piemonte Orientale Specializzazioni di area sanitaria Statistica Medica Regressione Lineare e Correlazione Argomenti della lezione Determinismo e variabilità Correlazione Regressione Lineare
Dettagliun elemento scelto a caso dello spazio degli esiti di un fenomeno aleatorio;
TEST DI AUTOVALUTAZIONE - SETTIMANA 3 I diritti d autore sono riservati. Ogni sfruttamento commerciale non autorizzato sarà perseguito. Metodi statistici per la biologia 1 Parte A 1.1 Una variabile casuale
DettagliClustering Mario Guarracino Data Mining a.a. 2010/2011
Clustering Introduzione Il raggruppamento di popolazioni di oggetti (unità statistiche) in base alle loro caratteristiche (variabili) è da sempre oggetto di studio: classificazione delle specie animali,
Dettaglistandardizzazione dei punteggi di un test
DIAGNOSTICA PSICOLOGICA lezione! Paola Magnano paola.magnano@unikore.it standardizzazione dei punteggi di un test serve a dare significato ai punteggi che una persona ottiene ad un test, confrontando la
DettagliCelle di fabbricazione
Celle di fabbricazione Produzione per parti (Classificazione Impiantistica) Produzione per parti Fabbricazione Montaggio (assemblaggio) Job Shop Celle di fabbricazione Linee transfer A posto fisso Ad Isola
Dettagli3.3 FORMULAZIONE DEL MODELLO E CONDIZIONI DI
3.3 FORMULAZIONE DEL MODELLO E CONDIZIONI DI ESISTENZA DI UN PUNTO DI OTTIMO VINCOLATO Il problema di ottimizzazione vincolata introdotto nel paragrafo precedente può essere formulato nel modo seguente:
DettagliClustering con Weka. L interfaccia. Prof. Matteo Golfarelli Alma Mater Studiorum - Università di Bologna. Algoritmo utilizzato per il clustering
Clustering con Weka Soluzioni degli esercizi Prof. Matteo Golfarelli Alma Mater Studiorum - Università di Bologna L interfaccia Algoritmo utilizzato per il clustering E possibile escludere un sottoinsieme
DettagliUlteriori Conoscenze di Informatica e Statistica
ndici di forma Ulteriori Conoscenze di nformatica e Statistica Descrivono le asimmetrie della distribuzione Carlo Meneghini Dip. di fisica via della Vasca Navale 84, st. 83 ( piano) tel.: 06 55 17 72 17
DettagliStatistica per le ricerche di mercato
Università degli studi della Tuscia Dipartimento di Economia e Impresa Statistica per le ricerche di mercato a.a. 2014/15 Prof.ssa Tiziana Laureti 01. Introduzione al corso 1 Statistica per le ricerche
DettagliTeoria e tecniche dei test LA VALIDITA 10/12/2013. a) SIGNIFICATIVITA TEORICA E OSSERVATIVA DI UN COSTRUTTO. Lezione 6 seconda parte LA VALIDITA
Teoria e tecniche dei test Lezione 6 seconda parte LA VALIDITA LA VALIDITA Rappresenta il grado in cui uno strumento misura effettivamente ciò che dovrebbe misurare. La validità generale di un costrutto
DettagliCorso di Visione Artificiale. Texture. Samuel Rota Bulò
Corso di Visione Artificiale Texture Samuel Rota Bulò Texture Le texture sono facili da riconoscere ma difficili da definire. Texture Il fatto di essere una texture dipende dal livello di scala a cui si
DettagliStatistica per le ricerche di mercato
Università degli studi della Tuscia Dipartimento di Economia e Impresa Statistica per le ricerche di mercato a.a. 2012/13 Dr. Luca Secondi 01. Introduzione al corso 1 Statistica per le ricerche di mercato
DettagliNozioni di statistica
Nozioni di statistica Distribuzione di Frequenza Una distribuzione di frequenza è un insieme di dati raccolti in un campione (Es. occorrenze di errori in seconda elementare). Una distribuzione può essere
DettagliPrefazione Ringraziamenti dell'editore Il sito web dedicato al libro Test online: la piattaforma McGraw-Hill Education Guida alla lettura
INDICE GENERALE Prefazione Ringraziamenti dell'editore Il sito web dedicato al libro Test online: la piattaforma McGraw-Hill Education Guida alla lettura XI XIV XV XVII XVIII 1 LA RILEVAZIONE DEI FENOMENI
DettagliLezione 10: Interpolazione lineare Corso di Statistica Facoltà di Economia Università della Basilicata. Prof. Massimo Aria
Lezione 10: Interpolazione lineare Corso di Statistica Facoltà di Economia Università della Basilicata Prof. Massimo Aria aria@unina.it Il concetto di interpolazione In matematica, e in particolare in
DettagliTeoria e tecniche dei test. Concetti di base
Teoria e tecniche dei test Lezione 2 2013/14 ALCUNE NOZIONI STATITICHE DI BASE Concetti di base Campione e popolazione (1) La popolazione è l insieme di individui o oggetti che si vogliono studiare. Questi
DettagliSTATISTICA 1 ESERCITAZIONE 2
Frequenze STATISTICA 1 ESERCITAZIONE 2 Dott. Giuseppe Pandolfo 7 Ottobre 2013 RAPPRESENTAZIONE GRAFICA DEI DATI Le rappresentazioni grafiche dei dati consentono di cogliere la struttura e gli aspetti caratterizzanti
DettagliAnalisi dei dati di traffico esistenti per la definizione dei profili temporali: metodologia ed esempio di applicazione.
XIII Expert panel emissioni da trasporto su strada Roma, 4 ottobre 27 Analisi dei dati di traffico esistenti per la definizione dei profili temporali: metodologia ed esempio di applicazione. C. Lavecchia*;
DettagliBrain architecture: A design for natural computation
Brain architecture: A design for natural computation Autore: Marcus Kaiser Oratore: Vincenzo Lomonaco Indice Introduzione Organizzazione della rete corticale Robustezza e capacità di recupero Elaborazione
DettagliTeorema del limite centrale TCL
Teorema del limite centrale TCL Questo importante teorema della statistica inferenziale si applica a qualsiasi variabile aleatoria che sia combinazione lineare di N variabili aleatorie le cui funzioni
DettagliProgetto di Reti di Telecomunicazione Modelli in Programmazione Lineare Problemi di Localizzazione
Progetto di Reti di Telecomunicazione Modelli in Programmazione Lineare Problemi di Localizzazione Posizionamento di antenne È dato un insieme A di possibili siti in cui installare antenne, a ciascuno
Dettagli1 Alcuni risultati sulle variabili Gaussiane multivariate
Il modello lineare-gaussiano e il filtro di Kalman Prof. P.Dai Pra 1 Alcuni risultati sulle variabili Gaussiane multivariate In questo paragrafo verranno enunciate e dimostrate alcune proprietà del valor
DettagliPROCEDURE/TECNICHE DI ANALISI / MISURE DI ASSOCIAZIONE A) ANALISI DELLA VARIANZA
PROCEDURE/TECNICHE DI ANALISI / MISURE DI ASSOCIAZIONE A) ANALISI DELLA VARIANZA PROCEDURA/TECNICA DI ANALISI DEI DATI SPECIFICAMENTE DESTINATA A STUDIARE LA RELAZIONE TRA UNA VARIABILE NOMINALE (ASSUNTA
DettagliBologna 15 settembre. Spazializzazione dati meteo
P.I.C. INTERREG III METODI, STRUMENTI ED INDICATORI PER LA DEFINIZIONE DELLE VARIABILI CLIMATICHE Tavolo di confronto BOLOGNA 15 Settembre 2004 Bologna 15 settembre Spazializzazione dati meteo Alfonso
DettagliIl campionamento e l inferenza. Il campionamento e l inferenza
Il campionamento e l inferenza Popolazione Campione Dai dati osservati mediante scelta campionaria si giunge ad affermazioni che riguardano la popolazione da cui essi sono stati prescelti Il campionamento
DettagliSintesi Sequenziale Sincrona Sintesi Comportamentale di reti Sequenziali Sincrone
Sintesi Sequenziale Sincrona Sintesi Comportamentale di reti Sequenziali Sincrone Il problema dell assegnamento degli stati versione del 9/1/03 Sintesi: Assegnamento degli stati La riduzione del numero
DettagliCluster gerarchica. Capitolo
Cluster gerarchica Capitolo 33 Questa procedura consente di identificare gruppi di casi relativamente omogenei in base alle caratteristiche selezionate, utilizzando un algoritmo che inizia con ciascun
DettagliESERCIZI DI RIEPILOGO 1
ESERCIZI DI RIEPILOGO 1 ESERCIZIO 1 La tabella seguente contiene la distribuzione di frequenza della variabile X = età (misurata in anni) per un campione casuale di bambini: x i 4.6 8 3.2 3 5.4 6 2.6 2
DettagliROCK. A Robust Clustering Algorithm for Categorical Attributes. Sudipto Guha, Rajeev Rastogi, Kyuseok Shim
ROCK A Robust Clustering Algorithm for Categorical Attributes Sudipto Guha, Rajeev Rastogi, Kyuseok Shim Presentazione di Sara Liparesi e Francesco Nonni Sistemi Informativi per le Decisioni a.a. 2005/2006
DettagliClustering. Cos è un analisi di clustering
Clustering Salvatore Orlando Data Mining. - S. Orlando Cos è un analisi di clustering Cluster: collezione di oggetti/dati Simili rispetto a ciascun oggetto nello stesso cluster Dissimili rispetto agli
DettagliAnalizzare in termini quantitativi significa basarsi su dati e non su idee o ipotesi
Statistica La Statistica è una metodologia per l analisi quantitativa dei fenomeni collettivi, cioè fenomeni il cui studio richiede l osservazione di un insieme di manifestazioni individuali Analizzare
DettagliQuesti appunti costituiscono soltanto una traccia sintetica del Corso di Laboratorio di Fisica, a prescindere dalle opportune spiegazioni e dai
Questi appunti costituiscono soltanto una traccia sintetica del Corso di Laboratorio di Fisica, a prescindere dalle opportune spiegazioni e dai necessari chiarimenti forniti a lezione. 1 MISURA DI UNA
DettagliModelli e Metodi per la Simulazione (MMS)
Modelli e Metodi per la Simulazione (MMS) adacher@dia.uniroma3.it Programma La simulazione ad eventi discreti, è una metodologia fondamentale per la valutazione delle prestazioni di sistemi complessi (di
DettagliDistribuzioni e inferenza statistica
Distribuzioni e inferenza statistica Distribuzioni di probabilità L analisi statistica spesso studia i fenomeni collettivi confrontandoli con modelli teorici di riferimento. Tra di essi, vedremo: la distribuzione
DettagliCartografie tematiche: principi e modalità di realizzazione. Mauro Giovanni Univ. di Trieste
Cartografie tematiche: principi e modalità di realizzazione Mauro Giovanni Univ. di Trieste Analisi GIS Mappare dove sono le cose Mappare cosa c è dentro Mappare il minimo e il massimo GIS Mappare le cose
DettagliRegressione non lineare con un modello neurale feedforward
Reti Neurali Artificiali per lo studio del mercato Università degli studi di Brescia - Dipartimento di metodi quantitativi Marco Sandri (sandri.marco@gmail.com) Regressione non lineare con un modello neurale
DettagliCluster Analysis (2 parte)
Cluster Analysis (2 parte) Esempio 2 Data set: Nel data set Dieta (Dieta.txt, Dieta.sav) sono contenute informazioni sul consumo medio dei principali alimenti in 16 paesi Europei. Paese Cereali (Ce) Riso
Dettagli3.4 Metodo di Branch and Bound
3.4 Metodo di Branch and Bound Consideriamo un generico problema di Ottimizzazione Discreta dove X è la regione ammissibile. (P ) z = max{c(x) : x X} Metodologia generale di enumerazione implicita (Land
DettagliSimulazioni e Metodi Montecarlo Cercano gli stati fondamentali di sistemi complessi non risolubili analiticamente e le loro proprietà analoghi per
Simulazioni e Metodi Montecarlo Cercano gli stati fondamentali di sistemi complessi non risolubili analiticamente e le loro proprietà analoghi per molti versi al problema del commesso viaggiatore lasciano
DettagliAlgoritmo di Branch & Bound
Sapienza Università di Roma - Dipartimento di Ingegneria Informatica, Automatica e Gestionale Algoritmo di Branch & Bound Docente: Renato Bruni bruni@dis.uniroma.it Corso di: Ottimizzazione Combinatoria
DettagliCorso PAS Misure, strumenti ed Errori di misura. Didattica del Laboratorio di Fisica F. Garufi 2014
Corso PAS Misure, strumenti ed Errori di misura Didattica del Laboratorio di Fisica F. Garufi 2014 Grandezze ed unità di misura grandezza (misurabile) si intende un attributo di un fenomeno, di un corpo
DettagliFilomena Maggino, L analisi dei dati nell indagine statistica. Volume 2: l esplorazione dei dati e la validazione dei risultati, ISBN: 88-8453-351-1
Filomena Maggino, L analisi dei dati nell indagine statistica. Volume 2: l esplorazione dei dati e la validazione dei risultati, ISBN: 88-8453-351-1 (print) ISBN: 88-8453-350-3 (online), Firenze University
DettagliConfronto tra più di due campioni
Confronto tra più di due campioni La matrice dei dati Quando si esaminano più di due popolazioni, le informazioni sono u- sualmente organizzate sotto forma di matrice.,,, n ( ω ω ω ) 1 2 Pino, Maria,,Giacomo
DettagliCapitolo 3 Sintesi e descrizione dei dati quantitativi
Levine, Krehbiel, Berenson Statistica II ed. 2006 Apogeo Capitolo 3 Sintesi e descrizione dei dati quantitativi Insegnamento: Statistica Applicata Corso di Laurea in "Scienze e tecnologie Alimentari" Unità
DettagliEsplorazione dei dati
Esplorazione dei dati Introduzione L analisi esplorativa dei dati evidenzia, tramite grafici ed indicatori sintetici, le caratteristiche di ciascun attributo presente in un dataset. Il processo di esplorazione
DettagliRANKER: strumento software per il calcolo e la valutazione comparata di indici sintetici
La misurazione di fenomeni multidimensionali: indici sintetici ed esperienze a confronto RANKER: strumento software per il calcolo e la valutazione comparata di indici sintetici Giulio Barcaroli, Marco
DettagliEsercizi di Calcolo delle Probabilità
Esercizi di Calcolo delle Probabilità Versione del 1/05/005 Corso di Statistica Anno Accademico 00/05 Antonio Giannitrapani, Simone Paoletti Calcolo delle probabilità Esercizio 1. Un dado viene lanciato
DettagliCART: Classification And Regression Trees
CART: Classification And Regression Trees Antonio Manno mannoanto@libero.it, www.statistica.too.it Indice 1 Classificazione e regressione ad albero, CART 1 1.1 Classification trees............................
DettagliDistribuzioni campionarie
1 Inferenza Statistica Descrittiva Distribuzioni campionarie Statistica Inferenziale: affronta problemi di decisione in condizioni di incertezza basandosi sia su informazioni a priori sia sui dati campionari
DettagliEsercitazione 4 Distribuzioni campionarie e introduzione ai metodi Monte Carlo
Esercitazione 4 Distribuzioni campionarie e introduzione ai metodi Monte Carlo 1. Gli studi di simulazione possono permetterci di apprezzare alcune delle proprietà di distribuzioni campionarie ricavate
DettagliRingraziamenti dell Editore
Indice Elenco dei simboli e delle abbreviazioni in ordine di apparizione Ringraziamenti dell Editore XI XVII 1 Introduzione FAQ e qualcos altro, da leggere prima 1 1.1 QuestoèunlibrodiStatistica....................
DettagliStatistica. Alfonso Iodice D Enza
Statistica Alfonso Iodice D Enza iodicede@gmail.com Università degli studi di Cassino () Statistica 1 / 24 Outline 1 2 3 4 5 () Statistica 2 / 24 Dipendenza lineare Lo studio della relazione tra caratteri
DettagliIntelligenza Artificiale. Soft Computing: Reti Neurali Generalità
Intelligenza Artificiale Soft Computing: Reti Neurali Generalità Neurone Artificiale Costituito da due stadi in cascata: sommatore lineare (produce il cosiddetto net input) net = S j w j i j w j è il peso
DettagliSommario. Capitolo 1 I dati e la statistica 1. Capitolo 2 Statistica descrittiva: tabelle e rappresentazioni grafiche 25
Sommario Presentazione dell edizione italiana Prefazione xv xiii Capitolo 1 I dati e la statistica 1 Statistica in pratica: BusinessWeek 1 1.1 Le applicazioni in ambito aziendale ed economico 3 Contabilità
DettagliSintesi dei dati in una tabella. Misure di variabilità (cap. 4) Misure di forma (cap. 5) Statistica descrittiva (cap. 6)
Sintesi dei dati in una tabella Misure di variabilità (cap. 4) Misure di forma (cap. 5) Statistica descrittiva (cap. 6) Sintesi dei dati Spesso si vuole effettuare una sintesi dei dati per ottenere indici
DettagliStrumenti di indagine per la valutazione psicologica
Strumenti di indagine per la valutazione psicologica 1.5 Correlazione e causazione Davide Massidda davide.massidda@gmail.com Metodi simmetrici vs asimmetrici Relazioni tra variabili Nei metodi di studio
DettagliNote sulla probabilità
Note sulla probabilità Maurizio Loreti Dipartimento di Fisica Università degli Studi di Padova Anno Accademico 2002 03 1 La distribuzione del χ 2 0.6 0.5 N=1 N=2 N=3 N=5 N=10 0.4 0.3 0.2 0.1 0 0 5 10 15
DettagliFILE E INDICI Architettura DBMS
FILE E INDICI Architettura DBMS Giorgio Giacinto 2010 Database 2 Dati su dispositivi di memorizzazione esterni! Dischi! si può leggere qualunque pagina a costo medio fisso! Nastri! si possono leggere le
DettagliTecniche di riconoscimento statistico
On AIR s.r.l. Tecniche di riconoscimento statistico Applicazioni alla lettura automatica di testi (OCR) Parte 2 Teoria della decisione Ennio Ottaviani On AIR srl ennio.ottaviani@onairweb.com http://www.onairweb.com/corsopr
Dettagli