Clustering. Corso di Apprendimento Automatico Laurea Magistrale in Informatica Nicola Fanizzi

Dimensione: px
Iniziare la visualizzazioe della pagina:

Download "Clustering. Corso di Apprendimento Automatico Laurea Magistrale in Informatica Nicola Fanizzi"

Transcript

1 Laurea Magistrale in Informatica Nicola Fanizzi Dipartimento di Informatica Università degli Studi di Bari 3 febbraio 2009

2 Sommario Introduzione iterativo basato su distanza k-means e sue generalizzazioni: k-medoids e FUZZY k -MEANS gerarchico incrementale basato su probabilità Modello misto EM Bayesiano

3 Introduzione Le tecniche di clustering sono utili nei casi in cui non ci siano classi da predire Scopo: dividere le istanze in gruppi naturali I cluster possono essere: disgiunti vs. sovrapposti deterministici vs. probabilistici piatti vs. gerarchici Gli algoritmi possono anche essere: divisivi vs. agglomerativi I cluster ottenuti con K-MEANS, presentato in seguito, sono disgiunti, deterministici e piatti Trattazioni sul clustering: [Jain and Dubes, 1988] [Kaufman and Rousseeuw, 1990]

4 Rappresentazione I Rappresentazione semplice 2D Diagramma di Venn (cluster sovrapposti)

5 Rappresentazione II Assegnazione probabilistica Dendrogramma

6 Prossimità I Molti algoritmi si basano su nozioni di similarità o prossimità Matrice: D = (d ij ) i=1,...,n j=1,...,n In genere D è simmetrica e i = 1,..., N : d ii = 0 Date p misure x ih sulle istanze (i = 1,..., N e h = 1,..., p), si definiscono p funzioni di (dis)similarità d h sull h-esimo attributo, ad es. d h (x ih, x jh ) = (x ih x jh ) 2 Per cui la dissimilarità tra le istanze di indice i e j: D(x ih, x jh ) = h d h (x ih, x jh )

7 Prossimità II attributi quantitativi: d(x i, x j ) = l( x i x j ) oppure la correlazione ρ(x i, x j ) attributi ordinali: supponendo che si possano assumere M valori, questi possono essere mappati su: i 1/2 M, per i = 1,..., M e quindi usare misure quantitative attributi categorici: supponendo che si possano assumere M valori, si può costruire una matrice L simmetrica a diagonali nulle e tale che L rs = 1 per r s o usare altre loss function

8 Prossimità III Combinazione delle misure di dissimilarità D(x i, x j ) = h w h d h (x ih, x jh ) con h w h = 1 Per la scelta dei pesi: w h = 1/s h con s h = 1 N 2 (x ih x jh ) 2 = 2 var h i j var h stima sul campione della varianza dell attributo h-esimo

9 Prossimità IV Valori mancanti per un certo attributo: eliminare le istanze abbondanza di dati considerare la media dei valori dell attributo oppure la mediana o la moda considerare il valore mancante un ulteriore valore speciale

10 k -MEANS Clusterizzare dati in k gruppi (k predefinito): 1 Scegliere k centroidi es. casualmente 2 Assegnare le istanze ai cluster basandosi sulla distanza dai centroidi 3 Ri-calcolare i centroidi dei cluster 4 Tornare al passo 1 fino ad avverare un criterio di convergenza

11 k -MEANS osservazioni I L algoritmo minimizza la distanza quadratica delle istanze dai centroidi I risultati possono variare significativamente a seconda della scelta dei centri iniziali può rimanere intrappolato in un minimo locale Per incrementare la probabilità di trovare un ottimo globale: far ripartire l algoritmo con una diversa scelta di centroidi Puo essere applicato ricorsivamente con k = 2 BISECTING k -MEANS

12 k -MEANS osservazioni II centroidi iniziali partizione iniziale iterazione #2 iterazione #20

13 Calcolo veloce delle distanze I Si possono usare kd-trees o ball trees Costruire l albero, che rimane statico, per tutte le istanze In ogni nodo: immagazzinare il numero delle istanze e la somma di tutte le istanze Ad ogni iterazione, scendere nell albero e trovare a quale cluster ogni nodo appartenga La discesa si può fermare non appena si trovi un nodo che appartiene interamente ad un particolare cluster Usare delle statistiche conservate in ogni nodo per calcolare nuovi centri: somma dei vettori, numero di punti,...

14 Calcolo veloce delle distanze II Esempio

15 Quanti cluster? Come scegliere k in k -MEANS? Possibilità: Scegliere k che minimizzi la distanza quadratica dai centri mediata da un processo di cross-validation Usare una distanza quadratica penalizzata sui dati di training (es. usando un criterio MDL) Applicare k -MEANS ricorsivamente con k = 2 e usare un criterio di stop (es. basato su MDL) I centroidi iniziali per i sotto-cluster possono essere scelti lungo le direttrici di massima varianza nel cluster (lontane dal centroide del cluster padre un unitaà di deviazione standard in ogni direzione) Implementato nell algoritmo X-MEANS [Moore and Pelleg, 2000], nel quale si usa il BIC (Bayesian Information Criterion [Kass and Wasserman, 1995]) invece del MDL

16 k -MEDOIDS I Generalizzazione del k -MEANS in caso non si possano definire centroidi Si utilizzano diversi rappresentanti dei cluster {m i,..., m k } medoide del cluster C j : istanza del cluster che minimizza la distanza media dagli altri m j = argmin x r C j x s C j D(x r, x s )

17 k -MEDOIDS II Algoritmo k -MEDOIDS Inizializzare i medoidi: {m j } j=1,...,k Ripetere 1 Minimizzare l errore totale assegnando ogni istanza al medoide (corrente) più vicino: Per i = 1,..., N eseguire 2 Ricalcolare medoidi: Per j = 1,..., k eseguire Fino alla convergenza C(i) argmin D(x i, m j ) 1 j k m j argmin x r C j x s C j D(x r, x s )

18 k -MEDOIDS III Esempio dissimilarità tra nazioni (da [Hastie et al., 2001]) matrice di prossimità riordinata

19 FUZZY k -MEANS I Generalizzazione del k -MEANS: grado di appartenenza ad al cluster i-esimo in [0, 1] Corrisponde a P(C j x i, θ) (normalizzate) Si utilizzano diversi rappresentanti dei cluster {µ 1,..., µ k } Funzione obiettivo da minimizzare: L = (P(C j x i, θ)) b x i µ j 2 i j Annullando le derivate di L/ µ j e L/ ˆP j si ha: µ j = i(p(c j x i )) b x i i (P(C j x i )) b P(C j x i ) = (1/d ij) 1 b 1 r (1/d ir ) 1 b 1 d ij = x i µ j 2

20 FUZZY k -MEANS II Algoritmo k -MEDOIDS Inizializzare: µ j e P(C j x i ) per i = 1,..., N, j = 1,..., k Ripetere la classificazione delle istanze in base al prototipo più vicino 1 ricalcolare ogni µ j 2 ricalcolare le probabilità P(C j x i ) e normalizzarle fino alla convergenza (nessun cambiamento)

21 gerarchico I Algoritmi top-down (divisivi): partono da un gruppo unico e lo dividono ad ogni livello; il gruppo da dividere è quello meno coeso bottom-up (agglomerativi): si parte da gruppi composti dalle singole istanze e che vengono fusi via via gruppi con la più alta similarità In genere questi algoritmi non richiedono k ma una misura di dissimilarità tra gruppi Degli N 1 livelli scegliere quello con il clustering più naturale ; sono state proposte molte statistiche [Bezdek and Pal, 1998, Halkidi et al., 2001] Dunn, Hubert, Davies-Bouldin, Silhouette, Gap,...

22 gerarchico II

23 Approcci agglomerativi I ad ogni livello occorre scegliere i cluster da fondere dati due cluster C i e C j la loro dissimilarità si basa su quella dei loro elementi: single linkage (SL) d SL (C i, C j ) = complete linkage (CL) d CL (C i, C j ) = average group linkage (GL) d GL (C i, C j ) = min d(x i, x j ) x i C i,x j C j max d(x i, x j ) x i C i,x j C j 1 C i C j x i C i,x j C j d(x i, x j )

24 Approcci agglomerativi II

25 Approcci divisivi I meno investigati dei precedenti algoritmi ricorsivi ricavabili da k-means (k-medoids): ad ogni livello si individua il cluster meno coeso da dividere si applica un algoritmo per dividere questo cluster in k sotto-cluster fino ad avere diviso tutti i cluster o altro criterio di stop scelta del cluster da dividere: massimo diametro [Kaufman and Rousseeuw, 1990]: (C) = max x i,x j C d(x i, x j ) massima dissimilarità media: d(c) = 1 C x i C,x j C d(x i, x j )

26 Approcci divisivi II

27 Approcci incrementali Approccio euristico COBWEB [Fisher, 1987] CLASSIT [Gennari et al., 1997] Formare incrementalmente una gerarchia di cluster Inizialmente: l albero consiste in un nodo-radice vuoto Quindi: Aggiungere istanze una alla volta Aggiornare l albero appropriatamente ad ogni passaggio Per l aggiornamento: trovare la foglia destra per un instanza Può comportare la ristrutturazione dell albero Decisioni sull aggiornamento basate sul criterio di category utility

28 Category Utility Category utility [Gluck and Corter, 1985] Loss function quadratica definita dalle probabilita condizionate: CU(C 1,..., C k ) = l P(C l) i j (P(a i = v ij C l ) 2 P(a i = v ij ) 2 ) k Ogni istanza in una diversa categoria = il numeratore diventa: n i numero di attributi j P(a i = v ij ) 2 massimo

29 Ristrutturazione: fusione e suddivisione Evitare la dipendenza dall ordine di presentazione delle istanze Fusione Calcolare la CU per tutte le coppie di nodi (costoso) Trovare un nodo-ospite per la nuova istanza tra nodi allo stesso livello: annotare nodo migliore + seconda scelta nodo migliore: posto per l istanza (a meno che non si preferisca costruire un cluster proprio) considerare la fusione del nodo ospite + seconda scelta Suddivisione identificare il miglior nodo-ospite fusione svantaggiosa considerare la suddivisione del nodo migliore

30 Esempio I ID Outlook Temp. Humidity Windy a Sunny Hot High False b Sunny Hot High True c Overcast Hot High False d Rainy Mild High False e Rainy Cool Normal False f Rainy Cool Normal True g Overcast Cool Normal True h Sunny Mild High False i Sunny Cool Normal False j Rainy Mild Normal False k Sunny Mild Normal True l Overcast Mild High True m Overcast Hot Normal False n Rainy Mild High True

31 Esempio II ID Outlook Temp. Humidity Windy a Sunny Hot High False b Sunny Hot High True c Overcast Hot High False d Rainy Mild High False e Rainy Cool Normal False f Rainy Cool Normal True g Overcast Cool Normal True h Sunny Mild High False i Sunny Cool Normal False j Rainy Mild Normal False k Sunny Mild Normal True l Overcast Mild High True m Overcast Hot Normal False n Rainy Mild High True Fusione

32 Esempio III ID Outlook Temp. Humidity Windy A Sunny Hot High False B Sunny Hot High True C Overcast Hot High False D Rainy Mild High False

33 Attributi Numerici Si assume una distribuzione normale: 1 f (a) = exp( (a µ)2 (2π)σ 2σ 2 ) quindi j P(a i = v ij ) 2 f (a i ) 2 da i = 1 2 πσ i pertanto CU(C 1, C 2,..., C k ) = P l P(C l ) P P i j (P(a i =v ij C l ) 2 P(a i =v ij ) 2 ) k diventa CU(C 1, C 2,..., C k ) = Pl P(C l ) 1 2 π Pi ( 1 1 ) σ il σ i k Problema: una sola instanza in un nodo porta a varianza nulla minima varianza pre-specificata parametro acuity: misura dell errore in un singolo campione

34 Dataset IRIS

35 Cut-off

36 probabilistico Problemi dell approccio euristico: Suddivisione in k cluster? Ordine degli esempi? Sono sufficienti le operazioni di ristrutturazione? Il risultato raggiunge almeno localmente la minima category utility? Prospettiva probabilistica = cercare i cluster più verosimili date le osservazioni Inoltre: un istanza appartiene ad ogni cluster con una certa probabilità

37 Composizioni finite Si modellano i dati usando una composizione (mixture) di distribuzioni Ogni cluster corrisponde ad una distribuzione governa le probabilità dei valori degli attributi per quel cluster Finite mixtures: numero finito di cluster Le singole distribuzioni sono (di solito) Normali Si combinano le distribuzioni usando pesi relativi ai cluster

38 Modello composto a 2-classi

39 Uso del modello composto Probabilità che l istanza x appartenga al cluster A: P(A x) = P(x A)P(A) P(x) = f (x; µ A, σ A )p A P(x) con f (x; µ, σ) = 1 2πσ exp( (x µ)2 2σ 2 ) Probabilità di un istanza dati i cluster: P(x {C 1,..., C k }) = i P(x C i )P(C i )

40 Imparare i cluster Si assuma: di conoscere che il numero di cluster k Imparare i cluster? determinare i loro parametri ossia medie e deviazioni standard Criterio di valutazione: Probabilità dei dati di training dati i cluster Algoritmo EM trova un massimo locale della likelihood

41 Algoritmo EM I EM = Expectation-Maximization Generalizza K-MEANS in senso probabilistico Procedura iterativa: passo E expectation: Calcolare la probabilità di appartenenza ai cluster per ogni istanza passo M maximization: Stimare i parametri della distribuzione a partire dallle probabilità determinate Immagazzinare le probabilità come pesi delle istanze Stop quando il miglioramento è trascurabile

42 Algoritmo EM II Stimare i parametri dalle istanze pesate µ A = w 1x 1 + w 2 x w n x n w 1 + w w n σ A = w 1(x 1 µ) 2 + w 2 (x 2 µ) w n (x n µ) 2 w 1 + w w n Stop quando si satura la log-likelihood Log-likelihood: log(p A P(x i A) + p B P(x i B)) i

43 Estensione del modello composto Più di due distribuzioni: facile Parecchi attributi: facile assumendone l indipendenza Attributi correlati: difficile modello congiunto: distribuzione normale bivariata con una matrice di covarianza (simmetrica) n attributi: serve stimare n + n(n + 1)/2 parametri

44 Altre estensioni Attributi nominali: facile se indipendenti Attributi nominali correlati: difficile Due attributi correlati = ν 1 ν 2 parametri Valori mancanti: facile Possibilità di usare altre distribuzioni diverse dalla normale: log-normale se è dato un minimo predeterminato log-odds se limitato superiormente ed inferiormente Poisson per attributi che rappresentano conteggi interi Usare la cross-validation per stimare k

45 Bayesiano Problema: tanti parametri = EM soffre di sovradattamento Approccio Bayesiano: si attribuisce ad ogni parametro una distribuzione di probabilità a priori Si incorpora la probabilità a priori nel computo totale della likelihood Si penalizza l introduzione di parametri Es. lo stimatore di Laplace per attributi nominali Si può anche avere una probabilità a priori sul numero di cluster Implementazione: AUTOCLASS [Cheeseman and Stutz, 1995]

46 Discussione Diminuisce la dipendenza tra attributi? passo di pre-elaborazione Es. usare l analisi delle componenti principali Si può usare per completare i valori mancanti Principale vantaggio del clustering probabilistico: Si può stimare la likelihood dei dati usabile poi per confrontare modelli differenti in modo obiettivo

47 concettuale In una seconda fase succesiva al clustering (non supervisionato) è possibile interpretare i cluster tramite l apprendimento supervisionato passo di post-elaborazione: conceptual clustering [Stepp and Michalski, 1986] Ogni cluster rappresenta una classe di istanze per la quale costruire un concetto in forma insensionale Per ogni cluster es. positivi istanze del cluster es. negativi istanze degli altri cluster disgiunti

48 Fonti A.K. Jain, M.N. Murty, P.J. Flynn: Data : A Review. ACM Computing Surveys, 31(3), , 1999 I. Witten & E. Frank: Data Mining: Practical Machine Learning Tools and Techniques, Morgan Kaufmann R. Duda, P. Hart, D. Stork: Pattern Classification, Wiley T. Hastie, R. Tibshirani, J. Friedman: The Elements of Statistical Learning, Springer T. M. Mitchell: Machine Learning, McGraw Hill

49 Bibliografia I Bezdek, J. and Pal, N. (1998). Some new indexes of cluster validity. IEEE Transactions on Systems, Man, and Cybernetics, 28(3): Cheeseman, P. and Stutz, J. (1995). Bayesian classification (AutoClass): Theory and results. In Fayyad, U., Piatetsky-Shapiro, G., Smyth, P., and Uthurusamy, R., editors, Advances in Knowledge Discovery and Data Mining, pages AAAI Press. Fisher, D. (1987). Knowledge acquisition via incremental conceptual clustering. Machine Learning, 2(2): Gennari, I., Langley, P., and Fisher, D. (1997). Models of incremental concept formation. Artificial Intelligence, 40:11 61.

50 Bibliografia II Gluck, M. and Corter, J. (1985). Information, uncertainty, and utility of categories. In Proceedings of the Annual Conference of the Cognitive Science Society, pages Lawrence Erlbaum. Halkidi, M., Batistakis, Y., and Vazirgiannis, M. (2001). On clustering validation techniques. Journal of Intelligent Information Systems, 17(2-3): Jain, A. and Dubes, R. (1988). Algorithms for Data. Prentice Hall, Englewood Cliffs, NJ. Kass, R. and Wasserman (1995). A reference bayesian test for nested hypotheses and its relationship to the Schwarz criterion. Journal of the American Statistical Association, 90:

51 Bibliografia III Kaufman, L. and Rousseeuw, P. (1990). Finding Groups in Data: an Introduction to Cluster Analysis. John Wiley & Sons. Moore, A. and Pelleg, D. (2000). X-means: Extending k-means with efficient estimation of the number of clusters. In Kaufmann, M., editor, Proceedings of the 17th International Conference on Machine Learning, pages Stepp, R. E. and Michalski, R. S. (1986). Conceptual clustering of structured objects: A goal-oriented approach. Artificial Intelligence, 28(1):43 69.

Clustering. Leggere il Capitolo 15 di Riguzzi et al. Sistemi Informativi

Clustering. Leggere il Capitolo 15 di Riguzzi et al. Sistemi Informativi Clustering Leggere il Capitolo 15 di Riguzzi et al. Sistemi Informativi Clustering Raggruppare le istanze di un dominio in gruppi tali che gli oggetti nello stesso gruppo mostrino un alto grado di similarità

Dettagli

Clustering. Leggere il Capitolo 15 di Riguzzi et al. Sistemi Informativi

Clustering. Leggere il Capitolo 15 di Riguzzi et al. Sistemi Informativi Clustering Leggere il Capitolo 15 di Riguzzi et al. Sistemi Informativi Clustering Raggruppare le istanze di un dominio in gruppi tali che gli oggetti nello stesso gruppo mostrino un alto grado di similarità

Dettagli

Intelligenza Artificiale. Clustering. Francesco Uliana. 14 gennaio 2011

Intelligenza Artificiale. Clustering. Francesco Uliana. 14 gennaio 2011 Intelligenza Artificiale Clustering Francesco Uliana 14 gennaio 2011 Definizione Il Clustering o analisi dei cluster (dal termine inglese cluster analysis) è un insieme di tecniche di analisi multivariata

Dettagli

Learning finite Mixture- Models. Giuseppe Manco

Learning finite Mixture- Models. Giuseppe Manco Learning finite Mixture- Models Giuseppe Manco Clustering La problematica del clustering è relativa al learning non supervisionato Abbiamo un dataset con istanze la cui etichetta è sconosciuta Obiettivo

Dettagli

Riconoscimento e recupero dell informazione per bioinformatica

Riconoscimento e recupero dell informazione per bioinformatica Riconoscimento e recupero dell informazione per bioinformatica Clustering: metodologie Manuele Bicego Corso di Laurea in Bioinformatica Dipartimento di Informatica - Università di Verona Sommario Tassonomia

Dettagli

Statistica per l Impresa

Statistica per l Impresa Statistica per l Impresa a.a. 207/208 Tecniche di Analisi Multidimensionale Analisi dei Gruppi 2 maggio 208 Indice Analisi dei Gruppi: Introduzione Misure di distanza e indici di similarità 3. Metodi gerarchici

Dettagli

Clustering. Clustering

Clustering. Clustering 1/40 Clustering Iuri Frosio frosio@dsi.unimi.it Approfondimenti in A.K. Jan, M. N. Murty, P. J. Flynn, Data clustering: a review, ACM Computing Surveys, Vol. 31, No. 3, September 1999, ref. pp. 265-290,

Dettagli

Teoria e Tecniche del Riconoscimento Clustering

Teoria e Tecniche del Riconoscimento Clustering Facoltà di Scienze MM. FF. NN. Università di Verona A.A. 2010-11 Teoria e Tecniche del Riconoscimento Clustering Sommario Tassonomia degli algoritmi di clustering Algoritmi partizionali: clustering sequenziale

Dettagli

Riconoscimento e recupero dell informazione per bioinformatica

Riconoscimento e recupero dell informazione per bioinformatica Riconoscimento e recupero dell informazione per bioinformatica Clustering: validazione Manuele Bicego Corso di Laurea in Bioinformatica Dipartimento di Informatica - Università di Verona Sommario Definizione

Dettagli

Lecture 12. Clustering

Lecture 12. Clustering Lecture Marteì 0 novembre 00 Giuseppe Manco Reaings: Chapter 8 Han an Kamber Chapter Hastie Tibshirani an Frieman gerarchico Il settaggio i parametri in alcune situazioni è complicato Cluster gerarchici

Dettagli

Apprendimento basato sulle istanze

Apprendimento basato sulle istanze Apprendimento basato sulle istanze Apprendimento basato sulle istanze Apprendimento: semplice memorizzazione di tutti gli esempi Classificazione di una nuova istanza x j : reperimento degli

Dettagli

Data mining: classificazione

Data mining: classificazione DataBase and Data Mining Group of DataBase and Data Mining Group of DataBase and Data Mining Group of DataBase and Data Mining Group of DataBase and Data Mining Group of DataBase and Data Mining Group

Dettagli

Classificazione DATA MINING: CLASSIFICAZIONE - 1. Classificazione

Classificazione DATA MINING: CLASSIFICAZIONE - 1. Classificazione M B G Classificazione ATA MINING: CLASSIFICAZIONE - 1 Classificazione Sono dati insieme di classi oggetti etichettati con il nome della classe di appartenenza (training set) L obiettivo della classificazione

Dettagli

Riconoscimento e recupero dell informazione per bioinformatica. Clustering: validazione. Manuele Bicego

Riconoscimento e recupero dell informazione per bioinformatica. Clustering: validazione. Manuele Bicego Riconoscimento e recupero dell informazione per bioinformatica Clustering: validazione Manuele Bicego Corso di Laurea in Bioinformatica Dipartimento di Informatica - Università di Verona Sommario Definizione

Dettagli

Metodologie di Clustering

Metodologie di Clustering Metodologie di Clustering Nota preliminare Esistono moltissimi algoritmi di clustering Questi algoritmi possono essere analizzati da svariati punti di vista La suddivisione principale tuttavia è quella

Dettagli

Statistica per l Impresa

Statistica per l Impresa Statistica per l Impresa a.a. 2017/2018 Tecniche di Analisi Multidimensionale Analisi dei Gruppi 23 aprile 2018 Indice 1. Analisi dei Gruppi: Introduzione 2. Misure di distanza e indici di similarità 3.

Dettagli

Classificazione Bayesiana

Classificazione Bayesiana Classificazione Bayesiana Selezionare, dato un certo pattern x, la classe ci che ha, a posteriori, la massima probabilità rispetto al pattern: P(C=c i x)>p(c=c j x) j i Teorema di Bayes (TDB): P(A B) =

Dettagli

Apprendimento Automatico

Apprendimento Automatico Apprendimento Automatico Metodi Bayesiani - Naive Bayes Fabio Aiolli 13 Dicembre 2017 Fabio Aiolli Apprendimento Automatico 13 Dicembre 2017 1 / 18 Classificatore Naive Bayes Una delle tecniche più semplici

Dettagli

Cenni di apprendimento in Reti Bayesiane

Cenni di apprendimento in Reti Bayesiane Sistemi Intelligenti 216 Cenni di apprendimento in Reti Bayesiane Esistono diverse varianti di compiti di apprendimento La struttura della rete può essere nota o sconosciuta Esempi di apprendimento possono

Dettagli

Teoria delle Decisioni Bayesiana

Teoria delle Decisioni Bayesiana Laurea Magistrale in Informatica Nicola Fanizzi Dipartimento di Informatica Università degli Studi di Bari 14 gennaio 2009 Sommario Introduzione Teoria delle decisioni Bayesiana - nel continuo Classificazione

Dettagli

ID3: Selezione Attributo Ottimo

ID3: Selezione Attributo Ottimo Sistemi di Elaborazione dell Informazione 49 ID3: Selezione Attributo Ottimo Vari algoritmi di apprendimento si differenziano soprattutto (ma non solo) dal modo in cui si seleziona l attributo ottimo:

Dettagli

Computazione per l interazione naturale: Regressione probabilistica

Computazione per l interazione naturale: Regressione probabilistica Computazione per l interazione naturale: Regressione probabilistica Corso di Interazione Naturale Prof. Giuseppe Boccignone Dipartimento di Informatica Università di Milano boccignone@di.unimi.it boccignone.di.unimi.it/in_2016.html

Dettagli

Computazione per l interazione naturale: modelli a variabili latenti (clustering e riduzione di dimensionalità)

Computazione per l interazione naturale: modelli a variabili latenti (clustering e riduzione di dimensionalità) Computazione per l interazione naturale: modelli a variabili latenti (clustering e riduzione di dimensionalità) Corso di Interazione Naturale Prof. Giuseppe Boccignone Dipartimento di Informatica Università

Dettagli

Stima dei Parametri. Corso di Apprendimento Automatico Laurea Magistrale in Informatica Nicola Fanizzi

Stima dei Parametri. Corso di Apprendimento Automatico Laurea Magistrale in Informatica Nicola Fanizzi Laurea Magistrale in Informatica Nicola Fanizzi Dipartimento di Informatica Università degli Studi di Bari 20 gennaio 2009 Sommario Introduzione Stima dei parametri di massima verosimiglianza Stima dei

Dettagli

Riconoscimento e recupero dell informazione per bioinformatica

Riconoscimento e recupero dell informazione per bioinformatica Riconoscimento e recupero dell informazione per bioinformatica Clustering: introduzione Manuele Bicego Corso di Laurea in Bioinformatica Dipartimento di Informatica - Università di Verona Una definizione

Dettagli

Computazione per l interazione naturale: Modelli dinamici

Computazione per l interazione naturale: Modelli dinamici Computazione per l interazione naturale: Modelli dinamici Corso di Interazione uomo-macchina II Prof. Giuseppe Boccignone Dipartimento di Scienze dell Informazione Università di Milano boccignone@dsi.unimi.it

Dettagli

Alberi di Decisione. Corso di AA, anno 2017/18, Padova. Fabio Aiolli. 23 Ottobre Fabio Aiolli Alberi di Decisione 23 Ottobre / 16

Alberi di Decisione. Corso di AA, anno 2017/18, Padova. Fabio Aiolli. 23 Ottobre Fabio Aiolli Alberi di Decisione 23 Ottobre / 16 Alberi di Decisione Corso di AA, anno 2017/18, Padova Fabio Aiolli 23 Ottobre 2017 Fabio Aiolli Alberi di Decisione 23 Ottobre 2017 1 / 16 Alberi di decisione (Decision Trees) In molte applicazioni del

Dettagli

Misura della performance di ciascun modello: tasso di errore sul test set

Misura della performance di ciascun modello: tasso di errore sul test set Confronto fra modelli di apprendimento supervisionato Dati due modelli supervisionati M 1 e M costruiti con lo stesso training set Misura della performance di ciascun modello: tasso di errore sul test

Dettagli

Computazione per l interazione naturale: Regressione probabilistica

Computazione per l interazione naturale: Regressione probabilistica Computazione per l interazione naturale: Regressione probabilistica Corso di Interazione Naturale Prof. Giuseppe Boccignone Dipartimento di Informatica Università di Milano boccignone@di.unimi.it boccignone.di.unimi.it/in_2017.html

Dettagli

Riconoscimento automatico di oggetti (Pattern Recognition)

Riconoscimento automatico di oggetti (Pattern Recognition) Riconoscimento automatico di oggetti (Pattern Recognition) Scopo: definire un sistema per riconoscere automaticamente un oggetto data la descrizione di un oggetto che può appartenere ad una tra N classi

Dettagli

Riconoscimento e recupero dell informazione per bioinformatica

Riconoscimento e recupero dell informazione per bioinformatica Riconoscimento e recupero dell informazione per bioinformatica Clustering: metodologie Manuele Bicego Corso di Laurea in Bioinformatica Dipartimento di Informatica - Università di Verona Sommario Tassonomia

Dettagli

Computazione per l interazione naturale: Regressione probabilistica

Computazione per l interazione naturale: Regressione probabilistica Computazione per l interazione naturale: Regressione probabilistica Corso di Interazione Naturale Prof. Giuseppe Boccignone Dipartimento di Informatica Università di Milano boccignone@di.unimi.it boccignone.di.unimi.it/in_2018.html

Dettagli

Apprendimento di Alberi di Decisione: Bias Induttivo

Apprendimento di Alberi di Decisione: Bias Induttivo istemi di Elaborazione dell Informazione 54 Apprendimento di Alberi di Decisione: Bias Induttivo Il Bias Induttivo è sulla ricerca! + + A1 + + + A2 + +...... + + A2 A3 + + + A2 A4...... istemi di Elaborazione

Dettagli

Presentazione dell edizione italiana

Presentazione dell edizione italiana 1 Indice generale Presentazione dell edizione italiana Prefazione xi xiii Capitolo 1 Una introduzione alla statistica 1 1.1 Raccolta dei dati e statistica descrittiva... 1 1.2 Inferenza statistica e modelli

Dettagli

Regressione Lineare. Corso di Intelligenza Artificiale, a.a Prof. Francesco Trovò

Regressione Lineare. Corso di Intelligenza Artificiale, a.a Prof. Francesco Trovò Regressione Lineare Corso di Intelligenza Artificiale, a.a. 2017-2018 Prof. Francesco Trovò 23/04/2018 Regressione Lineare Supervised Learning Supervised Learning: recap È il sottocampo del ML più vasto

Dettagli

Teoria e Tecniche del Riconoscimento

Teoria e Tecniche del Riconoscimento Facoltà di Scienze MM. FF. NN. Università di Verona A.A. 2010-11 Teoria e Tecniche del Riconoscimento Notizie preliminari Introduzione Marco Cristani Teoria e Tecniche del Riconoscimento 1 Il docente Prof.

Dettagli

Indice generale. Introduzione. Capitolo 1 Essere uno scienziato dei dati... 1

Indice generale. Introduzione. Capitolo 1 Essere uno scienziato dei dati... 1 Introduzione...xi Argomenti trattati in questo libro... xi Dotazione software necessaria... xii A chi è rivolto questo libro... xii Convenzioni utilizzate... xiii Scarica i file degli esempi... xiii Capitolo

Dettagli

Indice. centrale, dispersione e forma Introduzione alla Statistica Statistica descrittiva per variabili quantitative: tendenza

Indice. centrale, dispersione e forma Introduzione alla Statistica Statistica descrittiva per variabili quantitative: tendenza XIII Presentazione del volume XV L Editore ringrazia 3 1. Introduzione alla Statistica 5 1.1 Definizione di Statistica 6 1.2 I Rami della Statistica Statistica Descrittiva, 6 Statistica Inferenziale, 6

Dettagli

Cluster Analysis. La Cluster Analysis è il processo attraverso il quale vengono individuati raggruppamenti dei dati. per modellare!

Cluster Analysis. La Cluster Analysis è il processo attraverso il quale vengono individuati raggruppamenti dei dati. per modellare! La Cluster Analysis è il processo attraverso il quale vengono individuati raggruppamenti dei dati. Le tecniche di cluster analysis vengono usate per esplorare i dati e non per modellare! La cluster analysis

Dettagli

e applicazioni al dominio del Contact Management Andrea Brunello Università degli Studi di Udine

e applicazioni al dominio del Contact Management Andrea Brunello Università degli Studi di Udine al e applicazioni al dominio del Contact Management Parte I: Il Processo di, Principali tipologie di al Cos è il Il processo di Università degli Studi di Udine Unsupervised In collaborazione con dott.

Dettagli

Clustering. Introduzione Definizioni Criteri Algoritmi. Clustering Gerarchico

Clustering. Introduzione Definizioni Criteri Algoritmi. Clustering Gerarchico Introduzione Definizioni Criteri Algoritmi Gerarchico Centroid-based K-means Fuzzy K-means Expectation Maximization (Gaussian Mixture) 1 Definizioni Con il termine (in italiano «raggruppamento») si denota

Dettagli

e applicazioni al dominio del Contact Management Andrea Brunello Università degli Studi di Udine

e applicazioni al dominio del Contact Management Andrea Brunello Università degli Studi di Udine e applicazioni al dominio del Contact Management Parte V: combinazione di Università degli Studi di Udine In collaborazione con dott. Enrico Marzano, CIO Gap srl progetto Active Contact System 1/10 Contenuti

Dettagli

Computazione per l interazione naturale: classificazione probabilistica

Computazione per l interazione naturale: classificazione probabilistica Computazione per l interazione naturale: classificazione probabilistica Corso di Interazione uomo-macchina II Prof. Giuseppe Boccignone Dipartimento di Informatica Università di Milano boccignone@di.unimi.it

Dettagli

Apprendimento Automatico

Apprendimento Automatico Apprendimento Automatico Metodi Bayesiani Fabio Aiolli 11 Dicembre 2017 Fabio Aiolli Apprendimento Automatico 11 Dicembre 2017 1 / 19 Metodi Bayesiani I metodi Bayesiani forniscono tecniche computazionali

Dettagli

Naive bayes. Course of Machine Learning Master Degree in Computer Science University of Rome Tor Vergata. Giorgio Gambosi. a.a.

Naive bayes. Course of Machine Learning Master Degree in Computer Science University of Rome Tor Vergata. Giorgio Gambosi. a.a. Naive bayes Course of Machine Learning Master Degree in Computer Science University of Rome Tor Vergata Giorgio Gambosi a.a. 2018-2019 1 Features numerose In presenza di numerose features, definire un

Dettagli

Cenni sulla cluster analysis

Cenni sulla cluster analysis Cenni sulla cluster analysis Distanze Dato un insieme E, una funzione d: E X E -> R + che ha le seguenti tre proprietà: d(x i, x j ) = 0 x i = x j d(x i, x j ) = d(x j, x i ) d(x i, x j ) d(x j, x h )

Dettagli

Lecture 10. Clustering

Lecture 10. Clustering Lecture 10 Giuseppe Manco Readings: Chapter 8, Han and Kamber Chapter 14, Hastie, Tibshirani and Friedman Outline Introduction K-means clustering Hierarchical clustering: COBWEB Apprendimento supervisionato

Dettagli

REGISTRO DELLE LEZIONI

REGISTRO DELLE LEZIONI UNIVERSITÀ DEGLI STUDI DI GENOVA Dipartimento di Matematica Corso di laurea in Statistica matematica e trattamento informatico dei dati REGISTRO DELLE LEZIONI dell INSEGNAMENTO o MODULO UFFICIALE Nome:

Dettagli

Apprendimento Bayesiano

Apprendimento Bayesiano Apprendimento Automatico 232 Apprendimento Bayesiano [Capitolo 6, Mitchell] Teorema di Bayes Ipotesi MAP e ML algoritmi di apprendimento MAP Principio MDL (Minimum description length) Classificatore Ottimo

Dettagli

Università del Piemonte Orientale. Corso di Laurea Triennale di Infermieristica Pediatrica ed Ostetricia. Corso di Statistica Medica

Università del Piemonte Orientale. Corso di Laurea Triennale di Infermieristica Pediatrica ed Ostetricia. Corso di Statistica Medica Università del Piemonte Orientale Corso di Laurea Triennale di Infermieristica Pediatrica ed Ostetricia Corso di Statistica Medica Le distribuzioni teoriche di probabilità La distribuzione Normale (o di

Dettagli

Stima dei parametri. La v.c. multipla (X 1, X 2,.., X n ) ha probabilità (o densità): Le f( ) sono uguali per tutte le v.c.

Stima dei parametri. La v.c. multipla (X 1, X 2,.., X n ) ha probabilità (o densità): Le f( ) sono uguali per tutte le v.c. Stima dei parametri Sia il carattere X rappresentato da una variabile casuale (v.c.) che si distribuisce secondo la funzione di probabilità f(x). Per investigare su tale carattere si estrae un campione

Dettagli

REGISTRO DELLE LEZIONI

REGISTRO DELLE LEZIONI UNIVERSITÀ DEGLI STUDI DI GENOVA Dipartimento di Matematica Corso di laurea in Statistica matematica e trattamento informatico dei dati REGISTRO DELLE LEZIONI dell INSEGNAMENTO o MODULO UFFICIALE Nome:

Dettagli

Computazione per l interazione naturale: classificazione probabilistica

Computazione per l interazione naturale: classificazione probabilistica Computazione per l interazione naturale: classificazione probabilistica Corso di Interazione Naturale Prof. Giuseppe Boccignone Dipartimento di Informatica Università di Milano boccignone@di.unimi.it boccignone.di.unimi.it/in_2016.html

Dettagli

Alberi di Decisione (2)

Alberi di Decisione (2) Alberi di Decisione (2) Corso di AA, anno 2018/19, Padova Fabio Aiolli 05 Novembre 2018 Fabio Aiolli Alberi di Decisione (2) 05 Novembre 2018 1 / 19 Apprendimento di alberi di decisione: Bias induttivo

Dettagli

SDE Marco Riani

SDE Marco Riani SDE 2017 Marco Riani mriani@unipr.it http://www.riani.it LA CLASSIFICAZIONE Problema generale della scienza (Linneo, ) Analisi discriminante Cluster Analysis (analisi dei gruppi) ANALISI DISCRIMINANTE

Dettagli

Machine Learning: apprendimento, generalizzazione e stima dell errore di generalizzazione

Machine Learning: apprendimento, generalizzazione e stima dell errore di generalizzazione Corso di Bioinformatica Machine Learning: apprendimento, generalizzazione e stima dell errore di generalizzazione Giorgio Valentini DI Università degli Studi di Milano 1 Metodi di machine learning I metodi

Dettagli

Naïve Bayesian Classification

Naïve Bayesian Classification Naïve Bayesian Classification Di Alessandro rezzani Sommario Naïve Bayesian Classification (o classificazione Bayesiana)... 1 L algoritmo... 2 Naive Bayes in R... 5 Esempio 1... 5 Esempio 2... 5 L algoritmo

Dettagli

Alberi di Decisione. Fabio Aiolli Sito web del corso

Alberi di Decisione. Fabio Aiolli  Sito web del corso Alberi di Decisione Fabio Aiolli www.math.unipd.it/~aiolli Sito web del corso www.math.unipd.it/~aiolli/corsi/1516/aa/aa.html Alberi di Decisione In molte applicazioni del mondo reale non è sufficiente

Dettagli

Data Science A.A. 2018/2019

Data Science A.A. 2018/2019 Corso di Laurea Magistrale in Economia Data Science A.A. 2018/2019 Lez. 5 Data Mining Data Science 2018/2019 1 Data Mining Processo di esplorazione e analisi di un insieme di dati, generalmente di grandi

Dettagli

Esplorazione dei dati

Esplorazione dei dati Esplorazione dei dati Introduzione L analisi esplorativa dei dati evidenzia, tramite grafici ed indicatori sintetici, le caratteristiche di ciascun attributo presente in un dataset. Il processo di esplorazione

Dettagli

Riconoscimento e recupero dell informazione per bioinformatica

Riconoscimento e recupero dell informazione per bioinformatica Riconoscimento e recupero dell informazione per bioinformatica Teoria della decisione di Bayes Manuele Bicego Corso di Laurea in Bioinformatica Dipartimento di Informatica - Università di Verona Sommario

Dettagli

Metodi di classificazione

Metodi di classificazione I metodi di classificazione sono metodi utilizzati per trovare modelli statistici capaci di assegnare ciascun oggetto di provenienza incognita ad una delle classi esistenti. L applicazione di questi metodi

Dettagli

Esplorazione grafica di dati multivariati. N. Del Buono

Esplorazione grafica di dati multivariati. N. Del Buono Esplorazione grafica di dati multivariati N. Del Buono Scatterplot Scatterplot permette di individuare graficamente le possibili associazioni tra due variabili Variabile descrittiva (explanatory variable)

Dettagli

Università degli Studi Roma Tre Anno Accademico 2017/2018 ST410 Statistica 1

Università degli Studi Roma Tre Anno Accademico 2017/2018 ST410 Statistica 1 Università degli Studi Roma Tre Anno Accademico 2017/2018 ST410 Statistica 1 Lezione 1 - Mercoledì 27 Settembre 2017 Introduzione al corso. Richiami di probabilità: spazi di probabilità, variabili aleatorie,

Dettagli

Campionamento. Una grandezza fisica e' distribuita secondo una certa PDF

Campionamento. Una grandezza fisica e' distribuita secondo una certa PDF Campionamento Una grandezza fisica e' distribuita secondo una certa PDF La pdf e' caratterizzata da determinati parametri Non abbiamo una conoscenza diretta della pdf Possiamo determinare una distribuzione

Dettagli

Alberi di Decisione (2)

Alberi di Decisione (2) Alberi di Decisione (2) Corso di AA, anno 2017/18, Padova Fabio Aiolli 25 Ottobre 2017 Fabio Aiolli Alberi di Decisione (2) 25 Ottobre 2017 1 / 18 Apprendimento di alberi di decisione: Bias induttivo Come

Dettagli

Apprendimento per Rinforzo

Apprendimento per Rinforzo Laurea Magistrale in Informatica Nicola Fanizzi Dipartimento di Informatica Università degli Studi di Bari 11 febbraio 2009 Sommario Apprendimento del Controllo Politiche di Controllo che scelgono azioni

Dettagli

Indice. Presentazione

Indice. Presentazione Indice Presentazione v 1 Il problema statistico 1 1.1 Esperienze e regole 1 1.2 Un esempio introduttivo 3 1.3 Esperienze ed errori 4 1.4 Errori e fluttuazioni 6 1.5 Quando non ci sono regole 7 1.6 Conclusione

Dettagli

Apprendimento Automatico

Apprendimento Automatico Apprendimento Automatico Fabio Aiolli www.math.unipd.it/~aiolli Sito web del corso www.math.unipd.it/~aiolli/corsi/1516/aa/aa.html Rappresentazione dei dati con i kernel Abbiamo una serie di oggetti S

Dettagli

Università del Piemonte Orientale. Corso di laurea in medicina e chirurgia. Corso di Statistica Medica. Analisi dei dati quantitativi :

Università del Piemonte Orientale. Corso di laurea in medicina e chirurgia. Corso di Statistica Medica. Analisi dei dati quantitativi : Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Analisi dei dati quantitativi : Analisi della varianza Università del Piemonte Orientale Corso di laurea

Dettagli

Computazione per l interazione naturale: processi gaussiani

Computazione per l interazione naturale: processi gaussiani Computazione per l interazione naturale: processi gaussiani Corso di Interazione uomo-macchina II Prof. Giuseppe Boccignone Dipartimento di Scienze dell Informazione Università di Milano boccignone@dsi.unimi.it

Dettagli

Università del Piemonte Orientale. Corso di laurea in medicina e chirurgia. Corso di Statistica Medica. Analisi dei dati quantitativi :

Università del Piemonte Orientale. Corso di laurea in medicina e chirurgia. Corso di Statistica Medica. Analisi dei dati quantitativi : Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Analisi dei dati quantitativi : Analisi della varianza Università del Piemonte Orientale Corso di laurea

Dettagli

1.1 Obiettivi della statistica Struttura del testo 2

1.1 Obiettivi della statistica Struttura del testo 2 Prefazione XV 1 Introduzione 1.1 Obiettivi della statistica 1 1.2 Struttura del testo 2 2 Distribuzioni di frequenza 2.1 Informazione statistica e rilevazione dei dati 5 2.2 Distribuzioni di frequenza

Dettagli

Tecniche di riconoscimento statistico

Tecniche di riconoscimento statistico On AIR s.r.l. Tecniche di riconoscimento statistico Applicazioni alla lettura automatica di testi (OCR) Parte 9 Alberi di decisione Ennio Ottaviani On AIR srl ennio.ottaviani@onairweb.com http://www.onairweb.com/corsopr

Dettagli

Università del Piemonte Orientale. Corso di laurea specialistica in biotecnologie mediche. Corso di Statistica Medica. Analisi dei dati quantitativi :

Università del Piemonte Orientale. Corso di laurea specialistica in biotecnologie mediche. Corso di Statistica Medica. Analisi dei dati quantitativi : Università del Piemonte Orientale Corso di laurea specialistica in biotecnologie mediche Corso di Statistica Medica Analisi dei dati quantitativi : Analisi della varianza Università del Piemonte Orientale

Dettagli

Selezione del modello Strumenti quantitativi per la gestione

Selezione del modello Strumenti quantitativi per la gestione Selezione del modello Strumenti quantitativi per la gestione Emanuele Taufer Migliorare il modello di regressione lineare (RL) Metodi Selezione Best subset Selezione stepwise Stepwise forward Stepwise

Dettagli

Computazione per l interazione naturale: clustering e riduzione di dimensionalità

Computazione per l interazione naturale: clustering e riduzione di dimensionalità Computazione per l interazione naturale: clustering e riduzione di dimensionalità Corso di Interazione uomo-macchina II Prof. Giuseppe Boccignone Dipartimento di Informatica Università di Milano boccignone@di.unimi.it

Dettagli

Sistemi di Elaborazione dell Informazione 170. Caso Non Separabile

Sistemi di Elaborazione dell Informazione 170. Caso Non Separabile Sistemi di Elaborazione dell Informazione 170 Caso Non Separabile La soluzione vista in precedenza per esempi non-linearmente separabili non garantisce usualmente buone prestazioni perchè un iperpiano

Dettagli

SCHEDA DIDATTICA N 7

SCHEDA DIDATTICA N 7 FACOLTA DI INGEGNERIA CORSO DI LAUREA IN INGEGNERIA CIVILE CORSO DI IDROLOGIA PROF. PASQUALE VERSACE SCHEDA DIDATTICA N 7 LA DISTRIBUZIONE NORMALE A.A. 01-13 La distribuzione NORMALE Uno dei più importanti

Dettagli

Cluster Analysis Distanze ed estrazioni Marco Perugini Milano-Bicocca

Cluster Analysis Distanze ed estrazioni Marco Perugini Milano-Bicocca Cluster Analysis Distanze ed estrazioni M Q Marco Perugini Milano-Bicocca 1 Scopi Lo scopo dell analisi dei Clusters è di raggruppare casi od oggetti sulla base delle loro similarità in una serie di caratteristiche

Dettagli

Modelli Probabilistici per la Computazione Affettiva: Learning/Inferenza parametri

Modelli Probabilistici per la Computazione Affettiva: Learning/Inferenza parametri Modelli Probabilistici per la Computazione Affettiva: Learning/Inferenza parametri Corso di Modelli di Computazione Affettiva Prof. Giuseppe Boccignone Dipartimento di Informatica Università di Milano

Dettagli

Computazione per l interazione naturale: macchine che apprendono

Computazione per l interazione naturale: macchine che apprendono Computazione per l interazione naturale: macchine che apprendono Corso di Interazione uomo-macchina II Prof. Giuseppe Boccignone Dipartimento di Scienze dell Informazione Università di Milano boccignone@dsi.unimi.it

Dettagli

Tecniche di riconoscimento statistico

Tecniche di riconoscimento statistico On AIR s.r.l. Tecniche di riconoscimento statistico Applicazioni alla lettura automatica di testi (OCR) Parte 2 Teoria della decisione Ennio Ottaviani On AIR srl ennio.ottaviani@onairweb.com http://www.onairweb.com/corsopr

Dettagli

Riferimenti. Il programma di questa lezione

Riferimenti. Il programma di questa lezione Politecnico di Torino Corso di Statistica Applicata 2005 Classificazione Il problema Sia dato un insieme di n oggetti e le misurazioni di diverse loro caratteristiche, cioè i vettori x 1,..., x n. Si dividano

Dettagli

Valutazione dei Modelli

Valutazione dei Modelli Laurea Magistrale in Informatica Nicola Fanizzi Dipartimento di Informatica Università degli Studi di Bari 10 dicembre 2009 Sommario Principi di conservazione ed indeterminazione Errore, Bias e Varianza

Dettagli

Apprendimento non supervisionato

Apprendimento non supervisionato Apprendimento non supervisionato Edmondo Trentin 7 giugno 2010 Autore: Edmondo Trentin Prima trascrizione digitale: Pierluigi Failla (dagli originali di E.T.) Setup: campione di dati non etichettati Figura:

Dettagli

Corso di probabilità e statistica

Corso di probabilità e statistica Università degli Studi di Verona Facoltà di Scienze MM.FF.NN. Corso di Laurea in Informatica Corso di probabilità e statistica (Prof. L.Morato) Esercizi Parte III: variabili aleatorie dipendenti e indipendenti,

Dettagli

Regressione Lineare e Regressione Logistica

Regressione Lineare e Regressione Logistica Regressione Lineare e Regressione Logistica Stefano Gualandi Università di Pavia, Dipartimento di Matematica email: twitter: blog: stefano.gualandi@unipv.it @famo2spaghi http://stegua.github.com 1 Introduzione

Dettagli

Università di Siena. Teoria della Stima. Lucidi del corso di. Identificazione e Analisi dei Dati A.A

Università di Siena. Teoria della Stima. Lucidi del corso di. Identificazione e Analisi dei Dati A.A Università di Siena Teoria della Stima Lucidi del corso di A.A. 2002-2003 Università di Siena 1 Indice Approcci al problema della stima Stima parametrica Stima bayesiana Proprietà degli stimatori Stime

Dettagli

Sequenze (Sistemi) di Variabili Aleatorie Se consideriamo un numero di variabili aleatorie, generalmente dipendenti si parla equivalentemente di:

Sequenze (Sistemi) di Variabili Aleatorie Se consideriamo un numero di variabili aleatorie, generalmente dipendenti si parla equivalentemente di: Teoria dei Fenomeni Aleatori AA 01/13 Sequenze (Sistemi) di Variabili Aleatorie Se consideriamo un numero di variabili aleatorie, generalmente dipendenti si parla equivalentemente di: N-pla o Sequenza

Dettagli

Vettore (o matrice) casuale (o aleatorio): vettore (o matrice) i cui elementi sono variabili aleatorie

Vettore (o matrice) casuale (o aleatorio): vettore (o matrice) i cui elementi sono variabili aleatorie Variabili (vettori e matrici) casuali Variabile casuale (o aleatoria): Variabile che può assumere un insieme di valori ognuno con una certa probabilità La variabile aleatoria rappresenta la popolazione

Dettagli

con fogli di calcolo Docente del laboratorio: Maria Silvia Pini

con fogli di calcolo Docente del laboratorio: Maria Silvia Pini Statistica descrittiva con fogli di calcolo Docente del laboratorio: Maria Silvia Pini Frequenze Campione X: un insieme di N osservazioni {x 1,x x N } misurati con Scala di misura Y con K categorie [y

Dettagli

APPUNTI DI CLUSTER ANALYSIS (Paola Vicard)

APPUNTI DI CLUSTER ANALYSIS (Paola Vicard) APPUNTI DI CLUSTER ANALYSIS (Paola Vicard) Obiettivi della cluster analysis La cluster analysis è una delle principali tecniche di analisi statistica multivariata per raggruppare le unità osservate in

Dettagli

Analisi Discriminante Strumenti quantitativi per la gestione

Analisi Discriminante Strumenti quantitativi per la gestione Analisi Discriminante Strumenti quantitativi per la gestione Emanuele Taufer Un esempio introduttivo Approccio con Bayes Perchè un altro metodo di classificazione? Classificazione con Bayes Analisi discriminante

Dettagli

3.1 Classificazione dei fenomeni statistici Questionari e scale di modalità Classificazione delle scale di modalità 17

3.1 Classificazione dei fenomeni statistici Questionari e scale di modalità Classificazione delle scale di modalità 17 C L Autore Ringraziamenti dell Editore Elenco dei simboli e delle abbreviazioni in ordine di apparizione XI XI XIII 1 Introduzione 1 FAQ e qualcos altro, da leggere prima 1.1 Questo è un libro di Statistica

Dettagli