Sistemi Intelligenti. Riassunto
|
|
|
- Angelo Clemente Casadei
- 9 anni fa
- Visualizzazioni
Transcript
1 Sistemi Intelligenti Learning and Clustering Alberto Borghese and Iuri Frosio Università degli Studi di Milano Laboratorio di Sistemi Intelligenti Applicati (AIS-Lab) Dipartimento t di Scienze dell Informazione [email protected] /35 Riassunto I tipi di apprendimento Il clustering 2/35
2 I vari tipi di apprendimento x(t+) = f[x(t), a(t)] a(t) = g[x(t)] Ambiente Agente Supervisionato (learning with a teacher). Viene specificato per ogni pattern di input, il pattern desiderato in output. Semi-Supervisionato. Viene specificato solamente per alcuni pattern di input, il pattern desiderato in output. Non-supervisionato (learning without a teacher). Estrazione di similitudine statistiche tra pattern di input. Clustering. Mappe neurali. Apprendimento con rinforzo (reinforcement learning, learning with a critic). L ambiente fornisce un informazione puntuale, di tipo qualitativo, ad esempio success or fail. 3/35 Apprendimento supervisionato: regressione = predictive learning Flusso..... T Controllo della portata di un condizionatore in funzione della temperatura. Imparo una funzione continua a partire da alcuni campioni: devo imparare ad interpolare. 4/35 2
3 I modelli parametrici p(g) Measured histogram Overall model Background Soft tissue Bone tissue g M ( g ) = P ( j ) p ( g j ) = w p ( g ) p j= M La probabilità di avere un livello di grigio g è la somma pesata delle tre probabilità di avere background, p (g), tessuto molle, p 2 (g) o tessuto osseo, p 3 (g). j= j j 5/35 I modelli semi-parametrici L approssimazione è ottenuta mediante funzioni generiche, dette di base, soluzione molto utilizzata nelle NN e in Machine learning. (Il concetto di Base in matematica è definito mediante certe proprietà di approssimazione che qui non consideriamo, consideriamo solo l idea intuitiva). = i z ( p( x, y)) w G( p, ; σ ) i p i Combinazione lineare di funzioni di base Da calcolare Funzione di base (fissate) 6/35 3
4 Modelli lineari e non lineari Classificazione alternativa dei modelli. Vengono utilizzate classi molto diversi di algoritmi per stimare i parametri di questi due tipi di modelli. z p( x, y)) = f ( x) = w i x ( z ( p( x, y)) f ( G( p, ; σ )) i = i i p i f(.) () = w i è funzione lineare f(.) è funzione non lineare e.g. f(.) = e G(.) 7/35 Funzionamento di un modello parametrico (non-lineare) I punti vengono fittati perfettamente da una sinusoide: y = A sin(ωx + φ). Devo determinare i parametri della sinusoide (non lineare), i cui valori ottimali sono: ω = /200, φ = 0.. 8/35 4
5 Approssimazione mediante un modello semi-parametrico (lineare) Vogliamo fittare i punti con l insieme di Gaussiane riportate sulla dx. In questo caso hanno tutte σ = 90. Come le utilizzo? 9/35 Funzionamento di un modello semiparametrico (lineare) y( x) = wig ( x xo ;90) Devo definire, i {w i } i= i 0/ I σ sono tutti uguali ed uguali a 90, le Gaussiane sono equispaziate. Le Gaussiane sono note tutte a priori, devono essere definiti i pesi. 5
6 Applicazione della regressione /35 y How to classify the error introduced by a model? How is the estimated model related to the true model? Bias and variability trade-off x Bias is the distance of the model curve from the true unknown curve. It is associated to model error. 2/35 6
7 Variability y How are the measured. points related to the estimated model?.. x Given P mes (x,y) and y = y(x), the error is measured as: min P y(x) y mes (x mes ) y(x mes ) It is associated to measurement error. If variability goes to zero, bias increases and overfitting arises. 3/35 Problemi Quando si termina l algoritmo di apprendimento? Bootstrap Vengono estratti pattern con ripetizioni. Cross-Validation - Errore sull insieme di training = Errore sull insieme di test. Utilizzare lo structural risk invece dell empirical risk. Si vuole evitare che la rete si specializzi troppo sui pattern di training e non sia in grado di interpolare. Errore Training set Test set 4/35 # iterazioni borghese 7
8 Problema dell overfitting dovuto a sovraparametrizzazione Quante unità? 5/35 borghese Classificazione Un interpretazione geometrica: Mappatura dello spazio dei campioni nello spazio delle classi. Classe Classe 2 Campione X Classe 3 SPAZIO DEI CAMPIONI / DELLE FEATURES (CARATTERISTICHE) SPAZIO DELLE CLASSI 6/35 8
9 Apprendimento Supervisionato: Classificazione Task di classificazione Uscita intera (etichetta o label della classe) 7/35 CLASSIFICAZIONE: Riconoscimento difetti in linee di produzione (progetto finanziato da Electronic Systems: ) regolari irregolari allungati fili insetti macchie su denso Difetti Classificazione real-time e apprendimento mediante booosting. Committee (linear combinaion) of weak (binary) classifiers. 8/35 9
10 Features Località. Significatività. Rinoscibilità. Macchie dense Fili 9/35 Riassunto I tipi di apprendimento Il clustering 20/35 0
11 Clustering Clustering: raggruppamento degli oggetti in classi omogenee tra loro. Raggruppamento per colore Raggruppamento per forme Raggruppamento per tipi.. Clustering Novel name: data mining 2/35 Esempio di clustering Ricerca immagini su WEB. Clustering -> Indicizzazione 22/35
12 Il clustering per Confermare ipotesi sui dati (es. E possibile identificare tre diversi tipi di clima in Italia: mediterraneo, continentale, alpino ); Esplorare lo spazio dei dati (es. Quanti tipi diversi di clima sono presenti in Italia? ); Semplificare l interpretazione dei dati ( Il clima di ogni città d Italia è approssimativamente mediterraneo, continentale o alpino. ). Ragionare sui dati o elaborare i dati in modo stereotipato. 23/35 Piovo osità Clustering Processo attraverso il quale i dati (pattern, vettori) vengono organizzati in cluster, basata sulla similarità. L elaborazione verrà poi effettuata sui prototipi che rappresentano ciascun cluster. 24/35 Piccola differenza di piovosità (e temperatura) Grande differenza di piovosità (e temperatura) Temperatura media I pattern appartenenti ad un cluster valido sono più simili l uno con l altro rispetto ai pattern appartenenti ad un cluster differente. 2
13 Clustering: definizioni Pattern: un singolo dato p = [p, p 2, p n ]. Il dato appartiene quindi ad uno spazio multi-dimensionale, solitamente eterogeneo. Feature: le caratteristiche dei dati significative per il clustering, possono costituire anch esso un vettore, il vettore delle feature: x, x 2, x d. Questo vettore costituisce l input agli algoritmi di clustering. Inclinazione, occhielli, lunghezza, linee orizzontali, archi di cerchio... 25/35 Clustering: definizioni n: dimensione dello spazio dei pattern; d: dimnesione i dello spazio delle feature; Cluster: in generale, insieme che raggruppa dati simili tra loro, valutati in base alle feature; Funzione di similarità o distanza: una metrica (o quasi metrica) nello spazio delle feature, usata per quantificare la similarità tra due pattern. Algoritmo: scelta di come effettuare il clustering (motore di clustering). 26/35 3
14 Analisi mediante clustering Pattern Feature Da Xu and Wunsh, 2005 I cluster ottenuti sono significativi? Il clustering ha operato con successo? NB i cammini all indietro consentono di fare la sintonizzazione dei diversi passi. 27/35 Il clustering Per una buona review: Xu and Wunsch, IEEE Transactions on Neural Networks, vol. 6, no. 3, Il clustering non è di per sé un problema ben posto. Ci sono diversi gradi di libertà da fissare su come effettuare un clustering. Rappresentazione dei pattern; Calcolo delle feature; Definizione di una misura di prossimità dei pattern attraverso le feature; Tipo di algoritmo di clustering (gerachico o partizionale) tii l) Validazione dell output (se necessario) -> Testing. Problema a cui non risponderemo: quanti cluster? Soluzione teorica (criterio di Akaike), soluzione empirica (growing networks di Fritzke). 28/35 4
15 Rappresentazione dei pattern Feature selection: identificazione delle feature più significative per la descrizione dei pattern. Esempio: descrizione del clima e della città di Roma. Roma: [7 ; 500mm; ab.] Come scegliere i pattern? Vicinanza ai bordi di ciascun cluster (Support Vector Machines) Tutti i pattern Come valutare le feature? Analisi statistica del potere discriminante: correlazione tra feature e loro significatività. 29/35 Feature & feature Feature extraction: trasformazione delle feature per creare nuove, significative feature; Elaborazione di primo livello, per ottenere informazioni caratteristiche del fenomeno che, ad esempio, siano inverianti. Esempio: descrizione di oggetti circolari. Posso misurare l area e il perimetro, ma il loro rapporto è più significativo. Esempio: descrizione del clima. Milano: [3 ; 900mm; 265 giorni sole; 00 giorni pioggia ] oppure Milano: [3 ; 900mm / 00 giorni pioggia; 265 giorni sole ] 30/35 5
16 Similarità tra feature Definizione di una misura di distanza tra due features; Esempio: Distanza euclidea dist (Roma, Milano) = dist ([7 ; 500mm], [3 ; 900mm]) = = Distanza euclidea? = = ((7-3) 2 +( ) 2 ) ½ = ~ 400 Ha senso? 3/35 Normalizzazione feature Att.ne! dist (Roma, Milano) = dist ([7 ; 500mm], [3 ; 900mm]) = = Distanza euclidea? = = ((7-3) 2 +( ) 2 ) ½ = ~ 400 La distanza tra le due città in termini di gradi è insignificante nel nostro calcolo E necessario trovare una metrica corretta per la rappresentazione dei dati. Ad esempio, normalizzare le feature! T Max = 20 T Min = 5 T Norm = (T - T Min )/(T Max -T Min ) P Max = 000mm P Min = 0mm P Norm = (P - P Min )/(P Max -P Min ) Roma Norm = [ ] Milano Norm = [ ] dist(roma Norm, Milano Norm ) = (( ) 2 +( ) 2 ) ½ = /35 6
17 Altre funzioni di distanza Distanza euclidea: dist(x,y)=[σ k=..d (x k -y k ) 2 ] /2 Minkowski: dist(x,y)=[σ k=..d (x k -y k ) p ] /p Mahalanobis: dist(x,y)= (x k -y k )S - (x k -y k ), con S matrice di covarianza. Context dependent: dist(x,y)= f(x, y, context) 33/35 Tassonomia (sintetica) degli algoritmi di clustering Algoritmi gerarchici (agglomerativi, divisivi), e.g. Hirarchical clustering. Algoritmi partizionali, hard: K-means, quad-tree decomposition. Algoritmi partizionali, soft: fuzzy c-mean, neural-gas, enhanced vector quantization, mappe di Kohonen. Algoritmi statistici: mixture models. 34/35 7
18 Riassunto I tipi di apprendimento Il clustering 35/35 8
Riconoscimento automatico di oggetti (Pattern Recognition)
Riconoscimento automatico di oggetti (Pattern Recognition) Scopo: definire un sistema per riconoscere automaticamente un oggetto data la descrizione di un oggetto che può appartenere ad una tra N classi
Riconoscimento e recupero dell informazione per bioinformatica
Riconoscimento e recupero dell informazione per bioinformatica Clustering: metodologie Manuele Bicego Corso di Laurea in Bioinformatica Dipartimento di Informatica - Università di Verona Sommario Tassonomia
Machine Learning: apprendimento, generalizzazione e stima dell errore di generalizzazione
Corso di Bioinformatica Machine Learning: apprendimento, generalizzazione e stima dell errore di generalizzazione Giorgio Valentini DI Università degli Studi di Milano 1 Metodi di machine learning I metodi
Riconoscimento e recupero dell informazione per bioinformatica. Clustering: validazione. Manuele Bicego
Riconoscimento e recupero dell informazione per bioinformatica Clustering: validazione Manuele Bicego Corso di Laurea in Bioinformatica Dipartimento di Informatica - Università di Verona Sommario Definizione
Kernel Methods. Corso di Intelligenza Artificiale, a.a Prof. Francesco Trovò
Kernel Methods Corso di Intelligenza Artificiale, a.a. 2017-2018 Prof. Francesco Trovò 14/05/2018 Kernel Methods Definizione di Kernel Costruzione di Kernel Support Vector Machines Problema primale e duale
Cluster Analysis. La Cluster Analysis è il processo attraverso il quale vengono individuati raggruppamenti dei dati. per modellare!
La Cluster Analysis è il processo attraverso il quale vengono individuati raggruppamenti dei dati. Le tecniche di cluster analysis vengono usate per esplorare i dati e non per modellare! La cluster analysis
Immagini e clustering
Immagini e clustering Alberto Borghese Università degli Studi di Milano Laboratorio di Sistemi Intelligenti Applicati (AIS-Lab) Dipartimento di Scienze dell Informazione [email protected] 1/24 http:\\homes.dsi.unimi.it\
Reti Neurali in Generale
istemi di Elaborazione dell Informazione 76 Reti Neurali in Generale Le Reti Neurali Artificiali sono studiate sotto molti punti di vista. In particolare, contributi alla ricerca in questo campo provengono
Indice generale. Introduzione. Capitolo 1 Essere uno scienziato dei dati... 1
Introduzione...xi Argomenti trattati in questo libro... xi Dotazione software necessaria... xii A chi è rivolto questo libro... xii Convenzioni utilizzate... xiii Scarica i file degli esempi... xiii Capitolo
Algoritmi di classificazione supervisionati
Corso di Bioinformatica Algoritmi di classificazione supervisionati Giorgio Valentini DI Università degli Studi di Milano 1 Metodi di apprendimento supervisionato per problemi di biologia computazionale
Stima della qualità dei classificatori per l analisi dei dati biomolecolari
Stima della qualità dei classificatori per l analisi dei dati biomolecolari Giorgio Valentini e-mail: [email protected] Rischio atteso e rischio empirico L` apprendimento di una funzione non nota
Riconoscimento immagini con Keras e Tensorflow Gabriele Baldi
Riconoscimento immagini con Keras e Tensorflow Gabriele Baldi https://github.com/bnznamco/keras_model_and_slides_notabugconf Riconoscimento immagini Attività tipica del cervello umano Task molto difficile
Tecniche di riconoscimento statistico
On AIR s.r.l. Tecniche di riconoscimento statistico Applicazioni alla lettura automatica di testi (OCR) Parte 2 Teoria della decisione Ennio Ottaviani On AIR srl [email protected] http://www.onairweb.com/corsopr
Regressione Lineare e Regressione Logistica
Regressione Lineare e Regressione Logistica Stefano Gualandi Università di Pavia, Dipartimento di Matematica email: twitter: blog: [email protected] @famo2spaghi http://stegua.github.com 1 Introduzione
STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA
Metodi statistici e probabilistici per l ingegneria Corso di Laurea in Ingegneria Civile A.A. 2009-10 Facoltà di Ingegneria, Università di Padova Docente: Dott. L. Corain 1 STATISTICHE, DISTRIBUZIONI CAMPIONARIE
Apprendimento Automatico
Apprendimento Automatico Fabio Aiolli www.math.unipd.it/~aiolli Sito web del corso www.math.unipd.it/~aiolli/corsi/1516/aa/aa.html Rappresentazione dei dati con i kernel Abbiamo una serie di oggetti S
Reti Neurali. Corso di AA, anno 2016/17, Padova. Fabio Aiolli. 2 Novembre Fabio Aiolli Reti Neurali 2 Novembre / 14. unipd_logo.
Reti Neurali Corso di AA, anno 2016/17, Padova Fabio Aiolli 2 Novembre 2016 Fabio Aiolli Reti Neurali 2 Novembre 2016 1 / 14 Reti Neurali Artificiali: Generalità Due motivazioni diverse hanno spinto storicamente
Machine Learning GIORGIO GAMBOSI UNIVERSITÀ DI ROMA TOR VERGATA
1 Machine Learning GIORGIO GAMBOSI UNIVERSITÀ DI ROMA TOR VERGATA Che cos è? 2! Programmazione di computer in modo tale da fornire risultati sulla base dell esame di dati o di esperienza passata! Le azioni
Apprendimento statistico (Statistical Learning)
Apprendimento statistico (Statistical Learning) Il problema dell apprendimento Inquadriamo da un punto di vista statistico il problema dell apprendimento di un classificatore Un training set S={(x,y ),,(x
Introduzione all analisi di arrays: clustering.
Statistica per la Ricerca Sperimentale Introduzione all analisi di arrays: clustering. Lezione 2-14 Marzo 2006 Stefano Moretti Dipartimento di Matematica, Università di Genova e Unità di Epidemiologia
1 PROCESSI STOCASTICI... 11
1 PROCESSI STOCASTICI... 11 Introduzione... 11 Rappresentazione dei dati biomedici... 11 Aleatorietà delle misure temporali... 14 Medie definite sul processo aleatorio... 16 Valore atteso... 16 Esercitazione
Introduzione al Test in Itinere
Introduzione al Test in Itinere Roberto Basili Università di Roma, Tor Vergata Argomenti oggetto di esame Rappresentazioni vettoriali per la classificazione Clustering Algoritmi di apprendimento automatico
Reti Neurali (Parte I)
Reti Neurali (Parte I) Corso di AA, anno 2017/18, Padova Fabio Aiolli 30 Ottobre 2017 Fabio Aiolli Reti Neurali (Parte I) 30 Ottobre 2017 1 / 15 Reti Neurali Artificiali: Generalità Due motivazioni diverse
Laboratorio di Apprendimento Automatico. Fabio Aiolli Università di Padova
Laboratorio di Apprendimento Automatico Fabio Aiolli Università di Padova Underfitting e Overfitting Complessità spazio ipotesi SVM: aumenta con kernel non lineari, RBF con maggiore pendenza, aumenta con
Apprendimento statistico (Statistical Learning)
Apprendimento statistico (Statistical Learning) Il problema dell apprendimento Inquadriamo da un punto di vista statistico il problema dell apprendimento di un classificatore Un training set S={(x,y ),,(x
Segmentazione mediante ricerca di forme. Paola Campadelli
Segmentazione mediante ricerca di forme Paola Campadelli Segmentazione mediante ricerca di forme Template deformabili (Yuille et al. 92) Contorni deformabili (Kaas et al. 87) GVF Snakes (Xu et al. 98)
Sistemi Intelligenti Learning: l apprendimento degli agenti
Sistemi Intelligenti Learning: l apprendimento degli agenti Alberto Borghese Università degli Studi di Milano Laboratorio di Sistemi Intelligenti Applicati (AIS-Lab) Dipartimento di Scienze dell Informazione
Lezione introduttiva su reti neurali e SVM Veronica Piccialli. Corso di Ottimizzazione a.a (seconda parte)
Lezione introduttiva su reti neurali e SVM Veronica Piccialli Corso di Ottimizzazione a.a. 2009-10 (seconda parte) Ottimizzazione Statistica Fisica Biologia Reti Neurali Matematica Psicologia Informatica
Indice generale. Introduzione. Ringraziamenti dell autore...xxi. Capitolo 1 Dare ai computer la capacità di apprendere dai dati...
Premessa Introduzione...xiii...xv Struttura del libro...xvi Dotazione software necessaria...xvii A chi è rivolto questo libro...xviii Convenzioni...xviii Scarica i file degli esempi...xix L autore...xix
Apprendimento automatico e Reti Neurali. Francesco Sambo tel
Apprendimento automatico e Reti Neurali Francesco Sambo www.dei.unipd.it/~sambofra [email protected] tel. 049 827 7834 Apprendimento automatico Capacità di un agente di sintetizzare nuova conoscenza
Apprendimento Automatico: Teoria e Applicazioni
Apprendimento Automatico: Teoria e Applicazioni Apprendimento Automatico Componenti strutturati del DI: Alberto Bertoni Paola Campadelli Elena Casiraghi Nicolò Cesa-Bianchi Dario Malchiodi Matteo Re Giorgio
Algoritmi per il riconoscimento dell iride
Algoritmi per il riconoscimento dell iride 1 L O C A L B I N A R Y P A T T E R N - S C A L E I N V A R I A N T F E A T U R E T R A S F O R M - C U M U L A T I V E S U M S A cura di: Chiara Galdi http://biplab.unisa.it/
A Quick Intro to Machine Learning. The field of study that gives computers the ability to learn without being explicitly programmed
A Quick Intro to Machine Learning The field of study that gives computers the ability to learn without being explicitly programmed Dati Informazioni Utili Un approccio per cercare di estrarre informazioni
ESERCIZI SVOLTI Giuliano Bonollo - Michele Bonollo
ESERCIZI SVOLTI Giuliano Bonollo - Michele Bonollo 1 La seguente tabella riporta le frequenze relative riguardanti gli studenti di un università e gli esiti dell esame da essi sostenuto. Qual è la percentuale
