Di testi ed immagini

Похожие документы

Dimensione di uno Spazio vettoriale

LEZIONE 23. Esempio Si consideri la matrice (si veda l Esempio ) A =

Un ripasso di aritmetica: Rappresentazione binaria - operazioni. riporti

Ricerca di outlier. Ricerca di Anomalie/Outlier

Tutorato di GE110. Universitá degli Studi Roma Tre - Corso di Laurea in Matematica

Universita degli Studi di Roma Tor Vergata Facolta di Ingegneria Elettronica

Informatica grafica e Multimedialità. 4 Immagini grafiche

Le immagini digitali. Le immagini digitali. Caterina Balletti. Caterina Balletti. Immagini grafiche. Trattamento di immagini digitali.

Federico Lastaria. Analisi e Geometria 2. Matrici simmetriche. Il teorema spettrale. 1/24

Algebra Lineare e Geometria

Esempio. Approssimazione con il criterio dei minimi quadrati. Esempio. Esempio. Risultati sperimentali. Interpolazione con spline cubica.

Lezione 9: Cambio di base

Diagonalizzazione di matrici e applicazioni lineari

Corso di Matematica per la Chimica

Analisi dei requisiti e casi d uso

Interesse, sconto, ratei e risconti

Appunti di informatica. Lezione 2 anno accademico Mario Verdicchio

Un ripasso di aritmetica: Conversione dalla base 10 alla base 16

4 3 4 = 4 x x x 10 0 aaa

CORSO DI LAUREA INF TWM ANNO DI IMMATRICOLAZIONE MATRICOLA

ELEMENTI DI ALGEBRA LINEARE E GEOMETRIA Corso di Laurea Ingegneria Edile-Architettura

Capitolo V : Il colore nelle immagini digitali

RICHIAMI SULLE MATRICI. Una matrice di m righe e n colonne è rappresentata come

Complemento al corso di Fondamenti di Informatica I corsi di laurea in ingegneria, settore dell informazione Università la Sapienza Consorzio Nettuno

x 1 + x 2 3x 4 = 0 x1 + x 2 + x 3 = 0 x 1 + x 2 3x 4 = 0.

Algoritmi di clustering

Analisi sensitività. Strumenti per il supporto alle decisioni nel processo di Valutazione d azienda

4. Operazioni elementari per righe e colonne

INFORMATICA E GRAFICA PER IL WEB

Calcolatori: Algebra Booleana e Reti Logiche

ESERCIZI DI ALGEBRA LINEARE E GEOMETRIA

Clustering. Utilizziamo per la realizzazione dell'esempio due tipologie di software:

EXCEL PER WINDOWS95. sfruttare le potenzialità di calcolo dei personal computer. Essi si basano su un area di lavoro, detta foglio di lavoro,

Immagini e clustering

Codifica video. Il video digitale. Sistemi Multimediali. Il video digitale. Il video digitale. Il video digitale.

Aprire WEKA Explorer Caricare il file circletrain.arff Selezionare random split al 66% come modalità di test Selezionare J48 come classificatore e

Altri metodi di indicizzazione

C M A P M IONAM A E M NT N O

Interesse, sconto, ratei e risconti

Dispense di Informatica per l ITG Valadier

Psicometria (8 CFU) Corso di Laurea triennale STANDARDIZZAZIONE

Page 1. Evoluzione. Intelligenza Artificiale. Algoritmi Genetici. Evoluzione. Evoluzione: nomenclatura. Corrispondenze natura-calcolo

Elementi di Informatica e Programmazione

lo PERSONALIZZARE LA FINESTRA DI WORD 2000

ESERCIZI SVOLTI. 1) Dimostrare che l insieme. non è ricorsivo. Soluzione: Definiamo l insieme

Architettura degli Elaboratori I Esercitazione 1 - Rappresentazione dei numeri

Matrice rappresent. Base ker e img. Rappresentazione cartesiana ker(f) + im(f).

2.1 Definizione di applicazione lineare. Siano V e W due spazi vettoriali su R. Un applicazione

Alcuni consigli per un uso di base delle serie di dati automatiche in Microsoft Excel

Ottimizazione vincolata

Elementi di Psicometria con Laboratorio di SPSS 1

Le equazioni. Diapositive riassemblate e rielaborate da prof. Antonio Manca da materiali offerti dalla rete.

Informatica. Rappresentazione binaria Per esempio diventa /10/2007. Introduzione ai sistemi informatici 1

Corrispondenze e funzioni

PDF created with pdffactory trial version

ARCHITETTURA DI RETE FOLEGNANI ANDREA

Fasi di creazione di un programma

OCCUPATI SETTORE DI ATTIVITA' ECONOMICA

La distribuzione Normale. La distribuzione Normale

Alessandro Pellegrini

I NUMERI DECIMALI. che cosa sono, come si rappresentano

Distributed P2P Data Mining. Autore: Elia Gaglio (matricola n ) Corso di Sistemi Distribuiti Prof.ssa Simonetta Balsamo

Sistemi Informativi Territoriali. Map Algebra

CALCOLO COMBINATORIO

Elementi di informatica

MANUALE SOFTWARE RETE GAS

1 Applicazioni Lineari tra Spazi Vettoriali

Progettazione di Basi di Dati

CORSO ACCESS PARTE II. Esistono diversi tipi di aiuto forniti con Access, generalmente accessibili tramite la barra dei menu (?)

Plate Locator Riconoscimento Automatico di Targhe

Elementi Finiti: stime d errore e adattività della griglia

ESEMPIO 1: eseguire il complemento a 10 di 765

IGiochidiArchimede-SoluzioniBiennio 22 novembre 2006

LEZIONI DI ALGEBRA LINEARE PER LE APPLICAZIONI FINANZIARIE

I sistemi di numerazione

La struttura dati ad albero binario

Strutturazione logica dei dati: i file

Prof. Giuseppe Chiumeo. Avete già studiato che qualsiasi algoritmo appropriato può essere scritto utilizzando soltanto tre strutture di base:

Codifica binaria dei numeri relativi

( x) ( x) 0. Equazioni irrazionali

Informatica. Rappresentazione dei numeri Numerazione binaria

Matrice Excel Calcolo rata con DURATA DEL FINANZIAMENTO determinata dall'utente

Codifiche a lunghezza variabile

Applicazioni lineari

15 febbraio Soluzione esame di geometria - 12 crediti Ingegneria gestionale - a.a COGNOME... NOME... N. MATRICOLA...

L ANALISI ABC PER LA GESTIONE DEL MAGAZZINO

Autovalori e Autovettori

Database. Si ringrazia Marco Bertini per le slides

Logica Numerica Approfondimento 1. Minimo Comune Multiplo e Massimo Comun Divisore. Il concetto di multiplo e di divisore. Il Minimo Comune Multiplo

RISOLUTORE AUTOMATICO PER SUDOKU

MODULO 5 Appunti ACCESS - Basi di dati

Organizzazione degli archivi

Librerie digitali. Video. Gestione di video. Caratteristiche dei video. Video. Metadati associati ai video. Metadati associati ai video

Interpolazione ed approssimazione di funzioni

Matrice Excel Calcolo rata con IMPORTO DEL FINANZIAMENTO determinato dall'utente

Il campionamento. La digitalizzazione. Teoria e pratica. La rappresentazione digitale delle immagini. La rappresentazione digitale delle immagini

Misure finanziarie del rendimento: il Van

Mon Ami 3000 Cespiti Gestione cespiti e calcolo degli ammortamenti

Транскрипт:

Università Cattolica del Sacro Cuore - Brescia 23/5/2005

Parte I: Richiami di algebra lineare Parte II: Applicazioni Sommario della Parte I 1 Diagonalizzabilità di una matrice Autovalori ed autovettori 2 Singular Value Decomposition di una matrice Caratteristiche dell SVD

Parte I: Richiami di algebra lineare Parte II: Applicazioni Sommario della Parte I 1 Diagonalizzabilità di una matrice Autovalori ed autovettori 2 Singular Value Decomposition di una matrice Caratteristiche dell SVD

Parte I: Richiami di algebra lineare Parte II: Applicazioni Sommario della Parte II 3 Catalogazione automatica di documenti Il clustering Il problema del clustering Un algoritmo di clustering Il caso di collezioni di documenti 4 Rappresentazione delle immagini Compressione dell immagine

Parte I: Richiami di algebra lineare Parte II: Applicazioni Sommario della Parte II 3 Catalogazione automatica di documenti Il clustering Il problema del clustering Un algoritmo di clustering Il caso di collezioni di documenti 4 Rappresentazione delle immagini Compressione dell immagine

Diagonalizzabilità Singular Value Decomposition Parte I Richiami di algebra lineare

Diagonalizzabilità Singular Value Decomposition Autovalori ed autovettori Data una matrice A Mat n,n (K) simmetrica esistono una matrice V Mat n,n (K) ortogonale e D Mat n,n (K) diagonale tali che vale la relazione A = V DV T Le colonne di V sono gli autovettori di A e formano una base ortonormale in R n La decomposizione V DV T di chiama anche Eigenvalue Decomposition o, brevemente, EVD.

Diagonalizzabilità Singular Value Decomposition Autovalori ed autovettori Data una matrice A Mat n,n (K) simmetrica esistono una matrice V Mat n,n (K) ortogonale e D Mat n,n (K) diagonale tali che vale la relazione A = V DV T Le colonne di V sono gli autovettori di A e formano una base ortonormale in R n La decomposizione V DV T di chiama anche Eigenvalue Decomposition o, brevemente, EVD.

Diagonalizzabilità Singular Value Decomposition Autovalori ed autovettori Data una matrice A Mat n,n (K) simmetrica esistono una matrice V Mat n,n (K) ortogonale e D Mat n,n (K) diagonale tali che vale la relazione A = V DV T Le colonne di V sono gli autovettori di A e formano una base ortonormale in R n La decomposizione V DV T di chiama anche Eigenvalue Decomposition o, brevemente, EVD.

Diagonalizzabilità Singular Value Decomposition Caratteristiche dell SVD Sia A Mat m,n (K). Esistono U Mat m,m (K) e V Mat n,n (K) ortogonali e una matrice simmetrica Σ Mat m,n (K) tali che A = UΣV T Gli elementi di Σ sono detti singular value di A e le colonne di U e V sono i singular vector di A. I singular value e i singular vector soddisfano Au = σv Av = σu

Diagonalizzabilità Singular Value Decomposition Caratteristiche dell SVD Sia A Mat m,n (K). Esistono U Mat m,m (K) e V Mat n,n (K) ortogonali e una matrice simmetrica Σ Mat m,n (K) tali che A = UΣV T Gli elementi di Σ sono detti singular value di A e le colonne di U e V sono i singular vector di A. I singular value e i singular vector soddisfano Au = σv Av = σu

Diagonalizzabilità Singular Value Decomposition Caratteristiche dell SVD Analogie tra EVD ed SVD Se si pensa alle matrici come trasformazioni lineari: EVD Le colonne di V sono vettori (ortonormali) che formano una base rispetto ai quali la trasformazione identificata da A sono solo dilatazioni. SVD In questo caso A identifica una trasformazione φ : R n R m e le colonne di U e V forniscono gli elementi di basi nel dominio e codominio rispetto alle quali la trasformazione è una dilatazione cui si aggiungono gli zeri per il cambio di dimensione.

Diagonalizzabilità Singular Value Decomposition Caratteristiche dell SVD Analogie tra EVD ed SVD Se si pensa alle matrici come trasformazioni lineari: EVD Le colonne di V sono vettori (ortonormali) che formano una base rispetto ai quali la trasformazione identificata da A sono solo dilatazioni. SVD In questo caso A identifica una trasformazione φ : R n R m e le colonne di U e V forniscono gli elementi di basi nel dominio e codominio rispetto alle quali la trasformazione è una dilatazione cui si aggiungono gli zeri per il cambio di dimensione.

Parte II Applicazioni

Il clustering Il problema del clustering Un algoritmo di clustering Il caso di collezioni di documenti Catalogazione automatica di documenti

Cos è il clustering Catalogazione automatica di documenti Il clustering Il problema del clustering Un algoritmo di clustering Il caso di collezioni di documenti Processo di partionamento di una collezione di oggetti in un insieme di sottoclassi significative, dette cluster. Ogni cluster è un insieme di oggetti che sono simili e che quindi formano un gruppo omogeneo. Il clustering aiuta a capire la struttura di una collezione di oggetti.

Cos è il clustering Catalogazione automatica di documenti Il clustering Il problema del clustering Un algoritmo di clustering Il caso di collezioni di documenti Processo di partionamento di una collezione di oggetti in un insieme di sottoclassi significative, dette cluster. Ogni cluster è un insieme di oggetti che sono simili e che quindi formano un gruppo omogeneo. Il clustering aiuta a capire la struttura di una collezione di oggetti.

Cos è il clustering Catalogazione automatica di documenti Il clustering Il problema del clustering Un algoritmo di clustering Il caso di collezioni di documenti Processo di partionamento di una collezione di oggetti in un insieme di sottoclassi significative, dette cluster. Ogni cluster è un insieme di oggetti che sono simili e che quindi formano un gruppo omogeneo. Il clustering aiuta a capire la struttura di una collezione di oggetti.

Tipi di classificazione Il clustering Il problema del clustering Un algoritmo di clustering Il caso di collezioni di documenti Data una collezione di oggetti, si potranno effettuare su di essi due tipi di classificazione Classificazione supervisionata Si conoscono in anticipo sia il numero che le descrizioni delle classi distinte cui possono appartenere gli oggetti. Classificazione non supervisionata non si conoscono né il numero di classi né le loro caratteristiche principali. E il clustering? Il clustering è una classificazione non supervisionata, in quanto le classi in cui si divide la collezione non sono note a priori.

Il problema del clustering Il clustering Il problema del clustering Un algoritmo di clustering Il caso di collezioni di documenti Rappresentare una collezione di oggetti in uno spazio vetttoriale k-dimensionale. Selezione di k features. Sclelta di una distanza. Suddividerla in sottinsiemi (detti appunto cluster) tali che Sia minima la distanza tra oggetti del medesimo cluster. Sia massima la distanza da oggetti appartenenti ad altri cluster.

Il problema del clustering Il clustering Il problema del clustering Un algoritmo di clustering Il caso di collezioni di documenti Rappresentare una collezione di oggetti in uno spazio vetttoriale k-dimensionale. Selezione di k features. Sclelta di una distanza. Suddividerla in sottinsiemi (detti appunto cluster) tali che Sia minima la distanza tra oggetti del medesimo cluster. Sia massima la distanza da oggetti appartenenti ad altri cluster.

Algoritmi di clustering Il clustering Il problema del clustering Un algoritmo di clustering Il caso di collezioni di documenti Algoritmi partizionanti Costruiscono una suddivisione della collezione di partenza e poi la ottimizzano procedendo in maniera ricorsiva. Algoritmi Gerarchici Costruiscono un albero detto dendogramma le cui foglie sono i cluster ottenuti. Agglomerativi Uniscono i cluster ricorsivamente. Divisivi Suddividono i cluster ricorsivamente.

Algoritmi di clustering Il clustering Il problema del clustering Un algoritmo di clustering Il caso di collezioni di documenti Algoritmi partizionanti Costruiscono una suddivisione della collezione di partenza e poi la ottimizzano procedendo in maniera ricorsiva. Algoritmi Gerarchici Costruiscono un albero detto dendogramma le cui foglie sono i cluster ottenuti. Agglomerativi Uniscono i cluster ricorsivamente. Divisivi Suddividono i cluster ricorsivamente.

L algoritmo PDDP Il clustering Il problema del clustering Un algoritmo di clustering Il caso di collezioni di documenti Proposto del prof. Daniel Boley (University of Minnesota). Algoritmo di tipo gerarchico divisivo. Bisecante: ad ogni passo suddivide un cluster in due sottocluster. Ogni oggetto è rappresentato da un vettore colonna d i R n, dove n è il numero di feature selezionate per il clustering. Una collezione di k oggetti è rappresentata da una matrice M = (d 1,..., d k ) Definizione dello scatter, ovvero della misura della coesione dei cluster (scatter maggiori corrispondono a cluster meno coesi).

Processo di suddivisione Il clustering Il problema del clustering Un algoritmo di clustering Il caso di collezioni di documenti Calcolo del centroide w di M e della direzione principale u di M = M w e con e = (1,..., 1) Divisione degli oggetti che formano M in due sottocluster, M L ed M R, secondo il valore della proiezione di d i M su u.

Processo di suddivisione Il clustering Il problema del clustering Un algoritmo di clustering Il caso di collezioni di documenti Calcolo del centroide w di M e della direzione principale u di M = M w e con e = (1,..., 1) Divisione degli oggetti che formano M in due sottocluster, M L ed M R, secondo il valore della proiezione di d i M su u.

Processo di suddivisione Il clustering Il problema del clustering Un algoritmo di clustering Il caso di collezioni di documenti Calcolo dello scatter. Selezione del cluster con lo scatter maggiore, che verrà diviso al passo successsivo. Il processo continua fino al raggiungimento di un numero massimo di cluster o finché tutti i cluster non hanno scatter minore di una certa soglia.

Caratteristiche del problema Il clustering Il problema del clustering Un algoritmo di clustering Il caso di collezioni di documenti Elevata dimensionalità sia in termini di numero di oggetti che in termini di numero di feature (In questo dominio le feature sono i termini distinti) Possibilità tramite il clutering di suddividere una grande collezione e di ottenere anche un riassunto del contenuto di ogni cluster. Necessità di prettrattare i dati per migliorare le caratteristiche dei cluster e delle loro sintesi. Valutazione della qualità della divisione prodotta tramite il concetto di entropia.

Caratteristiche del problema Il clustering Il problema del clustering Un algoritmo di clustering Il caso di collezioni di documenti Elevata dimensionalità sia in termini di numero di oggetti che in termini di numero di feature (In questo dominio le feature sono i termini distinti) Possibilità tramite il clutering di suddividere una grande collezione e di ottenere anche un riassunto del contenuto di ogni cluster. Necessità di prettrattare i dati per migliorare le caratteristiche dei cluster e delle loro sintesi. Valutazione della qualità della divisione prodotta tramite il concetto di entropia.

Problemi aperti Catalogazione automatica di documenti Il clustering Il problema del clustering Un algoritmo di clustering Il caso di collezioni di documenti Algoritmi efficienti per SVD (parallelizzazione e distribuzione calcolo) Hardware e software adeguato. Utilizzo di più autovalori.

Rappresentazione delle immagini Compressione dell immagine Compressione delle immagini tramite SVD

Rappresentazione delle immagini Compressione dell immagine Come sono visualizzate le immagini? Le immagini vengono rappresentate tramite una griglia di punti colorati, detto pixel. Se i pixel sono abbastanza vicini approssimano un immagine continua. Un immagine scannerizzata viene realizzata prendendo un immagine e, suddivisa in una griglia fitta quanto sarà fitta la griglia di pixel su cui viene visualizzata. Si opera un interpolazione furba dei dati sulle celle. Quindi una visualizzazine dell immagine è sempre un approssimazione.

Rappresentazione delle immagini Compressione dell immagine Rappresenatazione dei pixel bianco e nero sono elementi di Z 2. grayscale teoricamente valori nel range [0, ), ma è chiaramente comodo [0, 1]. Problema della quantizzazione coloscale Diversi colour space RGB monitor CMY stampanti YIQ Tv standard NSTC.

Rappresentazione delle immagini Compressione dell immagine Rappresenatazione dei pixel bianco e nero sono elementi di Z 2. grayscale teoricamente valori nel range [0, ), ma è chiaramente comodo [0, 1]. Problema della quantizzazione coloscale Diversi colour space RGB monitor CMY stampanti YIQ Tv standard NSTC.

Rappresentazione delle immagini Compressione dell immagine Rappresenatazione dei pixel bianco e nero sono elementi di Z 2. grayscale teoricamente valori nel range [0, ), ma è chiaramente comodo [0, 1]. Problema della quantizzazione coloscale Diversi colour space RGB monitor CMY stampanti YIQ Tv standard NSTC.

Rappresentazione delle immagini Compressione dell immagine Struttura dell immagine Un pixel è un vettore nello spazio dei colori. Se l immagine è m n in uno spazio RGB, allora occupa 3mn elementi. Se si considerano quantizzazioni a 256 colori, un immagine 480x640 occupa 0.9M b. Poco spazio ma se le immagini devono essere trasmesse spreco di risorse. Idea Un immagine non è una raccolta casuale di punti, ma ha una qualche struttura. Quindi sfrutto la struttura per rappresentare l immagine in maniera furba.

Rappresentazione delle immagini Compressione dell immagine Tipi di compressione Si hanno due tipi di compressioni possibilià loseless compression Niente perdita di informazioni. Salva i pattern, non i pixel. lossy compression Sfrutta le limitazioni dell occhio umano per approssimare l immagine lasciandola uguale all originale, almeno alla vista.

Rappresentazione delle immagini Compressione dell immagine SVD per la compressione La SVD di A Mat m,n (R) matrice reale è A = USV T con le colonne di V autovettori di A T A e quelle di U autovettori di AA T. A reale, anche U e V lo sono. La precedente relazione si può scrivere A = min{m,n} i=1 u i σ i v T i Posso realizzare l approssimazione di rango k k A Â = u i σ i vi T i=1 La norma 2 di (A Â) è uguale al primo autovalore non usato.

Rappresentazione delle immagini Compressione dell immagine SVD per la compressione La SVD di A Mat m,n (R) matrice reale è A = USV T con le colonne di V autovettori di A T A e quelle di U autovettori di AA T. A reale, anche U e V lo sono. La precedente relazione si può scrivere A = min{m,n} i=1 u i σ i v T i Posso realizzare l approssimazione di rango k k A Â = u i σ i vi T i=1 La norma 2 di (A Â) è uguale al primo autovalore non usato.

Rappresentazione delle immagini Compressione dell immagine Questioni di spazio... La matrice dei colori, nel caso di immagine grayscale di dimension m m, è di m 2 valori. L occupazione richiesta dall SVD è di 2m 2 + m. Usando un approssimazione di rango k l occupazione è 2mk + k. Devo usare un approssimazione di rango al più m 2 1 + 2m

Rappresentazione delle immagini Compressione dell immagine Questioni di spazio... La matrice dei colori, nel caso di immagine grayscale di dimension m m, è di m 2 valori. L occupazione richiesta dall SVD è di 2m 2 + m. Usando un approssimazione di rango k l occupazione è 2mk + k. Devo usare un approssimazione di rango al più m 2 1 + 2m

Rappresentazione delle immagini Compressione dell immagine Miglioramenti Codifica e decodifica in poarallelo tramite tecniche di block splitting. Buoni algoritmi di calcolo della SVD. Basse richieste in termini di storage.

Rappresentazione delle immagini Compressione dell immagine