Capitolo 2 Analisi delle Componenti Indipendenti



Documenti analoghi
Capitolo 1 Analisi delle componenti principali (PCA) Sintesi dei circuiti adattabili con approccio statistico e informativo. 1.

REGRESSIONE LINEARE E POLINOMIALE

Esperimentazioni di Fisica 1. Prova scritta del 1 febbraio 2016 SOLUZIONI

Intervalli di Fiducia

Appendice 2. Norme di vettori e matrici

SUCCESSIONI DI FUNZIONI

Metodi Matematici per l Ingegneria

Compito di Matematica II - 12 Settembre 2017

a n (x x 0 ) n. (1.1) n=0

Trasformata Z, linearizzazione

Algoritmi e Strutture Dati (Elementi)

Popolazione e Campione

Popolazione e Campione

1.6 Serie di potenze - Esercizi risolti

Somma E possibile sommare due matrici A e B ottenendo una matrice C se e solo se le due matrici hanno lo stesso numero di righe e di colonne.

(A + B) ij = A ij + B ij, i = 1,..., m, j = 1,..., n.

Algebra delle matrici

Esame di Stato di Liceo Scientifico- Sessione ordinaria 2003 Corso Sperimentale P.N.I. Tema di MATEMATICA

Stima della media di una variabile X definita su una popolazione finita

TEORIA DELLE MATRICI. dove aij K. = di ordine n, gli elementi aij con i = j (cioè gli elementi a 11

Corsi di laurea in fisica ed astronomia Prova scritta di Analisi Matematica 2. Padova,

Esercizi: lezione I.

Lezione 10 - Tensioni principali e direzioni principali

Statistica 1 A.A. 2015/2016

PROVE SCRITTE DI MATEMATICA APPLICATA, ANNO 2013

1. Converge. La serie è a segno alterno. Non possiamo usare il criterio di assoluta convergenza, perché

ESERCIZI SULLE SERIE

Inferenza Statistica. L inferenza statistica cerca di risalire al modello del fenomeno sulla base delle osservazioni.

Realizzazione, Raggiungibilità e Osservabilità

Compito di SISTEMI E MODELLI. 5 Settembre 2014

( 4) ( ) ( ) ( ) ( ) LE DERIVATE ( ) ( ) (3) D ( x ) = 1 derivata di un monomio con a 0 1. GENERALITÀ

Corsi di laurea in fisica ed astronomia Prova scritta di Analisi Matematica 2. Padova,

0.1 Esercitazioni V, del 18/11/2008

1 Esercizi tutorato 27/5

SERIE DI POTENZE Esercizi risolti. Esercizio 1 Determinare il raggio di convergenza e l insieme di convergenza della serie di potenze. x n.

Calcolo I - Corso di Laurea in Fisica - 31 Gennaio 2018 Soluzioni Scritto

Le successioni: intro

Soluzione CPS 22/6/04. I parte. (1). Chiamiamo C l evento l individuo scelto ha il colesterolo alto, V, O e NL rispettivamente

Trasmissione del calore con applicazioni numeriche: informatica applicata

Lezioni di Matematica 1 - I modulo

DISTRIBUZIONE NORMALE MULTIVARIATA

1 Esponenziale e logaritmo.

Facoltà di Scienze MM.FF.NN. Corso di Laurea in Matematica - A.A Prova scritta di Analisi Matematica I del c.1.

Compito di SISTEMI E MODELLI. 4 Febbraio 2015

Entropia ed informazione

TEOREMA DELLA PROIEZIONE, DISUGUAGLIANZA DI BESSEL E COMPLEMENTI SULLE SERIE DI FOURIER

Programma di Istituzioni di Matematica II Corso di Laurea Triennale in Scienza dei Materiali (a.a ) Prof. Nicola Basile

Analisi I - IngBM COMPITO B 17 Gennaio 2015 COGNOME... NOME... MATRICOLA... VALUTAZIONE =...

Lezione 4 Corso di Statistica. Francesco Lagona

Lezione 2. . Gruppi isomorfi. Gruppi S n e A n. Sottogruppi normali. Gruppi quoziente. , ossia, equivalentemente, se x G Hx = xh.

APPENDICE 1 Richiami di algebra lineare

v = ( v 1,..., v n ).

Analisi I - IngBM COMPITO A 17 Gennaio 2015 COGNOME... NOME... MATRICOLA... VALUTAZIONE =...

= = 32

Campionamento casuale da popolazione finita (caso senza reinserimento )

ANALISI VETTORIALE COMPITO IN CLASSE DEL 22/11/2013. = a 24 24! log(1 + x) = ( 1) = (24!) 1 24 = 23!. e x2 dx. x 2n

Caso studio 9. Distribuzioni doppie. Esempi

Programma di Analisi Matematica II Corso di Laurea in Ingegneria Edile-Architettura (Corso A) a.a (Prof. Basile Nicola)

DETERMINANTI (SECONDA PARTE). NOTE DI ALGEBRA LINEARE

16 - Serie Numeriche

Trasmissione del calore con applicazioni numeriche: informatica applicata

0.1 Il teorema limite centrale

Esercitazione 3 Sistemi lineari

Esercizi settimana 10

3 Ricorrenze. 3.1 Metodo iterativo

Alcuni concetti di statistica: medie, varianze, covarianze e regressioni

Una funzione delle osservazioni campionarie è una statistica che, nel contesto della stima di un parametro, viene definita stimatore.

Insiemi numerici. Sono noti l insieme dei numeri naturali: N = {1, 2, 3, }, l insieme dei numeri interi relativi:

Corso di Laurea Triennale in Matematica Calcolo delle Probabilità I (docenti G. Nappo, F. Spizzichino)

Equazioni differenziali

Elementi di Probabilità e Statistica - 052AA - A.A

Scrivere su ogni foglio NOME e COGNOME. Le risposte devono essere giustificate sui fogli protocollo e riportate nel foglio RISPOSTE.

Matematica - Ingegneria Gestionale - Prova scritta del 25 gennaio 2006

Def. R si dice raggio di convergenza; nel caso i) R = 0, nel caso ii)

METODI NUMERICI CON ELEMENTI DI PROGRAMMAZIONE ESERCIZI DI AUTOVALUTAZIONE Ingegneria Aerospaziale A.A. 2015/2016

Ricorrenze. 3 1 Metodo iterativo

Analisi Matematica Soluzioni prova scritta parziale n. 1

ANNO ACCADEMICO 2016/2017 INGEGNERIA CHIMICA

2,3, (allineamenti decimali con segno, quindi chiaramente numeri reali); 4 ( = 1,33)

Matematica con elementi di Informatica

2T(n/2) + n se n > 1 T(n) = 1 se n = 1

Stima di somme: esercizio

Esercitazione n 3. 1 Successioni di funzioni. Esercizio 1: Studiare la convergenza in (0, 1) della successione {f n } dove f n (x) =

Preparazione al corso di statistica Prof.ssa Cerbara

Unità Didattica N 33 L algebra dei vettori

Quarto Compito di Analisi Matematica Corso di laurea in Informatica, corso B 5 Luglio Soluzioni. z 2 = 3 4 i. a 2 b 2 = 3 4

CAMBIAMENTO DI BASE IN UNO SPAZIO VETTORIALE

ANalysis. Analisi della Varianza - ANOVA. Aprile, Aprile, Nel linguaggio delle variabili le operazioni fondamentali sono tre

2.4 Criteri di convergenza per le serie

Statistica I - A.A

Probabilità e Statistica (cenni)

Definizione di Sistema di Riferimento Inerziale

La dinamica dei sistemi - intro

Elementi di algebra per la chimica. Antonino Polimeno Dipartimento di Scienze Chimiche Università degli Studi di Padova

ESERCIZI - FASCICOLO 1

Probabilità 1, laurea triennale in Matematica II prova scritta sessione estiva a.a. 2008/09

Teorema delle progressioni di numeri primi consecutivi con distanza sei costante

Esercizi Determinare il dominio di de nizione delle seguenti funzioni: a.

x n (1.1) n=0 1 x La serie geometrica è un esempio di serie di potenze. Definizione 1 Chiamiamo serie di potenze ogni serie della forma

Transcript:

Cap. - Aalisi delle compoeti idipedeti. Itroduzioe Capitolo Aalisi delle Compoeti Idipedeti I questo capitolo viee formulato il problema della separazioe di sorgeti ei termii di Aalisi delle Compoeti Idipedeti o Idepedet Compoet Aalysis (ICA). La ICA di ua vettore, cosiste i ua trasformazioe lieare i grado di preservare l iformazioe che, come risultato, produce l idipedeza statistica delle compoeti i uscita. Il cocetto di ICA può essere visto come ua estesioe dell aalisi delle compoeti pricipali o PCA, dove viee imposta soltato l idipedeza delle compoeti del secodo ordie e defiisce, quidi, direzioi ortogoali. Le applicazioi delle ICA soo molteplici e icludoo l aalisi e la compressioe dei dati, la stima Bayesiaa, la localizzazioe di sorgeti, la separazioe e decovoluzioe cieca (o blid) di sorgeti.. Compoeti Idipedeti.. Defiizioe di ICA Sia A ua matrice rettagolare di elemeti reali o complessi, detta matrice di mistura, cosideriamo la seguete relazioe: x(t) = A s(t); dove i vettori s(t), x(t) soo VA defiite i * o (domiio reale o complesso) a media ulla e a covariaza fiita. Problema: Il problema dell ICA può essere posto ei termii di separazioe di sorgeti: ote realizzazioi del vettore x(t) (segali osservati o ricevuti), si desidera stimare la matrice A isieme alle corrispodeti realizzazioi s(t). Le ipotesi fodametali per effettuare l ICA soo molto semplici: il vettore s(t):. ha tutte le sue compoeti statisticamete idipedeti tra loro;. le sue compoeti hao distribuzioe o Gaussiaa (tutte trae ua che può esserlo). I geerale la atura delle distribuzioi può essere scoosciuta (el caso fosse ota il problema sarebbe estremamete semplificato). Nel semplice caso di matrici quadrate il problema cosiste ella stima della matrice iversa W=A - s(t)= W x(t)... Compoeti idipedeti e PCA. Per ua compresioe più approfodita è utile commetare le differeze tra PCA e ICA. La matrice di covariaza di u vettore s(t) costituito da compoeti idipedeti è defiita come: { () ()} Qss = E s t s t = D Pierre Como, Idepedet compoet aalysis, A ew cocept?, Sigal Processig, Vol. 36, pp 87-34, 994.

Cap. - Aalisi delle compoeti idipedeti 3 dove D è diagoale e positiva co elemeti d ii. Defiedo A come matrice di miscelazioe istataea, e segue che la covariaza del vettore x(t)=as(t), è data da: { () ()} Q x x ADA. xx = E t t = Nell aalisi delle compoeti pricipali viee ricercata ua trasformazioe lieare F y() t = Fx () t ; tale che le compoeti y(t) siao tra loro icorrelate. Ovvero la covariaza Q yy yy { () ()} xx Q = E y t y t = FQ F = ; diveta ua matrice diagoale Λ i cui elemeti soo gli autovalori della matrice di covariaza Q xx. ale trasformazioe implica, quidi, che le compoeti del vettore y siao tra loro icorrelate { yi y j } E ( t) ( t) = 0, i j l icorrelazioe, però, o implica l idipedeza che è ua proprietà più forte. Per spiegare questo cocetto, cosideriamo il caso semplice i cui D=I (matrice idetità); allora { i } d = E s () t =. ii I questo caso, per ogi matrice ortogoale U, le compoeti x() t = Us() t soo icorrelate poiché { () ()} x x UIU I. E t t = = Cap. - Aalisi delle compoeti idipedeti 4 Le compoeti x i (t) o soo però idipedeti eccetto el caso quado U è ua matrice di permutazioe o quado tutte le sorgeti s i (t) soo Gaussiae. L aalisi PCA cosete di otteere compoeti idipedeti solo ei casi i cui tutte le s i (t) soo Gaussiae o quado la matrice A è simmetrica e d ii = per tutti gli i. L aalisi PCA o cosete di ricostruire le sorgeti s i (t) se o ei casi descritti: la ricerca delle compoeti idipedeti rappreseta u caso più geerale che fa riferimeto alla statistica di ordie superiore (cumulati di ordie elevato). Ua tecica per l ICA, basata sulle PCA, è quella della sbiacatura o prewhiteig. L algoritmo è suddiviso i due stadi distiti: ) il segale di mistura viee pre processato come i / x() t = Fx() t = )[() t i modo tale che risulti Q = E { x() t x ()} t = I. xx Il precedete calcolo può essere fatto usado i metodi oti per l estrazioe delle PCA. ) Si ricerca ua matrice W y() t = Wx () t tale che le y(t) siao tra loro idipedeti.

Cap. - Aalisi delle compoeti idipedeti 5.3 Blid Sigal Processig.3. Itroduzioe Cosideriamo u sistema lieare tempo-ivariate che esegua ua operazioe di covoluzioe su u segale di igresso. Il processo di ricostruzioe del segale origiario a partire dalla coosceza del sistema e del segale di uscita viee geericamete idicato co il ome di decovoluzioe. Nella decovoluzioe o supervisioata, o blid decovolutio, è oto solamete il segale i uscita, ache se i pratica soo spesso ecessarie delle assuzioi riguardo i segali di igresso e il sistema. s (t) s m (t) Sistema Diamico x (t) x (t) Rete Neurale Algoritmo di appred. adattativo Figura Diagramma a blocchi fuzioale di ua sistema par blid sigal processig (BSP). y (t) y (t) E possibile formulare il problema del blid sigal processig (BSP) i maiera più geerale. Suppoiamo di osservare i segali i uscita da u sistema diamico di tipo MIMO (Multiple-Iput Multiple-Output). L obiettivo è di ricostruire i segali sorgete (assuti idipedeti) attraverso u sistema iverso, i grado di operare preferibilmete i codizioi di o stazioarietà. Cap. - Aalisi delle compoeti idipedeti 6 Il sistema diamico, lieare o o lieare, può essere descritto i vari modi utilizzado costati cocetrate o distribuite utilizzado equazioi differeziali (o alle differeze fiite) ordiarie (ODE) o equazioi differeziali alle derivate parziali. Le ipotesi fodametale affiché il problema di BSP possa essere cosiderato trattabile soo che: il problema ammetta ua soluzioe, ovvero, il sistema diamico sia ivertibile e/o idetificabile; il sistema iverso sia stabile; l algoritmo di appredimeto sia tale da evitare miimi locali; Ua metodologia geerale basata sull uso di reti eurali per la soluzioe di u problema BSP, cosiste: ) determiare la topologia più appropriata di rete; ) scegliere la fuzioe obiettivo da miimizzare o massimizzare (detta ache: loss fuctio o fuzioe di cotrasto o di eergia) tale che la sua ottimizzazioe globale, rispetto ai parametri liberi della rete garatisca la corretta decovoluzioe o separazioe i compoeti idipedeti del segale i uscita; 3) applicare ua procedure di ottimizzazioe o di appredimeto..3. Misture di segali istataee Nel caso i cui il sistema diamico da ivertire sia statico, si è di frote al problema detti di mistura (o mixig) istataeo. Cosideriamo segali sorgete, VA statisticamete idipedeti, stazioari e a media ulla s j (t) (j=,...,) ovvero i forma vettoriale

Cap. - Aalisi delle compoeti idipedeti 7 s(t)=[s (t),...,s (t)]. Assumiamo che siao dispoibili m (co m ) segali (osservazioi) descritti co la VA x(t)=[x (t),...,x m (t)] otteuti dai segali sorgete attraverso ua combiazioe lieare istataea, realizzata co ua matrice (m ) scoosciuta di mixig istataeo A=[a ij ] tale che: x () t = a s () t + i (t), i=,,, m i j= ij j dove co i (t) abbiamo idicato il rumore di misura, e i forma matriciale x(t)= A s(t) + (t). Gli elemeti della matrice a rago pieo reale A, possoo variare letamete co il tempo (situazioe o stazioaria). uttavia le reti i seguito cosiderate soo i grado di operare efficacemete ache quado la matrice di mixig è mal codizioata, ovvero quasi sigolare. Per ricostruire il vettore dei segali sorgete y(t)=[y (t),...,y m (t)], stima del vettore s(t), si può utilizzare ua rete feed-forward caratterizzata da euroi lieari descritti da ovvero y () t = w () t x () t, i=,,, m; i ij j j = y(t)= W x(t) co W=[w ij ] matrice di separazioe ( m), chiamata matrice dei pesi delle siapsi, che vegoo modificati i maiera adattativa (fig. 3). I letteratura esistoo umerosi algoritmi per la determiazioe di W e, el seguito, e vedremo alcui. Cap. - Aalisi delle compoeti idipedeti 8 Nella determiazioe delle sorgeti separate, è isita ua duplice idetermiatezza, dovuta ad u fattore di scala e all ordie dei segali stimati i uscita rispetto ai segali origiari. Questa ambiguità si può esprimere come: y(t)= D P s(t); dove D è ua matrice reale diagoale di scalatura (o sigolare), P ua geerica matrice reale di permutazioe. Il prodotto =PD viee defiito come matrice di permutazioe geeralizzata, co u solo elemeto o ullo per ogi riga e ogi coloa. (t) s (t) x (t) y (t) + (t) s (t) x (t) y (t) + A W Figura 3 Diagramma a blocchi fuzioale di ua sistema di mistura-separazioe istataeo. All equilibrio dovrebbe valere la seguete relazioe e quidi s (t) y(t)= W x(t) = W A s(t)= D P s(t) W = D P A -. (t) + x m (t) Algoritmo di appredimeto y (t)

Cap. - Aalisi delle compoeti idipedeti 9 Osservazioe: l iformazioe utile è coteuta ella forma d oda del segale piuttosto che ell ampiezza o ell ordie i cui i segali soo presetati. Ne risulta che il problema della ambiguità delle ampiezze e dell ordie o poe seri problemi elle applicazioi delle teciche di BSP. Corollario: ella precedete abbiamo cosiderato reti di tipo feed forward. Nelle problematiche di separazioe è possibile, comuque, utilizzare reti iteramete coessi o ricorreti. I questo caso, per =m, possiamo scrivere y () t x () t wl ij () t y () t i i j j = = Cap. - Aalisi delle compoeti idipedeti 0 riverberate del segale d igresso. I questo caso la mistura dei segali è di tipo covolutivo. La stima delle sorgeti, ache i questo caso, può essere fatta usado ua rete come el modello di figura 3. I questo caso, però, ogi peso siaptico w ij o w l ij, defiito el domio reale o complesso, è sostituito da u sistema diamico W ij (z) lieare di tipo FIR o IIR. x (t) W (z) W (z) + y (t) o, i forma matriciale, W () t = + m() t I W. x (t) W (z) W (z) + y (t) x(t) y(t) W (z) mw Figura 4 Modello basato su rete ricorrete per BSP..3.3 Misture di segali covolutive I termii più geerali e fisicamete più realistici, le osservazioi sui sesori possoo essere combiazioi lieari di versioi A. Cichocki ad R. Ubehaue, Robust Neural Networks with O-lie Learig for Blid Idetificatio ad Blid Separatio of Sources, IEEE ras. Circuits ad System I, Vol. 43, pp.894-906, Nov. 996. x m (t) W (z) W m (z) W m (z) W m (z) Figura 5 Architetture geerica per la separazioe di sorgeti covolutive. + y (t)

Cap. - Aalisi delle compoeti idipedeti La separazioe delle sorgeti covolutive è spesso idicata come problema di decovoluzioe/equalizzazioe. I tali problematiche il segale tempo discreto ricevuto x(k)=[x (k), x (k),, x m (k)] è defiito come: x( k) = A s( k p) p= p dove A p è ua matrice (m ) di miscelazioe al ritardo p. I geerale ogi sorgete s i (k) è ua sequeza idipedete ideticamete distribuita (i.i.d.) e stocasticamete idipedete rispetto a tutte le altre sorgeti Alcui metodi per la decovoluzioe multi caale, effettuao ua stima delle risposte impulsive dei caali A p dai segali ricevuti x(k) e quidi, determiao le sorgeti partedo da queste stime. Altri metodi, ivece, stimao le sorgeti direttamete usado ua versioe trocata delle risposta impulsiva dell equalizzatore, che ha la forma y( k) = W ( k) x( k p) p= p dove co il vettore y è idicata la stima della sorgete s metre W p (k) rappreseta ua sequeza di matrici ( m). I termii di calcolo operatorio, usado la trasformata Z, la relazioe igresso uscita può essere espressa come dove x(k) = A(z)[s(k)] y(k) = W(z,k)[x(k)] = (z,k) [s(k)] Cap. - Aalisi delle compoeti idipedeti W( zk, ) = Wp( kz ) p= p= A( z) = A p z p ( zk, ) = W ( zk, ) A( z) p p soo, rispettivamete, le trasformate Z del caale, dell equalizzatore e del sistema caale + equalizzatore. L obiettivo della separazioe, che i questo caso coicide co la decovoluzioe (o equalizzazioe), è quello di adattare W(z,k) i modo tale che lim ( zk, ) = PD ( z). k.3.4 Geeralità sugli algoritmi di appredimeto per la separazioe di sorgeti istataea Abbiamo visto che l idipedeza statistica è u cocetto più geerale rispetto alla decorrelazioe. L ICA, ifatti, può essere cosiderate come ua geeralizzazioe delle PCA. La trasformazioe PCA impoe la (semplice) decorrelazioe delle uscite o, i altre parole, l idipedeza delle sole compoeti della statistica di secodo ordie, raggiuta impoedo l ortogoalità delle uscite. La ICA, ivece, impoe l idipedeza statistica, seza vicoli di ortogoalità. La VA s i e s j soo statisticamete idipedeti se la coosceza dei valori di s i o comporta essua coosceza sui valori di s j. Idicado co f(s) la pdf della VA s, l idipedeza implica la relazioe: f( s, s ) = f ( s ) f ( s ). i j i i j j I geerale u isieme di segali s soo idipedeti se

Cap. - Aalisi delle compoeti idipedeti 3 f() s = f j( sj) j= dove co f j (s) è idicata la pdf della j-esima sorgete. Le ipotesi fodametali per la derivazioe degli algoritmi di appredimeto soo: le sorgeti soo a media ulla; al massimo ua sola sorgete ha distribuzioe Gaussiaa; il rumore di misura è trascurabile. Alcui algoritmi di appredimeto soo derivati da semplici cosiderazioi euristiche e soo basati sulla massimizzazioe o miimizzazioe di ua certa fuzioe costo detta fuzioe di perdita o loss fuctio. I geerale possiamo classificare gli algoritmi di appredimeto, comuque basati sulle stesse ituizioi di base, ei segueti tipi: miimizzazioe di cumulati; massimizzazioe dell etropia (criterio ifomax); massimizzazioe della verosimigliaza. ali algoritmi possoo essere derivati alla luce di u pricipio uificate come di seguito si teterà di spiegare. Su assuma che p(y,w) sia la pdf di y che dipede, i qualche modo, dai pesi della rete W. Si idichi, ioltre, co p i (y i,w) la sua geerica pdf margiale. L obiettivo dell appredimeto, cosiste ella stima di W tale che le compoeti del vettore y siao tra loro idipedeti. Cap. - Aalisi delle compoeti idipedeti 4 Per misurare il grado di idipedeza viee usato il prodotto delle sue pdf margiali q( yw, ) = pi( yi, W ) e si cosidera la i divergeza di Kullback-Leibler (DKL) tra la p(y,w) e la q(y,w) p( yw, ) l( yw, ) = KL [ p( yw, ) q( yw, )] = p( yw, )log dy pi( yi, ) W i Dalle proprietà della DKL, la precedete relazioe (vedi Appedice B), può essere riscritta come: l( yw, ) = H( yw, ) Hi yi, W i= ( ) dove H( yw, ) = p( yw, )log( p( yw, )) dy rappreseta l etropia (differeziale) della y, e Hi( yi, W) = pi( yi, W)log ( p( yi, W) ) dyi è la i-esima etropia (differeziale) margiale della y. La divergeza l(y,w), rappreseta la misura della mutua idipedeza dei segali i uscita y i (k). Ne risulta, quidi, che le uscite y i (k) soo mutuamete idipedeti, se e solo se, la pdf p(y,w) e quelle del prodotto delle sue pdf margiali q(y,w) soo idetiche, ovvero, per le proprietà della DKL, l(y,w)=0. Ne segue che la espressioe della DKL è ua loss fuctio o fuzioe di cotrasto per il problema BSP. La precedete espressioe di l(y,w) può essere formulata i modo più semplice, come 3 3 S. Amari, A. Cichocki, Adaptive Blid Sigal Processig-Neural Networks Approaches, Proc. of IEEE, Vol. 86, N. 0, pp 06-048, Oct.998.

Cap. - Aalisi delle compoeti idipedeti 5 l( y, W) = log det( ) log WW ( pi( yi, W )). Per derivare l algoritmo di appredimeto è possibile applicare il criteri della discesa del gradiete stocastico della loss fuctio. i= ( yw, ) W( k + ) = W( k) µ ( k) l W E possibile dimostrare 3 che il calcolo del gradiete della l( yw, ) coduce all algoritmo di appredimeto che ha la seguete espressioe di aggiorameto dei pesi W ( k + ) = W ( k) µ ( k) ϕ( ) W y x ; dove µ(k) è il learig rate all istate k, il vettore di fuzioi o lieare ϕ( y ) = [ ϕ( y),..., ϕ ( )] y, detto vettore delle fuzioi di attivazioe, è derivato dalla p i (y i ) come ( ) ' ϕ dlog pi( yi) pi( yi) i( yi) = dy = p ( y ). i i i I seguito vedremo la scelta della o liearità ϕ( y ) e delle pdf p i (y i ). Osservazioe: Il metodo della discesa secodo il gradiete stocastico, sebbee sia ua procedura di ottimizzazioe iterativa semplice da implemetare, è caratterizzato da ua covergeza che può essere assai leta. La pedeza della fuzioe costo, ifatti, può variare molto per piccole variazioi dei parametri. ale metodo, ioltre, si L.Q. Zagh, S. Amari, A. Cichocki, Natural Gradiet Algotithm for Blid Separatio ov Overdetermied Mixture with Additive Noise, IEEE Sigal Processig Letters, Vol. 6, N., pp 93-95, Nov. 999. Cap. - Aalisi delle compoeti idipedeti 6 presta pricipalmete alla miimizzazioe di ua fuzioe costo co u solo miimo. I pratica, per geeriche fuzioi multimodali, la discesa secodo il gradiete coverge, quasi sempre, i u miimo locale. Altre metodi di discesa, pur essedo più efficaci, hao u elevato costo computazioale e possoo soffrire di istabilità umerica (es. algoritmi quasi-newto ). E auspicabile, quidi, ricercare metodi caratterizzati da semplicità computazioale e alta velocità di covergeza. Recetemete è stato sviluppato u metodo, detto metodo del gradiete aturale, che matiee la semplicità e la robustezza del metodo del gradiete stocastico assicurado, però, ache ua elevata velocità di covergeza..3.5 Il gradiete aturale 4 Il Gradiete Naturale (GN) rappreseta ua metodologia di ottimizzazioe emergete, utile el caso i cui lo spazio di ricerca dei parametri o sia uo spazio Euclideo uiforme. La teoria del GN è basata su cocetti di geometria differeziale e per l aggiustameto delle direzioi di ricerca dei parametri impiega coosceza sulla struttura dello spazio di Riema (che iclude come caso particolare quello Euclideo). Per compredere il metodo del GA occorre ricosiderare il cocetto di distaza. Nella vita comue la distaza miima è defiita come la liea retta che uisce due puti. Ovvero, i termii matematici la distaza (detta Euclidea) tra due puti di uo spazio N-dimesioale v e v+δv è defiita come: 4 A. Amari, Natural Gradiet Works Efficetly i Learig, Neural Computatio, Vol. 0, pp. 5-76, Ja. 998. S. Amari, S.C. Douglas, Why atural gradiet? IEEE Iteratioal Cof. Acoust., Speech, Sigal Processig, Seattle, WA, May 998

Cap. - Aalisi delle compoeti idipedeti 7 d E N ( vv, + δv) = δv = δvδv= δv i= i dove δv=[ δv δv... δv N ] e v rappreseta la orma L o orma Euclidea di v. Nella realtà la liea retta che uisce due puti o distaza Euclidea risulta essere ua approssimazioe di ua otazioe più geerale di distaza defiita usado la matematica dello spazio curvato o geometria differeziale di Riema. Nella geometria Riemaiaa, per due vettori w e w+δw si defiisce distaza metrica dw(.,. ) che quidi dipede ache dal puto i ci si trova w, come N N d ( ww, + δw) = δw δw g ( w) = δwgw ( ) δw w i= j= i j ij dove G(w), matrice defiita positiva (N N) i cui elemeti soo g ij (w), rappreseta la metrica tesore di Riema. La metrica Riemaiaa caratterizza la itriseca curvatura del particolare maifold dello spazio N-dimesioale. Si può osservare, come caso particolare, che el caso di spazio Euclideo G(w)=I. Esempio E oto che metodo steepest descet miimizza localmete ua fuzioe costo J(w) rispetto w co la seguete procedura iterativa ( w( k) ) J w( k + ) = w( k) µ ( k) w I questo caso la J(w) rappreseta la distaza Euclidea dal puto ottimo. Cap. - Aalisi delle compoeti idipedeti 8 J ( ) w = c w w opt dove c è ua costate arbitraria; e segue che derivado ( w( k) ) J = ( c w() k wopt ) w poedo la costate di adattameto µ ( k) = /( c), la precedete coverge al puto ottimo i ua solo passo. Il precedete risultato è vero per la o egatività di c i ogi puto dello spazio di ricerca. w w Nella pratica, la fuzioe costo da miimizzare o è Euclidea e lo spazio dei parametri è curvo e distorto (spazio Riemaiao). J w( k) / w o Ne segue che il egativo del gradiete ( ) rappreseta più la direzioe della fuzioe che miimizza J ( w) ello spazio di parametri. Per otteere migliori proprietà di covergeza le direzioi del gradiete stadard devoo essere modificate teedo coto della curvatura locale dello spazio. Nell adattameto co gradiete aturale l espressioe della steepest descet è corretta teedo coto della metrica tesore di G w ( k). Si ottiee facilmete, quidi Riema ( ) [ ] w( k + ) = w( k) µ ( k) G w( k) ( w k ) J ( ) w Nei casi pratici, la matrice, metrica tesore di Riema, ( ( k) ) G w è facilmete determiabile direttamete dalla caratteristica dello spazio dei parametri; metre la forma J(w(k)) è defiita esplicitamete come per lo spazio Euclideo.. opt

Cap. - Aalisi delle compoeti idipedeti 9 Proprietà:. L adattameto co GN o coicide co il metodo di Newto, i cui viee usata l iversa della matrice Hessiaa H(w). I metodi soo coicideti solo se la J(w(k)) è quadratica e, i questo caso, G(w)=H(w). I geerale le due metodologie soo molto differeti. I particolare G(w) è, per defiizioe, sempre defiita positiva, metre l Hessiaa per particolari valori di J(w(k)) e w(k), può o esserlo.. L adattameto co GN è asitoticamete Fisher-efficiet. Si dimostra ifatti che la matrice metrica tesore di Riema G(w), risulta essere proprio idetica alla matrice di iformazioe di Fisher. 3. L adattameto co GN produce u aggiorameto o lieare dei parametri. Questo fatto implica che per la covergeza basta semplicemete limitare il passo di adattameto µ(k). 4. Il GN richiede ua adeguata coosceza della struttura dello spazio dei parametri da stimare. Sebbee il GN sia locale, per la determiazioe della G(w), occorroo precise coosceze su tutta la struttura dello spazio dei parametri. Le iformazioi ecessarie dipedoo molto dal problema. Esistoo, comuque, molte situazioi pratiche i cui otteere tali iformazioi è estremamete semplice. 5. L implemetazioe del GN può essere più semplice rispetto all algoritmo stadard. I molti casi, ifatti, la matrice G(w), è ua semplice fuzioe dei parametri stimati. Cap. - Aalisi delle compoeti idipedeti 0.3.6 Separazioe istataea di sorgeti co il gradiete aturale Quado lo spazio dei parametri o è Euclideo ma curvilieo, è facile ituire che l algoritmo di aggiorameto basato sul GN, assume la forma W( k + ) = W( k) µ ( k)[ G( W)] l, ( yw) W. L algoritmo GN, ha le stesse prestazioi delle teciche di Newto, seza, peraltro, soffrire dei problemi computazioali tipici di tali metodi. Il calcolo del GN, implica l iversioe della matrice, metrica tesore di Riema, e geeralmete la cosa o è semplice. uttavia, ello spazio dei parametri u cui è effettuata la separazioe di sorgeti (ma ache el caso di sistemi diamici lieari), la metrica di Riema è data esplicitamete dalla struttura dei gruppi di Lie. Ifatti, el problema della blid separatio (decovolutio), lo spazio dei parametri è formato dall isieme di tutte le matrici o sigolari W; poiché il prodotto di due di tali matrici è acora ua matrice o sigolare, esse formao u gruppo. I questo caso specifico la matrice di Riema G(W) assume ua forma particolare, e la sua iversa si può esprimere direttamete La matrice iversa è quidi calcolata i modo esplicito i ua forma molto semplice e l algoritmo GN può, per questo problema, essere formulato come ( yw, ) l W( k + ) = W( k) µ ( k) W W. W Ne segue che l algoritmo per la separazioe di sorgeti assume ua forma particolarmete semplice

Cap. - Aalisi delle compoeti idipedeti W ( k + ) = W ( k) + µ ( k) I ϕ( y ) y W ( k) Dimostrazioe: Ricaviamo il gradiete della loss fuctio l( yw, ) calcolado il differeziale dl di l per W che è cambiata a W+dW. Ne segue l dl = l( yw, + dw) l( yw, ) = dw i, j ij w dove il termie l/ wij di w ij rappreseta il gradiete di l. Applicado semplici regole di calcolo differeziale e algebrico, si arriva alla forma dl tr( d ) ( ) d = WW + ϕ y y dove tr, è la traccia della matrice e ϕ( y ) è u vettore coloa co ϕ ( y ) = p' ( y )/ p ( y ). elemeti i i ( i i i i ) Essedo y=wx, e sostituedo, otteiamo d = d = d poedo d y Wx WW y X dww, = i cui elemeti dx ij soo ua combiazioe lieare degli elemeti dw ij, e sostituedo otteiamo dl = tr( dx) +ϕ( y ) dxy. Quest ultima è proprio l algoritmo del gradiete stocastico dl X= X( k + ) X( k) = µ ( k) = µ ( k) ϕ( ) d I y y X. ij Cap. - Aalisi delle compoeti idipedeti Essedo, per defiizioe, X= WW esprimedo la precedete i termii di W, si ottiee W ( k) = µ ( k) I ϕ( y ) y W ( k) e quidi c.v.d. W ( k + ) = W ( k) + µ ( k) I ϕ( y ) y W ( k) Osservazioe: E possibile esprimere l algoritmo di adattameto ei termii della matrice (k)=w(k)a, precedetemete defiita, come ( )[ ] ( k + ) = ( k) + µ ( k) ϕ ( k) ( k) ( k) ( k) ( k) I s s. Quest ultima espressioe è idipedete da A e l adattameto è esprimibile direttamete ei termii della matrice. I altre parole, il recupero delle sorgeti è possibile ache quado queste hao ampiezza piccola..3.7 Scelta delle fuzioe di attivazioe La scelta della fuzioe ϕ( y ), fuzioe di attivazioe della rete eurale, o poe particolari problemi. Se le pdf margiali p i (y i ) soo ote, è ovvio che la scelta ottimale è di usarle i modo da otteere u stimatore ottimo di massima verosimigliaza. Nel caso, come quasi sempre accade i pratica, tali fuzioi o siao ote si potrebbe pesare di stimare la vera pdf q i (y i ), adattado sotto certe codizioi la fuzioe di attivazioe. Sulla base della teoria della stime delle fuzioi, che vedremo i seguito, risulta possibile utilizzare ua qualsiasi ϕ i( yi) che o è derivata dalla vera q i (y i ).

Cap. - Aalisi delle compoeti idipedeti 3 Ua scelta subottima della fuzioe di attivazioe può essere effettuata sulla base di semplici cosiderazioi sulla statistica dei segali: se gli igressi da separare hao ua statistica sub Gaussiaa, cioè co curtosi egativa, può essere usata ua fuzioe del tipo ϕi( yi) = α yi + yi yi ; el caso di sorgeti super Gaussiae, cioè co curtosi positiva, l attivazioe può assumere la forma: ϕ ( y ) = α y + tah( γ y ), co α 0 e γ. i i i i Se soo preseti misture di sorgeti di etrambi i tipi, occorre itrodurre teciche di adattameto addizioali ache per la fuzioe di attivazioe 5. 5 Adrea Pierai, Fracesco Piazza, Mirko Solazzi ad Aurelio Ucii, Low Complexity Adaptive o-liear Fuctio for Blide Sigal Separatio, Proc. of Iteratioal Joit Coferece o Neural Networks, Luglio, 000.