Sono molto grato a Xavier Tomàs Morer per la revisione e la correzione di numerosi errori 1

Dimensione: px
Iniziare la visualizzazioe della pagina:

Download "Sono molto grato a Xavier Tomàs Morer per la revisione e la correzione di numerosi errori 1"

Transcript

1 Sono molto grato a Xaver omàs Morer per la revsone e la correzone d numeros error

2 4 - ELEMENI d CHEMIOMERIA Bruce Kowalsky e Svante Wold, cofondator della Internatonal Chemometrcs Socety La Chemometra s è svluppata n temp recent, caratterzzat dall utlzzo generalzzato della lngua nglese n tutte le scenze. Molt termn utlzzat n Chemometra sono traducbl n talano solo con dffcoltà o ambgutà. Pertanto n questo captolo s farà un esteso utlzzo d termn ngles. Come un tempo la Chmca Analtca n generale, la Chemometra è da alcun consderata come un nseme d rcette, modul d calcolatore che eseguono rapdamente operazon complesse e che è possble utlzzare senza sapere cò che quest modul fanno. Al contraro, solo la conoscenza degl algortm, cò che modul fanno, permette d ottenere rsultat mglor e pù vald. Un Chemometra è un chmco analtco che può entrare nello strumento matematco, modfcarlo, correggerlo, capre le sue potenzaltà ed suo lmt. Par questa ragone n questo captolo vengono llustrat alcun algortm fondamental. La Chemometra è la dscplna che ha come obettv: a) la estrazone della massma nformazone utle da dat chmc msurat durante l processo chmco analtco o calcolat dalle tecnche della chmca teorca; b) la ottmzzazone de metod della chmca analtca. Quest obettv comprendono: - l'appurare se le quanttà chmche msurate sono rlevant o meno agl effett del problema chmco (RILEVANZA/SUFFICIENZA);

3 - la selezone delle varabl chmche rlevant e la elmnazone d quelle nutl o portatrc d solo rumore, e qund dannose (ECONOMIA); - la valutazone della QUALIA' de dat chmc e qund del metodo analtco; - lo studo della dpendenza delle prestazon d un modello da fattor che le determnano (CONOSCENZA). La utltà della nformazone è ovvamente relatva al partcolare problema. In generale problem d natura chmca o parzalmente chmca utlzzano l nformazone chmca per: - esplorazone, con lo scopo d mglorare la conoscenza del sstema chmco n vsta d decson successve; - classfcazone (chemometra qualtatva), con lo scopo d assegnare a una classe oggett (campon, ndvdu); - regressone (chemometra quanttatva), con lo scopo d calcolare una quanttà (chmca, fsca, sensorale) da altre quanttà pù faclmente msurabl. - La chemometra utlzza procedment della statstca, della matematca applcata, della nformatca; ma essa ha anche svluppato procedment propr, o adattato procedment nat n altre dscplne a problem d tpo chmco. Da quando la Chemometra, negl ann tra l 970 e l 980, è stata ndvduata come dscplna autonoma nel quadro della Chmca Analtca, la defnzone nzale è stata varamente modfcata, adattandola frequentemente a settor non analtc della chmca ne qual procedment della statstca e/o della matematca hanno mportanza rlevante. Element d chemometra s ncontrano n molte fas del processo chmco-analtco. In questo captolo verranno accennat solamente alcun metod della statstca che n chemometra hanno larga applcazone. Verranno noltre descrtte sommaramente alcune "stratege base" della chemometra ed alcune tecnche d partcolare mportanza. I metod chemometrc preparano modell matematc, n partcolare modell per la classfcazone e per la regressone. Ogn stratega deve nzare con la preparazone de modell pù semplc, che sono anche pù economc nel senso che sono descrtt da un mnore numero d parametr. Il prncpo della massma parsmona serve come guda per ottenere modell stabl. 3

4 La Chemometra studa essenzalmente (n relazone al prmo obettvo, estrazone della massma nformazone utle) nsem d dat multvarat, rsultato d esperment n cu su d un campone chmco (oggetto) sono state determnate molte quanttà chmche o fsche. In relazone al secondo obettvo (otttmzzazone de metod) la Chemometra consdera metod le cu prestazon dpendono da pù fattor. In questo caso le tecnche e le stratege sono quelle del Dsegno Spermentale. I problem real sono tal per cu quas sempre su d un campone chmco vengono determnate molte quanttà. Sempre un metodo analtco dpende da una sere d fattor, condzon che l'operatore può fssare entro cert ntervall a suo pacere (temperature, temp, pressone, concentrazon, potenzale elettrco,...) e dal cu valore dpende la qualtà del rsultato analtco. Analogo al metodo della chmca analtca è l metodo della chmca sntetca, che vene anche esso ottmzzato studando l'effetto d una sere d fattor sul rendmento della reazone d nteresse. La parola multvarato non appare nella defnzone d Chemometra. Quando è possble, s opera su d una sola varable, utlzzando tecnche della statstca unvarata. 4

5 4. - SPAZIO DELLA INFORMAZIONE E SRUURE La Chemometra comprende un sere d strument, che permettono d affrontare problem elencat n precedenza d: - Vsualzzazone d dat multvarat (osservazone della massma quanttà d nformazone); - Classfcazone e modellamento d classe (quando dat analtc sono stat msurat per determnare se un campone appartene ad una certa classe, p.e. quella de campon che soddsfano requst d una suffcente "qualtà"); - Correlazone (quando dat analtc hanno lo scopo d valutare quanttatvamente un certo parametro, p.e. tempo d stagonatura d un formaggo). ra problem d correlazone è anche la calbrazone multvarata, per la determnazone d una quanttà chmca utlzzando molte quanttà fsche msurate. In generale v sono problem chmc o parzalmente chmc n cu s rcercano le relazon tra due grupp d varabl, p.e. tra varabl chmche e varabl sensoral. Gl strument della Chemometra vengono utlzzat applcando stratege chemometrche, caratterzzate da un aspetto fondamentale, la convalda de rsultat. La convalda asscura che rsultat ottenut dalla applcazone degl strument chemometrc sono rsultat verter, e non forzatamente soddsfacent. Gl strument vengono usat dal chemometra n modo pragmatco, non dmentcando che molt degl assunt statstc che ess utlzzano (contnutà, normaltà,...) sono astrazon, semplfcazon della realtà chmca, e che la conoscenza del problema chmco e pertanto degl obettv del processo chmco analtco sono fondamental nella nterpretazone de rsultat ntermed e nelle decson conseguent. Conoscenza del problema chmco, convalda e pragmatsmo sono element mportant della chemometra. Il prmo elemento è l pù mportante: la chemometra è una dscplna chmca. I pù comun problem che necesstano d tecnche chemometrche rguardano dat che hanno la struttura d una matrce, le cu rghe sono oggett e le colonne sono le varabl. V sono peraltro numeros esemp d dat con struttura trdmensonale (generalmente oggett-varabl-tempo, oppure oggett-varabl-ndvdu; un esempo della prma struttura, tpco delle ndagn ambental, s ha quando un certo numero d varabl vengono determnate n st d camponamento fsso a 5

6 temp regolar; un esempo della seconda struttura, tpco delle ndagn sensoral, s ha quando un certo numero d campon almentar vengono valutat per una sere d attrbut sensoral da un gruppo d assaggator). Lo spazo della nformazone può essere quello delle varabl (modo R), o quello degl oggett. Il secondo consdera la matrce trasposta (Modo Q, ved oltre). Lo spazo delle varabl è un perparalleleppedo delmtato dagl ntervall delle varabl. Questo spazo può essere pù o meno unformemente rempto dagl oggett (ogn oggetto è rappresentato da un punto nello spazo multdmensonale delle varabl). Generalmente lo spazo delle varabl non è rempto unformemente, ma punt che rappresentano gl oggett sono addensat n varo modo, dando orgne ad una struttura. Strutture semplc possono faclmente essere ndvduate da una elevata correlazone tra tutte o alcune delle varabl. La grandezza dello spazo delle varabl, che può essere msurata dalla tracca della matrce delle varanze-covaranze, valuta la dspersone. Se non v è, o v è poca, dspersone, non s ha nformazone: DISPERSIONE = INFORMAZIONE NON-DISPERSIONE = QUALIÁ Infatt un prodotto "d qualtà" ha caratterstche costant, bassa dspersone. Esso è ottenuto controllando l pù possble fattor che nfluenzano le caratterstche del prodotto. D'altro canto, per valutare gl effett d quest fattor occorre farl varare sgnfcatvamente: solo con una varazone de fattor e conseguentemente con una notevole dspersone delle caratterstche del prodotto possamo avere l'nformazone necessara per studare le relazon caratterstche-fattor. Normalmente una stuazone d qualtà è collegata ad una mancanza d struttura; una stuazone d nformazone è collegata ad una struttura. La Fgura 4- llustra uno spazo dmensonale prvo d struttura, quale potrebbe essere descrtto da una dstrbuzone normale bvarata con varabl ncorrelate. Uno spazo d questo genere s può osservare nel caso d dat provenent dal controllo d qualtà. In molt cas campon hanno valor delle due varabl controllate pratcamente costant, e le varazon rlevate sono dovute a pccole fluttuazon, prevalentemente ad error d msura, che sono ncorrelat anche per varabl d per sé correlate. P.e. è possble che msurando ph e acdtà ttolable non s trov correlazone, n quanto campon hanno tutt lo stesso valore d ph ed acdtà, e le pccole varazon sono error d msura. 6

7 Lo spazo d Fgura 4- llustra l caso d una struttura lneare; le due varabl sono correlate lnearmente. Una grande parte dello spazo delle varabl è vuoto. S ha: - RIDONDANZA d nformazone (una delle varabl copa n parte la nformazone portata dall'altra), ma la rdondanza consente: - ECONOMIA, possbltà d elmnare la msura d una delle varabl; - PREDIZIONE; da una delle varabl è possble prevedere l'altra con un errore pù o meno grande a seconda del grado d correlazone. In questo caso sfruttamo la correlazone per determnare da una o pù quanttà msurabl faclmente altre non msurabl o msurabl con costo elevato. - SINERGIA; quando le varabl sono utlzzate per predre una terza varable (con la quale devono essere correlate) l loro utlzzo congunto permette d dmnure l'errore d predzone. Un caso tpco d varabl molto correlate s ha n spettrofotometra, dove le varabl sono le assorbanze a dverse lunghezze d'onda; quando le lunghezze d'onda sono molto vcne la correlazone tra le varabl sono molto elevate e l loro utlzzo congunto per prevedere una quanttà chmca ad esse correlata può abbattere notevolmente l'errore d predzone. Fgura 4- - Spazo bdmensonale prvo d struttura 7

8 Fgura 4- - Spazo bdmensonale con struttura lneare Lo spazo d Fgura 4-3 è caratterzzato dal fatto che la struttura non è ndvduable dal coeffcente d correlazone lneare, pratcamente nullo. Opportune trasformate delle varabl possono rcondurlo ad uno spazo con struttura lneare. uttava anche le varabl orgnal, a causa della correlazone non lneare, consentono gl utlzz che abbamo vsto nel caso d struttura lneare. Fgura Spazo bdmensonale con struttura parabolca 8

9 Fgura Spazo bdmensonale con struttura a "cluster" Lo spazo d Fgura 4-4 ha una struttura partcolare: s evdenzano nettamente tre grupp d oggett. Una struttura d questo tpo permette d utlzzare le varabl per stud d "clusterng", ovvero per ndvduare n un nseme d oggett nzalmente non dfferenzat grupp d oggett sml, "class". Conseguentemente nformazone analoga può essere utlzzata nella anals d classfcazone, n cu s dvde con opportune tecnche lo spazo, stablendo de "confn" che permettono la assegnazone d un oggetto d classe ncognta ad una delle class oggetto del problema. La Fgura 4-5 mostra un esempo d regola d classfcazone, con confn lnear tra le tre class. Fgura Spazo bdmensonale suddvso tra le vare class medante "confn" 9

10 Fgura Spaz d classe nello spazo bdmensonale La Fgura 4-6 llustra l'utlzzo della struttura a clusters per costrure de modell d classe, da cu s arrva a "spaz d classe". A dfferenza della semplce classfcazone l modellamento d classe prevede la possbltà che uno o pù campon non sano classfcat n nessuna delle class oggetto del problema. Ess sono degl "outlers". In generale un "outler" è un oggetto che non appartene ad una struttura o ad una substruttura (come nel caso d grupp d oggett), come llustrato nella Fgura 4-7. Fgura Oggett strutturat e outler Una pessma abtudne d ch lavora n elaborazone dat è la elmnazone d molt outlers n base a qualche test statstco. È bene al contraro, n prmo luogo cercare d capre l orgne del dato anomalo 0

11 (a volte può essere un errore d trascrzone), n secondo luogo valutare accuratamente l test utlzzato, n quanto molto frequentemente le potes alla base del test (p.e. normaltà) non sono rspettate. Nel caso della Fgura 4-8 abbamo un esempo d struttura mnma, due oggett. Quest non appartengono alla struttura de "quadr", ma sono molto vcn, "sml" e uno d ess può essere utlzzato per predre certe propretà dell'altro, che essendo descrtto da valor vcn delle varabl dovrà avere caratterstche sml. Una struttura con due sol oggett è ovvamente una struttura mal descrtta. uttava essa permette una delle operazon fondamental delle stratege chemometrche, la convalda, n cu un oggetto vene provvsoramente "cancellato" e con quell rmast s valuta la bontà della predzone d qualche caratterstca (p.e., la classe d appartenenza) dell'oggetto cancellato. Una stratega frequentemente utlzzata n convalda è detta "leave-one-out": consste nella rpetzone d tutta la anals chemometrca molte volte, ogn volta cancellando un oggetto e predcendone una opportuna caratterstca. La convalda così effettuata permette d valutare la bontà predttva del congunto varabl descrttrc-tecnca chemometrca. Fgura Struttura mnma

12 4. - ANALISI DELLE COMPONENI PRINCIPALI Vedremo ora alcun "strument" della chemometra, ncomncando dal pù mportante, la anals delle component prncpal, tecnca fondamentale nella anals d esplorazone, per la elmnazone d rumore, per la compressone della nformazone. 4.. Rotazon ortogonal Abbamo detto che una matrce quadrata L vene detta ortogonale quando la sua nversa è eguale alla trasposta: L MM L [4-] MM enendo presente la defnzone d matrce nversa L L L L I MM MM MM MM MM s deduce dall'equazone [4-] che L L I MM MM MM e così possamo rcavare le seguent CONDIZIONI d OROGONALIÀ: R rr s ha lr essendo [4-a] R rc 0 se r c s ha lr lc 0 essendo [4-b] e anche: R R l r lr lc 0 [4-c] r Le equazon precedent descrvono cosen drettor d un sstema d coordnate rettangolar (Cartesane) nello spazo R-dmensonale, dove gl angol d drezone vengono rfert ad un sstema rettangolare d rfermento (orgnale) d coordnate. La Fgura 4-9 permette, tramte un esempo bdmensonale (R=), d comprendere perchè agl element della matrce L vene assocato l sgnfcato d cosen drettor. Nella Fgura 4-9 l prmo asse ruotato forma con due ass orgnal gl angol e ; l secondo asse ruotato forma con gl ass orgnal gl angol e. Rsulta:

13 = = = e per cosen drettor (cosen degl angol che un asse ruotato forma con gl ass delle varabl orgnal) s ha: cos = cos cos = - sn cos = sn Fgura 4-9 Angol drettor della rotazone ed element (cosen drettor) d una matrce ortogonale. 3

14 Se l'ndce d colonna vene dentfcato con le varabl orgnal e quello d rga con le varabl ruotate, s costrusce la matrce de cosen drettor: L l l l l cos cos cos cos che n ogn rga ha cosen drettor d una varable ruotata relatvamente alle varabl orgnal, ed n ogn colonna cosen drettor della varable orgnale corrspondente per le varabl ruotate. Utlzzando le equazon d equvalenza de cosen s ottene: L cos cos cos sn cos cos sn cos l l cos sn Rsulta che: l l sn cos [4-3] l l l cos sn l l l sn cos l l l l l l cos sn ( sn cos ) 0 Le [4- abc] rsultano pertanto verfcate dalla potes che gl element della matrce sano cosen drettor.un esempo d rotazone ortogonale nello spazo d due varabl è llustrato nella Fgura

15 Fgura Oggett n uno spazo bdmensonale, prma e dopo rotazone ortogonale ntorno all orgne La Fgura 4- llustra come, nel caso R =, le coordnate d un punto generco nel sstema ruotato, y e y, sano ottenute dalle coordnate nel sstema nzale, e, medante le: y = cos + sn y = - sn + cos e pertanto, rcordando le [4-3], come: y l l y l l Le due espresson precedent possono essere rscrtte n forma matrcale, come y L,,, 5

16 Fgura 4- - Coordnate d un punto - (sstema orgnale) e y-y (sstema d ass ruotat). cos è la msura del tratto che collega punt ndcat con un punto verde. S not che nella rotazone la dstanza dall orgne non camba. È facle verfcare che anche la tracca ed l determnante delle matrc d varanza covaranza (anche quella rspetto all orgne) sono nvarant n rotazone: è ovvo che né la dspersone margnale totale (tracca) né la dspersone totale (determnante) possono cambare con una rotazone rgda che non camba la dstanza tra punt nello spazo. In generale, quando le varabl sono M, un punto con coordnate nel sstema orgnale ha nel sstema d coordnate ruotato, descrtto dalla matrce ortogonale L, le coordnate y L [4-4], M, M MM Verranno n seguto usat smbol X per la matrce de dat e per vettor de dat nello spazo orgnale delle varabl. I ndca l numero degl oggett. In questo spazo la matrce Z X X MM MI IM 6

17 è la matrce de quadrat delle devazon (devanze) dall'orgne, proporzonale alla matrce delle varanze-covaranze rspetto all'orgne, O : O MM [4-5] ZMM I Queste matrc sono analoghe alle matrc degl scart dalla meda D e delle relatve varanzecovaranze. V MM DMI D I IM In O abbamo moment del secondo ordne totale (m0,m,m0) nvece de moment central. Le varanze rspetto all'orgne sono poco utlzzate, e generalmente dat orgnal sono centrat n manera che la orgne concda con l punto descrtto da valor med delle varabl. In questo caso la matrce delle covaranze rspetto all'orgne concde con la matrce delle covaranze. 4.. Autovettor Z e O sono generalmente matrc non-dagonal. Cò sgnfca che esstono correlazon rspetto all'orgne (o correlazon semplcemente se dat sono centrat, come accade generalmente) tra le varabl. Se le varabl sono M, l numero delle varanze è M, l numero delle covaranze è M (M-) /: questo numero cresce con l quadrato del numero delle varabl M e dventa rapdamente molto grande. La nformazone è dspersone: una varable costante non porta alcuna nformazone; sono solo le varazon, le dfferenze che rscontramo a dare nformazone (s not che quando s parla d nformazone non s stablsce se essa è nformazone utle o nutle). In una usuale matrce delle covaranze, sa essa rspetto all'orgne o al centrode, la nformazone è descrtta da M varanze e da M (M-)/ covaranze: essa è qund descrtta da un numero d parametr molto elevato. Le covaranze 0 ndcano che una varable copa n parte nformazone portata da altre varabl: pertanto la presenza d covaranze 0 ndca che abbamo nformazone duplcata e descrtta da un numero eccessvo d parametr. uttava, per mezzo d una rotazone ortogonale (quale descrtta dalla [4-6]) s può ottenere un nuovo sstema d coordnate n cu dat ruotat: 7

18 S X IM IM X L IM MM S IM L MM [4.6] (dove l prmo pedce della matrce L s rfersce alle varabl orgnal, l secondo agl ass ruotat) presentano una matrce dagonale de quadrat delle devazon: Λ S MM MI S IM Gl element della matrce dagonale Λ MM sono dett valor propr o autovalor (valor propr, egenvalues) della matrce delle devazon. La matrce degl autovalor è l'unca ndcata con una lettera greca. alora con autovalor s ndcano le varanze d campone o le stme delle varanze d popolazone. Il procedmento per ottenere la matrce ortogonale L e la matrce S delle coordnate nel sstema ruotato è noto come rotazone degl autovettor (egenvectors, vettor propr). I nuov ass sono gl autovettor, cosen drettor sono carch (LOADINGS) delle varabl e le nuove coordnate sono gl SCORES degl oggett. S facca rfermento all'esempo bdmensonale (M=) mostrato nelle Fgure 4- e 4-3. Nella Fgura 4- sono rportat gl oggett le cu coordnate sono mostrate nella tabella seguente, sa rferte agl ass orgnal (X,Y), sa dopo una rotazone d 60 n senso antoraro. abella 4-- Dat bdmensonal per la rotazone degl autovettor: orgnal e ruotat d 60, orgnal e dopo centraggo. X Y X 60 Y 60 X c Y c X c60 Y c

19 Fgura 4-- Rotazone ntorno all orgne. X,Y: varanze rspetto all orgne sugl ass ruotat, *: covaranza. 9

20 Fgura 4-3- Rotazone ntorno al centrode. X,Y: varanze sugl ass ruotat, *: covaranza (verde). Scala espansa d un fattore 6 rspetto a quella della Fgura 4-. Nelle due fgure sono rportat gl andament delle varanze sugl ass X e Y e della covaranza va va che gl ass vengono ruotat ortogonalmente (coè mantenendos ortogonal) n senso antoraro. S not come le tre grandezze varno snusodalmente, con perodo d V sono valor dell'angolo d rotazone per cu la varanza su uno degl ass è massma, mentre è mnma quella sull'altro asse e CONEMPORANEAMENE la covaranza s annulla: la rotazone che fornsce questa trplce condzone è appunto quella che ndvdua gl autovettor della matrce delle devanze rspetto all'orgne (o autovettor della matrce delle covaranze rspetto all'orgne: a 0

21 causa della proporzonaltà llustrata dalla equazone [4.5] le due matrc hanno egual loadngs e scores proporzonal). S not ancora che è ndfferente (dal punto d vsta dello avere una varanza massma, una mnma e la covaranza nulla) se la varanza massma corrsponde all'asse ruotato X o all'asse ruotato Y, e se l'asse è dretto n uno o nell'altro de suo vers: la DIREZIONE degl autovettor NON HA IMPORANZA alcuna. Invertendo la drezone d un autovettore cambano d segno sa gl scores che relatv loadngs. La Fgura 4-3 dffersce dalla 4- n quanto gl stess dat sono stat traslat lungo gl ass n modo da far concdere la orgne con l punto descrtto dal valore medo delle due varabl orgnal (questa operazone è detta centraggo). L'angolo d rotazone per ottenere gl autovettor è nel caso della Fgura 4-3 dverso da quello relatvo alla Fgura 4-, così come sono dvers valor del massmo e del mnmo della varanza. Nel caso della Fgura 4-3 la varanza è quella che s calcola rspetto alla meda (momento centrale del secondo ordne) ed è (anche molto) mnore della varanza rspetto all'orgne, per un termne dpendente dalla dstanza della meda dall'orgne. In questo caso gl autovettor sono dett autovettor de dat centrat, o autovettor della matrce delle covaranze (se non s specfca che le varanze sono calcolate rspetto all'orgne s ntende parlare delle covaranze rspetto alla meda, CENROIDE o BARICENRO, de dat). Se dat sono stat sottopost a centraggo e standardzzazone (autoscalng, sottrazone della meda d colonna o centraggo e dvsone per la devazone standard, ved n seguto), s ottengono altr autovettor, dett autovettor della matrce de coeffcent d correlazone. Gl autovettor della matrce delle covaranze (dat centrat) e quell della matrce de coeffcent d correlazone e sono dett COMPONENI PRINCIPALI. In ogn caso gl autovettor cu cosen drettor sono contenut nella matrce de LOADINGS L vengono ordnat n modo che per gl autovalor sulla dagonale della matrce m < m+ Λ MM sa (la notazone mm vene spesso sosttuta con la notazone abbrevata m che s rfersce al vettore degl autovalor, costtuto dalla dagonale della matrce La somma Λ MM ).

22 M m s m m m M m I M m I è l quadrato della devazone totale della matrce de dat dalla orgne, devanza totale o somma dell'errore quadratco, quadrato della norma. Pochè è la somma de quadrat delle dstanze dall'orgne, rmane nvarata con qualsas rotazone ortogonale. La dspersone (nformazone) è nvarante per rotazone ortogonale. La rotazone degl autovettor non camba l'nformazone, ma la dspone dversamente da quella orgnale, n modo che è molto pù facle osservarne le caratterstche pù mportant. utte queste consderazon sgnfcano che gl autovettor sono varabl INCORRELAE, combnazon lnear, per mezzo de loadngs, delle varabl orgnal e che l prmo autovettore è l'asse con la varanza maggore, seguto dal secondo e così va, mentre l'm-esmo autovettore è l'asse con la varanza mnma. A causa delle due caratterstche degl autovettor, ncorrelazone e varanza ordnata, la rotazone degl autovettor è una tecnca della massma mportanza nell'anals multvarata de dat. Essa permette d ottenere da un grande numero d varabl pù o meno correlate (varabl orgnal) che portano frequentemente, propro a causa della correlazone, nformazone parzalmente duplcata, un numero rstretto d varabl (autovettor), cascuna delle qual porta una nformazone esclusva, non duplcata dagl altr autovettor che sono ncorrelat. Inoltre prm autovettor portano la maggor parte della nformazone (mentre le varabl orgnal portano, a pror, cascuna /M-esmo della nformazone totale, l prmo autovettore porta una frazone λ/λ relatvamente grande della nformazone totale). In tal modo anche la nformazone utle (a fn d un partcolare problema) è frequentemente vsualzzable con un grafco de prm due-tre autovettor, se le varabl msurate sono state scelte n modo da essere rlevant per la soluzone del problema. Infne gl ultm autovettor (m prossmo ad M) contengono generalmente una nformazone che non solo è pccola (autovalor pccol) ma è anche nutle (rumore). Il non consderarl equvale ad elmnare una parte del rumore dalla matrce de dat. Per un sngolo oggetto, rappresentato dal vettore colonna M la [4-6] può essere scrtta come:

23 s E E s M M L EM M L E s L ME L M ME s E EM Il pedce E s rfersce agl ass ruotat Modo R e modo Q Un vettore d dat rga, -esma rga della matrce de dat X, rappresenta le coordnate dell'esmo oggetto nello spazo M-dmensonale delle varabl. Questo è l modo R d "vedere" l set de dat. Il vettore d dat colonna, m-esma colonna della matrce de dat, rappresenta nvece le coordnate della m-esma varable nello spazo I-dmensonale degl oggett. Questo è l modo Q, equvalente a consderare una nuova matrce d dat, trasposta d quella orgnale, dove nuov oggett sono le vecche varabl e le nuove varabl sono vecch oggett. La Fgura 4-4 mostra la rappresentazone nello spazo R, la Fgura 4.5 mostra la rappresentazone nello spazo Q della matrce: Professore A Professore B Professore C Studente Studente Studente In questo caso l modo R sgnfca consderare gl student qual oggett, caratterzzat cascuno da vot ad ess attrbut da professor (varabl); nel modo Q sono oggett professor, e vengono caratterzzat da vot che da ess hanno rcevuto gl student (varabl). 3

24 Fgura Rappresentazone de tre student nello spazo de tre professor Fgura Rappresentazone de tre professor nello spazo de tre student Nel modo R vengono evdenzate le dfferenze/smltudn tra student, nel modo Q quelle tra professor: n ogn "modo" s studano le dfferenze/smltudn tra oggett spegandole con valor delle varabl. 4

25 La matrce delle devanze nel modo Q è data da: Z X X I I IM MI e da essa s ottene la matrce delle varanze-covaranze rspetto all'orgne nel modo Q: O I I M Z I I La rotazone degl autovettor dà luogo ad una matrce de loadngs nel modo Q, R, ed una degl scores nel modo Q, F. F X R MI [4-7] M I I I La somma degl element sulla dagonale della matrce dagonale degl autovalor nel modo Q, Λ II, è la stessa,, della somma corrspondente della matrce Λ MM, che è la somma totale de quadrat delle dstanze dall'orgne. La dmensonaltà vera dello spazo della nformazone, sa esso vsto n modo R o n modo Q, dpende dal mnore tra I e M. S consder nfatt un caso con oggett e M> varabl: due oggett nseme all'orgne defnscono un pano, e pertanto quale che sa l numero delle varabl la nformazone è bdmensonale. Se le varabl vengono centrate la nuova orgne è a metà della retta che congunge due oggett: questa retta racchude ora tutta l'nformazone che è undmensonale (l centraggo ha dmnuto d l numero de grad d lbertà). I prm M element nella dagonale d Λ II sono, quando I>M (l caso n cu l numero degl oggett I è maggore d quello delle varabl M è puttosto frequente, ma non è raro l caso nverso, la cu frequenza è n netto aumento a causa dello svluppo d tecnche strumental che permettono d determnare moltssme varabl su ogn oggetto), gl stess degl element corrspondent d. Gl autovalor con >M sono null. 5 Λ MM Questo sgnfca che alcune, (I-M), drezon nello spazo Q sono senza dspersone, coè senza nformazone. In altre parole, le M varabl caratterzzano un pano M-dmensonale nello spazo I- dmensonale degl oggett.

26 Questo pano M-dmensonale spega l'ntera varanza, n modo tale che gl autovettor devono gacere n questo perpano. Così l'equazone [4-7] dventa F X R MM M I I M Quando l numero delle varabl è superore a quello degl oggett, M>I, allora è λm=0 per m > I e la formula per calcolare gl scores deve essere scrtta come: S I I XIM LMI Le relazon tra gl scores ed loadngs n modo R e gl scores ed loadngs n modo Q sono le seguent (E è l numero degl autovettor, mnmo tra M ed I): S L / I E R I E EE / M E FM E EE [4-8] La matrce de dat, rcordando la [4-6] nella forma S I E XIM LM E può essere espressa come prodotto degl scores per loadngs: IM [4-9] I E E M X S L forma che evdenza la decomposzone blneare della matrce de dat, e che s presta alla seguente rappresentazone (molto utle n cas pù compless): = L X S Sosttuendo nella [4.9] la prma delle [4-8] s ottene: 6

27 X IM S IE L EM R IE Λ / EE L EM espressone che fornsce la cosddetta "Sngle Value Decomposton" (SVD) della matrce de dat. Il seguente è un esempo a bassa dmensonaltà (I=, M=), che mostra la proezone su autovettor ne mod R e Q. Varable A Varable B Oggetto a X IM Oggetto b X MI Z Oggetto a Modo R Λ ModRQ Oggetto b / Λ Mod RQ Z Varable A Varable B ModoQ Λ / ModRQ L R S F

28 Le Fgure 4-6 e 4-7 mostrano la rappresentazone nello spazo R e Q della matrce X. Le fgure rappresentano gl oggett e le varabl nello spazo orgnale e nello spazo ruotato. Fgura Modo R Nella Fgura 4-6 a snstra è llustrato lo spazo R, usuale, con gl oggett a,b. Le varabl A,B sono ndcate con l valore de loro cosen drettor. La varable A, per esempo, ha coseno drettore sull asse A e coseno drettore 0 sull asse B. A destra è vsualzzata la drezone degl autovettor, le coordnate dell oggetto a sugl autovettor, e loadngs della varable A. La rappresentazone n modo Q (Fgura 4-7) ha come oggett A,B e come varabl a,b. Le coordnate d ogn oggetto sono sulle rghe della matrce de dat trasposta. Le varabl a,b (che n modo R erano gl oggett) sono rappresentate da loro cosen drettor (,0) e (0,). La Fgura 4-8 mostra, nello spazo ruotato degl autovettor, gl scores nel modo R (scores degl oggett) e nel modo Q (scores delle varabl): questa è una rappresentazone n modo QR. Analoga (cambano solo le scale) è la rappresentazone contemporanea d scores e loadngs (bplot). 8

29 Fgura Modo Q Fgura Rappresentazone n modo QR Quest tp d rappresentazone degl oggett e delle varabl contemporaneamente sono molto utl per rlevare le relazon tra oggett e varabl quando l numero degl oggett (I) e/o delle varabl (M) è elevato. Nella Fgura 4-8 s vede che gl oggett a e b corrspondono a valor postv delle varabl A e B, ma b è "pù vcno" alle varabl (valor alt delle varabl) e, tra le varabl, è "pù vcno" ad A, cò dmostra che l valore elevato della varable A è responsable della poszone d b. 9

30 4..4 Fattor astratt e real Nella Fgura 4-9 chmc possono rconoscere l dsegno famlare de sstem a tre component. Nel grafco trangolare le "varabl" sono ndvduate dalla proezone degl ass orgnal nello spazo trdmensonale. Esse (rappresentate con una sere d tre rettangol nella Fgura 4-9 n basso) sono anche nterpretabl come oggett potetc, cascuno con l 00% d uno de component. Fgura Rappresentazone trdmensonale d un sstema a tre component (sopra) e grafco trangolare corrspondente In realtà, quando le percentual de tre component, X,Y,Z, vengono msurate, la loro somma non è esattamente, così un campone (oggetto) rappresentato dal valore delle tre varabl (X,Y,Z) non cade esattamente nel pano +y+z=. In questo caso, dopo l centraggo delle varabl, la proezone sugl autovettor fornsce un pano vcno al pano +y+z= come pano della massma varanza (descrtto da due autovettor con massmo autovalore). La Fgura 4-0 mostra l grafco degl autovettor n modo QR della matrce X: Componente X Componente Y Componente Z Campone a Campone b Campone c Campone d

31 Fgura Grafco degl autovettor n modo QR Nella Fgura 4-0 punt che rappresentano le varabl sono stat unt da una lnea, n modo da evdenzare l'analoga con l grafco trangolare de sstem a tre component. Gl error che rendono le somme d rga della matrce X dverse da 00 fanno sì che alcun punt rappresentant gl oggett cadano fuor dal trangolo, ma n poszone tale da rendere evdente la nterpretazone. alora, anche quando le varabl sono pù d tre, ma rsultano raggruppate, s usa congungere con lnee grupp d varabl, ottenendo drezon a cu s può dare un partcolare sgnfcato. Gl autovettor sono fattor astratt, matematc. La nterpretazone basata sulla conoscenza chmca permette d raccordarl con fattor chmc concret. Senza questa fase d nterpretazone chmca non s può parlare d chemometra. La poszone degl oggett e delle varabl nel modo RQ non necessta d ulteror comment. S può aggungere, però, che le varabl v appaono come "oggett potetc", allo stesso modo n cu n un grafco a tre component vertc del trangolo s possono consderare campon con 00% X, 00% Y e 00% Z, rspettvamente. Nello stesso modo gl oggett possono essere consderat come "potetche varabl": quando s sosttuscono alle "vecche" varabl gl oggett b, c, d usat come "nuove" varabl, s ottene la Matrce Y: Nuova var. (oggetto b) Nuova var. (oggetto c) Nuova var.3 (oggetto d) Oggetto a Oggetto b 0 0 Oggetto c 0 0 Oggetto d 0 0 che vede l'oggetto a nterpretato come combnazone degl oggett b,c,d. 3

32 4..5 Component prncpal C s rfersce generalmente agl autovettor sgnfcatv della matrce de coeffcent d correlazone (o autovettor de dat autoscalat) e a quell de dat centrat come alle Component Prncpal de dat. Gl autovettor sgnfcatv sono quell assocat al grado d struttura dello spazo delle varabl: se non v è struttura, come nel caso d tre varabl ncorrelate con dstrbuzone bvarata normale, dopo aver autoscalato dat l'nseme degl oggett può essere vsto come una "palla" nello spazo trdmensonale; n una palla non v è una drezone d massma varanza, qund non v è una prma componente, non v sono component sgnfcatve. Se dat sono dvs n categore possamo avere le component prncpal generalzzate, o le component prncpal d ogn categora, operando rspettvamente su tutt dat, o solamente su dat d una categora, sa per la operazone d autoscalng (ved sotto) che per quella seguente d calcolo degl autovettor. Il numero delle component sgnfcatve vene ottenuto medante opportune tecnche statstche. Le component prncpal (generalmente le prme due) sono largamente utlzzate per la vsualzzazone della nformazone. Al grafco suole essere assocata la frazone d varanza assocata alle component utlzzate, p.e. (. Le Fgure da 4- a 4-5 llustrano esemp d vsualzzazone d nformazone chmca complessa. La Fgura 4- s rfersce ad un set d dat mportante n quanto utlzzato nel 936 da R.A.Fsher nel lavoro con cu l grande statstco ntrodusse l anals d classfcazone multvarata. S tratta d 50 campon d Irs (tre varetà: Vrgnca, Setosa e Verscolor) raccolt nel parco della Gaspese n Canada. 3

33 R.A.Fsher Fgura 4- Prme due component prncpal del set IRIS Fgura 4- - Campon d caffè, vsualzzat n bplot con nom delle varabl msurate (sono ndvduabl charamente la quanttà d estratto, l acdtà lbera, l peso medo del chcco). Autovettor della matrce delle covaranze rspetto all orgne. La Fgura 4- s rfersce, come le due seguent, a campon d caffè Arabca e Robusta provenent da Paes dvers d Amerca centrale e del sud, Afrca ed Asa. La dfferenza è dovuta al tpo d matrce 33

34 delle varanze. Quando sono utlzzat dat orgnal, la varanza delle varabl dpende dal loro valore massmo, n questo caso molto elevato per l peso del grano, espresso n mllgramm, seguto dalla quanttà d estratto. Nella Fgura 4.3 la matrce è quella delle varanze-covaranze, corrspondente a dat centrat. Le varabl pù nfluent sono quelle con l valore pù elevato d ntervallo (range). Infne la Fgura 4-4 s rfersce alla matrce de coeffcent d correlazone, corrspondente a dat autoscalat. utte la varabl hanno varanza untara, tutte nfluscono, pù o meno, sulle component prncpal. Le prme due fgure corrspondono ad una elaborazone errata, sa perché vsualzzano n realtà solo una parte della nformazone, sa perché gl scores sono dmensonalmente senza senso. La Fgura 4-4 spega che campon d Robusta sono caratterzzat da alt valor d caffena, d acdtà e d contenuto n cloro acd, mentre gl Arabca sono pù grass e con pù trnonellna. La Fgura 4.5 llustra la stagonatura del Grana padano. Aumendo l età quas tutt gl ammnoacd lber aumentano. Fgura Campon d caffè, vsualzzat n bplot con nom delle varabl msurate (sono ndvduabl charamente l contenuto n grass, l acdtà lbera, l peso medo del chcco). Autovettor della matrce delle covaranze. 34

35 Fgura Campon d caffè, vsualzzat n bplot con nom delle varabl msurate. Autovettor della matrce de coeffcent d correlazone (dat autoscalat). Fgura Bplot relatvo alla determnazone degl ammnoacd lber n campon d Grana Padano (86 campon dvs n class d stagonatura: : 3 mes, : 7 mes; 3: 9 mes, ecc.). Dat autoscalat. 35

36 4.3 - IL CALCOLO MARICIALE IN CHEMIOMERIA A causa della natura multvarata de dat elaborat n chemometra, l calcolo matrcale è estremamente mportante nelle tecnche chemometrche. In questo captolo vedremo alcun esemp delle potenzaltà del calcolo matrcale, per alcun problem molto semplc prncpal. e per l algortmo NIPALS che permette l calcolo delle component 4.3. Soluzone d un sstema d R equazon n R ncognte Il pù semplce sstema d equazon è quello d due equazon n due ncognte, che usualmente s scrve come: a b y c d e y f e y sono le ncognte, mentre a,b,..f sono termn not. Vedamo come s mposta e rsolve l sstema n algebra matrcale. Per prma cosa l sstema vene espresso come prodotto d matrc: C, a b, t, c c d y d C t,,, S moltplchno ambo termn per la nversa d C: C C C t,,,,, C t,,, Il prodotto della nversa per la matrce nvertta dà la matrce denttà, che è come lo scalare quale moltplcatore nell'algebra ordnara e vene pertanto semplfcata. La soluzone appare a prma vsta pù complessa d quella ordnara, n cu s rcava una delle ncognte n funzone dell'altra da una delle due equazon e la s sosttusce nell'equazone rmasta. Ma la soluzone sopra vsta s può applcare sstem d molte equazon n molte ncognte, C t [4-0] R, RR R, 36

37 e rsolverl molto rapdamente graze alla veloctà con cu calcolator nvertono le matrc. Se la matrce de coeffcent non è nvertble vuol dre che una delle equazon è proporzonale all'altra, cò che mpedsce comunque la soluzone. Vedamo un esempo numerco: 3 5 C,, t, 4 y C, , *5 0.6*0 0.*50.4*

38 4.3. Soluzone d un sstema d M>R equazon n R ncognte Un sstema d R equazon n R ncognte è suffcente (se non v sono equazon combnazone lneare delle altre); un sstema d M>R equazon n R ncognte è rdondante. Lo s può rsolvere elmnando alcune equazon superflue, cò che comporta una scelta, e qund crter d selezone. Lo s può agevolmente rsolvere utlzzando tutte le equazon (tutta la nformazone) con l'algebra matrcale, n cu l sstema s presenta come: C t MR R, M, Pochè la matrce de coeffcent non è quadrata, essa non può essere nvertta. S moltplcano allora ambo termn per la trasposta d C: RM MR R, RM M, C C C t La matrce C RM C MR è una matrce quadrata, e pertanto generalmente nvertble. Moltplcando ambo termn per la nversa s ottene a snstra la matrce denttà e qund la soluzone: R, RM MR RM M, C C C t [4-] Confrontando la [4-] con la [4-0] appare che CRM CMR C RM ha sosttuto la semplce matrce nversa della [4-0]; per tale ragone l prodotto ha l nome d nverso generalzzato e s ndca con: C C C C RM RM MR RM Vedamo un esempo numerco con M=0 e R=. 38

39 C , 0, t = C C C C t C R, RM MR RM M,, 0 C0,, 0 C0, , 0 0,, 0 C C C La soluzone è:, In essa trovano blancata mportanza tutte le possbl combnazon a due a due d equazon, ogn combnazone essendo caratterzzata da un determnante della matrce de coeffcent che ne msura la bontà. 39

40 4.3.3 Regressone lneare per l'orgne Nella regressone lneare per l'orgne l'ncognta è una sola, la stma b della pendenza. Spermentalmente s ha sempre un sstema rdondante. Se abbamo I punt spermental possamo scrvere: yi I b,,, Come n tutt sstem rdondant non s può rcorrere alla semplce nversone, ma occorre calcolare l'nverso generalzzato:,i y I,,I I, b,,i I,,I y I, b, S può dmostrare che la soluzone del calcolo matrcale è quella de mnm quadrat. Ecco un semplce esempo numerco: , y , Il prodotto d per è semplcemente la somma de quadrat, 385, e l suo nverso è : questo è l'nverso (denomnatore) del momento del secondo ordne della X. S rconosce faclmente n, I yi, l momento d ordne per ambedue le varabl. L'nverso generalzzato (rportato su due rghe): "pesa" cascuno de valor della Y proporzonalmente al valore della X, permettendo d trovare una soluzone, b =.008 che è la meda ponderata delle 0 soluzon possbl utlzzando ogn volta una sola equazone. 40

41 4.3.4 Regressone lneare generca Nella regressone lneare non vncolata v sono due ncognte, le stme a,b della ntercetta e della pendenza. Anche n questo caso spermentalmente s ha sempre un sstema rdondante. Se abbamo I punt spermental possamo scrvere: y X b I, I,, Questa equazone matrcale può a prma vsta apparre ncongrua. Ma s nterpret come segue: b è l vettore colonna delle due ncognte, ntercetta e pendenza., X I, è una matrce con due colonne: la prma è una colonna d, la seconda contene la usuale X della regressone. L'esempo numerco charrà ulterormente. Come n tutt sstem rdondant non s può rcorrere alla semplce nversone, ma occorre calcolare l'nverso generalzzato: X, I y I, X, I XI,b, b X, I XI, X, I yi,, 3 X 6, y , X, I XI, X, I X, I X X, I X I, I, Infne b, rsulta calcolato come (la ntercetta a) e (la pendenza b). 4

42 4.3.5 Regressone lneare multpla La regressone lneare multpla nota con gl acronm MLR (Multple Lnear Regresson) e OLS (Ordnary Least Squares) è la tecnca multvarata n cu una varable rsposta y è correlata con molte varabl predttrc X. La soluzone è del tutto smle a quella ottenuta per la regressone ordnara con una sola X: X M, I y I, X M, I X I,M M, X M, I XI,M X M, I yi, bm, b La matrce X comprende una prma colonna d se l pano o perpano d regressone non è obblgato per l'orgne. Il vettore b è l vettore de coeffcent d regressone: esso ha come prmo elemento l'ntercetta, se è stata aggunta la colonna d, e qund le vare pendenze. Il problema centrale della regressone multpla è la nversone della matrce prodotto, matrce delle devanze: essa non può essere nvertta se v è collneartà tra predttor X (proporzonaltà, combnazon lnear); quando può essere nvertta s hanno cas n cu l determnante è pccolo, cò che corrsponde ad una soluzone nstable, con elevato errore d predzone Rotazon oblque Supponamo d avere sette oggett descrtt da due varabl, quell della matrce X sottostante, mostrat nela Fgura 4-6 a snstra Possamo sceglere due oggett (5,3 e,6) come drezon per due nuov ass. Quest nuov ass non sono evdentemente ortogonal nello spazo delle varabl orgnal. Dopo la rotazone non ortogonale due oggett scelt dvranno esere uno sulla nuova ascssa (e qund con ordnata zero) e l altro sulla nuova ordnata (e qund con ascssa nulla). Possamo anche mporre 4

43 l valore della ascssa del prmo e della ordnata del secondo, p.e. le coordnate,0 per l prmo e 0, per l secondo. Fgura 4-6 Rotazone oblqua La matrce d rotazone R deve essere tale da produrre le coordnate desderate per due oggett scelt: R, Questa equazone matrcale ha una soluzone quando due oggett non sono proporzonal (n questo caso ndvduerebbero un unca drezone): R, Pertanto R può essere utlzzata per far ruotare tutt gl oggett:

44 44 La Fgura 4-6 mostra a destra gl oggett nello spazo ruotato nel quale sono rportate anche le drezon delle varabl orgnale, che sono state deformate nel senso che non sono pù a 90. Se le coordnate de due oggett nello spazo ruotato non sono egual ad uno, allora: y , R la matrce d rotazone è: y R, Mscele L esempo precedente è la base per l trattamento delle mscele (Fgura 4-7). Fgura 4-7 Oggett pur e loro mscela nello spazo d due varabl La rotazone oblqua nella drezone de due oggett pur A e B descrve le loro mscele, quale é C, come frazon de due oggett pur. L equazone 0 0 y y, a a b b R mpone che dopo la rotazone B abba coordnate,0 e A coordnate 0,. La matrce delle coordnate é:

45 b a y y b a Il suo nverso é:: Postmoltplcando l vettore rga delle coordnate della mscela C s ottene la frazone 0.45 per B e per A (la somma é, come necessaro quando non v è dluzone). Le coordnate dopo la rotazone oblque sono le frazon degl oggett pur nella mscela (se n questo sono state mposte per B le coordnate,0 e per A le coordnate 0,, Fgura 4-8). Fgura 4-8 Oggett pur e loro mscela nello spazo ruotato Lo stesso procedmento s applca al caso d mscele dlute (Fgura 4-9). Fgura 4-9 Oggett pur e mscele (anche dlute) nello spazo orgnale ed n quello ruotato 45

46 4.3.8 Algortmo NIPALS I pù antch algortm per l calcolo delle component prncpal sono descrtt n NIPALS (Nonlnear teratve partal least squares), deato da Herman Wold, lavora drettamente sulla matrce de dat (generalmente dopo un opportuno pretrattamento come centraggo o autoscalng d colonna). [N] = S scegle un oggetto lontano dall orgne [N] l L oggetto selezonato defnsce la prma approssmazone dell autovettore, la drezone dall orgne all oggetto. S rpete da [N3] a [N5] sno a w pratcamente costante [N3] [N4] s X l S calcolano gl scores w X s Calcola Npals weghts medante regresson margnal d ogn colonna s s d X sugl scores [N5] w l Normalzzare weghts ottenendo loadngs per l cclo successvo nella w rpetzone, e s torna a [N3] [N6] X IV X s l S aggorna la matrce de dat sottraendo la proezone sulla IV I V componente (calcolo de resdu) [N7] S torna a [N] per l calcolo della componente successva L algortmo Npals vene llustrato con un semplce esempo bdmensonale e dat orgnal. Il grafco n Fgura 4-30 è predsposto per una terza dmensone. 46

47 Fgura 4-30 Punto [N] dell algortmo NIPALS Il prmo passo d NIPALS approssma l (prmo) autovettore con la drezone dall orgne (l centrode per dat centrat o autoscalat) verso un oggetto, scelto a caso o l pù lontano dall orgne. In questo esempo è stato scelto l oggetto 4. Fgura 4-3 Punto [N] dell algortmo NIPALS 47

48 y l y y y l y l y l s La prma approssmazone dell autovettore è la terza dmensone nella Fgura successva. Questo terzo asse, con cascuna delle varabl (X o Y) orgna tant pan margnal quante sono le varabl. Fgura 4-3 Punto [N3] dell algortmo NIPALS In cascuno de pan margnal s calcola la retta d regressone vncolata all orgne della corrspondente varable sugl scores. Per la varable X: s w ˆ Il coeffcente d regressone è calcolato come: I I s s w o generalmente, per la varable Xv, medante l seguente prodotto matrcale, dove é l vettore d I rghe v-esma colonna della matrce de dat, e s è l vettore degl I scores sulla prma approssmazone dell autovettore: s s s v w

49 Così l vettore de V (numero delle varabl) weghts s ottene come: w X s s s Fgura 4-33 Punto [N4] dell algortmo NIPALS I coeffcent d regressone (weghts) delle V regresson margnal sono trasformat n cosen drettor medante normalzzazone (normalzzazone sgnfca che la norma eucldea, radce della somma de quadrat, dventa untara): l v w V v v w v Quest cosen drettor sono loadngs della seconda approssmazone dell autovettore Fgura 4-34 Punto [N5] dell algortmo NIPALS 49

50 Fgura 4-35 Punto [N3] dell algortmo NIPALS, nzo seconda terazone Con la seconda approssmazone degl scores, s rpetono le regresson margnal: 50

51 Fgura 4-36 Punto [N4] dell algortmo NIPALS, seconda terazone e s contnua con le terazon sno a quando I loadngs sono pratcamente costant S rcord l equazone generale della decomposzone lneare: X S IV IV L VV Per la prma componente: s X I IV l V S consder l prodotto X VI s I X VI X IV l V D VV (D è la matrce d dspersone) S rcord che: l V VV S S L VI IV VV D VV L VV E pertanto per la prma componente: l D lv DVV lv V VV V e, n forma matrcale: l s I X IV w w V X IV X s s s VI I I I w ende a loadngs ende a ende all autovalore 5

52 Per ottenere l secondo autovettore l nformazone del prmo è cancellata dalla matrce de dat (punto [N6] dell algortmo), e l terazone è rpetuta su resdu. R IV X IV s l I V Con resdu s rtorna al punto [N] per l calcolo della componente successve, sno a quando una predetermnata frazone della varanza orgnale della X è conservata nelle component calcolate. Infatt la X S IV IV L VV può essere vsta come: X IV s I V l s I l V s I3 l 3V s I4 l 4V... con la X costtuta da tant termn quant sono gl auto vettor Dat mancant Una caratterstca mportante e unca dell algortmo NIPALS è che esso può lavorare anche quando nella matrce de dat mancano alcun dat (buch, holes, generalmente ndcate con l valore codfcato -999). L algortmo è leggermente modfcato: (a) Approssmazone nzale de loadngs: l V ( Vj jv Vj ) / Quest prodott sono calcolat senza dat mancant (le V coordnate dell oggetto d partenza j, che non deve avere dat mancant, vengono normalzzate) (b) S rpete sno a l costant (b) calcolo degl scores: s I X l l IV V Vl V Questo prodotto è quando non v sono dat mancant (b) calcolo de weghts: w V X s s VI I IsI Ambedue I prodott calcolat senza I dat mancant 5

53 w V (b3) Normalzzazone de weghts: lv / ( w w ) FINE dell terazone (b) (c) Aggornamento d X (calcolo de resdu senza dat mancant): V V X IV X IV s l I V (d) Rtorno al punto (a) per l calcolo dell autovettore successvo, sno a quando una predetermnata frazone della varanza orgnale della X è conservata nelle component calcolate. Le Fgure 4-37 e 4-38 llustrano grafcamente come NIPALS lavora n presenza d un dato mancante. Fgura 4-37 Calcolo dello score d un oggetto quando non v sono (snstra) dat mancant, e quando(destra) manca l ordnata Y XIVl V La equazone n (b) si vene utlzzata per ottenere lo score dell oggetto senza l valore l l V V della Y. Nell esempo é V =, e due loadngs sono l e ly. Il dato mancante vene ottenuto dal prodotto dello score e del corrspondente loadng: s ly. 53

54 Fgura 4-38 L operazone nel caso d un dato mancante llustrata con l esempo usato per spegare l algortmo NIPALS, elmnando la X dell oggetto 3 54

55 4.4 - SCALING, PESI, RASFORMAE 4.4. Scalng L'nformazone chmca è fornta normalmente sotto forma d varabl quanttatve, dove l valore della varable è l rapporto tra la grandezza della quanttà msurata e la grandezza dell'untà d msura, una grandezza d rfermento per la varable. In questo modo valor d una varable hanno un sgnfcato esatto e non s deve spegare ogn sngolo valore. C s rfersce a queste varabl come a varabl msurate su una scala artmetca. Vengono utlzzate anche varabl quanttatve che n realtà sono ottenute come dfferenza tra due valor d una varable msurata su una scala artmetca: un esempo è la temperatura centgrada che è la dfferenza tra due valor della temperatura assoluta. A volte l'nformazone chmca è nomnale: bnara (come le varabl del tpo "Presenza del gruppo -CH n poszone "), o qualtatva (come la varable "Colore" con valor: rosso, verde, blu, ecc.). In quest cas l'nformazone è ancora mmagazznata come numero. È necessaro un codce d nterpretazone per cascun valore (come 0 = assente, = presente, 0: rosso, : verde, : blu): quest sono cas delle varabl con scala nomnale. Alternatvamente s può aver bsogno d una regola d nterpretazone generale basata su una scala ordnale (come: valor maggor sgnfcano temperatura maggore, qund è freddo, tepdo, 3 caldo). A volte le quanttà chmche sono mescolate con quanttà non chmche msurate su una scala nomnale o ordnale, come nel caso de puntegg assegnat da una gura (accettable/rfutato), o nel caso d dat clnc (dove una varable ordnale può essere utlzzata per mostrare qualtatvamente la gravtà d una malatta, o la frequenza d un sntomo). alora le varabl qualtatve possono essere trasformate n ndc d categora, o una varable ordnale può essere usata per dvdere l set de dat n categore per scop d classfcazone. Rmanendo nell'ambto della chmca clnca, notamo che le categore dervano da una o pù stuazon defnte d malatta, dove varabl quanttatve non sono dsponbl o sono costose o l'ottenerle comporta un danno per l pazente, o sono sconoscute. Così, s può avere la categora delle persone normal e quella delle persone con un tpo d malatta, malat. La varable normale/malat può essere trasformata n ndce d categora /. S può supporre, tuttava, che dalla 55

56 bopsa s potrebbe ottenere una varable quanttatva nvece d una descrzone qualtatva. Pertanto, nel campo dell'anals de dat, s può paragonare l ruolo della anals d classfcazone a quello dell'anals chmca qualtatva nel campo delle msure chmche. L'anals d regressone è l'anals de dat quanttatva. A volte, n questo campo dell'anals multvarata de dat s possono usare le varabl ordnal nello stesso modo delle varabl contnue; tuttava, frequentemente, le varabl qualtatve provocano numerose dffcoltà nell'anals de dat. Quando s è vcno al lmte d determnazone, le varabl chmche quanttatve contnue dventano varabl dscontnue (qualtatve) ed ntroducono dffcoltà naspettate nell'anals de dat. alvolta quando è presente una spece chmca a lvello d componente mnore l rsultato è presentato nella forma: 0,, dvson. In questo caso la "clusterng" anals potrebbe dare tre grupp corrspondent alle dvson 0,,, che sono senza sgnfcato reale e che possono nascondere grupp real. S potrebbe rprstnare la varable quanttatva aggungendo al numero delle dvson un valore casuale preso da una dstrbuzone d probabltà rettangolare nell'ntervallo da -0.5 a 0.5 e ponendo ugual a zero gl eventual valor negatv ottenut dalla aggunta del valore casuale al valore orgnale zero. Generalmente set d dat che contengono dat quanttatv e qualtatv rchedono tecnche specfche o trattament specal. Qund, pochè dat chmc analtc normalmente sono dat quanttatv, verranno consderat set d dat con varabl con scala artmetca. A questo punto c'è un secondo tpo d dffcoltà, coè l'untà d msura. Spesso, le varabl msurate hanno dfferent untà d msura; d'altra parte, anche l valore d varabl dello stesso tpo (p.e., masse) può essere rferto ad un dfferente multplo dell'untà SI (Kg, g, mg); n chmca è frequente l'uso delle concentrazon, ed chmc hanno per queste molte untà, dalla molartà a ppm. I metod dell'anals multvarata de dat s basano sulla uguaglanza e sulle dfferenze tra gl oggett e le varabl. Quando la dfferenza tra due oggett è pccola, gl oggett sono sml: appartengono alla stessa categora oppure s può dre che non c'è dfferenza sgnfcatva nelle loro propretà (quale l grado d malatta, quando l'oggetto è l campone utlzzato nell'anals chmco clnca). Questo concetto d uguaglanza-dfferenza-smltudne sembra banale, ma nello studo d ogn set d dat bsogna specfcare l sgnfcato d queste tre parole, pochè l rsultato dell'anals de 56

57 dat dpende molto da questo sgnfcato. La percezone delle dfferenze-smltudn, l rconoscmento d modell comun o dfferent è un'attvtà umana normale. D conseguenza s possono trovare esemp per capre la smltudne semplcemente consderando la nostra attvtà gornalera. Prmo: l concetto d smltudne dpende dallo scopo dell'anals de dat. S possono paragonare due bottgle contenent due vn e dre che due vn sono sml perchè sono: banch, fredd, frzzant, d prezzo elevato, frances, o che sono dssml perchè la prma bottgla è pena, la seconda mezza pena, l prmo vno è dolce, l secondo secco, l prmo vno banco è gallo oro, l secondo gallo palldo. Secondo: quando s ha una varable artmetca, la smltudne tra due oggett è ottenuta come una msura nversa della dfferenza tra due valor della varable relatvamente all'ntervallo permesso della varable nel problema partcolare. Così, due automobl, cu prezz sono 0000 e 000 hanno prezz molto sml, perchè un'automoble può costare da 5000 a : ambedue le nostre automobl sono d costo relatvamente basso. Due tazze d caffè, che costano 0.8 e 3, sono molto dssml, perché quest valor sono agl estrem dell'ntervallo per l prezzo d una tazza d caffè. La smltudne vene resa manfesta quando s rportano dat su un grafco, dove s può paragonare mmedatamente la dfferenza tra valor con l'ntervallo permesso e la smltudne vene percepta come una dstanza nversa. Quando le varabl sono pù d una, la dstanza tra due oggett rsulta da pù dstanze sugl ass e, per dare alla dstanza complessva l sgnfcato d una dstanza relatva, l'ntervallo delle varabl deve essere n qualche modo standardzzato. Cò vene llustrato nella Fgura 4-39, dove, sulla snstra del grafco, le due varabl non sono standardzzate e l'oggetto "a" sembra smle all'oggetto "b", perchè è pù vcno a "b" che a "c". Dopo la standardzzazone, sulla destra del grafco, l'oggetto "a" sembra pù smle a "c" che a "b". La SANDARDIZZAZIONE è un passaggo molto mportante n molte tecnche chemometrche; n alcun cas la standardzzazone deve essere fatta prma d usare un metodo. In altr cas, una procedura d standardzzazone è parte del metodo, anche se apparentemente vengono usat dat non standardzzat. Generalmente standardzzare n chemometra sgnfca dare la stessa mportanza a pror alle varabl del problema. Dopo la standardzzazone, PESI possono essere usat per dare alle varabl l'mportanza desderata. 57

58 Fgura Effetto dello scalng La standardzzazone è una parte del prmo trattamento che s effettua su una raccolta d dat multvarat, ma l trattamento può avere uno scopo un pò pù ampo. Questo prmo trattamento ha un nome generale, SCALING, perchè rguarda sa l'untà d msura de valor sa l'orgne della scala. Inoltre lo scalng può nteressare le varabl o gl oggett o entramb. Lo scalng deve essere consderato come costtuto da: a) spostamento dell'orgne del sstema d ass cartesan; b) espansone o contrazone degl ass. A causa della doppa facca della matrce, spazo R e spazo Q, uno scalng delle varabl (d rga) è una trasformata per gl oggett, come vene esemplfcato n Fgura Il centraggo d colonna (spostamento dell orgne delle varabl) trasforma la matrce de dat da n mentre l centraggo d rga trasforma la matrce de dat da: 3 4 n 5 Dopo la traslazone dell'orgne, centraggo d colonna, la dstanza tra due oggett rmane nvarata, mentre le due varabl, ben separate nello spazo degl oggett prma dello scalng, dventano dentche. Dopo l centraggo d rga le varabl sono dverse, ma gl oggett sono dventat 58

59 egual. Per questo motvo, sotto l nome d tecnche d scalng, è possble trovare alcune procedure che sono vere trasformazon de dat. Le tecnche usual d scalng (ndcheremo con Y la varable trasformata e con X la varable orgnale) sono le seguent: ) Centraggo d colonna Column centerng La nuova orgne della scala d cascuna varable è la meda della varable prma del centraggo. y v dove.v v.v y v dato centrato (colonna v) v dato orgnale nella rga e colonna v I v meda della colonna v I I numero degl oggett ) Standardzzazone d colonna Column standardzaton La varable vene scalata n modo che la stma della sua devazone standard sa yv s dove s v v v I v.v I è la stma del quadrato della devazone standard della varable X ntorno alla sua meda (meda d colonna). 59

60 Fgura Effetto del centraggo, d colonna e d rga, sugl oggett e sulle varabl 3) Autoscalng o trasformata t (studentzzazone) È l nome correntemente usato per la combnazone del centraggo d colonna e della standardzzazone coè l'uso d una trasformata t (varable d Student), che è analoga alla trasformata Z, ma usa la stma della devazone standard. È l tpo d scalng pù utlzzato quando le varabl hanno natura dfferente. y v v s v.v (S not che la meda è stmata e non è la meda d popolazone).v è un smbolo alternatvo a ndca se la meda è stata calcolata sulla colonna o sulla rga. v per la meda d colonna. Analogamente n altr cas n cu l punto 4) Range scalng d colonna Le varabl sono scalate n modo tale che l mnmo d cascuna varable sa 0 (zero) e l massmo (o 00): 60

61 y v v mn ( v ma ( ) mn v v v v ) ( v ) Una varante prevede che l nuovo mnmo sa - e l nuovo massmo sa + (Range scalng 0- seguto da centraggo d colonna). 5) Centraggo d rga Row centerng y v v. v V v V v dove ad ogn dato vene sottratta la meda d rga 6) Autoscalng d rga (detto anche SNV, standard normal varate) y m m. con s s V v v M dove s è la stma della devazone standard d rga, devazone standard d oggetto.. 7) Centraggo globale Global centerng y v v.. v I V v IV v dove s sottrae la meda generalzzata.., complessva, calcolata sugl I V dat della matrce. 8) Standardzzazone globale y v v con s t s t I V v v IV.. dove s dvde per la stma della devazone standard degl I V dat ntorno alla meda generalzzata. 6

62 9) Doppo centraggo y y v v v v.v oppure. seguto da seguto da z z v v y y v v y. y.v I valor dopo doppo centraggo, z, sono gl stess se ottenut con la va d sopra o con quella d sotto. 0) Profl d rga y v. v V Questo è un caso puttosto partcolare d scalng, ma vene usato frequentemente n chmca quando le varabl sono espresse n percentual, facendo n modo che la somma de dat d una rga sa o 00. ) Profl d colonna y v.v v I ) Profl crcolar d rga - (Normalzzazone d rga) V y [4-] v v v v La varable trasformata è l vettore de cosen drettor dell oggetto. 3) Coordnate polar e polar centrate Le coordnate polar aggungono a profle crcolar d rga la dstanza dall orgne (l dvsore n [4- ]). Le coordnate polar centrate sono coordnate polar calcolate dopo centraggo d colonna. 4) Dopp profl dell anals delle corrspondenze y v V v v v I v La matrce delle varanze-covaranze d quest profl è la matrce dell anals delle corrspondenze. 5) PAREO SCALING 6

63 y v v s v v 6) VAS (Varable stablty) SCALING y v v s v v s v v 7) Detrendng lneare, che s può applcare quando l ndce v della varable ha un sgnfcato fsco (lunghezza d onda negl spettr, tempo) y con b v V v v ( a v V v b ) (v v) e (v v) v a b [4-3] v I coeffcent n [4-3] sono quell della regressone lneare con mnm quadrat sull ndce della varable, funzone lneare della lunghezza d onda nel caso d spettr) Il detrendng (elmnazone d una tendenza) lneare può anche essere applcator per calcolare I resdu dalla lnea che connette l prmo punto all ultmo. Questo procedmento è molto utle nel caso d compressone o d smoothng (allscamento) medante trasformata d Fourer. 8) Detrendng quadratco, QUADRAIC DERENDING,, che s può applcare quando l ndce v della varable ha un sgnfcato fsco (lunghezza d onda negl spettr, tempo) y v v a b v c v [4-4] I coeffcent n [4-4] sono quell della regressone parabolca con mnm quadrat sull ndce della varable, funzone lneare della lunghezza d onda nel caso d spettr) 9) MULIPLICAIVE SCAER CORRECION (MSC), trattamento utlzzato con I dat NIR (Near Infrared Spectroscopy) MSC calcola l oggetto medo (la meda degl spettr nel caso d dat spettral). I parametr (ntercetta a e pendenza b) sono quell della regressone lneare d cascun oggetto sull oggetto medo : v a b v I parametr sono usat per la trasformata 63

64 y v con v b a + b V v ( v V v ) ( ( v v ) ) e a b e é la meda dell'oggetto é la meda dell'oggetto medo 9a) Etended MSC (EMSC) EMSC calcola coeffcent della regressone multpla d ogn oggetto sull oggetto medo, sull ndce del predttore (proporzonale alla lunghezza d onda) e sul quadrato dell ndce: v a b v c v d v I parametr sono usat per la trasformata y v v a c v d v b 9b) EMSC logarthmc (EMSCL) EMSCL calcola coeffcent della regressone multpla d ogn oggetto sull oggetto medo e sul logartmo dell ndce del predttore v a b v c log( v) I parametr sono usat per la trasformata y v v a c b log( v) 9c) Etended MSC (EMSC3) EMSC3 calcola coeffcent della regressone multpla d ogn oggetto sull oggetto medo, sull ndce del predttore (proporzonale alla lunghezza d onda), sul quadrato dell ndce e sul suo cubo: v a b v c v d v e v 3 I parametr sono usat per la trasformata 64

65 y v v a c v d v b e v 3 9d) Etended MSC (EMSC4) EMSC4 calcola coeffcent della regressone multpla d ogn oggetto sull oggetto medo, sull ndce del predttore (proporzonale alla lunghezza d onda), sul quadrato dell ndce, sul suo cubo e sulla sua quarta potenza:. v a b v c v d v e v 3 f v 4 I parametr sono usat per la trasformata y v v a c v d v b e v 3 f v 4 0) CONSENSO medante regressone unvarata Il CONSENSUS scalng può essere applcat a dat d gure d espert (assaggator) per correggere le dfferenze d scala da gurato a gurato. In questo caso c s rfersce a consenso tra rghe, cascuna corrspondente ad un gudce che assegna un punteggo a V campon. S calcolano coeffcent d correlazone tra gudc e uno de due gudc con l coeffcente d correlazone maggore vene scelto come gudce d rfermento Sa j l gudce d rfermento. Per gl altr gudc,, s calcolano ntercetta e pendenza della regressone d j su (gudce d rfermento verso gudce generco) e puntegg del gudce sono corrett medante la: y v jv ( v a b jv) ) con b V v ( v V v ) ( ( jv jv j ) j ) e a b j I resdu della regressone r v ( v a b jv) ) 65

66 sono la frazone del punteggo assegnato dal gudce -esmo che non può essere spegata con la dfferenza d scala tra l gudce e l gudce d rfermento j. L'effetto d alcune tecnche d scalng usate frequentemente vene mostrato n Fgura 4-4, per un caso bvarato. La Fgura mostra anche come camba la drezone degl autovettor a seconda dello scalng utlzzato. I dat sono raccolt nella tabella 4- che segue, che rporta anche varanze e covaranze (rspetto all orgne de dat dopo la trasformazone), gl autovalor e loadngs.. S not che l centraggo d colonna, quando V < I, la standardzzazone d colonna e lo autoscalng non varano la dmensonaltà de dat. Al contraro profl ed l centraggo d rga, quando V > I, dmnuscono d l numero delle dmenson; cò sgnfca che gl oggett gaccono su una persuperfce (una persfera nel caso de profl d rga con quadrato normalzzato) nell'perspazo delle varabl. 66

67 Fgura Effetto dello scalng su un set d 0 punt, e prmo autovettore 67

68 abella 4- - Dat numerc relatv alla Fgura 4-4. (a) varanze (b) covaranza (c) autovettor (d) loadngs Orgnal Centrat Standardzzat X y y y (a) (b) (c) (d) Autoscalat Profl d rga Profl centrat y y y (a) (b) (c) (d)

69 È possble e spesso consglable utlzzare successvamente due o pù tecnche d scalng sullo stesso set d dat. Questo è l caso dell'autoscalng, centraggo d colonna seguto da standardzzazone d colonna, o del doppo centraggo, centraggo d rga seguto da centraggo d colonna. In entramb quest cas l'ordne delle due procedure è senza mportanza. In altr cas l'ordne ha una grande mportanza, come nel caso de profl, che sostanzalmente sono le drezon sotto le qual gl oggett vengono vst dall'orgne. Qund, cambando l'orgne con l centraggo, profl sono molto dfferent: nella Fgura 4-4 sono mostrat profl ottenut con dat orgnal; e, a destra, profl ottenut dopo centraggo d colonna. Fgura Profl d rga e profl crcolar su dat orgnal (a snstra) e su dat centrat (a destra) Il secondo tpo d trasformazone non ha alcun senso. Per quest motv lo scalng deve essere usato con cautela, tenendo n consderazone l sgnfcato chmco de dat. Quando le varabl sono dello stesso tpo, come l'assorbanza ad alcune lunghezze d'onda, lo scalng può non essere necessaro; anz l'autoscalng, p.e., che dà a tutte le varabl la stessa mportanza n partenza, può esaltare l'mportanza del rumore. Quando dat sono espress come percentual, o quando s usa un tpo d scalng con profl è spesso convenente elmnare una varable dopo lo scalng per evtare problem d multcollneartà (una varable è una combnazone lneare delle altre), problem che possono essere grav con alcune tecnche chemometrche. Per esempo nelle tecnche n cu è necessara l'nversone d una matrce, questa nversone non s può effettuare quando l rango della matrce è mnore del numero delle colonne/rghe. 69

70 ra le tecnche d scalng la pù mportante è l autoscalng d colonna o semplcemente autoscalng. Oltre a dare alle varabl la stessa varanza (untara) le varabl autoscalate sono ADIMENSIONALI (resdu standardzzat). Conseguentemente anche gl scores sono admensonal. Del resto quando le varabl hanno dversa natura e untà d msura una loro combnazone lneare con coeffcent admensonal ( loadngs) non avrebbe senso. Per autare nella comprensone dell'effetto delle pù comun tecnche d scalng (autoscalng e profl d rga) e della mportanza su queste operazon della trasposzone della matrce, s fornsce un prmo esempo numerco con una matrce costtuta da 4 oggett e da 3 varabl: Varable A B C Meda d Oggetto rga Meda d colonna Le dfferenze tra le mede d colonna possono essere consderate approssmatvamente rappresentatve delle dfferenze tra le varabl, quelle d rga delle dfferenze tra oggett. Dopo autoscalng s ottene la: Varable A B C Meda d Oggetto rga Meda d colonna

71 L'autoscalng mnmzza le dfferenze tra varabl (elmnando effett d traslazone, medante l centraggo, e dfferenze d scala medante la standardzzazone d colonna). Le dfferenze tra oggett vengono mantenute o esaltate. Con l calcolo de profl d rga s ottene: Varable A B C Meda d Oggetto rga Meda d colonna S not come la conseguenza è la mnmzzazone delle dfferenze tra oggett dovute a proporzonaltà. Vengono mantenute o esaltate le dfferenze tra le varabl. Le stesse operazon effettuate sulla matrce trasposta possono essere consderate con rfermento alla matrce orgnale come autoscalng d rga e calcolo de profl d colonna.dopo autoscalng d rga s ha: Varable A B C Meda d Oggetto rga Meda d colonna Sono mnmzzate le dfferenze tra oggett. Dopo calcolo de profl d colonna s ha: Varable A B C Meda d Oggetto rga 7

72 Meda d colonna con mnmzzazone delle dfferenze tra le varabl dovute a proporzonaltà. 7

73 Un secondo semplce esempo rguarda cnque vn valutat da tre assaggator (A,B,C). I dat orgnal sono : Vno A B C Meda d vno Meda d assaggatore Varanza totale (rspetto all orgne): Componente Autovalore otale otale% L esame de dat orgnal permette (n questo caso molto semplce) d dedurre che l assaggatore C è (medamente) l pù generoso, che B ha dato un valore esageratamente elevato al vno, che medamente l vno 4 è stato consderato l peggor, seguto da 5. Fgura 4-43 Autovettor d dat orgnal 73

74 Il prmo autovettore de dat orgnal è connesso con la meda d assaggatore, e C ha uno score pù elevato d A e B (score pratcamente eguale) e con la meda d vno (score alto per 3 seguto da e. Molto mnore lo score d 5 e molto basso quello d 4). Il secondo autovettore permette d evdenzare la dfferenza tra A e C, che sono nella stessa drezone, qund abbastanza n accordo, mentre B ha una drezone molto dversa e questa drezone è spegata dall alta valutazone che ha dato al vno, molto vcno a B nel grafco. 74

75 Dat autoscalat Vno A B C Meda d vno Meda d assaggatore Dev.St. d assaggatore Varanza totale: 3 Componente Autovalore otale otale%

76 Fgura 4-44 Autovettor d dat autoscalat L autoscalng d colonna elmna le dfferenze sstematche (d locazone e dspersone) tra le varabl ed esalta le dfferenze tra oggett. In questo caso l nterpretazone del grafco è che vn e 3 hanno avuto una valutazone relatvamente alta sa da A che da C (per ambedue gl assaggator sono vn mglor). Il vno ha avuto un punteggo alto da B. Il vno 4 ha avuto un punteggo basso da tutt gl assaggator. 76

77 Dat autoscalat d rga Vno A B C Meda d Dev.St. vno vno Meda d assaggatore d Varanza totale: 3 Componente Autovalore otale otale% Fgura 4-45 Autovettor d dat dopo autoscalng d rga (SNV) 77

78 L autoscalng d rga elmna le dfferenze sstematche (d locazone e dspersone) tra gl oggett ed esalta le dfferenze tra le varabl. In questo caso tutt gl assaggator appaono dvers, A che ha dato un punteggo partcolarmente elevato al vno 4, B che ha premato l vno, e C che ha dato puntegg elevat a vn,3,5. 78

79 Profl d rga Vno A B C Meda d vno Meda d assaggatore Profl d rga centrat Vno A B C Meda d vno Componente Autovalore otale otale%

80 Fgura 4-46 Autovettor dprofl d rga centrat I profl d rga elmnano le dfferenze sstematche (d locazone e dspersone) tra gl oggett ed esaltano le dfferenze tra le varabl. L effetto de profl d rga è smle a quello dell autoscalng d rga Autoscalng separato L autoscalng è una operazone matematcamente molto semplce, ma molto pù potente d quanto snora appaa. Supponamo d avere una sola varable e se oggett, che corrspondono a determnat valor d due fattor. Fattore Fattore Varable Dopo autoscalng separato sul fattore

81 I dat orgnal dell unca varable permettono agevolmente d dscrmnare tra due lvell del fattore, mentre non è possble dstnguere lvell del secondo fattore. L autoscalng separato sul fattore consdera prma tre oggett a lvello (meda e devazone standard ) e l autoscala, po tre oggett a lvello (meda e devazone standard ) e l autoscala. La varable rsultato del doppo scalng separa perfettamente tre lvell del fattore, come llustrato nella Fgura 4-47 Fgura I se oggett della tabella prma e dopo l autoscalng separato sul fattore. La varable è rportata n ordnata. L ascssa serve solamente per una mglore vsualzzazone. Il numero a snstra ndca l lvello del fattore. Il colore ndca l lvello del fattore. 8

82 L esempo seguente s rfersce alle emsson (CO, NO,Idrocarbur, Alded, n totale 4 varabl) d 0 auto, senza e con marmtta cataltca, utlzzate nel cclo urbano, etraurbano e msto. La anals delle component prncpal applcata a dat autoscalat evdenza la dfferenza tra auto catalzzate e non (Fgura 4-48 ). Non è possble vsualzzare un effetto del cclo d utlzzazone. I dat sono stat sottopost a autoscalng separato d categora, per le dec categore auto, elmnando n tal modo le dfferenza sstematche d locazone e dspersone tra auto. Le prme due component prncpal de dat così ottenut mostrano charamente la dfferenza tra ccl (Fgura 4-49). Fgura Le emsson (CO, NO,Idrocarbur, Alded, n totale 4 varabl) d 0 auto, senza e con marmtta cataltca, utlzzate nel cclo urbano, etraurbano e msto, sono vsualzzate sulle component prncpal de dat autoscalat 8

83 Fgura Le emsson dopo autoscalng separato d automoble. 83

84 4.4. Pes Lo scalng (autoscalng, range scalng) produce un set d varabl d mportanza eguale; per dare pù mportanza ad alcune varabl s possono usare pes. I pes sono senza effetto ne metod che hanno un procedmento automatco d autoscalng all'nterno del procedmento stesso. Alcun metod usano un procedmento d autoscalng seguto da una pesata. S possono pesare le varabl: a) a causa delle dfferente INCEREZZA nelle varabl msurate; n questo caso la varable pesata vene ottenuta dalla varable autoscalata dvdendola per la varanza analtca della varable, coè per la varanza assocata alla msura della varable, ottenuta da una sere d determnazon effettuate sullo stesso campone. b) a causa del COSO del procedmento per msurare una varable. c) secondo l'esperienza precedente sull'mportanza delle varabl. d) a causa della dfferente IMPORANZA delle varabl secondo lo scopo della anals de dat, valutata da dat stess. Quando esste un problema d classfcazone, coè d assegnare un campone ad una categora, s cerca d dare una grande mportanza alle varabl che danno una buona abltà d classfcazone. Quando esste un problema d regressone, l'mportanza d una varable vene msurata dal suo contrbuto alla valutazone del parametro (o de parametr) con cu le varabl msurate devono essere correlate (p.e., varabl correlate con un blocco d valutazon sensoral). L'anals multvarata de dat consdera le varabl globalmente, sa nell'effettuare una classfcazone che una correlazone: pertanto è talora dffcle valutare l'mportanza d una sngola varable che è dpendente non solo dalla varable consderata, ma anche da quelle che la accompagnano. A volte due varabl che sngolarmente mostrano un debole potere d classfcazone, nseme sono molto potent, ma questa mportanza non s può manfestare altrment che con la loro utlzzazone contemporanea. Questa mportanza multvarata è prncpalmente un rsultato della anals de dat, non del pretrattamento delle varabl. uttava a volte vengono usat pes d classfcazone o d correlazone che sono ottenut da approcc unvarat. 84

85 4.4.3 rasformate Le trasformate e le combnazon d varabl vengono usate nella anals multvarata de dat prncpalmente: a) per rdurre l'asmmetra delle dstrbuzon. Le trasformate logartmche come log (+), log ( + / mn), ecc. vengono usate per questo scopo. b) a causa delle nformazon dervant dalla esperenza passata. Frequentemente combnazon come somme d varabl, rapport d varabl, s sono rvelate utl per scop d caratterzzazone. Questo è l caso della somma degl acd grass nsatur negl stud degl ol almentar, della somma o rapporto d alcol nella caratterzzazone d brandes, ecc. In realtà le trasformate e le combnazon vengono suggerte meglo dalla anals multvarata de dat esploratva. I procedment unvarat possono produrre concluson sbaglate, benchè n molt cas sano supportat dalla esperenza che è l rsultato della nostra stntva abltà multvarata esploratva. Alcun tp d trasformate sono tpc d determnate varabl e/o d determnat problem. P.e. n spettroscopa nel vcno nfrarosso s usa frequentemente la trasformata d Fourer (Ved captolo 6). alora allo spettro orgnale vengono sosttut resdu della regressone lneare. Ancora n spettroscopa s rcorre alla dervata prma o alla dervata seconda de dat orgnal. 85

86 4.5 PCA E ANALISI DEI FAORI Abbamo dato notevole rsalto al calcolo delle component prncpal, un utensle fondamentale della chemometra. L anals delle component prncpal (PCA) da un lato è parte della anals d esplorazone de dat, passo prelmnare e fondamentale della elaborazone. In secondo luogo fornsce un set d nuove varabl, generalmente n numero molto mnore delle varabl orgnal, non correlate, qualtà mportante per l utlzzo d alcune tecnche chemometrche. Infne s presta ad elaborazon ulteror d grande nteresse, alcune delle qual sono note con l nome d Factor Analyss Le component prncpal sgnfcatve La decomposzone blneare della matrce de dat nel prodotto degl scores per I loadngs può essere modfcata n modo da separare le component sgnfcatva da quelle che sono solamente rumore:: X IV S IE L EV E IV Sono stat svluppat moltssm metod per valutare l numero E delle component sgnfcatve. Alcun metod sono basat sulla conoscenza dell errore spermentale, e n quest E é l numero d component che rproducono la matrce de dat (AFA: Abstract Factor Analyss, reproduced data matr) entro l errore spermentale: X AFA = SIE L EV Ne problem real l nostro nteresse é nella struttura de dat, nelle loro rlevanza per l problema,. e l utlzzo dell errore spermentale generalmente sovrastma la complesstà (numero delle component sgnfcatve). Qu vengono presentate solo poche tecnche, dalla prma, emprca, d Kramer sno alla Double cross Valdaton (DCV) basata sull abltà predttva del modello blneare. Occorre dre che v sono anche regole emprche, che s applcano a matrc d dat partcolar (p.e. dat spettral nel vcno nfrarosso), e sono basate sull esperenza. Regola d Kramer Il numero d component sgnfcatve è quello dell ultma componente per cu: e V V v v V 86

87 Questa regola (Crtero dell autovalore medo, Average egenvalue crteron) può essere applcata solo agl autovettor de dat autoscalat: le component sgnfcatve sono quelle con autovalore. NON è un crtero consglable. Reduced Error Egenvalue Questo crtero (dovuto a Edmund.R. Malnowsk, Factor Analyss n Chemstry, Wley, N.Y., 00) é basato sul reduced error egenvalue defnto da: REE a a (V a )(I a ) Quando VI (numero degl oggett), l numero massmo delle component è V. Il REEa per la componente a-vene confrontato reduced error egenvalue cumulato nverso (la sommatora degl REE da a+ a V) con un F test: F,V a V ka (V k )(I k ) V k k a (V a )(I a ) a Partendo dalla componente V-esma, l ultma componente sgnfcatva è la prma per la quale l sgnfcato del test F è meno d un valore preselezonato (generalmente 0%). SCREE test É un test grafco, basato sul grafco della varanza percentuale resdua verso l numero delle component. La varanza resdua tende a varare lnearmente quando fattor spegano l errore casuale. o 3 component sgnfcatve Fgura 4-50 Esempo d Scree test 87

88 Cross valdaton I metod d convalda dett d Cross-valdaton per la stma del numero delle component sfnfcatve, sono basat sulla cancellazone d rghe (oggett), con un opportuno numero d grupp d cancellazone, D. In ogn gruppo d cancellazone vengono cancellat Id oggett. La cancellazone vene effettuata con un procedmento sstematco, non casuale: se D è, per esempo, eguale a 3, nel prmo gruppo vengono cancellat gl oggett, 4, 7,..; nel secondo gl oggett, +3, +3+3, + 3n,.. [] Per a, numero de component, da ad A (valore massmo scelto dall operatore, non superore al mnmo tra numero delle varabl V e numero degl oggett I) s tera sno al punto [3]: [] Per ogn gruppo d cancellazone d s tera sno al punto [3]: I loadngs vengono calcolat utlzzando gl oggett non cancellat (tranng set), gl scores s calcolano per tutt gl oggett. La matrce de dat vene rprodotta con a component: AFA,a IV X S Ia L [3] s calcola l Predcton Resdual Errors Square Sum (PRESS) per gl Id oggett nel gruppo d cancellazone d: PRESS V AFA ad (v v ) I d v [4] La PRESS totale vene calcolata come somma su D grupp d cancellazone d queste PRESS parzal: D PRESS a PRESS ad d S corregge PRESS per grad d lbertà: PRESS Corretta a (quando V<I. altrment s moltplca per I/(I-a)). A questo punto sono dsponbl alcun crter per ndvduare da valor d PRESS l numero delle component sgnfcatve. a) Crtero del mnmo d PRESS. L ultma componente sgnfcatva è quella con l mnmo valore d PRESS; questo crtero generalmente sovrastma l numero delle component sgnfcatve. 88 av V PRESS V a a

89 b) Crtero del prmo mnmo. alora PRESS ha un mnmo locale ad un ndce d componente a mnore d quello a cu corrsponde l mnmo assoluto d PRESS. Il crtero del prmo mnmo consdera questa componente come l ultma sgnfcatva. c) Crtero del rapporto d PRESS. Il rapporto é RAPPORO a PRESS PRESS Corretta a Corretta a Il numero delle component sgnfcatve é meno dell ndce a della componente per la quale l rapporto RAPPOROa é >. d) Crtero del test F La varable d Fsher s calcola medante la: F I,V a Corretta PRESSa PRESSa Corretta PRESS a Corretta (V a) Il numero delle component sgnfcatve é l ultmo per l quale l sgnfcato d F è maggore d un valore prescelto (generalmente 0%). Cross valdaton, convalda del centrode S calcola PRESS anche per l centrode, componente 0. Se l centrode non é sgnfcatvo, PRESS0 é la somma de quadrat della matrce de dat. Per valutare l sgnfcato del centrode s calcola RSE0, somma de quadrat: RSE N V 0 v v L errore d predzone vene calcolato come: dove PRESS PRESS 0d 0 Id D d V v ( v PRESS 0d v, d é la meda della varable v nel gruppo d cancellazone d. v,d ) Se PRESS0 < RSE0 l centrode dffersce sgnfcatvamente da zero. S rcalcolano le mede d colonna con tutt gl oggett, e s procede al centraggo d colonna. PRESS0 vene rcalcolata come RSE0, somma de quadrat de dat centrat o non centrat: 89

90 RSE N V 0 v v DOUBLE CROSS VALIDAION La Double-cross valdaton (DCV) é l metodo mglore per valutare l numero delle component sgnfcatve. Introdotta da Svante Wold (S. Wold. Cross-valdatory estmaton of the number of components n factor and prncpal components models. echnometrcs. 0, (978)), è basata sull algortmo NIPALS che può calcolare I loadngs anche n presenza d dat mancant. S decde l numero D I V d grupp d cancellazone (5-0, raramente D = I V, numero totale de dat, che comporterebbe un tempo d calcolo generalmente eccessvo). La matrce d cancellazone è llustrata per D =5, e una matrce d dat con 8 rghe e sette colonne. Fgura 4-5 Matrce d cancellazone della DCV La matrce d cancellazone ndca qual dat verranno cancellat ne var grupp d cancellazone. Cancellat sgnfca che verranno suppost mancant, che le component verranno calcolate senza d ess, e che l loro valore sarà qund predetto dal modello e confrontato con l valore vero cancellato. L algortmo DCV verrà llustrato con la seguente tabella d dat. abella 4-3 Dat per esempo d algortmo NIPALS Oggetto X Y

91 e la matrce d cancellazone con D=5: DCV nza per ogn componente con l calcolo d RSE (Resdual Square Error). La convalda del centrode segue lo stesso procedmento vsto per la cross valdaton, ma camb la struttura delle cancellazon. Per valutare se l centrode (componente 0-esma) è sgnfcatvamente dverso dall orgne s calcola RSE0. RSE N V 0 v v S calcola qund PRESS0 (Predcton REsdual Sum of Squares) per l centrode: PRESS PRESS 0d 0 I d v D d V ( v PRESS 0d v,d ) 9

92 Per ogn gruppo d cancellazone vengono calcolate le mede delle varabl. Queste mede predcono dat cancellat, e la somma de resdu (dfferenze tra dat cancellat e le mede corrspondent) al quadrato vene accumulata n PRESS0. Con dat dell esempo bdmensonale rsulta: RSE0 = PRESS0 = e l centrode rsulta sgnfcatvo, n quanto PRESS0 è mnore d RSE0. Fgura 4-5 Il calcolo d RSE S calcola per la prma componente (ved Fg. 4-5) RSE I V d v v e successvamente PRESS, utlzzando valor predett che sono quell della gl oggett cancellat. AFA,a IV X S L.per Per ogn gruppo d cancellazone vengono cancellat dat a cu corrsponde nella matrce d cancellazone l valore del gruppo. I loadngs vengono calcolat senza quest dat, da loadngs vengono calcolat gl scores d tutt gl oggett, e l valore d ogn dato cancellato vene predetto dallo score dell oggetto. In questo caso vengono predett quattro valor (Fgura 4-53), e n PRESS s accumulano loro quadrat. Sa Id l numero de dat predett nel gruppo d cancellazone d, e s ndch con a l ndce della componente da convaldare. S ha: Ia av 9

93 PRESS PRESS ad a Id D d V v ( v PRESS ad predet to v ) Fgura 4-53 Dat per l calcolo d PRESS (gruppo d cancellazone ) Il rapporto PRESS/RSE vene corretto per l numero de grad d lbertà: RAPPORO corretto a PRESS RSE a a V a V a n quanto quando s calcola PRESS per la componente a, a- component sono state usate per RSE. Il rapporto non corretto dventa 0 quando a=v, quello corretto dventa scché non è ma possble che l numero delle component sgnfcatve sa eguale a quello delle varabl. Se l rapporto corretto è mnore d la componente è predttva e pertanto sgnfcatva. In questo caso s passa alla componente successva, elmnando dalla matrce de dat l nformazone della componente valutata, dopo averla calcolata con tutt dat. DOUBLE CROSS FULL VALIDAION La DCV può dare rsultat errone (ndcare un numero d component sgnfcatve troppo basso) quando due o pù component hanno autovalore molto vcno. per questa ragone è stato svluppato 93

94 un procedmento modfcato, la Double Cross Full Valdaton (DCFV) (M.Forna, S.Lanter, R.Bogga and E.Bertran, Qumca Analtca,, 8 (993)). L algortmo DCFV lavora con un cclo basato su grupp d cancellazone, seguto da due ccl n cu vara l numero delle component. [] per ogn gruppo d cancellazone, d d D, sno al punto [5]: [] Per a, numero de component, da ad A, s tera sno a [4]: S calcola SSV (la somma é su tutt dat RANNE quell nel gruppo d cancellazone d.) a,d data d v Quando a la somma é quella de resdu al quadrato. S calcola la componente a ( loadngsl avd cancellazone d). sono quell della componente a con l gruppo d S calcolano gl scores e valor predett che sono nella matrce S calcola PRESSa,d: AFA,a IV X S L. Ia av PRESS V predet to ad (v v ) I d v S calcolano resdu R IVd X IV s Iad l avd [3] S aggorna la matrce de dat X updated IVd R IVd per calcolare la componente successva [4] Fne della terazone nterna, delle component [5] Fne della terazone esterna, de grupp d cancellazone. Il procedmento é rpetuto con tutt dat nel tranng set: [6] Per a, numero de component, da ad A, s tera sno a [8]: S calcola la somma attuale de quadrat SS, parallela a SSV: SS N V a v v S calcola la componente a, loadngs, scores,resdu R IV X IV s Ia l av 94

95 [7] S aggorna la matrce de dat updated IV X R IV per calcolare la componente successva [8] Fne della terazone nterna, delle component Infne: [9] Per a, numero de component, da ad A, s tera sno a [0]: D PRESS a PRESS ad SSV D d a SSV a,d d CF a SSV a SSV SS SS a SSVR SSR a a S calcola la PRESS modfcata [0] Fne della terazone delle component Modfcata a PRESS PRESS a CF a Il numero delle component sgnfcatve é quello per cu Modfcata PRESS a è mnma 95

96 4.5. L anals de fattor Calcolate le component prncpal (n alcun cas gl autovettor de dat orgnal) è possble effettuare ulteror rotazon nello spazo delle component sgnfcatve, con lo scopo d ottenere una pù facle nterpretazone (rotazon non gudate, unsupervsed ) o gudate dall operatore (supervsed). Il prmo tpo comprende una varetà d rotazon sa ortogonal che oblque. Qu s tratterà con qualche dettaglo solamente d una d queste tecnche d rotazone, la Raw Varma. Le rotazon supervsed sono anche esse d molt tp. C lmteremo alla arget Factor Analyss ed alla Evolvng Factor Analyss, tecnche che fanno parte de metod quanttatv della Chemometra VARIMAX Il nome Varma ndca una famgla d tecnche d rotazone che hanno n comune la rotazone ortogonaled una matrce KAM (A è l numero delle component, M è l numero delle varabl V o quello degl oggett I). La matrce ruotata AAM s ottene premoltplcando KAM per una matrce d rotazone ortogonale OAA: AAM = OAA KAM [4-5] Nello svluppo orgnale della rotazone Varma, la matrce KAM era quella de factor loadngs, F AM S rcord: 0.5 AA AM L, M = V. I Factor loadngs sono gl scores n Q-mode F. uttava è possble applcare la rotazone Varma anche a loadngs, L o R, o agl scores S. Ne dscende una famgla d rotazon Varma, che sono rotazon ortogonal per quanto rguarda l momento centrale [4-5] ma che possono essere oblque quando c s rfersce alla matrce de dat. La rotazone Varma applcata a loadngs n modo R è la Raw Varma. 96

97 La rotazone ortogonale Varma è tale da rendere massma la semplctà totale, somma delle semplctà d rga (v sono altre tecnche d rotazone ortogonale, Quartma ed Equma, ma non se ne conoscono utlzzazon n Chmca Analtca). Ogn rga delle matrc KAM e conseguentemente d AAM é un FAORE. La semplctà d una rga a é la varanza del quadrato degl element della rga. Per l fattore a della matrce A la semplctà é: La rotazone Varma cerca la matrce d rotazone ortogonale O per cu: Per avere la massma semplctà totale SIM ogn fattore deve avere valor assolut elevat d poch element aam, e pertanto ogn fattore deve essere descrtto da relatvamente poche varabl (o oggett). Conseguentemente la conseguenza della rotazone è che le varabl o gl oggett sono dvse n grupp su fattor ruotat. In un esempo numerco molto semplce la matrce K é: K rappresentata n Fgura 4-54 a snstra. La semplctà è 0. I quadrat degl element d K sono egual a, la loro meda n una rga é, l quadrato d questa meda (secondo termne, da sottrarre, della semplctà d rga) è 4, the somma degl element della rga alla quarta è 8, e la meda (prmo termne della semplctà d rga) è 4. 97

98 Fgura 4-54 Esempo elementare d rotazone Varma Ruotando n senso antoraro d un angolo, la semplctà aumenta (Fgure 4-55) e dventa massma quando = 45 (Fgure 4-54, a destra). Fgura 4-55 Varazone della semplctà con l angolo d rotazone Il massmo corrsponde alla matrce A: A 0 0 Dove n ogn rga un solo elemento ha un valore elevato, scché ogn fattore é rappresentato da un solo elemento. Per trovare la rotazone che fornsce la massma semplctà s utlzza l algortmo d Kaser (H.F.Kaser fu l deatore d Varma), che lavora nel pano d due fattor, dove la matrce ortogonale d rotazone é: 98

99 O cos sn sn cos L equazone d Kaser fornsce drettamente l angolo d rotazone nel pano: L terazone contnua per ogn coppa d pan (-3,-4,,-3,-4, ) sno a convergenza: Dopo la rotazone fattor sono rordnat n ordne d varanze degl scores nel sstema ruotato ((Varscores) RAW VARIMAX Nella Raw Varma la matrce K per la rotazone è la matrce de loadngs L. É (n questo caso M, numero delle varabl nella matrce K, é l numero d varabl del set d dat studato): X E quando vengono utlzzate le A component sgnfcatve: IM S IM L MM X S AFA IM l equazone d rotazone [4-5] dventa: IA L AM AAM = OAA LAM Dopo la rotazone ortogonale deve essere: X AFA IM S IA L AM V IA A AM V IA O AA L AM dove V é la matrce degl scores ruotat e O é ortogonale, per cu: V IA S IA O AA La Raw Varma è llustrate con dat seguent (dat orgnal). abella 4-4 Dat per esempo Varma

100 Component (autovettor de dat orgnal) Componente Autovalore Varanza % Varanza cumulata % Solo le prme due component sono sgnfcatve. MARICE de LOADINGS MARICE degl SCORES

101 Fgura 4-56: Bplot de dat utlzzat le la Raw Varma MARICE de LOADINGS ruotat (VARIMAX ROW FACORS) Matrce per la rotazone degl scores O Matrce degl scores ruotat e rordnat(varimax COLUMN FACORS) Obj. Factor Factor Obj. Factor Factor

102 Fattore ruotato varanza.6839 varanza rspetto all orgne 5.84 Fattore ruotato varanza.89 varanza rspetto all orgne VARIANZA OALE.873 VARIANZA OALE RISPEO ALL ORIGINE Angol tra Varvectors e autovettor orgnal Autovettore: Varvector Fgura 4-57: Bplot dopo RAW VARIMAX. I Loadngs sono raggruppat n un gruppo per ogn varvector ALRE ROAZIONI VARIMAX Normal Varma Nella Normal Varma loadngs vengono normalzzat prma della rotazone ortogonale. S calcola la comunaltà (communalty) delle varabl, colonne della matrce de loadngs. La comunaltà è la frazone d varanza della varable m spegata dalle prme A component: 0

103 h A m l am a Quando A = M la comunaltà è. La matrce dagonale H ha sulla dagonale le radc quadrate delle M comunaltà: H MM h / h 0 / h / M S normalzzano loadngs medante la: K AM L AM H MM ottenendo la matrce K per la rotazone ortogonale. Dopo la rotazone de loadngs normalzzat A AM O AA K AM O AA L AM H MM s ottene la matrce U de loadngs ruotat denormalzzando la matrce A per mezzo delle radc quadrate delle comunaltà: U A AM AM H MM U AM A AM H MM O AA L AM H MM H MM O AA L AM Dalla matrce ortogonale O (dfferente da quella ottenuta nella Raw Varma) s ottengono gl scores su varvectors: V IA S IA O AA Q-mode Raw Varma La matrce K é quella della varma orgnale d Kaser, la matrce de factor loadngs, ovvero gl scores n modo Q: X AFA IM S IA L AM R IA 0.5 AA L AM R IA F AM F AM L. 0.5 AA AM Ogn elemento della matrce de loadngs vene moltplcato per della component corrspondente. La matrce F vene ruotata ortogonalmente: A AM AA AM AA 0.5 AA O F O L. AM 0.5 a, radce quadrata dell autovalore 03

104 La comunaltà delle rghe della matrce A, h a M m a am, non è (nel caso d una rga d loadngs la comunaltà è, n quanto somma de quadrat de cosen drettor). Pertanto, per ottenere loadngs ruotat (che devono avere comunaltà ) la matrce A vene normalzzata moltplcandola per l nverso della matrce dagonale delle radc quadrate delle comunaltà: U AM H AA A AM U AM H AA A AM H AA O AA 0.5 AA L AM ed è evdente che la matrce totale d rotazone G non è ortogonale Il prodotto de fattor ruotat deve essere eguale al prodotto degl scores e loadngs orgnal: G AA L AM X AFA IM S IA L AM V IA U AM V IA H AA O AA 0.5 AA L AM V IA G AA L AM e pertanto gl scores ruotat V s ottengono medante nverson d G o medante la: S S V IA IA IA L L AM AM L AM U U MA MA U MA V ( U IA AM U U AM MA ) U MA V IA Q-mode Normal Varma La matrce per la rotazoneortogonale é: K AM 0.5 AA L AM Dopo rotazone ortogonale: AM AA H AM MM AA 0.5 AA AM MM A O K O L H. (analogous to equaton [0]). A vene denormalzzata D A AM AM H MM e D é normalzzata per ottenere varloadngs: U AM H AA A AM H MM H AA O AA 0.5 AA L AM H MM H MM G AA L AM Fnalmente s ottengon varscores: 04

105 S S V IA IA IA L L AM AM L AM U U MA MA U MA V ( U IA AM U U AM MA ) U MA V IA ROAZIONI OBLIQUE Sono state ntrodotte da J.B. Carrol nel 953 (J. B. Carroll. An analytcal soluton for appromatng smple structure n factor analyss. Psychometrka. 8, 3-38 (953)) V sono parecch metod d rotazone non ortogonale: QUARIMIN COVARIMIN BIQUARIMIN BINORMAMIN e n ogn caso é possble ruotare o loadngs o gl scores, sa n modo raw che n modo normal, pesando medante le comunaltà. Le rotazon oblque ruotano una matrce K d A fattor dagl ass orgnal (autovettor, component prncpal) a nuov ass, oblque, chamat ass prmar o oblvectors (Fgura 4-58). Le coordnate oblque sugl ass prmar (u n Fgura5-58) sono pattern loadngs (la nomenclatura derva dal fatto che anche le rotazon oblque sono state nzalmente studate su loadngs o su factor loadngs). Le proezon ortogonal sugl ass prmar, b, sono (prmary) structure loadngs. V sono anche A ass d rfermento, cascuno ortogonale a A- ass prmar Le proezon oblque sugl ass d rfermento sono reference pattern loadngs, j, le proezon ortogonal sugl ass d rfermento sono reference structure loadngs, a. I metod d rotazone oblqua lavorano prevalentemente su quest ultm, reference structure loadngs. La matrce K (loadngs, scores, orgnal o normalzzat con le comunaltà) vene moltplcata per una matrce d rotazone non ortogonale G AAM = GAA KAM A seconda della natura d K, A può essere una matrce d loadngs o d scores. Smbol dvers verranno usat per A ne due cas. 05

106 G mnmzza (v è un procdmento analtco d Kaser, ma la mnmzzazone s può ottenere anche medante algortm genetc) una delle funzon: Fgura 4-58 Sstema d coordnate per le rotazon oblque 06

107 QUARIMIN A A M a am a bm a ba m A A COVARIMIN M a am a bm a am M a ba m m m M M a bm A A M BIQUARIMIN a am a bm M a am a bm a am a ba m M A A M a ba m m m M M a bm BINORMAMIN A A a ba m M m M a a am a M am m bm a bm Se K è una matrce d loadngs (raw o normal) la matrce ruotata A vene ndcata con U: U AV G AA L raw AV o normal dove G é la matrce d rotazone. Il prodotto de fattor ruotat deve essere eguale a quello degl scores e loadngs orgnal: X AFA IV S IA L AV V IA U AV V IA G AA L AV e pertanto gl oblscores possono essere ottenut medante la: S S V IA IA IA L L AV AV S U IA U VA VA L AV V ( U U IA AV VA U U AV VA ) U VA V IA Se K è una matrce d scores (raw o normal) la matrce ruotata A vene ndcata con V: V IA S raw IA o normal G AA e dalla X AFA IV S IA L AV V IA U AV S IA G AA U AV s ottengono gl oblloadngs: V AI ( V U AI AV S V IA IA L ) V AV AI V V AI S IA S AI IA L L AV V IA AV U AV U AV 07

108 4.5.. ARGE FACOR ANALYSIS Nella target factor analyss (FA), l problema consdera mscele dlute d campon pur (che a loro volta possono essere mscele complesse). Lo spermentatore conosce (n una base d dat) le caratterstche d un certo numero d campon pur ( loro spettr, la composzone chmca, l loro proflo cromatografco). Avendo un certo numero d mscele (gl oggett, per qual sono state determnate le varabl, spettr, composzone chmca, proflo cromatografco), quant campon pur sono stat usat per produrre le mscele? Quest campon pur possono essere rntraccat nella base d dat? L anals delle component prncpal (generalmente quell de dat orgnal) decompone la matrce de dat nel prodotto de fattor astratt sgnfcatv (scores e loadngs) pù la matrce dell errore, l rumore. X IV S IE L EV E IV Il numero E d component sgnfcatve ndca che E fattor real, E oggett pur, sono stat mescolat per produrre gl I oggett. Il numero de fattor astratt è eguale a quello de fattor real. Ogn oggetto è una mscela d oggett pur, vale a dre una combnazone lneare degl oggett pur, cascuno moltplcato la sua percentuale nella mscela. Se AEV é la matrce de fattor real (gl E fattor rga real, cascuno de qual è descrtto da V varabl, p.e. le assorbanze dello spettro), ogn oggetto ha uno spettro che é la combnazone de fattor real, medante p.e. le concentrazon, un vettore d E colonne. L nseme d quest I vettor costtusce la matrce CIE de fattor colonna real. Abbamo chamato fattor rga gl E oggett pur, n quanto determnano l numero delle rghe n AEV. he data matr s the product of the matr of the real column factors and the matr of the real row factors, wth an epermental error. X Sa: IV C IE A EV E * IV 08

109 CIE = AEV = La matrce prodotto CIE AEV (senza addzone d errore) è: La matrce degl scores (I fattor colonna astratt, SIE) é: La trasposta della matrce de fattor rga astratt (loadngs, L EV) é:

110 Il prodotto SIE L EV é (n assenza d errore) esattamente eguale a CIE AEV, ma fattor astratt sono molto dfferent da fattor real. Le equazon: e V V z q E E L A EV EV defnscono un perpano attraverso l orgne nello spazo V-dmensonale, l pano degl E autovettor sgnfcatv (due nell esempo), con varanza spegata 00%. Quale sano I valor d q, l punto deve cadere nel pano. E nel pano devono cadere component pur per qual : C EEAEV IEEAEV AEV Ovvamente, occorre tener conto dell errore. La varanza meda n torno all perpano degl I oggett usat per calcolare l modello é: RV V s, a a E V I FA valuta la dstanza d ogn canddato (nella base d dat) oggetto j, come varanza resdua dal pano delle component sgnfcatve: RV j o V s j, a a E V dove 0

111 ˆ jv AFA jv s je L EV jv L VE L EV é l vettore delle varabl predetto con le A component. Nella Fgura 4-59 l perpano è una retta, l autovettore sgnfcatvo unco, e la dstanza sulla seconda componente non sgnfcatva e per l oggetto canddato: RV j V s j, a a E V s canddato, Fgura 4-59 Dstanza d un oggetto canddate dal modello Le varanze resdue degl oggett pur canddate vengono ordnate, e ad esse vene applcato un test F n cu la varanza resdua è confrontata con la varanza meda, RV. La dstanza crtca dcrt é la varanza resdua corrspondente al valore crtco della F al lvello d fduca scelto (Fgura 4-60).

112 Fgura 4-60 Pano del modello e dstanza crtca per un caso con tre varabl e due component sgnfcatve Gl oggett pur sono scelt tra quell n una base d dat: ess sono quell con l mnmo RV, purché sano realmente dfferent (non proporzonal o quas proporzonal). Quando gl oggett pur sono stat dentfcat, è stata ottenuta la matrce A de fattor real. Allora, dalla X AFA IV C IE A EV S IE L EV FAORI REALI FAORI ASRAI S ottene la matrce C de fattor colonna real: C A A S IE EV C IE VE S IE L IE L EV EV A A VE VE A A medante una rotazone non ortogonale. La target factor analyss vene llustrate con due esemp. EV VE

113 arget Esempo, Mscele S sospetta che l nqunamento n una certa area sa dovuto ad alcune font d nqunamento. Quattro possbl font (oggett pur ) sono descrtte da dec quanttà chmche.,,, 3,... Quante font sono responsabl dell nqunamento? Quale è la loro mportanza ne var st d camponamento? I dat relatve a 0 st (oggett) sono stat ottenut moltplcando due fattor real d colonna Oggetto per due fattor rga ( fattor canddat B e D), aggungendo un errore casuale con devazone standard crca, ottenendo n tal modo la matrce de dat: Name

114 B D A C La matrce de dat ha 4 rghe. Le prme 0 ( st d camponamento) costtuscono l tranng set, l nseme d dat che vene utlzzato per calcolare l modello PCS. Le ultme 4 (le possbl font d nqunamento) costtuscono l test set, che verrà valutato per ndvduare le font d nqunamento real. Ogn oggetto è descrtto da dec varabl, le altezze d pcch cromatografc, ed é rappresentato dal cromatogramma smulato nella Fgura 4-6 (font canddate n alto, st d camponamento n basso). 4

115 Fgura 4-6 Profl cromatografc delle possbl font d nqunamento n alto e Profl cromatografc de st camponat 5

116 La PCA fornsce: Componente Autovalore otale % Varanza spegata la matrce de loadngs: Varable Loadngs Varable Varable Varable Varable Varable Varable Varable Varable Varable Varable SRUURA RUMORE I fattor sgnfcatv sono due: due fattor astratt che corrspondono a due fattor real, le sorgent d nqunamento. I loadngs su ogn componente sono tant quant le dec varabl e possono essere nterpretat come cromatogramm astratt: 6

117 Fgura 4-6 Profl cromatografc astratt delle fnt d nqunamento Ogn cromatogramma é la combnazone lneare (mscela) d due oggett pur real, ma é anche la combnazone lneare d due fattor astratt, descrtt da loadngs delle due component sgnfcatve: X IV C IE A EV E IV S IE L EV E IV X AFA IV C IE A EV S IE L EV FAORI REALI FAORI ASRAI 7

118 Fgura 4-63 Contrbuto de fattor astratt o real al proflo dell oggetto numero. In basso l proflo dell oggetto rprodotto da fattor e (n rosso) msurato Fgura 4-64 Oggett e fattor rga canddate nello spazo delle due component sgnfcatve Nonostante le sorgent pure non sano compost chmc pur, I st d camponamento sono loro mscele dlute e nel grafco de fattor devono essere all nterno del settore delmtato da vettor 8

119 che connettono l orgne con B e D. La Fgura 4-64 mostra che una scelta degl oggett pur dfferente dalla coppa B D defnsce settor che non comprendono st d camponamento. S consderno loadngs n the bplot: l pcco 4 é alto per la sorgente B, l pcco 9 molto alto per la sorgente D. Fgura 4-65 Bplot d oggett e fattor rga canddat nello spazo delle due component sgnfcatve Osservamo gl oggett nello spazo della componente 3 nseme alla componente. La componente 3 non descrve la struttura (è non sgnfcatva) ma una parte del rumore, normale al pano della struttura. I 0 oggett sono molto vcn a questo pano (la dstanza è dovuta all errore spermentale); anche ver fattor real gaccono pratcamente nel pano poché sono anche ess mscele, partcolar (00% d un oggetto puro, 0% dell altro). Invece A e C sono lontan dal pano della struttura. 9

120 Fgura 4-66 Oggett e fattor rga canddate nello spazo delle component e 3 (la componente 3 non è sgnfcatva) La FA valuta la dstanza d ogn fattore canddato nella base d dat e applca l test F La varanza resdua RV é , e la tabella seguente rposta l rsultato del test. Canddato RVj Sgnfcato (%) D B A C La matrce C de fattor colonna real s ottene da: C IE S IE L EV A VE A A EV VE arget Esempo, mscele ordnate Dat ordnate sono frequentemente fornt da tecnche strumental della chmca analtca. Ne dat ordnate l ndce degl oggett e/o quello delle varabl sono proporzonal a uno o due fattor, come l ph, la temperatura, l potenzale elettrco, l tempo, la lunghezza d onda. In spettrofotometra ogn 0

121 oggetto è descrtto dal suo spettro, e le varabl sono pertanto assorbanze ordnate. Nelle tecnche fenate l ndce d oggetto è proporzonale al tempo, l ndce delle varabl può essere lneare con la lunghezza d onda. L esempo s rfersce ad un cromatogramma seguto nel tempo medante spettrofotometra. La matrce de dat (40 oggett, spettr regstrat ogn due second, e 00 varabl, assorbanze dello spettro) è l prodotto d tre fattor colonna real (le concentrazon d tre spece chmche durante l eluzone) e d tre fattor rga ( tre spettr delle spece chmche), pù ovvamente rumore (Fgura 4-67). La Fgura 4-68 mostra grafcamente la matrce de dat. Fgura 4-67 Spettr d tre spece chmche e loro proflo d concentrazone nella eluzone Agl oggett spermental sono stat aggunt come test set (non utlzzato per calcolare l modello) altr 7 oggett, corrspondent al tre compost pur, alle tre mscele bnare (50%-50%) ed alla mscela ternara (33.3%-33.3%-33.3%). In questo caso non s é creata una base dat per la FA, e gl oggett nel test set sono stat utlzzat per la nterpretazone de grafc PCA..

122 Fgura 4-68 La matrce de dat da tecnca fenata Fgura 4-69 Gl oggett del test set rappresentat nel dagramma ternaro e n relazone con profl d eluzone.

123 Dall oggetto nzale 0 (Fgura 4-70) gl scores s muovono nella drezone (frecca ) del composto puro. Qund, dopo l oggetto 40 s muovono nella drezone delle mscele (frecca ) tendendo n drezone dell oggetto prma e po dell oggetto 3. Non raggungono la drezone dell oggetto 3 (questo è presente da solo solo alla fne del cromatogramma), e nfne s muovono (frecca ) verso l orgne con concentrazone n dmnuzone, tendente prma a 3 puro, qund a 0. Fgura 4-70 PCA plot su component e Il grafco trdmensonale n Fgura 4-7 mostra l effetto prncpale (concentrazone) sulla prma componente, e gl effett d concentrazone sulle altre. 3

124 Fgura 4-7 PCA plot su component, e 3 4

125 EVOLVING FACOR ANALYSIS La EFA (Evolvng Factor Analyss) consdera una matrce d dat XIV dove l ndce d oggetto é una msura (proporzonale, lneare) d un fattore esterno (ph, tempo, potenzale elettrco, ntenstà d llumnazone,.). L anals EFA nza con due pass fondamental. Nella anals n avant (FORWARD) la anals PC vene effettuata (generalmente su dat orgnal) su d una matrce d dat XJV che evolve con l numero degl oggett J che aumenta da a I, d modo che la anals PC è effettuata I volte sno alla matrce fnale XIV, secondo lo schema n Fgura 4-7. Fgura 4-7 Schema della anals FORWARD Nella anals nversa (BACKWARD) l anals PC é effettuata su d una matrce XKV che evolve con l numero d oggett K che aumenta da a I, ma partendo dalla fne della matrce dat orgnale, secondo lo schema n Fgura 4-73, scché quando K= la matrce XKV é l vettore dell ultmo oggetto. Anche n questo caso la anals PC vene rpetuta I volte e la matrce fnale è XIV. Fgura 4-73 Schema della anals BACKWARD 5

126 Fgura 4-74 Segnal (X,Y) proporzonal Nella Fgura 4-74 é descrtto uno spettro medante le assorbanze a due lunghezze d onda (X,Y). In questo caso, quando é presente un solo composto chmco A, con concentrazone crescente (da a 4), gl spettr sono su d una lnea dall orgne. L anals PC fatta su o su, 3, 4 oggett fornsce una sola (e sempre la stessa) componente sgnfcatva. Supponamo ora che l qunto spettro sa regstrato su d un campone con concentrazone d A maggore ma con anche un secondo componente B che da solo darebbe lo spettro B n Fgura La poszone dello spettro 5 non è pù sulla lnea -4: l anals PC calcola due component: la prma con l autovettore maggore, la seconda ovvamente ortogonale con autovettore pccolo. Fgura 4-75 Evoluzone della prma componente passando da una sostanza pura ad una mscela Nell esempo che consdereremo, EFA é stata applcata ad una matrce XIV con 5 rghe e 50 colonne, che descrvono lo spettro. L ndce degl oggett è una msura del ph. Nella soluzone é presente un 6

127 acdo dprotco che con l aumentare del ph orgna la spece anfotera monoprotonata e la base non protonata, spece con spettro dfferente. Questo esempo è tpco de dat d dstrbuzone d un composto tra pù spece chmche n equlbro. V sono vncolo chmc: la somma delle concentrazon delle tre spece chmche (la concentrazone analtca) deve essere costante, le concentrazon devono essere postve, la concentrazone massma d una spece è la concentrazone analtca. La VARIANZA OALE è fornta dalla soma de quadrat n tutta la matrce de dat, con I oggett. V OAL v I v La VARIANZA è la somma de quadrat lmtata alla matrce corrente, n evoluzone, con J oggett. Essa è la somma degl autovettor. Può essere maggore della varanza totale. V J v j J jv FORWARD ANALYSIS Varance: sum of squares dvded by the number of consdered objects J PC PC PC3 PC4 PC5 PC6 PC7 PC8 PC9 PC Forward Analyss % Varance of egenvectors J PC PC PC3 PC4 PC5 PC6 PC7 PC8 PC9 PC BACKWARD ANALYSIS Varance: sum of squares dvded by the number of consdered objects K PC PC PC3 PC4 PC5 PC6 PC7 PC8 PC9 PC

128 Backward Analyss Objects % Varance of egenvectors K PC PC PC3 PC4 PC5 PC6 PC7 PC8 PC9 PC Fgure 4-76 mostra l rsultato dell anals forward: per ogn matrce XJV n ordnata v é la frazone d varanza spegata dale component, su scala logartmca. Fgure 4-76 Anals Forward Nella Fgura 4-76: *: La prma componente corrsponde nzalmente ad HA, con autovettore molto grande **: L autovalore della seconda componente nza ad essere maggore del rumore al ph a cu la concentrazone d HA - dventa sgnfcatva ***: L autovalore della terza nza ad essere maggore del rumore al ph a cu la concentrazone d A - dventa sgnfcatva ****: Quest sono fattor non sgnfcatv, rumore. 8

129 Il grafco mostra come varano I fattor sgnfcatv con l aumentare del ph. Il numero massmo d fattor sgnfcatv (3) corrsponde a component chmc quando s consdera tutta la matrce de dat XIV. Fgure 4-77 Anals Backward *: La prma componente (nzalmente) corrsponde ad A -, con autovettore molto grande **: L autovalore della seconda componente nza ad essere maggore del rumore al ph (n dluzone) a cu la concentrazone d HA - dventa sgnfcatva ***: ***: L autovalore della terza nza ad essere maggore del rumore al ph a cu la concentrazone d HA dventa sgnfcatva ****: Quest sono fattor non sgnfcatv, rumore. Nella Fgura 4-77 rsultat della anals Backward sono rportat n funzone d I+-J n modo che l ascssa sa crescente con l ph ed eguale a quella n Fgura Il ph d apparzone (da destra) nella anals backward è l lmte superore d ph a cu esste la corrspondente spece chmca a lvello d concentrazone sgnfcatvo. Ambedue grafc vengono taglat ad un opportuno lvello d rumore, espresso come varanza percentuale (Fgure 4-78 e 4-79). 9

130 Fgura 4-78 Anals Forward, taglo Dall anals Forward ottenamo l ph a cu le spece chmche appaono. Maggore è l lvello d taglo, maggore é la concentrazone a cu la spece chmca é rlevata. Dalla anals Backward ottenamo l ph a cu la spece chmca sparsce. Fgura 4-79 Anals backward, taglo Rportando nseme rsultat delle due anals (Fgura 4-80) s ottene l ntervallo d ph n cu le spece chmche sono present. 30

131 Fgure 4-80 Anals Forward e Backward, nseme Useremo termn Fattor colonna per gl effett dpendent dagl oggett (concentrazon, dsposte n tante colonne quant sono fattor, con numero d rghe eguale a quello degl oggett) e fattor rga per gl effett dpendent dalle varabl (come le assorbanze). La matrce XIV può essere consderate come l prodotto della matrce reale de fattor colonna CIE (concentrazon delle E spece chmche per ogn oggetto) per la matrce de fattor rga real AEV (spettr, V assorbanze delle E spece chmche) pù l errore spermentale. Così: X IV C IE A EV S IE L EV U IE FAORI REALI FAORI ASRAI Modo R SVD / EE L EV S ottene C: C IE A EV L VE U IE / EE e con C / IE U IE EE ( AEV LVE ) R / EE EE ( AEV LVE ) C U IE IE R EE dove R é una matrce d rotazone oblqua che trasforma I fattor colonna astratt U ne fattor real C. 3

132 I fattor rga real A sono sconoscut. La C U IE IE R EE vene decomposta n: c U Ie IE r Ee dove c e r sono vettor colonna estratt da C e R, per la componente e. L anals corrspondente alla Fgura 4-80 ha ndcato l ntervallo d oggett (ph) n cu le spece chmche sono present o assent (c = 0). La c U [4-6] We 0 WE ree ha la soluzone trvale nulla ree = 0. É possble ottenere una soluzone non nulla mponendo, per esempo,: r e = Conseguentemente ogn rga della equazone [4-6] dventa: u w u w r e u r w3 3e... u r we Ee e n notazone matrcale con F=E-: * u W U WF rfe [4-7] dove U * é la matrce rdotta de loadngs (loadngs n Q-mode, scores normalzzat), con W oggett e F=E- colonne. L equazon [4-7] può essere rsolta: U * * * u W U r FW FW U WF Fe * * ) U FW WF * FW ( U U u r W Fe [4-8] 3

133 Usando E equazon come la [4-8] s ottene l ntera matrce d rotazone R. uttava la soluzone dpende dalla condzone posta re=. Pertanto la matrce R così calcolata, se usata nella: C U IE IE R EE non può fornre fattor colonna real, ma solo fattor astratt (Fgura 4-8), pseudo-fattor: P U IE IE R EE e la matrce reale C può essere ottenuta solo medante conoscenza de vncol chmc. Fgure 4-8 Fattor colonna astratt, taglo a 0.003% I fattor rga real s ottengono dalla X C A medante nverso generalzzato: IV IE EV A EV ( CEI CIE ) CEI XIV Usando I fattor d colonna astratt P nvece d quell real C, fattor rga astratt s ottengono (Fgura 4-8) dalla: B EV ( PEIPIE ) PEIXIV 33

134 Fgure 4-8 Fattor rga astratt In questo caso vncol chmc mpongono lo stesso valore massmo per tutt fattor colonna, e l vncolo d non negatvtà. Utlzzando questo vncol s ottengono fattor colonna fnal: Fgura 4-83 Fattor colonna normalzzat per l massmo 34

135 Fgura 4-84 Fattor colonna normalzzat con vncol d non negatvtà Fgura 4-85 Fattor rga fnal e, dalla X C IV EI EI C X IV IE IE A C EV EI C EI IE A IV EV ( C C ) C X A fattor rga fnal (Fgura 4-85). EV 35

136 FSMW-EFA: Fed Sze Movng Wndow Evolvng Factor Analyss É una varante della EFA. In questa la matrce de dat usata per calcolare le component prncpal cresce contnuamente. Nella Fed sze movng wndow EFA, s scegle l ampezza W d una fnestra, e n ogn cclo s consdera una submatrce d W oggett per la PCA; la prma matrce va dall oggetto all oggetto W, la seconda dall oggetto all oggetto W+, e così va, come llustrato sotto per l caso W = 3: Fgura 4-86 Schema della Fed sze movng wndow EFA Gl autovalor delle submatrc(generalmente vsualzzat come frazone della varanza totale della submatrce, su scala logartmca) ndcano la complessta locale del modello. La scelta dell ampezza della fnestra é crucale. FSMW-EFA applcata a dat dell esempo EFA ha dato (con la fnestra mglore) l rsultato nella Fgura Fgura FSMW-EFA applcata all esempo EFA 36

137 Egenvector rackng Analyss (EA) É analoga alla FSMW-EFA, ma é effettuata sulle colonne e pertanto la complesstà locale é quella del fattore rga. EA applcata a dat dell esempo EFA ha dato (con la fnestra mglore) l rsultato nella Fgura Fgura EA applcata all esempo EFA 37

138 4.6 ANALISI ESPLORAIVA, CLUSERING L anals esploratva è essenzalmente basata su grafc che permettono d vsualzzare n modo opportuno gran parte della nformazone contenuta nella matrce de dat. Il metodo fondamentale per l esplorazone è l anals delle component prncpal, che non deforma lo spazo orgnale. Altr metod sono: Projecton pursut NLM (Non Lnear Mappng) Metod propr dell anals de grupp (clusterng) 4.6. Projecton pursut È analoga alla PCA, ma l rsultato è una sere d vettor ortogonal caratterzzat dalla massma asmmetra, o dalla mnma curtos, o dalla mnma entropa. L entropa d Shannon d una varable v è defnta come H v v0 p v ln (p v ) In pratca la varable vene dvsa n un certo numero d ntervall e la probabltà n ogn ntervallo è msurata dalla frequenza. Nell esempo la Varable A ha entropa 0 0. ln(0) =.3 mentre B ha entropa 0.9 ln (/0.9) + 0. ln(0) = 0.3 Una drezone d mnma entropa, massmo ordne, è una drezone che permette d ndvduare oggett anomal (outlers). 38

139 Projecton pursut è un metodo poco utlzzato, n quanto generalmente le nformazon che da esso s ottengono sono fornte anche dalla PCA, che può ndvduare gl outlers, se non sulle prme component, su quelle successve NLM (Non Lnear Mappng) Le mappe non lnear (Non Lnear Mappng) rappresentano n uno spazo M-dmensonale (M = o 3, spazo della rappresentazone) oggett che sono descrtt da V > M varabl. L obbettvo d NLM é mnmzzare la dfferenza tra le dstanze nterpunt nello spazo V-dmensonale e le corrspondent nello spazo d rappresentazone. La tecnca, presentata n chemometra con l nome NLM (Harper, A. M.; Duewer, D. L.; Kowalsk B. R. ARHUR and the Epermental data Analyss: he Heurstc Use of a Polyalgorthm. In Kowalsk, B. R. Ed. Chemometrcs: heory and Applcaton; ACS Symposum Seres 5; Amercan Chemcal Socety: Washngton, 977.), fu ntrodotta da orgerson nel 95 (W. S. orgerson. Muldmensonal Scalng: I. heory and Method. Psychometrka. 7, (95)), modfcata da Shepard e Kruskal (R. N. Shepard. he analyss of promtes: multdmensonal scalng wth an unknown dstance functon. Psychometrka. 7, 5-39; 9-46 (96), J. B. Kruskal. Multdmensonal scalng by optmzng goodness of ft to a nonmetrc hypothess. Psychometrka. 9, -7 (964)), J. B. Kruskal. Nonmetrc multdmensonal scalng: a numercal method. Psychometrka. 9, 5-9 (964)) ne prm ann sessanta ed è nota nelle scenze socal ed economche come multdmensonal scalng (MDS). La funzone da mnmzzare é una delle seguent: N N N N R R F d jkd jk F d jkd jk F 3 k jk N N k jk d jk d jk R jk dove k e j sono ndc d oggetto, d jk d k jk é la loro dstanza nello spazo V-dmensonale, R d jk é la loro dstanza nello spazo M-dmensonale (M= or M=3), N é l numero degl oggett. Le mappe d Sammon usano la funzone F3, con la conseguenza d favorre un pccolo errore per le dstanze pccole, cosa generalmente poco nteressante, n quanto generalmente un grande errore 39

140 percentuale sulla dstanza d punt molto vcn è senza mportanza, mentre è molto mportante preservare al meglo la dstanza tra oggett lontan. Pertanto la funzone F é preferble. La mnmzzazone s ottene con una scelta opportune delle coordnate nello spazo M dmensonale d rapresentazone. Il mnmo della funzone costo vene generalmente ottenuto con un algortmo della dscesa pù rpda (steepest descent). La drezone d massma pendenza s ottene dalla somma vettorale delle dervate parzal (Fgura 4-89). Partendo da un punto scelto casualmente, s avanza nella drezone d massmo gradente, sno a trovare un mnmo (nella drezone) della funzone da mnmzzare. In questo punto s rcalcola l gradente e c s muove nella nuova drezone sno ad un nuovo mnmo, sno a quando l gradente nel mnmo è nullo mnmo multdmensonale). Fgura 4-89 Curve d soprofondtà e cammno del metodo della dscesa pù rpda Il metodo della dscesa pù rpda ha l nconvenente d avere una grande probabltà d arrestars n un mnmo locale, dovuto prevalentemente agl error d msura che rendono estremamente rregolare la superfce della funzone da mnmzzare. Il problema d mnmzzazone nel NLM è complesso, n quanto occorre ottmzzare N -3 coordnate (per M =, 3 N -5 per M=3; tre coordnate vengono fssate per evtare traslazone e rotazone). Per questo motvo, occorre rpetere l procedmento molte volte, partendo da punt dfferent. In ogn caso lo spazo d rappresentazone deforma l nformazone e cò può dare orgne ad nterpretazon non corrette. 40

141 Fgura 4-90 Spazo dell nformazone (bdmensonale, n alto) e spazo d rappresentazone (undmensonale, n basso) Nella Fgura 4-90 é llustrato un esempo molto semplce con V = e M =. La coordnata dell oggetto a n M é fssata (p.e., =0) per evtare traslazone, e vengono ottmzzate le coordnate e degl oggett B e C. La Fgura 4-9 mostra la funzone errore F nello spazo delle due coordnate e. Il mnmo è a = 7., = 5.6. Il dettaglo de rsultat nella tabella sottostante ndca che la rappresentazone ottma fornsce un errore elevato sulla dstanza tra A e C, mentre le altre due dstanze sono ben rspettate nello spazo d rappresentazone. Oggetto k Oggetto j R d jk d jk A B A C B C

142 Fgura 4-9 Funzone errore F nello spazo delle due coordnate e SNLM (Smplfed Non Lnear Mappng) Uno degl nconvenent d NLM é l elevato tempo d calcolo quando l numero d oggett é elevato. SNLM (M.Forna, C.Armanno, S.Lanter, C.Calcagno, Smplfed non-lnear mappng of analytcal data, Annal Chm. (Rome), 73, (983)) parte applcando NLM ad alcun punt base, un rdotto numero d oggett o estratt casualmente o oggett rappresentatv d grupp o pseudo oggett, come centrod d categore. In seguto SNLM poszona gl oggett (non usat precedentemente) nello spazo d rappresentazone uno alla volta, mnmzzando la dfferenza tra le dstanze dell oggetto da punt base nello spazo della nformazone e n quello d rappresentazone. 4

143 4.6.4 Metod propr dell anals de grupp (clusterng) Le tecnche d anals de grupp, dette d Clusterng hanno lo scopo d ndvduare grupp (clusters, clouds) d oggett sml (o d varabl sml). I grupp ndvduat n tal modo possono suggerre categore per stud ulteror, come l anals d classfcazone, o possono confermare l esstenza d categore gà defnte. Le tecnche d clusterng possono essere classfcate come: a) Gerarchche a) Agglomeratve a) Dvsve b) Non-gerarchche Le tecnche gerarchche agglomeratve partono con tant clusters quant sono gl oggett; gradualmente gl oggett sono unt nclusters, sno ad un cluster fnale con tutt gl oggett. Le gerarcha derva dal fatto che clusters grand dervano sempre dalla unone d nter clusters pù pccol. Le tecnche gerarchche dvsve nzano con un grande cluster con tutt gl oggett e medante suddvson successve arrvano a clusters d un unco oggetto. Le tecnche d clusterng sono basate sulle dstanze tra oggett e alla smltudne, nversamente proporzonale alla dstanza. La standardzzazone delle varabl e la metrca per le dstanze sono d enorme mportanza n queste tecnche. Le tecnche gerarchche agglomeratve sono: ) Legame medo pesato (Weghted average lnkage); ) Legame medo non pesato (Unweghted average lnkage); 3) Legame completo (Complete lnkage); 4) Legame sngolo (Sngle lnkage); 5) Metodo d Ward. Weghted average lnkage S facca rfermento alla Fgura 4-9. Un cluster d due oggett A é ottenuto dall unone degl oggett e. La poszone d A (usata per calcolare le dstanze e le connesse smltudn tra clusters) è a metà tra le poszon d e, metà tra le poszon d A e B, nonostante B abba meno oggett d A. 43

144 Sa: A C A Object X Y A C La formula dettaglata sopra mostra che agl oggett sngol é stato assegnato un peso, da cu l nome del procedmento. 4-9 Prncpo del Weghted average lnkage Unweghted average lnkage Quando vengono unt due clusters A e B per formare l nuovo cluster C, la poszone d C è tra quelle d A e B (Fgura 4-93), pesando per l numero degl oggett ne clusters che s unscono. Nella poszone d C tutt gl oggett orgnal hanno lo stesso peso. C A

145 4-93 Prncpo del Unweghted average lnkage Complete lnkage Il cluster A vede B nella poszone 7 (ved Fgura 4-94); B vede A nella poszone, n modo che la dstanza tra A e B é la massma dstanza tra loro oggett Prncpo del Complete lnkage Legame sngolo (Sngle lnkage or natural clusterng) Il cluster A vede B nella poszone 3 (ved Fgura 4-95); B vede A nella poszone. La dstanza tra A e B é la dstanza mnma tra I loro oggett. 45

146 4-95 Prncpo del Sngle lnkage Metodo d Ward É basato sulla eterogenetà, una varanza multdmensonale. La eterogenetà d un cluster c é: I c V vc vc e ( vc é la meda della varable v nel cluster c) c v e la eterogenetà totale é: E C e c c dove C é l numero de clusters. La eterogenetà totale é consderata la msura della perdta d nformazone che s ha quando s consderano I centrod de clusters nvece de sngol oggett (eterogenetà totale 0). In ogn passo l metodo unsce due clusters chet provocano l pù pccolo aumento della eterogenetà totale. 46

147 4.6.5 Smltudne La smltudne d due oggett ( e j) o d due varabl é defnte come: s j d d j MAX dove dj é la dstanza tra due oggett e dmax é la dstanza massma tra due oggett nell nseme d dat. I due oggett con la massma dstanza hanno qund smltudne 0. Pertanto la smltudne dpende dal set d dat Dstanze Una dstanza é un numero non negatve che rflette la poszone relatve d due oggett. Una metrca defnsce la dstanza n modo da soddsfare le propretà:. dj 0. d = 0 3. dj = dj 4. dk dj + djk Le dstanze pù usate sono: a)euclidea d V j ( j) ( j) ( v jv ) v b) MAHALANOBIS (V - é l nversa della matrce delle varanze-covaranze) d j ( j ) V ( j ) c) MINKOWSKI (con E, generalmente E=V) V d E j v v jv E d) MANHAAN o Cty-block d j V v v jv e) Dstanza d CANBERRA d j V v ( v v kj jv ) 47

148 f) COEFFICIENE DI CORRELAZIONE (é drettamente una msura della smltudne; la msura d dstanza é d = (-r)/)) r j V v V v ( ( v v )( ) V v jv ( ) jv j ) j Nota: questo é l coeffcente d correlazone tra due oggett, eguale a se gl oggett sono esattamente nella stessa drezone dal centrode); nel caso d smltudne tra varabl (v e w), l equazone smmetrca é: d vw I I ( ( v v )( v v ) I w ( w w ) w ) g) Valore assoluto del coeffcente d correlazone (msura d smltudne, la msura d dstanza é d = -r) Esstono molte altre msure d dstanza e/o d smltudne, che s applcano a varabl d tpo partcolare, d scarso nteresse per la chmca analtca. La SIMILIUDINE DI JACCARD s applca a varabl bnare, che possono per esempo. assumere valor 0 e. Sano A e B due oggett, descrtt da un certo numero d varabl bnare (attrbut). N rappresenta l numero totale d attrbut dove A e B hanno entramb valore. N0 rappresenta l numero totale d attrbut dove l'attrbuto d A è 0 e l'attrbuto d B è. N0 rappresenta l numero totale d attrbut dove l'attrbuto d A è e l'attrbuto d B è 0. N00 rappresenta l numero totale d attrbut dove A e B hanno entramb valore 0. La smltudne d Jaccard s calcola come: La dstanza d Jaccard è: J A,B = N N + N 0 + N 0 La massma dstanza s ha per N = 0. DJ A,B = N 0 + N 0 N + N 0 + N 0 48

149 La DISANZA DI HAMMING s applca al confronto tra strnghe (vettor d caratter) d eguale lunghezza, ed è data dal numero d sosttuzone necessare per convertre la seconda strnga nella prma. Se le strnghe sono egual la dstanza d Hammng è nulla. P.e., la dstanza tra le strnghe Chara e Cesra è 3, par al numero d caratter dvers nelle strnghe Dendrogramm In ogn passo delle tecnche d agglomerazone, due cluster pù sml vengono unt. S annota l valore della loro smltudne, che verrà utlzzato per costrure l grafco tpco d queste tecnche, l dendrogramma. Con N oggett, l cluster fnale è ottenut dopo N- pass. In un dendrogramma l ordnata é generalmente la smltudne, qualche volta la dstanza, raramente (per fortuna) l ndce del passo d agglomerazone. L ascssa ndca gl oggett, e non ha uno specale sgnfcato. La lunghezza delle lnee vertcal nel dendrogramma msura la separazone tra clusters, e conseguentemente è pratca comune taglare l dendrogramma ad una smltudne corrspondente a ram pù lungh, per ottenere clusters apparentemente sgnfcatv. L ascssa non è nformatva, ma spesso l utente nterpreta l dendrogramma con la sensazone stntva che oggett vcn sulle ascsse sono sml, cosa completamente falsa. Il dendrogramma può essere mglorato medante serazone, procedmento che dà sgnfcato anche alle ascsse. 49

150 4.6.8 Un esempo L esempo lavora con l unweghted average lnkage su d dat d due varabl e dec oggett. S calcola la matrce delle dstanze. La Fgura 4-96 mostra l rsultato per l prmo oggetto. Fgura 4-96 Esempo per clusterng. Calcolo delle dstanzenzal La dstanza massma (tra gl oggett e 0) é Vene utlzzata per calcolare le smltudn, mostrate n Fgura 4-95 per l oggetto 5. Fgura 4-97 Esempo per clusterng. Smltudn nzal Prma agglomerazone La smltudne massma é tra gl oggett 6 e 7. Gl oggett s unscono n un nuovo cluster che assume l ndce 6 del prmo oggetto (Fgura 4-98). Vengono rcalcolate le smltudn d tutt gl oggett (tranne 6 e 7) con l nuovo cluster 6. 50

151 Fgura 4-98 Prma agglomerazone Seconda agglomerazone Fgura 4-99 Seconda agglomerazone S unscono gl oggett 8 e 9, nel nuovo cluster 8, a lvello d smltudne (Fgura 4-99). Vengono rcalcolate le smltudn d tutt gl oggett sngol e de cluster (per ora solo 6) con l nuovo cluster 8. Nella terza agglomerazone vengono unt gl oggett e 3 per formare l cluster, a lvello d smltudne

152 Quarta agglomerazone S unscono e nel cluster a lvello d smltudne (Fgura 4-00). È l prmo caso n cu s unsce un cluster (l ) ad un oggetto. Il nuovo cluster ha tre oggett. Fgura 4-00 Quarta agglomerazone Ottava agglomerazone Fgura 4-0 Ottava agglomerazone S unscono clusters 6 (d due oggett) e l cluster 8 (d tre oggett), a smltudne (Fgura 4-0). Il cluster 6 rsultante ha cnque oggett. Nell ultma agglomerazone s unscono clusters e 6, ambedue con cnque oggett, a smltudne La tabella delle aggregazon è utlzzata per traccare l dendrogramma. 5

153 Il dendrogramma rporta n ordnate le smltudn n ordne nverso. S parte dall alto, con ascssa tale da lascare a destra e snstra spazo proporzonale a due ultm cluster aggregat, e s scende sn al lvello dell ultma smltudne nella tabella. Qu s tracca una lnea orzzontale, tra due ascsse opportune, che tengono conto degl oggett ne clusters della penultma e della terzultma unfcazone. E così s prosegue come llustrato nella Fgura 4-0. Fgura 4-0 Il dendrogramma Infne l dendrogramma é taglato ad un lvello d smltudne a cu corrspondono ram vertcal lungh (p.e. a lvello 0.4 n Fgura 4-0), ottenendo clusters ben separat. 53

154 4.6.9 Inconvenent delle tecnche d clusterng Le tecnche d clusterng, n partcolare le pù utlzzate, quelle del legame medo e l metodo d Ward, presentano alcun nconvenent. Fgure Un nseme d dat artfcal con due varabl e 80 oggett. Le frecce ndcano gl oggett 56 e 6. L astersco ndca la maggore dstanza tra un oggetto e l pù vcno. Fgura 4-04 I dat della Fgura 4-03 raggruppat n 8 grupp 54

155 Quando s applca la tecnca del legame medo non pesato a dat delle Fgure 4-03 e 4-04 s ottene l dendrogramma della Fgura 4-05, anche quando s consderano clusters prncpal (quell ottenut taglando l dendrogramma al lvello della frecca lunga nella Fgura 4-05). Il dendrogramma sembra molto nteressante, con due clusters prncpal molto ben separate, e quattro clusters mnor (ottenut taglando al lvello della frecca pù corta) sono anch ess nettamente separate nel dendrogramma. Rsultat sml s ottengono con altre tecnche d clusterng. L esempo mostra che l dendrogramma può rappresentare molto male la struttura de dat. La ragone d questo grave nconvenente rsede nel fatto che un cluster è rappresentato (a fn delle dstanze) dal suo centrode. Fgure 4-05 Dendrogramma delle smltudn per dat n Fgura Unweghted average lnkage 55

156 Fgure 4-06 Alcun pass dell agglomerazone. I quadrat blu pen rappresentano centrod de clusters, le lnee collegano gl oggett (quadrat ner) al centrode del loro cluster. Gl oggett 56 e 6 sono rappresentat da un cercho rosso. La Fgura 4-06 llustra alcun pass della agglomerazone. Nella Fgura 4-06a l oggetto 56 ha l pù vcno a snstra, l oggetto 6 l pù vcno a destra. Ess s collegano n un cluster a quest due oggett, e s allontanano anche se d poco, essendo la loro poszone rappresentata da centrod de due clusters. Con l procedere delle agglomerazon 56 e 6 s trovano a far parte d clusters sempre pù lontan e nella Fgura 4-06d sono orma molto dstant. Il metodo del legane sngolo solamente s comporta dfferentemente, Il dendrogramma relatve non mostra ram con grand varazon d smlartà e non suggersce la presenza d clusters sgnfcatv. Molto frequentemente la nostra percezone d smltudne non é basata tanto sulla dstanza quanto sulla struttura. Nell esempo d Fgura 4-07, v sono due strutture lnear che nessuno de metod del legame medo, completo e d Ward sono n grado d rlevare. 56

157 Fgura 4-07 Dat bdmensonal : clusters suggert dal dendrogramma; : dendrogramma (metodo d Ward). Invece l metodo del legame sngolo (Fgura 4-08) ndvdua nettamente le due strutture lnear, e assegna gl oggett a clusters come no assegnamo gl acd ad un grappolo d uva, osservando la struttura del grappolo e non la vcnanza degl acn. Per questa ragone l metodo del legame sngolo è detto anche clusterng naturale. 57

158 Fgura 4-08 Dat bdmensonal : clusters suggert dal dendrogramma; : dendrogramma Serazone Serazone sgnfca rordno ottmo degl oggett ed é un termne nato n archeometra nel 899, termne utlzzato per ndcare l procedmento d ordnamento d manufatt n accordo con la loro cronologa. Un set d numer real, come quell ottenut msurando un unca varable chmca, può essere ordnate molto faclmente. Quando ogn oggetto é descrtto da pù varabl, raramente l ordne é lo stesso per tutte le varabl, ed é necessaro un ordnamento multdmensonale. La serazone ordna gl oggett secondo una varable latente, lavorando [W.S. Robnson, Amercan Antquty, 6 (95) 93-30, G.W. Branerd, Amercan Antquty, 6 (95) 30-33] sulla matrce delle smltudn. Questa vene rarrangata cercando d ottenere una matrce d Robnson, n cu la grandezza degl element decresce allontanandos dalla dagonale prncpale. Le Fgure 4-09 e 4-0 mostrano la matrce delle smltudn (codfcata a color) (rosso >0.9 verde <0.3) per un data set d 00 oggett descrtt da una sola varable ed nzalmente n ordne casuale. 58

159 Fgure 4-09 Matrce delle smltudn, ordne orgnale d 00 oggett Fgure 4-0 Matrce delle smltudn,per 00 oggett ordnat 4.6. Altr metod V sono numeros altr metod d clusterng, ma meno usat d quell qu descrtt. ra ess rcordamo l non gerarchco K means, OPICS (Orderng Ponts o Identfy Clusterng Structure), OEICS (Orderng Edges o Identfy Clusterng Structure), Fuzzy K means. 59

160 4.6.. K means KMEANS nza con una suddvsone casuale degl oggett tra C clusters (l numero C é scelto dall operatore e pertanto s tratta d una tecnca parzalmente gudata). L algortmo calcola eterogenetà totale (la stessa del metodo d Ward: C E e c con c vc vc c I c V e. v Da una data stuazone con eterogenetà Es, s muovono gl oggett ordnatamente da un cluster ad un altro (p.e., l oggetto dal cluster nzale 4 al cluster,., l oggetto dal cluster nzale 4 al cluster,., l oggetto dal cluster nzale 4 al cluster 3, l oggetto dal cluster nzale al cluster, l oggetto dal cluster nzale al cluster 3, l oggetto dal cluster nzale al cluster 4, ). Quando l movmento provoca una dmnuzone della eterogenetà, esso é accettato, Es vene aggornata e s rtorna al prmo oggetto. L terazone s arresta quando Es non dmnusce dopo aver provato per ogn oggetto tutt possbl spostament K medods S tratta d un metodo molto smle a K-means. Il medode è l oggetto centrale d un cluster, quello per l quale la somma delle dstanze degl altr oggett è mnma. S scelgono nzalmente a caso C oggett come medod e, per ogn medode s prova la sosttuzone con un oggetto non medode. Se la eterogenetà dmnusce, l medode è sosttuto. L terazone s arresta quando n un doppo cclo con tutt medod e per cascuno d ess tutt gl oggett nonmedod, non v è stata sosttuzone OPICS OPICS (Orderng Ponts o Identfy Clusterng Structure) é basato sulla dstanza d raggungbltà, reachablty dstance. L operatore defnsce due parametr: ) : dstanza generatrce (generatng dstance), l raggo d uno spazo sferco S(q) ntorno ad un dato oggetto q, spazo che s utlzza per defnre la non connettvtà, la mancanza della possbltà d collegare l oggetto ad altr n un cluster. Quando nello spazo S(q) non v sono altr oggett oltre a q, questo oggetto è un sngleton (o outler). La sua reachablty dstance è INDEFINIA. Gl oggett la cu dstanza d raggungbltà è ndefnta costtuscono l RUMORE. 60

161 Gl altr sono n uno o pù CLUSERS. La cardnaltà é l numero d oggett dfferent da q n S(q). ) MnPonts: é la cardnaltà mnma d q con rfermento a S(q) rchesta per la connettvtà. Un oggetto q tale che S(q) MnPonts é un nucleo d cluster, un Core pont. La sua core dstance (core(q)) éla dstanza dal vcno numero Mnponts. Nella Fgura 4- sono llustrat punt prncpal delle defnzon d OPICS per MnPonts = 3. Un punto come p, con dstanza da q less than core has reachablty dstance = core(q). Un punto come p, con dstanza da q mnore d ha reachablty dstance eguale alla sua dstanza da q. Un punto come f che ha dstanza da q maggore d non può essere raggunto (connesso) drettamente a q. Fgure 4- Core dstance (rossa) e Reachablty dstance (blu). Con Mnponts = 3 core(q) é la dstanza tra q e l suo terzo vcno: L algortmo d OPICS nza con la defnzone della dstanza generatrce e della cardnaltà mnma [] La reachablty dstance d tutt gl oggett è posta a INDEFINIA, coè a un valore convenzonale >. [] S leggono gl oggett nzando con l prmo. Questa lettura (punto 3) é solo uno de mod d accesso agl oggett, e durante questo accesso ordnato agl oggett l algortmo può anche accedere a oggett elaborat n precedenza. [3] se dat sono fnt andare al punto [8] 6

162 Leggere l oggetto I. [4] se l oggetto I è stato elaborato n precedenza ncrementare I (I = I+) e tornare a []. [5] s elabora l oggetto I che vene aggunto alla LISAORDINAA. [5-] Se la cardnaltà CARD(I) dello spazo S(I) é < MnPonts allora s pone ReachDst(I) =. (coè INDEFINIA), s aggorna I (I = I +), s torna a []. [5-] Altrment [CARD(I) MnPonts] nza un nuovo cluster: [5--] S valuta Core(I) (Dstanza del vcno numero MnPont da I). [5--] S pone ReachDst(I) = Core(I). [5--3] S aggungono a una LISA vcn dell oggetto elaborato I (quegl oggett che hanno una dstanza dall oggetto n elaborazone ), nseme alla loro ReachDst (rp dstanza dell oggetto p da è l massmo tra la dstanza d p da e core()). Gl oggett elaborat possono essere releborat qu ed elmnate dalla LISAORDINAA se la loro ReachDst era INDEFINIA (ess non sono Core ponts, ma possono essere raggunt da un Core pont) Nel caso un vcno d I fosse precedentemente nella LISA allora la sua reachablty dstance é la mnore tra la precedente e la nuova ReachDst. [5--4] Gl oggett n LISA vengono ordnat secondo la loro ReachDst. [6] Se LISA é vuota s aggorna I (I = I +) e s torna a [] [7] S legge l prmo oggetto n LISA. Sa l suo ndce J. Esso vene cancellato da LISA, elaborato e aggunto a LISAORDINAA. [7-] Se CARD(J) < MnPonts s torna al punto [6] per leggere l oggetto successvo n LISA. [7-] Altrment [è CARD(J) MnPonts]: [7--] Valutare Core(J). [7--] Se ReachDst(J)>Core(J) porre ReachDst(J) = Core(J). [7--3] Andare a [5--3] per aggungere a LISA vcn d J. [8] Fne dell algortmo. Il rsultato può essere rportato n grafc della Reachablty dstance n funzone dell ordne d elaborazone rsultante nella LISAORDINAA. Un esempo d grafco è n Fgura 4-. 6

163 Fgure 4- Reachablty dstance plot d OPICS V è un solo cluster e poch oggett sono rumore (reachablty dstance ndefnta). Una scelta approprata de due parametr può mglorare la separazone o l nterpretabltà de clusters. In Fgura 4-3 la scelta operata ha permesso d separare tre cluster, corrspondent a zone n cu la denstà degl oggett é elevata. L esplorazone degl effett de due parametr può rendere onerosa l applcazone d OPICS, ma fornsce generalmente buon rsultat. Fgure 4-3 Reachablty plot e traettora dell ordne d elaborazone nello spazo (due varabl) de dat 63

164 OEICS OEICS (Orderng Edges o Identfy the Clusterng Structure) lavora sulle connesson del Mnmum Spannng ree (MS, ved 4.4..). Il MS connette gl oggett con la mnma lunghezza totale delle connesson. OEICS non ha, al contraro d OPICS, parametr l cu valore à selezonable dall operatore. OEICS nza con l pretrattamento de dat, usuale nelle tecnche d clusterng basata sulle dstanze. Fgure 4-4 Mnmum spannng tree de dat n Fgura 4-3 L algortmo d OEICS contnua con l calcolo del mnmum spannng tree (MS, ved 4.4..). In questo gl oggett sono conness da lnee (edges) d dversa lunghezza. Il lvello nzale d connesson d un oggetto è l numero delle lnee che lo connettono ad altr oggett, la sua valenza. Se l lvello nzale è, l oggetto è un oggetto termnale e la lnea è una lnea termnale. Se è pù d l oggetto è un nodo. Qund: [] S nza con la lnea pù lunga, la prma delle lnee ordnate. utt gl oggett sono attv. Se la lnea è termnale uno de due oggett è provvsoramente nattvo, e vene contrassegnato. [] I due oggett conness da una lnea ordnata sono oggett ordnat. Il loro lvello è dmnuto d. se l lvello dventa 0, l oggetto è nattvo: tutte le lnee cu è connesso sono state ordnate. 64

165 [3] Se non v sono oggett ordnat attv, s consdera l altro oggetto connesso dalla lnea pù lunga. Se esso é contrassegnato dventa attvo, e s contnua con esso [4]. Altrment tutte le lnee sono state ordnate e s va a [5] [4] S ndvdua la lnea pù corta tra quelle non ordnate che connettono uno degl oggett attv ordnat. La lnea vene ordnata e s torna a []. [5] fne dell algortmo. S procede al rordnamento (ved oltre). Fgure 4-5 Un set d vent oggett e relatvo MS La Fgura 4-5 mostra un set d sol vent oggett. Il loro lvello nzale è: Oggetto Lvello ERMINALE ERMINALE 3 4 ERMINALE 5 3 Nodo 6 3 Nodo 7 3 Nodo 8 9 ERMINALE 0 ERMINALE 3 3 Nodo 4 3 Nodo 5 ERMINALE 65

166 6 3 Nodo 7 8 ERMINALE 9 0 ERMINALE L algortmo OEICS nza dalla connessone -0, scegle tra due oggett l oggetto 0, mentra, non termnale, vene contrassegnato e verrà recuperato con l undcesmo passo. Il progressvo ordnamento procede come ndcato nella tabella sottostante. Step Connessone Lunghezza Prmo Lvello Attvo Secondo Lvello Attvo oggetto resduo oggetto resduo NO NO 9 0 NO NO NO 4 0 NO NO 0 NO NO 0 NO NO NO 0 NO NO NO NO 5 0 NO NO NO 0 0 NO Il grafco OEICS rporta la lunghezza delle connesson n funzone delle connesson ordnate. Il grafco (Fgura 4-6, A) non é sempre molto charo, e cò quando la connessone nzale non è termnale. In questo caso un grafco molto pù charo s ottene rarrangando le connesson, n modo che quelle orgnate dal secondo oggetto della connessone pù lunga sano rbaltate rspetto alla connesone pù lunga nella parte snstra del grafco. Nella Fgura 4-6, B, la connessone -3, orgnata dall oggetto della lnea pù lunga, vene spostata a snstra della connessone 0-, e le seguent, da 3-4 a 9-0 vengono spostate analogamente. Il grafco rsultante mostra due vette, ndcate con una frecca, che separano l cluster 9-0 dal cluster con gl oggett da a 8 e dal cluster con gl oggett da a 0. 66

167 Fgure 4-6 A) Grafco OEICS nzale B) Grafco OEICS dopo rarrangamento La Fgura 4-7 mostra l applcazone d OEICS a dat d Fgura 4-4. I clusters sono stat ndvduat studando l proflo delle lunghezze ordnate. Le tre vall pù mportant corrspondono alle zone d maggore denstà degl oggett. Un pccolo cluster è stato ndvduato dlla valletta d nella Fgura. Evdentemente, dato che clusters non sono nettamente separat dalla nuovola degl oggett a bassa denstà, la assegnazone è soggettva, soggetta ad una ncertezza relatvamente elevata. 67

168 Fgure 4-7 Grafco d OEICS e clusters ndvduat per dat n Fgura

169 4.7 CLASSIFICAZIONE E MODELLAMENO DI CLASSE 4.7. I modell matematc anto metod d classfcazone quanto quell d regressone della Chemometra lavorano con modell matematc. I modell matematc s dstnguono n hard e soft. I prm sono modell teorc della Chmca teorca. La loro valdtà è ottenuta con una sere d msure della quanttà calcolata dal modello. S valuta la bontà dell adattamento (fttng ablty) dall errore del modello. Se essa non è soddsfacente s perfezona la teora ottenendo un nuovo modello. I modell soft, propr della Chemometra, sono modell fals, nel senso che non hanno base teorca. La loro unca gustfcazone è che ess funzonano, nel senso che sono utl per fornre l nformazone desderata. Il modello derva da dat spermental. La sua bontà d adattamento non ha mportanza (n quanto è sempre possble complcare l modello n modo da aumentare la bontà d adattamento). Cò che è nvece mportante è la bontà d predzone, predcton ablty, la capactà d fornre l nformazone rchesta con oggett non utlzzat per calcolare parametr del modello Class, Anals d classfcazone, modellamento d classe Una CLASSE o CAEGORIA é una popolazone d ndvdu (oggett, campon, molecole,...) con eguale valore d una o pù varabl dscrete o con valor vcn d alcune varabl contnue, generalmente d alcune QUALIÁ. Queste varabl non sono sempre msurabl o sono dffclmente msurabl. Fgura 4-8 Dodc oggett della categora Gatto 69

170 Per esempo, quando guardando le dodc mmagn n Fgura 4-8 dcamo che s tratta d gatt, no non msuramo l numero d cromosom né altre caratterstche che ne permettono la tassonoma, ma decdamo n base a caratterstche qual la forma delle orecche, del naso, del muso, caratterstche che a no sono faclmente accessbl. Sotto l termne generale d Anals d classfcazone v sono due tp puttosto dfferent d anals, l anals d classfcazone vera e propra e l anals d modellamento d classe. L anals d classfcazone ha l obbettvo d assegnare un oggetto ad una delle class nel problema. I metod d classfcazone: a) raccolgono dalla popolazone d cascuna categora (o dalla popolazone congunta delle categore nel problema) un campone statstco rappresentatvo [nseme d calbrazone]; b) msurano su cascun oggetto alcune varabl, che s suppone sano buon descrttor delle categore, possblmente dfferent da categora a categora; c) preparano una regola d classfcazone; questa regola é un modello matematco cha a partre da valor delle varabl fornsce una rsposta cu lvell permettono d assegnare un oggetto ad una delle categore; d) valutano le prestazon del modello d classfcazone; e) applcano l modello a oggett la cu categora non é nota [test set]; f) danno una msura della attendbltà della assegnazone. Le tecnche d modellamento d classe: dfferscono dalle tecnche d classfcazone n quanto l attenzone é su d un unca categora; l modello dscrmna tra la categora studata ed l resto dell unverso. La classfcazone é un mnore rsultato delle tecnche d modellamento. Le tecnche d classfcazone assegnano gl oggett ad una delle class nel problema. Le tecnche d modellamento danno una rsposta composta: a) compatbltà con l modello d una delle categore; b) possbltà che l oggetto sa accettato dal modello d pù categore; c) possbltà che l oggetto non sa accettato da nessuno de modell delle categore nel problema. 70

171 La Fgura 4-9 mostra la dfferenza tra classfcazone e modellamento n un caso unvarato. Ambedue s basano sulla stma della d probabltà, ma la usano dfferentemente. Nella parte alta della fgura l attenzone é sull unca classe A. L oggetto O é accettato dal modello della classe (fornto dall ntervallo d fduca ad un prescelto lvello d probabltà). L oggetto O é respnto. In basso, v sono tre categore. L oggetto O3 é classfcato nella categora A, poché la probabltà a posteror (denstà d probabltà corrspondente al valore della varable sotto l potes che la categora sa una delle categore) per la classe A è maggore d quella per le altre categore. uttava O3 è accettato anche dal modello della classe C. O4 è accettato da tutte le categore, ma è assegnato alla classe B. Fgure 4-9 Il prncpo delle tecnche probablstche d classfcazone e d modellamento d classe Il campone statstco I modell vengono svluppat utlzzando un certo numero d campon estratt dalle popolazon delle categore. L estrazone può essere: 7

172 . forzata dallo spermentatore n modo che l campone rappresent l effetto d tutt fattor d varabltà che sono responsabl delle dfferenze tra gl oggett d una categora e che sa costtuto da un numero d oggett opportuno, selezonato per ogn categora;. casuale, quando fattor d varabltà non sono not; 3. la mglore possble, dat problem pratc d raccolta de campon.. Il camponamento è estremamente mportante poché la valdtà de rsultat dpende dalla rappresentatvtà del campone statstco. Lo spermentatore deve essere ben consco d cosa rappresentno suo campon, oggett del campone statstco. Cnque alquote da una bottgla d vno Barbera rappresentano l vno n quella bottgla; vent campon estratt da altrettante bottgle d Barbera d Costglole d Ast rappresentano (pù o meno bene) la Barbera d Costglole; cnquanta campon provenent da crca cento comun n cu s produce la Barbera d Ast rappresentano questo vno DOCG. Nel caso d estrazone casuale dalla popolazone congunta d tutte le categore l campone dovrebbe essere proporzonale alla probabltà apror delle categore. dovrebbe perché la numerostà de campon nelle vare categore é una stma del valore vero ; della probabltà apror (ved 4.7.7) perché questa è la frazone degl oggett della categora nella popolazone congunta. Nella estrazone casuale s genera un ndce d categora g e la varable a caso G ha la probabltà p(g) per G event possbl. La frequenza relatve f(g) de campon della categora g nel campone statstco, numero de campon della categora n(g) dvso per l numero totale degl oggett N è una msura d p(g). Negl altr cas l campone non é proporzonale e n(g) non é n relazone con p(g). Frequentemente, s usano campon statstc n cu l numero degl oggett è eguale n tutte le categore. Il numero degl oggett, sa totale che nelle categore, é un fattore crtco, perché: a) un numero troppo pccolo non rappresenta fattor d varabltà entro o tra categore; b) un campone non proporzonale può portare a rsultat crtcabl; c) la possbltà d utlzzare alcune tecnche d classfcazone o d modellamento dpende dal rapporto tra numero d oggett e numero d varabl. 7

173 Le varabl selezonate per descrvere gl oggett devono essere potenzalmente rlevant, coè l loro valore deve essere determnato da fattor che descrvono la varabltà entro o tra le categore. 73

174 4.7.4 Classfcazone de metod d classfcazone e d modellamento Le tecnche d classfcazone e modellamento possono essere: ) PROBABILISICHE, basate sulla stma della dstrbuzone d probabltà a) Parametrche (le dstrbuzon d probabltà sono descrtte da parametr d locazone e dspersone, meda, varanza, covaranza); Classfcazone: LDA, QDA, RDA (Anals Dscrmnante Lneare, Anals Dscrmnante Quadratca, Anals Dscrmnante Regolarzzata) Modellamento: UNEQ (UNEQual Class Spaces); b) Non-parametrche; Classfcazone e modellamento: PF (Metod delle Funzon Potenzal) ) Basate sulle DISANZE (possbltà d molte metrche) a) Dstanze tra oggett; Classfcazone: KNN (K Nearest Neghbors, la regola de K pù vcn) Modellamento: ACM (A Class Modelng echnque dervata da KNN) b) Dstanze tra oggett e modell; Modellamento e classfcazone: SIMCA (Soft Independent Models of Class Analogy) 3) Basate sull ntervallo (RANGE) 3a) Alber d classfcazone (REE) 3b) Multvarate range modelng (MRM) 4) Basate sull ESPERIENZA (regole d classfcazone ottenute medante un procedmento d prova e corregg Classfcazone: LLM, QLM, ANN, SVM (Lnear Learnng Machnes, Quadratc Learnng Machnes, Artfcal Neural Networks, Support vector machnes) ECNICHE DI CONVALIDA La pù mportante caratterstca d una tecnca d classfcazone é la sua capactà d predre la categora d oggett la cu categora non é nota. 74

175 Questa capactà s msura per mezzo d alcune grandezze che vengono ottenute con dverse stratege. Un punto comune a tutte queste stratege è che esse calcolano l modello con una parte degl oggett e utlzzano gl altr per msurare le prestazon del modello Le stratege che verranno descrtte n seguto sono d due tp: a) Due nsem (two sets) b) re nsem (three sets) La wo-sets procedure dvde l nseme d tutt gl oggett de qual é nota la categora n due sets: a) RAINING SE, usato per calcolare parametr del modello d classfcazone b) EVALUAION SE, usato per valutare le prestazon del modello. A volte nello svluppo d regole d classfcazone é possble cambare alcun parametr, generalmente uno (per esempo l valore d K, nel metodo de K pù vcn) e l valore del parametro vene scelto n modo da rendere massma l abltà d predzone (ottmzzazone predttva) La hree-sets procedure s usa n quest cas per avere un valore vero, non troppo ottmstco, della abltà d predzone. Il set d calbrazone vene dvso n: a) RAINING SE, usato per calcolare parametr de modell d classfcazone, molt modell corrspondent a var valor del parametro che é possble varare; b) PREDICIVE OPIMIZAION SE, usato per sceglere l modello (e conseguentemente l valore del parametro) pù predttvo; c) EVALUAION o EXERNAL SE, usato per valutare l reale valore predttvo del modello ottmzzato. L evaluaton set è detto frequentemente test set, termne che qu s prefersce utlzzare per gl oggett de qual realmente non s conosce la categora. È appena ovvo che sets devono essere creat con dat orgnal. Ogn trattamento (anche scalng, trasformate) deve essere effettuato uncamente con dat rcavat solamente dal tranng set. Unca eccezone permessa sono trattament d rga. In altre parole, nessuna nformazone deve essere rcavata dall evaluaton set prma dell applcazon e ad esso del modello ecnche usate per creare set d convalda Nel caso del procedmento two-sets è possble utlzzare dverse modaltà d creazone de due sets: a) SINGLE evaluaton set b) CROSS-VALIDAION 75

176 c) LEAVE-ONE-OU d) BOOSRAP e) REPEAED evaluaton set. 76

177 SINGLE evaluaton set La regola d classfcazone é calcolata solamente una volta. Gl oggett sono dvs tra tranng ed evaluaton sets: - o casualmente, generando un numero a caso e assegnando gl oggett all evaluaton set con una prefssata probabltà d assegnazone (generalmente tra l 5 e l 50%); - o con algortm qual quello d Kennard-Stone (ved Captolo 5, Dsegno Unforme); - o sstematcamente (p.e. prm due al tranng set, l terzo all evaluaton set, l quarto e l qunto al tranng set, l sesto all evaluaton set, e così va; - o con crter scelt dall operatore (spesso crtcabl). RAINING SE EVALUAION SE L evaluaton set sngolo é stato l prmo metodo d convalda utlzzato n chemometra. Ha l vantaggo d essere l metodo pù rapdo, ma lo svantaggo che l rsultato dpende molto dal partcolare set d valutazone utlzzato. Inoltre s vedrà n seguto che l ncertezza sulla msura della abltà predttva, calcolata con un test statstco, è relatvamente elevata CROSS-VALIDAION [CV] (grouped jackknfe) In talano convalda trasversale (non convalda ncrocata), ma è un termne ma utlzzato. La regola d classfcazone é calcolata pù volte, tante volte quant sono C grupp d cancellazone scelt dall operatore. Ogn volta N/C oggett (N é l numero totale d oggett nel calbraton set) sono assegnat all evaluaton set e con gl altr, assegnat al tranng set, sono utlzzat per costrure la regola d classfcazone. L assegnazone è sstematca: L oggetto è assegnato al prmo gruppo d cancellazone; L oggetto è assegnato al secondo gruppo d cancellazone ;. L oggetto C è assegnato tal gruppo d cancellazone C; 77

178 L oggetto C+ è assegnato al prmo gruppo d cancellazone;... La Cross valdaton ha l vantaggo che tutt gl oggett vengono predett. Un apparente svantaggo è che l rsultato (abltà predttva) dpende dal numero d grupp d convalda C e dall ordne degl oggett, Rpetendo pù volte la cross valdaton con dvers grupp d cancellazone (s suggersce C tra 3 e 7) e con dvers ordn degl oggett s ha un valore medo della abltà predttva ed una msura della sua ncertezza. Ovvamente questo procedmento può essere anche cento volte pù lungo del Evaluaton set sngolo Leave-one-out (jackknfe) Il lmte della cross-valdaton é l procedmento LEAVE-ONE-OU n cu l numero de grupp d cancellazone é eguale a quello degl oggett. Questo procedmento é molto utlzzato, fornsce un unco rsultato (non dpende dall ordne degl oggett). Un nconvenente è che la perturbazone è mnma, var modell sono generalmente molto sml (tranne nel caso d outlers). Il tempo d calcolo può essere molto lungo. A torto questo procedmento è presentato n alcun software commercal come full valdaton. Nell evaluaton set l oggetto:

179 Bootstrap Il Bootstrap crea molt tranng sets. Ogn volta, n oggett del calbraton set d N oggett sono selezonat a caso per l tranng set. Dopo aver scelto un oggetto, esso vene copato nel tranng set ma una copa rmane nel calbraton set. Così, un sngolo oggetto può essere scelto pù volte per l tranng set. L evaluaton set é costtuto da oggett che non sono nel tranng set (lo stesso oggetto non può essere n ambedue set). Il numero d tranng sets deve essere grande, 00 o pù. Ess hanno lo stesso numero d oggett, n. L errore percentuale stmato (e0) è la meda degl error percentual negl evaluaton sets. La tavola n basso fornsce la probabltà che gl oggett nel calbraton set sano scelt per l tranng set zero volte, una volta, due volte, La probabltà 36.8% é quella che un oggetto sa assegnato all evaluaton set. Numero d volte % che un oggetto è scelto per l tranng set >= 63.3 Il.63 bootstrap,.63b, é la semplce combnazone lneare 0.368*terr *e0, dove terr é la percentuale d error calcolata su ambedue sets..63b é lo stmatore della percentuale d error suggerto quando l numero degl oggett é pccolo. Il bootstrap è utlzzato molto raramente ne lavor d Chemometra REPEAED evaluaton set o MONECARLO valdaton La regola d classfcazone é calcolata moltssme volte, L. Gl evaluaton sets sono creat casualmente, con una prescelta probabltà d assegnazone. Supponamo che la probabltà prescelta sa 5%. Per ogn oggetto, s genera un numero a caso da una dstrbuzone unforme nell ntervallo 0-. Se l valore del numero a caso é maggore d

180 l oggetto vene assegnato all evaluaton set. Pertanto l numero d oggett negl evaluaton sets vara, anche consderevolmente. Con questo procedmento un oggetto vene predetto molte volte, e da tranng set dfferent. La stma della percentuale d predzon corrette è affdable La regola d BAYES le tecnche d classfcazone probablstche hanno come obbettvo prncpale quello d valutare per un dato oggetto le probabltà a-posteror delle categore La probabltà a-posteror della classe c é la probabltà che un oggetto appartenga alla classe c. Essa è fornta dalla regola d Bayes: p (c/) dove: p( c) f ( / c) p(c)f ( / c) c p(c) é la probabltà a-pror della classe c; f(/c) (o p(/c) quando X é dscreta) é la probabltà a-posteror d, coé la probabltà che, sotto la condzone che la classe sa c, X abba l valore ; p(c/) é la probabltà a-posteror della classe c, coé la probabltà che, quando X ha l valore, l oggetto appartenga alla classe c; l denomnatore é un fattore d normalzzazone, per avere c p(c/) =. La regola d Bayes è la base della statstca bayesana: la probabltà a pror è l elemento caratterzzante, n quanto essa raccogle conoscenze precedent, a volte valutazon d tpo soggettvo, ma mportant per problem real. Frequentemente non s dspone della probabltà a pror delle class, e s usa la regola d Bayes semplfcata: p (c/) f ( / c) f ( / c) c Un oggetto vene classfcato nella categora c con l maggor valore d p(c/). Per una coppa d categore l luogo de valor per qual p(/) = p(/) coé p() f(/) = p() f(/) é l confne, l DELIMIER, tra le due categore. 80

181 alora, ntorno al delmter, s usa un ntervallo d dubbo o d non-decsone, ntervallo n cu l rapprto tra le due probabltà a-posteror d classe è meno d un valore prefssato a> (generalmente a= 0): Assgnato alla classe - Non-decsone Assgnato alla classe p(/) > a p(/) p(/) a p(/) p(/)>a p(/) e p(/) a p(/) La matrce d costo o perdta (LOSS matr) La loss matr tene conto della perdta o del costo dovuto ad un errore d classfcazone. È un elemento essenzalmente pratco. Un elemento lcg della matrce d perdta L msura l costo causato dalla classfcazone d un oggetto la cu vera categora é c nella categora g. Ovvamente lcc= 0. Il rscho medo condzonale (Condtonal average rsk) é la perdta attesa quando un oggetto è classfcato nella categora g: r g () = c l cg p(c/) Quando p(g/) é basso la classfcazone nella categora g produce una perdta elevata. Un classfcatore bayesano classfca nella categora con l MINIMO rscho medo condzonale. Nel caso d due categore: r() = l p(/) + l p(/) = r() = l p(/) + l p(/) = l p(/) l p(/) n modo che l delmter corretto per la perdta é dato dal luogo de valor per qual: l p(/) = l p(/) coé l p() f(/) = l p() f(/) Una tecnca probablstca parametrca d classfcazone nza calcolando parametr (mede, varanze, ) da qual s stmano le denstà d probabltà delle class. L stogramma n Fgura 4-0 è la stma delle denstà d probabltà n Fgura 4-. 8

182 Fgura 4-0 Istogramma della varable X per due categore Fgura 4- Dstrbuzone d probabltà stmata della varable X per due categore Fgura 4- Probabltà a posteror delle due categore nel caso d eguale probabltà a pror, p()=p() 8

183 La Fgura 4- llustra una prma applcazone della regola d Bayes al caso d un unca varable e quando le probabltà a pror delle due class sono egual. Quando le probabltà a pror sono dverse l delmter s sposta verso la classe con probabltà a pror mnore, n modo da favorre l assegnazone alla classe pù probable (Fgura 4-3). Analogamente se l costo dell errore che attrbusce alla classe un oggetto della classe è maggore del costo dell errore che attrbusce alla classe, l delmter s sposta favorendo error d costo nferore. Fgura 4-3 Probabltà a posteror delle due categore nel caso p()= 0.99, p()= Parametr d valutazone della classfcazone La NULL-MODEL rate é la probabltà d ottenere classfcazon o predzon corrette solamente per caso NM = /C (C: numero d categore) La MISCLASSIFICAION (MISPREDICION) MARIX MCC é costtuta da element che danno l numero d oggett della categora rga e assegnat alla categora colonna g. Quando M é dagonale s ha classfcazone o predzone perfetta. Le CLASSIFICAION (PREDICION) RAE sono mcc c OAL RAE R N m Category c Rate R c N cc c 83

184 Queste equazon s applca se N è l numero totale delle classfcazon o delle predzon (n cross valdaton un oggetto é classfcato molte volte e predetto solo una volta; nella procedura repeated evaluaton set un oggetto può essere predetto molte volte). Generalmente le classfcaton rate sono ottenute costruendo l modello con tutt dat dsponbl. La MISCLASSIFICAION (MISPREDICION) PROBABILIY é: MP n gc p(g / )/ N n ( p(c/ )) N La somma é estesa a tutt gl oggett classfcat o predett. c ndca la categora dell oggetto. Se tutt gl oggett sono stat classfcat o predett con assoluta certezza (p(c/) =, la probabltà d msclassfcazone è nulla. La CLASSIFICAION (PREDICION) LOSS s calcola per classfcator bayesan come: CL c g m cg l cg / N 84

185 4.7.0 Parametr d valutazone del modellamento La sensbltà (senstvty) d una classe é la percentuale degl oggett della classe accettat dal modello della classe. È generalmente calcolata sull ntero calbraton set. Essa è una msura complementare della percentuale degl error d tpo I (l potes nulla H0 é che gl oggett sano classfcat nella loro classe, Decsone I, l potes alternatva H è che gl oggett non sano classfcat nella classe a cu appartengono, Decsone II). Decsone statstca: H0 é respnta Decsone statstca: H0 é accettata Ipotes nulla H0 VERA Errore del tpo I Decsone I corretta Ipotes nulla H0 FALSA Decsone II corretta Errore del tpo II Le tecnche d modellamento d classe costruscono ntorno ad un modello matematco uno SPAZIO DI CLASSE, ntervallo d fduca per gl oggett della classe ad un prescelto lvello d fduca. Fgura 4-4 Spaz d classe La sensbltà é la msura spermentale dell ntervallo d fduca. Nell esempo d Fgura 4-4 nessun oggetto della classe é fuor dall ntervallo d fduca al 95%. La sensbltà è del 00%, msura spermentale d 95%, probabltà assocata all ntervallo d fduca. In effett modell d classe vengono costrut n base ad potes statstche (p.e. dstrbuzone multvarata normale) che raramente sono verfcate, e così la sensbltà è anche una msura dell allontanamento dalle potes. 85

186 La specfctà (specfcty), meda della categora modellata, o rferta ad una delle eventual altre categore è la percentuale degl oggett che non appartengono alla categora modellata (eventualmente quell d una sngola categora) che sono respnt dal modello. La specfctà è una msura recproca degl error d tpo II. Nella Fgura 4-4, la specfctà della classe modellata per l modello al 95% é del 9% (un solo oggetto accettato su ). Un buon modello ha elevate sensbltà e specfctà. É sempre possble aumentare la sensbltà, ma la conseguenza dell allargamento del modello é generalmente una perdta d specfctà. I termn senstvty e specfcty furono ntrodott nel 986 da Derde e Massart (M. P. Derde, D. L. Massart. UNEQ: a dsjont modellng technque for pattern recognton based on normal Dstrbuton. Anal. Chm. Acta. 84, 33 5 (986)), e sono largamente utlzzat nella letteratura che rguarda l uso d metod d modellamento. Ess non sono gradt a molt chmc analtc, poché due termn hanno sgnfcato molto dfferente nella classca chmca analtca. Qualche volta due termn sono utlzzat n classfcazone, e la sensbltà d classfcazone è la percentuale d classfcazon corrette. Specfctà e sensbltà sono generalmente valutate con l ntero calbraton set, ma sarebbe pù corretto utlzzare anche parametr calcolat nella convalda, come:. (00-)% CV senstvty, la percentuale degl oggett negl evaluaton sets accettat da modell svluppat con tranng sets, con lo spazo d classe al lvello d fduca (00-)%;. (00-)% CV specfcty, la percentuale degl oggett d altre categore (tanto del tranng che dell evaluaton sets) respnt da modell svluppat con gl oggett del tranng set della categora modellata (00-)% s generally 95%. Lo s può modfcare per ottenere modell ben blancat, con valor vcn d sensbltà e d specfctà. Defnamo anche una specfttà del modello forzato ad avere sensbltà 00%. L effcenza é stata defnta come la meda d sensbltà e d specfctà (no preferamo la meda geometrca, che è maggore per modell equlbrat, con valor prossm d d sensbltà e d specfctà). Le tecnche d modellamento sono mportant n problem real, specalmente nel controllo d qualtà e nel rlevamento d frod: pertanto modell d classe devono essere svluppat tenendo conto requst pratc del problema. 86

187 4.7. I metod d classfcazone e modellamento KNN Questo metodo è basato sulle dstanze tra oggett. Con K = (la regola del pù vcno), é l pù antco metodo d classfcazone, ma è ancora ogg utle, anche nell anals d esplorazone, per ottenere nformazon sullo spazo vcno ad un determnato oggetto. Un oggetto vene classfcato da KNN nella categora predomnante tra quelle de K oggett pù vcn (voto d maggoranza). Per ogn oggetto dell evaluaton set s calcolano le dstanze da tutt gl oggett del tranng set. Le dstanze vengono ordnate e s contano le rpetzon d ogn categora ne K oggett pù vcn (Fgura 4-5). alora s assegna un punteggo ad ogn oggetto vcno, decrescente con l ordne d vcnanza (p.e. K, K-, K-, ). A volte l punteggo è proporzonale all nverso della dstanza. Fgura 4-5 KNN Con K =, l oggetto vene classfcato nella categora (marrone). Con K= l assegnazone è ambgua, a meno che la categora dell oggetto pù vcno sa premata nel punteggo. L esempo n Fgura 4-6 llustra KNN con K=. La frontera tra le due class è una spezzata (pecewse lnear classfer). essa è puttosto complessa. Nell ntorno dell oggetto ndcato con la frecca verde s ha una enclave della categora nello spazo della categora. L esempo n Fgura 4-7 llustra KNN con K=. Anche n questo caso la frontera è molto complessa. Inoltre s ha uno spazo d non 87

188 decsone. Aumentando K (eguale a 5 nella Fgura 4-8) la frontera s allsca, tendendo ad una retta. Fgura 4-6 -NN Fgura 4-7 -NN 88

189 Fgura NN KNN é molto sensble alla metrca e ovvamente allo scalng. Generalmente vene utlzzato con le dstanze eucldee dopo autoscalng, o con la dstanza d Mahalanobs (che contene l procedmento d autoscalng) ACM ACM é l acronmo d A Class Modellng echnque. Fu ntrodotto nel 989 (A non-parametrc classmodellng technque, M.P. Derde, L. Kaufman, D.L. Massart, Journal of Chemometrcs, 3 (989) ). ACM é la versone modellante d KNN, e come KNN è molto sensble allo scalng.. Le dstanze utlzzate n ACM possono essere: a) la dstanza dall oggetto pù vcno (come n NN); b) la medana delle dstanze dagl oggett del tranng set della categora modellata; c) la meda delle prme K dstanze; d) la medana delle prme K dstanze. Il modello é basato su una d queste dstanze. Il valore crtco (00-)% (generalmente 95%) può essere ottenuto come: ) la meda de valor (00-)% ne grupp d cross valdaton; ) l valore (00-)% nel cclo fnale con tutt gl oggett nel tranng set. Generalmente s utlzza la dstanza eucldea, ma può essere utlzzata anche la dstanza d Mahalanobs. La dstanza d Mahalanobs tra due oggett,j della classe g s ottene dalla: dove Mh ( ) V (, j, g j g j. Vg é l nversa della matrce delle varanze-covaranze della classe g. )

190 ACM può anche lavorare su d un certo numero d component prncpal, che devono essere calcolat n ogn gruppo d cancellazone. Ovvamente anche lo scalng deve essere effettuato n ogn gruppo d cancellazone. Data la sua semplctà questo metodo dovrebbe essere uno de prm da utlzzars ne problem real d modellamento d classe. I dat esempo mostrat nella Fgura 4-9 sono stat scelt n quanto utlzzat per dmostrare la necesstà d utlzzare per questo tpo d dat le Radal Bass Functon Network (RBFN), una tecnca dell ntellgenza artfcale. La Fgura 4-30 mostra come la specfctà sa del 00% anche per l modello forzato ad avere sensbltà 00%. Fgura 4-9 La specale struttura de dat Beatarngs Fgura 4-30 Un rsultato d ACM applcato al set Beatarngs 90

191 Anals Dscrmnante Lneare La Lnear Dscrmnant Analyss, l prmo metodo probablstvo multvarate d classfcazone, fu ntrodotto nel 936 da Raymond Aymer Fsher, Annals of Eugencs, 7, (936). Abbamo vsto nella Fgura 4-0 (nel caso d un unca varable) come dal tranng set s ottenga la dstrbuzone spermentale delle frequenze e da questa possano essere stmate (Fgura 4-), sotto certe potes, le dstrbuzon d probabltà. Fgura 4-0 Istogramma Fgura 4- Dstrbuzone d probabltà Nella LDA le potes dono: a) dstrbuzone multvarata normale 9

192 b) matrce delle varanze-covaranze P eguale per tutte le categore (che dfferscono per la poszone del centrode). Sa: I numero totale degl oggett nel tranng set Ic numero d oggett nella categora c vc valore della varable v per l oggetto della categora c. La meda della varable v nella categora c é: I c. vc vc / Ic c é l centrode della categora c, un vettore cu element sono le mede delle varabl nelle categore. Il centrode é la stma della locazone della categora c. La matrce raggruppata delle varanze-covaranze (Pooled wthn category o ntracategory varance-covarance matr) P ha gl element: p vw C Ic c ( vc.vc I C )( wc.wc ) La pooled covarance matr msura la dspersone nterna alle categore come meda ponderata delle dsperson delle categore. La matrce d varanza-covaranza d cascuna categora c, Vc, ha element: v vw Ic ( e conseguentemente: vc I.vc c P )( c wc (I c.wc ) I C ) V c dfferente dalla matrce meda delle varanze-covaranze M, quando le categore hanno dverso numero d oggett: c M V LDA la denstà d probabltà a-posteror f(/c) come: f ( / c) () V / P / ep ( C ) c c P ( 9 ) c

193 dove P é l determnante e P - é l nversa della matrce P. S not che la moltplcazone per P - effettua un autoscalng multvarate equvalente all autoscalng quando P è dagonale. Questa operazone elmna l effetto del weghtng delle varabl, del range scalng, e d altr pretrattament Il delmter della LDA In un problema d due class con p() = p(), l delmter é l luogo de vettor per qual: p(/) f(/) = f(/) p(/) e coé, eguaglando le denstà d probabltà: ep P ( ) ( ) P ep ( / / ( ) V ) ( P ) / / ( ) V P con gl oggett assegnat alla classe quando l termne d snstra é maggore d quello d destra. Il prodotto () V/ P / non dpende dalla classe. Pertanto l delmter obbedsce alla equazone: (-) P - (-) = (-) P - (-) [4-9] con gl oggett assegnat alla classe quando l termne d snstra é mnore d quello d destra (a causa della nversone d segno). I termn nella equazone [4-9] sono quadrat delle dstanze dmahalanobs da centrod delle categore. Se la dstanza d Mahalanobs d un oggetto dal centrode della categora (modello matematco della categora) é maggore della dsgtanza dal centrode della categora, l oggetto é classfcato nella categora. Equaton [4-9] può essere modfcata n: P - - P - - P - + P - = P - - P - - P - + P Il termne é eguale da due lat: può essere semplfcato. I termn e 3 sono egual. Sommandol l equazone del delmter dventa: P - - P - = P - - P - [4-0] Per ottenere l equazone [4-0] segn sono stat cambat, e pertanto gl oggett sono assegnat alla classe quando l termne d snstra é maggore d quello d destra. 93

194 L equazone [4-0] é lneare n : un punto nello spazo undmensonale, una lnea retta nello spazo d due varabl, un pano nello spazo d tre varabl. La funzone che compare nella [4-0] c P - - c P - c o la sua metà c P c P - c é l punteggo dscrmnante (Dscrmnant score) dell oggetto per la categora c. La classfcazone e la predzone sono basate sul punteggo dscrmnante: la categora assegnata é quella per cu l punteggo é maggore. S consder l esempo bvarato n Fgura 4-3. Le tabelle successve raccolgono calcol ntermed e rsultat della LDA. Fgura 4-3 Un esempo bvarato per LDA Matrce d covaranza della categora Matrce d covaranza della categora Pooled covarance matr Determnante Pooled covarance matr nvertta

195 Oggetto Score Score Dfferenza Oggetto Score Score Dfferenza Fgura 4-3 I puntegg dscrmnant per dat nella Fgura 4-3 La Fgura 4-3 rporta nseme agl scores della LDA la retta corrspondente al delmter. La varable realmente mportante agl effett della classfcazone è la dfferenza tra gl scores. Le Fgure 4-33 e 4-34 mostrano rsultat della LDA, come scores e come dfferenze, per un nseme d dat real. 95

196 Fgura 4-33 Grafco degl scores per dat relatv a tre vn descrtt da 7 varabl (4.5.5) Fgura 4-34 Grafco delle dfferenze degl scores 96

197 Le varabl canonche della LDA Nella Fgura 4-35 la dstanza tra centrod sull asse X è una msura della varanza ntercategore della X, mentre l ntervallo d valor d X per le due class è una msura della varanza ntracategore. Fgura 4-35 Le dsperson per l esempo bvarato d Fgura 4-3 Come per l asse delle X, centrod e gl ntervall d classe possono essere proettat su qualunque drezone nello spazo. Sano dc le coordnate degl oggett della classe c su d una generca drezone nello spazo. La varanza ntercategore è data dalla: C W C C Ic(d c I c d) con d c I c d I e d d I c c C I c c c mentre la varanza raggruppata ntracategore s ottene dalla P C I c c (d c d c ) (I C). Se faccamo ruotare n senso antoraro la drezone, da una nzale concdente con l asse X, d un angolo sno a 360, l rapporto W/P, che è la msura della separazone tra le due class, vara come mostrato n Fgura La rotazone è analoga a quella delle component prncpal llustrata n Fgura 4-3, ma è seguta medante l rapporto tra le varanze e non medante la varanza. La Fgura ndca che v sono due angol (due drezon equvalent, una opposta all altra) per le qual l rapporto 97

198 è massmo, massma separazone tra le class, e due drezon n cu l rapporto è nullo, class completamente sovrapporte. S not come l andamento non è snusodale. Le drezon d massmo e d mnmo sono oblque nello spazo delle varabl orgnal. Queste drezon prendono l nome d varabl canonche della LDA. La prma varable canonca è quella con l massmo W/P (Fgura 4-37). La seconda canonca (n questo caso d due categore) non ha alcuna mportanza (Fgura 4-38). Fgura 4-36 Rapporto W/P n funzone dell angolo d rotazone Fgura 4-37 La proezone delle dsperson sulla prma varable canonca 98

199 Fgura 4-38 La seconda varable canonca In questo caso l angolo d rotazone per la prma canonca é 48, per la seconda, con un angolo tra le canonche d 73. Le varabl canonche sono oblque nello spazo delle varabl orgnal, ma esse sono ortogonal nel senso che non sono correlate, come le component prncpal. Nel caso d due categore la prma canonca è lneare con la dfferenza tra gl scores, la seconda concde con l delmter (Fgura 4-39). Fgura 4-39 Varabl canonche e delmter 99

200 Il delmter é anche la lnea d ntersezone delle ellss d fduca allo stesso valore d denstà d probabltà delle dstrbuzon multvarate normal (supposte con la stessa matrce delle covaranze) Nel caso multdmensonale, le varabl canonche sono gl auto vettor della matrce rapporto asmmetrca WP -. Quest autovettor non possono essere calcolat medante NIPALS e rchedono l utlzzo della decomposzone d Cholewsk (4.4.8) Stepwse Lnear Dscrmnant Analyss (SLDA) Sa: v varable v dell oggetto vg varable v dell oggetto della categora g c v vg v v CIV I v meda generale della varable v I Ig vg meda della varable v nella categora g G g I g vg meda delle mede d categora della varable v G varable v dell oggetto dopo centraggo d colonna v v matrce de dat centrat, I rghe, V colonne VVV matrce generalzzata delle varanze covaranze V VV C VI C I IV v vw I ( v v ) ( I w w ) elemento v,w della matrce generalzzata delle varanze covaranze WVV: matrce delle covaranze ntercategore w vw G g I g ( vg v G ) ( wg PVV: matrce raggruppata delle varanze covaranze ntracategore w ) G I 00

201 p vw G g Ig ( vg vg ) I G ( wg wg ) RVV Matrce rapporto ntercategore/ntracategore R = P - W É possble dmostrare che: G ( I ) V VV (I G) PVV WVV I G coé I ( v v ) ( w w ) G g I g ( vg vg ) ( wg wg ) G g I g ( vg v ) ( wg w ) SLDA scegle le varabl una ad una (stepwse). La prma varable selezonata é quella con l Massmo rapporto tra la soma de quadrat totale I ( v v ) ( w w ) e la somma de quadrat ntracategore G g I g ( vg vg ) ( wg wg ). Qund s consdera l rapporto tra determnant della matrce generalzzata delle covaranze V e della matrce raggruppata P, sotto la forma della Lambda d Wlks: (I G) P (I ) V che é un ndce nverso della bontà d separazone, del rapporto tra le varanze ntercategore ed ntracategore. Le matrc P e V contengono solo la prma varable selezonata e una delle altre varabl, possbl canddate alla seconda selezone. La varable selezonata é quella che provoca la maggore dmnuzone d. S rtorna alle matrc P e V con le due varabl selezonate e una terza canddata. Sa V l valore d con le V varabl selezonate e V+ quello con la nuova varable che tra le non selezonate produce la massma dmnuzone della Lambda d Wlks. S applca la statstca d Fsher: 0

202 F to enter G, IGV I G V G V V V F-to-enter ha G- e I-G- grad d lbertà. Il valore crtco per ammettere la varable s trova sulle tavole statstche. Generalmente una dmnuzone d mnore d 0.0 ndca che la varable é nutle. SLDA può anche sceglere le varab sulla base della dstanza d Mahalanobs tra le categore: Mh g,g ( g g ) V ( g g ) La varable selezonata, a partre dalla seconda, é quella che produce l maggore aumento della dstanza tra le categore pù vcne. 0

203 QUADRAIC DISCRIMINAN ANALYSIS (QDA) L anals dscrmnante quadratca é una tecnca probablstca parametrca d classfcazone basata sulle potes: a) dstrbuzone multvarata normale; b) dspersone (msurata dalla matrce delle varanze-covaranze Vc) dfferente nelle class; c) locazone (msurata dal centrode) non necessaramente dfferente. Nel caso d eguale probabltà a pror delle categore la regola d decsone della QDA é basata sulla equazone del delmter: V / ( ) V / ep V ( ) ( ) V ep ( ) ( ) / / ( ) V V ( e sono vettor de centrod d classe). Se l termne d snstra è maggore d quello d destra l oggetto é assegnato alla classe. Solo può essere semplfcato, ottenendo: V V ep ( ) ( / ) V ep ( ) ( ) / V o, se le probabltà a pror sono note: p() V ep ( ) ( / ) p() V ep ( ) ( ) / V V con spostamento del delmter n modo da favorre l assegnazone alla classe pù probable. Analogamente a quanto vsto per la LDA, le dstrbuzon d probabltà della QDA (Fgura 4-40) vengono stmate dal campone (tranng set). 03

204 Fgura 4-9 Istogramma Fgura 4-40 Dstrbuzon d probabltà della QDA Le potes statstche alla base della QDA permettono una pù o meno buona dscrmnazone anche nel caso d centrod d classe concdent (Fgura 4-4), cosa mpossble con la LDA. Fgura 4-4 Possbltà d dscrmnazone con la QDA anche n caso d centrod molto vcn S consder l esempo bdmensonale n Fgura 4-3, per l quale le matrc delle covaranze sono: Matrce d covaranza della categora Matrce d covaranza della categora In QDA esse vengono nvertte separatamente: 04

205 e utlzzate per calcolare la denstà d probabltà e l equazone del delmter, ntersezone delle lnee sotetche, che è una quadratca (Fgura 4-4), da cu l nome della tecnca. Fgura 4-4 Delmter della QDA 05

206 UNEQ La versone modellante della QDA é nota n Chemometra come UNEQ (da Unequal class models ). L orgne d UNEQ é nel lavoro d Hotellng [H. Hotellng, n: C.Esenhart, M.W.Hastay and W.A.Walls (Eds.), echnques of Statstcal Analyss, McGraw-Hll, N.Y., 947, pp. -84] sul controllo d qualtà multvarato. Nel 986 UNEQ fu ntrodotto n Chemometra da M.P. Derde e D.L. Massart (Anal. Chm. Acta, 84 (986) 33-5), corredato da una statstca d Defrse Gussenhoven, molto crtcable, nonostante Hotellng avesse svluppato la statstca, generalzzazone multvarata della statstca d Student, quaranta ann prma. UNEQ é basata sul fatto che l operatore dell esponenzale nella equazone d f(/c): f ( / c) () V / coé la dstanza quadrata d Mahalanobs: V c / e ( c ) V c ( M ( c) Vc ( c) [4-] é una varable, con = V (numero delle varabl) grad d lbertà. L equazone [4-] é l equazone d una ellsse (o ellssode, o perellssode) sotetca. Così l valor crtco (p%), ad una prescelta probabltà d fduca, fornsce l equazone de confne d un ntervallo d fduca, lo spazo d classe ntorno al modello matematco della classe, l suo centrode. Dalla anals sul tranng set, s ottengono le stme della matrce d varanza-covaranza della classe, c ) ˆV c,e del suo centrode, ˆ c. Nella statstca unvarata abbamo vsto: [4-] t [4-3] s t ˆ I s [4-4] II ˆ ˆ I I [4-5] s t t I ˆ I s La [4-] é la equazone base della statstca d Student. La [4-3] é usata nel test che confronta una stma della meda con la meda (potes) d popolazone. La [4-4] é usata nel test sulla dfferent za tra due mede (egual varanze). La [4-5] dervata dalla precedente é usata per l test che confronta un sngolo valore spermentale con una meda stmata. S not che la devazone standard s nella [4-5] é calcolata a partre dagl I dat da cu é stata ottenuta la meda ˆ. Pertanto l dato non è stato utlzzato per calcolare s. 06

207 La funzone é la somma d varabl Z ndpendent: z z... z La funzone che sta alla come la t sta alla varable Z é la varable d Hotellng: t t... t ˆ Nel caso del test sulla meda, alla varable unvarata [4-3] t I corrsponde la varable d s Hotellng: I (ˆ c c c ) Vˆ c (ˆ c c ) c é l centrode della popolazone della classe. Il valore crtco s ottene dalla statstca F (s rcord che t é dstrbuta come F, e che Nello studo della regressone lneare s è vsto come la con due varabl è dstrbuta come F,I-): p (Ic )V FV,I c V,p [4-6] I V c Nel caso, molto mportante n UNEQ, del test tra un oggetto e una meda stmata, alla [4-5] I ˆ t ( non usato per stmare parametr) corrsponde: I s Ic (ˆ I c c ) Vˆ c (ˆ c ) con valore crtco (da usare n UNEQ nvece del valore crtco della ) fornnto dalla [4-6]. In Fgura 4-43 due dstrbuzon d Hotellng sono confrontate con la corrspondente. Sono ndcat valor crtc 95%. S not che l valore crtco della è maggore d quello della, e tanto pù quanto mnore è l numero degl oggett. Fgura 4-43 Dstrbuzon d Hotellng 07

208 Alcun valor crtc della dstrbuzone d Hotellng sono rportat n abella 4-5. abella 4-5 Valor crtc della dstrbuzone Oggett varable varabl 5 varabl 0 varabl Quest valor spegano perché modell UNEQ ne grupp d cross valdaton sano maggor d quello fnale, come s vede nella Fgura 4-44 dove le varabl sono state msurate su 90 vn banch. L ellsse rossa è quella del modello fnale. Le verd sono modell de cnque grupp d cancellazone. Due ellss verd sono contratte, e sono quelle corrspondent a due oggett anomal nell evaluaton set. 08

209 Fgura 4-44 Modell UNEQ n cnque grupp d cross valdaton La dstrbuzone L equazone [4-5] t I ˆ I s é usata per valutare se appartene alla popolazone d cu ˆ é la meda stmata solo se non é uno degl I valor usat per calcolare ˆ. Vedamo con un esempo molto semplce cosa accade se é stato utlzzato per stmare la meda. Sa I=, con =a e = b. S ha ˆ a b s a b a a b b s (a b) La [4-5] applcata a due valor d fornsce: t 3 a b a (a b) 4 3 a b (a b) 3 e analogamente t 3 d modo che valor d t sono costant, ndpendent da valor a e b d. 09

210 Charamente la dstrbuzone d quest valor d t non é una dstrbuzone d Student. Essa é una dstrbuzone BEA (V/, (Ic-V-)/). Una varable random ha una dstrbuzone BEA (,) quando la sua denstà d probabltà é data dalla: q deve essere tra 0 e. ( ) f (q) q ( ) ( ) ( q) é la funzone gamma, defnta per n>0 come: ( n) 0 t n e t dt É: (/)= (n)= (n-)! (for n=0,,,3,...) (n+) = n (n) La dstrbuzone d (ˆ c ) Vˆ c (ˆ c Ic ) (I ) é una (V/, (Ic-V-)/) Nel caso V=, N= (l esempo nzale) la funzone é (/,0) con: (/ ) f (q) q (/ ) (0) / ( q) c q( q) nfnta n q=0 e q= (tutta la probabltà é concentrata n quest due punt). La Fgura 4-45 mostra alcun esemp d dstrbuzon β. 0

211 Beta dstrbutons: V = Oggett: 3 Oggett: 4 Oggett: 5 Oggett: 8 Beta dstrbutons V= Oggett: 4 Oggett: 5 Oggett: 6 Oggett: 9 Beta dstrbutons V = 3 Oggett: 5 Oggett: 6 Oggett: 7 Oggett: 0 Fgura 4-45 Dstrbuzon Beta

212 SIMCA SIMCA (Soft Independent Modelng of Class Analogy) fu l prmo metodo d modellamento d classe ntrodotto, da Svante Wold, n Chemometra. Soft: non c sono potes crca la dstrbuzone delle varabl; Independent: ogn modello d categora é svluppato ndpendentemente, senza utlzzare nformazon dale altre categore; Modelng: l modello matematco della categora é basato sulle sue component proncpal, generalmente quelle de dat autoscalat, con autoscalng separato d categora; Le component prncpal sono calcolate con l algortmo NIPALS, e pertanto possono essere analzzat anche nsem d dat con dat mancant. I modell d dverse categore possono essere confrontat per rlevare dfferenze ed analoge. Per cascuna categora l numero A delle component sgnfcatve dovrebbe essere ottenuto medante double-cross valdaton e potrebbe essere dverso da categora a categora. In realtà SIMCA vene generalmente utlzzato con lo stesso numero d component n ogn categora, ed A vene fatto varare per po sceglerlo n base alle prestazon de modell. A defnsce la dmensonaltà dello nner space, lo spazo della nformazone strutturata; le rmanent V-A component sono lo outer space, lo spazo del rumore (Fgura 4-46). Fgura 4-46 Schema d SIMCA

213 SIMCA vene llustrato con un esempo bdmensonale e due class. S not (Fgura 4-47) come la classe blu ha bassa dspersone sulle Y, la classe marrone bassa dspersone sulle X, e che le class sono ben separate sull asse delle X. Fgura 4-47 Dat bdmensonal per SIMCA La Fgura 4-48 mostra dat dopo autoscalng generalzzato. La scala è stata scelta n modo da permettere l confronto con l rsultato dell autoscalng separato, mostrato nelle Fgure 4-49 e 4-50, che evdenzano come l autoscalng separato mglor la separazone tra le class. Fgura 4-48 I dat d Fgura 4-47 dopo autoscalng generalzzato 3

214 Fgura 4-49 I dat d Fgura 4-47 dopo autoscalng sulla classe Fgura 4-50 I dat d Fgura 4-47 dopo autoscalng sulla classe Algortmo SIMCA ) Il prmo passo d SIMCA è generalmente l autoscalng separato medante la: vc vc s vc vc n cu compaono la meda e la devazone standard della varable v nella categora c. ) Qualche volta le varabl vengono pesate, dopo l autoscalng o n base all esperenza o con l potere dscrmnante o quello modellante d SIMCA (ved oltre). 4

215 3) S calcolano le component prncpal della categora. alora vengono rlevat oggett anomal (outlers, Fgura 4-5)). Vengono elmnat e s rtorna al punto. Fgura 4-5 Effetto d un outler sulla prma componente 4) s calcola l ntervallo degl scores per cascuna componente a (a=-a). Questo è l normal range, con lmt mn ac ma ac Fgura 4-5 Il normal range La lettera greca θ é usata nella letteratura orgnale d SIMCA per ndcare gl scores, nonostante n statstca le lettere greche sano rservate a parametr della popolazone.. 5

216 SIMCA fu utlzzato nzalmente con nsem d dat con poch oggett. In questo caso l normal range è una sottostma del vero range. Per questa ragone s calcola un epanded range: mn ac mn ac - sac ma ac ma + s ac ac dove sac é la devazone standard degl scores degl oggett della categora c sulla componente a. Fgura 4-53 L epanded range L anals dettaglata é basata su resdu, le dstanze dallo spazo esterno allo spazo nterno del modello: Fgura 4-54 Con rfermento alla decomposzone blneare: I resdu 6

217 X IV vc S A a IA s L AV l ac avc R r IV vc Il resduo dell oggetto dal modello della classe c é decomposto nelle sue component sulle varabl rvc. La Class Resdual Standard Devaton rsdc msura la dspersone degl oggett del tranng set della classe ntorno al modello matematco. Il suo quadrato é: rsd c I c V v c vc r (V A )(I c A c ) (un grado d lbertà é perso nell autoscalng, A per le A component). Il sngolo oggetto del tranng set della classe c ha una dstanza SIMCA rsdc dal modello matematco: rsd c V r vc (V A ) (I v c c Ic A c ) e la rsdc è la meda delle dstanze SIMCA ndvdual. La dstanza SIMCA per gl altr oggett (evaluaton set e altre categore) é: rsd * c V v rvc (V A ) Non v é perdta d grad d lbertà n quanto s tratta d oggett che non sono stat usat per calcolare l modello. c rattamento classco dello spazo d classe SIMCA Il trattamento classco del SIMCA Bo (lo spazo d classe ntorno al modello matematco) é quello del prmo SIMCA, con l epanded range. Il range defnsce lmt del modello nello spazo strutturato. Gl scores degl oggett del tranng set cadono all nterno d questo spazo. Per gl altr oggett, uno o pù scores possono cadere fuor da questo spazo e per ess s calcola una dstanza SIMCA aumentata: c * c arsd rsd (s a ac lm ac ) s c ac rsd 7

218 lm ac può essere l mnmo o l massmo del range. sac é la varanza degl scores della componente a- esma del modello della classe c, autovettore della componente. La sommatora è estesa alle sole component per le qual lo score è fuor dall epanded range. S not che la dvsone d rsdc per sac fa s che arsdc non abba l sgnfcato dell potenusa. Fgura 4-55 Dstanza SIMCA aumentata (trattamento classco) SIMCA applca un test F per valutare la probabltà che un oggetto appartenga alla classe: F [V Ac,(VAc)(Ic Ac )] rsd rsd Quando é necessaro la dstanza é quella aumentata. Sa Fp l valore crtco della F al lvello d fduca p%. S ha: c c rsd rsd crt c F p Questa equazone defnsce l confne del bo SIMCA, lo spazo della classe ntorno al suo modello sulle component prncpal (Fgura 4-56). enendo conto della dstanza SIMCA aumentata per gl oggett non usat per costrure l modello e del fattore Ic /(Ic -Ac -) nella espressone d confn llustrat nella Fgura rsdc per gl oggett del tranng set, l bo SIMCA ha due 8

219 Fgura 4-56 Il SIMCA bo per gl oggett del tranng set (verde) e per gl altr oggett (rosso) 9

220 rattamento modfcato del bo SIMCA Le varant d SIMCA rguardano: a) l modello matematco; b) lo spazo d classe. Per quanto rguarda l modello l espansone del normal range é gustfcata quando l numero d oggett é pccolo. Altrment l normal range, tenendo conto della proezone dell errore sullo spazo del modello, è una sovrastma del range vero. Le equazon sottostant calcolano modell generalmente pù rstrett del modello classco. mn ac mn ac - ma ac I c mn ac + rsd ac ma ac ma ac + ma ac I c mn ac - rsd ac L operatore può peraltro varare a pacere l range, tenendo conto del partcolare problema. Una seconda varante rguarda la dstanza aumentata che nel trattamento modfcato vene ottenuta come mnmo della dstanza eucldea dell oggetto dal modello: Fgura 4-57 Dstanza SIMCA aumentata (trattamento modfcato) Inoltre l trattamento classco non tene conto della ncertezza del modello: le vere component prncpal cadono n un certo ntervallo ntorno alle component stmate, con una ncertezza locale che dpende dall effetto leva leverage (come n regressone unvarata). Con queste modfche l bo SIMCA assume una forma complessa, dovuta all ncertezza delle component e al fatto che la varanza degl oggett (dstanza SIMCA) deve essere corretta per l leverage: 0

221 rsd rsd c(raining ) c(evaluaion ) rsdc h rsdc h e l bo SIMCA assume la forma n Fgura 4-58: Fgura 4-58 Bo SIMCA, trattamento modfcato Potere modellante SIMCA calcola molt parametrc statstc nteressant. Il potere modellante d una varable msura l contrbuto della varable al modello matematco La varanza nzale della varable v nella classe c é: sd I c (vc vc) vc Ic vc è la meda della varable, zero nel caso d centraggo o dell usuale autoscalng separato. La varanza resdua della varable dal modello é: rsd I c rvc vc Ic Ac Il potere modellante s ottene come: mp vc rsd sd vc vc

222 Potere classfcante Alcun oarametr possono essere calcolat solo nel caso s abbano pù categore. Sano c e g gl ndc d due categore. Il quadrato del potere d classfcazone d una varable v per le due categore è: CP vcg rsd rsd vcg vc rsd rsd dove la varanza degl oggett della classe g dal modello della classe c é: rsd vgc vg I g rvcg vcg Ig In problems wth more than one class, varables wth both very small modelng and classfcaton power can be cancelled Dstanza SIMCA tra categore Fnalmente, l quadrato della dstanza SIMCA tra due categore é: D cg V v V v (rsd (rsd vcg vc rsd rsd vgc vg ) ) Classfcazone con SIMCA Un oggetto vene classfcato (predetto) nella categora dalla quale ha la mnma dstanza SIMCA aumentata, se è accettato dal modello. Gl outlers, oggett che non sono accettat da nessun modello, non possono essere classfcat. Oggett accettat dal modello d due categore possono essere classfcat n quella da cu hanno dstanza mnore solo dopo un F test sul rapporto delle dstanze SIMCA al quadrato. Se l test passa, la classfcazone è dubba.

223 Inconvenent d SIMCA SIMCA fu utlzzato nzalmente con un numero rdotto d varabl, tutte potenzalmente utl. Ogg è tendenza generale l utlzzo d un numero molto elevato d varabl, delle qual non s conosce l utltà e molte delle qual sono scuramente solo rumore. Nonostante modell sulle component prncpal elmnno una parte del rumore, c sono molt cas n cu l rumore resduo nel modello è troppo elevato. La Fgura 4-59 mostra l bplot nello spazo della classe rossa d un caso n cu due class sono descrtte da due varabl dscrmnant, utl. Aggungendo 8 varabl rumore, senza capactà dscrmnante, s ha pratcamente sovrapposzone tra le due class (Fgura 4-60). Fgura 4-59 Due class descrtte da due varabl utl. Spazo del modello della classe rossa Fgura 4-60 Due class descrtte da varabl utl e 8 varabl rumore. Spazo del modello della classe rossa. 3

224 Metod delle funzon potenzal Sono metod non parametrc probablstc d classfcazone L stogramma naturale I metod delle funzon potenzal stmano la denstà d probabltà medante la denstà locale degl oggett del tranng set. Ogn oggetto è un nucleo utlzzato per la stma della denstà, e per questa ragone quest metod sono not anche come kernel densty estmators. La dstrbuzone d probabltà è calcolata come somma de contrbut ndvdual degl oggett, come l potenzale elettrco n un punto è la somma de contrbut d tutte le carche elettrche nello spazo crcostante: da questa analoga derva l nome d metod delle funzon potenzal. L stogramma usuale (Fgura 4-6, snstra) é ottenuto come somma d contrbut ndvdual: ogn oggetto contrbusce con un rettangolo d base /(hi) e altezza h. h é la larghezza degl ntervall d classe e I l numero degl oggett, così che l area totale è. Fgura Istogramma Fgura 4-6 Istogramma naturale 4

225 I contrbut ndvdual, rettangol, sono centrat sull ntervallo d classe, ndpendentemente dalla poszone dell oggetto nell ntervallo (Fgura 4-6, destra). Invece n un stogramma NAURALE l contrbuto d ogn oggetto é centrato sulla poszone dell oggetto, e l effetto è quello d un allscamento dell stogramma (Fgura 4-6). Ne metod delle funzon potenzal contrbut ndvdual (,j) d un oggetto j non sono rettangol ma devono soddsfare requst: (,j) Massmo quando = j; (,j) deve tendere a 0 quando la dstanza tra e j tende a ; (,j) deve essere una funzone contnua d e decrescente con la quando la dstanza tra e j. Per questa ragone contrbut ndvdual non possono essere rettangolar o avere la forma della equazone d Coulomb. I contrbut pù utlzzat hanno la forma gaussana (potenzale normale) o quella trangolare (potenzale trangolare) Il potenzale normale Nel caso unvarato l potenzale normale é dato dalla: c (, ) j I c u c e ( u j) c j oggetto j della categora c; Ic numero d oggett nel tranng set della categora c; uc parametro d smoothng della categora c. uc é usato al posto del della usuale funzone normale. /Ic é un parametro d normalzzazone: la denstà d probabltà é la somma degl Ic contrbut degl oggett della classe e l parametro d normalzzazone rende eguale a, la certezza, l ntegrale della funzone soma. f ( / c) I c j (, ) c j I c j I c u c e ( u j) c L effetto d un parametro d smoothng pccolo é mostrato nella Fgura La dstrbuzone d probabltà é molto complessa, con cnque massm. 5

226 Fgura 4-63 Denstà d probabltà calcolata con parametro d smoothng pccolo Fgura 4-64 Denstà d probabltà calcolata con parametro d smoothng grande Con un parametro d smoothng elevato (Fgura 4-64) la dstrbuzone è pù regolare, con un solo massmo. Aumentando ancora l parametro la dstrbuzon e tende ad una dstrbuzone normale. Così é necessaro sceglere un adatto parametro d smoothng, che deve essere mnore, ma non troppo, della devazone standard della varable (Fgura 4-65). 6

227 Fgura 4-65 Denstà d probabltà n funzone della relazone tra parametro d smoothng e la devazone standard della varable La scelta del parametro d smoothng La scelta del parametro d smoothng vene effettuata medante un procedmento d cross-valdaton (p.e. leave-one-out, Fgura 4-66). Per ogn gruppo d cancellazone vene calcolato l prodotto della denstà d probabltà f(/c) f ( / c) I c c j( ) (, ) degl oggett cancellat product Ic f ( / c) j Il prodotto dpende dal parametro d smoothng, e l valore scelto per l parametro é quello a cu corrsponde l valore massmo del prodotto. 7

228 Fgura 4-66 Denstà d probabltà nel prmo gruppo d cancellazone leave-one-out Il caso multvarato Nel caso d dat multvarate, l contrbuto ndvduale al potenzale deve tener conto delle V varabl, come nella dstrbuzone normale multvarata. Fgura 4-67 Dstrbuzone d probabltà bvarata normale per varabl ncorrelate Contrbuto ndvduale per le funzon potenzal uttava nel potenzale normale ndvduale non é necessaro ncludere le correlazon e s utlzza l equvalente della dstrbuzone normale multvarata per varabl ncorrelate (Fgura 4-67): (, j ) I V c v u cv e (v jv) ucv 8

229 dove e j sono vettor V-dmensonal, e ucv è l parametro d smoothng della varable v per la classe c. Nell esempo d Fgura 4-68 con due varabl correlate, le dstrbuzone d probabltà ottenuta con potenzal normal ncorrel mostra non solo la correlazone ma anche la bmodaltà de dat. Fgura 4-68 Varabl correlate e dstrbuzone d probabltà ottenuta con contrbut ncorrelat L equazone: (, j ) I V c v u cv e (v jv) ucv rchede la stma d V parametr d smoothng, ottmzzazone pesante. Essa vene modfcata nella: (, j ) I V c v k c s cv e (v jv) kcscv dove kc é l coeffcente d smoothng della categora c, e scv è la devazone standard della varable v nella categora c. Così è necessaro ottmzzare solo l parametro kc medante la: prodotto I c f ( / c) massmo 9

230 Il potenzale varable Usualmente contrbut ndvdual (,j) hanno la stessa forma per tutt gl oggett. Invece nelle tecnche con potenzale varable l coeffcente d smoothng é una funzone della denstà locale, e queste tecnche sono utl quando la dstrbuzone multvarate della popolazone ha regon con bassa denstà degl oggett. Il coeffcente kc vene moltplcato per la dstanza dal k-oggetto pù vcno: (, j ) I V c v k d s c k j cv e (v jv) kcdk s j cv con dkj dstanza tra j e l suo K-nearest neghbour. 30

231 Modellamento d classe con le funzon potenzal Un modo ovvo per trasformare metod delle funzon potenzal n metod d modellamento è quello d rcavare l valore crtco fc(/c) della denstà d probabltà dalla dstrbuzone della stessa per gl oggett del tranng set della classe (Fgura 4-69). Fgura 4-69 Valore crtco della denstà d probabltà rcavato dal polgono somma La funzone d denstà d probabltà stmata dalle PFM (Potental Functons Methods) non hanno centrode e matrce delle covaranze, e non possamo usare la: mh ( ) come n UNEQ, dove c V c ( c ) f ( / c) () V / V c / e (c ) Vc (c ) [4-7] uttava no possamo fare rfermento alla [4-7] nella forma modfcata: mh mh f ( / c) Vln ln Vc ln [4-8] const ln f ( / c) [4-9] c rovato l valore crtco fc(/c) della denstà d probabltà come descrtto precedentemente, s può usare l valore crtco della d Hotellng per ottenere la costante constc const c c lnf ( / c) c e utlzzare l valore della costante nella [4-9] per calcolare la dstanza dell oggetto dal modello. 3

232 Un metodo alternatvo é quello del determnante equvalente, basato sull equazone: Ic f ( / c) d lm(i c ) f ( / c) / Ic [4-30] V V / / V c L equazone [4-30] può essere ottenuta sosttuendo alle varabl orgnal gl autovettor de dat centrat, operazone che non ha effetto sull ntegrale. Nel nuovo spazo, delle V varabl e, la [4-30] dventa per una dstrbuzone normale multvarata: e / f ( ) d.. e v e e v de..dev () V V v che s rsolve usando l noto ntegrale: v ep( a da cu: )d / a f ( e ) de V V / V v Fnalmente, sosttuendo all ntegrale la sommatora che lo stma: f ( / c) d I c f ( / c) / I c v e la stma del determnante, equvalente a quello d una dstrbuzone multvarata normale con la stessa sommatora delle denstà d probabltà f(/c), é: V ˆ c / V I c V / f ( / c) / I c Sosttuendo l valore del determnante nella [4-8] s ottengono le dstanze dal modello. La Fgura 4-70 mostra l modello ottenuto con 59 campon d vno descrtt da 7 varabl (la categora Barolo n 4.5.5), modello calcolato sulle component prncpal de dat autosccalat con coeffcente d smoothng

233 Fgura Modello PFM e curve d sorapporto con l confne del modello Alber d classfcazone Fanno parte de metod basat sull ntervallo de valor delle varabl. Gl alber d classfcazone sono basat su d una sequenza gerarchca d suddvsone de dat per mezzo d decson bnare basate su valor delle varabl (quanttatve ma anche ordnal). Ogn decsone dvde l nseme de dat n due sottonsem. (Qunlan R. Dscoverng rules from large collectons of eamples: a case study, In D. Mche, edtor, Epert Systems n the Mcro-electronc Age, pages Ednburgh Unversty Press, Ednburgh, 979, Breman, L., Fredman, J. H., Olshen, R. A. and Stone, C. J. "Classfcaton and Regresson rees." Wadsworth, Belmont, Calforna (983)). Fgura 4-7 La struttura d un albero d classfcazone con l ndcazone de lvell e de nod 33

234 Ogn nodo (Fgura 4-7) corrsponde ad una decsone con l utlzzo d una varable (o d una combnazone d varabl) nella forma: Se l valore della varable é < valore d suddvsone (splt) allora l oggetto é assegnato al nodo d snstra del lvello successvo, altrment é assegnato al nodo d destra. I nod, le suddvson e sottonsem corrspondent prma della suddvsone sono numerat come n Fgura 4-7. La varable e l suo valore d suddvsone sono scelt n modo da aumentare la purezza de sottonsem, con lo scopo d ottenere sottonsem costtut da oggett d una sola categora. Quando un nodo contene solamente oggett d una categora esso è un nodo termnale o nodo fne. Aumantando l numero delle decson é sempre possble ottenere nod pur, eventualmente con un solo oggetto. Per questa ragone un nodo può essere consderato termnale quando é pratcamente puro o quando contene un numero molto lmtato d oggett. La purezza d una coppa d sottonsem può essere msurata con dvers ndc: a) Entropy b) Weghted Entropy c) Gn Inde d) Weghted Gn nde e) wong rule Nel caso della wong rule l valore wong t é una msura d purezza, e l suo nverso é usato come msura d mpurezza. Le regole vengono llustrate da due esemp numerc molto semplc. Sottonseme orgnale: N oggett, Ng oggett n categora g Sottonseme d snstra: Nl oggett, Nlg oggett n categora g Sottonseme d destra: Nr oggett, Nrg oggett n categora g Esempo, due categore Sottonseme orgnale: N = 0, N = 5 N = 5 Sottonseme d snstra: Nl = 6, Nl =, Nl = 4 Sottonseme d destra: Nr = 4, Nr = 3, Nr = 34

235 Esempo, due categore Sottonseme orgnale: N = 0, N = 5 N = 5 Sottonseme d snstra: Nl = 5, Nl = 5, Nl = 0 Sottonseme d destra: Nr = 5, Nr = 0, Nr = 5 Entropy e AlltheCate gores N N lg l log N N AlltheCate gores (quando una categora non é rappresentata l termne corrspondente é 0) Esempo lg l N N rg r log N N rg r e log log log log 4 Esempo e log log 5 5 Weghted Entropy e N l N AlltheCate gores N N lg l log N N lg l N r N AlltheCate gores N N rg r log N N rg r Esempo e log log log log 4 Esempo e log log

236 36 Gn nde Esempo Esempo Weghted Gn nde Esempo Esempo wong rule La msura d mpurezza é l nverso d t. Esempo categores the All r rg l lg N N N N g categores the All r rg r l lg l r l N N N N N N N N N N N N wg g g wg wg AlltheCategores r rg l lg r l N N N N N N N N t t / * t

237 Esempo t In Fgura è * llustrato un 0.5esempo con dat real. / t Fgura 4-7 Albero d classfcazone per tre categore d vn descrtt da 7 varabl (4.5.5). WEIGHED GINI Inde MRM (Multvarate Range Modelng) URM (Unvarate Range Modelng) Lo Unvarate Range Modelng (URM) é una tecnca d modellamento largamente utlzzata pù o meno conscamente n pratca. P.e., oer un olo etravergne d olva talano l range degl acd grass (%) è: Varable Mnmo Massmo Palmtco Palmtoleco

238 Stearco Oleco Lnoleco Ecosanoco Lnolenco 0.0. Ecosenoco Fgura 4-73 Contenuto degl acd palmtco e stearco n 57 campon d olo d olve talano URM é basato sull ntervallo permesso per le varabl, rcavato da un tranng set, talora espanso per tener conto dell errore. URM non tene conto della correlazone tra le varabl, che può essere elevate (ved Fgura 4-73). URM s presta alla formulazone d regole che possono essere faclmente comprese: Se l contenuto d acdo palmtco è compreso tra 6.0 e 7.6 % e se l contenuto d acdo palmtoleco è compreso tra 0. e.8 % e se l contenuto d acdo stearco è compreso tra.5 e 3.8 % e se l contenuto d acdo oleco è compreso tra 6.0 e 85.0 %.. allora l campone può essere consderato un olo d olva talano. 38

239 La Fgura 4-74 mostra come l non utlzzare la correlazone tra le varabl porta a modell che possono avere scarsa specfctà. Pertanto URM è un metodo sconsglable, anche se ha l vantaggo d 00% sensbltà, e che la specfctà non dmnusce (anz può aumentare) se v sono varabl nutl, rumore. Fgura 4-74 Dat bvarat e modello URM della classe A MRM (Multvarate Range Modelng) enendo conto: a) delle mportant qualtà d URM d avere sensbltà 00%, per defnzone, e d essere nsensble a varabl nutl, non dscrmnant, b) della necesstà d avere modell faclmente comprensbl da parte d specalst d problema con poche o nulle conoscenze d chemometra è stata svluppata la tecnca MRM (Multvarate Range Modelng). le caratterstche d MRM sono: ) s aggungono alle varabl orgnal alcune varabl dscrmnant, le varabl canonche della LDA calcolate per coppe d categore (una canonca per ogn coppa). Se l numero delle varabl è tale da non permettere l calcolo della varable canonca, s scegle un sottonseme d varabl per mezzo della stepwse LDA, effettuata n modo che n ogn cclo entra la varable che aumenta d pù la dstanza d Mahalanobs tra la categora modellata e la pù vcna. 39

240 Le varabl canonche sono ottenute nella forma: y b 0b... bvv... bvv I coeffcent (loadngs) b sono moltplcat per la devazone standard del predttore: standardzed v b b v s v poché l contrbuto d un predttore con pccola devazone standard alla canonca può essere molto pccolo anche se l coeffcente è grande. I predttor con pccolo coeffcente standardzzato vengono elmnat passo passo, fermando la elmnazone quando l potere dscrmnante della camonca dmnusce sensblmente. Frequentemente, la varable canonca può essere semplfcata sno a dventare una funzone d tre-quattro predttor. ) s possono aggungere combnazon lnear d due varabl dotate d grande potere dscrmnante, talora suggerte dall esperenza 3) s calcola l range delle varabl, orgnal e addzonal. Il range può essere una sottostma del range vero (se l numero degl oggett è pccolo) e pertanto può essere espanso. Il fattore d espansone, tolleranza MRM, è espresso come percentuale del range. Esso elmna o annulla l effetto d varabl non dscrmnant. 4) Per ogn oggetto la dstanza dal modello é la somma D delle dstanze per cascuna varable, dv. Quando l valore della varable v é entro l range dv é 0; altrment d v 00 ma v mod ello v ma mod ello v mod ello mn v or 00 ma mod ello mn v mod ello v mn v mod ello v Una ulterore dstanza, usata solo per la classfcazone quando D é zero per tutte le categore, é la dstanza dal centrode, Dc, defnta come la somma delle: d cv 00 ma v mod ello v v mn mod ello v MPD, la mamum permtted dstance che defnsce l accettazone o meno da parte del modello può essere 0 o defnta dall operatore. Un oggetto è classfcato nella classe per cu D è mnma. Le prncpal caratterstche d MRM sono: ) 00% senstbltà; ) Insensbltà alle varabl non dscrmnant 3) Semplctà del modello, con la possbltà d rcavare regole semplc come per URM, anche nel caso dell utlzzo d funzon canonche. 40

241 4.7.. CAMM (Caman Analogues Modelng Methods) CAIMAN Recentemente [R.odeschn, D.Ballabo, V.Consonn, A.Maur, M.Pavan, Chemom. Intell. Lab. Syst., 87 (007) 3-7] é stata ntrodotta una nuova tecnca d classfcazone e modellamento, CAIMAN (Classfcaton and Influence Matr Analyss). Per ogn classe nel problema CAIMAN calcola leverages degl oggett: h g ( g ) ( X g X g) ( g ) dove é un oggetto, g é l centrode della classe con sol oggett del tranng set della classe g. X g é la matrce delle varabl centrate, calcolata S not che quest leverages non sono esattamente egual a quell della regressone (ved ) n cu la matrce X è aumentata con una colonna d. I leverages sono n relazone con la dstanza d Mahalanobs dal centrode, e possono essere utlzzat per la classfcazone. Ma CAIMAN fa d pù. I leverages sono arrangat n una matrce e da questa matrce s calcolano così dett hyperleverages: hh g ( h h g ) ( H g H g ) ( h h g ) (3) dove h é l vettore colonna de G leverages dell oggetto nelle G class, della classe g e del tranng set della classe. hg é l centrode de leverages H g é la matrce de leverages centrat della classe, ambedue calcolat con sol oggett Fnalmente s calcolano gl scores CAIMAN w g () h g hh g con la costante, tra 0 e, ottmzzata n modo da rendere mnmo l errore d predzone. Il procedmento CAIMAN é schematzzato nella Fgura

242 Fgura 4-75 Schema d CAIMAN Lo schema n Fgura 4-76 mostra come leverages costtuscano un nuovo set d descrttor, H che s affanca a quell orgnal X. I leverages de due sets, H and HH (the hyper-leverages) sono calcolat separatamente e fnalmente unt medante α per ottenere gl scores W per la classfcazone. Fgura 4-76 Schema d CAIMAN modfcato 4

243 CAMM (CAIMAN Analogues Modelng Methods) I leverages sono proporzonal al quadrato della dstanza d Mahalanobs h g MD n g g É così possble generalzzare CAIMAN per ottenere una famgla d metod, CAIMAN Analogues Modelng Methods (CAMM), caratterzzat dal fatto che aggungono alle varabl orgnal alcune dstanze. S not che se le varabl orgnal sono trasformate n coordnate polar, la prma nuova varable è la dstanza dall orgne o dal centrode, e n alcun cas questa dstanza è un eccellente dscrmnante. ra le dstanze che é possble aggungere v sono ovvamente le dstanze d Mahalanobs, ma anche dstanze da un punto (come l centrode), o dstanze da un modello, come le dstanze SIMCA. La Fgura 4-77 mostra uno schema de metod CAMM, dove due blocch d varabl, predttor orgnal X e dstanze D sono unt per ottenere una nuova matrce d dat, XD. Fgure 4-77 Schema de metod CAMM L unone ( Fuson ) non é l solo modo d maneggare due blocch d descrttor. P.e., é possble calcolare le component prncpal de due blocch e procedere qund alla fusone delle sole component sgnfcatve. Anche quando due blocch sono consderat separatamente, leverage (o le dstanze d Mahalanobs) non sono necessaramente mglor parametr per la classfcazone. Derde e Massart, ntroducendo UNEQ n Chemometra [M.P. Derde, D.L. Massart, Anal. Chm. Acta, 84 (986) 33-5] 43

244 affermarono che la probabltà d categora a-posteror ha generalmente prestazon superor al leverage. 44

245 La convalda completa La convalda é un passo mportantssmo nello svluppo d un modello chemometrco. È appena ovvo, ma lo s rbadsce, che ogn parametro del modello deve essere calcolato utlzzando solamente nformazone nel tranng set. uttava frequentemente questo prncpo è gnorato, per esempo ne pretrattament, quando l autoscalng o l calcolo delle component prncpal vengono effettuat utlzzando tutt dat. Frequentemente l prmo passo dell anals de dat è la selezone de predttor utl, e anche n questo caso generalmente la selezone vene effettuata con tutt gl oggett. Nel caso d CAMM le dstanze, secondo blocco d predttor, possono essere calcolate con tutt gl oggett o con sol oggett del tranng set. Conseguentemente sono possbl due stratege d convalda, ndcate con A e B n Fgura Fgure 4-78 Stratege d convalda n CAMM con le varabl orgnal Nel caso d selezone delle varabl rlevant, medante stepwse lnear dscrmnant analyss, decorrelazone stepwse, uso de pes d Fsher (ved sotto),o quando l modello é svluppato sulle component prncpal, v sono tre possbl stratege d convalda, ndcate con A,B,C nella Fgura Ovvamente le stratege B (lavorando con le varabl orgnal) o C sono le stratege corrette, mentre le altre rsultano n una pù meno grande sovrastma delle prestazon del modello. No damo l nome d Convalda completa a queste stratege, e d Convalda pena (full valdaton) alle stratege che oltre ad essere corrette prevedono la rpetzone della convalda con var numer d grupp d convalda e con dfferente ordne degl oggett, o con la convalda tpo Montecarlo. 45

246 Fgure 4-79 Stratege d convalda n CAMM con le varabl selezonate da Stepwse LDA o con le component prncpal 46

247 I pes d Fsher I pes d Fsher sono ntrodott qu, n quanto utlzzat come metodo d selezone delle varabl rlevant n CAMM, ma anche n molt altr metod d classfcazone e d regressone. Ess sono pes unvarat, qund da consderare cautamente n quanto due varabl apparentemente poco dscrmnant possono conguntamente essere molto utl. I Fsher classfcaton weghts (FW) sono stat defnt (A.M.Harper, D.L.Duewer, B.R.Kowalsk, J.L:Fashng, ARHUR and Epermental Data Analyss, n B.R.Kowalsk Ed., Chemometrcs: heory and Applcatons, ACS Symposum Seres 5, Amercan Chemcal Socety Publ. 977) per la varable v e le categore e come: FW coé FW v v I I I ( v v I ) v v ( v I v v I I ( ) v v / 4 ( v v I I e I ndcano l numero degl oggett nelle due categore. ) v ) Il numeratore é la varanza ntercentrode del campone (che non tene conto della rduzone del numero de grad d lbertà). Il denomnatore é la meda d due varanze ntracategora. Nel caso d pù d due categore Fsher Weght sono la meda de pes per tutte le coppe possbl d categore. I FW sono sml a varabl d Fsher, al rapporto F tra varanza nterclasse e ntraclasse: F v I c c C I c C v ( vc vc v vc ) I C C Questa F é usata nel test con potes nulla la meda della varable nelle due categore non è sgnfcatvamente dfferente. Fv può avere valor elevate anche quando le due categore non sono ben separate. I Fsher Weght ndcano una separazone sgnfcatva tra le categore solo se >. La Fgura 4-80 mostra la separazone tra due categore quando l peso d Fsher é elevato (crca 0), medo (crca 5), basso (crca ) e molto basso (crca 0.5). 47

248 Fgure 4-80 Istogramm d una varable per due categore, e relatv pes d Fsher La abella 4-6 mostra la corrspondenza tra FW l rapporto F tra varanza nterclasse e ntraclasse. È nteressante l fatto che, a partà d separazone tra le categore FW non dpendono dal numero d oggett, mentre l rapporto F aumenta con l numero d oggett, n quanto con questo numero dmnusce l ncertezza sulle mede delle due categore. La abella 4-7 rposta valor crtc de FW. abella 4-6 Corrspondenza tra FW e F-rato per due categore con lo stesso numero d oggett. F ndca che l numero d oggett n ogn categora è. La seconda colonna rporta la probabltà d corretta classfcazone per dstrbuzon normal. FW % F50 F00 F00 F

249 abella 4-7 Valor crtc d FW, a quattro lvell d sgnfcato OGGEI Oggett n ogn 5% % % 0.5% (total) categora

250 4.7.. Intervall d fduca della abltà d predzone La abltà d predzone é la msura spermentale della vera non-error rate (nota solo per dat artfcal). Come per tutte le msure spermental della Chmca Analtca essa dovrebbe essere corredata dalla sua ncertezza, un ntervallo d fduca. La parola dovrebbe è conseguenza del fatto che pratcamente ma questa ncertezza appare nelle pubblcazon scentfche. Recentemente [J.K.Martn and D.S.Hrschberg, echncal Report No. 96-, Unversty of Calforna, Irvne, 996; M.Forna, S.Lanter, S.Rosso, Chemometrcs Intell. Lab. Systems, 57, -3 (00)] sono stat descrtte statstche che valutano l ntervallo d fduca della abltà d predzone msurata e che possono essere applcate anche ad altr parametr, qual la sensbltà e la specfctà delle tecnche d modellamento. La Fgura 4-8 mostra come l ncertezza sa puttosto elevata. Con 50 oggett usat per la convalda una abltà d predzone del 9% é n realtà 90 8%. Frequentemente l abltà d predzone é msurata con 0-0 oggett. Il rsultato ha una scarsa valdtà scentfca (un abltà d predzone del 00% con dec oggett dovrebbe essere presentata come 55 45%, con vent oggett come 80 0%). Fgura 4-8 Intervallo d fduca al 90% per l abltà d predzone valutata con 50 oggett La Fgura 4-8 mostra l ncertezza della abltà d predzone per 0-50 oggett. 50

251 Fgura 4-8 Intervall d fduca al 90% per l abltà d predzone 5

252 4.8 REGRESSIONE, CALIBRAZIONE La regressone studa quanttatvamente le correlazon tra blocch d varabl. La regressone lneare (trattata n questo captolo), dato un tranng set d I oggett, descrtt da V varabl (predttor), calcola coeffcent B del modello d regressone: YIR = XIV BVR [4-3] L equazone 4-3 spega R varabl Y (varabl rsposta) come combnazon lnear (mscele)de predttor. Usualmente al blocco X s aggunge n testa o n coda l vettore colonna : YIR = XIM BMR con M=V+. La rga corrspondente ( o M) nella matrce B é la rga delle ntercette Calbrazone dretta I chmc analtc usano la classca regresson e unvarata con lo scopo d predre una quanttà chmca Y da una quanttà fsca msurable, X. (Generalmente nella regressone unvarata X ndca la quanttà chmca e Y la quanttà fsca. Qu applchamo la notazone usuale della regressone multvarata n cu Y è una varable rsposta). Il modello pù semplce é = y +. con l segnale (p.e., l assorbanza ad una lunghezza d onda selezonata) é proporzonale alla concentrazone y dell analta. ndca l errore nella msura della quanttà fsca. In lnea d prncpo é necessaro un solo standard su cu msurare e calcolare l parametro del modello b (calbrazone), stma della pendenza vera : = b y Questo modello può essere utlzzato per predre l valore d y per un campone per l quale non é noto, medante la relazone nversa: y predcted = b - measured Generalmente s usa un modello pù complesso: = a + b y [4-3] 5

253 dove l ntercetta tene conto d alcun fattor, qual l assorbmento del solvente. Per calcolare parametr del modello, a e b, sono necessary due standard, con valor dfferent d y, e la relazone nversa è: y = b - ( - a) = b - + c I modell della regressone unvarata rchedono un segnale specfco, dovuto solamente all analta (a parte l banco responsable dell ntercetta). Per questa ragone le anals rchedono trattament fsc e chmc per elmnare le nterferenze. Il modello usuale 4-3 s applca generalmente utlzzando pù d due standards, con l utlzzo della regressone ordnara con mnm quadrat e l potes che la concentrazone degl standards sa senza errore. V sono cas n cu l errore sulla concentrazone é grande e che l errore sulla msura della quanttà fsca é pccolo e n questo caso s utlzza la regressone della y sulla, quanttà fsca, y = a + b o un modello che prevede un errore su ambedue gl ass Anals multcomponente La così detta Multcomponent analyss fu l prmo tentatvo d elmnare le nterferenze per mezzo della matematca. Sa S l numero delle spece chmche che assorbono nel sstema, V l numero delle lunghezze d onda, v l assorbanza msurata alla lunghezza d onda v, V l vettore delle V assorbanze, avs la assorbvtà molare della spece s alla lunghezza d onda v, AVS la corrspondente matrce con V rghe e S colonne, ys la molartà della spece, ys l vettore corrspondente. L equazone: V A VS y S può essere rsolta ottenendo l vettore delle concentrazon: y S ASV AVS) ( A B SV V SV V [4-33] purché sa VS e la matrce A sa nvertble. A SV VS Nel caso d mscele d S component chmche sono necessare solo S- equazon n quanto l ultma equazone è ottenuta dalla condzone: y S s S s ys s 53

254 L anals multcomponente elmna le nterferenze ma é necessara la conoscenza dell assorbvtà molare d tutte le spece chmche nel sstema, conoscenza che s ottene con solo S standard, compost pur. Sfortunatamente raramente l chmco conosce la natura d tutt gl nterferent. L equazone 4-33 corrsponde ad S equazon separate, ma la separazone è solo formale n quanto n ogn equazone separata compare la matrce AVS con tutt compost Calbrazone nversa L aggettvo nversa sgnfca che la calbrazone é l nverso della usuale calbrazone dretta unvarata, che é n realtà quella che rchede l nversone per predre la varable rsposta. Il punto d partenza é l equazone 4-34, formalmente eguale alla 4-33, ma senza la matrce AVS delle assorbvtà y B [4-34] S SV V Consderando un unca varable rsposta s ha: y b [4-35] V V C s chede se é possble separare realmente, non solo formalmente la equazone 4-34 n S equazon e generalmente consderarne solo una, quella dell analta d nteresse. Abbamo bsogno d standards, un set d calbrazone, e se la equazone 4-35 è realmente separata n quest standards deve essere nota solo la concentrazone dell analta d nteresse. Quant standards sono necessary? Almeno I = V standards poché abbamo bsogno d V equazon, l sstema: y I X IV b V con XIV matrce de predttor, che c permettere d stmare l vettore bv. Quant predttor dobbamo avere? Con un solo predttore l equazone 4-35 concde con l modello della regressone un varata, senza possbltà d elmnazone delle nterferenze. Così no abbamo bsogno d un numero d predttor suffcente a tener conto ne coeffcent d regressone b dell effetto degl nterferent. Il modello vene generalmente aumentato aggungendo n testa o n coda l vettore colonna, per tener conto dell effetto d fattor costant, con una ntercetta b o bv+: y I XIV bv bv XIM bm [4-36] dove M = V +. Il vettore de coeffcent puç essere calcolato per mezzo dell nverso generalzzato: 54

255 b M X MI XIM) MI ( X y [4-37] I che fornsce la soluzone con mnm quadrat della equazone 4-36, soluzone fornta dalla regressone OLS (Ordnary Least Squares), nota anche come MLR, Multple Lnear Regresson. Sosttuendo la espressone d bm della 4-37 nella 4-36 non s ottene l vettore yi della rsposta ma la sua stma con mnm quadrat: yˆ La nversone d I X IM ( X MI XIM) MI X y [4-38] I X MI XIM (chamata generalmente matrce d nformazone) rchede che l numero de campon standard sa almeno eguale ad M. I campon devono essere dfferent, con dfferente vettore de predttor. La calbrazone nversa vene applcata generalmente a dat spettral, dove M può superare l mìglao. Conseguentemente l numero de campon necessar dventerebbe troppo grande per l utlzzo n pratca. V sono vare possbltà per superare questo nconvenente: a) selezone d un subset d predttor, n modo che sa M<N (la tecnca d regressone rmane OLS); b) compressone (la natura de predttor vene modfcata); c) uso d tecnche d regressone based (dfferent da OLS); d) combnazone d selezone, compressone e tecnche based, con utlzzo delle tecnche d selezone tpche delle tecnche based. OLS é consderate la tecnca d regressone unbased, esente da errore sstematco, bas. grossolanamente, l potes é che predttor sano tutt quell necessar e ovvamente rlevant. Una mscela chmca è una combnazone lneare de costtuent, cascuno pesato dalla sua percentuale. Quando è necessaro rcostrure perfettamente la mscela s dobrebbero utlzzare anche costtuent a lvello d tracce. In pratca s usano solo costtuent rlevant e la elmnazone delle tracce rduce l costo della rcostruzone. Abbamo ntrodotto un errore sstematco, un bas, ma la mscela rsultante può essere soddsfacente o addrttura mglore. Nella calbrazone la rsposta non può essere consderate una mscela de predttor. Molt predttor sono scuramente nutl, e la loro elmnazone ha sempre un effetto postvo. La matrce de predttor é ottenuta spermentalmente, e le msure sono sempre caratterzzate da un errore spermentale. Se predttor sono tutt necessar e rlevant ed yi é l vero valore del vettore 55

256 della rsposta, e se rpetamo H volte la determnazone spermentale della matrce XIV sugl stess campon, una tecnca unbased ha la propretà lm H yi) E(ˆ y VERO I dove E(ˆ y ) è la meda sulle H rpetzon della stma del vettore della rsposta. I Le tecnche d regressone sono caratterzzate da: Effcenza E(ˆ RUE y I yi ) E( ei I) RUE I ) E( ei I Bas E(ˆ y y ) I Le tecnche based ntroducono un pccolo errore sstematco ma con una pù mportante dmnuzone dell errore casuale (aumentano l effcenza a spese del bas), scché possono offrre vantagg anche quando la matrce X MI XIM può essere nvertta. In generale esse sono utl n quanto permettono d avere modell effcent quando l numero delle varabl è pù elevato d quello degl oggett, quando è necessaro elmnar predttor nutl, quando v è elevata correlazone tra predttor Calbrazone multvarata La calbrazone multmultvarata é una calbrazone nversa generalmente applcata a dat spettral: a) senza la conoscenza dello spettro delle rsposte e d quello degl nterferent; b) con la possbltà d studare (modellare) separatamente ogn rsposta; c) con un numero V d predttor ben scelt, suffcent a tener conto dell effetto degl nterferent; d) con un numero I d campon, scelt n modo da esplorare la varabltà del sstema chmco a cu applcare l modello d regressone (rappresentatv); I deve essere suffcente anche per la valutazone della abltà predttva del modello medante tecnche d convalda; e) frequentemente con l utlzzo d tecnche d regressone based. La defnzone ntroduce tutt punt crtc d cu s deve tener conto nello svluppo d un modello d calbrazone: ) numero suffcente d campon ben scelt; ) abltà predttva e convalda; 56

257 3) numero suffcente d predttor ben scelt (e conseguentemente pretrattamento de predttor, scelta della tecnca d regressone e delle tecnche d elmnazone de predttor nutl) Modell statstc S rvedono qu alcun concett svluppat nel captolo sulla statstca, ma resamnat alla luce d una vsone pù generale, che comprende modell relatvamente compless della regressone multpla. Una varable può essere consderata, a seconda del problema, come una costante o una funzone d uno o pù predttor, a cu s aggunge un errore spermentale che é la componente appunto varable. Essendo: y msurata = y vera + l errore d msura porta, a seconda de cas, alle: y = µ y msurata = µ + [4-39] y = y msurata = + [4-40] y = y msurata = [4-4] Il modello 4-39 é quello della usuale statstca con una varable. Il parametro µ (meda della popolazone, prmo momento, frequentemente ndcato come valore vero) é stmato dal tranng set (gl I oggett del campone statstco) per mezzo della: m I y I Ogn valore (oggetto) y contrbusce ad m con un peso /I, l leverage (costante) dell oggetto. Il leverage medo é /I. S calcolano alcun parametr d dspersone: s c I (y m) I s I I Varanza del campone statstco d I oggett s I (y m) I Stma della varanza della popolazone da cu provengono le y msurata 57

258 s s Stma della varanza della popolazone m I delle mede del campone m La varanza d m ntorno a µ s ottene moltplcando s per l leverage medo, /I. Questa è una osservazone banale, ma utle n vsta della dscussone de modell 4-40 e 4-4. s é una msura (stma) della dspersone d un dato sngolo ntorno alla meda d popolazone, s m é una msura (stma) della dspersone della meda stmata m ntorno alla meda d popolazone, s c msura la dspersone d una dato msurato ntorno alla stma m della meda d popolazone ed é s s m s c Le tre varanze possono essere studate medante la statstca d Student per ottenere gl ntervall d fduca d: ntorno a y y t p s y ntorno a µ y t p s ntorno a m Apparentemente la m s m m t p s I y I m tp sc m tp s [4-4] I dovrebbe essere utlzzata per ottenere l ntervallo d fduca del generco valore msurato ntorno a m, ma la 4-4 non può essere applcata n quanto y è stato utlzzato per calcolare m, e qund non obbedsce alla statstca d Student, ma la funzone (y m) s I (I ) segue una dstrbuzone Beta, (/, (I-)/) [I-: n generale d.o.f. -]. Il modello 4-40 corrsponde alla regressone ordnara con una varable predttrce. Dato l modello y = + + nvece d un parametro (m, stma d ), OLS stma due parametr, a (stma d ) e b (stma d ). Il valore vero é una lnea retta, nvece d un punto. Il modello stmato é: y = a + b 58

259 Useremo: y per l modello + (l valore vero) ŷ per la stma a + b ŷ per la stma a + b y per un valore msurato, utlzzato per costrure l modello y meas per un valore msurato, non utlzzato per costrure l modello Ogn valore (oggetto) y contrbusce al modello con un contrbuto pesato per la dstanza dal centrode: b I (y m I y ) ( m ( m ) ) Fgura 4-83 Analoga tra modell La devazone standard del campone è quella de punt spermental untorno al modello stmato y = a + b (Fgura 4-83), la stma della devazone standard della popolazone dell errore è la stma d, de punt spermental ntorno alla retta vera, sconoscuta.: s c I (y a b ) I s I (y a b ) I Come nel caso unvarato, la varanza dell errore é la somma della varanza ntorno alla meda stmata e della varanza della meda stmata n torno alla meda vera = + : s s m s c Nella regressone unvarata possamo ottenere la varanza del modello stmato ŷ a b ntorno al modello vero + come: 59

260 60 I I I I ˆ s I I s s I I I ) b a (y I ) b a (y I ) b a (y I ) b a (y (medo) s y Questo rsultato é analogo a quello del caso unvarato: I s s m. La dfferenza è che l moltplcatore é (l numero de parametr stmat) e che ŷ s ha l sgnfcato d una varanza stmata meda. Vedremo l analoga stretta con le analoghe quanttà nella regressone multvarata. Infatt no possamo applcare la regola d propagazone delle varanze alla stma del modello, nella forma: ) m ( b m b a ŷ y Rcordando che: I s s m y e I b ) m ( s s, la varanza ˆ s y é: I I ˆ ) m ( ) m ( I s ) m ( ) m ( s I s s y [4-43] La meda del secondo termne nel moltplcatore d s é /I e pertanto la ˆ s I (medo) s y é realmente una stma meda. Il valore I é l leverage medo, come nel caso del modello unvarato l leverage medo é I. Dalla [4-43] s ottene l leverage d un punto nel tranng set o d un oggetto generco come: I ) m ( ) m ( I h I ) m ( ) m ( I h Varabl ndependent senza errore

261 e pertanto: s ˆ y s I I s ( m ( m ) ) s I I ( ( m ) m ) Il leverage é una quanttà molto mportante nella regressone, tanto per calcolare gl ntervall d fduca quanto nella dagnostca. s h OLS Il modello OLS multvarato é: y β dove y é la rsposta, é l vettore rga d V predttor aumantato con un, n testa o n coda, per un totale d M = V + element, é l vettore de coeffcent d regressone (V pendenze e l ntercetta), è l errore supposto sulla msura della rsposta (n pratca l errore può essere anche o solo su predttor senza che rsultat cambno sgnfcatvamente) Calbrazone Nella fase d calbrazone, coeffcent d regressone sono stmat per mezzo d un tranng set d I oggett, per qual sono not tanto valor de predttor che quell della rsposta. La matrce orgnale é aumentata d un vettore d, per un totale d M colonne: I I V V 3V 4V... IV I I V V 3V 4V... IV Quando la colonna d non vene aggunta, la regressone é forzata per l orgne, ma cò accade n pratca molto raramente. Abbamo vsto che l vettore de coeffcent può essere calcolato medante la: e che: b M X MI XIM) MI ( X y [4-37] I 6

262 yˆ I X IM ( X MI XIM) MI X y [4-38] In queste espresson compaono due mportant matrc, che s aggungono alla X MI X IM matrce d nformazone IM, e sono: MI XIM) ( X matrce d dspersone DM X IM X MI XIM) ( X MI I matrce hat H, detta così perché moltplcata per valor spermental della rsposta fornsce valor stmat, mette l cappello (hat) su valor spermental. La stma della varanza dell errore, la after regresson varance, é: s e I ei I M I (y ŷ ) I M La matrce d dspersone derva l suo nome dal fatto che da essa s rcava la varanza e la covaranza de coeffcent d regressone, moltplcandola per s. Poché: b M ( X XIM) X yi MI la matrce della varanza covaranza de coeffcent d regressone s ottene come: V MM (X MI X IM) X MI X IM ( X MI X MI IM) s ( X MI 6 X IM) s Invertendo la matrce s ottene l suo determnante D che msura la dspersone degl oggett nello spazo M-dmensonale. Con V=, M= (regressone ordnara) é: I I I I I I I D I I( m I ) I X X Il determnante è proporzonale alla varanza ntorno alla meda. S rcord l equazone dell ntervallo d fduca con valore locale che derva dalla 4-43: y a b t p s h / ŷ t p s I I ( m Quando D é molto pccolo (cò sgnfca che punt sono molto vcn) l ncertezza sulla stma del ( ) m modello é molto elevata, tranne che nel pccolo ntervallo coperto da punt spermental. ) /

263 Gl element della matrce d dspersone sono proporzonalo all nverso del determnante: quando esso dventa pccolo la varanza de coeffcent d regressone dventa grande, come mostra grafcamente la Fgura Fgura 4-84 Determnante e ncertezza sulla retta d regressone Il determnante caratterzza la bontà della matrce d nformazone. Il determnante normalzzato M = D / I M permette d confrontare tranng set dfferent per l numero d oggett. Per confrontare nsem d predttor dfferent per la loro natura o scala l determnante deve essere calcolato sulle varabl autoscalate. Set A B C D M D (aut) In questo caso (stesso numero d oggett) l determnante M é nutle; le matrc A e B (stesso predttore) possono essere confrontate con D (o M); la matrce C (predttor dfferent) deve essere confrontata utlzzando l determnante de dat auto scalat. 63

264 La dagnostca d OLS Utlzzando la matrce hat e resdu: e ŷ y é possble calcolare molt parametrc rguardant la predzone senza l utlzzo d un vero evaluaton set. Qu è descrtto l procedmento della leave-one-out dagnostcs (la leave-more-out dagnostcs é pù complessa e s raccomanda l utlzzo della cross-valdaton). Useremo l pedce () per ndcare un valore ottenuto quando l oggetto è lascato fuor. ŷ () rsposta predetta e ( ) ŷ() y errore d predzone X () matrce de predttor quando l oggetto é fuor b () vettore de coeffcent quando l oggetto é fuor s () varanza dell errore quando l oggetto é fuor L errore d predzone (leave-one-out) s ottene dalla: e () e h La stma della varanza dell errore é data dalla: s () e (I M)s h I M Il leverage dell oggetto quando lascato fuor é: h () h h I parametr seguent sono utlzzat per rlevare oggett nfluent, coé con una mportanza eccessva sulla regressone. Un leverage pont ha leverage (le opnon sono dverse): : h 3M / I o h M / I DFFIS é una msura normalzzata dell errore d predzone: 64

265 h e DFFIS s ( h ) cutoff () M / I / Un oggetto con DFFIS maggore del valore d cutoff è anomalo. DFBEASv (per l coeffcente d regressone della varable v quando l oggetto é lascato) sono le varazon normalzzate de coeffcent d regressone; DCONS s rfersce alla ntercetta. DFBEAS cutoff v b s I () v() b dm v vv Un oggetto con un DBEAS maggore del valore d cutoff è anomalo. Le varazon de coeffcent d regressone sono element del vettore dspersone): (DM è la matrce d b () DM MM b h M e RSUDEN sono resdu normalzzat da usare nella statstca d Student (e I-M- d.o.f.): RSUDEN s () e () h () s () e h Il valore d cutoff é crca. I Varance Inflaton Factors sono defnt come (dm è un elemento della matrce DM): f I v dmvv (v v ) Gl Inflaton Factors sono una msura globale della correlazone tra le varabl. Quando un predttore ha fattore d nflazone maggore d 4-7 (opnon dscordant) l predttore é troppo correlate con gl altr, l determnante D è troppo pccolo, e l predttore dovrebbe essere elmnato. Un dsegno (scelta degl oggett) ottmo ha fattore d nflazone per tutte le varabl Partal leverage plots Anche quest grafc fanno parte della dagnostca OLS Sa X[m] la matrce ottenuta dalla matrce orgnale elmnando la colonna m. Sa [m] la colonna cancellata. La regressone d y su X[m] fornsce l vettore de resdu ey[m] 65

266 La regressone d [m] su X[m] fornsce un secondo vettore d resdu e[m] Quando la colonna cancellata é quella della costante : [M] = e X[M] é La matrce de predttor senza la colonna corrspondente alla ntercetta, e pertanto la regressone é vncolata all orgne. I Partal leverage plots rpostano ey[m] verso e[m]. I coeffcent d regressone d ey[m] verso e[m] sono coeffcent bm della regressone d y su X, e grafc mostrano l effetto d oggett nfluent su coeffcent d regressone, come mostrato nell esempo della Fgura 4-85 (D.A.Besley, E.Kuh, R.E.Welsch, Regresson Dagnostcs, Wley 980) dove gl oggett 3 e 49 hanno un evdente effetto sulla pendenza. Fgura 4-85 Un partal leverage plot 66

267 Caratterstche dell aderenza (fttng) Sono s b I (y y) I Varanza prma della regressone (Before regresson varance) SEC (Standard error of calbraton), o Standard devaton of the error, o SDEC (Standard devaton of the error of calbraton) Il quadrato d SEC è la varanza dopo la regressone (After regresson varance) o varanza dell errore. Essendo ŷ la rsposta calcolata per gl oggett usat per svluppare l modello é s I (y ŷ ) I M % Eplaned varance = 00 s s b s % Resdual varance = 00 s b Multple Correlaton Coeffcent R I I (y ŷ ) (y y ) Adjusted Multple Correlaton Coeffcent R a I I (y ŷ ) (y y ) I I M s (concde con la frazone d varanza spegata ) s b Caratterstche della predzone La predzone può essere realzzata n cross valdaton (leave-one-out LOO o con grupp d camcellazone CV), o con repeated evaluaton set RES, o con un set d convalda unco, eternal evaluaton set EES. 67

268 Le caratterstche d predzone sono: LOO s b I (y y () ) Before regresson LOO (leave-one-out) varance I y () é la meda della rsposta quando l oggetto é nell evaluaton set. Non la s confonda con la caratterstca d fttng s b I (y y) I In CV con G grupp, Ig oggett sono nell evaluaton set (generalmente lo stesso numero o un numero poco dverso n ogn gruppo d cancellazone). y (g) é la meda della rsposta nel tranng set del grouppo g. C.V.s b G g Ig (y y I (g) ) Nel caso del RES, con E evaluaton sets, y (e) è la meda della rsposta nel tranng set e Ie é l numero d oggett nell evaluaton set. RES s b E I e e E (y y e I e (e) ) Nel caso d EES, y é la meda della rsposta nell unco tranng set, IE é l numero d oggett nell unco evaluaton set EES s b I E I E (y y) La Leave-one-out before regresson varance può essere ottenuta faclmente applcando la: e () e h enendo conto del fatto che stamo consderando l modello y =, l leverage é /I, e pertanto: e () e I e I I 68

269 Leave-one-out before regresson varance s the sum of squares of these resduals dvded by I (no d.o.f. are lost n predcton): LOO s b I e I () I e I I I I I e I (I ) I e I I I s b I I con s b I (y y) I L equazone può essere llustrate con l seguente esempo: y e e() y e e() s b = LOO s b = = 0 s b / 9 La ŷ predcted é la rsposta calcolata n condzon d predzone. Da essa s rcava un parametro mportante, la varanza dopo la regressone, after regresson varance, la cu radce è nota come SEP (standard error of predcton) o, meglo, come SDEP (standard devaton of the error of predcton). LOO s I (y ŷ predcted I ) C.V. s I (y ŷ I predcted ) RES s E I e e (y ŷ E e predcted I e ) EES s I E (y ŷ I predcted Dalle varanze prma e dopo la regressone s ottengono le (llustrate solo per l caso CV): E ) % C.V. Eplaned varance o C.V.R o Q = C.V.s % Resdual varance = 00 C.V.s b 00 C.V. s C.V. s b 69

270 Q è la grandezza pù utlzzata per valutare la bontà della predzone. uttava essa ha lo svantaggo d essere quadratca e non dare un dea precsa del rsultato della regressone. S rtene preferble l utlzzo del rapporto SDEP/sb, che è lneare con la rsposta e ndca molto charamente la bontà del modello Leverage, statstca Beta La leadng dagonal della matrce hat fornsce leverages degl oggett nel tranng set. Il leverage d un oggetto n generale s ottene da: M X MI XIM) ( M Il leverage medo nel tranng set é M / I La varanza, molto mportante, della stma dell perpano d regressone ntorno al modello vero é: s ˆ y s h (s not che è la stessa equazone vsta nella regressone unvarata). La varanza degl oggett del tranng set ntorno all perpano stmato d regressone é: s y s ( h ) La dstrbuzone degl oggett del tranng set ntorno al modello stmato é una dstrbuzone Beta: I M (y ŷ), ) s ( leverage) I M ( la dstrbuzone degl oggett nell evaluaton set é una dstrbuzone d Student con varanza: s y s ( h) equazone n cu s sommano la varanza dell errore e quella del modello stmato ntorno al modello vero e che ndca che l ncertezza d predzone é una funzone crescente del leverage Stepwse OLS La Stepwse OLS (SOLS) é l pù antco metodo d selezone de predttor rlevant. Essa è una tecnca based (sotto l potes che non lo sa OLS). La scelta de predttor avvene secondo l procedmento seguente: ) In ogn passo SOLS scegle l predttore che aumenta d pù la varanza spegata della rsposta. ) SOLS usa l ANOVA per valutare l mportanza de predttor. La selezone s ferma quando l sgnfcato del test F permette d accettare l potes nulla. 70

271 3) SOLS usea un analogo test F per verfcare se un predttore selezonato può essere rmosso. SOLS vene llustrata con un esempo numerco molto rdotto. X X Y Prma della regressone Predttore X Predttore X ŷ y.875 ŷ ŷ ŷ e ŷ e e e = 3 = = e / e / e / e e e ŷ e Varanza prma della regressone Varanze dopo la regressone Decremento d varanza (corrsponde a =) abella ANOVA per l predttore X (quello con la mnma varanza resdua) Sorgente d varazone Somma de quadrat Varanza F, Sgnfcato OALE REGRESSIONE % RESIDUA Sulla base della anals della varanza l predttore X vene selezonato n quanto: a) é l predttore pù correlate con la rsposta (mnma somma de resdu al quadtato contro.0847); b) l test F ndca che la correlazone é sgnfcatva (sgnfcato <5%). Nel secondo passo s lavora su resdu Prma della regressone Con anche l predttore X ŷ ŷ ŷ e ŷ 7 e

272 e e = = e / e / e abella ANOVA per l predttore X Sorgente d varazone Somma de Varanza F, Sgnfcato quadrat OALE REGRESSIONE % RESIDUA Usualmente s scegle per l test F l valore crtco 4 (F-to-enter) che é una accettable approssmazone quando grad d lbertà del denomnatore sono pù d dec. Il test su predttor gà selezonat consdera l ncremento d varanza dovuto alla rmozone. generalmente s scegle un valore crtco (F-to-remove) che corrsponde ad un sgnfcato d crca l 5% Metod based OLS ha alcun nconvenent. La matrce d nformazone può essere nvertta solo se l numero degl oggett é superore a quello de predttor. Inoltre, anche n questo caso, v può essere multcollneartà (un predttore ha una elevatssma correlazone con un altro predttore o con una combnazone degl altr predttor), con elevatssmo fattore d nflazone, spesso con la mpossbltà d nversone e comunque con determnante della matrce d nformazone così pccolo che gl element della matrce d nformazone sono molto elevat. Qund s ha una grande ncertezza su coeffcent d correlazone. Infne quest hanno elevata correlazone tra d ess, con conseguente dffcoltà d nterpretazone. La soluzone è nelle tecnche dette based : Stepwse OLS Rdge regresson PCR (Prncpal component regresson) Stepwse decorrelaton PLS 7

273 Abbamo gà vsto prncp della Stepwse OLS. Vedremo n seguto quell della stepwse decorrelaton, che selezona e ortogonalzza prdttor sa per problem d regressone che per problem d classfcazone. Nella contnuum regresson (CR) (Stone, M. & Brooks, R.J. (990), Journal of the Royal Statstcal Socety, Seres B 5,37 69), che abbracca OLS, PLS e PCR, Stone e Brooks ntroducono una generalsed crteron functon (GCF) che comprende crter massmzzat nelle tre tecnche, coé la correlazone, la covaranza e la varanza. La GCF, é defnta come: ( c /( ), V X V, I yi,) ( c, V X V, I XI,V cv,) dove c é l vettore de pes della componente e é l Contnuum Regresson parameter aggustable nell ntervallo 0 <. Per = 0 s ha OLS, per = 0.5 s ha PLS, per che tende a l crtero tende a concdere con PCR Rdge Regresson La Rdge regresson prende l suo nome dal fatto che lavora sulla dagonale prncpale (leadng dagonal o rdge) della matrce d nformazone. La matrce: non è nvertble. Invece la matrce: può essere nvertta. La Rdge regresson aggunge agl element della dagonale prncpale della matrce d nformazone una pccola quanttà, l parametro rdge. Questa operazone è detta shrnkng (letteralmente contrazone ) e Shrnkage regresson s rfersce a metod usat n stuazon d multcollneartà (almeno uno de predttor è una combnazone lneare d altr predttor) o d quas col lneartà, n cu v è una elevara correlazone tra predttor. Quest metod sono dett anche regularzaton methods. La soluzone della regressone Rdge, analoga alla 73

274 è b b M X MI XIM) MI ( X y [4-37] M X MI XIM IMM) MI ( X y I I Il valore del parametro rdge deve essere ottmzzato. Quando le varabl hanno natura dversa esse devono essere auto scalate, pe evtare d dover ottmzzare l parametro rdge per ogn varable. La ottmzzazone avvene n condzon predttve, e pertanto occorre applcare l procedmento d convalda con tre sets. Quando l numero delle varabl è molto elevato, come accade molto frequentemente con problem chmc, l tempo necessaro per tutto questo procedmento è proebtvamente lungo, e cò spega l fatto che questa tecnca ha n chmca un utlzzo estremamente raro PCR La regressone sulle component prncpal è una ottma tecnca. Essa è costtuta da due pass. Nel prmo s calcolano le component prncpal de dat centrat o auto scalat. Successvamente s utlzza la Stepwse OLS per selezonare le component rlevant. L nconvenente d OLS, che lmta l numero delle varabl, sparsce n quanto per la PCR raramente s arrva ad utlzzare pù d dec component ed ovvamente l numero degl oggett è sempre suffcente. Un nconvenente d PCR è l fatto che due pass sono spesso n modul software separat. Cò rende scomoda la convadda completa, che sarebbe necessara, e s usa generalmente una convalda parzale, calcolando le component prncpal con tutt gl oggett, con la possbltà d una sovrastma della abltà d predzone. 74

275 PLS PLS è probablmente la tecnca d regressone pù utlzzata n chmca analtca, utlzzata anche quando non sarebbe necessaro. Il suo algortmo può essere consderato una evoluzone dell algortmo NIPALS. Vene llustrato n seguto con una matrce d sol quattro oggett e due predttor. Normalmente PLS lavora su dat centrat o autoscalat. Nell esempo dat non sono pretrattat. Fgura 4-86 Matrce de dat per esempo PLS S ramment come NIPALS calcola la prma componente. Il valore d partenza, prma approssmazone degl scores, vene proettato sul terzo asse e s calcolano le regresson margnal vncolate all orgne delle varabl sugl scores. PLS é basata sull potes che la varable rsposta sa proporzonale alla prma componente PLS (varable latente), a parte un resduo; che l resduo sa proporzonale alla seconda componente, a parte un nuovo resduo, e così va L algortmo PLS Non sono necessare terazon: no abbamo la prma varable latente, come proporzonale alla rsposta e possamo calcolare coeffcent d regressone margnal, pes PLS, pendenza delle rette d regressone: ˆ v w v y V y, I XIV, y, I yi, w 75

276 che vengono normalzzat w V,(NOR ) w V, w assumendo l sgnfcato d cosen drettor (dett ), che ndvduano la drezone della prma varable latente PLS, pù o meno dversa dalla prma componente prncpale. Gl scores sulla varable latente, ndcat usualmente con t, s calcolano medante la: t X I, IV w V,(NOR ) Le rette d regressone per l orgne hanno pendenze e resdu X ˆ p v,v v t p X t IV t,i t,i X t p IV I, I,,V reppresentano l nformazone de predttor che non é stata utlzzata per spegare la rsposta con la prma varable latente. Le pendenze p normalzzate p V,(NOR ) p V, p sono loadngs (PLS X-loadngs) d una nuova drezone nello spazo de predttor che é quella della varable che modella X. I resdu X sono le dstanze degl oggett dale proezon sulla varable modellante. Analogamente, la pendenza della lnea d regressone vncolata all orgne della varable rsposta sulla varable latente é: c t, I, I t y t I, I, e resdu y y t I, I, c rappresentano l nformazone della rsposta che non é stata spegata da predttor con la prma varable latente. Predttor e rsposta sono sosttut con resdu: I,,V e usat per calcolare la seconda latente, tornando al calcolo de loadngs w con resdu. 76 X IV y X I, IV y t I, t p c I,

277 Ovvamente l ndce d w, p, t, c è sosttuto dall ndce della varable latente corrente. Con la matrce dat dell esempo n Fgura 4-86 pass dell algortmo PLS sono: ) y X,I IV w,v y,iy I, w w w. 44 w V, ) Loadngs w V,(NOR ) w(nor) w(nor) w, I I, 3) t I, XIVw V,(NOR ) t.463 t t t t t ) c t, I yi, t, I ti, c ) Weghts () 6) X t X,I IV p,v p t,it I, p IV XIV ti,p,v yi, yi, ti,c Resdu X X Y Nota: e sono stat usat come smbol per loadngs e weghts nel PLS orgnale. 77

278 Il potere modellante Data la varanza orgnale d un predttore VORIGINALE e la varanza Vc dopo che é stata calcolata la c- esma varable latente (varanza de resdu), l potere modellante é: MP v V / ORIGINALE / VORIGINALE V / c La convalda Vene generalmente utlzzata la cross-valdaton. Erroneamente n alcun software commercal l autoscalng è effettuato con tutt gl oggett. Dvdere dat n G grupp d cancellazone Autoscalare senza gl oggett del gruppo d cancellazone Autoscalare senza gl oggett del gruppo d cancellazone Autoscalare senza gl oggett del gruppo d cancellazone 3 Calcolare w, t, c Resdu X - t p y - t c Per ogn varable latente a Calcolare w, t, c Resdu X - t p y - t c PRESS(a)=0 Calcolare w, t, c Resdu X - t p y - t c aggungere a PRESS(a) la (resdu) a=a+ Con resdu del gruppo andare al calcola della latente successva aggungere a PRESS(a) la (resdu) a=a+ Con resdu del gruppo andare al calcola della latente successva aggungere a PRESS(a) la (resdu) a=a+ Con resdu del gruppo andare al calcola della latente successva Il mnmo d PRESS(a) é uno de crter per dentfcare l numero ottmo A d varabl latent. Con A varabl latent vene calcolatol modello fnale con tutt gl oggett. 78

279 La complesstà del modello PLS Quanttà usate nella valutazone del modello (alcune quanttà sono rferte a stratege d convalda dverse dalla cross-valdaton) RMSEP: root-mean-square error of predcton. (B.R.Kowalsk, M.B.Seasholtz, J.Chemometrcs, 5, 9-45 (99)) (L utlzzo della parola «error» per ndcare la stma della devazone standard é, purtroppo, generale nella letteratura della calbrazone multvarata) RMSEP I E (y ŷ ) I E IE : numero d campon nell the «Eternal» evaluaton set RMSECV: root-mean-square error of cross valdaton (B.R.Kowalsk, M.B.Seasholtz, J.Chemometrcs, 5, 9-45 (99)) RMSECV I (y ŷ ) I I: numero de campon; ŷ é la rsposta predetta quando l modello é calcolato senza l campone. É la quanttà nota come SEP o SDEP (ved OLS). PRESS: Predctve resdual error sum of squares (B.R.Kowalsk, M.B.Seasholtz, J.Chemometrcs, 5, 9-45 (99)) PRESS I (y ŷ ) MSEP: Mean square error of predcton (H. van der Voet, Chemometrcs Intellgent Laboratory Systems, 5, (994)) MSEP E(y ŷ) Mˆ SEP Stma d MSEP Mˆ SEP I (y ŷ ) I PRESS I 79

280 Crter per determnare la complesstà ottma Sono stat suggert molt crter per valutare la complesstà ottma del modello d regressone, l numero A d varabl latent. Alcun crter possono essere utlzzat anche per confrontare modell d regressone calcolat con tecnche dfferent. I) Mnmum PRESS (Eternal, CV or Leave-one-out) É l numero d varabl latent corrspondent al mnmo PRESS (o SDEP). É ndcato con A, mentre a ndca l ndce corrente della varable latente. II) Frst mnmum PRESS Scegle l numero d component corrspondent al prmo mnmo d PRESS, qund un numero d component frequentemente pù basso d quello fornto dal crtero precedente. III) Haaland-homas F-statstcs (D.Haaland, E.homas, Anal.Chem., 60, 93-0 (988), E.homas, D.Haaland, Anal.Chem., 6, 09 (990)) F (I,I) a PRESS PRESS a m PRESS m é l mnmo d PRESS. La complesstà ottma è data dal pù pccolo valore d a per l quale la statstca F ndca che PRESSa non è sgnfcatvamente superore a PRESSm. IV) Osten F statstcs (D.Osten, J.Chemometrcs,, 39 (988)) F (,I a ) a PRESS a PRESS PRESS a a (I a ) La complesstà ottma è data dal pù pccolo valore d a per l quale la statstca F non è sgnfcatva (F maggore del valore crtco). V) PRESS hreshold (D.Osten, J.Chemometrcs,, 39 (988)) Scegle l pù pccolo numero d component per l quale PRESS è sotto un valore d sogla, che è calcolato come percentuale tra mnmo e l massmo d PRESS. Osten ndca una percentuale del 3% o del 5%. Invece che a PRESS c s può rferre (ed é meglo) a SDEP. La Fgura 4-87 (rferta ad un nseme d dat real, la determnazone della umdtà n farne d soa medante NIR, usat anche nelle fgure successve) mostra come l crtero del hreshold d Osten ndch 6 component, mentre crter I e II ne ndcano 7. Occorre peraltro notare che la relazone d SDEP con la complesstà del modello dpende dalla procedura d convalda. La Fgura 4-88 mostra come con 5 grupp d cancellazone l mnmo d SDEP s abba con se varabl latent, mentre l prmo mnmo s ha, con tre grupp d cancellazone, addrttura con due component. 80

281 Fgura 4-87 Osten hreshold (con l uso d convalda leave-one-out)(dat NIR n 4.5.3) Fgura 4-88 Effetto della stratega d convalda VI) t-test sulla dfferenza tra due mede degl error d predzone (valore assoluto) S calcolano le mede de valor assolut degl error d predzone m a I y I ŷ a m A I y ŷ I A Generalmente le devazon standard delle due mede non sono sgnfcatvamente dfferent ed è possble applcare l test d Student utlzzando la varanza raggruppata e la t Se l test passa s accetta l numerro d component a come sgnfcatvo. VII) Matchng pars t-statstcs (resduals) m a s m I A 8

282 Il test de dat accoppat su resdu tene conto della correlazone tra gl error d predzone con modell d complesstà dfferente. Questa correlazone è molto elevata. La Fgura 4-89 mostra grafcamente questa correlazone per alcun campon, per modell con 6 e 7 (A component, mnma SDEP) varabl latent. Fgura 4-89 Correlazone tra gl error con dverso numero d varabl latent La matrce de coeffcent d correlazone (abella 4-8) mostra charamente che la correlazone dmnusce aumentando la dfferenza tra l numero d varabl latent, uttava la correlazone é ancora elevata quando s confronta la prma varable latente con la settma, corrspondente alla mnma SDEP. abella 4-8 Coeffcente d correlazone tra resdu calcolat con modell con numero d varabl latent dfferente Comp. Comp. Comp.3 Comp.4 Comp.5 Comp.6 Comp.7 Comp Comp Comp Comp Comp Comp Comp Per a<a, s calcolano le dfferenze: d e a e A y ŷ a y ŷ A 8

283 Sa sd la devazone standard della varable dfferenza.vaton of the dfference. La statstca t é: t s d d / I L potes nulla é che d non sa sgnfcatvamente dversa da 0; la alternatva è che d sa sgnfcatvamente <0 (test unlaterale snstro). VIII) Matchng pars t-statstcs (square resduals) (H. van der Voet, Chemolab, 5, (994)) Per a<a, s calcolano le dfferenze: d e a e la cu meda é: d I m [(y ŷ a ) (y ŷ m I ) ] Mˆ SEP a Mˆ SEP Sa sd la devazone standard della varable dfferenza. La statstca t é: t s d d / I L potes nulla é che d non sa sgnfcatvamente dversa da 0; la alternatva è che d sa sgnfcatvamente <0 (test unlaterale snstro). m IX) van der Voet randomzaton test (H. van der Voet, Chemolab, 5, (994)) Il test d randomzzazone d van der Voet é basato sulla potes nulla d eguale dstrbuzone de quadrat de resdu. S ramment che Mˆ SEP PRESS / I. L algortmo per l test unlaterale snstro con potes alternatva Mˆ SEP Mˆ SEP é: a A Calcolare le dfferenze d e a e A Calcolare d 3 Per M volte ( ): 3a Assegnare casualmente l segno a ogn d 83

284 3b Calcolare d m 4 Ordnare (dal mnore al maggore) gl M valor d d m. Inserre nella lsta d, che avrà poszone K. 5 Calcolare: p K M 6 Accettare l potes alternatve se p > 0% Calcolo della rsposta Per calcolare la varable rsposta y dal vettore de predttor (generalmente centrat o autoscalat), a) s pone a = b) s calcola lo score sulla varable latente a: t,a,v w V,a(NOR) c) s calcolano resdu:,v,v t,apa,v Con l vettore de resdu, avendo aggornato a a+ s torna al punto b) sno a quando sono state utlzzate tutte le A varabl latent d) S calcolano resdu della rsposta per gl oggett del tranng set: y I, y n modo che ogn valore della rsposta é decomposto come: I, t c I, y A a t,a c a e e n forma matrcale y I, t I,AcA, ei, I valor della rsposta per un oggetto s ottengono conseguentemente come: A ŷ t a c a a t,a c A, 84

285 Forma chusa d PLS Dalla equazone precedente s può rsalre alla forma chusa del modello PLS che offre l vantaggo della espressone n funzone delle varabl orgnal: ŷ orgnal,m b M, Per calcolare l vettore b de coeffcent d regressone esstono pù procedment. Il pù semplce è l seguente, d odeschn e Marengo S utlzza una matrce d pseudo-oggett: X or M,V e per ess s calcola la rsposta: A ŷ t a c a a t,a c A, Data la natura degl pseudo oggett l valore della rsposta per l prmo oggetto fornsce l ntercetta, quello per l secondo oggetto la somma del coeffcente d regressone della prma varable e della ntercetta, e così va: yˆ M, b b b b 3 4 b M b b b b M M M M Ovvamente é suffcente sottrerre l ntercetta per avere coeffcent d regressone Importanza de predttor PLS Defnamo mportanza d un predttore la: z v V b v v b v s v s v La moltplcazone del coeffcente d regressone per la devazone standard del predttore è gustfcata dal fatto che l coeffcente d regressone può avere valore assoluto elevato, ma se esso 85

286 è pratcamente eguale per tutt gl oggett l suo contrbuto è assmlable ad una costante. Il predttore può essere elmnato, con conseguente modfca della ntercetta bm, e spesso questa elmnazone aumenta la abltà predttva del modello. Ovvamente se predttor sono stat auto scalat la loro devazone standard è e la equazone dell mportanza s semplfca Influenza-Outlers PLS dspone d una sere d grafc che permettono d evdenzare, n partcolare, oggett anomal, gl y-outlers (anomal per la rsposta) o gl X-outlers. I valor del leverage, della varanza resdua della rsposta, della varanza resdua de predttor, possono ndcare oggett decsamente anomal o troppo nfluent sul modello. Le Fgure 4-90 e 4-9 mostrano un esempo d quest grafc. Fgura 4-90 Grafco della varanza resdua della rsposta, con un oggetto (l 40) anomalo 86

287 Fgura 4-9 Grafco detto nfluence plot 87

288 PLS PLS può essere utlzzata con qualche varante per trovare l equazone d regressone che collega un blocco d K varabl rsposta YI,K a un blocco d varabl predttrc XI,V. L algortmo relatvo é conoscuto come PLS-. L potes é che la prma componente (n realtà la prma varable latente) del blocco delle rsposte sa proporzonale alla prma componente del blocco de predttor, la seconda alla seconda, e va così. L algortmo è l seguente. ) Iterare per a (ndce d varable latente) da ad A (Loop esterno) La massma complesstà é ottenuta dalla convalda Resposte e predttor vengono generalmente centrat o autoscalat entatvo d partenza (Startng guess) (solo per la prma componente del blocco Y) S scegle come startng guess la rsposta q (o resdu) con la maggore varanza 0 ) u I, yi, q 3) Iterare sno a w costante (loop nterno con ndce d terazone j j j XVIuI,a 3a) w V,a, j j X sono resdu se a> u u a,i I,a 3b) 3c) j j w V,a w V,a(NOR ) X-block weghts w j I,a IV j V,a(NOR ) t X w X block scores, j j t a,i YIK 3d) c, a,k Y sono resdu se a>, j j t t a,i I,a 3e) 3f) j j ck,a ck,a(nor ) Y block loadngs c u Y c Y block scores j I,a j IK K,a Fne del loop nterno. S torna a 3a) con l valore aggornato d u. 4) t pa,v t a,i a,i X t IV I,a p p ( NOR ) Gl element d p sono gl X block loadngs p 5) ti,a(new) ti, a p serve per non cambare l prodotto t p (ved 9)) 6) wv,a(new) wv, a p serve per non cambare l prodotto X w (ved 3c)) 88

289 7) d a,a t u elemento della dagonale della matrce D t a,i(new ) I,a a,i(new ) t I,a(NEW ) 8) uˆ I,a t I,ada, a stma della varable latente Y dalla regressone sulla latente X 9) 0) X Y IV X IV t I,a(NEW) p a,v IK YIK ti,a(new) da,aca,k o Y IK Y ˆ IK ui,aca,k Con resdu s calcola la componente successve, tornando al punto ) Fne del loop esterno PLS come tecnca d classfcazone (CPLS o DAPLS) PLS può essere utlzzata come metodo d classfcazone, utlzzando come rsposte varabl codfcate, tante quante sono le categore. In ogn varable codfcata l valore é per gl oggett della corrspondente categora, 0 per gl oggett delle altre categore. Con due categore è suffcente una varable codfcata, con l utlzzo dell algortmo PLS. La classfcazone é effettuata assegnando un oggetto alla categora corrspondente alla varable codfcata per la quale l oggetto ha valore pù vcno ad. Un esempo d rsultato è mostrato nella Fgura 4-9. Fgura 4-9 Rsultato d PLS applcata ad un set d dat (vn descrtt da 7 varabl, 4.5.5) n tre categore 89

290 PLS robusta Sono state suggerte stratege per elmnare (o per rdurre l effetto) d oggett anomal. L errore d predzone può essere utlzzato (ma solo n calbrazone, sul tranng set) per dentfcare gl outlers Y, caratterzzat da un valore anomalo della rsposta. La dstanza dallo spazo nterno delle varabl latent sgnfcatve (la varanza resdua delle X) e l leverage possono essere utlzzat per dentfcare gl outlers X, anomal nel blocco de predttor, anche con gl oggett dell evaluaton set. Occorre prestare molta attenzone agl outlers Y: se vengono rlevat sgnfca che l modello, occasonalmente e mprevedblmente, fornsce rsultat errone, e cò è estremamente grave quando s tratta d una tecnca analtca. Invece un outler X ndca semplcemente che l modello non può essere applcato. Illustreremo l problema degl outlers Y con un fatto reale. Ann fa, un certo numero d laborator partecpò ad una ndagne collaboratva, per vedere se laborator fornvano sugl stess dat gl stess rsultat della elaborazone chemometrca. I dat X erano costtut da spettr NIR su crca secento campon. La varable rsposta era l umdtà, che ne campon era compresa tra l 6 e l 4%. I partecpant alla rcerca dvsero dat n due set, uno per lo svluppo del modello e uno, con l 5% degl oggett, come set per la valutazone fnale (test set). utt partecpant dentfcarono un outler Y nel set d calbrazone (e fu elmnato per calcolare l modello fnale), e tutt dentfcarono un outler Y nel test set. S not (Fgura 4-93) che ambedue gl outlers corrspondono a un errore d crca 4, l 50% dell ntervallo della percentuale d umdtà. La conclusone ovva è che la metodca che normalmente determna l umdtà con un errore mnore d 0.5 (accettable), d tanto n tanto mpazzsce. 90

291 Fgura 4-93 Rsultat (predzone della umdtà)con test set Gl stess dat furono elaborat da un altro laboratoro, che non utlzzò un test set, non necessaro, ma semplcemente la cross-valdaton. Il rsultato n Fgura 4-94 ndcò che due outlers erano consecutv, e corrspondevano a campon analzzat uno detro l altro nel laboratoro d anals: semplcemente uno scambo d etchette. Fgura 4-94 Rsultat (predzone della umdtà) ornando alla PLS robusta, metod sono basat essenzalmente sugl Y outlers, e qund sono da maneggare con cautela. 9

292 RPLS (Wakelng I.N., Macfe H.J.H., A robust PLS procedure, J. Chemometrcs, 6, (99)) é basata sulla terazone dell algortmo PLS con gl oggett pesat con un peso dpendente dalla grandezza del resduo. S calcola la medana r ~ de valor assolut de resdu r e l quadrato del peso s ottene con le: (r / k ~ r ) 0 per r ~ k r per r k ~ r dove k é un fattore d sensbltà che aumenta o dmnusce la sogla oltre la quale ad un oggetto é assegnato peso 0, ed é pertanto consderato un outler. IRPLS (Iteratvely Reweghted PLS) (Cummns D.J., Andrews C.W., Iteratvely reweghted partal least squares: a performance analyss by Montecarlo smulaton, J.Chemometrcs, 9, (995)) usano resdu n predzone nvece d quell n fttng, a molte funzon peso tra cu la 0 for r ~ k r for r k ~ r e, nvece della medana de valor assolut de resdu, la medana delle devazon assolute de resdu dalla loro medana. 9

293 Selezone delle varabl n PLS Sono state proposte numerose tecnche per la scelta delle varabl rlevant per PLS. Qu ne vengono presentate se: ISE (Iteratve Stepwse Elmnaton) IPW (Iteratve Predctors Weghtng) UVE (Unnformatve Varables Elmnaton) GOLPE Westad-Martens uncertanty test Algortm genetc ISE (Iteratve stepwse elmnaton) ISE é una tecnca d elmnazone basata sul modello, svluppato nzalmente con tutt predttor. I predttor nutle sono elmnat sulla base del valore del loro coeffcente d regressone b: y b 0b... bvv... bvv ISE (Bogga R., Forna M., Fossa P., Most L., QSAR (Quanttatve Structure-Actvty Relatonshps), 6, 0-3 (997)) calcola l mportanza de predttor: z v V b v v b v s v s v dove sv é la devazone standard del predttore v. In ogn cclo d elmnazone vene elmnato l predttore con la mnore mportanza (o un gruppo d predttor con mportanza nferore ad una determnate frazone dell mportanza massma). Il modello vene rcalcolato con predttor rmanent. Il modello prescelto è quello con la massma abltà predttva. Fgura 4-95 Un esempo d ISE 93

294 La Fgura 4-95 mostra un esempo d applcazone d ISE. Negl ultm qundc ccl s ha la elmnazone d predttor mportant. Il mnmo d SDEP è meno d un quarto del valore con tutt predttor, un mportante mgloramento del modello IPW (Iteratve predctors weghtng) PLS é basato sulle regresson parzal (margnal). Il vettore delle pendenze V y, I XIV, y, I yi, w vene normalzzato wv, wv,(nor ) e le pendenza assumomo l sgnfcato d cosen drettor. w Il peso w d un predttore è proporzonale alla sua covaranza con la rsposta ed è pertanto funzone del pretrattamento. La covaranza aumenta con l coeffcente d correlazone e con la devazone standard del predttore, ed é pertanto funzone del pretrattamento. Un predttore nutle ha sempre un coeffcente d correlazone con la rsposta dverso da zero, anche se molto pccolo e così ha nfluenza sulla drezone della varable latente. Se s rduce la sua grandezza, moltplcandolo per la sua pccola mportanza, l suo contrbuto al modello dmnusce, e la sua mportanza dventa ancora pù pccola. Questo procedmento è rpetuto molte volte n IPW. Gradualmente predttor nutle sparscono, e s raggunge uno stato stazonaro o semstazonaro con un pccolo numero d predttor rlevant. La Fgura 4-96 mostra un esempo. Inzalmente alcun predttor hanno mportanza tra 0.00 e 0.0. Molt hanno mportanza mnore d Gà con l prmo cclo IPW molt predttor svanscono. Dopo vent ccl IPW sono rmast solo se predttor, anche n questo caso con un mgloramento delle prestazon d predzone. Fgura 4-96 Un esempo d IPW 94

295 UVE (Unnformatve Varables Elmnaton) UVE-PLS (V. Centner, D.L. Massart, O.E. de Noord, S. de Jong, B.M. Vandegnste, C. Sterna, Anal.Chem., 68, 385 (996)) aggunge a predttor orgnal un certo numero d predttor casual, con un valore molto pccolo (range d crca 0-0 ), tal che la loro nfluenza su coeffcent d regressone de predttor orgnal é trascurable. S ottene la devazone standard de coeffcent d regressone, degl stess n leave-one-out. La relevance de predttor, cv, s ottene dalla: s b v, dalla varazone c v b s v b v Il massmo del valore assoluto de coeffcent c v per predttor artfcal addzonal vene utlzzato come valore d sogla per la elmnazone de predttor orgnal non-nformatv. In UVE- l valore d cut-off é l valore % della dstrbuzone de valor assolut d c v, e pertanto l numero d predttor orgnal elmnato dmnusce. Robust UVE é basato su d una stma robusta della relevance: Robusta v c medana(b v) nt ervallo nt erquartl d b v L esempo nella Fgura 4-97 s rfersce ad UVE- con =95%. Utlzzando l valore massmo della relevance per le varabl addzonal sarebbero rmast solamente sette predttor orgnal. 95

296 Fgura 4-97 Un esempo d UVE GOLPE (Generatng Optmal Lnear PLS Estmatons) GOLPE (M.Baron, G.Costantno, G.Crucan, D.Rganell, R.Valg, S.Clement, Quant.Struct.-Act.Relat.,, 9-0 (993)) costrusce un grande numero d modell rdott elmnando alcune varabl. La abltà predttva d ogn modello è valutata per mezzo d cross-valdaton e GOLPE mette n relazone queste abltà predttve con la presenza o l assenza d ogn predttore. GOLPE aggunge alcune varabl casual ("dummy") varables. S costrusce una matrce d dsegno generando casualmente per ogn predttore la condzone usato-non usato con una probabltà preselezonata. L effetto d un predttore s ottene dalla E v SDEP v SDEP v dove Ev : é l effetto del predttore v. SDEPv+ : é la meda d SDEP per tutt modell che ncludono la varable. SDEPv- : é la meda d SDEP per tutt modell che non ncludono la varable. E é negatvo quando l predttore dmnusce la devazone standard del modello L effetto de predttor orgnal é confrontato con quello delle varabl dummy per mezzo d un test d Student. L ntervallo d fduca dell effetto delle varabl dummy (CID) é: 96

297 CID D d (E d E D D ) t crt con: Ed : Effetto della varable dummy d; E D : Effetto medo delle varabl dummy; D: Numero d varabl dummy; tcrt: valore crtco 95% della t d Student L effetto E d ogn predttore é confrontato con CID e da questo confronto predttor sono contrassegnat come: E > CID Il predttore aumenta molto SDEP, s elmna; E < CID e E 0: Il predttore aumenta SDEP, ma entro l ncertezza, la sua utltà é ncerta; E < CID e E < 0: Il predttore dmnusce SDEP, è conservato; E < -CID: Il predttore dmnusce molto SDEP, é un predttore eccellente. La Fgura 4-98 mostra l rsultato d GOLPE n un caso n cu predttor orgnal sono 9 (data set NIRS9, n 4.5.0). GOLPE ne trattene cnque, d cu tre eccellent. Fgura 4-98 Un esempo d GOLPE 97

298 Westad-Martens uncertanty test Questo test (Westad F, Martens H Journal of Near Infrared Spectroscopy 8,7-4(000)) é basato sulla devazone standard de coeffcent d regressone bv, calcolata da valor de coeffcent ne ccl leave-one-out cross-valdaton. I predttor per qual è accettata l potes v = 0 a lvello d sgnfcato 5 % sono elmnat (test d Student). La devazone standard de coeffcent d regressone ne ccl leave-one-out s ottene come: s bv N (b v() b N v ) dove N é l numero degl oggett, bv() é l valore d bv quando l oggetto é lascato fuor, e meda degl N bv(). b v é la uttava la devazone standard stmata n questo modo è una pesante sottostma, n quanto ccl jackknfe perturbano molto poco l set d dat. La stma unbased s ottene dalla: s bv, jack N (b v() N b v ) (N ) La Fgura 4-99 mostra un esempo della applcazone del test. Inseme a valor d b è rportato l loro ntervallo d fduca. Quando questo comprende l valore 0 l predttore vene elmnato. Sono trattenut otto predttor, e d quest solo due sono scuramente eccellent predttor. 98

299 Fgura 4-99 Un esempo con l Westad-Martens uncertanty test Algortm genetc (GA) Un algortmo genetco fa parte della famgla degl evolutonary algorthms ed é un metodo eurstco d rcerca che mma l processo d evoluzone naturale. Gl algortm genetc furono ntrodott da John Holland negl ann 70 alla Unversty of Mchgan. L evoluzone rguarda ndvdu descrtt dal loro genoma, costtuto da cromosom (o se s prefersce da un cromosoma costtuto da gen). Nel caso della selezone d varabl rlevant (gl algortm genetc s applcano a tutt problem d ottmzzazone) l genoma è costtuto da un certo numero d untà, cromosom. S parte da un nseme base d cromosom, tant quant sono predttor. I cromosom sono dvers, e ndcat dall ndce della varable corrspondente. Il genoma è costtuto da alcun cromosom dell nseme base, tant quante sono le varabl selezonate. Gl algortm genetc lavorano con una sere d pass: a) creazone d una popolazone d P ndvdu (0-000), cascuno de qual ha un corredo d cromosom, da sno ad un massmo M, corrspondente al numero massmo d varabl che s ntende selezonare. Il corredo cromosomco d ogn genoma è scelto casualmente. La Fgura 4-00 mostra un esempo molto rdotto, con una popolazone nzale d sol otto ndvdu De sedc cromosom possbl (numero delle varabl), per l prmo genoma sono stat estratt cromosom,5,8,9,,5. 99

300 Fgura 4-00 Algortm genetc Popolazone nzale b) Vene valutata la qualtà d ogn ndvduo, n questo caso p.e. la abltà d predzone, come % d varanza della rsposta spegata, con l modello costruto con le varabl selezonate corrspondent a cromosom del genoma (Fgura 4-0). Fgura 4-0 Algortm genetc Popolazone nzale e qualtà c) Gl ndvdu vengono ordnat secondo la loro qualtà, descrescente (Fgura 4-0). 300

301 Fgura 4-0 Algortm genetc Popolazone ordnata secondo la qualtà d) L evoluzone avvene medante la rproduzone, che ha le seguent caratterstche: - d) gl ndvdu d qualtà maggore hanno probabltà maggore d rprodurs; - d) la rproduzone comporta due gentor e due fgl e cromosom de fgl sono una rcombnazone de cromosom de gentor. In d) vene calcolata una probabltà d rproduzone per ogn ndvduo: p Q Q on Q qualtà dell ndvduo, ma anche dfferenza tra la qualtà ed l valore mnmo della qualtà. A ogn ndvduo s assoca un ntervallo con lmte superore: u p j j Indvduo Qualtà Dfferenza p u Q 4 30

302 S generano P/ coppe d numer a caso U(0,00) (estratt da una popolazone unforme con mnmo 0 e massmo 00). Ogn numero a caso ndca un ndvduo: l ndvduo selezonato è quello per l quale l numero a caso è compreso tra u- (dell ndvduo precedente) e u (dell ndvduo). Alcun ndvdu potrenno essere scelt pù d una volta, altr neanche una. Il totale de fgl sarà esattamente eguale a P, numerostà della popolazone d partenza. Sa una delle P/ coppe d numer a caso 4.5 and 73.: genom e 4 sono stat scelt per la rproduzone. In d) avvene la rproduzone tra le coppe selezonate, secondo uno de seguent meccansm: nel Sngle crossover s genera un numero Z a caso tra e V. Il fglo numero rceve prm Z cromosom dal gentore numero, gl altr dal gentore numero (Fgura 4-03); nell Unform crossover s genera un numero a caso tra 0 e per ogn varable. Se l numero è nferore a 0.5 l prmo fglo rceve l cromosoma del prmo gentore, l secondo fglo quello del secondo gentore (fgura 4-04). Fgura 4-03 Algortm genetc Sngle crossover Fgura 4-04 Algortm genetc Unform crossover e) Eltsmo. I fgl sosttuscono la generazone precedente, tranne che per un pccolo numero (-0) d gentor che sopravvvono graze al sacrfco d altrettant fgl, peggor. 30

303 f) Mutazon. Prma d tornare a b) per l cclo successvo s smulano mutazon, che ovvano a manchevolezze della popolazone nzale (p.e. l fatto che alcune varabl non sano ma state selezonate). Una probabltà d mutazone m% (generalmente molto pccola) produrrà n meda m P V mutazon, che consstono nella nversone d una selezone. Fgura 4-05 Algortm genetc Mutazon Se, avendo l estrazone d un numero a caso ndcato che per l ndvduo deve esserc mutazone, s selezona la varable con un altro numero a caso: se la varable era gà selezonata per l ndvduo vene cancellata, se non lo era vene selezonata (Fgura 4-05). Dopo le mutazon, come s è detto, s torna a b). I ccl contnuano sno a quando s è raggunta oer l mglor ndvduo una qualtà predetermnata, o quando la qualtà massma non camba per un certo numero d ccl, o dopo un numero prefssato d ccl. I GA hanno l vantaggo d fornre un certo numero d soluzon dfferent ( mglor ndvdu della popolazone fnale) e quello d essere molto flessbl, sa ne parametr che sono stat ndcat, sa nel meccansmo che può prevedere lo svluppo d molte popolazon, con la mgrazone d un certo numero d ndvdu da una popolazone all altra dopo un certo numero d ccl. Lo svantaggo è che s tratta d un metodo d ottmzzazone predttva, con notevole probabltà d sovrastma della abltà d predzone. Inoltre temp d calcolo, anche se calcol sono molto semplc, sono molto lungh Canoncal Correlaton Analyss L anals d correlazone canonca (CCA) é stata l prmo metodo (H. Hotellng "Relatons Between wo Sets of Varates", Bometrka, 8, (936.)) utlzzato per trovare le relazon tra due blocch d varabl, rsposte e predttor. Il lmtato utlzzo della CCA n chmca è probablmente dovuto: a) al fatto che raramente chmc sono nteressat a blocch d varabl rsposta. Anche quando ess hanno, con lo stesso blocco d predttor, pù rsposte, ogn rsposta può essere predetta ndpendentemente con OLS o PLS. Il trattamento delle rsposte come blocco è suggerto quando la 303

304 nterpretazone è pù mportante della predzone. P.e., nel caso de dat LINNERUD (A.C.Lnnerud: hree physologcal and three eercse varables measured on twenty mddle-aged men (SAS/SA). From M.enenhaus, La regresson PLS, pag. 5. Édtons echnp, Pars, 998), furono msurate tre varabl fsologche e tre valutazon d esercz fsc furono msurate su vent uomn d mezza età. Lo scopo della anals de dat era la rcerca tra due blocch, ntes uno come caratterstche del fsco, l altro come prestazon. b) l software chemometrco generalmente non contene un modulo per la CCA; c) v sono poch esemp d applcazon; d) non sono state svluppate stratege per la convalda e l perfezonamento del modello d regressone. CCA ruota le varabl orgnal ne due blocch X e Y per ottenere coppe d varabl (una per blocco), le varabl canonche, con la massma correlazone. Ne due blocch queste varabl sono ortogonal. Il numero delle varabl canonche é eguale a quello delle varabl del blocco Y che non può avere pù varabl del blocco X. le varabl vengono ordnate per blocch, d modo ché le prme VY sono nel blocco Y e le sccessve VX sono nel blocco X. Il numero totale d varabl é V = VY + VX. C é la matrce generale d correlazone, partzonata nelle quattro matrc A, B, D ed E, con le correlazon entroblocco (A ed E) e con le correlazon nterblocco (B e la sua trasposta D) (Fgura 4-06). Fgura 4-06 CCA, partzone della matrce de coeffcent d correlazone Sa a Y la matrce delle rsposte autoscalate con N oggett e N VY X a N V X la matrce de predttor autoscalat. Le varabl canonche, con varanza untara sono CYN VY e CX N VX, combnazon lnear delle varabl orgnal autoscalate. 304

305 Esse s ottengono moltplcando le matrc a Y e N VY X a N V (.W. Anderson, An Introducton to Multvarate Analyss, Wley, N.Y., 958, pag. 30): X per opportune matrc d trasformazone CY N VY Y a N V Y Y V Y V Y N VY a N V X CX X X (l numero delle canonche é lmtato a VY). V X V Y Ogn k-esma varable canonca Y é una combnazone lneare delle rsposte autoscalate: cy N k Y a N VY ty V Y k e per l oggetto -esmo: cy k V Y v y a v ty vk V Y v y v y s v v ty vk V Y v y v ty s vk v V Y v y v s ty v vk tyvk é l loadng della rsposta autoscalata v sulla varable canonca k, frequentemente detta coeffcente standardzzato; ty s vk v é l loadng della rsposta orgnale v sulla varable canonca k; V Y v y v s ty v vk é una costante, l ntercetta, che tene conto del centraggo dalle rsposte orgnal alle auto scalate. I coeffcent d correlazone tra una canonca Y e la corrspondente canonca X sono coeffcent d correlazone canonca. L esempo seguente s rfersce al set d dat LINNERUD: Fsologche Esercz Fsologche Esercz Peso Vta Pulsazon Flesson Addomnal Salto Peso Vta Pulsazon Flesson Addom nal Salto

306 Coeffcent d correlazone delle varabl orgnal (Y blu, X rosso): Dopo la rotazone: Varable canonca Coeffcente d correlazone ::Y:: = Var. * Var. * Var. 3 * Intercetta Coeffcent standardzzat ::X:: = Var. 4 * Var. 5 * Var. 6 * Intercetta Coeffcent standardzzat Solo l prmo coeffcente d correlazone canonca é sgnfcatvo Solo l peso e la crconferenza d vta sono correlate sgnfcatvamente con l rsultato degl esercz Varable canonca - Coeffcente d correlazone ::Y:: = Var. * Var. * Var. 3 * Intercetta Coeffcent standardzzat ::X:: = Var. 4 * Var. 5 * Var. 6 * Intercetta Varable canonca 3 Coeffcente d correlazone ::Y:: = Var. * Var. * Var. 3 * Intercetta Coeffcent standardzzat ::X:: = Var. 4 * Var. 5 * Var. 6 * Intercetta Coeffcent standardzzat

307 4.9 SEPWISE DECORRELAION La decorrelazone passo passo é stata ntrodotta n Chemometra (B.R Kowalsk and C.F. Bender, Journal of Pattern Recognton, 8 (976) ) con l nome d SELEC. S tratta d una ortogonalzzazone d Gram-Schmdt orentata, gudata ( supervsed ). Il procedmento è così chamato n onore del matematco danese Jørgen Pedersen Gram (850-96) e del matematco tedesco Erhard Schmdt ( ); esso però è stato ntrodotto precedentemente a loro stud e s trova n lavor d Laplace e Cauchy. S tratta della pù antca tecnca d ortogonalzzazone, precedente alla ortogonalzzazone delle component prncpal. La usuale ortogonalzzazone d Gram-Schmdt decorrela le varabl secondo l loro ordne, mentre l ordne d decorrelazone d SELEC é orentato a problem d regressone e a quell d classfcazone. L algortmo che vene presentato d seguto (M. Forna, S. Lanter, M. Casale, M.C. Cerrato Olveros, Stepwse orthogonalzaton of predctors n classfcaton and regresson technques: an old technque revsted, Chemometcs Intellgent Laboratory Systems, 87, 007, 5-6) è una varante d quello orgnale d Kowalsk e Bender. Sano X e Z due varabl correlate, con stma del coeffcente d correlazone rz. Le varabl sono standardzzate: X * = X / s Z * = Z / sz X * può essere consderate come la somma d due varabl ncorrelate: X * = X ** + rz Z * [4-44] Dalla [4-44], tenendo conto che r**z* é 0, faclmente s verfca che X* e Z* hanno coeffcente d correlazone rz. Infatt, poché X * e Z * hanno varanza, loro coeffcent d correlazone concdono con la covaranza: r *z* r z N (X * X * N * * )(Z Z ) N (X * * r z Z * X ** N r z * * * Z )(Z Z ) N (X * * X ** r z [Z * N Z * ])(Z * Z * ) N (X * * X ** )(Z * * Z ) r N z (Z * Z * )(Z * Z * ) 307

308 N (X * * X ** )(Z * Z * ) é 0 poché covaranza d due varabl non correlate per defnzone. N Consequentemente: N N ** ** * * (X X )(Z Z ) poché N N r z * * * * (Z Z )(Z Z ) * * * * (Z Z )(Z Z ) é la varanza,, d Z*. N Così, la varable decorrelata, ortogonale a Z *, può essere ottenuta dalla: X ** = X * - rz Z * N r z * * * * (Z Z )(Z Z ) N X ** é la varable decorrelata ottenuta elmnando da X* la frazone correlata con Z *. ornando alle varabl orgnal: X ** X s r z Z s z r z X DEC X ** s X r z s s z Z La decorrelazone dmnusce la varanza (d X DEC rspetto ad X) e la dmnuzone msura la frazone della varabltà d X spegata da Z. Infatt dalla [4-44]: s X * s ** r s da cu: X z Z * s X ** X s X * r X z s DEC s ** s Z * s r z ( r z In regressone la stepwse decorrelaton é basata sul coeffcente d correlazone de predttor con la varable rsposta, e l prmo predttore da decorrelare (l prmo Z) é l predttore con l massmo valore assoluto del coeffcente d correlazone con la rsposta. Z é copato come prma colonna della matrce P de predttor selezonat, ed è decorrelato da tutt gl altr predttor. Il secondo predttore selezonato Z é quello decorrelato con l massmo coeffcente d correlazone con la rsposta. È copato come seconda colonna d P, e decorrelato da tutt gl altr predttor non selezonat. ) s 308

309 La decorrelazone contnua sno a quando l coeffcente d correlazone é maggore d un valore crtco. Nel caso d problem d classfcazone la scelta de predttor è effettuata sulla base d un peso d classfcazone, quale l peso d Fsher. La varanza relatva del prmo predttore decorrelato (l prmo predttore selezonato Z mantene la varanza orgnale) é: s DEC DEC X RRV(X ) r s Il terzo predttore vene decorrelato due volte e e così va. RRV(X z DEC ) r z r DEC L esempo seguente s rfersce ad un problema d regressone, con dat artfcal. La Fgura 4-07 mostra la matrce de predttor. La Fgura 4-08 llustra come la matrce sa stata ottenuta addzonando al segnale del costtuente d nteresse quello d tre nterferent con concentrazone casuale. Le varabl selezonate corrspondono a predttor per qual la dfferenza tra l segnale dovuto al costtuente d nteresse e quello degl nterferent è maggore. Fgura 4-07 SELEC: un set d dat artfcal 309

310 Fgura 4-08 SELEC:Dat artfcal, segnal del costtuente d nteresse (A) e d nterferent. Dopo la prma selezone la varanza resdua d moltssm predttor, molto correlat a quello selezonato, dmnusce moltssmo. In effett abbamo scelto un solo predttore ma è come se avessmo scelto tutta la nformazone tra la curva nera e quella blu n Fgura Dopo la scelta del secondo predttore rmane al centro dello spettro un ntervallo con molta nformazone non utlzzata, ed è l ntervallo n cu segnale del costtuente d nteresse e segnale degl nterferent sono pratcamente sovrappost. Fgura 4-09 SELEC: Dat artfcal, selezon (la prma n blu), loro varanza orgnale e varanza resdua dopo le selezon 30

311 4.0 ACE: REGRESSIONE NON LINEARE Le alternatve per costrure modell d regressone non lnear sono numerose (ved per metod d regressone non lneare pù not). La pù ovva appare quella d utlzzare la regressone stepwse quadratca o cubca, che dffersce dalla stewse OLS n quanto la prma varable selezonata è quella che fornsce la maggore varanza spegata della rsposta con la regressone quadratca o cubca. Successvamente s opera su resdu. Un metodo alternatvo è quello d unre alle varabl predttrc loro quadrat ed prodott ncrocat (eventualmente logartm, radc, ). Ovvamente l numero de predttor aumenta, arrvando crca al quadrato del numero orgnale. Cò rende necessara una selezone delle varabl. Pù faclmente s opera sulle component prncpal, con quadrat e prodott ncrocat. Anche n questo caso è consglable una selezone o stepwse o con algortm genetc. Esstono verson non lnear d PLS, nelle qual la relazone tra gl scores e la rsposta è modellata con una quadratca o con una cubca o con uno splne cubco. Molto orgnale è l metodo che sarà descrtto sotto, ACE (L.Breman and J.H.Fredman, Unversty of Stanford, Ca., J Am Stat Assoc 80:580 69, 985) acronmo d Alternatng Condtonal Epectatons, può essere applcato solo quando l numero degl oggett è molto maggore d quello delle varabl (almeno 0 volte). Nella regressone lneare usuale la rsposta é la soma peseta delle varabl predttrc, pes essendo rappresentat da coeffcent d regressone V yb0 bv v e v Nel modello ACE model la varable rsposta é la soma d funzon allscate de predttor: V yb0 t v( v) e v Queste funzon tv(v) non sono funzon esplcte de predttor come le trasformate ordnare, quadrat, logartm,. Esse sono una funzone lneare spezzata de predttor ordnate. Le condtonal epectatons d ACE sono le mede d popolazone (la popolazone d y dato l valore d un predttore w ), gl altr v (v w) essendo costant (condzon). S consder ora l semplce caso d una rsposta funzone non lneare d un solo predttore. 3

312 Fgura 4-0 ACE Per cascun valore d d X (condzone), la rsposta Y/X= ha una meda d popolazone (la speranza matematca). L nseme delle speranze matematche descrve l modello vero (Fgura 4-0), mostrato come una spezzata che connette le mede: I valor spermental d Y/X= sono dstrbut ntorno alla meda, e s ammette che la loro dstrbuzone sa normale. Per ogn valore della condzone abbamo un valore spermentale, e la spezzata che connette punt spermental è una stma approssmata del modello. Fgura 4- La regressone lneare 3

313 Nella regressone lneare ordnara (Fgura 4-), la stma del modello lneare non s ottene congungendo punt spermental (cosa che fornrebbe un modello approssmato, ma come retta d regressone con mnm quadrat Fgura 4- La regressone locale d ACE Sotto l potes che n un cordo ntervallo del predttore l modello non-lneare sa pratcamente lneare, ACE effettua una regressone lneare su d un corto ntervallo del predttore (Fgura 4-), e sosttusce l valore della retta locale d regressone al valore centrale dell ntervallo. La fnestra s muove esattamente come nella tecnca d smoothng della fnestra moble (Fgura 4-3). Questo smoothng d ACE é caratterzzato da un parametro, SPAN, che é la frazone d punt utlzzat nella regressone locale. SPAN può avere un valore relatvamente pccolo come 0. o arrvare al valore massmo d. In questo caso sono utlzzat tutt punt e l rsultato é eguale a quello della regressone lneare. 33

314 Fgura 4-3 La successone dello smoothng locale moble Fgura 4-4 ACE: modello vero, modello grossolano e modello stmato Generalmente l modello allscato é pù vcno al modello vero del modello grossolano (Fgura 4-4). ACE effettua n realtà una sere d allscament, puttosto complessa. Per la predzone e la convalda, la trasformata ACE é predetta da valor pù vcn del predttore medante nterpolazone lneare (Fgura 4-5) 34

315 Fgura 4-5 La predzone n ACE 35

316 4.0. L algortmo d ACE ) Autoscalare la varable rsposta. Fssare SPAN. ) Calcolare trasformate nzal lnear medante regressone lneare: t t 0 b 0 b... 3) Rpetere sno a RSQ costante Nella prma terazone s usano le trasformate lnear (quella del prmo predttore é nutle poché la s ottene dalla 3a) j j j 3a) t yt t b) Allscamento j t t j(smoothed) j j(smoothed) j 3c) t yt t d) Allscamento j t t j(smoothed) j j(smoothed) j(smoothed) j 3 4 3e) t yt t t fnale) Calcolare: Fne dell terazone I RSQ V j(smoothed) y t,v v Resdual Sum of Squares estmate 4) Calcolare la prma stma della rsposta: y t 5) Modello fnale dall allscamento d y: V v estmate(smoothed) ŷ y j(smoothed) v 36

317 Y-X Y Y In questo esempo la Y é funzone d due sol predttor, X e X. Le fgure da 4-6 a 4-0 llustrano alcun rsultat. ACE fornsce anche l mportanza delle trasformate X: Indce Nome Range Varanza X X Convalda: Cross-val. percent varance eplaned 94.76% Eplaned varance 98.06% X X Fgura 4-6 Esempo ACE La relazone margnale tra la Y ed due predttor.5.5 Prma terazone pass 3a) 3b) X Fgura 4-7 Esempo ACE Prma terazone, pass 3a e 3b 37

318 X (Iter. and ) Y-Xsmooth..8 Prma terazone pass 3c) 3d) X Fgura 4-8 Esempo ACE Prma terazone, pass 3c e 3d.5 La trasformata del predttore X dopo le prme due terazon X Fgura 4-9 Esempo ACE Seconda terazone Fgura 4-0 Esempo ACE Punto 4 La Y msurata verso quella fornta dal modello V v t j(smoothed) v 38

319 4. MEODI DELL INELLIGENZA ARIFICIALE I metod dell ntellgenza artfcale (ANN: artfcal neural network) mmano l processo neurologco, l acquszone d nformazone (esperenza) da parte de neuron e la sua trasmssone da un neurone ad altr (Fgura 4-). Fgura 4- Due neuron collegat tramte la snaps V sono molt tp d ret neural artfcal. Qu tratteremo quelle che hanno trovato maggore utlzzo n Chemometra: Kohonen maps CPN (Counter Propagaton Networks) MLF (Mult-Layer Feed-Forward Neural Networks). Recentemente s é dffuso l utlzzo delle Support Vector Machnes (che vengono trattate n modo elementare n 4.4.3). 4.. Kohonen maps Le mappe d Kohonen (euvo Kohonen, (98). Self-organzed formaton of topologcally correct feature maps. Bologcal Cybernetcs, 43, 59-69) le prme SOMs, Self-Organzng Maps, sono networks che fornscono una mappa topologca che dallo spazo della nformazone d nput organzza gl oggett n clusters, come le percezon sensoral sono organzzate nel cervello n modo che relazon spazal tra gl stmul corrspondono a relazon spazal tra neuron. Le Kohonen SOMs consstono d arrangament bdmensonal (talora undmensonal) d untà. Frequentemente gl arrangament sono quadrat con N untà. 39

320 Fgura 4- Mappa quadrata d Kohonen Ogn untà della mappa (5 n Fgura 4-) ha un assocato weght vector (Fgura 4-3), con tante rghe quante quelle de vettor d nput. Quest sono gl oggett (ed allora l numero d rghe è eguale al numero delle varabl) o le varabl che s voglono rappresentare nella mappa. Nel caso d oggett, a cu c s rferrà, le varabl sono generalmente autoscalate. Fgura 4-3 Mappa d Kohonen con vettor peso L algortmo lavora con pù pass: ) Preparazone: I vettor peso sono nzalzzat con numer a caso, con ntervallo eguale a quello delle varabl (p.e. 0- nel caso d range scalng). ) ranng: Gl oggett del tranng set vengono presentat al network. La presentazone d tutt gl oggett del tranng set costtusce una EPOCA. La presentazone rpetuta molte volte. Sa l numero massmo d epoche prevsto. 30

321 La presentazone avvene con ordne casuale. S calcola la dstanza tra l vettore d nput e cascun vettore peso: V D ( w ) jk v v jkv dove D jk é l quadrato della dstanza eucldea del vettore d nput dal vettore peso wjk con coordnate j e k nella mappa. S defnsce una smltudne relatva: s jk ma D jk jk (D jk ) mn k (D mn jk jk ) (D jk ) con ntervallo da 0 a. Nella prma presentazone le dstanza e le smltudn sono puramente casual. L untà con la mnma dstanza dal vettore d ngresso é la wnnng unt. Il suo vettore peso e quello delle untà vcne è modfcato per mezzo della: w t jkv w t jkv t N(t,r)( v w t jkv ) w t jkv w t jkv é l peso aggornato é l peso orgnale t N(t, r) t é é la é la funzone d vcnanza l'ndce "learnng d rate" epoca t N(t,r) fa sì che l enttà della correzone dmnusca aumentando l tempo (t ndce d epoca) e la dstanza r del neurone dal neurone vnctore. r é l massmo tra valor assolut j e k delle dfferenze tra gl ndc d rga e d colonna del neurone da aggornare e l neurone vnctore (Fgura 4-4). Fgura 4-4 Dstanze r dalla wnnng unt 3

322 La ampezza della regone nteressata all aggornamento dmnusce con le epoche, e ovvamente dmnusce l numero d neuron aggornat (Fgura 4-5). N(t,r) é quando r = 0, coé la massma correzone é quella applcata al neurone vnctore. S ha: t r ma nt N 0. 5 N é l ampezza della mappa t N(t, r) (a ma a mn r ) N ma a mn r ma r ama e amn sono le massma e mnma veloctà d apprendmento (generalmente 0.5 e 0.05). Fgura 4-5 Prodotto d learnng rate e neghbourhood functon n funzone della dstanza dalla wnnng unt e del numero d epoche per N=7, = 00, ama = 0.5 and amn = I rsultat sono llustrat da una sere d mappe: a) Countng maps. Rportano l numero d oggett per qual l neurone è rsultato vnctore n un epoca fnale senza correzon (Fgura 4-6). Possono rportare, nvece d un codce d denstà, gl ndc degl oggett (nde maps). 3

323 Fgura 4-6 Countng Map b) Category countng maps (Fgura 4-7), rportano solo l numero degl oggett d una categora per qual l untà è rsultata vnctrce nell ultma epoca: Fgura 4-7 Category Countng Map c) Domnatng category map, rportano la categora domnante per ogn neurone Fgura 4-8 Domnatng Category Map d) Weghts maps. Rportano l valore del peso corrspondente ad una varable, peso che con le terazon tende al valore scalato della varable, e che può essere utlzzato per calcolare della curve d solvello (Fgura 4-9) 33

324 Fgura 4-9 Weghts map per una mappa Ovvamente neuron caratterzzat dalla presenza d una sola classe possono costture l modello della classe, ma s tratta d un modello estremamente rozzo e non corredato da statstche. 4.. Counterpropagaton Nets Le mappe d Kohonen sono essenzalmente tecnche d clusterng. Le Counterpropagaton (CP) nets sono nvece utl sa per la classfcazone che per la regressone. Possono essere adattate a tecnche d modellamento d classe. Le CP-ANN sono composted a una mappa d Kohonen e da un secondo strato d neuron, lo output layer o Grossberg layer, con una corrspondenza uno ad uno tra neuron ne due strat (Fgura 4-30). 34

325 Fgura CP-ANN Come nelle mappe d Kohonen ogn neurone dello strato d Kohonen ha assocato un «weght vector», con tante rghe quante sono le varabl predttrc. Ogn neurone dello strato d Grossberg ha assocato un ndce d categora o l valore della rsposta (raramente neuron nello strato d Grossberg hanno pù d una rga). Inzalmente anche questo peso ha un valore casuale, non ntero anche nel caso d classfcazone, sempre compreso nell ntervallo della rsposta, degl ndc d categora o de valor della varable rsposta. L aggornamento è esattamente quello vsto per le mappe d Kohonen, con l aggunta d una smle regola d aggornamento per W (generalmente ) pes dello strato d Grossberg: w t jkw w t jkw t N(t,r)(y w w t jkw ) dove y ndca l ndce d categora o la varable rsposta. Dopo le epoche l valore predetto della categora o della varable rsposta s trova nel neurone d Grossberg vnctore per l oggetto n esame. La Fgura -3 mostra come n un caso d non lneartà la CP ANN da rsultat mglor d PLS. uttava occorre notare che con PLS la dfferenza tra gl error d fttng e d predzone è molto pccola, mentre è elevata n CP, a causa del n generale pessmo comportamento delle ret neural n estrapolazone 35

326 Fgura 4-3 Rsultato d una CP-ANN (a destra) confrontato con l rsultato d PLS (a snstra) Le CP nets sono molto sml a KNN e PNN (property nearest neghbour). PNN stma l valore d una propretà (la rsposta) come meda pesata de valor della propretà de K oggett pù vcn. La Fgura 4-3 mette a confronto per un caso partcolare l rsultato d PNN con dvers valor d K e quello d CP: l rsultato della CP-ANN è leggermente mglore d quello ottenuto con PNN e K=4. In altr cas PNN s comporta meglo d CP, e con temp d calcolo enormemente mnor. Nella Fgura 4-33 sono rportat rsultat dell applcazone d CP ANN ad un problema d classfcazone. Nella Fgura sono mostrat gl ntervall del peso nello strato d Grossberg che corrspondono alla assegnazone (predzone, CV con cnque grupp d cancellazone) alle tre categore. Se oggett su 78 sono predett erroneamente. Con KNN, K tra 6 e 0, l numero d predzon erronee vara da a 4. 36

327 Fgura 4-3 CP verso PNN Fgura 4-33 CP: applcazone ad un problema d classfcazone, tre vn descrtt da 7 varabl (4.5.5) 4..3 MLF (Mult-Layer Feed-Forward Neural Networks) Il perceptron Il perceptron, nventato nel 957 da Frank Rosenblatt é l prmo esempo d artfcal neural network (o semplcemente neural net o ANN) e fu ntrodotto n Chemometra come Lnear Learnng Machnes (LLM). Esso lavora solamente per problem d classfcazone. 37

328 I modell ANN usano ret n parallelo composte da molt element ( neuron) conness da legam con pes varabl. Gl elements (NODI) sono non lnear e tpcamente analogc. Il nodo pù semplce somma M segnal d ngresso pesat e passa l rsultato attraverso una funzone non lneare (Fgura 4-34). Fgura 4-34 Schema del perceptron e sua non-lneartà La funzone non lneare usata dal perceptron è lo hard lmter mostrato n Fgura y f HA RD ( ) f HARD M m w m m é un valore d sogla che vene sosttuto da un peso ulterore, aggungendo la costante al vettore, che così è costtuto da V element: y f HARD S not che la ( ) f HARD V v w v v M m w m m 0 è l equazone d un perpano nello spazo m-dmensonale. La funzone ha valore - da una parte del pano, + dall altra parte. Nel caso d m= l equazone defnsce una lnea, l delmter tra le due class. Il perceptron lavora secondo lo schema: Step : Inzalzza pes con pccol valor casual Step : Inza un epoca Step 3: Presenta come nput un oggetto Step 4: Calcola l output: 38

329 y f HARD ( ) f HARD Step 5: Aggorna pes w NEW v w v (d y ) V v v, w v v, dove d é l output corretto desderato (p.e. + per la classe e - per la classe ); è una funzone guadagno postva mnore d. I pes generalmente non subscono varazon se l output y è corretto (a volte s effettua una mglora utlzzando un negatvo molto pccolo). Step 6: S torna allo Step 3 per l prossmo oggetto (la presentazone è casuale) Step 7 S torna allo step per l epoca successva. Il numero d epoche necessaro per ottenere una percentuale d classfcazone costante può essere molto grande. Quando le due class non sono separabl lnearmente l algortmo non converge. L mportanza storca del perceptron consste nella ntroduzone della non lneartà nella funzone d output. La Fgura 4-35 llustra una fase del funzonamento del perceptron. 39

330 Fgura 4-35 Alcun pass del perceptron 330

331 4..3. wo-layer neural network Il two-layer net mostrato nella Fgura 4-36 nel caso d un vettore d ngresso d tre element ha esattamente la struttura del perceptron, e la termnologa non deve ngannare n quanto solamente l output layer esegue la somma pesata del segnale d ngresso (nput layer) e calcola una trasformata non lneare della somma. La costante è aggunta al vettore d ngresso, e corrsponde ad un parametro che sposta orzzontalmente la poszone della trasformata. Fgura 4-36 Il two-layer neural network e la funzone sgmode La prncpale dfferenza con l perceptron é che la trasformata non lneare é una funzone sgmode, la logstca, d equazone generale: F ep k dove k è un parametro d pendenza che usualmente è sosttuto da un approprato scalng delle varabl orgnal. La funzone é dfferenzable e s satura (a 0 e ) a valor estrem della X. Altre funzon possbl sono la tanh(k) (con lmt - e ) e arctan (k) (con lmt -/ e +/). Così l segnale n uscta dall unco nodo nell output layer é: y LOGISIC Il two-layer net lavora secondo lo schema: Step : Intalzza pes con pccolo valor casual F V v w v v 33

332 Step : Inza un epoca Step 3: Presenta come nput un oggetto Step 4: Calcolal nput alnodo f output: Step 5: Calcola l output: S V v w v v V LOGISIC LOGISIC y F (S) F wvv, con v Step 5: Aggorna pes w NEW v w v (d y ) df ds v, y V ep w v v v, dove d é l output corretto desderato ( + per la classe e 0 per la classe ); é una funzone guadagno postva mnore d ; df ep( S) è la dervata della funzone logstca (Fgura -37) ds ep( S) e l suo valore dpende dal valore d nput S. Fgura 4-37 Dervata della funzone logstca Il termne correttvo de pes é conseguentemente molto pccolo quando l valore d nput é molto grande o molto pccolo. L ntervallo operatvo d S é quello n cu l nodo lavora (camba pes) e va da -5 a 5 crca. Per questa ragone l vettore d ngresso deve essere scalato e l valore nzale de pes deve essere pccolo. 33

333 A causa d queste caratterstche le MLF ( Mult-Layer FeedForward) nets, d cu le two-layer net sono un prototpo, sono relatvamente nsensbl agl outlers. L errore d y ) s propaga all ndetro nel net per correggere l segnale d nput; per questa ragone ( l procedmento d correzone de pes é noto come back-propagaton, un elemento molto mportante nella teora delle ret neural. Il prodotto df D (d y) ds determna l enttà della correzone. Esso ha la forma mostrata n Fgura Fgura 4-38 Funzone d correzone D Essa è sempre postva per gl oggett della classe, negatva per quell della classe e ha un valore mportante solo nell ntervallo operatve del nodo. L esempo seguente s rfersce a dat della seguente tabella. Categora Categora

334 I dat sono stat scalat n modo da avere range tra -3 e +3. Le fgure da 4-39 a 4-44 mostrano l evoluzone d F, D e del delmter. é stato fssato a 0.8. I pes sono stat nzalzzat a: L terazone nza con l oggetto 5, con S negatvo molto pccolo e conseguentemente un D negatvo elevato. Nella decma terazone vene presentato l oggetto 8, s not come S é grande e D pccolo. Fgura 4-39 Prma presentazone, oggetto selezonato 5 Funzone logstca F(S), funzone d correzone D, ngrandmento, delmter nello spazo delle due varabl (spezzata: prma della correzone). Il sempano corrspondente alla classe blu è rferto al delmter dopo la correzone 334

335 Fgura 4-40 Presentazone 6, oggetto selezonato 6 Funzone logstca F(S), funzone d correzone D, delmter nello spazo delle due varabl (spezzata: prma della correzone). Il sempano corrspondente alla classe blu è rferto al delmter dopo la correzone 335

336 Fgura 4-4 Presentazone 0, oggetto selezonato 8 Fgura 4-4 Presentazone 80 (fne della quarta epoca), oggetto selezonato 9 Gradualmente, l delmter tende ad una poszone corretta che separa bene le due categore, l valore d S é molto grande o molto pccolo per oggett lontan dal delmter e solo gl oggett vcn al delmter possono eserctare una correzone, con scarsa probabltà d correzzon errate. L addestramento del network é seguto medante l evoluzone del cumulate square error : E (d 336 y)

337 I ccl possono contnuare sno a classfcazone perfetta, o sno ad un valore preselezonato dell errore cumulate o sno a stabltà, entro cert lmt, dell errore cumulate. L esempo seguente (un rsultato é mostrato nella Fgura 4-43) mostra come l net sa poco sensble agl outlers. Rspetto all esempo precedente la categora d due oggett è stata nvertta e l oggetto 3 è ora n categora e l oggetto 3 n categora. Con l procedere delle terazon l loro D dventa molto pccolo, ed ess non hanno o hanno poca nfluenza sul delmter. Fgura 4-43 Data set con outlers Presentazone

338 Lo hdden layer Le ANN snora descrtte non possono maneggare problem non lnear, per qual occorre l ntroduzone d un terzo strato d neuron, lo hdden layer, ntermedo tra strato d nput e strato d output. L esempo seguente è adattato da B.G.M.Vandegnste, D.L.Massart, L.M.C.Buydens, S.DeJong, P.J.Lew and J.Smeyers-Verbeke, Handbook of Chemometrcs and Qualmetrcs: Part B, Chapter 44, Elsever Scence B.V., Amsterdam, 998. Fgura 4-44 Due class non separabl con un solo delmter lneare abella 4-9 Esempo numerco per lo hdden layer e rsultat Classe hu sgn(+-0.5) hu sgn(+-.5) Output fnale sgn(hu-hu-0.5) B A A B La Fgura 4-44 é un esempo d problema d classfcazone che non può essere rsolto dal perceptron o dal two-layers net. È l problema noto come eclusve or (XOR). Il problema può essere rsolto da una rete neurale con uno strato addzonale d neuron, lo hdden layer. Questo (Fgura 4-45) è costtuto da due neuron (pù uno per la costante), cascuno de qual trasmette all output layer una funzone d trasfermento, dallc cu combnazone nell output layer è possble ottenere la classfcazone corretta. 338

339 Fgura 4-45 Rete neuronale con hdden layer per l problema XOR Nella tabella 4-9 sono raccolt rsultat della applcazone delle funzon d trasfermento. I due oggett della classe A danno lo stesso rsultato per HU e HU. Gl oggett della classe B danno ancora un rsultato dverso ma l output determna una terza lnea (Fgura 4-46) che fornsce l rsultato corretto. Fgura 4-46 Le funzon d trasfermento HU output dell hdden layer, e la funzone fnale 339

340 Mult-Layer Feed-Forward Neural Networks Le MLF (Mult-Layer Feed-Forward Neural Networks) s usano con uno o pù strat ntermed, gl hdden layers,. d cu un esempo è n Fgura Fgura 4-47 Esempo d MLF a tre strat L addestramento avvene medante presentazone d un oggetto d K varabl alla rete, dove s calcolano: Input to the hdden layer: K Sj k w jk k j... J (l ultma untà de prm due strat corrsponde alla costante, offset o bas, Output from the hdden layer: X K ) Vj j... J ep S con V J j Input to the output layer: S J j w j V j... I Output from the output layer: O ep S... I L output fnale può essere ottenuto come funzone del vettore d nput e delle due sere d pes 340

341 34 J j j j V w ep O J j K k k jk j w ep w ep O La msura usuale dell errore: ) O (d ) ( E w é una funzone contnua dfferenzable d ogn peso, scché é possble usare un algortmo del gradente (steepest descent) per approssmare pes approprat. Per pes w j la regola del gradente fornsce (con fattore guadagno): j j j w O O d w E(w) w ma J j j j V w ep O e così: j J j j j J j j j j V V w ep V w ep w O Conseguentemente: j J j j j J j j j j j V V w ep V w ep O d w O O d w Generalmente, tenendo conto che: S ep S ep F S ep F ' la correzone s ndca come j j V F O d w ' o anche j j V w con ' F O d Per pes w jk la regola del gradente fornsce:

342 w jk E(w) E(w) V w V w O V V j d O w F o jk j w jk V ' j d O F w V ' j jk j jk k j w jk ' d O F w j d O k ' F j j w w con F j j ' j j jk w j Queste sono le regole fondamental per la error back-propagaton. Poché l errore E(w) é una soma d quadrat, l net cerca una combnazone ottma d pes con l sgnfcato della condzone de mnm quadrat. A volte s usa un momentum term per smorzare possbl oscllazon. Dat due ndc p,q (o,j o j,k) le equazon precedent vengono sosttute con: w pq E(w) (Cycle) w w pq pq (Cycle -) A volte la funzone d trasfermento sgmode é rportata nella forma: F() ep( ) dove é la soma pesata degl nputs e é un parametro usato per modfcare la forma della sgmode. Quando non s usa la forma della sgmode é modfcata dallo scalng applcato a dat d ngresso. Nell esempo bdmensonale seguente l output desderato é: per O e 0 per O per oggett della classe, 0 per O e per O per oggett della classe. Il net ha 3 nod nell nput layer, otto nell hdden layer (7 + la costante) e due nell output layer. era 0.8. Le varabl erano scalate con range da -3 a +3. Il rsultato fnale (Fgura 4-48) separa perfettamente le due categore. 34

343 Fgura 4-48 ranng d una MLF per un problema d class non separabl lnearmente 343

344 Il numero d ccl dpende dalla struttura dell hdden layer, dal guadagno, e dalle assegnazon casual de pes nzal e dell ordne d presentazone. Nell esempo l addestramento è fnto quando E CUMULAO d O oggett era costante per 0 epoche. L esempo seguente (Fgura 4-49) s rfersce ad un net con un solo nodo d output per la regressone non lneare. Fgura 4-49 Rsposta n funzone delle varabl e oggett (50) per un esempo d applcazone delle MLF alla regressone La rsposta vene scalata tra 0 e. L output desderato é eguale alla varable rsposta. Fgura 4-50 Rsultato d MLF per l esempo d Fgura 4-49 (punt blu: rsposta calcolata; punt ross: rsposta predetta) 344

345 Il rsultato è mostrato nella Fgura 4-50, ottenuto dopo cento epoche, e corrsponde a SDEP con sette grupp d cross-valdaton. La Fgura 4-5 mostra l rsultato ottenuto con OLS, con SDEP.509, crca l doppo. In questo caso (Fgura 4-5) la regressone stepwse quadratca fornsce un rsultato eccellente, con SDEP Fgura 4-5 Rsultato d OLS per l esempo d Fgura 4-4 Fgura 4-5 Rsultato della regressone quadratca stepwse per l esempo d Fgura 4-49 Lo svluppo d un net per un partcolare problema rchede un lungo lavoro d ottmzzazone (guadagno, numero d nod, pre-trattamento,.). Aumentando l numero delle epoche l fttng mglora, ma cò non sempre corrsponde ad un mgloramento della abltà d predzone. In molt cas le tecnche classche d regressone possono dare rsultat mglor ed n temp molto brev. uttava quando non è necessara una nterpretazone del modello, quando sono dsponbl 345

346 moltssm campon utl non solo per avere un modello robusto ma anche per una convalda esaurente, quando la relazone non lneare è molto complessa, le MLF possono dare ottm rsultat. 346

347 4. WAVELES Wavelets é l nome d una tecnca svluppata per studare, come la trasformata d Fourer, le component d frequenza d un segnale, con l prncpale obbettvo della compressone. La trasformata d Fourer é globale nel domno de temp, e cò sgnfca che quando le frequenze sono dverse nel tempo la trasformata d Fourer non é n grado d ndvduare la locazone delle dfferent frequenze nel tempo. Il segnale n Fgura 4-53 è costtuto da due frequenze (Fgura 4-54) lungo tutto l tempo d osservazone. Il segnale n Fgura 4-55 è stato ottenuto con due funzon snusodal, una a snstra con perodo /50esmo del tempo d osservazone totale, l altro a destra con perodo /0esmo. Lo spettro d frequenza n Fgura 4-56 ndca charamente che v sono due frequenze mportant, ma non è n grado d localzzarle. Lo spettro d frequenza de due segnal è molto smle, ma due segnal sono molto dvers. Una soluzone può essere quella d usare la Wndowed Fourer ransform, n cu la trasformata d Fourer è applcata a fnestre del segnale (Fgura 4-56). Fgura 4-53 Un segnale Fgura 4-54 Spettro d frequenza del segnale n Fgura

348 Fgura 4-55 Un secondo segnale Fgura 4-56 Spettro d frequenza del segnale n Fgura 4-55 e spettro Wndowed Al contraro della trasformata totale d Fourer, la decomposzone delle Wavelets fornsce la nformazone locale delle frequenze nel domno de temp. 4.. Haar wavelets - DW Le Wavelets sono basate sull uso rpetuto d fltr passa-basso e passa-basso. V sono molt tp d fltr, le famgle delle wavelets. Il fltro pù semplce é l fltro d Haar, qu llustrato nseme alla DW, Dscrete Wavelet transform, e alla pramde d Mallat (o DW tree) mostrata nella Fgura

349 Fgura 4-57 rasformata Wavelet dscreta e pramde d Mallat Al prmo lvello, l output del fltro passa basso, l fltro che effettua lo smoothng, é costtuto dale Approssmazon o Scalng, la meda d due valor consecutv del segnale s, s e s+, con dspar: a [4-45],() / s s Sa N l numero d valor del segnale. I valor ottenut dal fltro passa-basso sono N/. Per questa ragone N deve essere par, anz deve essere una Potenza ntera d. L output del fltro passa-alto, l fltro d ncremento (enhancement flter) prende l nome d Dettagl o Wavelets ed è costtuto dalle dfferenze tra gl due valor consecutvo del segnale: d [4-46],()/ s s Fgura 4-58 Approssmazon e dettagl con l fltro d Haar Dalle approssmazon e da dettagl l segnale può essere ottenuto con la trasformazone nversa: s a,( ) / d,( ) / s a,( )/ d,( ) / Nell esempo d Fgura 4-58, con 6 dat, l prmo lvello calcola 8 approssmazon e 8 dettagl. 349

350 Al secondo passo, l secondo lvello, fltr sono applcat alle otto approssmazon calcolate al prmo lvello: a d,( j)/ a,j a,j,( j)/ a,j a,j dove j é l ndce della approssmazone al prmo lvello, j = (+) /. Così al secondo lvello s calcolano quattro approssmazon e quattro dettagl. Date le formula per l prmo lvello s ha: a,( j) / s s s 4 s s 3 s e pertanto l secondo fltro opera su una fnestra d quattro element del segnale (N/4). s Al terzo lvello, dalle quattro approssmazon del secondo lvello s ottengono due approssmazon e due dettagl. La prma approssmazone è la meda de prm otto element, la seconda la meda de restant otto element. Fnalmente fltr sono applcat alle due approssmazon del terzo lvello, e la approssmazone al quarto lvello è la meda d tutt gl element del segnale. Poché ogn lvello dvde per due l numero delle approssmazon l numero degl element del segnale deve essere una potenza ntera d, K. Conseguentemente l numero massmo d lvell nella pramde d Mallat é K. s Le bas Una base é un nseme d N element (approssmazon e dettagl) da qual é possble rcostrure perfettamente l segnale orgnale. Nel caso della DW la base usuale é costtuta dalla meda (approssmazone fnale, detta anche scalng) e da tutt dettagl. Questa base vene chamata usualmente wavelet spectrum. Da a4, e d4, s possono calcolare a3, e a3,. Da queste due approssmazon e da dettagl d3, e d3, s calcolano le quattro approssmazon al secondo lvello, e così va. 350

351 Lo wavelet spectrum contene la meda de dat e log(n) bande d dettagl costtut da un numero d untà che è una potenza crescente d due ( 0,,...). Lo spettro wavelet non é l unca base possble. Le bas possbl per N = 6 sono llustrate nella Fgura Fgura 4-59 Le bas possbl per N = Lo spettro d potenza Lo spettro d potenza d cascun elemento del segnale s ottene da quadrat degl element utlzzat per rprodurre l segnale, uno per ogn lvello. Per esempo per rprodurre l segnale s sommano a4,, d,,d,,d3,, e d4,. I cnque quadrat costtuscono lo spettro d potenza del segnale. Il seguente semplce algortmo permette d ndvduare dettagl necessar per rcostrure un segnale. For each element of the sgnal of N elements Malevel = log (N) Dmenson d(malevel) d contans the column nde of the detal (the row nde s the level) Dmenson s(malevel) s contans the sgn of the detal d(0)= For K = o Malevel p = (d(k - ) + ) / d(k) = Int(p) f p = nt(p) then s(k) = else s = - end f Net K (level) Net I (element) Non tratteremo qu altr aspett dello spettro d potenza, utle per ndvduare come le component d frequenza cambano con l tempo (o n generale con l ascssa che descrve l segnale, n chmca 35

352 analtca frequentemente la lunghezza d onda). Così non tratteremo l utlzzo delle wavelets per lo smoothng, ma c lmteremo a quello che l utlzzo pù comune, la compressone. Utlzzeremo un pccolo set, l set d Kaplan, d 6 element. S = {3, 0, 0, 38, 37, 8, 38, 34, 8, 4, 8, 9, 3, 4, 8, 34} la cu pramde d Mallat é: Wavelet Packet ransform (WP) Dopo l prmo lvello (come nella DW) fltr s applcano anche a dettagl con la produzone d un albero esteso, l Wavelet Packet ransform, WP, mostrato nella Fgura Fgura 4-60 La Wavelet Packet ransform La WP fornsce nformazone anche sulla struttura d frequenza de dettagl, qund una nformazone pù completa. Inoltre WP ha una pù vasta possbltà d bas, quelle d DW e altre, come mostrato nella Fgura 4-6. Il numero d bas possbl è mportante n quanto una base può essere semplfcata con la elmnazone delle approssmazon e de dettagl molto pccol, n modo da descrvere l segnale con un numero rdotto d varabl, la compressone. 35

353 Fgura 4-6 Alcune bas d WP La Fgura 4-6 mostra l WP del data set Kaplan. Fgura 4-6 WP del set d dat Kaplan La fgura mostra l albero con nod e le bande. Ogn nodo genera un blocco (banda) d approssmazon e un blocco d dettagl, fgl. Le fogle (leaves) sono nod n basso, senza fgl Ortogonalzzazone I coeffcent del fltro d Haar passa basso sono (Equazone 4-45): h = 0.5 h = 0.5 e quell del fltro passa alto sono (Equazone 4-46): g =

354 g = I coeffcent de fltr possono essere normalzzat, n modo che la soma de quadrat dvent. I coeffcent normalzzat sono: h = / h = / g = / g = - / e: h j g j h g j j j j j 0 Così coeffcent normalzzat sono ortogonal e hanno l sgnfcato d loadngs, come per le component prncpal, e le approssmazon e dettagl possono essere consderat sml agl scores. Il prmo lvello corrsponde alle prme due component, l secondo alla terza ed alla quarta componente, e così va. La normalzzazone de coeffcent camba l albero wavelets. L albero ottenuto con coeffcent non normalzzat: è sosttuto da: Per un termne t (approssmazone o dettaglo) al lvello j s ha: t normalzed j j/ t nonnormalzed j p.e =.44 Le conseguenze della normalzzazone sono: 354

355 a) La potenza d lvello (soma de quadrat de coeffcent del lvello) é costante; b) La rproduzone del segnale rchede, per ogn elemento, la dvsone per j/ (con j ndce del lvello). Così l segnale è la somma d a4,/4, d,/ 0.5, d,/, d3,/.5, e d4,/. Lo stesso se l segnale é rprodotto da una base dfferente dal wavelet spectrum. Anche lo spettro d potenza deve essere calcolato con gl element dvs per j/ Daubeches Wavelets Le wavelets d Haar hanno ovve lmtazon. P.e., l segnale A n Fgura 4-63 ha una varazone netta tra gl element 8 e 9. Il segnale B ha una varazone netta tra gl element 9 e 0. Lo spettro wavelets d A è:.36 (scalng), -.037, , , -0.05, -0.05, , , , , , , , , , Solo l dettaglo fnale é grande, Gl altr sono così pccol che lo spettro d potenza n Fgura 4-56 a snstra non dà alcuna nformazone sulla struttura del segnale. Fgura 4-63 Due segnal, A e B Invece lo spettro wavelets d B é:.437 (scalng), -0.94, , , -0.05, -0.05, , , , , , , , , , V sono parecch valor elevat. Lo spettro d potenza n Fgura 4-64 a destra ndca charamente la dscontnutà del segnale, poché la dscontnutà é n corrspondenza con una delle coppe (9-0) scelte per calcolare l prmo lvello d approssmazon e dettagl. 355

356 Fgura 4-64 Spettr d potenza de segnal n Fgura 4-63 Oltre al fltro d Haar v sono molte famgle d wavelets, tra cu le Daubeches wavelets (Ingrd Daubeches, Comm. Pure App. Math. 4, (988)), probablmente le pù conoscute. Esse lavorano su d un numero par d punt (, 4, 6,..) e sono ndcate con D, D4, D6,. D concde con l fltro d Haar. Useremo quest fltr sempre n forma normalzzata. I coeffcent d scalng sono usualmente ndcate con h. Per D4 ess sono: h h h h I coeffcent per le approssmazon, usualmente ndcate con g, sono: g g g g 3 4 h h 4 h 3 h I coeffcent (scalng e wavelets) d D4 sono mostrat n Fgura

357 357 Fgura 4-65 Coeffcent d D4 Ogn volta che l doppo fltro (passa basso, h, e passa alto, g) vene applcator, a Quattro element consecutv del segnale, s, da s a s+3, con dspar, esso produce una approssmazone e un dettaglo. Con N (Potenza ntera d ) element del segnale, quando l fltro vene applcator a sn-, l secondo elemento é sn, e pertanto sono necessar altr due element, che sono s e s. Il segnale é consderato perodco (l lftng algorthm è appunto quello che, arrvat al fondo, se necessaro torna all nzo) e cò rende spesso utle effettuare prevamente un detrendng del segnale, analogamente a quanto s fa nella anals d Fourer d un segnale transente. L azone de fltr può essere rappresentata come una moltplcazone d matrc, mostrata sotto nel caso N = d d d d a a a a s s s s s s s s g g g g g g g g g g g g g g g g h h h h h h h h h h h h h h h h

358 s s s s s s s s d d d d a a a a g g 0 0 h h 0 0 g g 0 0 h h g g 0 0 h h 0 0 g g 0 0 h h g g 0 0 h h 0 0 g g 0 0 h h g 0 0 g h 0 0 h g 0 0 g h 0 0 h La matrce d trasformazone é ortogonale e l suo nverso usato nella rcostruzone del segnale é eguale alla sua trasposta. La Fgura 4-66 mostra coeffcent d scalng h per le wavelets da D a D0. I fltr wavelets g s ottengono dal fltr h nvertendo l ordne e moltplcando per termon par, come n h g h g h g h g Le Fgure da 4-67 a 4-69 mostrano coeffcent d alcun fltr d altre famgle d wavelets, le Symlets e le Coflets (Cofman Wavelets).

359 Fgura 4-66 Coeffcent h d scalng delle D-D Fgura 4-67 Coeffcent d scalng d D8 e Sym8 359

360 Fgura 4-68 Coeffcent d scalng d D0 e Sym Fgura 4-69 Coeffcent d scalng d Cof6, Cof e Cof8 360

361 4..7 La base ottma L obettvo prncpale delle wavelets é la compressone. La base ottma (la best base) è scelta tenendo conto d questo obettvo. V sono molt crter per sceglere la best base. Qu vengono descrtt due pù comun: a) Valore d sogla (cut-off value) b) Entropa. a) Cut-off value C s rfersce all albero non normalzzato: e nell esempo l valore cut-off scelto é.. ( color ndvduano le bande-nod). Nel cost tree (Fgura 4-70) s conta per ogn banda n ogn lvello l numero d valor assolut maggor del cut-off. Fgura 4-70 Cost tree La base pù economca é quella con l mnor numero d element maggor del valore d cut-off. Nell esempo la banda d dettagl d3, e d3, (galla) é meno economca della sua decomposzone al quarto lvello, a4, e d4, (verde). 36

362 L algortmo che trova la base pù economca nza dal penultmo lvello spostandos verso l prmo, e costrusce un albero de best base marks cu element sono nzalmente 0 (0 sgnfca che l nodo non fa parte della best base). Per ogn lvellof (dal penultmo al prmo) Per ogn nodo nel lvello Sa costnodo l costo d un nodo e costfgl la somma de cost de fgl del nodo. Se costnodo <= costfgl allora l nodo é contrassegnato con come parte della best base e contrassegn ne nod de dscendent sono rmoss (post a 0) Se costnodo > costfgl allora l costo del nodo è sosttuto da quello de fgl e contrassegn de dscendent del nodo sono conservat, e se fgl sono nel lvello fnale (leaves) ess vengono contrassegnat, parte della best base. Nodo seguente Lvello seguente Nell esempo l algortmo nza dal lvello 3, nodo A. Il costo del nodo non é maggore d quello de fgl. A é contrassegnato come parte della best base. Il costo d B () é maggore d quello de fgl (). Il costo d B è sosttuto da, e fgl sono contrassegnat con come part della best base. I nod C, D, E, F, G s cmportano come A. Il nodo H s comporta come B. Alla fne del prmo loop nterno (lvello 3) l cost tree é dventato (gallo per gl element modfcat): e contrassegn della best base sono: 36

363 Passando al secondo lvello, l costo d I é maggore d quello de fgl A e B. Il costo d I (4) è sosttuto con l costo de fgl (3) e contrassegn de dscendent sono conservat. Egualmente per L ed N. Il costo d M é eguale a quello de fgl. M é contrassegnato e contrassegn de dscendent sono rmoss. Alla fne del secondo loop nterno (lvello ) l cost tree é dventato (gallo per gl element modfcat): e contrassegn della best base sono: Nel prmo lvello, tanto l costo d O che quello d P sono maggor del costo de fgl. I cost d O e P sono sosttut da quell de fgl e contrassegn de dscendent sono conservat. Alla fne del terzo loop nterno (lvello ) l cost tree é dventato (gallo per gl element modfcat): e contrassegn della best base sono rmast nvarat. Conseguentemente la best base è quella contrassegnata n rosso nella tabella sottostante. I valor n azzurro, nferor al cutoff, sono elmnat

364

365 b) Entropa L entropa d Shannon calcola l costo d un nodo come Cost e ln e dove e é uno degl element nella banda e la somma é su tutt gl element nella banda. Il costo (graze al segno meno) é basso quando alcun element hanno valore elevato ed altr valore basso. Così l entropa d 7. e 7. é pù elevata (-40) d quella d 0 e (le due coppe hanno la stessa somma de quadrat) (-46). Una grande entropa sgnfca che alcun element sono pccol e che pertanto possono essere elmnate con un valore d cut-off pccolo. L entropa s calcola con coeffcent NORMALIZZAI. In questo caso la potenza, somma de quadrat d tutt gl element d WP per un dato lvello, è costante. Per mezzo del crtero entropa s calcola una unca best base. Successvamente s scegle l valore d cut-off per avere la desderata a. economa, l mnor numero d element; b. rproduzone, la varanza desderata del segnale rprodotto con gl element pccolo sosttut con 0. Con rfermento all albero normalzzato: s calcolano le entrope. La banda A d approssmazon a3, e a3, (verde) orgna a4, e d4, (azzurro). L entropa d a3, e a3, é: 365

366 E A ln ln L entropa de fgl é: E fgl ln ln L entropa de fgl é mnore n quanto lo stesso valore della soma de quadrat (098.6) é dvso tra due element molto dfferent (03.75 e 4.75). Così nel prmo passo dell algortmo d rcerca della best base la banda A è contrassegnata 0, fgl sono contrassegnat e la entropa d A é sosttuta da -004, entropa de fgl. Gradualmente, da valor nzal d entropa (arrotondat all ntero) la best base é ottenuta come: 4..8 Compressone d un set d segnal Le wavelets sono applcate normalmente per la compressone d un segnale. In chemometra sono state applcate a spettr, n cu una quanttà fsca, l assorbanza, vara non con l tempo ma con la 366

367 lunghezza d onda. Generalmente la matrce de dat è costtuta da un certo numero d oggett, cascuno descrtto da uno spettro. he applcaton of dfferent best base selecton s straghtforward for the ndvdual sgnals, but not for the sets of sgnals B.Walczak, D.L.Massart, Chemometrcs Intell.Lab.Systems, 38 (997) 39-50: La compressone esge che tutt gl oggett sano descrtt dalle stesse varabl, e pertanto è necessaro trovare una base comune per la compressone, la common best base. La scelta della base comune può essere effettuata con: ) lo spettro della varanza, un vettore ) l vettore delle mede 3) un partcolare oggetto 4) l vettore de pes d Fsher (per dat categorzzat) 5) l vettore de valor assolut de coeffcent d correlazone o delle covaranze con una varable rsposta 6) l albero wavelet delle varanze (B.Walczak, Edtor, Wavelets n Chemstry, Elsever, 000, Chapter 7, B. Walczak and D.L:Massart, Jont bass and Jont best-bass for Data Sets. 7) l albero wavelet de valor assolut delle covaranze 8) l albero wavelet de valor assolut de coeffcent d correlazone. Lo schema n Fgura 4-7 s applca a prm cnque cas 367

368 Fgura 4-7 Schema della rcerca della common base nel caso d operazone su d un vettore (p.e. l varance spectrum) Lo schema n Fgura 4-64 s applca alle opzon 6-8. Fgura 4-7 Schema della rcerca della common base operando su d un albero wavelet (p.e. l varance tree) Lo spettro della varanza nel caso d spettr NIR é abbastanza smle agl spettr ndvdual (Fgura - 73). Alt valor della varanza ndcano frequentemente elevata mportanza d un predttore n problem d classfcazone o d regressone. Il vettore vene compresso, come n Fgura 4-7 (pass -3). S calcolano gl alber wavelets d tutt gl oggett e ad ess s applca la stessa base comune del vettore delle varanze. Nel caso, per esempo, del varance tree, s calcolano gl alber wavelets d tutt gl oggett. L albero della varanza s ottene calcolando la varanza d ogn elemento ne var alber ndvdual. Su questo albero vene effettuata la rcerca della best base che vene po applcata a tutt gl oggett. 368

369 Fgura 4-73 Una sere d spettr (oggett) e l loro spettro d varanza 4..9 Paddng Nell utlzzo delle wavelets è necessaro che l segnale sa costtuto da una potenza ntera d. I segnal orgnal non soddsfano quas ma questo requsto, ed è qund necessaro: - o rdurre l numero delle varabl, sconsglable n quanto comporta una perdta anche mportante d nformazone - o aumentare l numero delle varabl, medante mbotttura (paddng). Il paddng vene frequentemente effettuato aggungendo al segnale orgnale n testa o n coda un numero opportuno d zer. Prevamente vene applcato l detrendng al segnale, n modo che l prmo e l ultmo valore prma del paddng sano 0. Questo procedmento è noto come zero paddng. Fgura Splne paddng

370 Il paddng medante splne cubco (ved ) può lavorare sul segnale orgnale o dopo detrendng. La nterpolazone con splne cubco (Fgura 4-74) permette d ottenere una curva contnua con dervata contnua. Su d questa curva s scelgono valor ad ntervall regolar della ascssa n modo da avere l numero d varabl desderato (una potenza ntera d ). Lo splne vene calcolato su sol quattro punt orgnal, e po s sposta come nello smoothng con fnestra moble, d un punto. Il tratto utlzzato per l paddng è quello centrale, tranne per l ntervallo con prm quattro e quello con gl ultm quattro punt, n cu s utlzza la funzone d splne attraverso prm due o gl ultm due punt Immagn Le Wavelets sono largamente applcate nella compressone delle mmagn (Fles jpeg). Fgura 4-75 Compressone d una mmagne L mmagne vene decomposta nelle sue costtuent RGB, e cascuna delle tre ha come ampezza per ogn punto (pel) la ntenstà del colore, da 0 a 55. Su ogn mmagne monocromatca la compressone avvene prma per rga d pel, po per colonna. Dopo compressone l mmagne vene rcostruta unendo le mmagn monocromatche compresse. L nteresse per la chmca analtca è nella crescente utlzzazone d mmagn, sa nel vsble sa n altr ntervall d lunghezza d onda, come n NIR. Qu ogn pel è caratterzzato da uno spettro, crca 000 assorbanze. Una mmagne, non grande, d 0000 pel, fornsce dec mlon d dat. La necesstà d compressone è evdente. Ovvamente c sono altr mezz. P.e. l mmagne può essere partzonata e per ogn quadretto s può msurare la quanttà d colore (Fgura 4.76). 370

371 Fgura 4-76 Componente rossa partzonata In questo caso, con 0 quadratn, le tre mmagne monocromatche fornscono (Fgura 4-77) solamente 330 varabl. Fgura 4-77 Informazone sotto forma d ntenstà d colorazone 37

Capitolo 3 Covarianza, correlazione, bestfit lineari e non lineari

Capitolo 3 Covarianza, correlazione, bestfit lineari e non lineari Captolo 3 Covaranza, correlazone, bestft lnear e non lnear ) Covaranza e correlazone Ad un problema s assoca spesso pù d una varable quanttatva (es.: d una persona possamo determnare peso e altezza, oppure

Dettagli

Laboratorio 2B A.A. 2012/2013. Elaborazione Dati. Lab 2B CdL Fisica

Laboratorio 2B A.A. 2012/2013. Elaborazione Dati. Lab 2B CdL Fisica Laboratoro B A.A. 01/013 Elaborazone Dat Lab B CdL Fsca Lab B CdL Fsca Elaborazone dat spermental Prncpo della massma verosmglanza Quando eseguamo una sere d msure relatve ad una data grandezza fsca, quanto

Dettagli

Capitolo 3. Cap. 3-1

Capitolo 3. Cap. 3-1 Statstca Captolo 3 Descrzone Numerca de Dat Cap. 3-1 Obettv del Captolo Dopo aver completato l captolo, sarete n grado d: Calcolare ed nterpretare la meda, la medana e la moda d un set tdd dat Trovare

Dettagli

SERIE STORICHE, TREND, MEDIE MOBILI, REGRESSIONE Andrea Prevete

SERIE STORICHE, TREND, MEDIE MOBILI, REGRESSIONE Andrea Prevete SERIE STORICHE, TREND, MEDIE MOBILI, REGRESSIONE Andrea Prevete Una sere storca o temporale è un nseme d dat costtut da una sequenza d osservazon su un fenomeno d nteresse X, effettuate n stant (per le

Dettagli

S O L U Z I O N I. 1. Effettua uno studio qualitativo della funzione. con particolare riferimento ai seguenti aspetti:

S O L U Z I O N I. 1. Effettua uno studio qualitativo della funzione. con particolare riferimento ai seguenti aspetti: S O L U Z I O N I 1 Effettua uno studo qualtatvo della funzone con partcolare rfermento a seguent aspett: f ( ) ln( ) a) trova l domno della funzone b) ndca qual sono gl ntervall n cu f() rsulta postva

Dettagli

Correlazione lineare

Correlazione lineare Correlazone lneare Varable dpendente Mortaltà per crros 50 45 40 35 30 5 0 15 10 5 0 0 5 10 15 0 5 30 Consumo d alcool Varable ndpendente Metodologa per l anals de dat spermental L anals d stud con varabl

Dettagli

Integrazione numerica dell equazione del moto per un sistema lineare viscoso a un grado di libertà. Prof. Adolfo Santini - Dinamica delle Strutture 1

Integrazione numerica dell equazione del moto per un sistema lineare viscoso a un grado di libertà. Prof. Adolfo Santini - Dinamica delle Strutture 1 Integrazone numerca dell equazone del moto per un sstema lneare vscoso a un grado d lbertà Prof. Adolfo Santn - Dnamca delle Strutture 1 Introduzone 1/2 L equazone del moto d un sstema vscoso a un grado

Dettagli

Elementi di statistica

Elementi di statistica Element d statstca Popolazone statstca e campone casuale S chama popolazone statstca l nseme d tutt gl element che s voglono studare (ndvdu, anmal, vegetal, cellule, caratterstche delle collettvtà..) e

Dettagli

LA CALIBRAZIONE NELL ANALISI STRUMENTALE

LA CALIBRAZIONE NELL ANALISI STRUMENTALE LA CALIBRAZIONE NELL ANALISI STRUMENTALE La maggor parte delle anals chmche sono ogg condotte medante metod strumental (spettrometra d assorbmento ed emssone a dverse λ, metod elettrochmc, spettrometra

Dettagli

STATISTICA DESCRITTIVA - SCHEDA N. 5 REGRESSIONE LINEARE

STATISTICA DESCRITTIVA - SCHEDA N. 5 REGRESSIONE LINEARE Matematca e statstca: da dat a modell alle scelte www.dma.unge/pls_statstca Responsabl scentfc M.P. Rogantn e E. Sasso (Dpartmento d Matematca Unverstà d Genova) STATISTICA DESCRITTIVA - SCHEDA N. REGRESSIONE

Dettagli

L'Analisi in Componenti Principali. Luigi D Ambra Dipartimento di Matematica e Statistica Università di Napoli Federico II

L'Analisi in Componenti Principali. Luigi D Ambra Dipartimento di Matematica e Statistica Università di Napoli Federico II L'Anals n Component Prncpal Lug D Ambra Dpartmento d Matematca e Statstca Unverstà d Napol Federco II ANALISI MULTIDIMENSIONALE DEI DATI (AMD) L Anals Multdmensonale de Dat (AMD) è una famgla d tecnche

Dettagli

Corso di. Dott.ssa Donatella Cocca

Corso di. Dott.ssa Donatella Cocca Corso d Statstca medca e applcata 3 a Lezone Dott.ssa Donatella Cocca Concett prncpale della lezone I concett prncpal che sono stat presentat sono: Mede forme o analtche (Meda artmetca semplce, Meda artmetca

Dettagli

Modelli descrittivi, statistica e simulazione

Modelli descrittivi, statistica e simulazione Modell descrttv, statstca e smulazone Master per Smart Logstcs specalst Roberto Cordone (roberto.cordone@unm.t) Statstca descrttva Cernusco S.N., govedì 28 gennao 2016 (9.00/13.00) 1 / 15 Indc d poszone

Dettagli

LE FREQUENZE CUMULATE

LE FREQUENZE CUMULATE LE FREQUENZE CUMULATE Dott.ssa P. Vcard Introducamo questo argomento con l seguente Esempo: consderamo la seguente dstrbuzone d un campone d 70 sttut d credto numero flal present nel terrtoro del comune

Dettagli

Variabili statistiche - Sommario

Variabili statistiche - Sommario Varabl statstche - Sommaro Defnzon prelmnar Statstca descrttva Msure della tendenza centrale e della dspersone d un campone Introduzone La varable statstca rappresenta rsultat d un anals effettuata su

Dettagli

PROBLEMA DI SCELTA FRA DUE REGIMI DI

PROBLEMA DI SCELTA FRA DUE REGIMI DI PROBLEMA DI SCELTA FRA DUE REGIMI DI CAPITALIZZAZIONE Prerequst: legge d captalzzazone semplce legge d captalzzazone composta logartm e loro propretà dervate d una funzone pendenza d una curva n un punto

Dettagli

Precisione e Cifre Significative

Precisione e Cifre Significative Precsone e Cfre Sgnfcatve Un numero (una msura) è una nformazone! E necessaro conoscere la precsone e l accuratezza dell nformazone. La precsone d una msura è contenuta nel numero d cfre sgnfcatve fornte

Dettagli

Corso di Tecniche elettromagnetiche per la localizzazione e il controllo ambientale. Test scritto del 08 / 09 / 2005

Corso di Tecniche elettromagnetiche per la localizzazione e il controllo ambientale. Test scritto del 08 / 09 / 2005 Corso d Tecnche elettromagnetche per la localzzazone e l controllo ambentale Test scrtto del 8 / 9 / 5 S rsponda alle seguent domande marcando con un segno le rsposte che s reputano corrette. S rsolva

Dettagli

{ 1, 2,..., n} Elementi di teoria dei giochi. Giovanni Di Bartolomeo Università degli Studi di Teramo

{ 1, 2,..., n} Elementi di teoria dei giochi. Giovanni Di Bartolomeo Università degli Studi di Teramo Element d teora de goch Govann D Bartolomeo Unverstà degl Stud d Teramo 1. Descrzone d un goco Un generco goco, Γ, che s svolge n un unco perodo, può essere descrtto da una Γ= NSP,,. Ess sono: trpla d

Dettagli

Lezioni di Statistica (25 marzo 2013) Docente: Massimo Cristallo

Lezioni di Statistica (25 marzo 2013) Docente: Massimo Cristallo UNIVERSITA DEGLI STUDI DI BASILICATA FACOLTA DI ECONOMIA Corso d laurea n Economa Azendale Lezon d Statstca (25 marzo 2013) Docente: Massmo Crstallo QUARTILI Dvdono la dstrbuzone n quattro part d uguale

Dettagli

La t di Student. Per piccoli campioni si definisce la variabile casuale. = s N. detta t di Student.

La t di Student. Per piccoli campioni si definisce la variabile casuale. = s N. detta t di Student. Pccol campon I parametr della dstrbuzone d una popolazone sono n generale ncognt devono essere stmat dal campone de dat spermental per pccol campon (N N < 30) z = (x µ)/ )/σ non ha pù una dstrbuzone gaussana

Dettagli

Ministero della Salute D.G. della programmazione sanitaria --- GLI ACC - L ANALISI DELLA VARIABILITÀ METODOLOGIA

Ministero della Salute D.G. della programmazione sanitaria --- GLI ACC - L ANALISI DELLA VARIABILITÀ METODOLOGIA Mnstero della Salute D.G. della programmazone santara --- GLI ACC - L ANALISI DELLA VARIABILITÀ METODOLOGIA La valutazone del coeffcente d varabltà dell mpatto economco consente d ndvduare gl ACC e DRG

Dettagli

x 0 x 50 x 20 x 100 CASO 1 CASO 2 CASO 3 CASO 4 X n X n X n X n

x 0 x 50 x 20 x 100 CASO 1 CASO 2 CASO 3 CASO 4 X n X n X n X n Corso d Statstca docente: Domenco Vstocco La msura della varabltà per varabl qualtatve ordnal Lo studo della varabltà per varabl qualtatve ordnal può essere condotto servendos degl ndc d omogenetà/eterogenetà

Dettagli

Si dice corpo rigido un oggetto ideale che mantiene la stessa forma e le stesse dimensioni qualunque sia la sollecitazione cui lo si sottopone.

Si dice corpo rigido un oggetto ideale che mantiene la stessa forma e le stesse dimensioni qualunque sia la sollecitazione cui lo si sottopone. Captolo 7 I corp estes 1. I movment d un corpo rgdo Che cosa s ntende per corpo esteso? Con l termne d corpo esteso c s rfersce ad oggett per qual non è lecto adoperare l approssmazone d partcella, coè

Dettagli

Campo di applicazione

Campo di applicazione Unverstà del Pemonte Orentale Corso d Laurea n Botecnologa Corso d Statstca Medca Correlazone Regressone Lneare Corso d laurea n botecnologa - Statstca Medca Correlazone e Regressone lneare semplce Campo

Dettagli

Relazioni tra variabili: Correlazione e regressione lineare

Relazioni tra variabili: Correlazione e regressione lineare Dott. Raffaele Casa - Dpartmento d Produzone Vegetale Modulo d Metodologa Spermentale Febbrao 003 Relazon tra varabl: Correlazone e regressone lneare Anals d relazon tra varabl 6 Produzone d granella (kg

Dettagli

La Regressione X Variabile indipendente o esplicativa. La regressione. La Regressione. Y Variabile dipendente

La Regressione X Variabile indipendente o esplicativa. La regressione. La Regressione. Y Variabile dipendente Unverstà d Macerata Dpartmento d Scenze Poltche, della Comuncazone e delle Relaz. Internazonal La Regressone Varable ndpendente o esplcatva Prezzo n () () 1 1 Varable dpendente 15 1 1 1 5 5 6 6 61 6 1

Dettagli

FACOLTÀ DI SOCIOLOGIA CdL in SCIENZE DELL ORGANIZZAZIONE ESAME di STATISTICA 17/09/2012

FACOLTÀ DI SOCIOLOGIA CdL in SCIENZE DELL ORGANIZZAZIONE ESAME di STATISTICA 17/09/2012 CdL n SCIENZE DELL ORGANIZZAZIONE ESAME d STATISTICA ESERCIZIO 1 (+.5+.5+3) La tabella seguente rporta la dstrbuzone d frequenza del peso X n gramm d una partta d mele provenent da un certo frutteto. X=peso

Dettagli

Ettore Limoli. Lezioni di Matematica Prof. Ettore Limoli. Sommario. Calcoli di regressione

Ettore Limoli. Lezioni di Matematica Prof. Ettore Limoli. Sommario. Calcoli di regressione Sto Personale d Ettore Lmol Lezon d Matematca Prof. Ettore Lmol Sommaro Calcol d regressone... 1 Retta d regressone con Ecel... Uso della funzone d calcolo della tendenza... 4 Uso della funzone d regressone

Dettagli

La ripartizione trasversale dei carichi

La ripartizione trasversale dei carichi La rpartzone trasversale de carch La dsposzone de carch da consderare ne calcol della struttura deve essere quella pù gravosa, ossa quella che determna massm valor delle sollectazon. Tale aspetto nveste

Dettagli

La soluzione delle equazioni differenziali con il metodo di Galerkin

La soluzione delle equazioni differenziali con il metodo di Galerkin Il metodo de resdu pesat per gl element fnt a soluzone delle equazon dfferenzal con l metodo d Galerkn Tra le procedure generalmente adottate per formulare e rsolvere le equazon dfferenzal con un metodo

Dettagli

Il diagramma cartesiano

Il diagramma cartesiano Il dagramma cartesano Il pano cartesano Il dagramma cartesano è costtuto da due ass: uno orzzontale, l asse delle ascsse o della varable X, e uno vertcale, l asse delle ordnate o della varable Y. I due

Dettagli

* PROBABILITÀ - SCHEDA N. 2 LE VARIABILI ALEATORIE *

* PROBABILITÀ - SCHEDA N. 2 LE VARIABILI ALEATORIE * * PROBABILITÀ - SCHEDA N. LE VARIABILI ALEATORIE *. Le varabl aleatore Nella scheda precedente abbamo defnto lo spazo camponaro come la totaltà degl est possbl d un espermento casuale; abbamo vsto che

Dettagli

Esercizi di econometria: serie 1

Esercizi di econometria: serie 1 Esercz d econometra: sere Eserczo E data la popolazone dell Abruzzo classcata n se categore d reddto ed n tre class d età come segue: Reddto: () L... 4.. () L. 4.. 8.. () L. 8.... (4) L..... () L.....

Dettagli

INTRODUZIONE ALL ESPERIENZA 4: STUDIO DELLA POLARIZZAZIONE MEDIANTE LAMINE DI RITARDO

INTRODUZIONE ALL ESPERIENZA 4: STUDIO DELLA POLARIZZAZIONE MEDIANTE LAMINE DI RITARDO INTODUZION ALL SPINZA 4: STUDIO DLLA POLAIZZAZION DIANT LAIN DI ITADO Un utle rappresentazone su come agscono le lamne su fasc coerent è ottenuta utlzzando vettor e le matrc d Jones. Vettore d Jones e

Dettagli

LA VARIABILITA. IV lezione di Statistica Medica

LA VARIABILITA. IV lezione di Statistica Medica LA VARIABILITA IV lezone d Statstca Medca Sntes della lezone Il concetto d varabltà Campo d varazone Dfferenza nterquartle La varanza La devazone standard Scostament med Il concetto d varabltà S defnsce

Dettagli

Università degli Studi di Urbino Facoltà di Economia

Università degli Studi di Urbino Facoltà di Economia Unverstà degl Stud d Urbno Facoltà d Economa Lezon d Statstca Descrttva svolte durante la prma parte del corso d corso d Statstca / Statstca I A.A. 004/05 a cura d: F. Bartolucc Lez. 8/0/04 Statstca descrttva

Dettagli

Relazione funzionale e statistica tra due variabili Modello di regressione lineare semplice Stima puntuale dei coefficienti di regressione

Relazione funzionale e statistica tra due variabili Modello di regressione lineare semplice Stima puntuale dei coefficienti di regressione 1 La Regressone Lneare (Semplce) Relazone funzonale e statstca tra due varabl Modello d regressone lneare semplce Stma puntuale de coeffcent d regressone Decomposzone della varanza Coeffcente d determnazone

Dettagli

Metodi variazionali. ed agiscono sulla FORMA DEBOLE DEL PROBLEMA

Metodi variazionali. ed agiscono sulla FORMA DEBOLE DEL PROBLEMA Metod varazonal OBIETTIVO: determnare funzon ncognte, chamate varabl dpendent, che soddsfano un certo nseme d equazon dfferenzal n un determnato domno e condzon al contorno STRUMETO: Metod varazonal: servono

Dettagli

Il modello markoviano per la rappresentazione del Sistema Bonus Malus. Prof. Cerchiara Rocco Roberto. Materiale e Riferimenti

Il modello markoviano per la rappresentazione del Sistema Bonus Malus. Prof. Cerchiara Rocco Roberto. Materiale e Riferimenti Il modello marovano per la rappresentazone del Sstema Bonus Malus rof. Cercara Rocco Roberto Materale e Rferment. Lucd dstrbut n aula. Lemare 995 (pag.6- e pag. 74-78 3. Galatoto G. 4 (tt del VI Congresso

Dettagli

Strada B. Classe Velocità valore frequenza Frequ. ass Frequ. % hi Freq. Cum

Strada B. Classe Velocità valore frequenza Frequ. ass Frequ. % hi Freq. Cum Eserczo SINTESI S supponga d avere eseguto 70 msure della veloctà stantanea de vecol che transtano nelle sezon d due strade A e B. S supponga che tal msure sano state eseguta n corrspondenza d valor modest

Dettagli

Lezione n. 10. Legge di Raoult Legge di Henry Soluzioni ideali Deviazioni dall idealit. idealità Convenzioni per le soluzioni reali

Lezione n. 10. Legge di Raoult Legge di Henry Soluzioni ideali Deviazioni dall idealit. idealità Convenzioni per le soluzioni reali Chmca Fsca - Chmca e Tecnologa Farmaceutche Lezone n. 10 Legge d Raoult Legge d Henry Soluzon deal Devazon dall dealt dealtà Convenzon per le soluzon real Relazon tra coeffcent d attvtà 02/03/2008 Antonno

Dettagli

PREVEDONO: Capitolo 17 del libro di testo. Copyright 2005 The McGraw-Hill Companies srl

PREVEDONO: Capitolo 17 del libro di testo. Copyright 2005 The McGraw-Hill Companies srl Le Inferenze sul modello d regressone PREVEDONO: Assunzone d normaltà degl error e nferenza su parametr Anals della Varanza Inferenza per la rsposta meda e la prevsone Anals de resdu Valor anomal Captolo

Dettagli

Equilibrio e stabilità di sistemi dinamici. Stabilità dell equilibrio di sistemi dinamici non lineari per linearizzazione

Equilibrio e stabilità di sistemi dinamici. Stabilità dell equilibrio di sistemi dinamici non lineari per linearizzazione Equlbro e stabltà d sstem dnamc Stabltà dell equlbro d sstem dnamc non lnear per lnearzzazone Stabltà dell equlbro d sstem dnamc non lnear per lnearzzazone Stabltà dell equlbro d sstem NL TC Crter d stabltà

Dettagli

CAPITOLO 3 CIRCUITI DI RESISTORI

CAPITOLO 3 CIRCUITI DI RESISTORI CAPITOLO 3 CIRCUITI DI RESISTORI Pagna 3. Introduzone 70 3. Connessone n sere e connessone n parallelo 70 3.. Bpol resstv n sere 7 3.. Bpol resstv n parallel 77 3.3 Crcut resstv lnear e sovrapposzone degl

Dettagli

Metodi e Modelli per l Ottimizzazione Combinatoria Progetto: Metodo di soluzione basato su generazione di colonne

Metodi e Modelli per l Ottimizzazione Combinatoria Progetto: Metodo di soluzione basato su generazione di colonne Metod e Modell per l Ottmzzazone Combnatora Progetto: Metodo d soluzone basato su generazone d colonne Lug De Govann Vene presentato un modello alternatvo per l problema della turnazone delle farmace che

Dettagli

6. Catene di Markov a tempo continuo (CMTC)

6. Catene di Markov a tempo continuo (CMTC) 6. Catene d Markov a tempo contnuo (CMTC) Defnzone Una CMTC è un processo stocastco defnto come segue: lo spazo d stato è dscreto: X{x,x 2, }. L nseme X può essere sa fnto sa nfnto numerable. L nseme de

Dettagli

RICHIAMI SULLA RAPPRESENTAZIONE IN COMPLEMENTO A 2

RICHIAMI SULLA RAPPRESENTAZIONE IN COMPLEMENTO A 2 RICHIAMI SULLA RAPPRESENTAZIONE IN COMPLEMENTO A La rappresentazone n Complemento a Due d un numero ntero relatvo (.-3,-,-1,0,+1,+,.) una volta stablta la precsone che s vuole ottenere (coè l numero d

Dettagli

Definizione di campione

Definizione di campione Defnzone d campone S consder una popolazone fnta U = {1, 2,..., N}. Defnamo campone ordnato d dmensone n qualsas sequenza d n etchette della popolazone anche rpetute. s = ( 1, 2,..., n ), dove j è l etchetta

Dettagli

Introduzione al Machine Learning

Introduzione al Machine Learning Introduzone al Machne Learnng Note dal corso d Machne Learnng Corso d Laurea Magstrale n Informatca aa 2010-2011 Prof Gorgo Gambos Unverstà degl Stud d Roma Tor Vergata 2 Queste note dervano da una selezone

Dettagli

RAPPRESENTAZIONE DI MISURE. carta millimetrata

RAPPRESENTAZIONE DI MISURE. carta millimetrata carta mllmetrata carta mllmetrata non è necessaro rportare sul foglo la tabella (ma auta; l mportante è che sta da qualche parte) carta mllmetrata 8 7 6 5 4 3 smbolo della grandezza con untà d msura!!!

Dettagli

STATISTICA DESCRITTIVA CON EXCEL

STATISTICA DESCRITTIVA CON EXCEL STATISTICA DESCRITTIVA CON EXCEL Corso d CPS - II parte: Statstca Laurea n Informatca Sstem e Ret 2004-2005 1 Obettv della lezone Introduzone all uso d EXCEL Statstca descrttva Utlzzo dello strumento:

Dettagli

CARATTERISTICHE DEI SEGNALI RANDOM

CARATTERISTICHE DEI SEGNALI RANDOM CARATTERISTICHE DEI SEGNALI RANDOM I segnal random o stocastc rvestono una notevole mportanza poché sono present, pù che segnal determnstc, nella maggor parte de process fsc real. Esempo d segnale random:

Dettagli

PROCEDURA INFORMATIZZATA PER LA COMPENSAZIONE DELLE RETI DI LIVELLAZIONE. (Metodo delle Osservazioni Indirette) - 1 -

PROCEDURA INFORMATIZZATA PER LA COMPENSAZIONE DELLE RETI DI LIVELLAZIONE. (Metodo delle Osservazioni Indirette) - 1 - PROCEDURA INFORMATIZZATA PER LA COMPENSAZIONE DELLE RETI DI LIVELLAZIONE (Metodo delle Osservazon Indrette) - - SPECIFICHE DI CALCOLO Procedura software per la compensazone d una rete d lvellazone collegata

Dettagli

Modello del Gruppo d Acquisto

Modello del Gruppo d Acquisto InVMall - Intellgent Vrtual Mall Modello del Gruppo d Acqusto Survey L attvtà svolta per la realzzazone dell attvtà B7 Defnzone del Gruppo d Acqusto e de Relatv Algortm d Inferenza, prevsta dal captolato

Dettagli

METODO DEGLI ELEMENTI FINITI

METODO DEGLI ELEMENTI FINITI METODO DEGLI ELEMENTI FINITI Introduzone al metodo degl element fnt Il concetto base nella nterpretazone fsca del metodo degl element fnt è la decomposzone d un sstema meccanco complesso n pù semplc component

Dettagli

Laboratorio 2B A.A. 2013/2014. Elaborazione Dati. Lab 2B CdL Fisica

Laboratorio 2B A.A. 2013/2014. Elaborazione Dati. Lab 2B CdL Fisica Laboratoro B A.A. 013/014 Elaborazone Dat Lab B CdL Fsca Elaborazone dat spermental Come rassumere un nseme d dat spermental? Una statstca è propro un numero calcolato a partre da dat stess. La Statstca

Dettagli

Esercizi sulle reti elettriche in corrente continua (parte 2)

Esercizi sulle reti elettriche in corrente continua (parte 2) Esercz sulle ret elettrche n corrente contnua (parte ) Eserczo 3: etermnare gl equvalent d Thevenn e d Norton del bpolo complementare al resstore R 5 nel crcuto n fgura e calcolare la corrente che crcola

Dettagli

Il logaritmo discreto in Z p Il gruppo moltiplicativo Z p delle classi resto modulo un primo p è un gruppo ciclico.

Il logaritmo discreto in Z p Il gruppo moltiplicativo Z p delle classi resto modulo un primo p è un gruppo ciclico. Il logartmo dscreto n Z p Il gruppo moltplcatvo Z p delle class resto modulo un prmo p è un gruppo cclco. Defnzone (Logartmo dscreto). Sa p un numero prmo e sa ā una radce prmtva n Z p. Sa ȳ Z p. Il logartmo

Dettagli

UNIVERSITA DEGLI STUDI DI CASSINO FACOLTA DI INGEGNERIA

UNIVERSITA DEGLI STUDI DI CASSINO FACOLTA DI INGEGNERIA UNIVERSITA DEGI STUDI DI CASSINO FACOTA DI INGEGNERIA ANTONIO RUSSO, ANGEO EOPARDI ANAISI DE ERRORE CONNESSO A APPROSSIMAZIONE DEE UNGHEZZE E DEE CEERITA NE METODO DI INTEGRAZIONE DEE CARATTERISTICHE (MOC)

Dettagli

Lezione n. 7. Legge di Raoult Legge di Henry Soluzioni ideali Deviazioni dall idealit. idealità. Antonino Polimeno 1

Lezione n. 7. Legge di Raoult Legge di Henry Soluzioni ideali Deviazioni dall idealit. idealità. Antonino Polimeno 1 Chmca Fsca Botecnologe santare Lezone n. 7 Legge d Raoult Legge d Henry Soluzon deal Devazon dall dealt dealtà Antonno Polmeno 1 Soluzon / comportamento deale - Il dagramma d stato d una soluzone bnara,

Dettagli

ESERCIZIO 4.1 Si consideri una popolazione consistente delle quattro misurazioni 0, 3, 12 e 20 descritta dalla seguente distribuzione di probabilità:

ESERCIZIO 4.1 Si consideri una popolazione consistente delle quattro misurazioni 0, 3, 12 e 20 descritta dalla seguente distribuzione di probabilità: ESERCIZIO. S consder una popolazone consstente delle quattro msurazon,, e descrtta dalla seguente dstrbuzone d probabltà: X P(X) ¼ ¼ ¼ ¼ S estrae casualmente usando uno schema d camponamento senza rpetzone

Dettagli

Statistica descrittiva

Statistica descrittiva Statstca descrttva. Indc d poszone. Per ndc d poszone d un nseme d dat, ordnat secondo la loro randezza, s ntendono alcun valor che cadono all nterno dell nseme. Gl ndc pù usat sono: I. eda. II. edana.

Dettagli

Sommario. Obiettivo. Quando studiarla? La concentrazione. X: carattere quantitativo tra le unità statistiche. Quando studiarla?

Sommario. Obiettivo. Quando studiarla? La concentrazione. X: carattere quantitativo tra le unità statistiche. Quando studiarla? Corso d Statstca a.a. 9- uando studarla? Obettvo Dagramma d Lorenz Rapporto d concentrazone rea d concentrazone Esemp Sommaro La concentrazone uando studarla? Obettvo X: carattere quanttatvo tra le untà

Dettagli

Teoria degli errori. La misura implica un giudizio sull uguaglianza tra la grandezza incognita e la grandezza campione. Misure indirette: velocita

Teoria degli errori. La misura implica un giudizio sull uguaglianza tra la grandezza incognita e la grandezza campione. Misure indirette: velocita Teora degl error Processo d msura defnsce una grandezza fsca. Sstema oggetto. Apparato d msura 3. Sstema d confronto La msura mplca un gudzo sull uguaglanza tra la grandezza ncognta e la grandezza campone

Dettagli

= = = = = 0.16 NOTA: X P(X) Evento Acquisto PC Intel Acquisto PC Celeron P(X)

= = = = = 0.16 NOTA: X P(X) Evento Acquisto PC Intel Acquisto PC Celeron P(X) ESERCIZIO 3.1 Una dtta vende computer utlzzando on-lne, utlzzando sa processor Celeron che processor Intel. Dat storc mostrano che l 80% de clent preferscono acqustare un PC con processore Intel. a) Sa

Dettagli

COMPORTAMENTO DINAMICO DI ASSI E ALBERI

COMPORTAMENTO DINAMICO DI ASSI E ALBERI COMPORTAMENTO DNAMCO D ASS E ALBER VBRAZON TORSONAL Costruzone d Macchne Generaltà l problema del progetto d un asse o d un albero non è solo statco Gl ass e gl alber, come sstem elastc, sotto l azone

Dettagli

urto v 2f v 2i e forza impulsiva F r F dt = i t

urto v 2f v 2i e forza impulsiva F r F dt = i t 7. Urt Sstem a due partcelle Defnzone d urto elastco, urto anelastco e mpulso L urto è un nterazone fra corp che avvene n un ntervallo d tempo normalmente molto breve, al termne del quale le quanttà d

Dettagli

Gestione della produzione e della supply chain Logistica distributiva. Paolo Detti Dipartimento di Ingegneria dell Informazione Università di Siena

Gestione della produzione e della supply chain Logistica distributiva. Paolo Detti Dipartimento di Ingegneria dell Informazione Università di Siena Gestone della produzone e della supply chan Logstca dstrbutva Paolo Dett Dpartmento d Ingegnera dell Informazone Unverstà d Sena Un algortmo per l flusso su ret a costo mnmo: l smplesso su ret Convergenza

Dettagli

Economia del turismo

Economia del turismo Unverstà degl Stud d Caglar Facoltà d Economa Corso d Laurea n Economa e Gest. de Serv. Turstc A.A. 2013-2014 Economa del tursmo Prof.ssa Carla Massdda Sezone 5 ANALISI MICROECONOMICA DEL TURISMO Argoment

Dettagli

Predimensionamento reti chiuse

Predimensionamento reti chiuse Predmensonamento ret chuse Rspetto ad una rete aperta, ogn magla aggunge un grado d lbertà (una nfntà d soluzon) nella determnazone delle portate Q,Q 1, e Q 2, utlzzando le sole equazon d contnutà. a dfferenza

Dettagli

Soluzioni 3.1. n(n 1) (n k + 1) z n k! k + 1 n k. lim k

Soluzioni 3.1. n(n 1) (n k + 1) z n k! k + 1 n k. lim k (1) La sere bnomale è B n (z) = k=0 Con l metodo del rapporto s ottene R = lm k Soluzon 3.1 n(n 1) (n k + 1) z n k! c k c k+1 = lm k k + 1 n k lm k c k z k. k=0 1 + 1 k 1 n k = 1 (2) La multfunzone f(z)

Dettagli

Capitolo 11: IL METODO DEI MINIMI QUADRATI. Nel Capitolo precedente ci siamo posti il problema di determinare la miglior retta che passa per

Capitolo 11: IL METODO DEI MINIMI QUADRATI. Nel Capitolo precedente ci siamo posti il problema di determinare la miglior retta che passa per Captolo : IL METODO DEI MINIMI QUADRATI. La mglor retta Nel Captolo precedente c samo post l problema d determnare la mglor retta che passa per cert punt spermental, ed abbamo dscusso un metodo graco.

Dettagli

IL RUMORE NEGLI AMPLIFICATORI

IL RUMORE NEGLI AMPLIFICATORI IL RUMORE EGLI AMPLIICATORI Defnzon S defnsce rumore elettrco (electrcal nose) l'effetto delle fluttuazon d corrente e/o d tensone sempre present a termnal degl element crcutal e de dspostv elettronc.

Dettagli

Esercitazioni del corso di Relazioni tra variabili. Giancarlo Manzi Facoltà di Sociologia Università degli Studi di Milano-Bicocca

Esercitazioni del corso di Relazioni tra variabili. Giancarlo Manzi Facoltà di Sociologia Università degli Studi di Milano-Bicocca Eserctazon del corso d Relazon tra varabl Gancarlo Manz Facoltà d Socologa Unverstà degl Stud d Mlano-Bcocca e-mal: gancarlo.manz@statstca.unmb.t Terza eserctazone Mlano, 8 febbrao 7 SOMMARIO TERZA ESERCITAZIONE

Dettagli

Circuiti elettrici in regime stazionario

Circuiti elettrici in regime stazionario rcut elettrc n regme stazonaro Metod d anals www.de.ng.unbo.t/pers/mastr/ddattca.htm ersone del -0-00 Premessa Nel caso pù generale è possble ottenere la soluzone d un crcuto rsolendo un sstema formato

Dettagli

una variabile casuale è continuase può assumere un qualunque valore in un intervallo

una variabile casuale è continuase può assumere un qualunque valore in un intervallo Varabl casual contnue Se samo nteressat alla temperatura massma gornaleraquesta è una varable casuale msurata n un ntervallo contnuoe qund è una v.c. contnua una varable casuale è contnuase può assumere

Dettagli

* * * Nota inerente il calcolo della concentrazione rappresentativa della sorgente. Aprile 2006 RL/SUO-TEC 166/2006 1

* * * Nota inerente il calcolo della concentrazione rappresentativa della sorgente. Aprile 2006 RL/SUO-TEC 166/2006 1 APAT Agenza per la Protezone dell Ambente e per Servz Tecnc Dpartmento Dfesa del Suolo / Servzo Geologco D Itala Servzo Tecnologe del sto e St Contamnat * * * Nota nerente l calcolo della concentrazone

Dettagli

5. Baricentro di sezioni composte

5. Baricentro di sezioni composte 5. Barcentro d sezon composte Barcentro del trapezo Il barcentro del trapezo ( FIURA ) s trova sull asse d smmetra oblqua (medana) della fgura; è suffcente, qund, determnare la sola ordnata. A tal fne,

Dettagli

V n. =, e se esiste, il lim An

V n. =, e se esiste, il lim An Parttore resstvo con nfnte squadre n cascata. ITIS Archmede CT La Fg. rappresenta un parttore resstvo, formato da squadre d restor tutt ugual ad, conness n cascata, e l cu numero n s fa tendere ad nfnto.

Dettagli

Esame di Statistica tema B Corso di Laurea in Economia Prof.ssa Giordano Appello del 15/07/2011

Esame di Statistica tema B Corso di Laurea in Economia Prof.ssa Giordano Appello del 15/07/2011 Esame d Statstca tema B Corso d Laurea n Economa Prof.ssa Gordano Appello del 15/07/011 Cognome Nome Matr. Teora Dmostrare la propretà assocatva della meda artmetca. Eserczo 1 L accesso al credto è sempre

Dettagli

Matematica II: Calcolo delle Probabilità e Statistica Matematica

Matematica II: Calcolo delle Probabilità e Statistica Matematica Matematca II: Calcolo delle Probabltà e Statstca Matematca ELT A-Z Docente: dott. F. Zucca Eserctazone # 8 Gl esercz contrassegnat con (*) sono tratt da Eserc. 2002-2003- Prof. Secch # 0 - Statstca Matematca

Dettagli

LA VARIABILITA. Nella metodologia statistica si distinguono due aspetti della variabilità:

LA VARIABILITA. Nella metodologia statistica si distinguono due aspetti della variabilità: LA VARIABILITA LA VARIABILITA E L ATTITUDINE DEL FENOMENO QUANTITATIVO AD ASSUMERE DIVERSE MODALITA, O MEGLIO LA TENDENZA DI OGNI SINGOLA OSSERVAZIONE AD ASSUMERE VALORI DIFFERENTI RISPETTO AL VALORE MEDIO.

Dettagli

Architetture aritmetiche. Corso di Organizzazione dei Calcolatori Mariagiovanna Sami

Architetture aritmetiche. Corso di Organizzazione dei Calcolatori Mariagiovanna Sami Archtetture artmetche Corso d Organzzazone de Calcolator Maragovanna Sam 27-8 8 Sommator: : Full Adder s = x y c + x y c + x y c + x y c Full Adder x y c s x y c = x y + x c + + y c c + Full Adder c x

Dettagli

3 (solo esame 6 cfu) Elementi di Analisi Numerica, Probabilità e Statistica, modulo 2: Elementi di Probabilità e Statistica (3 cfu)

3 (solo esame 6 cfu) Elementi di Analisi Numerica, Probabilità e Statistica, modulo 2: Elementi di Probabilità e Statistica (3 cfu) lement d Anals Numerca, Probabltà e Statstca, modulo 2: lement d Probabltà e Statstca ( cfu) Probabltà e Statstca (6 cfu) Scrtto del 06 febbrao 205. Secondo Appello Id: A Nome e Cognome: same da 6 cfu

Dettagli

Analisi di mercurio in matrici solide mediante spettrometria di assorbimento atomico a vapori freddi

Analisi di mercurio in matrici solide mediante spettrometria di assorbimento atomico a vapori freddi ESEMPIO N. Anals d mercuro n matrc solde medante spettrometra d assorbmento atomco a vapor fredd 0 Introduzone La determnazone del mercuro n matrc solde è effettuata medante trattamento termco del campone

Dettagli

Lezione 2 a - Statistica descrittiva per variabili quantitative

Lezione 2 a - Statistica descrittiva per variabili quantitative Lezone 2 a - Statstca descrttva per varabl quanttatve Esempo 5. Nella tabella seguente sono rportat valor del tasso glcemco rlevat su 10 pazent: Pazente Glcema (mg/100cc) 1 x 1 =103 2 x 2 =97 3 x 3 =90

Dettagli

IL GRUPPO SIMMETRICO S n

IL GRUPPO SIMMETRICO S n EMILIO ZAPPA MATRICOLA UNIVERSITA DEGLI STUDI DI TORINO DIPARTIMENTO DI MATEMATICA ANNO ACCADEMICO 00/00 TESINA PER IL LABORATORIO DI COMBINATORICA IL GRUPPO SIMMETRICO S n IL GIOCO DEL Sa A un nseme fnto

Dettagli

L analisi della correlazione lineare

L analisi della correlazione lineare L anals della correlazone lneare Corso d STATISTICA Prof. Roberta Sclano Ordnaro d Statstca, Unverstà d apol Federco II Professore supplente, Unverstà della Baslcata a.a. 20/202 Prof. Roberta Sclano Statstca

Dettagli

4.6 Dualità in Programmazione Lineare

4.6 Dualità in Programmazione Lineare 4.6 Dualtà n Programmazone Lneare Ad ogn PL n forma d mn (max) s assoca un PL n forma d max (mn) Spaz e funzon obettvo dvers ma n genere stesso valore ottmo! Esempo: l valore massmo d un flusso ammssble

Dettagli

Algebra 2. 6 4. Sia A un anello commutativo. Si ricorda che in un anello commutativo vale il teorema binomiale, cioè. (a + b) n = a i b n i i.

Algebra 2. 6 4. Sia A un anello commutativo. Si ricorda che in un anello commutativo vale il teorema binomiale, cioè. (a + b) n = a i b n i i. Testo Fac-smle 2 Durata prova: 2 ore 8 1. Un gruppo G s dce semplce se suo unc sottogrupp normal sono 1 e G stesso. Sa G un gruppo d ordne pq con p e q numer prm tal che p < q. (a) Il gruppo G può essere

Dettagli

links utili:

links utili: dspensa d Govann Bachelet Meccanca de Sstem, maggo 2003 lnks utl: http://scenceworld.wolfram.com/physcs/angularmomentum.html http://hyperphyscs.phy-astr.gsu.edu/hbase/necon.html Momento della quanttà d

Dettagli

lxmi.mi.infn.it/~camera/silsis/laboratorio-1/2-statistica.ppt http://www2.dm.unito.it/paginepersonali/zucca/index.htm Misura:

lxmi.mi.infn.it/~camera/silsis/laboratorio-1/2-statistica.ppt http://www2.dm.unito.it/paginepersonali/zucca/index.htm Misura: Elaborazone de dat geochmc e cenn d statstca lm.m.nfn.t/~camera/slss/laboratoro-1/-statstca.ppt http://www.dm.unto.t/pagnepersonal/zucca/nde.htm Msura: Espressone quanttatva del rapporto fra una grandezza

Dettagli

Capitolo 7. La «sintesi neoclassica» e il modello IS-LM. 2. La curva IS

Capitolo 7. La «sintesi neoclassica» e il modello IS-LM. 2. La curva IS Captolo 7 1. Il modello IS-LM La «sntes neoclassca» e l modello IS-LM Defnzone: ndvdua tutte le combnazon d reddto e saggo d nteresse per le qual l mercato de ben (curva IS) e l mercato della moneta (curva

Dettagli

Per calcolare le probabilità di Testa e Croce è possibile risolvere il seguente sistema di due equazioni in due incognite:

Per calcolare le probabilità di Testa e Croce è possibile risolvere il seguente sistema di due equazioni in due incognite: ESERCIZIO.1 Sa X la varable casuale che descrve l numero d teste ottenute nella prova lanco d tre monete truccate dove P(Croce)= x P(Testa). 1) Defnrne la dstrbuzone d probabltà ) Rappresentarla grafcamente

Dettagli

Calibrazione. Lo strumento idealizzato

Calibrazione. Lo strumento idealizzato Calbrazone Come possamo fdarc d uno strumento? Abbamo bsogno d dentfcare l suo funzonamento n condzon controllate. L dentfcazone deve essere razonalmente organzzata e condvsa n termn procedural: s tratta

Dettagli

Una semplice applicazione del metodo delle caratteristiche: la propagazione di un onda di marea all interno di un canale a sezione rettangolare.

Una semplice applicazione del metodo delle caratteristiche: la propagazione di un onda di marea all interno di un canale a sezione rettangolare. Una semplce applcazone del metodo delle caratterstche: la propagazone d un onda d marea all nterno d un canale a sezone rettangolare. In generale la propagazone d un onda monodmensonale n una corrente

Dettagli

NUMERI GRANDI DI FIBONACCI come trovare velocemente i loro esatti valori numerici Cristiano Teodoro

NUMERI GRANDI DI FIBONACCI come trovare velocemente i loro esatti valori numerici Cristiano Teodoro NUMERI GRANDI DI FIBONACCI come trovare velocemente loro esatt valor numerc Crstano Teodoro crstanoteodoro@vrglo.t Sommaro: n questo artcolo vene proposto, n alternatva al metodo classco per l calcolo

Dettagli

NOTE DALLE LEZIONI DI STATISTICA MEDICA ED ESERCIZI CONFRONTO DI PIU MEDIE IL METODO DI ANALISI DELLA VARIANZA

NOTE DALLE LEZIONI DI STATISTICA MEDICA ED ESERCIZI CONFRONTO DI PIU MEDIE IL METODO DI ANALISI DELLA VARIANZA NOTE DALLE LEZIONI DI STATISTICA MEDICA ED ESERCIZI CONFRONTO DI PIU MEDIE IL METODO DI ANALISI DELLA VARIANZA IL PROBLEMA Supponamo d voler studare l effetto d 4 dverse dete su un campone casuale d 4

Dettagli

Esame di Statistica tema A Corso di Laurea in Economia Prof.ssa Giordano Appello del 15/07/2011

Esame di Statistica tema A Corso di Laurea in Economia Prof.ssa Giordano Appello del 15/07/2011 Esame d Statstca tema A Corso d Laurea n Economa Prof.ssa Gordano Appello del /07/0 Cognome Nome atr. Teora Dmostrare che la somma degl scart dalla meda artmetca è zero. Eserczo L accesso al credto è sempre

Dettagli