1. INTRODUZIONE ALLA CHEMIOMETRIA

Dimensione: px
Iniziare la visualizzazioe della pagina:

Download "1. INTRODUZIONE ALLA CHEMIOMETRIA"

Transcript

1 Chemiometria per la Chimica Analitica 1 1. INTRODUZIONE ALLA CHEMIOMETRIA 1.1 Definizione di Chemiometria La Chemiometria è quella disciplina che permette di affrontare problemi sperimentali complessi mediante adeguati strumenti matematici e statistici. I metodi chemiometrici forniscono soluzioni per separare l informazione utile da quanto altro è contenuto nei dati, minimizzando i tempi e i costi. Storicamente la chemiometria è nata per affrontare problemi di natura chimica ma gli strumenti chemiometrici possono in generale essere applicati a tutti i problemi scientifici complessi. Nel presente corso viene trattata la Chemiometria per la Chimica Analitica. Gli strumenti matematici della chemiometria sono: matrici, spazi vettoriali, autovalori, autovettori, distanze. Di tali argomenti verranno di volta in volta richiamati i concetti e le proprietà utilizzati. Gli strumenti statistici della chemiometria sono: analisi delle componenti principali, analisi dei clusters, classificazione, regressione. 1.2 L analisi di un problema complesso Un problema chimico-analitico si definisce complesso quando sussiste almeno una delle seguenti due condizioni: 1. non esiste una teoria scientifica che fornisca la legge che lega le risposte alle variabili da cui esse dipendono; 2. esiste una complessità intrinseca del problema sperimentale, dovuta alla concomitanza dei seguenti fattori: il sistema è multivariato (numerose variabili e/o numerose risposte) insufficiente numero di campioni e/o di misure rilevanza relativa delle variabili non nota correlazione tra le variabili interferenze in senso lato: rumore sperimentale, effetti sinergici o antagonisti

2 Chemiometria per la Chimica Analitica Hard model, soft model Per un problema analitico complesso la soluzione diretta (hard model) è impossibile. L unico approccio possibile rimane un soft model basato sulle seguenti fasi: 1. Analisi esplorativa dei dati: ridurre il più possibile le cause di complessità. Il metodo più comune ed utilizzato per tale riduzione è l analisi delle componenti principali. 2. Raggruppamento dei dati: cercare la similarità tra i dati. 3. Suddivisione dei dati in classi: ripartire i dati fra classi naturali note a priori. 4. Modellamento dei dati: cercare una relazione quantitativa o qualitativa (modello) tra risposte e variabili utilizzabile in luogo della non nota relazione funzionale tra risposte e variabili. 5. Validazione dei modelli: quantificare la capacità descrittiva e la capacità predittiva dei modelli. 1.4 Applicazioni della Chemiometria Nell ambito della Chimica Analitica, si prestano particolarmente ad applicazioni chemiometriche le tecniche spettrometriche, voltammetriche e cromatografiche in campo ambientale, alimentare, farmaceutico, controllo qualità. 1.5 Informazione scientifica sulla Chemiometria Riviste specifiche di ricerca sulla Chemiometria: Journal of Chemometrics (Wiley, USA), Chemometrics and Intelligent Laboratory System (Elsevier, OLANDA). Riviste di chimica analitica che danno molto spazio alla chemiometria applicata: Analytical Chemistry, Analitica Chimica Acta, Trends in Analytical Chemistry, Journal of Chemical Information and Computer Sciences, Journal of Food Science. Gruppi italiani di ricerca in Chemiometria: Prof. Michele Forina dell Università di Genova, Prof. Roberto Todeschini dell Università di Milano. Progetti di ricerca europei sulla Chemiometria: Eurochemometrics, una rete di Scuole di Chemiometria, universitarie e non.

3 Chemiometria per la Chimica Analitica 3 2. STRUTTURA MULTIVARIATA DEI DATI 2.1 Introduzione I metodi chemiometrici qui proposti partono da una matrice dei dati, che riporta le osservazioni, ciascuna descritta da un certo numero di variabili (sistema multivariato). Indichiamo la matrice dei dati col simbolo X e rappresentiamo tale matrice nella forma: X= i1 n i2 n2 1 j 2 j ij nj 1 p' 2 p' ip' np' (2.1) Le n righe di X sono gli oggetti e possono essere: campioni, esperimenti. Le p colonne di X sono le variabili e possono essere: proprietà. Un elemento di X si scrive ij, con i=1,.n e j=1,,p. Le variabili o descrittori possono essere di due tipi: variabili indipendenti o predittori e variabili dipendenti o risposte. È del massimo interesse evidenziare l eventuale esistenza di variabili che pur avendo significati diversi portano la stessa informazione ovvero hanno la stessa capacità di rappresentare quantitativamente il sistema studiato. Per evidenziare i ruoli delle variabili, riscriviamo la matrice dei dati nella forma: X= n n2 1p 2 p np y y y n1 y y y n2 y y y 1r 2r (2.2) Dunque abbiamo p =p+r variabili, di cui p predittori e r risposte. Un oggetto è descritto in modo completo se sono disponibili tutti i relativi valori delle variabili e non vi sono valori mancanti (missing values). È possibile affrontare il problema chemiometrico anche in caso di valori mancanti. nr

4 Chemiometria per la Chimica Analitica Matrici: dimensione, trasposizione, centratura, covarianza, correlazione Considerando la matrice X dell eq. (2.2) abbiamo quanto segue: La matrice X ha dimensione n p La matrice trasposta X T si ottiene da X scambiando le righe con le colonne cioè l elemento ij della matrice X è uguale all elemento ji della matrice X T. X T ha dimensione p n Si definisce matrice centrata di X la matrice X C in cui ad ogni dato ij viene sostituita la sua differenza col valor medio della j-esima variabile, chiamato centroide di tale variabile: X C = i n p 2 p ip np j j j j y y y y n1 y y y y 1 y y y y 1r 2r ir nr y y y p p p y p (2.3) Si definisce matrice di covarianza di X la matrice S così definita: T X C = C X S, ij ' ( C) = ij j n 1 (2.4) Si definisce matrice di correlazione di X la matrice C costruita come segue. X T = AS X C AS, n 1 ij j ij ' ( AS) = s (2.5) j La matrice C è ottenuta standardizzando S a varianza unitaria, il che equivale a calcolare S su dati autoscalati (v. par ). Gli elementi della diagonale della matrice C hanno valore unitario, gli altri elementi hanno valore compreso tra -1 e 1. Per valori pari a +1 si ha perfetta correlazione diretta (quando una variabile cresce, cresce anche l altra); per valori pari a -1 si ha perfetta correlazione inversa (quando una variabile cresce, l altra diminuisce)

5 Chemiometria per la Chimica Analitica R-mode, Q-mode La modalità di analisi dei dati che utilizza la matrice dei dati (X) come tale è chiamata modo R, mentre si chiama modo Q la modalità che utilizza la trasposta della matrice dei dati (X T ). Lavorando in modo R si ottiene una matrice di covarianza di dimensione p p Lavorando in modo Q si ottiene una matrice di covarianza di dimensione n n 2.4 Pretrattamento dei dati Il controllo dei dati prima del trattamento chemiometrico è indispensabile: sviste su questioni quali l errata trascrizione di numeri, errati ordini di grandezza, mancanza di elementi nella matrice dei dati possono portare a errori grossolani. I pretrattamenti fondamentali sono: trasformazione delle variabili, scalatura dei dati, sostituzione di dati mancanti Trasformazione delle variabili Un controllo preliminare sulle variabili consiste nelle seguenti verifiche: non devono esistere variabili costanti: esse sarebbero a varianza nulla e farebbero saltare i calcoli molto comuni che prevedono divisione per le varianze; non devono esistere variabili degeneri: esse variano poco al variare degli oggetti e danno varianza tendente a zero, dando lo stesso problema del punto precedente; non devono esistere variabili discrete: esse richiedono una statistica particolare in quanto i metodi qui trattati sono adatti solo a variabili continue; Si procede alla trasformazione delle variabili per controllare anomalie quali: mancanza di linearità mancanza di normalità mancanza di additività le variabili hanno varianze di ordini di grandezza molto diversi il sistema è poco robusto Le trasformazioni più comuni sono le seguenti.

6 Chemiometria per la Chimica Analitica 6 1) Trasformazione logaritmica: ( ) ' ij = log 1 ij + Serve a linearizzare il comportamento di variabili moltiplicative 2) Trasformazione di potenza: ' λ ij ij = (2.6) (2.7) Casi particolari sono la trasformazione inversa (λ=-1) e la trasformazione radice quadrata (λ=0.5). 3) Trasformazione di Bo-Co. Riguarda soprattutto le variabili risposta e serve a ridurre la somma dei quadrati degli scarti (Residual Sum of Squares, RSS) nei procedimenti di regressione. È definita dall equazione seguente: y ' j y ' j λ y j 1 = se λ 0 λ = ln y se λ = 0 j (2.8) Scalatura dei dati I metodi chemiometrici richiedono che vi sia massima confrontabilità tra le variabili. Questo facilmente non accade ai dati naturali, che per esempio possono avere ordini di grandezza clamorosamente diversi: basti pensare alla misura di comuni variabili quali il ph (ordine di grandezza: unità), la temperatura assoluta (ordine di grandezza: centinaia), la concentrazione di analiti in tracce (ordine di grandezza: ppm, ppb). Diversi ordini di grandezza sui valori medi comportano diversi ordini di grandezza sulle varianze e quindi non confrontabilità statistica. Quello degli ordini di grandezza è un problema comune macroscopico, ma non è l unico. I più comuni problemi di non confrontabilità si risolvono applicando delle scalature (scaling), dette anche standardizzazioni. Le più comuni sono. Centratura (centering, CS). Scalatura rispetto al massimo (maimum scaling, MS). Scalatura di intervallo (range scaling, RS). Autoscalatura (autoscaling, AS). Tutte le scalature sono descritte da una trasformazione lineare del tipo:

7 Chemiometria per la Chimica Analitica 7 ' α + β (2.9) ij = ij dove α e β sono definiti nella tabella seguente: Tabella 2.1 Scalatura Trasformazione α β Note CS MS RS AS ij ' = ij 1 j j ' ij ' ij = U = U ij j ij j L L ' ij j ij = s j j j U j Non modifica la varianza dei dati. 1 0 ma ( ) 1 U j L j 1 s j U j j U =. j I dati scalati hanno massimo uguale a 1 L j U = ma ( ), L = min ( ) L j s j j j ij j ij j j ij I dati scalati hanno massimo uguale a 1 e minimo uguale a 0 È una centratura seguita da normalizzazione a varianza unitaria. La media delle variabili scalate è 0 La varianza delle variabili scalate è 1 La media e la deviazione standard dei dati scalati seguono la seguente legge: ' j = α j + β s j = α s j ' (2.10) Gestione dei dati mancanti I metodi chemiometrici qui trattati sono incompatibili con l assenza di elementi nella matrice dei dati. È un errore grave porre degli zeri in luogo dei valori mancanti. In caso di dati mancanti, i provvedimenti possibili sono: 1) Eliminazione di oggetti 2) Eliminazione di variabili 3) Sostituzione con un valore casuale (es: -999) 4) Sostituzione con il valore medio 5) Sostituzione con il valore ottenuto mediante analisi delle componenti principali 6) Sostituzione con il valore ottenuto mediante similarità locale 7) Sostituzione con il valore ottenuto mediante regressione Il buon senso e la conoscenza del problema chimico nel quale si inquadrano i dati suggeriranno il metodo più opportuno.

8 Chemiometria per la Chimica Analitica 8 3. ANALISI DELLE COMPONENTI PRINCIPALI 3.1. Introduzione L analisi delle componenti principali (PCA) è la più importante tra le tecniche di esplorazione dei dati e consiste nel trasformare le variabili originali in nuove variabili, chiamate componenti principali (o variabili latenti), ottenute per combinazione lineare delle variabili originali e tali da essere ortogonali tra loro. La PCA consente di: ridurre la dimensionalità dei dati, rappresentandoli in uno spazio ortogonale eliminare l informazion spuria (es: rumore strumentale) valutare la rilevanza relativa delle variabili visualizzare gli oggetti e ricercare outliers, clusters, classi La PCA è la base di partenza per molte tecniche multivariate. Nel presente corso, tutte le tecniche discusse (cluster analysis, classificazione, regressione) saranno per semplicità basate sulle componenti principali Matrici: diagonalizzazione, ortogonalità, matrice identità Data una matrice A non singolare (cioè con determinante non nullo) e dato un vettore v non nullo, se esiste un numero λ tale che: A v = λ v (3.1) allora v è un autovettore di A è λ è il corrispondente autovalore di A. La procedura matematica su cui è basata la PCA è la diagonalizzazione di una matrice, con conseguente determinazione di autovalori e autovettori. Gli autovettori sono ortogonali tra loro e rappresentano la base di uno spazio ortonormale. Due vettori e y sono ortogonali se il loro prodotto scalare t y è nullo. La matrice che ha per colonne gli autovettori è tale che il prodotto tra la matrice stessa e la sua trasposta è commutativo e dà come risultato la matrice identità.

9 Chemiometria per la Chimica Analitica Calcolo delle componenti principali Il procedimento per il calcolo delle componenti principali (PC) consiste nei seguenti passi: 1) Scrivere la matrice dei dati X (n p) 2) Costruire la matrice di correlazione C (p p) X T = AS X AS n 1 C (2.5) 3) Diagonalizzare C, ottenendo la matrice degli autovalori Λ (p p), i cui elementi diagonali sono gli autovalori λ m (m=1,, p) Λ = diag C (3.2) 4) Calcolare la matrice degli autovettori Α (p p), mediante l equazione seguente: C = A Λ A T (3.3) (p p) = (p p) (p p) (p p) L eq. 3.3 corrisponde ad una operazione di rotazione che definisce un nuovo spazio (autospazio), che è ortogonale e per il quale gli autovettori sono i versori. Gli assi dell autospazio definito da A sono gli assi relativi alle direzioni di massima varianza, in ordine via via decrescente. La decomposizione della matrice di correlazione basata sull equazione 3.3 è detta single value decomposition (SVD). ciascun autovalore rappresenta la varianza associata alla corrispondente componente principale e la somma di tutti gli autovalori è uguale alla varianza totale dei dati

10 Chemiometria per la Chimica Analitica 10 5) Fatta la ragionevole assunzione che gli autovalori più piccoli siano associati ad informazione non rilevante, si esaminano gli autovalori e si procede mantenendo solo i primi M autovalori più grandi (i criteri di scelta sono descritti oltre). 6) La matrice dei primi M autovettori si indica con L ed è detta matrice dei loadings. L ha per colonne le PC e le righe rappresentano le variabili originali. Selezionata l mesima colonna, nella riga j-esima si trova un coefficiente numerico l jm che quantifica il contributo della j-esima variabile all m-esima componente principale. Si dimostra che: l, l = 1 (3.4) 1 < < +1 jm p j= 1 Cioè i loadings sono coefficienti lineari standardizzati. 2 jm 7) Costruire la matrice degli scores T come segue: T = X L (3.5) (n M) = (n p) (p M) Gli scores rappresentano le nuove coordinate degli oggetti nello spazio delle componenti principali. Gli scores possono assumere valori numerici qualsiasi. 8) Costruire la matrice dei dati riprodotta ( X ) ) come segue: ) T X = T L (n p) = (n M) (M p) (3.6) Se il numero m di PC considerate è inferiore al numero n di variabili originali la matrice dei dati riprodotta è un approssimazione della matrice dei dati originale: è stata eliminata l informazione spuria.

11 Chemiometria per la Chimica Analitica Significato delle componenti principali La comprensione del significato di una PCA risulta facilitata se si considera il semplicissimo caso di due variabili originali (var1 e var2) che vengano trasformate in due componenti principali (PC1 e PC2). In questo caso le due componenti descrivono interamente i dati originali. La rotazione che porta da var2 vs. var1 a PC2 vs. PC1 è illustrata in Fig. 3.1: <var2> var2 PC2 PC1 <var1> var1 Figura Grafici dei loadings I loadings plot permettono di analizzare graficamente il ruolo delle variabili nelle componenti principali. Consideriamo qui il caso più semplice, che è quello che sceglie solo 2 componenti principali, PC1 e PC2, che sono le due colonne della matrice dei loadings L (p 2). Questa matrice ha p righe, che corrispondono alle variabili originali ovvero alle colonne della matrice dei dati X. Gli elementi di L sono compresi fra -1 e 1. Ogni variabile è caratterizzata da una coppia di loadings, l j1 e l j2 : l j1 quantifica la rilevanza della variabile j nella componente PC1 e l j2 quantifica la rilevanza della variabile j nella componente PC2. Il loadings plot si costruisce riportando nel piano l j2 vs. l j1 i p punti corrispondenti alle p variabili originali. Nel loadings plot si ha che:

12 Chemiometria per la Chimica Analitica 12 1) Punti vicini all origine corrispondono a variabili non rilevanti per alcuna le componenti principali scelte. 2) Punti sull asse delle ascisse corrispondono a variabili non rilevanti per PC2. 3) Punti sull asse delle ordinate corrispondono a variabili non rilevanti per PC1. 4) Punti con ascissa di valore assoluto elevato hanno grande rilevanza per PC1. 5) Punti con ordinata di valore assoluto elevato hanno grande rilevanza per PC2. 6) Punti vicini tra loro corrispondono a variabili che portano informazione simile. 7) Punti simmetrici rispetto all origine corrispondono a variabili inversamente correlate Grafici degli scores Gli scores plot permettono di analizzare graficamente il ruolo degli oggetti nelle componenti principali. Consideriamo il caso più semplice, che è quello che sceglie solo 2 componenti principali, PC1 e PC2, che sono le prime due colonne della matrice dei loadings L. Il prodotto tra X e L dà la matrice T (n 2). Questa matrice ha n righe, che corrispondono agli oggetti ovvero alle righe della matrice dei dati X. Ogni oggetto è caratterizzato da una coppia di scores, t j1 e t j2 che sono le coordinate nello spazio delle componenti PC1 e PC2. Lo scores plot si costruisce riportando nel piano t j2 vs. t j1 gli n punti corrispondenti agli n oggetti del problema. Lo scores plot rappresenta gli oggetti nello spazio delle componenti principali ed è molto efficace per cercare graficamente outliers e clusters. Il confronto tra loadings plot e scores plot permette di stabilire quali variabili sono rilevanti per gli n oggetti. Esiste infatti una corrispondenza a quadranti tra i due grafici: origine origine loadings plot scores plot Figura 3.2

13 3.4.3 Grafici biplot Chemiometria per la Chimica Analitica 13 Sono i grafici dei loadings e degli scores sovrapposti Scelta delle componenti principali (rank analysis) La scelta delle componenti principali con cui condurre l analisi chemiometrica è estremamente critica. Ridurre di troppo il numero M di componenti principali scelte rispetto al numero p di variabili originali può causare perdita di informazione utile. Per scegliere le PC si può seguire un criterio numerico o un criterio grafico. Di seguito sono proposti i metodi più comunemente usati Scelta delle PC per via numerica È basata sulla varianza percentuale spiegata da M componenti principali. La varianza percentuale spiegata dalla componente m è data da: EV m (%) = λ m 100 p λ m m= 1 La varianza cumulata spiegata dalle prime M componenti principali è data da: Cum. EV M (%) = M m m= 1 p λ λ m m= 1 La varianza residua non spiegata dalle prime M componenti principali è data da: RV (%) = Il criterio di scelta è: minimizzare RV. p m m= M + 1 p λ λ m m= (3.7) (3.8) (3.8) Scelta delle PC per via grafica: scree plot Si costruisce il grafico degli autovalori (scree plot) riportandoli in funzione del numero di PC. Si sceglie un numero di PC tale da comportare vistosa diminuzione del grafico verso l asintoto orizzontale.

14 Chemiometria per la Chimica Analitica ANALISI DEI CLUSTERS 4.1 Introduzione L analisi dei clusters (cluster analysis) è una tecnica chemiometrica per l individuazione di gruppi (clusters) tra i dati, ovvero per la ricerca nei dati di strutture non casuali, ovvero di anisotropia. Il problema della ricerca di gruppi non ha una soluzione unica in quanto dipende dagli obiettivi che l operatore si pone; tuttavia si tratta di un procedimento che ha basi quantitative oggettive. L analisi dei clusters si basa sul concetto matematico di similarità tra i dati, che a sua volta è legato al concetto di distanza. Due oggetti sono tanto più simili quanto più è piccola la loro reciproca distanza. I metodi di cluster analysis non devono essere confusi con i metodi di classificazione, i quali presuppongono l esistenza a priori di caratteristiche in base alle quali i dati possono essere raggruppati. Quindi se esistono classi a priori allora esistono clusters, mentre il viceversa non è vero. 4.2 Distanze Esistono varie definizioni di distanza matematica che vengono utilizzate in chemiometria. Nel presente corso si utilizzano le 3 definizioni applicabili col programma SCAN: distanza euclidea, distanza di Manhattan, distanza di Pearson Distanza euclidea Consideriamo due punti nel piano z, y. La distanza euclidea tra il punto 1, avente coordinate (z 1, y 1 ), e il punto 2, avente coordinate (z 2, y 2 ) è definita come: d ( z2 z1) + ( y2 y1) Se z è la variabile 1 e y è la variabile 2 si ottiene: Generalizzando per p variabili: = (4.1) = ( 1 j 2 j ) j= 1 d (4.2)

15 Chemiometria per la Chimica Analitica 15 d rt = p j= 1 2 ( ) (4.3) rj tj Distanza di Manhattan d rt = j rj tj (4.4) Distanza di Pearson ( ) = 2 jt jr drt 2 j s j (4.5) 4.3 Similarità Si definisce similarità tra l s-esimo e il t-esimo oggetto la quantità: s rt rt = (4.5) ma d 1 d Notare che non è possibile confondere il simbolo della similarità con quello della deviazione standard perché il primo simbolo ha due pedici (i due punti che identificano i punti confrontati), il secondo ha un solo pedice (il numero identificativo della variabile per cui si calcola la deviazione standard). Si osserva che la similarità è uguale a 1 per distanze nulle, ed è uguale a 0 per distanze pari alla distanza massima. 4.4 Matrice delle distanze, matrice di similarità Data una matrice di dati n p, la matrice delle distanze tra gli n oggetti è una matrice n n in cui alla riga r-esima, colonna t-esima è riportata la distanza dell oggetto r-esimo dall oggetto t-esimo. Gli elementi diagonali della matrice delle distanze sono uguali a 0. La matrice delle distanze è simmetrica.

16 Chemiometria per la Chimica Analitica 16 Data una matrice di dati n p, la matrice di similarità tra gli n oggetti è una matrice n n in cui alla riga r-esima, colonna t-esima è riportata la similarità tra l oggetto r-esimo e l oggetto t-esimo. Gli elementi diagonali della matrice delle distanze sono uguali a 1. La matrice delle similarità è simmetrica. 4.5 Effetto delle scalature su distanze e similarità È importante avere presente che i metodi di cluster analysis basati sulle distanze sono non invarianti alla scalatura dei dati. 4.6 Centroide, centrotipo Si definisce centroide il vettore delle medie delle variabili. Si definisce centrotipo l elemento più rappresentativo tra quelli assegnati ad un cluster. 4.7 I metodi di cluster analysis Tutti i metodi di cluster analysis comportano i seguenti passi preliminari: 1) definire una metrica 2) calcolare la matrice delle distanze 3) calcolare la matrice delle similarità. In base a come poi i vari metodi procedono sulla matrice di similarità, essi si suddividono in gerarchici e non gerarchici. I metodi gerarchici sono basati su un algoritmo per tentativi che parte dalla matrice di similarità e combina righe e colonne originarie ad ottenere altre righe e colonne corrispondenti a clusters. I metodi non gerarchici sono basati invece su tecniche di ricollocamento degli elementi da raggruppare: un algoritmo sposta i dati da un cluster-tentativo ad un altro fino a soddisfare determinati criteri di similarità.

17 Chemiometria per la Chimica Analitica Metodi gerarchici I metodi gerarchici di cluster analysis possono essere divisivi o agglomerativi. I metodi gerarchici divisivi partono da un unico cluster che contiene tutti i punti iniziali e separano via via i punti più distanti dai rimanenti. Sono poco utilizzati. I metodi gerarchici agglomerativi partono da tanti clusters quanti sono gli elementi da raggruppare e procedono alla graduale fusione in clusters più grandi. Tratteremo qui solo i metodi gerarchici agglomerativi Metodi gerarchici agglomerativi per l analisi dei clusters I passi sui quali si basano questi metodi sono i seguenti. 1) definire la metrica da utilizzare per il calcolo delle distanze 2) calcolare la matrice delle distanze 3) calcolare la matrice delle similarità 4) individuare i due oggetti più simili; essi costituiscono il primo cluster. Dal punto di vista numerico, ciò corrisponde ad una operazione sulla matrice di similarità: eliminare le righe e le colonne cui appartengono i due oggetti ed aggiungere una riga ed una colonna che contiene le similarità del primo cluster con gli oggetti restanti. 5) individuare l oggetto più simile al primo cluster, unirlo ad esso e creare il secondo cluster, cioè eliminare le righe e le colonne cui appartengono il primo cluster e l oggetto fuso con esso ed aggiungere una riga ed una colonna che contiene le similarità del secondo cluster con gli oggetti restanti. 6) Ripetere il passo 5 più volte, fino a formare più clusters. 7) Nello svolgere i passi 4-6, ciascuno dei quali riduce di 1 la dimensione della matrice, la distanza tra clusters può essere calcolata con vari metodi; di seguito si citano i più comuni. Tabella 4.1: calcolo della similarità tra clusters Metodo gerarchico agglomerativo COMPLETE LINKAGE SINGLE LINKAGE CENTROID LINKAGE AVERAGE LINKAGE Criterio di calcolo della distanza tra clusters Massima distanza tra oggetti di due clusters Minima distanza tra oggetti di due clusters Distanza uguale a quella tra i centroidi Media delle distanze

18 Chemiometria per la Chimica Analitica 18 I metodi citati in Tabella 4.1 sono illustrati in Figura 4.1. Complete linkage Centroid linkage Single linkage Figura Dendrogrammi Il risultato della procedura descritta viene solitamente presentato sotto forma di dendrogrammi, che sono grafici della forma presentata in Figura similarità A H B E D G C F J I Figura 4.2 In ascisse di Figura 4.2 sono riportati 10 oggetti, rappresentati da 10 lettere maiuscole. In ordinate le similarità. Commenti al dendrogramma: 1) i campioni B ed E sono i più simili tra loro perché si uniscono per primi 2) dopo B ed E si uniscono A e H. 3) poi D si unisce col cluster B+E 4) a livello di similarità di 0.5 identifichiamo i seguenti 5 clusters: [A, H], [B, E, D, G, C], [F], [J], [I] I clusters monoelemento [F], [J], [I] sono detti singletons o singoletti. 5) a livello di similarità di 0.25 identifichiamo i seguenti 3 clusters: [A,H,B,E,D,G,C],[F,J],[I]; l ultimo cluster è un singoletto

19 Chemiometria per la Chimica Analitica Metodi non gerarchici I metodi non gerarchici di cluster analysis sono basati su algoritmi di ricollocamento. Il più comune è il metodo k-means basato su distanza tra centroidi. Molto potente è anche il metodo di Jarvis-Patrick, basato sul calcolo di tutte le distanze tra tutti gli oggetti e sull analisi di una matrice di intorni. I metodi non gerarchici non sono qui trattati Cluster analysis basata su PCA È molto vantaggioso eseguire l analisi dei clusters dopo avere esplorato i dati mediante PCA utilizzando un numero M di PC in luogo delle p variabili originali (M<p ). Le componenti principali preservano la distanza euclidea, quindi l utilizzo di tutte le variabili principali per eseguire una cluster analysis basata su metrica euclidea equivale ad utilizzare direttamente tutte le variabili originali: i dendrogrammi saranno simili. Se si prende M<p si elimina l informazione spuria e si evitano errori di raggruppamento dovuti alla possibilità che tale informazione inutile influenzi in modo diverso le variabili originali. Questo accade facilmente col rumore strumentale: se esso è presente in misura diversa su diverse variabili originali, la procedura di costruzione dei clusters potrebbe risultare falsata.

20 Chemiometria per la Chimica Analitica MODELLI E VALIDAZIONE 5.1 Il concetto di modello Un modello è una relazione matematica tra risposte e predittori. I modelli sintetizzano lo stato di conoscenza di un problema e permettono di prevedere le evoluzioni del sistema studiato. La costruzione di un modello matematico è sempre propedeutica a procedimenti chemiometrici quali la classificazione e la regressione. La classificazione è basata su modelli qualitativi, la regressione su modelli quantitativi. Il procedimento su cui si basa la ricerca di un modello si articola in 4 fasi: 1) Identificazione. Consiste nello stabilire se il modello sia di tipo deterministico, cioè basato sulla conoscenza a priori di connessioni funzionali tra le variabili, o stocastico cioè basato sulla statistica. 2) Costruzione. Consiste nel dare una forma numerica al modello, attraverso un procedimento di fitting; quest ultimo comporta la stima di parametri che definiscono il modello e la valutazione dell incertezza. 3) Validazione. Consiste nel controllare il modello (testing), quantificandone la capacità descrittiva e la capacità predittiva. 4) Applicazione. Il modello viene usato per prevedere eventi incogniti. 5.2 Ordine e linearità di un modello Si definisce ordine del modello il valore della potenza più elevata con la quale i predittori compaiono nel modello. Un modello è lineare se può essere scritto nella forma: y i = p j= 1 a j f j ( ij ) (5.1) Esempi: y= a 2 + b + c è un modello lineare del secondo ordine. b y = a è un modello non lineare. y= a a a j j è un modello lineare del primo ordine.

21 Chemiometria per la Chimica Analitica Stimatori e bias Si definisce stimatore di una grandezza una regola per calcolare una stima di tale grandezza. Sia β il valore vero di una grandezza, b un suo stimatore e E(b) il valore medio atteso di b. Lo stimatore b della grandezza B viene definito biased se osservazioni ripetute di b hanno un valore medio diverso da E(b). Dunque si ha bias dove c è inesattezza. Si definisce bias di uno stimatore la quantità: B(b) = β E(b) (5.2) La qualità di uno stimatore si valuta in base al suo errore quadratico medio (MSE), che è generato dalla combinazione di due effetti: 1) effetto della varianza di b 2) effetto del bias di b Un teorema fondamentale della Chemiometria (illustrato in figura 5.1) dimostra che: 1) il contributo della varianza all MSE cresce sempre, linearmente, all aumentare della complessità del modello (ad es: numero di PC considerate). 2) il contributo del bias all MSE diminuisce esponenzialmente all aumentare della complessità del modello. 3) Esiste quindi un livello ottimale di complessità tale che MSE è minimo. Capacità descrittiva MSE varianza Capacità predittiva bias Complessità del modello Complessità del modello Figura 5.1 Figura 5.2 Gli andamenti mostrati in figura 5.1 sono collegati alle considerazioni seguenti, illustrate in figura 5.2 e commentati di seguito.

22 Chemiometria per la Chimica Analitica 22 1) all aumentare della complessità del problema la capacità descrittiva di un modello aumenta sempre. Per esempio, nel cercare una retta di taratura se preparassimo un numero infinito di standard, avremmo un bassissima s y/. 2) all aumentare della complessità del problema la capacità predittiva di un modello inizialmente aumenta, passa per un massimo ma poi diminuisce. Nell esempio della retta di taratura, in corrispondenza della diminuzione continua di s y/ si ha che l esattezza di un dato interpolato inizialmente aumenta, ma poi comincia a calare. Questo è in relazione a presenza di overfitting. 5.4 Validazione di un modello La validazione di un modello è la valutazione delle sue capacità predittive. Essa può essere eseguita in due modi. 1) CROSS VALIDATION. Consiste nell escludere alcuni oggetti e costruire il modello coi rimanenti, per poi usare come standard di riferimento gli oggetti esclusi. Può essere effettuata secondo due modalità: 1.A leave-one-out (LOO). Dati n oggetti si calcolano n modelli ottenuti escludendo un oggetto alla volta: ogni modello è calcolato su n-1 oggetti e verificato sull oggetto escluso dal calcolo del modello; 1.B leave-more-out (LMO). Analogo a LOO, con la differenza che si escludono k oggetti alla volta. Un insieme di k oggetti esclusi dal calcolo ed usati per testare il modello è chiamato gruppo di cancellazione. 2) VALIDAZIONE SU TEST SET. I dati originali vengono suddivisi in due gruppi, chiamati training set ed evaluation set o test set. Sul training set si effettua il calcolo del modello. Sull evaluation set si effettua la quantificazione della capacità predittiva. La situazione ottimale è quella in cui training set e test set vengono definiti a seguito di progettazione sperimentale (eperimental design).

23 Chemiometria per la Chimica Analitica CLASSIFICAZIONE 6.2 Introduzione I metodi di classificazione hanno l obiettivo di costruire, sulla base di un certo numero di descrittori, un modello capace di individuare la classe di appartenenza degli oggetti. L appartenenza ad una classe è una risposta qualitativa e classificare significa cercare un modello che metta in relazione tale risposta con le variabili indipendenti. Per poter classificare è necessario disporre di un training set nel quale ciascun oggetto sia assegnato ad una classe. Dunque le possibili classi devono essere preventivamente definite. L assegnazione degli oggetti del training set a classi, ovvero la definizione delle classi può avvenire in uno dei seguenti modi: 1) le classi sono note a priori; 2) le classi sono definite da una variabile categorica; per esempio il ph definisce le due classi delle sostanze acide e delle sostanze basiche. 3) le classi sono state ricercate mediante cluster analysis; 4) le classi emergono dalla categorizzazione di una variabile quantitativa continua (v. figura 6.1). Per esempio, all assorbanza non sono legate categorie naturali, ma potremmo definire gli intervalli 0<A<0.2 (classe 1), 0.2<A<0.8 (classe 2), A>0.8 (classe 3) e definire tre classi non naturali che separano i risultati in base all errore relativo su A (che è minimo nella classe 2) ed all intervallo lineare (che probabilmente si perde nella classe 3). classe 1 classe 2 classe 3 Variabile categorica j < valore 1 valore 1 < j < valore 2 j >valore 2 Variabile continua j Figura 6.1 Classificare un nuovo oggetto, cioè un oggetto non appartenente al training set, significa costruire un modello che può collocarlo in una delle classi definite e quantificare il livello di confidenza relativo a tale assegnazione.

24 Chemiometria per la Chimica Analitica 24 Il più comune criterio di assegnazione è basato sulla distanza dell oggetto da classificare dai centroidi delle classi. Si consideri, per esempio, la figura 6.2. In essa le lettere maiuscole rappresentano oggetti del training set, etichettati col nome della classe relativa; le lettere circolettate rappresentano i centroidi. La X rappresenta l oggetto da classificare. A A A A A A A A A B B B B B B B B B B C C C C C C C C Figura 6.2 Nel caso dei metodi di classificazione non-modellanti, X viene comunque attribuito ad una classe, che nella fattispecie è C. Nel caso dei metodi di classificazione modellanti, alle classi vengono associati dei confini, definiti su basi probabilistiche. Può quindi accadere che un oggetto non sia attribuito ad alcuna classe. Per esempio in figura 6.3 l oggetto Y è assegnato alla classe A, l oggetto X non è assegnato ad alcuna classe e risulta essere un outlier. Le ellissi rappresentano i confini delle classi e delimitano gli spazi di classe. A Y A A A A A A A A B B B B B B B B B B C C C C C C C C Figura 6.3 I metodi di classificazione modellanti possono essere di due tipi: 1) metodi di classificazione confusi (fuzzy classification methods), quando possono assegnare un oggetto anche a più di una classe; 2) metodi di classificazione ad albero (classification tree methods), quando ogni oggetto è assegnato ad una sola classe (metodi gerarchici). Tratteremo qui solo i metodi di classificazione modellanti.

25 Chemiometria per la Chimica Analitica Parametri di valutazione della classificazione Matrice di confusione C Come tutti i metodi chemiometrici, anche la classificazione è basata sulla costruzione di una matrice, detta matrice di confusione. In tale matrice le righe rappresentano le classi vere cui appartengono gli oggetti del training set, mentre le colonne rappresentano le classi calcolate mediante l applicazione di un metodo di classificazione oppure le classi predette mediante una procedura di validazione. Per definire cosa siano gli elementi della matrice di confusione, prendiamo un esempio. Siano A, B, C tre classi in cui ripartire n=30 oggetti del training set. Siano n g i numeri di oggetti che appartengono a tali classi e sia n g =10 per la classe A, n g =12 per la classe B, n g =8 per la classe C. Supponiamo di applicare un metodo di classificazione e di trovare: 9 oggetti di A cadono in A, 1 oggetto di A cade in B 2 oggetti di B cadono in A, 8 oggetti di B cadono in B, 2 oggetti di B cadono in C 1 oggetto di C cade in A, 2 oggetti di C cadono in B, 5 oggetti di C cadono in C. Costruiamo la matrice di confusione etichettando come A, B e C le sue righe e come A, B e C le sue colonne. All incrocio di una riga con una colonna scriviamo il numero di oggetti che appartengono alla classe relativa alla riga e vengono assegnati alla classe relativa alla colonna: Tabella 6.1. Matrice di confusione classi A B C n g A B C n g n=30 Sulla diagonale troviamo il conteggio degli oggetti correttamente assegnati. Fuori dalla diagonale si ha il conteggio degli oggetti erroneamente assegnati. n g è il totale di oggetti ridistribuiti tra le varie classi: in generale una parte di questi è attribuita correttamente, una parte erroneamente.

26 Chemiometria per la Chimica Analitica Percentuale di classificazioni corrette (NER) La percentuale di classificazioni corrette (non-error rate, NER) è data da: c g gg cgg NER% = 100, NER % g = 100 (6.1) n n dove c gg sono gli elementi diagonali della matrice di confusione. g Percentuale di errore di classificazioni (ER) La percentuale di classificazioni non corrette (error rate, ER) è banalmente data da: ER% = 100 NER% (6.2) Matrice delle perdite L La matrice delle perdite (loss matri, L), detta anche matrice dei costi, contiene numeri che quantificano i pesi degli errori di classificazione. Come la matrice di confusione, anche la matrice dei costi è tale che le righe rappresentano le classi vere mentre le colonne rappresentano le classi calcolate. Gli elementi della matrice dei costi quantificano la gravità relativa degli errori di classificazione. Considerato l esempio in 6.2.1, una matrice dei costi potrebbe avere la forma: Tabella 6.2. Matrice dei costi classi A B C A B C Una tale matrice indica, ad esempio, che collocare erroneamente un oggetto di C in A è il doppio più grave che collocare un oggetto di B in A. Quindi gli elementi della matrice dei costi sono delle penalità ed hanno il ruolo di pesi statistici.

27 6.2.5 Probabilità a priori di una classe Sia G il numero di classi a priori. Chemiometria per la Chimica Analitica 27 La probabilità a priori P g che un oggetto cada in una classe che a priori contiene n g elementi può essere definita in una dei seguenti modi alternativi: 1 P g = (6.3) G ng Pg = (6.4) n Se si sceglie di quantificare la probabilità a priori secondo l equazione 6.3, a tutte le classi viene attribuita la stessa probabilità a priori (probabilità uguale). Se si usa l equazione 6.4 si dà una probabilità a priori più grande alle classi più rappresentate, ovvero più numerose (probabilità proporzionale) Rischio di errore di classificazione (MR%) Si definisce rischio di errore di classificazione (misclassification risk, MR%) la quantità: ( L c ) g' gg' gg' Pg MR % 100 g (6.5) n = g dove g e g indicano classe vera e classe assegnata, P g è la probabilità a priori della classe vera, c gg sono gli elementi della matrice di confusione e L gg sono gli elementi della matrice delle perdite. MR% tiene dunque conto sia del numero di errori (matrice di confusione), sia del loro peso (matrice dei costi), sia della probabilità a priori. Nel caso di probabilità proporzionale e matrice dei costi unitaria ER e MR coincidono Sensibilità La sensibilità (sensitivity, Sn) è il rapporto tra il numero di oggetti assegnati ad una classe (c gg ) ed il numero totale di oggetti appartenenti a priori alla classe (n g ): Se si ha un solo insieme per ogni classe allora Sn=NER%. cgg Sn = 100 (6.6) n g

28 Chemiometria per la Chimica Analitica Specificità La specificità (specificity, Sp) è il rapporto tra il numero di oggetti assegnati ad una classe (c gg ) ed il numero totale di oggetti assegnati alla classe (n g ): La specificità quantifica il grado di purezza di una classe. cgg Sp = 100 (6.7) n g' Errore percentuale senza modello, NOMER% Per tutti i metodi di classificazione viene assunta come situazione di riferimento (No- Model) quella in cui è assente qualunque modello e tutti gli oggetti sono assegnati alla classe più numerosa. L errore percentuale in assenza di modello (No-Model Errore Rate, NOMER) è definito come: n ng,ma NOMER% = 100 (6.8) n dove n g,ma è il numero di oggetti della classe più numerosa. Nell esempio del par si ha dunque NOMER%=(30-12)/30=60%. Ovviamente il NOMER% è indipendente dal metodo di classificazione usato. Il rischio di classificazione in assenza di modello (No-Model Misclassification Risk, NOMMR) è uguale al rapporto tra il numero di classi malclassificate, che sarà uguale al numero totale di classi (G)meno una, ed il numero totale di classi, dunque è dato da: G 1 NOMMR % = 100 (6.9) G

29 Chemiometria per la Chimica Analitica Il metodo di classificazione K-NN Il metodo k-nearest neighbours (K-NN) è un metodo di classificazione non parametrico, in quanto non fa alcuna assunzione sulla distribuzione statistica delle variabili. Si tratta di un metodo non invariante alla scalatura dei dati. K-NN è basato sul concetto di analogia tra gli oggetti ed i loro intorni. Si tratta di un metodo poco utilizzato dai chimici analitici in quanto non fornisce un modello matematico: non fornisce descrizione quantitativa dei dati, ma solo validazione. L algoritmo su cui si basa il metodo K-NN è di seguito sintetizzato. 1) eseguire la scalatura dei dati 2) definire una metrica 3) scegliere il numero k di intorni con cui ogni oggetto viene confrontato 4) calcolare la matrice delle distanze 5) per ogni oggetto del training set considerare il k oggetti più vicini e assegnare l oggetto alla classe più rappresentata nell insieme di tali k oggetti 6) Ripetere il procedimento per diversi valori di k e per ciascun valore di k stimare MR%. Scegliere il valore di k che minimizza MR%. 7) Considerato l oggetto da classificare, lo si aggiunge al training set e lo si assegna alla classe più rappresentata nei k oggetti più vicini del training set. 6.5 Il metodo di classificazione LDA Il metodo linear discriminant analysis (LDA) è un metodo di classificazione parametrico, basato sull assunzione che le variabili siano distribuite normalmente. Si tratta di un metodo invariante alla scalatura dei dati. La classificazione LDA si applica quando le risposte Y sono distribuite normalmente con un unica varianza o covarianza (il che indica appartenenza alla stessa popolazione statistica), ma le medie delle varie classi a priori calcolate sulle variabili X sono significativamente diverse. Il metodo calcola la distanza tra ogni punto del datatset ed i centroidi delle classi a priori, assegnando ogni oggetto alla classe corrispondente la centroide più vicino. Si usa la distanza di Mahalanobis, che è normalizzata rispetto alla

30 Chemiometria per la Chimica Analitica 30 covarianza; quando la matrice di covarianza è unitaria, essa coincide con la distanza euclidea. In altre parole, tale metodo si basa sul confronto tra probabilità a priori e probabilità a posteriori di appartenenza degli oggetti alle classi. La probabilità a priori è stimata sul training set. Un oggetto viene assegnato a quella classe per la quale è massima la probabilità a posteriori. Il metodo LDA è largamente usato in Chimica Analitica è dà ottimi risultati: ha alta capacità descrittiva e alta capacità predittiva, anche in caso di leggera deviazione dalla normalità. Tra gli output numerici della LDA si hanno ER totale ed anche le distanze e le probabilità di appartenenza di ogni singolo oggetto alle varie classi. L output grafico è il CANONICAL PLOT, che è uno scores plot rispetto a due componenti principali ruotate in modo da massimizzare sia la varianza spiegata che la distanza tra le classi. A D C B

31 Chemiometria per la Chimica Analitica Il metodo di classificazione QDA Il metodo quadratic discriminant analysis (QDA) è analogo a LDA, con un unica differenza: le matrici di covarianza delle classi sono diverse ed i confini delle classi sono curve o superfici o ipersuperfici. 6.7 Il metodo di classificazione RDA Il metodo RDA è un metodo analogo agli altri due metodi discriminanti, ma lavora su matrici di covarianza regolarizzate, cioè trasformate in altre matrici mediante opportune combinazioni lineari delle matrici originali.

32 Chemiometria per la Chimica Analitica Il metodo di classificazione SIMCA Il metodo Soft Independent Models of Class Analogy (SIMCA) è un metodo non parametrico basato sull analisi delle componenti principali eseguita su dati autoscalati. A volte può presentarsi il caso in cui un oggetto sconosciuto non appartenga a nessuna delle classi considerate; con un approccio di tipo discriminante esso verrebbe erroneamente assegnato ad una delle classi. Per eliminare questo tipo di errore si rende necessario un diverso approccio: si considera, quindi, una legge che non discrimini tra un certo numero di classi, ma tra l appartenenza e la non-appartenenza; questo è possibile grazie alla costruzione di un modello per ogni classe e all utilizzo dello stesso per determinare l appartenenza di un oggetto sconosciuto alle varie classi. Questo è alla base dei metodi modellanti, tra i quali si colloca il metodo SIMCA. La classificazione SIMCA si basa sul calcolo di un modello PCA per ogni classe nota a priori e sulla scelta di un opportuno numero di componenti principali da utilizzare in predizione; i campioni incogniti sono quindi confrontati con i modelli costruiti e vengono assegnati alle classi in base alle analogie con il training set. I risultati ottenuti con il metodo SIMCA vengono rappresentati nel grafico di Cooman; esso riporta la distanza del campione dai due modelli scelti; questo grafico permette di capire facilmente se l oggetto appartiene ad una classe, a entrambe o a nessuna. Le due rette dividono lo spazio in quattro quadranti; la posizione delle rette è legata al livello di significatività scelto. Nel primo dei quattro quadranti vengono collocati i campioni assegnati a nessuno dei modelli selezionati; la zona 2 ospita i campioni assegnati al modello B; nella zona 3 vengono collocati i campioni assegnati ad entrambi i metodi; nell ultimo quadrante sono posizionati i campioni assegnati al modello A.

33 Chemiometria per la Chimica Analitica Il metodo di classificazione CART Il metodo Classification And Regression Tree (CART) è basato sulla costruzione di una sequenza di partizioni binarie dei dati, cioè di un albero decisionale (Figura 6.4). radice foglia nodo foglia nodo Figura 6.4 Il metodo CART è invariante alla scalatura dei dati. Procedimento: 1) Ad ogni nodo dell albero decisionale si associa una variabile ed un valore soglia t j per essa. 2) Per ogni oggetto, si percorre l albero decisionale dalla radice verso il basso e per ogni nodo, caratterizzato dalla variabile j, si pone l oggetto a sinistra o a destra a seconda che il valore che la variabile j assume per quell oggetto sia minore o maggiore del valore soglia t j. 3) Per tentativi, si sceglie quell attribuzione delle variabili a nodi che corrisponde alla migliore separazione dei dati. Il metodo CART lavora bene in descrizione, meno bene in predizione Scelta del metodo di classificazione Quando non vi siano altre indicazioni dettate dalla conoscenza del problema analitico, si procede scegliendo tra i metodi descritti quello che minimizza il rischio di errore i descrizione e/o in predizione, a seconda delle esigenze dell operatore. Si deve poi sempre verificare che ER% ed MR% siano minori in presenza di modello che non in assenza di modello, cioè ER%<NOMER%, MR%<NOMMR%.

34 Chemiometria per la Chimica Analitica METODI DI REGRESSIONE: BASI 7.1 Introduzione La regressione è un procedimento chemiometrico che permette di cercare un modello quantitativo che leghi un insieme di risposte misurate per numerosi oggetti ad un insieme di predittori che descrivono gli oggetti. Nel presente capitolo trattiamo il caso di un unica variabile risposta y. Quindi, in base alla simbologia introdotta nel capitolo 2, il numero di risposte è denominato r e si ha r=1. In generale, un procedimento di regressione parte dalla relazione: y = f ( 1, 2,, j,, p ) (7.1) dove y è il vettore delle risposte (n 1), gli j sono vettori n 1, p è il numero di variabili indipendenti che descrivono gli n oggetti. In questo caso il numero totale di variabili è p = p+r = p+1. La funzione f rappresenta la relazione funzionale vera tra risposta e predittori. In generale la relazione funzionale tra variabile dipendente e variabili indipendenti non è nota oppure lo è ma contiene parametri che non è possibile conoscere con accuratezza. In entrambi i casi si cercherà una relazione funzionale modello che approssimi con attendibilità controllata la relazione funzionale vera. La ricerca del modello a partire dalla matrice dei dati prende il nome di regressione e si parla si regressione lineare quando il modello è lineare. Se la relazione funzionale vera è lineare anche il modello può esserlo, ma il viceversa in generale non è vero: se un modello lineare rappresenta bene i dati NON è detto che la relazione funzionale vera sia lineare. 7.2 Regressione lineare Si parla di regressione lineare quando il modello è della forma: y i = b p 0 + b j f j ij ) j = 1 ( (7.2) con i=1,, n.

35 Chemiometria per la Chimica Analitica 35 Sia X la matrice dei dati per le variabili indipendenti (n p). Chiamiamo b il vettore dei parametri del modello; questo vettore ha dimensioni p 1 ovvero (p+1)1. In generale il modello lineare di eq. 7.2 si può scrivere nella seguente forma matriciale: y= X M b (7.3) (n 1) = (n p ) (p 1) dove X M è la matrice del modello. Se il generico elemento di X è ij, il generico elemento di X M è f j ( ij ). Se X ha p colonne e l intercetta b 0 è nulla allora anche X M ha p colonne, ma se esiste un intercetta non nulla allora X M ha p = p+1 colonne e la prima colonna è un vettore unità (tutti gli elementi uguali a 1). Ciò si può comprendere col seguente esempio. Esempio. Supponiamo di aver eseguito la lettura di un segnale y per n = 4 campioni. Supponiamo che i 4 oggetti siano descritti da una sola variabile indipendente e che il modello sia una retta y=b 0 +b 1. La matrice dei dati è 4 1: e il modello è: 1 2 X = (7.4) 3 4 y y y y = 1 1 cioè y = X M b 1 2 b 0 3 b1 4 (7.5) 7.3 Il metodo OLS o MLR Definizione di OLS-MLR Il metodo dei minimi quadrati ordinari (Ordinary Least Squares, OLS) o multilinear regression parte dall espressione:

36 Chemiometria per la Chimica Analitica 36 y = X M β + e (7.6) dove β è il vettori dei coefficienti veri da stimare ed e è il vettore degli errori. Il metodo minimizza e. Per semplicità, scriviamo la matrice del modello come X Calcolo dei parametri del modello OLS La soluzione matriciale del problema della ricerca di b è la seguente: y = X b X T y = X T X b (7.7) (X T X) -1 X T y = (X T X) -1 X T X b e poiché (X T X) -1 X T X è la matrice identità segue la soluzione matriciale del problema: b OLS =(X T X) -1 X T y e le dimensioni sono: (7.8) (p+1, 1)= (p+1, p+1) (p+1, n) (n, 1) La matrice X T X si chiama matrice di dispersione del modello. Si tenga ben presente che nella 7.8 y è il vettore delle risposte sperimentali. Si dimostra che la varianza V(b OLS ) del vettore dei coefficienti è data da: V ( b OLS p T 2 ( X X ) = σ 2 1 ) = σ tr (7.9) λ dove σ 2 è la varianza dovuta all errore sperimentale, tr sta per traccia della matrice (cioè somma dei suoi valori sulla diagonale) e i λ j sono gli autovalori della matrice di dispersione. Dunque la varianza dei coefficienti dipende da due contribuiti separati ed indipendenti: 1) σ 2, che dipende solo dalla risposta 2) gli autovalori della matrice di dispersione, che dipendono dallo spazio dei predittori. j = 1 j I leverages Una volta calcolati i coefficienti b del modello mediante la 7.8 possiamo determinare il vettore delle risposte calcolate ŷ :

37 Sostituendo la 7.8 nella 7.10 segue: Chemiometria per la Chimica Analitica 37 ŷ T ( ) 1 = X b (7.10) T yˆ = X X X X y = H y (7.11) La matrice H ha dimensione n n e mette in relazione le risposte calcolate con le risposte sperimentali. La matrice H =X (X T X) -1 X T si chiama hat matri o matrice di influenza o matrice dei leverages. Gli elementi diagonali di questa matrice sono significativi per giudicare l attendibilità del modello. Infatti si ha che: 1) gli n elementi h ii, chiamati anche funzioni di varianza degli oggetti, sono tali che: n i= 1 h min 1 = (7.12) n hii = p + 1 = p' (7.13) p + 1 p' h = = (7.14) n n * p + 1 p' h = 3 = 3 (7.15) n n 2) h * è un valore di controllo, al di sotto del quale l i-esimo oggetto è da considerare significativamente influente nel determinare i parametri del modello. 3) h min si trova vicino al centroide dello spazio del modello 4) i valori più grandi di h indicano i punti sperimentali più distanti dal modello ed i generale il valore di h ii permette di giudicare la distanza dell oggetto i-esimo dal centroide dello spazio del modello 5) per gli n oggetti del training set h è compreso tra 1/n e 1, ma per i nuovi oggetti h può essere maggiore di 1 e se ciò accade si è in estrapolazione mentre se h<1 per il nuovo oggetto si esegue interpolazione.

38 Chemiometria per la Chimica Analitica I coefficienti di regressione standardizzati, b I coefficienti b standardizzati sono definiti come segue: b ' j s = (7.16) j bj s y dove s j è la deviazione standard dell i-esimo predittore e s y è la deviazione standard della risposta. I b j danno una misura dell importanza della rispettiva variabile ed hanno il significato di pesi statistici. Inoltre la somma Σ (b j ) 2 è una misura della complessità del modello. 7.4 Il parametri di valutazione di un modello di regressione Total Sum of Squares, TSS Per qualunque modello di regressione, la quantità di riferimento, riferibile ad un modello di ordine zero, è data da: ( ) 2 i (7.17) TSS = y y TSS ha un numero di gradi di libertà pari a n-1. i Residual Sum of Squares, RSS Un modello di regressione è tanto migliore quanto più piccola è la quantità: ( ˆ ) 2 i i (7.18) RSS = y y i RSS stima la distanza complessiva delle risposte sperimentali rispetto alle corrispondenti risposte calcolate. RSS ha un numero di gradi di libertà pari a n-(p+1) Model Sum of Squares, MSS Un modello di regressione è tanto migliore quanto più grande è la quantità: ( ) 2 ˆi (7.19) MSS = y y i

39 Chemiometria per la Chimica Analitica 39 MSS stima la distanza complessiva delle risposte calcolate rispetto al centroide dello spazio del modello. MSS ha un numero di gradi di libertà pari a p. Si dimostra che: Coefficiente di correlazione multipla, R TSS = RSS + MSS (7.20) La correlazione tra la risposta sperimentale e i predittori è quantificata da: Si ha che: R 2 = 1 RSS (7.21) TSS 0 < R <1, R = 0 assenza di correlazione, R = 1 perfetta correlazione (7.22) R 2 adjusted Il seguente parametro: R RSS 2 p' /( n p') RSS p' /( n p 1) adj = 1 = 1 TSS /( n 1) TSS /( n 1) (7.23) tiene conto dei gradi di libertà relative a RSS e TSS. Mentre R 2 cresce sempre tendendo a 1 all aumentare di p, si ha che R 2 adj presenta un massimo in corrispondenza del numero ottimale di variabili, ovvero della complessità ottimale del modello Coefficienti di correlazione e fitting È di fondamentale importanza tenere presente che i coefficienti di correlazione, adjusted o meno, quantificano esclusivamente la capacità descrittiva del modello, e NON DICONO NULLA SULLE CAPACITÀ PREDITTIVE DEL MODELLO.

40 Chemiometria per la Chimica Analitica PRedictive Error Sum of Squares, PRESS Per lavorare IN PREDIZIONE occorre prendere in esame le risposte predette in luogo delle risposte calcolate. In tal caso l analogo in predizione di RSS (che è riferito alla descrizione), sarà ( ˆ ) 2 i i / i (7.24) PRESS = y y i dove y i/i è il valore predetto per l i-esimo oggetto da un modello che NON include tale oggetto nel training set Coefficiente di predizione, Q La percentuale di varianza spiegata dal modello IN PREDIZIONE è quantificata da: Q 2 = 1 PRESS (7.25) TSS Test ANOVA per la significatività del modello di regressione L obiettivo di questo test F di Fisher è verificare se sia significativa la relazione funzionale ipotizzata tra la variabile risposta y e le variabili indipendenti i. In altre parole, si vuole verificare se avendo per esempio scelto la parabola come relazione funzionale tra e y, il modello lineare: y = b 0 +b 1 z 1 + b 2 z 2, z 1 =, z 2 = 2 sia adatto ai punti sperimentali ( i, y i ). L ipotesi nulla è: tutti i coefficienti di regressione sono non significativamente diversi da 0 L ipotesi alternativa è: almeno un coefficiente di regressione è significativo. Nel caso l ipotesi nulla sia rigettabile e cioè esista un modello che lega la risposta alle variabili indipendenti secondo la relazione funzionale ipotizzata, allora si verificherà che la variazione totale TSS è la somma di due contributi significativamente diversi tra loro: MSS, che è la variazione spiegata dalla regressione, dovrà essere significativamente maggiore rispetto alla variazione non spiegata dal modello, che è RSS.

41 Chemiometria per la Chimica Analitica 41 Dunque occorre svolgere un F test in cui l F sperimentale (F oss ) è dato da: F oss MSS /( p' 1) = = RSS / e il valore di F critico di tabella (F TAB ) è: F TAB MSS /( p' 1) ( n p' ) RSS /( n p 1) = F[ α ;( p' 1);( n p')] e poiché stiamo considerando una sola risposta, è p =p+1 e quindi: F TAB = F[ α ; p;( n p')] Errore standard della stima La stima globale dell accuratezza con cui la funzione usata per modellare i dati descrive la dipendenza della risposta dai predittori è quantificabile mediante la grandezza: s y RSS RSS = = n p' n p 1 (7.26) Tale grandezza è comunemente indicata col termine: deviazione standard della regressione. Si osservi che nel caso di una OLS con p=1, ovvero di una regressione lineare univariata, la 7.26 è il calcolo di s y/. 7.5 Metodi diagnostici per un modello di regressione I metodi per verificare l attendibilità di un modello sono numerosi. Qui, per semplicità didattica, proponiamo solo l analisi per via grafica dei leverages Leverage plot Il leverage plot riporta i residui standardizzati in funzione dei leverages. Un grafico dei leverages ha l andamento seguente: Figura I punti che ben si accordano al modello sono quelli sul lato sinistro, riquadro centrale. Gli altri sono da considerare outliers.

42 Chemiometria per la Chimica Analitica METODI DI REGRESSIONE: SVILUPPI 8.1. Metodo di Regressione in Componenti Principali, PCR Il metodo di regressione in componenti principali (Principal Components Regression, PCR) è sostanzialmente un OLS che prende come matrice dei dati la matrice degli scores. Una volta trovati i parametri del modello in componenti principali, tramite la matrice dei loadings si calcolano i parametri del modello riferiti alle variabili originali ma ripuliti dall informazione analitica non utile. Si riportano di seguito le equazioni base del metodo: T = X (7.27) M L M dove M è il numero di componenti principali, T è la matrice degli scores, X è la matrice del modello, L è la matrice dei loadings. y = T M α + ε (7.28) dove α sono i parametri del modello in componenti principali. e infine: a PCR b PCR T 1 T ( T T ) T y = (7.28) = L a (7.28) M PCR dove b PCR sono i parametri del modello rispetto alle variabili originali, ma ripuliti dell informazione analitica non utile.

43 Chemiometria per la Chimica Analitica Metodo Partial Least Squares, PLS Il metodo di regressione ai minimi quadrati parziali (Partial Least Squares, PLS) si applica quando sussiste una almeno delle seguenti condizioni: 1) sono presenti più risposte 2) sono presenti numerosi predittori che sono fortemente correlati tra loro; questo può essere per esempio il caso in cui i predittori sono letture di assorbanza di uno spettro di assorbimento oppure sono letture di corrente di un voltammogramma ottenuto mediante la tecnica di voltammetria di deposizione/ridissoluzione con scansione di potenziale. 3) Il numero di oggetti è molto inferiore rispetto al numero di variabili. In particolare, si parla di metodo PLS2 nel caso di molteplici risposte mentre si parla di metodo PLS1 nel caso di una solo risposta e numerosi predittori fortemente correlati. La PLS consiste in uno sviluppo della PCR, in quanto le componenti utilizzate sono derivate non solo dal set di predittori, ma anche dall insieme delle risposte. In questo modo è possibile massimizzare la varianza non solo delle X del sistema, ma anche delle Y. Poiché non è detto che le componenti principali che spiegano la maggior parte della varianza dei predittori siano anche i più rilevanti ai fini della regressione si può migliorare la PCR applicando un algoritmo che utilizzi in modo iterativo coppie di fattori latenti (componenti principali) su X, (matrice delle variabili indipendenti) e su Y, (matrice che contiene più di una variabile risposta), e ricerchi tra queste la massima correlazione possibile: così appunto funziona il metodo PLS. La Figura 8.1 rappresenta in modo schematico questa procedura iterativa. Figura 8.1: rappresentazione schematica dell approccio di tipo indiretto del modello PLS per predire le risposte.

44 Chemiometria per la Chimica Analitica 44 La PLS dunque si differenzia dalla PCR perché utilizza il set di dati delle risposte in modo attivo durante l analisi statistica, e ciò permette di bilanciare meglio l informazione contenuta nelle X e nelle Y. La regressione ai minimi quadrati parziali è probabilmente il metodo meno restrittivo delle varie estensioni multivariate del modello di regressione lineare multipla. Questa flessibilità permette di utilizzare tale metodo in situazioni nelle quali l'uso dei metodi multivariati tradizionali è molto limitato. La regressione ai minimi quadrati parziali è diventata uno strumento standard per la calibrazione di metodologie chimico-analitiche che forniscano misure multivariate. In generale, a fronte di una più complicata operatività, la PLS fornisce comunque modelli più semplici di quelli costruibili con la PCR ed è in grado di dare risposte esaurienti anche in presenza di dati poco precisi, casi in cui la PCR può fallire. Il parametro di controllo della regressione PLS è il Root Mean Square Error (RMSE), definibile sia in descrizione=calibrazione (RMSEC) che in predizione=validazione: RMSEC = RMSEP = n i= 1 n i= 1 ( y ( y calc pred y n n y obs obs ) ) Confronto tra metodi di regressione Il miglior metodo di regressione tra i vari possibili è quello che dà i migliori coefficienti di correlazione in descrizione e in predizione. Esiste un metodo grafico per stimare la confrontabilità tra metodi. Esso consiste nel costruire una matrice in cui le righe rappresentano i diversi metodi di regressione e le colonne riportano i coefficienti di regressione standardizzati da b 1 a b p. Si esegue una PCA su tale matrice e si riportano gli scores ottenuti per PC2 in funzione di quelli ottenuti per PC1. Punti vicini in tale grafico corrispondono a metodi di prestazione simile.

45 Chemiometria per la Chimica Analitica Esempi pratici di calibrazione mediante regressione PLS Spettrofotometria Uno spettro nel vicino infrarosso (NIR) si presenta come una serie di bande di assorbimento scarsamente definite, nel senso che i punti di massimo non sono facilmente individuabili. In tal caso, anche in presenza di un solo analita di concentrazione c, procedere in modo univariato scegliendo una particolare lunghezza d onda in corrispondenza della quale campionare il segnale di assorbanza A per standard di varia concentrazione c non è possibile. Dunque non è possibile eseguire calibrazione uni variata utilizzando la legge di Lambert-Beer A λ = k c. Uno spettro UV-Vis si presenta come una serie di bande di assorbimento ben definite, ma nel caso in cui siano presenti più cromofori, ovvero n analiti a concentrazione c i ( i=1,..,n), la calibrazione univariata non è applicabile. Quando sussista almeno una delle due situazioni di cui sopra (spettri NIR, presenza di più analiti) è comunque possibile calibrare e predire concentrazioni di incogniti, ma è necessario applicare metodiche multivariate e precisamente la PLS. Esempio. Si applica la spettrometria NIR in riflettanza per analizzare eroina in polvere. I campioni standard ed incogniti sono miscele solide tricomponente contenenti il principio attivo (diacetilmorfina, DAM) e due sostanze da taglio (caffeina, CAF e paracetamolo, PAR). Applicando un opportuna progettazione sperimentale si preparano i seguenti campioni standard.

46 Chemiometria per la Chimica Analitica 46 TRAINING SET Diacetylmorphine Caffeine Paracetamol (% w/w) (% w/w) (% w/w) Per ogni campione (oggetto) si ottiene uno spettro. Si costruisce la matrice dei dati scrivendo una riga di matrice per ogni oggetto. Per ogni riga, le prime tre colonne sono le concentrazioni dei tre componenti, mentre le successive 356 colonne sono le letture di assorbanza corrispondenti alle 356 lunghezze d onda campionate da uno spettrometro a serie di diodi. Qui i dati noti sono le assorbanze, che quindi sono le variabili indipendenti e formano la matrice X; le concentrazioni sono invece le incognite, rappresentano le variabili dipendenti e formano la matrice Y. Mediante The Unscrambler, si costruisce la matrice di dati nella forma: Si lancia un Task di Regressione PLS2. Si costruisce un grafico delle risposte in Full Cross-Validation (LeaveOneOut), ottenendo:

47 Chemiometria per la Chimica Analitica 47 L intercetta e la pendenza dei grafici delle risposte nonché i valori di RMSE permettodono di valutare le prestazioni del modello Voltammetria pulsata di ridissoluzione La voltammetria pulsata basata sulla deposizione sulla superficie di un elettrodo di un analita e sulla scansione di potenziale con conseguente ridissoluzione (stripping) dell analita stesso porta a voltammogrammi a picchi, come quello sotto riportato. corrente (na) potenziale (mv)

48 Chemiometria per la Chimica Analitica 48 Si tratta di un caso sperimentale del tutto analogo alla spettrofotometria, solo che qui il dato sequenziale è corrente vs. potenziale. La procedura di costruzione della matrice dei dati e creazione del modello è analoga. Tuttavia, nel presente paragrafo citiamo un metodo PLS1 nel quale si ha una sola variabile risposta che è la concentrazione aggiunta al campione incognito: in tal caso si costruisce un metodo delle aggiunte standard multivariato ovvero una calibrazione multivariata per estrapolazione. L affidabilità di tale procedura è ancora oggetto di ricerca scientifica. Un dataset di The Unscrambler riferito ad un metodo delle aggiunte standard multivariato è riportato di seguito: La prima riga di questo dataset è l analogo multivariato del segnale nullo univariato : si tratta della linea di base dei voltammogrammi. Per calcolare il dato incognito, che è quello in riga 1, colonna 1 (m sta per missing value), di esegue una predizione su y dando come input le colonne da 2 in poi della riga 1. Si ottiene ovviamente un valore negativo (come avviene nell estrapolazione univariata), il cui valore assoluto è il dato estrapolato cercato: quello che in univariata si indicava con E (v. fig delle dispense di statistica univariata scaricabili da: riportata anche sotto).

Cluster Analysis. La Cluster Analysis è il processo attraverso il quale vengono individuati raggruppamenti dei dati. per modellare!

Cluster Analysis. La Cluster Analysis è il processo attraverso il quale vengono individuati raggruppamenti dei dati. per modellare! La Cluster Analysis è il processo attraverso il quale vengono individuati raggruppamenti dei dati. Le tecniche di cluster analysis vengono usate per esplorare i dati e non per modellare! La cluster analysis

Dettagli

3. Vettori, Spazi Vettoriali e Matrici

3. Vettori, Spazi Vettoriali e Matrici 3. Vettori, Spazi Vettoriali e Matrici Vettori e Spazi Vettoriali Operazioni tra vettori Basi Trasformazioni ed Operatori Operazioni tra Matrici Autovalori ed autovettori Forme quadratiche, quadriche e

Dettagli

Intelligenza Artificiale. Clustering. Francesco Uliana. 14 gennaio 2011

Intelligenza Artificiale. Clustering. Francesco Uliana. 14 gennaio 2011 Intelligenza Artificiale Clustering Francesco Uliana 14 gennaio 2011 Definizione Il Clustering o analisi dei cluster (dal termine inglese cluster analysis) è un insieme di tecniche di analisi multivariata

Dettagli

Statistica. Alfonso Iodice D Enza

Statistica. Alfonso Iodice D Enza Statistica Alfonso Iodice D Enza iodicede@gmail.com Università degli studi di Cassino () Statistica 1 / 24 Outline 1 2 3 4 5 () Statistica 2 / 24 Dipendenza lineare Lo studio della relazione tra caratteri

Dettagli

TOPOGRAFIA 2013/2014. Prof. Francesco-Gaspare Caputo

TOPOGRAFIA 2013/2014. Prof. Francesco-Gaspare Caputo TOPOGRAFIA 2013/2014 L operazione di misura di una grandezza produce un numero reale che esprime il rapporto della grandezza stessa rispetto a un altra, a essa omogenea, assunta come unità di misura. L

Dettagli

REGRESSIONE E CORRELAZIONE

REGRESSIONE E CORRELAZIONE REGRESSIONE E CORRELAZIONE Nella Statistica, per studio della connessione si intende la ricerca di eventuali relazioni, di dipendenza ed interdipendenza, intercorrenti tra due variabili statistiche 1.

Dettagli

Statistica. Alfonso Iodice D Enza

Statistica. Alfonso Iodice D Enza Statistica Alfonso Iodice D Enza iodicede@unicas.it Università degli studi di Cassino () Statistica 1 / 33 Outline 1 2 3 4 5 6 () Statistica 2 / 33 Misura del legame Nel caso di variabili quantitative

Dettagli

Teoria e tecniche dei test. Concetti di base

Teoria e tecniche dei test. Concetti di base Teoria e tecniche dei test Lezione 2 2013/14 ALCUNE NOZIONI STATITICHE DI BASE Concetti di base Campione e popolazione (1) La popolazione è l insieme di individui o oggetti che si vogliono studiare. Questi

Dettagli

La matrice delle correlazioni è la seguente:

La matrice delle correlazioni è la seguente: Calcolo delle componenti principali tramite un esempio numerico Questo esempio numerico puó essere utile per chiarire il calcolo delle componenti principali e per introdurre il programma SPAD. IL PROBLEMA

Dettagli

METODI DI CLASSIFICAZIONE. Federico Marini

METODI DI CLASSIFICAZIONE. Federico Marini METODI DI CLASSIFICAZIONE Federico Marini Introduzione Nella parte introduttiva dell analisi multivariata abbiamo descritto la possibilità di riconoscere l origine di alcuni campioni come uno dei campi

Dettagli

Capitolo 6. La distribuzione normale

Capitolo 6. La distribuzione normale Levine, Krehbiel, Berenson Statistica II ed. 2006 Apogeo Capitolo 6 La distribuzione normale Insegnamento: Statistica Corso di Laurea Triennale in Ingegneria Gestionale Facoltà di Ingegneria, Università

Dettagli

DISTRIBUZIONE NORMALE (1)

DISTRIBUZIONE NORMALE (1) DISTRIBUZIONE NORMALE (1) Nella popolazione generale molte variabili presentano una distribuzione a forma di campana, bene caratterizzata da un punto di vista matematico, chiamata distribuzione normale

Dettagli

UNITA DIDATTICA. Conoscenze. Abilità

UNITA DIDATTICA. Conoscenze. Abilità Titolo: Problemi di geometria analitica : la parabola e l iperbole Codice: B1_S Ore previste:15 Equazione della parabola e coordinate del vertice Grafico di una parabola Equazione dell iperbole equilatera

Dettagli

Università del Piemonte Orientale Specializzazioni di area sanitaria Statistica Medica

Università del Piemonte Orientale Specializzazioni di area sanitaria Statistica Medica Università del Piemonte Orientale Specializzazioni di area sanitaria Statistica Medica Regressione Lineare e Correlazione Argomenti della lezione Determinismo e variabilità Correlazione Regressione Lineare

Dettagli

Statistica Applicata all edilizia: il modello di regressione

Statistica Applicata all edilizia: il modello di regressione Statistica Applicata all edilizia: il modello di regressione E-mail: orietta.nicolis@unibg.it 27 aprile 2009 Indice Il modello di Regressione Lineare 1 Il modello di Regressione Lineare Analisi di regressione

Dettagli

Lezione 10: Interpolazione lineare Corso di Statistica Facoltà di Economia Università della Basilicata. Prof. Massimo Aria

Lezione 10: Interpolazione lineare Corso di Statistica Facoltà di Economia Università della Basilicata. Prof. Massimo Aria Lezione 10: Interpolazione lineare Corso di Statistica Facoltà di Economia Università della Basilicata Prof. Massimo Aria aria@unina.it Il concetto di interpolazione In matematica, e in particolare in

Dettagli

Sistemi lineari. Lorenzo Pareschi. Dipartimento di Matematica & Facoltá di Architettura Universitá di Ferrara

Sistemi lineari. Lorenzo Pareschi. Dipartimento di Matematica & Facoltá di Architettura Universitá di Ferrara Sistemi lineari Lorenzo Pareschi Dipartimento di Matematica & Facoltá di Architettura Universitá di Ferrara http://utenti.unife.it/lorenzo.pareschi/ lorenzo.pareschi@unife.it Lorenzo Pareschi (Univ. Ferrara)

Dettagli

PIANO CARTESIANO e RETTE classi 2 A/D 2009/2010

PIANO CARTESIANO e RETTE classi 2 A/D 2009/2010 PIANO CARTESIANO e RETTE classi 2 A/D 2009/2010 1) PIANO CARTESIANO serve per indicare, identificare, chiamare... ogni PUNTO del piano (ente geometrico) con una coppia di valori numerici (detti COORDINATE).

Dettagli

Capitolo 2 Le misure delle grandezze fisiche

Capitolo 2 Le misure delle grandezze fisiche Capitolo 2 Le misure delle grandezze fisiche Gli strumenti di misura Gli errori di misura Il risultato di una misura Errore relativo ed errore percentuale Propagazione degli errori Rappresentazione di

Dettagli

PROCEDURE/TECNICHE DI ANALISI / MISURE DI ASSOCIAZIONE A) ANALISI DELLA VARIANZA

PROCEDURE/TECNICHE DI ANALISI / MISURE DI ASSOCIAZIONE A) ANALISI DELLA VARIANZA PROCEDURE/TECNICHE DI ANALISI / MISURE DI ASSOCIAZIONE A) ANALISI DELLA VARIANZA PROCEDURA/TECNICA DI ANALISI DEI DATI SPECIFICAMENTE DESTINATA A STUDIARE LA RELAZIONE TRA UNA VARIABILE NOMINALE (ASSUNTA

Dettagli

Università del Piemonte Orientale Corso di Laurea in Medicina e Chirurgia. Corso di Statistica Medica. Correlazione. Regressione Lineare

Università del Piemonte Orientale Corso di Laurea in Medicina e Chirurgia. Corso di Statistica Medica. Correlazione. Regressione Lineare Università del Piemonte Orientale Corso di Laurea in Medicina e Chirurgia Corso di Statistica Medica Correlazione Regressione Lineare Corso di laurea in medicina e chirurgia - Statistica Medica Correlazione

Dettagli

= elemento che compare nella seconda riga e quinta colonna = -4 In generale una matrice A di m righe e n colonne si denota con

= elemento che compare nella seconda riga e quinta colonna = -4 In generale una matrice A di m righe e n colonne si denota con Definizione di matrice Una matrice (di numeri reali) è una tabella di m x n numeri disposti su m righe e n colonne. I numeri che compaiono nella tabella si dicono elementi della matrice. La loro individuazione

Dettagli

L errore percentuale di una misura è l errore relativo moltiplicato per 100 ed espresso in percentuale. Si indica con e p e risulta: e ( e 100)%

L errore percentuale di una misura è l errore relativo moltiplicato per 100 ed espresso in percentuale. Si indica con e p e risulta: e ( e 100)% UNITÀ L ELBORZIONE DEI DTI IN FISIC 1. Gli errori di misura.. Errori di sensibilità, errori casuali, errori sistematici. 3. La stima dell errore. 4. La media, la semidispersione e lo scarto quadratico

Dettagli

La statistica. Elaborazione e rappresentazione dei dati Gli indicatori statistici. Prof. Giuseppe Carucci

La statistica. Elaborazione e rappresentazione dei dati Gli indicatori statistici. Prof. Giuseppe Carucci La statistica Elaborazione e rappresentazione dei dati Gli indicatori statistici Introduzione La statistica raccoglie ed analizza gruppi di dati (su cose o persone) per trarne conclusioni e fare previsioni

Dettagli

La valutazione dei rischi. Corso di risk management Prof. Giuseppe D Onza

La valutazione dei rischi. Corso di risk management Prof. Giuseppe D Onza La valutazione dei rischi Corso di risk management Prof. Giuseppe D Onza LA VALUTAZIONE DEI RISCHI E un attività che caratterizza la gestione dei rischi finalizzata ad apprezzare la gravità dei fenomeni

Dettagli

Appendice 1. Spazi vettoriali

Appendice 1. Spazi vettoriali Appendice. Spazi vettoriali Indice Spazi vettoriali 2 2 Dipendenza lineare 2 3 Basi 3 4 Prodotto scalare 3 5 Applicazioni lineari 4 6 Applicazione lineare trasposta 5 7 Tensori 5 8 Decomposizione spettrale

Dettagli

STATISTICA (2) ESERCITAZIONE Dott.ssa Antonella Costanzo

STATISTICA (2) ESERCITAZIONE Dott.ssa Antonella Costanzo STATISTICA (2) ESERCITAZIONE 7 11.03.2014 Dott.ssa Antonella Costanzo Esercizio 1. Test di indipendenza tra mutabili In un indagine vengono rilevate le informazioni su settore produttivo (Y) e genere (X)

Dettagli

Generazione di Numeri Casuali- Parte 2

Generazione di Numeri Casuali- Parte 2 Esercitazione con generatori di numeri casuali Seconda parte Sommario Trasformazioni di Variabili Aleatorie Trasformazione non lineare: numeri casuali di tipo Lognormale Trasformazioni affini Numeri casuali

Dettagli

Corso integrato di informatica, statistica e analisi dei dati sperimentali Esercitazione VII

Corso integrato di informatica, statistica e analisi dei dati sperimentali Esercitazione VII Corso integrato di informatica, statistica e analisi dei dati sperimentali Esercitazione VII Un breve richiamo sul test t-student Siano A exp (a 1, a 2.a n ) e B exp (b 1, b 2.b m ) due set di dati i cui

Dettagli

UNITÀ DIDATTICA 2 LE FUNZIONI

UNITÀ DIDATTICA 2 LE FUNZIONI UNITÀ DIDATTICA LE FUNZIONI. Le funzioni Definizione. Siano A e B due sottoinsiemi non vuoti di R. Si chiama funzione di A in B una qualsiasi legge che fa corrispondere a ogni elemento A uno ed un solo

Dettagli

Vettori e geometria analitica in R 3 1 / 25

Vettori e geometria analitica in R 3 1 / 25 Vettori e geometria analitica in R 3 1 / 25 Sistemi di riferimento in R 3 e vettori 2 / 25 In fisica, grandezze fondamentali come forze, velocità, campi elettrici e magnetici vengono convenientemente descritte

Dettagli

IL CRITERIO DELLA MASSIMA VEROSIMIGLIANZA

IL CRITERIO DELLA MASSIMA VEROSIMIGLIANZA Metodi per l Analisi dei Dati Sperimentali AA009/010 IL CRITERIO DELLA MASSIMA VEROSIMIGLIANZA Sommario Massima Verosimiglianza Introduzione La Massima Verosimiglianza Esempio 1: una sola misura sperimentale

Dettagli

Si consideri il sistema a coefficienti reali di m equazioni lineari in n incognite

Si consideri il sistema a coefficienti reali di m equazioni lineari in n incognite 3 Sistemi lineari 3 Generalità Si consideri il sistema a coefficienti reali di m equazioni lineari in n incognite ovvero, in forma matriciale, a x + a 2 x 2 + + a n x n = b a 2 x + a 22 x 2 + + a 2n x

Dettagli

2. APPUNTI SUI FASCI DI CIRCONFERENZE (raccolti dal prof. G. Traversi)

2. APPUNTI SUI FASCI DI CIRCONFERENZE (raccolti dal prof. G. Traversi) 2. APPUNTI SUI FASCI DI CIRCONFERENZE (raccolti dal prof. G. Traversi) La circonferenza è la curva di 2^ grado che viene individuata univocamente da tre punti non allineati e possiede la seguente proprietà:

Dettagli

Note sulla probabilità

Note sulla probabilità Note sulla probabilità Maurizio Loreti Dipartimento di Fisica Università degli Studi di Padova Anno Accademico 2002 03 1 La distribuzione del χ 2 0.6 0.5 N=1 N=2 N=3 N=5 N=10 0.4 0.3 0.2 0.1 0 0 5 10 15

Dettagli

Studio generale di una conica

Studio generale di una conica Studio generale di una conica Manlio De Domenico 19 Giugno 2003 Definizione 1 Si definisce conica C un equazione algebrica F (x 1, x 2, x 3 ) = 0 del secondo ordine omogenea. Detta A la matrice simmetrica

Dettagli

Statistica. POPOLAZIONE: serie di dati, che rappresenta linsieme che si vuole indagare (reali, sperimentali, matematici)

Statistica. POPOLAZIONE: serie di dati, che rappresenta linsieme che si vuole indagare (reali, sperimentali, matematici) Statistica La statistica può essere vista come la scienza che organizza ed analizza dati numerici per fini descrittivi o per permettere di prendere delle decisioni e fare previsioni. Statistica descrittiva:

Dettagli

VETTORI E SCALARI DEFINIZIONI. Si definisce scalare una grandezza definita interamente da un solo numero, affiancato dalla sua unità di misura.

VETTORI E SCALARI DEFINIZIONI. Si definisce scalare una grandezza definita interamente da un solo numero, affiancato dalla sua unità di misura. VETTORI E SCALARI DEFINIZIONI Si definisce scalare una grandezza definita interamente da un solo numero, affiancato dalla sua unità di misura. Un vettore è invece una grandezza caratterizzata da 3 entità:

Dettagli

M. Marra Appunti delle Lezioni di Ricerca Operativa Problemi e metodi di ottimizzazione PROBLEMI E METODI DI OTTIMIZZAZIONE

M. Marra Appunti delle Lezioni di Ricerca Operativa Problemi e metodi di ottimizzazione PROBLEMI E METODI DI OTTIMIZZAZIONE CAPITOLO I PROBLEMI E METODI DI OTTIMIZZAZIONE 1. Componenti di base Tutti i problemi di ottimizzazione dipendono da tre componenti di base: le variabili del problema, la funzione obiettivo ed i vincoli.

Dettagli

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 2

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 2 CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 2 Dott.ssa Antonella Costanzo a.costanzo@unicas.it TIPI DI MEDIA: GEOMETRICA, QUADRATICA, ARMONICA Esercizio 1. Uno scommettitore puntando una somma iniziale

Dettagli

Esercitazione: La distribuzione NORMALE

Esercitazione: La distribuzione NORMALE Esercitazione: La distribuzione NORMALE Uno dei più importanti esempi di distribuzione di probabilità continua è dato dalla distribuzione Normale (curva normale o distribuzione Gaussiana); è una delle

Dettagli

Il metodo delle osservazioni indirette

Il metodo delle osservazioni indirette Il metodo delle osservazioni indirette Teoria della stima ai minimi quadrati Il criterio di massima verosimiglianza Sia data una grandezza η e si abbiano n osservazioni indipendenti l i (i=1,...,n) di

Dettagli

LEZIONE Equazioni matriciali. Negli Esempi e si sono studiati più sistemi diversi AX 1 = B 1, AX 2 = R m,n, B = (b i,h ) 1 i m

LEZIONE Equazioni matriciali. Negli Esempi e si sono studiati più sistemi diversi AX 1 = B 1, AX 2 = R m,n, B = (b i,h ) 1 i m LEZIONE 4 41 Equazioni matriciali Negli Esempi 336 e 337 si sono studiati più sistemi diversi AX 1 = B 1, AX 2 = B 2,, AX p = B p aventi la stessa matrice incompleta A Tale tipo di problema si presenta

Dettagli

7 Disegni sperimentali ad un solo fattore. Giulio Vidotto Raffaele Cioffi

7 Disegni sperimentali ad un solo fattore. Giulio Vidotto Raffaele Cioffi 7 Disegni sperimentali ad un solo fattore Giulio Vidotto Raffaele Cioffi Indice: 7.1 Veri esperimenti 7.2 Fattori livelli condizioni e trattamenti 7.3 Alcuni disegni sperimentali da evitare 7.4 Elementi

Dettagli

Esame di Geometria - 9 CFU (Appello del 14 gennaio A)

Esame di Geometria - 9 CFU (Appello del 14 gennaio A) Esame di Geometria - 9 CFU (Appello del 4 gennaio 24 - A) Cognome: Nome: Nr.matricola: Corso di laurea: Esercizio. Si considerino le rette s : { x x 2 2x 3 = 2 3x x 2 =, { x + x s 2 : 2 x 3 = x 2 =.. Stabilire

Dettagli

Questo paragrafo e quello successivo trattano gli stessi argomenti del capitolo B6 relativo alla soluzione grafica dei sistemi di primo grado.

Questo paragrafo e quello successivo trattano gli stessi argomenti del capitolo B6 relativo alla soluzione grafica dei sistemi di primo grado. D1. Retta D1.1 Equazione implicita ed esplicita Ogni equazione di primo grado in due incognite rappresenta una retta sul piano cartesiano (e viceversa). Si può scrivere un equazione di primo grado in due

Dettagli

Sistemi di 1 grado in due incognite

Sistemi di 1 grado in due incognite Sistemi di 1 grado in due incognite Problema In un cortile ci sono polli e conigli: in totale le teste sono 7 e zampe 18. Quanti polli e quanti conigli ci sono nel cortile? Soluzione Indichiamo con e con

Dettagli

Moltiplicazione. Divisione. Multipli e divisori

Moltiplicazione. Divisione. Multipli e divisori Addizione Sottrazione Potenze Moltiplicazione Divisione Multipli e divisori LE QUATTRO OPERAZIONI Una operazione aritmetica è quel procedimento che fa corrispondere ad una coppia ordinata di numeri (termini

Dettagli

Metodologia Sperimentale Agronomica / Metodi Statistici per la Ricerca Ambientale

Metodologia Sperimentale Agronomica / Metodi Statistici per la Ricerca Ambientale DIPARTIMENTO DI SCIENZE AGRARIE E AMBIENTALI PRODUZIONE, TERRITORIO, AGROENERGIA Marco Acutis marco.acutis@unimi.it www.acutis.it CdS Scienze della Produzione e Protezione delle Piante (g59) CdS Biotecnologie

Dettagli

Σ (x i - x) 2 = Σ x i 2 - (Σ x i ) 2 / n Σ (y i - y) 2 = Σ y i 2 - (Σ y i ) 2 / n. 13. Regressione lineare parametrica

Σ (x i - x) 2 = Σ x i 2 - (Σ x i ) 2 / n Σ (y i - y) 2 = Σ y i 2 - (Σ y i ) 2 / n. 13. Regressione lineare parametrica 13. Regressione lineare parametrica Esistono numerose occasioni nelle quali quello che interessa è ricostruire la relazione di funzione che lega due variabili, la variabile y (variabile dipendente, in

Dettagli

L indagine campionaria Lezione 3

L indagine campionaria Lezione 3 Anno accademico 2007/08 L indagine campionaria Lezione 3 Docente: prof. Maurizio Pisati Variabile casuale Una variabile casuale è una quantità discreta o continua il cui valore è determinato dal risultato

Dettagli

Esercizi di MATEMATICA PER RCHITETTURA prima parte: Algebra Lineare e Geometria

Esercizi di MATEMATICA PER RCHITETTURA prima parte: Algebra Lineare e Geometria Esercizi di MATEMATICA PER RCHITETTURA prima parte: Algebra Lineare e Geometria Avvertenze In quanto segue tutti i vettori hanno il medesimo punto d origine O l origine dello spazio cartesiano. Possiamo

Dettagli

Lezioni di Statistica del 15 e 18 aprile Docente: Massimo Cristallo

Lezioni di Statistica del 15 e 18 aprile Docente: Massimo Cristallo UIVERSITA DEGLI STUDI DI BASILICATA FACOLTA DI ECOOMIA Corso di laurea in Economia Aziendale anno accademico 2012/2013 Lezioni di Statistica del 15 e 18 aprile 2013 Docente: Massimo Cristallo LA RELAZIOE

Dettagli

LA DISTRIBUZIONE NORMALE (Vittorio Colagrande)

LA DISTRIBUZIONE NORMALE (Vittorio Colagrande) LA DISTRIBUZIONE NORMALE (Vittorio Colagrande) Allo scopo di interpolare un istogramma di un carattere statistico X con una funzione continua (di densità), si può far ricorso nell analisi statistica alla

Dettagli

SISTEMI LINEARI MATRICI E SISTEMI 1

SISTEMI LINEARI MATRICI E SISTEMI 1 MATRICI E SISTEMI SISTEMI LINEARI Sistemi lineari e forma matriciale (definizioni e risoluzione). Teorema di Rouché-Capelli. Sistemi lineari parametrici. Esercizio Risolvere il sistema omogeneo la cui

Dettagli

Geometria analitica di base (seconda parte)

Geometria analitica di base (seconda parte) SAPERE Al termine di questo capitolo, avrai appreso: il concetto di luogo geometrico la definizione di funzione quadratica l interpretazione geometrica di un particolare sistema di equazioni di secondo

Dettagli

Analisi della varianza a una via

Analisi della varianza a una via Analisi della varianza a una via Statistica descrittiva e Analisi multivariata Prof. Giulio Vidotto PSY-NET: Corso di laurea online in Discipline della ricerca psicologico-sociale SOMMARIO Modelli statistici

Dettagli

EQUAZIONE DELLA RETTA

EQUAZIONE DELLA RETTA EQUAZIONE DELLA RETTA EQUAZIONE DEGLI ASSI L equazione dell asse x è 0. L equazione dell asse y è 0. EQUAZIONE DELLE RETTE PARALLELE AGLI ASSI L equazione di una retta r parallela all asse x è cioè è uguale

Dettagli

Lezione n. 1 _Complementi di matematica

Lezione n. 1 _Complementi di matematica Lezione n. 1 _Complementi di matematica INTRODUZIONE ALLA STATISTICA La statistica è una disciplina che si occupa di fenomeni collettivi ( cioè fenomeni in cui sono coinvolti più individui o elementi )

Dettagli

Ogni misura è composta di almeno tre dati: un numero, un'unità di misura, un'incertezza.

Ogni misura è composta di almeno tre dati: un numero, un'unità di misura, un'incertezza. Ogni misura è composta di almeno tre dati: un numero, un'unità di misura, un'incertezza. Misure ripetute forniscono dati numerici distribuiti attorno ad un valore centrale indicabile con un indice (indice

Dettagli

Statistica. Matematica con Elementi di Statistica a.a. 2015/16

Statistica. Matematica con Elementi di Statistica a.a. 2015/16 Statistica La statistica è la scienza che organizza e analizza dati numerici per fini descrittivi o per permettere di prendere delle decisioni e fare previsioni. Statistica descrittiva: dalla mole di dati

Dettagli

ITCS Erasmo da Rotterdam. Anno Scolastico 2014/2015. CLASSE 4^ M Costruzioni, ambiente e territorio

ITCS Erasmo da Rotterdam. Anno Scolastico 2014/2015. CLASSE 4^ M Costruzioni, ambiente e territorio ITCS Erasmo da Rotterdam Anno Scolastico 014/015 CLASSE 4^ M Costruzioni, ambiente e territorio INDICAZIONI PER IL LAVORO ESTIVO DI MATEMATICA e COMPLEMENTI di MATEMATICA GLI STUDENTI CON IL DEBITO FORMATIVO

Dettagli

Applicazioni lineari e diagonalizzazione. Esercizi svolti

Applicazioni lineari e diagonalizzazione. Esercizi svolti . Applicazioni lineari Esercizi svolti. Si consideri l applicazione f : K -> K definita da f(x,y) = x + y e si stabilisca se è lineare. Non è lineare. Possibile verifica: f(,) = 4; f(,4) = 6; quindi f(,4)

Dettagli

1.1 Coordinate sulla retta e nel piano; rette nel piano

1.1 Coordinate sulla retta e nel piano; rette nel piano 1 Sistemi lineari 11 Coordinate sulla retta e nel piano; rette nel piano Coordinate sulla retta Scelti su una retta un primo punto O (origine) ed un diverso secondo punto U (unita ), l identificazione

Dettagli

TEORIA DEGLI ERRORI DI MISURA, IL CALCOLO DELLE INCERTEZZE

TEORIA DEGLI ERRORI DI MISURA, IL CALCOLO DELLE INCERTEZZE TEORIA DEGLI ERRORI DI MISURA, IL CALCOLO DELLE INCERTEZZE Errore di misura è la differenza fra l indicazione fornita dallo strumento e la dimensione vera della grandezza. Supponendo che la grandezza vera

Dettagli

Corso di Matematica per la Chimica

Corso di Matematica per la Chimica Dott.ssa Maria Carmela De Bonis a.a. 2013-14 Il best fitting In molte applicazioni accade di avere una certa quantità di dati (solitamente elevata) e di voler descrivere l andamento del fenomeno che ha

Dettagli

Capitolo 1. Analisi Discriminante. 1.1 Introduzione. 1.2 Un analisi discriminante Descrizione del dataset

Capitolo 1. Analisi Discriminante. 1.1 Introduzione. 1.2 Un analisi discriminante Descrizione del dataset Capitolo 1 Analisi Discriminante 1.1 Introduzione L analisi discriminante viene condotta per definire una modalità di assegnazione dei casi a differenti gruppi, in funzione di una serie di variabili fra

Dettagli

Esercizi Svolti. 2. Costruire la distribuzione delle frequenze cumulate del tempo di attesa

Esercizi Svolti. 2. Costruire la distribuzione delle frequenze cumulate del tempo di attesa Esercizi Svolti Esercizio 1 Per una certa linea urbana di autobus sono state effettuate una serie di rilevazioni sui tempi di attesa ad una determinata fermata; la corrispondente distribuzione di frequenza

Dettagli

Laboratorio di Fisica

Laboratorio di Fisica Laboratorio di Fisica dott. G. Casini ARGOMENTO 1: Misura delle grandezze fisiche LDFM Laboratorio di Fisica presentazione realizzata dal prof. Antonio Covello Schema della relazione di laboratorio Strumenti

Dettagli

REGISTRO DELLE LEZIONI

REGISTRO DELLE LEZIONI UNIVERSITA DEGLI STUDI DI GENOVA FACOLTA DI SCIENZE MATEMATICHE, FISICHE E NATURALI REGISTRO DELLE LEZIONI del Corso UFFICIALE di GEOMETRIA B tenute dal prof. Domenico AREZZO nell anno accademico 2006/2007

Dettagli

ESTRAZIONE DI DATI 3D DA IMMAGINI DIGITALI. (Visione 3D)

ESTRAZIONE DI DATI 3D DA IMMAGINI DIGITALI. (Visione 3D) ESTRAZIONE DI DATI 3D DA IMMAGINI DIGITALI () Calibrazione intrinseca Spesso risulta utile calibrare la sola componente intrinseca di un sistema di visione (matrice K), e non si dispone di oggetti di forma

Dettagli

Controlli Automatici I

Controlli Automatici I Ingegneria Elettrica Politecnico di Torino Luca Carlone Controlli Automatici I LEZIONE V Sommario LEZIONE V Proprietà strutturali Controllabilità e raggiungibilità Raggiungibilità nei sistemi lineari Forma

Dettagli

Prodotti scalari e matrici

Prodotti scalari e matrici Prodotti scalari e matrici 1 Forme bilineari e matrici In questa sezione vogliamo studiare la corrispondenza biunivoca che esiste tra l insieme delle forme bilineari su di un certo spazio vettoriale V

Dettagli

Corso di Fisica. Lezione 2 Scalari e vettori Parte 1

Corso di Fisica. Lezione 2 Scalari e vettori Parte 1 Corso di Fisica Lezione 2 Scalari e vettori Parte 1 Scalari e vettori Consideriamo una libreria. Per determinare quanti libri ci sono su uno scaffale basta individuare lo scaffale in questione e contare

Dettagli

Casa dello Studente. Casa dello Studente

Casa dello Studente. Casa dello Studente Esercitazione - 14 aprile 2016 ESERCIZIO 1 Di seguito si riporta il giudizio (punteggio da 0 a 5) espresso da un gruppo di studenti rispetto alle diverse residenze studentesche di un Ateneo: a) Si calcolino

Dettagli

Analisi della correlazione canonica

Analisi della correlazione canonica Analisi della correlazione canonica Su un collettivo di unità statistiche si osservano due gruppi di k ed m variabili L analisi della correlazione canonica ha per obiettivo lo studio delle relazioni di

Dettagli

LEZIONI IN LABORATORIO Corso di MARKETING L. Baldi Università degli Studi di Milano. Strumenti statistici in Excell

LEZIONI IN LABORATORIO Corso di MARKETING L. Baldi Università degli Studi di Milano. Strumenti statistici in Excell LEZIONI IN LABORATORIO Corso di MARKETING L. Baldi Università degli Studi di Milano Strumenti statistici in Excell Pacchetto Analisi di dati Strumenti di analisi: Analisi varianza: ad un fattore Analisi

Dettagli

ANALISI DEI DATI PER IL MARKETING 2014

ANALISI DEI DATI PER IL MARKETING 2014 ANALISI DEI DATI PER IL MARKETING 2014 Marco Riani mriani@unipr.it http://www.riani.it ANALISI DELLE CORRISPONDENZE (cap. VII) Problema della riduzione delle dimensioni L ANALISI DELLE COMPONENTI PRINCIPALI

Dettagli

METODO DEI MINIMI QUADRATI

METODO DEI MINIMI QUADRATI METODO DEI MINIMI QUADRATI Torniamo al problema della crescita della radice di mais in funzione del contenuto di saccarosio nel terreno di coltura. Ripetendo varie volte l esperimento con diverse quantità

Dettagli

i dati escludono vi sia una relazione tra variabile indipendente e variabile dipendente (rispettivamente

i dati escludono vi sia una relazione tra variabile indipendente e variabile dipendente (rispettivamente TEST DI AUTOVALUTAZIONE - SETTIMANA 6 I diritti d autore sono riservati. Ogni sfruttamento commerciale non autorizzato sarà perseguito. Metodi statistici per la biologia Parte A. La retta di regressione.2

Dettagli

DESCRITTIVE, TEST T PER IL CONFRONTO DELLE MEDIE DI CAMPIONI INDIPENDENTI.

DESCRITTIVE, TEST T PER IL CONFRONTO DELLE MEDIE DI CAMPIONI INDIPENDENTI. Corso di Laurea Specialistica in Biologia Sanitaria, Universita' di Padova C.I. di Metodi statistici per la Biologia, Informatica e Laboratorio di Informatica (Mod. B) Docente: Dr. Stefania Bortoluzzi

Dettagli

Errori di misura Teoria

Errori di misura Teoria Errori di misura Teoria a misura operazione di misura di una grandezza fisica, anche se eseguita con uno strumento precisissimo e con tecniche e procedimenti accurati, è sempre affetta da errori. Gli errori

Dettagli

3. Matrici e algebra lineare in MATLAB

3. Matrici e algebra lineare in MATLAB 3. Matrici e algebra lineare in MATLAB Riferimenti bibliografici Getting Started with MATLAB, Version 7, The MathWorks, www.mathworks.com (Capitolo 2) Mathematics, Version 7, The MathWorks, www.mathworks.com

Dettagli

Analisi della varianza

Analisi della varianza 1. 2. univariata ad un solo fattore tra i soggetti (between subjects) 3. univariata: disegni fattoriali 4. univariata entro i soggetti (within subjects) 5. : disegni fattoriali «misti» L analisi della

Dettagli

Statistica descrittiva II

Statistica descrittiva II Probabilità e Statistica Esercitazioni a.a. 009/010 C.d.L.: Ingegneria Elettronica e delle Telecomunicazioni, Ingegneria Informatica Statistica descrittiva II Ines Campa Probabilità e Statistica - Esercitazioni

Dettagli

1 4 Esempio 2. Si determini la distribuzione di probabilità della variabile casuale X = punteggio ottenuto lanciando un dado. Si ha immediatamente:

1 4 Esempio 2. Si determini la distribuzione di probabilità della variabile casuale X = punteggio ottenuto lanciando un dado. Si ha immediatamente: CAPITOLO TERZO VARIABILI CASUALI. Le variabili casuali e la loro distribuzione di probabilità In molte situazioni, dato uno spazio di probabilità S, si è interessati non tanto agli eventi elementari (o

Dettagli

Valori Medi. Docente Dott.ssa Domenica Matranga

Valori Medi. Docente Dott.ssa Domenica Matranga Valori Medi Docente Dott.ssa Domenica Matranga Valori medi Medie analitiche - Media aritmetica - Media armonica - Media geometrica - Media quadratica Medie di posizione - Moda -Mediana - Quantili La media

Dettagli

ISTITUTO SCOLASTICO COMPRENSIVO MINEO UNITA 1 I NUMERI

ISTITUTO SCOLASTICO COMPRENSIVO MINEO UNITA 1 I NUMERI ISTITUTO SCOLASTICO COMPRENSIVO MINEO CURRICOLO DI MATEMATICA SCUOLA PRIMARIA classe PRIMA A-B-C INDICATORI OBIETTIVI U.D D'APPRENDIMENTO NUMERI 1) Acquisire il concetto di numero (almeno entro il 100)

Dettagli

STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA

STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA Metodi statistici e probabilistici per l ingegneria Corso di Laurea in Ingegneria Civile A.A. 2009-10 Facoltà di Ingegneria, Università di Padova Docente: Dott. L. Corain 1 STATISTICHE, DISTRIBUZIONI CAMPIONARIE

Dettagli

Anno 4 Matrice inversa

Anno 4 Matrice inversa Anno 4 Matrice inversa 1 Introduzione In questa lezione parleremo della matrice inversa di una matrice quadrata: definizione metodo per individuarla Al termine della lezione sarai in grado di: descrivere

Dettagli

Sommario. Capitolo 1 I dati e la statistica 1. Capitolo 2 Statistica descrittiva: tabelle e rappresentazioni grafiche 25

Sommario. Capitolo 1 I dati e la statistica 1. Capitolo 2 Statistica descrittiva: tabelle e rappresentazioni grafiche 25 Sommario Presentazione dell edizione italiana Prefazione xv xiii Capitolo 1 I dati e la statistica 1 Statistica in pratica: BusinessWeek 1 1.1 Le applicazioni in ambito aziendale ed economico 3 Contabilità

Dettagli

Metodi per la risoluzione di sistemi lineari

Metodi per la risoluzione di sistemi lineari Metodi per la risoluzione di sistemi lineari Sistemi di equazioni lineari. Rango di matrici Come è noto (vedi [] sez.0.8), ad ogni matrice quadrata A è associato un numero reale det(a) detto determinante

Dettagli

LE MISURE. attendibilità = x i - X

LE MISURE. attendibilità = x i - X LE MISURE COCETTI PRELIMIARI: MISURA, ATTEDIBILITÀ, PRECISIOE, ACCURATEZZA Il modo corretto di fornire il risultato di una qualunque misura è quello di dare la migliore stima della quantità in questione

Dettagli

STATISTICHE DESCRITTIVE Parte II

STATISTICHE DESCRITTIVE Parte II STATISTICHE DESCRITTIVE Parte II INDICI DI DISPERSIONE Introduzione agli Indici di Dispersione Gamma Differenza Interquartilica Varianza Deviazione Standard Coefficiente di Variazione introduzione Una

Dettagli

Teorema di Thevenin generalizzato

Teorema di Thevenin generalizzato Teorema di Thevenin generalizzato Si considerino due reti elettriche lineari, A e B, aventi rispettivamente N A e N B nodi interni. Esse si interfacciano attraverso n (n 3) fili di collegamento, in cui

Dettagli

Gli errori nella verifica delle ipotesi

Gli errori nella verifica delle ipotesi Gli errori nella verifica delle ipotesi Nella statistica inferenziale si cerca di dire qualcosa di valido in generale, per la popolazione o le popolazioni, attraverso l analisi di uno o più campioni E

Dettagli

Esercizi per Geometria II Geometria euclidea e proiettiva

Esercizi per Geometria II Geometria euclidea e proiettiva Esercizi per Geometria II Geometria euclidea e proiettiva Filippo F. Favale 8 aprile 014 Esercizio 1 Si consideri E dotato di un riferimento cartesiano ortonormale di coordinate (x, y) e origine O. Si

Dettagli

3.1 Classificazione dei fenomeni statistici Questionari e scale di modalità Classificazione delle scale di modalità 17

3.1 Classificazione dei fenomeni statistici Questionari e scale di modalità Classificazione delle scale di modalità 17 C L Autore Ringraziamenti dell Editore Elenco dei simboli e delle abbreviazioni in ordine di apparizione XI XI XIII 1 Introduzione 1 FAQ e qualcos altro, da leggere prima 1.1 Questo è un libro di Statistica

Dettagli

Quadriche Maurizio Cornalba 7/6/2016

Quadriche Maurizio Cornalba 7/6/2016 Quadriche Maurizio Cornalba 7/6/2016 Sia K un campo. Informalmente, una ipersuperficie (algebrica) nello spazio proiettivo P n K è il luogo dei punti [t 0 : t 1 : : t n ] tali che (t 0, t 1,..., t n )

Dettagli

ESERCIZI SVOLTI Giuliano Bonollo - Michele Bonollo

ESERCIZI SVOLTI Giuliano Bonollo - Michele Bonollo ESERCIZI SVOLTI Giuliano Bonollo - Michele Bonollo 1 La seguente tabella riporta le frequenze relative riguardanti gli studenti di un università e gli esiti dell esame da essi sostenuto. Qual è la percentuale

Dettagli