La Classificazione Fisica Delle Galassie Come Problema Di Data Mining

Dimensione: px
Iniziare la visualizzazioe della pagina:

Download "La Classificazione Fisica Delle Galassie Come Problema Di Data Mining"

Transcript

1 Università degli Studi di Napoli Federico II Facoltà di Scienze Matematiche Fisiche e Naturali TESI TRIENNALE IN FISICA La Classificazione Fisica Delle Galassie Come Problema Di Data Mining Relatore: Prof. Giuseppe Longo Studente: Alessandro Montalto Matr. 567/197 Anno Accademico 2007/08

2 Indice 1 Introduzione La classificazione fisica delle galassie Considerazioni sulle classificazioni Estrazione e Selezione delle caratteristiche Il Clustering Introduzione al clustering I metodi gerarchici di classificazione La valutazione della classificazione con metodi gerarchici I metodi non gerarchici di classificazione Le GTM Le PPS Un algoritmo di aspettazione-massimizzazione PPS sferiche Astroneural I Dati La Sloan Esperimenti 40 5 Alcune conclusioni 47 Bibliografia 49 1

3 Capitolo 1 Introduzione 1.1 La classificazione fisica delle galassie I primi tentativi di giungere ad una classificazione morfologica delle galassie risalgono al 1814, quando M. Wolf disegnò 17 tavole che definivano il sistema di classificazione stesso. Wolf posizionò queste forme lungo una sequenza lineare, da (g) a (w), da sistemi amorfi fino a sistemi a spirale. Il sistema era puramente descrittivo e fu rapidamente abbandonato anche perché, all epoca in cui esso fu concepito non era ancora chiara la differenza tra nebulose galattiche e nebulose extragalattiche. Pochi anni dopo, nel 1913, Reynolds misurò i profili di intensità delle regioni centrali di un tipo particolare di nebulose noto come galassie a spirale ricavando la legge empirica: I(r)(1 + x 2 ) = costante dove I(r) è il cosiddetto profilo di brillanza superficiale 1. Questo era il famoso profilo di Reynolds che Hubble (1930) più tardi generalizzò rendendolo indipendente dalla scala, sostituendo x con il rapporto r/a, dove r è la distanza radiale lungo l asse maggiore e a è un fattore di scala pari alla distanza radiale in cui la brillanza superficiale è un quarto del valore centrale. Di lì a poco, usando un campione più ampio di galassie con diversi rapporti nucleo/disco costruì una sequenza di forme con caratteristiche che cambiavano con continuità da una classe all altra. Le sette classi di Reynolds erano le seguenti (tra virgolette sono riportate le sue stesse parole): 1 Brillanza superficiale: flusso di radiazione proveniente da un elemento della superficie dell oggetto in funzione della distanza r dal centro dell oggetto stesso. 2

4 I. Spirali formate unicamente da nebulosità amorfa II. Spirali che mostrano un principio di condensazione solo nelle spire più esterne III. In questa classe le condensazioni nelle regioni più esterne avanzano considerevolmente verso il nucleo IV. Include la maggior parte delle spirali. La condensazione nebulare appare in tutte le regioni ad eccezione del nucleo, ma vi è un ambiente nebuloso più o meno cospicuo V. Stadio avanzato della Classe IV: la nebulosa è di di tipo condensato, il nucleo ha spesso limiti definiti come una nebulosa planetaria VI. Speciali tipi intermedi con anelli più esterni e con i bracci più interni in stato di condensazione VII. Spirali di tipo granulare che non presentano un nucleo definito Un ulteriore tentativo di giungere alla classificazione delle forme delle sole galassie esterne fu fatto da Shapley (1928), che inventò una classificazione basata sulla concentrazione della luce verso il centro. Shapley, però, incluse anche proprietà non intrinseche, quali la magnitudine apparente (legata alla distanza dell oggetto) e lo schiacciamento apparente (legato all inclinazione rispetto alla linea di vista), ed il sistema risultò di scarsa utilità pratica. Se si trascurano alcuni tentativi di minore imortanza, il passo successivo fu compiuto dall astronomo americano Edwin P. Hubble nel 1936, con la pubblicazione dello straordinario libro The Realm of Nebulae, che avrebbe segnato un punto di svolta nella conoscenza delle proprietà dell universo extragalattico. Hubble nella sua tesi di dottorato (1917) per l Università di Chicago aveva misurato la posizione di nebulose non galattiche (galassie) e, nel descrivere la loro forma aveva fatto uso di una variante della classificazione descrittiva di Wolf (1908) confrontando ciò che osservava con le 17 tavole che Wolf aveva disegnato. Quest esperienza lo aveva convinto dell assoluta inadeguatezza dei sistemi sin lì adottati ed indotto a cercare un sistema di classificazione più affidabile. Nel suo libro del 1936, Hubble divise il regno galattico delle galassie più lontane in ellittiche e spirali creando una relazione tra queste due classi e una continuità tra le spirali tramite la relazione tra nucleo e braccio, ponendo le galassie in insiemi di classificazione adiacenti. Le ellittiche erano oggetti con isofote 2 di forma ellittica e prive di qualsivoglia struttura interna. Hubble le suddivise in base al loro schiacciamento apparente in sottogruppi E 1,...E 7 dove il coefficiente n: n = 10(1 b/a) 2 Isofota: linea che unisce punti ad uguale brillanza superficiale. 3

5 con a e b, rispettivamente asse maggiore ed asse minore di un isofota di riferimento. Le spirali erano invece divise in due gruppi e sotto-classificate come a, b, c in base a tre criteri concorrenti. I due gruppi erano determinati dalla presenza o dall assenza di una barra stellare di forma cilindrica fuoriuscente dal nucleo, mentre i criteri erano: il rapporto tra le dimensioni del bulge centrale ed il disco; il grado di avvolgimento dei bracci; l aspetto più o meno definito dei bracci. In altri termini, un oggetto SBb veniva ad indicare una Spirale Barrata con un rapporto bulge/disco intermedio e bracci mediamente definiti. Per realizzare una distribuzione continua, Hubble ipotizzò anche l esistenza di una classe con caratteristiche intermedie tra quelle delle ellittiche e quelle delle spirali, che chiamò S0. Tale classe fu effettivamente scoperta nel Gli oggetti che non mostravano segni di simmetria facilmente riconoscibile, venivano classificati come irregolari (Irr). La classificazione introdotta da Hubble risultò essere esaustiva (il 97% delle galassie contenute nel catalogo delle galassie di Shapley-Ames risultò classificabile) e pur essendo costruita in base a criteri arbitrari pose in evidenza l esistenza di correlazioni tra morfologia e proprietà fisiche (es: il contenuto percentuale di gas e polveri, il momento angolare specifico, l età media delle popolazioni stellari...). Il principale limite della classificazione di Hubble era nella sua mancanza di generalità dovuta al fatto che essa era stata ottenuta a partire da un campione abbastanza uniforme di lastre fotografiche ottenute con il telescopio da 2.5 m di Monte Wilson. Ciò faceva sì che essa si fondasse sulle immagini delle regioni centrali (non saturate nelle immagini fotografiche) di galassie brillanti e vicine. In altri termini, essa si rivelò inadeguata a descrivere le caratteristiche di oggetti con nuclei peculiari (Es. galassie attive) oppure di bassa luminosità (galassie nane o di bassa brillanza superficiale). Inoltre, essendo basata su immagini fotografiche ottenute con lastre sensibili soprattutto alla radiazione blu, essa non coglieva i dettagli, quali regioni di formazione stellare o bande di polveri, visibili soprattutto ad altre lunghezze d onda. Basta poco per convincersi che quest ultimo fattore implica anche la non applicabilità dello schema di Hubble ad oggetti distanti. Infatti a causa del redshift, la radiazione osservata nel blu da una galassia lontana corrisponde, nel riferimento della galassia, a lunghezze d onda più corte (es. ultravioletto) e l esperienza insegna che le caratteristiche morfologiche delle galassie in questi due regimi sono affatto diverse. In altri termini, per classificare in modo omogeneo galassie a redshift diversi occorrerebbe prima costruire un sistema di classificazione ad 4

6 una certa lunghezza d onda e poi riportare le immagini di tutti gli oggetti a quella stessa lunghezza d onda rest-frame. Figura 1.1: L aspetto della galassia di Andromeda - M31, a diverse lunghezze d onda. Si notino le morfologie diverse. Ulteriori sviluppi, quali ad esempio, quelli tentati da de Vaucouleurs (1961) o da Vorontsov-Velyaminov et al. ( ), pur complicando notevolmente i criteri di calssificazione, non riuscirono a catturare la complessità delle morfologie extragalattiche e furono rapidamente abbandonati. Oggi sappiamo che le galassie sono sistemi complessi, costituiti da diverse componenti principali (bulge ellittici/triassiali, barre cilindriche, dischi esponenziali e dischi spessi, aloni sferoidali, nuclei attivi, etc.) che per di più evolvono nel tempo (e quindi con la distanza dall osservatore). Una tale complessità implica che ad una classificazione basata su criteri puramente morfologici occorre sostituire un sistema di classificazione basato su criteri fisici, oggettivi e facilmente misurabili. 1.2 Considerazioni sulle classificazioni Mentre il primo passo di ogni classificazione in un campione omogeneo di oggetti consiste nello stabilire una relazione di ordine di natura qualitativa 5

7 R(p 1,..., p n ) dipendente da n parametri che rappresentano quantità osservabili, lo scopo ultimo è quello di generare una tassonomia fisica, cioè una catalogazione di oggetti sulla base di proprietà e fenomeni fisici. In generale, una tassonomia può essere ottenuta se e solo se gli osservabili scelti come parametri, determinando il valore della relazione di ordine R(p 1,..., p n ), riflettono il più possibile una o più leggi fisiche L 1,..., L m. La validità di una classificazione tassonomica può essere testata valutando la sua capacità di formulare nuove previsioni riguardanti osservabili non direttamente connessi alla relazione di ordine considerata e che possono essere spiegati dalle stesse leggi fisiche L 1,..., L m. La correttezza di ogni tentativo di classificazione dipende dalla disponibilità di un campione omogeneo di oggetti, le cui quantità osservabili siano state misurate nelle stesse condizioni e dalla omogeneità del materiale usato per la classificazione: è di grande importanza, in particolare per la classificazione astronomica, che siano specificati correttamente l intervallo di lunghezza d onda all interno del quale gli oggetti sono osservati, le condizioni osservative e le caratteristiche peculiari dell apparato osservativo usato per la raccolta dei dati. Resta ora da stabilire: come si definisce l omogeneità; come si definiscono matematicamente i parametri o predicati; cosa rende buona o cattiva una classificazione. Sia S = x 1,..., x n l insieme degli oggetti da classificare. Una classificazione è una partizione S = S 1,..., S m tale che m S j = S con m n e js j j=1 Per una classificazione ideale dovrebbe anche valere: S j S k = j k Le classi S j sono definite dai parametri o predicati p j,l con l = 1, L definiti in S j : x i S j l, p j,l (x i ) = V ero A questo punto ci si chiede se: è necessaria oppure solo auspicabile l uniformità dei predicati (cioè se i predicati devono essere gli stessi per ogni S j ); il fatto che i predicati siano deducibili in base ad una ben precisa proprietà misurabile non ridefinisca automaticamente S come l insieme degli oggetti in cui i p sono misurabili. 6

8 Requisiti Devono essere in numero ridotto Facilmente misurabili sui dati a disposizione Non devono portare a risultati contraddittori Devono, in prima approssimazione riflettere qualche criterio fisico sottostante (anche se al momento sconosciuto) Svantaggi Aumentare il numero dei parametri riduce l utilità della classificazione La classificazione di un oggetto non deve richiedere più tempo di quanto ne prenderebbe uno studio dettagliato Lo stesso oggetto verrebbe ad essere attribuito a classi diverse Si provi a classificare le specie animali in funzione del colore del mantello I problemi che si incontrano nella classificazione morfologica delle galassie, in una prospettiva generale, sono i seguenti: nelle galassie sono presenti diverse componenti: bracci di spirali, bulges, anelli, lenti, dischi, etc. Queste componenti, visibili in diverse combinazioni e inclinazioni, sono all origine della complessità e delle ambiguità che si riscontrano nella morfologia delle galassie. le galassie coprono un grande intervallo di brillanza superficiale, luminosità e altre proprietà globali, così che gli effetti di selezione sono sempre importanti poiché essi potrebbero condizionare l attendibilità statistica dei campioni di oggetti usati per la classificazione. l ambiente è importante per determinare la forma delle galassie, poiché si riscontra che le distribuzioni dei vari tipi morfologici differiscono significativamente a seconda che ci si trovi nel campo o in ambienti molto densi (quali ad esempio, gli ammassi ricchi). gli eventi dinamici su scale di tempo relativamente brevi possono portare, da una parte, alla possibile evoluzione di rare forme transienti, dall altra, potrebbero essere responsabili della formazione di alcuni dei più comuni tipi morfologici. In questo senso, questi eventi possono allo stesso tempo confondere o semplificare il complesso problema della classificazione morfologica delle galassie. L obiettivo primario degli studi morfologici è quindi quello di fornire vincoli osservativi ad un ampia casistica di problemi legati alle modalità di formazione ed evoluzione delle galassie e delle strutture cosmiche quali, ad esempio: 7

9 gli effetti dell ambiente sulle galassie; la formazione dei clusters; l evoluzione delle strutture cosmiche; i fattori fisici che hanno determinato i vari tipi al tempo della formazione delle galassie. Da un punto di vista metodologico, l obiettivo di ogni classificazione fisica è quello di ridurre la complessità e di correggere gli aspetti fuorvianti della classificazione morfologica. In questa tesi si affronta con un approccio diverso (e preliminare) il problema di come correlare gli indicatori morfologici con le proprietà intrinseche delle galassie, ricorrendo al data mining che, per essere affidabile, ha bisogno di una grande quantità di dati. L obiettivo primario del data mining è infatti quello di estrarre modelli e caratteristiche interessanti da una grande quantità di dati solitamente in uno spazio ad alta dimensione: Spazio dei parametri, P N. In questo spazio (Fig. 1.2) N-dimensionale, ogni dimensione è definita da un osservabile, cioè da una ben precisa quantità astronomica misurabile a partire da immagini, spettri o qualunque altro tipo di dato astronomico. Si avranno, quindi, un asse per la lunghezza d onda, un asse per la polarizzazione, un altro per il flusso integrato, un altro ancora per la brillanza superficiale, un altro per la risoluzione angolare, etc. In questa approssimazione, si sta supponendo che ad ogni misura sia associabile una quantità numerica e, quindi, P N R N. Si noti che una qualsiasi osservazione o è sempre caratterizzata da più quantità (ad esempio, la misura di un flusso è associabile ad una ben precisa lunghezza d onda, ad un epoca di osservazione, ad un tempo di campionamento, ad una risoluzione angolare, etc.) e, quindi, è un punto appartenente a R m con m N. Un osservazione, quindi, è sempre un informazione incompleta che definisce in P N una varietà di ordine N m. È evidente che ogni oggetto, essendo identificato dalle due coordinate proiettate sulla sfera celeste, definirà un sottospazio O N 2 di P N. In teoria, una conoscenza accurata delle proprietà osservative dell Universo richiederebbe un campionamento uniforme e fitto di tutto P N. Purtroppo, invece, l insieme delle osservazioni astronomiche disponibili popola questo spazio in modo molto disomogeneo: una grandissima concentrazione di punti, ad esempio, cade nell ipervolume definito da: lunghezza d onda compresa tra 3300 e 8000 A; risoluzione angolare compresa tra 0.8 e 2 ; tempo di integrazione della radiazione compreso tra 10 s e 3600 s; magnitudine (flusso) compresa tra 14.0 e 20.0; brillanza superficiale tra 24 e Si noti che questo ipervolume marca la regione dello spazio dei parametri corrispondente alle osservazioni effettuate a lunghezze d onda visibili. 8

10 Figura 1.2: Rappresentazione schematica dello spazio dei parametri. Ci sono tre problemi pratici e teorici per cui non si può lavorare direttamente con spazi ad alta dimensione: 1. Visualizzazione: la visualizzazione è possibile in, al più, tre dimensioni. Essa è molto utile per ottenere una comprensione preliminare dei dati ed è usata spesso nell analisi dei dati. Però questa è anche un arma a doppio taglio: possono essere commessi giudizi errati se non si presta la dovuta attenzione alla rappresentazione dei dati dello spazio originario ad alta dimensione nello spazio a dimensione minore. 2. Risorse limitate: oggi si immagazzinano più dati di quanti se ne possano estrarre. Questo porta ad un collo di bottiglia computazionale dovuto a due fattori: gran numero di campioni (N) e di dimensioni (D). Il problema del numero dei campioni può essere aggirato tramite campionatura. Anche tale procedura può però risultare inadeguata. Quindi può essere necessario aumentare l efficienza computazionale grazie alla riduzione della dimensione. 3. Problema della dimensione: in una situazione ideale dove si può accedere ad una quantità infinita di dati campione, avere più dimensioni è equivalente a processare più informazione. Infatti è stato mostrato che per i problemi di classificazione l informazione dovuta a dimensioni aggiuntive non può abbassare la stima di Bayes che è il limite superiore teorico per l accuratezza della classificazione. Si noti che questo risultato teorico assume implicitamente l esistenza di un numero di campioni esponenzialmente grande rispetto alla dimensione. 9

11 Sfortunatamente nella pratica il numero di campioni è quasi sempre sparso rispetto alla dimensione, ed è tra le maggiori cause di errore nella funzione di approssimazione, stima della densità, e classificazione. Figura 1.3: I dati in spazi ad alta dimensione si dispongono in periferia. Figura 1.4: I dati sono sempre sparsi in spazi ad alta dimensione. I primi due punti sono pratici e possono essere spesso aggirati, rispettivamente, usando semplici proiezioni ortogonali (e.g. Principal Component Analysis) e algoritmi a complessità più bassa (rispetto alla dimensione e alla grandezza del campione). Quindi l interesse finale e maggiore è un misto tra teoria (geometria ad alta dimensione) e pratica (non molti campioni), che non ha una soluzione semplice. Il problema della dimensionalità è la motivazione principale che porta alla riduzione della dimensione poiché, contrariamente a quanto si possa pensare, dati distribuiti casualmente in uno spazio ad alta dimensione tendono: 1. ad addensarsi alla periferia dello spazio dei campioni e, 2. ad essere sparsi, per molti problemi pratici. 10

12 1.2.1 Estrazione e Selezione delle caratteristiche Ci sono due approcci generali alla riduzione della dimensione, chiamati estrazione delle caratteristiche e selezione delle caratteristiche (conosciuto anche come selezione delle variabili o selezione di un sottoinsieme di caratteristiche). L estrazione delle caratteristiche trasforma (linearmente o non linearmente) i dati originali in uno spazio a dimensione più bassa usando tutte le variabili originarie (dimensioni). La selezione delle caratteristiche, che è un caso speciale di estrazione delle caratteristiche lineare, seleziona un sottoinsieme di variabili dall insieme delle caratteristiche originarie e scarta le rimanenti. Ogni metodo richiede un criterio predefinito per la valutazione della bontà della trasformazione. Inoltre il criterio specifica anche il metodo: supervisionato o non supervisionato. 11

13 Capitolo 2 Il Clustering 2.1 Introduzione al clustering Si parlerà ora specificamente delle metodologie di classificazione delle unità statistiche in gruppi, detti anche clusters. Queste metodologie, note come cluster analysis, sono i più noti metodi descrittivi di data mining. L obiettivo della cluster analysis, data una matrice dei dati X composta da n osservazioni (righe) e p variabili (colonne), è quello di raggruppare le unità statistiche in gruppi il più possibile omogenei al loro interno (coesione interna) ed eterogenei tra di loro (separazione esterna). Si noti che la costituzione di gruppi omogenei di unità statistiche può essere interpretata come una riduzione della dimensione dello spazio R n, tuttavia completamente differente da quanto accade, per esempio, con il metodo delle componenti principali. Infatti, nei metodi di raggruppamento le n unità vengono riunite in g sottoinsiemi (e solitamente g < n), mentre nell approccio delle componenti principali le p variabili statistiche vengono trasformate in k nuove variabili (con k < p). Vi sono numerosi modi per effettuare un analisi di raggruppamento. Pertanto, prima di effettuare l analisi, deve esserci una chiara definizione dei modi in cui essa viene svolta. In particolare, le scelte da effettuare dovranno riguardare i seguenti punti: la scelta delle variabili da utilizzare: la scelta delle variabili da utilizzare per la classificazione deve tener conto di tutti gli aspetti rilevanti per il conseguimento degli obiettivi prefissati e, quindi, di tutte le variabili necessarie a tal fine, tenendo presente che l utilizzo di variabili poco significative porta inevitabilmente a un peggioramento dei risultati. Questa scelta è un problema cruciale perché condizionerà fortemente il risultato finale. In generale si può affermare che una classificazione può considerarsi soddisfacente quando non mostra un eccessiva sensibilità a piccoli cambiamenti dell insieme di variabili utilizzate. Dal 12

14 punto di vista della scelta delle variabili è opportuno, prima di effettuare una cluster analysis, effettuare indagini esplorative accurate, che possono fra l altro suggerire possibili configurazioni finali per la classificazione. Inoltre, al fine di potere meglio visualizzare e, pertanto, interpretare, il risultato della cluster analysis, è spesso opportuno ridurre la dimensionalità della matrice dei dati, per esempio mediante il metodo delle componenti principali. Si sottolinea infine, di prestare particolare attenzione, nella fase esplorativa, alla individuazione di osservazioni anomale che potrebbero inficiare notevolmente i risultati dell analisi. Da questo punto di vista si potrebbero associare i metodi di cluster analysis a quelli di ricerca degli outliers. Sebbene vi siano notevoli similitudini tra i due concetti, la differenza principale ricade sulla motivazione dell analisi effettuata: se si vuole effettuare una classificazione di tutte le unità (cluster analysis) piuttosto che la ricerca di osservazioni anomale (ricerca degli outliers); il metodo di formazione dei gruppi: a questo proposito si distinguono metodi gerarchici e metodi non gerarchici. I metodi gerarchici consentono di ottenere una successione di raggruppamenti (detti partizioni) con un numero di gruppi da n a 1, partendo dal più semplice in cui tutte le unità sono distinte, fino a quello in cui tutti gli elementi appartengono a un unico gruppo. I metodi non gerarchici permettono invece di raggruppare le n unità statistiche in un numero di gruppi fissato (soggettivamente) a priori; l indice di prossimità da utilizzare: a seconda della natura delle variabili a disposizione, deve solitamente essere definita una misura di prossimità fra le unità statistiche, da utilizzare per calcolare la matrice delle distanze fra di esse. Se le variabili sono prevalentemente quantitative, si ricorrerà alla distanza euclidea; se sono prevalentemente qualitative a un indice di similarità; infine, se i dati sono aggregati in tabelle di contingenza, si ricorrerà alla distanza del chi-quadro fra le modalità. Poiché le più diffuse misure di prossimità possono essere ricondotte a delle distanze, nel seguito si farà riferimento a questo concetto. Si sottolinea nuovamente l importanza di una eventuale normalizzazione delle variabili, per evitare che alcune pesino più di altre nella determinazione dei risultati finali. Oltre a stabilire una misura di prossimità fra le unità statistiche, è necessario stabilire, nel caso dei metodi gerarchici, come verrà calcolata la prossimità fra i gruppi ottenuti nelle diverse fasi della procedura. Stante l opportunità di utilizzare, come distanza tra i gruppi, lo stesso tipo di distanza utilizzata per calcolare la distanza fra le unità statistiche, è necessario stabilire quali unità (o sintesi di esse) utilizzare come rappresentative 13

15 del gruppo. Come si vedrà, i metodi di classificazione gerarchica si differenziano, in particolare, per questo ultimo tipo di scelta; la determinazione dei criteri di valutazione dei gruppi ottenuti: valutare il risultato di raggruppamento ottenuto significa verificare che i gruppi siano coerenti con l obiettivo primario della cluster analysis e che soddisfino quindi le condizioni di coesione interna e separazione esterna. Di fondamentale importanza è, a tal fine, la scelta del numero dei gruppi. Vi è un trade-off fra l ottenimento di gruppi omogenei, caratteristica che è tipicamente funzione crescente del numero dei gruppi scelto, e la necessità di ottenere una rappresentazione parsimoniosa, che richiede, al contrario, un numero ridotto di gruppi. 2.2 I metodi gerarchici di classificazione I metodi di classificazione gerarchici permettono di ottenere una famiglia di partizioni, ciascuna associata ai successivi livelli di raggruppamento fra le unità statistiche, calcolati sulla base dei dati a disposizione. Le diverse famiglie di partizioni possono essere rappresentate graficamente, mediante una struttura ad albero, detto albero di classificazione gerarchica o dendrogramma. Tale struttura associa a ogni passo della procedura gerarchica, che corrisponde a un numero g fissato di gruppi, una e una sola classificazione delle unità statistiche in g gruppi. Figura 2.1: La struttura del dendrogramma 14

16 Graficamente un albero di classificazione gerarchica può essere rappresentato come in figura nella quale, per semplicità, si suppone vi siano solamente 5 unità statistiche a disposizione, numerate da 1 a 5. Come si evince dalla rappresentazione schematica in figura, i rami dell albero descrivono classificazioni successive delle unità statistiche. Alla radice dell albero, tutte le unità statistiche sono contenute in una sola classe. Le successive divisioni in rami individuano divisioni successive delle unità in clusters. Infine, i rami terminali indicano la partizione finale delle unità statistiche, in cui ogni osservazione appartiene a un gruppo separato. Se la formazione dei gruppi avviene dai rami alla radice (in figura da sinistra verso destra), vale a dire, se si parte dalla situazione in cui ogni unità statistica appartiene a un gruppo a sé stante e si procede a un raggruppamento di tali unità, i metodi di classificazione gerarchica vengono detti agglomerativi. Invece, se la costruzione dei clusters avviene dalla radice ai rami dell albero i corrispondenti metodi gerarchici vengono detti scissori. I software statistici disponibili solitamente forniscono l intero dendrogramma, dalla radice fino a un numero di rami terminali pari al numero di osservazioni. Si tratterà quindi di scegliere il numero ottimale di gruppi. Ciò identificherà il risultato della cluster analysis, dal momento che, in un dendrogramma, la scelta del numero g di gruppi identifica in modo univoco una partizione delle unità statistiche. Per esempio, le possibili partizioni delle 5 unità statistiche descritte nel dendrogramma in figura possono essere rappresentate nella seguente tabella Numero dei clusters Clusters 5 (1)(2)(3)(4)(5) 4 (1, 2)(3)(4)(5) 3 (1, 2)(3, 4)(5) 2 (1, 2)(3, 4, 5) 1 (1, 2, 3, 4, 5) Dall esempio si nota un fatto generale: le successive partizioni identificate da un dendrogramma sono nidificate. Ciò significa che, nei metodi gerarchici, gli elementi che vengono uniti (o divisi) a un certo passo resteranno uniti (o divisi) fino alla fine del processo di classificazione. Con riferimento alla tabella, e supponendo di considerare un metodo agglomerativo, che procede da una partizione di 5 a una di 1 gruppo, le unità (1, 2), unite al secondo passo, rimangono nello stesso gruppo fino al termine della procedura. Questo modo di procedere ha il vantaggio di ridurre il numero di partizioni da confrontare, rendendo la procedura computazionalmente più efficiente, ma anche lo svantaggio di non poter correggere errori di classificazione commessi nei passi precedenti. Un algoritmo agglomerativo di classificazione è il seguente: 15

17 1. Inizializzazione: date n unità statistiche da classificare, ogni elemento rappresenta un gruppo (si hanno, in altri termini, n clusters). I clusters più vicini verranno indicati con un numero che va da 1 a n; 2. Selezione: vengono selezionati i due clusters più vicini rispetto alla misura di prossimità fissata inizialmente. Per esempio, rispetto alla distanza euclidea; 3. Aggiornamento: si aggiorna il numero dei clusters (che sarà pari a n 1) attraverso l unione, in un unico cluster, dei due gruppi selezionati nel punto precedente. Conseguentemente, si aggiorna la matrice delle distanze, sostituendo, alle due righe (colonne) di distanze relative ai due clusters, nei confronti di tutti gli altri, una sola riga di distanze, rappresentativa del nuovo gruppo. I metodi agglomerativi differiscono per il modo in cui viene definita tale rappresentatività; 4. Ripetizione: si eseguono i passi (2) e (3) n-1 volte; 5. Arresto: la procedura si arresta quando tutti gli elementi vengono incorporati in un unico cluster. Come accennato al punto 3, in base ai diversi modi in cui vengono calcolate le distanze fra il gruppo neo-formato e le altre unità statistiche, si distinguono diversi metodi gerarchici di classificazione. Si introdurranno ora con riferimento a due gruppi C 1 e C 2. Anzitutto è necessario distinguere fra i metodi che richiedono esclusivamente, come input, la matrice di distanza, e i metodi che richiedono anche la matrice dei dati. Esempi del primo tipo sono i seguenti: metodo del legame singolo (single linkage): la distanza tra due gruppi è definita come il minimo delle n 1 n 2 distanze tra ciascuna delle unità di un gruppo, C 1 e ciascuna delle unità dell altro gruppo, C 2. Si ha che: d(c 1, C 2 ) = min(d rs ) con r C 1, s C 2 metodo del legame completo (complete linkage): la distanza tra due gruppi è definita come il massimo delle n 1 n 2 distanze tra ciascuna delle unità di un gruppo e ciascuna delle unità dell altro gruppo: d(c 1, C 2 ) = max(d rs ) con r C 1, s C 2 metodo del legame medio (average linkage): la distanza tra due gruppi è definita come la media aritmetica delle n 1 n 2 distanze tra ciascuna delle unità di un gruppo e ciascuna delle unità dell altro gruppo: 16

18 d(c 1, C 2 ) = 1 n 1 n 2 n 1 n 2 (d rs ) con r C 1, s C 2 r=1 s=1 I principali metodi gerarchici che, oltre alla matrice delle distanze, utilizzano anche la matrice dei dati di partenza sono invece i seguenti: metodo del centroide: la distanza tra due gruppi C 1 e C 2 di numerosità n 1 e n 2 è definita come la distanza (di un certo tipo) tra i rispettivi centroidi (medie aritmetiche), x 1 e x 2 : d(c 1, C 2 ) = d( x 1, x 2 ) Evidentemente, il calcolo del centroide di un gruppo di unità richiede i dati originali, disponibili, per esempio, nella matrice dei dati. Si noti che, fusi due gruppi, sarà necessario sostituire alle distanze riguardanti i centroidi dei precedenti clusters le distanze riguardanti il centroide del nuovo gruppo. Si noti che, a seguito della proprietà delle medie aritmetiche, quest ultimo può essere calcolato in funzione dei centroidi dei due gruppi di partenza: x 1 n 1 + x 2 n 2 n 1 + n 2 Il metodo del centroide e il metodo del legame medio presentano delle analogie: il metodo del legame medio considera la media delle distanze tra le unità di ciascun gruppo, e in seguito misura le distanze tra di esse. metodo di Ward: questo metodo minimizza, nella scelta dei gruppi da aggregare, una funzione obiettivo che parte dal presupposto che una classificazione ha lo scopo di creare gruppi che rispettino la massima coesione interna e la massima separazione esterna. Precisamente, la Devianza totale (T) delle p variabili, corrispondente a n volte la traccia della matrice dei dati, viene scomposta in due parti: la Devianza nei gruppi (W, da Within groups) e la Devianza tra i gruppi (B, da between groups): T = W + B In termini formali, data una partizione in g gruppi: la devianza totale delle p variabili (T) corrisponde alla somma delle devianze delle singole variabili rispetto alla corrispondente media generale x s : p n T = (x is x s ) 2 s=1 i=1 17

19 la devianza nei gruppi (W) è data dalla somma delle devianze di gruppo: g W = k=1 dove W k rappresenta la devianza delle p variabili nel gruppo k-esimo (di numerosità n k e centroide x k = [ x 1k,..., x pk ]), descritta dalla seguente espressione: W k p n k W k = (x is x sk ) 2 s=1 i=1 infine, la devianza fra i gruppi, B, è data dalla somma (calcolata su tutte le variabili) delle devianze (ponderate) delle medie di gruppo rispetto alla corrispondente media generale: p g B = n k ( x sk x s ) 2 s=1 k=1 Avendo introdotto la scomposizione della devianza, si può affermare che, nel metodo di Ward, a ogni passo della procedura gerarchica si aggregano tra loro i gruppi che comportano il minor incremento della devianza nei gruppi, W (e, quindi, maggior incremento di B), ovvero consentono di ottenere la maggiore coesione interna possibile (e, quindi, la maggiore separazione esterna possibile). Si noti che il metodo di Ward non richiede il calcolo preliminare della matrice delle distanze. Tuttavia il metodo di Ward si può ricondurre a una variante del metodo del centroide, che invece richiede il calcolo della matrice di distanze. Nella scelta delle funzioni di distanza tra i gruppi non c è un metodo che possa dare il risultato più qualificato con ogni tipo di dati. Il suggerimento è allora quello di sperimentare le diverse alternative e confrontarle in termini di criteri di valutazione possibilmente neutrali. Infine, riguardo agli algoritmi di classificazione scissori: sono meno utilizzati nelle applicazioni abituali poiché sono tipicamente più intensivi dal punto di vista computazionale. Comunque, sebbene una semplice implementazione dei metodi divisivi richiede il calcolo di n 2 distanze alla prima iterazione, le divisioni successive sono effettuate su clusters di dimensioni molto più piccole. Inoltre, implementazioni efficienti non calcolano tutte le distanze ma solo quelle che sono ragionevoli candidate a essere le più vicine. 18

20 2.3 La valutazione della classificazione con metodi gerarchici Con un algoritmo gerarchico si ottiene una famiglia di partizioni delle n unità statistiche di partenza, o meglio una successione di n classificazioni delle suddette unità, con un numero di gruppi via via decrescente da n a 1. Per verificare che le partizioni conseguano l obiettivo primario della cluster analysis, secondo il quale i gruppi ottenuti devono essere caratterizzati da coesione interna e separazione esterna, a ogni passo della procedura gerarchica viene valutata la bontà della corrispondente partizione ottenuta, in modo tale da poter scegliere quale sia la più consona al raggiungimento degli obiettivi dell analisi. Un primo criterio intuitivo è la misurazione della prossimità dei gruppi uniti a ogni passo, che può suggerire di arrestare il processo quando tale misura sale bruscamente. Un criterio di giudizio più frequentemente utilizzato è quello basato sulla scomposizione della devianza totale delle p variabili, illustrata con riferimento al metodo di Ward (T = W +B): in base a tale metodo si definisce valida una classificazione caratterizzata da una bassa devianza entro i gruppi (W) e da un elevato valore della devianza fra i gruppi (B). Nel caso di una partizione costituita da g gruppi un indice sintetico che misura la corrispondenza a tale criterio è il seguente: R 2 = 1 W T = B T Per quanto detto precedentemente, l indice R 2 [0, 1]; se il valore di R 2 è prossimo a 1, significa che la corrispondente partizione è ottimale, poiché le unità statistiche appartenenti ai medesimi gruppi sono molto simili tra loro e i gruppi sono ben separati. In altri termini, in questo caso si avrà che W k = 0, per ogni k = 1... g e, quindi, T = B. Analogamente, la bontà dell analisi di classificazione diminuisce se R 2 è prossimo a 0. Si noti che R 2 = 0 quando vi è un solo gruppo e R 2 = 1 quando ci sono tanti gruppi quante osservazioni. È evidente che, al crescere del numero di gruppi, aumenta l omogeneità dei gruppi stessi (essendo formati da un numero inferiore di unità statistiche), e allo stesso modo cresce R 2. Ciò tuttavia va a scapito della parsimonia della classificazione che, in generale, dovrebbe essere una delle finalità principali di una valida analisi statistica. Pertanto, la massimizzazione di R 2 non può costituire l unico criterio su cui basarsi per la definizione del numero ottimale dei gruppi. Tale criterio infatti condurrebbe a una classificazione costituita da n gruppi formati da una sola unità (tale per cui R 2 = 1). È possibile costruire anche una versione inferenziale del criterio di Ward. Tale criterio è denominato pseudo-f e misura il rapporto tra la varianza tra 19

Il concetto di valore medio in generale

Il concetto di valore medio in generale Il concetto di valore medio in generale Nella statistica descrittiva si distinguono solitamente due tipi di medie: - le medie analitiche, che soddisfano ad una condizione di invarianza e si calcolano tenendo

Dettagli

Relazioni statistiche: regressione e correlazione

Relazioni statistiche: regressione e correlazione Relazioni statistiche: regressione e correlazione È detto studio della connessione lo studio si occupa della ricerca di relazioni fra due variabili statistiche o fra una mutabile e una variabile statistica

Dettagli

Dimensione di uno Spazio vettoriale

Dimensione di uno Spazio vettoriale Capitolo 4 Dimensione di uno Spazio vettoriale 4.1 Introduzione Dedichiamo questo capitolo ad un concetto fondamentale in algebra lineare: la dimensione di uno spazio vettoriale. Daremo una definizione

Dettagli

VALORE DELLE MERCI SEQUESTRATE

VALORE DELLE MERCI SEQUESTRATE La contraffazione in cifre: NUOVA METODOLOGIA PER LA STIMA DEL VALORE DELLE MERCI SEQUESTRATE Roma, Giugno 2013 Giugno 2013-1 Il valore economico dei sequestri In questo Focus si approfondiscono alcune

Dettagli

La distribuzione Normale. La distribuzione Normale

La distribuzione Normale. La distribuzione Normale La Distribuzione Normale o Gaussiana è la distribuzione più importante ed utilizzata in tutta la statistica La curva delle frequenze della distribuzione Normale ha una forma caratteristica, simile ad una

Dettagli

Fondamenti e didattica di Matematica Finanziaria

Fondamenti e didattica di Matematica Finanziaria Fondamenti e didattica di Matematica Finanziaria Silvana Stefani Piazza dell Ateneo Nuovo 1-20126 MILANO U6-368 silvana.stefani@unimib.it 1 Unità 9 Contenuti della lezione Operazioni finanziarie, criterio

Dettagli

Corso di. Dott.ssa Donatella Cocca

Corso di. Dott.ssa Donatella Cocca Corso di Statistica medica e applicata Dott.ssa Donatella Cocca 1 a Lezione Cos'è la statistica? Come in tutta la ricerca scientifica sperimentale, anche nelle scienze mediche e biologiche è indispensabile

Dettagli

Algoritmi di clustering

Algoritmi di clustering Algoritmi di clustering Dato un insieme di dati sperimentali, vogliamo dividerli in clusters in modo che: I dati all interno di ciascun cluster siano simili tra loro Ciascun dato appartenga a uno e un

Dettagli

STATISTICA IX lezione

STATISTICA IX lezione Anno Accademico 013-014 STATISTICA IX lezione 1 Il problema della verifica di un ipotesi statistica In termini generali, si studia la distribuzione T(X) di un opportuna grandezza X legata ai parametri

Dettagli

Regressione Mario Guarracino Data Mining a.a. 2010/2011

Regressione Mario Guarracino Data Mining a.a. 2010/2011 Regressione Esempio Un azienda manifatturiera vuole analizzare il legame che intercorre tra il volume produttivo X per uno dei propri stabilimenti e il corrispondente costo mensile Y di produzione. Volume

Dettagli

Corso di Matematica per la Chimica

Corso di Matematica per la Chimica Dott.ssa Maria Carmela De Bonis a.a. 203-4 I sistemi lineari Generalità sui sistemi lineari Molti problemi dell ingegneria, della fisica, della chimica, dell informatica e dell economia, si modellizzano

Dettagli

Automazione Industriale (scheduling+mms) scheduling+mms. adacher@dia.uniroma3.it

Automazione Industriale (scheduling+mms) scheduling+mms. adacher@dia.uniroma3.it Automazione Industriale (scheduling+mms) scheduling+mms adacher@dia.uniroma3.it Introduzione Sistemi e Modelli Lo studio e l analisi di sistemi tramite una rappresentazione astratta o una sua formalizzazione

Dettagli

1. Distribuzioni campionarie

1. Distribuzioni campionarie Università degli Studi di Basilicata Facoltà di Economia Corso di Laurea in Economia Aziendale - a.a. 2012/2013 lezioni di statistica del 3 e 6 giugno 2013 - di Massimo Cristallo - 1. Distribuzioni campionarie

Dettagli

LE FUNZIONI A DUE VARIABILI

LE FUNZIONI A DUE VARIABILI Capitolo I LE FUNZIONI A DUE VARIABILI In questo primo capitolo introduciamo alcune definizioni di base delle funzioni reali a due variabili reali. Nel seguito R denoterà l insieme dei numeri reali mentre

Dettagli

ELEMENTI DI DEMOGRAFIA

ELEMENTI DI DEMOGRAFIA ELEMENTI DI DEMOGRAFIA 2. Caratteristiche strutturali della popolazione Posa Donato k posa@economia.unisalento.it Maggio Sabrina k s.maggio@economia.unisalento.it UNIVERSITÀ DEL SALENTO DIP.TO DI SCIENZE

Dettagli

2. Leggi finanziarie di capitalizzazione

2. Leggi finanziarie di capitalizzazione 2. Leggi finanziarie di capitalizzazione Si chiama legge finanziaria di capitalizzazione una funzione atta a definire il montante M(t accumulato al tempo generico t da un capitale C: M(t = F(C, t C t M

Dettagli

Appunti sulla Macchina di Turing. Macchina di Turing

Appunti sulla Macchina di Turing. Macchina di Turing Macchina di Turing Una macchina di Turing è costituita dai seguenti elementi (vedi fig. 1): a) una unità di memoria, detta memoria esterna, consistente in un nastro illimitato in entrambi i sensi e suddiviso

Dettagli

Tecniche di analisi multivariata

Tecniche di analisi multivariata Tecniche di analisi multivariata Metodi che fanno riferimento ad un modello distributivo assunto per le osservazioni e alla base degli sviluppi inferenziali - tecniche collegate allo studio della dipendenza

Dettagli

11. Analisi statistica degli eventi idrologici estremi

11. Analisi statistica degli eventi idrologici estremi . Analisi statistica degli eventi idrologici estremi I processi idrologici evolvono, nello spazio e nel tempo, secondo modalità che sono in parte predicibili (deterministiche) ed in parte casuali (stocastiche

Dettagli

Stima per intervalli Nei metodi di stima puntuale è sempre presente un ^ errore θ θ dovuto al fatto che la stima di θ in genere non coincide con il parametro θ. Sorge quindi l esigenza di determinare una

Dettagli

Transitori del primo ordine

Transitori del primo ordine Università di Ferrara Corso di Elettrotecnica Transitori del primo ordine Si consideri il circuito in figura, composto da un generatore ideale di tensione, una resistenza ed una capacità. I tre bipoli

Dettagli

Spline Nurbs. IUAV Disegno Digitale. Camillo Trevisan

Spline Nurbs. IUAV Disegno Digitale. Camillo Trevisan Spline Nurbs IUAV Disegno Digitale Camillo Trevisan Spline e Nurbs Negli anni 70 e 80 del secolo scorso nelle aziende si è iniziata a sentire l esigenza di concentrare in un unica rappresentazione gestita

Dettagli

Esponenziali elogaritmi

Esponenziali elogaritmi Esponenziali elogaritmi Potenze ad esponente reale Ricordiamo che per un qualsiasi numero razionale m n prendere n>0) si pone a m n = n a m (in cui si può sempre a patto che a sia un numero reale positivo.

Dettagli

Analisi e diagramma di Pareto

Analisi e diagramma di Pareto Analisi e diagramma di Pareto L'analisi di Pareto è una metodologia statistica utilizzata per individuare i problemi più rilevanti nella situazione in esame e quindi le priorità di intervento. L'obiettivo

Dettagli

L analisi dei dati. Capitolo 4. 4.1 Il foglio elettronico

L analisi dei dati. Capitolo 4. 4.1 Il foglio elettronico Capitolo 4 4.1 Il foglio elettronico Le più importanti operazioni richieste dall analisi matematica dei dati sperimentali possono essere agevolmente portate a termine da un comune foglio elettronico. Prenderemo

Dettagli

Indice. pagina 2 di 10

Indice. pagina 2 di 10 LEZIONE PROGETTAZIONE ORGANIZZATIVA DOTT.SSA ROSAMARIA D AMORE Indice PROGETTAZIONE ORGANIZZATIVA---------------------------------------------------------------------------------------- 3 LA STRUTTURA

Dettagli

Capitolo 2. Operazione di limite

Capitolo 2. Operazione di limite Capitolo 2 Operazione di ite In questo capitolo vogliamo occuparci dell operazione di ite, strumento indispensabile per scoprire molte proprietà delle funzioni. D ora in avanti riguarderemo i domini A

Dettagli

Database. Si ringrazia Marco Bertini per le slides

Database. Si ringrazia Marco Bertini per le slides Database Si ringrazia Marco Bertini per le slides Obiettivo Concetti base dati e informazioni cos è un database terminologia Modelli organizzativi flat file database relazionali Principi e linee guida

Dettagli

Lezione 10: Il problema del consumatore: Preferenze e scelta ottimale

Lezione 10: Il problema del consumatore: Preferenze e scelta ottimale Corso di Scienza Economica (Economia Politica) prof. G. Di Bartolomeo Lezione 10: Il problema del consumatore: Preferenze e scelta ottimale Facoltà di Scienze della Comunicazione Università di Teramo Scelta

Dettagli

Consideriamo due polinomi

Consideriamo due polinomi Capitolo 3 Il luogo delle radici Consideriamo due polinomi N(z) = (z z 1 )(z z 2 )... (z z m ) D(z) = (z p 1 )(z p 2 )... (z p n ) della variabile complessa z con m < n. Nelle problematiche connesse al

Dettagli

RELAZIONE TRA VARIABILI QUANTITATIVE. Lezione 7 a. Accade spesso nella ricerca in campo biomedico, così come in altri campi della

RELAZIONE TRA VARIABILI QUANTITATIVE. Lezione 7 a. Accade spesso nella ricerca in campo biomedico, così come in altri campi della RELAZIONE TRA VARIABILI QUANTITATIVE Lezione 7 a Accade spesso nella ricerca in campo biomedico, così come in altri campi della scienza, di voler studiare come il variare di una o più variabili (variabili

Dettagli

Clustering. Utilizziamo per la realizzazione dell'esempio due tipologie di software:

Clustering. Utilizziamo per la realizzazione dell'esempio due tipologie di software: Esercizio Clustering Utilizziamo per la realizzazione dell'esempio due tipologie di software: - XLSTAT.xls - Cluster.exe XLSTAT.xls XLSTAT.xls è una macro di Excel che offre la possibilità di effettuare

Dettagli

Codifiche a lunghezza variabile

Codifiche a lunghezza variabile Sistemi Multimediali Codifiche a lunghezza variabile Marco Gribaudo marcog@di.unito.it, gribaudo@elet.polimi.it Assegnazione del codice Come visto in precedenza, per poter memorizzare o trasmettere un

Dettagli

1) Si consideri un esperimento che consiste nel lancio di 5 dadi. Lo spazio campionario:

1) Si consideri un esperimento che consiste nel lancio di 5 dadi. Lo spazio campionario: Esempi di domande risposta multipla (Modulo II) 1) Si consideri un esperimento che consiste nel lancio di 5 dadi. Lo spazio campionario: 1) ha un numero di elementi pari a 5; 2) ha un numero di elementi

Dettagli

Amplificatori Audio di Potenza

Amplificatori Audio di Potenza Amplificatori Audio di Potenza Un amplificatore, semplificando al massimo, può essere visto come un oggetto in grado di aumentare il livello di un segnale. Ha quindi, generalmente, due porte: un ingresso

Dettagli

Statistica. Lezione 6

Statistica. Lezione 6 Università degli Studi del Piemonte Orientale Corso di Laurea in Infermieristica Corso integrato in Scienze della Prevenzione e dei Servizi sanitari Statistica Lezione 6 a.a 011-01 Dott.ssa Daniela Ferrante

Dettagli

Verifica di ipotesi e intervalli di confidenza nella regressione multipla

Verifica di ipotesi e intervalli di confidenza nella regressione multipla Verifica di ipotesi e intervalli di confidenza nella regressione multipla Eduardo Rossi 2 2 Università di Pavia (Italy) Maggio 2014 Rossi MRLM Econometria - 2014 1 / 23 Sommario Variabili di controllo

Dettagli

Un po di statistica. Christian Ferrari. Laboratorio di Matematica

Un po di statistica. Christian Ferrari. Laboratorio di Matematica Un po di statistica Christian Ferrari Laboratorio di Matematica 1 Introduzione La statistica è una parte della matematica applicata che si occupa della raccolta, dell analisi e dell interpretazione di

Dettagli

Prova di autovalutazione Prof. Roberta Siciliano

Prova di autovalutazione Prof. Roberta Siciliano Prova di autovalutazione Prof. Roberta Siciliano Esercizio 1 Nella seguente tabella è riportata la distribuzione di frequenza dei prezzi per camera di alcuni agriturismi, situati nella regione Basilicata.

Dettagli

Come visto precedentemente l equazione integro differenziale rappresentativa dell equilibrio elettrico di un circuito RLC è la seguente: 1 = (1)

Come visto precedentemente l equazione integro differenziale rappresentativa dell equilibrio elettrico di un circuito RLC è la seguente: 1 = (1) Transitori Analisi nel dominio del tempo Ricordiamo che si definisce transitorio il periodo di tempo che intercorre nel passaggio, di un sistema, da uno stato energetico ad un altro, non è comunque sempre

Dettagli

Un gioco con tre dadi

Un gioco con tre dadi Un gioco con tre dadi Livello scolare: biennio Abilità interessate Costruire lo spazio degli eventi in casi semplici e determinarne la cardinalità. Valutare la probabilità in diversi contesti problematici.

Dettagli

Raccomandazione del Parlamento europeo 18/12/2006 CLASSE PRIMA COMPETENZE ABILITÀ CONOSCENZE. Operare con i numeri

Raccomandazione del Parlamento europeo 18/12/2006 CLASSE PRIMA COMPETENZE ABILITÀ CONOSCENZE. Operare con i numeri COMPETENZA CHIAVE MATEMATICA Fonte di legittimazione Raccomandazione del Parlamento europeo 18/12/2006 CLASSE PRIMA COMPETENZE ABILITÀ CONOSCENZE L alunno utilizza il calcolo scritto e mentale con i numeri

Dettagli

~ Copyright Ripetizionando - All rights reserved ~ http://ripetizionando.wordpress.com STUDIO DI FUNZIONE

~ Copyright Ripetizionando - All rights reserved ~ http://ripetizionando.wordpress.com STUDIO DI FUNZIONE STUDIO DI FUNZIONE Passaggi fondamentali Per effettuare uno studio di funzione completo, che non lascia quindi margine a una quasi sicuramente errata inventiva, sono necessari i seguenti 7 passaggi: 1.

Dettagli

VERIFICA DELLE IPOTESI

VERIFICA DELLE IPOTESI VERIFICA DELLE IPOTESI Nella verifica delle ipotesi è necessario fissare alcune fasi prima di iniziare ad analizzare i dati. a) Si deve stabilire quale deve essere l'ipotesi nulla (H0) e quale l'ipotesi

Dettagli

Corrispondenze e funzioni

Corrispondenze e funzioni Corrispondenze e funzioni L attività fondamentale della mente umana consiste nello stabilire corrispondenze e relazioni tra oggetti; è anche per questo motivo che il concetto di corrispondenza è uno dei

Dettagli

Ricerca di outlier. Ricerca di Anomalie/Outlier

Ricerca di outlier. Ricerca di Anomalie/Outlier Ricerca di outlier Prof. Matteo Golfarelli Alma Mater Studiorum - Università di Bologna Ricerca di Anomalie/Outlier Cosa sono gli outlier? L insieme di dati che sono considerevolmente differenti dalla

Dettagli

2 + (σ2 - ρσ 1 ) 2 > 0 [da -1 ρ 1] b = (σ 2. 2 - ρσ1 σ 2 ) = (σ 1

2 + (σ2 - ρσ 1 ) 2 > 0 [da -1 ρ 1] b = (σ 2. 2 - ρσ1 σ 2 ) = (σ 1 1 PORTAFOGLIO Portafoglio Markowitz (2 titoli) (rischiosi) due titoli rendimento/varianza ( μ 1, σ 1 ), ( μ 2, σ 2 ) Si suppone μ 1 > μ 2, σ 1 > σ 2 portafoglio con pesi w 1, w 2 w 1 = w, w 2 = 1- w 1

Dettagli

Politecnico di Milano. Facoltà di Ingegneria Industriale. Corso di Analisi e Geometria 2. Sezione D-G. (Docente: Federico Lastaria).

Politecnico di Milano. Facoltà di Ingegneria Industriale. Corso di Analisi e Geometria 2. Sezione D-G. (Docente: Federico Lastaria). Politecnico di Milano. Facoltà di Ingegneria Industriale. Corso di Analisi e Geometria 2. Sezione D-G. (Docente: Federico Lastaria). Aprile 20 Indice Serie numeriche. Serie convergenti, divergenti, indeterminate.....................

Dettagli

Capitolo 12 La regressione lineare semplice

Capitolo 12 La regressione lineare semplice Levine, Krehbiel, Berenson Statistica II ed. 2006 Apogeo Capitolo 12 La regressione lineare semplice Insegnamento: Statistica Corso di Laurea Triennale in Economia Facoltà di Economia, Università di Ferrara

Dettagli

Metodi statistici per le ricerche di mercato

Metodi statistici per le ricerche di mercato Metodi statistici per le ricerche di mercato Prof.ssa Isabella Mingo A.A. 2014-2015 Facoltà di Scienze Politiche, Sociologia, Comunicazione Corso di laurea Magistrale in «Organizzazione e marketing per

Dettagli

SPC e distribuzione normale con Access

SPC e distribuzione normale con Access SPC e distribuzione normale con Access In questo articolo esamineremo una applicazione Access per il calcolo e la rappresentazione grafica della distribuzione normale, collegata con tabelle di Clienti,

Dettagli

Elementi di Psicometria con Laboratorio di SPSS 1

Elementi di Psicometria con Laboratorio di SPSS 1 Elementi di Psicometria con Laboratorio di SPSS 1 29-Analisi della potenza statistica vers. 1.0 (12 dicembre 2014) Germano Rossi 1 germano.rossi@unimib.it 1 Dipartimento di Psicologia, Università di Milano-Bicocca

Dettagli

Slide Cerbara parte1 5. Le distribuzioni teoriche

Slide Cerbara parte1 5. Le distribuzioni teoriche Slide Cerbara parte1 5 Le distribuzioni teoriche I fenomeni biologici, demografici, sociali ed economici, che sono il principale oggetto della statistica, non sono retti da leggi matematiche. Però dalle

Dettagli

ANALISI DEI DATI PER IL MARKETING 2014

ANALISI DEI DATI PER IL MARKETING 2014 ANALISI DEI DATI PER IL MARKETING 2014 Marco Riani mriani@unipr.it http://www.riani.it LA CLASSIFICAZIONE CAP IX, pp.367-457 Problema generale della scienza (Linneo, ) Analisi discriminante Cluster Analysis

Dettagli

f(x) = 1 x. Il dominio di questa funzione è il sottoinsieme proprio di R dato da

f(x) = 1 x. Il dominio di questa funzione è il sottoinsieme proprio di R dato da Data una funzione reale f di variabile reale x, definita su un sottoinsieme proprio D f di R (con questo voglio dire che il dominio di f è un sottoinsieme di R che non coincide con tutto R), ci si chiede

Dettagli

E naturale chiedersi alcune cose sulla media campionaria x n

E naturale chiedersi alcune cose sulla media campionaria x n Supponiamo che un fabbricante stia introducendo un nuovo tipo di batteria per un automobile elettrica. La durata osservata x i delle i-esima batteria è la realizzazione (valore assunto) di una variabile

Dettagli

LA TRASMISSIONE DELLE INFORMAZIONI QUARTA PARTE 1

LA TRASMISSIONE DELLE INFORMAZIONI QUARTA PARTE 1 LA TRASMISSIONE DELLE INFORMAZIONI QUARTA PARTE 1 I CODICI 1 IL CODICE BCD 1 Somma in BCD 2 Sottrazione BCD 5 IL CODICE ECCESSO 3 20 La trasmissione delle informazioni Quarta Parte I codici Il codice BCD

Dettagli

( x) ( x) 0. Equazioni irrazionali

( x) ( x) 0. Equazioni irrazionali Equazioni irrazionali Definizione: si definisce equazione irrazionale un equazione in cui compaiono uno o più radicali contenenti l incognita. Esempio 7 Ricordiamo quanto visto sulle condizioni di esistenza

Dettagli

Matematica generale CTF

Matematica generale CTF Successioni numeriche 19 agosto 2015 Definizione di successione Monotonìa e limitatezza Forme indeterminate Successioni infinitesime Comportamento asintotico Criterio del rapporto per le successioni Definizione

Dettagli

MATEMATICA DEL DISCRETO elementi di teoria dei grafi. anno acc. 2009/2010

MATEMATICA DEL DISCRETO elementi di teoria dei grafi. anno acc. 2009/2010 elementi di teoria dei grafi anno acc. 2009/2010 Grafi semplici Un grafo semplice G è una coppia ordinata (V(G), L(G)), ove V(G) è un insieme finito e non vuoto di elementi detti vertici o nodi di G, mentre

Dettagli

1 Serie di Taylor di una funzione

1 Serie di Taylor di una funzione Analisi Matematica 2 CORSO DI STUDI IN SMID CORSO DI ANALISI MATEMATICA 2 CAPITOLO 7 SERIE E POLINOMI DI TAYLOR Serie di Taylor di una funzione. Definizione di serie di Taylor Sia f(x) una funzione definita

Dettagli

Corso di Psicometria Progredito

Corso di Psicometria Progredito Corso di Psicometria Progredito 3.1 Introduzione all inferenza statistica Prima Parte Gianmarco Altoè Dipartimento di Pedagogia, Psicologia e Filosofia Università di Cagliari, Anno Accademico 2013-2014

Dettagli

risulta (x) = 1 se x < 0.

risulta (x) = 1 se x < 0. Questo file si pone come obiettivo quello di mostrarvi come lo studio di una funzione reale di una variabile reale, nella cui espressione compare un qualche valore assoluto, possa essere svolto senza necessariamente

Dettagli

Algoritmi e strutture dati. Codici di Huffman

Algoritmi e strutture dati. Codici di Huffman Algoritmi e strutture dati Codici di Huffman Memorizzazione dei dati Quando un file viene memorizzato, esso va memorizzato in qualche formato binario Modo più semplice: memorizzare il codice ASCII per

Dettagli

13. Campi vettoriali

13. Campi vettoriali 13. Campi vettoriali 1 Il campo di velocità di un fluido Il concetto di campo in fisica non è limitato ai fenomeni elettrici. In generale il valore di una grandezza fisica assegnato per ogni punto dello

Dettagli

Elementi di Psicometria con Laboratorio di SPSS 1

Elementi di Psicometria con Laboratorio di SPSS 1 Elementi di Psicometria con Laboratorio di SPSS 1 12-Il t-test per campioni appaiati vers. 1.2 (7 novembre 2014) Germano Rossi 1 germano.rossi@unimib.it 1 Dipartimento di Psicologia, Università di Milano-Bicocca

Dettagli

PROGETTO EM.MA PRESIDIO

PROGETTO EM.MA PRESIDIO PROGETTO EM.MA PRESIDIO di PIACENZA Bentornati Il quadro di riferimento di matematica : INVALSI e TIMSS A CONFRONTO LE PROVE INVALSI Quadro di riferimento per la valutazione Quadro di riferimento per i

Dettagli

APPUNTI DI MATEMATICA LE FRAZIONI ALGEBRICHE ALESSANDRO BOCCONI

APPUNTI DI MATEMATICA LE FRAZIONI ALGEBRICHE ALESSANDRO BOCCONI APPUNTI DI MATEMATICA LE FRAZIONI ALGEBRICHE ALESSANDRO BOCCONI Indice 1 Le frazioni algebriche 1.1 Il minimo comune multiplo e il Massimo Comun Divisore fra polinomi........ 1. Le frazioni algebriche....................................

Dettagli

CAPITOLO 10 I SINDACATI

CAPITOLO 10 I SINDACATI CAPITOLO 10 I SINDACATI 10-1. Fate l ipotesi che la curva di domanda di lavoro di una impresa sia data da: 20 0,01 E, dove è il salario orario e E il livello di occupazione. Ipotizzate inoltre che la funzione

Dettagli

Corso di Calcolo Numerico

Corso di Calcolo Numerico Corso di Calcolo Numerico Dott.ssa M.C. De Bonis Università degli Studi della Basilicata, Potenza Facoltà di Ingegneria Corso di Laurea in Ingegneria Meccanica Sistemi di Numerazione Sistema decimale La

Dettagli

Domande a scelta multipla 1

Domande a scelta multipla 1 Domande a scelta multipla Domande a scelta multipla 1 Rispondete alle domande seguenti, scegliendo tra le alternative proposte. Cercate di consultare i suggerimenti solo in caso di difficoltà. Dopo l elenco

Dettagli

03. Il Modello Gestionale per Processi

03. Il Modello Gestionale per Processi 03. Il Modello Gestionale per Processi Gli aspetti strutturali (vale a dire l organigramma e la descrizione delle funzioni, ruoli e responsabilità) da soli non bastano per gestire la performance; l organigramma

Dettagli

Capitolo 4: Ottimizzazione non lineare non vincolata parte II. E. Amaldi DEIB, Politecnico di Milano

Capitolo 4: Ottimizzazione non lineare non vincolata parte II. E. Amaldi DEIB, Politecnico di Milano Capitolo 4: Ottimizzazione non lineare non vincolata parte II E. Amaldi DEIB, Politecnico di Milano 4.3 Algoritmi iterativi e convergenza Programma non lineare (PNL): min f(x) s.v. g i (x) 0 1 i m x S

Dettagli

Esempi di funzione. Scheda Tre

Esempi di funzione. Scheda Tre Scheda Tre Funzioni Consideriamo una legge f che associa ad un elemento di un insieme X al più un elemento di un insieme Y; diciamo che f è una funzione, X è l insieme di partenza e X l insieme di arrivo.

Dettagli

Statistica e biometria. D. Bertacchi. Variabili aleatorie. V.a. discrete e continue. La densità di una v.a. discreta. Esempi.

Statistica e biometria. D. Bertacchi. Variabili aleatorie. V.a. discrete e continue. La densità di una v.a. discreta. Esempi. Iniziamo con definizione (capiremo fra poco la sua utilità): DEFINIZIONE DI VARIABILE ALEATORIA Una variabile aleatoria (in breve v.a.) X è funzione che ha come dominio Ω e come codominio R. In formule:

Dettagli

UNIVERSITÀ DEGLI STUDI DI PADOVA Facoltà di Ingegneria sede di Vicenza A.A. 2007/08

UNIVERSITÀ DEGLI STUDI DI PADOVA Facoltà di Ingegneria sede di Vicenza A.A. 2007/08 UNIVERSITÀ DEGLI STUDI DI PADOVA Facoltà di Ingegneria sede di Vicenza Corso di Disegno Tecnico Industriale per il Corso di Laurea triennale in Ingegneria Meccanica e in Ingegneria Meccatronica Tolleranze

Dettagli

LA CORRELAZIONE LINEARE

LA CORRELAZIONE LINEARE LA CORRELAZIONE LINEARE La correlazione indica la tendenza che hanno due variabili (X e Y) a variare insieme, ovvero, a covariare. Ad esempio, si può supporre che vi sia una relazione tra l insoddisfazione

Dettagli

3 GRAFICI DI FUNZIONI

3 GRAFICI DI FUNZIONI 3 GRAFICI DI FUNZIONI Particolari sottoinsiemi di R che noi studieremo sono i grafici di funzioni. Il grafico di una funzione f (se non è specificato il dominio di definizione) è dato da {(x, y) : x dom

Dettagli

PROGETTO INDAGINE DI OPINIONE SUL PROCESSO DI FUSIONE DEI COMUNI NEL PRIMIERO

PROGETTO INDAGINE DI OPINIONE SUL PROCESSO DI FUSIONE DEI COMUNI NEL PRIMIERO PROGETTO INDAGINE DI OPINIONE SUL PROCESSO DI FUSIONE DEI COMUNI NEL PRIMIERO L indagine si è svolta nel periodo dal 26 agosto al 16 settembre 2014 con l obiettivo di conoscere l opinione dei residenti

Dettagli

Capitolo 2 - Teoria della manutenzione: classificazione ABC e analisi di Pareto

Capitolo 2 - Teoria della manutenzione: classificazione ABC e analisi di Pareto Capitolo 2 - Teoria della manutenzione: classificazione ABC e analisi di Pareto Il presente capitolo continua nell esposizione di alcune basi teoriche della manutenzione. In particolare si tratteranno

Dettagli

La categoria «ES» presenta (di solito) gli stessi comandi

La categoria «ES» presenta (di solito) gli stessi comandi Utilizzo delle calcolatrici FX 991 ES+ Parte II PARMA, 11 Marzo 2014 Prof. Francesco Bologna bolfra@gmail.com ARGOMENTI DELLA LEZIONE 1. Richiami lezione precedente 2.Calcolo delle statistiche di regressione:

Dettagli

2.1 Definizione di applicazione lineare. Siano V e W due spazi vettoriali su R. Un applicazione

2.1 Definizione di applicazione lineare. Siano V e W due spazi vettoriali su R. Un applicazione Capitolo 2 MATRICI Fra tutte le applicazioni su uno spazio vettoriale interessa esaminare quelle che mantengono la struttura di spazio vettoriale e che, per questo, vengono dette lineari La loro importanza

Dettagli

DATI NORMATIVI PER LA SOMMINISTRAZIONE DELLE PROVE PAC-SI A BAMBINI DI INIZIO SCUOLA PRIMARIA 1

DATI NORMATIVI PER LA SOMMINISTRAZIONE DELLE PROVE PAC-SI A BAMBINI DI INIZIO SCUOLA PRIMARIA 1 DATI NORMATIVI PER LA SOMMINISTRAZIONE DELLE PROVE PAC-SI A BAMBINI DI INIZIO SCUOLA PRIMARIA 1 Marta Desimoni**, Daniela Pelagaggi**, Simona Fanini**, Loredana Romano**,Teresa Gloria Scalisi* * Dipartimento

Dettagli

Luigi Piroddi piroddi@elet.polimi.it

Luigi Piroddi piroddi@elet.polimi.it Automazione industriale dispense del corso 10. Reti di Petri: analisi strutturale Luigi Piroddi piroddi@elet.polimi.it Analisi strutturale Un alternativa all analisi esaustiva basata sul grafo di raggiungibilità,

Dettagli

10. Insiemi non misurabili secondo Lebesgue.

10. Insiemi non misurabili secondo Lebesgue. 10. Insiemi non misurabili secondo Lebesgue. Lo scopo principale di questo capitolo è quello di far vedere che esistono sottoinsiemi di R h che non sono misurabili secondo Lebesgue. La costruzione di insiemi

Dettagli

Per studio di funzione intendiamo un insieme di procedure che hanno lo scopo di analizzare le proprietà di una funzione f ( x) R R

Per studio di funzione intendiamo un insieme di procedure che hanno lo scopo di analizzare le proprietà di una funzione f ( x) R R Studio di funzione Per studio di funzione intendiamo un insieme di procedure che hanno lo scopo di analizzare le proprietà di una funzione f ( x) R R : allo scopo di determinarne le caratteristiche principali.

Dettagli

Corso di Informatica Generale (C. L. Economia e Commercio) Ing. Valerio Lacagnina Rappresentazione in virgola mobile

Corso di Informatica Generale (C. L. Economia e Commercio) Ing. Valerio Lacagnina Rappresentazione in virgola mobile Problemi connessi all utilizzo di un numero di bit limitato Abbiamo visto quali sono i vantaggi dell utilizzo della rappresentazione in complemento alla base: corrispondenza biunivoca fra rappresentazione

Dettagli

ECONOMIA DEL LAVORO. Lezioni di maggio (testo: BORJAS) L offerta di lavoro

ECONOMIA DEL LAVORO. Lezioni di maggio (testo: BORJAS) L offerta di lavoro ECONOMIA DEL LAVORO Lezioni di maggio (testo: BORJAS) L offerta di lavoro Offerta di lavoro - Le preferenze del lavoratore Il luogo delle combinazioni di C e L che generano lo stesso livello di U (e.g.

Dettagli

ESERCIZI DI ALGEBRA LINEARE E GEOMETRIA

ESERCIZI DI ALGEBRA LINEARE E GEOMETRIA ESERCIZI DI ALGEBRA LINEARE E GEOMETRIA Francesco Bottacin Padova, 24 febbraio 2012 Capitolo 1 Algebra Lineare 1.1 Spazi e sottospazi vettoriali Esercizio 1.1. Sia U il sottospazio di R 4 generato dai

Dettagli

CONTINUITÀ E DERIVABILITÀ Esercizi proposti. 1. Determinare lim M(sinx) (M(t) denota la mantissa di t)

CONTINUITÀ E DERIVABILITÀ Esercizi proposti. 1. Determinare lim M(sinx) (M(t) denota la mantissa di t) CONTINUITÀ E DERIVABILITÀ Esercizi proposti 1. Determinare lim M(sin) (M(t) denota la mantissa di t) kπ/ al variare di k in Z. Ove tale limite non esista, discutere l esistenza dei limiti laterali. Identificare

Dettagli

COMPITO B - ANALISI DEI DATI PER IL MARKETING OTTOBRE 2009

COMPITO B - ANALISI DEI DATI PER IL MARKETING OTTOBRE 2009 COGNOME E NOME COMPITO B - ANALISI DEI DATI PER IL MARKETING OTTOBRE 2009 Esercizio I MATR. Si è effettuata un indagine di customer satisfaction su un campione di 100 acquirenti d un modello di auto, chiedendo

Dettagli

Il confronto fra proporzioni

Il confronto fra proporzioni L. Boni Il rapporto Un rapporto (ratio), attribuendo un ampio significato al termine, è il risultato della divisione di una certa quantità a per un altra quantità b Il rapporto Spesso, in maniera più specifica,

Dettagli

La teoria dell utilità attesa

La teoria dell utilità attesa La teoria dell utilità attesa 1 La teoria dell utilità attesa In un contesto di certezza esiste un legame biunivoco tra azioni e conseguenze: ad ogni azione corrisponde una e una sola conseguenza, e viceversa.

Dettagli

Siamo così arrivati all aritmetica modulare, ma anche a individuare alcuni aspetti di come funziona l aritmetica del calcolatore come vedremo.

Siamo così arrivati all aritmetica modulare, ma anche a individuare alcuni aspetti di come funziona l aritmetica del calcolatore come vedremo. DALLE PESATE ALL ARITMETICA FINITA IN BASE 2 Si è trovato, partendo da un problema concreto, che con la base 2, utilizzando alcune potenze della base, operando con solo addizioni, posso ottenere tutti

Dettagli

Fasi di creazione di un programma

Fasi di creazione di un programma Fasi di creazione di un programma 1. Studio Preliminare 2. Analisi del Sistema 6. Manutenzione e Test 3. Progettazione 5. Implementazione 4. Sviluppo 41 Sviluppo di programmi Per la costruzione di un programma

Dettagli

Mete e coerenze formative. Dalla scuola dell infanzia al biennio della scuola secondaria di II grado

Mete e coerenze formative. Dalla scuola dell infanzia al biennio della scuola secondaria di II grado Mete e coerenze formative Dalla scuola dell infanzia al biennio della scuola secondaria di II grado Area disciplinare: Area Matematica Finalità Educativa Acquisire gli alfabeti di base della cultura Disciplina

Dettagli

Documentazione esterna al software matematico sviluppato con MatLab

Documentazione esterna al software matematico sviluppato con MatLab Documentazione esterna al software matematico sviluppato con MatLab Algoritmi Metodo di Gauss-Seidel con sovrarilassamento Metodo delle Secanti Metodo di Newton Studente Amelio Francesco 556/00699 Anno

Dettagli

Teoria in sintesi 10. Attività di sportello 1, 24 - Attività di sportello 2, 24 - Verifica conclusiva, 25. Teoria in sintesi 26

Teoria in sintesi 10. Attività di sportello 1, 24 - Attività di sportello 2, 24 - Verifica conclusiva, 25. Teoria in sintesi 26 Indice L attività di recupero 6 Funzioni Teoria in sintesi 0 Obiettivo Ricerca del dominio e del codominio di funzioni note Obiettivo Ricerca del dominio di funzioni algebriche; scrittura del dominio Obiettivo

Dettagli

TRAGUARDI PER LO SVILUPPO DELLE COMPETENZE AL TERMINE DELLA SCUOLA PRIMARIA

TRAGUARDI PER LO SVILUPPO DELLE COMPETENZE AL TERMINE DELLA SCUOLA PRIMARIA SCUOLA PRIMARIA DI CORTE FRANCA MATEMATICA CLASSE QUINTA TRAGUARDI PER LO SVILUPPO DELLE COMPETENZE AL TERMINE DELLA SCUOLA PRIMARIA L ALUNNO SVILUPPA UN ATTEGGIAMENTO POSITIVO RISPETTO ALLA MATEMATICA,

Dettagli

Sistemi Informativi Territoriali. Map Algebra

Sistemi Informativi Territoriali. Map Algebra Paolo Mogorovich Sistemi Informativi Territoriali Appunti dalle lezioni Map Algebra Cod.735 - Vers.E57 1 Definizione di Map Algebra 2 Operatori locali 3 Operatori zonali 4 Operatori focali 5 Operatori

Dettagli