Progetto di Data Mining Advanced topics on Data Mining and case studies classe 2017

Dimensione: px
Iniziare la visualizzazioe della pagina:

Download "Progetto di Data Mining Advanced topics on Data Mining and case studies classe 2017"

Transcript

1 Progetto di Data Mining Advanced topics on Data Mining and case studies classe 2017 Indice 1. Introduzione 2. Pattern Sequenziali: i corali di Bach 2.1 I corali e il dataset 2.2 Le sotto-sequenze di note frequenti 2.3 Le sotto-sequenze di note contigue frequenti 2.4 Conclusioni 3. Time series: omicidi negli Stati Uniti 3.1 Data understanding e data preparation 3.2 Periodicità 3.3 Similarità 3.4 Conclusioni 4. Classificazione con metodi alternativi: il Titanic 4.1 Classificazione con K-nearest neighbors 4.2 Classificazione con Bayes 4.3 Classificazione con Support vector machine 4.4 Classificazione con Neural network 4.5 Conclusioni 5. Outlier detection 5.1 DB(ε,π)-Outliers 5.2 LOF 5.3 Conclusioni A cura di: Giulio Bambini, Magistrale di Business Informatics, matricola: Giovanni Genovese, Magistrale di Business Informatics, matricola: Matilde Lazzari, Magistrale di Informatica Umanistica, matricola: di 19

2 1. INTRODUZIONE Nel presente elaborato si pone l obiettivo di affrontare i diversi task: pattern sequenziali; serie temporali; metodi alternativi di classificazione e outlier detection. 2. PATTERN SEQUENZIALI: I CORALI DI BACH 2.1 I CORALI E IL DATASET I corali di Johann Sebastian Bach Johann Sebastian Bach ( ) fu compositore e musicista tedesco nel periodo barocco ed è ritenuto il maggiore esponente della musica sacra luterana. Bach armonizzò 100 dei 189 tradizionali corali luterani. 1 I corali sono una forma musicale tipica degli inni religiosi, hanno una melodia semplice e facile da ricordare affinché i fedeli potessero cantarli durante le funzioni religiose. 2 Le caratteristiche relative alla durata delle note sono indicate nella documentazione del dataset sul sito UCI 3; questa è misurata in 16 note, cioè in semicrome. Il dataset Il dataset è composto da cento corali in cui ogni nota è riportata in forma di attributo categorico intero secondo il protocollo MIDI. Tool e Algoritmi utilizzati Per la scoperta di pattern sequenziali frequenti è stato impiegato il tool in Java SPFM 4. Di seguito si riportano i nomi e una breve descrizione degli algoritmi utilizzati. GSP - L algoritmo identifica i pattern sequenziali frequenti. MAXSP - L algoritmo trova le sotto-sequenze frequenti e massimali, cioè non incluse in un altra sequenza con lo stesso supporto. PREFIX_SPAN - L algoritmo identifica i pattern sequenziali frequenti. SPAM - L algoritmo trova i pattern sequenziali frequenti; permette di specificare il parametro relativo alla lunghezza minima del pattern e il max-gap. BIDE+ - L algoritmo trova le sotto-sequenze frequenti e closed 5. La scelta di utilizzare algoritmi con funzionalità leggermente diverse deriva dall esigenza di confrontare gli output e le performance 6 di ognuno, così da valutare se le caratteristiche di ciascun algoritmo possano influenzare i risultati. Tuttavia, questa casistica non si è presentata dal momento che tutti gli algoritmi restituiscono gli stessi output. Tra tutti, l algoritmo più veloce è stato SPAM con 5ms impiegati per identificare le sotto sequenza frequenti. La soglia ottimale di supporto per ogni task è stata ottenuta empiricamente: si è fonte: Wikipedia: fonte Wikipedia: quando nessuno dei sui superset immediati ha lo stesso supporto. 6 Valutate in tempo di esecuzione 2 di 19

3 diminuito progressivamente il valore di minsup osservando il numero di sotto-sequenze estratte. Si è scelto il valore massimo di minsup per il quale si otteneva il numero desiderato di sotto-sequenze. La lunghezza minima delle sotto-sequenze 7 è stata impostata a 5 qualora si richiedeva di identificare le sotto-sequenze frequenti mentre è stata impostata a 4 quando si richiedeva l identificazione delle sotto-sequenze frequenti e contigue. Tra quelli utilizzati, l algoritmo SPAM è l unico che permette l inserimento del suddetto parametro. Per identificare le sotto-sequenze contigue è stato impiegato l algoritmo SPAM che consente l inserimento del parametro max-gap, che se assegnato =1 consente di ottenere le sotto-sequenze contigue. 2.2 LE SOTTO-SEQUENZE DI NOTE FREQUENTI Cinque sotto-sequenze di note più frequenti che contengono almeno 5 note Tutti gli algoritmi utilizzati identificano le stesse sotto sequenze frequenti. Sono state identificate nove sotto sequenze tra cui le (4)(5)(6) a pari merito di supporto come anche le (7)(8)(9). Tutti gli algoritmi utilizzati estraggono le sequenze illustrate in Tabella 1. La soglia di supporto necessaria per ottenere le cinque sotto-sequenze più frequenti composte da almeno cinque note è minsup 65%. Di seguito la tabella con il risultato: Classifica Sequenza Supporto 1 LA_5, LA_5, LA_5, LA _5, LA_5 69, 69, 69, 69, 69, 2 LA_5, LA_5,LA_5,LA_5, LA_5, LA_5 69, 69, 69, 69, 69, 69, 3 LA_5, RE_6, LA_5,LA_5, LA_5 69, 74, 69, 69, 69 4 LA_5, LA_5,LA_5, LA_5, SOL_5 69, 69, 69, 69, 67 4 LA_5, LA_5, LA_5, LA_5, LA_5, LA_5, LA_5 69, 69, 69, 69, 69, 69, 69 4 LA_5, LA_5, LA_5, RE_6, LA_5 69, 69, 69, 74, 69 5 LA_5, LA_5, SOL_5, LA_5, LA_5 69, 69, 67, 69, 69 5 LA_5, LA_5, RE_6,LA_5, LA_5 69, 69, 74, 69, 69 5 LA_5, RE_6, RE_6,LA_5, LA_5 69, 74, 74, 69, 69 Tabella 1: sotto-sequenze più frequenti con almeno 5 note 75% 72% 68% 66% 66% 66% 65% 65% 65% Cinque sotto-sequenze di note più frequenti con durata. La durata delle note è indicata da un numero intero pari al prodotto della durata moltiplicata per 100 e a cui viene sommato il numero relativo alla nota in MIDI. Nella 7 Parametro min pattern length 3 di 19

4 tabella si illustrano i risultati ottenuti. Per ottenere le cinque sotto-sequenze più frequenti la soglia minima di supporto è minsup 50%. Classifica Sequenza Supporto 1 469, 469, 469, 469, 469 LA _4, LA _4, LA _4, LA _4,LA _ , 471, 469, 471, 469 SI_3, SI _3, LA_4, SI_3, LA_ , 471, 471, 471, 469 SI_3, SI _3, SI _3, SI_3, LA_ , 471, 471, 469, 469 LA _4, SI_3, SI_3, LA _4,LA _ , 469, 471, 469, 469 SI_3, LA_4, SI _3, LA_4, LA_ , 469, 471, 469, 469 LA _4, LA _4, SI_3, LA _4,LA _ , 471, 469, 471, 469 LA _4, SI_3, LA _4, SI_3, LA _4 Tabella 2: sotto-sequenze più frequenti delle note con la durata 59% 53% 52% 51% 51% 50% 50% 2.3 LE SOTTO-SEQUENZE DI NOTE FREQUENTI E CONTIGUE La condizione di contiguità delle note si esprime con il parametro max-gap, che in questo caso deve essere max-gap = 1. Nelle tabelle successive vedremo il risultato dell output dell algoritmo SPAM. Cinque sotto-sequenze di note contigue frequenti con almeno 4 note. Il supporto minimo richiesto per l ottenimento di almeno 5 sotto-sequenze è fissato a minsup 19%. Classifica Sequenza Supporto 1 RE_5, DO_5, SI_4, LA_4 27% 2 SI_4, DO_5, SI_4, LA_4 23% 3 LA_4, SI_4, DO#_5, RE_5 21% 4 DO_5, RE_5, DO_5, SI_4 20% 5 SOL_4, LA_4, SI_4, DO_5 19% 5 LA_4, SI_4, DO_5, SI_4 19% 5 DO_5, SI_4, LA_4, SI_4 19% 5 DO#_5, RE_5, DO#_5, SI_4 19% Tabella 3: sotto-sequenze frequenti e contigue Cinque sotto-sequenze di note contigue più frequenti con almeno 4 note con durata Per ottenere una sotto-sequenza di note contigue è necessario inserire il parametro minsup 7%. 4 di 19

5 Classifica Sequenza Supporto 1 474, 472, 471, 469 RE_5, DO_5, SI_4, LA_ , 472, 471, 469 SI_4, DO_5, SI_4, LA_ , 469, 471, 472 SOL_4, LA_4, SI_4, DO_ , 474, 473, 471 C#_5, RE_5, C#_5, SI_ , 473, 471, 469 RE_5, C#_5, SI_4, LA_ , 467, 469, 471 SOL_4, SOL_4, LA_4, SI_ , 471, 472, 471 LA_4, SI_4, DO_5, SI_ , 471, 473, 474 LA_4, SI_4, C#_5, RE_ , 474, 472, 471 MI_5, RE_5, DO_5, SI_ , 471, 469, 469 DO_5, SI_4, LA_4, LA_ , 474, 475, 474 DO_5, RE_5, 475, RE_ , 474, 474, 474 RE_5, RE_5, RE_5, RE_ , 476, 474, 472 RE_5, MI_5, RE_5, DO_5 Tabella 4: sotto-sequenze frequenti, contigue e con durata 11% 10% 9% 9% 9% 8% 8% 8% 8% 7% 7% 7% 7% 2.4 CONCLUSIONI La soglia minima di supporto per identificare cinque sotto-sequenze frequenti si abbassa nel momento in cui subentrano ulteriori condizioni come la durata e la contiguità. Tra quelli utilizzati, l algoritmo più veloce per identificare le sotto-sequenze frequenti è SPAM. 3. TIME SERIES: OMICIDI NEGLI STATI UNITI Il capitolo si pone l obiettivo di analizzare le serie temporali degli omicidi negli Stati Uniti dal 1980 al Con il test Dickey-Fuller e con i grafici di auto-correlazione si andrà a osservare la periodicità delle serie temporali, con gli algoritmi di clustering invece ne verrà analizzata la similarità. 3.1 DATA UNDERSTANDING E DATA PREPARATION Il numero totale di omicidi in tutti gli Stati Uniti dal 1980 al 2014 è di Ai fini dell analisi sono state condotte le seguenti operazioni di pre-processing: 5 di 19

6 gestione missing values. I 26 valori mancanti presenti nel dataset sono stati sostituiti con la media nel numero di uccisioni per ogni stato, così da non condizionare la distribuzione dei valori nel tempo. I missing values sono elencati nella Tabella 5. Stato Anno mancante Numero missing values Alabama District of Columbia 1996, , 2008, Florida Iowa Kansas Kentuky Maine 1991, Montana 1987, 1993,1994, New Hempshire Wisconsin Tabella 5: Valori mancanti all interno del dataset normalizzazione. Dal momento che il numero degli omicidi varia in modo significativo da stato a stato, tutti i valori sono stati normalizzati con il metodo z-score. La normalizzazione ha permesso di allineare le serie temporali e ha evitato che stati con più omicidi prevalessero su stati con meno uccisioni. 3.2 PERIODICITÀ DELLE TIME SERIES Uno sguardo d insieme: gli omicidi in USA Prima di addentrarci nell analisi dei singoli stati americani, osserviamo in un unica serie temporale la distribuzione degli omicidi negli Stati Uniti. Il risultato è illustrato in immagine 1. La serie temporale degli omicidi in USA non ha un trend di crescita ed è prevalentemente stazionaria. Immagine 1: serie temporale degli omicidi negli Stati Uniti dal 1980 al di 19

7 Uno sguardo d insieme: un unica serie temporale generalmente stazionaria Un ulteriore dimostrazione della stazionarietà della serie temporale è data dall immagine 2 sottostante in cui si rappresenta l auto-correlazione della serie per lag temporali da 0 a 35 anni. La serie degli omicidi in USA è periodica se si considera un lag temporale inferiore a un anno, quindi non particolarmente significativo. Dal grafico possiamo concludere che la serie non mostra periodicità significativa ed è prevalentemente stazionaria. Immagine 2: auto-correlation plot degli omicidi negli USA Immagine 3: lag-plot delle times series Per rafforzare l idea che la serie sia prevalentemente stazionaria e per accertarsi che i dati non fossero casuali è stato generato il lag-plot, osservabile in immagine 3. Dal momento che i dati assumono una struttura ben identificabile e compatta, si può affermare che essi non sono random. Le istanze non si dispongono in modo lineare lungo la diagonale: la maggioranza dei punti si concentra dell intervallo [-1,1] per l asse delle x e [-1;1] per l asse delle y. Questo significa che la maggior parte delle time series presenta periodicità per lag temporali di 1 anno (sia positivi che negativi) mentre per lag temporali maggiori sono prevalentemente stazionarie. L auto-correlazione delle serie diminuisce all aumentare del lag temporale confermando la loro natura stazionaria. Dal lag plot emerge che esistono delle serie temporali moderatamente periodiche per lag temporali maggiori che andremo ad analizzare nelle sezioni successive. I singoli stati americani presentano time series differenti: alcune periodiche, altre stazionarie. Questa differenza viene marcata ancora meglio dalla mappa di calore in immagine 4. 7 di 19

8 Se si osserva l andamento del numero di omicidi per ogni singolo stato leggendo la mappa di calore da sinistra a destra per ognuno dei 51 stati, si nota che solo pochi di essi hanno un andamento periodico, seppur poco marcato. Osservando la mappa in verticale si nota che tra il 1990 a 1995 circa è stata registrata una forte crescita del numero degli omicidi in molti stati. Difatti, si evidenzia con facilità una fascia verticale di colori caldi compresa tra [10, 15]. Analizzando la mappa in orizzontale, invece, si nota quanto siano sporadici casi di serie temporali periodiche: per ogni stato l andamento degli omicidi appare costante, tranne per qualche piccola salita nel numero di questi in determinati anni. Non sono identificabili, in definitiva, pattern ripetuti particolarmente significativi nei 35 anni di analisi, tranne per gli stati che saranno analizzati in dettaglio nella sezione seguente. Gli stati con serie temporali periodiche: Test di Dickey- Fuller e auto-correlazione Per trovare gli stati nei quali ci fosse maggiore periodicità nel tasso degli omicidi, è stato condotto un test Dickey-Fuller. Come soglia minima per definizione il test impone un limite di p-value=0.05 e si è seguito il criterio illustrato in tabella 6. p-value 0.05 p-value > 0.05 Serie stazionaria Serie periodica Tabella 6: criterio per il test Dickey-Fuller Dal test è emerso che 32 stati su 51 presentano periodicità nella distribuzione degli omicidi durante gli anni. Per ragioni di sintesi si sono analizzati gli stati con p-value>0.7 e riportati in tabella 7. Posizione in classifica Stato Score p-value 1 Connecticut Illinois New York Michigan California Oregon Maryland 0.75 Tabella 7: classifica degli stati con periodicità massima Mettendo a confronto le time series degli stati con gli score di auto-correlazione in immagine 5 si nota, tuttavia, che nessuna di queste presenta una periodicità marcata per un lag temporale superiore ai 6 anni. 8 di 19

9 Immagine 5: Auto-correlazione per i sette stati con periodicità massima Dal grafico emerge che la serie temporale con l auto-correlazione migliore per i primi 5 anni è quella relativa Michigan. 3.3 SIMILARITÀ Per indagare eventuali similarità tra le time series degli stati americani si sono applicati i seguenti algoritmi di clustering: DBSCAN con Dynamic time warping; DBSCAN con distanza Euclidea; K-means con distanza Euclidea. Immagine 6: matrice delle distanze DBSCAN con Dynamic time warping Con Dynamic time warping è stato trovato il path migliore che minimizza la distanza cumulativa tra tutte le serie temporali. La matrice dei costi risultante dopo l applicazione dell algoritmo DTW è quella illustrata in immagine 6. La matrice è asimmetrica e l algoritmo ha impiegato circa 8 secondi per completarla. Dalla matrice emerge una dominanza del colore verde, segnale che con la distanza DTW tra le serie temporali comparate vi sono distanze medio-brevi. Difatti, la maggior parte delle serie temporali degli Stati Uniti ha una distanza compresa tra 0,2 e 0,4. In immagine 7 è rappresentata la distribuzione delle distanze. Immagine 7: plot delle distanze tra le time series con DTW 9 di 19

10 Ottenuta la matrice delle distanze, è stato eseguito il clustering delle serie temporali con DBSCAN. I parametri sono i seguenti: ε = 0.22, parametro che indica la distanza massima tra due istanze affinché siano incluse nello stesso cluster. Per la scelta di ε si è proceduto come segue: 1. Si sono considerati tutti i valori compresi tra 0 e 2 2. Si rappresentano nel grafico la percentuale di noise point (linea blu) e il numero di cluster (linea verde) per ogni valore di epsilon; 3. Si considera valido il valore di ε nel momento in cui si trova il giusto compromesso tra percentuale di errore e numero di cluster. La scelta di ε è illustrata in immagine 8. Numero di cluster Percentuale di errore Soglia di scelta per ε Immagine 8: Grafico per la scelta dell epsilon ottimale per DBSCAN con DTW. MinPts=2: Per determinare il numero minimo di punti nel vicinato si è osservato il comportamento dell algoritmo di clustering per ogni valore di MinPts da 2 a 10. Nel momento in cui il parametro MinPts era superiore a 2 l algoritmo restituiva solo 1 cluster. I parametri ε e MinPts sono particolarmente piccoli e aumentandoli di poco (per esempio ε=[0.22;0.24] e MinPts=[2;3]) si ottiene un unico cluster: le serie temporali sono dunque molto simili tra loro. Si è preferito mantenere i parametri così come indicati sopra in modo da ottenere più di due cluster ed esaltare il più possibile le differenze tra le serie temporali. Difatti, il numero massimo di cluster ottenibile è tre. Con l algoritmo DBSCAN sono stati identificati tre cluster delle serie temporali. Il primo cluster è composto dagli stati elencati in tabella 7; il secondo cluster da Nebraska e Delaware mentre il terzo da Indiana e Pennsylvania. L algoritmo di clustering ha etichettato come noise point gli stati elencati in tabella stati nel cluster maggiore Alabama District of Columbia Kentucky Minnesota New Jersey Arizona Georgia Louisiana Mississippi NewYork Arkansas Hawaii Maryland Missouri North Carolina California Illinois Massachussets Nevada Ohio Connecticut Kansas Michigan New Hempshire Oklahoma Oregon Texas Virginia Washington West Virginia 10 di 19

11 Wisconsing North Dakota Tabella 7: serie temporali nel cluster maggiore identificato con DBSCAN e DTW 15 Noise point identificati con DBSCAN + DTW Alaska North Dakota Iowa Colorado Rhodes island Tennessee Florida South Carolina Maine Idaho South Dakota Utah Montana Vermont New Mexico Tabella 8: noise point identificati dall algoritmo di clustering DBSCAN e DTW Di seguito si rappresenta la relazione tra le time series con lo scaling multidimensionale (MDS) che permette di avere un idea della relazione tra similarità e distanza tra le istanze. La risultante grafica è illustrata in immagine 9. Immagine 9: Uno dei possibili grafici del MDS per time series raggruppate con DBSCAN Osservando l immagine 9 notiamo che pur entrando in un livello di dettaglio quasi esasperato (sono stati scelti i parametri così da ottenere il numero massimo di cluster), le serie temporali hanno distanza piccola tra loro e sono molto simili. Le serie temporali di Indiana e Pennsylvania vengono incluse nel cluster principale a una aumento minimo di ε da 0.22 a Nebraska e Delaware (correlazione di 0.449) vengono inclusi nel cluster con valori di ε=0.25. Inoltre notiamo che: Tutti gli stati più periodici elencati in tabella 7 (pagina 8) rientrano nel cluster più grande e dunque sussiste una relazione tra periodicità e similarità di forma. Con la distanza cumulativa del DTW le serie temporali tendono ad avere distanze ravvicinate e ad essere raggruppate in un unico cluster DBSCAN con distanza Euclidea In immagine 10 si riporta la matrice delle distanze ottenute con metodo euclideo. Si nota subito che il colore prevalente è il rosso: i valori delle distanze tra le serie temporali appaiono maggiori rispetto a quelli del DTW. Se si osserva la distribuzione delle distanze in immagine 11, si nota che la maggior parte delle time series ha una distanza compresa tra 5 e di 19

12 L algoritmo di clustering DBSCAN presenta i seguenti parametri: ε = 5.22, valore ottimale per il quale si ha il massimo numero di cluster e un giusto compromesso con la percentuale di noise (riferimento a immagine 12). MinPts = 2, valore assegnato seguendo la stessa logica indicata del paragrafo Il parametro ε in questo caso è maggiore rispetto all ε usato per il DBSCAN con DTW perché la distanza tra le time series è maggiore: l algoritmo ha bisogno di un raggio maggiore per effettuare il clustering sulle serie temporali. Il DBSCAN identifica tre cluster: uno composto dalle serie temporali di Arizona e Nevada, uno di Alaska e Oklahoma, un ultimo degli stati elencati in tabella 9. Nella tabella 10 si elencano invece i diciassette stati marcati come noise point. Immagine 10: matrice delle distanze ottenute con distanza euclidea Percentuale noise point Valore ottimare del raggio Numero di cluster Immagine 11: distribuzione delle distanze con DBSCAN e distanza euclidea Immagine 12: grafico per la scelta dell epsilon per DBSCAN con distanza euclidea 30 Stati nel cluster maggiore Alabama Colorado Texas Washington Virginia Connecticut Illinois Maryland Wyoming District of Columbia South Carolina Massachussets Arkansas Georgia Oregon Michigan California Hawaii Kentucky Minnesota Missisipi Ohio New Hepshire New York Missouri Wisconsin New Jersey North Carolina Pennysilvenia West Virginia Tabella 9: elenco degli stati le cui serie sono incluse nel cluster più grande 17 Noise point identificati con DBSCAN + DTW Florida Iowa Maine Montana Delaware 12 di 19

13 New Mexico North Dakota Vermont Idaho Rhodes Island Indiana Kansas Louisiana Nebraska South Dakota Utha South Dakota Tennessee Tabella 10: elenco dei noise point In immagine 13 vediamo la risultante grafica dell algoritmo DBSCAN con distanza Euclidea. Rispetto all output ottenuto con il DTW, qui le distanze tra le serie temporali sono Immagine 13: MDS time series riunite in cluster con DBSCAN con distanza euclidea maggiori; questo tuttavia non va a minare l assetto compatto delle serie temporali che risultano essere comunque simili tra loro. I cluster si sovrappongono e sono vicini tra loro. Alla variazione del valore di ε da 5.22 a 6 già si ottengono due cluster, uno unico se ε=7. Variando invece il parametro MinPts da 2 a 3 (mantenendo ε =5.22) si ottiene un unico cluster K-means con distanza euclidea La funzione di distanza utilizzata per svolgere il clustering è quella Euclidea. Per l identificazione del numero ottimale di cluster (k) si è osservata la distribuzione di SSE generata in cento iterazioni per ogni valore di k da 2 a 10. Nel momento in cui la curva si stabilizza e la differenza di SSE è significativamente minore rispetto alle precedenti, lì ricade la scelta del numero di cluster ideale da fornire all algoritmo. Per chiarimenti, fare riferimento all immagine 14. Il miglior parametro da assegnare a (k) è 5. Con K-means si ottengono cinque cluster; in immagine 15 è riportata la distribuzione delle time series sul grafico dello scaling multidimensionale. Immagine 14: distribuzione dell SSE per il valore di k Dall output dell algoritmo di clustering emerge che le serie temporali degli stati non sono particolarmente distanti: si dispongono in cluster vicini tra loro e vanno in overlapping, 13 di 19

14 come per esempio accade per le serie incluse nei cluster 3,1 e 5. Di seguito la legenda illustrativa per l immagine 15: (1) Alabama, Arkansas, California, Connecticut, District of Columbia, Georgia, Illinois, New York, North Carolina, Oregon, South Carolina, Virginia, Washington (2) Delaware, Florida, Iowa, Kansas, Maine, Montana, Nebraska, North Dakota, South Dakota (3) Alaska, Colorado, Hawaii, Kentucky, Massachusetts, Michigan, Mississippi, Missouri, New Hampshire, New Jersey, Ohio,Oklahoma, Rhodes Island, Texas, West Virginia, Wyoming (4) Arizona, Nevada, New Mexico, Vermont (5) Idaho, Indiana, Louisiana, Maryland, Minnesota, Pennsylvania, Tennessee, Utah, Wisconsin Immagine 15: Uno dei possibili grafici del MDS per time series raggruppate con K-means La maggior parte delle serie temporali ha una distanza compresa 6 e 8. In immagine 16 si riporta la distribuzione delle distanze. Immagine 16: distribuzione delle distanze con distanza euclidea L utilizzo della distanza Euclidea restituisce un quadro disomogeneo delle serie temporali che, come visto in immagine 15, vengono riunite in cluster diversi. Rispetto agli algoritmi precedenti, K-means esalta fortemente le differenze tra le serie temporali. 3.5 CONCLUSIONI La serie temporale degli omicidi negli Stati Uniti è prevalentemente stazionaria (eccetto per un lag di appena un anno). Se si vanno ad analizzare nel dettaglio le time series dei singoli stati ci si rende conto che alcune sono più periodiche di altre, come per esempio 14 di 19

15 Connecticut, Illinois e New York, ma non in maniera particolarmente marcata: nessuno degli stati ha un auto-correlazione significativa per un lag superiore ai 6 anni. La mappa di calore (immagine 4, pag.8) fornisce un informazione preziosa: i 51 stati hanno delle serie temporali simili per la forma assunta. Dalla mappa di calore si nota che generalmente le serie temporali hanno un picco di omicidi nei primi anni 80 della durata di circa 3-4 anni, una successiva decrescita e poi un ulteriore picco più esteso che va dal 1990 al 1995 circa, il numero di omicidi decrescere e rimane stabile fino al Questo andamento è generalmente comune a tutte le serie. Indagando la similarità tra le serie temporali degli stati è emerso quanto segue. L algoritmo DBSCAN sia con Dynamic time warping sia con la distanza Euclidea fornisce dei risultati similari: tre cluster di cui uno comprendente la maggior parte delle serie temporali e altri due composti da due sole serie. Usando DBSCAN emerge che le serie temporali degli stati sono principalmente simili tra loro, tanto da rientrare nello stesso cluster alla minima variazione dei parametri ε e MinPts. L algoritmo K-means divide le serie temporali in cinque cluster diversi; l output ottenuto con i parametri ottimali non è tuttavia verosimile. Dal momento che le serie temporali risultano simili, K-means, rispetto a DBSCAN, fallisce del rappresentare la relazione di similarità che intercorre tra di esse. Inoltre, K-means implica per sua natura l uso della distanza Minkowski (euclidea con p=2), funzione che pecca nell adattabilità alla forma delle serie temporali da comparare che è invece tipica del DTW. La rigidità della distanza Euclidea si nota anche quando essa viene impiegata per comparare le serie temporali poi unite in cluster diversi con DBSCAN. Nonostante l output grafico dell MDS sia simile a quello ottenuto con il DTW, la distribuzione delle distanze tra i punti restituisce un quadro di serie temporali molto più distanti (e quindi differenti) tra loro (riferimento a immagine 11, p.12). Dal momento che le serie temporali abbracciano un arco temporale relativamente breve (35 anni) e dato che il DTW trova l allineamento ottimale tra le istanze delle serie temporali, possiamo concludere che l algoritmo DBSCAN con DTW risulta più preciso, quindi preferibile agli altri due impiegati. 4. CLASSIFICAZIONE CON METODI ALTERNATIVI: IL TITANIC L RMS Titanic affondò il 15 aprile del 1912 durante il viaggio da Southampton a New York. L obiettivo di questo capitolo è quello di illustrare quattro modelli di classificazione per prevedere quali tipi di persone sarebbero sopravvissuti e, quando possibile, con quale probabilità. Tutti i modelli di classificazione che seguono sono stati eseguiti con un dataset normalizzato con metodo z-score. Il dataset è stato diviso in 70 % training e 30% test per ottenere le metriche di valutazione del modello e la matrice di confusione. La classe considerata positiva è Survived=1; il dataset si compone di 268 istanze. 4.1 CLASSIFICAZIONE CON K-NEAREST NEIGHBORS La funzione di distanza utilizzata con l algoritmo KNN è la distanza Euclidea. Per determinare miglior valore di (k) che massimizzi l accuratezza del modello sono stati testati iterativamente tutti i valori di (k) da 1 a 100 (riferimento a immagine 17). Il valore di (k) che fornisce al modello la massima accuratezza è 57. Il numero di vicini è stato pesato in base alla distanza delle istanze. 15 di 19

16 4.1.1 Performance del modello Accuratezza: 0,802 Matrice confusione Predicted Real Precision (survived=1): 0,75 Recall (survived=1): 0,73 Immagine 17: grafico dell accuratezza al variare di k. 4.2 CLASSIFICAZIONE CON BAYES La classificazione con metodo bayesiano permette di assegnare la classe alle istanze attraverso un approccio probabilistico. L assegnazione della classe agli attributi non è deterministica. Il modello costruito con l algoritmo Naive Bayes non ha bisogno di alcun parametro poiché, appunto, si basa sulla probabilità che un istanza si presenti con una determinata classe Performance del modello Accuratezza: 0,75 Matrice confusione Predicted label Real 0 1 Precision (survived=1): 0,64 Recall (survived=1): 0, di 19

17 4.3 CLASSIFICAZIONE CON SUPPORT VECTOR MACHINE Il Support Vector Machine è un tipo di algoritmo supervisionato che permette di trovare gli iperpiani che meglio dividono il dataset in due o più classi Performance del modello Accuratezza: 0,783 Matrice confusione Predicted label Real 0 1 Precision (survived=1): 0,732 Recall (survived=1): 0, CLASSIFICAZIONE CON NEURAL NETWORK Il modello ANN si ispira alle reti neurali biologiche, è costituito da unità interconnesse ed è un sistema adattivo. Esso si basa sull elaborazione e la trasmissione di informazioni attraverso i neuroni, organizzati in layer. I parametri scelti per svolgere la classificazione sono indicati di seguito. Hidden layer: 1 Numero di nodi nascosti per layer: Performance del modello Accuratezza: 0,813 Matrice confusione Precision (survived=1): 0,80 Recall (survived=1): 0, Predicted label Real CONCLUSIONI Il modello con l accuratezza più elevata è l Artificial Neural Network. Per l algoritmo K- nearest neighbors è stato effettuato uno studio dei parametri ottimali al fine di massimizzare l accuratezza. Un ulteriore metrica adatta alla valutazione del modello in questo particolare contesto potrebbe essere la Precision. Questo perché essa attribuisce un maggiore peso alle False Positive, tenute in considerazione al denominatore nella formula Precision= TP/TP+FP. La Falsa Positiva in questo caso di studio rappresenta un ben più grave errore rispetto alla Falsa Negativa (evidenziata nella Recall) poiché va a predire che una persona sopravviverà quando invece è effettivamente deceduta. Il modello che si aggiudica il punteggio di Precision più alta è ANN. 17 di 19

18 5. OUTLIER DETECTION Per l identificazione degli outlier si è ricorso a due metodi: Distance Based e Local outlier factor. Il dataset fornito si compone di 300 istanze, l obiettivo è identificare il 5% degli outlier nel dataset con due metodi basati entrambi sulla prossimità spaziale ma, vedremo, con consistenti differenze. 5.1 DB(ε,π)-Outliers Dato un raggio ε e una percentuale π, un punto p è definito outlier se nel suo raggio ε non rientra una π percentuale di punti vicini. In immagine 18 si mostra l output di DB(ε,π)- Immagine 18: output del metodo DB(d,p) Outliers. Nel grafico di sinistra, si riporta la risultate grafica mentre la tabella a destra elenca i 15 outlier indicandone il rispettivo id e le loro coordinate (x,y). Per ottenere che il 5% dei punti del dataset fosse etichettato come outlier sono stati utilizzati i seguenti parametri: ε=0.1795, π=0.99% (che equivale circa a minpts=300*0.99 = 3). La funzione di distanza impiegata è quella Euclidea. 5.2 Metodo LOF Il modello LOF si basa sul concetto di densità locale e compara la densità locale di ogni istanza con la densità locale del relativo vicinato. Facendo la relazione tra le due densità, il metodo assegna a ogni punto uno score di outlierness. Secondo le proprietà del metodo se LOF di p 1 allora p è un punto normale nel cluster e se LOF di p>>1 allora p è da considerarsi outlier. Al fine di ottenere il 5% del dataset con LOF>>1, al parametro (k) è assegnato il valore 28. Con (k) si indica il numero minimo di istanze che un punto p deve avere nel suo vicinato. In immagine 19 si riporta l output dell algoritmo: nella tabella di destra sono riportati i punti, gli id, le coordinate e lo score LOF dei top-15 outlier. 18 di 19

19 Immagine 19: output ottenuto con metodo LOF 5.3 Conclusioni Osservando i grafici ottenuti (immagine 18, immagine 19) notiamo che il dataset presenta delle aree di densità differente. La variazione di densità si ripercuote anche sugli output dei metodi: nonostante abbiano in comune nove istanze marcate come outlier, cioè i punti {152, 181, 185, 186, 187, 188, 191, 193, 197}, presentano differenze sostanziali. I nove punti che l output di LOF condivide con l output di DB(ε,π)-Outliers sono ordinati in base al loro score di outlierness (vedere tabella relativa al LOF). Con LOF comprendiamo che gli outlier dello stesso dataset sono tali ma con pesi diversi (espressi con un punteggio LOF), cosa che invece non emerge con DB(ε,π)-Outliers. La diversità sostanziale tra i due metodi sta nel fatto che se il DB(ε,π)-Outliers adotta una visione globale del dataset ed etichetta i punti come outlier o normali, il LOF invece ha una visione locale del dataset e assegna un punteggio a ogni istanza in relazione alla densità locale. Per esempio, i punti {189, 190, 200, 196, 184, 195} hanno un punteggio LOF considerevole perché la loro densità locale è inferiore rispetto al resto del vicinato. Il DB(ε,π)-Outliers invece etichetta altri punti, cioè {52, 142, 180, 182, 194, 199}, come outliers perché la percentuale π di punti vicini risiede a una distanza maggiore di ε (quando invece sono punti che non rientrano nei top-15 per LOF). Concentrandosi solo su distanza e percentuale di punti, il metodo DB(ε,π)-Outliers non tiene conto della variazione di densità a cui è soggetto il dataset in analisi e utilizza dei parametri globali per etichettare tutti punti indiscriminatamente. Il metodo LOF può definirsi più raffinato e, in questo contesto, più idoneo, dal momento che rispetta la variazione di densità del dataset adattandosi ad essa nella comparazione dei punti. 19 di 19

Obiettivo: assegnazione di osservazioni a gruppi di unità statistiche non definiti a priori e tali che:

Obiettivo: assegnazione di osservazioni a gruppi di unità statistiche non definiti a priori e tali che: Cluster Analysis Obiettivo: assegnazione di osservazioni a gruppi di unità statistiche non definiti a priori e tali che: le unità appartenenti ad uno di essi sono il più possibile omogenee i gruppi sono

Dettagli

Rinnovabili Integrate Distribuite Accumulate

Rinnovabili Integrate Distribuite Accumulate Energie Rinnovabili, Integrate, Distribuite, Accumulate. Un nuovo modello di sviluppo? Marco Rosa-Clot www.geitsglobal.com Rinnovabili Integrate Distribuite Accumulate 2013 December 1 Energia elettrica:

Dettagli

ELEZIONI AMERICANE, I NUMERI PER VINCERE Domenica 02 Novembre :05. di Michele Paris

ELEZIONI AMERICANE, I NUMERI PER VINCERE Domenica 02 Novembre :05. di Michele Paris di Michele Paris Le elezioni presidenziali americane sono regolate dal secondo articolo della Costituzione e si fondano sul concetto di Collegio Elettorale. Esso consiste in una delegazione di 538 rappresentanti

Dettagli

Mantello Imports LLC. The gateway for your business

Mantello Imports LLC. The gateway for your business Privato Cittadino Negli USA l invio di vino a privati cittadini non è regolamentato da una singola legge federale. Ogni Stato ha una propria legge ed in alcuni casi con delle limitazioni nel consumo. Su

Dettagli

Clustering con Weka. L interfaccia. Prof. Matteo Golfarelli Alma Mater Studiorum - Università di Bologna. Algoritmo utilizzato per il clustering

Clustering con Weka. L interfaccia. Prof. Matteo Golfarelli Alma Mater Studiorum - Università di Bologna. Algoritmo utilizzato per il clustering Clustering con Weka Soluzioni degli esercizi Prof. Matteo Golfarelli Alma Mater Studiorum - Università di Bologna L interfaccia Algoritmo utilizzato per il clustering E possibile escludere un sottoinsieme

Dettagli

Stati Uniti d America

Stati Uniti d America Stati Uniti d America a cura Sabina Marchetti USA: stati e capitali Stati Uniti D America Superficie 10 mln chilometri quadrati e 278 mln di abitanti. Lingua La lingua ufficiale è l inglese ma grazie alle

Dettagli

Convenzione del 5 ottobre 1961 che sopprime la legalizzazione degli atti pubblici esteri (con allegato e elenchi)

Convenzione del 5 ottobre 1961 che sopprime la legalizzazione degli atti pubblici esteri (con allegato e elenchi) Convenzione del 5 ottobre 1961 che sopprime la legalizzazione degli atti pubblici esteri (con allegato e elenchi) RS 0.172.030.4; RU 1973 349 I Campo di applicazione della convenzione il 28 luglio 2003,

Dettagli

Clustering con Weka. L interfaccia. Prof. Matteo Golfarelli Alma Mater Studiorum - Università di Bologna. Algoritmo utilizzato per il clustering

Clustering con Weka. L interfaccia. Prof. Matteo Golfarelli Alma Mater Studiorum - Università di Bologna. Algoritmo utilizzato per il clustering Clustering con Weka Testo degli esercizi Prof. Matteo Golfarelli Alma Mater Studiorum - Università di Bologna L interfaccia Algoritmo utilizzato per il clustering E possibile escludere un sottoinsieme

Dettagli

Stati Uniti d America. Cenni fiscali. New York Londra Lugano Milano Sofia Plovdiv Teheran Dubai Hong Kong Shanghai

Stati Uniti d America. Cenni fiscali. New York Londra Lugano Milano Sofia Plovdiv Teheran Dubai Hong Kong Shanghai Stati Uniti d America Cenni fiscali New York Londra Lugano Milano Sofia Plovdiv Teheran Dubai Hong Kong Shanghai I dati contenuti nel presente documento sono a puro titolo informativo e potrebbero variare

Dettagli

indice Introduzione Aspetti generali Imposizione persone fisiche Imposizione persone giuridiche Accordi bileterali internazionali 07. 08. 10. 13.

indice Introduzione Aspetti generali Imposizione persone fisiche Imposizione persone giuridiche Accordi bileterali internazionali 07. 08. 10. 13. USA CENNI FISCALI I dati contenuti nel presente documento sono a puro titolo informativo e potrebbero variare a seconda della specificità dei casi. Per ottenere informazioni più dettagliate si prega di

Dettagli

Riconoscimento e recupero dell informazione per bioinformatica. Clustering: validazione. Manuele Bicego

Riconoscimento e recupero dell informazione per bioinformatica. Clustering: validazione. Manuele Bicego Riconoscimento e recupero dell informazione per bioinformatica Clustering: validazione Manuele Bicego Corso di Laurea in Bioinformatica Dipartimento di Informatica - Università di Verona Sommario Definizione

Dettagli

Array e Oggetti. Corso di Laurea Ingegneria Informatica Fondamenti di Informatica 1. Dispensa 12. A. Miola Dicembre 2006

Array e Oggetti. Corso di Laurea Ingegneria Informatica Fondamenti di Informatica 1. Dispensa 12. A. Miola Dicembre 2006 Corso di Laurea Ingegneria Informatica Fondamenti di Informatica 1 Dispensa 12 Array e Oggetti A. Miola Dicembre 2006 http://www.dia.uniroma3.it/~java/fondinf1/ Array e Oggetti 1 Contenuti Array paralleli

Dettagli

Indice generale. Introduzione. Capitolo 1 Essere uno scienziato dei dati... 1

Indice generale. Introduzione. Capitolo 1 Essere uno scienziato dei dati... 1 Introduzione...xi Argomenti trattati in questo libro... xi Dotazione software necessaria... xii A chi è rivolto questo libro... xii Convenzioni utilizzate... xiii Scarica i file degli esempi... xiii Capitolo

Dettagli

Suini. Mercato origine-trend nazionale. N. 11 Settimana n 13 dal 26 marzo al 1 aprile Mercato nazionale-mercato estero

Suini. Mercato origine-trend nazionale. N. 11 Settimana n 13 dal 26 marzo al 1 aprile Mercato nazionale-mercato estero Suini N. 11 Settimana n 13 dal 26 marzo al 1 aprile 20 Mercato nazionale-mercato estero Mercato origine-trend nazionale Il buon andamento dei suinetti da allevamento per le taglie da 20 a 65 kg ha trovato

Dettagli

Mangiare o esser mangiati? Prospettive dell'agroalimentare italiano Food Summit 2015 Il Sole 24 ORE. 30 giugno 2015

Mangiare o esser mangiati? Prospettive dell'agroalimentare italiano Food Summit 2015 Il Sole 24 ORE. 30 giugno 2015 Mangiare o esser mangiati? Prospettive dell'agroalimentare italiano Food Summit 2015 Il Sole 24 ORE 30 giugno 2015 Il mondo agroalimentare è scosso da fenomeni di portata globale May 2000 Nov 2000 May

Dettagli

BLAND-ALTMAN PLOT. + X 2i 2 la differenza ( d ) tra le due misure per ognuno degli n campioni; d i. X i. = X 1i. X 2i

BLAND-ALTMAN PLOT. + X 2i 2 la differenza ( d ) tra le due misure per ognuno degli n campioni; d i. X i. = X 1i. X 2i BLAND-ALTMAN PLOT Il metodo di J. M. Bland e D. G. Altman è finalizzato alla verifica se due tecniche di misura sono comparabili. Resta da comprendere cosa si intenda con il termine metodi comparabili

Dettagli

Suini. Mercato origine-trend nazionale. N. 4 Settimana n 5 dal 30 gennaio al 5 febbraio Mercato nazionale-mercato estero

Suini. Mercato origine-trend nazionale. N. 4 Settimana n 5 dal 30 gennaio al 5 febbraio Mercato nazionale-mercato estero Suini N. 4 Settimana n 5 dal 30 gennaio al 5 febbraio 20 Mercato nazionale-mercato estero Mercato origine-trend nazionale Anche in questa prima settimana del mese continua l aumento dei suinetti da allevamento

Dettagli

Esplorazione dei dati. Lucidi e dataset tratti da Turini - Analisi dei Dati, Dip. Inf. Unipi

Esplorazione dei dati. Lucidi e dataset tratti da Turini - Analisi dei Dati, Dip. Inf. Unipi Esplorazione dei dati Lucidi e dataset tratti da Turini - Analisi dei Dati, Dip. Inf. Unipi Analisi mono e bivariata Si utilizzano indicatori sintetici che individuano, con un singolo valore, proprieta`

Dettagli

Riconoscimento automatico di oggetti (Pattern Recognition)

Riconoscimento automatico di oggetti (Pattern Recognition) Riconoscimento automatico di oggetti (Pattern Recognition) Scopo: definire un sistema per riconoscere automaticamente un oggetto data la descrizione di un oggetto che può appartenere ad una tra N classi

Dettagli

riservato e confidenziale

riservato e confidenziale Vicenza 17 giugno 2015 Stati Uniti seminario d approfondimento claudio.colacurcio@prometeia.com riservato e confidenziale Giugno 2015 Stati Uniti 1 Agenda dell incontro lo scenario internazionale, il rilancio

Dettagli

Intelligenza Artificiale. Clustering. Francesco Uliana. 14 gennaio 2011

Intelligenza Artificiale. Clustering. Francesco Uliana. 14 gennaio 2011 Intelligenza Artificiale Clustering Francesco Uliana 14 gennaio 2011 Definizione Il Clustering o analisi dei cluster (dal termine inglese cluster analysis) è un insieme di tecniche di analisi multivariata

Dettagli

Corso di Laurea Specialistica in Ingegneria Informatica

Corso di Laurea Specialistica in Ingegneria Informatica UNIVERSITÀ DEGLI STUDI DI PADOVA FACOLTÀ DI INGEGNERIA Corso di Laurea Specialistica in Ingegneria Informatica Ragionamento Qualitativo e Apprendimento Automatico per l'analisi di Dati di Genomica RELATORE:

Dettagli

Esplorazione grafica di dati multivariati. N. Del Buono

Esplorazione grafica di dati multivariati. N. Del Buono Esplorazione grafica di dati multivariati N. Del Buono Scatterplot Scatterplot permette di individuare graficamente le possibili associazioni tra due variabili Variabile descrittiva (explanatory variable)

Dettagli

Automatic and Accurate Extraction of Road Intersections from Raster Maps

Automatic and Accurate Extraction of Road Intersections from Raster Maps Automatic and Accurate Extraction of Road Intersections from Raster Maps Studente Francesco Vitagliani Introduzione L uso delle mappe è noto da tempi antichi. Oggi grazie alla diffusione di mappe raster,

Dettagli

Serie storiche Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007

Serie storiche Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007 Serie storiche Introduzione Per alcuni dataset, l attributo target è soggetto ad un evoluzione temporale e risulta associato ad istanti di tempo successivi. I modelli di analisi delle serie storiche si

Dettagli

Social Network Analysis: Soundcloud. By Alessandro Sperotti Matricola

Social Network Analysis: Soundcloud. By Alessandro Sperotti Matricola Social Network Analysis: Soundcloud By Alessandro Sperotti Matricola 855331 Indice La Social Network: Soundcloud Acquisizione del dataset Distribuzione del degree Analisi della network Musicisti o Ascoltatori?

Dettagli

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 3

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 3 CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 3 Dott.ssa Antonella Costanzo a.costanzo@unicas.it Esercizio 1. Sintesi a cinque e misure di variabilità rispetto ad un centro Una catena di fast-food ha selezionato

Dettagli

USA 8 novembre fonti. M jacquinta; M Ferraresi, Oggi gli americani si trovano a votare per mediocri o peggiori candidati dopo George Bush

USA 8 novembre fonti. M jacquinta; M Ferraresi, Oggi gli americani si trovano a votare per mediocri o peggiori candidati dopo George Bush USA 8 novembre 2016 fonti. M jacquinta; M Ferraresi, Oggi gli americani si trovano a votare per mediocri o peggiori candidati dopo George Bush Gli americani, democratici o repubblicani o di altro partito

Dettagli

U.S.A. BUSINESS DEVELOPMENT della Vostra Azienda

U.S.A. BUSINESS DEVELOPMENT della Vostra Azienda U.S.A. BUSINESS DEVELOPMENT della Vostra Azienda PAROLIN.LEGAL International Business Strategies www.parolin.legal Headquarter DUBAI, UAE 48 Burj Gate Tower, Level 20 [Dubai Mall metro station] Sheikh

Dettagli

Problemi, istanze, soluzioni

Problemi, istanze, soluzioni lgoritmi e Strutture di Dati II 2 Problemi, istanze, soluzioni Un problema specifica una relazione matematica tra dati di ingresso e dati di uscita. Una istanza di un problema è formata dai dati di un

Dettagli

Regressione Lineare Semplice e Correlazione

Regressione Lineare Semplice e Correlazione Regressione Lineare Semplice e Correlazione 1 Introduzione La Regressione è una tecnica di analisi della relazione tra due variabili quantitative Questa tecnica è utilizzata per calcolare il valore (y)

Dettagli

Cenni di apprendimento in Reti Bayesiane

Cenni di apprendimento in Reti Bayesiane Sistemi Intelligenti 216 Cenni di apprendimento in Reti Bayesiane Esistono diverse varianti di compiti di apprendimento La struttura della rete può essere nota o sconosciuta Esempi di apprendimento possono

Dettagli

Metodi di riduzione del modello dinamico Dott. Lotti Nevio

Metodi di riduzione del modello dinamico Dott. Lotti Nevio 1. Metodi di riduzione del modello dinamico Nel mettere insieme modelli dinamici di elementi diversi di una struttura (come avviene nel caso di un velivolo e del suo carico utile, ma anche per i diversi

Dettagli

Note sulla probabilità

Note sulla probabilità Note sulla probabilità Maurizio Loreti Dipartimento di Fisica Università degli Studi di Padova Anno Accademico 2002 03 1 La distribuzione del χ 2 0.6 0.5 N=1 N=2 N=3 N=5 N=10 0.4 0.3 0.2 0.1 0 0 5 10 15

Dettagli

Suini. Mercato origine-trend nazionale. N. 17 Settimana n 20 dal 14 al 20 maggio Mercato nazionale-mercato estero

Suini. Mercato origine-trend nazionale. N. 17 Settimana n 20 dal 14 al 20 maggio Mercato nazionale-mercato estero Suini N. 17 Settimana n 20 dal 14 al 20 maggio 20 Mercato nazionale-mercato estero Mercato origine-trend nazionale Nel comparto dei suinetti da allevamento gli scambi sono risultati più difficoltosi rispetto

Dettagli

Indicatori di Posizione e di Variabilità. Corso di Laurea Specialistica in SCIENZE DELLE PROFESSIONI SANITARIE DELLA RIABILITAZIONE Statistica Medica

Indicatori di Posizione e di Variabilità. Corso di Laurea Specialistica in SCIENZE DELLE PROFESSIONI SANITARIE DELLA RIABILITAZIONE Statistica Medica Indicatori di Posizione e di Variabilità Corso di Laurea Specialistica in SCIENZE DELLE PROFESSIONI SANITARIE DELLA RIABILITAZIONE Statistica Medica Indici Sintetici Consentono il passaggio da una pluralità

Dettagli

Sistemi per la gestione delle basi di dati

Sistemi per la gestione delle basi di dati Sistemi per la gestione delle basi di dati Esercitazione #5 Data mining Obiettivo Applicare algoritmi di data mining per la classificazione al fine di analizzare dati reali mediante l utilizzo dell applicazione

Dettagli

Teoria e tecniche dei test

Teoria e tecniche dei test Teoria e tecniche dei test Lezione 9 LA STANDARDIZZAZIONE DEI TEST. IL PROCESSO DI TARATURA: IL CAMPIONAMENTO. Costruire delle norme di riferimento per un test comporta delle ipotesi di fondo che è necessario

Dettagli

Piano cartesiano e retta

Piano cartesiano e retta Piano cartesiano e retta Il punto, la retta e il piano sono concetti primitivi di cui non si da una definizione rigorosa, essi sono i tre enti geometrici fondamentali della geometria euclidea. Osservazione

Dettagli

Suini. Mercato origine-trend nazionale. N. 14 Settimana n 16 dal 16 al 22 aprile Mercato nazionale-mercato estero

Suini. Mercato origine-trend nazionale. N. 14 Settimana n 16 dal 16 al 22 aprile Mercato nazionale-mercato estero Suini N. 14 Settimana n 16 dal 16 al 22 aprile 2012 Mercato nazionale-mercato estero Mercato origine-trend nazionale Nel comparto dei suinetti da allevamento restano invariate le taglie minori mentre sulle

Dettagli

Introduzione al data mining. Sistemi di elaborazione delle informazioni 2 Anno Accademico Prof. Mauro Giacomini

Introduzione al data mining. Sistemi di elaborazione delle informazioni 2 Anno Accademico Prof. Mauro Giacomini Introduzione al data mining Sistemi di elaborazione delle informazioni 2 Anno Accademico 2007-2008 Prof. Mauro Giacomini Definizione Processo che impiega una o più tecniche di apprendimento computerizzate

Dettagli

Corso di Intelligenza Artificiale A.A. 2016/2017

Corso di Intelligenza Artificiale A.A. 2016/2017 Università degli Studi di Cagliari Corsi di Laurea Magistrale in Ing. Elettronica Corso di Intelligenza rtificiale.. 26/27 Esercizi sui metodi di apprendimento automatico. Si consideri la funzione ooleana

Dettagli

Metodi e modelli per le decisioni

Metodi e modelli per le decisioni Metodi e modelli per le decisioni Roberto Cordone A. A. 2015-16 5.5 Esercizi Nota : Devo molti di questi esercizi a temi d esame del prof. Alberto Colorni. Nota : Gli esercizi e le soluzioni non sono stati

Dettagli

Suini. Mercato origine-trend nazionale. N. 3 Settimana n 4 dal 23 al 29 gennaio Mercato nazionale-mercato estero

Suini. Mercato origine-trend nazionale. N. 3 Settimana n 4 dal 23 al 29 gennaio Mercato nazionale-mercato estero Suini N. 3 Settimana n 4 dal 23 al 29 gennaio 20 Mercato nazionale-mercato estero Mercato origine-trend nazionale Anche in chiusura del primo mese dell anno i suinetti di allevamento registrano aumenti

Dettagli

Sintesi dei dati in una tabella. Misure di variabilità (cap. 4) Misure di forma (cap. 5) Statistica descrittiva (cap. 6)

Sintesi dei dati in una tabella. Misure di variabilità (cap. 4) Misure di forma (cap. 5) Statistica descrittiva (cap. 6) Sintesi dei dati in una tabella Misure di variabilità (cap. 4) Misure di forma (cap. 5) Statistica descrittiva (cap. 6) Sintesi dei dati Spesso si vuole effettuare una sintesi dei dati per ottenere indici

Dettagli

Classificazione Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007

Classificazione Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007 Classificazione Introduzione I modelli di classificazione si collocano tra i metodi di apprendimento supervisionato e si rivolgono alla predizione di un attributo target categorico. A partire da un insieme

Dettagli

Misure di diversità tra unità statistiche. Loredana Cerbara

Misure di diversità tra unità statistiche. Loredana Cerbara Misure di diversità tra unità statistiche Loredana Cerbara LA DISTANZA IN STATISTICA In statistica la distanza ha un significato diverso da quello che si può intuire in altre discipline, dove, peraltro,

Dettagli

LA DISTRIBUZIONE NORMALE (Vittorio Colagrande)

LA DISTRIBUZIONE NORMALE (Vittorio Colagrande) LA DISTRIBUZIONE NORMALE (Vittorio Colagrande) Allo scopo di interpolare un istogramma di un carattere statistico X con una funzione continua (di densità), si può far ricorso nell analisi statistica alla

Dettagli

5. Applicazione ai dati sperimentali, un modello di previsione delle temperature

5. Applicazione ai dati sperimentali, un modello di previsione delle temperature 5. Applicazione ai dati sperimentali, un modello di previsione delle temperature 5.1 Ricostruzione dello spazio delle fasi L utilizzo del teorema di embedding per ricostruire lo spazio delle fasi relativo

Dettagli

Corso di Matematica per la Chimica. Dott.ssa Maria Carmela De Bonis a.a

Corso di Matematica per la Chimica. Dott.ssa Maria Carmela De Bonis a.a Dott.ssa Maria Carmela De Bonis a.a. 2013-14 Programmi Un elaboratore riceve dei dati in ingresso, li elabora secondo una sequenza predefinita di operazioni e infine restituisce il risultato sotto forma

Dettagli

Identificazione dei Parametri Caratteristici di un Plasma Circolare Tramite Rete Neuronale

Identificazione dei Parametri Caratteristici di un Plasma Circolare Tramite Rete Neuronale Identificazione dei Parametri Caratteristici di un Plasma Circolare Tramite Rete Neuronale Il presente lavoro, facente segiuto a quanto scritto precedentemente ha il fine di descrivere il codice di calcolo

Dettagli

Naïve Bayesian Classification

Naïve Bayesian Classification Naïve Bayesian Classification Di Alessandro rezzani Sommario Naïve Bayesian Classification (o classificazione Bayesiana)... 1 L algoritmo... 2 Naive Bayes in R... 5 Esempio 1... 5 Esempio 2... 5 L algoritmo

Dettagli

INQUINAMENTO LUMINOSO E TUTELA DEL CIELO NOTTURNO PROBLEMATICHE E SOLUZIONI TECNOLOGICHE

INQUINAMENTO LUMINOSO E TUTELA DEL CIELO NOTTURNO PROBLEMATICHE E SOLUZIONI TECNOLOGICHE INQUINAMENTO LUMINOSO E TUTELA DEL CIELO NOTTURNO PROBLEMATICHE E SOLUZIONI TECNOLOGICHE Boville Ernica 16/1/2016 Avv. Mario Di Sora Presidente Unione Astrofili Italiani Direttore dell Osservatorio Astronomico

Dettagli

Il modello spazio temporale per la previsione dell'erosione nel breve termine. Note Metodologiche

Il modello spazio temporale per la previsione dell'erosione nel breve termine. Note Metodologiche Il modello spazio temporale per la previsione dell'erosione nel breve termine Note Metodologiche 1 Analisi della dinamica temporale dei fenomeni meteo marini sulla Spiaggia di Alimini Descrizione dei dati

Dettagli

Esercitazioni di statistica

Esercitazioni di statistica Esercitazioni di statistica Boxplot e numeri indici Stefania Spina Universitá di Napoli Federico II stefania.spina@unina.it 14 Ottobre 014 Stefania Spina Esercitazioni di statistica 1/37 Definizioni La

Dettagli

Statistica descrittiva: misure di associazione

Statistica descrittiva: misure di associazione Statistica descrittiva: misure di associazione L analisi di regressione permette di esplorare le relazioni tra due insiemi di valori (p.e. i valori di due attributi di un campione) alla ricerca di associazioni.

Dettagli

Statistica di base per l analisi socio-economica

Statistica di base per l analisi socio-economica Laurea Magistrale in Management e comunicazione d impresa Statistica di base per l analisi socio-economica Giovanni Di Bartolomeo gdibartolomeo@unite.it Definizioni di base Una popolazione è l insieme

Dettagli

Consumi e povertà in Emilia-Romagna. Anno 2016

Consumi e povertà in Emilia-Romagna. Anno 2016 Direzione generale Risorse, Europa, innovazione e istituzioni Servizio statistica, comunicazione, sistemi informativi geografici, partecipazione Consumi e povertà in Emilia-Romagna. Anno 2016 Bologna,

Dettagli

Suini. Mercato origine-trend nazionale. N. 13 Settimana n 15 dal 9 al 15 aprile 2012. Mercato nazionale-mercato estero

Suini. Mercato origine-trend nazionale. N. 13 Settimana n 15 dal 9 al 15 aprile 2012. Mercato nazionale-mercato estero Suini N. 13 Settimana n 15 dal 9 al 15 aprile 20 Mercato nazionale-mercato estero Mercato origine-trend nazionale Questa settimana, a causa della festività, è stata caratterizzata dall anticipo della quotazione

Dettagli

MISURE DI SINTESI 54

MISURE DI SINTESI 54 MISURE DI SINTESI 54 MISURE DESCRITTIVE DI SINTESI 1. MISURE DI TENDENZA CENTRALE 2. MISURE DI VARIABILITÀ 30 0 µ Le due distribuzioni hanno uguale tendenza centrale, ma diversa variabilità. 30 0 Le due

Dettagli

Il sistema di elezione

Il sistema di elezione Panorama Internazionale Il sistema di elezione del Presidente negli Stati Uniti Rodolfo Bastianelli L assetto istituzionale degli Stati Uniti si basa su tre punti fondamentali, quali una rigida divisione

Dettagli

Reti Neurali in Generale

Reti Neurali in Generale istemi di Elaborazione dell Informazione 76 Reti Neurali in Generale Le Reti Neurali Artificiali sono studiate sotto molti punti di vista. In particolare, contributi alla ricerca in questo campo provengono

Dettagli

Training Set Test Set Find-S Dati Training Set Def: Errore Ideale Training Set Validation Set Test Set Dati

Training Set Test Set Find-S Dati Training Set Def: Errore Ideale Training Set Validation Set Test Set Dati " #!! Suddivisione tipica ( 3 5 6 & ' ( ) * 3 5 6 = > ; < @ D Sistemi di Elaborazione dell Informazione Sistemi di Elaborazione dell Informazione Principali Paradigmi di Apprendimento Richiamo Consideriamo

Dettagli

Cluster Analysis Distanze ed estrazioni Marco Perugini Milano-Bicocca

Cluster Analysis Distanze ed estrazioni Marco Perugini Milano-Bicocca Cluster Analysis Distanze ed estrazioni M Q Marco Perugini Milano-Bicocca 1 Scopi Lo scopo dell analisi dei Clusters è di raggruppare casi od oggetti sulla base delle loro similarità in una serie di caratteristiche

Dettagli

Teoria e metodologia del movimento umano. (Prof.ssa E. Bilotta) A.A. 2013/2014

Teoria e metodologia del movimento umano. (Prof.ssa E. Bilotta) A.A. 2013/2014 Teoria e metodologia del movimento umano (Prof.ssa E. Bilotta) A.A. 2013/2014 Alessandra Oliverio matricola 143440 Report Indirizzo Primaria) Ipotesi di lavoro 1. La funzione di fitness varia in base al

Dettagli

UNITÀ DIDATTICA 5 LA RETTA

UNITÀ DIDATTICA 5 LA RETTA UNITÀ DIDATTICA 5 LA RETTA 5.1 - La retta Equazione generica della retta Dalle considerazioni emerse nel precedente capitolo abbiamo compreso come una funzione possa essere rappresentata da un insieme

Dettagli

CORSO DI LAUREA MAGISTRALE IN INGEGNERIA PER L AMBIENTE ED IL TERRITORIO

CORSO DI LAUREA MAGISTRALE IN INGEGNERIA PER L AMBIENTE ED IL TERRITORIO CORSO DI LAUREA MAGISTRALE IN INGEGNERIA PER L AMBIENTE ED IL TERRITORIO DIPARTIMENTO DI INGEGNERIA CHIMICA, DEI MATERIALI E DELLA PRODUZIONE INDUSTRIALE TESI DI LAUREA Analisi dei dati di due campagne

Dettagli

CAPITOLO 2 RAPPRESENTAZIONI GRAFICHE DEI DATI

CAPITOLO 2 RAPPRESENTAZIONI GRAFICHE DEI DATI VERO FALSO CAPITOLO 2 RAPPRESENTAZIONI GRAFICHE DEI DATI V F 1. Una tabella base di frequenza contiene 2 colonne: una per i valori delle variabili d interesse e un altra per il numero delle volte che i

Dettagli

IL SISTEMA DEGLI INCENTIVI FISCALI E DEI FINANZIAMENTI NEGLI STATI UNITI D AMERICA

IL SISTEMA DEGLI INCENTIVI FISCALI E DEI FINANZIAMENTI NEGLI STATI UNITI D AMERICA IL SISTEMA DEGLI INCENTIVI FISCALI E DEI FINANZIAMENTI NEGLI STATI UNITI D AMERICA 1) INTRODUZIONE Il Governo federale degli Stati Uniti d America attribuisce la stessa rilevanza agli investitori locali

Dettagli

Introduzione agli Algoritmi 4. Problemi. Dal Problema alla Soluzione

Introduzione agli Algoritmi 4. Problemi. Dal Problema alla Soluzione Sommario Problemi e soluzioni Definizione informale di algoritmo e esempi Proprietà degli algoritmi Input/Output, Variabili Algoritmi senza input o output 1 2 Problema Definizione (dal De Mauro Paravia):

Dettagli

10 Quasi esperimenti. Giulio Vidotto Raffaele Cioffi

10 Quasi esperimenti. Giulio Vidotto Raffaele Cioffi 10 Quasi esperimenti Giulio Vidotto Raffaele Cioffi Indice: 10.1 La differenza principale tra quasi esperimenti e veri esperimenti 10.2 Disegni con gruppo di controllo non equivalenti 10.3 Disegni senza

Dettagli

Calcolo numerico e programmazione Rappresentazione dei numeri

Calcolo numerico e programmazione Rappresentazione dei numeri Calcolo numerico e programmazione Rappresentazione dei numeri Tullio Facchinetti 16 marzo 2012 10:54 http://robot.unipv.it/toolleeo Rappresentazione dei numeri nei calcolatori

Dettagli

Indice della lezione. Incertezza e rischio: sinonimi? Le Ipotesi della Capital Market Theory UNIVERSITA DEGLI STUDI DI PARMA FACOLTA DI ECONOMIA

Indice della lezione. Incertezza e rischio: sinonimi? Le Ipotesi della Capital Market Theory UNIVERSITA DEGLI STUDI DI PARMA FACOLTA DI ECONOMIA UNIVERSIT DEGLI STUDI DI PRM FCOLT DI ECONOMI Indice della lezione Corso di Pianificazione Finanziaria Introduzione al rischio Rischio e rendimento per titoli singoli La Teoria di Portafoglio di Markowitz

Dettagli

Conversione di base. Conversione decimale binario. Si calcolano i resti delle divisioni per due

Conversione di base. Conversione decimale binario. Si calcolano i resti delle divisioni per due Conversione di base Dato N>0 intero convertirlo in base b dividiamo N per b, otteniamo un quoto Q 0 ed un resto R 0 dividiamo Q 0 per b, otteniamo un quoto Q 1 ed un resto R 1 ripetiamo finché Q n < b

Dettagli

Luigi Piroddi

Luigi Piroddi Automazione industriale dispense del corso (a.a. 2008/2009) 10. Reti di Petri: analisi strutturale Luigi Piroddi piroddi@elet.polimi.it Analisi strutturale Un alternativa all analisi esaustiva basata sul

Dettagli

Fondamenti statistici : Test d Ipotesi (1)

Fondamenti statistici : Test d Ipotesi (1) Fondamenti statistici : Test d Ipotesi (1) Ipotesi statistica: È una assunzione formulata su un particolare aspetto della popolazione considerazioni teoriche Informazioni relative a popolazioni analoghe

Dettagli

Somma di numeri floating point. Algoritmi di moltiplicazione e divisione per numeri interi

Somma di numeri floating point. Algoritmi di moltiplicazione e divisione per numeri interi Somma di numeri floating point Algoritmi di moltiplicazione e divisione per numeri interi Standard IEEE754 " Standard IEEE754: Singola precisione (32 bit) si riescono a rappresentare numeri 2.0 10 2-38

Dettagli

Reti Neurali. Corso di AA, anno 2016/17, Padova. Fabio Aiolli. 2 Novembre Fabio Aiolli Reti Neurali 2 Novembre / 14. unipd_logo.

Reti Neurali. Corso di AA, anno 2016/17, Padova. Fabio Aiolli. 2 Novembre Fabio Aiolli Reti Neurali 2 Novembre / 14. unipd_logo. Reti Neurali Corso di AA, anno 2016/17, Padova Fabio Aiolli 2 Novembre 2016 Fabio Aiolli Reti Neurali 2 Novembre 2016 1 / 14 Reti Neurali Artificiali: Generalità Due motivazioni diverse hanno spinto storicamente

Dettagli

Esercitazione. 24 Aprile 2012

Esercitazione. 24 Aprile 2012 Esercitazione 24 Aprile 2012 Il modello di regressione logistica viene utilizzato quando si è interessati a studiare o analizzare la relazione causale tra una variabile dipendente dicotomica e una o più

Dettagli

Unità aritmetica e logica

Unità aritmetica e logica Aritmetica del calcolatore Capitolo 9 Unità aritmetica e logica n Esegue le operazioni aritmetiche e logiche n Ogni altra componente nel calcolatore serve questa unità n Gestisce gli interi n Può gestire

Dettagli

la dimensione massima dell arena è di 30x30 m la dimensione massima dei marker è di 50x50 cm la dimensione minima dei marker è di 20x20 cm

la dimensione massima dell arena è di 30x30 m la dimensione massima dei marker è di 50x50 cm la dimensione minima dei marker è di 20x20 cm Il seguente documento formalizza le regole del contest Drone Vision Cup 2015, ideato e promosso dal MIVIA Lab, Laboratorio di Macchine Intelligenti per il riconoscimento di Immagini, Video e Audio, nell

Dettagli

L Italia sismica Dati socio-demografici e strutturali dei comuni del centro Italia

L Italia sismica Dati socio-demografici e strutturali dei comuni del centro Italia L Italia sismica Dati socio-demografici e strutturali dei comuni del centro Italia Chiara Caramia n. matricola 100254 Eleonora Romagnoli n. matricola 97679 Federica Rossi n. matricola 100573 Sofia Solera

Dettagli

Esplorazione grafica di dati multivariati. N. Del Buono

Esplorazione grafica di dati multivariati. N. Del Buono Esplorazione grafica di dati multivariati N. Del Buono Scatterplot Scatterplot permette di individuare graficamente le possibili associazioni tra due variabili Variabile descrittiva (explanatory variable)

Dettagli

Excel. È data la distribuzione di 1863 famiglie italiane secondo il numero di componenti:

Excel. È data la distribuzione di 1863 famiglie italiane secondo il numero di componenti: Excel È data la distribuzione di 1863 famiglie italiane secondo il numero di componenti: Calcolare per ogni classe della distribuzione: (a) le frequenze relative; Sia data la distribuzione degli studenti

Dettagli

High Return on Engagement. Analytics Report. per SAMPLE PROJECT

High Return on Engagement. Analytics Report. per SAMPLE PROJECT High Return on Engagement Analytics Report per SAMPLE PROJECT Data di elaborazione: 13 Maggio 2016 2 La versione ANALYTICS del report High Return on engagement è stata condotta su un campione di 77 persone

Dettagli

TECNICHE DI POSIZIONAMENTO

TECNICHE DI POSIZIONAMENTO TECNICHE DI POSIZIONAMENTO Discriminant analysis: definizione di n (generalmente 2) funzioni lineari discriminanti, basate su valutazioni quantitative di attributi, utilizzate per posizionare oggetti (marche,

Dettagli

ANALISI GEOGRAFICA DELL INCIDENZA DI LEUCEMIE E TUMORI CEREBRALI NELLE PROVINCE DI FIRENZE E PRATO

ANALISI GEOGRAFICA DELL INCIDENZA DI LEUCEMIE E TUMORI CEREBRALI NELLE PROVINCE DI FIRENZE E PRATO ANALISI GEOGRAFICA DELL INCIDENZA DI LEUCEMIE E TUMORI CEREBRALI NELLE PROVINCE DI FIRENZE E PRATO Giorgia Stoppa, Dolores Catelan, Sara Piro, Annibale Biggeri, Gianfranco Manneschi, Alessandro Barchielli,

Dettagli

: TRENTA ANNI DI PENA CAPITALE NEGLI STATI UNITI Mercoledì 28 Giugno :23. di Bianca Cerri

: TRENTA ANNI DI PENA CAPITALE NEGLI STATI UNITI Mercoledì 28 Giugno :23. di Bianca Cerri di Bianca Cerri Il 2 luglio 1976 la Corte Suprema degli Stati Uniti metteva fine alla breve stagione della moratoria sulle esecuzioni decisa quattro anni prima restituendo alla pena capitale l'antico status

Dettagli

Statistica. Capitolo 12. Regressione Lineare Semplice. Cap. 12-1

Statistica. Capitolo 12. Regressione Lineare Semplice. Cap. 12-1 Statistica Capitolo 1 Regressione Lineare Semplice Cap. 1-1 Obiettivi del Capitolo Dopo aver completato il capitolo, sarete in grado di: Spiegare il significato del coefficiente di correlazione lineare

Dettagli

Test sull ellisse (vai alla soluzione) Quesiti

Test sull ellisse (vai alla soluzione) Quesiti Test sull ellisse (vai alla soluzione) Quesiti ) Considerata nel piano cartesiano l ellisse Γ : + y = 8 valutare il valore di verità delle seguenti affermazioni. I fuochi si trovano sull asse delle ordinate

Dettagli

CAPITOLO 11 ANALISI DI REGRESSIONE

CAPITOLO 11 ANALISI DI REGRESSIONE VERO FALSO CAPITOLO 11 ANALISI DI REGRESSIONE 1. V F Se c è una relazione deterministica tra due variabili,x e y, ogni valore dato di x,determinerà un unico valore di y. 2. V F Quando si cerca di scoprire

Dettagli

La matrice delle correlazioni è la seguente:

La matrice delle correlazioni è la seguente: Calcolo delle componenti principali tramite un esempio numerico Questo esempio numerico puó essere utile per chiarire il calcolo delle componenti principali e per introdurre il programma SPAD. IL PROBLEMA

Dettagli

Problemi e algoritmi. Il che cosa e il come. F. Damiani - Alg. & Lab. 04/05 (da U. de' Liguoro - Alg. & Spe. 03/04)

Problemi e algoritmi. Il che cosa e il come. F. Damiani - Alg. & Lab. 04/05 (da U. de' Liguoro - Alg. & Spe. 03/04) Problemi e algoritmi Il che cosa e il come Il che cosa ed il come Problema: descrive che cosa si deve calcolare Specifica (di un algoritmo): descrive che cosa calcola un algoritmo Algoritmo: descrive come

Dettagli

Ricerca di outlier. Ricerca di Anomalie/Outlier

Ricerca di outlier. Ricerca di Anomalie/Outlier Ricerca di outlier Prof. Matteo Golfarelli Alma Mater Studiorum - Università di Bologna Ricerca di Anomalie/Outlier Cosa sono gli outlier? L insieme di dati che sono considerevolmente differenti dalla

Dettagli

Alessandra Raffaetà. La rappresentazione vettoriale

Alessandra Raffaetà. La rappresentazione vettoriale Lezione 0 S.I.T. PER LA VALUTAZIONE E GESTIONE DEL TERRITORIO Corso di Laurea Magistrale in Scienze Ambientali Alessandra Raffaetà Dipartimento di Informatica Università Ca Foscari Venezia La rappresentazione

Dettagli

Il valore di flusso che si ottiene è

Il valore di flusso che si ottiene è 1) Si consideri un insieme di piste da sci e di impianti di risalita. Lo si modelli con un grafo orientato che abbia archi di due tipi: tipo D (discesa e orientato nel senso della discesa) e tipo R (risalita

Dettagli

La Rappresentazione dell Informazione

La Rappresentazione dell Informazione La Rappresentazione dell Informazione Maurizio Palesi Sommario In questo documento sarà trattato il modo in cui, in un calcolatore, vengono rappresentati i vari generi di informazione (testi, numeri interi,

Dettagli

PROCEDURE DI CALCOLO DELLA COMBINAZIONE DEGLI INERTI REALI

PROCEDURE DI CALCOLO DELLA COMBINAZIONE DEGLI INERTI REALI PROCEDURE DI CALCOLO DELLA COMBINAZIONE DEGLI INERTI REALI Non esistono già disponibili in natura materiali lapidei con distribuzione granulometrica eguale a quella ideale richiesta per un inerte da destinare

Dettagli

Problemi e algoritmi. Il che cosa ed il come. Il che cosa ed il come. Il che cosa e il come

Problemi e algoritmi. Il che cosa ed il come. Il che cosa ed il come. Il che cosa e il come Problemi e algoritmi Il che cosa e il come Problema: descrive che cosa si deve calcolare Specifica (di un algoritmo): descrive che cosa calcola un algoritmo Algoritmo: descrive come effettuare un calcolo

Dettagli

Esperienze di Apprendimento Automatico per il corso di Intelligenza Artificiale

Esperienze di Apprendimento Automatico per il corso di Intelligenza Artificiale Esperienze di Apprendimento Automatico per il corso di lippi@dsi.unifi.it Dipartimento Sistemi e Informatica Università di Firenze Dipartimento Ingegneria dell Informazione Università di Siena Introduzione

Dettagli