Classificazione di un data set di proteine con Weka

Dimensione: px
Iniziare la visualizzazioe della pagina:

Download "Classificazione di un data set di proteine con Weka"

Transcript

1 MODELLI PROBABILISTICI Classificazione di un data set di proteine con Weka SOFIA CIVIDINI

2 2 INTRODUZIONE Negli ultimi due decenni si è assistito ad un aumento esponenziale nella quantità dell informazione o dati che è stata immagazzinata in formato elettronico. Si è stimato che la quantità di informazione nel mondo raddoppi ogni venti mesi e che la grandezza ed il numero dei database aumentino in modo sempre più veloce. Questo fatto si deve soprattutto: all incremento del potere e della velocità di calcolo degli attuali computer alla possibilità che essi hanno acquisito di avere supporti molto grandi per immagazzinare e memorizzare anche notevoli quantità di dati all introduzione di nuove tecniche che si affiancano ai tradizionali metodi di analisi statistica e di data retrieval e che permettono di estrarre conoscenza, cioè informazioni significative (di valore), in seguito all esplorazione di questi enormi volumi di dati. L insieme di queste tecniche prende il nome di Knowledge Discovery in DataBases o Data Mining (anche se con il termine data mining sarebbe meglio considerare una tappa della Knowledge Discovery in DataBases). La Knowledge Discovery in DataBases integra vari campi di ricerca (statistica, pattern recognition, machine learning, ecc.) ed è un processo analitico che è stato progettato per esplorare dati ed estrarne conoscenza in termini di associazioni, patterns, regole o sequenze ripetute che sono nascoste nei dati stessi e che non sono note a priori. CLASSIFICAZIONE. La classificazione è forse la tecnica di Data Mining più comunemente applicata e viene utilizzata per analizzare grandi quantità di dati in modo automatico o semiautomatico ed estrarne conoscenza; in particolare la classificazione estrae conoscenza a livello di variabili categoriche o classi, mentre quando si hanno variabili numeriche o continue si parla di Previsione. Di solito, si ha a che fare con grandi quantità di dati (commerciali, finanziari, scientifici, clinici, ecc.) che possono anche essere: INCOMPLETI mancano delle osservazioni RUMOROSI ci sono dei valori anomali INCONSISTENTI esistono codici differenti per lo stesso item

3 3 RIDONDANTI presenza della medesima informazione Quindi, i dati prima di essere sottoposti a Classificazione devono prima subire una fase di PREPROCESSING che consiste di vari passaggi: Data Cleaning i dati originali che provengono da fonti differenti vengono ripuliti per eliminare rumore e trattare i casi di dati mancanti Relevance Analysis serve per individuare quegli attributi che non sono rilevanti per l analisi oppure che sono ridondanti Data Transformation in questa fase, i dati vengono generalizzati a livelli concettuali più elevati oppure trasformati in modo da assumere valori in determinati intervalli (normalizzazione). Esistono due tipi di classificazione e cioè: CLASSIFICAZIONE SUPERVISIONATA in questo tipo di approccio, il valore di Class Label di ogni tupla di dati (training sample) è noto. Si parla di Supervised Learning. CLASSIFICAZIONE NON-SUPERVISIONATA in questo altro tipo di approccio invece non si dispone di casi etichettati e non si conosce nemmeno quante sono le classi o categorie da apprendere. Si parla di Unsupervised learning o Clustering. Nell ambito della Classificazione Supervisionata, il processo di Data Classification viene diviso in due fasi: 1) LEARNING viene costruito un modello che descrive un determinato insieme di classi in seguito all analisi di tuple di dati secondo i loro attributi 2) CLASSIFICATION il modello costruito viene utilizzato per classificare nuovi casi Disponendo di un data set di cui è noto, per ogni tupla di dati, il valore della class label, si può dividere questo data set in modo che una parte venga utilizzata come Training Set nella fase di Learning e l altra parte venga invece utilizzata come Test Set per verificare l accuratezza del classificatore prima di passare alla fase di Classification con un data set nuovo. Infatti, utilizzare gli stessi dati sia nella fase di apprendimento che nella fase di verifica della performance di un classificatore è molto pericoloso, perché si rischia l overfitting, cioè di avere stime troppo ottimistiche riguardanti la sua prestazione a livello dei nuovi casi. Esistono dei metodi (basati sulla randomizzazione) per dividere il data set di partenza e per stimare così l accuratezza di un classificatore. Sono i seguenti:

4 4 Cross-validation con questa metodica, il data set viene diviso, in modo casuale, in k-folds, cioè in k sottoinsiemi che in maniera esclusiva vengono utilizzati come Test Set ; il ciclo viene quindi ripetuto k volte. L accuratezza complessiva viene ottenuta sommando il numero dei casi correttamente classificati nelle k iterazioni e dividendo questa somma per il numero dei casi dell insieme di dati iniziale. Esempio: se viene fatta una cross-validation a 10 folds, il data set viene diviso in 10 parti; 9 parti vengono usate come Training Set ed 1 parte come Test Set e tutto questo viene ripetuto per 10 volte con un fold diverso ogni volta. Hold Out in questo caso, il data set iniziale viene di solito diviso in modo tale che 2/3 di esso vengano usati come Training Set ed il resto come Test Set; la stima che si ottiene è di solito pessimistica in quanto viene utilizzata una porzione dei dati fissa per ottenere il classificatore. Esempio: si può utilizzare il 66% del data set come Training set ed il restante 34% come Test Set. Esistono anche schemi particolari che possono migliorare la performance di un classificatore unendo tra di loro più classificatori in modo da ottenerne uno composto. Questi sono: il Bagging combina le classificazioni predette da modelli multipli o dallo stesso tipo di modello per differenti learning data. il Boosting vengono assegnati dei pesi ad ogni Training Set e si apprendono i classificatori in sequenza; il Boosting genererà una sequenza di classificatori dove ogni classificatore consecutivo nella sequenza diventa un esperto nelle osservazioni da classificare che non sono state ben classificate da quelli precedenti ad esso; le classificazioni fatte dai diversi classificatori possono poi essere combinate per ricavare la miglior classificazione in assoluto. Un classificatore può essere valutato in base a diversi parametri: a. Accuratezza nella classificazione b. Velocità di costruzione c. Velocità di esecuzione d. Robustezza (accuratezza in presenza di rumore o dati mancanti)

5 5 L Accuratezza di un classificatore rappresenta la percentuale di istanze classificate correttamente (cioè la cui classe predetta coincide con la classe reale) sul numero totale di istanze classificate. Esistono altri parametri che permettono di valutare un classificatore. Vediamoli in dettaglio negativo positivo a = negativo b = positivo Classe a: TP=565 FP=10 FN=330 Classe b: TP=841 FP=330 FN=10 La PRECISION è una misura di correttezza ed è uguale: Precision= True Positive/(True Positive + False positive) Esempio: precision classe negativa = 565/(565+10) = Più il numero dei FP è basso, maggiore è la Precision che si avvicina ad 1. La RECALL è una misura di completezza ed è uguale: Recall= True Positive/(True Positive + False Negative) Esempio: recall classe negativa = 565/( ) = Più il numero dei FN è basso, più la Recall si avvicina al massimo valore di 1. La F-MEASURE è uguale a: F-measure= 2*Recall*Precision/(Recall+Precision)

6 6 WEKA Weka è un open source software che è stato ideato dall Università di Waikato in Nuova Zelanda e rappresenta un estesa collezione di algoritmi di Machine Learning per lavori di Data Mining. Contiene strumenti per il pre-processing dei dati, per la classificazione e la regressione, per il clustering, per le regole di associazione e per la visualizzazione. Per il nostro lavoro di classificazione, abbiamo utilizzato per la maggior parte i classificatori presenti nella versione vecchia di Weka (3-2), mentre della versione più recente (3-4), abbiamo usato solo due classificatori e cioè JRip e AODE. Per analizzare il data set a disposizione, è stato usato l ambiente Explorer di Weka. Experimenter invece permette di mettere a confronto più modelli a partire da uno o più data set. Explorer possiede un set di pannelli, ognuno dei quali può essere adoperato per condurre un certo tipo di lavoro; questi sono elencati sotto: Figura 1; versione 3-2 Preprocess serve per importare e preparare i dati Classify serve per applicare ai dati gli algoritmi di classificazione o i modelli per la regressione (entrambi sono chiamati classifiers in Weka) Cluster serve per fare cluster analysis Associate serve per applicare algoritmi di apprendimento delle regole di associazione Select Attributes serve per selezionare sottogruppi di attributi per l analisi Visualize serve per visualizzare le proprietà grafiche dei dati Attraverso Open File nel pannello Preprocess, abbiamo caricato il nostro data set di proteine. Il file che era in un formato.xls è stato trasformato in.csv (comma separated values) affinchè potesse essere opportunamente riconosciuto da Weka, che a sua volta lo trasforma in formato.arff. Inoltre, abbiamo trasformato la classe da numerica in nominale per esigenze di software (come è spiegato

7 7 successivamente nella sezione risultati). Non è stato necessario sottoporre il data set a Preprocessing poiché non conteneva rumore o casi mancanti. Siamo nella sezione di Preprocess Figura 2 Questo è il nostro data set con 27 attributi, l ultimo dei quali rappresenta la classe. Il data set contiene 1746 istanze Come si può vedere dalla Figura 2, il data set ha 27 attributi di cui l ultimo rappresenta la classe e contiene 1746 istanze. Selezionando l attributo PROTEIN, nella finestra sulla destra si può notare che questa classe contiene due labels : negativo con 895 istanze e positivo con 851 istanze; la classe è di tipo nominale (Figura 3). Se invece selezioniamo un singolo attributo, per esempio Weight, nella finestra sulla destra ci appaiono le informazioni statistiche che lo riguardano come: minimo, massimo, media e deviazione standard (Figura 4).

8 8 Figura 3 Selezionando solamente l attributo Proteine, che corrisponde alla classe, si vede che esistono due Labels : negativo con 895 istanze e positivo con 851 istanze. Figura 4 Selezionando un attributo, a destra, si possono osservare le informazioni statistiche che lo riguardano come : massimo, minimo, media e deviazione standard.

9 9 Passiamo ora al pannello Classify. Weka possiede le implementazioni di tutte le principali tecniche di learning per la classificazione e per la regressione come: alberi di decisione, rule sets, classificatori Bayesiani, support vector machines, logistic and linear regression, multi-layer perceptron e metodi nearest-neighbour; contiene anche meta-classificatori per bagging e boosting. In questa sezione possiamo scegliere il tipo di classificatore da utilizzare, possiamo cambiarne eventualmente i parametri di default, applicare un certo tipo di filtro, scegliere il tipo di metodo con cui vogliamo valutare la performance del classificatore, ecc. (Figura 5). Nella sezione Classify, possiamo scegliere il tipo di classificatore, cambiarne eventualmente i paramentri di default, applicare o meno un filtro, scegliere il tipo di metodo con cui vogliamo valutare la performance del classificatore, ecc. Classificatore selezionato Questi parametri di default di IBk possono essere variati. Noi abbiamo cambiato il valore di KNN da 1 a 2, 5 e 12. Figura 5

10 10 Nella Figura 6, possiamo vedere il riquadro (Test options) dove scegliere il metodo per valutare la performance del classificatore precedentemente selezionato. Dopo avere fatto correre il programma per mezzo dell opzione Start, nella finestra grande a destra compare l output completo del classificatore con tutti i dettagli inerenti alla sua performance. In questo riquadro, si possono selezionare i metodi con cui si vuole valutare la performance del classificatore in esame. Noi abbiamo usato la Cross-validation e il Percentage split (detto anche Hold-out). Figura 6 In Weka, esiste anche un ulteriore opzione che permette di visualizzare gli alberi di decisione costruiti dai classificatori che si basano su questo tipo di algoritmo (Figura 7).

11 11 In Weka, esiste anche un opzione che dà la possibilità di visualizzare l albero di decisione costruito dal classificatore. Figura 7 COMMENTI AI RISULTATI WEKA Il data set che abbiamo analizzato è di proteine ed è costituito da 27 attributi per un totale di 1746 istanze complessive. I primi 26 attributi sono variabili che rappresentano delle caratteristiche strutturali o chimico-fisiche delle proteine in questione, mentre l ultimo attributo corrisponde alla Classe nella quale possiamo distinguere due labels class e cioè: -1 e +1. Per esigenze di software la classe è stata trasformata da numerica in nominale convertendo -1 in negativo e +1 in positivo. Inoltre, il file che contiene il data set è stato trasformato da file.xls a file.csv (comma separated values) che è un formato riconosciuto da Weka, il quale poi lo trasforma a sua volta in file.arff.

12 12 Per l analisi di classificazione sono stati utilizzati 18 classificatori presenti nella versione 3-2 di Weka e 2 classificatori presenti nella versione 3-4 di Weka che sono i seguenti: 1. ZeroR 2. DecisionStump 3. DecisionTable 4. HyperPipes 5. IB1 6. IBk 7. Id3 8. J48J48 9. J48Part 10. KernelDensity 11. K-Star 12. Naive Bayes Simple 13. Naive Bayes 14. OneR 15. Prism 16. AODE 17. JRip 18. VFI 19. ADTree 20. SMO Sono stati eseguiti 240 esperimenti in cui abbiamo analizzato la performance dei vari classificatori attraverso due metodi principali e cioè: Cross-validation Hold-out Per quanto riguarda la Cross-validation, abbiamo fatto per quasi tutti i classificatori tre esperimenti a 10 (valore di default), 6 e 3 folds, senza e con l applicazione di un filtro di discretizzazione. Per l Hold-out, abbiamo fatto tre esperimenti con un valore di training set pari al 66% (valore di default), all 80% e al 50% senza il filtro di discretizzazione, mentre con l applicazione del filtro abbiamo fatto solo un esperimento con il valore di default. Inoltre, abbiamo fatto prove con Cross-validation a 10 folds e Hold-out 66% aggiungendo il Bagging a quasi tutti i classificatori considerati per cercare di migliorarne la performance. Per DecisionStump, sono stati utilizzati anche due metaclassificatori per il Boosting e cioè AdaBoost e LogitBoost. Altri parametri sono stati variati rispetto a quelli di default anche per DecisionTable, IBk e NaiveBayes come verrà spiegato poi. Qui di seguito, riportiamo solo gli esperimenti che hanno dato i risultati migliori, mentre per gli output di tutti gli esperimenti fatti e i relativi

13 13 commenti si rimanda al file Risultati e commenti esperimenti eseguiti con Weka e alla Tabella riassuntiva. ZeroR Il Classificatore ZeroR assegna tutte le istanze alla classe di maggiore dimensione presente nel training-set senza mai considerare gli attributi di ciascuna istanza. Non ha molto senso usare questo schema per la classificazione, per cui gli esperimenti eseguiti con ZeroR ci servono solo come parametro di riferimento per la valutazione della performance dei classificatori considerati successivamente, nel senso che non si deve mai andare sotto il valore trovato con questo classificatore che dovrebbe rappresentare il peggior risultato possibile. Per questi motivi viene anche detto classificatore stupido. In tutti gli esperimenti eseguiti con ZeroR, questo classificatore assegna tutte le istanze del data set (n tot 1746) alla classe maggiormente rappresentata che nel nostro caso è quella negativa (-1) con 895 istanze contro le 851 della positiva (+1). La percentuale di istanze correttamente classificate da ZeroR è intorno al 51% circa. ZeroR cross-validation: 10 folds senza filtri Scheme: Test mode: weka.classifiers.zeror 10-fold cross-validation Correctly Classified Instances % Incorrectly Classified Instances % Kappa statistic 0 Mean absolute error Root mean squared error Relative absolute error % Root relative squared error % Total Number of Instances negativo positivo a = negativo b = positivo

14 14 DecisionStump Questa è una classe per la costruzione e l uso di un semplice albero di decisione a un livello binario (alberi di decisione a un livello) con un ramo extra per i valori persi. Esso produce probabilità di classe. Fa fronte ai valori persi estendendo un terzo ramo dall albero, in altre parole, trattando il valore perso come un attributo separato. Di solito viene utilizzato insieme agli algoritmi di Boosting. La miglior performance che abbiamo ottenuto con DecisionStump (88% di istanze correttamente classificate) si è avuta utilizzando il metodo Hold-out 80% senza filtro di discretizzazione ed associando il classificatore LogitBoost per il boosting. Per gli altri esperimenti condotti con l uso di LogitBoost, la percentuale di istanze correttamente classificate si è mantenuta compresa tra circa l 85 e l 86%. Usando invece AdaBoost come algoritmo di boosting, abbiamo ottenuto delle percentuali di istanze classificate in modo corretto un po inferiori rispetto a LogitBoost e cioè in media intorno all 82%, tranne nel caso di Hold-out 50% senza filtro dove si è raggiunto il valore di 84.19%. Senza l uso degli algoritmi di boosting, i risultati ottenuti nei rimanenti esperimenti sono compresi tra circa l 80.50% e l 81.90%. In linea generale, DecisionStump tende a commettere più errori nel classificare le istanze della classe positiva. Non c è un equa ripartizione delle istanze non correttamente classificate tra le due classi negativa e positiva. Vedi il file Risultati e commenti esperimenti eseguiti con Weka e la Tabella riassuntiva. DecisionStump+LogitBoost Hold-out: 80 % senza filtri Scheme: weka.classifiers.logitboost -P 100 -I 10 -W weka.classifiers.decisionstump -- Test mode: split 80% train, remainder test Correctly Classified Instances % Incorrectly Classified Instances % Kappa statistic Mean absolute error Root mean squared error Relative absolute error % Root relative squared error % Total Number of Instances 350

15 negativo positivo a = negativo b = positivo DecisionStump+AdaBoost cross-validation: 10 folds senza filtri Scheme: weka.classifiers.adaboostm1 -P 100 -I 10 -S 1 -W weka.classifiers.decisionstump -- Test mode: 10-fold cross-validation Correctly Classified Instances % Incorrectly Classified Instances % Kappa statistic Mean absolute error Root mean squared error Relative absolute error % Root relative squared error % Total Number of Instances negativo positivo a = negativo b = positivo DecisionTable Classificatore che costruisce e usa una semplice tabella di decisione. Decision Table adopera il wrapper method per trovare un buon sotto-insieme di attributi da includere nella tabella. Questo è fatto usando la prima migliore ricerca. La migliore percentuale di classificazione ottenuta con DecisionTable si è avuta usando il metodo Hold-out senza filtro di discretizzazione e settando il parametro useibk come true; si è così avuto l 87.04% di istanze correttamente classificate. Anche le rimanenti performance sono state comunque abbastanza buone con percentuali comprese tra l 84,48% e l 86,60%. Anche la ripartizione delle istanze

16 16 non correttamente classificate è stata equa tra le due classi negativa e positiva, il che ci indica che il classificatore commette la stessa percentuale di errore nel classificare entrambi i due tipi di proteine. DecisionTable Hold-out: 66% con useibk=true Scheme: weka.classifiers.decisiontable -X 1 -S 5 -I Test mode: split 66% train, remainder test Correctly Classified Instances % Incorrectly Classified Instances % Kappa statistic Mean absolute error Root mean squared error Relative absolute error % Root relative squared error % Total Number of Instances negativo positivo a = negativo b = positivo HyperPipes Implementazione di un classificatore HyperPipes. Per ogni categoria si costruisce un HyperPipes che contiene tutti i punti di quella categoria (essenzialmente registra i legami degli attributi osservati per ciascuna categoria). Le istanze-test sono classificate in accordo con la categoria che più contiene l istanza. Non manipola classi numeriche o valori persi nei casi-test. E un algoritmo molto semplice, ma ha il vantaggio di essere estremamente veloce. HyperPipes non ha mai dati buone percentuali di classificazione in nessun esperimento condotto. I suoi risultati sono equiparabili a quelli del classificatore ZeroR e non raggiungono mai valori superiori a circa il 63% (ottenuto con l uso di Bagging e Hold-out 66% senza filtro). Anche la distribuzione delle istanze non correttamente classificate tra le due classi negativa e positiva è pessima.

17 17 HyperPipes +Bagging Hold-out: 66% senza filtro Scheme: weka.classifiers.bagging -S 1 -I 10 -P 100 -W weka.classifiers.hyperpipes -- Test mode: split 66% train, remainder test Correctly Classified Instances % Incorrectly Classified Instances % Kappa statistic Mean absolute error Root mean squared error Relative absolute error % Root relative squared error % Total Number of Instances negativo positivo a = negativo b = positivo IB1 Il classificatore IB1 usa una semplice misura di distanza per trovare l istanza di training più vicina all istanza di test che viene considerata. Se ci sono più istanze di training con la medesima distanza (che deve essere la minore possibile) dall istanza di test, viene presa l istanza di training che è stata trovata per prima. IB1 è una semplice implementazione dell algoritmo di Nearest Neighbour (NNA). La distanza tra due campioni Xi e Xj può essere misurata attraverso una funzione Euclidea. IB1, insieme ad IBk, ha dato la miglior performance di classificazione in assoluto tra tutti i classificatori presi in considerazione raggiungendo una percentuale di istanze correttamente classificate pari al 93.93% nell esperimento in cui è stata usata la Cross-validation a 10 folds senza filtro di discretizzazione. Anche il corrispondente esperimento con Bagging non ha migliorato ulteriormente questa percentuale che è rimasta tale. Le prestazioni di IB1 sono sempre state superiori all 87% in tutti gli esperimenti condotti. Ottima anche la distribuzione delle istanze non correttamente classificate tra le due classi negativa e positiva.

18 18 IB1 cross-validation: 10 folds senza filtro Scheme: Test mode: weka.classifiers.ib1 10-fold cross-validation Correctly Classified Instances % Incorrectly Classified Instances % Kappa statistic Mean absolute error Root mean squared error Relative absolute error % Root relative squared error % Total Number of Instances negativo positivo a = negativo b = positivo IBk E un classificatore K-Nearest Neighbour. Estende IB1 usando una misura di distanza per trovare le k-istanze di training più vicine all istanza-test considerata. Questo algoritmo non ha una fase di training, i records esempio sono semplicemente immagazzinati. Nella fase di testing, un record non classificato è comparato con tutti i records immagazzinati fino a che si trova quello più vicino. Il record nuovo viene assegnato alla stessa classe di quello più vicino. Un estensione di questo classificatore è di usare più di un nearest neighbour, cosicché la class label sia calcolata in dipendenza da parecchi neighbours. Anche IBk, come il precedente IB1, ha data la miglior performance in assoluto tra tutti i classificatori adoperati con una percentuale del 93.93% nell esperimento condotto con il metodo della Cross-validation a 10 folds senza filtro di discretizzazione; d altro canto, IBk e IB1 sono molto simili tra loro e nel nostro esperimento, eseguito con parametri di default, il valore di k è settato ad 1 come per IB1. Anche in questo caso la percentuale di errore commessa nel classificare le istanze sbagliate è equivalente per entrambe le categorie proteiche. Anche nei

19 19 restanti esperimenti le percentuali di classificazioni corrette si mantengono sempre superiori all 88.89%. Per questo classificatore, abbiamo provato a variare anche il valore dei k-nearest neighbour portandolo da 1 a 2, 5 e 12; la percentuale delle istanze correttamente classificate però è stata inferiore a quella dei corrispondenti esperimenti con i parametri di default (tra 88.89% e 91.81%). Anche in questo caso, l aggiunta del Bagging non ha migliorato il risultato. IBk cross-validation: 10 folds senza filtro Scheme: weka.classifiers.ibk -K 1 -W 0 Test mode: 10-fold cross-validation Correctly Classified Instances % Incorrectly Classified Instances % Kappa statistic Mean absolute error Root mean squared error Relative absolute error % Root relative squared error % Total Number of Instances negativo positivo a = negativo b = positivo Id3 E un classificatore che costruisce un albero di decisione. Riconosce solo attributi nominali. Quindi, è necessario applicare un filtro di discretizzazione per poterlo usare con il nostro data set in cui gli attributi sono numerici. Questo classificatore non ha mai dato una buona performance poiché non è mai riuscito a classificare tutte le istanze (circa il 5-7.4% delle istanze non sono mai state classificate).

20 20 Id3 cross-validation: 10 folds con filtro di discretizzazione Scheme: weka.classifiers.filteredclassifier -B weka.classifiers.id3 -F "weka.filters.discretizefilter -B 10 -R first-last" Test mode: 10-fold cross-validation Correctly Classified Instances % Incorrectly Classified Instances % Kappa statistic Mean absolute error Root mean squared error Relative absolute error % Root relative squared error % UnClassified Instances % Total Number of Instances negativo positivo a = negativo b = positivo J48J48 L idea di questo algoritmo è di formare un albero di decisione attraverso il frazionamento dei dataset in pezzettini sempre più piccoli. Poi si può decidere come classificare un record seguendo l albero finché si arriva all estremità, dove si trova quale classe abbiamo. Con questo classificatore abbiamo ottenuto delle performance di classificazione molto buone con percentuali di istanze correttamente classificate superiori in generale a circa l 83% e con una punta massima del 90.74% usando il metodo Hold-out senza filtro con Bagging (l aggiunta del Bagging migliora del 5.22% la performance di J48J48 rispetto allo equivalente esperimento che è stato eseguito senza). Considerando tutti gli esperimenti, la distribuzione delle istanze non classificate in maniera corretta è abbastanza equa tra le due classi negativa e positiva.

21 21 J48J48+Bagging Hold-out: 66 % senza filtro Scheme: weka.classifiers.bagging -S 1 -I 10 -P 100 -W weka.classifiers.j48.j C M 2 Test mode: split 66% train, remainder test Correctly Classified Instances % Incorrectly Classified Instances % Kappa statistic Mean absolute error Root mean squared error Relative absolute error % Root relative squared error % Total Number of Instances negativo positivo a = negativo b = positivo J48PART Classe per generare una PART decision list. Induce regole if-then per le istanze di training date. PART ottiene regole da alberi di decisione costruiti parzialmente. La performance di J48Part è stata molto buona in quasi tutte le prove con un valore minimo di istanze correttamente classificate pari all 82.76% ed un valore massimo pari al 93.77%, che si è avuto con il metodo Hold-out 66% senza filtro e con Bagging. Buona anche la ripartizione tra le due classi delle istanze non correttamente classificate. J48Part+Bagging Hold-out: 66 % senza filtro Scheme: weka.classifiers.bagging -S 1 -I 10 -P 100 -W weka.classifiers.j48.part -- -C M 2 Test mode: split 66% train, remainder test Correctly Classified Instances % Incorrectly Classified Instances % Kappa statistic Mean absolute error

22 22 Root mean squared error Relative absolute error % Root relative squared error % Total Number of Instances negativo positivo a = negativo b = positivo KernelDensity E un classificatore kernel density molto semplice. KernelDensity è un ottimo classificatore perché in tutti gli esperimenti considerati ha sempre dato percentuali di classificazione superiori al 90.74% con anche un ottima distribuzione delle istanze non classificate correttamente tra le due classi proteiche negativa e positiva. La performance migliore si è ottenuta con il metodo della Cross-validation a 10 folds senza filtro di discretizzazione, dove si è raggiunta una percentuale del 93.64% di istanze correttamente classificate. Il Bagging non è stato applicato perché la classificazione diventava molto costosa in termini di tempo. KernelDensity cross-validation: 10 folds senza filtro Scheme: weka.classifiers.kerneldensity Test mode: 10-fold cross-validation Correctly Classified Instances % Incorrectly Classified Instances % Kappa statistic Mean absolute error Root mean squared error Relative absolute error % Root relative squared error % Total Number of Instances negativo positivo

Modelli probabilistici

Modelli probabilistici Modelli probabilistici Davide Cittaro e Marco Stefani Master bioinformatica 2003 Introduzione L obiettivo di presente lavoro è la classificazione di un insieme di proteine, definite da 27 valori numerici,

Dettagli

C4.5 Algorithms for Machine Learning

C4.5 Algorithms for Machine Learning C4.5 Algorithms for Machine Learning C4.5 Algorithms for Machine Learning Apprendimento di alberi decisionali c4.5 [Qui93b,Qui96] Evoluzione di ID3, altro sistema del medesimo autore, J.R. Quinlan Ispirato

Dettagli

Realizzazione di un sistema predittivo dei risultati del campionato di calcio italiano di serie A 2006/2007

Realizzazione di un sistema predittivo dei risultati del campionato di calcio italiano di serie A 2006/2007 Realizzazione di un sistema predittivo dei risultati del campionato di calcio italiano di serie A 2006/2007 Docente Prof. Giuseppe Manco Studenti Matr.. 96803 Francesco Aiello Matr.. 94881 Vittorio Leo

Dettagli

Esperienze di Apprendimento Automatico per il corso di Intelligenza Artificiale

Esperienze di Apprendimento Automatico per il corso di Intelligenza Artificiale Esperienze di Apprendimento Automatico per il corso di lippi@dsi.unifi.it Dipartimento Sistemi e Informatica Università di Firenze Dipartimento Ingegneria dell Informazione Università di Siena Introduzione

Dettagli

Il guadagno informativo negli alberi decisionali: un nuovo approccio

Il guadagno informativo negli alberi decisionali: un nuovo approccio Il guadagno informativo negli alberi decisionali: un nuovo approccio Sommario Descrizione del problema... 2 Il guadagno informativo di Nanni... 3 Il software Weka... 3 Cos è Weka... 3 Il guadagno Informativo

Dettagli

Classificazione e Predizione

Classificazione e Predizione Lezione di TDM DM del 16 Aprile 2007 Francesco Bonchi, KDD Lab Pisa, ISTI-C.N.R. 1 Lezione odierna Intuizioni sul concetto di classificazione Alberi di decisione Alberi di decisione con Weka Classificazione:

Dettagli

Uno standard per il processo KDD

Uno standard per il processo KDD Uno standard per il processo KDD Il modello CRISP-DM (Cross Industry Standard Process for Data Mining) è un prodotto neutrale definito da un consorzio di numerose società per la standardizzazione del processo

Dettagli

PDF created with pdffactory trial version www.pdffactory.com. Il processo di KDD

PDF created with pdffactory trial version www.pdffactory.com. Il processo di KDD Il processo di KDD Introduzione Crescita notevole degli strumenti e delle tecniche per generare e raccogliere dati (introduzione codici a barre, transazioni economiche tramite carta di credito, dati da

Dettagli

Feature Selection per la Classificazione

Feature Selection per la Classificazione 1 1 Dipartimento di Informatica e Sistemistica Sapienza Università di Roma Corso di Algoritmi di Classificazione e Reti Neurali 20/11/2009, Roma Outline Feature Selection per problemi di Classificazione

Dettagli

Intelligenza Artificiale

Intelligenza Artificiale Intelligenza Artificiale Anno accademico 2008-2009 Information Retrieval: Text Categorization Una definizione formale Sia D il dominio dei documenti Sia C = {c 1,,c C } un insieme di categorie predefinite

Dettagli

DATA MINING PER IL MARKETING

DATA MINING PER IL MARKETING DATA MINING PER IL MARKETING Andrea Cerioli andrea.cerioli@unipr.it Sito web del corso GLI ALBERI DI CLASSIFICAZIONE Algoritmi di classificazione Zani-Cerioli, Cap. XI CHAID: Chi-square Automatic Interaction

Dettagli

Mining Positive and Negative Association Rules:

Mining Positive and Negative Association Rules: Mining Positive and Negative Association Rules: An Approach for Confined Rules Alessandro Boca Alessandro Cislaghi Premesse Le regole di associazione positive considerano solo gli item coinvolti in una

Dettagli

Introduzione alle tecniche di Data Mining. Prof. Giovanni Giuffrida

Introduzione alle tecniche di Data Mining. Prof. Giovanni Giuffrida Introduzione alle tecniche di Data Mining Prof. Giovanni Giuffrida Programma Contenuti Introduzione al Data Mining Mining pattern frequenti, regole associative Alberi decisionali Clustering Esempio di

Dettagli

Regressione non lineare con un modello neurale feedforward

Regressione non lineare con un modello neurale feedforward Reti Neurali Artificiali per lo studio del mercato Università degli studi di Brescia - Dipartimento di metodi quantitativi Marco Sandri (sandri.marco@gmail.com) Regressione non lineare con un modello neurale

Dettagli

ANALISI DEI DATI PER IL MARKETING 2014

ANALISI DEI DATI PER IL MARKETING 2014 ANALISI DEI DATI PER IL MARKETING 2014 Marco Riani mriani@unipr.it http://www.riani.it LA CLASSIFICAZIONE CAP IX, pp.367-457 Problema generale della scienza (Linneo, ) Analisi discriminante Cluster Analysis

Dettagli

Riconoscimento e Recupero dell'informazione per Bioinformatica

Riconoscimento e Recupero dell'informazione per Bioinformatica Riconoscimento e Recupero dell'informazione per Bioinformatica LAB. 8 PRTools (2) Pietro Lovato Corso di Laurea in Bioinformatica Dip. di Informatica Università di Verona A.A. 2015/2016 Ripasso: validazione

Dettagli

Data mining: classificazione DataBase and Data Mining Group of Politecnico di Torino

Data mining: classificazione DataBase and Data Mining Group of Politecnico di Torino DataBase and Data Mining Group of Database and data mining group, Database and data mining group, DataBase and Data Mining Group of DataBase and Data Mining Group of So dati insieme di classi oggetti etichettati

Dettagli

Data Mining. Gabriella Trucco gabriella.trucco@unimi.it

Data Mining. Gabriella Trucco gabriella.trucco@unimi.it Data Mining Gabriella Trucco gabriella.trucco@unimi.it Perché fare data mining La quantità dei dati memorizzata su supporti informatici è in continuo aumento Pagine Web, sistemi di e-commerce Dati relativi

Dettagli

Introduzione al Pattern Recognition Statistico

Introduzione al Pattern Recognition Statistico Introduzione al Pattern Recognition Statistico Roberto Tagliaferri Dipartimento di Informatica Università di Salerno ( Sa ) 84084 Fisciano e-mail robtag@unisa.it Statistical Pattern Recognition Introduzione

Dettagli

Dai dati al modello teorico

Dai dati al modello teorico Dai dati al modello teorico Analisi descrittiva univariata in R 1 Un po di terminologia Popolazione: (insieme dei dispositivi che verranno messi in produzione) finito o infinito sul quale si desidera avere

Dettagli

Data Mining. KDD e Data Mining - Introduzione (1)

Data Mining. KDD e Data Mining - Introduzione (1) 1 Data Mining Corso di Metodi e Modelli per il Supporto alle Decisioni a.a. 2002-03 2 KDD e Data Mining - Introduzione (1) Crescita notevole degli strumenti e delle tecniche per generare e raccogliere

Dettagli

Weka Project. Weka. Weka Project. Formato.arff. Modalità di utilizzo di Weka. Formato.arff

Weka Project. Weka. Weka Project. Formato.arff. Modalità di utilizzo di Weka. Formato.arff Weka Project Weka Machine Learning Algorithms in Java Waikato Environment for Knowledge Analysis Algoritmi di Data Mining e Machine Learning realizzati in Java Preprocessing Classificazione Clustering

Dettagli

EXCEL PER WINDOWS95. sfruttare le potenzialità di calcolo dei personal computer. Essi si basano su un area di lavoro, detta foglio di lavoro,

EXCEL PER WINDOWS95. sfruttare le potenzialità di calcolo dei personal computer. Essi si basano su un area di lavoro, detta foglio di lavoro, EXCEL PER WINDOWS95 1.Introduzione ai fogli elettronici I fogli elettronici sono delle applicazioni che permettono di sfruttare le potenzialità di calcolo dei personal computer. Essi si basano su un area

Dettagli

Introduzione. Il principio di localizzazione... 2 Organizzazioni delle memorie cache... 4 Gestione delle scritture in una cache...

Introduzione. Il principio di localizzazione... 2 Organizzazioni delle memorie cache... 4 Gestione delle scritture in una cache... Appunti di Calcolatori Elettronici Concetti generali sulla memoria cache Introduzione... 1 Il principio di localizzazione... 2 Organizzazioni delle memorie cache... 4 Gestione delle scritture in una cache...

Dettagli

Elaborazione dei dati su PC Regressione Multipla

Elaborazione dei dati su PC Regressione Multipla 21 Elaborazione dei dati su PC Regressione Multipla Analizza Regressione Statistiche Grafici Metodo di selezione Analisi dei dati 21.1 Introduzione 21.2 Regressione lineare multipla con SPSS 21.3 Regressione

Dettagli

SISTEMI INFORMATIVI AZIENDALI

SISTEMI INFORMATIVI AZIENDALI SISTEMI INFORMATIVI AZIENDALI Prof. Andrea Borghesan venus.unive.it/borg borg@unive.it Ricevimento: Alla fine di ogni lezione Modalità esame: scritto 1 Data Mining. Introduzione La crescente popolarità

Dettagli

MACHINE LEARNING e DATA MINING Introduzione. a.a.2015/16 Jessica Rosati jessica.rosati@poliba.it

MACHINE LEARNING e DATA MINING Introduzione. a.a.2015/16 Jessica Rosati jessica.rosati@poliba.it MACHINE LEARNING e DATA MINING Introduzione a.a.2015/16 Jessica Rosati jessica.rosati@poliba.it Apprendimento Automatico(i) Branca dell AI che si occupa di realizzare dispositivi artificiali capaci di

Dettagli

Data mining. Vincenzo D Elia. vincenzo.delia@polito.it. DBDMG - Politecnico di Torino

Data mining. Vincenzo D Elia. vincenzo.delia@polito.it. DBDMG - Politecnico di Torino Data mining Vincenzo D Elia vincenzo.delia@polito.it DBDMG - Politecnico di Torino vincenzo.delia@polito.it Archivi Multimediali e Data Mining - p. 1 Rapid Miner vincenzo.delia@polito.it Archivi Multimediali

Dettagli

Lezione 8. Data Mining

Lezione 8. Data Mining Lezione 8 Data Mining Che cos'è il data mining? Data mining (knowledge discovery from data) Estrazione di pattern interessanti (non banali, impliciti, prima sconosciuti e potenzialmente utili) da enormi

Dettagli

Elementi di Statistica descrittiva Parte I

Elementi di Statistica descrittiva Parte I Elementi di Statistica descrittiva Parte I Che cos è la statistica Metodo di studio di caratteri variabili, rilevabili su collettività. La statistica si occupa di caratteri (ossia aspetti osservabili)

Dettagli

MODULO 4: FOGLIO ELETTRONICO (EXCEL)

MODULO 4: FOGLIO ELETTRONICO (EXCEL) MODULO 4: FOGLIO ELETTRONICO (EXCEL) 1. Introduzione ai fogli elettronici I fogli elettronici sono delle applicazioni che permettono di sfruttare le potenzialità di calcolo dei Personal computer. Essi

Dettagli

Corso di Laurea Ingegneria Informatica Fondamenti di Informatica

Corso di Laurea Ingegneria Informatica Fondamenti di Informatica Corso di Laurea Ingegneria Informatica Fondamenti di Informatica Dispensa 05 La rappresentazione dell informazione Carla Limongelli Ottobre 2011 http://www.dia.uniroma3.it/~java/fondinf/ La rappresentazione

Dettagli

per immagini guida avanzata Uso delle tabelle e dei grafici Pivot Geometra Luigi Amato Guida Avanzata per immagini excel 2000 1

per immagini guida avanzata Uso delle tabelle e dei grafici Pivot Geometra Luigi Amato Guida Avanzata per immagini excel 2000 1 Uso delle tabelle e dei grafici Pivot Geometra Luigi Amato Guida Avanzata per immagini excel 2000 1 Una tabella Pivot usa dati a due dimensioni per creare una tabella a tre dimensioni, cioè una tabella

Dettagli

Ricerca di outlier. Ricerca di Anomalie/Outlier

Ricerca di outlier. Ricerca di Anomalie/Outlier Ricerca di outlier Prof. Matteo Golfarelli Alma Mater Studiorum - Università di Bologna Ricerca di Anomalie/Outlier Cosa sono gli outlier? L insieme di dati che sono considerevolmente differenti dalla

Dettagli

CAPITOLO 8 LA VERIFICA D IPOTESI. I FONDAMENTI

CAPITOLO 8 LA VERIFICA D IPOTESI. I FONDAMENTI VERO FALSO CAPITOLO 8 LA VERIFICA D IPOTESI. I FONDAMENTI 1. V F Un ipotesi statistica è un assunzione sulle caratteristiche di una o più variabili in una o più popolazioni 2. V F L ipotesi nulla unita

Dettagli

Tecniche di DM: Alberi di decisione ed algoritmi di classificazione

Tecniche di DM: Alberi di decisione ed algoritmi di classificazione Tecniche di DM: Alberi di decisione ed algoritmi di classificazione Vincenzo Antonio Manganaro vincenzomang@virgilio.it, www.statistica.too.it Indice 1 Concetti preliminari: struttura del dataset negli

Dettagli

Weka: Weikato university Environment for Knowledge Analysis

Weka: Weikato university Environment for Knowledge Analysis : Weikato university Environment for Knowledge Analysis Corso di Data e Text Mining Ing. Andrea Tagarelli Università della Calabria Acknowledgements: Salvatore Ruggieri, Dip. di Informatica, Univ. di Pisa

Dettagli

Statistical learning Strumenti quantitativi per la gestione

Statistical learning Strumenti quantitativi per la gestione Statistical learning Strumenti quantitativi per la gestione Emanuele Taufer Vendite Simbologia Reddito Statistical learning A cosa ci serve f? 1 Previsione 2 Inferenza Previsione Errore riducibile e errore

Dettagli

LA STATISTICA E IL CALCOLO DELLE PROBABILITÀ

LA STATISTICA E IL CALCOLO DELLE PROBABILITÀ LA STATISTICA E IL CALCOLO DELLE PROBABILITÀ Prof. Francesco Tottoli Versione 3 del 20 febbraio 2012 DEFINIZIONE È una scienza giovane e rappresenta uno strumento essenziale per la scoperta di leggi e

Dettagli

Backpropagation in MATLAB

Backpropagation in MATLAB Modello di neurone BACKPROPAGATION Backpropagation in MATLAB Prof. Beatrice Lazzerini Dipartimento di Ingegneria dell Informazione Via Diotisalvi 2, 56122 Pisa La funzione di trasferimento, che deve essere

Dettagli

Tecniche di riconoscimento statistico

Tecniche di riconoscimento statistico Tecniche di riconoscimento statistico Applicazioni alla lettura automatica di testi (OCR) Parte 8 Support Vector Machines Ennio Ottaviani On AIR srl ennio.ottaviani@onairweb.com http://www.onairweb.com/corsopr

Dettagli

Altri metodi di indicizzazione

Altri metodi di indicizzazione Organizzazione a indici su più livelli Altri metodi di indicizzazione Al crescere della dimensione del file l organizzazione sequenziale a indice diventa inefficiente: in lettura a causa del crescere del

Dettagli

Data Mining in SAP. Alessandro Ciaramella

Data Mining in SAP. Alessandro Ciaramella UNIVERSITÀ DI PISA Corsi di Laurea Specialistica in Ingegneria Informatica per la Gestione d Azienda e Ingegneria Informatica Data Mining in SAP A cura di: Alessandro Ciaramella La Business Intelligence

Dettagli

4 3 4 = 4 x 10 2 + 3 x 10 1 + 4 x 10 0 aaa 10 2 10 1 10 0

4 3 4 = 4 x 10 2 + 3 x 10 1 + 4 x 10 0 aaa 10 2 10 1 10 0 Rappresentazione dei numeri I numeri che siamo abituati ad utilizzare sono espressi utilizzando il sistema di numerazione decimale, che si chiama così perché utilizza 0 cifre (0,,2,3,4,5,6,7,8,9). Si dice

Dettagli

TECNICHE AVANZATE DI I/O. Al loro livello più basso, tutti i file scritti sull hard disk. Training per esperti SU FILE

TECNICHE AVANZATE DI I/O. Al loro livello più basso, tutti i file scritti sull hard disk. Training per esperti SU FILE Training per esperti TECNICHE AVANZATE DI I/O SU FILE Spesso, la decisione di dividere in processi differenti la produzione dei dati dall uso degli stessi viene presa perché occorre scrivere i dati su

Dettagli

Reti neurali nel Data Mining, altre tecniche utilizzate nel DM e valutazione dei modelli.

Reti neurali nel Data Mining, altre tecniche utilizzate nel DM e valutazione dei modelli. Reti neurali nel Data Mining, altre tecniche utilizzate nel DM e valutazione dei modelli. Vincenzo Antonio Manganaro vincenzomang@virgilio.it, www.statistica.too.it Indice 1 Utilizzo di reti neurali nel

Dettagli

Algoritmo per il rilevamento di targhe

Algoritmo per il rilevamento di targhe Algoritmo per il rilevamento di targhe 19 maggio 2008 Nell affrontare il problema del riconoscimento delle targhe sono stati sviluppati due algoritmi che basano la loro ricerca su criteri differenti. Lo

Dettagli

Tecniche di riconoscimento statistico

Tecniche di riconoscimento statistico On AIR s.r.l. Tecniche di riconoscimento statistico Applicazioni alla lettura automatica di testi (OCR) Parte 1 - Introduzione generale Ennio Ottaviani On AIR srl ennio.ottaviani@onairweb.com http://www.onairweb.com/corsopr

Dettagli

Indagini statistiche attraverso i social networks

Indagini statistiche attraverso i social networks Indagini statistiche attraverso i social networks Agostino Di Ciaccio Dipartimento di Scienze Statistiche Università degli Studi di Roma "La Sapienza" SAS Campus 2012 1 Diffusione dei social networks Secondo

Dettagli

KNOWLEDGE DISCOVERY E DATA MINING

KNOWLEDGE DISCOVERY E DATA MINING KNOWLEDGE DISCOVERY E DATA MINING Prof. Dipartimento di Elettronica e Informazione Politecnico di Milano LE TECNOLOGIE DI GESTIONE DELL INFORMAZIONE DATA WAREHOUSE SUPPORTO ALLE DECISIONI DATA MINING ANALISI

Dettagli

CRM DEDUPLICA. Deduplica e Normalizzazione dei clienti doppi... o simili. Validità: Settembre 2014

CRM DEDUPLICA. Deduplica e Normalizzazione dei clienti doppi... o simili. Validità: Settembre 2014 CRM DEDUPLICA Deduplica e Normalizzazione dei clienti doppi... o simili Validità: Settembre 2014 Questa pubblicazione è puramente informativa. SISECO non offre alcuna garanzia, esplicita od implicita,

Dettagli

Cultura Tecnologica di Progetto

Cultura Tecnologica di Progetto Cultura Tecnologica di Progetto Politecnico di Milano Facoltà di Disegno Industriale - DATABASE - A.A. 2003-2004 2004 DataBase DB e DataBase Management System DBMS - I database sono archivi che costituiscono

Dettagli

Aprire WEKA Explorer Caricare il file circletrain.arff Selezionare random split al 66% come modalità di test Selezionare J48 come classificatore e

Aprire WEKA Explorer Caricare il file circletrain.arff Selezionare random split al 66% come modalità di test Selezionare J48 come classificatore e Alberi di decisione Aprire WEKA Explorer Caricare il file circletrain.arff Selezionare random split al 66% come modalità di test Selezionare J48 come classificatore e lanciarlo con i parametri di default.

Dettagli

Elementi di Psicometria con Laboratorio di SPSS 1

Elementi di Psicometria con Laboratorio di SPSS 1 Elementi di Psicometria con Laboratorio di SPSS 1 29-Analisi della potenza statistica vers. 1.0 (12 dicembre 2014) Germano Rossi 1 germano.rossi@unimib.it 1 Dipartimento di Psicologia, Università di Milano-Bicocca

Dettagli

Prof.ssa Paola Vicard

Prof.ssa Paola Vicard Questa nota consiste perlopiù nella traduzione da Descriptive statistics di J. Shalliker e C. Ricketts, 2000, University of Plymouth Consideriamo come esempio il data set contenuto nel foglio excel esercizio2_dati.xls.

Dettagli

CONFRONTO TRA TECNICHE DI PREVISIONE: Processi regressivi e reti neurali artificiali

CONFRONTO TRA TECNICHE DI PREVISIONE: Processi regressivi e reti neurali artificiali Paolo Mezzera Ottobre 2003 CONFRONTO TRA TECNICHE DI PREVISIONE: Processi regressivi e reti neurali artificiali Questo lavoro ha lo scopo di confrontare previsioni ottenute mediante processi regressivi

Dettagli

Analisi discriminante

Analisi discriminante Capitolo 6 Analisi discriminante L analisi statistica multivariata comprende un corpo di metodologie statistiche che permettono di analizzare simultaneamente misurazioni riguardanti diverse caratteristiche

Dettagli

1. I database. La schermata di avvio di Access

1. I database. La schermata di avvio di Access 7 Microsoft Access 1. I database Con il termine database (o base di dati) si intende una raccolta organizzata di dati, strutturati in maniera tale che, effettuandovi operazioni di vario tipo (inserimento

Dettagli

Analisi dei requisiti e casi d uso

Analisi dei requisiti e casi d uso Analisi dei requisiti e casi d uso Indice 1 Introduzione 2 1.1 Terminologia........................... 2 2 Modello del sistema 4 2.1 Requisiti hardware........................ 4 2.2 Requisiti software.........................

Dettagli

R - Esercitazione 1. Lorenzo Di Biagio dibiagio@mat.uniroma3.it. 30 Settembre 2013. Università Roma Tre

R - Esercitazione 1. Lorenzo Di Biagio dibiagio@mat.uniroma3.it. 30 Settembre 2013. Università Roma Tre R - Esercitazione 1 Lorenzo Di Biagio dibiagio@mat.uniroma3.it Università Roma Tre 30 Settembre 2013 Introduzione a R R è un software open-source, per Linux, Mac OS X, Windows, distribuito secondo la licenza

Dettagli

Regressione Mario Guarracino Data Mining a.a. 2010/2011

Regressione Mario Guarracino Data Mining a.a. 2010/2011 Regressione Esempio Un azienda manifatturiera vuole analizzare il legame che intercorre tra il volume produttivo X per uno dei propri stabilimenti e il corrispondente costo mensile Y di produzione. Volume

Dettagli

Analisi dei dati MLPA con il nuovo Coffalyser.NET. MRC-Holland

Analisi dei dati MLPA con il nuovo Coffalyser.NET. MRC-Holland Analisi dei dati MLPA con il nuovo Coffalyser.NET MRC-Holland Contenuti Che cos è il Coffalyser.NET Analisi dei frammenti e del Copy number Interpretazione dei dati Che cos è il Cofffalyser.NET Software

Dettagli

Tecniche di DM: Link analysis e Association discovery

Tecniche di DM: Link analysis e Association discovery Tecniche di DM: Link analysis e Association discovery Vincenzo Antonio Manganaro vincenzomang@virgilio.it, www.statistica.too.it Indice 1 Architettura di un generico algoritmo di DM. 2 2 Regole di associazione:

Dettagli

MovieShot Motore Di Ricerca Per Film Basato Sul Riconoscimento Della Locandina

MovieShot Motore Di Ricerca Per Film Basato Sul Riconoscimento Della Locandina MovieShot Motore Di Ricerca Per Film Basato Sul Riconoscimento Della Locandina Giorgio Iacoboni Matricola 1099585 Anno Accademico 2010/2011 Outline Introduzione Image Matching Architettura di MovieShot

Dettagli

Il DataMining. Susi Dulli dulli@math.unipd.it

Il DataMining. Susi Dulli dulli@math.unipd.it Il DataMining Susi Dulli dulli@math.unipd.it Il Data Mining Il Data Mining è il processo di scoperta di relazioni, pattern, ed informazioni precedentemente sconosciute e potenzialmente utili, all interno

Dettagli

USO DI EXCEL COME DATABASE

USO DI EXCEL COME DATABASE USO DI EXCEL COME DATABASE Le funzionalità di calcolo intrinseche di un foglio di lavoro ne fanno uno strumento eccellente per registrarvi pochi dati essenziali, elaborarli con formule di vario tipo e

Dettagli

DATA MINING. Data mining. Obiettivo: estrarre informazione nascosta nei dati in modo da consentire decisioni strategiche

DATA MINING. Data mining. Obiettivo: estrarre informazione nascosta nei dati in modo da consentire decisioni strategiche DATA MINING datamining Data mining Obiettivo: estrarre informazione nascosta nei dati in modo da consentire decisioni strategiche Una materia interdisciplinare: - statistica, algoritmica, reti neurali

Dettagli

Sintesi di Reti Sequenziali Sincrone

Sintesi di Reti Sequenziali Sincrone LABORATORIO DI ARCHITETTURA DEI CALCOLATORI lezione n 9 Prof. Rosario Cerbone rosario.cerbone@uniparthenope.it a.a. 2007-2008 http://digilander.libero.it/rosario.cerbone Sintesi di Reti Sequenziali Sincrone

Dettagli

PROGETTAZIONE FISICA

PROGETTAZIONE FISICA PROGETTAZIONE FISICA Memorizzazione su disco, organizzazione di file e tecniche hash 2 Introduzione La collezione di dati che costituisce una BDD deve essere fisicamente organizzata su qualche supporto

Dettagli

TEORIA sulle BASI DI DATI

TEORIA sulle BASI DI DATI TEORIA sulle BASI DI DATI A cura del Prof. Enea Ferri Cos è un DATA BASE E un insieme di archivi legati tra loro da relazioni. Vengono memorizzati su memorie di massa come un unico insieme, e possono essere

Dettagli

Database. Si ringrazia Marco Bertini per le slides

Database. Si ringrazia Marco Bertini per le slides Database Si ringrazia Marco Bertini per le slides Obiettivo Concetti base dati e informazioni cos è un database terminologia Modelli organizzativi flat file database relazionali Principi e linee guida

Dettagli

Text mining ed analisi di dati codificati in linguaggio naturale. Analisi esplorative di dati testuali

Text mining ed analisi di dati codificati in linguaggio naturale. Analisi esplorative di dati testuali Text mining ed analisi di dati codificati in linguaggio naturale Analisi esplorative di dati testuali Il text mining: una definizione Data mining per dati destrutturati ovvero documenti codificati in linguaggio

Dettagli

Uso delle tabelle e dei grafici Pivot

Uso delle tabelle e dei grafici Pivot Uso delle tabelle e dei grafici Pivot 1 Una tabella Pivot usa dati a due dimensioni per creare una tabella a tre dimensioni, cioè una tabella riassuntiva basata su condizioni multiple che hanno punti di

Dettagli

Ci sono molti vantaggi nel mettere in relazione le

Ci sono molti vantaggi nel mettere in relazione le Capitolo 4 Relazioni tra tabelle 4.1 Definizione di una relazione 4.2 Visualizzazione e modifica delle relazioni 4.3 Stampa delle relazioni Ci sono molti vantaggi nel mettere in relazione le tabelle di

Dettagli

LUdeS Informatica 2 EXCEL. Seconda parte AA 2013/2014

LUdeS Informatica 2 EXCEL. Seconda parte AA 2013/2014 LUdeS Informatica 2 EXCEL Seconda parte AA 2013/2014 STAMPA Quando si esegue il comando FILE STAMPA, Excel manda alla stampante tutte le celle del foglio di lavoro corrente che hanno un contenuto. Il numero

Dettagli

Algoritmi di clustering

Algoritmi di clustering Algoritmi di clustering Dato un insieme di dati sperimentali, vogliamo dividerli in clusters in modo che: I dati all interno di ciascun cluster siano simili tra loro Ciascun dato appartenga a uno e un

Dettagli

Introduzione all analisi dei segnali digitali.

Introduzione all analisi dei segnali digitali. Introduzione all analisi dei segnali digitali. Lezioni per il corso di Laboratorio di Fisica IV Isidoro Ferrante A.A. 2001/2002 1 Segnali analogici Si dice segnale la variazione di una qualsiasi grandezza

Dettagli

CAPITOLO 4 LA CREAZIONE DI TABELLE D ATTIVITÀ E SCHEDE DI SPESA

CAPITOLO 4 LA CREAZIONE DI TABELLE D ATTIVITÀ E SCHEDE DI SPESA CAPITOO 4 A CREAZIONE DI TABEE D ATTIVITÀ E SCHEDE DI SPESA 55 A CREAZIONE DI TABEE D ATTIVITÀ E SCHEDE DI SPESA 57 Questo capitolo descrive l uso del Q per sviluppare budget e piani di lavoro basati sul

Dettagli

La prove dinamiche sugli edifici II parte strumentazione e analisi dei segnali

La prove dinamiche sugli edifici II parte strumentazione e analisi dei segnali La prove dinamiche sugli edifici II parte strumentazione e analisi dei segnali Luca Facchini e-mail: luca.facchini@unifi.it Introduzione Quali strumenti vengono utilizzati? Le grandezze di interesse nelle

Dettagli

l insieme delle misure effettuate costituisce il campione statistico

l insieme delle misure effettuate costituisce il campione statistico Statistica negli esperimenti reali si effettuano sempre un numero finito di misure, ( spesso molto limitato ) l insieme delle misure effettuate costituisce il campione statistico Statistica descrittiva

Dettagli

4. Matrici e Minimi Quadrati

4. Matrici e Minimi Quadrati & C. Di Natale: Matrici e sistemi di equazioni di lineari Formulazione matriciale del metodo dei minimi quadrati Regressione polinomiale Regressione non lineare Cross-validazione e overfitting Regressione

Dettagli

Matlab per applicazioni statistiche

Matlab per applicazioni statistiche Matlab per applicazioni statistiche Marco J. Lombardi 19 aprile 2005 1 Introduzione Il sistema Matlab è ormai uno standard per quanto riguarda le applicazioni ingegneristiche e scientifiche, ma non ha

Dettagli

I Modelli della Ricerca Operativa

I Modelli della Ricerca Operativa Capitolo 1 I Modelli della Ricerca Operativa 1.1 L approccio modellistico Il termine modello è di solito usato per indicare una costruzione artificiale realizzata per evidenziare proprietà specifiche di

Dettagli

Data mining e rischi aziendali

Data mining e rischi aziendali Data mining e rischi aziendali Antonella Ferrari La piramide delle componenti di un ambiente di Bi Decision maker La decisione migliore Decisioni Ottimizzazione Scelta tra alternative Modelli di apprendimento

Dettagli

Realizzazione e valutazione delle. tecniche di pattern recognition per. calcolatori. Claudio Mazzariello cmazzari@unina.it

Realizzazione e valutazione delle. tecniche di pattern recognition per. calcolatori. Claudio Mazzariello cmazzari@unina.it Realizzazione e valutazione delle prestazioni di un sistema basato su tecniche di pattern recognition per la rilevazione di attacchi a reti di calcolatori Claudio Mazzariello cmazzari@unina.it artimento

Dettagli

Statistiche campionarie

Statistiche campionarie Statistiche campionarie Sul campione si possono calcolare le statistiche campionarie (come media campionaria, mediana campionaria, varianza campionaria,.) Le statistiche campionarie sono stimatori delle

Dettagli

SCP: SCHEDULER LAYER. a cura di. Alberto Boccato

SCP: SCHEDULER LAYER. a cura di. Alberto Boccato SCP: SCHEDULER LAYER a cura di Alberto Boccato PREMESSA: Negli ultimi tre anni la nostra scuola ha portato avanti un progetto al quale ho partecipato chiamato SCP (Scuola di Calcolo Parallelo). Di fatto

Dettagli

LABORATORIO. 2 Lezioni su Basi di Dati Contatti:

LABORATORIO. 2 Lezioni su Basi di Dati Contatti: PRINCIPI DI INFORMATICA CORSO DI LAUREA IN SCIENZE BIOLOGICHE Gennaro Cordasco e Rosario De Chiara {cordasco,dechiara}@dia.unisa.it Dipartimento di Informatica ed Applicazioni R.M. Capocelli Laboratorio

Dettagli

Excel_2000 DataBase Capitolo 13. 13-1 - Introduzione

Excel_2000 DataBase Capitolo 13. 13-1 - Introduzione Capittol lo 13 DataBase 13-1 - Introduzione Il termine DATABASE è molto utilizzato, ma spesso in modo inappropriato; generalmente gli utenti hanno un idea di base di dati sbagliata: un database è una tabella

Dettagli

Regressione logistica. Strumenti quantitativi per la gestione

Regressione logistica. Strumenti quantitativi per la gestione Regressione logistica Strumenti quantitativi per la gestione Emanuele Taufer file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/4a_rlg.html#(1) 1/25 Metodi di classificazione I metodi usati per analizzare

Dettagli

Struttura logica di un programma

Struttura logica di un programma Struttura logica di un programma Tutti i programmi per computer prevedono tre operazioni principali: l input di dati (cioè l inserimento delle informazioni da elaborare) il calcolo dei risultati cercati

Dettagli

Esplorazione dei dati

Esplorazione dei dati Esplorazione dei dati Introduzione L analisi esplorativa dei dati evidenzia, tramite grafici ed indicatori sintetici, le caratteristiche di ciascun attributo presente in un dataset. Il processo di esplorazione

Dettagli

Validazione dei modelli Strumenti quantitativi per la gestione

Validazione dei modelli Strumenti quantitativi per la gestione Validazione dei modelli Strumenti quantitativi per la gestione Emanuele Taufer Validazione dei modelli Il data set Auto I dati Il problema analizzato Validation set approach Diagramma a dispersione Test

Dettagli

Clickomania con Blockly

Clickomania con Blockly Clickomania con Blockly Violetta Lonati Sommario Clickomania è un solitario, noto anche come Chain Shot! o Same Game. Il campo di gioco è costituito da una parete inizialmente coperta di mattoni, uno per

Dettagli

Obiettivi dell Analisi Numerica. Avviso. Risoluzione numerica di un modello. Analisi Numerica e Calcolo Scientifico

Obiettivi dell Analisi Numerica. Avviso. Risoluzione numerica di un modello. Analisi Numerica e Calcolo Scientifico M. Annunziato, DIPMAT Università di Salerno - Queste note non sono esaustive ai fini del corso p. 3/43 M. Annunziato, DIPMAT Università di Salerno - Queste note non sono esaustive ai fini del corso p.

Dettagli

Regressione logistica

Regressione logistica Regressione logistica Strumenti quantitativi per la gestione Emanuele Taufer Metodi di classificazione Tecniche principali Alcuni esempi Data set Default I dati La regressione logistica Esempio Il modello

Dettagli

La Metodologia adottata nel Corso

La Metodologia adottata nel Corso La Metodologia adottata nel Corso 1 Mission Statement + Glossario + Lista Funzionalià 3 Descrizione 6 Funzionalità 2 Schema 4 Schema 5 concettuale Logico EA Relazionale Codice Transazioni In PL/SQL Schema

Dettagli

CRM Deduplica. Deduplica automatica anagrafiche Vers. 1.3.1.7

CRM Deduplica. Deduplica automatica anagrafiche Vers. 1.3.1.7 CRM Deduplica Deduplica automatica anagrafiche Vers. 1.3.1.7 8 maggio 2009 Rev. Maggio 2013 La presente pubblicazione ha lo scopo di illustrare, in modo generale, i principi operativi del gestionale applicativo.

Dettagli

STATISTICA INFERENZIALE

STATISTICA INFERENZIALE STATISTICA INFERENZIALE Premessa importante: si ipotizza che il comportamento della popolazione rispetto ad una variabile casuale X viene descritto attraverso una funzione parametrica di probabilità p

Dettagli

Data Mining e Analisi dei Dati

Data Mining e Analisi dei Dati e Analisi dei Dati Rosaria Lombardo Dipartimento di Economia, Seconda Università di Napoli La scienza che estrae utili informazioni da grandi databases è conosciuta come E una disciplina nuova che interseca

Dettagli