Classificazione di un data set di proteine con Weka

Dimensione: px
Iniziare la visualizzazioe della pagina:

Download "Classificazione di un data set di proteine con Weka"

Transcript

1 MODELLI PROBABILISTICI Classificazione di un data set di proteine con Weka SOFIA CIVIDINI

2 2 INTRODUZIONE Negli ultimi due decenni si è assistito ad un aumento esponenziale nella quantità dell informazione o dati che è stata immagazzinata in formato elettronico. Si è stimato che la quantità di informazione nel mondo raddoppi ogni venti mesi e che la grandezza ed il numero dei database aumentino in modo sempre più veloce. Questo fatto si deve soprattutto: all incremento del potere e della velocità di calcolo degli attuali computer alla possibilità che essi hanno acquisito di avere supporti molto grandi per immagazzinare e memorizzare anche notevoli quantità di dati all introduzione di nuove tecniche che si affiancano ai tradizionali metodi di analisi statistica e di data retrieval e che permettono di estrarre conoscenza, cioè informazioni significative (di valore), in seguito all esplorazione di questi enormi volumi di dati. L insieme di queste tecniche prende il nome di Knowledge Discovery in DataBases o Data Mining (anche se con il termine data mining sarebbe meglio considerare una tappa della Knowledge Discovery in DataBases). La Knowledge Discovery in DataBases integra vari campi di ricerca (statistica, pattern recognition, machine learning, ecc.) ed è un processo analitico che è stato progettato per esplorare dati ed estrarne conoscenza in termini di associazioni, patterns, regole o sequenze ripetute che sono nascoste nei dati stessi e che non sono note a priori. CLASSIFICAZIONE. La classificazione è forse la tecnica di Data Mining più comunemente applicata e viene utilizzata per analizzare grandi quantità di dati in modo automatico o semiautomatico ed estrarne conoscenza; in particolare la classificazione estrae conoscenza a livello di variabili categoriche o classi, mentre quando si hanno variabili numeriche o continue si parla di Previsione. Di solito, si ha a che fare con grandi quantità di dati (commerciali, finanziari, scientifici, clinici, ecc.) che possono anche essere: INCOMPLETI mancano delle osservazioni RUMOROSI ci sono dei valori anomali INCONSISTENTI esistono codici differenti per lo stesso item

3 3 RIDONDANTI presenza della medesima informazione Quindi, i dati prima di essere sottoposti a Classificazione devono prima subire una fase di PREPROCESSING che consiste di vari passaggi: Data Cleaning i dati originali che provengono da fonti differenti vengono ripuliti per eliminare rumore e trattare i casi di dati mancanti Relevance Analysis serve per individuare quegli attributi che non sono rilevanti per l analisi oppure che sono ridondanti Data Transformation in questa fase, i dati vengono generalizzati a livelli concettuali più elevati oppure trasformati in modo da assumere valori in determinati intervalli (normalizzazione). Esistono due tipi di classificazione e cioè: CLASSIFICAZIONE SUPERVISIONATA in questo tipo di approccio, il valore di Class Label di ogni tupla di dati (training sample) è noto. Si parla di Supervised Learning. CLASSIFICAZIONE NON-SUPERVISIONATA in questo altro tipo di approccio invece non si dispone di casi etichettati e non si conosce nemmeno quante sono le classi o categorie da apprendere. Si parla di Unsupervised learning o Clustering. Nell ambito della Classificazione Supervisionata, il processo di Data Classification viene diviso in due fasi: 1) LEARNING viene costruito un modello che descrive un determinato insieme di classi in seguito all analisi di tuple di dati secondo i loro attributi 2) CLASSIFICATION il modello costruito viene utilizzato per classificare nuovi casi Disponendo di un data set di cui è noto, per ogni tupla di dati, il valore della class label, si può dividere questo data set in modo che una parte venga utilizzata come Training Set nella fase di Learning e l altra parte venga invece utilizzata come Test Set per verificare l accuratezza del classificatore prima di passare alla fase di Classification con un data set nuovo. Infatti, utilizzare gli stessi dati sia nella fase di apprendimento che nella fase di verifica della performance di un classificatore è molto pericoloso, perché si rischia l overfitting, cioè di avere stime troppo ottimistiche riguardanti la sua prestazione a livello dei nuovi casi. Esistono dei metodi (basati sulla randomizzazione) per dividere il data set di partenza e per stimare così l accuratezza di un classificatore. Sono i seguenti:

4 4 Cross-validation con questa metodica, il data set viene diviso, in modo casuale, in k-folds, cioè in k sottoinsiemi che in maniera esclusiva vengono utilizzati come Test Set ; il ciclo viene quindi ripetuto k volte. L accuratezza complessiva viene ottenuta sommando il numero dei casi correttamente classificati nelle k iterazioni e dividendo questa somma per il numero dei casi dell insieme di dati iniziale. Esempio: se viene fatta una cross-validation a 10 folds, il data set viene diviso in 10 parti; 9 parti vengono usate come Training Set ed 1 parte come Test Set e tutto questo viene ripetuto per 10 volte con un fold diverso ogni volta. Hold Out in questo caso, il data set iniziale viene di solito diviso in modo tale che 2/3 di esso vengano usati come Training Set ed il resto come Test Set; la stima che si ottiene è di solito pessimistica in quanto viene utilizzata una porzione dei dati fissa per ottenere il classificatore. Esempio: si può utilizzare il 66% del data set come Training set ed il restante 34% come Test Set. Esistono anche schemi particolari che possono migliorare la performance di un classificatore unendo tra di loro più classificatori in modo da ottenerne uno composto. Questi sono: il Bagging combina le classificazioni predette da modelli multipli o dallo stesso tipo di modello per differenti learning data. il Boosting vengono assegnati dei pesi ad ogni Training Set e si apprendono i classificatori in sequenza; il Boosting genererà una sequenza di classificatori dove ogni classificatore consecutivo nella sequenza diventa un esperto nelle osservazioni da classificare che non sono state ben classificate da quelli precedenti ad esso; le classificazioni fatte dai diversi classificatori possono poi essere combinate per ricavare la miglior classificazione in assoluto. Un classificatore può essere valutato in base a diversi parametri: a. Accuratezza nella classificazione b. Velocità di costruzione c. Velocità di esecuzione d. Robustezza (accuratezza in presenza di rumore o dati mancanti)

5 5 L Accuratezza di un classificatore rappresenta la percentuale di istanze classificate correttamente (cioè la cui classe predetta coincide con la classe reale) sul numero totale di istanze classificate. Esistono altri parametri che permettono di valutare un classificatore. Vediamoli in dettaglio negativo positivo a = negativo b = positivo Classe a: TP=565 FP=10 FN=330 Classe b: TP=841 FP=330 FN=10 La PRECISION è una misura di correttezza ed è uguale: Precision= True Positive/(True Positive + False positive) Esempio: precision classe negativa = 565/(565+10) = Più il numero dei FP è basso, maggiore è la Precision che si avvicina ad 1. La RECALL è una misura di completezza ed è uguale: Recall= True Positive/(True Positive + False Negative) Esempio: recall classe negativa = 565/( ) = Più il numero dei FN è basso, più la Recall si avvicina al massimo valore di 1. La F-MEASURE è uguale a: F-measure= 2*Recall*Precision/(Recall+Precision)

6 6 WEKA Weka è un open source software che è stato ideato dall Università di Waikato in Nuova Zelanda e rappresenta un estesa collezione di algoritmi di Machine Learning per lavori di Data Mining. Contiene strumenti per il pre-processing dei dati, per la classificazione e la regressione, per il clustering, per le regole di associazione e per la visualizzazione. Per il nostro lavoro di classificazione, abbiamo utilizzato per la maggior parte i classificatori presenti nella versione vecchia di Weka (3-2), mentre della versione più recente (3-4), abbiamo usato solo due classificatori e cioè JRip e AODE. Per analizzare il data set a disposizione, è stato usato l ambiente Explorer di Weka. Experimenter invece permette di mettere a confronto più modelli a partire da uno o più data set. Explorer possiede un set di pannelli, ognuno dei quali può essere adoperato per condurre un certo tipo di lavoro; questi sono elencati sotto: Figura 1; versione 3-2 Preprocess serve per importare e preparare i dati Classify serve per applicare ai dati gli algoritmi di classificazione o i modelli per la regressione (entrambi sono chiamati classifiers in Weka) Cluster serve per fare cluster analysis Associate serve per applicare algoritmi di apprendimento delle regole di associazione Select Attributes serve per selezionare sottogruppi di attributi per l analisi Visualize serve per visualizzare le proprietà grafiche dei dati Attraverso Open File nel pannello Preprocess, abbiamo caricato il nostro data set di proteine. Il file che era in un formato.xls è stato trasformato in.csv (comma separated values) affinchè potesse essere opportunamente riconosciuto da Weka, che a sua volta lo trasforma in formato.arff. Inoltre, abbiamo trasformato la classe da numerica in nominale per esigenze di software (come è spiegato

7 7 successivamente nella sezione risultati). Non è stato necessario sottoporre il data set a Preprocessing poiché non conteneva rumore o casi mancanti. Siamo nella sezione di Preprocess Figura 2 Questo è il nostro data set con 27 attributi, l ultimo dei quali rappresenta la classe. Il data set contiene 1746 istanze Come si può vedere dalla Figura 2, il data set ha 27 attributi di cui l ultimo rappresenta la classe e contiene 1746 istanze. Selezionando l attributo PROTEIN, nella finestra sulla destra si può notare che questa classe contiene due labels : negativo con 895 istanze e positivo con 851 istanze; la classe è di tipo nominale (Figura 3). Se invece selezioniamo un singolo attributo, per esempio Weight, nella finestra sulla destra ci appaiono le informazioni statistiche che lo riguardano come: minimo, massimo, media e deviazione standard (Figura 4).

8 8 Figura 3 Selezionando solamente l attributo Proteine, che corrisponde alla classe, si vede che esistono due Labels : negativo con 895 istanze e positivo con 851 istanze. Figura 4 Selezionando un attributo, a destra, si possono osservare le informazioni statistiche che lo riguardano come : massimo, minimo, media e deviazione standard.

9 9 Passiamo ora al pannello Classify. Weka possiede le implementazioni di tutte le principali tecniche di learning per la classificazione e per la regressione come: alberi di decisione, rule sets, classificatori Bayesiani, support vector machines, logistic and linear regression, multi-layer perceptron e metodi nearest-neighbour; contiene anche meta-classificatori per bagging e boosting. In questa sezione possiamo scegliere il tipo di classificatore da utilizzare, possiamo cambiarne eventualmente i parametri di default, applicare un certo tipo di filtro, scegliere il tipo di metodo con cui vogliamo valutare la performance del classificatore, ecc. (Figura 5). Nella sezione Classify, possiamo scegliere il tipo di classificatore, cambiarne eventualmente i paramentri di default, applicare o meno un filtro, scegliere il tipo di metodo con cui vogliamo valutare la performance del classificatore, ecc. Classificatore selezionato Questi parametri di default di IBk possono essere variati. Noi abbiamo cambiato il valore di KNN da 1 a 2, 5 e 12. Figura 5

10 10 Nella Figura 6, possiamo vedere il riquadro (Test options) dove scegliere il metodo per valutare la performance del classificatore precedentemente selezionato. Dopo avere fatto correre il programma per mezzo dell opzione Start, nella finestra grande a destra compare l output completo del classificatore con tutti i dettagli inerenti alla sua performance. In questo riquadro, si possono selezionare i metodi con cui si vuole valutare la performance del classificatore in esame. Noi abbiamo usato la Cross-validation e il Percentage split (detto anche Hold-out). Figura 6 In Weka, esiste anche un ulteriore opzione che permette di visualizzare gli alberi di decisione costruiti dai classificatori che si basano su questo tipo di algoritmo (Figura 7).

11 11 In Weka, esiste anche un opzione che dà la possibilità di visualizzare l albero di decisione costruito dal classificatore. Figura 7 COMMENTI AI RISULTATI WEKA Il data set che abbiamo analizzato è di proteine ed è costituito da 27 attributi per un totale di 1746 istanze complessive. I primi 26 attributi sono variabili che rappresentano delle caratteristiche strutturali o chimico-fisiche delle proteine in questione, mentre l ultimo attributo corrisponde alla Classe nella quale possiamo distinguere due labels class e cioè: -1 e +1. Per esigenze di software la classe è stata trasformata da numerica in nominale convertendo -1 in negativo e +1 in positivo. Inoltre, il file che contiene il data set è stato trasformato da file.xls a file.csv (comma separated values) che è un formato riconosciuto da Weka, il quale poi lo trasforma a sua volta in file.arff.

12 12 Per l analisi di classificazione sono stati utilizzati 18 classificatori presenti nella versione 3-2 di Weka e 2 classificatori presenti nella versione 3-4 di Weka che sono i seguenti: 1. ZeroR 2. DecisionStump 3. DecisionTable 4. HyperPipes 5. IB1 6. IBk 7. Id3 8. J48J48 9. J48Part 10. KernelDensity 11. K-Star 12. Naive Bayes Simple 13. Naive Bayes 14. OneR 15. Prism 16. AODE 17. JRip 18. VFI 19. ADTree 20. SMO Sono stati eseguiti 240 esperimenti in cui abbiamo analizzato la performance dei vari classificatori attraverso due metodi principali e cioè: Cross-validation Hold-out Per quanto riguarda la Cross-validation, abbiamo fatto per quasi tutti i classificatori tre esperimenti a 10 (valore di default), 6 e 3 folds, senza e con l applicazione di un filtro di discretizzazione. Per l Hold-out, abbiamo fatto tre esperimenti con un valore di training set pari al 66% (valore di default), all 80% e al 50% senza il filtro di discretizzazione, mentre con l applicazione del filtro abbiamo fatto solo un esperimento con il valore di default. Inoltre, abbiamo fatto prove con Cross-validation a 10 folds e Hold-out 66% aggiungendo il Bagging a quasi tutti i classificatori considerati per cercare di migliorarne la performance. Per DecisionStump, sono stati utilizzati anche due metaclassificatori per il Boosting e cioè AdaBoost e LogitBoost. Altri parametri sono stati variati rispetto a quelli di default anche per DecisionTable, IBk e NaiveBayes come verrà spiegato poi. Qui di seguito, riportiamo solo gli esperimenti che hanno dato i risultati migliori, mentre per gli output di tutti gli esperimenti fatti e i relativi

13 13 commenti si rimanda al file Risultati e commenti esperimenti eseguiti con Weka e alla Tabella riassuntiva. ZeroR Il Classificatore ZeroR assegna tutte le istanze alla classe di maggiore dimensione presente nel training-set senza mai considerare gli attributi di ciascuna istanza. Non ha molto senso usare questo schema per la classificazione, per cui gli esperimenti eseguiti con ZeroR ci servono solo come parametro di riferimento per la valutazione della performance dei classificatori considerati successivamente, nel senso che non si deve mai andare sotto il valore trovato con questo classificatore che dovrebbe rappresentare il peggior risultato possibile. Per questi motivi viene anche detto classificatore stupido. In tutti gli esperimenti eseguiti con ZeroR, questo classificatore assegna tutte le istanze del data set (n tot 1746) alla classe maggiormente rappresentata che nel nostro caso è quella negativa (-1) con 895 istanze contro le 851 della positiva (+1). La percentuale di istanze correttamente classificate da ZeroR è intorno al 51% circa. ZeroR cross-validation: 10 folds senza filtri Scheme: Test mode: weka.classifiers.zeror 10-fold cross-validation Correctly Classified Instances % Incorrectly Classified Instances % Kappa statistic 0 Mean absolute error Root mean squared error Relative absolute error % Root relative squared error % Total Number of Instances negativo positivo a = negativo b = positivo

14 14 DecisionStump Questa è una classe per la costruzione e l uso di un semplice albero di decisione a un livello binario (alberi di decisione a un livello) con un ramo extra per i valori persi. Esso produce probabilità di classe. Fa fronte ai valori persi estendendo un terzo ramo dall albero, in altre parole, trattando il valore perso come un attributo separato. Di solito viene utilizzato insieme agli algoritmi di Boosting. La miglior performance che abbiamo ottenuto con DecisionStump (88% di istanze correttamente classificate) si è avuta utilizzando il metodo Hold-out 80% senza filtro di discretizzazione ed associando il classificatore LogitBoost per il boosting. Per gli altri esperimenti condotti con l uso di LogitBoost, la percentuale di istanze correttamente classificate si è mantenuta compresa tra circa l 85 e l 86%. Usando invece AdaBoost come algoritmo di boosting, abbiamo ottenuto delle percentuali di istanze classificate in modo corretto un po inferiori rispetto a LogitBoost e cioè in media intorno all 82%, tranne nel caso di Hold-out 50% senza filtro dove si è raggiunto il valore di 84.19%. Senza l uso degli algoritmi di boosting, i risultati ottenuti nei rimanenti esperimenti sono compresi tra circa l 80.50% e l 81.90%. In linea generale, DecisionStump tende a commettere più errori nel classificare le istanze della classe positiva. Non c è un equa ripartizione delle istanze non correttamente classificate tra le due classi negativa e positiva. Vedi il file Risultati e commenti esperimenti eseguiti con Weka e la Tabella riassuntiva. DecisionStump+LogitBoost Hold-out: 80 % senza filtri Scheme: weka.classifiers.logitboost -P 100 -I 10 -W weka.classifiers.decisionstump -- Test mode: split 80% train, remainder test Correctly Classified Instances % Incorrectly Classified Instances % Kappa statistic Mean absolute error Root mean squared error Relative absolute error % Root relative squared error % Total Number of Instances 350

15 negativo positivo a = negativo b = positivo DecisionStump+AdaBoost cross-validation: 10 folds senza filtri Scheme: weka.classifiers.adaboostm1 -P 100 -I 10 -S 1 -W weka.classifiers.decisionstump -- Test mode: 10-fold cross-validation Correctly Classified Instances % Incorrectly Classified Instances % Kappa statistic Mean absolute error Root mean squared error Relative absolute error % Root relative squared error % Total Number of Instances negativo positivo a = negativo b = positivo DecisionTable Classificatore che costruisce e usa una semplice tabella di decisione. Decision Table adopera il wrapper method per trovare un buon sotto-insieme di attributi da includere nella tabella. Questo è fatto usando la prima migliore ricerca. La migliore percentuale di classificazione ottenuta con DecisionTable si è avuta usando il metodo Hold-out senza filtro di discretizzazione e settando il parametro useibk come true; si è così avuto l 87.04% di istanze correttamente classificate. Anche le rimanenti performance sono state comunque abbastanza buone con percentuali comprese tra l 84,48% e l 86,60%. Anche la ripartizione delle istanze

16 16 non correttamente classificate è stata equa tra le due classi negativa e positiva, il che ci indica che il classificatore commette la stessa percentuale di errore nel classificare entrambi i due tipi di proteine. DecisionTable Hold-out: 66% con useibk=true Scheme: weka.classifiers.decisiontable -X 1 -S 5 -I Test mode: split 66% train, remainder test Correctly Classified Instances % Incorrectly Classified Instances % Kappa statistic Mean absolute error Root mean squared error Relative absolute error % Root relative squared error % Total Number of Instances negativo positivo a = negativo b = positivo HyperPipes Implementazione di un classificatore HyperPipes. Per ogni categoria si costruisce un HyperPipes che contiene tutti i punti di quella categoria (essenzialmente registra i legami degli attributi osservati per ciascuna categoria). Le istanze-test sono classificate in accordo con la categoria che più contiene l istanza. Non manipola classi numeriche o valori persi nei casi-test. E un algoritmo molto semplice, ma ha il vantaggio di essere estremamente veloce. HyperPipes non ha mai dati buone percentuali di classificazione in nessun esperimento condotto. I suoi risultati sono equiparabili a quelli del classificatore ZeroR e non raggiungono mai valori superiori a circa il 63% (ottenuto con l uso di Bagging e Hold-out 66% senza filtro). Anche la distribuzione delle istanze non correttamente classificate tra le due classi negativa e positiva è pessima.

17 17 HyperPipes +Bagging Hold-out: 66% senza filtro Scheme: weka.classifiers.bagging -S 1 -I 10 -P 100 -W weka.classifiers.hyperpipes -- Test mode: split 66% train, remainder test Correctly Classified Instances % Incorrectly Classified Instances % Kappa statistic Mean absolute error Root mean squared error Relative absolute error % Root relative squared error % Total Number of Instances negativo positivo a = negativo b = positivo IB1 Il classificatore IB1 usa una semplice misura di distanza per trovare l istanza di training più vicina all istanza di test che viene considerata. Se ci sono più istanze di training con la medesima distanza (che deve essere la minore possibile) dall istanza di test, viene presa l istanza di training che è stata trovata per prima. IB1 è una semplice implementazione dell algoritmo di Nearest Neighbour (NNA). La distanza tra due campioni Xi e Xj può essere misurata attraverso una funzione Euclidea. IB1, insieme ad IBk, ha dato la miglior performance di classificazione in assoluto tra tutti i classificatori presi in considerazione raggiungendo una percentuale di istanze correttamente classificate pari al 93.93% nell esperimento in cui è stata usata la Cross-validation a 10 folds senza filtro di discretizzazione. Anche il corrispondente esperimento con Bagging non ha migliorato ulteriormente questa percentuale che è rimasta tale. Le prestazioni di IB1 sono sempre state superiori all 87% in tutti gli esperimenti condotti. Ottima anche la distribuzione delle istanze non correttamente classificate tra le due classi negativa e positiva.

18 18 IB1 cross-validation: 10 folds senza filtro Scheme: Test mode: weka.classifiers.ib1 10-fold cross-validation Correctly Classified Instances % Incorrectly Classified Instances % Kappa statistic Mean absolute error Root mean squared error Relative absolute error % Root relative squared error % Total Number of Instances negativo positivo a = negativo b = positivo IBk E un classificatore K-Nearest Neighbour. Estende IB1 usando una misura di distanza per trovare le k-istanze di training più vicine all istanza-test considerata. Questo algoritmo non ha una fase di training, i records esempio sono semplicemente immagazzinati. Nella fase di testing, un record non classificato è comparato con tutti i records immagazzinati fino a che si trova quello più vicino. Il record nuovo viene assegnato alla stessa classe di quello più vicino. Un estensione di questo classificatore è di usare più di un nearest neighbour, cosicché la class label sia calcolata in dipendenza da parecchi neighbours. Anche IBk, come il precedente IB1, ha data la miglior performance in assoluto tra tutti i classificatori adoperati con una percentuale del 93.93% nell esperimento condotto con il metodo della Cross-validation a 10 folds senza filtro di discretizzazione; d altro canto, IBk e IB1 sono molto simili tra loro e nel nostro esperimento, eseguito con parametri di default, il valore di k è settato ad 1 come per IB1. Anche in questo caso la percentuale di errore commessa nel classificare le istanze sbagliate è equivalente per entrambe le categorie proteiche. Anche nei

19 19 restanti esperimenti le percentuali di classificazioni corrette si mantengono sempre superiori all 88.89%. Per questo classificatore, abbiamo provato a variare anche il valore dei k-nearest neighbour portandolo da 1 a 2, 5 e 12; la percentuale delle istanze correttamente classificate però è stata inferiore a quella dei corrispondenti esperimenti con i parametri di default (tra 88.89% e 91.81%). Anche in questo caso, l aggiunta del Bagging non ha migliorato il risultato. IBk cross-validation: 10 folds senza filtro Scheme: weka.classifiers.ibk -K 1 -W 0 Test mode: 10-fold cross-validation Correctly Classified Instances % Incorrectly Classified Instances % Kappa statistic Mean absolute error Root mean squared error Relative absolute error % Root relative squared error % Total Number of Instances negativo positivo a = negativo b = positivo Id3 E un classificatore che costruisce un albero di decisione. Riconosce solo attributi nominali. Quindi, è necessario applicare un filtro di discretizzazione per poterlo usare con il nostro data set in cui gli attributi sono numerici. Questo classificatore non ha mai dato una buona performance poiché non è mai riuscito a classificare tutte le istanze (circa il 5-7.4% delle istanze non sono mai state classificate).

20 20 Id3 cross-validation: 10 folds con filtro di discretizzazione Scheme: weka.classifiers.filteredclassifier -B weka.classifiers.id3 -F "weka.filters.discretizefilter -B 10 -R first-last" Test mode: 10-fold cross-validation Correctly Classified Instances % Incorrectly Classified Instances % Kappa statistic Mean absolute error Root mean squared error Relative absolute error % Root relative squared error % UnClassified Instances % Total Number of Instances negativo positivo a = negativo b = positivo J48J48 L idea di questo algoritmo è di formare un albero di decisione attraverso il frazionamento dei dataset in pezzettini sempre più piccoli. Poi si può decidere come classificare un record seguendo l albero finché si arriva all estremità, dove si trova quale classe abbiamo. Con questo classificatore abbiamo ottenuto delle performance di classificazione molto buone con percentuali di istanze correttamente classificate superiori in generale a circa l 83% e con una punta massima del 90.74% usando il metodo Hold-out senza filtro con Bagging (l aggiunta del Bagging migliora del 5.22% la performance di J48J48 rispetto allo equivalente esperimento che è stato eseguito senza). Considerando tutti gli esperimenti, la distribuzione delle istanze non classificate in maniera corretta è abbastanza equa tra le due classi negativa e positiva.

21 21 J48J48+Bagging Hold-out: 66 % senza filtro Scheme: weka.classifiers.bagging -S 1 -I 10 -P 100 -W weka.classifiers.j48.j C M 2 Test mode: split 66% train, remainder test Correctly Classified Instances % Incorrectly Classified Instances % Kappa statistic Mean absolute error Root mean squared error Relative absolute error % Root relative squared error % Total Number of Instances negativo positivo a = negativo b = positivo J48PART Classe per generare una PART decision list. Induce regole if-then per le istanze di training date. PART ottiene regole da alberi di decisione costruiti parzialmente. La performance di J48Part è stata molto buona in quasi tutte le prove con un valore minimo di istanze correttamente classificate pari all 82.76% ed un valore massimo pari al 93.77%, che si è avuto con il metodo Hold-out 66% senza filtro e con Bagging. Buona anche la ripartizione tra le due classi delle istanze non correttamente classificate. J48Part+Bagging Hold-out: 66 % senza filtro Scheme: weka.classifiers.bagging -S 1 -I 10 -P 100 -W weka.classifiers.j48.part -- -C M 2 Test mode: split 66% train, remainder test Correctly Classified Instances % Incorrectly Classified Instances % Kappa statistic Mean absolute error

22 22 Root mean squared error Relative absolute error % Root relative squared error % Total Number of Instances negativo positivo a = negativo b = positivo KernelDensity E un classificatore kernel density molto semplice. KernelDensity è un ottimo classificatore perché in tutti gli esperimenti considerati ha sempre dato percentuali di classificazione superiori al 90.74% con anche un ottima distribuzione delle istanze non classificate correttamente tra le due classi proteiche negativa e positiva. La performance migliore si è ottenuta con il metodo della Cross-validation a 10 folds senza filtro di discretizzazione, dove si è raggiunta una percentuale del 93.64% di istanze correttamente classificate. Il Bagging non è stato applicato perché la classificazione diventava molto costosa in termini di tempo. KernelDensity cross-validation: 10 folds senza filtro Scheme: weka.classifiers.kerneldensity Test mode: 10-fold cross-validation Correctly Classified Instances % Incorrectly Classified Instances % Kappa statistic Mean absolute error Root mean squared error Relative absolute error % Root relative squared error % Total Number of Instances negativo positivo

C4.5 Algorithms for Machine Learning

C4.5 Algorithms for Machine Learning C4.5 Algorithms for Machine Learning C4.5 Algorithms for Machine Learning Apprendimento di alberi decisionali c4.5 [Qui93b,Qui96] Evoluzione di ID3, altro sistema del medesimo autore, J.R. Quinlan Ispirato

Dettagli

Realizzazione di un sistema predittivo dei risultati del campionato di calcio italiano di serie A 2006/2007

Realizzazione di un sistema predittivo dei risultati del campionato di calcio italiano di serie A 2006/2007 Realizzazione di un sistema predittivo dei risultati del campionato di calcio italiano di serie A 2006/2007 Docente Prof. Giuseppe Manco Studenti Matr.. 96803 Francesco Aiello Matr.. 94881 Vittorio Leo

Dettagli

Il guadagno informativo negli alberi decisionali: un nuovo approccio

Il guadagno informativo negli alberi decisionali: un nuovo approccio Il guadagno informativo negli alberi decisionali: un nuovo approccio Sommario Descrizione del problema... 2 Il guadagno informativo di Nanni... 3 Il software Weka... 3 Cos è Weka... 3 Il guadagno Informativo

Dettagli

DATA MINING PER IL MARKETING

DATA MINING PER IL MARKETING DATA MINING PER IL MARKETING Andrea Cerioli andrea.cerioli@unipr.it Sito web del corso GLI ALBERI DI CLASSIFICAZIONE Algoritmi di classificazione Zani-Cerioli, Cap. XI CHAID: Chi-square Automatic Interaction

Dettagli

PDF created with pdffactory trial version www.pdffactory.com. Il processo di KDD

PDF created with pdffactory trial version www.pdffactory.com. Il processo di KDD Il processo di KDD Introduzione Crescita notevole degli strumenti e delle tecniche per generare e raccogliere dati (introduzione codici a barre, transazioni economiche tramite carta di credito, dati da

Dettagli

Data Mining. Gabriella Trucco gabriella.trucco@unimi.it

Data Mining. Gabriella Trucco gabriella.trucco@unimi.it Data Mining Gabriella Trucco gabriella.trucco@unimi.it Perché fare data mining La quantità dei dati memorizzata su supporti informatici è in continuo aumento Pagine Web, sistemi di e-commerce Dati relativi

Dettagli

Lezione 8. Data Mining

Lezione 8. Data Mining Lezione 8 Data Mining Che cos'è il data mining? Data mining (knowledge discovery from data) Estrazione di pattern interessanti (non banali, impliciti, prima sconosciuti e potenzialmente utili) da enormi

Dettagli

SISTEMI INFORMATIVI AZIENDALI

SISTEMI INFORMATIVI AZIENDALI SISTEMI INFORMATIVI AZIENDALI Prof. Andrea Borghesan venus.unive.it/borg borg@unive.it Ricevimento: Alla fine di ogni lezione Modalità esame: scritto 1 Data Mining. Introduzione La crescente popolarità

Dettagli

Weka: Weikato university Environment for Knowledge Analysis

Weka: Weikato university Environment for Knowledge Analysis : Weikato university Environment for Knowledge Analysis Corso di Data e Text Mining Ing. Andrea Tagarelli Università della Calabria Acknowledgements: Salvatore Ruggieri, Dip. di Informatica, Univ. di Pisa

Dettagli

Tecniche di DM: Alberi di decisione ed algoritmi di classificazione

Tecniche di DM: Alberi di decisione ed algoritmi di classificazione Tecniche di DM: Alberi di decisione ed algoritmi di classificazione Vincenzo Antonio Manganaro vincenzomang@virgilio.it, www.statistica.too.it Indice 1 Concetti preliminari: struttura del dataset negli

Dettagli

Esperienze di Apprendimento Automatico per il corso di Intelligenza Artificiale

Esperienze di Apprendimento Automatico per il corso di Intelligenza Artificiale Esperienze di Apprendimento Automatico per il corso di lippi@dsi.unifi.it Dipartimento Sistemi e Informatica Università di Firenze Dipartimento Ingegneria dell Informazione Università di Siena Introduzione

Dettagli

Feature Selection per la Classificazione

Feature Selection per la Classificazione 1 1 Dipartimento di Informatica e Sistemistica Sapienza Università di Roma Corso di Algoritmi di Classificazione e Reti Neurali 20/11/2009, Roma Outline Feature Selection per problemi di Classificazione

Dettagli

Data Mining. KDD e Data Mining - Introduzione (1)

Data Mining. KDD e Data Mining - Introduzione (1) 1 Data Mining Corso di Metodi e Modelli per il Supporto alle Decisioni a.a. 2002-03 2 KDD e Data Mining - Introduzione (1) Crescita notevole degli strumenti e delle tecniche per generare e raccogliere

Dettagli

KNOWLEDGE DISCOVERY E DATA MINING

KNOWLEDGE DISCOVERY E DATA MINING KNOWLEDGE DISCOVERY E DATA MINING Prof. Dipartimento di Elettronica e Informazione Politecnico di Milano LE TECNOLOGIE DI GESTIONE DELL INFORMAZIONE DATA WAREHOUSE SUPPORTO ALLE DECISIONI DATA MINING ANALISI

Dettagli

Uno standard per il processo KDD

Uno standard per il processo KDD Uno standard per il processo KDD Il modello CRISP-DM (Cross Industry Standard Process for Data Mining) è un prodotto neutrale definito da un consorzio di numerose società per la standardizzazione del processo

Dettagli

Intelligenza Artificiale

Intelligenza Artificiale Intelligenza Artificiale Anno accademico 2008-2009 Information Retrieval: Text Categorization Una definizione formale Sia D il dominio dei documenti Sia C = {c 1,,c C } un insieme di categorie predefinite

Dettagli

ANALISI DEI DATI PER IL MARKETING 2014

ANALISI DEI DATI PER IL MARKETING 2014 ANALISI DEI DATI PER IL MARKETING 2014 Marco Riani mriani@unipr.it http://www.riani.it LA CLASSIFICAZIONE CAP IX, pp.367-457 Problema generale della scienza (Linneo, ) Analisi discriminante Cluster Analysis

Dettagli

Data mining. Vincenzo D Elia. vincenzo.delia@polito.it. DBDMG - Politecnico di Torino

Data mining. Vincenzo D Elia. vincenzo.delia@polito.it. DBDMG - Politecnico di Torino Data mining Vincenzo D Elia vincenzo.delia@polito.it DBDMG - Politecnico di Torino vincenzo.delia@polito.it Archivi Multimediali e Data Mining - p. 1 Rapid Miner vincenzo.delia@polito.it Archivi Multimediali

Dettagli

I vantaggi ottenibili nei campi applicativi attraverso l uso di tecniche di data mining

I vantaggi ottenibili nei campi applicativi attraverso l uso di tecniche di data mining Dipartimento di Informatica e Sistemistica I vantaggi ottenibili nei campi applicativi attraverso l uso di tecniche di data mining Renato Bruni bruni@dis.uniroma1.it Antonio Sassano sassano@dis.uniroma1.it

Dettagli

Il DataMining. Susi Dulli dulli@math.unipd.it

Il DataMining. Susi Dulli dulli@math.unipd.it Il DataMining Susi Dulli dulli@math.unipd.it Il Data Mining Il Data Mining è il processo di scoperta di relazioni, pattern, ed informazioni precedentemente sconosciute e potenzialmente utili, all interno

Dettagli

DATA MINING. Data mining. Obiettivo: estrarre informazione nascosta nei dati in modo da consentire decisioni strategiche

DATA MINING. Data mining. Obiettivo: estrarre informazione nascosta nei dati in modo da consentire decisioni strategiche DATA MINING datamining Data mining Obiettivo: estrarre informazione nascosta nei dati in modo da consentire decisioni strategiche Una materia interdisciplinare: - statistica, algoritmica, reti neurali

Dettagli

Aprire WEKA Explorer Caricare il file circletrain.arff Selezionare random split al 66% come modalità di test Selezionare J48 come classificatore e

Aprire WEKA Explorer Caricare il file circletrain.arff Selezionare random split al 66% come modalità di test Selezionare J48 come classificatore e Alberi di decisione Aprire WEKA Explorer Caricare il file circletrain.arff Selezionare random split al 66% come modalità di test Selezionare J48 come classificatore e lanciarlo con i parametri di default.

Dettagli

Regressione non lineare con un modello neurale feedforward

Regressione non lineare con un modello neurale feedforward Reti Neurali Artificiali per lo studio del mercato Università degli studi di Brescia - Dipartimento di metodi quantitativi Marco Sandri (sandri.marco@gmail.com) Regressione non lineare con un modello neurale

Dettagli

Tecniche di DM: Link analysis e Association discovery

Tecniche di DM: Link analysis e Association discovery Tecniche di DM: Link analysis e Association discovery Vincenzo Antonio Manganaro vincenzomang@virgilio.it, www.statistica.too.it Indice 1 Architettura di un generico algoritmo di DM. 2 2 Regole di associazione:

Dettagli

Intelligenza Artificiale

Intelligenza Artificiale Intelligenza Artificiale Anno accademico 2008-2009 Machine Learning: Classificazione e Predizione Sommario Classificazione e Predizione Classificatori Separate and Conquer (PRISM) Classificatori Bayesiani

Dettagli

4. Matrici e Minimi Quadrati

4. Matrici e Minimi Quadrati & C. Di Natale: Matrici e sistemi di equazioni di lineari Formulazione matriciale del metodo dei minimi quadrati Regressione polinomiale Regressione non lineare Cross-validazione e overfitting Regressione

Dettagli

Computazione per l interazione naturale: macchine che apprendono

Computazione per l interazione naturale: macchine che apprendono Computazione per l interazione naturale: macchine che apprendono Corso di Interazione Naturale! Prof. Giuseppe Boccignone! Dipartimento di Informatica Università di Milano! boccignone@di.unimi.it boccignone.di.unimi.it/in_2015.html

Dettagli

Reti neurali nel Data Mining, altre tecniche utilizzate nel DM e valutazione dei modelli.

Reti neurali nel Data Mining, altre tecniche utilizzate nel DM e valutazione dei modelli. Reti neurali nel Data Mining, altre tecniche utilizzate nel DM e valutazione dei modelli. Vincenzo Antonio Manganaro vincenzomang@virgilio.it, www.statistica.too.it Indice 1 Utilizzo di reti neurali nel

Dettagli

Statistical learning Strumenti quantitativi per la gestione

Statistical learning Strumenti quantitativi per la gestione Statistical learning Strumenti quantitativi per la gestione Emanuele Taufer Vendite Simbologia Reddito Statistical learning A cosa ci serve f? 1 Previsione 2 Inferenza Previsione Errore riducibile e errore

Dettagli

Data mining e rischi aziendali

Data mining e rischi aziendali Data mining e rischi aziendali Antonella Ferrari La piramide delle componenti di un ambiente di Bi Decision maker La decisione migliore Decisioni Ottimizzazione Scelta tra alternative Modelli di apprendimento

Dettagli

PAROLE CHIAVE: Weka Data Mining Graingenes Cerealab

PAROLE CHIAVE: Weka Data Mining Graingenes Cerealab PAROLE CHIAVE: Weka Data Mining Graingenes Cerealab INDICE Introduzione... 9 1. Il progetto Pentaho... 12 1.1 Pentaho Business Intelligence... 12 1.1.1 Componenti del progetto Pentaho... 13 1.2 WEKA Data

Dettagli

Dai dati al modello teorico

Dai dati al modello teorico Dai dati al modello teorico Analisi descrittiva univariata in R 1 Un po di terminologia Popolazione: (insieme dei dispositivi che verranno messi in produzione) finito o infinito sul quale si desidera avere

Dettagli

Analisi dei requisiti e casi d uso

Analisi dei requisiti e casi d uso Analisi dei requisiti e casi d uso Indice 1 Introduzione 2 1.1 Terminologia........................... 2 2 Modello del sistema 4 2.1 Requisiti hardware........................ 4 2.2 Requisiti software.........................

Dettagli

Sistemi Informativi Multimediali Indicizzazione multidimensionale

Sistemi Informativi Multimediali Indicizzazione multidimensionale Indicizzazione nei sistemi di IR (1) Sistemi Informativi Multimediali Indicizzazione multidimensionale ugusto elentano Università a Foscari Venezia La struttura fondamentale di un sistema di information

Dettagli

AIR MILES un case study di customer segmentation

AIR MILES un case study di customer segmentation AIR MILES un case study di customer segmentation Da: G. Saarenvirta, Mining customer data, DB2 magazine on line, 1998 http://www.db2mag.com/db_area/archives/1998/q3/ 98fsaar.shtml Customer clustering &

Dettagli

Università degli studi di Genova

Università degli studi di Genova Università degli studi di Genova Facoltà di Ingegneria TESI DI LAUREA Sviluppo di un modulo ad elevate prestazioni per Data Mining con SQL Server Relatore: Prof. Ing. Davide Anguita Correlatore: Dott.

Dettagli

matematicamente.it Numero 9 Maggio 2009

matematicamente.it Numero 9 Maggio 2009 112. Data ining: esplorando le miniere alla ricerca della conoscenza nascosta Clustering con l algoritmo k-means di Gaetano Zazzaro 1 L uomo è confinato nei limiti angusti del corpo, come in una prigione,

Dettagli

DATA MINING IN TIME SERIES

DATA MINING IN TIME SERIES Modellistica e controllo dei sistemi ambientali DATA MINING IN TIME SERIES 01 Dicembre 2009 Dott. Ing.. Roberto Di Salvo Dipartimento di Ingegneria Elettrica Elettronica e dei Sistemi Anno Accademico 2009-2010

Dettagli

Introduzione al Data Mining Parte 1

Introduzione al Data Mining Parte 1 Introduzione al Data Mining Parte 1 Corso di Laurea Specialistica in Ingegneria Informatica II Facoltà di Ingegneria, sede di Cesena (a.a. 2009/2010) Prof. Gianluca Moro Dipartimento di Elettronica, Informatica

Dettagli

Predizione della struttura terziaria

Predizione della struttura terziaria Predizione della struttura terziaria Metodi di predizione La predizione della struttura tridimensionale è di gran lunga la predizione più complessa che si possa fare su una proteina. Esistono 3 metodi

Dettagli

Il data mining. di Alessandro Rezzani

Il data mining. di Alessandro Rezzani Il data mining di Alessandro Rezzani Cos è il data mining.... 2 Knowledge Discovery in Databases (KDD)... 3 Lo standard CRISP-DM... 4 La preparazione dei dati... 7 Costruzione del modello... 7 Attività

Dettagli

CAPITOLO 3 Previsione

CAPITOLO 3 Previsione CAPITOLO 3 Previsione 3.1 La previsione I sistemi evoluti, che apprendono le regole di funzionamento attraverso l interazione con l ambiente, si rivelano una risorsa essenziale nella rappresentazione di

Dettagli

Analisi dei dati MLPA con il nuovo Coffalyser.NET. MRC-Holland

Analisi dei dati MLPA con il nuovo Coffalyser.NET. MRC-Holland Analisi dei dati MLPA con il nuovo Coffalyser.NET MRC-Holland Contenuti Che cos è il Coffalyser.NET Analisi dei frammenti e del Copy number Interpretazione dei dati Che cos è il Cofffalyser.NET Software

Dettagli

CORSO ACCESS PARTE II. Esistono diversi tipi di aiuto forniti con Access, generalmente accessibili tramite la barra dei menu (?)

CORSO ACCESS PARTE II. Esistono diversi tipi di aiuto forniti con Access, generalmente accessibili tramite la barra dei menu (?) Ambiente Access La Guida di Access Esistono diversi tipi di aiuto forniti con Access, generalmente accessibili tramite la barra dei menu (?) Guida in linea Guida rapida Assistente di Office indicazioni

Dettagli

Predire la struttura terziaria

Predire la struttura terziaria Predire la struttura terziaria E di gran lunga la predizione più complessa che si possa fare su una proteina. Esistono 3 metodi principali di predizione: 1 - Homology modelling: se si conoscono proteine

Dettagli

Elementi di Statistica

Elementi di Statistica Elementi di Statistica Contenuti Contenuti di Statistica nel corso di Data Base Elementi di statistica descrittiva: media, moda, mediana, indici di dispersione Introduzione alle variabili casuali e alle

Dettagli

Backpropagation in MATLAB

Backpropagation in MATLAB Modello di neurone BACKPROPAGATION Backpropagation in MATLAB Prof. Beatrice Lazzerini Dipartimento di Ingegneria dell Informazione Via Diotisalvi 2, 56122 Pisa La funzione di trasferimento, che deve essere

Dettagli

Istituto Angioy Informatica BASI DI DATI. Prof. Ciaschetti

Istituto Angioy Informatica BASI DI DATI. Prof. Ciaschetti Istituto Angioy Informatica BASI DI DATI Prof. Ciaschetti Introduzione e prime definizioni Una Base di dati o Database è un archivio elettronico opportunamente organizzato per reperire in modo efficiente

Dettagli

1. Aspetti di Marketing... 3 Obiettivi... 3 Esempi... 4 2. Aspetti Applicativi... 4 Obiettivi... 4. 3. Aspetti Prestazionali... 4

1. Aspetti di Marketing... 3 Obiettivi... 3 Esempi... 4 2. Aspetti Applicativi... 4 Obiettivi... 4. 3. Aspetti Prestazionali... 4 Pagina 2 1. Aspetti di Marketing... 3 Obiettivi... 3 Esempi... 4 2. Aspetti Applicativi... 4 Obiettivi... 4 Esempi... 4 3. Aspetti Prestazionali... 4 Obiettivi... 4 Esempi... 4 4. Gestione del Credito

Dettagli

Database. Organizzazione di archivi mediante basi di dati. ing. Alfredo Cozzi 1

Database. Organizzazione di archivi mediante basi di dati. ing. Alfredo Cozzi 1 Database Organizzazione di archivi mediante basi di dati ing. Alfredo Cozzi 1 Il database è una collezione di dati logicamente correlati e condivisi, che ha lo scopo di soddisfare i fabbisogni informativi

Dettagli

Impiego di classificatori nell analisi di immagini

Impiego di classificatori nell analisi di immagini Impiego di classificatori nell analisi di immagini Davide Devescovi 1 La classificazione Con il termine classificazione si intende una procedura statistica che permette di associare ciascun oggetto (che

Dettagli

Introduzione al Data Mining

Introduzione al Data Mining Introduzione al Data Mining Sistemi informativi per le Decisioni Slide a cura di Prof. Claudio Sartori Evoluzione della tecnologia dell informazione (IT) (Han & Kamber, 2001) Percorso evolutivo iniziato

Dettagli

TECNICHE AVANZATE DI I/O. Al loro livello più basso, tutti i file scritti sull hard disk. Training per esperti SU FILE

TECNICHE AVANZATE DI I/O. Al loro livello più basso, tutti i file scritti sull hard disk. Training per esperti SU FILE Training per esperti TECNICHE AVANZATE DI I/O SU FILE Spesso, la decisione di dividere in processi differenti la produzione dei dati dall uso degli stessi viene presa perché occorre scrivere i dati su

Dettagli

Distributed P2P Data Mining. Autore: Elia Gaglio (matricola n 809477) Corso di Sistemi Distribuiti Prof.ssa Simonetta Balsamo

Distributed P2P Data Mining. Autore: Elia Gaglio (matricola n 809477) Corso di Sistemi Distribuiti Prof.ssa Simonetta Balsamo Distributed P2P Data Mining Autore: (matricola n 809477) Corso di Sistemi Distribuiti Prof.ssa Simonetta Balsamo A.A. 2005/2006 Il settore del Data Mining Distribuito (DDM): Data Mining: cuore del processo

Dettagli

Apprendimento Automatico

Apprendimento Automatico Metodologie per Sistemi Intelligenti Apprendimento Automatico Prof. Pier Luca Lanzi Laurea in Ingegneria Informatica Politecnico di Milano Polo regionale di Como Intelligenza Artificiale "making a machine

Dettagli

Analisi discriminante

Analisi discriminante Capitolo 6 Analisi discriminante L analisi statistica multivariata comprende un corpo di metodologie statistiche che permettono di analizzare simultaneamente misurazioni riguardanti diverse caratteristiche

Dettagli

70555 Informatica 3 70777 Sicurezza 2. 70555 Mario Rossi 70777 Anna Bianchi. Esempio istanza:

70555 Informatica 3 70777 Sicurezza 2. 70555 Mario Rossi 70777 Anna Bianchi. Esempio istanza: DOMANDE 1) Definire i concetti di schema e istanza di una base di dati, fornendo anche un esempio. Si definisce schema di una base di dati, quella parte della base di dati stessa che resta sostanzialmente

Dettagli

Data Mining per la Business Intelligence

Data Mining per la Business Intelligence Data Mining per la Business Intelligence Casi di studio M. Nanni, KDD Lab, ISTI-CNR, Pisa Draft 18-04-2006 2 Indice 1 Customer Segmentation 5 1.1 Obiettivi................................ 5 1.2 Processo

Dettagli

Introduzione. Il principio di localizzazione... 2 Organizzazioni delle memorie cache... 4 Gestione delle scritture in una cache...

Introduzione. Il principio di localizzazione... 2 Organizzazioni delle memorie cache... 4 Gestione delle scritture in una cache... Appunti di Calcolatori Elettronici Concetti generali sulla memoria cache Introduzione... 1 Il principio di localizzazione... 2 Organizzazioni delle memorie cache... 4 Gestione delle scritture in una cache...

Dettagli

IL COMPONENTE DATA MINING MODEL DEL PROGETTO

IL COMPONENTE DATA MINING MODEL DEL PROGETTO IL COMPONENTE DATA MINING MODEL DEL PROGETTO Relatore: prof. Anna Corazza Tutor Aziendale: dr. Massimo Brescia 1 PROGETTO DAME (DAta Mining& Exploration) Progettazione di web application per effettuare

Dettagli

Corso di Laurea Ingegneria Informatica Fondamenti di Informatica

Corso di Laurea Ingegneria Informatica Fondamenti di Informatica Corso di Laurea Ingegneria Informatica Fondamenti di Informatica Dispensa 05 La rappresentazione dell informazione Carla Limongelli Ottobre 2011 http://www.dia.uniroma3.it/~java/fondinf/ La rappresentazione

Dettagli

Abbiamo visto due definizioni del valore medio e della deviazione standard di una grandezza casuale, in funzione dalle informazioni disponibili:

Abbiamo visto due definizioni del valore medio e della deviazione standard di una grandezza casuale, in funzione dalle informazioni disponibili: Incertezze di misura Argomenti: classificazione delle incertezze; definizione di incertezza tipo e schemi di calcolo; schemi per il calcolo dell incertezza di grandezze combinate; confronto di misure affette

Dettagli

Quick Introduction T-LAB 9.1. Strumenti per l Analisi dei Testi. Marzo 2014. Copyright 2001-2014 T-LAB by Franco Lancia All rights reserved.

Quick Introduction T-LAB 9.1. Strumenti per l Analisi dei Testi. Marzo 2014. Copyright 2001-2014 T-LAB by Franco Lancia All rights reserved. T-LAB 9.1 Marzo 2014 Quick Introduction Strumenti per l Analisi dei Testi Copyright 2001-2014 T-LAB by Franco Lancia All rights reserved. Website: http://www.tlab.it/ E-mail: info@tlab.it T-LAB is a registered

Dettagli

Text mining ed analisi di dati codificati in linguaggio naturale. Analisi esplorative di dati testualilezione

Text mining ed analisi di dati codificati in linguaggio naturale. Analisi esplorative di dati testualilezione Text mining ed analisi di dati codificati in linguaggio naturale Analisi esplorative di dati testualilezione 2 Le principali tecniche di analisi testuale Facendo riferimento alle tecniche di data mining,

Dettagli

Descrizione... 3 Comprensione del Processo Produttivo... 3. Definizione del Problema... 4. Selezione delle Caratteristiche... 5. Box Plot...

Descrizione... 3 Comprensione del Processo Produttivo... 3. Definizione del Problema... 4. Selezione delle Caratteristiche... 5. Box Plot... Pagina 2 Descrizione... 3 Comprensione del Processo Produttivo... 3 Definizione del Problema... 4 Selezione delle Caratteristiche... 5 Box Plot... 6 Scatterplot... 6 Box Plot... 7 Scatterplot... 7 Alberi

Dettagli

Introduzione al Data Mining

Introduzione al Data Mining Introduzione al Data Mining Prof. Matteo Golfarelli Alma Mater Studiorum - Università di Bologna Modalità didattiche e materiale Lezioni in aula e in laboratorio utilizzando il software open source Weka

Dettagli

Data Mining e Analisi dei Dati

Data Mining e Analisi dei Dati e Analisi dei Dati Rosaria Lombardo Dipartimento di Economia, Seconda Università di Napoli La scienza che estrae utili informazioni da grandi databases è conosciuta come E una disciplina nuova che interseca

Dettagli

Indice-sommario INDICE SOMMARIO CAPITOLO I LE MATRICI DEI DATI E LE ANALISI UNIVARIATE

Indice-sommario INDICE SOMMARIO CAPITOLO I LE MATRICI DEI DATI E LE ANALISI UNIVARIATE VII INDICE SOMMARIO Prefazione... xv CAPITOLO I LE MATRICI DEI DATI E LE ANALISI UNIVARIATE 1. Analisi dei dati e data mining... 1 2. La matrice dei dati «unità pervariabili»... 6 3. Idatiricavatidaun

Dettagli

Design of Experiments

Design of Experiments Design of Experiments Luigi Amedeo Bianchi 1 Introduzione Cominciamo spiegando cosa intendiamo con esperimento, ossia l investigare un processo cambiando i dati in ingresso, osservando i cambiamenti che

Dettagli

Strutture dati efficienti per la ricerca della similarità

Strutture dati efficienti per la ricerca della similarità Strutture dati efficienti per la ricerca della similarità Anche utilizzando i metodi di filtraggio visti in precedenza, il numero di confronti tra query e oggetti presenti nel database rimane alto. L efficienza

Dettagli

Suggerimenti per l approccio all analisi dei dati multivariati

Suggerimenti per l approccio all analisi dei dati multivariati Suggerimenti per l approccio all analisi dei dati multivariati Definizione degli obbiettivi Il primo passo è la definizione degli obbiettivi. Qual è l obbiettivo della sperimentazione i cui dati dovete

Dettagli

Data warehousing Mario Guarracino Data Mining a.a. 2010/2011

Data warehousing Mario Guarracino Data Mining a.a. 2010/2011 Data warehousing Introduzione A partire dagli anni novanta è risultato chiaro che i database per i DSS e le analisi di business intelligence vanno separati da quelli operazionali. In questa lezione vedremo

Dettagli

CRM Deduplica. Deduplica automatica anagrafiche Vers. 1.3.1.7

CRM Deduplica. Deduplica automatica anagrafiche Vers. 1.3.1.7 CRM Deduplica Deduplica automatica anagrafiche Vers. 1.3.1.7 8 maggio 2009 Rev. Maggio 2013 La presente pubblicazione ha lo scopo di illustrare, in modo generale, i principi operativi del gestionale applicativo.

Dettagli

Presentazione. Risorse Web. Metodi Statistici 1

Presentazione. Risorse Web. Metodi Statistici 1 I-XVI Romane_ 27-10-2004 14:25 Pagina VII Prefazione Risorse Web XI XIII XVII Metodi Statistici 1 Capitolo 1 Tecniche Statistiche 3 1.1 Probabilità, Variabili Casuali e Statistica 3 1.1.1 Introduzione

Dettagli

CRM DEDUPLICA. Deduplica e Normalizzazione dei clienti doppi... o simili. Validità: Settembre 2014

CRM DEDUPLICA. Deduplica e Normalizzazione dei clienti doppi... o simili. Validità: Settembre 2014 CRM DEDUPLICA Deduplica e Normalizzazione dei clienti doppi... o simili Validità: Settembre 2014 Questa pubblicazione è puramente informativa. SISECO non offre alcuna garanzia, esplicita od implicita,

Dettagli

EXCEL PER WINDOWS95. sfruttare le potenzialità di calcolo dei personal computer. Essi si basano su un area di lavoro, detta foglio di lavoro,

EXCEL PER WINDOWS95. sfruttare le potenzialità di calcolo dei personal computer. Essi si basano su un area di lavoro, detta foglio di lavoro, EXCEL PER WINDOWS95 1.Introduzione ai fogli elettronici I fogli elettronici sono delle applicazioni che permettono di sfruttare le potenzialità di calcolo dei personal computer. Essi si basano su un area

Dettagli

Microsoft SQL Server Integration Services

Microsoft SQL Server Integration Services Sistemi Informativi Dott.ssa Elisa Turricchia Alma Mater Studiorum - Università di Bologna elisa.turricchia2@unibo.it 1 Microsoft SQL Server Integration Services 1 SQL Server Integration Services SSIS

Dettagli

Database. Si ringrazia Marco Bertini per le slides

Database. Si ringrazia Marco Bertini per le slides Database Si ringrazia Marco Bertini per le slides Obiettivo Concetti base dati e informazioni cos è un database terminologia Modelli organizzativi flat file database relazionali Principi e linee guida

Dettagli

Strumenti informatici 2.3 - Le statistiche descrittive con Excel e SPSS

Strumenti informatici 2.3 - Le statistiche descrittive con Excel e SPSS Strumenti informatici 2.3 - Le statistiche descrittive con Excel e SPSS Per ottenere le statistiche descrittive di una o più variabili in Excel occorre utilizzare le funzioni, che sono operatori matematici,

Dettagli

Regressione Mario Guarracino Data Mining a.a. 2010/2011

Regressione Mario Guarracino Data Mining a.a. 2010/2011 Regressione Esempio Un azienda manifatturiera vuole analizzare il legame che intercorre tra il volume produttivo X per uno dei propri stabilimenti e il corrispondente costo mensile Y di produzione. Volume

Dettagli

Preprocessamento dei Dati

Preprocessamento dei Dati Preprocessamento dei Dati Raramente i dati sperimentali sono pronti per essere utilizzati immediatamente per le fasi successive del processo di identificazione, a causa di: Offset e disturbi a bassa frequenza

Dettagli

Il clustering. Sistemi Distribuiti 2002/2003

Il clustering. Sistemi Distribuiti 2002/2003 Il clustering Sistemi Distribuiti 2002/2003 Introduzione In termini generali, un cluster è un gruppo di sistemi indipendenti che funzionano come un sistema unico Un client interagisce con un cluster come

Dettagli

E-marketing Intelligence e personalizzazione

E-marketing Intelligence e personalizzazione E-marketing Intelligence e personalizzazione Nel mondo degli affari di oggi comprendere e sfruttare il potere delle 4 P del marketing (product, price, place e promotion) è diventato uno dei fattori più

Dettagli

Cluster Analysis. Paese Cereali (Ce) Riso (R) Patate (P) Zucchero (Z) Verdure (Ver) Vino (Vi) Carne (Ca) Latte (L) Burro (B) Uova (U)

Cluster Analysis. Paese Cereali (Ce) Riso (R) Patate (P) Zucchero (Z) Verdure (Ver) Vino (Vi) Carne (Ca) Latte (L) Burro (B) Uova (U) Analysis Esempio Stiamo studiando le abitudini alimentari nei Paesi europei. Sulla base dei dati a disposizione, ci chiediamo se si possano individuare sotto-aree con abitudini alimentari simili. Dati:

Dettagli

DBMS (Data Base Management System)

DBMS (Data Base Management System) Cos'è un Database I database o banche dati o base dati sono collezioni di dati, tra loro correlati, utilizzati per rappresentare una porzione del mondo reale. Sono strutturati in modo tale da consentire

Dettagli

Facoltà di Psicologia - Corso FSE gennaio febbraio 2010. Marco Vicentini info@marcovicentini.it

Facoltà di Psicologia - Corso FSE gennaio febbraio 2010. Marco Vicentini info@marcovicentini.it Facoltà di Psicologia - Corso FSE gennaio febbraio 2010 Marco Vicentini info@marcovicentini.it Statistica e Psicologia Quali statistiche per la psicologia? Quali programmi per la statistica? Codifica e

Dettagli

Prefazione all edizione originale. Prefazione all edizione italiana

Prefazione all edizione originale. Prefazione all edizione italiana Indice Prefazione all edizione originale Prefazione all edizione italiana xiii xv 1 Il miglioramento della qualità nel moderno ambiente produttivo 1 1.1 Significato dei termini qualità e miglioramento

Dettagli

Indagini statistiche attraverso i social networks

Indagini statistiche attraverso i social networks Indagini statistiche attraverso i social networks Agostino Di Ciaccio Dipartimento di Scienze Statistiche Università degli Studi di Roma "La Sapienza" SAS Campus 2012 1 Diffusione dei social networks Secondo

Dettagli

Data warehouse. Architettura complessiva con OLTP e OLAP OLTP. Sistemi di supporto alle decisioni

Data warehouse. Architettura complessiva con OLTP e OLAP OLTP. Sistemi di supporto alle decisioni Data warehouse Data warehouse La crescita dell importanza dell analisi dei dati ha portato ad una separazione architetturale dell ambiente transazionale (OLTP on-line transaction processing) da quello

Dettagli

(accuratezza) ovvero (esattezza)

(accuratezza) ovvero (esattezza) Capitolo n 2 2.1 - Misure ed errori In un analisi chimica si misurano dei valori chimico-fisici di svariate grandezze; tuttavia ogni misura comporta sempre una incertezza, dovuta alla presenza non eliminabile

Dettagli

SEGMENTAZIONE INNOVATIVA VS TRADIZIONALE

SEGMENTAZIONE INNOVATIVA VS TRADIZIONALE SEGMENTAZIONE INNOVATIVA VS TRADIZIONALE Arricchimento dei dati del sottoscrittore / user Approccio Tradizionale Raccolta dei dati personali tramite contratto (professione, dati sul nucleo familiare, livello

Dettagli

Indice. 1 Rappresentazione dei dati... 3

Indice. 1 Rappresentazione dei dati... 3 INSEGNAMENTO DI INFORMATICA DI BASE LEZIONE II CODIFICA DELL'INFORMAZIONE PROF. GIOVANNI ACAMPORA Indice 1 Rappresentazione dei dati... 3 1.1. Rappresentazione dei numeri... 3 1.1.1 Rappresentazione del

Dettagli

Progettazione di Basi di Dati

Progettazione di Basi di Dati Progettazione di Basi di Dati Prof. Nicoletta D Alpaos & Prof. Andrea Borghesan Entità-Relazione Progettazione Logica 2 E il modo attraverso il quale i dati sono rappresentati : fa riferimento al modello

Dettagli

Altri metodi di indicizzazione

Altri metodi di indicizzazione Organizzazione a indici su più livelli Altri metodi di indicizzazione Al crescere della dimensione del file l organizzazione sequenziale a indice diventa inefficiente: in lettura a causa del crescere del

Dettagli

Clustering semi-supervisionato di documenti di testo tramite SVM

Clustering semi-supervisionato di documenti di testo tramite SVM Università degli Studi di Siena Facoltà di Ingegneria Corso di Laurea Specialistica in Ingegneria Informatica Clustering semi-supervisionato di documenti di testo tramite SVM Relatore: Prof. Marco Maggini

Dettagli

FUNZIONALITÀ DI REPORTISTICA DEL PROGRAMMA Gestione Negozi Benetton

FUNZIONALITÀ DI REPORTISTICA DEL PROGRAMMA Gestione Negozi Benetton FUNZIONALITÀ DI REPORTISTICA DEL PROGRAMMA Gestione Negozi Benetton SOMMARIO CENNI GENERALI... 3 STAMPA ORDINI... 18 STAMPA PACKING LIST... 21 STAMPA SCONTRINI... 24 STAMPA ARTICOLI VENDUTI... 30 STAMPA

Dettagli

Introduzione al Data Mining Parte 1

Introduzione al Data Mining Parte 1 Introduzione al Data Mining Parte 1 Corso di Laurea Specialistica in Ingegneria Informatica II Facoltà di Ingegneria, sede di Cesena (a.a. 2010/2011) Prof. Gianluca Moro Dipartimento di Elettronica, Informatica

Dettagli

Approfondimento 5.2. Individuare gli outlier

Approfondimento 5.2. Individuare gli outlier Approfondimento 5.2 Individuare gli outlier Gli outlier sono quei valori che, rispetto agli altri del campione, risultano particolarmente estremi. Questo non significa che non siano punteggi validi, ma

Dettagli

Contenuto del libro...2 Convenzioni utilizzate nel libro...2

Contenuto del libro...2 Convenzioni utilizzate nel libro...2 Indice Introduzione... 1 Contenuto del libro...2 Convenzioni utilizzate nel libro...2 I INTERVALLI E FORMULE DI EXCEL 1 Ricavare il massimo dagli intervalli.... 7 Tecniche avanzate di selezione degli intervalli...7

Dettagli

INFORMATICA. Applicazioni WEB a tre livelli con approfondimento della loro manutenzione e memorizzazione dati e del DATABASE.

INFORMATICA. Applicazioni WEB a tre livelli con approfondimento della loro manutenzione e memorizzazione dati e del DATABASE. INFORMATICA Applicazioni WEB a tre livelli con approfondimento della loro manutenzione e memorizzazione dati e del DATABASE. APPLICAZIONI WEB L architettura di riferimento è quella ampiamente diffusa ed

Dettagli