Classificazione di un data set di proteine con Weka

Dimensione: px
Iniziare la visualizzazioe della pagina:

Download "Classificazione di un data set di proteine con Weka"

Transcript

1 MODELLI PROBABILISTICI Classificazione di un data set di proteine con Weka SOFIA CIVIDINI

2 2 INTRODUZIONE Negli ultimi due decenni si è assistito ad un aumento esponenziale nella quantità dell informazione o dati che è stata immagazzinata in formato elettronico. Si è stimato che la quantità di informazione nel mondo raddoppi ogni venti mesi e che la grandezza ed il numero dei database aumentino in modo sempre più veloce. Questo fatto si deve soprattutto: all incremento del potere e della velocità di calcolo degli attuali computer alla possibilità che essi hanno acquisito di avere supporti molto grandi per immagazzinare e memorizzare anche notevoli quantità di dati all introduzione di nuove tecniche che si affiancano ai tradizionali metodi di analisi statistica e di data retrieval e che permettono di estrarre conoscenza, cioè informazioni significative (di valore), in seguito all esplorazione di questi enormi volumi di dati. L insieme di queste tecniche prende il nome di Knowledge Discovery in DataBases o Data Mining (anche se con il termine data mining sarebbe meglio considerare una tappa della Knowledge Discovery in DataBases). La Knowledge Discovery in DataBases integra vari campi di ricerca (statistica, pattern recognition, machine learning, ecc.) ed è un processo analitico che è stato progettato per esplorare dati ed estrarne conoscenza in termini di associazioni, patterns, regole o sequenze ripetute che sono nascoste nei dati stessi e che non sono note a priori. CLASSIFICAZIONE. La classificazione è forse la tecnica di Data Mining più comunemente applicata e viene utilizzata per analizzare grandi quantità di dati in modo automatico o semiautomatico ed estrarne conoscenza; in particolare la classificazione estrae conoscenza a livello di variabili categoriche o classi, mentre quando si hanno variabili numeriche o continue si parla di Previsione. Di solito, si ha a che fare con grandi quantità di dati (commerciali, finanziari, scientifici, clinici, ecc.) che possono anche essere: INCOMPLETI mancano delle osservazioni RUMOROSI ci sono dei valori anomali INCONSISTENTI esistono codici differenti per lo stesso item

3 3 RIDONDANTI presenza della medesima informazione Quindi, i dati prima di essere sottoposti a Classificazione devono prima subire una fase di PREPROCESSING che consiste di vari passaggi: Data Cleaning i dati originali che provengono da fonti differenti vengono ripuliti per eliminare rumore e trattare i casi di dati mancanti Relevance Analysis serve per individuare quegli attributi che non sono rilevanti per l analisi oppure che sono ridondanti Data Transformation in questa fase, i dati vengono generalizzati a livelli concettuali più elevati oppure trasformati in modo da assumere valori in determinati intervalli (normalizzazione). Esistono due tipi di classificazione e cioè: CLASSIFICAZIONE SUPERVISIONATA in questo tipo di approccio, il valore di Class Label di ogni tupla di dati (training sample) è noto. Si parla di Supervised Learning. CLASSIFICAZIONE NON-SUPERVISIONATA in questo altro tipo di approccio invece non si dispone di casi etichettati e non si conosce nemmeno quante sono le classi o categorie da apprendere. Si parla di Unsupervised learning o Clustering. Nell ambito della Classificazione Supervisionata, il processo di Data Classification viene diviso in due fasi: 1) LEARNING viene costruito un modello che descrive un determinato insieme di classi in seguito all analisi di tuple di dati secondo i loro attributi 2) CLASSIFICATION il modello costruito viene utilizzato per classificare nuovi casi Disponendo di un data set di cui è noto, per ogni tupla di dati, il valore della class label, si può dividere questo data set in modo che una parte venga utilizzata come Training Set nella fase di Learning e l altra parte venga invece utilizzata come Test Set per verificare l accuratezza del classificatore prima di passare alla fase di Classification con un data set nuovo. Infatti, utilizzare gli stessi dati sia nella fase di apprendimento che nella fase di verifica della performance di un classificatore è molto pericoloso, perché si rischia l overfitting, cioè di avere stime troppo ottimistiche riguardanti la sua prestazione a livello dei nuovi casi. Esistono dei metodi (basati sulla randomizzazione) per dividere il data set di partenza e per stimare così l accuratezza di un classificatore. Sono i seguenti:

4 4 Cross-validation con questa metodica, il data set viene diviso, in modo casuale, in k-folds, cioè in k sottoinsiemi che in maniera esclusiva vengono utilizzati come Test Set ; il ciclo viene quindi ripetuto k volte. L accuratezza complessiva viene ottenuta sommando il numero dei casi correttamente classificati nelle k iterazioni e dividendo questa somma per il numero dei casi dell insieme di dati iniziale. Esempio: se viene fatta una cross-validation a 10 folds, il data set viene diviso in 10 parti; 9 parti vengono usate come Training Set ed 1 parte come Test Set e tutto questo viene ripetuto per 10 volte con un fold diverso ogni volta. Hold Out in questo caso, il data set iniziale viene di solito diviso in modo tale che 2/3 di esso vengano usati come Training Set ed il resto come Test Set; la stima che si ottiene è di solito pessimistica in quanto viene utilizzata una porzione dei dati fissa per ottenere il classificatore. Esempio: si può utilizzare il 66% del data set come Training set ed il restante 34% come Test Set. Esistono anche schemi particolari che possono migliorare la performance di un classificatore unendo tra di loro più classificatori in modo da ottenerne uno composto. Questi sono: il Bagging combina le classificazioni predette da modelli multipli o dallo stesso tipo di modello per differenti learning data. il Boosting vengono assegnati dei pesi ad ogni Training Set e si apprendono i classificatori in sequenza; il Boosting genererà una sequenza di classificatori dove ogni classificatore consecutivo nella sequenza diventa un esperto nelle osservazioni da classificare che non sono state ben classificate da quelli precedenti ad esso; le classificazioni fatte dai diversi classificatori possono poi essere combinate per ricavare la miglior classificazione in assoluto. Un classificatore può essere valutato in base a diversi parametri: a. Accuratezza nella classificazione b. Velocità di costruzione c. Velocità di esecuzione d. Robustezza (accuratezza in presenza di rumore o dati mancanti)

5 5 L Accuratezza di un classificatore rappresenta la percentuale di istanze classificate correttamente (cioè la cui classe predetta coincide con la classe reale) sul numero totale di istanze classificate. Esistono altri parametri che permettono di valutare un classificatore. Vediamoli in dettaglio negativo positivo a = negativo b = positivo Classe a: TP=565 FP=10 FN=330 Classe b: TP=841 FP=330 FN=10 La PRECISION è una misura di correttezza ed è uguale: Precision= True Positive/(True Positive + False positive) Esempio: precision classe negativa = 565/(565+10) = Più il numero dei FP è basso, maggiore è la Precision che si avvicina ad 1. La RECALL è una misura di completezza ed è uguale: Recall= True Positive/(True Positive + False Negative) Esempio: recall classe negativa = 565/( ) = Più il numero dei FN è basso, più la Recall si avvicina al massimo valore di 1. La F-MEASURE è uguale a: F-measure= 2*Recall*Precision/(Recall+Precision)

6 6 WEKA Weka è un open source software che è stato ideato dall Università di Waikato in Nuova Zelanda e rappresenta un estesa collezione di algoritmi di Machine Learning per lavori di Data Mining. Contiene strumenti per il pre-processing dei dati, per la classificazione e la regressione, per il clustering, per le regole di associazione e per la visualizzazione. Per il nostro lavoro di classificazione, abbiamo utilizzato per la maggior parte i classificatori presenti nella versione vecchia di Weka (3-2), mentre della versione più recente (3-4), abbiamo usato solo due classificatori e cioè JRip e AODE. Per analizzare il data set a disposizione, è stato usato l ambiente Explorer di Weka. Experimenter invece permette di mettere a confronto più modelli a partire da uno o più data set. Explorer possiede un set di pannelli, ognuno dei quali può essere adoperato per condurre un certo tipo di lavoro; questi sono elencati sotto: Figura 1; versione 3-2 Preprocess serve per importare e preparare i dati Classify serve per applicare ai dati gli algoritmi di classificazione o i modelli per la regressione (entrambi sono chiamati classifiers in Weka) Cluster serve per fare cluster analysis Associate serve per applicare algoritmi di apprendimento delle regole di associazione Select Attributes serve per selezionare sottogruppi di attributi per l analisi Visualize serve per visualizzare le proprietà grafiche dei dati Attraverso Open File nel pannello Preprocess, abbiamo caricato il nostro data set di proteine. Il file che era in un formato.xls è stato trasformato in.csv (comma separated values) affinchè potesse essere opportunamente riconosciuto da Weka, che a sua volta lo trasforma in formato.arff. Inoltre, abbiamo trasformato la classe da numerica in nominale per esigenze di software (come è spiegato

7 7 successivamente nella sezione risultati). Non è stato necessario sottoporre il data set a Preprocessing poiché non conteneva rumore o casi mancanti. Siamo nella sezione di Preprocess Figura 2 Questo è il nostro data set con 27 attributi, l ultimo dei quali rappresenta la classe. Il data set contiene 1746 istanze Come si può vedere dalla Figura 2, il data set ha 27 attributi di cui l ultimo rappresenta la classe e contiene 1746 istanze. Selezionando l attributo PROTEIN, nella finestra sulla destra si può notare che questa classe contiene due labels : negativo con 895 istanze e positivo con 851 istanze; la classe è di tipo nominale (Figura 3). Se invece selezioniamo un singolo attributo, per esempio Weight, nella finestra sulla destra ci appaiono le informazioni statistiche che lo riguardano come: minimo, massimo, media e deviazione standard (Figura 4).

8 8 Figura 3 Selezionando solamente l attributo Proteine, che corrisponde alla classe, si vede che esistono due Labels : negativo con 895 istanze e positivo con 851 istanze. Figura 4 Selezionando un attributo, a destra, si possono osservare le informazioni statistiche che lo riguardano come : massimo, minimo, media e deviazione standard.

9 9 Passiamo ora al pannello Classify. Weka possiede le implementazioni di tutte le principali tecniche di learning per la classificazione e per la regressione come: alberi di decisione, rule sets, classificatori Bayesiani, support vector machines, logistic and linear regression, multi-layer perceptron e metodi nearest-neighbour; contiene anche meta-classificatori per bagging e boosting. In questa sezione possiamo scegliere il tipo di classificatore da utilizzare, possiamo cambiarne eventualmente i parametri di default, applicare un certo tipo di filtro, scegliere il tipo di metodo con cui vogliamo valutare la performance del classificatore, ecc. (Figura 5). Nella sezione Classify, possiamo scegliere il tipo di classificatore, cambiarne eventualmente i paramentri di default, applicare o meno un filtro, scegliere il tipo di metodo con cui vogliamo valutare la performance del classificatore, ecc. Classificatore selezionato Questi parametri di default di IBk possono essere variati. Noi abbiamo cambiato il valore di KNN da 1 a 2, 5 e 12. Figura 5

10 10 Nella Figura 6, possiamo vedere il riquadro (Test options) dove scegliere il metodo per valutare la performance del classificatore precedentemente selezionato. Dopo avere fatto correre il programma per mezzo dell opzione Start, nella finestra grande a destra compare l output completo del classificatore con tutti i dettagli inerenti alla sua performance. In questo riquadro, si possono selezionare i metodi con cui si vuole valutare la performance del classificatore in esame. Noi abbiamo usato la Cross-validation e il Percentage split (detto anche Hold-out). Figura 6 In Weka, esiste anche un ulteriore opzione che permette di visualizzare gli alberi di decisione costruiti dai classificatori che si basano su questo tipo di algoritmo (Figura 7).

11 11 In Weka, esiste anche un opzione che dà la possibilità di visualizzare l albero di decisione costruito dal classificatore. Figura 7 COMMENTI AI RISULTATI WEKA Il data set che abbiamo analizzato è di proteine ed è costituito da 27 attributi per un totale di 1746 istanze complessive. I primi 26 attributi sono variabili che rappresentano delle caratteristiche strutturali o chimico-fisiche delle proteine in questione, mentre l ultimo attributo corrisponde alla Classe nella quale possiamo distinguere due labels class e cioè: -1 e +1. Per esigenze di software la classe è stata trasformata da numerica in nominale convertendo -1 in negativo e +1 in positivo. Inoltre, il file che contiene il data set è stato trasformato da file.xls a file.csv (comma separated values) che è un formato riconosciuto da Weka, il quale poi lo trasforma a sua volta in file.arff.

12 12 Per l analisi di classificazione sono stati utilizzati 18 classificatori presenti nella versione 3-2 di Weka e 2 classificatori presenti nella versione 3-4 di Weka che sono i seguenti: 1. ZeroR 2. DecisionStump 3. DecisionTable 4. HyperPipes 5. IB1 6. IBk 7. Id3 8. J48J48 9. J48Part 10. KernelDensity 11. K-Star 12. Naive Bayes Simple 13. Naive Bayes 14. OneR 15. Prism 16. AODE 17. JRip 18. VFI 19. ADTree 20. SMO Sono stati eseguiti 240 esperimenti in cui abbiamo analizzato la performance dei vari classificatori attraverso due metodi principali e cioè: Cross-validation Hold-out Per quanto riguarda la Cross-validation, abbiamo fatto per quasi tutti i classificatori tre esperimenti a 10 (valore di default), 6 e 3 folds, senza e con l applicazione di un filtro di discretizzazione. Per l Hold-out, abbiamo fatto tre esperimenti con un valore di training set pari al 66% (valore di default), all 80% e al 50% senza il filtro di discretizzazione, mentre con l applicazione del filtro abbiamo fatto solo un esperimento con il valore di default. Inoltre, abbiamo fatto prove con Cross-validation a 10 folds e Hold-out 66% aggiungendo il Bagging a quasi tutti i classificatori considerati per cercare di migliorarne la performance. Per DecisionStump, sono stati utilizzati anche due metaclassificatori per il Boosting e cioè AdaBoost e LogitBoost. Altri parametri sono stati variati rispetto a quelli di default anche per DecisionTable, IBk e NaiveBayes come verrà spiegato poi. Qui di seguito, riportiamo solo gli esperimenti che hanno dato i risultati migliori, mentre per gli output di tutti gli esperimenti fatti e i relativi

13 13 commenti si rimanda al file Risultati e commenti esperimenti eseguiti con Weka e alla Tabella riassuntiva. ZeroR Il Classificatore ZeroR assegna tutte le istanze alla classe di maggiore dimensione presente nel training-set senza mai considerare gli attributi di ciascuna istanza. Non ha molto senso usare questo schema per la classificazione, per cui gli esperimenti eseguiti con ZeroR ci servono solo come parametro di riferimento per la valutazione della performance dei classificatori considerati successivamente, nel senso che non si deve mai andare sotto il valore trovato con questo classificatore che dovrebbe rappresentare il peggior risultato possibile. Per questi motivi viene anche detto classificatore stupido. In tutti gli esperimenti eseguiti con ZeroR, questo classificatore assegna tutte le istanze del data set (n tot 1746) alla classe maggiormente rappresentata che nel nostro caso è quella negativa (-1) con 895 istanze contro le 851 della positiva (+1). La percentuale di istanze correttamente classificate da ZeroR è intorno al 51% circa. ZeroR cross-validation: 10 folds senza filtri Scheme: Test mode: weka.classifiers.zeror 10-fold cross-validation Correctly Classified Instances % Incorrectly Classified Instances % Kappa statistic 0 Mean absolute error Root mean squared error Relative absolute error % Root relative squared error % Total Number of Instances negativo positivo a = negativo b = positivo

14 14 DecisionStump Questa è una classe per la costruzione e l uso di un semplice albero di decisione a un livello binario (alberi di decisione a un livello) con un ramo extra per i valori persi. Esso produce probabilità di classe. Fa fronte ai valori persi estendendo un terzo ramo dall albero, in altre parole, trattando il valore perso come un attributo separato. Di solito viene utilizzato insieme agli algoritmi di Boosting. La miglior performance che abbiamo ottenuto con DecisionStump (88% di istanze correttamente classificate) si è avuta utilizzando il metodo Hold-out 80% senza filtro di discretizzazione ed associando il classificatore LogitBoost per il boosting. Per gli altri esperimenti condotti con l uso di LogitBoost, la percentuale di istanze correttamente classificate si è mantenuta compresa tra circa l 85 e l 86%. Usando invece AdaBoost come algoritmo di boosting, abbiamo ottenuto delle percentuali di istanze classificate in modo corretto un po inferiori rispetto a LogitBoost e cioè in media intorno all 82%, tranne nel caso di Hold-out 50% senza filtro dove si è raggiunto il valore di 84.19%. Senza l uso degli algoritmi di boosting, i risultati ottenuti nei rimanenti esperimenti sono compresi tra circa l 80.50% e l 81.90%. In linea generale, DecisionStump tende a commettere più errori nel classificare le istanze della classe positiva. Non c è un equa ripartizione delle istanze non correttamente classificate tra le due classi negativa e positiva. Vedi il file Risultati e commenti esperimenti eseguiti con Weka e la Tabella riassuntiva. DecisionStump+LogitBoost Hold-out: 80 % senza filtri Scheme: weka.classifiers.logitboost -P 100 -I 10 -W weka.classifiers.decisionstump -- Test mode: split 80% train, remainder test Correctly Classified Instances % Incorrectly Classified Instances % Kappa statistic Mean absolute error Root mean squared error Relative absolute error % Root relative squared error % Total Number of Instances 350

15 negativo positivo a = negativo b = positivo DecisionStump+AdaBoost cross-validation: 10 folds senza filtri Scheme: weka.classifiers.adaboostm1 -P 100 -I 10 -S 1 -W weka.classifiers.decisionstump -- Test mode: 10-fold cross-validation Correctly Classified Instances % Incorrectly Classified Instances % Kappa statistic Mean absolute error Root mean squared error Relative absolute error % Root relative squared error % Total Number of Instances negativo positivo a = negativo b = positivo DecisionTable Classificatore che costruisce e usa una semplice tabella di decisione. Decision Table adopera il wrapper method per trovare un buon sotto-insieme di attributi da includere nella tabella. Questo è fatto usando la prima migliore ricerca. La migliore percentuale di classificazione ottenuta con DecisionTable si è avuta usando il metodo Hold-out senza filtro di discretizzazione e settando il parametro useibk come true; si è così avuto l 87.04% di istanze correttamente classificate. Anche le rimanenti performance sono state comunque abbastanza buone con percentuali comprese tra l 84,48% e l 86,60%. Anche la ripartizione delle istanze

16 16 non correttamente classificate è stata equa tra le due classi negativa e positiva, il che ci indica che il classificatore commette la stessa percentuale di errore nel classificare entrambi i due tipi di proteine. DecisionTable Hold-out: 66% con useibk=true Scheme: weka.classifiers.decisiontable -X 1 -S 5 -I Test mode: split 66% train, remainder test Correctly Classified Instances % Incorrectly Classified Instances % Kappa statistic Mean absolute error Root mean squared error Relative absolute error % Root relative squared error % Total Number of Instances negativo positivo a = negativo b = positivo HyperPipes Implementazione di un classificatore HyperPipes. Per ogni categoria si costruisce un HyperPipes che contiene tutti i punti di quella categoria (essenzialmente registra i legami degli attributi osservati per ciascuna categoria). Le istanze-test sono classificate in accordo con la categoria che più contiene l istanza. Non manipola classi numeriche o valori persi nei casi-test. E un algoritmo molto semplice, ma ha il vantaggio di essere estremamente veloce. HyperPipes non ha mai dati buone percentuali di classificazione in nessun esperimento condotto. I suoi risultati sono equiparabili a quelli del classificatore ZeroR e non raggiungono mai valori superiori a circa il 63% (ottenuto con l uso di Bagging e Hold-out 66% senza filtro). Anche la distribuzione delle istanze non correttamente classificate tra le due classi negativa e positiva è pessima.

17 17 HyperPipes +Bagging Hold-out: 66% senza filtro Scheme: weka.classifiers.bagging -S 1 -I 10 -P 100 -W weka.classifiers.hyperpipes -- Test mode: split 66% train, remainder test Correctly Classified Instances % Incorrectly Classified Instances % Kappa statistic Mean absolute error Root mean squared error Relative absolute error % Root relative squared error % Total Number of Instances negativo positivo a = negativo b = positivo IB1 Il classificatore IB1 usa una semplice misura di distanza per trovare l istanza di training più vicina all istanza di test che viene considerata. Se ci sono più istanze di training con la medesima distanza (che deve essere la minore possibile) dall istanza di test, viene presa l istanza di training che è stata trovata per prima. IB1 è una semplice implementazione dell algoritmo di Nearest Neighbour (NNA). La distanza tra due campioni Xi e Xj può essere misurata attraverso una funzione Euclidea. IB1, insieme ad IBk, ha dato la miglior performance di classificazione in assoluto tra tutti i classificatori presi in considerazione raggiungendo una percentuale di istanze correttamente classificate pari al 93.93% nell esperimento in cui è stata usata la Cross-validation a 10 folds senza filtro di discretizzazione. Anche il corrispondente esperimento con Bagging non ha migliorato ulteriormente questa percentuale che è rimasta tale. Le prestazioni di IB1 sono sempre state superiori all 87% in tutti gli esperimenti condotti. Ottima anche la distribuzione delle istanze non correttamente classificate tra le due classi negativa e positiva.

18 18 IB1 cross-validation: 10 folds senza filtro Scheme: Test mode: weka.classifiers.ib1 10-fold cross-validation Correctly Classified Instances % Incorrectly Classified Instances % Kappa statistic Mean absolute error Root mean squared error Relative absolute error % Root relative squared error % Total Number of Instances negativo positivo a = negativo b = positivo IBk E un classificatore K-Nearest Neighbour. Estende IB1 usando una misura di distanza per trovare le k-istanze di training più vicine all istanza-test considerata. Questo algoritmo non ha una fase di training, i records esempio sono semplicemente immagazzinati. Nella fase di testing, un record non classificato è comparato con tutti i records immagazzinati fino a che si trova quello più vicino. Il record nuovo viene assegnato alla stessa classe di quello più vicino. Un estensione di questo classificatore è di usare più di un nearest neighbour, cosicché la class label sia calcolata in dipendenza da parecchi neighbours. Anche IBk, come il precedente IB1, ha data la miglior performance in assoluto tra tutti i classificatori adoperati con una percentuale del 93.93% nell esperimento condotto con il metodo della Cross-validation a 10 folds senza filtro di discretizzazione; d altro canto, IBk e IB1 sono molto simili tra loro e nel nostro esperimento, eseguito con parametri di default, il valore di k è settato ad 1 come per IB1. Anche in questo caso la percentuale di errore commessa nel classificare le istanze sbagliate è equivalente per entrambe le categorie proteiche. Anche nei

19 19 restanti esperimenti le percentuali di classificazioni corrette si mantengono sempre superiori all 88.89%. Per questo classificatore, abbiamo provato a variare anche il valore dei k-nearest neighbour portandolo da 1 a 2, 5 e 12; la percentuale delle istanze correttamente classificate però è stata inferiore a quella dei corrispondenti esperimenti con i parametri di default (tra 88.89% e 91.81%). Anche in questo caso, l aggiunta del Bagging non ha migliorato il risultato. IBk cross-validation: 10 folds senza filtro Scheme: weka.classifiers.ibk -K 1 -W 0 Test mode: 10-fold cross-validation Correctly Classified Instances % Incorrectly Classified Instances % Kappa statistic Mean absolute error Root mean squared error Relative absolute error % Root relative squared error % Total Number of Instances negativo positivo a = negativo b = positivo Id3 E un classificatore che costruisce un albero di decisione. Riconosce solo attributi nominali. Quindi, è necessario applicare un filtro di discretizzazione per poterlo usare con il nostro data set in cui gli attributi sono numerici. Questo classificatore non ha mai dato una buona performance poiché non è mai riuscito a classificare tutte le istanze (circa il 5-7.4% delle istanze non sono mai state classificate).

20 20 Id3 cross-validation: 10 folds con filtro di discretizzazione Scheme: weka.classifiers.filteredclassifier -B weka.classifiers.id3 -F "weka.filters.discretizefilter -B 10 -R first-last" Test mode: 10-fold cross-validation Correctly Classified Instances % Incorrectly Classified Instances % Kappa statistic Mean absolute error Root mean squared error Relative absolute error % Root relative squared error % UnClassified Instances % Total Number of Instances negativo positivo a = negativo b = positivo J48J48 L idea di questo algoritmo è di formare un albero di decisione attraverso il frazionamento dei dataset in pezzettini sempre più piccoli. Poi si può decidere come classificare un record seguendo l albero finché si arriva all estremità, dove si trova quale classe abbiamo. Con questo classificatore abbiamo ottenuto delle performance di classificazione molto buone con percentuali di istanze correttamente classificate superiori in generale a circa l 83% e con una punta massima del 90.74% usando il metodo Hold-out senza filtro con Bagging (l aggiunta del Bagging migliora del 5.22% la performance di J48J48 rispetto allo equivalente esperimento che è stato eseguito senza). Considerando tutti gli esperimenti, la distribuzione delle istanze non classificate in maniera corretta è abbastanza equa tra le due classi negativa e positiva.

21 21 J48J48+Bagging Hold-out: 66 % senza filtro Scheme: weka.classifiers.bagging -S 1 -I 10 -P 100 -W weka.classifiers.j48.j C M 2 Test mode: split 66% train, remainder test Correctly Classified Instances % Incorrectly Classified Instances % Kappa statistic Mean absolute error Root mean squared error Relative absolute error % Root relative squared error % Total Number of Instances negativo positivo a = negativo b = positivo J48PART Classe per generare una PART decision list. Induce regole if-then per le istanze di training date. PART ottiene regole da alberi di decisione costruiti parzialmente. La performance di J48Part è stata molto buona in quasi tutte le prove con un valore minimo di istanze correttamente classificate pari all 82.76% ed un valore massimo pari al 93.77%, che si è avuto con il metodo Hold-out 66% senza filtro e con Bagging. Buona anche la ripartizione tra le due classi delle istanze non correttamente classificate. J48Part+Bagging Hold-out: 66 % senza filtro Scheme: weka.classifiers.bagging -S 1 -I 10 -P 100 -W weka.classifiers.j48.part -- -C M 2 Test mode: split 66% train, remainder test Correctly Classified Instances % Incorrectly Classified Instances % Kappa statistic Mean absolute error

22 22 Root mean squared error Relative absolute error % Root relative squared error % Total Number of Instances negativo positivo a = negativo b = positivo KernelDensity E un classificatore kernel density molto semplice. KernelDensity è un ottimo classificatore perché in tutti gli esperimenti considerati ha sempre dato percentuali di classificazione superiori al 90.74% con anche un ottima distribuzione delle istanze non classificate correttamente tra le due classi proteiche negativa e positiva. La performance migliore si è ottenuta con il metodo della Cross-validation a 10 folds senza filtro di discretizzazione, dove si è raggiunta una percentuale del 93.64% di istanze correttamente classificate. Il Bagging non è stato applicato perché la classificazione diventava molto costosa in termini di tempo. KernelDensity cross-validation: 10 folds senza filtro Scheme: weka.classifiers.kerneldensity Test mode: 10-fold cross-validation Correctly Classified Instances % Incorrectly Classified Instances % Kappa statistic Mean absolute error Root mean squared error Relative absolute error % Root relative squared error % Total Number of Instances negativo positivo

Analisi dei requisiti e casi d uso

Analisi dei requisiti e casi d uso Analisi dei requisiti e casi d uso Indice 1 Introduzione 2 1.1 Terminologia........................... 2 2 Modello del sistema 4 2.1 Requisiti hardware........................ 4 2.2 Requisiti software.........................

Dettagli

Text mining ed analisi di dati codificati in linguaggio naturale. Analisi esplorative di dati testualilezione

Text mining ed analisi di dati codificati in linguaggio naturale. Analisi esplorative di dati testualilezione Text mining ed analisi di dati codificati in linguaggio naturale Analisi esplorative di dati testualilezione 2 Le principali tecniche di analisi testuale Facendo riferimento alle tecniche di data mining,

Dettagli

Predire la struttura terziaria

Predire la struttura terziaria Predire la struttura terziaria E di gran lunga la predizione più complessa che si possa fare su una proteina. Esistono 3 metodi principali di predizione: 1 - Homology modelling: se si conoscono proteine

Dettagli

DBMS (Data Base Management System)

DBMS (Data Base Management System) Cos'è un Database I database o banche dati o base dati sono collezioni di dati, tra loro correlati, utilizzati per rappresentare una porzione del mondo reale. Sono strutturati in modo tale da consentire

Dettagli

VC-dimension: Esempio

VC-dimension: Esempio VC-dimension: Esempio Quale è la VC-dimension di. y b = 0 f() = 1 f() = 1 iperpiano 20? VC-dimension: Esempio Quale è la VC-dimension di? banale. Vediamo cosa succede con 2 punti: 21 VC-dimension: Esempio

Dettagli

Elementi di Statistica

Elementi di Statistica Elementi di Statistica Contenuti Contenuti di Statistica nel corso di Data Base Elementi di statistica descrittiva: media, moda, mediana, indici di dispersione Introduzione alle variabili casuali e alle

Dettagli

Preprocessamento dei Dati

Preprocessamento dei Dati Preprocessamento dei Dati Raramente i dati sperimentali sono pronti per essere utilizzati immediatamente per le fasi successive del processo di identificazione, a causa di: Offset e disturbi a bassa frequenza

Dettagli

(accuratezza) ovvero (esattezza)

(accuratezza) ovvero (esattezza) Capitolo n 2 2.1 - Misure ed errori In un analisi chimica si misurano dei valori chimico-fisici di svariate grandezze; tuttavia ogni misura comporta sempre una incertezza, dovuta alla presenza non eliminabile

Dettagli

Rappresentazione dei numeri in un calcolatore

Rappresentazione dei numeri in un calcolatore Corso di Calcolatori Elettronici I A.A. 2010-2011 Rappresentazione dei numeri in un calcolatore Lezione 2 Università degli Studi di Napoli Federico II Facoltà di Ingegneria Rappresentazione dei numeri

Dettagli

Analisi dei requisiti e casi d uso

Analisi dei requisiti e casi d uso Analisi dei requisiti e casi d uso Indice 1 Introduzione 2 1.1 Terminologia........................... 2 2 Modello della Web Application 5 3 Struttura della web Application 6 4 Casi di utilizzo della Web

Dettagli

di4g: Uno strumento di clustering per l analisi integrata di dati geologici

di4g: Uno strumento di clustering per l analisi integrata di dati geologici di4g: Uno strumento di clustering per l analisi integrata di dati geologici Alice Piva 1, Giacomo Gamberoni 1, Denis Ferraretti 1, Evelina Lamma 2 1 intelliware snc, via J.F.Kennedy 15, 44122 Ferrara,

Dettagli

I.Stat Guida utente Versione 1.7 Dicembre 2010

I.Stat Guida utente Versione 1.7 Dicembre 2010 I.Stat Guida utente Versione 1.7 Dicembre 2010 1 Sommario INTRODUZIONE 3 I concetti principali di I.Stat 4 Organizzazione dei dati 4 Ricerca 5 GUIDA UTENTE 6 Per iniziare 6 Selezione della lingua 7 Individuazione

Dettagli

iovanella@disp.uniroma2.it http://www.disp.uniroma2.it/users/iovanella Verifica di ipotesi

iovanella@disp.uniroma2.it http://www.disp.uniroma2.it/users/iovanella Verifica di ipotesi iovanella@disp.uniroma2.it http://www.disp.uniroma2.it/users/iovanella Verifica di ipotesi Idea di base Supponiamo di avere un idea del valore (incognito) di una media di un campione, magari attraverso

Dettagli

Modulo. Programmiamo in Pascal. Unità didattiche COSA IMPAREREMO...

Modulo. Programmiamo in Pascal. Unità didattiche COSA IMPAREREMO... Modulo A Programmiamo in Pascal Unità didattiche 1. Installiamo il Dev-Pascal 2. Il programma e le variabili 3. Input dei dati 4. Utilizziamo gli operatori matematici e commentiamo il codice COSA IMPAREREMO...

Dettagli

Principal Component Analysis

Principal Component Analysis Principal Component Analysis Alessandro Rezzani Abstract L articolo descrive una delle tecniche di riduzione della dimensionalità del data set: il metodo dell analisi delle componenti principali (Principal

Dettagli

Principal Component Analysis (PCA)

Principal Component Analysis (PCA) Principal Component Analysis (PCA) Come evidenziare l informazione contenuta nei dati S. Marsili-Libelli: Calibrazione di Modelli Dinamici pag. Perche PCA? E un semplice metodo non-parametrico per estrarre

Dettagli

CAPITOLO PRIMO IL CONCETTO DI ALGORITMO 1

CAPITOLO PRIMO IL CONCETTO DI ALGORITMO 1 1.1 Che cos è un algoritmo CAPITOLO PRIMO IL CONCETTO DI ALGORITMO 1 Gli algoritmi sono metodi per la soluzione di problemi. Possiamo caratterizzare un problema mediante i dati di cui si dispone all inizio

Dettagli

Quando troncare uno sviluppo in serie di Taylor

Quando troncare uno sviluppo in serie di Taylor Quando troncare uno sviluppo in serie di Taylor Marco Robutti October 13, 2014 Lo sviluppo in serie di Taylor di una funzione è uno strumento matematico davvero molto utile, e viene spesso utilizzato in

Dettagli

Seconda Prova di Ricerca Operativa. Cognome Nome Numero Matricola A 1/12 A 2/12

Seconda Prova di Ricerca Operativa. Cognome Nome Numero Matricola A 1/12 A 2/12 A / A / Seconda Prova di Ricerca Operativa Cognome Nome Numero Matricola Nota: LA RISOLUZIONE CORRETTA DEGLI ESERCIZI CONTRADDISTINTI DA UN ASTERISCO È CONDIZIONE NECESSARIA PER IL RAGGIUNGIMENTO DELLA

Dettagli

Potenza dello studio e dimensione campionaria. Laurea in Medicina e Chirurgia - Statistica medica 1

Potenza dello studio e dimensione campionaria. Laurea in Medicina e Chirurgia - Statistica medica 1 Potenza dello studio e dimensione campionaria Laurea in Medicina e Chirurgia - Statistica medica 1 Introduzione Nella pianificazione di uno studio clinico randomizzato è fondamentale determinare in modo

Dettagli

1x1 qs-stat. Pacchetto Software per la Soluzione di Problemi Statistici nel Controllo Qualità. Versione: 1 / Marzo 2010 Doc. n.

1x1 qs-stat. Pacchetto Software per la Soluzione di Problemi Statistici nel Controllo Qualità. Versione: 1 / Marzo 2010 Doc. n. 1x1 qs-stat Pacchetto Software per la Soluzione di Problemi Statistici nel Controllo Qualità Versione: 1 / Marzo 2010 Doc. n.: PD-0012 Copyright 2010 Q-DAS GmbH & Co. KG Eisleber Str. 2 D - 69469 Weinheim

Dettagli

Esempi di algoritmi. Lezione III

Esempi di algoritmi. Lezione III Esempi di algoritmi Lezione III Scopo della lezione Implementare da zero algoritmi di media complessità. Verificare la correttezza di un algoritmo eseguendolo a mano. Imparare a valutare le prestazioni

Dettagli

Configuration Management

Configuration Management Configuration Management Obiettivi Obiettivo del Configuration Management è di fornire un modello logico dell infrastruttura informatica identificando, controllando, mantenendo e verificando le versioni

Dettagli

Data warehouse.stat Guida utente

Data warehouse.stat Guida utente Data warehouse.stat Guida utente Versione 3.0 Giugno 2013 1 Sommario INTRODUZIONE 3 I concetti principali 4 Organizzazione dei dati 4 Ricerca 5 Il browser 5 GUIDA UTENTE 6 Per iniziare 6 Selezione della

Dettagli

Introduzione a MySQL

Introduzione a MySQL Introduzione a MySQL Cinzia Cappiello Alessandro Raffio Politecnico di Milano Prima di iniziare qualche dettaglio su MySQL MySQL è un sistema di gestione di basi di dati relazionali (RDBMS) composto da

Dettagli

Indicizzazione terza parte e modello booleano

Indicizzazione terza parte e modello booleano Reperimento dell informazione (IR) - aa 2014-2015 Indicizzazione terza parte e modello booleano Gruppo di ricerca su Sistemi di Gestione delle Informazioni (IMS) Dipartimento di Ingegneria dell Informazione

Dettagli

Esercizi Capitolo 5 - Alberi

Esercizi Capitolo 5 - Alberi Esercizi Capitolo 5 - Alberi Alberto Montresor 19 Agosto, 2014 Alcuni degli esercizi che seguono sono associati alle rispettive soluzioni. Se il vostro lettore PDF lo consente, è possibile saltare alle

Dettagli

PROBABILITA, VALORE ATTESO E VARIANZA DELLE QUANTITÁ ALEATORIE E LORO RELAZIONE CON I DATI OSSERVATI

PROBABILITA, VALORE ATTESO E VARIANZA DELLE QUANTITÁ ALEATORIE E LORO RELAZIONE CON I DATI OSSERVATI statistica, Università Cattaneo-Liuc, AA 006-007, lezione del 08.05.07 IDICE (lezione 08.05.07 PROBABILITA, VALORE ATTESO E VARIAZA DELLE QUATITÁ ALEATORIE E LORO RELAZIOE CO I DATI OSSERVATI 3.1 Valore

Dettagli

Stima per intervalli Nei metodi di stima puntuale è sempre presente un ^ errore θ θ dovuto al fatto che la stima di θ in genere non coincide con il parametro θ. Sorge quindi l esigenza di determinare una

Dettagli

Esercizi per il corso di Algoritmi e Strutture Dati

Esercizi per il corso di Algoritmi e Strutture Dati 1 Esercizi per il corso di Algoritmi e Strutture Dati Esercizi sulla Tecnica Divide et Impera N.B. Tutti gli algoritmi vanno scritti in pseudocodice (non in Java, né in C++, etc. ). Di tutti gli algoritmi

Dettagli

razionali Figura 1. Rappresentazione degli insiemi numerici Numeri reali algebrici trascendenti frazionari decimali finiti

razionali Figura 1. Rappresentazione degli insiemi numerici Numeri reali algebrici trascendenti frazionari decimali finiti 4. Insiemi numerici 4.1 Insiemi numerici Insieme dei numeri naturali = {0,1,,3,,} Insieme dei numeri interi relativi = {..., 3,, 1,0, + 1, +, + 3, } Insieme dei numeri razionali n 1 1 1 1 = : n, m \{0}

Dettagli

Introduzione ad Access

Introduzione ad Access Introduzione ad Access Luca Bortolussi Dipartimento di Matematica e Informatica Università degli studi di Trieste Access E un programma di gestione di database (DBMS) Access offre: un supporto transazionale

Dettagli

white paper La Process Intelligence migliora le prestazioni operative del settore assicurativo

white paper La Process Intelligence migliora le prestazioni operative del settore assicurativo white paper La Process Intelligence migliora le prestazioni operative del settore assicurativo White paper La Process Intelligence migliora le prestazioni operative del settore assicurativo Pagina 2 Sintesi

Dettagli

Descrizioni VHDL Behavioral

Descrizioni VHDL Behavioral 1 Descrizioni VHDL Behavioral In questo capitolo vedremo come la struttura di un sistema digitale è descritto in VHDL utilizzando descrizioni di tipo comportamentale. Outline: process wait statements,

Dettagli

Valore caratteristico EC7

Valore caratteristico EC7 Procedura da adottare - Azioni (E) Valore caratteristico EC7 Per le combinazioni delle azioni si rimanda a quanto detto ampiamente in precedenza. Resistenze (Rd) del sistema geotecnico Il valore di progetto

Dettagli

((e ita e itb )h(t)/it)dt. z k p(dz) + r n (t),

((e ita e itb )h(t)/it)dt. z k p(dz) + r n (t), SINTESI. Una classe importante di problemi probabilistici e statistici é quella della stima di caratteristiche relative ad un certo processo aleatorio. Esistono svariate tecniche di stima dei parametri

Dettagli

Gli eventi sono stati definiti come i possibili risultati di un esperimento. Ogni evento ha una probabilità

Gli eventi sono stati definiti come i possibili risultati di un esperimento. Ogni evento ha una probabilità Probabilità Probabilità Gli eventi sono stati definiti come i possibili risultati di un esperimento. Ogni evento ha una probabilità Se tutti gli eventi fossero ugualmente possibili, la probabilità p(e)

Dettagli

Analisi statistica di dati biomedici Analysis of biologicalsignals

Analisi statistica di dati biomedici Analysis of biologicalsignals Analisi statistica di dati biomedici Analysis of biologicalsignals II Parte Verifica delle ipotesi (a) Agostino Accardo (accardo@units.it) Master in Ingegneria Clinica LM in Neuroscienze 2013-2014 e segg.

Dettagli

Gli array. Gli array. Gli array. Classi di memorizzazione per array. Inizializzazione esplicita degli array. Array e puntatori

Gli array. Gli array. Gli array. Classi di memorizzazione per array. Inizializzazione esplicita degli array. Array e puntatori Gli array Array e puntatori Laboratorio di Informatica I un array è un insieme di elementi (valori) avente le seguenti caratteristiche: - un array è ordinato: agli elementi dell array è assegnato un ordine

Dettagli

ANALISI DEI DATI CON SPSS

ANALISI DEI DATI CON SPSS STRUMENTI E METODI PER LE SCIENZE SOCIALI Claudio Barbaranelli ANALISI DEI DATI CON SPSS II. LE ANALISI MULTIVARIATE ISBN 978-88-7916-315-9 Copyright 2006 Via Cervignano 4-20137 Milano Catalogo: www.lededizioni.com

Dettagli

Quando A e B coincidono una coppia ordinata é determinata anche dalla loro posizione.

Quando A e B coincidono una coppia ordinata é determinata anche dalla loro posizione. Grafi ed Alberi Pag. /26 Grafi ed Alberi In questo capitolo richiameremo i principali concetti di due ADT che ricorreranno puntualmente nel corso della nostra trattazione: i grafi e gli alberi. Naturale

Dettagli

How to Develop Accessible Linux Applications

How to Develop Accessible Linux Applications How to Develop Accessible Linux Applications Sharon Snider Copyright 2002 IBM Corporation v1.1, 2002-05-03 Diario delle Revisioni Revisione v1.1 2002-05-03 Revisionato da: sds Convertito in DocBook XML

Dettagli

Introduzione alla Teoria degli Errori

Introduzione alla Teoria degli Errori Introduzione alla Teoria degli Errori 1 Gli errori di misura sono inevitabili Una misura non ha significato se non viene accompagnata da una ragionevole stima dell errore ( Una scienza si dice esatta non

Dettagli

Rapida Introduzione all uso del Matlab Ottobre 2002

Rapida Introduzione all uso del Matlab Ottobre 2002 Rapida Introduzione all uso del Matlab Ottobre 2002 Tutti i tipi di dato utilizzati dal Matlab sono in forma di array. I vettori sono array monodimensionali, e così possono essere viste le serie temporali,

Dettagli

Equilibrio Termico tra Due Corpi

Equilibrio Termico tra Due Corpi Equilibrio Termico tra Due Corpi www.lepla.eu OBIETTIVO L attività ha l obiettivo di fare acquisire allo sperimentatore la consapevolezza che: 1 il raggiungimento dell'equilibrio termico non è istantaneo

Dettagli

STUDIO DI SETTORE SM43U

STUDIO DI SETTORE SM43U ALLEGATO 3 NOTA TECNICA E METODOLOGICA STUDIO DI SETTORE SM43U NOTA TECNICA E METODOLOGICA CRITERI PER LA COSTRUZIONE DELLO STUDIO DI SETTORE Di seguito vengono esposti i criteri seguiti per la costruzione

Dettagli

Sistemi di supporto alle decisioni Ing. Valerio Lacagnina

Sistemi di supporto alle decisioni Ing. Valerio Lacagnina Cosa è il DSS L elevato sviluppo dei personal computer, delle reti di calcolatori, dei sistemi database di grandi dimensioni, e la forte espansione di modelli basati sui calcolatori rappresentano gli sviluppi

Dettagli

RAPPRESENTAZIONE BINARIA DEI NUMERI. Andrea Bobbio Anno Accademico 1996-1997

RAPPRESENTAZIONE BINARIA DEI NUMERI. Andrea Bobbio Anno Accademico 1996-1997 1 RAPPRESENTAZIONE BINARIA DEI NUMERI Andrea Bobbio Anno Accademico 1996-1997 Numeri Binari 2 Sistemi di Numerazione Il valore di un numero può essere espresso con diverse rappresentazioni. non posizionali:

Dettagli

IL SAMPLE AND HOLD UNIVERSITÀ DEGLI STUDI DI MILANO. Progetto di Fondamenti di Automatica. PROF.: M. Lazzaroni

IL SAMPLE AND HOLD UNIVERSITÀ DEGLI STUDI DI MILANO. Progetto di Fondamenti di Automatica. PROF.: M. Lazzaroni UNIVERSITÀ DEGLI STUDI DI MILANO FACOLTÀ DI SCIENZE MATEMATICHE, FISICHE E NATURALI Corso di Laurea in Informatica IL SAMPLE AND HOLD Progetto di Fondamenti di Automatica PROF.: M. Lazzaroni Anno Accademico

Dettagli

UNIVERSITA DI PISA FACOLTA DI INGEGNERIA CORSO DI LAUREA IN INGEGNERIA ELETTRONICA ANNO ACCADEMICO 2004-2005 TESI DI LAUREA

UNIVERSITA DI PISA FACOLTA DI INGEGNERIA CORSO DI LAUREA IN INGEGNERIA ELETTRONICA ANNO ACCADEMICO 2004-2005 TESI DI LAUREA UNIVERSITA DI PISA FACOLTA DI INGEGNERIA CORSO DI LAUREA IN INGEGNERIA ELETTRONICA ANNO ACCADEMICO 2004-2005 TESI DI LAUREA SVILUPPO DI METODI DECONVOLUTIVI PER L INDIVIDUAZIONE DI SORGENTI INDIPENDENTI

Dettagli

Sistemi Operativi. Interfaccia del File System FILE SYSTEM : INTERFACCIA. Concetto di File. Metodi di Accesso. Struttura delle Directory

Sistemi Operativi. Interfaccia del File System FILE SYSTEM : INTERFACCIA. Concetto di File. Metodi di Accesso. Struttura delle Directory FILE SYSTEM : INTERFACCIA 8.1 Interfaccia del File System Concetto di File Metodi di Accesso Struttura delle Directory Montaggio del File System Condivisione di File Protezione 8.2 Concetto di File File

Dettagli

Capitolo 12 La regressione lineare semplice

Capitolo 12 La regressione lineare semplice Levine, Krehbiel, Berenson Statistica II ed. 2006 Apogeo Capitolo 12 La regressione lineare semplice Insegnamento: Statistica Corso di Laurea Triennale in Economia Facoltà di Economia, Università di Ferrara

Dettagli

Relazione sul data warehouse e sul data mining

Relazione sul data warehouse e sul data mining Relazione sul data warehouse e sul data mining INTRODUZIONE Inquadrando il sistema informativo aziendale automatizzato come costituito dall insieme delle risorse messe a disposizione della tecnologia,

Dettagli

GUIDA RAPIDA emagister-agora Edizione BASIC

GUIDA RAPIDA emagister-agora Edizione BASIC GUIDA RAPIDA emagister-agora Edizione BASIC Introduzione a emagister-agora Interfaccia di emagister-agora Configurazione dell offerta didattica Richieste d informazioni Gestione delle richieste d informazioni

Dettagli

Esercizi sull Association Analysis

Esercizi sull Association Analysis Data Mining: Esercizi sull Association Analysis 1 Esercizi sull Association Analysis 1. Si consideri il mining di association rule da un dataset T di transazioni, rispetto a delle soglie minsup e minconf.

Dettagli

Capitolo 9: PROPAGAZIONE DEGLI ERRORI

Capitolo 9: PROPAGAZIONE DEGLI ERRORI Capitolo 9: PROPAGAZIOE DEGLI ERRORI 9.1 Propagazione degli errori massimi ella maggior parte dei casi le grandezze fisiche vengono misurate per via indiretta. Il valore della grandezza viene cioè dedotto

Dettagli

Stefano Bonetti Framework per la valutazione progressiva di interrogazioni di localizzazione

Stefano Bonetti Framework per la valutazione progressiva di interrogazioni di localizzazione Analisi del dominio: i sistemi per la localizzazione Definizione e implementazione del framework e risultati sperimentali e sviluppi futuri Tecniche di localizzazione Triangolazione Analisi della scena

Dettagli

Metodi e Strumenti per la Caratterizzazione e la Diagnostica di Trasmettitori Digitali RF ing. Gianfranco Miele g.miele@unicas.it

Metodi e Strumenti per la Caratterizzazione e la Diagnostica di Trasmettitori Digitali RF ing. Gianfranco Miele g.miele@unicas.it Corso di laurea magistrale in Ingegneria delle Telecomunicazioni Metodi e Strumenti per la Caratterizzazione e la Diagnostica di Trasmettitori Digitali RF ing. Gianfranco Miele g.miele@unicas.it Trasmettitore

Dettagli

errore I = numero soggetti (I = 4) K = numero livelli tratt. (K = 3) popolazione varianza dovuta ai soggetti trattamento

errore I = numero soggetti (I = 4) K = numero livelli tratt. (K = 3) popolazione varianza dovuta ai soggetti trattamento Analisi della varianza a una via a misure ripetute (Anova con 1 fattore within) modello strutturale dell'analisi della varianza a misure ripetute con 1 fattore: y = μ ik 0 +π i +α k + ik ε ik interazione

Dettagli

Universita' di Ferrara Dipartimento di Matematica e Informatica. Algoritmi e Strutture Dati. Rappresentazione concreta di insiemi e Hash table

Universita' di Ferrara Dipartimento di Matematica e Informatica. Algoritmi e Strutture Dati. Rappresentazione concreta di insiemi e Hash table Universita' di Ferrara Dipartimento di Matematica e Informatica Algoritmi e Strutture Dati Rappresentazione concreta di insiemi e Hash table Copyright 2006-2015 by Claudio Salati. Lez. 9a 1 Rappresentazione

Dettagli

GUIDA ALLO SPESOMETRO IN SUITE NOTARO 4.1 SP4A

GUIDA ALLO SPESOMETRO IN SUITE NOTARO 4.1 SP4A GUIDA ALLO SPESOMETRO IN SUITE NOTARO 4.1 SP4A Comunicazione Spesometro 2 Attivazione 2 Configurazioni 3 Classificazione delle Aliquote IVA 3 Dati soggetto obbligato 4 Opzioni 5 Nuovo adempimento 6 Gestione

Dettagli

4.2. IL TEST F DI FISHER O ANALISI DELLA VARIANZA (ANOVA)

4.2. IL TEST F DI FISHER O ANALISI DELLA VARIANZA (ANOVA) 4.2. IL TEST F DI FISHER O ANALISI DELLA VARIANZA (ANOVA) L analisi della varianza è un metodo sviluppato da Fisher, che è fondamentale per l interpretazione statistica di molti dati biologici ed è alla

Dettagli

General Linear Model. Esercizio

General Linear Model. Esercizio Esercizio General Linear Model Una delle molteplici applicazioni del General Linear Model è la Trend Surface Analysis. Questa tecnica cerca di individuare, in un modello di superficie, quale tendenza segue

Dettagli

Dimensione di uno Spazio vettoriale

Dimensione di uno Spazio vettoriale Capitolo 4 Dimensione di uno Spazio vettoriale 4.1 Introduzione Dedichiamo questo capitolo ad un concetto fondamentale in algebra lineare: la dimensione di uno spazio vettoriale. Daremo una definizione

Dettagli

LA NOTAZIONE SCIENTIFICA

LA NOTAZIONE SCIENTIFICA LA NOTAZIONE SCIENTIFICA Definizioni Ricordiamo, a proposito delle potenze del, che = =.000 =.000.000.000.000 ovvero n è uguale ad seguito da n zeri. Nel caso di potenze con esponente negativo ricordiamo

Dettagli

Cos è l Ingegneria del Software?

Cos è l Ingegneria del Software? Cos è l Ingegneria del Software? Corpus di metodologie e tecniche per la produzione di sistemi software. L ingegneria del software è la disciplina tecnologica e gestionale che riguarda la produzione sistematica

Dettagli

DI D AGRA R MM M I M A BLOCC C H C I TEORI R A E D D E SERC R I C ZI 1 1

DI D AGRA R MM M I M A BLOCC C H C I TEORI R A E D D E SERC R I C ZI 1 1 DIAGRAMMI A BLOCCHI TEORIA ED ESERCIZI 1 1 Il linguaggio dei diagrammi a blocchi è un possibile formalismo per la descrizione di algoritmi Il diagramma a blocchi, o flowchart, è una rappresentazione grafica

Dettagli

IDENTIFICAZIONE dei MODELLI e ANALISI dei DATI. Lezione 40: Filtro di Kalman - introduzione. Struttura ricorsiva della soluzione.

IDENTIFICAZIONE dei MODELLI e ANALISI dei DATI. Lezione 40: Filtro di Kalman - introduzione. Struttura ricorsiva della soluzione. IDENTIFICAZIONE dei MODELLI e ANALISI dei DATI Lezione 40: Filtro di Kalman - introduzione Cenni storici Filtro di Kalman e filtro di Wiener Formulazione del problema Struttura ricorsiva della soluzione

Dettagli

La valutazione degli effetti dei Programmi: il progetto PQM e altre indagini sui dati acquisiti

La valutazione degli effetti dei Programmi: il progetto PQM e altre indagini sui dati acquisiti Seminario Valutazione PON Roma, 29 marzo 2012 La valutazione degli effetti dei Programmi: il progetto PQM e altre indagini sui dati acquisiti Elena Meroni - Università di Padova e INVALSI Daniele Vidoni

Dettagli

MANUALE D USO G.ALI.LE.O GALILEO. Manuale d uso. Versione 1.1.0. [OFR] - Progetto GALILEO - Manuale d uso

MANUALE D USO G.ALI.LE.O GALILEO. Manuale d uso. Versione 1.1.0. [OFR] - Progetto GALILEO - Manuale d uso [OFR] - - G.ALI.LE.O Versione 1.1.0 MANUALE D USO pag. 1 di 85 [OFR] - - pag. 2 di 85 [OFR] - - Sommario 1 - Introduzione... 6 2 - Gestione ALbI digitale Ordini (G.ALI.LE.O.)... 7 2.1 - Schema di principio...

Dettagli

Guida rapida all uso di ECM Titanium

Guida rapida all uso di ECM Titanium Guida rapida all uso di ECM Titanium Introduzione Questa guida contiene una spiegazione semplificata del funzionamento del software per Chiputilizzare al meglio il Tuning ECM Titanium ed include tutte

Dettagli

Gestore Comunicazioni Obbligatorie. Progetto SINTESI. Comunicazioni Obbligatorie. Modulo Applicativo COB. - Versione Giugno 2013 -

Gestore Comunicazioni Obbligatorie. Progetto SINTESI. Comunicazioni Obbligatorie. Modulo Applicativo COB. - Versione Giugno 2013 - Progetto SINTESI Comunicazioni Obbligatorie Modulo Applicativo COB - Versione Giugno 2013-1 Versione Giugno 2013 INDICE 1 Introduzione 3 1.1 Generalità 3 1.2 Descrizione e struttura del manuale 3 1.3 Requisiti

Dettagli

Accuratezza di uno strumento

Accuratezza di uno strumento Accuratezza di uno strumento Come abbiamo già accennato la volta scora, il risultato della misurazione di una grandezza fisica, qualsiasi sia lo strumento utilizzato, non è mai un valore numerico X univocamente

Dettagli

VALUTAZIONE DINAMICA DEL POTENZIALE DI APPRENDIMENTO IN UN BAMBINO CON DISTURBO DELLO SPETTRO AUTISTICO

VALUTAZIONE DINAMICA DEL POTENZIALE DI APPRENDIMENTO IN UN BAMBINO CON DISTURBO DELLO SPETTRO AUTISTICO Fondamenti teorici Vygotskji Zona di Sviluppo Prossimale Feuerstein VALUTAZIONE DINAMICA DEL POTENZIALE DI APPRENDIMENTO IN UN BAMBINO CON DISTURBO DELLO SPETTRO AUTISTICO Esperienza di Apprendimento Mediato

Dettagli

Ricerca Operativa Branch-and-Bound per problemi di Programmazione Lineare Intera

Ricerca Operativa Branch-and-Bound per problemi di Programmazione Lineare Intera Ricerca Operativa Branch-and-Bound per problemi di Programmazione Lineare Intera L. De Giovanni AVVERTENZA: le note presentate di seguito non hanno alcuna pretesa di completezza, né hanno lo scopo di sostituirsi

Dettagli

VALORE DELLE MERCI SEQUESTRATE

VALORE DELLE MERCI SEQUESTRATE La contraffazione in cifre: NUOVA METODOLOGIA PER LA STIMA DEL VALORE DELLE MERCI SEQUESTRATE Roma, Giugno 2013 Giugno 2013-1 Il valore economico dei sequestri In questo Focus si approfondiscono alcune

Dettagli

GESTIONE ATTREZZATURE

GESTIONE ATTREZZATURE SOLUZIONE COMPLETA PER LA GESTIONE DELLE ATTREZZATURE AZIENDALI SWSQ - Solution Web Safety Quality srl Via Mons. Giulio Ratti, 2-26100 Cremona (CR) P. Iva/C.F. 06777700961 - Cap. Soc. 10.000,00 I.V. -

Dettagli

Corso SOL Gestione catalogo libro moderno 21-22 settembre 2009

Corso SOL Gestione catalogo libro moderno 21-22 settembre 2009 Corso SOL Gestione catalogo libro moderno 21-22 settembre 2009 Introduzione generale Autenticazione dell operatore https://sebina1.unife.it/sebinatest Al primo accesso ai servizi di Back Office, utilizzando

Dettagli

Cos è il BULATS. Quali sono i livelli del BULATS?

Cos è il BULATS. Quali sono i livelli del BULATS? Cos è il BULATS Il Business Language Testing Service (BULATS) è ideato per valutare il livello delle competenze linguistiche dei candidati che hanno necessità di utilizzare un lingua straniera (Inglese,

Dettagli

Dal modello concettuale al modello logico

Dal modello concettuale al modello logico Dal modello concettuale al modello logico Traduzione dal modello Entita - Associazione al modello Relazionale Ciclo di sviluppo di una base di dati (da parte dell utente) Analisi dello scenario Modello

Dettagli

PROCEDURA DI INSTALLAZIONE DI MYSQL E VolT per utenti Visual Trader e InteractiveBrokers

PROCEDURA DI INSTALLAZIONE DI MYSQL E VolT per utenti Visual Trader e InteractiveBrokers PROCEDURA DI INSTALLAZIONE DI MYSQL E VolT per utenti Visual Trader e InteractiveBrokers La procedura di installazione è divisa in tre parti : Installazione dell archivio MySql, sul quale vengono salvati

Dettagli

Da una a più variabili: derivate

Da una a più variabili: derivate Da una a più variabili: derivate ( ) 5 gennaio 2011 Scopo di questo articolo è di evidenziare le analogie e le differenze, relativamente al calcolo differenziale, fra le funzioni di una variabile reale

Dettagli

GeoGebra 4.2 Introduzione all utilizzo della Vista CAS per il secondo biennio e il quinto anno

GeoGebra 4.2 Introduzione all utilizzo della Vista CAS per il secondo biennio e il quinto anno GeoGebra 4.2 Introduzione all utilizzo della Vista CAS per il secondo biennio e il quinto anno La Vista CAS L ambiente di lavoro Le celle Assegnazione di una variabile o di una funzione / visualizzazione

Dettagli

INCERTEZZA DI MISURA

INCERTEZZA DI MISURA L ERRORE DI MISURA Errore di misura = risultato valore vero Definizione inesatta o incompleta Errori casuali Errori sistematici L ERRORE DI MISURA Errori casuali on ne si conosce l origine poiche, appunto,

Dettagli

Studente: SANTORO MC. Matricola : 528

Studente: SANTORO MC. Matricola : 528 CORSO di LAUREA in INFORMATICA Corso di CALCOLO NUMERICO a.a. 2004-05 Studente: SANTORO MC. Matricola : 528 PROGETTO PER L ESAME 1. Sviluppare una versione dell algoritmo di Gauss per sistemi con matrice

Dettagli

Codifica dei numeri negativi

Codifica dei numeri negativi E. Calabrese: Fondamenti di Informatica Rappresentazione numerica-1 Rappresentazione in complemento a 2 Codifica dei numeri negativi Per rappresentare numeri interi negativi si usa la cosiddetta rappresentazione

Dettagli

Problem Management. Obiettivi. Definizioni. Responsabilità. Attività. Input

Problem Management. Obiettivi. Definizioni. Responsabilità. Attività. Input Problem Management Obiettivi Obiettivo del Problem Management e di minimizzare l effetto negativo sull organizzazione degli Incidenti e dei Problemi causati da errori nell infrastruttura e prevenire gli

Dettagli

Configuration Managment Configurare EC2 su AWS. Tutorial. Configuration Managment. Configurare il servizio EC2 su AWS. Pagina 1

Configuration Managment Configurare EC2 su AWS. Tutorial. Configuration Managment. Configurare il servizio EC2 su AWS. Pagina 1 Tutorial Configuration Managment Configurare il servizio EC2 su AWS Pagina 1 Sommario 1. INTRODUZIONE... 3 2. PROGRAMMI NECESSARI... 4 3. PANNELLO DI CONTROLLO... 5 4. CONFIGURARE E LANCIARE UN ISTANZA...

Dettagli

PRESENTAZIONE DEL CAPITOLO SULLE EQUAZIONI E DISEQUAZIONI IRRAZIONALI O COL VALORE ASSOLUTO

PRESENTAZIONE DEL CAPITOLO SULLE EQUAZIONI E DISEQUAZIONI IRRAZIONALI O COL VALORE ASSOLUTO 9 PRESENTAZIONE DEL CAPITOLO SULLE EQUAZIONI E DISEQUAZIONI IRRAZIONALI O COL VALORE ASSOLUTO Il capitolo che sta per iniziare presenta alcuni argomenti dall aspetto un po arido. Tuttavia, nelle facoltà

Dettagli

Basi di Dati prof. Letizia Tanca lucidi ispirati al libro Atzeni-Ceri-Paraboschi-Torlone. SQL: il DDL

Basi di Dati prof. Letizia Tanca lucidi ispirati al libro Atzeni-Ceri-Paraboschi-Torlone. SQL: il DDL Basi di Dati prof. Letizia Tanca lucidi ispirati al libro Atzeni-Ceri-Paraboschi-Torlone SQL: il DDL Parti del linguaggio SQL Definizione di basi di dati (Data Definition Language DDL) Linguaggio per modificare

Dettagli

RELAZIONE TRA DUE VARIABILI QUANTITATIVE

RELAZIONE TRA DUE VARIABILI QUANTITATIVE RELAZIONE TRA DUE VARIABILI QUANTITATIVE Quando si considerano due o più caratteri (variabili) si possono esaminare anche il tipo e l'intensità delle relazioni che sussistono tra loro. Nel caso in cui

Dettagli

PANDORA Sistema di Telecontrollo per Ascensori PANDORA is powered by

PANDORA Sistema di Telecontrollo per Ascensori PANDORA is powered by PANDORA Sistema di Telecontrollo per Ascensori l'espressione v a s o d i P a n d o r a viene usata metaforicamente per alludere all'improvvisa scoperta di un problema o una serie di problemi che per molto

Dettagli

CORSO DI CALCOLO DELLE PROBABILITÀ E STATISTICA. Esercizi su eventi, previsioni e probabilità condizionate

CORSO DI CALCOLO DELLE PROBABILITÀ E STATISTICA. Esercizi su eventi, previsioni e probabilità condizionate CORSO DI CALCOLO DELLE PROBABILITÀ E STATISTICA Esercizi su eventi, previsioni e probabilità condizionate Nota: Alcuni esercizi sono tradotti, più o meno fedelmente, dal libro A first course in probability

Dettagli

GESTIONE DELLA PROCEDURA

GESTIONE DELLA PROCEDURA Manuale di supporto all utilizzo di Sintel per Stazione Appaltante GESTIONE DELLA PROCEDURA Data pubblicazione: 17/06/2015 Pagina 1 di 41 INDICE 1. Introduzione... 3 1.1 Obiettivo e campo di applicazione...

Dettagli

CINECA - NOTE TECNICHE per la compilazione della Scheda Unica Annuale della Ricerca Dipartimentale (SUA-RD) PARTE I e II*

CINECA - NOTE TECNICHE per la compilazione della Scheda Unica Annuale della Ricerca Dipartimentale (SUA-RD) PARTE I e II* CINECA - NOTE TECNICHE per la compilazione della Scheda Unica Annuale della Ricerca Dipartimentale (SUA-RD) PARTE I e II* Indice 1. Informazioni generali 2. Parte I: obiettivi, gestione e risorse del Dipartimento

Dettagli

Appendice I. Principali procedure ed istruzioni per la gestione di files, l'analisi statistica di tipo descrittivo e la correlazione semplice

Appendice I. Principali procedure ed istruzioni per la gestione di files, l'analisi statistica di tipo descrittivo e la correlazione semplice . Principali procedure ed istruzioni per la gestione di files, l'analisi statistica di tipo descrittivo e la correlazione semplice Ordinamento di osservazioni: PROC SORT PROC SORT DATA=fa il sort è numerico

Dettagli

Corso di Informatica Generale (C. L. Economia e Commercio) Ing. Valerio Lacagnina Rappresentazione in virgola mobile

Corso di Informatica Generale (C. L. Economia e Commercio) Ing. Valerio Lacagnina Rappresentazione in virgola mobile Problemi connessi all utilizzo di un numero di bit limitato Abbiamo visto quali sono i vantaggi dell utilizzo della rappresentazione in complemento alla base: corrispondenza biunivoca fra rappresentazione

Dettagli

Dati importati/esportati

Dati importati/esportati Dati importati/esportati Dati importati Al workspace MATLAB script Dati esportati file 1 File di testo (.txt) Spreadsheet Database Altro Elaborazione dati Grafici File di testo Relazioni Codice Database

Dettagli

SCHEDA DI PROGRAMMAZIONE DELLE ATTIVITA EDUCATIVE DIDATTICHE. Disciplina: Matematica Classe: 5A sia A.S. 2014/15 Docente: Rosito Franco

SCHEDA DI PROGRAMMAZIONE DELLE ATTIVITA EDUCATIVE DIDATTICHE. Disciplina: Matematica Classe: 5A sia A.S. 2014/15 Docente: Rosito Franco Disciplina: Matematica Classe: 5A sia A.S. 2014/15 Docente: Rosito Franco ANALISI DI SITUAZIONE - LIVELLO COGNITIVO La classe ha dimostrato fin dal primo momento grande attenzione e interesse verso gli

Dettagli