Metriche di discriminanza e caratteristica. No Author Given

Dimensione: px
Iniziare la visualizzazioe della pagina:

Download "Metriche di discriminanza e caratteristica. No Author Given"

Transcript

1 Metriche di discriminanza e caratteristica No Author Given 1

2

3 Contents Metriche di discriminanza e caratteristica No Author Given 1 Teoria sulla capacità discriminante e caratteristica Introduzione Studio delle metriche biased Dalle metriche biased a quelle unbiased Metriche in grado di catturare la capacità discriminante e caratteristica Applicazioni delle metriche sulla capacità discriminate e caratteristica 15 1 Introduzione Campo applicativo: Text Categorization Le metriche adottate Esprimenti Dataset La legge di Zipf Esperimenti di classificazione Stopword globali vs Stopword dipendenti dal dominio Movimenti dei termini lungo la tassonomia Approfondimenti References

4

5 Chapter 1 Teoria sulla capacità discriminante e caratteristica 1 Introduzione Per la costruzione e la valutazione dei classificatori, in riconoscimento di forme, vengono utilizzate un gran numero di metriche. Un importante sottoinsieme di queste metriche è legato alla matrice di confusione: accuracy, precision, sensitivity (anche detta recall) e specificity etc. Nessuna di queste metriche è in grado di fornire informazioni sul processo sotto esame isolato dal resto del sistema; questo ha fatto si che, per valutare un classificatore o per assegnare un livello di importanza alla features, fin ora venissero applicate due differenti strategie: i) ideare singole metriche basandosi su quelle note e, ii) identificare una coppia di metriche in grado di mettere in evidenza le informazioni cercate. La prima strategia è quella adottata per la costruzione della metrica F 1 (?) e della metrica MCC (?), che sono spesso utilizzate per processi di costruzione e valutazione di modelli. Tipicamente fanno parte della seconda strategia i diagrammi sensitivity vs. specificity, i quali mettono in evidenza le informazioni importanti (es. curve ROC(?)) in un spazio cartesiano. Indipendentemente dalle strategie esposte, la maggior parte delle metriche esistenti sono biased, ovvero sono strettamente dipendenti dallo sbilanciamento tra esempi positivi e negativi. Sarebbe preferibile usare queste metriche solo quando le statistiche dei dati in ingresso sono disponibili. Se si vogliono valutare le proprietà intrinseche di un classificatore, o altri aspetti rilevanti nel processo di costruzione e valutazione, l uso di metriche biased è fortemente sconsigliato. Per questo motivo in letteratura sono state proposte diverse metriche unbasied - si veda il lavoro di Flach (?). In questo lavoro vogliamo presentare una coppia di metriche unbiased in grado di catturare il concetto di capacità discriminante e caratteristica. Ci aspettiamo che la prima metrica sia in grado di valutare in quale misura i campioni positivi siano ben separati rispetto ai negativi (separabilità); mentre ci aspettiamo che la seconda metrica sia in grado rilevare la qualità di un eventuale cluster che raggruppa esempi positivi e negativi (coesione). 5

6 6 Contents 2 Studio delle metriche biased Uno dei strumenti di base per la valutazione di un classificatore è la matrice di confusione. Il generico elemento ξ i j della matrice di confusione Ξ è il numero di esempi che soddisfano la proprietà specificata dai pedici. Limitandoci ad un problema binario, nel quale gli esempi sono descritti in termini di features binarie, assumiamo che 1 e 0 individuino la presenza e l assenza delle proprietà. In particolare chiamiamo Ξ c (P,N) la matrice di confusione nella quale un classificatore ĉ, costruito sulla categoria c, è alimentato con P esempi positivi e N esempi negativi (per un totale di M esempi ). Chiamiamo X c l output del classificatore ĉ e X c quello dell oracolo c. La probabilità congiunta p(x c, X c ) è proporzionale, attraverso M, al valore atteso Ξ c (P,N). In simboli: E [Ξ c (P,N))] = M p(x c, X c ) (1) Dal punto di vista statistico, la matrice di confusione ottenuta da un singolo test (o meglio la media su un insieme di test nei quali P e N sono invariati) fornisce informazioni affidabili sulle prestazioni del classificatore. In simboli: Ξ c (P,N) M p(x c, X c ) = M p(x c ) p( X c X c ) (2) In questo modo, assumiamo che la trasformazione eseguita da ĉ sia indipendente dai dati ricevuti in input, almeno da un punto di vista statistico. Quindi la matrice di confusione per un dato insieme di input può essere scritta come il prodotto tra un termine che tiene conto del numero esempi positivi e negativi, e uno che rappresenta l error rate di X c. in cui: [ ] [ ] [ ] ω00 ω Ξ c (P,N) = M 01 n 0 γ00 γ = M 01 ω 10 ω 11 0 p γ 10 γ 11 } {{ } } {{ } } {{ } O(c) p(x c ) Ω(c) p(x c, X c ) Γ (c) p( X c X c ) (3) ω i j p(x c = i, X c = j), i, j = 0,1, individua l co-occorrenza della corretta classificazione (i = j) o dell errata classificazione (i j). In accordo con la legge della probabilità totale: i j ω i j = 1. p è la percentuale di esempi positivi e n è la percentuale di esempi negativi. γ i j p( X c = j X c = i), i, j = 0,1, è la percentuale di input correttamente classificati (i = j) o erroneamente classificati (i j) by X c. γ 00,γ 01,γ 10, and γ 11 indicano rispettivamente i veri negativi, i falsi positivi, i falsi negativi, e i veri positivi. In accordo con la legge della probabilità totale: γ 00 + γ 01 = γ 10 + γ 11 = 1. La stima della probabilità condizionata p( X c X c ) per il classificatore ĉ, tenuto conto dell oracolo c, può essere definita come matrice di confusione normalizzata.

7 Contents 7 La separazione tra ingressi e comportamento intrinseco del classificatore riportata nell equazione (3), suggerisce un interpretazione che ricorda il concetto di funzione di trasferimento, in cui un set di ingressi è applicato al classificatore ĉ. Infatti l equazione (3) mette in evidenza la separazione tra il comportamento ottimale del classificatore e il deterioramento introdotto dalla sua capacità di filtraggio. In particolare, O p(x c ) rappresenta il comportamento ottimale raggiungibile quando ĉ si comporta come l oracolo, mentre Γ p( X c X c ) rappresenta la deteriorazione attesa causata dal classificatore. Quindi ogni matrice di confusione, usando il teorema di Bayes, può essere decomposta in termini di comportamento ottimo e deteriorazione attesa. Nel caso in cui la matrice di confusione venga usata per analizzare feature binarie, i indica la categoria predetta e j rappresenta il valore vero della feature binaria (con 0 e 1 che rappresentano i valori Falso e Vero). Tuttavia, una feature binaria può essere vista come un semplice classificatore il cui output di classificazione riflette il vero valore della feature per i campioni dati; tutte le definizioni e i commenti riguardanti i classificatori possono essere applicati alle feature binarie. Andiamo ora ad analizzare le metriche note ritenuti utili per il pattern recognition e il machine learning in accordo con le prospettiva introdotta. Le definizioni classiche di accuracy (a), precision (π), e recall (ρ) possono essere scritte in termini di false positives rate ( f p), true positives rate (t p) e class ratio(sbilanciamento tra esempi positivi e negativi,σ) come segue: a = trace(ω) Ω ω 01 π = = ω 01 + ω 11 ρ = = ω 00 + ω 11 = σ (1 γ 01) + γ 11 σ (1 f p) +t p = 1 σ + 1 σ + 1 ( ) 1 ( 1 + σ γ01 = 1 + σ f p ) 1 γ 11 t p ω 11 ω 11 + ω 10 = γ 11 = t p (4) L equazione (4) mete in evidenza la dipendenza dell accuracy e della precision dal class ratio; solo la recall risulta esserne indipendente 1. La Tabella 1 mostra i simboli utilizzati nel report. Le metriche più popolari per la valutazione delle performance sono F 1 e MCC e sono entrambe biased. La dipendenza della F 1 dal class ratio è evidente dal momento che la F 1 è definita in termini della precision. Per quanto riguarda l MCC, osservando la definizione classica (Equazione 5), non è chiaro perché sia un misura biased: MCC = T N T P FP FN P N P N Tuttavia, ponendo (tn t p f p f n) de f =, possiamo scrivere: (5) 1 per il calcolo dell accuracy p + n = 1 implica p = 1/(σ + 1) and n = σ/(σ + 1).

8 8 Contents Table 1: Entità rilevanti usate per caratterizzare, o estratte da, la matrice di confusione (M è il numero totale di campioni). Simnolo Descrizione Note N,P Numero di esempi neg e pos N + P = M N, P Numero di esempi classificati come neg e pos N + P = M T N, FP Numero di veri negativi e falsi positivi T N + FP = N FN, T P Numero di false negative e true positive FN + T P = P n, p Percentuale di esempi positivi e negativi n + p = 1 n, p Percentuale di esempi classificati come positivi n + p = 1 e negativi tn, f p True neg rate e false pos rate tn + f p = 1 f n, t p False neg rate e true pos rate f n +t p = 1 σ Sbilanciamento tra esempi positivi e negativi σ = N/P = n/p n = σ/(1 + σ) p = 1/(1 + σ) a Accuracy a = (T N + T P)/M ρ, ρ Specificity e sensitivity (recall) ρ = T N/N tn ρ = T P/P t p π, π Negative predicted value e precision π = T N/ N π = T P/ P MCC = N P N P = P N P N P N = π ρ π ρ (6) in cui π e π sono la precision e la precision negata, mentre ρ e ρ sono la sensitivity (i.e. recall) e la specificity. Si noti che è il determinante della matrice di confusione normalizzata Γ, dato che tn t p f p f n γ 00 γ 11 γ 01 γ 10. L Equazione (6) mette chiaramente in evidenza che anche l MCC è biased, dal momento che è definito in termini della precision e della precision negata. 3 Dalle metriche biased a quelle unbiased Quando l obiettivo è quello di valutare le proprietà intrinseche del classificatore o di una feature, le metriche biased non sembrano essere una scelta idonea, lasciando spazio a definizioni alternative che mirano ad occuparsi dello sbilanciamento tra esempi positivi e negativi. In (?), Flach fornisce alcune definizioni di metriche unbiased a partire dalle metriche classiche. Notiamo che le formule di accuracy, precision e recall proposte possono essere ottenute sostituendo nell Equazione 4 la probabilità congiunta Ω con la matrice di confusione normalizzata Γ. Possiamo quindi scrivere:

9 Contents 9 a u = trace(γ ) Γ π u = γ 11 γ 01 + γ 11 = ρ u = γ 11 γ 11 + γ 10 = t p ρ = γ 00 + γ 11 = 1 f p +t p 2 2 ( 1 + f p ) 1 t p (7) Indichiamo col pedice u le metriche ubiased. In pratica, le metriche unbiased possono essere ottenute a partire da quelle classiche ponendo lo sbilanciamento σ a 1. Ovviamente, anche F 1 e MCC possono essere riformulate. In particolare, le versioni unbiased di F 1 e MCC, si ottengono sostituendo π, π, ρ e ρ con le loro versioni unbiased. Per quanto riguarda la F 1 questa sostituzione è stata già proposta da Flach, mentre la versione unbiased dell MCC è: MCC u = π u ρ u πu ρ u = t p/ p t p/p tn/ n p n tn/n = p n (8) 4 Metriche in grado di catturare la capacità discriminante e caratteristica In base alle nostre conoscenze, non sono ancora state definite delle metriche che catturano in modo soddisfacente il potenziale di un modello in termini di capacità discriminante e caratteristica. Con l obiettivo di colmare questa lacuna, spendiamo alcune parole sul comportamento atteso delle metriche che dovranno misurare queste capacità. Senza perdere generalità, assumiamo che le metriche siano definite tra [ 1, +1]. Per quanto riguarda la capacità discriminante, ci aspettiamo che sia prossima a +1 quando il classificatore o la feature dividono il set di campioni in forte accordo con le etichette di classe (ovvero con l oracolo). Di conseguenza ci aspettiamo che la metrica sia circa 1 quando la divisione dei campioni è totalmente discorde con le etichette. Ci aspettiamo che la capacità caratteristica sia circa +1 quando un classificatore o una feature tendono a raggruppare gli esempi come se questi appartenessero alla stessa categoria. Viceversa, ci aspettiamo che la capacità caratteristica sia circa 1 quando gli esempi sono raggruppati come se appartenessero alla classe alternativa 2. Un immediata conseguenza del comportamento desiderato è che le proprietà sopra esposte non sono indipendenti. In altre parole, senza tener conto delle definizioni, ci aspettiamo che le misure di discriminanza e caratteristica (che da qui in poi chiamiamo δ e ϕ) abbiano un comportamento ortogonale. In particolare, quando il valore assoluto di una delle due metriche e circa 1 il valore assoluto dell altra è circa 0 (vedi la Tabella 2). 2 La capacità caratteristica da noi introdotta è in disaccordo con il concetto comune di proprietà caratteristica.

10 10 Contents Table 2: Comportamento delle metriche proposte Nome Grandezza misurata Dominio Comportamento atteso δ capacità Discriminante [-1, +1] δ = ±1 ϕ = 0 ϕ capacità Caratteristica [-1, +1] ϕ = ±1 δ = 0 Andiamo a studiare con maggiore dettaglio le due metriche focalizzandoci sui classificatori (lo stesso discorso vale per le feature): f p 0 e t p 1 δ +1 e ϕ 0: il classificatore è in grado di separare gli esempi in perfetto accordo con le etichette. f p 1 e t p 1 δ 0 e ϕ +1: la maggior parte degli esempi sono riconosciuti come appartenenti alla classe principale. f p 0 e t p 0 δ 0 e ϕ 1: la maggior parte degli esempi sono riconosciuti come appartenenti alla classe alternativa. f p 1 e t p 0 δ 1 e ϕ 0: il classificatore è in grado di suddividere il dominio quasi completamente in disaccordo con le etichette di classe (tuttavia questa capacità può essere sfruttata per scopi di classificazione semplicemente invertendo l output del classificatore). Per capire meglio i concetti sopra esposti, riportiamo in Figura 1 le dipendenze di δ e ϕ a partire dalla corrispondete matrice di confusione, facendo variare t p and f p (grigio chiaro individua valori bassi e grigio scuro individua valori alti). fp! 0, tp! 1 fp! 1, tp! 1 fp! 0, tp! 0 fp! 1, tp! 0 Fig. 1: Casi rilevanti per δ e ϕ.

11 Contents 11 Il determinane della matrice di confusione normalizzata è il punto di partenza per una adeguata definizione di δ e ϕ, in grado di soddisfare i vincoli e le condizioni di contorno discusse in precedenza. Il determinante può essere scritto come segue: = γ 00 γ 11 γ 01 γ 10 = γ 00 γ 11 (1 γ 00 ) (1 γ 11 ) = γ 00 γ γ 11 + γ 00 γ 00 γ 11 = γ 11 + γ 00 1 = ρ + ρ 1 t p f p (9) Quando = 0, il classificatore sotto esame non ha capacità discriminante mentre, quando = +1 e = 1 implicano la massima capacità discriminante tra esempi positivi e negativi, rispettivamente. E chiaro che la più semplice definizione di δ coincide con, dal momento che quest ultimo ha tutte le proprietà desiderate per la metrica della capacità discriminante. Per quanto riguarda ϕ, tenendo conto della definizione di δ e dei vincoli che devono essere rispettati, la seguente definizione appare la più appropriata, essendo duale rispetto a δ anche da un punto di vista sintattico: ϕ = ρ ρ = t p + f p 1 (10) La Figura 2 riporta le curve isometriche tracciate per differenti valori di δ e ϕ al variare, rispettivamente, di t p e f p. Fig. 2: Curve isometriche di δ e ϕ al variare del true positive and false positive rate. La figura indica chiaramente che le due misure possono essere prese in combinazione per analizzare le proprietà dei classificatori o delle feature. Il test di un classificatore su un insieme di esempi, differenti esperimenti di classificazione su test set multipli e la statistica riguardo l assenza o presenza di una feature in un dataset specifico sono tutti esempi di potenziali casi d uso. In ogni caso lo spazio

12 12 Contents ϕ δ è definito in un area romboidale. Tale area dipende dai vincoli di δ, ϕ, t p e f p. Il rombo è centrato in (0,0). Dato che δ = t p f p e ϕ = t p + f p 1, esiste la seguente relazione: δ = ϕ + (2 t p 1) = +ϕ + (2 f p + 1) (11) Considerando t p e f p come parametri, si possono facilmente tracciare le curve isometriche nello spazio definito. La Figura 3 mostra il loro andamento per t p = {0,0.5,1} e for f p = {0,0.5,1}. Fig. 3: Spazio ϕ δ. Dato che δ e ϕ sono definite come trasformazioni lineari in t p e f p, non è sorprendente che le curve isometriche di t p e f p siano delle linee rette. Semantica dello spazio ϕ δ per classificatori. In caso di classificatori binari, la loro capacità discriminante è legata al concetto di unbiased accuracy,la quale può essere espressa in termini di unbiased error (e u ). a u = tn +t p 2 = 1 + δ 2 = 1 1 δ 2 = 1 f p + f n 2 = 1 e u (12) E necessario ricordare che la capacità discriminante non è una ridefinizione dell accuracy (o errore), dato che un classificatore può comunque avere un elevata capacità discriminante anche in presenza di un elevato errore unbiased. Infatti, come già puntualizzato, un classificatore binario con basse performance può essere facilmente in uno a prestazioni elevate considerando l output negato (ovvero considerare negativi gli esempi classificati come positivi e viceversa). In questo modo la capacità discriminante di un classificatore coincide col valore assoluto di δ. Ad ogni modo, per ragioni legate al contenuto informativo del diagramma ϕ δ, conside-

13 Contents 13 riamo ancora separati gli aspetti legati alla discriminanza positiva e negativa. Per quanto riguarda la capacità caratteristica, si noti che, in presenza di significatività statistica, è possibile scrivere: E[X c ] 1 (P N) = (p n) M E[ X c ] 1 ( ) M P N = (p n) + 2 n f p 2 p f n (13) Quindi la differenza in termini di valore atteso tra l oracolo e il classificatore è: E[X c X c ] = E[X c ] E[ X c ] 2 n f p + 2 p f n (14) In accordo con Friedman (?), è facile mostrare che l equazione 14 rappresenta una stima del bias (l errore sistematico) di un classificatore, calcolato analizzando la matrice di confusione associata alla valutazione degli esperimenti su uno o più test set. Andiamo a verificarlo partendo dalla definizione classica definita da Friedman (?): bias ˆf (X) = f (X) E[ ˆf (X)] (15) in cui f (X) corrisponde all output dell oracolo sul set X di campioni e E[ ˆf (X)] al valore atteso su X del corrispondente classificatore. Assumendo, senza perdita di generalità, che l output del classificatore binario sia { 1, +1}, è facile mostrare che in presenza di significatività statistica si mantengono le seguenti relazioni: f (X) = 1 X h(s) = (p n) s X E[ ˆf (X)] = 1 X ĥ(s) = (p n) + 2 n f p 2 p f n s X (16) dove h(s) e ĥ(s) rappresentano l output dell oracolo e del classificatore su un campione s, mentre n e p rappresentano rispettivamente la percentuale di esempi negativi e positivi. 3 L Equazione (16) chiarisce che, in generale, il bias di un classificatore dipende dal rapporto tra campioni negativi e positivi, e può essere riformulato in termini di class ratio, true positive rate e false positive rate, nel seguente modo: bias ˆf (X) = 2 n f p + 2 p f n = 2 (1 t p) 2 σ f p 1 + σ In condizioni di perfetto bilanciamento (cioè quando σ = 1), l Equazione (17) può essere riformulata come segue: 3 Per semplicità, assumiano che il classificatore abbia un comportamento deterministico; in questo modo il valore atteso di ˆf (X) può essere trascurato. Tuttavia, è facile verificare che, in presenza di significatività statistica, la formulazione del bias in termini di true positive rate e false positive rate rimane la stessa. (17)

14 14 Contents bias ˆf (X) = 1 t p f p ϕ (18) Vale la pena notare che il segno meno nell Equazione (18) è una conseguenza della definizione classica di bias, il quale tipicamente misura quanto la risposta del classificatore differisce da quella dell oracolo sulla distribuzione dei dati utilizzati. Questo effetto ha un impatto minore quando il bias è usato per calcolare l errore quadratico medio, dato che, in esso, il bias appare sotto radice quadrata. Tuttavia, nel caso si voglia identificare la differenza tra la risposta del classificatore e quella dell oracolo, la migliore formulazione del bias potrebbe essere definita partendo da E[ ˆf (X)] f (X), facendo corrispondere l asse ϕ con il (unbiased) bias. Conseguentemente, l asse ϕ fornisce l informazione desiderata sul bias. In particolare, quando le performance di un classificatore misurate su un test set X si posizionano sul semipiano positivo di ϕ, si potrebbe affermare che il classificatore ha un bias positivo verso la classe principale (+1)e viceversa ovviamente, il punto di forza dei questa assunzione dipende da quanto il test è statisticamente significativo. Riassumendo, in un diagramma ϕ δ utilizzato per valutare un classificatore, gli assi δ e ϕ rappresentano l accuracy e l errore sistematico nei casi unbiased. Un elevato valore di discriminanza (δ 1) indica che il classificatore tende ad avere prestazioni di un oracolo (ogni esempio è correttamente classificato), mentre un valore fortemente negativo (δ 1) simula un anti-oracolo (ogni esempio è classificato non correttamente). Un valore fortemente positivo della capacità caratteristica (ϕ 1) assume un comportamento tipico di un classificatore dummy (ogni esempio è classificato come appartenente alla categoria considerata), mentre un valore fortemente negativo simula il comportamento di un classificatore dummy che considera ogni esempio di test come non appartenente alla categoria in esame. Semantica dello spazio ϕ δ per le feature. Nel caso di feature binarie, δ valuta in che misura una feature è capace di suddividere gli esempi in accordo (δ 1) o in disaccordo (δ 1) con la categoria principale. In entrambi i casi la feature presenta un elevata capacita discriminanza. Come visto per i classificatori, anche in questo caso teniamo ancora separati gli aspetti legati a valori di discriminanza positivi e negativi. D altra parte, ϕ valuta in che misura una feature è diffusa nel dataset. Un elevato valore positivo indica che la feature è positiva (ovvero è presente nella maggior parte degli esempi positivi e negativi), mentre un valore fortemente negativo indica che la feature è presente in un numero di esempi trascurabile rispetto all intera popolazione del dataset.

15 Chapter 2 Applicazioni delle metriche sulla capacità discriminate e caratteristica 1 Introduzione Nel campo dell Information Retrieval (IR) e Machine Learning, le parole molto frequenti e poco significative presenti in un documento sono chiamate stopword. Le stopword sono termini che non danno informazioni sui contenuti di un documento e, se usate come feature in un contesto di machine learing, non sono in grado di distinguere la categoria di appartenenza del documento da un altra. Per questi motivi le stopword sono considerate rumore e, a seconda delle tecniche adottate, possono ridurre le prestazioni del sistema di information retrieval. Solitamente le stopword vengono perciò rimosse dalla spazio delle feature. Le liste di stopword tradizionali (stoplist, da qui in avanti) contengono solo le parole più frequenti in una data lingua (?,?). Dal momento che ogni documento è unico, potrebbe essere utile definire metodi ed algoritmi in grado di costruire in modo automatico stoplist differenti per ciascuna collezione di documenti. Gli algoritmi dello stato dell arte per l identificazione automatica di stopword tengono conto dell intera collezione di documenti (?,?,?). In molteplici ambiti applicativi, come per esempio quello della classificazione di testo, i documenti sono raggruppati in categorie in funzione dell argomento trattato. Noi riteniamo che l identificazione di una appropriata lista di stopword costruita in modo automatico e dinamico possa migliorare le prestazioni dei sistemi di IR. Consideriamo, per esempio, il dominio Sport, contenente le categorie Volleyball, Basket e Football ; intuitivamente la parola ball potrebbe essere considerata una stopword dal momento che, nel dominio considerato, sono è in grado di discriminare tra le tre categorie. E quindi chiaro che sarebbe opportuno arricchire la classica stoplist con termini dipendenti dal dominio (chiamiamo queste stopword domain-dependent stopword mentre chiamiamo global stopword quelle classiche). Inoltre, dato che questo lavoro è inserito in un progetto sulla generazione automatica di tassonomie, abbiamo studiato un metodo per l identificazione della stoplist appropriata per ciascun nodo di una tassonomia e abbiamo studiato il ruolo di ciascun termine al variare del livello della tassonomia. Lo scopo di questa analisi è quello di verificare se le 15

16 16 Contents stopword domain-dependet hanno un ruolo differente nel nodo padre e nei diversi nodi antenato. Per esempio, la parola ball che è una stopwords per il dominio Sport (composto come descritto in precedenza), potrebbe essere una parola discriminante in un dominio più generale che contiene Sport come categoria. Si pensi per esempio al dominio costituito dalla categorie Sport, Musica e Economia ; in questo caso la parola ball potrebbe essere fortemente discriminante per identificare la categoria Sport. Con questo lavoro vogliamo proporre un metodo per identificare in modo automatico la stoplist appropriata per ciascun dominio. Questo metodo è basato sulla misura della capacità discriminante e della capacità caratteristica di ciascun termine presente nei documenti del dominio analizzato. La capacità discriminante aumenta in funzione della capacità del termine di distinguere una categoria rispetto alla categorie avversarie, mentre la capacità caratteristica aumenta in relazione a quanto il termini è frequente e comune nei documenti del dominio (quindi aumenta in relazione a quanto il termine tende ad aggregare i documenti di diverse categorie del dominio). Allo scopo di capire l importanza delle stopword nei processi di classificazione, abbiamo implementato una serie di esperimenti di text classification. Le metriche introdotte permettono di individuare sia le stopword domain-dependent che le stopword classiche. Inoltre utilizziamo queste stesse metriche per valutare le performance di classificazione. Abbiamo inoltre implementato una serie di esperimenti per studiare il comportamento dei termini lungo i livelli di una tassonomia; lo scopo di questi esperimenti è quello di confermare la teoria secondo la quale le stopword domain-dependent modificano il loro comportamento salendo di livello nella tassonomia, diventando per esempio termini caratterizzati da un alta capacità discriminante. 2 Campo applicativo: Text Categorization Il campo applicativo di questo lavoro è la classificazione testuale, in cui i dati da categorizzare sono i documenti testuali (per esempio pagine web, notizie on-line, articoli scientifici o e-book). Secondo Luhn (?), in ogni documento solo un ristretto numero di termini sono rilevanti ai fini dell information retrieval. Le parole che non hanno contenuto informativo e che occorrono spesso in un documento sono chiamate stopwords. Tra questi termini troviamo i pronomi, gli articoli, le preposizioni, le congiunzioni, alcuni verbi etc. (?). In linea di principio le stopword si presentano in tutti i documenti. Il lavoro di Francis and Kucera (?) mostra che le 10 parole più frequenti nei documenti in lingua inglese tipicamente occorrono tra il 20 e il 30 percento sul totale di tutte le parole presenti in un documento. Inoltre, Hart (?) ha stimato che oltre il 50% di tutte le parole presenti in un documento in lingua inglese, appartiene ad un set di 135 termini comuni estratti dal Brown corpus (?). Ci si aspetta che le stopword abbiano un bassissimo potere discriminante e che tendano ad occorrere nella maggior parte dei documenti di un dominio; quindi, le stropword introducono rumore nei processi di IR (?). Per questo motivo, una sto-

17 Contents 17 plist è di solito è costituita da parole che dovrebbero essere filtrate durante la fase di pre-processing dei documenti, dal momento che queste ultime potrebbero ridurre l efficacia del recupero. Generalmente le stoplist comprendono solo i termini che occorrono maggiormente nei documenti di una data lingua. Sono stati sviluppati diversi sistemi in grado di costruire questa lista in modo automatico. SMART (?) è stato il primo sistema a costruire in modo automatico una stoplist per la lingua inglese contenente 571 termini. Fox (?) propose una lista di 421 termini, e successivamente derivò una stoplist dal Brown Corpus (?). Questo set è stato utilizzato come standard in molti successivi lavori di ricerca (?). Tuttavia, l uso di una stoplist fissa (indipendente dalla collezioni di documenti sotto esame) potrebbe influenzare negativamente le prestazioni del sistema di IR. In altre parole, noi crediamo che, essendo ciascuna collezione di documenti unica, sarebbe utile definire metodi e algoritmi in grado di generare automaticamente una stoplist specifica per ogni collezione di documenti. Esistono diverse metriche per pesare i termini di una collezione di documenti al fine di identificare una appropriata stoplist. La metrica più usata a questo scopo è la TF-IDF (?), che prevede un peso proporzionale a due contributi: la frequenza di un termine in un documento (term frequency) e l inverso del numero di documenti nei quali il termini occorre (inverse document frequency). Usando la TF-IDF permette di ordinare i termini in funzione della metrica e di filtrare quelli che occorrono più spesso nella collezione (?). Un altro approccio si basa sull entropia come misura di discriminanza (?). L entropia, in questo caso,, è correlata alla variazione della frequenza di un termine in un insieme di documenti; questo significa che un termine molto frequente in un numero ristretto di documenti, ma molto poco frequente in altri, ha un elevata entropia rispetto a termini che hanno la stessa frequenza in tutti i documenti della collezione. I termini possono essere poi ordinati secondo entropia crescente in modo da mettere in evidenza i termini che, con maggiore probabilità, saranno considerati rumore. Dal momento che la maggior parte degli approcci non valutano il potere discriminante dei termini, noi proponiamo un approccio che sfrutta tramite due nuove metriche è in grado di misuralo. Le metriche adottate sono la capacità discriminante e la capacità caratteristica (?). La prima aumenta in relazione alla capacità del termine di distinguere una data categoria rispetto alle altre. La seconda aumenta in relazione a quanto il termine è frequente è comune in tutti i documenti del dominio considerato. I termini aventi elevata capacità caratteristica e bassa capacità discriminate li consideriamo stopword. Dal momento che questo lavoro fa parte di un progetto per la generazione delle tassonomie, abbiamo sfruttato le metriche adottate anche per definire un nuovo algoritmo di generazione di tassonomie. Le tassonomie sono diventate essenziali in un numero crescente di ambiti applicativi. Per esempio, nel caso della ricerca via web. l organizzazione di query per specifici domini in una gerarchia può aiutare a capire meglio la query stessa e a migliorare i risultati di ricerca (?) (?). Le tassonomie, originariamente costruite a mano, hanno iniziato recentemente ad essere costruite in modo automatico. Le motivazioni sono ovvie: la costruzione manuale è processo laborioso e la tassonomia risultante spesso è fortemente soggettiva rispetto ad una

18 18 Contents tassonomia costruita in maniera automatica in funzione dei dati. Inoltre, l approccio automatico potrebbe servire per far comprendere meglio i veloci cambiamenti di un dominio. Esistono diversi lavori che tentano di dedurre una tassonomia in maniera automatica per domini specifici (?,?,?). Come supporto alla generazione automatica di tassonomie noi sfruttiamo le metriche sopra citate. 3 Le metriche adottate In questo lavoro applichiamo le metriche di discriminanza e caratteristica nell ambito della categorizzazione testuale. Nel campo della categorizzazione testuale, il termine t contenuto in un documento è il campione sotto analisi; esso può essere considerato un esempio positivo se il termine è contenuto in un documento appartenente alla classe principale C ed un esempio negativo se il documento che lo contiene appartiene alla classe avversaria C. Per ulteriori informazioni si veda la Tabella 3. Table 3: Componenti della matrice di confusione nell ambito della Text Classification Semantica Simbolo Descrizione TP #(t,c) #docs di C contenenti t FP #(t, C) #docs di C contenenti t FN #( t,c) #docs di C che non contengono t TN #( t, C) #docs di C che non contengono t P #(C) #docs of C N #( C) #docs di C Per ogni termine, δ aumenta in relazione all abilità del termine di distinguere una data categoria rispetto alle altre, mentre ϕ aumenta in relazione a quanto il termine è frequente e comune nei documenti di tutte le categorie del dominio considerato. Definiamo ϕ e δ nell ambito della categorizzazione testuale nel seguente modo: δ = #(t,c) #(C) #(t, C) #( C) ϕ = #(t,c) #(C) #( t, C) #( C) (19) (20)

19 Contents 19 Ci aspettiamo che i termini importanti per la classificazione testuale appaiano negli angoli superiore e inferiore del rombo mostrato in Figura 3, dal momento che essi hanno un elevato valore del δ. Nello specifico, i termini che hanno un valore positivo elevato di δ sono altamente discriminanti per identificare documenti che appartengono a C, mentre i termini che hanno un valore negativo elevato di δ sono rilevanti per identificare documenti che appartengono a C. Idealmente δ è pari a +1 quando il termine occorre in tutti i documenti di C e in nessun documento di C, viceversa δ è uguale a -1 quando il termine occorre in tutti i documenti di C e in nessun documento di C. Per quanto riguarda ϕ, i termini che occorrono raramente in tutti i documenti del dominio tendono a posizionarsi nell angolo sinistro del rombo (hanno elevati valori negativi di ϕ), mentre le stopword tendono a posizionarsi nell angolo destro del rombo (sono caratterizzate da valori positivi elevati di ϕ). Idealmente, ϕ = +1 quando il termine occorre in tutti i documenti del dominio, mentre ϕ = 1 è completamente assente nei documenti del dominio. La Figura?? evidenzia i diversi casi descritti. Ci aspettiamo che i termini che si posizionano nell angolo sinistro del rombo non siano necessariamente stopword convenzionali (articoli, congiunzioni, pronomi etc). In realtà, anche stopword dipendenti dal dominio possono posizionarsi in tale regione del rombo. 4 Esprimenti Allo scopo di valutare l importanza delle stopword, sono stati implementati diversi esperimenti. In primo luogo, sono stati eseguiti degli esperimenti di classificazione per determinare le relazioni tra le metriche adottate e le prestazioni dei classificatori; successivamente ci si è focalizzati sull analisi delle stoplist ottenute tramite le metriche ϕ e δ; infine, è stato analizzato il comportamento delle stopword lungo i diversi livelli di una tassonomia. 4.1 Dataset Per l esecuzione degli esperimenti è stato utilizzata una collezione di pagine web. Il dataset è stato estratto dalla tassonomia DMOZ ( che è una collezione di documenti HTML ed è una delle tassonomie più utilizzate dai motori di ricerca. Il dataset estratto contiene 174 classi, per un totale di circa documenti organizzati in 36 domini. Ciascun dominio è costituito da un insieme di classi sibling (classi figlie di uno stesso padre). Da ogni pagina sono state estratte le informazioni testuali ed è stato rimosso il rumore (tag e meta-dati). Ogni documento è stato convertito in una bag of words in cui ogni termine è descritto in termini di ϕ e δ, calcolati applicando le equazioni 19 e 20.

20 20 Contents 4.2 La legge di Zipf Nel paragrafo 3 è stato descritto il posizionamento teorico dei termini all interno del rombo, nel quale ciascun termine è rappresentato da un punto nello spazio ϕ- δ; chiamiamo spettro l insieme dei punti rappresentanti tutti i termini contenuti nei documenti di una data categoria. Per verificare che i termini che occorrono raramente nei documenti di posizionano nell angolo sinistro, riportiamo lo spettro della categoria Theater (Figura 4a). Lo stesso comportamento lo riscontriamo anche negli spettri delle altre categorie del dataset Dataset dictionary Zipf s Law Word Frequency (a) Word Rank (b) Fig. 4: (a) Spettro della classe Theatre e(b) legge di Zipf. Proprio come previsto tutti i termini cadono all interno dell area del rombo, come dimostra la Figura 4a. La maggior parte dei termini sono concentrati nell angolo sinistro del rombo e sono quindi caratterizzati da elevati valori negativi di ϕ; questo significa che la maggior parte dei termini sono rari e poco comuni nei documenti della classe considerata. Questo proprietà degli spettri è in accordo con la legge di Zipf ((?)) che afferma che, in un dato corpus, la frequenza di ogni termine è inversamente proporzionale alla sua posizione in una lista ordinata in base alla frequenza. Idealmente, il termine più frequente occorrerà circa il doppio delle volte rispetto al secondo termine più frequente, e tre volte rispetto al terzo termine più frequente, etc. La Figura 4b mostra un diagramma in scala log-log in cui l asse x rappresenta la posizione del termine nella lista ordinata in funzione della frequenza e l asse y rappresenta il numero di occorrenze del termine. La legge di Zipf è lineare nello spazio log-log e,come mostra la Figura 4b, l insieme dei termini, presenti nei documenti della classe Theatre, seguono tale andamento.

21 Contents Esperimenti di classificazione Per capire l importanza delle stopword nei processi di classificazione, sono stati eseguiti una serie di esperimenti. Gli esperimenti mirano da un a lato ad evidenziare gli incrementi di prestazioni di classificazione ottenuti sfruttando i termini con alti valori di discriminanza, e dall altro a mostrare i decrementi di prestazioni dovuti alla presenza delle stopword. A tale scopo riportiamo gli esperimenti relativi a classi aventi due differenti distribuzioni spettrali: classi aventi spettro allungato e appiattito lungo l asse ϕ e classi aventi uno spettro distribuito anche nell asse δ. I documenti,la cui classe è caratterizzata da uno spettro del primo tipo, contengono un numero elevato di termini irrilevanti e nessuno termine discriminate. Mentre i documenti la cui classe ha uno spettro del secondo tipo, contengono un numero significativo di termini con elevati valori di discriminanza. La Figura 5 mostra gli spettri delle seguenti categorie estratte da DMOZ: Filmmaking, Composition, Arts, e Magic. Gli spettri mostrati sono stati ottenuti calcolando i valori di ϕ e δ di ciascun termine considerando come classe avversaria (o classe negata) il set di sibling della categoria sotto analisi (ovvero la categoria del documento che contiene il termine). Questo tipo di analisi si chiama one versus all, in quanto come classi avversarie considero l insieme di tutte le altre classi del dominio considerato (dominio inteso come insieme dei sibling). Osservando la figura, possiamo intuire che le classi più difficili da predire siano Filmmaking e Arts, in quanto negli spettri non compaiono termini con alti valori δ. Viceversa, i documenti appartenenti alle classi Composition e Magic saranno classificati più facilmente grazie alla presenza di termini discriminanti. Questa ipotesi è confermata dai risultati di classificazione ottenuti da 50 alberi di decisione il cui training è stato eseguito considerando solo quei termini con ϕ(t) < α (in cui t è il generico termine e α è un parametro che è stato introdotto per scartare termini rari e stopword). In una fase preliminare degli esperimenti abbiamo arbitrariamente posto α pari a 0.4. Per ogni categoria, sono stati casualmente estratti i documenti per il test ed i rimanenti documenti sono stati utilizzati per il training. La Figura 6 mostra le firme dei risultati di classificazione relativi alle quattro categorie considerate. La figura mette in luce che, come ci si aspetta, l accuracy media (descritta dal valore presente nell asse δ) per la classe Composition e Magic è più latra di quella che si ottiene per le classi Arts efilmmaking. Tramite il diagramma ϕ-δ possiamo immediatamente leggere, oltre che l accuracy dei classificatori, anche la varianza e il bias (come descritto in (?)). La varianza dei risultati è data dalla dispersione dei punti nello spazio, mentre il bias è del punto nell asse ϕ. Dalla figura notiamo che i risultati di classificazione per le classi Arts efilmmaking sono caratterizzati da un maggiore varianza e da un bias più alto. L importanza dei termini discriminanti è confermata osservando la Figura 7, che riporta sia lo spettro che le prestazioni di classificazione per la categoria RFCs 4. La categoria contiene i doc- 4 RFC (Request For Comments) è la classe che contiene i documenti inerenti le principali tecniche di sviluppo e gli standard-setting per Internet

22 22 Contents Fig. 5: Spettri delle categorie selezionate. umenti inerenti a tutti gli standard per Internet, quindi molti dei termini presenti presenti sono specifici per questa categoria. I risultati di classificazione per la categoria RFCs mostrano che, in presenza di un numero elevato di termini discriminati, la classificazione degli esempi è più semplice (Figura 7b): l accuracy è circa 1 e la varianza è trascurabile. Gli esperimenti mostrano che, la presenza di termini discriminanti assicura prestazioni di classificazione migliori in termini di accuratezza e varianza; viceversa, le prestazioni di classificazione per le classi in cui spettro presenta solo termini rari e stopword, sono peggiori. Questo ci porta a pensare che questi termini siano meno importanti e che il loro contenuto informativo ai fini della classificazione sia inferiore rispetto ai termini discriminanti. Dal momento che i termini rari e irrilevanti non sono utili, gli esperimenti seguenti si concentrano sullo studio delle stopword.

23 Contents 23 Fig. 6: Risultati di classificazione. 4.4 Stopword globali vs Stopword dipendenti dal dominio L obiettivo degli esperimenti descritti in questa sezione è quello di identificare stopword specifiche per un dato dominio. La nostra proposta si basa sull idea che i termini che cadono nell angolo destro del rombo non siano esclusivamente termini appartenenti alle stoplist convenzionali (chiamiamo queste stopword globali per indicare che sono presenti in qualsiasi documento di qualsiasi categoria). Tramite i seguenti esperimenti abbiamo infatti dimostrato che cadono in questa zona del rombo anche termini legati al dominio sotto analisi. Riportiamo qui gli esperimenti relativi a tre diversi domini Computer Science, Security e Space. Computer Science contiene i sotto-domini/categorie Academic Departments e People; Security contiene le categorie Products and Tools, Internet, e Consultants; ed infine, Space contiene le categorie NASA e Mission.

24 24 Contents (a) (b) Fig. 7: (a) Spettro e (b) valutazione delle performance di classificazione per la categoria RFCs Dal momento che siamo interessati ad analizzare i termini posizionati nell angolo destro del rombo, le figure 8, 9, e 10 riportano solo i termini aventi ϕ maggiore di 0. In questo contesto la classe negata (o avversaria) è l insieme delle classi sibling della categoria principale considerata. Discriminant Computer Science/People research at s on for with is a computer science are university by to and in of the Discriminant Computer Science/Academic Departments by to are university science the is computer in of with a s on for and at research Characteristic Characteristic (a) (b) Fig. 8: Termini con ϕ > 0 per le categorie appartenenti al dominio Computer Science. Osservando le figure, si nota che molti dei termini presenti fanno parte delle stoplist convenzionali, proprio come si ci aspetterebbe. Ciò nonostante, sono presenti diversi termini presenti sembrano intuitivamente correlati alla categoria associata.

25 Contents 25 Security/Products And Tools Security/Internet Discriminant software or be are have all a this as it on the more s that in by of to and an can from you your with is for our security information we Characteristic (a) Discriminant be software this has as s it all at are more can your or is an by that you the have in information on to from and security for a with of we Characteristic our Security/Consultants (b) Discriminant services our we information security an by of in and that on a to more from it with for the as s you is can your are or all Characteristic (c) Fig. 9: Termini con ϕ > 0 per le categorie appartenenti al dominio Security. 0.2 Space/NASA nasa 0.4 mission Space/Mission Discriminant space are this from science with at by is s in for on a the of to and Discriminant at by science with are this from space on for in s is nasa a and to of the Characteristic mission (a) Characteristic (b) Fig. 10: Termini con ϕ > 0 per le categorie appartenenti al dominio Space.

26 26 Contents Per esempio il termine university, computer e science sono legati alla categoria Academic Departments (vedi Figura 8b). La co-occorenza di stopword globali e termini dipendenti dal dominio si presenta per tutte le categorie del dataset; qui per brevità sono stati riportati solo tre esempi. Successivamente, sono state filtrate le stopword globali; nella Figura 11 sono presenti solo i termini legati al dominio. Discriminant Domain Computer Science university science university science research computer research People Academic Dept computer Characteristic (a) Discriminant mission science science Discriminant Domain Space space space services software software information information Domain Security information Products and Tools Internet Consultants security security security Characteristic nasa nasa (b) NASA Mission -0.3 mission Characteristic (c) Fig. 11: Termini che non fanno parte delle stopword classiche per i domini Computer Science, Security e Space. Come descritto in precedenza, una stopword è identificata da un basso valore di δ e un alto valore di ϕ, mentre un termine con un alto valore di δ è definito discriminante per la categoria. Quindi, ricordando che le stopword globali sono state rimosse, osserviamo a Figura 11 che mostra i diversi termini specifici per ciascun dominio. In particolare, i termini computer o science, intuitivamente, dovrebbero essere comuni nei documenti appartenenti alle categorie del dominio Computer Sci-

27 Contents 27 ence. La Figura 11a mostra come questi termini siano caratterizzati da un basso valore di δ e un alto valore di ϕ. Lo stesso ragionamento possiamo farlo per il termini security rispetto al dominio Security. Viceversa, il termini services nella figura 11b ha un valore elevato di δ e quindi ha un elevata potere discriminante per l individuazione dei documenti appartenenti alla categoria Consultans. Stesso discorso per il termine mission nella categoria Mission riportato in Figura 11c che ha un valore di δ rispetto al suo valore di ϕ. Questo termine è chiaramente rappresentativo della categoria Mission. Si noti che il termini mission ha un valore di discriminanza elevato ma negativo per la categoria NASA; questo significa che il termine è rilevante per identificare i documenti che non appartengono a questa categoria. Nel caso del domino Space che contiene solo due classi, questo implica che i documenti appartengono necessariamente all altra categoria, ovvero Mission. L obiettivo ora è quello di rimuovere i termini che, pur essendo legati al dominio, non sono stopword in quanto presentano elevati valori di discriminanza e considerare solo quei termini con ragionevole valore di caratteristica. I termini così filtrati sono, dal nostro punto di vista, stopword dipendenti dal dominio. Un semplice criterio di filtraggio è ϕ term > δ term ; l insieme dei termini che rispettano questo vincolo rappresenta la stoplist dipendente dal dominio. La Figura 12 riporta i termini che rispettano il vincolo; essi costituiscono l insieme delle stopword dipendenti dal dominio. La Figura 12a riporta, per il dominio Computer Science, le stopword dipendenti dal dominio delle due cateogorie che lo costituiscono (People and Academic Departments). Entrambe le categorie contengono li stessi termini; quindi, la stoplist dipendente dal dominio per il dominio Computer Science è costituita dai termini computer, research, science, and university. Questi termini potrebbe essere inclusi in una stoplist classica per arricchirla e renderla più appropriata per il dominio specifico. La Figura 12b evidenzia che c è una stopword dipendente dal dominio comune a tutte le categorie (security), più una stopword che proviene dalla sola categoria Internet (il termineinformation). Questo è dovuto al fatto che, per le classi Product and Tools econsultants, il vincolo ϕ term > δ term non risulta rispettato per un piccola differenza tra ϕ term e δ term, come mostrato in Figura 11b. Inoltre, il termine ha un basso valore di ϕ e di δ per entrambe le categorie (circa 0.1). Ci focalizzeremo su questo aspetto nel paragrafo 5. La Figura 12c riporta le stopword dipendenti dal dominio per la categorie del dominio Space (Mission enasa). Entrambe le categorie contengono i termini space e nasa. Si noti che qui, il termine nasa dovrebbe essere discriminante per la categoria Nasa ma, intuitivamente, una pagina web, etichettata in Dmoz con la categoria Space, ha un alta probabilità di contenere il termine nasa, dal momento che la maggior parte delle missioni spaziali sono legate all organizzazione NASA. Non deve quindi sorprendere che il questo termine risulti una stopword per il dominio Space. In questo modo siamo in grado di definire una stoplist appropriata per ciascuno dei tre domini proposti, ottenuta tramite l integrazione della stoplist convenzionale con la stoplist dipendente dal dominio. La Tabella 4 riporta le rispettive stoplist per

28 28 Contents Discriminant Domain Computer Science research university computer science science computer university research People Academic Dept Characteristic (a) Discriminant information Domain Security security Products and Tools Internet Consultants security security Characteristic Domain Space nasa (b) NASA Mission Discriminant space space nasa Characteristic (c) Fig. 12: Stopword dipendenti dal domionio per i dominicomputer Science, Security e Space. ciascun dominio. Si noti che, per chiarezza della tabella, non sono state riportate tutte le stopword globali. 4.5 Movimenti dei termini lungo la tassonomia Dal momento che il progetto riguarda la generazione automatica di tassonomie, è utile individuare le stopword dipendenti dal dominio per ciascun nodo della tassonomia per poi analizzare il loro comportamento al variare del livello considerato; in particolare, siamo interessati a verificare se le stopword dipendenti dal dominio modificano il loro ruolo nei nodi antenato. Facendo riferimento all esempio del paragrafo??, il termine ball, che è una stopword dipendente dal dominio per il nodo Sport (strutturato come illustrato in precedenza), potrebbe cambiare il pro-

29 Contents 29 Table 4: Stoplists specifiche per il tre domini analizzati Computer Science Security Space of and <... > computer <... > science <... > research <... > university and the <... > security <... > information <... > <... > the of <... > nasa <... > space <... > <... > prio ruolo nel livello del nodo genitore di Sport ; come mostrato in Figura 13, il termine ball diventa discriminate per identificare i documenti appartenenti al nodo Sport nel dominio mostrato in figura. Fig. 13: Variazione di ruolo del termine ball. In questo modo, possiamo portare avanti un altro tipo di analisi sull area del rombo definita nello spazio ϕ δ. A tale scopo analizziamo il comportamento delle metriche nell intorno dell origine. Teoricamente, se il termina ha sia δ che ϕ pari a zero per una data categoria, significa che il termine è equamente distribuito nel dominio come segue: metà dei documenti di C contengono il termine, ma anche metà dei documenti di C lo contengono. L intorno dell origine è una zona di incertezza, nel senso che, un termine che si posiziona in tale zona non può essere considerato

30 30 Contents ne una stopword ne un termine discriminante. Assegniamo i seguenti simboli alle diverse regioni che è possibile individuare all interno del rombo: δ + : regione in cui cadono i termini con valori elevati positivi di discriminanza, δ : regione in cui cadono i termini con valori elevati negativi di discriminanza, ϕ + : regione in cui cadono stopword globali e dipendenti dal dominio, δ + : regione in cui cadono i termini rari. O: regione di incertezza, localizzata nell intorno dell origine, per la quale non abbiamo informazioni sulla natura dei termini che vi sono posizionati. Fig. 14: Regioni dello spazio. La Figura 14 mostra le regioni appena definite. Come accennato prima, O è una zona di incertezza. Abbiamo quindi bisogna di definire un criterio adatto a catturare la natura dei termini che cadono in tale zona. In questa fase preliminare consideriamo O come una zona romboidale. Analiticamente, O è definita nel seguente modo: ϕ + δ ε (21) Il parametro ε determina la dimensione del rombo. Per quanto riguarda le altre regioni, abbiamo deciso di separarle linearmente: vedi la Figura 15. Per capire meglio il comportamento dei termini lungo i livelli della tassonomia, abbiamo adottato una macchina a stati finiti (FMS), nella quale ciascuna regione definita rappresento uno stato, mentre ogni transizione rappresenta lo spostamento di un termine da una regione ad un altra; lo stato attuale è la regione nella quale un termine cade per un dato nodo, lo stato successivo. Per capire meglio il comportamento dei termini lungo i livelli della tassonomia, abbiamo adottato una rappresentazione a macchina a stati (FSM), nella quale ogni

31 Contents 31 Fig. 15: Regioni definite. regione sopra descritta rappresenta uno stato, mentre ogni transizione rappresenta lo spostamento di un termine da una regione ad un altra; lo stato attuale rappresenta la regione in cui cade il termine per un dato nodo e lo stato successivo è la regione in cui cade il termine nel nodo padre. Per esempio, consideriamo l esempio in Figura 13: il termine ball cade nella regione ϕ + per il nodo Basketball ; nel nodo padre Sport il termine diventa discriminate e cade nella regione δ +. La macchina a stati finiti associata all esempio è riportata in Figura 16. δ + ball ϕ O ϕ + δ Fig. 16: Movimenti del termine ball.

32 32 Contents Lo scopo degli esperimenti seguenti è quello di individuare il movimento dei termini; per ogni termine di ogni nodo identifichiamo la variazione di regione (transizione nel modello FSM) andando a guardare in quale regione cade il termine nel nodo padre. In questa analisi abbiamo trascurato le stopword globali poiché ci siamo voluti concentrate sulle stopword dipendenti dal dominio e sui termini discriminanti. Negli FSM seguenti, ciascun ramo è pesato con il numero di termini che eseguono una data transizione. La Figura 17 mostra le transizioni di tutti i termini del dataset lungo tutti i livelli della tassonomia (ε = 0.1). 14 δ ϕ 15 6 O 20 ϕ δ Fig. 17: FSM per i movimenti totali con ε = 0.1. Più precisamente, non sono state riportate le transizioni di un solo termine, dal momento che queste potrebbero essere influenzate da fluttuazioni statistiche. Come previsto, la maggior parte dei movimenti appartengono alla transizione ϕ ϕ, il che significa che la maggior parte dei termini (più del 99%) sono rari e irrilevanti (in accordo con la legge di Zipf), e quindi hanno lo stesso ruolo sia nel nodo padre che nel nodo figlio. Questo è ovvio dal momento che il termine nel nodo padre andrà a far parte di un vocabolario più popolato; se un termine è raro in un dominio, continuerà a rimanere raro (anzi diverrà ancora più raro) in un dominio più grande. La Figura 18 mostra la FSM per ε = 0.2; chiaramente il comportamento è simile alla FSM mostrata in precedenza. Abbiamo in progetto di eseguire ulteriori esperimenti con diversi valore di ε. Analizziamo le altre transizioni; un termine con ϕ elevato potrebbe diventare discriminante nel nodo padre. Questo movimento corrisponde alla transizione (ϕ + δ + ). La Figure 17, mette in evidenza che ci sono state 37 transizioni di questo tipo;

33 Contents δ ϕ O 14 ϕ δ Fig. 18: FSM per i movimenti totali con ε = 0.2. questo fenomeno supporta la teoria che le stopword dipendenti dal dominio possano diventare termini discriminanti nel nodo padre. Notiamo inoltre un numero significante di transizioni (δ + ϕ ); questo significa che un termine discriminante positivo tende a diventare irrilevante nel nodo padre. Questo comportamento, secondo noi, è dovuto al fatto per livelli alti della tassonomia, dal momento che i documenti del nodo padre sono l unione dei documenti dei nodi figli, esiste una popolazione molto grande di termini. La tassonomia scelta ha un branching factor molto alto ( 5), quindi la frequenza di un termine nel nodo padre è significativamente bassa, e il termine diventa per questo raro. Lo stesso comportamento viene osservato nella transizione (δ ϕ ) (il numero piccolo di transizioni è causato dal fatto che esistono pochi termini con valore di discriminaza negativo e alto). Inoltre, nel precedente grafico FSM, vi sono un numero significativo di transizioni (δ δ + ); ad una prima occhiata potrebbe sembrare strano. In realtà non deve sorprendere, vediamo la motivazione osservando la Figura 19. Consideriamo il termine ball nei figli di Sport; molti di loro (tra cui Volley, Basket, Football, Rugby e Handball) sono sport in cui si utilizza il pallone; dall altra parte esiste la categoria Auto Racing nella quale il termini dovrebbe essere poco comune. Il termine ball è quindi discriminante in senso negativo per questa categoria, dal momento che occorre spesso per le altre categorie. Questo stesso termine potrebbe essere molto frequente per la categoria Sport dal momento che il termine risulta essere molto frequente per 5 su 6 dei suoi figli; inoltre, osservando i sibling di Sport, notiamo che questo termine potrebbe non essere frequente in Music e Economy. Quindi il termine

34 34 Contents ball in questo caso potrebbe essere un termine discriminante in senso positivo per la classe Sport. Fig. 19: Ruolo del termine ball nelle categorie Auto Racing e Sport. Un ulteriore importante proprietà può essere dedotta dal fatto che non esistono transizioni (ϕ + δ ); questo è un comportamento inaspettato: il fatto che il termine sia discriminante negativo nel padre (regione δ ) significa che ha una frequenza molto bassa nel padre (0 occorrenze nei documenti del padre nel caso ideale), ma questo è in contrasto col fatto che il termine possa essere caratteristico positivo (regione ϕ + ) nei figli (la cui unione dei documenti forma il dataset per la classe padre). Fig. 20: Esempio di variazione di ruolo di un termine lungo un percorso.

Capitolo 13: L offerta dell impresa e il surplus del produttore

Capitolo 13: L offerta dell impresa e il surplus del produttore Capitolo 13: L offerta dell impresa e il surplus del produttore 13.1: Introduzione L analisi dei due capitoli precedenti ha fornito tutti i concetti necessari per affrontare l argomento di questo capitolo:

Dettagli

risulta (x) = 1 se x < 0.

risulta (x) = 1 se x < 0. Questo file si pone come obiettivo quello di mostrarvi come lo studio di una funzione reale di una variabile reale, nella cui espressione compare un qualche valore assoluto, possa essere svolto senza necessariamente

Dettagli

Analisi dei requisiti e casi d uso

Analisi dei requisiti e casi d uso Analisi dei requisiti e casi d uso Indice 1 Introduzione 2 1.1 Terminologia........................... 2 2 Modello del sistema 4 2.1 Requisiti hardware........................ 4 2.2 Requisiti software.........................

Dettagli

Il concetto di valore medio in generale

Il concetto di valore medio in generale Il concetto di valore medio in generale Nella statistica descrittiva si distinguono solitamente due tipi di medie: - le medie analitiche, che soddisfano ad una condizione di invarianza e si calcolano tenendo

Dettagli

Corrispondenze e funzioni

Corrispondenze e funzioni Corrispondenze e funzioni L attività fondamentale della mente umana consiste nello stabilire corrispondenze e relazioni tra oggetti; è anche per questo motivo che il concetto di corrispondenza è uno dei

Dettagli

LE FUNZIONI A DUE VARIABILI

LE FUNZIONI A DUE VARIABILI Capitolo I LE FUNZIONI A DUE VARIABILI In questo primo capitolo introduciamo alcune definizioni di base delle funzioni reali a due variabili reali. Nel seguito R denoterà l insieme dei numeri reali mentre

Dettagli

e-dva - eni-depth Velocity Analysis

e-dva - eni-depth Velocity Analysis Lo scopo dell Analisi di Velocità di Migrazione (MVA) è quello di ottenere un modello della velocità nel sottosuolo che abbia dei tempi di riflessione compatibili con quelli osservati nei dati. Ciò significa

Dettagli

f(x) = 1 x. Il dominio di questa funzione è il sottoinsieme proprio di R dato da

f(x) = 1 x. Il dominio di questa funzione è il sottoinsieme proprio di R dato da Data una funzione reale f di variabile reale x, definita su un sottoinsieme proprio D f di R (con questo voglio dire che il dominio di f è un sottoinsieme di R che non coincide con tutto R), ci si chiede

Dettagli

VALORE DELLE MERCI SEQUESTRATE

VALORE DELLE MERCI SEQUESTRATE La contraffazione in cifre: NUOVA METODOLOGIA PER LA STIMA DEL VALORE DELLE MERCI SEQUESTRATE Roma, Giugno 2013 Giugno 2013-1 Il valore economico dei sequestri In questo Focus si approfondiscono alcune

Dettagli

La distribuzione Normale. La distribuzione Normale

La distribuzione Normale. La distribuzione Normale La Distribuzione Normale o Gaussiana è la distribuzione più importante ed utilizzata in tutta la statistica La curva delle frequenze della distribuzione Normale ha una forma caratteristica, simile ad una

Dettagli

Capitolo 12 La regressione lineare semplice

Capitolo 12 La regressione lineare semplice Levine, Krehbiel, Berenson Statistica II ed. 2006 Apogeo Capitolo 12 La regressione lineare semplice Insegnamento: Statistica Corso di Laurea Triennale in Economia Facoltà di Economia, Università di Ferrara

Dettagli

Mining Positive and Negative Association Rules:

Mining Positive and Negative Association Rules: Mining Positive and Negative Association Rules: An Approach for Confined Rules Alessandro Boca Alessandro Cislaghi Premesse Le regole di associazione positive considerano solo gli item coinvolti in una

Dettagli

Consideriamo due polinomi

Consideriamo due polinomi Capitolo 3 Il luogo delle radici Consideriamo due polinomi N(z) = (z z 1 )(z z 2 )... (z z m ) D(z) = (z p 1 )(z p 2 )... (z p n ) della variabile complessa z con m < n. Nelle problematiche connesse al

Dettagli

SPC e distribuzione normale con Access

SPC e distribuzione normale con Access SPC e distribuzione normale con Access In questo articolo esamineremo una applicazione Access per il calcolo e la rappresentazione grafica della distribuzione normale, collegata con tabelle di Clienti,

Dettagli

4 3 4 = 4 x 10 2 + 3 x 10 1 + 4 x 10 0 aaa 10 2 10 1 10 0

4 3 4 = 4 x 10 2 + 3 x 10 1 + 4 x 10 0 aaa 10 2 10 1 10 0 Rappresentazione dei numeri I numeri che siamo abituati ad utilizzare sono espressi utilizzando il sistema di numerazione decimale, che si chiama così perché utilizza 0 cifre (0,,2,3,4,5,6,7,8,9). Si dice

Dettagli

Introduzione all Information Retrieval

Introduzione all Information Retrieval Introduzione all Information Retrieval Argomenti della lezione Definizione di Information Retrieval. Information Retrieval vs Data Retrieval. Indicizzazione di collezioni e ricerca. Modelli per Information

Dettagli

Automazione Industriale (scheduling+mms) scheduling+mms. adacher@dia.uniroma3.it

Automazione Industriale (scheduling+mms) scheduling+mms. adacher@dia.uniroma3.it Automazione Industriale (scheduling+mms) scheduling+mms adacher@dia.uniroma3.it Introduzione Sistemi e Modelli Lo studio e l analisi di sistemi tramite una rappresentazione astratta o una sua formalizzazione

Dettagli

1. Scopo dell esperienza.

1. Scopo dell esperienza. 1. Scopo dell esperienza. Lo scopo di questa esperienza è ricavare la misura di tre resistenze il 4 cui ordine di grandezza varia tra i 10 e 10 Ohm utilizzando il metodo olt- Amperometrico. Tale misura

Dettagli

Esempi di algoritmi. Lezione III

Esempi di algoritmi. Lezione III Esempi di algoritmi Lezione III Scopo della lezione Implementare da zero algoritmi di media complessità. Verificare la correttezza di un algoritmo eseguendolo a mano. Imparare a valutare le prestazioni

Dettagli

Librerie digitali. Video. Gestione di video. Caratteristiche dei video. Video. Metadati associati ai video. Metadati associati ai video

Librerie digitali. Video. Gestione di video. Caratteristiche dei video. Video. Metadati associati ai video. Metadati associati ai video Video Librerie digitali Gestione di video Ogni filmato è composto da più parti Video Audio Gestito come visto in precedenza Trascrizione del testo, identificazione di informazioni di interesse Testo Utile

Dettagli

Transitori del primo ordine

Transitori del primo ordine Università di Ferrara Corso di Elettrotecnica Transitori del primo ordine Si consideri il circuito in figura, composto da un generatore ideale di tensione, una resistenza ed una capacità. I tre bipoli

Dettagli

Capitolo 2. Operazione di limite

Capitolo 2. Operazione di limite Capitolo 2 Operazione di ite In questo capitolo vogliamo occuparci dell operazione di ite, strumento indispensabile per scoprire molte proprietà delle funzioni. D ora in avanti riguarderemo i domini A

Dettagli

~ Copyright Ripetizionando - All rights reserved ~ http://ripetizionando.wordpress.com STUDIO DI FUNZIONE

~ Copyright Ripetizionando - All rights reserved ~ http://ripetizionando.wordpress.com STUDIO DI FUNZIONE STUDIO DI FUNZIONE Passaggi fondamentali Per effettuare uno studio di funzione completo, che non lascia quindi margine a una quasi sicuramente errata inventiva, sono necessari i seguenti 7 passaggi: 1.

Dettagli

Progetto ASTREA WP2: Sistema informativo per il monitoraggio del sistema giudiziario

Progetto ASTREA WP2: Sistema informativo per il monitoraggio del sistema giudiziario Progetto ASTREA WP2: Sistema informativo per il monitoraggio del sistema giudiziario Nell ambito di questa attività è in fase di realizzazione un applicativo che metterà a disposizione dei policy makers,

Dettagli

( x) ( x) 0. Equazioni irrazionali

( x) ( x) 0. Equazioni irrazionali Equazioni irrazionali Definizione: si definisce equazione irrazionale un equazione in cui compaiono uno o più radicali contenenti l incognita. Esempio 7 Ricordiamo quanto visto sulle condizioni di esistenza

Dettagli

Capitolo 25: Lo scambio nel mercato delle assicurazioni

Capitolo 25: Lo scambio nel mercato delle assicurazioni Capitolo 25: Lo scambio nel mercato delle assicurazioni 25.1: Introduzione In questo capitolo la teoria economica discussa nei capitoli 23 e 24 viene applicata all analisi dello scambio del rischio nel

Dettagli

Le funzioni continue. A. Pisani Liceo Classico Dante Alighieri A.S. 2002-03. A. Pisani, appunti di Matematica 1

Le funzioni continue. A. Pisani Liceo Classico Dante Alighieri A.S. 2002-03. A. Pisani, appunti di Matematica 1 Le funzioni continue A. Pisani Liceo Classico Dante Alighieri A.S. -3 A. Pisani, appunti di Matematica 1 Nota bene Questi appunti sono da intendere come guida allo studio e come riassunto di quanto illustrato

Dettagli

LA TRASMISSIONE DELLE INFORMAZIONI QUARTA PARTE 1

LA TRASMISSIONE DELLE INFORMAZIONI QUARTA PARTE 1 LA TRASMISSIONE DELLE INFORMAZIONI QUARTA PARTE 1 I CODICI 1 IL CODICE BCD 1 Somma in BCD 2 Sottrazione BCD 5 IL CODICE ECCESSO 3 20 La trasmissione delle informazioni Quarta Parte I codici Il codice BCD

Dettagli

LE SUCCESSIONI 1. COS E UNA SUCCESSIONE

LE SUCCESSIONI 1. COS E UNA SUCCESSIONE LE SUCCESSIONI 1. COS E UNA SUCCESSIONE La sequenza costituisce un esempio di SUCCESSIONE. Ecco un altro esempio di successione: Una successione è dunque una sequenza infinita di numeri reali (ma potrebbe

Dettagli

Iniziamo con un esercizio sul massimo comun divisore: Esercizio 1. Sia d = G.C.D.(a, b), allora:

Iniziamo con un esercizio sul massimo comun divisore: Esercizio 1. Sia d = G.C.D.(a, b), allora: Iniziamo con un esercizio sul massimo comun divisore: Esercizio 1. Sia d = G.C.D.(a, b), allora: G.C.D.( a d, b d ) = 1 Sono state introdotte a lezione due definizioni importanti che ricordiamo: Definizione

Dettagli

Alessandro Pellegrini

Alessandro Pellegrini Esercitazione sulle Rappresentazioni Numeriche Esistono 1 tipi di persone al mondo: quelli che conoscono il codice binario e quelli che non lo conoscono Alessandro Pellegrini Cosa studiare prima Conversione

Dettagli

APPUNTI SU PROBLEMI CON CALCOLO PERCENTUALE

APPUNTI SU PROBLEMI CON CALCOLO PERCENTUALE APPUNTI SU PROBLEMI CON CALCOLO PERCENTUALE 1. Proporzionalità diretta e proporzionalità inversa Analizziamo le seguenti formule Peso Lordo = Peso Netto + Tara Ricavo = Utile + Costo Rata = Importo + Interesse

Dettagli

Slide Cerbara parte1 5. Le distribuzioni teoriche

Slide Cerbara parte1 5. Le distribuzioni teoriche Slide Cerbara parte1 5 Le distribuzioni teoriche I fenomeni biologici, demografici, sociali ed economici, che sono il principale oggetto della statistica, non sono retti da leggi matematiche. Però dalle

Dettagli

VC-dimension: Esempio

VC-dimension: Esempio VC-dimension: Esempio Quale è la VC-dimension di. y b = 0 f() = 1 f() = 1 iperpiano 20? VC-dimension: Esempio Quale è la VC-dimension di? banale. Vediamo cosa succede con 2 punti: 21 VC-dimension: Esempio

Dettagli

Database. Si ringrazia Marco Bertini per le slides

Database. Si ringrazia Marco Bertini per le slides Database Si ringrazia Marco Bertini per le slides Obiettivo Concetti base dati e informazioni cos è un database terminologia Modelli organizzativi flat file database relazionali Principi e linee guida

Dettagli

SISTEMI INFORMATIVI AVANZATI -2010/2011 1. Introduzione

SISTEMI INFORMATIVI AVANZATI -2010/2011 1. Introduzione SISTEMI INFORMATIVI AVANZATI -2010/2011 1 Introduzione In queste dispense, dopo aver riportato una sintesi del concetto di Dipendenza Funzionale e di Normalizzazione estratti dal libro Progetto di Basi

Dettagli

FUNZIONE. Si scrive: A B f: A B x y=f(x) (si legge: f funzione da A in B) x f y= f(x)

FUNZIONE. Si scrive: A B f: A B x y=f(x) (si legge: f funzione da A in B) x f y= f(x) 1 FUNZIONE Dati gli insiemi A e B, si definisce funzione da A in B una relazione o legge o corrispondenza che ad ogni elemento di A associa uno ed un solo elemento di B. Si scrive: A B f: A B f() (si legge:

Dettagli

Corso di. Dott.ssa Donatella Cocca

Corso di. Dott.ssa Donatella Cocca Corso di Statistica medica e applicata Dott.ssa Donatella Cocca 1 a Lezione Cos'è la statistica? Come in tutta la ricerca scientifica sperimentale, anche nelle scienze mediche e biologiche è indispensabile

Dettagli

Aprire WEKA Explorer Caricare il file circletrain.arff Selezionare random split al 66% come modalità di test Selezionare J48 come classificatore e

Aprire WEKA Explorer Caricare il file circletrain.arff Selezionare random split al 66% come modalità di test Selezionare J48 come classificatore e Alberi di decisione Aprire WEKA Explorer Caricare il file circletrain.arff Selezionare random split al 66% come modalità di test Selezionare J48 come classificatore e lanciarlo con i parametri di default.

Dettagli

Statistica. Lezione 6

Statistica. Lezione 6 Università degli Studi del Piemonte Orientale Corso di Laurea in Infermieristica Corso integrato in Scienze della Prevenzione e dei Servizi sanitari Statistica Lezione 6 a.a 011-01 Dott.ssa Daniela Ferrante

Dettagli

Abbiamo costruito il grafico delle sst in funzione del tempo (dal 1880 al 1995).

Abbiamo costruito il grafico delle sst in funzione del tempo (dal 1880 al 1995). ANALISI DI UNA SERIE TEMPORALE Analisi statistica elementare Abbiamo costruito il grafico delle sst in funzione del tempo (dal 1880 al 1995). Si puo' osservare una media di circa 26 C e una deviazione

Dettagli

Un gioco con tre dadi

Un gioco con tre dadi Un gioco con tre dadi Livello scolare: biennio Abilità interessate Costruire lo spazio degli eventi in casi semplici e determinarne la cardinalità. Valutare la probabilità in diversi contesti problematici.

Dettagli

Relazioni statistiche: regressione e correlazione

Relazioni statistiche: regressione e correlazione Relazioni statistiche: regressione e correlazione È detto studio della connessione lo studio si occupa della ricerca di relazioni fra due variabili statistiche o fra una mutabile e una variabile statistica

Dettagli

Ricerca di outlier. Ricerca di Anomalie/Outlier

Ricerca di outlier. Ricerca di Anomalie/Outlier Ricerca di outlier Prof. Matteo Golfarelli Alma Mater Studiorum - Università di Bologna Ricerca di Anomalie/Outlier Cosa sono gli outlier? L insieme di dati che sono considerevolmente differenti dalla

Dettagli

Per studio di funzione intendiamo un insieme di procedure che hanno lo scopo di analizzare le proprietà di una funzione f ( x) R R

Per studio di funzione intendiamo un insieme di procedure che hanno lo scopo di analizzare le proprietà di una funzione f ( x) R R Studio di funzione Per studio di funzione intendiamo un insieme di procedure che hanno lo scopo di analizzare le proprietà di una funzione f ( x) R R : allo scopo di determinarne le caratteristiche principali.

Dettagli

Dimensione di uno Spazio vettoriale

Dimensione di uno Spazio vettoriale Capitolo 4 Dimensione di uno Spazio vettoriale 4.1 Introduzione Dedichiamo questo capitolo ad un concetto fondamentale in algebra lineare: la dimensione di uno spazio vettoriale. Daremo una definizione

Dettagli

Economia Internazionale e Politiche Commerciali (a.a. 12/13)

Economia Internazionale e Politiche Commerciali (a.a. 12/13) Economia Internazionale e Politiche Commerciali (a.a. 12/13) Soluzione Esame (11 gennaio 2013) Prima Parte 1. (9 p.) (a) Ipotizzate che in un mondo a due paesi, Brasile e Germania, e due prodotti, farina

Dettagli

Esempi di funzione. Scheda Tre

Esempi di funzione. Scheda Tre Scheda Tre Funzioni Consideriamo una legge f che associa ad un elemento di un insieme X al più un elemento di un insieme Y; diciamo che f è una funzione, X è l insieme di partenza e X l insieme di arrivo.

Dettagli

Regressione Mario Guarracino Data Mining a.a. 2010/2011

Regressione Mario Guarracino Data Mining a.a. 2010/2011 Regressione Esempio Un azienda manifatturiera vuole analizzare il legame che intercorre tra il volume produttivo X per uno dei propri stabilimenti e il corrispondente costo mensile Y di produzione. Volume

Dettagli

Raccomandazione del Parlamento europeo 18/12/2006 CLASSE PRIMA COMPETENZE ABILITÀ CONOSCENZE. Operare con i numeri

Raccomandazione del Parlamento europeo 18/12/2006 CLASSE PRIMA COMPETENZE ABILITÀ CONOSCENZE. Operare con i numeri COMPETENZA CHIAVE MATEMATICA Fonte di legittimazione Raccomandazione del Parlamento europeo 18/12/2006 CLASSE PRIMA COMPETENZE ABILITÀ CONOSCENZE L alunno utilizza il calcolo scritto e mentale con i numeri

Dettagli

Elementi di Psicometria con Laboratorio di SPSS 1

Elementi di Psicometria con Laboratorio di SPSS 1 Elementi di Psicometria con Laboratorio di SPSS 1 12-Il t-test per campioni appaiati vers. 1.2 (7 novembre 2014) Germano Rossi 1 germano.rossi@unimib.it 1 Dipartimento di Psicologia, Università di Milano-Bicocca

Dettagli

ColorSplitter. La separazione automatica dei colori di Colibri.. Perché ColorSplitter? Come opera ColorSplitter?

ColorSplitter. La separazione automatica dei colori di Colibri.. Perché ColorSplitter? Come opera ColorSplitter? ColorSplitter La separazione automatica dei colori di Colibri.. ColorSplitter è una nuova funzionalità aggiunta a Colibri, che permette di elaborare un immagine trasformandola in una separata in canali

Dettagli

Capitolo 26: Il mercato del lavoro

Capitolo 26: Il mercato del lavoro Capitolo 26: Il mercato del lavoro 26.1: Introduzione In questo capitolo applichiamo l analisi della domanda e dell offerta ad un mercato che riveste particolare importanza: il mercato del lavoro. Utilizziamo

Dettagli

1. PRIME PROPRIETÀ 2

1. PRIME PROPRIETÀ 2 RELAZIONI 1. Prime proprietà Il significato comune del concetto di relazione è facilmente intuibile: due elementi sono in relazione se c è un legame tra loro descritto da una certa proprietà; ad esempio,

Dettagli

APPUNTI DI MATEMATICA LE FRAZIONI ALGEBRICHE ALESSANDRO BOCCONI

APPUNTI DI MATEMATICA LE FRAZIONI ALGEBRICHE ALESSANDRO BOCCONI APPUNTI DI MATEMATICA LE FRAZIONI ALGEBRICHE ALESSANDRO BOCCONI Indice 1 Le frazioni algebriche 1.1 Il minimo comune multiplo e il Massimo Comun Divisore fra polinomi........ 1. Le frazioni algebriche....................................

Dettagli

Rapporto dal Questionari Insegnanti

Rapporto dal Questionari Insegnanti Rapporto dal Questionari Insegnanti SCUOLA CHIC81400N N. Docenti che hanno compilato il questionario: 60 Anno Scolastico 2014/15 Le Aree Indagate Il Questionario Insegnanti ha l obiettivo di rilevare la

Dettagli

SISTEMI DI NUMERAZIONE E CODICI

SISTEMI DI NUMERAZIONE E CODICI SISTEMI DI NUMERAZIONE E CODICI Il Sistema di Numerazione Decimale Il sistema decimale o sistema di numerazione a base dieci usa dieci cifre, dette cifre decimali, da O a 9. Il sistema decimale è un sistema

Dettagli

Soluzione di equazioni quadratiche

Soluzione di equazioni quadratiche Soluzione di equazioni quadratiche Soluzione sulla Retta Algebrica Inseriamo sulla Retta Algebrica le seguenti espressioni polinomiali x e x 3 e cerchiamo di individuare i valori di x per i quali i punti

Dettagli

PROGRAMMA SVOLTO NELLA SESSIONE N.

PROGRAMMA SVOLTO NELLA SESSIONE N. Università C. Cattaneo Liuc, Corso di Statistica, Sessione n. 1, 2014 Laboratorio Excel Sessione n. 1 Venerdì 031014 Gruppo PZ Lunedì 061014 Gruppo AD Martedì 071014 Gruppo EO PROGRAMMA SVOLTO NELLA SESSIONE

Dettagli

LA REVISIONE LEGALE DEI CONTI La comprensione

LA REVISIONE LEGALE DEI CONTI La comprensione LA REVISIONE LEGALE DEI CONTI La comprensione dell impresa e del suo contesto e la valutazione dei rischi di errori significativi Ottobre 2013 Indice 1. La comprensione dell impresa e del suo contesto

Dettagli

Un po di statistica. Christian Ferrari. Laboratorio di Matematica

Un po di statistica. Christian Ferrari. Laboratorio di Matematica Un po di statistica Christian Ferrari Laboratorio di Matematica 1 Introduzione La statistica è una parte della matematica applicata che si occupa della raccolta, dell analisi e dell interpretazione di

Dettagli

Lezione 10: Il problema del consumatore: Preferenze e scelta ottimale

Lezione 10: Il problema del consumatore: Preferenze e scelta ottimale Corso di Scienza Economica (Economia Politica) prof. G. Di Bartolomeo Lezione 10: Il problema del consumatore: Preferenze e scelta ottimale Facoltà di Scienze della Comunicazione Università di Teramo Scelta

Dettagli

Capitolo 25: Lo scambio nel mercato delle assicurazioni

Capitolo 25: Lo scambio nel mercato delle assicurazioni Capitolo 25: Lo scambio nel mercato delle assicurazioni 25.1: Introduzione In questo capitolo la teoria economica discussa nei capitoli 23 e 24 viene applicata all analisi dello scambio del rischio nel

Dettagli

Modulo 1: Motori di ricerca

Modulo 1: Motori di ricerca Contenuti Architettura di Internet Principi di interconnessione e trasmissione World Wide Web Posta elettronica Motori di ricerca Antivirus Personal firewall Tecnologie delle reti di calcolatori Servizi

Dettagli

PROBABILITÀ - SCHEDA N. 2 LE VARIABILI ALEATORIE

PROBABILITÀ - SCHEDA N. 2 LE VARIABILI ALEATORIE Matematica e statistica: dai dati ai modelli alle scelte www.dima.unige/pls_statistica Responsabili scientifici M.P. Rogantin e E. Sasso (Dipartimento di Matematica Università di Genova) PROBABILITÀ -

Dettagli

Elementi di Psicometria con Laboratorio di SPSS 1

Elementi di Psicometria con Laboratorio di SPSS 1 Elementi di Psicometria con Laboratorio di SPSS 1 29-Analisi della potenza statistica vers. 1.0 (12 dicembre 2014) Germano Rossi 1 germano.rossi@unimib.it 1 Dipartimento di Psicologia, Università di Milano-Bicocca

Dettagli

CONTINUITÀ E DERIVABILITÀ Esercizi proposti. 1. Determinare lim M(sinx) (M(t) denota la mantissa di t)

CONTINUITÀ E DERIVABILITÀ Esercizi proposti. 1. Determinare lim M(sinx) (M(t) denota la mantissa di t) CONTINUITÀ E DERIVABILITÀ Esercizi proposti 1. Determinare lim M(sin) (M(t) denota la mantissa di t) kπ/ al variare di k in Z. Ove tale limite non esista, discutere l esistenza dei limiti laterali. Identificare

Dettagli

Premesse alla statistica

Premesse alla statistica Premesse alla statistica Versione 22.10.08 Premesse alla statistica 1 Insiemi e successioni I dati di origine sperimentale si presentano spesso non come singoli valori, ma come insiemi di valori. Richiamiamo

Dettagli

LEZIONE 3. Ing. Andrea Ghedi AA 2009/2010. Ing. Andrea Ghedi AA 2009/2010

LEZIONE 3. Ing. Andrea Ghedi AA 2009/2010. Ing. Andrea Ghedi AA 2009/2010 LEZIONE 3 "Educare significa aiutare l'animo dell'uomo ad entrare nella totalità della realtà. Non si può però educare se non rivolgendosi alla libertà, la quale definisce il singolo, l'io. Quando uno

Dettagli

CALCOLO COMBINATORIO

CALCOLO COMBINATORIO CALCOLO COMBINATORIO 1 Modi di formare gruppi di k oggetti presi da n dati 11 disposizioni semplici, permutazioni Dati n oggetti distinti a 1,, a n si chiamano disposizioni semplici di questi oggetti,

Dettagli

Determinare la grandezza della sottorete

Determinare la grandezza della sottorete Determinare la grandezza della sottorete Ogni rete IP possiede due indirizzi non assegnabili direttamente agli host l indirizzo della rete a cui appartiene e l'indirizzo di broadcast. Quando si creano

Dettagli

Esercizi svolti sui numeri complessi

Esercizi svolti sui numeri complessi Francesco Daddi - ottobre 009 Esercizio 1 Risolvere l equazione z 1 + i = 1. Soluzione. Moltiplichiamo entrambi i membri per 1 + i in definitiva la soluzione è z 1 + i 1 + i = 1 1 + i z = 1 1 i. : z =

Dettagli

Osservazioni sulla continuità per le funzioni reali di variabile reale

Osservazioni sulla continuità per le funzioni reali di variabile reale Corso di Matematica, I modulo, Università di Udine, Osservazioni sulla continuità Osservazioni sulla continuità per le funzioni reali di variabile reale Come è noto una funzione è continua in un punto

Dettagli

Elementi di topologia della retta

Elementi di topologia della retta Elementi di topologia della retta nome insieme definizione l insieme è un concetto primitivo che si accetta come intuitivamente noto secondo George Cantor, il padre della teoria degli insiemi: Per insieme

Dettagli

Stima per intervalli Nei metodi di stima puntuale è sempre presente un ^ errore θ θ dovuto al fatto che la stima di θ in genere non coincide con il parametro θ. Sorge quindi l esigenza di determinare una

Dettagli

La manutenzione come elemento di garanzia della sicurezza di macchine e impianti

La manutenzione come elemento di garanzia della sicurezza di macchine e impianti La manutenzione come elemento di garanzia della sicurezza di macchine e impianti Alessandro Mazzeranghi, Rossano Rossetti MECQ S.r.l. Quanto è importante la manutenzione negli ambienti di lavoro? E cosa

Dettagli

Analisi e diagramma di Pareto

Analisi e diagramma di Pareto Analisi e diagramma di Pareto L'analisi di Pareto è una metodologia statistica utilizzata per individuare i problemi più rilevanti nella situazione in esame e quindi le priorità di intervento. L'obiettivo

Dettagli

Siamo così arrivati all aritmetica modulare, ma anche a individuare alcuni aspetti di come funziona l aritmetica del calcolatore come vedremo.

Siamo così arrivati all aritmetica modulare, ma anche a individuare alcuni aspetti di come funziona l aritmetica del calcolatore come vedremo. DALLE PESATE ALL ARITMETICA FINITA IN BASE 2 Si è trovato, partendo da un problema concreto, che con la base 2, utilizzando alcune potenze della base, operando con solo addizioni, posso ottenere tutti

Dettagli

CAPITOLO 8 LA VERIFICA D IPOTESI. I FONDAMENTI

CAPITOLO 8 LA VERIFICA D IPOTESI. I FONDAMENTI VERO FALSO CAPITOLO 8 LA VERIFICA D IPOTESI. I FONDAMENTI 1. V F Un ipotesi statistica è un assunzione sulle caratteristiche di una o più variabili in una o più popolazioni 2. V F L ipotesi nulla unita

Dettagli

Informatica. Rappresentazione binaria Per esempio +101010000 diventa +0.10101 10 18/10/2007. Introduzione ai sistemi informatici 1

Informatica. Rappresentazione binaria Per esempio +101010000 diventa +0.10101 10 18/10/2007. Introduzione ai sistemi informatici 1 Informatica Pietro Storniolo storniolo@csai.unipa.it http://www.pa.icar.cnr.it/storniolo/info200708 Numeri razionali Cifre più significative: : sono le cifre associate ai pesi maggiori per i numeri maggiori

Dettagli

IL SISTEMA INFORMATIVO

IL SISTEMA INFORMATIVO LEZIONE 15 DAL MODELLO DELLE CONDIZIONI DI EQUILIBRIO AL MODELLO CONTABILE RIPRESA DEL CONCETTO DI SISTEMA AZIENDALE = COMPLESSO DI ELEMENTI MATERIALI E NO CHE DIPENDONO RECIPROCAMENTE GLI UNI DAGLI ALTRI

Dettagli

STATISTICA IX lezione

STATISTICA IX lezione Anno Accademico 013-014 STATISTICA IX lezione 1 Il problema della verifica di un ipotesi statistica In termini generali, si studia la distribuzione T(X) di un opportuna grandezza X legata ai parametri

Dettagli

L analisi dei rischi: l aspetto statistico Ing. Pier Giorgio DELLA ROLE Six Sigma Master Black Belt

L analisi dei rischi: l aspetto statistico Ing. Pier Giorgio DELLA ROLE Six Sigma Master Black Belt L analisi dei rischi: l aspetto statistico Ing. Pier Giorgio DELL ROLE Six Sigma Master lack elt Dicembre, 009 Introduzione Nell esecuzione dei progetti Six Sigma è di fondamentale importanza sapere se

Dettagli

I sistemi di numerazione

I sistemi di numerazione I sistemi di numerazione 01-INFORMAZIONE E SUA RAPPRESENTAZIONE Sia dato un insieme finito di caratteri distinti, che chiameremo alfabeto. Utilizzando anche ripetutamente caratteri di un alfabeto, si possono

Dettagli

Ottimizzazione delle interrogazioni (parte I)

Ottimizzazione delle interrogazioni (parte I) Ottimizzazione delle interrogazioni I Basi di Dati / Complementi di Basi di Dati 1 Ottimizzazione delle interrogazioni (parte I) Angelo Montanari Dipartimento di Matematica e Informatica Università di

Dettagli

Identificazione dei Parametri Caratteristici di un Plasma Circolare Tramite Rete Neuronale

Identificazione dei Parametri Caratteristici di un Plasma Circolare Tramite Rete Neuronale Identificazione dei Parametri Caratteristici di un Plasma Circolare Tramite Rete euronale Descrizione Il presente lavoro, facente segiuto a quanto descritto precedentemente, ha il fine di: 1) introdurre

Dettagli

Lezioni di Matematica 1 - I modulo

Lezioni di Matematica 1 - I modulo Lezioni di Matematica 1 - I modulo Luciano Battaia 16 ottobre 2008 Luciano Battaia - http://www.batmath.it Matematica 1 - I modulo. Lezione del 16/10/2008 1 / 13 L introduzione dei numeri reali si può

Dettagli

General Linear Model. Esercizio

General Linear Model. Esercizio Esercizio General Linear Model Una delle molteplici applicazioni del General Linear Model è la Trend Surface Analysis. Questa tecnica cerca di individuare, in un modello di superficie, quale tendenza segue

Dettagli

Domande a scelta multipla 1

Domande a scelta multipla 1 Domande a scelta multipla Domande a scelta multipla 1 Rispondete alle domande seguenti, scegliendo tra le alternative proposte. Cercate di consultare i suggerimenti solo in caso di difficoltà. Dopo l elenco

Dettagli

Il database management system Access

Il database management system Access Il database management system Access Corso di autoistruzione http://www.manualipc.it/manuali/ corso/manuali.php? idcap=00&idman=17&size=12&sid= INTRODUZIONE Il concetto di base di dati, database o archivio

Dettagli

Esercitazione N. 1 Misurazione di resistenza con metodo volt-amperometrico

Esercitazione N. 1 Misurazione di resistenza con metodo volt-amperometrico Esercitazione N. 1 Misurazione di resistenza con metodo volt-amperometrico 1.1 Lo schema di misurazione Le principali grandezze elettriche che caratterizzano un bipolo in corrente continua, quali per esempio

Dettagli

Analisi sensitività. Strumenti per il supporto alle decisioni nel processo di Valutazione d azienda

Analisi sensitività. Strumenti per il supporto alle decisioni nel processo di Valutazione d azienda Analisi sensitività. Strumenti per il supporto alle decisioni nel processo di Valutazione d azienda Premessa Con l analisi di sensitività il perito valutatore elabora un range di valori invece di un dato

Dettagli

Documento di accompagnamento: mediane dei settori bibliometrici

Documento di accompagnamento: mediane dei settori bibliometrici Documento di accompagnamento: mediane dei settori bibliometrici 1. Introduzione Vengono oggi pubblicate sul sito dell ANVUR e del MIUR 3 tabelle, deliberate nel CD dell ANVUR del 13 agosto 2012, relative

Dettagli

u 1 u k che rappresenta formalmente la somma degli infiniti numeri (14.1), ordinati al crescere del loro indice. I numeri u k

u 1 u k che rappresenta formalmente la somma degli infiniti numeri (14.1), ordinati al crescere del loro indice. I numeri u k Capitolo 4 Serie numeriche 4. Serie convergenti, divergenti, indeterminate Data una successione di numeri reali si chiama serie ad essa relativa il simbolo u +... + u +... u, u 2,..., u,..., (4.) oppure

Dettagli

Che cosa e come valutano le prove di matematica e con quali risultati. nell A.S. 2008 2009

Che cosa e come valutano le prove di matematica e con quali risultati. nell A.S. 2008 2009 Che cosa e come valutano le prove di matematica e con quali risultati nell A.S. 2008 2009 Presentazione a cura di Roberta Michelini Casalpusterlengo, 8 gennaio 2010 http://www.invalsi.it/esamidistato0809/

Dettagli

CAPACITÀ DI PROCESSO (PROCESS CAPABILITY)

CAPACITÀ DI PROCESSO (PROCESS CAPABILITY) CICLO DI LEZIONI per Progetto e Gestione della Qualità Facoltà di Ingegneria CAPACITÀ DI PROCESSO (PROCESS CAPABILITY) Carlo Noè Università Carlo Cattaneo e-mail: cnoe@liuc.it 1 CAPACITÀ DI PROCESSO Il

Dettagli

6.5. Risultati simulazioni sistema rifiuti e riscaldamento

6.5. Risultati simulazioni sistema rifiuti e riscaldamento Capitolo 6 Risultati pag. 301 6.5. Risultati simulazioni sistema rifiuti e riscaldamento Come già detto nel paragrafo 5.8, i risultati riportati in questo paragrafo fanno riferimento alle concentrazione

Dettagli

SVM. Veronica Piccialli. Roma 11 gennaio 2010. Università degli Studi di Roma Tor Vergata 1 / 14

SVM. Veronica Piccialli. Roma 11 gennaio 2010. Università degli Studi di Roma Tor Vergata 1 / 14 SVM Veronica Piccialli Roma 11 gennaio 2010 Università degli Studi di Roma Tor Vergata 1 / 14 SVM Le Support Vector Machines (SVM) sono una classe di macchine di che derivano da concetti riguardanti la

Dettagli

Federico Laschi. Conclusioni

Federico Laschi. Conclusioni Lo scopo di questa tesi è stato quello di proporre alcuni algoritmi di allocazione dinamica della capacità trasmissiva, basati su tecniche di predizione on-line dei processi di traffico. Come prima analisi

Dettagli

5.2.1 RELAZIONI TRA TABELLE 1. 5.2.4.1 Creare una relazione uno-a-uno, uno-a-molti tra tabelle 9

5.2.1 RELAZIONI TRA TABELLE 1. 5.2.4.1 Creare una relazione uno-a-uno, uno-a-molti tra tabelle 9 5.2.1 RELAZIONI TRA TABELLE 1 5.2.4.1 Creare una relazione uno-a-uno, uno-a-molti tra tabelle 9 Il grado di un verso di un associazione indica quanti record della tabella di partenza si associano ad un

Dettagli