L esempio di applicazione di text mining che segue percorre le fasi classiche di un processo di estrazione di conoscenza.

Text Mining: aspetti applicativi in capo bio-edico Introduzione Nel seguito approfondireo l apporto che tecniche di text ining possono dare all analisi della letteratura bioedica. Le osservazioni che seguono hanno portato alla costruzione di un prototipo per un sistea di text ining on-line, MedMole, disponibile su http://edole.cineca.it/. Analisi della letteratura bioedica Esistono principalente due tipi di approccio all analisi dei testi: l inforation extraction, che ha coe obiettivo quello di produrre una rappresentazione strutturata dell inforazione testuale, e il text ining, che ha coe obiettivo l individuazione autoatica di pattern di parole che consentano la creazione di gruppi teatici. Il prio richiede che entità e relazioni da ricercare nei testi siano predefinite (ad esepio le entità possono essere proteine e faraci e le relazioni attivazione, inibizione, ), il secondo non richiede alcuna definizione a priori e consente di individuare nuovi concetti e nuove relazioni. Il prio coprende tecniche che utilizzano sia l analisi sintattica che l analisi seantica, il secondo opera solaente a livello sintattico. Questi due approcci non sono copletaente separati: l inforation extraction genera databases che possono essere analizzati utilizzando le tecniche di data ining, entre il text ining può trarre vantaggio dalla presenza di inforazione specifica di doinio estratta con tecniche di I.E., coe di seguito sarà ostrato. L esepio di applicazione di text ining che segue percorre le fasi classiche di un processo di estrazione di conoscenza. Il processo di analisi 1) Individuazione delle diverse parti di ciascun docuento (tagging) ed assegnazione di un nuero identificativo TITLE (TI) TEXT (AB) parte testuale 2) Analisi graaticale (e leatizzazione) 3) Inforation Extraction Affiliation (AD) Date (EDAT) Journal (TA) Publ.Type (PT) Country (CY) etainforazione La fonte da cui sono stati estratti i docuenti è Pubed e la selezione è stata effettuata in odo da ottenere l insiee copleto delle pubblicazioni che trattano di ciclo cellulare (cell cycle OR cell proliferation OR cell death OR oncogenes OR tuor suppressor OR apoptosis OR PARP OR caspase OR CDK OR PCNA OR Fas ligand OR cytochroe C), per un totale di circa 400 ila testi. La preparazione dei docuenti è stata effettuata attraverso tre fasi. Innanzitutto l individuazione delle diverse parti del docuento ha consentito di separare l inforazione testuale dalla etainforazione (organiso di appartenenza, data e rivista di pubblicazione, tipo di pubblicazione, paese, ecc ). Sulla parte testuale è stata quindi effettuata un'analisi graaticale e sono successivaente state applicate tecniche di inforation extraction.

L analisi graaticale consente di individuare la funzione di ciascun terine e di ricondurlo alla propria radice, o fora canonica, o lea. Poiché, all interno di un discorso, i sostantivi sono generalente i terini con aggiore contenuto seantico, dalla lista dei terini leatizzati che si ottiene, per ogni docuento, coe risultato di questa fase, si selezionano tutti i sostantivi. Questi vengono a costituire l insiee di parole chiave che caratterizza e descrive ciascun docuento. È sulla base di queste parole chiave che verrà giudicato il grado di soiglianza tra i docuenti. Fase 2: analisi graaticale Identificazione autoatica di: SOSTANTIVI AGGETTIVI Tutte le altre parti del discorso (aggettivi, verbi e noi propri) vengono antenute coe inforazioni aggiuntive, così coe la eta-inforazione che era stata estratta durante la pria fase, di tagging. Fase 3: inforation extraction Gene Dictionary : gene nae alias CDKN1B P27KIP1 IFI27 P27 P27 P27 20000219 gene CDKN1B 20000219 gene IFI27 20000219 gene P27 Poiché nell abito della ricerca biologica è olto iportante poter identificare i noi dei geni, e poiché l analisi graaticale li classifica, genericaente, coe noi propri, è necessaria un ulteriore fase di analisi del testo per estrarre questo tipo d inforazione. Questa fase, cosiddetta di inforation extraction, in quanto l obiettivo è l estrazione di terini specifici (e predefiniti) dal testo, è stata effettuata utilizzando un dizionario contenente noi ufficiali di geni ed alias (vedreo successivaente più in dettaglio coe è stato ottenuto questo dizionario). Occorre precisare che non si tratta di I.E. vera e propria, in quanto, al oento, nessuna analisi seantica opera sul testo, per l estrazione dei terini. Al terine di questa fase, per ogni docuento si è ottenuta della eta-inforazione aggiuntiva, data dalla lista dei noi di geni (solo noi ufficiali) che erano presenti nel testo (o coe tali, o sotto fora di alias). 20000219 gene CDKN1B 20000219 gene IFI27 20000219 gene P27 20000219 NN astrocyte 20000219 NN brain 20000219 NN case 20000219 NN cell 20000219 NN control 20000219 NN disease 20000219 NN distribution 20000219 NN expression 20000219 NN frequency 20000219 NN glioa 20000219 NN grade 20000219 NN index 20000219 NN lesion 20000219 NN pattern 20000219 NN process 20000219 NN proliferation 20000219 NN rat 20000219 NN specien 20000219 NN staining 20000219 NN subset 20000219 NN tuor Docuento finale 20000219 AD Departent of Neurosurgery, Shiga University of Medical Science, Ohtsu,Japan 20000219 PD 1999 20000219 EDAT 1999 20000219 TA Brain Tuor Pathol 20000219 PT Journal Article 20000219 NPRO astrocytic 20000219 NPRO astrocytoas 20000219 NPRO iunohistocheica 20000219 NPRO MIB-1 20000219 NPRO nonneoplastic 20000219 NPRO p27 20000219 NPRO p27kip 20000219 NPRO p27kip1 20000219 NPRO p27-positive 20000219 JJ anoalous 20000219 JJ heterogeneous 20000219 JJ high-grade 20000219 JJ huan 20000219 JJ low 20000219 JJ alignant 20000219 JJ noral 20000219 JJ reactive 20000219 JJ reciprocal 20000219 JJ surgical 20000219 JJ unifor Il docuento finale, al terine della fase di preparazione, è forato da un elenco coposto da tre eleenti: l identificativo del docuento, il noe della variabile (nell esepio NN indica sostantivo, cioè parola chiave, JJ aggettivo, VV verbo, NPRO noe proprio, AD affiliation, PD data di pubblicazione, GENE noe di gene) e il valore, o contenuto, della variabile, anche detto attributo del docuento. Questo forato consente di rappresentare l inforazione in una atrice binaria che contiene, sulle righe, ciascun docuento, sulle colonne, ciascun sostantivo, e all interno i valori 1 o 0 ad indicare la presenza di una deterinata parola chiave in un deterinato docuento oppure la sua assenza (la etainforazione è rappresentata in aniera analoga). VERBI NOMI PROPRI Text Mining aspetti applicativi in capo bio-edico 2

Siao così giunti alla fase di data ining vera e propria che si concretizza nell applicazione di un algorito di clustering. Poiché l inforazione disponibile è tutta di tipo qualitativo, si è scelto un algorito partitivo basato sull analisi relazionale. Questo etodo consente di confrontare tutte le coppie di docuenti e di calcolare, per ogni coppia, un indice di soiglianza basato sul nuero di co-occorrenze delle parole chiave. I cluster vengono forati in odo da assiizzare la soiglianza coplessiva dei docuenti raggruppati e iniizzare la soiglianza dei docuenti che vengono separati. Su questo processo si può intervenire agendo attraverso alcuni paraetri (la soglia di soiglianza ed il sistea di ponderazione). Per consentire al ricercatore di effettuare analisi su una selezione di docuenti di interesse (anziché su tutti i 400 ila disponibili) e di utilizzare i paraetri più opportuni, questa fase di data ining è stata essa on-line. Esepio di risultati W1 W2... W Doc i 1 1 1 1 0 1 1 0 1 0 1 0 Doc j 1 0 0 1 1 1 0 1 0 0 0 1 Indice di Soiglianza a N 11 s(i,j) = b N 11 + c (N 10 +N 01 ) Soglia di Soiglianza N 11 = Σ x ik x jk Condorcet a=b=1 c=1/2 Dice a=b=1 c=1/4 N 10 = Σ x ik (1-x jk ) N 01 = Σ (1-x ik ) x jk N 00 = Σ (1-x ik ) (1-x ik ) se s(i,j) > α Doc i e Doc j sono siili α in [0,1] default: α = 0.5 Sistea di ponderazione N 11 = Σ x ik x jk w k (N 10 =.. N 01 =...) w k = 1 / x.k w k = log( N / x.k ) Supponiao di essere interessati alle eventuali interazioni tra due geni, RET e BRCA1, e selezioniao tutti i docuenti che contengono aleno uno di questi geni. Con la query RET <OR> BRCA1 otteniao 1981 docuenti (naturalente è possibile selezionare i docuenti anche in base alla patologia, utilizzando le opportune parole chiave, es: breast cancer, o con altri criteri). Poiché questi docuenti sono già stati preparati secondo il procediento precedenteente descritto, può essere lanciata un analisi di data ining, che, in tepo reale, confronta le parole chiave dei docuenti selezionati (in quanto questi sono gli attributi descrittivi che abbiao deciso di usare per il clustering) e li raggruppa secondo i pattern individuati. Esepio risultati: RET <OR> BRCA1 clustering I gruppi ottenuti vengono presentati in ordine di diensione e sono descritti dalle parole chiave che aggiorente li caratterizzano. Questa descrizione autoatica non sepre è sufficienteente chiara per capire il contenuto del cluster. Bisogna, in questo caso, entrare nel cluster (cliccando il sibolo sotto docs ) per visualizzare l elenco dei titoli (ed eventualente il testo copleto) dei docuenti che contiene. La cluster ap fornisce una visione d insiee dei clusters e dei loro legai (nella partizione finale dei docuenti possono rianere dei residui di soiglianza tra docuenti che sono stati assegnati a gruppi diversi: questi residui sono rappresentati da linee). Anche da questa appa è possibile entrare in ciascun gruppo, seguendo in questo caso un percorso che è suggerito dai legai, piuttosto che dalla diensione. Text Mining aspetti applicativi in capo bio-edico 3

In questo esepio, la appa ette in evidenza un gruppo di clusters (nell iagine si trova in alto a sinistra, cerchiato di rosso) che sono collegati tra di loro, a separati da tutti gli altri clusters. Se andiao a vedere il loro contenuto, ci accorgiao che tutti questi gruppi condividono alcune parole chiave quali woan, history, age, test, risk, pur trattando di argoenti separati. Se andiao a vedere la etainforazione (ciccando il sibolo sotto report ), e, in particolare, i noi di geni estratti da questi docuenti, vedreo che RET non è ai presente. Un odo ancora più rapido per visualizzare la etainforazione è dato da histogra. In questa iagine, ogni barra rappresenta un cluster (tranne la pria che indica la distribuzione dei geni su tutti i docuenti selezionati) e l estensione di ciascun colore indica la percentuale di docuenti che, all interno del gruppo, contiene un particolare noe di gene (indicato dalla legenda). Ovviaente questa rappresentazione grafica ha dei liiti, per esepio solo i geni più frequenti vengono visualizzati. Per avere l inforazione copleta occorre esainare i report. Dall iagine è counque evidente che i docuenti selezionati tendono a trattare dei due geni separataente, coe era prevedibile, dato che un gene è iplicato nel tuore al polone e l altro nel tuore al seno e che le interrelazioni dovrebbero essere inie. Viceversa si può notare che, quando copare BRCA1 (colore rosso), spesso copare anche BRCA2 (colore giallo), quindi tra questi due geni deve esserci una interrelazione. Tornando al gruppo di clusters individuato sulla appa, possiao notare che si tratta proprio di quei clusters che fanno riferiento solaente a BRCA1 (il colore verde, che rappresenta RET, non copare neeno in piccola percentuale). I gruppi di docuenti che, al contrario, trattano unicaente del gene RET (barre dove il colore rosso è assente) sono anch essi evidenziabili sulla appa coe un insiee riconoscibile (nella appa è stato cerchiato di verde) anche se non totalente separato dagli altri. In questo caso sono le parole chiave an, thyroid, thyrosine, a coparire più frequenteente. Gli altri due gruppi di clusters (cerchiati con tratteggio giallo, nella appa), trattano prevalenteente di BRCA1, a anche di RET. Le parole chiave sono infatti più generiche: in un gruppo troviao doain, protein, function, transcription, aino, acid,, nell altro troviao chroosoe, loss, arker, Esepio risultati: RET <OR> BRCA1 Di questi due gruppi, il prio contiene docuenti di pubblicazione più recente, coe si può vedere dall istograa che rappresenta la variabile anno di pubblicazione. I clusters 11, 18 e 24 sono infatti quelli nei quali l area occupata dai colori del 2000-2001 è più estesa e tutti e tre appartengono al su enzionato prio gruppo. Questa analisi ha quindi individuato delle sequenze di parole chiave che sono condivise da più docuenti e li ha raggruppati. Ogni cluster Text Mining aspetti applicativi in capo bio-edico 4

rappresenta un diverso argoento. I acro argoenti sono counque stati individuati attraverso i legai tra clusters. Così gli abstract che trattano del gene BRCA1, seppur da punti di vista diversi, sono (quasi tutti) collegati tra loro. Tutto ciò è stato ottenuto autoaticaente. L utente può però intervenire sul processo di clustering, selezionando le advanced options che sono disponibili, assiee al tasto cluster, dopo la selezione dei docuenti. Se, nell esepio precedente, odifichiao il paraetro # assio di clusters portandolo a 10, avreo una rappresentazione ancora più sintetica dei nostri 1981 docuenti. In questo caso tutti i docuenti che trattano solo di RET sono raggruppati in un unico cluster separato da tutti gli altri, entre quelli che trattano esclusivaente di BRCA1 sono raggruppati in due clusters collegati tra loro. Anche la odifica anuale dei pesi è spesso utile: quando, per esepio, da una pria elaborazione si evidenziano parole chiave di scarso significato (coe cell ). Attribuire peso zero a queste parole chiave consente di avere clusters più significativi. L insiee delle parole con peso zero è anche detta lista di stop words. Attualente non è possibile selezionare gli attributi che devono avere ruolo attivo nella forazione dei clusters e i patterns sono ricercati solo all interno delle parole chiave, costituite, coe si è visto dall insiee dei sostantivi presenti nel testo. Teoricaente è possibile utilizzare per il clustering anche altre parti del discorso e/o la eta-inforazione. Risultati interessanti si potrebbero infatti ottenere raggruppando i docuenti in base ai noi di geni che contengono, oppure in base a sostantivi e a noi di geni, Il processo di riconosciento dei noi di geni Il riconosciento dei noi di geni presenti all interno degli abstract di Medline (terza ed ultia fase di preparazione dei docuenti) è stato fatto sulla base di un dizionario. Questo processo è stato chiaato di inforation extraction in quanto con le tecniche di I.E. condivide aleno l obiettivo finale ed inoltre si prevede di integrare questa fase con l esecuzione di regole che attengono all analisi seantica. Il dizionario è stato derivato dalla banca dati Locus Link, in quanto risulta essere la fonte più stabile e copleta di inforazioni sui geni finora individuati (le cui sequenze sono eorizzate nella banca dati collegata RefSeq). Locus Link deriva da UniGene ed associa a ciascun gene un nuero identificativo univoco. Attualente il processo si copone di tre parti: filtro, indicizzazione e generazione della etainforazione. Il filtro consente di estrarre dai record di Locus Link solo le inforazioni di interesse e cioè OFFICIAL_SYMBOL ed ALIAS_SYMBOL, selezionare i terini di aleno tre caratteri e Esepio risultati: RET <OR> BRCA1 con Nb cluster ax = 10 Filtro gene A1BG A2M A2MP NAT1 NAT1 NAT2 NAT2 AACP AACP SERPINA3 SERPINA3 SERPINA3 AADAC AADAC Indice AAMP AAMP AANAT AANAT Metainforazione AANAT SNAT Text Mining aspetti applicativi in AANAT capo AA-NAT bio-edico 5 AARS AAVS1 AAVS1 ABAT ABAT alias A1BG A2M A2MP NAT1 AAC1 NAT2 AAC2 AACP NATP SERPINA3 ACT AACT AADAC DAC AARS AAVS1 AAV ABAT GABAT A1BG 18650110 45822308 69800214 A2M 78121104 74300722 51024679 A2MP 20000219 gene CDKN1B 20000219 gene IFI27 20000219 gene P27

creare le coppie GENE/ALIAS per la successiva indicizzazione dei docuenti. L indicizzazione viene fatta ricercando ciascun terine che copare nella colonna alias nel testo dei docuenti e registrando il terine ufficiale corrispondente (che copare nella colonna gene ), insiee al nuero identificativo del docuento che contiene l alias. Questo elenco viene successivaente pulito dalle ridondanze e viene ordinato per identificativo del docuento. Per ogni docuento si ottiene così l elenco dei noi ufficiali di geni che vi copaiono, sia coe tali, sia coe alias. Questo consente di generare la eta-inforazione nel forato precedenteente visto e di integrarla con le altre inforazioni estratte dal docuento originale. Occorre notare che questo uso degli alias non sepre porta ad una sintesi nei noi di geni, vi sono infatti terini che risultano alias di più noi ufficiali. È il caso del docuento di esepio precedenteente visto in cui i noi di alias individuati nel testo erano due (P27 e P27KIP1) entre i noi ufficiali assegnati al docuento sono tre in quanto P27 è sia noe ufficiale, sia alias di IFI27. La ricerca all interno dei testi è stata fatta cercando un atch esatto con il terine della colonna alias. Nei casi in cui questo terine ha anche un significato copiuto nella lingua inglese (es: FAR, GAS, RED, ), per evitare di riconoscere coe noi di geni terini di tutt altro significato, si è inibita la ricerca oppure la si è vincolata alla presenza dei terini gene oppure protein oppure product in un intorno di sei parole. Approcci alternativi di inforation extraction e di clustering Per quanto riguarda il riconosciento di noi di geni negli abstract, il seplice uso di dizionari può creare problei dovuti sia alla presenza di terini di significato copiuto nella lingua inglese (abiguità), sia dovuti al grado di aggiornaento e di copletezza del dizionario (che è counque un dizionario aperto, in continua espansione). riconosciento terini - approcci Codifica anuale della conoscenza* Metodi di apprendiento Maxiu entropy * * Hidden Markov odels * Decision trees * * Naive Bayes * Metodi statistici naive Bayes + word lists * Metodi ibridi * * * LTG (Language Technology Group) * training * uso dizionari * regole hand coded Test Test in in capo biologico geni(dna) proteine 96,7 96,7 ----- ----- ----- ----- 47,2 47,2 75,9 75,9 17,8 17,8 --44,6 44,6 83,4-87,5 87,5 84,4 84,4 84,5 84,5 83,8 83,8 70,3 70,3 ----- ----- ----- ----- F-score = 2*P*R/(P+R) Gli approcci alternativi al problea sono principalente di due tipi: uno basato su regole seantiche, sintattiche e orfologiche scritte ad hoc per l applicazione specifica e l altro basato su etodi di apprendiento. Il prio richiede un grande sforzo in terini di risorse uane per codificare la conoscenza in un deterinato doinio ed ha lo svantaggio che il risultato di questa attività è difficilente riutilizzabile in contesti diversi. Nel caso dei noi di geni, inoltre, è particolarente arduo individuare delle regole. Il secondo richiede di avere a disposizione un certo nuero di docuenti (da studi precedenti si può afferare che 100 abstract non sono sufficienti) già annotati, nei quali cioè i noi di geni sono stati già individuati. Questo costituisce il corpus di addestraento che consente l apprendiento autoatico di regole. Lo schea riporta alcuni di questi etodi con a fianco, ove disponibile, un indicatore di successo nel riconosciento di terini biologici (proteine o geni). Tale indicatore, l F-score, è calcolato coe sintesi di due ben noti indicatori nell abito dell inforation retrieval: il grado di precision (quanti tra i terini individuati sono effettivaente noi di geni) e il grado di recall (quanti, tra i noi di geni presenti negli abstract, sono stati effettivaente individuati). Text Mining aspetti applicativi in capo bio-edico 6

Queste inforazioni sono state tratte da alcuni articoli scientifici (si veda, a questo proposito, la bibliografia allegata). Per quanto riguarda il clustering, alternative al etodo presentato si possono cercare nell abito della rappresentazione vettoriale che del docuento viene fatta, nell abito della etrica scelta per isurare il grado di prossiità dei docuenti, ed infine, nell abito dell algorito. La rappresentazione del docuento riguarda sia la scelta degli eleenti descrittivi (nel nostro caso sostantivi, a coe abbiao visto, anche altre scelte sono possibili) sia la odalità di rappresentazione vera e propria. Questa può essere binaria (coe nel etodo che è stato presentato, dove l attributo è presente oppure assente) a può anche essere quantitativa (per esepio la frequenza con cui ogni sostantivo appare nel testo). La etrica dipende in parte dalla rappresentazione. Oltre all indice di soiglianza, altre etriche olto utilizzate nell analisi testuale sono la distanza Euclidea e il coseno dell angolo copreso tra i vettori (entrabe utilizzabili solo nel caso di inforazioni quantitative). L algorito può essere principalente di due tipi: gerarchico o partitivo. Di quest ultio tipo, oltre a quello visto, esistono anche le K-edie, le Self Organizing Maps, Autoclass, Il etodo utilizzato costituisce, a nostro avviso un buon punto di partenza per la sperientazione delle tecniche di text ining in abito biologico. L obiettivo è quello di creare uno struento di effettiva utilità per il ricercatore, in questo senso l unico indicatore di successo può essere quanto tepo fa rispariare e/o quante nuove scoperte consente di fare. Bibliografia [1] Haphrays, K., et al. (2000): Two Applications of Inforation Extraction to Biological Science Journal Articles: Enzye Interactions and Protein Structures, in Proceedings of Pacific Syposiu on Biocoputing, pp 72-80, World Scientific Press [2] Milward, T., et al. (2000): Autoatic Extraction of Protein Interactions fro Scientific Abstracts, in Proceedings of Pacific Syposiu on Biocoputing, pp538-549, World Scientific Press. [3] Rindflesch, T. C. et al. (2000), EDGAR: Extraction of Drugs, Genes and Relations fro the Bioedical Literature, PSB'2000 [4] Iliopoulos, et al., «TEXTQUEST : Docuent Clustering of Medline Abstracts for Concept Discovery in Molecular Biology» [5] Stapley, B.J. et al., «Biobiblioetrics : Inforation Retrieval and Visualization for Co-occurrences of Gene Naes in Medline Abstracts» [6] Jeffrey T. Chang et al., «Including Biological Literature Iproves Hoology Search» [7] Leung, S. et al., «Basic Gene Graars and DNA-ChartParser for language processing of Escherichia Coli prooter DNA sequences» [8] Andrade, M. A. Et at., «Autoatic extraction of keywords fro scientific text: application to the knowledge doain of protein failies» [9] Marcotte, E. M. et al., «Mining literature for protein-protein interactions» [10] Masys, D. R. et al., «Use of keyword hierarchies to interpret gene expression patterns» Text Mining aspetti applicativi in capo bio-edico 7

[11] Eckan, B. A. et al., «The Merck Gene Index browser: an extensible data integration syste for gene finding, gene characterization and EST data ining» [12] Fukuda, et al., (1999): Toward Inforation extraction: Identifying protein naes fro biological papers, PSB 98 [13] Collier, N., Nobata, C., and Tsujii, J. (2000), Extracting the Naes of Genes and Gene Products with a Hidden Markov Model, COLING-2000 [14] Nobata, C., et al.(1999): Autoatic Ter Identification and Classification in Biology Texts, in Proceeding. of 5th Natural Language Processing Pacific Ri Syposiu [15] Borthwick, A. et al. (1998), Exploiting Diverse Knowledge Sources via Maxiu Entropy in Naed Entity Recognition, Proceedings of the Sixth Workshop on Very Large Corpora, pp 152-160. [16] Hatzivassiloglou, V. et al., «Disabiguating Proteins, Genes, and RNA in Text : A Machine Learning Approach» [17] Mikheev, A. Et al., «Description of the LTG Syste used for MUC-7» [18] Andrade, M. A. Et at., «Autoatic Annotation for Biological Sequences by Extraction of Keywords fro Medline Abstracts. Developent of a prototype syste.» Text Mining aspetti applicativi in capo bio-edico 8