Rapporto tecnico contenente la selezione dei dataset per l addestramento e la convalida del caso di studio relativo all analisi web

Rapporto tecnico contenente la selezione dei dataset per l addestramento e la convalida del caso di studio relativo all analisi web 16 febbraio 2015 Indice 1 Individuazione dei dataset 1 2 Dataset Repositories 1 2.1 Dataset più Rilevanti................................ 2 2.2 Web Directories................................... 3 3 Selezione dei Dataset 4 3.1 Analisi delle caratteristiche dei dataset disponibili............... 4 3.2 Scelta del Dataset................................. 7 1 Individuazione dei dataset Il documento è preposto a riportare l analisi dei dataset disponibili per l addestramento e la convalida del sistema riguardanti l ambito Web. Verranno descritte e analizzate le varie risorse e in base a tali considerazioni viene motivata la scelta dei dataset adottati per le sperimentazioni. i dataset di interesse per il progetto sono quelli aventi dati di tipo testuale; in particolare, le sperimentazioni in questione riguardano la generazione e convalida di una tassonomia a partire da di tipo testuale in ambito Web. Tali pertanto dovranno essere costituiti da contenuto testuale estratto da pagine Web o newsgroup. Attualmente diversi dataset sono reperibili gratuitamente dal web; di seguito riportiamo una descrizione generale delle varie risorse di possibile interesse. 2 Dataset Repositories Esistono attualmente diversi repository in cui si possono reperire i dataset necessari. Il repository è un archivio digitale che esporre i dati, preservandoli in modo che siano sempre disponibili nel corso del tempo, migrandoli nel caso cambino i formati e i supporti. Si possono scegliere quali permessi dare a chi utilizza i dati attraverso la licenza. In genere si usano licenze Creative Commons 1 che obbligano a citare chi ha prodotto i dati. Tra i vari repository, i più 1 https://creativecommons.org/ 1

completi e diffusi nella comunità scientifica in ambito di machine learning sono descritti di seguito. UCI Machine Learning Repository 2. Inizialmente creato da ricercatori e studenti dell università della California-Irvine come archivio ftp, e attualmente gestito in collaborazione con l università del Massachusetts Amherst, il repository UCI fornisce alcuni dei più diffusi dataset in diversi settori del machine learning, fornendo dati sia di tipo nominale che numerico, per sistemi e algoritmi di classificazione, clustering, regressione etc. Linked Data 3. In informatica, i linked data costituiscono una modalità di pubblicazione, condivisione e connessione di dati strutturati e collegati tra loro. Il portale LinkedData fornisce diversi dataset relativi a tale tipologia di dati alla comunità scientifica. CKAN 4. E un catalogo gestito da una community specifica (formata da organi istituzionali, centri di ricerca, dipartimenti universitari etc.) che contiene dataset utili reperibili in Internet con licenze open source. Yahoo! Webscope 5. La nota società Yahoo! 6 mette a disposizione della comunità scientifica diversi dataset creati dai propri ricercatori o in alcuni casi collezionati dalle attività degli utenti del portale. TREC Datasets 7. Contiene i dataset (la maggior parte a pagamento) messi a disposizione dal NIST 8 (National Institute of Standards and Technology) durante le varie edizioni di una serie di conferenze scientifiche (TREC: Text REtrieval Conference) nell ambito dei settori in cui il focus è sull elaborazione di testuali. L idea principale era fornire una serie di dataset standard per le varie pubblicazioni del convegno, in modo da poter fornire alla comunità un supporto di confronto tra i vari algoritmi, sistemi, metodi, etc. 2.1 Dataset più Rilevanti Di seguito elenchiamo i dataset più diffusi disponibili in ambito della categorizzazione di testi, e che potrebbero risultare di interesse per le sperimentazioni del progetto. Sono stati considerati in questo elenco i dataset aventi un appropriato numero di categorie e di. Reuters Dataset 9. Attualmente uno dei dataset reali più utilizzati nel campo della classificazione di testi. E una collezione di articoli web collezionati dal sito di news della società Reuters Ltd. and Carnegie Group. Ogni articolo è stato manualmente etichettato secondo una struttura gerarchica di categorie. Una delle prime versioni 2 http://archive.ics.uci.edu/ml/about.html 3 http://linkeddata.org/ 4 http://datahub.io/ 5 http://webscope.sandbox.yahoo.com/index.php 6 http://www.yahoo.com 7 http://trec.nist.gov/ 8 http://www.nist.gov/ 9 http://trec.nist.gov/data/reuters/reuters.html 2

(denominata Reuters-21578), resa disponibile nei primi anni 90, è stata la risorsa di riferimento per le sperimentazioni su algoritmi e sistemi di elaborazione di testuali. La collezione contiene circa 20000. Nel 2000 è stata rilasciata una versione più estesa (denominata RCV1 per la versione contenente articoli in lingua inglese, e RCV2 per la collezione multilingua), contenente circa 1 milione di articoli. OHSUMED 10. E un set di formati da titoli e abstract di pubblicazioni scientifiche in ambito medico. I circa 350000 sono classificati secondo una strutture gerarchica aventi circa 14000 nodi. 20 Newsgroups 11. Una serie di articoli (circa 20000) estratti da 20 newsgroup. Un newsgroup è uno degli spazi virtuali creato su una rete di server interconnessi per discutere di un argomento (topic) ben determinato. Le 20 categorie sono spesso viste in una struttura gerarchica, in quanto alcune classi sono sotto-categorie di un topic più generale. BankSearch 12. E una collezione di pagine web categorizzate in 11 categorie, per un totale di circa 11000 pagine. Le categorie e le pagine sono estratte dalla web directory DMOZ (vedi sezione 2.2). Common Crawl Corpus 13. Contiene circa 5 milioni di pagine collezionate dai crawler di Amazon. I dataset sono reperibili gratuitamente, anche se la loro elaborazione richiede risorse computazionali elevate (pochi file di dimensione spesso superiori al GB). Amazon mette a disposizione, a pagamento, un servizio web atto all elaborazione con sistemi distribuiti (Amazon Elastic MapReduce 14 ) basato sul framework Hadoop. WayBack Machine 15. E un servizio del portale Internet Archive 16 il quale fornisce la possibilità di visualizzare miliardi di pagine web. Il sistema salva milioni di pagine ogni giorno, e le rende disponibili per la visualizzazione. Per una determinata pagina web, quindi, è possibile visualizzare il suo contenuto per diversi momenti del passato (da fine anni 90 agli ultimi giorni). Il portale attualmente contiene circa 450 miliardi di pagine (comprese di testo, codice, metadati, file multimediali etc.). Nel 2012 una porzione di dati (quasi 3 milioni di pagine web incirca 80 Tb) è disponibile gratuitamente per uso non commerciale, facendo richiesta alla società che gestisce il portale. TREC Datasets. I dataset messi a disposizione sono di diverse tipologie, tra cui anche raccolte di pagine web. Sono ampiamente diffusi, ma sono reperibili a pagamento. 2.2 Web Directories Altra risorsa di fondamentale importanza, soprattutto nella progettazione di motori di ricerca, è rappresentata dalle web directory. Una web directory è un elenco di siti web suddivisi in maniera gerarchica. Non è né un motore di ricerca né un archiviatore di siti mediante 10 http://trec.nist.gov/data/t9 filtering.html 11 http://kdd.ics.uci.edu/databases/20newsgroups/20newsgroups.html 12 http://lib.stat.cmu.edu/datasets/bankresearch.zip 13 http://aws.amazon.com/datasets/41740 14 http://aws.amazon.com/elasticmapreduce/ 15 https://archive.org/web/ 16 https://archive.org/ 3

tag, ma li raccoglie ed organizza per mezzo di categorie e sotto-categorie tematiche. Una web directory consiste dunque in un portale in cui le risorse sono organizzate per aree tematiche, e vengono presentate come indici o, soprattutto, come tassonomie. Al giorno d oggi esistono migliaia e migliaia di Web directory, la maggior parte di esse create manualmente con team di esperti o volontari, in cui l iscrizione e l indicizzazione dei siti può avvenire in maniera gratuita o a pagamento. Le maggiori Web directory (ad esempio DMOZ 17, WWW Virtual Library 18, Best of The Web 19 o Joe Ant 20 ) contengono in genere milioni di pagine referenziate, categorizzate in centinaia di migliaia di categorie; dato che la quasi totalità delle web directory non fornisce i dati in formato scaricabile (ad esempio dump di database, file RDF/XML etc.), per recuperare strutture e link si rende comunque necessario l utilizzo di strumenti (quali crawler, spider, robot etc.) in grado di scaricare e analizzare i portali per estrarre i dati. Tra le più importanti Web directory, l unica per la quale è reso disponibile il dump delle pagine referenziate è DMOZ. DMoz (abbreviazione di Directory.Mozilla, il nome di dominio del suo sito), noto anche come Open Directory Project (ODP), è una web directory multilingue a contenuto aperto di proprietà della Time Warner e mantenuta da una comunità virtuale di redattori volontari. OPD può essere visto come una raccolta di hyperlinks indicizzati, reperibili nel Web. Essa è organizzata gerarchicamente per argomenti dal vasto allo specifico. La parola Open nel nome del progetto, indica un approccio assai diverso rispetto ad altre directory esistenti, di natura strettamente commerciale: gli elenchi di siti classificati da ODP vengono infatti resi disponibili gratuitamente a chiunque ne voglia fare uso, magari per ripubblicare la directory su altri siti. Questa scelta rende le informazioni raccolte da DMOZ aperte a tutti e ha favorito notevolmente la diffusione dei dati della directory sul web. ODP è sostenuta dagli editori della comunità, i quali valutano i siti per l inclusione nell indice; tutte le richieste sono soggette alla valutazione dell editore. I criteri seguiti per decidere se inserire o meno un sito in catalogo si basano esclusivamente sui contenuti dei siti stessi. 3 Selezione dei Dataset In questa sezione, dopo aver analizzato le caratteristiche, verranno illustrati i vantaggi e gli svantaggi del potenziale uso di ogni risorsa nell ambito del progetto, motivando così la decisione su quali dati utilizzare per le sperimentazioni nell ambito Web. 3.1 Analisi delle caratteristiche dei dataset disponibili Di seguito riportiamo i dataset di possibile interesse, in cui i dati sono reperibili in formato testuale. La Tabella 1 riporta in sintesi le caratteristiche di ogni dataset analizzato. La voce Tipologia indica se i dati sono relativi a pagine web o altri tipi di dato testuale; la colonna Policy indica se i dati sono reperibili gratuitamente, o dietro il pagamento del servizio; ogni dataset è caratterizzato inoltre dalla Popolosità dei dati, ovvero il numero totale di ; la Reperibilità indoca se il sito mette a disposizione o meno i dati (download ), o se è necessario una fase di acquisizione ulteriore (ad esempio crawling o parsing di pagine web), in quanto, nell ambito del progetto, i dati di interesse sono quelli per cui è disponibile il codice 17 http://www.dmoz.org/ 18 http://vlib.org/ 19 http://botw.org/ 20 http://www.joeant.com/ 4

Tabella 1: Caratteristiche dei dataset analizzati. Tipologia Policy Popolosità Reperibilità DMOZ Pagine Web Free WayBack Machine Pagine Web Free 4M di 3M di Altre Web Directory Pagine Web Free/Pay Variabile Reuters Articoli news Free OHSUMED Abstract paper scientifici Free 20 Newsgroups News Free BankSearch Pagine Web Free Common Crawl Corpus Pagine Web Free (Map-Reduce pay) 1M di 350000 20000 11000 5M di TREC Datasets Varie Pay Variabile DB Dump Crawler necessario Crawler necessario Donwload Formato dei dati Link HTML Link HTML Link HTML File testuali File testuali File testuali Codice HTML Codice HTML Varie HTML o testo estratto da esso; a tal proposito viene indicato inoltre in tabella il Formato dei dati. La Web directory DMOZ è sicuramente uno degli strumenti più diffusi in ambito scientifico. In letteratura molteplici pubblicazioni riguardano lavori in cui la tassonomia DMOZ è la fonte principale dei dati necessari all addestramento e al test di algoritmi e sistemi. L elevata popolosità, sia in termini di numero di, sia in termini di categorie, nonché la struttura gerarchica molto profonda, rendono la tassonomia versatile e adattabile a molteplici settori di ricerca. Ma proprio l elevata complessità strutturale presenta la necessità di processi di affinamento ed estrazione di sotto-strutture più regolari ed uniformi; infatti, la tassonomia non ha una struttura omogenea, sia in termini di struttura tassonomica (la profondità varia a seconda del ramo considerato), sia in termini di popolosità di ciascuna categoria (i nodi possono avere da poche decine a migliaia di ). Inoltre sono popolate per la maggior parte soltanto le foglie della tassonomia (sono pochi i casi in cui i nodi intermedi hanno propri, e comunque difficilmente si supera la decina di ), anche se nell ambito del progetto questo costituisce un vantaggio, in quanto i dati di partenza sono rappresentati dalle foglie della tassonomia da generare. Un aspetto importante è dato dal fatto che la tassonomia è reperibile facilmente, in quanto è disponibile il download del database contente struttura della tassonomia, metadati e link alle pagine. E comunque necessaria una fase di download delle pagine Web considerate. Le altre Web Directory, compresa quella derivante da Way- Back Machine, non sono diffuse per l estrazione di dataset, pur essendo spesso più popolate, e, a seconda degli intenti delle società che le forniscono, meglio strutturate. L aspetto critico (e contrastante riguardo l ultimo aspetto) è che per la maggior parte di esse l indicizzazione, e quindi la presenza nella struttura, avviene a pagamento (per gli owner dei siti Web), e quindi potrebbero non essere rappresentative di una data categoria (ad esempio, per alcuni nodi potrebbero esserci pochi elementi). Si riscontrano dunque le stesse criticità riscontrate 5

DMOZ WayBack Machine Altre Web Directory Reuters OHSUMED 20 Newsgroups BankSearch Common Crawl Corpus TREC Datasets Tabella 2: Analisi dei dataset. Vantaggi Gerarchia profonda. Popolosità elevata. Reperibilità immediata del DB. La più adottata nella comunità scientifica. Popolosità elevata. Struttura gerarchica. Popolosità elevata. Struttura gerarchica Gerarchia ben strutturata. Diffusa nella comunità scientifica. Facilmente reperibile. Discreta diffusione nella comunità scientifica. Struttura gerarchica. Ampia diffusione nella comunità scientifica. Facilmente reperibile. Facilmente reperibile. Codice HTML. Pagine filtrate. Popolosità elevata. Struttura gerarchica. Popolosità elevata. Struttura gerarchica. Ampia diffusione. Possibilità di diverse tipologie. Svantaggi Necessità di download di ogni pagina Web. Struttura non uniforme. Necessità di crawling e recupero struttura. Non diffusa nella comunità scientifica. Per le free, necessità di download. Pagamento per la maggior parte. Non diffuse nella comunità scientifica. No pagine Web. Dominio molto specifico. No pagine Web. No gerarchia. Scarso numero di classi foglia (10). Utilizzo marginale nella comunità scientifica. Mole di dati elevata: framework per map-reduce a pagamento. non diffusa nella comunità scientifica. Dati reperibili a pagamento. in DMOZ, e ovviamente a parità di aspetti critici è preferibile utilizzare una risorsa consolidata e diffusa, in modo da avere riscontro nella comunità scientifica. Il dataset BankSearch presenta i vantaggi di (i) essere ben strutturato, in quanto c è un perfetto bilanciamento tra le classi; (ii) di avere i già filtrati, ovvero le pagine hanno contenuto informativo significativo e sono rimosse le pagine dinamiche, script etc.; (iii) di avere un elevato numero di per classe (un migliaio), e (iv) di essere facilmente reperibile in quanto il codice HTML di ogni pagina è fornito per il donwload. Lo svantaggio principale è che il numero di classi è limitato (10), e quindi se ne esclude l utilizzo per le sperimentazioni finali, ma può essere adoperato come toy dataset per le sperimentazioni preliminari sugli algoritmi implementati. I dataset reperibili dal sito relativo a TREC sarebbero di grande interesse, data la diffusione nella comunità scientifica come dati di riferimento e di comparazione tra diversi sistemi e algoritmi, e dati i diversi dataset riguardanti il Web, ma l acquisizione dei dati richiede un significativo investimento in denaro (in media qualche centinaio di dollari per dataset). I dataset Reuters, pur avendo struttura e contenuti significativi, hanno il difetto principale di non essere testo derivante da pagine Web. Pur essendo non rilevanti nell ambito specifico, sono comunque tenuti in considerazione per sperimentazioni parallele sulle metriche e sugli algoritmi definiti durante il progetto, fornendo un riscontro in ulteriori ambiti e settori. Stesso discorso per il dataset 20 Newsgroups, il quale ha però lo svantaggio di non avere una struttura gerarchica definita, seppure alcune classi possono essere intuitivamente raggruppate in macro-categorie. Il dataset OHSUMED invece, oltre ad essere relativo ad articoli scientifici e non a pagine 6

Web, ha lo svantaggio di essere definito per un dominio molto specifico (pubblicazioni in ambito medico), e di possibile scarsa rilevanza per gli algoritmi definiti. Discorso a parte per il dataset Common Crawl Corpus, il quale, pur avendo un elevato numero di e di classi, è di difficile elaborazione; la mole di dati ( 80T B di codici HTML e metadati), fa sì che si rende necessario utilizzare framework e algoritmi di Map-Reduce; Amazon mette a disposizione i suoi servizi, ma a pagamento. La Tabella 2 fornisce un riepilogo di vantaggi e svantaggi di ogni dataset analizzato. 3.2 Scelta del Dataset In base alle considerazioni precedenti, la risorsa considerata per le sperimentazioni è DMOZ. Nonostante la non omogeneità della tassonomia, il fatto di avere un dump del database che permetta una relativa limitazione delle risorse computazionali (l intera tassonomia è disponibile in meno di 2 GB di dati) ne facilita l analisi e l elaborazione della struttura. Questo è dato dal fatto di avere nel database solo i link di ogni pagina Web; se da un lato potrebbe risultare uno svantaggio, in realtà, volendo estrarre una sotto-tassonomia da DMOZ, è più semplice avere a disposizione soltanto i link, in quanto l accesso e l elaborazione della struttura comporta un minore sforzo in termini di risorse e tempi computazionali. Il primo passo è stato quello di scegliere l insieme delle classi foglia. Il lavoro è stato in prevalenza manuale; l analisi la struttura DMOZ e la scelta delle classi è avvenuta in maniera totalmente manuale. Le classi foglia scelte, vista la struttura non omogenea della tassonomia, ha comportato il fatto di scegliere in prevalenza dei nodi intermedi della tassonomia originale, in quanto, oltre l elevata profondità per le foglie di DMOZ, si ha la criticità di non avere sufficienti per ogni foglia (la maggior parte delle foglie di DMOZ, avendo un elevato grado di specificità, contiene pochi ). Per tale motivo, i di ciascuna classe foglia scelta sono risultanti dell unione dei totali contenuti nel sotto-albero risultante per ogni classe. Una volta scelta la struttura tassonomica, per ogni documento considerato, il quale nel database è caratterizzato da un link, è stata scaricata la pagina relativa (è stato implementato un semplice script per fare il parsing della pagina web); dal codice HTML si è recuperato il contenuto testuale. Le pagine non più attive e quelle con scarso contenuto testuale sono state eliminate. Da ogni pagina è stato rimosso il rumore (tag, metadati, link). Il report D3.4a descrive nel detaglio il dataset utilizzato per le sperimentazioni. 7