Analisi e sviluppo di nuove tecniche per l'estrazione di informazioni da grandi moli di dati provenienti dal web

Documenti analoghi
Analisi e sviluppo di nuove tecniche per l'estrazione di informazioni da grandi moli di dati provenienti dal web

Esperienze di gestione di OpenNebula, Openstack, VMWare

Definizione di una metodologia per l utilizzo d infrastrutture digitali per la produzione, la condivisione e la protezione di dati e applicativi

BOOLE SERVER AGENT. - Installation guide- Aggiornato alla versione Boole Server

Evoluzione dei sistemi HPC ENEA-GRID/CRESCO

ALLEGATO A - TABELLA CRITERI DI VALUTAZIONE. Voce capitolato tecnico massimo

CLOUD facile, veloce, sempre.

PROBLEMATICHE DI VALUTAZIONE PER LA SCELTA DI SOLUZIONI OTTIME NELL INTERCONNESSIONE DI RETI SWITCHED ETHERNET

Ambienti di calcolo a griglia Parte 2. Docente: Marcello CASTELLANO

Cluster CRESCO ed ENEAGRID

Isaac DE è una piattaforma Big Data completa di strumenti e servizi per l installazione, la configurazione, l uso, la gestione e il monitoraggio di

Sperimentazione del file-system distribuito HDFS in ambiente GRID. III Borsista Day, Roma,

CRESCO4 & ENEAGRID per TEDAT e per il calcolo scientifico in ENEA

Problematiche di rete nella sperimentazione di file-system distribuiti su WAN per applicazioni di GRID- Computing

Codici e Laboratori Virtuali

23/02/2011. I/le corsisti/e dovranno dimostrare di conoscere le varie parti di un computer, saper utilizzare le normali funzioni del

Indice Prefazione 1 Il diritto e la società dell informazione La società dell informazione Un nuovo paradigma soc

REQUISITI HARDWARE E SOFTWARE

BACKUP SERVICE IBRIDO LOCALE / CLOUD. Backup Service

SERVIZIO DI MIGRAZIONE E INSTALLAZIONE NUOVA INFRASTRUTTURA SOFTWARE DATABASE ORACLE CIG Z8F0DE9926

Il cloud server, affidabile senza rinunciare a flessibilità e velocità

REQUISITI HARDWARE E SOFTWARE

SERVIZIO DI ACCESSO ALLA RETE CSI-RUPAR TRAMITE VPN SSL

DETTAGLIO LOTTI N LOTTO DENOMINAZIONE CIG TOTALE BASE D'ASTA/VALORE PRESUNTO

Insieme verso una nuova era

AscotWeb - mediatore Versione dicembre 2015

EcoManager Web. EcoManager SERVER

ICTARC ICT per i Beni Architettonici e Archeologici. BORSISTA: Arch. Maria Cristina Diamanti TUTOR: Dott.ssa Mirella Serlorenzi

Virtualizzazione Infrastrutture ICT. A chi è rivolto. Vantaggi per il Cliente. Perchè Luganet. Partner Commerciale

FUTURA SERVICE S.r.l. Procedura GIMI.NET ver. 3.8 Agosto 2017

Telephony Appliance BNTA 2.0 Guida Rapida per l installazione

Documento Tecnico Sulla Migrazione della connettivita alla nuova piattaforma di Mercato e-mid tramite rete BT Radianz

TOTALE LOTTI N LOTTO DENOMINAZIONE CIG TOTALE BASE D'ASTA

Buildroot. Making Embedded Linux Easy. Luca Ceresoli Linux Day 2018 BgLUG

Dati generali della procedura. PON FESR A1 Criterio di aggiudicazione:

TITOLO:...Sistemista. DURATA TOTALE:...XXX ore

Corso di Informatica

App Windows Client 1

BOOLE SERVER - Installation guide-

Piattaforma Computazionale Openstack Cloud

SETA Selection Tool del Sistema ARTIST

Le reti rete La telematica telematica tele matica Aspetti evolutivi delle reti Modello con mainframe terminali Definizione di rete di computer rete

Progetto FIRB WebMinds

DISTRIBUTED COMPUTING IN HYBRID ENVIRONMENT. Gestisci le complessità dei diversi server rapidamente e semplicemente.

Server mini-tower Dell PowerEdge T20: domande frequenti

Introduzione alle basi di dati. A. Ferrari

4.5 Sistemi 2.5G: GPRS (Global Packet Radio System) e EDGE (Enhanced Data rate for GSM)

Un semplice commutatore a pacchetto

Installazione v18. Nuovo cadwork setup

Esperimenti di Cloud Computing in ENEA-GRID

WG- SEC- DDoS. Gruppo di lavoro GARR di contrasto ai Distributed Denial of Service (DDoS) Nino Ciurleo. Workshop GARR Roma, 06/04/2017

HPC e Cloud 4 giugno 2018 Alberto Sabaini Anna Perina Piattaforma Computazionale

Prospettive dei servizi cloud in ENEA-GRID

INTESI SRL Via Abbondanza, Piacenza (Pc) Italy Tel FACTORY

Docenti: Fabrizio Benazzi Valter Lelli Azienda USL 11 di Empoli

Colla MGC Guida all installazione

Ambienti di Sviluppo. Linguaggi compilati

Analisi ed ottimizzazione dei parametri e servizi di rete per la realizzazione di un infrastruttura per l educazione musicale a distanza.

Indice. Introduzione. Capitolo 1 Introduzione a Windows Server Edizioni di Windows Server

IBM SPSS Statistics per Mac OS - Istruzioni di installazione (Licenza per utenti singoli)

Indice degli argomenti

OpenFlow GARR virtual test-bed

Java: un linguaggio per applicazioni di rete

SBN e le infrastrutture per la ricerca

Piano di calcolo dell esperimento HERA-B

Allegato Tecnico Backup As A Service

Test di storage ad alte prestazioni con interconnessione 10 GE

Griglie e Sistemi di Elaborazione Ubiqui

Progetto Pon n 1 Istituto Rilke

Il Progetto di Centro di Reprocessing di BaBar: Requisiti per il Monitoring e il Management

I SISTEMI OPERATIVI. Insieme di programmi che implementano funzioni essenziali per l uso di un sistema elaboratore.

Guida pratica all attivazione della componente applet per la firma digitale interna al portale VestaNET

HPC in ENEA, stato dei Cluster e dei CED CRESCO a Portici

Citiemme esec. Citiemme Informatica SRL esec v2.1. Citiemme esec

RISPOSTE ALLE FAQ. Quesito n 1: Quesito n 2

REQUISITI TECNICI HR INFINITY ZUCCHETTI

Reti (introduzione) Internet in breve: insieme di reti locali (LAN) interconnesse da router. 2 tipi di LAN

Linux nel calcolo distribuito

CARATTERISTICHE TECNICHE, FUNZIONALI, OPERATIVE E NORME DI ESECUZIONE

D1.3 Documento contenente le specifiche tecniche e funzionali di massima delle componenti architetturali

Proposta Adeguamento Infrastruttura Sistema Informativo del Comune di Biella: Apparati di rete Postazioni di lavoro

APPENDICE 4 AL CAPITOLATO TECNICO

ENEA-GRID: LSF. LSF: job paralleli avanzati. Corso ENEA-GRID Brindisi 25 giugno Ing. Fiorenzo Ambrosino, PhD UTICT-HPC C.R.

Ingegneria del Software 13c. Altre viste. Dipartimento di Informatica Università di Pisa A.A. 2014/15

Segue a questa lista una descrizione delle funzioni per ogni punto.

Prestazioni e affidabilità di Sistemi Introduzione. Analisi quantitativa: scopi

INGEGNERIA DEL SOFTWARE

Sistemi di calcolo distribuiti e paralleli per l utilizzo di codici Monte Carlo

Stato ed evoluzione del progetto GARR-B La Fase 3

Prof. Pagani corrado SISTEMI INFORMATIVI E DATABASE

Lista di controllo per il progetto e requisiti di sistema Xesar 3.0

STUDIO DI RETRIBUZIONE 2017

Esperienze di Advanced Analytics nella statistica ufficiale: strumenti e progetti

Indirizzo Liceo Scientifico opzione Scienze Applicate Classe 1 a sez. F Anno Scolastico

IBM SPSS Statistics per Linux - Istruzioni di installazione (Licenza per utenti singoli)

Integrazione di ENEA GRID in EGEE

5. quesito [ CSDP Servizi prodotti in Ambiente Intel X86 - Core ]

Fusione termonucleare controllata e High Performance Computing. S. Briguglio, G. Fogaccia e G. Vlad ENEA Frascati

Architettura dei calcolatori e Software di sistema

Transcript:

Analisi e sviluppo di nuove tecniche per l'estrazione di informazioni da grandi moli di dati provenienti dal web Giuseppe SANTOMAURO Tutor: Ing. Giovanni Ponti (DTE-ICT-HPC, ENEA C.R. Portici) 7 Borsisti Day 20/01/2016 Roma Consortium GARR

Attività svolte Predisposizione di un ambiente per il web crawling Web Data Retrieving: esplorazione dei contenuti in una rete in maniera sistematica e automatizzata al fine creare archivi di dati web. Operazione eseguite: Installazione di strumenti di web crawling sul cluster HPC CRESCO presente nel Centro Ricerche di Portici; Integrazione in ENEA-GRID; Definizione di un infrastruttura hardware ad-hoc per il crawling e confinamento delle risorse; Tuning dei parametri del crawler; Pianificazione ed esecuzione di sessioni di web crawling in diverse condizioni e con di diversa durata. Giuseppe Santomauro - Borsisti Day 2016 2

1) Prima fase [~2 mesi]: Studio e individuazione delle metodologie per il web crawling; Analisi e individuazione dei prodotti software. Tempistiche 2) Seconda fase [~4 mesi]: Studio dell infrastruttura ENEA-GRID/CRESCO; Individuazione del tipo e della quantità delle risorse fisiche da impiegare nell attività di crawling. 3) Terza fase [~4 mesi]: Installazione, configurazione e prime esecuzioni di test dei prodotti software; Tuning dei parametri e individuazione di configurazioni ottimali. 4) Quarta fase [~2 mesi]: Esecuzione di crawling di grandi dimensioni; Analisi prestazionale dei risultati e delle perfomance. Giuseppe Santomauro - Borsisti Day 2016 3

Prima Fase Strumenti e metodologie per il web crawling Problematiche e Normative Prodotti Ricerca delle best practices al fine di evitare eccessivi sovraccarichi della rete e/o di suoi utilizzi in modo improprio; Individuazione delle leggi che regolano il processo di crawling al fine di rispettare i diritti di privacy e/o copyright. Utilizzo di soluzioni open source; Crawling standard (download pagine web); Crawling avanzato (download + parsing + strutturazione + preanalisi) Giuseppe Santomauro - Borsisti Day 2016 4

Denial of Service: Problematiche e Normative Rallentamento dell'attività di un web server causata da una ripetuta richiesta di pagine oppure dall esaurimento delle risorse di banda della rete; Può essere di due tipi: accidentale o intenzionale. Privacy: I contenuti sul Web sono di dominio pubblico; Informazioni aggregate su larga scala e su molte pagine. Copyright: Molti motori di ricerca emulano l'attività di Internet Archive: Rispetto del protocollo Robots Exclusion Standard; Richiesta di rimozione dall'archivio. In Italia: Legge n. 633 del 22 aprile 1941 (Protezione del diritto d'autore). Giuseppe Santomauro - Borsisti Day 2016 5

Prodotti individuati Crawling standard Heritrix; Crawler4j; Nutch; BUbiNG. Crawling con preanalisi dei dati Scrapy; OpenWebSpider; OpenSearchServer. Giuseppe Santomauro - Borsisti Day 2016 6

Scelta dei prodotti Criteri di selezione: Possibilità di integrazione nell infrastruttura ENEA-GRID/CRESCO; Flessibilità sulla configurazione del prodotto; Strumenti e interfacce per il monitoring dell esecuzione; Formato di archiviazione dei dati web; Capacità di garantire le migliori performance. Nutch BUbiNG Giuseppe Santomauro - Borsisti Day 2016 7

Prodotti installati Nutch: Basato su Lucene e Java; Codificato interamente in Java, ma i dati vengono scritti in formati indipendenti dal linguaggio; Architettura altamente modulare, che consente agli sviluppatori di creare plug-in per media-type parsing, data retrieval, querying and clustering; Accessibile da terminale. BUbiNG: E costruito sull esperienza decennale di UbiCrawler (Università Statale di Milano); E scritto in Java; Singoli agenti possono eseguire il crawling su diverse migliaia di pagine al secondo rispettando i vincoli di politeness; La distribuzione dei job è basata sui moderni protocolli ad alta velocità così da raggiungere un elevato throughput; Permette l esecuzione simultanea di più agenti che possono comunicare tra di loro attraverso la libreria JGROUP; Le opzioni di configurazione sono passate su un file e molti di questi parametri possono essere modificati a runtime attraverso l interfaccia JMX; L output viene salvato in file.warc. Giuseppe Santomauro - Borsisti Day 2016 8

Seconda Fase Infrastruttura hardware Studio dell infrastruttura di ENEA-GRID Condizioni di utilizzo di accesso a CRESCO; Sottomissione di job; Scheduler delle risorse LSF; Configurazione di job paralleli. Individuazione dell architettura computazionale e di rete Scelta delle Risorse di calcolo; Studio dell infrastruttura di Rete del C.R. Portici e di CRESCO; Confinamento delle Risorse. Giuseppe Santomauro - Borsisti Day 2016 9

Schema Rete Infrastruttura hardware Giuseppe Santomauro - Borsisti Day 2016 10

Risorse Hardware 8 NODI della sezione CRESCO 2: Processore: 2 Xeon Quad-Core Clovertown E5345; RAM: 16 GByte; Clock: 2.33GHz/1333MHz/8MB L2 state. Switch Enterasys S-Series S8: Chassis Slots: 8; Ports: 576 a 1 Gbps o 128 a 10 Gbps System Switching Capacity:1.28 Tbps; System Switching Throughput:960 Mpps; Giuseppe Santomauro - Borsisti Day 2016 11

Risorse Hardware Router di Campus Enterasys Matrix X4: Chassis Slots: 4; Ports: 768 a 1 Gbps o 48 a 10 Gbps System Switching Capacity: 640 Gbps; System Switching Throughput: 119 Mpps. 2 Firewall Secure Firewall 2150 Packet Filtering Throughput: 3.1 Gbps; Concurrent Connections: 1,600,000 Router Perimetrale Cisco 7606: Distributed forwarding rate: up to 240 Mpps; Total throughput: 480 Gbps. Giuseppe Santomauro - Borsisti Day 2016 12

Installazione software Terza Fase Creazione sull area progettuale di ENEA- GRID del volume webcrawl. Installazione di due crawler: Nutch e BUbiNG. Project Software webcrawl software versione applicativo nutch bubing html doc html bin data data bin libraries origin_pkg Giuseppe Santomauro - Borsisti Day 2016 13

BUbiNG Configurazione e esecuzione software Settaggio del sistema di filtro: vengono decise, attraverso un insieme di regole logiche, quali pagine web saranno prese in considerazione e quali no; Allocazione della memoria: vengono settate le quote destinate alle varie memorie che BUbiNG utilizza durante l esecuzione; Settaggio del numero di threads: per ogni azione dell istanza Java attivata vengono stabiliti quanti processi saranno destinati per essa; Scelta del seme: viene fornita una lista di indirizzi web dalla quale il crawler inizia a scaricare. Scripting: viene sviluppato un insieme di codici per l esecuzione di più agenti su più macchine. Giuseppe Santomauro - Borsisti Day 2016 14

Tuning dei parametri Esecuzione software 8 Agenti 16 Agenti 32 Agenti 64 Agenti numero di nodi 8 8 8 8 numero di processori per nodo 8 8 8 8 RAM disponibile per nodo in GB 16 16 16 16 numero di agenti per nodo 1 2 4 8 thread stack size 256K 256K 256K 256K heap memory iniziale in MB per agente 12000 6000 3000 1500 heap memory massima in MB per agente 12000 6000 3000 1500 maxurlsperschemeauthority per agente 200 200 200 200 parsingthreads per agente 8 4 2 2 dnsthreads per agente 36 36 36 36 fetchingthreads per agente 512 256 64 32 schedulefilter.it/.it/.it/.it/ numero di url iniziali per agente 8 4 2 1 schemeauthoritydelay 10s 10s 10s 10s ipdelay 2s 2s 2s 2s maxurls 500M 250M 64M 32M bloomfilterprecision 1,00E-008 2,00E-008 1,00E-008 1,00E-008 sockettimeout 60s 60s 60s 60s connectiontimeout 60s 60s 60s 60s fetchdatabufferbytesize 200K 200K 200K 200K cookiepolicy compatibility compatibility compatibility compatibility cookiemaxbytesize 500 500 500 500 robotsexpiration 1h 1h 1h 1h responsebodymaxbytesize 2M 2M 2M 2M digestalgorithm MD5 MD5 MD5 MD5 workbenchmaxbytesize per agente 512Mi 512Mi 512Mi 256Mi urlcachemaxbytesize per agente 1Gi 1Gi 1Gi 512Mi sievesize per agente 128Mi 128Mi 128Mi 64Mi parserspec HTMLParser( HTMLParser( HTMLParser( HTMLParser( MD5) MD5) MD5) MD5) keepalivetime 1s 1s 1s 1s tempo previsto di esecuzione in sec 900 900 900 900 tempo effettivo massimo di esecuzione in sec 1029 1054 1029 1023 totale materiale scaricato di warc in MB 140296,00 152191,00 106973,89 93130,60 velocità media dowload in MB/s 136,34 144,39 103,96 91,04 velocità media dowload in MB/s per agente 17,04 9,02 3,25 1,42 velocità media dowload in Mb/s 1090,74 1155,15 831,67 728,29 velocità media dowload in Mb/s per agente 136,34 72,20 25,99 11,38 Giuseppe Santomauro - Borsisti Day 2016 15

Quarta Fase Esecuzione di crawl di grandi dimensioni Periodo: sono stati scelti giorni e orari con modesto traffico; Avviso di esecuzione: segnalazione ai tecnici della rete di attività di web crawling al fine di prevenire conflitti con altre attività e/o sovraccaricare la rete del C.R. di Portici; Configurazione: sono state utilizzate le configurazioni ottimali dei parametri al fine di massimizzare la velocità di download; Monitoraggio: i test sono stati tenuti sotto controllo durante la loro esecuzione. Giuseppe Santomauro - Borsisti Day 2016 16

Primo Test Test del 10/12/2015 Numero di agenti: 16 Tempo di esecuzione: ~8 h Quantità di dati scaricati: ~2,94 TB Quantità di risorse scaricate: 66.806.790 Pagine Velocità di dati scaricati: ~850 Mbps Velocità di risorse scaricate: ~2305 Pagine/Sec. Traffico PoP Napoli-Portici Giuseppe Santomauro - Borsisti Day 2016 17

Primo Test Test del 10/12/2015 Traffico C.R. Portici Traffico ENEA-GRID Portici Giuseppe Santomauro - Borsisti Day 2016 18

Primo Test Traffico Nodi Giuseppe Santomauro - Borsisti Day 2016 19

Secondo Test Test del 28/12/2015 Numero di agenti: 16 Tempo di esecuzione: ~10 h Quantità di dati scaricati: ~3,23 TB Quantità di risorse scaricate: 71.667.304 Pagine Velocità di dati scaricati: ~740 Mbps Velocità di risorse scaricate: ~1959 Pagine/Sec. Traffico PoP Napoli-Portici Giuseppe Santomauro - Borsisti Day 2016 20

Secondo Test Test del 28/12/2015 Traffico C.R. Portici Traffico ENEA-GRID Portici Giuseppe Santomauro - Borsisti Day 2016 21

Terzo Test Test del 05/01/2016 Numero di agenti: 8 Tempo di esecuzione: ~10 h Quantità di dati scaricati: ~3,27 TB Quantità di risorse scaricate: 75.587.287 Pagine Velocità di dati scaricati: ~756 Mbps Velocità di risorse scaricate: ~2084 Pagine/Sec. Traffico PoP Napoli-Portici Giuseppe Santomauro - Borsisti Day 2016 22

Terzo Test Test del 05/01/2016 Traffico C.R. Portici Traffico ENEA-GRID Portici Giuseppe Santomauro - Borsisti Day 2016 23

Analisi dei risultati Osservazioni: Al momento, non sono state rilevate interferenze con la normale attività della rete del Centro di Ricerche ENEA di Portici; Durante le tre sessioni di crawling, la velocità di download ha avuto un picco iniziale e poi un attestamento su un valore costante più basso; Le migliori performance si sono avute con il primo test (~850Mbps); A parità di tempo di esecuzione (10h), la sessione con 8 agenti (~756Mbps) si è comportata meglio di quella con 16 agenti (~740Mbps). Giuseppe Santomauro - Borsisti Day 2016 24

Proposta per il rinnovo I anno Ø Installazione e configurazione degli strumenti di web crawling. Rinnovo II anno: Proseguimento attività Ø Fruizione dei contenuti; Ø Qualità dei dati; Ø Analisi. Obiettivi: Investigazione sulla qualità e sulla natura dei dati scaricati; Studio e individuazione di opportuni strumenti per gestire, archiviare e visualizzare i dati (big data); Studio e selezione di tecniche per estrarre informazioni rilevanti e accurate dai dati provenienti dal web (data mining). Giuseppe Santomauro - Borsisti Day 2016 25

Proposta per il rinnovo Attività previste: Crawling semantico e mirato su particolari topic; Snapshot di domini e identificazione di pattern; Definizione di tecniche e strumenti di indicizzazione e archiviazione dei dati; Utilizzo di tecniche di data mining per analisi avanzata dei dati; Creazione di un Laboratorio Virtuale sulla tematica del web crawling per integrare lo strumento e creare una community di lavoro collaborativo. Giuseppe Santomauro - Borsisti Day 2016 26

Fine Grazie per l attenzione. giuseppe.santomauro@enea.it Giuseppe Santomauro - Borsisti Day 2016 27