ht://miner Un sistema open-source di data mining e data warehousing per lo studio dei comportamenti degli utenti su Internet



Documenti analoghi
Una miniera di dati sul comportamento degli utenti del Web

ht://miner Un sistema open-source di data mining e data warehousing per lo studio dei comportamenti degli utenti su Internet

Il software per il fund raising delle organizzazioni NON PROFIT

Pagine romane (I-XVIII) OK.qxd:romane.qxd :23 Pagina VI. Indice

Data Warehousing (DW)

Knowledge Management

PostgreSQL, un database libero per la Pubblica Amministrazione Italiana

DATA WAREHOUSING CON JASPERSOFT BI SUITE

Barcamp Innovatori PA Tavolo 4 Portali e accessibilità

Per capire meglio l ambito di applicazione di un DWhouse consideriamo la piramide di Anthony, L. Direzionale. L. Manageriale. L.

Il software per il fund raising delle organizzazioni NON PROFIT

Supporto alle decisioni e strategie commerciali/mercati/prodotti/forza vendita;

Attività federale di marketing

Tecniche di personalizzazione di interfacce Web

Alfa Layer S.r.l. Via Caboto, Torino ALFA PORTAL

nexite s.n.c. via nicolò copernico, 2b cittadella pd - t f info@nexite.it

la tua presenza e il tuo BUSINESS ON-LINE

SISTEMI E RETI 4(2) 4(2) 4(2) caratteristiche funzionali

SOLUZIONE Web.Orders online

INFORMATICA. Prof. MARCO CASTIGLIONE ISTITUTO TECNICO STATALE TITO ACERBO - PESCARA

Descrizione della Fornitura

SINPAWEB corso per Tecnico della programmazione e dello sviluppo di siti internet e pagine web co.reg matricola 2012LU1072

Business Intelligence CRM

INFORMATIVA PRIVACY GENERALE (REDATTA AI SENSI DELL ART.13 D.LGS. 196/2003)

Basi di dati. Corso di Laurea in Ingegneria Informatica Canale di Ingegneria delle Reti e dei Sistemi Informatici - Polo di Rieti

SOLUZIONE CRM E CTI PER CALL E CONTACT CENTER

MATERIA: INFORMATICA CLASSI: PRIME TERZE QUARTE SECONDE QUINTE

Partecipate: Just do it! Una comunità professionale per piccole e medie imprese

LINUX DAY 2006 I T A L I A

La nuova era dei software paghe P1549

anthericamail marketing professionale per la tua Azienda

Archiviazione ottica documentale

RESOURCE MANAGEMENT MEMORIZZIAMO LE VOSTRE TRACCE NELLA NEVE.

Knowledge Management. Sistemi Informativi 08/05/12. Introduzione (1/2)

Confronto tra Microsoft Office Project Standard 2007 e le versioni precedenti

Il progetto originario

REALIZZAZIONE DI UN LABORATORIO REMOTO PER ESPERIENZE DI ROBOTICA EDUCATIVA: LATO CLIENT

eprogress la soluzione completa per la gestione della relazione e del contatto

Come funziona il WWW. Architettura client-server. Web: client-server. Il protocollo

AtoZ IL CATALOGO DI BIBLIOTECA VIRTUALE

PROGRAMMA DI INFORMATICA CLASSE quinta ANNO SCOLASTICO 2012/2013

DSCube. L analisi dei dati come strumento per i processi decisionali

Data mining e rischi aziendali

Ipertesto. Reti e Web. Ipertesto. Ipertesto. Ipertestualità e multimedialità

CRM / WEB CRM CUSTOMER RELATIONSHIP MANAGEMENT

PROGRAMMAZIONE MODULARE DI INFORMATICA CLASSE QUINTA - INDIRIZZO MERCURIO SEZIONE TECNICO

ALTER Un sistema gestionale ERP diverso

Il software sviluppato Dyrecta per il controllo dell AntiRiciclaggio. a norma del D.M. 143 del 03/02/2006

Strumenti per la gestione della configurazione del software

La Pubblica Amministrazione consumatore di software Open Source

LA GESTIONE DELLE INFORMAZIONI IN AZIENDA: LA FUNZIONE SISTEMI INFORMATIVI 173 7/001.0

CRM / WEB CRM CUSTOMER RELATIONSHIP MANAGEMENT

Installazione di GFI WebMonitor

HR - Sicurezza. Parma 17/12/2015

LA TUA SOFTWARE HOUSE IN CANTON TICINO LA PIATTAFORMA SOFTWARE PER LA GESTIONE DELLE DINAMICHE ASSOCIATIVE

Marketing relazionale

CONTENT MANAGEMENT SYSTEM

Customer Relationship Management. Eleonora Ploncher 3 aprile 2006

PostgreSQL 8.4. Associazione Italiana PostgreSQL Users Group ConfSL 2009 Speaker's Corner Bologna, 13 Giugno 2009

SCHEDA PER LA PROGRAMMAZIONE DELLE ATTIVITA DIDATTICHE. Dipartimento di INFORMATICA Classe 3 Disciplina INFORMATICA

Anno scolastico 2015 / Piano di lavoro individuale. ITE Falcone e Borsellino. Classe: IV ITE. Insegnante: DEGASPERI EMANUELA

Liceo Tecnologico. Indirizzo Informatico e Comunicazione. Indicazioni nazionali per Piani di Studi Personalizzati

Liceo Marie Curie (Meda) Scientifico Classico Linguistico PROGRAMMAZIONE DISCIPLINARE PER COMPETENZE

SOLUZIONI INFORMATICHE PER LO STUDIO LEGALE

Proposta UNIF Progetto: Portale delle fonti di energia rinnovabile. Obiettivi

MetaMAG METAMAG 1 IL PRODOTTO

Neikos s.r.l. Emilio Frusciante

Ogni documento digitalizzato, carta attivo o passivo, viene di infatti accompagnato identità da una sorta di elettron

SPERIMENTAZIONE DEL SERVIZIO DI SUPPORTO PER LA GESTIONE DEI RICORSI TRIBUTARI IN MATERIA DI FISCALITA LOCALE (ICI/IMU TARES)

WINFISIO. Sistema di gestione per Centri di Fisioterapia. Semplice Veloce Sicuro Da usare. Convenzione Integrazione Archiviazione S.S.R.

BLU.Energy Tecnologia & Servizi gestiti

Cambia direzione, scegli un'altra strada! Il nostro punto di vista è la PERSONA.

Comuninrete sistema integrato per la gestione di siti web ed interscambio di informazioni e servizi.

Digital Printing and Imaging Association

INFORMATIVA PRIVACY GENERALE (REDATTA AI SENSI DELL ART.13 D.LGS. 196/2003)

Intesa Spa Ottobre 2015

CEI-Bib: Obiettivi, strumenti e prime esperienze

CENTRO DI ECCELLENZA PER L INNOVAZIONE FORMATIVA VOUCHER ON-LINE

SOMMARIO Introduzione Caratteristiche generali della piattaforma Amministrazione degli utenti 5

SmartPay. rende facile l e-commerce

EyesTK Trouble Ticketing System. Soluzioni Informatiche

La società Volocom. Trasformare le informazioni in conoscenza. Conoscere per agire

I sistemi di reporting e i rapporti direzionali

Ente Ospedaliero Specializzato in Gastroenterologia "Saverio de Bellis" Istituto di Ricovero e Cura a Carattere Scientifico

Client - Server. Client Web: il BROWSER

Linee guida per il Comitato Tecnico Operativo 1

AdunoAccess: gestite facilmente online la vostra attività.

SIRED Sistema informativo di raccolta ed elaborazione dati sul movimento turistico

Piattaforma per la gestione dei crediti organica e professionale Recupero crediti stragiudiziale e giudiziale, monitoraggio anticipazioni ed attività

EasyLOG Peculiarità e scopi della soluzione

Sistemi centralizzati e distribuiti

INDICAZIONI GENERALI

Asso. Con ordine si procederà ad esplorare il software.

Proposta di DECISIONE DEL PARLAMENTO EUROPEO E DEL CONSIGLIO

Audiweb pubblica i dati della total digital audience del mese di giugno 2015

PostgreSQL, un database libero per la Pubblica Amministrazione Italiana

GOW GESTIONE ORDINI WEB

SurfCop. Informazioni sul prodotto

Caratteristiche generali

Transcript:

ht://miner Un sistema open-source di data mining e data warehousing per lo studio dei comportamenti degli utenti su Internet Gabriele Bartolini Comune di Prato Sistema Informativo Servizi di E-government e Open-Source g.bartolini@comune.prato.it www.htminer.it PAAL: Pubblica Amministrazione Aperta e Libera Opportunità, Criticità ed Esperienze nell Adozione di Standard Aperti e Software Libero nella Pubblica Amministrazione Sardegna Ricerche, Pula (Cagliari), 15 e 16 marzo 2007 1

- Sommario Prato e la sua rete civica: Po-Net Comune di Prato e software libero Web Usage Mining Strumenti di web log analysis tradizionale Obiettivi principali di ht://miner Architettura di ht://miner Pre-Processing Processing Data Warehouse Analisi Il futuro di ht://miner Conclusioni 2

Prato e la sua rete civica: Po-Net Popolazione residente nella provincia di Prato al 31/12/2005: 242.497 Progetto Po-Net nasce nel 1995 e vede coinvolti: Comuni della Provincia Provincia Prefettura Camera di Commercio ASL Aziende a partecipazione pubblica Biblioteche Musei Istituzioni culturali Scuole Associazioni Fa parte di RTRT (Rete Telematica Regionale Toscana) E' composto da 140 gruppi di lavoro e redazioni Il coordinatore è l'ufficio Rete Civica del Comune di Prato Circa 37 milioni di richieste ai siti web di Po-Net nel corso 2006 3

Comune di Prato e software libero (soggetto attivo) Progetti: ht://dig Search Engine (1999 2003) ht://check Link Checker (dal 1999) ht://miner Web Usage Mining System (dal 2003) OpenCabling (dal 2001) Vantaggi: Crescita professionale del personale interno Maggiore stabilità e robustezza del software (testing diffuso) Suggerimenti e contribuzioni volontarie (utilizzo diffuso) Costi: Metabolizzare il cambio di portata del progetto Gestione di servizi rivolti alla comunità di utilizzatori (attività di supporto) Adeguamento a standard per il processo collaborativo di sviluppo software, in un'ottica globale (e.g. Internazionalizzazione dei sorgenti, siti web, mailing list, ecc.) 4

Web Usage Mining E' parte integrante delle seguenti discipline di IT: Knowledge Discovery from Data (KDD) Data mining, in particolare Web mining (data mining applicato al web) Dall'inglese: Web usage: utilizzo del web (riferito agli utenti navigatori di Internet) Mining: attività di estrazione di conoscenza nascosta da dati Processo di scoperta e analisi di modelli (pattern) che concentra l'attenzione sui dati relativi agli accessi effettuati dagli utenti (Web usage data) Rientrano in questa categoria i processi di analisi degli accessi collezionati a livello di: HTTP server (server web) HTTP proxy server ISP HTTP client L'argomento di questa presentazione verterà su accessi a server HTTP 5

Strumenti di web log analysis tradizionale open-source Alcuni esempi: AWStats, Webalizer, Analog PRO: Altamente configurabili Produzione di report statistici descrittivi molto chiari Supporto efficiente Stabilità CONTRO: Elaborazione di file di testo (log) Staticità dei report prodotti (istantanea) Ogni modifica al report richiede una rielaborazione totale Mancanza di integrazione con fonti di dati ausiliarie Assenza di un database relazionale pluriennale modellato sulle esigenze di business 6

Obiettivi principali di ht://miner Memorizzazione automatica delle informazioni in un RDBMS Creazione di un data warehouse per il supporto alle decisioni (DSS) Predisposizione al data mining: Association rules (market basket analysis) Path analysis Clustering Individuazione automatica dei visitatori unici, delle sessioni, delle transazioni e del tempo speso Rilevazione supervisionata e automatica degli spider Supporto per la localizzazione degli indirizzi IP tramite GeoIP Classificazione delle URL in strutture gerarchiche organizzate a categorie Creazione di un framework di astrazione in PHP (libreria middleware) per l'interrogazione online Rispetto e garanzia della privacy... 7

Architettura di ht://miner Architettura a stack su 5 livelli: Pre-processing Processing Data warehousing Analisi: Data mining Report Interrogazione via Web Personalizzazione di massa 8

Pre-Processing Punto di partenza: Access Log (file di testo prodotti dal server) Obiettivi: preparare i dati per la scoperta di conoscenza Task: Leggere file di access log (formati diversi) Creare un archivio temporaneo (flat table) Filtrare le richieste (esclusioni) Importare le richieste nell'archivio temporaneo Risolvere gli indirizzi IP in nomi di host 9

Processing Punto di partenza: archivio temporaneo Obiettivi: scoprire conoscenza organizzare i dati in un DB normalizzato Task: Organizzare i dati provenienti dal DB temporaneo in: Visitatori unici Sessioni Ordinare le richieste per tempo di richiesta Trasformare i dati: Identificando le transazioni Rilevando gli spider Classificando gli user agent Localizzando le richieste sulla base dell'indirizzo IP Memorizzare i dati nell'archivio delle transazioni (OLTP) 10

Data Warehouse Punto di partenza: database transazioni Obiettivi: creare il data warehouse Task: Organizzare il data warehouse di primo livello: Secondo lo schema a stella (star schema): Fatti Dimensioni Recupera i dati dal DB delle transazioni Memorizza i subject: Richieste di pagine Richieste di errori Modellare il DB sulla base delle esigenze: Data warehouse di secondo livello Sistema per la classificazione delle URL Richieste anonime (esclusi motori di ricerca) 11

Analisi Punto di partenza: database transazioni e data warehouse Obiettivi: scoprire informazioni e/o presentarle al personale di business come supporto alle decisioni Task: Integrare ht://miner con applicazioni esterne e/o librerie di data mining Presentare informazioni tramite interfaccia web (tramite middleware PHP) Produrre report riepilogativi statici (PDF, HTML, RTF,...) opportunamente commentati (dossier di business) Interfacciare ht://miner con sistemi OLAP 12

Il futuro di ht://miner ht://miner attualmente sfrutta una minima parte delle sue potenzialità I prossimi punti di intervento su ht://miner riguardano: Portabilità e stabilità (e.g.: utilizzo del framework C++ ACE) Modulo di data mining Ampliamento dei subject memorizzati nel data warehouse (visite, punti di ingresso, ecc.) Analisi (creazione di report statici in modo supervisionato) Il Comune di Prato cerca partner (imprese, universita') per continuare lo sviluppo: Open-source Collaborativo (community) Il Comune di Prato offre la sua assistenza per il riuso del software da parte di altri enti pubblici all'interno delle reti civiche Il Comune di Prato propone la fornitura del servizio di analisi in ASP per gli enti pubblici che non sono in grado di gestirlo in proprio In senso lato, il Comune di Prato offre la sua esperienza pluriennale nello sviluppo cooperativo di software open-source sul territorio nazionale 13

Conclusioni Riferimenti Utili: Sito principale di presentazione del progetto http://www.htminer.it Sito di sviluppo su Sourceforge.net http://www.sourceforge.net/projects/htminer Prossime iniziative: Prima edizione italiana del PostgreSQL Day (PGDay): Monash University, Prato, 6-7 luglio 2007 Interverranno i principali esponenti della comunità mondiale Partecipazione gratuita Patrocinio: Comune e Provincia di Prato, Regione Toscana http://www.pgday.it Domande? GRAZIE 14