Una miniera di dati sul comportamento degli utenti del Web

Documenti analoghi

ht://miner Un sistema open-source di data mining e data warehousing per lo studio dei comportamenti degli utenti su Internet

Data Warehousing (DW)

ht://miner Un sistema open-source di data mining e data warehousing per lo studio dei comportamenti degli utenti su Internet

SOLUZIONE Web.Orders online

Presentazione della tesi di laurea di Flavio Casadei Della Chiesa. Newsletter: un framework per una redazione web

Rassegna sui principi e sui sistemi di Data Warehousing

GOW GESTIONE ORDINI WEB

PostgreSQL 8.4. Associazione Italiana PostgreSQL Users Group ConfSL 2009 Speaker's Corner Bologna, 13 Giugno 2009

MODULO 5 Appunti ACCESS - Basi di dati

Basi di dati. Corso di Laurea in Ingegneria Informatica Canale di Ingegneria delle Reti e dei Sistemi Informatici - Polo di Rieti

Proposta UNIF Progetto: Portale delle fonti di energia rinnovabile. Obiettivi

Tecniche di personalizzazione di interfacce Web

Questo sito internet fa uso di cookie, al fine di rendere i propri servizi il più possibile efficienti e semplici da utilizzare.

Volumi di riferimento

Sistemi centralizzati e distribuiti

Sistemi per la gestione di database: MySQL ( )

Progetto ASTREA WP2: Sistema informativo per il monitoraggio del sistema giudiziario

PostgreSQL, un database libero per la Pubblica Amministrazione Italiana

25/11/14 ORGANIZZAZIONE AZIENDALE. Tecnologie dell informazione e controllo

Introduzione a phpmyadmin

Knowledge Management

CAPITOLO CAPIT Tecnologie dell ecnologie dell info inf rmazione e controllo

ITI M. FARADAY Programmazione modulare a.s

PIANO DI LAVORO EFFETTIVAMENTE SVOLTO IN RELAZIONE ALLA PROGRAMMAZIONE DISCIPLINARE

INFORMATIVA PRIVACY GENERALE (REDATTA AI SENSI DELL ART.13 D.LGS. 196/2003)

Consiglio Nazionale delle Ricerche Area di Ricerca di Bologna Istituto per le Applicazioni Telematiche di Pisa

CONTENUTI 1. INTRODUZIONE CONCETTI BASICI SU EQUINOX CMS XPRESS ACCESSO A EQUINOX CMS XPRESS PAGINA D INIZIO...

Cookie Policy per

La georeferenziazione delle banche dati gli Uffici Giudiziari in Toscana

Organizzazione delle informazioni: Database

LEX-ARC PROFESSIONAL Il SOFTWARE GESTIONALE PER AVVOCATI PRATICO, EFFICIENTE ED ECONOMICO

Il Sistema Informativo Territoriale del Comune di Siena

LINUX DAY 2006 I T A L I A

Supporto alle decisioni e strategie commerciali/mercati/prodotti/forza vendita;

DATA WAREHOUSING CON JASPERSOFT BI SUITE

la tua presenza e il tuo BUSINESS ON-LINE

Data Mining a.a

HR - Sicurezza. Parma 17/12/2015

INFORMAZIONI PERSONALI TITOLI DI STUDIO E PROFESSIONALI ED ESPERIENZE LAVORATIVE

TEACHMOOD Laboratorio ICT Regione Piemonte l'ufficio Scolastico Regionale open source 30 corsi on-line la piattaforma moodle Teachmood,

Offerta standard Fidelity System Web 2.0

Pagine romane (I-XVIII) OK.qxd:romane.qxd :23 Pagina VI. Indice

DATABASE. A cura di Massimiliano Buschi

INFORMATIVA PRIVACY GENERALE (REDATTA AI SENSI DELL ART.13 D.LGS. 196/2003)

INFORMATIVA SUI TRATTAMENTI DEI DATI PERSONALI

Dispensa di database Access

GESTIONE DEI VASI VINARI.

LA SOLUZIONE. EVOLUTION, con la E LA TECNOLOGIA TRASPARENTE IL SOFTWARE INVISIBILE INVISIBILE ANCHE NEL PREZZO R.O.I. IMMEDIATO OFFERTA IN PROVA

MetaMAG METAMAG 1 IL PRODOTTO

SISTEMI INFORMATIVI AZIENDALI

Partecipate: Just do it! Una comunità professionale per piccole e medie imprese

CONSIP SpA. Gara per l affidamento dei servizi di supporto strategico a Consip nel campo dell Information & Communication Technology (ICT)

Per capire meglio l ambito di applicazione di un DWhouse consideriamo la piramide di Anthony, L. Direzionale. L. Manageriale. L.

Emoticon - Mettiamoci la faccia

Progetto ittorario Anno scol

Software Gestionale per alberghi e strutture ricettive

Ti consente di ricevere velocemente tutte le informazioni inviate dal personale, in maniera assolutamente puntuale, controllata ed organizzata.

Manuale di configurazione di Notebook, Netbook e altri dispositivi personali che accedono all Hot e di programmi per la comunicazione

RADAR. Raccolta e Analisi Dati per Attribuzione Rating

Agent, porte, connettività e reti L agent di Kaseya utilizza la porta 5721 per comunicare con il server, ma che tipo di porta è?...

Università degli Studi di Bologna Bologna, 12/12/2002 Corso di Laurea In Informatica. Alessandro Valenti. Sessione II

GOW GESTIONE ORDINI WEB

Turismo Virtual Turismo Virtual Turismo Virtual

esales Forza Ordini per Abbigliamento

Corso di Sistemi di Elaborazione delle informazioni

Audiweb pubblica i dati della mobile e total digital audience del mese di aprile 2014

REGIONE BASILICATA UFFICIO S. I. R. S.

I MODULI Q.A.T. PANORAMICA. La soluzione modulare di gestione del Sistema Qualità Aziendale

REALIZZAZIONE DI UN LABORATORIO REMOTO PER ESPERIENZE DI ROBOTICA EDUCATIVA: LATO CLIENT

DOCUMENT MANAGEMENT SYSTEM E VISTE UTILIZZO DEL DMS E DELLE VISTE IN AZIENDA

1. BASI DI DATI: GENERALITÀ

Strumenti ICT per l innovazione del business

CONTENT MANAGEMENT SYSTEM

Introduzione al data base

I cookie sono classificati in base alla durata e al sito che li ha impostati.

Cosa è un data warehouse?

EUROPEAN COMPUTER DRIVING LICENCE / INTERNATIONAL COMPUTER DRIVING LICENCE Database Livello avanzato

Informatica Generale Andrea Corradini Sistemi di Gestione delle Basi di Dati

Marketing relazionale

DSCube. L analisi dei dati come strumento per i processi decisionali

La società Volocom. Trasformare le informazioni in conoscenza. Conoscere per agire

Introduzione ai Sistemi di Gestione di Basi di Dati XML

ANALISI UTILIZZO D USO DEL PORTALE SMART

Descrizione del prodotto WebPEG: Piano Esecutivo Gestione

Il software per il fund raising delle organizzazioni NON PROFIT

NuMa Nuove Manutenzioni. Web Application per la Gestione dell Iter di Manutenzione degli Edifici e del Territorio

È evidente dunque l'abbattimento dei costi che le soluzioni ASP permettono in quanto:

EUROCONSULTANCY-RE. Privacy Policy

Audiweb pubblica i dati della total digital audience del mese di giugno 2015

PROGRAMMAZIONE MODULARE. Periodo mensile. Ore previste

MagiCum S.r.l. Progetto Inno-School

GeOp è lo strumento che aiuta a migliorare l organizzazione e la qualità del lavoro.

Teoria della Long Tail

Il database management system Access

Data Mining e Analisi dei Dati

PROGRAMMA DI CLASSE 5AI

ESERCITAZIONE Semplice creazione di un sito Internet

A2A SpA - Regolamentazione di Mercato. 24 gennaio 2008

Presentazione Photo Agency

Indice Configurazione di PHP Test dell ambiente di sviluppo 28

Transcript:

Una miniera di dati sul comportamento degli utenti del Web Organizzare le informazioni sull'utilizzo della rete in PostgreSQL utilizzando ht://miner, un sistema open-source di data mining e data warehousing Gabriele Bartolini Comune di Prato Sistema Informativo Servizi di E-government e Open-Source g.bartolini@comune.prato.it www.htminer.it Festa della Creatività 2007 I Diritti della Rete Fortezza da Basso, Firenze, 26 ottobre 2007 1

Premessa e obiettivi della presentazione E' impossibile concentrare in un talk di 10 minuti: Knowledge Discovery from Data (KDD) Sistemi di supporto alle decisioni (DSS) Data mining e web usage mining Data warehouse e data webhouse Un sistema open-source con: oltre 300 classi C++ e 75 mila linee di codice un'architettura a moduli abbastanza complessa un database con centinaia di tabelle e indici Pertanto gli obiettivi sono quelli di rendere una idea circa: il campo di applicazione la soluzione open-source proposta (ht://miner) le possibilità in termini di scoperta di informazioni sia automatica che semiautomatica offerte dal sistema le potenzialità ancora inesplorate Presentazione scaricabile da Internet Disponibilità del sottoscritto a fornire maggiori informazioni 2

Sommario PARTE I - Introduzione: A) Si parla di Web Usage Mining B) La navigazione su Internet for dummies C) Utenti, sessioni, transazioni e richieste D) L'analisi tradizionale degli access log PARTE II - ht://miner: A) Nasce un nuovo prodotto open-source: ht://miner B) Prato e la sua rete civica: Po-Net C) Alcuni fra gli obiettivi di ht://miner D) Architettura di ht://miner E) Data Warehouse F) Un esempio di data warehouse personalizzato (data mart) G) Data Mining: una sperimentazione di market basket analysis PARTE III - Conclusioni: A) ht://miner e PostgreSQL B) Riferimenti e notizie 3

PARTE I - Introduzione 4

Si parla di Web Usage Mining E' parte integrante delle seguenti discipline di Information Technology (IT): Knowledge Discovery from Data (KDD) Data mining, in particolare Web mining (data mining applicato al web) Dall'inglese: Web usage: utilizzo del web (riferito agli utenti navigatori di Internet) Mining: attività di estrazione di conoscenza nascosta da dati Processo di scoperta e analisi di modelli (pattern) che concentra l'attenzione sui dati relativi agli accessi effettuati dagli utenti (Web usage data) Rientrano in questa categoria i processi di analisi degli accessi raccolti a livello di: HTTP server (server web) HTTP proxy server ISP HTTP client L'argomento di questa presentazione verterà su accessi a server HTTP ma...... può essere esteso anche agli altri casi (con delle differenze) 5

La navigazione su Internet for dummies L'utente tramite il browser accede a una risorsa sul server web X Il server web X memorizza la richiesta in un file di testo chiamato access log Il file access log è un elenco sequenziale delle richieste HTTP fatte al server Ogni richiesta porta con sé informazioni quali: Indirizzo IP della richiesta Orario della richiesta Risorsa richiesta (URL) Browser utilizzato 40 minuti di pausa S R1 R2 R3 R4 R5 R6 R7 R8 R9 R10 R11 R12 R13 E IP: 999.999.999.999 Orario: Mer 17 Ott 2007 ore 9.40.35 CEST URL: http://www.comune.prato.it/concorsi/htm/z4.htm Browser: Mozilla/5.0 (X11; U; Linux i686; it; rv:1.8.1) Gecko/20060601 Firefox/2.0 (Ubuntu-edgy) 6

Utenti, sessioni, transazioni e richieste Logicamente, è possibile raggruppare le richieste di uno stesso utente in: Sessioni o visite (gruppo di richieste con tempo inattività < 30 minuti) Transazioni (gruppi logici di richieste) Richieste Utente u Sessione 1 Transazione 1 R1 R2 R3 R4 Sessione s Transazione 1 R8 R9 Transazione t Transazione t R5 R6 R7 R10 R11 R12 R13 orario(r8) orario(r7) > 30 minuti 7

L'analisi tradizionale degli access log (1/2) Non è possibile estrarre informazioni utili senza un'azione di processing 8

L'analisi tradizionale degli access log (2/2) E' norma utilizzare software di analisi dei log (AWStats, Analog, Webalizer, ecc.) Questo tipo di software, seppure funzionale e configurabile, ha dei limiti: Produce report statici (istantanee) Richiede una rielaborazione (parziale o totale) per modifiche ai report Si integra difficilmente con fonti di dati ausiliarie Manca di un DB relazionale sul quale effettuare interrogazioni puntuali Manca di un DB relazionale pluriennale modellato sulle esigenze di business SELECT u.url, r.tempo FROM richieste r, url u WHERE id_sessione = 14483884 AND u.id_url = r.id_url; url tempo ---------------------------------------------------------+------------+ http://www.comune.prato.it/concorsi/ 6 http://www.comune.prato.it/concorsi/htm/z4.htm 10 http://www.comune.prato.it/concorsi/ 2 http://www.comune.prato.it/concorsi/htm/z301.htm 15 9

PARTE II - ht://miner 10

Nasce un nuovo prodotto open-source: ht://miner Esperienza pluriennale nel campo delle statistiche degli accessi ai server web Esperienza in campo accademico da parte del sottoscritto: Semestre di ricerca su data mining c/o Monash University, Melbourne, Australia Laurea in Statistica (Università degli Studi di Firenze) con particolare interesse al data mining (web usage mining) Progettazione di un prototipo sperimentale di web usage mining Esperienza di programmazione open-source in C++ Esperienza di modellazione di basi di dati relazionali Ricerca nel settore del data warehousing Conoscenza di PostgreSQL e di sistemi operativi open-source (GNU/Linux) Contesto: Rete Civica Po-Net Tutti questi fattori portano alla nascita nel 2003 del progetto sperimentale ht://miner da parte del Comune di Prato all'interno della rete civica di Prato Il progetto è distribuito secondo la licenza GNU GPL 2.0 ed è scaricabile liberamente dal sito di SourceForge.net 11

Prato e la sua rete civica: Po-Net Popolazione residente nella provincia di Prato al 31/12/2005: 242.497 Progetto Po-Net nasce nel 1995 (fra i primi in Italia) e vede coinvolti: Comuni della Provincia (7) Provincia Prefettura Camera di Commercio ASL Aziende a partecipazione pubblica Biblioteche Musei Istituzioni culturali Scuole Associazioni Fa parte di RTRT (Rete Telematica Regionale Toscana) E' composto da 140 gruppi di lavoro e redazioni Il coordinatore è l'ufficio Rete Civica del Comune di Prato 40.913.165 accessi ai siti web di Po-Net dal 1 gennaio al 21 ottobre 2007 ht://miner è utilizzato ufficialmente dal 1 gennaio 2007 12

Alcuni fra gli obiettivi di ht://miner Memorizzazione automatica delle informazioni in un RDBMS Creazione di un data warehouse per il supporto alle decisioni (DSS) sul comportamento degli utenti di uno o più siti web Predisposizione al data mining: Regole associative (market basket analysis) Path analysis (simile al concetto di conversion) Clustering Individuazione automatica dei visitatori unici, delle sessioni, delle transazioni e del tempo speso Rilevazione supervisionata e automatica degli spider Supporto per la localizzazione degli indirizzi IP tramite GeoIP Classificazione delle URL in strutture gerarchiche organizzate a categorie Creazione di un framework di astrazione in PHP (libreria middleware) per l'interrogazione online Integrazione con fonti di dati ausiliarie Produzione di report con le più diffuse metriche di analisi degli accessi (visite, richieste di pagine, browser e sistemi operativi utilizzati, provenienza, ecc.) Rispetto e garanzia della privacy (utenti anonimi)... 13

Architettura di ht://miner Architettura a stack su 5 livelli: Pre-processing Processing Data warehousing Analisi: Data mining Report Interrogazione via Web Personalizzazione di massa 14

Data Warehouse Data warehouse di primo livello: Schema a stella (star schema): Fatti Dimensioni Memorizza i subject: Richieste di pagine Richieste di errori Data warehouse (mart) di secondo livello modellati sulla base delle esigenze specifiche a partire dal data warehouse di primo livello 15

Un esempio di data warehouse personalizzato (data mart) Stato di sviluppo: stabile Punto di partenza: data warehouse di primo livello Obiettivi: creare uno o più data mart (sottoinsiemi) con accessi giornalieri e mensili organizzati logicamente in una o più gerarchie di categorie Task: Classificare le URL in gerarchie di categorie (struttura ad albero) tramite espressioni regolari Mantenere aggiornata la gerarchia nel tempo Permettere la creazione e la navigazione automatica di data mart con diverso grado di aggregazione (per motivi di efficienza) Caso d'uso: http://statistiche.po-net.prato.it/ (dal 1 gennaio 2007) 16

Data mining: una sperimentazione di market basket analysis Stato di sviluppo: alpha Punto di partenza: data warehouse di secondo livello Obiettivi: memorizzare e recuperare regole associative semplici del tipo: con query del tipo: SE "Servizi comunali del Comune di Prato" ALLORA "Statuto e regolamenti del Comune di Prato" con confidenza pari a 11,57% SELECT categoria1, categoria2, confidenza FROM arules WHERE confidenza > 0 AND supporto > 0.01 ORDER BY confidenza desc; categoria1 categoria2 confidenza -----------------+----------------+------------ Ist. F. Datini Bibl. Datini 0.8825 Canale giovani E-move 0.8777 Catalogo Prov. Biblioteche 0.8750... 17

PARTE III - Conclusioni 18

ht://miner e PostgreSQL PostgreSQL è il più avanzato sistema per la gestione di database open-source RDBMS di classe enterprise Multipiattaforma Supporta stabilmente: Integrità referenziale Transazioni Viste Stored Procedure Sub-query Mette a disposizione gli schemi Mette a disposizioni i tablespace (fondamentali per il data warehousing) Ha una gestione degli indici molto efficiente anche con database di grandi dimensioni 17.10.07: sul server di Po-Net, ht://miner ha un database su PostgreSQL con: 189 tabelle e 725 indici 229.436.843 record 125 GB di spazio fisico occupato (su due tablespace) 19

Riferimenti e notizie Riferimenti Utili: Sito principale di presentazione del progetto http://www.htminer.it Sito di sviluppo su Sourceforge.net http://www.sourceforge.net/projects/htminer Novità in arrivo per la comunità italiana di PostgreSQL: Italian PostgreSQL Users Group (IT-PUG): http://www.itpug.org/ PostgreSQL 8.3: http://www.postgresql.org/ Domande? GRAZIE 20

Licenza della presentazione: Creative Commons 3.0 BY NC SA 21