Big Data. Davide Giarolo



Похожие документы
Organizzazione delle informazioni: Database

Gartner Group definisce il Cloud

Introduzione al data base

martedì 17 aprile 12 1

Software per Helpdesk

Big data ed eventi: quasi un tutorial. Prof. Riccardo Melen

CORSO ACCESS PARTE II. Esistono diversi tipi di aiuto forniti con Access, generalmente accessibili tramite la barra dei menu (?)

Attività federale di marketing

I database relazionali (Access)

La piattaforma di lettura targhe intelligente ed innovativa in grado di offrire servizi completi e personalizzati

BASE DI DATI: introduzione. Informatica 5BSA Febbraio 2015

Strategie su misura per la tua azienda

Lezione V. Aula Multimediale - sabato 29/03/2008

TERM TALK. software per la raccolta dati

Le Basi di Dati. Le Basi di Dati

Cos è. Mission & Vision. Attitude in Web, area di IT Attitude, ha competenze specifiche nel settore informatico e nel web marketing.

Organizzazione degli archivi

UN PROGRAMMA APPLICATIVO: ACCESS Access è un programma del pacchetto Office che permette di realizzare database

Creare una Rete Locale Lezione n. 1

Telerilevamento e GIS Prof. Ing. Giuseppe Mussumeci

MODULO 5 Appunti ACCESS - Basi di dati

LE CARATTERISTICHE. Caratteristiche. - tel fax pag. 2

Introduzione Ai Data Bases. Prof. Francesco Accarino IIS Altiero Spinelli Via Leopardi 132 Sesto San giovanni

Programma del Corso. Dati e DBMS SQL. Progettazione di una. Normalizzazione

SEI PRONTO PER UNA NUOVA SFIDA?

HBase Data Model. in più : le colonne sono raccolte in gruppi di colonne detti Column Family; Cosa cambia dunque?

Progettaz. e sviluppo Data Base

Corso di Access. Prerequisiti. Modulo L2A (Access) 1.1 Concetti di base. Utilizzo elementare del computer Concetti fondamentali di basi di dati

Facoltà di Farmacia - Corso di Informatica

La gestione di un calcolatore. Sistemi Operativi primo modulo Introduzione. Sistema operativo (2) Sistema operativo (1)

Informatica I per la. Fisica

Sistemi Operativi MECCANISMI E POLITICHE DI PROTEZIONE. D. Talia - UNICAL. Sistemi Operativi 13.1

MECCANISMI E POLITICHE DI PROTEZIONE 13.1

C Cloud computing Cloud storage. Prof. Maurizio Naldi

SQL, NoSQL, o entrambi?

Università Politecnica delle Marche. Progetto Didattico

GUIDA RAPIDA PER LA COMPILAZIONE DELLA SCHEDA CCNL GUIDA RAPIDA PER LA COMPILAZIONE DELLA SCHEDA CCNL

Trasforma la tua attività in un punto ioritiro.

Sistemi Informativi e Basi di Dati

Introduzione alla teoria dei database relazionali. Come progettare un database

NUOVA PROCEDURA COPIA ED INCOLLA PER L INSERIMENTO DELLE CLASSIFICHE NEL SISTEMA INFORMATICO KSPORT.

Soluzioni per ridurre i costi di stampa e migliorare i processi.

OmniAccessSuite. Plug-Ins. Ver. 1.3

Registratori di Cassa

Lezione 1. Introduzione e Modellazione Concettuale

Procedura SMS. Manuale Utente

SCENARIO. Personas ALICE Lucchin / BENITO Condemi de Felice. All rights reserved.

Big Data e Calcolo Parallelo

Scenario di Progettazione

Big Data e IT Strategy

Presentazione MyMailing 3.0

Indice. Indice Premessa e scopo del documento Ambiente operativo Architettura di sistema... 5

DATABASE.

I DATABASE Database relazionale

Listino 2012/

1. BASI DI DATI: GENERALITÀ

Premessa Le indicazioni seguenti sono parzialmente tratte da Wikipedia ( e da un tutorial di Pierlauro Sciarelli su comefare.

Archivi e database. Prof. Michele Batocchi A.S. 2013/2014

COME SVILUPPARE UN EFFICACE PIANO DI INTERNET MARKETING

UTILIZZATORI A VALLE: COME RENDERE NOTI GLI USI AI FORNITORI

Cos è il CRM. Andrea De Marco

SVILUPPO SOFTWARE. dai una nuova energia ai tuoi piani di sviluppo software SVILUPPO SOFTWARE

Olga Scotti. Basi di Informatica. Excel

Base di dati e sistemi informativi

L attenzione verso i collaboratori e la loro formazione, perché l azienda non cresce se i collaboratori restano indietro.

Receptionist 2.0. La soluzione semplice ed affidabile per il contact center

INNOVAZIONE XNOTTA PER PORTALI TURISTICI

Il database management system Access

Il Software di Collaborazione diventa tanto più potente quante più persone lo utilizzano. Cosa proponiamo

Elenchi Intrastat. Indice degli argomenti. Premessa. Operazioni preliminari. Inserimento manuale dei movimenti e presentazione

Il gestionale completo e modulare per l azienda di trasporto

Guida rapida per i docenti all'uso della piattaforma di e-learning dell'istituto Giua

STARTUP PACK IL SUCCESSO NON PUÒ ASPETTARE

Smart Cities and Communities and Social Innovation Bando MIUR D.D. 391/Ric. del 5 luglio Monitoring e Billing in OCP

LEAD GENERATION PROGRAM

Sistemi centralizzati e distribuiti

Mac Application Manager 1.3 (SOLO PER TIGER)

corso di Access MICROSOFT ACCESS Docente: Andrea Mereu Università degli studi di Cagliari 16 aprile 9 maggio 2012

Database e reti. Piero Gallo Pasquale Sirsi

Linee di evoluzione dei Database

BASI DI DATI per la gestione dell informazione. Angelo Chianese Vincenzo Moscato Antonio Picariello Lucio Sansone

What s App? S A L E S F O R C E A U T O M A T I O N

Introduzione alle basi di dati. Gestione delle informazioni. Gestione delle informazioni. Sistema informatico

PROGETTAZIONE E SVILUPPO DI UN. Relatore: Studente: Paolo Merialdo Valerio Barbagallo

Un nuovo modo per fare analisi e generare documenti dinamici

Archimede ver GUIDA FUNZIONALE ARCHIMEDE VER

Architetture Informatiche. Dal Mainframe al Personal Computer

Architetture Informatiche. Dal Mainframe al Personal Computer

JOB - Amministrazione del personale. La soluzione Sistemi per il professionista delle paghe.

Транскрипт:

Big Data Davide Giarolo

Definizione da Wikipedia Big data è il termine usato per descrivere una raccolta di dati così estesa in termini di volume, velocità e varietà da richiedere tecnologie e metodi analitici specifici per l'estrazione di valore Big data rappresenta anche l'interrelazione di dati provenienti potenzialmente da fonti eterogenee, quindi non soltanto i dati strutturati, come i database, ma anche non strutturati, come immagini, email, dati GPS, informazioni prese dai social network.

Perché una nuova tecnologia? Un database relazionale può risultare stretto La tecnologia opensource ci permette di evolvere verso soluzioni NoSQL L ecosistema Hadoop per Big data apre scenari interessanti nella profilazione del cliente

Cos è Hadoop: Hadoop è un framework Open Source di Apache, concepito per offrire supporto ad applicazioni distribuite e semplificare le operazioni di storage e gestione di dataset di grandi dimensioni (Big Data) Anche se nulla impedisce di realizzare l archiviazione dei dati tramite un classico database relazionale, spesso questa scelta porta a investire risorse economiche importanti sia in termini computazioniali, sia di storage. Questi e altri motivi portano alcuni colossi dell innovazione, tra cui Google e Facebook, ad adottare strumenti diversi dagli RDBMS per gestire e i loro Dataset: tra le tecnologie Open Source create per questo scopo una delle più diffuse e utilizzate è Apache Hadoop

Un cenno sull ecosistema Hadoop: Hadoop common Uno strato software comune che fornisce funzioni di supporto agli altri moduli. HDFS File system distribuito che fornisce un efficace modalità di accesso ai dati. Garantisce che i dati siano ridondanti nel cluster rendendo le operazioni sui dati stessi immuni dall eventuale guasto di un nodo. HDFS accetta dati in qualsiasi formato, strutturati e non strutturati. Di HDFS parleremo a breve in maniera dettagliata. Map- Reduce Un pattern che implementato permette di realizzare sistemi di computazione parallela e distribuita di grandi quantità di dati lavorando secondo il principio del divide- et- impera. YARN Un framework che consente di creare applicazioni o infrastrutture per il calcolo distribuito (sulla base di MapReduce). Esso si occupa della gestione delle risorse del cluster (memoria/cpu/storage).

e il NoSQL?!? Il termine NoSQL fu usato per la prima volta nel 1998 per una base di dati relazionale open source che non usava un'interfaccia SQL. L'autore Carlo Strozzi, dichiarò che "come movimento, NoSQL diparte in modo radicale dal modello relazionale, e quindi andrebbe chiamato in modo più appropriato NoREL, o qualcosa di simile"[1]. All'opposto di quanto si potrebbe pensare, il movimento NOSQL non è contrario all'utilizzo di database relazionali. Il termine NOSQL infatti è acronimo di Not Only SQL, a significare che esistono diversi casi d'uso per i quali il modello relazionale rappresenta una forzatura, ma tanti altri per i quali tale modello è ancora la soluzione migliore.

Principali implementazioni NoSQL: Coloumnfamily: i dati sono organizzati in righe e colonne, ma le righe possono avere quante colonne si vogliono e non c è bisogno di definire le colonne come prima cosa. Document store: è l evoluzione del metodo key/value, rispetto ai normali database relazionali invece che immagazzinare i dati in tabelle con dei campi fissi, questi vengono messi in un documento che può contenere illimitati campi di illimitata lunghezza, così se ad esempio di una persona conosciamo solo nome e cognome, ma magari di un altra persona anche indirizzo, data di nascita e codice fiscale, si evita che per il primo nominativo ci siano campi inutilizzati che occupano inutilmente spazio. Graph: i dati vengono immagazzinati sotto forma di strutture a grafi, rendendo più performante l accesso a questi da applicativi orientati agli oggetti. Key/Value: in questo caso i dati vengono immagazzinati in un elemento che contiene una chiave assieme ai dati veri e propri, questo metodo è il più semplice da implementare, ma anche il più inefficiente se la maggior parte delle operazioni riguardano soltanto una parte di un elemento.

Vediamo come i Big Data possono aiutarci: Ci permettono di registrare informazioni eterogenee in tempo reale per successiva elaborazione Il crescere delle dimensioni occupate dai dati viene gestito semplicemente aggiungendo risorse hardware di costo contenuto I Big Data Analitycs permettono di passare da una rendicontazione a posteriori su dati puliti tramite BI ad una proiezione automatica in tempo reale e quindi efficace nella vendita online e nel supporto decisionale per il venditore

Alcuni esempi reali: Analisi dei log dei siti web di ecommerce Analisi dei ritorni delle campagne di email marketing Analisi delle transazioni concluse o abbandonate a fronte di attivazione tramite campagne banner Segmentazione dei clienti sulla base di informazioni recuperate attivamente o passivamente negli store fisici Prevenzione degli attacchi informatici volti a rendere inutilizzabili le piattaforme ecommerce

Perché è importante partire subito? Non è necessario definire una struttura predeterminata Il dato viene comunque immagazzinato in maniera grezza E possibile in maniera flessibile allocare risorse on demand Social network, hosting providers, fonti dati esterne tendono a ridurre e rendere disponibili a pagamento le informazioni a disposizione

Trends: Le basi dati sono ormai una commodity, meglio sfruttarle come BDaaS Gli strumenti di analisi poggiano sulle medesime tecnologie Hadoop/ NoSQL Predisporre oggi lo stoccaggio delle informazioni, con strumenti opensource flessibili e supportati dai vendors Utilizzare le piattaforme di Big Data Analitycs più moderne e congrue per il tipo di rendicontazione o supporto decisionale che si vuole adottare