Lo strumento Excel, il problema, i dati e il data mining Brugnaro Luca
Prima di stampare pensa all ambiente think to environment before printing
Sistema informativo e Organizzazione Un Sistema Informativo (SI) e un insieme di elementi interconnessi cheraccolgono, cercano, elaborano, memorizzano e distribuiscono informazioni per supportare la gestione di un organizzazione. Come organizzazione si intende una struttura socio-economica articolata come un azienda (o impresa), un ente pubblico, una società e in generale, qualsiasi aggregazione di persone che cooperano per uno specifico fine.
Dato e informazione Un dato èla rappresentazione di un fatto che corrisponde ad un evento occorso in un organizzazione o nell ambiente esterno ad essa. Un informazione è la trasformazione di un dato in una forma utile per ottenere conoscenza e va quindi oltre al significato del singolo dato stesso.
Principi generali Dati Informazioni
SI formalizzati e no SI formalizzati: definizione dei dati predeterminata e universalmente accettata. Stesso discorso per la raccolta, la memorizzazione, l elaborazione dei dati e la diffusione e l utilizzo dell informazione basano su procedure predeterminate. Sono cioè strutturati e operano in conformità con regole fisse e relativamente difficili da modificare. SI non formalizzati: al contrario, non esistono definizione univoche sui dati così come sulle procedure e le stesse possono cambiare ed evolvere.
Evoluzione dei SI SI manuali: basati su carta. Fogli di carta scritti a mano e scambiati tra i membri di un organizzazione. Sostanzialmente sono i sistemi precursori della digitalizzazione dell informazione. SI computerizzati (CBIS, Computer-BasedInformation System): elaborano i dati e distribuiscono informazioni attraverso sistemi HW e SW. Implicano la completa digitalizzazione dell informazione. SI ibridi: composizione delle due tipologie sopracitate dove una parte delle informazioni è digitalizzata e l altra permane in forma cartacea. SI cartacei SI ibridi SI computerizzati
Archivi e database (DB) Per archiviosi intende un complesso ordinato e sistematico di atti, scritture e documentiprodotti e/o acquisiti da un soggetto pubblico o privato (ente, istituzione, famiglia o individuo nel normale esercizio delle proprie funzioni), durante lo svolgimento della propria attività, e custoditi in funzione del loro valore di attestazione e di tutela di un determinato interesse. Database, banca dati obase di dati, indica un archivio strutturato in modo tale da consentire la gestione dei dati stessi (l'inserimento, la ricerca, la cancellazione ed il loro aggiornamento) da parte di applicazioni software (DBMS).
DB e DBMS -approfondimento Il DB è un insieme di dati(memorizzati in campi) logicamente legati tra loro (record) che vengono suddivisi in base al contesto (logico) in tabelle. Informalmente e impropriamente, la parola "database" viene spesso usata come abbreviazione dell'espressione Database Management System(DBMS), che si riferisce a una vasta categoria di sistemi software che consentono la creazione, modifica e/o eliminazione efficiente dei dati in un database.
Presupposti favorevoli: Contestualizzazione Dati, dati, miniere di dati Potenziamento di sistemi di memorizzazione elettronica(si computerizzati) Sviluppo di metodi automatici di rilevazione e digitalizzazione dei dati. We re drowning in information and starving for knowledge (Rutherford D. Rogers)
Data warehouse(dw) I DW sono dei DB che hanno come sorgente d informazioni i DB che riflettono lo stato corrente del sistema, dati storici potenzialmente di interesse e sorgenti esterne come le informazioni che si ottengono dalle transazioni avvenute dell azienda. La natura delle sorgenti include fonti eterogenee. I DW nascono da una problematica che affligge chi si occupa di SI: l individuazione e la raccolta di informazioni trasversali (per scale temporali, per livelli, per aree funzionali e ambiente). I dati sono poi consolidati e resi omogenei in modo da poter essere utilizzati per le attività di analisi e di supporto alle decisioni all interno dell azienda. I dati sono accessibili ma non modificabili. I data mart(dm) sono dei sottoinsiemi di un DW dove sono inseriti una porzione dei dati a beneficio di una ristretta fascia di utenti DataBase Archivi Da dati eterogenei formare un DB utile per le analisi aziendali Data Warehouse DB strategici utili per specifiche analisi Data Mart
Problemi minerari Analisi dei flussi dei pazienti (ricoveri) Analisi delle prestazioni per servizio Confronto tra outcame di servizi omogenei Elevata numerosità di osservazioni/rilevazioni comporta metodiche di esplorazione e di analisi dei dati appropriate (data mining).
Data mining concetti chiave Rappresenta l attività di elaborazione in forma grafica o numerica di grandi raccolte di dati con lo scopo di estrarre informazione utile Estrazione, con tecniche analitiche all'avanguardia, di informazione implicita, nascosta, da dati già strutturati, per renderla disponibile e direttamente utilizzabile Esplorazione ed analisi, eseguita in modo automatico o semiautomatico, su grandi quantità di dati allo scopo di scoprire pattern(schemi) significativi In entrambi i casi i concetti di informazione e di significato sono legati strettamente al dominio applicativo in cui si esegue data mining, in altre parole un dato può essere interessante o trascurabile a seconda del tipo di applicazione in cui si vuole operare. Questo tipo di attività è cruciale in molti ambiti della ricerca scientifica, ma anche in altri settori (per esempio in quello delle ricerche di mercato). Nel mondo professionale è utilizzata per risolvere problematiche diverse tra loro, che vanno dalla gestione delle relazioni con i clienti (CRM), all'individuazione di comportamenti fraudolenti per finire all'ottimizzazione di siti webo della tipologia di prestazione da erogare all utenza. È uno strumento indispensabile per le macro-organizzazioni per il governo dei sistemi e per le scelte strategiche.
LA DOMANDA Cosa centra Excel con questi concetti di DBMS, SI, datamart,?
RISPOSTA È uno strumento utile e flessibile per operare delle analisi su fenomeni aziendali organizzativi, economici, e di ricerca Offre utili strumenti di collegamento con altri applicativi del pacchetto Office (ad es: Word, Access, ) e non (Qlik, SPSS, R, ) È un SW estremamente diffuso specie nel nostro contesto aziendale
Non solo Excel Esistono comunque una serie di SW anche gratuiti con finalità simili a quelle di Excel, ad esempio CALC del pacchetto OpenOfficedella Sun Microsystem (acquisita da Oracle 04/2009) Come l'intera suite OpenOffice, Calcè disponibile con supporto multipiattaforma (può essere usato su una grande varietà di piattaforme, comprese MacOS X, Microsoft Windows, Linux, FreeBSDe Solaris).
Metodo Approccio Top-Down (semplificato) Prima di qualsiasi operazione di raccolta dati, ricerca, mi devo sempre porre la domanda sull obiettivo : Che cosa voglio? A questo punto devo chiedermi: cosa mi serve per ottenerlo? Rappresentazione di Una realtà semplificata : il modello Analisi: DATI INFORMAZIONI CONOSCENZA
Processo per la realizzazione di un modello Definizione del problema Raccolta dei dati Sviluppo del modello Verifica del modello Ottimizzazione e decision making Comunicazione del modello agli stakeholders (tipicamente i manager) Implementazione del modello
Processo per la realizzazione di un modello -flowchart Def. del probelm a Raccolta dati Sviluppo del modello Verifica del modello Ottim. e Decision Making Comun. del modello Impleme ntazione del modello Possibili cicli (loop) di feedback