STATISTICA PER LA DIGITAL ECONOMY 2017 Marco Riani mriani@unipr.it http://www.riani.it INFORMAZIONI SUL CORSO Orario MER 11.00-13.00 (frontale) GIO 9.00-11.00 (frontale) VEN 11.00-13.00 (laboratorio) Ricevimento GIO 11.00-13.00 VEN 9.00-11.00 1
INFORMAZIONI SUL CORSO Conoscenze preliminari conoscenza di base di statistica descrittiva e inferenziale Tutti i lucidi saranno disponibili su www.riani.it Calendario degli esami 14 dicembre 2017 ore 15.30 18 gennaio 2017 ore 9.00 1 febbraio 2017 ore 9.00 31 maggio 2017 ore 9.00 14 giugno 2017 ore 9.00 28 giugno 2017 ore 9.00 07 settembre 2018 ore 9.00 Primo appello: a computer 2
LIBRO DI TESTO MATERIALE PRESENTE ALLA PAGINA www.riani.it/sda E consentito tenere gli appunti durante l esame! Software utilizzati nel corso Excel 2016 MATLAB 2017A+FSDA toolbox http://www.mathworks.com Le istruzioni per scaricare e installare MATLAB sono reperibili qui (solo studenti Università di Parma) 3
Corso di MATLAB on line https://trainingenrollment.mathworks.com/ selfenrollment?code=ta6eeh5eyztz Occorre registrarsi MODALITÀ DI ESAME (prova al computer) Quattro (tre) domande, ciascuna costituita da vari punti: Elaborazione dei dati con MATLAB 4
MODALITÀ DI ESAME (prova scritta tradizionale) Quattro (tre) domande, ciascuna costituita da vari punti: aspetti di calcolo aspetti di commento e di interpretazione dei risultati circa della medesima importanza Commento dei risultati ottenuti da SPSS e/o altro software Obiettivi del corso Illustrare i metodi statistici per il trattamento delle informazioni d interesse aziendale, considerando contemporaneamente più variabili, sia qualitative sia quantitative. Fornire un supporto conoscitivo razionale per le decisioni 5
Why analytics? EVOLUZIONE DI CONCETTI Statistica (descrittiva e inferenziale) Analisi dei dati multidimensionali Data Mining = «Estrazione da una miniera di dati» (di grandi dimensioni) Scavare in insiemi di dati molto numerosi per estrarre informazioni utili Text mining Web mining 6
PUNTO DI PARTENZA dell analisi dei dati MATRICE DEI DATI: X riferita a n unità e p variabili Ipermercati Sup. addetti vendite Centro Torri Esselunga... X n p x is = modalità che presenta la variabile s- esima nell unità statistica i-esima MATRICE DEI DATI x11 x1s x1 xi 1 xis x xn1 xns x Significato dei vettori riga e dei vettori colonna p ip np Tipologia delle unità statistiche 7
TIPI DI DATI Qualitativi (categorici) nominali: Esempi: sesso, tipo di laurea, forma giuridica delle imprese BINARI (DICOTOMICI) O CON CATEGORIE MULTIPLE (POLITOMICI) Qualitativi (categorici) ordinali: giudizi: insuff., suff., discreto, buono, ottimo Quantitativi: peso, fatturato, n. dipendenti Es. file Firm.xlsx 8
TIPI DI MATRICI DEI DATI unità x variabili X di dimensioni n x p Individui (questionari) Aziende Prodotti o marche Unità territoriali (province, ) Tempi (serie storiche o temporali) DATI ASSOLUTI E RELATIVI Esempio: n aziende DATI ASSOLUTI: Fatturato, valore aggiunto, n. addetti, DATI RELATIVI: Fatturato per addetto, valore aggiunto sul fatturato, ROE, A PRIORI DEFINISCO LO SCOPO DELLA RICERCA E POI SCELGO IL DATA SET DA ANALIZZARE 9
SCHEMA FONDAMENTALE DELLA RICERCA SCIENTIFICA Problema (domanda) Raccolta di dati Analisi dei dati Conclusione provvisoria (risposta) Estensioni, generalizzazioni, nuovi problemi Esercizio Importare il file Firm.xlsx in MATLAB Osservazione: tutti i file di input e di output per ogni esercizio sono scaricabili dalla pagina http://riani.it/sda/index.htm 10
Un primo modo per importare un dataset di Excel è tramite «Import Data» E possibile specificare quante righe importare e/o il tipo di output 11
Esplorare cosa succede quando stabilisco di importare come Table Column vectors Numeric Matrix Esercizio Importare il dataset come «Table» Come accedere ai diversi elementi della Table Es. estrarre l elemento all incrocio della terza riga e quanto colonna Es. estrarre la quindicedima unità statistica (15esima riga) 12
Come accedere ai diversi elementi della Table Es. estrarre la variabile «gender» Es. estrarre la quarta colonna Esercizio Generare uno script che carichi automaticamente la zona A1:I20 del foglio denominato «data» del file «Firm.xlsx» 13
Esercizio Generare uno script che carichi automaticamente la zona A1:I20 del foglio denominato «data» del file «Firm.xlsx» Esercizio Creare uno script che importi i dati dentro MATLAB in xlsread 14
Soluzione [num,txt,raw] = xlsread('firm.xlsx','data','a2:i10'); Esplorare il contenuto di num, txt e raw num contiene solo le colonne del dataset con dati quantitativi (variabili numeriche). Matrice di double txt contiene solo le colonne del dataset con dati qualitativi (variabili categorighe). Cell array Raw contiene tutte le colonne del dataset. Cell array Esercizio Importare i dati contenuti dentro il file Firm.xlsx in una table denominata X tramite la funzione readtable calcolare per ogni varaibile quantitativa il min il max e la mediana 15
Soluzione X=readtable('Firm.xlsx') summary(x) Esercizio Creare uno script che carichi il file firm.xlsx dentro MATLAB. Trasformare la variabile peso da libbre a KG (fattore 1kg=2.2046 libbre) Trasformare la variabile altezza da pollici a cm (fattore 1pollice=2.54cm) Chiamare il nuovo dataset Y Calcolare il peso medio e l altezza media 16
Soluzione Calcolo delle statistiche descrittive Esercizio: calcolare le statistiche descrittive (media, min, max, standard deviation, varianza) per il peso (in kg) e l altezza (in cm) 17
Soluzione Obiettivo Confrontare unità statistiche in presenza di fenomeni con diverso ordine di grandezza e diversa scala di misura 18
SCOSTAMENTI STANDARDIZZATI Definizione: z i = (x i M)/ s ove M è la media e s (a volte indicato con s) è la deviazione standard (corretta) Proprietà: 1. M = O 2. s 1 3. puri numeri (confrontabili) MATRICE DEGLI SCOST. STAND. : Z Proprietà delle variabili standardizzate (p. 146) z i x i M s Hanno valor medio nullo M(Z)=0 Hanno varianza unitaria VAR(Z)=1 se Y=bX+a σ 2 (Y)=VAR(Y) = b 2 VAR(X) (p. 122) 19
Esempio Valori originali Scostamenti standardizzati Peso Altezza Peso Altezza A 67 180-0,695 1,003 B 82 167 0,727-0,952 C 74 183-0,032 1,454 D 69 167-0,506-0,952 E 61 167-1,264-0,952 F 93 176 1,770 0,401 z i xi M s Me dia 74,33 173,33 σ 10,55 6,65 Me dia 0 0 σ 1 1 Esercizio Aggiungere allo script precedente il calcolo della matrice degli scostamenti dalla media per le variabili peso e altezza e la matrice degli scostamenti standardizzati (utilizzare sia l implementazione manuale, sia la funzione zscore, sia un loop. Controllare che il risultato sia identico con i diversi modi) 20
Rappresentazione grafica Rappresentare tramite grafico a barra gli scostamenti standardizzati del peso e dell altezza delle prime 10 unità statistiche. Inserire come etichetta dell asse x il nome (Variabile name) delle 10 unità statistiche Aggiungere al grafico un titolo ed una legenda Creazione del grafico Il modo più semplice per creare un grafico è quello di selezionare la zona della variabile che mi interessa e (dopo aver selezionato la scheda plots) fare click sul grafico che mi interessa 21
Output finale Quale persona presenta un altezza molto superiore alla media ed un peso inferiore alla media? Asimmetria e curtosi Implementare le formule manualmente e controllare il risultato utilizzando le formule di MATLAB (kurtosis, skewness) 22
Indici di asimmetria Asimmetria positiva e negativa La distribuzione normale Nella distribuzione normale 23
Indice di curtosi (normalità) Se la variabile è normale Formule da utilizzare per gli indici di asimmetria e curtosi Indice di curtosi (kurtosis) 24
Formule da utilizzare per l indice di asimmetria Indice di asimmetria (skewness) BOXPLOT (grafico a scatola) Indici occorrenti: quartili DI x min e x max 25
Boxplot di 16 punti Boxplot di 16 punti Il punto di troncamento superiore è in corrispondenza del valore più grande x 75% +1.5DI Il punto di troncamento inferiore si colloca in corrispondenza del valore più piccolo x 25% -1.5DI 26
Esercizio: inserire dentro MATLAB i dati numerici della spesa riportati nella tabella che segue. Calcolare ed interpretare i seguenti percentili di spesa 0 0.25 0.50 0.75 1. Calcolare ed interpretare la differenza interquartile. Costruire ed interpretare il relativo boxplot. Costruire il boxplot con orientamento orizzontale. Inserire tutte le istruzioni dentro uno script denominato boxp.m Soluzione 27
Soluzione Esercizio Calcolare i seguenti quantili della variabile retribuzione 0.025 0.25 0.50 0.75 0.975 Suggerimento: utilizzare la funzione quantile 28
Esercizio Importare come «table» il file Firm.xlsx Calcolare ed interpretare il boxplot per le variabili peso e altezza (prima per tutte le unità statistiche e poi tenendo separati i maschi dalle femmine) Soluzione boxplot(table2array(y(:,8))) ylabel('altezza in cm') 29
Soluzione Analisi della variabile retribuzione Investigare la presenza di valori anomali per questa variabile Partendo dalla table denominata Y, costruire una nuova table denominata Ycor. In questa nuova table modificare il valore della retribuzione della quarta unità statistica in 1916.26 30
Soluzione La modifica di un valore all interno di una table può essere fatto direttamente dentro aprendo la variabile nell editor delle variabili L istruzione da codice è la seguente Ycor.Wage(4) =1916.26 Esercizio Costruire il grafico ad istogrammi della variabile wage modificata Costruire il grafico ad istogrammi utilizzando 15 classi Costruire il grafico ad istogrammi specificando le classi 1500-2000 2000:2500. 3500-4000 31
Distribuzione di frequenza con classi non equispaziate Esercizio: calcolare la distribuzione di frequenza utilizzando le classi precedenti 1500-2000 2000:2500. 3500-4000 32