STATISTICA PER LA DIGITAL ECONOMY 2018 Marco Riani mriani@unipr.it http://www.riani.it
INFORMAZIONI SUL CORSO Orario MER 11.15-12.45 (frontale) GIO 9.15-10.45 (frontale) VEN 11.00-13.00 (laboratorio) Ricevimento GIO 11.00-13.00 VEN 9.00-11.00
E necessario registrarsi per accedere ai computer del laboratorio! http://www.cce.unipr.it/html/labinfo
INFORMAZIONI SUL CORSO Conoscenze preliminari conoscenza di base di statistica descrittiva e inferenziale Tutti i lucidi saranno disponibili su www.riani.it
Calendario degli esami 18 dicembre 2018 ore 16.00 10 gennaio 2019 ore 9.00 24 gennaio 2019 ore 9.00 28 maggio 2019 ore 9.00 11 giugno 2019 ore 9.00 25 giugno 2019 ore 9.00 11 settembre 2019 ore 9.00 Prove a computer
LIBRO DI TESTO MATERIALE PRESENTE ALLA PAGINA www.riani.it/sde E consentito tenere gli appunti durante l esame!
Software utilizzati nel corso Excel 2016 MATLAB 2018A o 2018B + FSDA toolbox http://www.mathworks.com Le istruzioni per scaricare e installare MATLAB sono reperibili qui (solo studenti Università di Parma)
Corso di MATLAB on line https://trainingenrollment.mathworks.com/ selfenrollment?code=ta6eeh5eyztz Occorre registrarsi
MODALITÀ DI ESAME (prova al computer) Quattro (tre) domande, ciascuna costituita da vari punti: Elaborazione dei dati con MATLAB
MODALITÀ DI ESAME (prova scritta tradizionale) Quattro (tre) domande, ciascuna costituita da vari punti: aspetti di calcolo aspetti di commento e di interpretazione dei risultati circa della medesima importanza
Il compito è diviso in due parti Programmazione Analisi dei dati
L ouput da consegnare è un file in formato.m oppure.mlx
Obiettivi del corso Imparare a programmare Illustrare i metodi statistici per il trattamento delle informazioni d interesse aziendale, considerando contemporaneamente più variabili, sia qualitative sia quantitative. Fornire un supporto conoscitivo razionale per le decisioni
Why analytics?
EVOLUZIONE DI CONCETTI Statistica (descrittiva e inferenziale) Analisi dei dati multidimensionali Data Mining = «Estrazione da una miniera di dati» (di grandi dimensioni) Scavare in insiemi di dati molto numerosi per estrarre informazioni utili Text mining Web mining
PUNTO DI PARTENZA dell analisi dei dati MATRICE DEI DATI: X riferita a n unità e p variabili Ipermercati Sup. addetti vendite Centro Torri Esselunga...
MATRICE DEI DATI X n p = x x x 11 i1 n1 x x x 1s is ns x x x 1p ip np x is = modalità che presenta la variabile s- esima nell unità statistica i-esima Significato dei vettori riga e dei vettori colonna Tipologia delle unità statistiche
TIPI DI DATI Qualitativi (categorici) nominali: Esempi: sesso, tipo di laurea, forma giuridica delle imprese BINARI (DICOTOMICI) O CON CATEGORIE MULTIPLE (POLITOMICI) Qualitativi (categorici) ordinali: giudizi: insuff., suff., discreto, buono, ottimo Quantitativi: peso, fatturato, n. dipendenti
Es. file Firm.xlsx
TIPI DI MATRICI DEI DATI unità x variabili X di dimensioni n x p Individui (questionari) Aziende Prodotti o marche Unità territoriali (province, ) Tempi (serie storiche o temporali)
DATI ASSOLUTI E RELATIVI Esempio: n aziende DATI ASSOLUTI: Fatturato, valore aggiunto, n. addetti, DATI RELATIVI: Fatturato per addetto, valore aggiunto sul fatturato, ROE, A PRIORI DEFINISCO LO SCOPO DELLA RICERCA E POI SCELGO IL DATA SET DA ANALIZZARE
SCHEMA FONDAMENTALE DELLA RICERCA SCIENTIFICA Problema (domanda) Raccolta di dati Analisi dei dati Conclusione provvisoria (risposta) Estensioni, generalizzazioni, nuovi problemi
Esercizio Importare il file Firm.xlsx in MATLAB Osservazione: tutti i file di input e di output per ogni esercizio sono scaricabili dalla pagina http://riani.it/sda/index.htm
Un primo modo per importare un dataset di Excel è tramite «Import Data»
E possibile specificare quante righe importare e/o il tipo di output
Esplorare cosa succede quando stabilisco di importare come Table Column vectors Numeric Matrix
Esercizio Importare il dataset come «Table» Come accedere ai diversi elementi della Table Es. estrarre l elemento all incrocio della terza riga e quanto colonna Es. estrarre la quindicedima unità statistica (15esima riga)
Come accedere ai diversi elementi della Table Es. estrarre la variabile «gender» Es. estrarre la quarta colonna
Esempi (supponiamo che la table si chiami X) Estrazione della riga della table denominata «P0320»: X('P0320',) Estrazione delle righe della table denominate «P0256» e «P0214» e delle prime 3 colonne: X({'P0256' 'P0214'},1:3) Estrazione della colonna riferita alla variabile «Height» X(:,'Height')
Esercizio Generare uno script che carichi automaticamente la zona A1:I20 del foglio denominato «data» del file «Firm.xlsx»
Esercizio Generare uno script che carichi automaticamente la zona A1:I10 del foglio denominato «data» del file «Firm.xlsx»
Esercizio Creare uno script che importi i dati dentro MATLAB in xlsread
Soluzione [num,txt,raw] = xlsread('firm.xlsx','data','a2:i10'); Esplorare il contenuto di num, txt e raw num contiene solo le colonne del dataset con dati quantitativi (variabili numeriche). Matrice di double txt contiene solo le colonne del dataset con dati qualitativi (variabili categorighe). Cell array Raw contiene tutte le colonne del dataset. Cell array
Esercizio Importare i dati contenuti dentro il file Firm.xlsx in una table denominata X tramite la funzione readtable calcolare per ogni varaibile quantitativa il min il max e la mediana
Soluzione X=readtable('Firm.xlsx') summary(x)
Esercizio Creare uno script che carichi il file firm.xlsx dentro MATLAB. Trasformare la variabile peso da libbre a KG (fattore 1kg=2.2046 libbre) Trasformare la variabile altezza da pollici a cm (fattore 1pollice=2.54cm) Chiamare il nuovo dataset Y Calcolare il peso medio e l altezza media
Soluzione
Calcolo delle statistiche descrittive Esercizio: calcolare le statistiche descrittive (media, min, max, standard deviation, varianza) per il peso (in kg) e l altezza (in cm)
Soluzione
Obiettivo Confrontare unità statistiche in presenza di fenomeni con diverso ordine di grandezza e diversa scala di misura
SCOSTAMENTI STANDARDIZZATI Definizione: z i = (x i M)/ σ ove M è la media e σ (a volte indicato con s) è la deviazione standard (corretta) Proprietà: 1. M = O 2. σ = 1 3. puri numeri (confrontabili) MATRICE DEGLI SCOST. STAND. : Z
Proprietà delle variabili standardizzate (p. 146) z i = x i σ M Hanno valor medio nullo M(Z)=0 Hanno varianza unitaria VAR(Z)=1 se Y=bX+a σ 2 (Y)=VAR(Y) = b 2 VAR(X) (p. 122)
Esempio Valori originali Scostamenti standardizzati Peso Altezza Peso Altezza A 67 180-0,695 1,003 B 82 167 0,727-0,952 C 74 183-0,032 1,454 D 69 167-0,506-0,952 z i = x i M σ E 61 167 F 93 176 Me dia 74,33 173,33 σ 10,55 6,65-1,264-0,952 1,770 0,401 Me dia 0 0 σ 1 1
Esercizio Aggiungere allo script precedente il calcolo della matrice degli scostamenti dalla media per le variabili peso e altezza e la matrice degli scostamenti standardizzati (utilizzare sia l implementazione manuale, sia la funzione zscore, sia un loop. Controllare che il risultato sia identico con i diversi modi)
Rappresentazione grafica Rappresentare tramite grafico a barra gli scostamenti standardizzati del peso e dell altezza delle prime 10 unità statistiche. Inserire come etichetta dell asse x il nome (Variabile name) delle 10 unità statistiche Aggiungere al grafico un titolo ed una legenda
Creazione del grafico Il modo più semplice per creare un grafico è quello di selezionare la zona della variabile che mi interessa e (dopo aver selezionato la scheda plots) fare click sul grafico che mi interessa
Output finale Quale persona presenta un altezza molto superiore alla media ed un peso inferiore alla media?
Asimmetria e curtosi Implementare le formule manualmente e controllare il risultato utilizzando le formule di MATLAB (kurtosis, skewness)
Indici di asimmetria Asimmetria positiva e negativa
La distribuzione normale Nella distribuzione normale
Indice di curtosi (normalità) Se la variabile è normale
Formule da utilizzare per gli indici di asimmetria e curtosi Indice di curtosi (kurtosis)
Formule da utilizzare per l indice di asimmetria Indice di asimmetria (skewness)
BOXPLOT (grafico a scatola) Indici occorrenti: quartili DI x min e x max
Boxplot di 16 punti
Boxplot di 16 punti Il punto di troncamento superiore è in corrispondenza del valore più grande x 75% +1.5DI Il punto di troncamento inferiore si colloca in corrispondenza del valore più piccolo x 25% -1.5DI
Esercizio: inserire dentro MATLAB i dati numerici della spesa riportati nella tabella che segue. Calcolare ed interpretare i seguenti percentili di spesa 0 0.25 0.50 0.75 1. Calcolare ed interpretare la differenza interquartile. Costruire ed interpretare il relativo boxplot. Costruire il boxplot con orientamento orizzontale. Inserire tutte le istruzioni dentro uno script denominato boxp.m
Soluzione
Soluzione
Esercizio Calcolare i seguenti quantili della variabile retribuzione 0.025 0.25 0.50 0.75 0.975 Suggerimento: utilizzare la funzione quantile
Esercizio Importare come «table» il file Firm.xlsx Calcolare ed interpretare il boxplot per le variabili peso e altezza (prima per tutte le unità statistiche e poi tenendo separati i maschi dalle femmine)
Soluzione boxplot(y{:, Height })) ylabel('altezza in cm')
Soluzione
Analisi della variabile retribuzione Investigare la presenza di valori anomali per questa variabile Partendo dalla table denominata Y, costruire una nuova table denominata Ycor. In questa nuova table modificare il valore della retribuzione della quarta unità statistica in 1916.26
Soluzione La modifica di un valore all interno di una table può essere fatto direttamente dentro aprendo la variabile nell editor delle variabili L istruzione da codice è la seguente Ycor.Wage(4) =1916.26
Esercizio Costruire il grafico ad istogrammi della variabile wage modificata Costruire il grafico ad istogrammi utilizzando 15 classi Costruire il grafico ad istogrammi specificando le classi 1500-2000 2000:2500. 3500-4000
Distribuzione di frequenza con classi non equispaziate Esercizio: calcolare la distribuzione di frequenza utilizzando le classi precedenti 1500-2000 2000:2500. 3500-4000