STATISTICA PER LA DIGITAL ECONOMY 2017

Похожие документы
ANALISI DEI DATI PER IL MARKETING 2016

ANALISI DEI DATI con EXCEL

STATISTICA DESCRITTIVA (variabili quantitative)

La variabilità. Dott. Cazzaniga Paolo. Dip. di Scienze Umane e Sociali

Istituzioni di Statistica

Laboratorio di Statistica 1 con R Esercizi per la Relazione. I testi e/o i dati degli esercizi contassegnati da sono tratti dai libri consigliati

Teoria e tecniche dei test. Concetti di base

Statistica. Alfonso Iodice D Enza

Distribuzioni e rappresentazioni grafiche

Sintesi dei dati in una tabella. Misure di variabilità (cap. 4) Misure di forma (cap. 5) Statistica descrittiva (cap. 6)

Nozioni di statistica

Statistica. Alfonso Iodice D Enza

Obiettivi Strumenti Cosa ci faremo? Probabilità, distribuzioni campionarie. Stimatori. Indici: media, varianza,

Esplorazione dei dati. Lucidi e dataset tratti da Turini - Analisi dei Dati, Dip. Inf. Unipi

Introduzione all Analisi Esplorativa dei Dati mediante R 1

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 2

Statistica descrittiva

Istituzioni di Statistica e Statistica Economica

Statistica. Lezione 1

Programmazione con Foglio di Calcolo Cenni di Statistica Descrittiva

Esercitazione n 2. Costruzione di grafici

Statistica Descrittiva Soluzioni 6. Indici di variabilità, asimmetria e curtosi

Statistica. Matematica con Elementi di Statistica a.a. 2015/16

ANALISI DEI DATI PER IL MARKETING 2014

Statistica Esercitazione. alessandro polli facoltà di scienze politiche, sociologia, comunicazione

Esercitazione 1.3. Indici di variabilità ed eterogeneità. Prof.ssa T. Laureti a.a

Statistica descrittiva con R

Elementi di Probabilità e Statistica

Esercitazioni di statistica

Statistica. POPOLAZIONE: serie di dati, che rappresenta linsieme che si vuole indagare (reali, sperimentali, matematici)

1/4 Capitolo 4 Statistica - Metodologie per le scienze economiche e sociali 2/ed Copyright 2008 The McGraw-Hill Companies srl

STATISTICA NOZIONI DI BASE

Statistica descrittiva con R

STATISTICA 1 ESERCITAZIONE 1 CLASSIFICAZIONE DELLE VARIABILI CASUALI

ESERCIZI DI PSICOMETRIA/2011-1

STATISTICHE DESCRITTIVE Parte II

STATISTICA A K (63 ore)

ANALISI DEI DATI PER IL MARKETING 2014

LA STATISTICA

14/12/2016 IL SOFTWARE EXCEL 4 I GRAFICI I GRAFICI. E se questi dati volessimo trasformarli in grafico?

INFORMATICA 11-Foglio di calcolo-grafici

1.1 CLASSIFICAZIONE DI VARIABILI

LA RAPPRESENTAZIONE E LA SINTESI DEI DATI

Elementi di Psicometria con Laboratorio di SPSS 1

Lezione 05. Costruzione di grafici a torte, grafici a linee, istogrammi

Indici di Dispersione

Statistica. Esercitazione 3 9 maggio 2012 Coefficiente di variazione. Serie storiche. Connessione e indipendenza statistica

Il volume: A. Cerioli M.A. Milioli M. Riani Esercizi di statistica parte I, Uni.nova, Parma, 2006

Università di Cassino. Esercitazioni di Statistica 1 del 29 Gennaio Dott. Mirko Bevilacqua

MISURE DI SINTESI 54

Prova di Laboratorio del [ Corso A-B di Programmazione (A.A. 2004/05) Esempio: Media Modalità di consegna:

Statistica Sociale - modulo A

Esercizio 1 Nella seguente tabella sono riportate le lunghezze in millimetri di 40 foglie di platano:

Analisi delle corrispondenze

UNIVERSITA DEGLI STUDI DI PERUGIA STATISTICA MEDICA. Prof.ssa Donatella Siepi tel:

Scale di Misurazione Lezione 2

Data Import e Probabilità. Renato Mainetti

Statistica di base per l analisi socio-economica

Università del Piemonte Orientale. Corso di Laurea in Medicina e Chirurgia. Corso di Statistica Medica. Statistica Descrittiva Variabili numeriche

Università di Cassino Corso di Statistica 1 Esercitazione del 15/10/2007 Dott. Alfonso Piscitelli. Esercizio 1

le scale di misura scala nominale scala ordinale DIAGNOSTICA PSICOLOGICA lezione si basano su tre elementi:

Istituzioni di Statistica 1 Esercizi su tabelle di contingenza

Università degli Studi di Cassino. Corso di Laurea in Economia Aziendale. Corso di. Statistica. Docente: Simona Balzano.

Compiti tematici dai capitoli 2,3,4

a.a Esercitazioni di Statistica Medica e Biometria Corsi di Laurea triennali Ostetricia / Infermieristica Pediatrica I anno

Statistica Un Esempio

Esercitazioni di Statistica: ES.1.1

Excel come foglio di calcolo. Altri Grafici con Excel Istogrammi, grafici a torta

PROGRAMMAZIONE DIDATTICA

Prefazione Ringraziamenti dell'editore Il sito web dedicato al libro Test online: la piattaforma McGraw-Hill Education Guida alla lettura

Fonte: Esempio a fini didattici

Indicatori compositi. Dott. Cazzaniga Paolo. Dip. di Scienze Umane e Sociali

Università del Piemonte Orientale. Corso di Laurea in Biotecnologie. Corso di Statistica Medica. Statistica Descrittiva: Variabili numeriche

Statistica - Esercitazione 1 Dott. Danilo Alunni Fegatelli

TRACCIA DI STUDIO. Indici di dispersione assoluta per misure quantitative

Misure di dispersione (o di variabilità)

Statistica Descrittiva Soluzioni 3. Medie potenziate

Транскрипт:

STATISTICA PER LA DIGITAL ECONOMY 2017 Marco Riani mriani@unipr.it http://www.riani.it INFORMAZIONI SUL CORSO Orario MER 11.00-13.00 (frontale) GIO 9.00-11.00 (frontale) VEN 11.00-13.00 (laboratorio) Ricevimento GIO 11.00-13.00 VEN 9.00-11.00 1

INFORMAZIONI SUL CORSO Conoscenze preliminari conoscenza di base di statistica descrittiva e inferenziale Tutti i lucidi saranno disponibili su www.riani.it Calendario degli esami 14 dicembre 2017 ore 15.30 18 gennaio 2017 ore 9.00 1 febbraio 2017 ore 9.00 31 maggio 2017 ore 9.00 14 giugno 2017 ore 9.00 28 giugno 2017 ore 9.00 07 settembre 2018 ore 9.00 Primo appello: a computer 2

LIBRO DI TESTO MATERIALE PRESENTE ALLA PAGINA www.riani.it/sda E consentito tenere gli appunti durante l esame! Software utilizzati nel corso Excel 2016 MATLAB 2017A+FSDA toolbox http://www.mathworks.com Le istruzioni per scaricare e installare MATLAB sono reperibili qui (solo studenti Università di Parma) 3

Corso di MATLAB on line https://trainingenrollment.mathworks.com/ selfenrollment?code=ta6eeh5eyztz Occorre registrarsi MODALITÀ DI ESAME (prova al computer) Quattro (tre) domande, ciascuna costituita da vari punti: Elaborazione dei dati con MATLAB 4

MODALITÀ DI ESAME (prova scritta tradizionale) Quattro (tre) domande, ciascuna costituita da vari punti: aspetti di calcolo aspetti di commento e di interpretazione dei risultati circa della medesima importanza Commento dei risultati ottenuti da SPSS e/o altro software Obiettivi del corso Illustrare i metodi statistici per il trattamento delle informazioni d interesse aziendale, considerando contemporaneamente più variabili, sia qualitative sia quantitative. Fornire un supporto conoscitivo razionale per le decisioni 5

Why analytics? EVOLUZIONE DI CONCETTI Statistica (descrittiva e inferenziale) Analisi dei dati multidimensionali Data Mining = «Estrazione da una miniera di dati» (di grandi dimensioni) Scavare in insiemi di dati molto numerosi per estrarre informazioni utili Text mining Web mining 6

PUNTO DI PARTENZA dell analisi dei dati MATRICE DEI DATI: X riferita a n unità e p variabili Ipermercati Sup. addetti vendite Centro Torri Esselunga... X n p x is = modalità che presenta la variabile s- esima nell unità statistica i-esima MATRICE DEI DATI x11 x1s x1 xi 1 xis x xn1 xns x Significato dei vettori riga e dei vettori colonna p ip np Tipologia delle unità statistiche 7

TIPI DI DATI Qualitativi (categorici) nominali: Esempi: sesso, tipo di laurea, forma giuridica delle imprese BINARI (DICOTOMICI) O CON CATEGORIE MULTIPLE (POLITOMICI) Qualitativi (categorici) ordinali: giudizi: insuff., suff., discreto, buono, ottimo Quantitativi: peso, fatturato, n. dipendenti Es. file Firm.xlsx 8

TIPI DI MATRICI DEI DATI unità x variabili X di dimensioni n x p Individui (questionari) Aziende Prodotti o marche Unità territoriali (province, ) Tempi (serie storiche o temporali) DATI ASSOLUTI E RELATIVI Esempio: n aziende DATI ASSOLUTI: Fatturato, valore aggiunto, n. addetti, DATI RELATIVI: Fatturato per addetto, valore aggiunto sul fatturato, ROE, A PRIORI DEFINISCO LO SCOPO DELLA RICERCA E POI SCELGO IL DATA SET DA ANALIZZARE 9

SCHEMA FONDAMENTALE DELLA RICERCA SCIENTIFICA Problema (domanda) Raccolta di dati Analisi dei dati Conclusione provvisoria (risposta) Estensioni, generalizzazioni, nuovi problemi Esercizio Importare il file Firm.xlsx in MATLAB Osservazione: tutti i file di input e di output per ogni esercizio sono scaricabili dalla pagina http://riani.it/sda/index.htm 10

Un primo modo per importare un dataset di Excel è tramite «Import Data» E possibile specificare quante righe importare e/o il tipo di output 11

Esplorare cosa succede quando stabilisco di importare come Table Column vectors Numeric Matrix Esercizio Importare il dataset come «Table» Come accedere ai diversi elementi della Table Es. estrarre l elemento all incrocio della terza riga e quanto colonna Es. estrarre la quindicedima unità statistica (15esima riga) 12

Come accedere ai diversi elementi della Table Es. estrarre la variabile «gender» Es. estrarre la quarta colonna Esercizio Generare uno script che carichi automaticamente la zona A1:I20 del foglio denominato «data» del file «Firm.xlsx» 13

Esercizio Generare uno script che carichi automaticamente la zona A1:I20 del foglio denominato «data» del file «Firm.xlsx» Esercizio Creare uno script che importi i dati dentro MATLAB in xlsread 14

Soluzione [num,txt,raw] = xlsread('firm.xlsx','data','a2:i10'); Esplorare il contenuto di num, txt e raw num contiene solo le colonne del dataset con dati quantitativi (variabili numeriche). Matrice di double txt contiene solo le colonne del dataset con dati qualitativi (variabili categorighe). Cell array Raw contiene tutte le colonne del dataset. Cell array Esercizio Importare i dati contenuti dentro il file Firm.xlsx in una table denominata X tramite la funzione readtable calcolare per ogni varaibile quantitativa il min il max e la mediana 15

Soluzione X=readtable('Firm.xlsx') summary(x) Esercizio Creare uno script che carichi il file firm.xlsx dentro MATLAB. Trasformare la variabile peso da libbre a KG (fattore 1kg=2.2046 libbre) Trasformare la variabile altezza da pollici a cm (fattore 1pollice=2.54cm) Chiamare il nuovo dataset Y Calcolare il peso medio e l altezza media 16

Soluzione Calcolo delle statistiche descrittive Esercizio: calcolare le statistiche descrittive (media, min, max, standard deviation, varianza) per il peso (in kg) e l altezza (in cm) 17

Soluzione Obiettivo Confrontare unità statistiche in presenza di fenomeni con diverso ordine di grandezza e diversa scala di misura 18

SCOSTAMENTI STANDARDIZZATI Definizione: z i = (x i M)/ s ove M è la media e s (a volte indicato con s) è la deviazione standard (corretta) Proprietà: 1. M = O 2. s 1 3. puri numeri (confrontabili) MATRICE DEGLI SCOST. STAND. : Z Proprietà delle variabili standardizzate (p. 146) z i x i M s Hanno valor medio nullo M(Z)=0 Hanno varianza unitaria VAR(Z)=1 se Y=bX+a σ 2 (Y)=VAR(Y) = b 2 VAR(X) (p. 122) 19

Esempio Valori originali Scostamenti standardizzati Peso Altezza Peso Altezza A 67 180-0,695 1,003 B 82 167 0,727-0,952 C 74 183-0,032 1,454 D 69 167-0,506-0,952 E 61 167-1,264-0,952 F 93 176 1,770 0,401 z i xi M s Me dia 74,33 173,33 σ 10,55 6,65 Me dia 0 0 σ 1 1 Esercizio Aggiungere allo script precedente il calcolo della matrice degli scostamenti dalla media per le variabili peso e altezza e la matrice degli scostamenti standardizzati (utilizzare sia l implementazione manuale, sia la funzione zscore, sia un loop. Controllare che il risultato sia identico con i diversi modi) 20

Rappresentazione grafica Rappresentare tramite grafico a barra gli scostamenti standardizzati del peso e dell altezza delle prime 10 unità statistiche. Inserire come etichetta dell asse x il nome (Variabile name) delle 10 unità statistiche Aggiungere al grafico un titolo ed una legenda Creazione del grafico Il modo più semplice per creare un grafico è quello di selezionare la zona della variabile che mi interessa e (dopo aver selezionato la scheda plots) fare click sul grafico che mi interessa 21

Output finale Quale persona presenta un altezza molto superiore alla media ed un peso inferiore alla media? Asimmetria e curtosi Implementare le formule manualmente e controllare il risultato utilizzando le formule di MATLAB (kurtosis, skewness) 22

Indici di asimmetria Asimmetria positiva e negativa La distribuzione normale Nella distribuzione normale 23

Indice di curtosi (normalità) Se la variabile è normale Formule da utilizzare per gli indici di asimmetria e curtosi Indice di curtosi (kurtosis) 24

Formule da utilizzare per l indice di asimmetria Indice di asimmetria (skewness) BOXPLOT (grafico a scatola) Indici occorrenti: quartili DI x min e x max 25

Boxplot di 16 punti Boxplot di 16 punti Il punto di troncamento superiore è in corrispondenza del valore più grande x 75% +1.5DI Il punto di troncamento inferiore si colloca in corrispondenza del valore più piccolo x 25% -1.5DI 26

Esercizio: inserire dentro MATLAB i dati numerici della spesa riportati nella tabella che segue. Calcolare ed interpretare i seguenti percentili di spesa 0 0.25 0.50 0.75 1. Calcolare ed interpretare la differenza interquartile. Costruire ed interpretare il relativo boxplot. Costruire il boxplot con orientamento orizzontale. Inserire tutte le istruzioni dentro uno script denominato boxp.m Soluzione 27

Soluzione Esercizio Calcolare i seguenti quantili della variabile retribuzione 0.025 0.25 0.50 0.75 0.975 Suggerimento: utilizzare la funzione quantile 28

Esercizio Importare come «table» il file Firm.xlsx Calcolare ed interpretare il boxplot per le variabili peso e altezza (prima per tutte le unità statistiche e poi tenendo separati i maschi dalle femmine) Soluzione boxplot(table2array(y(:,8))) ylabel('altezza in cm') 29

Soluzione Analisi della variabile retribuzione Investigare la presenza di valori anomali per questa variabile Partendo dalla table denominata Y, costruire una nuova table denominata Ycor. In questa nuova table modificare il valore della retribuzione della quarta unità statistica in 1916.26 30

Soluzione La modifica di un valore all interno di una table può essere fatto direttamente dentro aprendo la variabile nell editor delle variabili L istruzione da codice è la seguente Ycor.Wage(4) =1916.26 Esercizio Costruire il grafico ad istogrammi della variabile wage modificata Costruire il grafico ad istogrammi utilizzando 15 classi Costruire il grafico ad istogrammi specificando le classi 1500-2000 2000:2500. 3500-4000 31

Distribuzione di frequenza con classi non equispaziate Esercizio: calcolare la distribuzione di frequenza utilizzando le classi precedenti 1500-2000 2000:2500. 3500-4000 32