STATISTICA PER LA DIGITAL ECONOMY Marco Riani

Documenti analoghi
ANALISI DEI DATI PER IL MARKETING 2014

2. Variabilità mediante il confronto di valori caratteristici della

Esercitazione di riepilogo 23 Aprile 2013

Statistica descrittiva

7. Si confronti la variabilità del carattere età nel gruppo dei maschi ed in quello delle femmine.

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 5

Generazione di Numeri Casuali- Parte 2

Grafici e Pagina web

PSICOMETRIA. Esercitazione n.1. C.d.L. Comunicazione e Psicologia a.a. 2012/13

ESERCITAZIONE 4 SOCIALE. Corso di Laurea Comunicazione e A.A. 2012/2013

Indici (Statistiche) che esprimono le caratteristiche di simmetria e

PROTOCOLLO ITACA PUGLIA RESIDENZIALE Istruzioni d'uso del software Versione 1.0

L indagine statistica

ANALISI DEI DATI PER IL MARKETING 2014

Riassunto 24 Parole chiave 24 Commenti e curiosità 25 Esercizi 27 Appendice

LABORATORIO-EXCEL N. 2-3 XLSTAT- Pro Versione 7 VARIABILI QUANTITATIVE

Esplorazione dei dati

Grafici delle distribuzioni di frequenza

Corso integrato di informatica, statistica e analisi dei dati sperimentali Altri esercizi_esercitazione V

LABORATORIO EXCEL XLSTAT 2008 SCHEDE 2 e 3 VARIABILI QUANTITATIVE

Corso Matlab : Terza lezione (Esercitazione, 04/10/13) Samuela Persia, Ing. PhD.

Strumenti informatici Le statistiche descrittive con Excel e SPSS

Metodi Matematici e Informatici per la Biologia Maggio 2010

1 INTRODUZIONE ALL INTERFACCIA

Il foglio elettronico

Dipartimento di Scienze politiche, della comunicazione e delle relazioni internazionali - a.a

Misure della dispersione o della variabilità

Modulo 1 Information Communication Technology. ICT e computer... Pag. 6 Classificazione dei computer...» 8

Liceo Marie Curie (Meda) Scientifico Classico Linguistico PROGRAMMAZIONE DISCIPLINARE PER COMPETENZE

Esercitazioni di statistica

Indici di dispersione

Statistica Inferenziale

TECNOLOGIA TRAGUARDI PER LO SVILUPPO DELLE COMPETENZE AL TERMINE DELLA SCUOLA PRIMARIA

Dati importati/esportati

Istituto Comprensivo n. 15 Bologna SCUOLA SECONDARIA DI PRIMO GRADO STATALE G. ZAPPA ANNO SCOLASTICO 2015/2016 PROGRAMMAZIONE TRIENNALE DI GEOGRAFIA

Carta di credito standard. Carta di credito business. Esercitazione 12 maggio 2016

Dai dati al modello teorico

Traccia delle lezioni svolte in laboratorio Excel Excel 2003 Excel 2010

Infrastruttura telematica: visione d insieme Mauro Nanni

NEWS. Prossimi eventi: IL BOSCO IN MUSICA 2015!!!

AnthericaCMS. Gestisci in autonomia i contenuti del tuo sito-web

Elementi di statistica

Come descrivere un fenomeno in ambito sanitario fondamenti di statistica descrittiva. Brugnaro Luca

PIANO DI LAVORO. a.s / 2016

Laboratorio di ST1 Lezione 2

Libri di testo (suggeriti)

p k q n k = p n (k) = n 12 = 1 = ,1208. q = 1 2 e si ha: p 12 (8) =

2. Un carattere misurato in un campione: elementi di statistica descrittiva e inferenziale

UD4 - MATLAB. M-file. Efficienza degli algoritmi. Formati d uscita

Analisi Univariata e Multivariata dei Dati Economici Bruno Ricca (Dipartimento di studi su risorse, impresa, ambiente e metodologie quantitative)

LAB LEZ. 1 STATISTICA DESCRITTIVA CON R

Università del Piemonte Orientale. Corsi di Laurea Triennale. Corso di Statistica e Biometria. Introduzione e Statistica descrittiva

Gli appunti di scuola24ore

Brugnaro Luca Boscaro Gianni (2009) 1

TECNOLOGIA E INFORMATICA

Corso di Fondamenti di Informatica e Laboratorio ato o T-AB

Statistica 4038 (ver. 1.2)

Esercitazioni del corso di Statistica - III canale Prof. Mortera e Vicard a.a. 2010/2011

ELEMENTI DI STATISTICA DESCRITTIVA

Corso Matlab : Sesta lezione (Esercitazione, 25/10/13) Samuela Persia, Ing. PhD.

Gestione ed Analisi Statistica dei dati (per costruire il report: step by step con SPSS)

IC SIGNA-Secondaria-PROGRAMMAZIONE ANNUALE di GEOGRAFIA (In raccordo con Curricolo verticale e Indicazioni nazionali)

GUIDA ALLA CONFIGURAZIONE DI RETE DELLE TELECAMERE IP EUKLIS E ALLA CONFIGURAZIONE VIDEO CON GENETEC OMNICAST.

UNIVERSITA DEGLI STUDI DI BRESCIA-FACOLTA DI MEDICINA E CHIRURGIA CORSO DI LAUREA IN INFERMIERISTICA SEDE DI DESENZANO dg STATISTICA MEDICA

Offerta in concorrenza perfetta: Cap.6

Analisi Statistica per le Imprese (6 CFU) - a.a Prof. L. Neri RICHIAMI DI STATISTICA DESCRITTIVA UNIVARIATA

1 La Matrice dei dati

Elementi di Psicometria con Laboratorio di SPSS 1

Fogli Elettronici: MS Excel utilizzo avanzato

Strumenti di base per l analisi descrittiva della mortalità a livello locale

STATISTICA DESCRITTIVA UNIVARIATA

Marziana Monfardini lezioni di word

ANALISI DEI DATI PER IL MARKETING 2014

PROGRAMMAZIONE DIDATTICA INDIVIDUALE (Parte 2 a )

Non lasciamoci ingannare..

ITCS Erasmo da Rotterdam. Anno Scolastico 2014/2015. CLASSE 4^ M Costruzioni, ambiente e territorio

Guida rapida di installazione e configurazione

Esercitazioni del corso di Statistica Prof. Mortera a.a. 2008/2009

Esempio di prova di laboratorio

Esercitazione n o 3 per il corso di Ricerca Operativa

SOFTWARE PER DATA LOGGER VACQ

Parte I. Concetti preliminari. Statistica per la Neuropsicologia. Sommario. Notes. Notes. Notes. Davide Crepaldi

R - Esercitazione 1. Lorenzo Di Biagio dibiagio@mat.uniroma3.it. 30 Settembre Università Roma Tre

Preprocessamento dei Dati

5000LR. Data logger in miniatura. La Registrazione Semplice e Versatile! Compatti e Discreti con ampia memoria interna. mod. 5001LR.

ANOVA a un fattore between in R

MATEMATICA e COMPLEMENTI di MATEMATICA

EPG Metodologia della ricerca e Tecniche Multivariate dei dati. Dott.ssa Antonella Macchia a.macchia@unich.it.

Strumenti informatici Realizzare grafici e tabelle con Excel e SPSS

BOLLETTINO DI SICUREZZA XEROX XRX04-005

INDICI STATISTICI MEDIA, MODA, MEDIANA, VARIANZA

ARCHITETTURA DEI GIARDINI [AG]

Il Manuale di KXSLDbg. Keith Isdale Traduzione del documento: Samuele Kaplun Traduzione del documento: Simone Solinas

STATISTICA 1 ESERCITAZIONE 1 CLASSIFICAZIONE DELLE VARIABILI CASUALI

FONDAMENTI DI RETI DI TELECOMUNICAZIONI

ESERCIZI DI STATISTICA DESCRITTIVA

Elementi di Statistica

Corso di Psicometria Progredito

RILASCIO NOTE DI RILASCIO NOTE DI RILASCIO NOTE DI RILASCIO. Bilancio. Bilancio Ver Bilancio. Bilancio. Bilancio. Bilancio.

Transcript:

STATISTICA PER LA DIGITAL ECONOMY 2018 Marco Riani mriani@unipr.it http://www.riani.it

INFORMAZIONI SUL CORSO Orario MER 11.15-12.45 (frontale) GIO 9.15-10.45 (frontale) VEN 11.00-13.00 (laboratorio) Ricevimento GIO 11.00-13.00 VEN 9.00-11.00

E necessario registrarsi per accedere ai computer del laboratorio! http://www.cce.unipr.it/html/labinfo

INFORMAZIONI SUL CORSO Conoscenze preliminari conoscenza di base di statistica descrittiva e inferenziale Tutti i lucidi saranno disponibili su www.riani.it

Calendario degli esami 18 dicembre 2018 ore 16.00 10 gennaio 2019 ore 9.00 24 gennaio 2019 ore 9.00 28 maggio 2019 ore 9.00 11 giugno 2019 ore 9.00 25 giugno 2019 ore 9.00 11 settembre 2019 ore 9.00 Prove a computer

LIBRO DI TESTO MATERIALE PRESENTE ALLA PAGINA www.riani.it/sde E consentito tenere gli appunti durante l esame!

Software utilizzati nel corso Excel 2016 MATLAB 2018A o 2018B + FSDA toolbox http://www.mathworks.com Le istruzioni per scaricare e installare MATLAB sono reperibili qui (solo studenti Università di Parma)

Corso di MATLAB on line https://trainingenrollment.mathworks.com/ selfenrollment?code=ta6eeh5eyztz Occorre registrarsi

MODALITÀ DI ESAME (prova al computer) Quattro (tre) domande, ciascuna costituita da vari punti: Elaborazione dei dati con MATLAB

MODALITÀ DI ESAME (prova scritta tradizionale) Quattro (tre) domande, ciascuna costituita da vari punti: aspetti di calcolo aspetti di commento e di interpretazione dei risultati circa della medesima importanza

Il compito è diviso in due parti Programmazione Analisi dei dati

L ouput da consegnare è un file in formato.m oppure.mlx

Obiettivi del corso Imparare a programmare Illustrare i metodi statistici per il trattamento delle informazioni d interesse aziendale, considerando contemporaneamente più variabili, sia qualitative sia quantitative. Fornire un supporto conoscitivo razionale per le decisioni

Why analytics?

EVOLUZIONE DI CONCETTI Statistica (descrittiva e inferenziale) Analisi dei dati multidimensionali Data Mining = «Estrazione da una miniera di dati» (di grandi dimensioni) Scavare in insiemi di dati molto numerosi per estrarre informazioni utili Text mining Web mining

PUNTO DI PARTENZA dell analisi dei dati MATRICE DEI DATI: X riferita a n unità e p variabili Ipermercati Sup. addetti vendite Centro Torri Esselunga...

MATRICE DEI DATI X n p = x x x 11 i1 n1 x x x 1s is ns x x x 1p ip np x is = modalità che presenta la variabile s- esima nell unità statistica i-esima Significato dei vettori riga e dei vettori colonna Tipologia delle unità statistiche

TIPI DI DATI Qualitativi (categorici) nominali: Esempi: sesso, tipo di laurea, forma giuridica delle imprese BINARI (DICOTOMICI) O CON CATEGORIE MULTIPLE (POLITOMICI) Qualitativi (categorici) ordinali: giudizi: insuff., suff., discreto, buono, ottimo Quantitativi: peso, fatturato, n. dipendenti

Es. file Firm.xlsx

TIPI DI MATRICI DEI DATI unità x variabili X di dimensioni n x p Individui (questionari) Aziende Prodotti o marche Unità territoriali (province, ) Tempi (serie storiche o temporali)

DATI ASSOLUTI E RELATIVI Esempio: n aziende DATI ASSOLUTI: Fatturato, valore aggiunto, n. addetti, DATI RELATIVI: Fatturato per addetto, valore aggiunto sul fatturato, ROE, A PRIORI DEFINISCO LO SCOPO DELLA RICERCA E POI SCELGO IL DATA SET DA ANALIZZARE

SCHEMA FONDAMENTALE DELLA RICERCA SCIENTIFICA Problema (domanda) Raccolta di dati Analisi dei dati Conclusione provvisoria (risposta) Estensioni, generalizzazioni, nuovi problemi

Esercizio Importare il file Firm.xlsx in MATLAB Osservazione: tutti i file di input e di output per ogni esercizio sono scaricabili dalla pagina http://riani.it/sda/index.htm

Un primo modo per importare un dataset di Excel è tramite «Import Data»

E possibile specificare quante righe importare e/o il tipo di output

Esplorare cosa succede quando stabilisco di importare come Table Column vectors Numeric Matrix

Esercizio Importare il dataset come «Table» Come accedere ai diversi elementi della Table Es. estrarre l elemento all incrocio della terza riga e quanto colonna Es. estrarre la quindicedima unità statistica (15esima riga)

Come accedere ai diversi elementi della Table Es. estrarre la variabile «gender» Es. estrarre la quarta colonna

Esempi (supponiamo che la table si chiami X) Estrazione della riga della table denominata «P0320»: X('P0320',) Estrazione delle righe della table denominate «P0256» e «P0214» e delle prime 3 colonne: X({'P0256' 'P0214'},1:3) Estrazione della colonna riferita alla variabile «Height» X(:,'Height')

Esercizio Generare uno script che carichi automaticamente la zona A1:I20 del foglio denominato «data» del file «Firm.xlsx»

Esercizio Generare uno script che carichi automaticamente la zona A1:I10 del foglio denominato «data» del file «Firm.xlsx»

Esercizio Creare uno script che importi i dati dentro MATLAB in xlsread

Soluzione [num,txt,raw] = xlsread('firm.xlsx','data','a2:i10'); Esplorare il contenuto di num, txt e raw num contiene solo le colonne del dataset con dati quantitativi (variabili numeriche). Matrice di double txt contiene solo le colonne del dataset con dati qualitativi (variabili categorighe). Cell array Raw contiene tutte le colonne del dataset. Cell array

Esercizio Importare i dati contenuti dentro il file Firm.xlsx in una table denominata X tramite la funzione readtable calcolare per ogni varaibile quantitativa il min il max e la mediana

Soluzione X=readtable('Firm.xlsx') summary(x)

Esercizio Creare uno script che carichi il file firm.xlsx dentro MATLAB. Trasformare la variabile peso da libbre a KG (fattore 1kg=2.2046 libbre) Trasformare la variabile altezza da pollici a cm (fattore 1pollice=2.54cm) Chiamare il nuovo dataset Y Calcolare il peso medio e l altezza media

Soluzione

Calcolo delle statistiche descrittive Esercizio: calcolare le statistiche descrittive (media, min, max, standard deviation, varianza) per il peso (in kg) e l altezza (in cm)

Soluzione

Obiettivo Confrontare unità statistiche in presenza di fenomeni con diverso ordine di grandezza e diversa scala di misura

SCOSTAMENTI STANDARDIZZATI Definizione: z i = (x i M)/ σ ove M è la media e σ (a volte indicato con s) è la deviazione standard (corretta) Proprietà: 1. M = O 2. σ = 1 3. puri numeri (confrontabili) MATRICE DEGLI SCOST. STAND. : Z

Proprietà delle variabili standardizzate (p. 146) z i = x i σ M Hanno valor medio nullo M(Z)=0 Hanno varianza unitaria VAR(Z)=1 se Y=bX+a σ 2 (Y)=VAR(Y) = b 2 VAR(X) (p. 122)

Esempio Valori originali Scostamenti standardizzati Peso Altezza Peso Altezza A 67 180-0,695 1,003 B 82 167 0,727-0,952 C 74 183-0,032 1,454 D 69 167-0,506-0,952 z i = x i M σ E 61 167 F 93 176 Me dia 74,33 173,33 σ 10,55 6,65-1,264-0,952 1,770 0,401 Me dia 0 0 σ 1 1

Esercizio Aggiungere allo script precedente il calcolo della matrice degli scostamenti dalla media per le variabili peso e altezza e la matrice degli scostamenti standardizzati (utilizzare sia l implementazione manuale, sia la funzione zscore, sia un loop. Controllare che il risultato sia identico con i diversi modi)

Rappresentazione grafica Rappresentare tramite grafico a barra gli scostamenti standardizzati del peso e dell altezza delle prime 10 unità statistiche. Inserire come etichetta dell asse x il nome (Variabile name) delle 10 unità statistiche Aggiungere al grafico un titolo ed una legenda

Creazione del grafico Il modo più semplice per creare un grafico è quello di selezionare la zona della variabile che mi interessa e (dopo aver selezionato la scheda plots) fare click sul grafico che mi interessa

Output finale Quale persona presenta un altezza molto superiore alla media ed un peso inferiore alla media?

Asimmetria e curtosi Implementare le formule manualmente e controllare il risultato utilizzando le formule di MATLAB (kurtosis, skewness)

Indici di asimmetria Asimmetria positiva e negativa

La distribuzione normale Nella distribuzione normale

Indice di curtosi (normalità) Se la variabile è normale

Formule da utilizzare per gli indici di asimmetria e curtosi Indice di curtosi (kurtosis)

Formule da utilizzare per l indice di asimmetria Indice di asimmetria (skewness)

BOXPLOT (grafico a scatola) Indici occorrenti: quartili DI x min e x max

Boxplot di 16 punti

Boxplot di 16 punti Il punto di troncamento superiore è in corrispondenza del valore più grande x 75% +1.5DI Il punto di troncamento inferiore si colloca in corrispondenza del valore più piccolo x 25% -1.5DI

Esercizio: inserire dentro MATLAB i dati numerici della spesa riportati nella tabella che segue. Calcolare ed interpretare i seguenti percentili di spesa 0 0.25 0.50 0.75 1. Calcolare ed interpretare la differenza interquartile. Costruire ed interpretare il relativo boxplot. Costruire il boxplot con orientamento orizzontale. Inserire tutte le istruzioni dentro uno script denominato boxp.m

Soluzione

Soluzione

Esercizio Calcolare i seguenti quantili della variabile retribuzione 0.025 0.25 0.50 0.75 0.975 Suggerimento: utilizzare la funzione quantile

Esercizio Importare come «table» il file Firm.xlsx Calcolare ed interpretare il boxplot per le variabili peso e altezza (prima per tutte le unità statistiche e poi tenendo separati i maschi dalle femmine)

Soluzione boxplot(y{:, Height })) ylabel('altezza in cm')

Soluzione

Analisi della variabile retribuzione Investigare la presenza di valori anomali per questa variabile Partendo dalla table denominata Y, costruire una nuova table denominata Ycor. In questa nuova table modificare il valore della retribuzione della quarta unità statistica in 1916.26

Soluzione La modifica di un valore all interno di una table può essere fatto direttamente dentro aprendo la variabile nell editor delle variabili L istruzione da codice è la seguente Ycor.Wage(4) =1916.26

Esercizio Costruire il grafico ad istogrammi della variabile wage modificata Costruire il grafico ad istogrammi utilizzando 15 classi Costruire il grafico ad istogrammi specificando le classi 1500-2000 2000:2500. 3500-4000

Distribuzione di frequenza con classi non equispaziate Esercizio: calcolare la distribuzione di frequenza utilizzando le classi precedenti 1500-2000 2000:2500. 3500-4000