Soggetto Genere Costo del soggiorno Titolo di studio

Documenti analoghi
2. Variabilità mediante il confronto di valori caratteristici della

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 1

7. Si confronti la variabilità del carattere età nel gruppo dei maschi ed in quello delle femmine.

L indagine statistica

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 5

Esercitazioni di statistica

Università del Piemonte Orientale. Corsi di Laurea Triennale. Corso di Statistica e Biometria. Introduzione e Statistica descrittiva

Non lasciamoci ingannare..

Università del Piemonte Orientale. Corsi di Laurea Triennale di Area Tecnica. Corso di Statistica e Biometria. Statistica descrittiva

Statistica. Le rappresentazioni grafiche

Un po di statistica. Christian Ferrari. Laboratorio di Matematica

Carta di credito standard. Carta di credito business. Esercitazione 12 maggio 2016

RAPPRESENTAZIONE DEI DATI

Esempio di introduzione. della statistica a scuola

Statistica descrittiva

VARIABILI E DISTRIBUZIONI DI FREQUENZA A.A. 2010/2011

Corso di. Dott.ssa Donatella Cocca

Come costruire una distribuzione di frequenze per caratteri quantitativi continui

ITCS Erasmo da Rotterdam. Anno Scolastico 2014/2015. CLASSE 4^ M Costruzioni, ambiente e territorio

OCCUPATI SETTORE DI ATTIVITA' ECONOMICA

PSICOMETRIA. Esercitazione n.1. C.d.L. Comunicazione e Psicologia a.a. 2012/13

Grafici delle distribuzioni di frequenza

Esercitazione di riepilogo 23 Aprile 2013

Prova di autovalutazione Prof. Roberta Siciliano

Dr. Marco Vicentini Anno Accademico Rev 30/03/2011

Analisi dei Dati e Statistica a.a. 2011/2012. Prof. Giuseppe Espa. giuseppe.espa@economia.unitn.it 0461/ Statistica descrittiva (prima parte)

Liceo Carducci Volterra - Classe 3 a B Scientifico - Prof. Francesco Daddi - 29 novembre d) la velocità con cui giunge a terra.

Statistica Applicata all edilizia Lezione 3: i numeri indice

Indici (Statistiche) che esprimono le caratteristiche di simmetria e

Lezione 3: Il problema del consumatore: Il

Statistica. L. Freddi. L. Freddi Statistica

Esercizi sulla conversione tra unità di misura

LABORATORIO-EXCEL N. 2-3 XLSTAT- Pro Versione 7 VARIABILI QUANTITATIVE

Analisi dei Dati - Prof. Marozzi Rilevazione dei caratteri "titolo di studio" e "qualifica professionale". Collettivo: addetti di un'azienda.

x log(x) + 3. f(x) =

UNIVERSITA DEGLI STUDI DI PADOVA DIPARTIMENTO DI INGEGNERIA IDRAULICA, MARITTIMA E GEOTECNICA

STATISTICA 1 ESERCITAZIONE 1 CLASSIFICAZIONE DELLE VARIABILI CASUALI

CURRICOLO DI GEOGRAFIA

Elementi di statistica

I laureati scuole di provenienza, durata degli studi, votazioni ed età

STATISTICA DESCRITTIVA UNIVARIATA

Lezione 12 Argomenti

Offerta in concorrenza perfetta: Cap.6

LABORATORIO EXCEL XLSTAT 2008 SCHEDE 2 e 3 VARIABILI QUANTITATIVE

Il concetto di valore medio in generale

INDICAZIONI PER LA RICERCA DEGLI ASINTOTI VERTICALI

Il foglio elettronico

Statistica descrittiva univariata

Indici di dispersione

Generazione di Numeri Casuali- Parte 2

Elementi di statistica descrittiva I 31 Marzo 2009

Correzione dell Esame di Statistica Descrittiva (Mod. B) 1 Appello - 28 Marzo 2007 Facoltà di Astronomia

ISTITUTO D'ISTRUZIONE SUPERIORE A. MOTTI

Statistica Applicata all edilizia Lezione 2: Analisi descrittiva dei dati

Definizione Dati due insiemi A e B, contenuti nel campo reale R, si definisce funzione reale di variabile reale una legge f : A

Capitolo 3. Errori di misura. 3.1 L'incertezza nella misura

Istituto Professionale di Stato per l Industria e l Artigianato Giancarlo Vallauri. Classi I C I G

OFFERTA DI LAVORO. p * C = M + w * L

Lezione 2 Equazioni e Grafici. Docente: Leonardo Bargigli 2015

p k q n k = p n (k) = n 12 = 1 = ,1208. q = 1 2 e si ha: p 12 (8) =

Liceo Classico Statale Dante Alighieri

LO STANDARD DI RILEVAZIONE DEI DATI IMMOBILIARI

Studio di funzione. Tutti i diritti sono riservati. E vietata la riproduzione, anche parziale, senza il consenso dell autore. Funzioni elementari 2

Webinar. Una ipotesi di Piano di sviluppo culturale: la segmentazione della domanda dei visitatori

CORSO DI LAUREA IN SCIENZE DELLA FORMAZIONE PRIMARIA

CORSO DI LAUREA IN SCIENZE DELLA FORMAZIONE PRIMARIA

PROTOCOLLO ITACA PUGLIA RESIDENZIALE Istruzioni d'uso del software Versione 1.0

ESERCITAZIONE 4 SOCIALE. Corso di Laurea Comunicazione e A.A. 2012/2013

Grafici. Lezione 4. Fondamenti di Informatica 2 Giuseppe Manco Ester Zumpano

consegnare mediamente 8 esercizi a settimana per 7 settimane su 10

Modelli descrittivi, statistica e simulazione

CORSO DI FISICA TECNICA e SISTEMI ENERGETICI

Corso di Automazione Industriale 1. Capitolo 4

Gli indici statistici

CONTINUITÀ E DERIVABILITÀ Esercizi risolti

ANALISI GRAFICHE PER IL CONTROLLO DELLA QUALITA : ESEMPI DI APPLICAZIONI

MURI DI SOSTEGNO. a cura del professore. Francesco Occhicone

ESERCIZI SVOLTI PER LA PROVA DI STATISTICA

PROGRAMMAZIONE CLASSE QUINTA - MATEMATICA NUMERO

C) DIAGRAMMA A SETTORI

Grafici e Pagina web

Università del Piemonte Orientale. Corso di Laurea in Biotecnologie. Corso di Statistica Medica. Statistica Descrittiva

Chi non risolve esercizi non impara la matematica.

Excel Terza parte. Excel 2003

Corso: TURISMO PROGRAMMA DI DISCIPLINE TURISTICHE E AZIENDALI

METODOLOGIA STATISTICA E CLASSIFICAZIONE DEI DATI

Statistica 4038 (ver. 1.2)

Sfide di Matematica. Corso PON Competenze per lo sviluppo Liceo A. Galizia Nocera Inferiore. Ing. Ivano Coccorullo Prof.ssa Daniela Garreffa

EQUAZIONI CON VALORE ASSOLUTO DISEQUAZIONI CON VALORE ASSOLUTO

GRANDEZZE ALTERNATE SINUSOIDALI

Elementi di Statistica descrittiva Parte I

LA STATISTICA E IL CALCOLO DELLE PROBABILITÀ

CAPITOLO II. Il Vantaggio Assoluto

Dott.ssa Caterina Gurrieri

Barriere assorbenti nelle catene di Markov e una loro applicazione al web

Le funzioni reali di variabile reale

Matematica con il foglio di calcolo

LICEO STATALE G. MAZZINI

Lezione 3: Il problema del consumatore:

Transcript:

Esercitazione n. 1 Corso di Statistica Università della Basilicata Prof. Roberta Siciliano La tabella seguente raccoglie i dati grezzi, relativamente ad un gruppo di 30 turisti per i quali sono state osservate tre variabili o caratteri di interesse. Soggetto Genere Costo del soggiorno Titolo di studio 1 maschio 20 media sup. 2 femmina 0 media inf. 3 femmina 85 laurea 4 maschio 40 media sup. 5 femmina 70 media sup. 6 maschio 50 media sup. 7 femmina 14 media sup. 8 femmina 200 media sup. 9 femmina 165 laurea 10 femmina 65 media sup. 11 maschio 22 media inf. 12 femmina 115 laurea 13 maschio 240 laurea 14 maschio 0 laurea 15 femmina 140 media sup. 16 femmina 90 laurea 17 maschio 60 media sup. 18 femmina 125 laurea 19 maschio 65 laurea 20 maschio 40 media sup. 21 maschio 90 media sup. 22 femmina 68 laurea 23 maschio 85 media sup. 24 maschio 90 media sup. 25 maschio 120 laurea 26 femmina 200 laurea 27 maschio 25 media sup. 28 maschio 80 media inf. 29 maschio 180 laurea 30 maschio 70 media sup. 1. Da quante unità statistiche è composto il collettivo oggetto di studio? 2. Descrivere la natura delle variabili presenti in tabella. 3. Costruire le distribuzioni di frequenze per le variabili Genere e Titolo di Studio. 4. Costruire la distribuzione di frequenze per il carattere Costo del Soggiorno, suddividendo la distribuzione in 6 classi equiampie. 5. Costruire la distribuzione di frequenza per il carattere Costo del Soggiorno, suddividendo la distribuzione in 5 classi equifrequenti. 6. Rappresentare le distribuzioni dei caratteri osservati con i grafici più opportuni. 7. Calcolare gli indici di posizione più opportuni per i caratteri osservati.

8. Calcolare l indice di eterogeneità di Gini per la variabile Titolo di Studio. Soluzione: 1. Il collettivo oggetto di studio è un gruppo di turisti. Il collettivo è composto da 30 unità statistiche. L unità statistica è il turista. 2. I caratteri oggetto di studio sono: Carattere Tipologia Livello di misura Modalità-intensità Genere Qualitativa sconnesa Scala nominale {maschio; femmina } Costo del Soggiorno Quantitativa continua Scala numerica (di rapporti) {0;240} Titolo di Studio Qualitativa ordinabile Scala Ordinale {media inferiore; media superiore; laurea} 3. La frequenza è il numero di volte con cui una modalità si presenta nel collettivo studiato. Nel nostro caso, la distribuzione di frequenze per la variabile Genere è: Genere assoluta relativa femmina 13 0,4 maschio 17 0,6 Per la variabile Titolo di Studio la distribuzione di frequenze è: Titolo di Studio assoluta relativa laurea 12 0,4 media inf. 3 0,1 media sup. 15 0,5

Accanto alle frequenze assolute abbiamo riportato anche le frequenze relative ottenute come il rapporto tra la frequenza assoluta associata alla modalità i-esima e il totale delle unità statistiche: 4. Per quanto riguarda il carattere Costo del Soggiorno, esso è continuo, pertanto, la sua rappresentazione tabellare presuppone la costruzione della distribuzione di frequenze suddivise in classi. In questo caso sono richieste 6 classi equiampie. Innanzitutto dobbiamo capire qual è il range o intervallo di variazione della variabile: Range = X max X min = 240 0 = 240 Ottenuto il campo di variazione della variabile dobbiamo dividerlo per il numero (k) delle classi richiesto, in modo tale da ottenere l ampiezza della singola classe: A = A questo punto possiamo costruire la tabella di frequenze con classi equiampie: Costo del Soggiorno A i n i f i 0-40 40 8 0,27 40-80 40 8 0,27 80-120 40 7 0,23 120-160 40 2 0,07 160-200 40 4 0,13 200-240 40 1 0,03

5. Per la costruzione della distribuzione di frequenze con classi equifrequenti, dobbiamo innanzitutto ordinare il carattere: Soggetto Costo del soggiorno 2 0 14 0 7 14 1 20 11 22 27 25 4 40 20 40 6 50 17 60 10 65 19 65 22 68 5 70 30 70 28 80 3 85 23 85 16 90 21 90 24 90 12 115 25 120 18 125 15 140 9 165 29 180 8 200 26 200 13 240 Una volta ordinato, dobbiamo capire quale debba essere la frequenza di ogni classe. L esercizio richiede la costruzione di 5 classi equifrequenti. Essendo il collettivo di 30 unità, allora ogni classe avrà frequenza pari a 30/5 = 6 unità. Dunque, la prima classe sarà ottenuta prendendo i primi 6 valori, la seconda i successivi 6, e cosi via.

Costo del Soggiorno A i n i f i 0-25 25 6 0,20 25-65 40 6 0,20 65-85 20 6 0,20 85-125 40 6 0,20 125-240 115 6 0,20 6. La variabile Genere è un carattere qualitativo sconnesso e il modo più opportuno per rappresentarlo graficamente è attraverso il grafico a torta. Tale grafico è composto da fette direttamente proporzionali in ampiezza alle frequenze di ciascuna modalità distinta. Per la sua costruzione, abbiamo bisogno di conoscere l angolo della fetta, desunto come: α : 360 = n i : N nel nostro caso, per la modalità maschio l angolo della fetta sarà: α : 360 = 17 : 30 mentre per la modalità femmina avremo: Dunque, ne consegue che il grafico è il seguente:

Per la variabile Titolo di Studio il grafico più opportuno è il diagramma a barre. Sull asse delle ascisse poniamo le modalità mentre sull ordinata le unità (frequenze): L altezza della barra indica la frequenza della modalità distinta. Infine, per la variabile Costo del soggiorno possiamo costruire l istogramma di frequenze sia per la distribuzione di frequenze divisa in classi equiampie che per classi equifrequenti. Questo grafico ha sull ascissa le classi mentre sull ordinata ha la densità di frequenza. Quest ultima è ottenuta come il rapporto tra la frequenza della modalità i-esima e l ampiezza della classe corrispondente: pertanto avremo:

Costo del Soggiorno A i n i d i 0-40 40 8 0,2 40-80 40 8 0,2 80-120 40 7 0,175 120-160 40 2 0,05 160-200 40 4 0,1 200-240 40 1 0,025 Totale 30 Essendo uguale l ampiezza delle classi allora la base dei rettangoli dell istogramma sarà uguale: 0,25 Costo del soggiorno 0,2 0,15 0,1 0,05 0 0-40 40-80 80-120 120-160 160-200 200-240 Per quanto riguarda la distribuzione di frequenze in classi equifrequenti avremo: Costo del Soggiorno A i n i f i d i 0-25 25 6 0,2 0,24 25-65 40 6 0,2 0,15 65-85 20 6 0,2 0,3 85-125 40 6 0,2 0,15 125-240 115 6 0,2 0,05 E l istogramma sarà:

0,30 0,20 0,10 0 60 120 180 240 7. Gli indici di posizione sono indici che riassumono il posizionamento della distribuzione. In particolare indicano la modalità rappresentativa della distribuzione. Per la variabile Genere possiamo calcolare la Moda, cioè la modalità a cui è associata la frequenza più alta: Moda = Maschio Poiché si presenta 17 volte rispetto alla modalità femmina, che invece si presenta 13 volte. Per la variabile Titolo di Studio che, ricordiamo, è di natura qualitativa ordinale, possiamo calcolare la moda e la mediana. Moda = media superiore Poiché è la modalità cha ha la frequenza più elevata. Per quanto riguarda la mediana, partendo dalla distribuzione di frequenza ordinata, calcoliamo le frequenze cumulate (F): Titolo di Studio media inf. media sup. assoluta relativa Frequenze assolute cumulate 3 0,1 3 15 0,5 18 laurea 12 0,4 30

Successivamente dobbiamo individuare la posizione dell unità centrale: a. Se N è dispari la posizione centrale è (N+1)/2 b. Se N è pari ci saranno due posizioni centrali pari a N/2 e (N/2)+1 Nel nostro caso avremo: 30/2 = 15 e (30/2)+1 = 16 Quindi le posizioni sono la 15esima e la 16esima. Guardando le frequenze assolute cumulate, le posizioni 15 e 16 si trovano nella seconda cella (fino a 18) e corrispondono alla modalità media superiore. Pertanto la mediana sarà Media superiore. Per il carattere Costo del Soggiorno possiamo calcolare moda, mediana e media. Tuttavia, essendo un carattere quantitativo, l indice di posizione più opportuno è la media. Per calcolare la media abbiamo bisogno dei valori centrali delle classi: Valori Centrali Costo del Soggiorno A i n i f i 20 0-40 40 8 0,27 60 40-80 40 8 0,27 100 80-120 40 7 0,23 140 120-160 40 2 0,07 180 160-200 40 4 0,13 220 200-240 40 1 0,03 30 1 A questo punto procediamo così: 8. Riportiamo la distribuzione di frequenze della variabile Titolo di Studio, calcolando i quadrati delle frequenze relative: Titolo di Studio assoluta relativa laurea 12 0,4 0,16 media inf. 3 0,1 0,01 media sup. 15 0,5 0,25 0,42

L indice di eterogeneità di Gini è un indicatore della mutabilità (variabilità) statistica per variabili qualitative (quantitative). Esso offre una misura della eterogeneità (omogeneità) di una distribuzione statistica a partire dai valori delle frequenze relative associate alle K modalità di una generica variabile X. Ciò vuol dire che se i dati sono distribuiti in modo eterogeneo su tutte le K modalità di X (cioè se le modalità hanno numerosità simili o, nel caso di massima eterogeneità, uguali), l indice di Gini è elevato, viceversa, in caso di distribuzione di frequenze omogenea, ossia tutte le unità statistiche sono concentrate in una o poche modalità, l indice sarà basso. L indice di Gini è così definito: Dove le f i sono le frequenze relative delle K modalità di X. L indice di Gini vale 0 nel caso di minima eterogeneità(massima omogeneità) quando l intera distribuzione si concentra in una sola modalità, mentre sarà massimo quando ciascuna modalità presenterà frequenza pari a N/k. Pertanto: [ ] Sarà l indice normalizzato che varierà tra 0 e 1. Nel nostro caso avremo: [ ] Pertanto possiamo affermare che la variabile titolo di studio presenta una distribuzione fortemente eterogenea nel collettivo esaminato.