CLASSIFICAZIONE DEI CARATTERI Come abbiamo visto, su ogni unità statistica si rilevano una o più informazioni di interesse (caratteri). Il modo in cui un carattere si manifesta in un unità statistica è detto modalità. E importante che ad ogni unità si possa associare una sola modalità; inoltre le modalità elencate devono rappresentare tutti i possibili stati che il carattere assume nel collettivo statistico. Esistono varie tipologie di caratteri. I due grandi raggruppamenti sono: Caratteri qualitativi Caratteri quantitativi CARATTERI QUALITATIVI CARATTERI QUALITATIVI SCONNESSI: hanno per modalità denominazioni qualitative tra le quali non esiste (e non è possibile stabilire) un ordinamento (sesso, religione, regione di residenza, luogo di nascita, tipo di fondo di investimento, tipo di utilizzo di un terreno). Ad es. non si può dire che il sesso maschile ha una precedenza su quello femminile. Unico confronto tra le modalità è uguaglianza o diversità delle modalità. In altri termini si dice che un carattere costituisce una scala nominale se per le sue modalità è possibile affermare solo se sono uguali o diverse (cioè se è qualitativo sconnesso). CARATTERI QUALITATIVI ORDINATI: hanno per modalità denominazioni qualitative tra le quali esiste un ordinamento naturale (titolo di studio, anno di iscrizione all università, qualifica funzionale, ceto sociale, grado di soddisfazione, livello di rischio associato ad un titolo azionario). Questo tipo di caratteri costituisce una scala ordinale proprio perché è possibile dare un ordine alle modalità in modo da affermare che una modalità precede un altra. Tra i caratteri qualitativi ordinati va individuato un sottogruppo di caratteri (caratteri ordinati ciclici) per i quali una qualunque modalità potrebbe essere scelta come prima o come ultima, per i quali cioè la scelta della prima modalità è frutto di una convenzione. Ad es. i giorni della settimana, il mese di nascita. CARATTERI QUANTITATIVI Hanno per modalità dei numeri che esprimono una misura o una quantità. Quando si opera con caratteri quantitativi, date due modalità è possibile non solo dire quale delle due viene prima ma anche effettuare una sottrazione o costruire un rapporto tra di esse al fine di confrontare le quantità. Quando è possibile calcolare solo la differenza si parla di scala a intervalli; quando è possibile anche calcolare il rapporto tra modalità si parla di scala di rapporti.
I caratteri quantitativi si distinguono in: DISCRETI: le modalità sono i numeri interi 0, 1, 2,... (numero di addetti di un azienda, numero di componenti di una famiglia, numero di chiamate in arrivo ad un call center). In altre parole, le modalità dei caratteri quantitativi discreti sono dei conteggi perché contano quanti dipendenti ha un azienda, quanti componenti ha una famiglia, etc..... CONTINUI: le modalità sono (almeno in linea teorica) tutti i numeri reali compresi in un determinato intervallo (altezza, peso, tempo di attesa, durata di una conversazione telefonica, reddito). I caratteri quantitativi possono inoltre essere classificati in trasferibili e non trasferibili a seconda che abbia senso o meno pensare che un'unità ceda parte del carattere che essa possiede ad un'altra unità (es.: reddito, numero di addetti sono caratteri trasferibili; altezza e peso sono caratteri non trasferibili). Lo schema seguente rappresenta le operazioni che è possibile fare con i diversi tipi di carattere introdotti sopra. Gerarchia delle scale Operazioni Fra modalità Caratteri Qualitativi Quantitativi Sconnessi Ordinati Sì Sì Sì I Uguaglianza/ Disuguaglianza II Ordinamento No Sì Sì III Sottrazione No No Sì IV Rapporto No No Sì RAGGRUPPAMENTO IN CLASSI Ricordiamoci che la statistica ha tra gli scopi quello di fornire una lettura sintetica dell insieme di dati a disposizione. Quando si rilevano caratteri quantitativi discreti che possono assumere un numero molto elevato di modalità oppure quando si rilevano caratteri quantitativi continui è opportuno effettuare un raggruppamento in classi delle modalità. Supponiamo per esempio che il carattere rilevato sia il numero di addetti delle imprese operanti in Italia. Tale carattere può assumere un numero estremamente elevato di modalità (1, 2, 100, ) ma noi generalmente non siamo interessati ad un dettaglio così elevato pertanto possiamo raggruppare le modalità in classi (ad es. 1-4, 5-9, 10-19, 20-49, 50-99, 100-499, 500 e oltre). L importante è che queste classi siano tra loro disgiunte ovvero che una modalità appartenga ad una ed una sola classe, altrimenti si creano situazioni di assegnazione incerta di un unità ad una classe. Nell es. sopra non si deve avere che una classe è 1-5 e un altra è 5-9 perché se un impresa ha 5 addetti non si sa se classificare quest impresa nella prima o nella seconda classe. E inoltre importante che tutti i valori assunti dal carattere nel collettivo osservato siano inclusi in una (e una sola) delle classi. (Ad es. se una società ha 1500 addetti, dobbiamo avere una classe che contiene il valore 1500).
Quando il carattere è quantitativo continuo allora è proprio necessario effettuare il raggruppamento in classi. Se ad es. si sta rilevando l altezza di un collettivo di individui, tale carattere assume valori in un continuo ma gli strumenti di misura ci costringono ad una certa approssimazione. Per es. quando rileviamo che una persona è alta 173 cm., in realtà la sua altezza sarà compresa diciamo tra 172,6 e 173,5 e tutti gli individui con altezza in questa classe verranno codificati come alti 173 cm.. Quindi quando i caratteri sono quantitativi continui, raggruppare in classi è un procedimento naturale dovuto alla imprecisione propria degli strumenti di misura. Inoltre per non riportare una lista lunghissima (al limite infinita) di possibili valori del carattere (e quindi a scopo di sintesi e per desiderio di estrarre informazioni dai dati) si raggruppano i valori in classi. Quando si hanno caratteri continui bisogna stare attenti a far sì che la proprietà di disgiunzione delle classi sia verificata. Pertanto, considerando la variabile altezza ad esempio si può avere uno dei casi seguenti: 1. 165 170 ( che significa cioè che 165 è incluso nella classe e 170 no) si dice che la classe è chiusa a sinistra e aperta a destra. 2. 165 170 ( che significa cioè che 165 non è incluso nella classe e 170 sì) si dice che la classe è chiusa a destra e aperta a sinistra. In questo modo si vede che le classi non si sovrappongono. In generale supponiamo che nel collettivo che esaminiamo l altezza assuma valori tra 155 e 185 cm allora un possibile raggruppamento in classi (usando la regola 1.) è 155 160 160 165 165 170 170 175 175 180 180 185 Osservate che l ultima classe per ovvie ragioni è chiusa sia a destra sia a sinistra.
DISTRIBUZIONE DI UN CARATTERE Terminata la fase di acquisizione dei dati, iniziamo a vedere come rappresentarli e sintetizzarli. Il primo risultato della rilevazione dei dati è una lista delle modalità con cui ognuno dei caratteri si presenta in ciascuna unità del collettivo (dati grezzi). Possiamo quindi immaginare una lista con tante righe quante sono le unità. Questa altro non è che la distribuzione del collettivo secondo i caratteri considerati. Dal momento che per ogni unità indichiamo la modalità con la quale ciascun carattere si manifesta, si parla di distribuzione unitaria (o per unità). La distribuzione unitaria è semplice se si riferisce ad un solo carattere, è multipla se si riferisce a due o più caratteri. Esempio. Su n=20 aziende nel Lazio si rileva la modalità assunta dal carattere numero di addetti. Indichiamo con a 1 la modalità assunta nell azienda 1, con a 2 la modalità assunta nell azienda 2,, con a 20 la modalità assunta nell azienda 20. In generale indichiamo con a 1,...a n le modalità associate alle unità 1,..n. La distribuzione per unità è la seguente Azienda n. addetti Azienda n. addetti 1 = 4 11 = 3 2 3 4 5 6 7 8 9 10 a 1 a 2 a 3 a 4 a 5 a 6 a 7 a 8 a 9 a 10 = 2 = 8 = 6 = 3 = 2 = 5 = 5 = 10 = 5 12 13 14 15 16 17 18 19 20 a 11 a 12 a 13 a 14 a 15 a 16 a 17 a 18 a 19 a 20 = 3 = 2 = 2 = 9 = 11 = 10 = 9 = 2 = 15 Tab. 1: distribuzione unitaria di 20 aziende del Lazio per numero di addetti Nota: Quando i dati vengono riportati in forma di distribuzione per unità, è disponibile l informazione riguardante l associazione unità-modalità, cioè data una modalità possiamo sapere esattamente quale/quali unità la presentano. Il problema della distribuzione unitaria è la sua mancanza di sintesi soprattutto nel caso in cui il collettivo sia molto numeroso e su di esso vengano rilevati caratteri che possono assumere un elevato numero di modalità. Ricordiamoci infatti che il nostro scopo è quello di estrarre informazioni dai nostri dati, informazioni che siano rilevanti per lo scopo della nostra indagine. Per ottenere una maggiore sintesi si costruisce la distribuzione di frequenze. Anche in questo caso si parla di distribuzioni di frequenza semplice se questa è riferita ad un
solo carattere; altrimenti si parla di distribuzione doppia se si riferisce a due caratteri, e in generale multipla se si riferisce a più caratteri. Consideriamo una distribuzione di frequenze semplice. Per ogni modalità distinta assunta dal carattere nel collettivo in esame si registra: - il numero di unità che presentano tale modalità. Questo numero viene detto frequenza assoluta della modalità, cioè il numero di volte che la modalità viene osservata nel collettivo (ovvero il numero di unità del collettivo con quella modalità). - la frazione, sul totale delle unità del collettivo, di unità che presentano tale modalità. Questo numero viene detto frequenza relativa della modalità. (In via teorica ciò significa che ci si riporta ad avere numerosità del collettivo pari a 1) - la percentuale di unità del collettivo che presentano tale modalità. Questo numero viene detto frequenza percentuale della modalità. (In via teorica ciò significa che ci si riporta ad avere numerosità del collettivo pari a 100) Vediamo come quanto esposto viene espresso in termini formali. Sia K il numero di modalità distinte che il carattere assume nel collettivo; indichiamo: - con x 1,, x K tali modalità - con n 1,, n K le frequenze assolute associate - con f 1,, f K le frequenze relative associate, dove f i = n i /n, i=1,,k - con p 1,, p K le frequenze percentuali associate, dove p i = f i 100 = (n i /n) 100, i=1,,k Torniamo all esempio delle 20 aziende del Lazio dove n = 20 e K=10. Abbiamo visto la distribuzione unitaria; qui sotto è riportata la distribuzione di frequenze. Modalità x i Freq. assolute n i freq. relative f i freq. percentuali p i 2 (= x 1 ) 5 (=n 1 ) 5/20 = 0.25 (=f 1 ) 0.25 100 = 25 (=p 1 ) 3 (= x 2 ) 3 (=n 2 ) 3/20 = 0.15 (=f 2 ) 0.15 100 = 15 (=p 2 ) 4 (= x 3 ) 1 (=n 3 ) 1/20 = 0.05 (=f 3 ) 0.05 100 = 5 (=p 3 ) 5 (= x 4 ) 3 (=n 4 ) 3/20 = 0.15 (=f 4 ) 0.15 100 = 15 (=p 4 ) 6 (= x 5 ) 1 (=n 5 ) 1/20 = 0.05 (=f 5 ) 0.05 100 = 5 (=p 5 ) 8 (= x 6 ) 1 (=n 6 ) 1/20 = 0.05 (=f 6 ) 0.05 100 = 5 (=p 6 ) 9 (= x 7 ) 2 (=n 7 ) 2/20 = 0.1 (=f 7 ) 0.1 100 = 10 (=p 7 ) 10 (= x 8 ) 2 (=n 8 ) 2/20 = 0.1 (=f 8 ) 0.1 100 = 10 (=p 8 ) 11 (= x 9 ) 1 (=n 9 ) 1/20 = 0.05 (=f 9 ) 0.05 100 = 5 (=p 9 ) 15 (= x 10 ) 1 (=n 10 ) 1/20 = 0.05 (=f 10 ) 0.05 100 = 5 (=p 10 ) totale 20 (=n) 1 100 Tab. 2: distribuzione di frequenze di 20 aziende del Lazio per numero di addetti (carattere quantitativo discreto)
Leggendo la tabella vediamo che ad esempio il numero di aziende del Lazio con 2 addetti (cioè il numero di aziende con la modalità x 1 ) è pari a 5 (cioè n 1 =5) e che le aziende con 5 addetti costituiscono il 25% delle aziende osservate, cioè p 1 =25. Proprietà 1: la somma (per colonna) di tutte le frequenze relative è pari a 1, in simboli f f + + f 1 (ovvero anche f = 1) 1 + 2 K = K i= 1 Proprietà 2: la somma (per colonna) di tutte le frequenze percentuali è pari a 100, in simboli p p + + p 100 (ovvero anche p = 100 ) 1 + 2 K = i K i= 1 i Osservazione: se il carattere X è qualitativo ordinato o quantitativo le modalità vengono elencate in ordine crescente come nell esempio riportato sopra in cui il carattere è quantitativo (discreto) e si parte dalla modalità corrispondente al numero più basso di addetti per arrivare alla modalità corrispondente al numero più alto di addetti rilevato. Se il carattere è qualitativo sconnesso, invece, per definizione non esiste un ordine in base al quale presentare le modalità Consideriamo il seguente esempio relativo alla distribuzione per fede religiosa Religione (Africa) n i f i Cristiani 317 0.48 Musulmani 269 0.41 Animasti 68 0.1 Altro 8 0.01 Totale 662 1.000 Nota: E importante osservare che quando si considera la distribuzione di frequenze, non è più disponibile l informazione riguardante l associazione unità-modalità. Ciò significa che ad esempio sappiamo che nel Lazio 2 aziende hanno 10 addetti (cioè presentano la modalità x 8 ) ma non sappiamo quali aziende specifiche. CONFRONTO FRA DISTRIBUZIONI Le frequenze relative (e quelle percentuali) consentono sia di capire l'importanza di una modalità nel collettivo perché indicano la frazione (percentuale) di unità che detengono quella modalità sia di confrontare frequenze corrispondenti ad una stessa modalità in distribuzioni secondo lo stesso carattere su collettivi di diversa numerosità. Infatti, grazie alla proprietà 1, la frequenza relativa equivale ad una trasformazione dell unità di misura delle frequenze in modo tale che il totale risulti pari ad 1 (e grazie alla proprietà 2 la frequenza percentuale equivale ad una trasformazione dell unità di misura delle frequenze in modo tale che il totale risulti pari a 100). Questo significa che lavorare con le frequenze relative (percentuali) equivale e fissare a 1 (100) la numerosità del collettivo e a riproporzionare corrispondentemente le frequenze assolute.
Consideriamo ancora l esempio dell indagine sul n. addetti. Abbiamo visto il caso del Lazio. Supponiamo di avere fatto una rilevazione anche su n M =10 aziende nel Molise e di avere ottenuto la seguente distribuzione di frequenze. Modalità x i Freq. assolute n i Freq. relative f i Freq. percentuali p i 2 5 0.5 50 10 5 0.5 50 totale 10 1 100 Mettiamo a confronto le due distribuzioni di frequenze. Innanzitutto notiamo che nella distribuzione del Molise molte modalità hanno frequenza nulla cioè non si presentano nella popolazione. Dalla tabella che segue risulta più facile effettuare un confronto. LAZIO MOLISE Modalità freq. Assolute freq. relative freq. assolute freq. relative 2 5 0.25 5 0.5 3 3 0.15 0 0 4 1 0.05 0 0 5 3 0.15 0 0 6 1 0.05 0 0 8 1 0.05 0 0 9 2 0.1 0 0 10 2 0.1 5 0.5 11 1 0.05 0 0 15 1 0.05 0 0 Totale 20 1 10 1 I due collettivi hanno numerosità diversa. Pertanto come prima cosa modifichiamo le frequenze in modo tale che i due collettivi abbiano la stessa numerosità, cioè calcoliamo le frequenze relative. Dall osservazione delle frequenze relative vediamo che nel Molise le aziende con 2 addetti sono più che nel Lazio (in particolare sono il doppio). Se ci fossimo, invece, limitati ad osservare le frequenze assolute saremmo giunti alla conclusione ERRATA (!) che nel Lazio e nel Molise c è lo stesso numero di aziende con 2 addetti. Pertanto quando si vogliono fare confronti tra due o più distribuzioni relative allo stesso carattere rilevato su due o più popolazioni, occorre confrontare o le distribuzioni di frequenze relative o le distribuzioni di frequenze percentuali.
Raggruppamento in classi Come abbiamo visto, il raggruppamento in classi si applica a caratteri sia quantitativi discreti che continui. Classi di diversa ampiezza Consideriamo Tab. 1. Effettuiamo il raggruppamento in classi, come si vede nella prima colonna della tabella che segue. Osserviamo che le classi non sono di uguale ampiezza. Allora aggiungiamo una colonna in cui riportiamo l ampiezza della classe che indichiamo con α i. Come si vede la seconda e la terza classe hanno ampiezza diversa (α 2 = 3 e α 3 = 5) quindi non ha senso confrontare le frequenze assolute (o relative o percentuali) di queste due classi. E necessario eliminare l effetto della dimensione della classe; lo si fa calcolando la densità assoluta di ciascuna classe (H i ) che è data dal rapporto tra la frequenza assoluta della classe i e l ampiezza della classe i, cioè n i /α i. In questo modo troviamo H 2 = 2.3 e H 3 = 1.2 e quindi osserviamo che mentre le frequenze assolute e relative delle due classi sono molto vicine, le densità sono molto diverse cioè le unità sono molto più addensate nella seconda che nella terza classe. Ciò è del tutto ovvio visto che nella classe di minore ampiezza (3 6) ci sono più imprese di quante sono nella classe di ampiezza maggiore (6 11). E infine immediato calcolare anche le densità relative (o percentuali) che consentono di eliminare oltre all effetto dell ampiezza della classe anche quello della numerosità del collettivo qualora si voglia confrontare questa distribuzione con quella del Molise (una volta effettuato un eguale raggruppamento in classi). Classi di addetti n i f i Ampiezza della classe (α i ) Densità assoluta (H i ) Densità relativa (h i ) 0 3 5 0.25 3 1.7 0.08 3 6 7 0.35 3 2.3 0.12 6 11 6 0.30 5 1.2 0.05 11 2 0.1 2 1 0.05 totale 20 1 Tab. 3 Distribuzione in classi Indichiamo con c i-1 l estremo inferiore e con c i l estremo superiore della generica classe i; abbiamo introdotto le seguenti quantità: α i = (c i -c i-1 ): ampiezza classe i H i = n i /α i : densità assoluta della classe i h i = f i /α i = H i /n: densità relativa della classe i h i % = p i /α i = h i *100: densità percentuale della classe i Nelle distribuzioni in classi le frequenze sono quantità eterogenee in quanto dipendenti dall ampiezza delle classi. I rapporti tra ciascuna frequenza (assoluta o relativa) e l ampiezza della classe si chiamano densità ed esprimono correttamente l addensamento delle frequenze nelle varie classi.
Importante: La densità rappresenta la frequenza che si avrebbe in un intervallino di ampiezza unitaria se all interno di una data classe le frequenze fossero uniformemente distribuite ovvero se ad ogni classe unitaria interna a ciascuna classe competesse lo stesso numero di unità. Le densità assolute consentono il confronto tra classi di una stessa distribuzione (solo Lazio); le densità relative (e percentuali) tra classi di distribuzioni diverse (Lazio e Molise). Classi di stessa ampiezza. L analisi è molto più semplice quando le modalità vengono raggruppate in classi di uguale ampiezza. In tal caso non è necessario calcolare le densità per confrontare le numerosità che competono a classi diverse. Qui di seguito è riportato un esempio di distribuzione in classi con classi di uguale ampiezza. statura n i f i 160 170 4 0.25 170 180 8 0.5 180 190 3 0.1875 190 1 0.0625 totale 1 1.0
DISTRIBUZIONI DI QUANTITÀ Le distribuzioni di quantità sono il risultato dell operazione di classificazione (che suddivide il collettivo in classi) e dell operazione di misurazione in ciascuna classe di un carattere quantitativo trasferibile. Con questa distribuzione si vede come l ammontare globale del carattere si distribuisce fra le varie classi. Consideriamo la Tab. 2 e diamo la distribuzione di quantità del carattere numero di addetti usando la divisioni in classi di Tab. 3 dove è riportata la distribuzione di frequenze. Classi di addetti Numero di addetti 0 3 2 5=10 3 6 3 3+4+5 3=28 6 11 6+8+9 2+10 2=52 11 11+15=26 totale 116 Tab. 4 Distribuzione di quantità Nota: Il carattere rispetto al quale si fa la classificazione può essere diverse da quello che viene misurato e poi sommato in ogni classe. SERIE STORICHE Un particolare tipo di distribuzione si ha quando il fenomeno rilevato varia nel tempo e noi siamo interessate a conoscere e studiare la sua evoluzione temporale (PIL, consumi, produzione, inflazione, vendite, nascite, incidenti stradali,...). In questo caso per ogni prefissato momento temporale si rileva l entità (intensità) del fenomeno oggetto di studio. Nell es. che segue le unità statistiche sono gli incidenti stradali verificatisi in Italia tra il 1987 e il 2001. Anno Incidenti 1987 3500 1988 3000...... 2001 2800