ELEMENTI DI STATISTICA DESCRITTIVA PER DISTRIBUZIONI UNIVARIATE

Dimensione: px
Iniziare la visualizzazioe della pagina:

Download "ELEMENTI DI STATISTICA DESCRITTIVA PER DISTRIBUZIONI UNIVARIATE"

Transcript

1 CAPITOLO I ELEMENTI DI STATISTICA DESCRITTIVA PER DISTRIBUZIONI UNIVARIATE 1.1. La statistica nella ricerca ambientale e biologica Il disegno sperimentale, il campionamento e l inferenza 1.3. Tipi di dati e scale di misurazione La scala nominale o classificatoria La scala ordinale o per ranghi La scala ad intervalli La scala di rapporti Classificazione in tabelle Rappresentazioni grafiche di distribuzioni univariate Le misure di tendenza centrale Le misure di tendenza centrale o posizione La mediana La moda Misure di dispersione o variabilità Intervallo di variazione La differenza interquartile Lo scarto medio assoluto dalla media Lo scarto medio assoluto dalla mediana La devianza La varianza La deviazione standard L'errore standard Il coefficiente di variazione La varianza in dati raggruppati: correzione di Sheppard Indici di forma: simmetria e curtosi Accuratezza, precisione e scelta del numero di cifre significative Metodi per calcolare un generico quantile da una serie di dati Rappresentazioni grafiche e semi-grafiche delle distribuzioni: data plot, box-and-whisker, line plot, stem-and-leaf Esercizi sulle misure di tendenza centrale, dispersione, simmetria e curtosi 81

2 CAPITOLO I ELEMENTI DI STATISTICA DESCRITTIVA PER DISTRIBUZIONI UNIVARIATE 1.1. LA STATISTICA NELLA RICERCA AMBIENTALE E BIOLOGICA Come in tutta la ricerca scientifica sperimentale, anche nelle scienze ambientali e in quelle biologiche è indispensabile la conoscenza dei concetti e dei metodi statistici, sia per i problemi di gestione, sia per quelli di indagine. Per pubblicare i risultati di una ricerca, tutte le riviste scientifiche richiedono che la presentazione dei dati e la loro elaborazione seguano criteri ritenuti validi universalmente. Il comportamento nella fase di raccolta dei dati, la loro descrizione, le analisi e infine il riepilogo sono in buona parte codificati, in modo dettagliato. Inviare ad una rivista uno studio o una relazione che denotino una conoscenza sommaria della statistica comporta generalmente una critica dei metodi seguiti, che può giungere fino al rifiuto delle conclusioni o almeno a una dichiarazione esplicita della loro ridotta attendibilità. Alla ricerca, seppure valida per gli altri aspetti e importante per l'argomento trattato, può essere negata la dignità della pubblicazione. Una raccolta di dati non corretta, una loro presentazione inadeguata o un analisi statistica non appropriata rendono impossibile la verifica dei risultati da parte di altri studiosi e il confronto con altre ricerche e analisi del settore. Per il progresso di qualsiasi disciplina sperimentale, una finalità importante di qualsiasi ricerca anche di piccole dimensioni, è la semplice possibilità di sommare le esperienze e confrontare i risultati con altre, effettuate in condizioni simili oppure volutamente differenti. Permette l accumulo delle conoscenze, la verifica di teorie già proposte, la formulazione di nuove ipotesi. Al fine di facilitare ai lettori la corretta comprensione dei risultati, per pubblicare una ricerca le riviste internazionali e quelle di maggior prestigio richiedono tassativamente agli autori di seguire uno schema preciso che, in linea di massima, è fondato sullo sviluppo di quattro fasi. 1) Una introduzione, che presenti in modo accurato sia l'argomento affrontato, sia le finalità della ricerca, mediante citazione dei lavori scientifici pregressi e della letteratura specifica. ) La descrizione di materiali e metodi, nella quale devono essere definiti: a) il tipo di scala utilizzato; 1

3 b) le modalità del campionamento o di raccolta dei dati; c) le misure sintetiche delle caratteristiche più importanti della distribuzione dei dati, come media e varianza (più raramente simmetria, curtosi e coefficiente di variazione). Spesso, soprattutto per argomenti nuovi o quando siano stati pubblicati solo pochi dati, è prassi richiedere la distribuzione tabellare completa e dettagliata. Per relazioni scientifiche che non abbiano solo un carattere divulgativo, le tabelle e le distribuzioni di frequenze sono da preferire alle rappresentazioni grafiche. Infatti queste ultime raramente permettono di risalire ai dati originari, che sono indispensabili per la verifica dei calcoli e quindi una valutazione piàù dettagliata delle conclusioni raggiunte. 3) I risultati, che devono comprendere espressamente la citazione dei test di inferenza utilizzati, allo scopo di permettere alla comunità scientifica di valutare se la loro scelta è appropriata, cioè se sono in rapporto corretto con a) le ipotesi che si intendono verificare, b) il tipo di scala con cui sono state misurate le variabili analizzate, c) le caratteristiche statistiche della distribuzione dei dati. 4) La discussione, che deve riportare l interpretazione dei risultati ottenuti con i test applicati e infine eventuali confronti con analisi già pubblicate. L interpretazione deve non solo comprendere l analisi statistica, ma essere estesa al significato ecologico, ambientale o biologico dei risultati ottenuti. Non sempre un risultato statisticamente rilevante assume anche un significato importante nella disciplina specifica. Ne deriva un aspetto di estrema importanza per l analisi statistica: per impostare correttamente una ricerca, per formulare ipotesi scientificamente valide, per raccogliere e analizzare i dati, infine per interpretarne i risultati, non è possibile scindere le analisi statistiche dalla loro interpretazione disciplinare. 1.. IL DISEGNO SPERIMENTALE, IL CAMPIONAMENTO E L'INFERENZA Per condurre in modo corretto una ricerca scientifica, cioè per raccogliere un campione con un numero sufficiente di dati, tenendo in considerazione sia le condizioni esistenti nella popolazione, sia la successiva applicazione dei test, occorre seguire alcuni passaggi metodologici, riassumibili in 4 fasi: - il disegno sperimentale, - il campionamento, - la descrizione statistica, - la scelta dei test per l inferenza.

4 1 - Il disegno sperimentale è necessario per scegliere e programmare le osservazioni in natura e le ripetizioni in laboratorio, in funzione della ricerca e delle ipotesi esplicative. Già nella prima fase della ricerca, chiamata con termine tecnico appunto disegno sperimentale (dall inglese experimental design e tradotto più correttamente in italiano con programmazione dell esperimento), occorre avere chiara la formulazione dell'ipotesi che si intende verificare. Raccogliere i dati prima di aver chiaramente espresso le finalità della ricerca conduce spesso ad analisi non adeguate e quindi a risultati poco attendibili. Con la formulazione dell ipotesi, si deve rispondere alle domande: - Le eventuali differenze riscontrate tra due o più gruppi di dati, oppure di una serie di osservazioni con quanto è atteso, possono essere imputabili a fattori causali specifici o solamente a fattori casuali ignoti? - Le differenze riscontrate sono generate dalla naturale variabilità delle misure e del materiale utilizzato oppure più probabilmente esiste una causa specifica che le ha determinate? - Il campionamento permette di raccogliere i dati in funzione dello scopo della ricerca, rispettando le caratteristiche della popolazione o universo dei dati. Uno dei problemi fondamentali della statistica è come raccogliere solamente un numero limitato di dati (per motivi economici, di tempo, di oggetti effettivamente disponibili, cioè per limiti oggettivi che quasi sempre esistono in qualsiasi ricerca sperimentale), ma attraverso la loro analisi pervenire ugualmente a conclusioni generali, che possano essere estese a tutta la popolazione. 3 - La descrizione delle caratteristiche statistiche dell insieme dei dati raccolti deve permettere a tutti di verificare sia l'adeguatezza del disegno sperimentale e del campionamento, sia la correttezza delle analisi attuate e dei risultati ottenuti. 4 - I test devono essere già programmati nella fase del disegno sperimentale, poiché è da essi che dipende il tipo di campionamento. Il test è un processo logico-matematico che porta alla conclusione di non poter respingere oppure di poter respingere l'ipotesi della casualità, mediante il calcolo di probabilità specifiche di commettere un errore con queste affermazioni. L ipotesi che il risultato ottenuto con i dati sperimentali raccolti sia dovuto solo al caso è chiamata ipotesi nulla e è indicata con H 0. Di norma, con essa si afferma che le differenze tra due o più gruppi, quelle tra un gruppo e il valore atteso oppure le tendenze riscontrate siano imputabili essenzialmente al caso. 3

5 Per esempio, confrontando il tempo di guarigione tra due gruppi di ammalati ai quali siano stati somministrati due farmaci differenti, con l ipotesi nulla H 0 si sostiene che il risultato ottenuto non dipende da una effettiva differenza tra i due principi attivi, ma che esso è dovuto al caso. Se nell esperimento il farmaco A è risultato migliore del farmaco B, se si accetta l ipotesi nulla implicitamente si afferma che, con un nuovo esperimento nelle stesse condizioni, si potrebbe ottenere il risultato opposto. Per giungere a queste conclusioni si deve ricorrere all inferenza, che può essere definita come la capacità di trarre conclusioni generali (sulla popolazione od universo) utilizzando solo un numero limitato di dati variabili (campione). Il disegno sperimentale ed il campionamento sono le due fasi preliminari - sia alla raccolta dei dati in natura, - sia per una corretta impostazione degli esperimenti in laboratorio. Tuttavia, la presentazione didattica e la corretta comprensione di questi argomenti richiedono concetti complessi e metodologie sofisticate, non sempre facili né intuitivi. Per questi motivi, il disegno sperimentale e il campionamento sono sempre trattati nella fase finale di un corso di statistica applicata, quando è già stata raggiunta sufficiente familiarità con la terminologia, con i concetti e i metodi fondamentali dell inferenza. Nell apprendimento e nell uso della statistica, il primo passo è comprendere come solamente una corretta applicazione del campionamento e una scelta appropriata dei test permettano di rispondere alla domanda inferenziale di verifica dell'ipotesi nulla. Con essa si pone il seguente quesito: " Nell'ipotesi che le differenze fra gruppi di osservazioni empiriche siano dovute a fattori esclusivamente casuali, quale è la probabilità che fra tutte le alternative possibili si presenti proprio la situazione descritta dai dati raccolti o una ancora più estrema?" Se tale probabilità risulta alta, convenzionalmente uguale o superiore al 5%, si imputeranno le differenze a fattori puramente casuali. Al contrario, se la probabilità risulta bassa, inferiore al valore prefissato, si accetta come verosimile che le differenze siano dovute a fattori non casuali, rientranti tra i criteri che distinguono i gruppi di dati. La procedura dell inferenza statistica è semplice, nelle linee logiche generali. Tuttavia, le analisi e le conclusioni trovano complicazioni per l elevata variabilità dei dati, a motivo soprattutto di tre cause che, in ordine crescente d importanza, sono: 4

6 - gli errori di misurazione, generati da strumenti e da differenze nell'abilità dei ricercatori; - l'operare su campioni, per cui i dati utilizzati in una ricerca non sono mai identici a quelli rilevati in qualsiasi altra; - la presenza di vari fattori contingenti di disturbo che, come il tempo e la località, possono incidere diversamente sul fenomeno in osservazione, con intensità e direzioni ignote. Pure se espressi in modo sintetico, questi concetti definiscono il contenuto della statistica moderna: la raccolta, la presentazione e la elaborazione numerica delle informazioni, per agevolare l'analisi dei dati ed i processi decisionali. In un corso completo di statistica applicata, è importante avere in ogni momento una visione complessiva degli argomenti. Il loro elenco è utile anche per comprendere le diverse parti in cui viene distinta la statistica, nel percorso di apprendimento dei concetti e delle procedure. La statistica moderna può essere distinta in tre parti: descrittiva, matematica, inferenziale. 1 - La statistica descrittiva spiega come i dati raccolti devono essere riportati in tabella, rappresentati in grafici e sintetizzati in indici matematici, allo scopo di individuare le caratteristiche fondamentali del campione. - La statistica matematica presenta le distribuzioni teoriche sia per misure discrete sia per misure continue, allo scopo di illustrarne le caratteristiche fondamentali, le relazioni che esistono tra esse, gli usi possibili; 3 - L inferenza statistica, la parte nettamente prevalente del corso, serve per la verifica delle ipotesi. Essa può essere distinta in vari capitoli, in rapporto - alle caratteristiche dei dati (se permettono o meno il ricorso alla distribuzione normale: statistica parametrica e non parametrica - al numero di variabili (se una, due o più: statistica univariata, bivariata, multivariata). La prima parte dell inferenza, di solito affrontata in un corso, è la statistica univariata parametrica. Come argomenti, essa comprende il test t di Student e il test F di Fisher-Snedecor o analisi della varianza: - il primo serve sia per confrontare la media di un campione con una media attesa o teorica, sia per confrontare le medie di due campioni; 5

7 - il secondo rappresenta la sua generalizzazione e permette il confronto simultaneo tra più medie, considerando uno solo oppure più fattori di variabilità. Appunto perché fondati sulla distribuzione normale, questi test richiedono condizioni di validità restrittive (discusse nei capitoli seguenti), che non sempre i dati raccolti e la misura utilizzata permettono di rispettare. E una situazione che si presenta con frequenza elevata nella ricerca applicata, a causa della estrema variabilità dei dati e della presenza di valori anomali. In queste condizioni si ricorre alla statistica univariata non parametrica, che è formata da una serie innumerevole di test. Di norma essi sono raggruppati sulla base dei campioni ai quali viene applicata: test per un campione, per due campioni dipendenti e indipendenti, test per k campioni dipendenti e indipendenti. Quando per ogni individuo o situazione si raccolgono informazioni relative a due variabili, è possibile analizzare le relazioni che intercorrono tra esse, mediante sia la regressione e la correlazione parametriche, sia la regressione e la correlazione non parametriche. Si parla allora di statistica bivariata parametrica e di statistica bivariata non parametrica. Quando i dati raccolti sono relativi a più variabili, si deve ricorrere alla statistica multivariata. Per molte analisi è solamente parametrica. Più recentemente sono stati proposti metodi, detti di ricampionamento, che sono definiti test di statistica non parametrica. In questo corso, verranno presentati i metodi relativi - alla statistica univariata e bivariata sia parametrica che non parametrica. Alla fine sono presentati anche il bootstrap e il jackknife, test non parametrici applicabili sia distribuzioni univariate, sia bivariate che multivariate. La serie completa degli argomenti e il loro ordine sono riportati nell'indice del testo, organizzato in capitoli e entro capitoli in paragrafi. Questi concetti possono essere schematizzati in una tabella, che offre il vantaggio confrontare le finalità dei tre tipi di statistica 6

8 I - STATISTICA DESCRITTIVA a) Come si presentano i dati in tabelle e grafici. b) Indici sintetici che descrivono la distribuzione dei dati: tendenza centrale, variabilità, forma. II STATISTICA MATEMATICA Calcolo delle probabilità. Distribuzioni teoriche: binomiale, poissoniana, ipergeometrica, normale, III STATISTICA INFERENZIALE (dedurre leggi generali, disponendo di un campione di dati variabili) a) Ipotesi parametriche (su media, varianza, ) e ipotesi funzionali (su tutta la distribuzione). b) Distribuzioni univariate, bivariate, multivariate. c) Statistica parametrica e non parametrica. d) Test per uno, due e più campioni. La statistica inferenziale permette di trarre conclusioni su tutti i dati di una popolazione, quando se ne conoscono solamente pochi, raggruppati in uno o più campioni. Si supponga di voler conoscere la velocità d'accrescimento somatico di una determinata specie animale o vegetale. E ovvio che non è possibile rintracciare e misurare tutti gli individui di quella specie, la popolazione od universo; se non altro per il tempo e le risorse che sono richiesti da questa operazione, oltre alla difficoltà teorica rappresentata dal suo continuo rinnovarsi per effetto di nuove nascite e delle morti. E possibile utilizzare non tutta la popolazione ma solamente alcune unità, una frazione limitatissima della popolazione: in termini tecnici, un campione. Quando poi si trattasse di misurare rapporti tra organi di una specie animale, è ovvio che non è possibile sezionare tutti gli individui della specie. Nello stesso modo, per contare i globuli rossi o quelli bianchi di una persona, non è possibile estrarre tutto il sangue per un conteggio totale, ma si effettua un prelievo limitato a pochi centimetri cubici. 7

9 LA PROCEDURA PER UN TEST D INFERENZA Dal Campione variabile all Universo La logica o filosofia scientifica per la scoperta delle leggi della natura I IPOTESI Ipotesi nulla, ipotesi alternativa II - RACCOLTA DEI DATI Tipo di scala; caratteristiche della distribuzione dei dati III - SCELTA DEL TEST Sulla base dell'ipotesi, del tipo di scala e delle caratteristiche dei dati IV - RISULTATO DEL TEST- PROBABILITA' Probabilità di ottenere quel risultato, nella condizione espressa dall'ipotesi nulla V DECISIONE - SCELTA TRA LE DUE IPOTESI Probabilità α VI ANALISI DEL TEST E DEI DATI PER UN NUOVO ESPERIMENTO Potenza a posteriori e a priori, probabilità β Tuttavia le conclusioni non devono essere limitate ai pochi (o anche molti) casi realmente raccolti, misurati ed analizzati; ma devono essere generali, estese a tutti gli individui della specie o a tutto l organismo. Ricoprono effettivo interesse non le conclusioni che restano limitate al caso del campione, ai dati utilizzati, ma quelle che sono estese a tutta la popolazione o universo. Solo in questo modo, la ricerca riveste una importanza generale e contribuisce alla costruzione di teorie scientifiche, di modelli o semplicemente di ipotesi che possono essere universalmente validi. Una condizione essenziale e preliminare all uso dei metodi di statistica inferenziale è che il campione sia corretto, che non riporti in modo distorto od alterato la frequenza delle caratteristiche presenti nella popolazione. 8

10 Lo schema precedente elenca i vari passaggi logici che sono necessari. Nello svolgimento del programma, saranno descritti dettagliatamente in tutte le loro fasi TIPI DI DATI E SCALE DI MISURAZIONE Nell analisi statistica, occorre porre sempre molta attenzione alle caratteristiche dei dati. Già la fase dell esperimento che conduce alla raccolta delle informazioni è un punto fondamentale, poiché da essa dipendono sia i metodi di descrizione, sia i test da applicare. Schematicamente, esistono due tipi di variabili casuali, alle quali sono associati due tipi di dati: le variabili qualitative e le variabili quantitative. Le variabili qualitative o categoriali sono quantificate con conteggi, ossia con numeri interi e discreti. Ad esempio, per valutare gli effetti di un tossico è possibile contare quante cavie muoiono o sopravvivono; con un farmaco, quanti pazienti guariscono o restano ammalati, entro un tempo prefissato; con esperimenti sulle leggi di Mendel, quante piante hanno fiori rossi o bianchi. Le variabili quantitative richiedono risposte numeriche, espresse su una scala continua. Ad esempio, per un analisi del dimorfismo animale, dopo la separazione in maschi e femmine, si possono misurare il peso e l altezza di ogni individuo. I dati che si raccolgono per analisi statistiche possono quindi essere discreti o continui. Questa suddivisione, ormai storica nella presentazione ed elaborazione dei dati, è stata resa più chiara e funzionale dalla classificazione delle scale di misurazione proposta dallo psicologo S.S. Stevens nel 1946, (vedi l articolo On the theory of scales of measurement, pubblicato su Science, vol. 103, pp.: ). Tale classificazione è stata aggiornata nel 1951 con le operazioni statistiche ammissibili e in seguito divulgata da S. Siegel, nel suo manuale "Statistica non parametrica" del Una presentazione ampia e dettagliata può essere trovata pure nell ultima edizione del testo di S. Siegel e N. J. Castellan del 1988 (Nonparametric Statistics for the Behavioral Sciences, nd ed., Mc Graw Hill, New York), tradotto anche in italiano. Le misure possono essere raggruppate in 4 tipi di scale, che godono di proprietà formali differenti; di conseguenza, esse ammettono operazioni differenti. Come per tutte le discipline, una scala di misurazione dei fenomeni biologici ed ambientali può essere: 1) nominale o classificatoria; ) ordinale o per ranghi; 3) ad intervalli; 4) di rapporti. 9

11 La scala nominale o classificatoria è il livello più basso di misurazione. E utilizzata quando i risultati possono essere classificati o raggruppati in categorie qualitative, dette anche nominali ed eventualmente identificate con simboli. I caratteri nominali, detti anche sconnessi, costituiscono variabili le cui modalità o attributi non assumono alcun ordine precostituito. In una popolazione animale si possono distinguere gli individui in maschi e femmine, contando quanti appartengono ai due gruppi; con una classificazione a più voci, possono essere suddivisi e contati secondo la loro specie. Nella scala nominale o qualitativa, esiste una sola relazione, quella di identità: gli individui attribuiti a classi diverse sono tra loro differenti, mentre tutti quelli della stessa classe sono tra loro equivalenti, rispetto alla proprietà utilizzata nella classificazione. Un caso particolare è quello dei caratteri dicotomici che possono assumere solo due modalità, spesso indicate in modo convenzionale con 0 e 1 oppure + (più) e (meno). L'attribuzione di numeri per identificare categorie nominali, come avviene per individuare i giocatori nei giochi di squadra, è solamente un artificio che non può certamente autorizzare ad elaborare quei numeri come se fossero reali, ad esempio calcolandone la media. Quando per la classificazione dei gruppi al posto di nomi vengono usati numeri, si utilizza solo la funzione di identificazione degli elementi numerici come se fossero simboli; ma con tale trasformazione non si determina una informazione differente dalla precedente o ad essa aggiuntiva. L operazione ammessa è il conteggio degli individui o dei dati presenti in ogni categoria. I quesiti statistici che possono essere posti correttamente riguardano le frequenze, sia assolute che relative. Sono possibili confronti tra frequenze osservate (es.: "Una classe è significativamente più numerosa dell altra? Le varie classi hanno tutte lo stesso numero di individui, escludendo le variazioni casuali?") oppure tra le frequenze osservate e le rispettive frequenze attese sulla base di leggi biologiche, ipotesi od altro (es.: "I risultati ottenuti da un esperimento sulle leggi di Mendel sono in accordo con la sua distribuzione teorica?") La scala ordinale o per ranghi rappresenta una misurazione che contiene una quantità di informazione immediatamente superiore a quella nominale; essa assume modalità logicamente sequenziali, non importa se in ordine crescente o decrescente. Alla proprietà precedente di equivalenza tra gli individui della stessa classe, si aggiunge una graduazione tra le classi o tra individui di classi differenti. Con la precedente scala nominale, si ha la sola informazione che gli individui appartenenti a gruppi differenti sono tra loro diversi, ma non è possibile stabilire un ordine. 10

12 Con la scala per ranghi, le differenti classi possono essere ordinate sulla base dell intensità del fenomeno. (es.: Si supponga che il risultato di un reagente sia di colorare in verde una serie di provette, secondo la quantità di sostanza contenuta. E possibile mettere in ordine le provette secondo l'intensità del colore, per avere una stima approssimata della quantità di sostanza contenuta. Se si confrontano tre o più provette con intensità di colore differente, è facile stabilirne l'ordine; rimane impossibile misurare ad occhio la quantità di colore di ognuna e la differenza esistente tra esse). Questa misura ha un limite fondamentale. In una scala ordinale, non è possibile quantificare le differenze di intensità tra le osservazioni. Alcune risposte, apparentemente definite a livello qualitativo o nominale, in realtà possono contenere una scala ordinale o di rango, seppure con molte ripetizioni. E il caso della suddivisione in giovane, adulto ed anziano per l'età; oppure della classificazione in insufficiente, sufficiente, discreto, buono ed ottimo in valutazioni di merito. Forniscono l informazione di una scala ordinale anche - misure che sono rappresentate con simboli, come --, -, =, +, raggruppamenti convenzionali o soggettivi in classi di frequenza variabili come 0, 1-, 3-10, 11-50, , , >1.000 Resta l impossibilità di valutare quanto sia la distanza tra insufficiente e sufficiente; oppure se essa sia inferiore o superiore alla distanza tra buono ed ottimo. La scala ordinale o per ranghi è pertanto una scala monotonica. Alle variabili così misurate è possibile applicare una serie di test non parametrici; ma non quelli parametrici. In questi casi, non sarebbe possibile utilizzare quei test che fanno riferimento alla distribuzione normale, i cui parametri essenziali sono la media e la varianza, poiché non si possono definire le distanze tra i valori. Tuttavia questa indicazione di massima sulla utilizzazione della statistica non parametrica è spesso superata dall'osservazione che variabili discrete o nominali tendono a distribuirsi in modo approssimativamente normale, quando il numero di dati è sufficientemente elevato. Per coloro che sono nella fase iniziale delle applicazioni statistiche, permane sempre molta incertezza sulla scelta dei test più appropriati; infatti permane un ampia varietà di opinioni su quando il numero di osservazioni sia sufficientemente elevato, per ottenere una distribuzione normale. Nel seguito del corso, l argomento sarà discusso in molte situazioni reali, a chiarimento dei criteri di scelta dei test. 11

13 La scala ad intervalli aggiunge la proprietà di misurare le distanze o differenze tra tutte le coppie di valori. La scala di intervalli si fonda su una misura oggettiva e costante, anche se il punto di origine e l'unità di misura sono arbitrari. Esempi classici di scale ad intervalli sono la temperatura (misurata in gradi Celsius o Fahrenheit, ma non Kelvin) ed il tempo (misurato secondo calendari differenti). Valori di temperatura, oltre a poter essere facilmente ordinati secondo l intensità del fenomeno, godono della proprietà che le differenze tra loro sono direttamente confrontabili e quantificabili; le date di qualsiasi calendario, non importa se gregoriano, islamico, ebraico o cinese, possono essere tra loro ordinate dalla più antica a quella più recente e le differenze temporali sono misurate con precisione oggettiva. Ma la scala ad intervalli ha un limite, non gode di un'altra proprietà importante nella elaborazione statistica dei dati, quella del rapporto tra coppie di misure Ad esempio, una temperatura di 80 gradi Celsius non è il doppio di una di 40 gradi. Se una persona ponesse la mano destra in una bacinella con acqua a 80 gradi e la mano sinistra in un altra con acqua a 10 gradi, non direbbe certamente che la prima scotta 8 volte più della seconda, ma solo che la prima è molto calda e la seconda fredda. In una scala ad intervalli, solo le differenze tra i valori sono quantità continue e isomorfe alla struttura dell'aritmetica. Solo per le differenze sono permesse tutte le operazioni: possono essere tra loro sommate, elevate a potenza oppure divise, determinando le quantità che stanno alla base della statistica parametrica. Da una scala d intervalli è possibile scendere ad una scala di ranghi (es.: utilizzando solo l informazione dell ordine dei valori) oppure ad una scala nominale (es.: suddividendo le misure in alte e basse, sopra o sotto un valore prefissato). Pertanto, la scala d intervalli gode anche delle proprietà definite per le due scale precedenti. Nella presentazione dei test non parametrici verranno discusse le situazioni in cui, avendo dati misurati su scale d intervalli o di rapporti, è conveniente scendere nel tipo di scala seppure con una perdita d informazione La scala di rapporti ha il vantaggio di avere un origine reale. Sono tipiche scale di rapporti l'altezza, la distanza, la velocità, l'età, il peso, il reddito, la temperatura in gradi Kelvin; più in generale, tutte quelle misure in cui 0 (zero) significa quantità nulla. Non solo le differenze, ma gli stessi valori possono essere moltiplicati o divisi per quantità costanti, senza che l'informazione di maggiore importanza, il rapporto tra essi, ne risulti alterata. Alle variabili misurate con una scala di rapporti, il tipo di misurazione più sofisticato e completo, può essere applicato qualsiasi test statistico. Possono essere utilizzati anche la media 1

14 geometrica ed il coefficiente di variazione, i quali richiedono che il punto 0 (zero) sia reale e non convenzionale. Pure con una scala di rapporti è possibile scendere nella scala di misurazione, trasformandola in una scala di rango o addirittura qualitativa. Ovviamente, si ha una perdita ancor più rilevante della quantità d informazione, che essa fornisce; di conseguenza, rappresenta un operazione che deve essere evitata, quando non imposta da altre condizioni dell analisi statistica o dalle caratteristiche della distribuzione dei dati. Riassumendo i concetti fondamentali esposti, - nella scala nominale, esistono solo relazioni di equivalenza; - in quella ordinale, alla precedente si aggiungono relazioni di minore o maggiore di; - in quella ad intervalli alle due precedenti si aggiunge la relazione di rapporto tra ogni coppia d intervalli; - nella scala di rapporti si ha anche la quarta relazione di rapporto conosciuto tra ogni coppia di valori. Come sarà più volte discusso nei prossimi capitoli, anche nella ricerca e nella gestione ambientali occorre porre estrema attenzione al reale significato da attribuire ai valori numerici che vengono utilizzati. Si possono avere numeri che apparentemente hanno le stesse caratteristiche, ma che in realtà richiedono elaborazioni diverse ed impongono il ricorso a test differenti, per rispondere ai medesimi quesiti. Per esempio, i grammi di una determinata sostanza inquinante sciolta in un litro d acqua, la percentuale di questa sostanza sul peso complessivo, il punteggio della qualità dell acqua determinata dalla presenza di quella sostanza sono misure che utilizzano scale diverse. - Nel primo caso, si ha una classica scala di rapporti ed è possibile usare test parametrici, se la distribuzione dei dati è normale; - nel secondo caso, è possibile utilizzare le stesse procedure statistiche e gli stessi test parametrici, solamente dopo apposita trasformazione dei valori; - nel terzo, si ha una scala di ranghi, poiché la reale informazione fornita da questa serie di punteggi è solo quella di una graduatoria della qualità, nella quale non hanno reale significato né i rapporti né le differenze tra loro CLASSIFICAZIONE IN TABELLE Un insieme di misure è detto serie statistica o serie dei dati. Quando la serie non è ordinata, si ha un insieme disordinato di numeri che non evidenzia le caratteristiche fondamentali del fenomeno. 13

15 Una sua prima ed elementare elaborazione può essere una distribuzione ordinata di tutti i valori, in modo crescente o decrescente, detta seriazione. Il valore minimo e il valore massimo insieme permettono di individuare immediatamente il campo (od intervallo) di variazione. Successivamente, la serie può essere raggruppata in classi, contando quanti valori od unità statistiche appartengono ad ogni gruppo o categoria. Si ottiene una distribuzione di frequenza o di intensità, detta anche semplicemente distribuzione. Come prima applicazione, è utile considerare un caso semplice: una variabile discreta ottenuta da un conteggio del numero di foglie, germogliate su 45 rami di lunghezza uguale. Tabella 1. Numero di foglie contate su 45 rami Il primo passaggio, quasi intuitivo in una distribuzione discreta, consiste nel definire le classi: - è sufficiente identificare il valore minimo (0, nei dati della tabella) e quello massimo (9), - contando quante volte compare ogni modalità di espressione (cioè quanti sono i rami con un numero di foglie uguali). Queste informazioni di norma sono presentate in una tabella impostata come la seguente: Tabella. Distribuzione di frequenze assolute e relative delle foglie in 45 rami. Classe x Freq. Assoluta n Freq. Relativa f 0,07 0,07 0,15 0,7 0,15 0,11 0,09 0,07 0,00 0,0 Freq. Cumulata --- 0,07 0,14 0,9 0,56 0,71 0,8 0,91 0,98 0,98 1,00 14

16 in cui: - la classe è una modalità di espressione (in questo caso un valore o conteggio); - la frequenza assoluta della classe è il numero di volte con la quale compare ogni valore; - la frequenza relativa della classe è la sua frequenza assoluta divisa per il numero totale; - la frequenza cumulata di una classe (che può essere stimata con quelle assolute e/o con quelle relative) è la somma di tutte le frequenze delle classi minori con quella della classe stessa. La trasformazione da frequenza assoluta a frequenza relativa risulta utile quando si vogliono confrontare due o più distribuzioni, che hanno un differente numero complessivo di osservazioni. La frequenza cumulata offre informazioni importanti quando si intende stimare il numero totale di osservazioni inferiore (o superiore) ad un valore prefissato (ad es.: il 71% dei rami ha meno di 5 foglie; il 56% ha un massimo di 3 foglie). La distribuzione dei dati e la distribuzione delle frequenze cumulate forniscono informazioni non dissimili, essendo possibile passare con facilità dall una all altra. Sono diverse nella loro forma, come si vedrà con maggiore evidenza nelle rappresentazioni grafiche. La prima ha una forma a campana, la seconda una forma a S, di tipo asintotico; si prestano ad analisi differenti e la scelta è fatta sulla base del loro uso statistico. La distribuzione di frequenza offre una lettura rapida delle caratteristiche più importanti della serie di dati. Nella tabella precedente, il ramo tipico ha 3 foglie; se dovessimo sintetizzare con un solo valore il numero di foglie presenti sui rami raccolti diremmo 3, che rappresenta la tendenza centrale. Altra caratteristica importante è il numero minimo e il numero massimo, 0 e 9, che insieme forniscono il campo di variazione, una indicazione della variabilità o dispersione. La distribuzione del numero di foglie tende ad diminuire in modo simile allontanandosi da 3, seppure mantenga frequenze più alte nelle classi con un numero maggiore di foglie: sono indicazioni sulla forma della distribuzione, che in questo esempio non è simmetrica (ma asimmetrica) rispetto alla tendenza centrale, a causa di un eccesso dei valori più alti. Nella costruzione di tabelle sintetiche (come la tabella rispetto alla 1) uno dei problemi più rilevanti è quante classi di frequenza costruire. La scelta dipende strettamente dal numero totale N di osservazioni e, in misura minore, dalla variabilità dei dati. Se, in riferimento alla dimostrazione precedente, i dati fossero stati in numero inferiore ai 45 presentati (ad esempio i 15 valori della prima riga), il campo di variazione sarebbe stato più ridotto (non più da 0 a 9, ma da a 9). Le classi non sarebbero state 10 come prima, ma solamente 8. 15

17 Tuttavia, come si può osservare dai dati, 8 classi per 15 osservazioni sarebbero ugualmente un numero troppo alto, per riuscire ad evidenziare e rappresentare in modo corretto le caratteristiche principali e la forma reale della distribuzione. Le distribuzioni di frequenza tendono a mostrare la distribuzione reale del fenomeno solo quando è possibile utilizzare un numero sufficientemente elevato di osservazioni. L esperienza ha insegnato che il numero di classi abitualmente varia da un minimo di 4-5 (con N = 10-15) ad un massimo di 15-0 (con N > 100), in funzione del numero complessivo di osservazioni. Un numero troppo basso di classi, raggruppando eccessivamente i dati, determina una perdita di informazione sulle caratteristiche della distribuzione e la rende non significativa; è intuitivo che una o due sole classi determinano l impossibilità di evidenziare qualunque caratteristica della distribuzione. Inversamente, ma con un risultato finale simile, un numero troppo elevato di classi disperde i valori e non rende manifesta la forma della distribuzione. Per stimare in modo oggettivo il numero di classi, sono stati proposti vari metodi; tra essi è utile ricordarne due: 1 - quello di H. Sturges che nel 196, sulla base del numero di osservazioni N, ha indicato il numero ottimale di classi C con C = log 10( N) 3 - quello di D. Scott che nel 1979 ha determinato l ampiezza ottimale h delle classi (dalla quale ovviamente dipende direttamente anche il numero di classi C), mediante la relazione S h = 3, 5 N dove - S è la deviazione standard, che sarà presentata più avanti tra le misure di variabilità dei dati. Nella costruzione di distribuzioni di frequenza, non è strettamente obbligatorio utilizzare intervalli uguali, anche se è prassi consolidata per una lettura più semplice. Nel caso di classi di ampiezza diversa, la rappresentazione grafica ed il calcolo dei parametri fondamentali esigono alcune avvertenze, non sempre intuitive (di seguito presentate). 16

18 Nel caso di una variabile continua, il raggruppamento in classi richiede alcuni accorgimenti ulteriori rispetto a quelli utilizzati per una variabile discreta. Si supponga che sia stata misurata l altezza in cm. di 40 giovani piante della stessa specie, arrotondata all unità per semplificazione. Tabella 3. Altezza in cm. di 40 giovani piante E evidente come non sia conveniente fare una classe per ogni cm., in analogia a quanto fatto con i dati della tabella 1. In questo caso, il numero di modalità sarebbe nettamente superiore al numero di osservazioni, anche se il campione avesse un numero di osservazioni doppio o triplo. Di conseguenza, si impone la necessità di un raggruppamento in classi, che comprendano più modalità di espressione. Una volta individuato il valore minimo e quello massimo (64 e 198), si stabilisce l'intervallo di variazione ( = 134). Nella formazione delle classi, il limite inferiore della prima classe ed il limite superiore dell ultima classe non devono essere necessariamente i valori osservati, ma li devono ovviamente comprendere. E quindi possibile costruire un campo di variazione, ad esempio di 140 cm. (sempre più ampio di quello calcolato), partendo da cm. 60 e arrivando a cm. 199 compresi. Sulla base del numero di dati (40), si decide il numero di classi. Nel caso specifico, potrebbero essere 7 classi, con un ampiezza di 0 cm. ognuna. E necessario definire con precisione il valore minimo e quello massimo di ogni classe, onde evitare incertezze nell'attribuzione di un singolo dato tra due classi contigue. Con i dati dell esempio, le classi possono essere la prima, la seconda, la terza e così via fino a per l ultima. E da evitare la suddivisioni in classi come 60-80, , , Poiché la scala è continua, i cm. riportati devono essere intesi con almeno cifre decimali, per cui nella classe il primo numero deve essere inteso come 60,00 cm. e 79 come 79,99; nello stesso modo la classe deve essere intesa tra i cm. 180,00 e 199,99. 17

19 Nonostante le indicazioni di massima presentate, la determinazione dei valori estremi, del numero di classi e dell'intervallo di ogni classe è ampiamente soggettiva. Nella costruzione di una tabella, la scelta soggettiva di una particolare serie o di un'altra può tradursi in una rappresentazione completamente diversa degli stessi dati. Per piccoli campioni, l'alterazione e le differenze possono essere sensibili; ma all'aumentare del numero di osservazioni, gli effetti delle scelte soggettive, quando non siano estreme, incidono sempre meno sulla concentrazione dei valori e sulla forma della distribuzione. Tra le altre avvertenze importanti, è da ricordare che la classe iniziale e quella terminale non devono essere classi aperte (come < 80 quella iniziale e 180 quella finale). Con classi estreme aperte, si perde l'informazione del loro valore minimo o massimo e quindi del valore centrale di quella classe; la conseguenza è la perdita di un dato indispensabile, per calcolare la media della classe e quella totale, nonché tutti gli altri parametri da essa derivati. Come verrà successivamente chiarito, con tabelle in cui le classi estreme sono aperte viene impedita o resa soggettiva anche la loro rappresentazione grafica, per la quale è indispensabile conoscere con precisione il valore iniziale e quello terminale. I dati della tabella 3 possono essere riportati in modo più schematico e più comprensibile, come nella seguente tabella 4. Tabella 4. Distribuzione di frequenza assoluta e relativa (in %) dell'altezza di 40 giovani piante. Classe Freq. Assoluta Freq. Relativa % X i n i f,5 7,5 5,0 30,0 17,5 1,5 5,0 i Freq. Cumulata ---,5 10,0 35,0 65,0 8,5 95,0 100,0 Rispetto all'elenco grezzo dei dati, la tabella di distribuzione delle frequenze fornisce in modo più chiaro le indicazioni elementari contenute, in particolare la loro - posizione o dimensione (già chiamata anche tendenza centrale) e - la variabilità o dispersione. Per evidenziare sia queste che altre caratteristiche della distribuzione dei dati raccolti, sovente è di aiuto una rappresentazione grafica che mostra in modo sintetico soprattutto - la forma, come la simmetria e la curtosi, quando si tratti di grandi gruppi di dati. 18

20 Ritornando al problema della rappresentazione tabellare dei dati riportati in tabella 3, secondo le indicazioni di Sturges il numero di classi C avrebbe dovuto essere C = log N = ( ) log 10( 40) = 6, uguale a 6,34 dal quale si deduce anche un ampiezza h = , circa centimetri. Secondo le indicazioni di Scott, l ampiezza h delle classi avrebbe dovuto essere 3, 5 s 3, 5 8, 618 h = = = 15, 837 N 6, 346 uguale a circa 16, dalla quale si deduce un numero di classi C 140 C = = 884, 15, 837 uguale a 9 (8,84). Ovviamente, il numero di classi calcolato (C = 8,84) deve essere arrotondato all unità. Secondo i due metodi proposti, con i dati della tabella 3 il numero di classi può ragionevolmente variare da 6 a 9; si evidenzia la correttezza della scelta di fare 7 classi, suggerita dalla semplicità di formare classi con un ampiezza di 0 cm. La rappresentazione dei dati in una tabella di frequenza offre i vantaggi descritti; ma soffre anche di alcune controindicazioni. Lo svantaggio maggiore deriva dal - non poter conoscere come sono distribuiti i dati entro ogni classe. Per stimare i parametri della distribuzione (media, varianza, simmetria, curtosi), viene quindi usato il valore centrale di ogni classe, - nell ipotesi che in quell intervallo i dati siano distribuiti in modo uniforme. Rispetto alla distribuzione delle singole osservazioni, questa procedura comporta un approssimazione, poiché - tale ipotesi operativa implicita non è vera (il concetto sarà ripreso e dimostrato in paragrafi successivi). 19

21 1.5. RAPPRESENTAZIONI GRAFICHE DI DISTRIBUZIONI UNIVARIATE Le rappresentazioni grafiche servono per evidenziare in modo semplice, a colpo d occhio, le quattro caratteristiche fondamentali di una distribuzione di frequenza (tendenza centrale, variabilità, simmetria e curtosi). Insieme con i vantaggi di fornire una visione sintetica e di essere di facile lettura, hanno però l inconveniente fondamentale di mancare di precisione e soprattutto di essere soggettive, quindi di permettere letture diverse degli stessi dati. Pertanto, ai fini di una elaborazione mediante i test e di un confronto dettagliato dei parametri, è sempre preferibile la tabella, che riporta i dati esatti. Nell introdurre le rappresentazioni grafiche, seppure nel caso specifico parli di diagrammi (come quello di dispersione che in questo testo è presentato nel capitolo della regressione), Sir Ronald A. Fisher nel suo volume del 1958 Statistical Methods for Research Workers, (13 th ed. Oliver and Boyd, Edinburgh, 356 p.) espone con chiarezza i motivi che devono spingere il ricercatore a costruire rappresentazioni grafiche dei suoi dati: - un esame preliminare delle caratteristiche della distribuzione, - un suggerimento per il test da scegliere, adeguato appunto ai dati raccolti, - un aiuto alla comprensione delle conclusioni, - senza per questo essere un test, ma solo una descrizione visiva. The preliminary examination of most data is facilited by use of diagrams. Diagrams prove nothing, but bring outstanding features readily to the eye; they are therefore no substitute for such critical tests as may be applied to the data, but are valuable in suggesting such tests, and in explaining the conclusions founded upon them. Le rappresentazioni grafiche proposte sono numerose. Esse debbono essere scelte in rapporto al tipo di dati e quindi alla scala utilizzata. Per dati quantitativi, riferiti a variabili continue misurate su scale ad intervalli o di rapporti, di norma si ricorre a istogrammi o poligoni. Gli istogrammi sono grafici a barre verticali (per questo detti anche diagrammi a rettangoli accostati), nei quali - le misure della variabile casuale sono riportate lungo l'asse orizzontale, - mentre l'asse verticale rappresenta il numero assoluto, oppure la frequenza relativa o quella percentuale, con cui compaiono i valori di ogni classe. 0

22 0,3 0,5 0, 0,15 0,1 0, Figura 1. Istogramma dei dati di Tab. Figura. Istogramma dei dati di Tab. 4 ( frequenze relative) (Valore iniz. =60; Valore finale =199; Passo =0; Classi=7 ) I lati dei rettangoli sono costruiti in corrispondenza degli estremi di ciascuna classe. Un istogramma deve essere inteso come una rappresentazione areale: sono le superfici dei vari rettangoli che devono essere proporzionali alle frequenze corrispondenti. Quando le classi hanno la stessa ampiezza, le basi dei rettangoli sono uguali; di conseguenza, le loro altezze risultano proporzionali alle frequenze che rappresentano. Solo quando le basi sono uguali, è indifferente ragionare in termini di altezze o di aree di ogni rettangolo. Ma se le ampiezze delle classi sono diverse, bisogna ricordare il concetto generale che - le frequenze sono rappresentate dalle superfici e quindi è necessario rendere l'altezza proporzionale. Tale proporzione è facilmente ottenuta dividendo il numero di osservazioni per il numero di classi contenute nella base, prima di riportare la frequenza sull'asse verticale. Per esempio, con i dati della precedente figura, si supponga di avere raggruppato in una classe sola le frequenze della classe da 80 a 99 e da 100 a 119, per un totale di 13 osservazioni (3 + 10). Nella successiva figura 3, tale somma è rappresentata - nel primo caso (istogramma di sinistra) con un grafico errato - nel secondo caso (istogramma di destra) nella sua versione corretta, che utilizza il valore medio delle classi raggruppate. 1

23 Figura 3. Istogrammi dei dati di Tab. 4 Somma errata di due classi : a e 3 a Somma corretta di due classi : a e 3 a della figura precedente della figura precedente Un'altra avvertenza importante nella costruzione degli istogrammi è che l'asse verticale, che riporta le frequenze, deve mostrare lo zero reale od "origine", onde non distorcere o travisare le caratteristiche dei dati ed i rapporti tra essi. In relazione alle caratteristiche della distribuzione dei dati, la larghezza o base del rettangolo non ha alcun significato e può essere scelta a piacimento; dipende solamente dal numero di classi che si vogliono rappresentare sull asse delle ascisse. Anche il rapporto tra l altezza dell asse delle ordinate e la lunghezza delle ascisse può essere scelto a piacimento e non ha alcun significato statistico. Tuttavia, sulla prassi di costruire figure graficamente eleganti, le dimensioni utilizzate dai programmi informatici seguono uno schema che è ormai uguale per tutti. E quasi sempre praticato un accorgimento che ha una finalità esclusivamente estetica: per costruire una relazione armonica tra gli elementi del grafico, è uso corrente che tutto il disegno dell istogramma debba essere contenuto in un rettangolo virtuale, in cui l altezza sia i /3 della base o, come riportano altri testi per fornire lo stesso concetto, la base sia 1,5 volte l altezza. (Gli esempi riportati sono stati costruiti con programmi informatici a grande diffusione internazionale, che seguono questa regola estetica). La rappresentazione grafica permette di valutare con immediatezza se il numero di classi costruite è adeguato alle caratteristiche della distribuzione originale dei dati. Con poche eccezioni, le variabili quantitative di fenomeni biologici od ambientali evidenziano una distribuzione normale, con caratteristiche specifiche di addensamento verso i valori centrali e di dispersione più o meno simmetrica, ma con declino regolare verso i due estremi.

24 La rappresentazione grafica deve essere in grado di non alterare od interrompere la regolarità della distribuzione, come può avvenire in particolare quando il numero di classi è troppo alto rispetto al numero di dati. Una dimostrazione di tale caso è riportato nella figura successiva, nella quale sono state fatte 14 classi, invece delle 7 richieste prendendo in considerazione il numero di dati, la loro variabilità e i limiti delle singole classi. L istogramma che segue è una chiara dimostrazione di una suddivisione in classi eccessiva: uno o più gruppi di misure (due nell esempio) comprese entro gli estremi hanno frequenza zero ed alterano la rappresentazione di una distribuzione normale. La frequenza delle classi e l altezza dei rettangoli ad essa proporzionali tendono a decrescere in modo relativamente regolare. Quando un grafico presenta una forte alterazione dalla forma normale, che scompare con una suddivisioni in classi meno frammentate, si ha una indicazione di un possibile errore tecnico nella rappresentazione dei dati Figura 4. Istogramma dei dati di Tab. 4 (Valore iniziale = 60; Valore finale = 199; Passo = 10; Classi = 14) (Rappresentazione grafica non adeguata, per eccessiva suddivisione in classi) I poligoni sono figure simili agli istogrammi e sono utilizzati di norma per la rappresentazione di valori relativi o di percentuali, in quanto è implicito che l area totale sottesa sia uguale a 1 o 100%. Come nel caso degli istogrammi, l'asse orizzontale rappresenta il fenomeno, mentre l'asse verticale rappresenta la proporzione o percentuale di ogni classe. 3

25 Un poligono può essere ottenuto a partire dal relativo istogramma, unendo con una linea spezzata i punti centrali di ogni classe. La linea spezzata deve essere unita all'asse orizzontale, sia all'inizio sia alla fine, per racchiudere l'area della distribuzione. Questo procedimento viene ottenuto con un artificio, simulando la presenza di un istogramma con presenze uguali a 0 (zero) come punto di partenza. Si unisce il valore centrale della prima classe con il valore centrale di questa precedente classe fittizia di valore 0; l ultimo segmento viene ottenuto unendo il valore centrale dell'ultima classe reale con il valore centrale di una classe successiva, fittizia, di valore 0. Il poligono rappresentato nella figura 5 corrisponde all istogramma della figura. E' stato costruito con i dati della tabella 4, spostando le classi sull asse delle ascisse per comprendere i nuovi estremi della distribuzione. 0,35 0,3 0,5 0, 0,15 0,1 0, , 1 0,8 0,6 0,4 0, 0 Figura 5. Poligono dei dati di Tab. 4 Figura 6. Poligono cumulato di Tab. 4 Le distribuzioni cumulate sono rappresentate sia con istogrammi cumulati sia con poligoni cumulati. Non forniscono informazioni sostanzialmente differenti da quelle dei relativi istogrammi e poligoni già descritti, poiché - è possibile passare con facilità da una distribuzione di frequenza alla sua cumulata con semplici operazioni di somme o di sottrazioni tra classi. Sono solamente più convenienti, per meglio evidenziare il concetto di maggiore interesse. La figura 6 rappresenta il poligono cumulato corrispondente al poligono della figura 5. 4

26 Figura 7. Istogramma cumulato dei dati di Tab. Tuttavia, per la diversa prospettiva che essi offrono a partire dagli stessi dati, gli istogrammi ed i poligoni cumulati sono un altro metodo utile sia per presentare le caratteristiche di dati quantitativi riportati in tabelle, sia per facilitare l'interpretazione e l'analisi. Servono soprattutto per evidenziare, con lettura immediata, quante sono in totale le misure che sono inferiori o superiori ad un certo valore. Il valore dell'asse orizzontale che corrisponde al 50% dei valori identifica la mediana (riportato come linea tratteggiata nella figura 7 che rappresenta un istogramma cumulato); è un parametro di tendenza centrale estremamente importante, quando la distribuzione non è simmetrica (il suo uso e le sue caratteristiche saranno descritte in modo dettagliato nei prossimi paragrafi). Per le distribuzioni di frequenza di dati qualitativi, le rappresentazioni grafiche più frequenti sono - i diagrammi a rettangoli distanziati, - gli ortogrammi, - i diagrammi a punti, - gli areogrammi (tra cui i diagrammi circolari), - i diagrammi a figure (o diagrammi simbolici). I diagrammi a rettangoli distanziati, detti anche grafici a colonne, sono formati da rettangoli con basi uguali ed altezze proporzionali alle intensità (o frequenze) dei vari gruppi considerati. A differenza degli istogrammi, i rettangoli non sono tra loro contigui, ma distaccati; di conseguenza, sull asse delle ascisse non vengono riportati misure ordinate ma nomi, etichette o simboli, propri delle classificazioni qualitative. 5

27 Con dati qualitativi o nominali, le basi dei rettangoli sono sempre identiche avendo solo un significato simbolico. Si può ricorre quindi sia a diagrammi a punti o line plot, in cui i punti sono disposti uno sopra l altro fino ad un altezza proporzionale alla frequenza della classe, sia a diagrammi a barre, che sono un altra rappresentazione frequente, in cui al posto di rettangoli o colonne di punti vengono usate linee continue più o meno spesse (figura 8) Figura 8. Rettangoli distanziati Figura 9. Ortogramma Nel caso di dati qualitativi o nominali, non esiste una logica specifica nell'ordine delle classi. Per convenzione, i rettangoli o le colonne sovente (ma non obbligatoriamente) vengono disposti in modo ordinato dal maggiore al minore o viceversa. Se le classi qualitative sono composte da sottoclassi, è possibile una rappresentazione grafica più articolata, dividendo ogni rettangolo in più parti, con altezze proporzionali alle frequenze delle sottoclassi (figura 10). Avendo basi uguali, le aree sono proporzionali alle altezze; pertanto, anche i diagrammi a rettangoli distanziati sono rappresentazioni areali. Gli ortogrammi o grafici a nastri sono uguali ai rettangoli distanziati; l unica differenza è che gli assi sono scambiati, per una lettura più facile (figura 9 e figura 11). Anche in questo caso è possibile sostituire ai rettangoli una linea, eventualmente punteggiata. Si ottengono diagrammi a barre o a punti e l intensità o frequenza delle varie classi viene letta con una proiezione sull asse delle ascisse. 6

28 Figura 10. Rettangoli distanziati Figura 11. Ortogramma Secondo alcuni esperti di percezione dei grafici, queste figure vengono lette con maggiore facilità rispetto ai rettangoli distanziati (l occhio leggerebbe con maggiore facilità la proiezione verticale e di quella orizzontale) e quindi meglio rappresentano le informazioni contenute in distribuzioni di frequenza di dati qualitativi. Gli areogrammi sono grafici in cui le frequenze o le quantità di una variabile qualitativa sono rappresentate da superfici di figure piane, come quadrati, rettangoli o, più frequentemente, cerchi oppure loro parti. La rappresentazione può essere fatta sia con più figure dello stesso tipo, aventi superfici proporzionali alle frequenze o quantità, sia con un'unica figura suddivisa in parti proporzionali. Nel caso dei diagrammi circolari o a torta, si divide un cerchio in parti proporzionali alle classi di frequenza. Gli areogrammi vengono usati soprattutto per rappresentare frequenze percentuali. 4 8% 5 8% 3 41% 1 35% 8% Figura 1. Diagrammi circolari 7

29 Hanno il vantaggio di fare capire con immediatezza che la somma di tutte le classi è uguale all unità (1 o 100%); hanno l inconveniente che evidenziano con estrema difficoltà le differenze che non sono molto marcate. Per differenze piccole, si dimostrano meno efficaci degli ortogrammi. I diagrammi circolari sono utilizzati per distribuzioni di variabili nominali, al fine di evitare di stabilire anche involontariamente un ordine, che non esiste tra variabili qualitative. Mettono in evidenza come sono distribuite le singole parti, rispetto all intero: il cerchio rappresenta l intero fenomeno ed i componenti sono rappresentati da settori che sono distinti da tratteggi, colori o gradazioni di colore differenti. Gli angoli (a, nella formula successiva) devono essere proporzionali alle percentuali (Y in %) che vogliono rappresentare, in accordo con la relazione a : 360 = Y in % : 100 Con i diagrammi a figure, detti anche diagrammi simbolici o pittogrammi, la frequenza di ogni carattere qualitativo viene rappresentata da una figura, sovente stilizzata, oppure da simboli che ricordano facilmente l'oggetto. E una specie di istogramma costruito con figure, dove l altezza della figura deve essere proporzionale alla frequenza, quando le basi sono uguali. Questi diagrammi a figure hanno tuttavia il grave inconveniente di prestarsi a trarre in inganno con facilità il lettore inesperto di statistica, quando sono stati costruiti con malizia; è pure facile che un ricercatore non sufficientemente esperto li costruisca in modo sbagliato, generando non volutamente il sospetto che egli abbia voluto fornire una impressione di differenza tra i gruppi a confronto non supportata dai dati. Per esempio, una popolazione con un numero triplo di persone rispetto ad un'altra spesso è rappresentata da una figura umana proporzionata, di altezza tripla rispetto all altra. L'occhio coglie complessivamente non l altezza di ogni figura ma la superficie che essa occupa, che è il quadrato del valore che si intende rappresentare: se ne ricava l'impressione distorta di un rapporto di 9 a 1 e non di 3 a 1, come dicono in realtà i dati. E possibile ovviare all'inconveniente, costruendo non una figura improbabile di altezza variabile e con base uguale (poiché risulterebbe una figura alterata ed una rappresentazione forse incomprensibile), ma ricorrendo all'artificio di figure identiche, ripetute tante volte quante 8

30 sono le proporzioni. Per esempio, se l'unità di misura convenuta è 0 individui, 50 persone possono essere rappresentate in modo corretto da due figure umane e mezza e 105 persone da 5 figure intere più un quarto di figura. In questo modo si rispetta la regola per costruire gli istogrammi in modo corretto: l altezza delle due figure è proporzionale al numero di dati dei due gruppi Figura 13. Pittogramma della produzione mensile di auto di 3 case automobilistiche: la prima ha prodotto 100 mila auto, la seconda 180 mila e la terza 30 mila. La parte superiore della figura fornisce una rappresentazione corretta. La parte inferiore, fondata sulla proporzione della lunghezza, fornisce una rappresentazione errata: è la superficie coperta dalla figura che deve essere proporzionale, non la lunghezza. A causa degli inconvenienti, i diagrammi simbolici o a figure sono usati molto raramente nelle pubblicazioni specializzate e mai in quelle scientifiche. Sono riservati a pubblicazioni divulgative, quando è più importante l impressione della precisione, cioè occorre evidenziare l importanza del fenomeno a persone che non conoscono esattamente il problema. Gli specialisti preferiscono i dati, poiché da essi sanno valutare il fenomeno e se un dato è credibile oppure anomalo con elevata probabilità. 9

31 Figura 13b. Esempio tratto da un quotidiano sulle manovre finanziarie in Italia, dal 199 al 000 Notare come i numeri diano un informazione differente dai volumi rappresentati. Il primo a presentare una trattazione amplia sul problema della rappresentazione grafica dei dati è Edward R. Tufte nel 1983 con il volume The Visual Display of Quantitative Information (Graphics Press, Cheshire, CT). Egli enuncia chiaramente il concetto, dato per implicito nella tradizione statistica e quindi mai chiaramente discusso, che - una rappresentazione grafica di numeri deve essere direttamente proporzionale alla quantità rappresentata: The representation of numbers, as physically measured on the surface of the graphic itself, should be directly proportional to the quantities representeted. Come richiesto dalle applicazioni, fornisce anche un metodo per misurare la violazione di tale principio il Lie Factor (che potrebbe essere tradotto come il Fattore di Imbroglio o il Fattore di Menzogna, ma che non ha ancora avuto una traduzione in Italiano). Il Lie Factor è definito come - il rapporto tra la dimensione di un effetto mostrato nel grafico e la dimensione dell effetto nei dati: 30

Scale di Misurazione Lezione 2

Scale di Misurazione Lezione 2 Last updated April 26, 2016 Scale di Misurazione Lezione 2 G. Bacaro Statistica CdL in Scienze e Tecnologie per l'ambiente e la Natura II anno, II semestre Tipi di Variabili 1 Scale di Misurazione 1. Variabile

Dettagli

UNIVERSITA DEGLI STUDI DI PERUGIA STATISTICA MEDICA. Prof.ssa Donatella Siepi tel:

UNIVERSITA DEGLI STUDI DI PERUGIA STATISTICA MEDICA. Prof.ssa Donatella Siepi tel: UNIVERSITA DEGLI STUDI DI PERUGIA STATISTICA MEDICA Prof.ssa Donatella Siepi donatella.siepi@unipg.it tel: 075 5853525 2 LEZIONE Statistica descrittiva STATISTICA DESCRITTIVA Rilevazione dei dati Rappresentazione

Dettagli

Statistica Medica A.A. 2010/2011

Statistica Medica A.A. 2010/2011 Statistica Medica A.A. 2010/2011 COMINCIAMO DALLA FINE RESEARCH COMINCIAMO DALLA FINE COMINCIAMO DALLA FINE COMINCIAMO DALLA FINE COMINCIAMO DALLA FINE COMINCIAMO DALLA FINE Cosa è la statistica Come

Dettagli

BLAND-ALTMAN PLOT. + X 2i 2 la differenza ( d ) tra le due misure per ognuno degli n campioni; d i. X i. = X 1i. X 2i

BLAND-ALTMAN PLOT. + X 2i 2 la differenza ( d ) tra le due misure per ognuno degli n campioni; d i. X i. = X 1i. X 2i BLAND-ALTMAN PLOT Il metodo di J. M. Bland e D. G. Altman è finalizzato alla verifica se due tecniche di misura sono comparabili. Resta da comprendere cosa si intenda con il termine metodi comparabili

Dettagli

Fondamenti di statistica per il miglioramento genetico delle piante. Antonio Di Matteo Università Federico II

Fondamenti di statistica per il miglioramento genetico delle piante. Antonio Di Matteo Università Federico II Fondamenti di statistica per il miglioramento genetico delle piante Antonio Di Matteo Università Federico II Modulo 2 Variabili continue e Metodi parametrici Distribuzione Un insieme di misure è detto

Dettagli

Elementi di Probabilità e Statistica

Elementi di Probabilità e Statistica Elementi di Probabilità e Statistica Statistica Descrittiva Rappresentazione dei dati mediante tabelle e grafici Estrapolazione di indici sintetici in grado di fornire informazioni riguardo alla distribuzione

Dettagli

Statistica. Campione

Statistica. Campione 1 STATISTICA DESCRITTIVA Temi considerati 1) 2) Distribuzioni statistiche 3) Rappresentazioni grafiche 4) Misure di tendenza centrale 5) Medie ferme o basali 6) Medie lasche o di posizione 7) Dispersione

Dettagli

Teoria e tecniche dei test. Concetti di base

Teoria e tecniche dei test. Concetti di base Teoria e tecniche dei test Lezione 2 2013/14 ALCUNE NOZIONI STATITICHE DI BASE Concetti di base Campione e popolazione (1) La popolazione è l insieme di individui o oggetti che si vogliono studiare. Questi

Dettagli

Elementi di Statistica

Elementi di Statistica Università degli Studi di Palermo Dipartimento di Ingegneria Informatica Informatica ed Elementi di Statistica 3 c.f.u. Anno Accademico 2010/2011 Docente: ing. Salvatore Sorce Elementi di Statistica Statistica

Dettagli

LETTURA CRITICA DELLA LETTERATURA SCIENTIFICA

LETTURA CRITICA DELLA LETTERATURA SCIENTIFICA LA STATISTICA NELLA RICERCA Raccolta dei dati Elaborazione Descrizione Una raccolta di dati non corretta, una loro presentazione inadeguata o un analisi statistica non appropriata rendono impossibile la

Dettagli

STATISTICA NOZIONI DI BASE

STATISTICA NOZIONI DI BASE STATISTICA NOZIONI DI BASE Italo Nofroni Statistica medica - Sapienza - Roma Si definisce statistica la scienza cha ha per oggetto la raccolta, l analisi e l interpretazione dei dati (intensità e/o frequenze)

Dettagli

Tipi di variabili. Indici di tendenza centrale e di dispersione

Tipi di variabili. Indici di tendenza centrale e di dispersione Tipi di variabili. Indici di tendenza centrale e di dispersione L. Boni Variabile casuale In teoria della probabilità, una variabile casuale (o variabile aleatoria o variabile stocastica o random variable)

Dettagli

TRACCIA DI STUDIO. Indici di dispersione assoluta per misure quantitative

TRACCIA DI STUDIO. Indici di dispersione assoluta per misure quantitative TRACCIA DI STUDIO Un indice di tendenza centrale non è sufficiente a descrivere completamente un fenomeno. Gli indici di dispersione assolvono il compito di rappresentare la capacità di un fenomeno a manifestarsi

Dettagli

STATISTICA AZIENDALE Modulo Controllo di Qualità

STATISTICA AZIENDALE Modulo Controllo di Qualità STATISTICA AZIENDALE Modulo Controllo di Qualità A.A. 009/10 - Sottoperiodo PROA DEL 14 MAGGIO 010 Cognome:.. Nome: Matricola:.. AERTENZE: Negli esercizi in cui sono richiesti calcoli riportare tutte la

Dettagli

La variabilità. Dott. Cazzaniga Paolo. Dip. di Scienze Umane e Sociali

La variabilità. Dott. Cazzaniga Paolo. Dip. di Scienze Umane e Sociali Dip. di Scienze Umane e Sociali paolo.cazzaniga@unibg.it Introduzione [1/2] Gli indici di variabilità consentono di riassumere le principali caratteristiche di una distribuzione (assieme alle medie) Le

Dettagli

le scale di misura scala nominale scala ordinale DIAGNOSTICA PSICOLOGICA lezione si basano su tre elementi:

le scale di misura scala nominale scala ordinale DIAGNOSTICA PSICOLOGICA lezione si basano su tre elementi: DIAGNOSTICA PSICOLOGICA lezione! Paola Magnano paola.magnano@unikore.it si basano su tre elementi: le scale di misura sistema empirico: un insieme di entità non numeriche (es. insieme di persone; insieme

Dettagli

LA STATISTICA

LA STATISTICA http://www.biostatistica.unich.it LA STATISTICA E l insieme dei metodi che consentono di raccogliere, ordinare, riassumere, presentare ed analizzare dati e informazioni, trarne valide conclusioni e prendere

Dettagli

05. Errore campionario e numerosità campionaria

05. Errore campionario e numerosità campionaria Statistica per le ricerche di mercato A.A. 01/13 05. Errore campionario e numerosità campionaria Gli schemi di campionamento condividono lo stesso principio di fondo: rappresentare il più fedelmente possibile,

Dettagli

Sperimentazioni di Fisica I mod. A Statistica - Lezione 2

Sperimentazioni di Fisica I mod. A Statistica - Lezione 2 Sperimentazioni di Fisica I mod. A Statistica - Lezione 2 A. Garfagnini M. Mazzocco C. Sada Dipartimento di Fisica G. Galilei, Università di Padova AA 2014/2015 Elementi di Statistica Lezione 2: 1. Istogrammi

Dettagli

Programmazione con Foglio di Calcolo Cenni di Statistica Descrittiva

Programmazione con Foglio di Calcolo Cenni di Statistica Descrittiva Fondamenti di Informatica Ester Zumpano Programmazione con Foglio di Calcolo Cenni di Statistica Descrittiva Lezione 5 Statistica descrittiva La statistica descrittiva mette a disposizione il calcolo di

Dettagli

Statistica. Lezione 1

Statistica. Lezione 1 Università degli Studi del Piemonte Orientale Corso di Laurea in Infermieristica Corso integrato in Scienze della Prevenzione e dei Servizi sanitari Statistica Lezione 1 a.a 2011-2012 Dott.ssa Daniela

Dettagli

La distribuzione delle frequenze. T 10 (s)

La distribuzione delle frequenze. T 10 (s) 1 La distribuzione delle frequenze Si vuole misurare il periodo di oscillazione di un pendolo costituito da una sferetta metallica agganciata a un filo (fig. 1). A Figura 1 B Ricordiamo che il periodo

Dettagli

Università degli Studi di Cassino. Corso di Laurea in Economia Aziendale. Corso di. Statistica. Docente: Simona Balzano.

Università degli Studi di Cassino. Corso di Laurea in Economia Aziendale. Corso di. Statistica. Docente: Simona Balzano. Università degli Studi di Cassino Corso di Laurea in Economia Aziendale Corso di Statistica Docente: Simona Balzano s.balzano@unicas.it a.a. 2013-14 Statistica = Scienza delle decisioni in condizioni di

Dettagli

CAPITOLO 2 RAPPRESENTAZIONI GRAFICHE DEI DATI

CAPITOLO 2 RAPPRESENTAZIONI GRAFICHE DEI DATI VERO FALSO CAPITOLO 2 RAPPRESENTAZIONI GRAFICHE DEI DATI V F 1. Una tabella base di frequenza contiene 2 colonne: una per i valori delle variabili d interesse e un altra per il numero delle volte che i

Dettagli

Rappresentazioni Tabellari e Grafiche. Corso di Laurea Specialistica in SCIENZE DELLE PROFESSIONI SANITARIE DELLA RIABILITAZIONE Statistica Medica

Rappresentazioni Tabellari e Grafiche. Corso di Laurea Specialistica in SCIENZE DELLE PROFESSIONI SANITARIE DELLA RIABILITAZIONE Statistica Medica Rappresentazioni Tabellari e Grafiche Corso di Laurea Specialistica in SCIENZE DELLE PROFESSIONI SANITARIE DELLA RIABILITAZIONE Statistica Medica Vocabolario Essenziale Unità Statistica Unità elementare

Dettagli

Statistica. POPOLAZIONE: serie di dati, che rappresenta linsieme che si vuole indagare (reali, sperimentali, matematici)

Statistica. POPOLAZIONE: serie di dati, che rappresenta linsieme che si vuole indagare (reali, sperimentali, matematici) Statistica La statistica può essere vista come la scienza che organizza ed analizza dati numerici per fini descrittivi o per permettere di prendere delle decisioni e fare previsioni. Statistica descrittiva:

Dettagli

Esercitazioni di Statistica: ES.1.1

Esercitazioni di Statistica: ES.1.1 Esercitazioni di Statistica: ES.1.1 Le componenti fondamentali dell analisi statistica Unità statistica Oggetto dell osservazione di ogni fenomeno individuale che costituisce il fenomeno collettivo Carattere

Dettagli

Statistica. Matematica con Elementi di Statistica a.a. 2015/16

Statistica. Matematica con Elementi di Statistica a.a. 2015/16 Statistica La statistica è la scienza che organizza e analizza dati numerici per fini descrittivi o per permettere di prendere delle decisioni e fare previsioni. Statistica descrittiva: dalla mole di dati

Dettagli

Teoria e tecniche dei test

Teoria e tecniche dei test Teoria e tecniche dei test Lezione 9 LA STANDARDIZZAZIONE DEI TEST. IL PROCESSO DI TARATURA: IL CAMPIONAMENTO. Costruire delle norme di riferimento per un test comporta delle ipotesi di fondo che è necessario

Dettagli

Distribuzioni e rappresentazioni grafiche

Distribuzioni e rappresentazioni grafiche Dip. di Scienze Umane e Sociali paolo.cazzaniga@unibg.it Outline 1 Distribuzioni unitarie e di frequenza 2 3 4 5 Outline 1 Distribuzioni unitarie e di frequenza 2 3 4 5 Distribuzione unitaria [1/2] Data

Dettagli

UNIVERSITA DEGLI STUDI DI PERUGIA STATISTICA MEDICA. Prof.ssa Donatella Siepi tel:

UNIVERSITA DEGLI STUDI DI PERUGIA STATISTICA MEDICA. Prof.ssa Donatella Siepi tel: UNIVERSITA DEGLI STUDI DI PERUGIA STATISTICA MEDICA Prof.ssa Donatella Siepi donatella.siepi@unipg.it tel: 075 5853525 4 LEZIONE Statistica descrittiva STATISTICA DESCRITTIVA Rilevazione dei dati Rappresentazione

Dettagli

Analisi della varianza

Analisi della varianza Università degli Studi di Padova Facoltà di Medicina e Chirurgia Facoltà di Medicina e Chirurgia - A.A. 2009-10 Scuole di specializzazione Lezioni comuni Disciplina: Statistica Docente: dott.ssa Egle PERISSINOTTO

Dettagli

Lezione 1: Introduzione. Prof. Massimo Aria

Lezione 1: Introduzione. Prof. Massimo Aria Lezione 1: Introduzione Corso di Statistica Facoltà di Economia Università della Basilicata Prof. Massimo Aria aria@unina.it Introduzione La Statistica Il termine statistica deriva, nella lingua italiana,

Dettagli

tabelle grafici misure di

tabelle grafici misure di Statistica Descrittiva descrivere e riassumere un insieme di dati in maniera ordinata tabelle grafici misure di posizione dispersione associazione Misure di posizione Forniscono indicazioni sull ordine

Dettagli

standardizzazione dei punteggi di un test

standardizzazione dei punteggi di un test DIAGNOSTICA PSICOLOGICA lezione! Paola Magnano paola.magnano@unikore.it standardizzazione dei punteggi di un test serve a dare significato ai punteggi che una persona ottiene ad un test, confrontando la

Dettagli

Esplorazione dei dati

Esplorazione dei dati Esplorazione dei dati Introduzione L analisi esplorativa dei dati evidenzia, tramite grafici ed indicatori sintetici, le caratteristiche di ciascun attributo presente in un dataset. Il processo di esplorazione

Dettagli

Il processo inferenziale consente di generalizzare, con un certo grado di sicurezza, i risultati ottenuti osservando uno o più campioni

Il processo inferenziale consente di generalizzare, con un certo grado di sicurezza, i risultati ottenuti osservando uno o più campioni La statistica inferenziale Il processo inferenziale consente di generalizzare, con un certo grado di sicurezza, i risultati ottenuti osservando uno o più campioni E necessario però anche aggiungere con

Dettagli

Questionario 1. Sono assegnati i seguenti dati

Questionario 1. Sono assegnati i seguenti dati Questionario 1. Sono assegnati i seguenti dati 30 30 10 30 50 30 60 60 30 20 20 20 30 20 30 30 20 10 10 40 20 30 10 10 10 30 40 30 20 20 40 40 40 dire se i dati illustrati sono unità statistiche valori

Dettagli

Grafico è bello. Andamento degli iscritti alla classe prima in un istituto superiore. Tabella 1

Grafico è bello. Andamento degli iscritti alla classe prima in un istituto superiore. Tabella 1 Grafico è bello Livello scolare: 1 biennio Abilità interessate Passare dai dati grezzi alle distribuzioni statistiche di frequenze ed alle corrispondenti rappresentazioni grafiche. Contesto Distribuzioni

Dettagli

1 4 Esempio 2. Si determini la distribuzione di probabilità della variabile casuale X = punteggio ottenuto lanciando un dado. Si ha immediatamente:

1 4 Esempio 2. Si determini la distribuzione di probabilità della variabile casuale X = punteggio ottenuto lanciando un dado. Si ha immediatamente: CAPITOLO TERZO VARIABILI CASUALI. Le variabili casuali e la loro distribuzione di probabilità In molte situazioni, dato uno spazio di probabilità S, si è interessati non tanto agli eventi elementari (o

Dettagli

Modelli e Metodi per la Simulazione (MMS)

Modelli e Metodi per la Simulazione (MMS) Modelli e Metodi per la Simulazione (MMS) adacher@dia.uniroma3.it Programma La simulazione ad eventi discreti, è una metodologia fondamentale per la valutazione delle prestazioni di sistemi complessi (di

Dettagli

I principali tipi di grafici

I principali tipi di grafici Home / Come utilizzare i dati statistici / Come presentare i dati: le rappresentazioni grafiche / I principali... Capitolo 4 24/24 Capitolo 4 13/24 I dati dell'istat per le vostre ricerche: un accesso

Dettagli

Corso di Psicometria Progredito

Corso di Psicometria Progredito Corso di Psicometria Progredito 5. La correlazione lineare Gianmarco Altoè Dipartimento di Pedagogia, Psicologia e Filosofia Università di Cagliari, Anno Accademico 2013-2014 Sommario 1 Tipi di relazione

Dettagli

I principali tipi di grafici

I principali tipi di grafici I principali tipi di grafici Esiste una grande varietà di rappresentazioni grafiche. I grafici più semplici e nello stesso tempo più efficaci e comunemente utilizzati sono: I GRAFICI A BARRE I GRAFICI

Dettagli

Corso di laurea in Scienze Motorie Corso di Statistica Docente: Dott.ssa Immacolata Scancarello Lezione 4: Rappresentazioni grafiche

Corso di laurea in Scienze Motorie Corso di Statistica Docente: Dott.ssa Immacolata Scancarello Lezione 4: Rappresentazioni grafiche Corso di laurea in Scienze Motorie Corso di Statistica Docente: Dott.ssa Immacolata Scancarello Lezione 4: Rappresentazioni grafiche 1 Una rappresentazione grafica Per una rappresentazione sintetica della

Dettagli

SCHEDA DIDATTICA N 7

SCHEDA DIDATTICA N 7 FACOLTA DI INGEGNERIA CORSO DI LAUREA IN INGEGNERIA CIVILE CORSO DI IDROLOGIA PROF. PASQUALE VERSACE SCHEDA DIDATTICA N 7 LA DISTRIBUZIONE NORMALE A.A. 01-13 La distribuzione NORMALE Uno dei più importanti

Dettagli

Il campionamento e l inferenza. Il campionamento e l inferenza

Il campionamento e l inferenza. Il campionamento e l inferenza Il campionamento e l inferenza Popolazione Campione Dai dati osservati mediante scelta campionaria si giunge ad affermazioni che riguardano la popolazione da cui essi sono stati prescelti Il campionamento

Dettagli

a.a Esercitazioni di Statistica Medica e Biometria Corsi di Laurea triennali Ostetricia / Infermieristica Pediatrica I anno

a.a Esercitazioni di Statistica Medica e Biometria Corsi di Laurea triennali Ostetricia / Infermieristica Pediatrica I anno a.a. 2007-2008 Esercitazioni di Statistica Medica e Biometria Corsi di Laurea triennali Ostetricia / Infermieristica Pediatrica I anno Dott.ssa Daniela Alessi daniela.alessi@med.unipmn.it 1 Argomenti:

Dettagli

Data set relativo a 40 titolari di esercizi commerciali. Durata del percorso casa lavoro (in minuti) Numero dipendenti che lavorano nel negozio

Data set relativo a 40 titolari di esercizi commerciali. Durata del percorso casa lavoro (in minuti) Numero dipendenti che lavorano nel negozio ESERCITAZIONE 1: VARIABILI E DISTRIBUZIONI 1.TIPOLOGIA DEI DATI 2. CALCOLO DI FREQUENZE 3. RAPPRESENTAZIONE GRAFICA DI UNA VARIABILE A Roma nel 2006 è stata effettuata un indagine, tramite questionario,

Dettagli

Distribuzioni e inferenza statistica

Distribuzioni e inferenza statistica Distribuzioni e inferenza statistica Distribuzioni di probabilità L analisi statistica spesso studia i fenomeni collettivi confrontandoli con modelli teorici di riferimento. Tra di essi, vedremo: la distribuzione

Dettagli

Fonte: Esempio a fini didattici

Fonte: Esempio a fini didattici I principali tipi di grafici Esiste una grande varietà di rappresentazioni grafiche. I grafici più semplici e nello stesso tempo più efficaci e comunemente utilizzati sono: i grafici a barre i grafici

Dettagli

Livello di misura Scala Nominale Scala Ordinale Scala di Rapporti. Scala Nominale

Livello di misura Scala Nominale Scala Ordinale Scala di Rapporti. Scala Nominale Esercitazione Supponiamo che il collettivo che si vuole studiare sia composto da un gruppo di turisti. La seguente tabella raccoglie l osservazione di alcuni caratteri di interesse. Costo Soggetto Titolo

Dettagli

MODELLI QUANTITATIVI. f x r = c

MODELLI QUANTITATIVI. f x r = c MODELLI QUANTITATIVI Qualunque sia il modello di estrazione di regolarità o di conoscenze dai dati empirici, esiste sempre una base statistica da cui occorre partire. Un fenomeno linguistico specifico

Dettagli

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 2

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 2 CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 2 Dott.ssa Antonella Costanzo a.costanzo@unicas.it TIPI DI MEDIA: GEOMETRICA, QUADRATICA, ARMONICA Esercizio 1. Uno scommettitore puntando una somma iniziale

Dettagli

3.1 Classificazione dei fenomeni statistici Questionari e scale di modalità Classificazione delle scale di modalità 17

3.1 Classificazione dei fenomeni statistici Questionari e scale di modalità Classificazione delle scale di modalità 17 C L Autore Ringraziamenti dell Editore Elenco dei simboli e delle abbreviazioni in ordine di apparizione XI XI XIII 1 Introduzione 1 FAQ e qualcos altro, da leggere prima 1.1 Questo è un libro di Statistica

Dettagli

La Statistica: introduzione e approfondimenti

La Statistica: introduzione e approfondimenti La Statistica: introduzione e approfondimenti Definizione di statistica Che cosa è la statistica? La statistica è una disciplina scientifica che trae i suoi risultati dalla raccolta, dall elaborazione

Dettagli

Lezione 2. Statistica. Alfonso Iodice D Enza Università degli studi di Cassino. Lezione 2. A. Iodice. Distribuzioni unitarie

Lezione 2. Statistica. Alfonso Iodice D Enza Università degli studi di Cassino. Lezione 2. A. Iodice. Distribuzioni unitarie Statistica Alfonso Iodice D Enza iodicede@unicas.it Università degli studi di Cassino () Statistica 1 / 39 Outline 1 2 3 4 5 6 7 8 () Statistica 2 / 39 La distribuzione unitaria semplice di un carattere

Dettagli

Il Test di Ipotesi Lezione 5

Il Test di Ipotesi Lezione 5 Last updated May 23, 2016 Il Test di Ipotesi Lezione 5 G. Bacaro Statistica CdL in Scienze e Tecnologie per l'ambiente e la Natura I anno, II semestre Il test di ipotesi Cuore della statistica inferenziale!

Dettagli

Presentazione dell edizione italiana

Presentazione dell edizione italiana 1 Indice generale Presentazione dell edizione italiana Prefazione xi xiii Capitolo 1 Una introduzione alla statistica 1 1.1 Raccolta dei dati e statistica descrittiva... 1 1.2 Inferenza statistica e modelli

Dettagli

Laboratorio di matematica: processamento, interpretazione ed elaborazione dei dati

Laboratorio di matematica: processamento, interpretazione ed elaborazione dei dati Laboratorio di matematica: processamento, interpretazione ed elaborazione dei dati Master per Smart Logistics specialist Roberto Cordone (roberto.cordone@unimi.it) Statistica descrittiva Lodi, giovedì

Dettagli

REGRESSIONE E CORRELAZIONE

REGRESSIONE E CORRELAZIONE REGRESSIONE E CORRELAZIONE Nella Statistica, per studio della connessione si intende la ricerca di eventuali relazioni, di dipendenza ed interdipendenza, intercorrenti tra due variabili statistiche 1.

Dettagli

Con riferimento ai dati riportati nella seguente tabella, indicare la tipologia dei caratteri rilevati.

Con riferimento ai dati riportati nella seguente tabella, indicare la tipologia dei caratteri rilevati. Corso di Laurea INTERFACOLTÀ - Esercitazione di Statistica n 1 ESERCIZIO 1: Con riferimento ai dati riportati nella seguente tabella, indicare la tipologia dei caratteri rilevati. ESERCIZIO 1 Soluzione:

Dettagli

CORSO DI LAUREA IN INFERMIERISTICA. LEZIONI DI STATISTICA Parte II Elaborazione dei dati Variabilità

CORSO DI LAUREA IN INFERMIERISTICA. LEZIONI DI STATISTICA Parte II Elaborazione dei dati Variabilità CORSO DI LAUREA IN INFERMIERISTICA LEZIONI DI STATISTICA Parte II Elaborazione dei dati Variabilità Lezioni di Statistica VARIABILITA Si definisce variabilità la proprietà di alcuni fenomeni di assumere

Dettagli

Esercizi di statistica descrittiva. Giulia Simi (Università di Siena) Istituzione di matematica e fondamenti di Biostatistica Siena / 30

Esercizi di statistica descrittiva. Giulia Simi (Università di Siena) Istituzione di matematica e fondamenti di Biostatistica Siena / 30 Esercizi di statistica descrittiva Giulia Simi (Università di Siena) Istituzione di matematica e fondamenti di Biostatistica Siena 2015-2016 1 / 30 Esercizio 1 Nel rilevare l altezza di un gruppo di reclute,

Dettagli

Fondamenti di Psicometria. La statistica è facile!!! VERIFICA DELLE IPOTESI

Fondamenti di Psicometria. La statistica è facile!!! VERIFICA DELLE IPOTESI Fondamenti di Psicometria La statistica è facile!!! VERIFICA DELLE IPOTESI INFERENZA STATISTICA Teoria della verifica dell ipotesi : si verifica, in termini probabilistici, se una certa affermazione relativa

Dettagli

Statistica a.a Autovalutazione 1

Statistica a.a Autovalutazione 1 Statistica a.a. 016-17 Autovalutazione 1 CORSO: Diritto per le Imprese e le Istituzioni ATTENZIONE: alle domande aperte è stato dato un possibile esempio di risposta, altre parole possono essere usate

Dettagli

SOLUZIONI ESERCITAZIONE NR. 8 Test statistici

SOLUZIONI ESERCITAZIONE NR. 8 Test statistici SOLUZIONI ESERCITAZIONE NR. 8 Test statistici ESERCIZIO nr. 1 Un campione casuale di dieci pazienti di sesso maschile in cura per comportamenti aggressivi nell ambito del contesto familiare è stato classificato

Dettagli

3) In una distribuzione di frequenza si può ottenere più di una moda Vero Falso

3) In una distribuzione di frequenza si può ottenere più di una moda Vero Falso CLM C Verifica in itinere statistica medica 13-01-2014 1) Indicate a quale categoria (Qualitativa, qualitativa ordinabile, quantitativa discreta, quantitativa continua) appartengono le seguenti variabili:

Dettagli

Indicatori compositi. Dott. Cazzaniga Paolo. Dip. di Scienze Umane e Sociali

Indicatori compositi. Dott. Cazzaniga Paolo. Dip. di Scienze Umane e Sociali Dip. di Scienze Umane e Sociali paolo.cazzaniga@unibg.it Indicatori [1/4] Gli indicatori: sintetizzano le caratteristiche di un fenomeno colgono aspetti e problemi del fenomeno che non hanno una immediata

Dettagli

Errori di misura Teoria

Errori di misura Teoria Errori di misura Teoria a misura operazione di misura di una grandezza fisica, anche se eseguita con uno strumento precisissimo e con tecniche e procedimenti accurati, è sempre affetta da errori. Gli errori

Dettagli

La sintesi delle distribuzioni

La sintesi delle distribuzioni Dip. di Scienze Umane e Sociali paolo.cazzaniga@unibg.it Outline 1 Introduzione 2 3 4 Outline 1 Introduzione 2 3 4 Introduzione Analisi descrittiva monovariata: segue la raccolta dei dati e il calcolo

Dettagli

Capitolo 6. La distribuzione normale

Capitolo 6. La distribuzione normale Levine, Krehbiel, Berenson Statistica II ed. 2006 Apogeo Capitolo 6 La distribuzione normale Insegnamento: Statistica Corso di Laurea Triennale in Ingegneria Gestionale Facoltà di Ingegneria, Università

Dettagli

CURRICOLO VERTICALE MATEMATICA RELAZIONI/ DATI E PREVISIONI/ MISURA

CURRICOLO VERTICALE MATEMATICA RELAZIONI/ DATI E PREVISIONI/ MISURA CURRICOLO VERTICALE MATEMATICA / DATI E PREVISIONI/ MISURA SCUOLA PRIMARIA CONOSCENZE (Concetti) ABILITA Classe 1^ - Classificazione - in situazioni concrete, classificare persone, oggetti, figure, numeri

Dettagli

Metodi e tecniche di analisi dei dati nella ricerca psico-educativa Parte III

Metodi e tecniche di analisi dei dati nella ricerca psico-educativa Parte III Laboratorio Metodi e tecniche di analisi dei dati nella ricerca psico-educativa Parte III Laura Palmerio Università Tor Vergata A.A. 2005/2006 MISURAZIONE Misurare le variabili Assegnazione di valori numerici

Dettagli

Capitolo 6 La distribuzione normale

Capitolo 6 La distribuzione normale Levine, Krehbiel, Berenson Statistica Casa editrice: Pearson Capitolo 6 La distribuzione normale Insegnamento: Statistica Corso di Laurea Triennale in Economia Dipartimento di Economia e Management, Università

Dettagli

Le rappresentazioni grafiche

Le rappresentazioni grafiche Le rappresentazioni grafiche Rappresentazione grafica La rappresentazione grafica è un disegno ottenuto facendo corrispondere ai numeri delle tabelle: - enti geometrici elementari (punti, linee, superfici.)

Dettagli

STATISTICA. La Statistica è la scienza che studia i fenomeni collettivi utilizzando metodi matematici.

STATISTICA. La Statistica è la scienza che studia i fenomeni collettivi utilizzando metodi matematici. STATISTICA La Statistica è la scienza che studia i fenomeni collettivi utilizzando metodi matematici. Essa si occupa della tecnica per raccogliere ed elaborare Dati (studenti, abitanti, oggetti, ecc.)

Dettagli

Concetti base - Classificazione dei caratteri. Antonello Maruotti

Concetti base - Classificazione dei caratteri. Antonello Maruotti Concetti base - Classificazione dei caratteri Antonello Maruotti Outline 1 Introduzione 2 Concetti base 3 Distribuzioni statistiche La Statistica Una citazione: Giuseppe Leti La mente umana non sa sintetizzare

Dettagli

Prefazione Ringraziamenti

Prefazione Ringraziamenti Prefazione Ringraziamenti Autori Connect XIII XVII XIX XXI Capitolo 1 La misura dell anima 1 1.1 Misurare in psicologia 1 1.1.1 Peculiarità della misura in psicologia 2 1.1.2 L errore nella misura in psicologia

Dettagli

p = p q OR = p q Misura l esistenza di una malattia. E legato alla incidenza in quanto - Prevalenza = Incidenza x tempo medio di durata della malattia

p = p q OR = p q Misura l esistenza di una malattia. E legato alla incidenza in quanto - Prevalenza = Incidenza x tempo medio di durata della malattia - Prevalenza (prevalence) è una misura della proporzione di persone ammalate in un certo periodo. Può essere misurata in modo puntiforme (point prevalence) oppure su un periodo (period prevalence). - Prevalenza

Dettagli

Sommario. Capitolo 1 I dati e la statistica 1. Capitolo 2 Statistica descrittiva: tabelle e rappresentazioni grafiche 25

Sommario. Capitolo 1 I dati e la statistica 1. Capitolo 2 Statistica descrittiva: tabelle e rappresentazioni grafiche 25 Sommario Presentazione dell edizione italiana Prefazione xv xiii Capitolo 1 I dati e la statistica 1 Statistica in pratica: BusinessWeek 1 1.1 Le applicazioni in ambito aziendale ed economico 3 Contabilità

Dettagli

SCUOLA PRIMARIA MATEMATICA (Classe 1ª)

SCUOLA PRIMARIA MATEMATICA (Classe 1ª) SCUOLA PRIMARIA MATEMATICA (Classe 1ª) Operare con i numeri nel calcolo scritto e mentale Leggere e scrivere numeri naturali in cifre e lettere. Contare in senso progressivo e regressivo. Raggruppare,

Dettagli

ELABORAZIONE ED ANALISI STATISTICA DEI DATI

ELABORAZIONE ED ANALISI STATISTICA DEI DATI Università degli studi di Padova Dipartimento Territorio e Sistemi Agro-Forestali Corso di laurea in Tecnologie Forestali ed Ambientali ELABORAZIONE ED ANALISI STATISTICA DEI DATI Sergio Rossi Esercitazioni

Dettagli

UNIVERSITÀ DEGLI STUDI DI FERRARA

UNIVERSITÀ DEGLI STUDI DI FERRARA UNIVERSITÀ DEGLI STUDI DI FERRARA Anno accademico 2015-2016 Corso di Pedagogia sperimentale Lezione 11/11/2015 Loredana La Vecchia Schema di riferimento Come si valuta? Metodi Quantitativo -Statistico

Dettagli

DISCIPLINA: MATEMATICA CLASSE: QUARTA

DISCIPLINA: MATEMATICA CLASSE: QUARTA I NUMERI l'alunno sviluppa un atteggiamento positivo rispetto alla matematica anche grazie a molte esperienze in contesti significativi, che gli hanno fatto intuire come gli strumenti matematici che ha

Dettagli

1/55. Statistica descrittiva

1/55. Statistica descrittiva 1/55 Statistica descrittiva Organizzare e rappresentare i dati I dati vanno raccolti, analizzati ed elaborati con le tecniche appropriate (organizzazione dei dati). I dati vanno poi interpretati e valutati

Dettagli

Note sulla probabilità

Note sulla probabilità Note sulla probabilità Maurizio Loreti Dipartimento di Fisica Università degli Studi di Padova Anno Accademico 2002 03 1 La distribuzione del χ 2 0.6 0.5 N=1 N=2 N=3 N=5 N=10 0.4 0.3 0.2 0.1 0 0 5 10 15

Dettagli

Lezione n. 1 _Complementi di matematica

Lezione n. 1 _Complementi di matematica Lezione n. 1 _Complementi di matematica INTRODUZIONE ALLA STATISTICA La statistica è una disciplina che si occupa di fenomeni collettivi ( cioè fenomeni in cui sono coinvolti più individui o elementi )

Dettagli

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 3

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 3 CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 3 Dott.ssa Antonella Costanzo a.costanzo@unicas.it Esercizio 1. Sintesi a cinque e misure di variabilità rispetto ad un centro Una catena di fast-food ha selezionato

Dettagli

Presentazione dell edizione italiana Prefazione xix Ringraziamenti xxii Glossario dei simboli xxiii

Presentazione dell edizione italiana Prefazione xix Ringraziamenti xxii Glossario dei simboli xxiii Sommario Presentazione dell edizione italiana Prefazione xix Ringraziamenti xxii Glossario dei simboli xxiii xv Parte I Statistica descrittiva 1 Capitolo 1 Introduzione 3 Perché studiare statistica? 4

Dettagli

Statistica Un Esempio

Statistica Un Esempio Statistica Un Esempio Un indagine sul peso, su un campione di n = 100 studenti, ha prodotto il seguente risultato. I pesi p sono espressi in Kg e sono stati raggruppati in cinque classi di peso. classe

Dettagli

Tutorato di Chimica Analitica 2016/2017

Tutorato di Chimica Analitica 2016/2017 Tutorato di Chimica Analitica 2016/2017 Friendly reminder La notazione scientifica Modo per indicare un risultato con numerose cifre decimali come prodotto di una potenza di 10 esempio Cifre significative

Dettagli

Psicometria (8CFU) SCALE DI MISURA

Psicometria (8CFU) SCALE DI MISURA SCALE DI MISURA SCALE DI MISURA Esistono diversi livelli di misurazione corrispondenti alle diverse proprietà dei numeri Scala Nominale Scala Ordinale Scala a Intervalli Scala a Rapporti SCALA NOMINALE

Dettagli

Capitolo 5 Variabili aleatorie discrete notevoli Insegnamento: Statistica Applicata Corso di Laurea in "Scienze e Tecnologie Alimentari"

Capitolo 5 Variabili aleatorie discrete notevoli Insegnamento: Statistica Applicata Corso di Laurea in Scienze e Tecnologie Alimentari Levine, Krehbiel, Berenson Statistica Capitolo 5 Variabili aleatorie discrete notevoli Insegnamento: Statistica Applicata Corso di Laurea in "Scienze e Tecnologie Alimentari" Unità Integrata Organizzativa

Dettagli

Istituzioni di Statistica

Istituzioni di Statistica Istituzioni di Statistica CORSO DI LAUREA IN ECONOMIA DEL COMMERCIO INTERNAZIONALE CORSO DI LAUREA IN ECONOMIA E AMMINISTRAZIONE DELLE IMPRESE A.A. 2007/2008 DOCENTE: Marco Minozzo PROGRAMMA - STATISTICA

Dettagli

ESERCIZI DI RIEPILOGO 1

ESERCIZI DI RIEPILOGO 1 ESERCIZI DI RIEPILOGO 1 ESERCIZIO 1 La tabella seguente contiene la distribuzione di frequenza della variabile X = età (misurata in anni) per un campione casuale di bambini: x i 4.6 8 3.2 3 5.4 6 2.6 2

Dettagli

ISTITUTO OMNICOMPRENSIVO ALTO ORVIETANO FABRO PROGRAMMAZIONE ANNUALE MATEMATICA CLASSE II SECONDARIA I GRADO

ISTITUTO OMNICOMPRENSIVO ALTO ORVIETANO FABRO PROGRAMMAZIONE ANNUALE MATEMATICA CLASSE II SECONDARIA I GRADO ISTITUTO OMNICOMPRENSIVO ALTO ORVIETANO FABRO PROGRAMMAZIONE ANNUALE MATEMATICA CLASSE II SECONDARIA I GRADO MACRO INDICA TORI OBIETTIVI DI APPRENDIMENTO Curricolo verticale OBIETTIVI DI APPRENDIMENTO

Dettagli

FENOMENI CASUALI. fenomeni casuali

FENOMENI CASUALI. fenomeni casuali PROBABILITÀ 94 FENOMENI CASUALI La probabilità si occupa di fenomeni casuali fenomeni di cui, a priori, non si sa quale esito si verificherà. Esempio Lancio di una moneta Testa o Croce? 95 DEFINIZIONI

Dettagli

Questi appunti costituiscono soltanto una traccia sintetica del Corso di Laboratorio di Fisica, a prescindere dalle opportune spiegazioni e dai

Questi appunti costituiscono soltanto una traccia sintetica del Corso di Laboratorio di Fisica, a prescindere dalle opportune spiegazioni e dai Questi appunti costituiscono soltanto una traccia sintetica del Corso di Laboratorio di Fisica, a prescindere dalle opportune spiegazioni e dai necessari chiarimenti forniti a lezione. 1 MISURA DI UNA

Dettagli

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 2

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 2 CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 2 Dott.ssa Antonella Costanzo a.costanzo@unicas.it Indici di posizione variabilità e forma per caratteri qualitativi Il seguente data set riporta la rilevazione

Dettagli