Richiami di statistica

Documenti analoghi
Università del Piemonte Orientale Specializzazioni di area sanitaria Statistica Medica

Statistica multivariata Donata Rodi 17/10/2016

Σ (x i - x) 2 = Σ x i 2 - (Σ x i ) 2 / n Σ (y i - y) 2 = Σ y i 2 - (Σ y i ) 2 / n. 13. Regressione lineare parametrica

Prefazione Ringraziamenti dell'editore Il sito web dedicato al libro Test online: la piattaforma McGraw-Hill Education Guida alla lettura

Teoria e tecniche dei test

Esercitazione del

Ogni misura è composta di almeno tre dati: un numero, un'unità di misura, un'incertezza.

PROCEDURE/TECNICHE DI ANALISI / MISURE DI ASSOCIAZIONE A) ANALISI DELLA VARIANZA

Capitolo 8. Intervalli di confidenza. Statistica. Levine, Krehbiel, Berenson. Casa editrice: Pearson. Insegnamento: Statistica

Distribuzioni campionarie

Metodologia Sperimentale Agronomica / Metodi Statistici per la Ricerca Ambientale

CAMPIONAMENTO - ALCUNI TERMINI CHIAVE

L indagine campionaria Lezione 3

Lezioni di Statistica del 15 e 18 aprile Docente: Massimo Cristallo

SCOPO DELL ANALISI DI CORRELAZIONE

3.1 Classificazione dei fenomeni statistici Questionari e scale di modalità Classificazione delle scale di modalità 17

REGRESSIONE E CORRELAZIONE

Statistica descrittiva e statistica inferenziale

Teoria e tecniche dei test. Concetti di base

Il campionamento e l inferenza. Il campionamento e l inferenza

Intervallo di fiducia del coefficiente angolare e dell intercetta L intervallo di fiducia del coefficiente angolare (b 1 ) è dato da:

Associazione tra caratteri quantitativi: gli indici di correlazione

Il Campionamento Statistico

standardizzazione dei punteggi di un test

Rappresentazione di Dati: Scala lineare Scala logaritmica. Grafici Lin Lin Grafici Lin Log Grafici Log Log

Lezione 10: Interpolazione lineare Corso di Statistica Facoltà di Economia Università della Basilicata. Prof. Massimo Aria

Corso integrato di informatica, statistica e analisi dei dati sperimentali Esercitazione VII

Lezione 4 a - Misure di dispersione o di variabilità

CHEMIOMETRIA. CONFRONTO CON VALORE ATTESO (test d ipotesi) CONFRONTO DI VALORI MISURATI (test d ipotesi) CONFRONTO DI RIPRODUCIBILITA (test d ipotesi)

Statistica. Campione

METODO DEI MINIMI QUADRATI

Giorno n. clienti di attesa

Statistica di base per l analisi socio-economica

Scale Logaritmiche. Matematica con Elementi di Statistica a.a. 2015/16

zio L'INDAGINE CAMPIONARIA Metodi, disegni e tecniche di campionamento

Geometria analitica di base. Equazioni di primo grado nel piano cartesiano Funzioni quadratiche Funzioni a tratti Funzioni di proporzionalità inversa

le scale di misura scala nominale scala ordinale DIAGNOSTICA PSICOLOGICA lezione si basano su tre elementi:

Laboratorio di Fisica

Statistica Inferenziale

Significatività ed analisi degli errori

Distribuzione Gaussiana - Facciamo un riassunto -

Distribuzioni e inferenza statistica

STATISTICA (2) ESERCITAZIONE Dott.ssa Antonella Costanzo

L errore percentuale di una misura è l errore relativo moltiplicato per 100 ed espresso in percentuale. Si indica con e p e risulta: e ( e 100)%

CON O SENZA REIMMISSIONE

DISTRIBUZIONE CAMPIONARIA CONGIUNTA

Correlazione e regressione

Campionamento La statistica media campionaria e la sua distribuzione. Paola Giacomello Dip. Scienze Sociali ed Economiche Uniroma1

Capitolo 2 Le misure delle grandezze fisiche

Geometria analitica di base (seconda parte)

PRINCIPI DI EPIDEMIOLOGIA E SORVEGLIANZA Orvieto, 22 marzo Maria Miceli

Sommario. Capitolo 1 I dati e la statistica 1. Capitolo 2 Statistica descrittiva: tabelle e rappresentazioni grafiche 25

Indagine statistica. Indagine Totale Indagine Campionaria Fasi dell indagine

3. Vettori, Spazi Vettoriali e Matrici

Distribuzione Normale

GENETICA QUANTITATIVA

RELAZIONE FINALE DEL DOCENTE. Materia: MATEMATICA E COMPLEMENTI DI MATEMATICA Classe 4BPT A. S. 2015/2016

Esercitazioni di Statistica

Proprietà della varianza

CAPITOLO 11 ANALISI DI REGRESSIONE

Esercizio 1. Stima intervallare: IC per la media incognita (varianza ignota)

La retta di regressione

UNITÀ DIDATTICA 2 LE FUNZIONI

Metodi statistici per l economia (Prof. Capitanio) Slide n. 10. Materiale di supporto per le lezioni. Non sostituisce il libro di testo

Andrea Manganaro. Tecniche di campionamento a confronto per i sistemi di audit regionali

Trasformazioni Logaritmiche

PIANO CARTESIANO e RETTE classi 2 A/D 2009/2010

0 altimenti 1 soggetto trova lavoroentro 6 mesi}

ANALISI DELLE CORRISPONDENZE MULTIPLE (ACM)

La statistica. Elaborazione e rappresentazione dei dati Gli indicatori statistici. Prof. Giuseppe Carucci

TOPOGRAFIA 2013/2014. Prof. Francesco-Gaspare Caputo

a rappresenta l intercetta o termine noto della retta, ossia il valore della y quando x = 0.

Concetti principale della lezione precedente

ITCS Erasmo da Rotterdam. Anno Scolastico 2014/2015. CLASSE 4^ M Costruzioni, ambiente e territorio

Statistica. Alfonso Iodice D Enza

Capitolo 12. Suggerimenti agli esercizi a cura di Elena Siletti. Esercizio 12.1: Suggerimento

1 4 Esempio 2. Si determini la distribuzione di probabilità della variabile casuale X = punteggio ottenuto lanciando un dado. Si ha immediatamente:

Campionamento La statistica media campionaria e la sua distribuzione

Corso PAS Misure, strumenti ed Errori di misura. Didattica del Laboratorio di Fisica F. Garufi 2014

VALIDAZIONE DEI METODI RADIOCHIMICI. Analisi di alcuni aspetti: 1. Taratura. 2. Ripetibilità. Dott. Maurizio Bettinelli.

LABORATORIO DI CIRCUITI ELETTRICI Nozioni generali e guida agli esperimenti. Rappresentazione grafica dei risultati sperimentali

LE DISTRIBUZIONI CAMPIONARIE

LEZIONI IN LABORATORIO Corso di MARKETING L. Baldi Università degli Studi di Milano. Strumenti statistici in Excell

Quadro riassuntivo di geometria analitica

Geometria Analitica Domande e Risposte

FACOLTÀ DI SOCIOLOGIA CdL in SCIENZE DELL ORGANIZZAZIONE ESAME di STATISTICA 21/09/2011

UNITÀ DIDATTICA 5 LA RETTA

Laboratorio di Didattica di elaborazione dati 5 STIMA PUNTUALE DEI PARAMETRI. x i. SE = n.

STATISTICA ESERCITAZIONE

Corso di Psicometria Progredito

Caratterizzazione dei consumi energetici (parte 3)

Transcript:

Esame di Gestione delle Foreste e dei Parchi, insegnamento di Misure e tecnologie forestali (parte di misure) AA 2013-2014 Una parte del materiale riprodotto è relativo al corso di "Dendrometria e Selvicoltura" del Prof. Carlo Urbinati, SFA UNIVPM-Ancona Dott. Rodolfo Picchio 7 cfu 56 ore di lezioni frontali Dipartimento di Scienze e Tecnologie per l Agricoltura la Natura le Foreste e l Energia e-mail: r.picchio@unitus.it La descrizione delle popolazioni 1

La descrizione delle popolazioni La descrizione delle popolazioni 2

La descrizione delle popolazioni Media = 2 Varianza = 1,33 Media = 2 Varianza = 4 La descrizione delle popolazioni 3

Correlazione e regressione La costruzione della curva ipsometrica implica la conoscenza della correlazione e della regressione!!!tecniche per analizzare la relazione tra 2 o più variabili continue (casuali) Correlazione: associazione lineare tra 2 variabili. La forza dell associazione è data dal coefficiente di correlazione. Regressione: dipendenza di una variabile (dipendente) da un altra variabile (indipendente). Graficamente la variabile dipendente (y, ordinate) è quella oggetto di stima mentre la variabile indipendente è rappresentata sull asse delle x (ascisse) Correlazione e regressione IN ALTRI TERMINI Correlazione: analizza se esiste una relazione tra due variabili (come e quanto due variabili variano insieme) Regressione: analizza la forma della relazione tra variabili 4

Correlazione Correlazione e regressione Per correlazione si intende una relazione tra due variabili casuali tale che a ciascun valore della prima variabile corrisponda con una certa regolarità un valore della seconda. Risponde alla domanda: esiste un associazione lineare tra le variabili? Sostanzialmente è rappresenta la tendenza di una variabile a variare linearmente in funzione di un'altra. 5

Correlazione e regressione PROCEDIMENTO 1. Dimensionamento del campione Variabilità di x Variabilità di y 2. Analisi dei dati riportati su assi cartesiani Esame della nebulosa Andamento 1) Lineare 2) Curvilineo 3. Tipo e grado di correlazione Coefficiente di Correlazione Coefficiente di correlazione = espressione numerica del grado e del tipo di correlazione Con: r = -1 max corr. inversa r = +1 max corr. diretta r = 0 corr. nulla La significatività di r è verificata con il Test di Pearson (r²) = R= coefficiente di determinazione 6

Il coefficiente di correlazione Il coefficiente r riflette la dispersione e la direzione della relazione lineare (in alto) ma non la sua pendenza (in mezzo) né la non linearità Caratteristiche principali 1. è a-dimensionale 2. varia da 1 a + 1 3. è positivo quando i valori delle variabili crescono insieme 4. è negativo quando i valori di una variabile crescono al decrescere dei valori dell altra 5. non è influenzato dalle unità di misure 6. ci consente di verificare l ipotesi che r sia zero, cioè se l associazione fra le variabili possa essere dovuta al caso. 7

Regressione Accertata la correlazione tra due o più variabili si procede alla compensazione dei dati, ovvero la determinazione della relazione funzionale tra x e y grafica = dati su sistema assi cartesiani (nebulosa, spezzata, retta) N.B.: metodo soggettivo, non stima la qualità della relazione analitica = metodo dei minimi quadrati; N.B.:oggettivo; stima la qualità della relazione I modelli perequativi Lineari (retta) Curvilinei (Parabola, Iperbole, Logaritmica) La regressione semplice considera una sola variabile indipendente, la regressione multipla considera due o più variabili indipendenti Casi di dipendenza funzionale di due o più variabili in Dendrometria 1. H delle piante in funzione del diametro a 1.30 m (curva ipsometrica) 2. Volume mediamente ritraibile dal fusto di una pianta in piedi in funzione del diametro a 1.30 m (tavola di cubatura ad una entrata) 3. Volume mediamente ritraibile dal fusto di una pianta in funzione del diametro a 1.30 m e dell altezza (tavola di cubatura a doppia entrata) 4. Diametro a 1.30 m in funzione del diametro alla base (ceppaia) 5. Tavole alsometriche o tavole di produzione 8

Esempi: 1. H delle piante in funzione del diametro a 1.30 m (curva ipsometrica) 2. Volume mediamente ritraibile dal fusto di una pianta in piedi in funzione del diametro a 1.30 m (tavola di cubatura ad una entrata) Regressione mediante una retta (regressione lineare semplice) con la regressione stimiamo i valori a e b b rappresenta il coefficiente angolare della retta o inclinazione in altre parole b (detto anche coefficiente di regressione lineare) esprime la variazione di unità di y sulla variazione delle corrispondenti unità di x calcolo dell intercetta dell asse y espressa da a: noto b e definite le coordinate (x1 e y1) di un punto, dall equazione canonica della retta 9

Regressione Regressione semplice y = f(x) y = a + bx a = Intercetta (ordinata all origine) b = coefficiente angolare (tg) Nebulosa e compensazione grafica y = f(x) y = a + bx a = Intercetta (ordinata all origine) b = coefficiente angolare (tgα) Regressione 10

Regressione Perché è importante: 1) Ci permette di costruire un modello funzionale della risposta di una variabile (effetto) ad un altra (causa) 2) Conoscendo la forma della relazione funzionale tra variabile indipendente e dipendente è possibile stimare il valore della variabile dipendente conoscendo quello della variabile indipendente (interpolazione) solo nel range di dati X usato per la regressione (non è molto corretto estrapolare, almeno in alcuni casi. Es. gli alberi non crescono all infinito!!!) Regressione Dall Esempio precedente: Coefficiente di determinazione r 2 = (R) : proporzione di variazione di una variabile che è spiegata dall altra: Esempio se : R= 0.7523 ; r = 0.87 11

Le più usate parabola Y = ax²+bx +c potenza Y = ax b logaritmica Log (Y) = a + b Log (X) semilogaritmica Y = a + b Ln(X) Schemi di campionamento statistico Permettono una stima delle incertezze che accompagnano le informazioni prodotte. L'insieme delle unità di campionamento deve essere statisticamente rappresentativo della popolazione. Estrazione del campione soggettiva campionamento statistico (su basi oggettive) intervallo di confidenza della stima 24 12

Intervallo di confidenza di una stima o intervallo fiduciario: intervallo all interno del quale si ha una data probabilità che ricada il valore vero del parametro statistico considerato. La probabilità è in genere espressa in termini di sicurezza statistica. A parità di sicurezza statistica, tanto maggiore è l intervallo di confidenza tanto maggiore è l errore di campionamento, e tanto minore è la precisione statistica della stima. Campione: insieme di n unità estratto da una data popolazione (la collettività oggetto di indagine) al fine di rappresentare la popolazione stessa. Il rapporto tra la numerosità n delle unità campionarie e la numerosità complessiva N degli elementi della popolazione è detto frazione di campionamento (= n/n). 25 Attributo: variabile per la quale, mediante campionamento, si inferisce uno o più parametri statistici (media, varianza, valore totale,...) riferiti all intera popolazione indagata. Disegno campionario: regole per l estrazione delle unità campionarie dalla popolazione; algoritmi di determinazione degli stimatori richiesti; definizione del numero di unità campionarie necessario al fine di conseguire i prefissati margini di attendibilità delle stime. 26 13

Unità campionarie all interno di un soprassuolo forestale da inventariare: piccole aree: i rilevamenti campionari sono condotti tramite aree di saggio; punti: i rilevamenti campionari sono generalmente condotti tramite prove di numerazione angolare. 27 Campionamento casuale L estrazione delle unità campionarie dalla popolazione avviene strettamente secondo le leggi del caso. Le unità campionarie sono scelte in modo indipendente l'una dall'altra cosicchè l estrazione di una data unità non dà alcuna indicazione sull identità di qualunque altra unità campionaria estratta. La localizzazione delle unità campionarie con criteri di pura casualità, nella maggior parte dei casi, rende il rilevamento campionario eccessivamente oneroso. 28 14

Campionamento sistematico Le unità campionarie sono selezionate secondo uno schema preordinato: l estrazione della prima unità campionaria, che peraltro dovrebbe sempre avvenire in modo casuale, determina automaticamente la dislocazione di tutte le altre unità incluse nel campione. Gli schemi sistematici sono configurati a reticolo con maglie quadrate (o, più raramente, rettangolari). Nel caso di territori non troppo vasti (a esempio, inventari a livello aziendale), per la loro implementazione viene generalmente utilizzato il metodo delle linee di percorrenza orientate. 29 Metodo delle linee di percorrenza orientate: (1) determinazione delle dimensioni della maglia del reticolo in base alla superficie del soprassuolo e al numero di unità campionarie che si intende realizzare; (2) individuazione dell'orientamento delle linee parallele di percorrenza (orientamento geomagnetico, compartimentale, fisiografico, topografico per linee di quota costante); (3) individuazione del punto di partenza, nei pressi di un elemento facilmente rintracciabile sul terreno; 30 15

(4) esecuzione del percorso sulla prima linea di percorrenza, con determinazione delle distanze sulla linea a passi o rotella metrica (e altimetro) o con GPS; (5) ripetizione della medesima procedura per le altre linee di percorrenza (l interdistanza tra linee è determinata preferibilmente con rotella metrica e altimetro o con GPS), prestando particolare attenzione all'individuazione dei singoli punti iniziali. 31 Evitare condizionamenti soggettivi nella scelta del singolo punto di sondaggio. Per maggior cautela può essere utile che una volta determinato speditivamente ciascun singolo punto di sondaggio, si percorrano altri 4 metri misurati con rotella in una direzione scelta in modo casuale misurando con accuratezza quest ultima distanza tramite nastro metrico (avendo poi cura, una volta finiti i rilievi dendrometrici, di tornare alla posizione preliminare del punto di sondaggio per riprendere l allineamento di percorrenza). 32 16

Non esiste un metodo esatto per quantificare l'errore di campionamento connesso a una stima ottenuta con un disegno inventariale su base sistematica. Margini di accuratezza delle stime migliori di quanto si possa ottenere con il campionamento casuale. I tempi e i costi di realizzazione sono generalmente minori nel campionamento sistematico, mentre l espressione rigorosamente esatta dell'intervallo fiduciario della stima operata è un requisito proprio unicamente del campionamento casuale. 33 Suddivisione della popolazione in sottopopolazioni per aumentare l efficienza del rilevamento campionario: 1) campionamento stratificato, 2) campionamento per gruppi, 3) campionamento a due stadi. I criteri di suddivisione della popolazione in sottopopolazioni devono essere definiti in forma chiara e dettagliata. Nell inventariazione delle risorse forestali, le suddivisioni sono generalmente stabilite in base a: limiti amministrativi, delimitazioni geografiche naturali (a esempio, bacini idrografici), tipi fisionomici, forme di governo, ecc. 34 17

(A) campionamento casuale semplice; (B) campionamento sistematico semplice; (C) campionamento casuale stratificato; (D) campionamento casuale per gruppi; (E) campionamento casuale a due stadi. 35 La scelta tra gli schemi di campionamento dipende dal criterio adottato nella suddivisione della popolazione e dal tipo di sottopopolazioni ottenute, in relazione alle caratteristiche della popolazione indagata e agli obiettivi dell inventario: il campionamento stratificato è generalmente il metodo di campionamento più efficiente quando si ha un numero ridotto di sottopopolazioni, relativamente grandi e omogenee al loro interno; 36 18

il campionamento per gruppi risulta efficiente quando il numero di sottopopolazioni è relativamente grande, le sottopopolazioni sono piccole ed eterogenee al loro interno e i costi per lo spostamento da una sottopopolazione all altra sono relativamente alti se comparati ai costi di spostamento entro le sottopopolazioni e ai costi di rilievo nelle singole unità campionarie; il campionamento a due stadi risulta vantaggioso quando si ha un gran numero di sottopopolazioni, relativamente grandi e non eccessivamente eterogenee al loro interno. 37 Dimensionamento della numerosità del fattore A parità di altri fattori, tanto più il campione è numeroso tanto maggiore è la precisione di stima, cioè tanto minore è il cosiddetto errore di campionamento. Per stabilire l intensità del campionamento occorre disporre di informazioni preliminari su: variabilità degli attributi oggetto di interesse nella popolazione indagata; valore massimo tollerato dell errore di campionamento; livello di sicurezza statistica con cui si accettano le stime prodotte. 38 19

Dimensionamento della numerosità del campione nel caso di inventari forestali in cui debbano essere rilevati più attributi: i. rispetto all attributo che mostra variabilità massima tra tutti quelli di rilevante interesse (sovradimensionamento del campione per tutti gli altri attributi e aumento dei costi del rilievo); ii. rispetto all attributo considerato più importante in assoluto (ciò conduce al sovracampionamento di alcuni attributi a variabilità relativamente bassa e al contemporaneo sottocampionamento degli altri); iii. rispetto alla varianza di tutti gli attributi considerati, impiegando un idonea funzione di ottimizzazione oppure, più semplicemente, mediando i singoli valori di numerosità ottenuti rispetto a ciascuno degli attributi considerati (questa soluzione presuppone che gli attributi siano tutti rilevabili sulle stesse unità campionarie). 39 Valore massimo tollerato dell errore di campionamento: tra 5 e 15-20% Nel caso di attributi ad alta variabilità: può essere più opportuno rinunciare al campionamento e procedere al censimento completo delle popolazioni, accontentarsi di livelli di precisione inferiori, adottare schemi di campionamento più efficienti. 40 20

Livello di sicurezza statistica pari o non inferiori al 90-95% Stima di massa legnosa Soprassuolo o particella forestale Compresa o grande proprietà Livello di sicurezza statistica <= 90% >= 15-20% <= 95% >= 10 Soglia percentuale massima tollerata dell errore di campionamento 41 Nel caso di un campionamento casuale o sistematico semplice in grandi popolazioni, il numero minimo n 0 di unità campionarie necessario per contenere probabilisticamente l errore di campionamento della media entro una data soglia massima tollerata è pari a: 2 t CV n0 ecp 2 0 2 dove: CV = valore presunto del coefficiente di variazione, espresso in termini percentuali (= ), dell attributo oggetto di inventario nella popolazione considerata; ecp 0 = errore percentuale della media massimo tollerato; t = valore critico del t di Student, corrispondente al prescelto livello di sicurezza statistica e agli appropriati gradi di libertà della stima. 42 21