Università degli Studi di Napoli Federico II

Dimensione: px
Iniziare la visualizzazioe della pagina:

Download "Università degli Studi di Napoli Federico II"

Transcript

1 Università degli Studi di apoli Federico II Scuola Politecnica e delle Scienze di Base Area Didattica Scienze MM.FF.. Master di I Livello in Tecnologie per il CAlcolo Scientifico ad Alte Prestazioni - CASAP Tesi di Master Analisi comparata sull'imputazione di dati incompleti non normali Relatori Prof. Roberto Bellotti Dott.ssa Sabina Tangaro Anno Accademico Candidato Bernardino Spisso matr. Z62/000010

2 Indice generale Introduzione Elementi di analisi statistica Elementi di teoria della probabilità Definizioni fondamentali Probabilità condizionata e probabilità composta Il teorema di Bayes Definizione assiomatica La convergenza statistica Stime di tendenza centrale Moda e mediana La media aritmetica Stime di dispersione Varianza e deviazione standard Densità di probabilità Valore d'aspettazione I momenti Distribuzioni notevoli Distribuzione ormale Distribuzione γ Distribuzione GEV Distribuzione χ Teorema del limite centrale Stime di parametri...30 Pagina 2 di 73

3 2 Introduzione all'imputazione singola Il concetto di non risposta Meccanismo generatore dei dati mancanti Imputazione dei dati mancanti Metodi deduttivi Imputazione con media campionaria Imputazione con regressione predittiva Metodi stocastici Imputazione con regressione casuale Imputazione tramite algoritmo EM Indici numerici Analisi di un data-set non-normale Descrizione del problema Simulazione delle mancate risposte parziali Imputazione sui dati simulati Imputazione tramite media campionaria Imputazione tramite media campionaria regressione deterministica Imputazione tramite regressione stocastica Imputazione tramite stima a massima verosimiglianza Stima a massima verosimiglianza dell'indice HCI Stima a massima verosimiglianza dell'indice OSI Stima a massima verosimiglianza dell'indice II Imputazione dei dati mancanti Descrizione dei risultati...58 Pagina 3 di 73

4 4.1 Metodi di analisi Visualizzazione grafica dei risultati I caso:13 dati mancanti II caso:49 dati mancanti Valutazioni tramite indici numerici I caso:13 dati mancanti II caso:49 dati mancanti Valutazioni incrociate Conclusioni...71 Pagina 4 di 73

5 Introduzione Dalle indagini e gli studi longitudinali nelle scienze sociali e comportamentali vengono generalmente prodotti dati sperimentali non completamente esaustivi; l'esempio tipico è la mancata risposta di un soggetto ad alcune domande di un questionario, in questi casi si parla di dati mancanti. Di grande importanza è quindi il problema della integrazione (imputazione) di tali dati in cui la media e la struttura di covarianza svolgono un ruolo importante nell'analisi dei dati mancanti. el corso degli anni sono stati sviluppati svariati metodi. Un metodo molto utilizzato per tale analisi è basato sulla massima verosimiglianza: un approccio in due fasi sulla base di stime sui parametri della distribuzione dei dati completi ottenuti utilizzando l'algoritmo EM (Expectation-Maximization). Tuttavia, le ipotesi tipiche in questi metodi sono che i dati abbiano un meccanismo di non risposta ignorabile e la normalità. In generale non si può assumere per certo che i dati sperimentali nel campo delle scienze sociali e comportamentali siano a priori normali (gaussiani). Lo scopo di questo lavoro è stato l'analisi imputazionale di dati sociali incompleti, volutamente non normali, utilizzando metodi implementati in strumenti software di uso comune (come SAS, Matlab, ecc...). Verranno utilizzati tali metodi per imputare dei dati composti da tre indici sociali II, OSI, HCI distribuiti rispettivamente secondo una distribuzione gaussiana, gamma e una GEV. Tramite un indice composito di verifica (EGDI) ed altri indici statistici appropriati, verranno comparati i risultati delle imputazioni ottenute utilizzando i diversi metodi considerati. Il lavoro è diviso in due parti fondamentali: una prima parte teorica (cap1 e cap2) e una seconda parte Pagina 5 di 73

6 in cui sono descritte le imputazioni vere è proprie (cap3 e cap4). Il primo capitolo è dedicato ad una introduzione teorica dell'analisi statistica in modo tale da fissare le notazioni e l'impalcatura teorica. el secondo capitolo verrà esposto il concetto d'imputazione di un set di dati non completo, inoltre verranno mostrati e giustificati matematicamente i metodi d'imputazione utilizzati nel seguito. Il terzo capitolo si occupa dell'implementazione pratica dei vari metodi d'imputazione; verrà decritto il problema sociale e mostrati i risultati di ogni metodo. Infine, nel capitolo quarto verranno discusse le conclusioni ottenute mettendo a confronto i vari metodi d'imputazione. Pagina 6 di 73

7 1 1.1 Elementi di analisi statistica Elementi di teoria della probabilità Una possibile definizione di teoria della probabilità [1] [2] può essere lo studio dei fenomeni aleatori intesi come fenomeni ripetibili teoricamente infinite volte, i quali possono possono verificarsi in più configurazioni. Tali configurazioni sono mutualmente esclusive e non prevedibili singolarmente. Esempi classici di fenomeni casuali sono il lancio di una moneta o di un dado. L'insieme di tutte le configurazioni possibili con cui un fenomeno casuale si può verificare costituisce lo spazio dei risultati S, tale spazio può avere cardinalità finita o infinita. L insieme di tutti i possibili eventi, usualmente chiamato insieme o spazio degli eventi E, è dunque l insieme di tutti i sottoinsiemi di S compresi l insieme vuoto (evento impossibile) ed S stesso (evento certo). Una variabile casuale definita su S è una legge di corrispondenza che permetta di associare ad ogni configurazione di un fenomeno casuale, scelta nell insieme S, uno ed un solo numero reale x. Ovviamente, anche le variabili casuali possono assumere cardinalità finita od infinita e possono essere discrete o continue. Un importante applicazione delle variabili casuali è la misura di una grandezza fisica: infatti una misura può essere considerata come un evento casuale ed il risultato numerico che da tale misura è una variabile casuale che possiamo associare al fenomeno fisico stesso. Pagina 7 di 73

8 1.1.1 Definizioni fondamentali Una definizione più formale del concetto di probabilità è la seguente: si definisce come probabilità di un evento casuale nel caso si eventi equiprobabili il rapporto tra il numero di casi favorevoli al verificarsi dell evento preso in considerazione ed il numero totale di casi possibili. Da tale definizione deriva il seguente corollario: la probabilità di un evento casuale può essere espressa da un numero compreso tra zero e uno, il quale assume il valore nullo per gli eventi impossibili ed uno per quelli certi. Questa definizione classica permette di calcolare le probabilità di semplici eventi casuali che possano verificarsi in un numero finito di configurazione equiprobabili. onostante ciò tale definizione cela una tautologia, infatti per definire la probabilità presuppone che si sia già in grado di valutare l equiprobabilità delle varie configurazioni con cui può manifestarsi l evento considerato. el caso di una variabile casuale continua, questa tautologia si rispecchia nell indeterminazione di quale tra le variabili topologicamente equivalenti sia quella equiprobabile; in cui la probabilità di ogni intervallo è proporzionale all ampiezza dell intervallo stesso. La definizione di probabilità può essere raffinata utilizzando l'approccio frequentisco: si definisce la frequenza relativa f ( A ) con cui un evento casuale E si è verificato in un numero totale di casi reali come il rapporto tra il numero n di volte in cui l evento si è effettivamente prodotto (frequenza assoluta) ed il numero delle prove effettuate. La probabilità dell'evento A si definisce euristicamente come il limite della frequenza relativa per molto grandi, ovvero: Pagina 8 di 73

9 p( A) lim f ( A)= lim ( n ). (1) Per la maggiore semplicità delle dimostrazioni e l intuitività dei ragionamenti verrà utilizzata tale definizione per derivare alcune proprietà delle probabilità di eventi casuali, queste stesse proprietà possono essere comunque ricavate utilizzando la più rigorosa definizione assiomatica. L'evento del non verificarsi dell evento A rappresenta l evento complementare ad, i due eventi A ed A si escludono mutualmente e coprono A indicato con A l insieme di tutti i possibili risultati di una prova. La frequenza relativa di A su prove è )= f (A n =1 =1 f ( A), (2) da cui si ricava una partizione dell'unità p( A)+ p( A )=1. (3) Più in generale considerando insieme di eventi casuali A, B,..., Z mutualmente esclusivi e che coprono l insieme di tutti i possibili risultati, è di facile dimostrazione la seguente relazione di completezza: p( A)+ p( B)+ + p (Z )=1. (4) el caso che il risultato di una prova consista nel verificarsi di due eventi simultanei bisogna considerare la probabilità composta dell'evento simultaneo. Indicando con A ed F il verificarsi di due distinti eventi, esistono quattro eventi composti e e A F. Il simbolo AF indica l evento mutualmente esclusivi: AF, A F, A F composto prodotto logico dei due eventi elementari e rappresenta il verificarsi sia Pagina 9 di 73

10 dell uno che dell altro. Considerando prove rilevazioni, le frequenze assolute (n11,n 22, n33,n 44) saranno determinate dalle definizioni precedenti mentre le rispettive frequenze relative saranno: f ( AF)= n 11 n 21 n n )= 12 ; f ( A F )= 22. ; f ( A F)= ; f (AF (5) Facendo uso della definizione frequentistica della probabilità e delle seguenti relazioni: f (A )= n11+ n12 n +n ) ; f (F)= =f ( AF )+ f ( A F), =f ( AF)+f (A F (6) si ottiene: ) ; p(f)=p ( AF)+ p ( A F). p( A)= p( AF)+ p( A F (7) e F. Utilizzando ancora Analogamente si ottengono relazioni simili anche per A una volta la definizione frequentistica all evento complesso A + F, che rappresenta l evento casuale del verificarsi o dell uno o dell altro o di entrambi, si ottiene f (A + F)=f ( A)+f ( F) f ( AF), (8) da cui, passando al limite, p( A+ F)=p ( A)+ p ( F) p ( AF). (9) el caso particolare di due eventi A ed F mutualmente esclusivi (il che implica p( AF)=0 e n11 0 ) vale la cosiddetta legge della probabilità totale: p( A+ F )= p( A)+ p(f). (10) Pagina 10 di 73

11 Per induzione questa relazione si generalizza al caso di più eventi mutualmente esclusivi. La probabilità della somma logica è uguale alla somma delle probabilità degli eventi semplici: p( A+ B+ + Z)=p ( A)+p ( B)+ + p (Z ) (11) Probabilità condizionata e probabilità composta La probabilità che si verifichi l evento A nel caso in cui si sia già verificato l evento F si indica con il simbolo p( A F) e viene chiamata probabilità condizionata. Utilizzando la nomenclatura del paragrafo precedente si ha f (A F )= n 11 f ( AF) =, n11 + n21 f ( F) (12) f ( AF), f ( A) (13) con l analoga f ( F A)= e vale quindi, passando al limite, la p( AF)= p( F) p ( A F )= p( A) p(f A ). (14) In caso valga p( A F)= p (A ) e p( F A )= p( F) di due eventi si dicono tra loro statisticamente indipendenti e per essi vale la legge della probabilità composta: p( AF)= p( A) p(f ). (15) Utilizzando di nuovo l'induzione, tale relazione si generalizza per un di un numero qualsiasi di eventi semplici statisticamente indipendenti tra loro: Pagina 11 di 73

12 p( A B Z )= p( A) p( B) p( Z ). (16) Gli eventi casuali appartenenti ad un insieme di dimensione (con >2 ) si definiscono statisticamente indipendenti tra loro quando la probabilità del verificarsi di uno qualsiasi di essi non è alterata dal eventuale precedente verificarsi di un altro evento Il teorema di Bayes Supponiamo che un dato fenomeno casuale A possa dare luogo a configurazioni mutuamente esclusive A i, le quali comprendono la totalità delle possibilità. Inoltre si consideri un differente fenomeno casuale che possa condurre o al verificarsi o meno di un dato evento E. el caso E si verifichi, assieme ad esso, si dovrà verificare anche una ed una sola delle eventualità A i. Applicando prima la legge della probabilità totale (11) e successivamente la relazione (14), si ottiene j=1 j=1 p(e)= p ( E A j)= p( A j) p (E A j). (17) Riutilizzando la legge delle probabilità condizionate (14), si ricava: p( Ai E)= p ( Ai ) p( A i E), p( E) (18) sostituendovi la (17), si ottiene p( Ai E)= p( A i) p( E A i). j p( A j ) p(e A j) (19) La precedente relazione è nota con il nome di teorema di Bayes, tale teorema è fondamentale nella teoria della probabilità. Pagina 12 di 73

13 1.1.4 Definizione assiomatica Per completezza, accenniamo alla cosiddetta definizione assiomatica della probabilità [3]. Sia S l insieme di tutti i possibili risultati di un fenomeno casuale, ed A un qualsiasi evento casuale su S definito come sottoinsieme A S. La probabilità di E è definita come la quantità p(e) associata univocamente all evento stesso soddisfacente le seguenti proprietà: 1. p ( A) 0 A, 2. p ( S )=1, 3. p ( A1 A2 An )= p( A1)+ p( A2)+ p ( An) {A j }. Dove {A j } è un insieme di eventi di cardinalità finita o infinita a coppie disgiunte ( A i A j = per ogni i j ). La precedente definizione è matematicamente consistente ma non specifica come assegnare i valori alla funzione di probabilità, tuttavia tali valori possono essere ipotizzati e verificati sperimentalmente. Come accennato in precedenza, dalla definizione assiomatica è possibile ricavare le stesse leggi ottenute a partire dalla definizione empirica. Infatti, dato che S =S, la terza proprietà implica p(s)+ p ( )= p( S), da cui utilizzando la seconda proprietà: p( )=0. (20) Ponendo A B, ed essendo in questo caso A=B A B, applicando la terza proprietà (dato che B A B= ) si ottiene p( A)= p( B)+ p A B. Inoltre utilizzando il primo assioma si ha: A B p( A) p( B). (21) Dati due insiemi A e B qualunque essi siano valgono le seguenti identità: Pagina 13 di 73

14 A=( A B) A B, B=( A B) A B, ( A B)=( A B) A B A B. (22) Dopo aver verificato che gli insiemi a secondo membro siano tutti disgiunti, applicando a queste tre relazioni il terzo assioma e sommando e sottraendo opportunamente i risultati, si ottiene la legge della probabilità totale nella sua forma più generale: p( A B)=p ( A )+ p (B) p( A B) (23) La convergenza statistica Un grave difetto della definizione frequentistica della probabilità è il presupporre a priori una convergenza della frequenza relativa f nel limite per ad un valore ben definito il quale viene utilizzato come definizione per la probabilità dell evento. el caso si utilizzi come definizione di probabilità quella assiomatica, è effettivamente possibile dimostrare come, al crescere del numero di prove, la frequenza relativa di un qualunque evento casuale converga verso la probabilità dell evento stesso. È tuttavia fondamentale sottolineare come questa legge (legge dei grandi numeri, o teorema di Bernoulli) non implichi una convergenza forte in termini matematici. In altri termini non implica che, per un qualunque numero positivo ε, esista un intero M tale che per ogni > M risulti f (E) p(e) <ε. ella legge dei grandi numeri il concetto di convergenza va inteso in senso statistico o matematicamente parlando debole: all aumentare del numero di prove una grandezza x tende statisticamente al limite X quando, scelta una qualsiasi coppia di numeri positivi ε e δ, esiste numero intero M tale che per > M la probabilità che x differisca da X per più di ε risulti minore di δ. Indicando col simbolo p(e) la probabilità di un evento E, la definizione di convergenza statistica è Pagina 14 di 73

15 ε, δ>0 M : > M Pr x X ε δ. (24) Dato un qualunque evento casuale E avente probabilità p( E) di manifestarsi, si può dimostrare che la sua frequenza relativa f (E) su prove converge statisticamente a p(e) all aumentare di. 1.2 Stime di tendenza centrale el caso tipico di valori osservati distinti di una grandezza fisica, si presenta il problema di definire una quantità che fornisca la stima migliore del valore vero della grandezza osservata. Il problema consiste nel determinare quale tra le infinite funzioni dei dati ha la maggiore probabilità restituire il valore vero. on considerando gli errori sistematici è ragionevole pensare che gli errori casuali hanno un uguale probabilità di distribuirsi in difetto ed in eccesso rispetto al valore vero. Sulla base della legge dei grandi numeri nel caso in cui il numero di misure è sufficientemente elevato è lecito attendere che la distribuzione effettiva delle frequenze sia sufficientemente vicina alla distribuzione di probabilità teorica. Dunque, anche euristicamente, si attende che i valori osservati si distribuiscano simmetricamente rispetto al valore vero Moda e mediana In statistica esistono diverse stime della cosiddetta tendenza centrale di un campione, una di queste possibili stime è il valore che si è presentato il maggior numero di volte, corrispondente al massimo della frequenza. el caso esista tale stima viene chiamata moda del campione, e si indica con il simbolo x. Tuttavia la distribuzione dei dati potrebbe non avere massimo (distribuzioni amodali) od Pagina 15 di 73

16 averne più d uno in intervalli non contigui (distribuzioni multimodali). Inoltre, nel caso in cui il massimo, pur esistente, si trovi ad uno degli estremi dell intervallo che contiene le misure, si stabilisce che la distribuzione non possiede moda in quanto non essendo in tal caso la moda una stima di tendenza centrale. Per tali motivi la moda non è utilizzata molto frequente. Un altra stima di tendenza centrale utilizzata frequente nella statistica (anche se non in fisica) è la mediana di un campione indicata col simbolo x è definita come quel valore che divide l istogramma dei dati in due parti di uguale area. In altri termini, la mediana lascia un uguale numero di dati alla propria sinistra ed alla propria destra. Usando questa definizione, per determinare la mediana di un pari insieme di valori tutti distinti basta disporli in ordine crescente e prendere il valore centrale nel caso di un numero dispari di misure si utilizza la semisomma dei due valori centrali. Si può dimostrare che la mediana x minimizza la somma dei valori assoluti degli scarti delle misure x i da x, ovvero: i=1 i=1 min x { x i x }= x i x (25) La media aritmetica La stima della tendenza centrale di un campione di gran lunga più utilizzata è la media aritmetica x dei valori osservati definita come: 1 x = xi. (26) i=1 La somma degli scarti di un insieme di valori dalla loro media aritmetica è identicamente nulla. Dalla (26) risulta i=1 i=1 i=1 (x i x )= xi x = x x =0. (27) Pagina 16 di 73

17 La media aritmetica x di un insieme di dati numerici x 1, x 2,..., x puo essere alternativamente definito come valore di x che minimizza la somma dei quadrati degli scarti dalle x i, in formule si ha: min { } (x i x)2 = ( xi x )2. j=1 (28) j=1 Utilizzando la precedente definizione è semplice verificarne l'equivalenza: j=1 j=1 2 j =1 j=1 j=1 ( x i x)2= [(x i x )+( x x) ] = ( x i x )2+ ( x x )2+ 2( x x) ( x i x ) (29) = (x i x ) + ( x x ), 2 2 j=1 da cui j=1 j=1 ( x i x)2 ( x i x ) (30) Stime di dispersione In analogia con la derivazione euristica circa la tendenza centrale di un insieme di misure, possiamo condurre una simile analisi per una possibile stima della dispersione. E' ragionevole ritenere che agli errori introdotti all'atto fisico di una misura sia legata un altra grandezza caratteristica del campione: ovvero la stima della larghezza dell intervallo in cui le misure stesse sono distribuite attorno al valore centrale. La più rozza delle stime statistiche di dispersione si effettua considerando l'intervallo tra il massimo x M ed il minimo x m valore osservato: la semidispersione massima è definita come la semidifferenza tra questi due valori: x M x m. 2 (31) Pagina 17 di 73

18 Una tale stima ignora la maggior parte dei dati, in particolare i dati prossimi al centro della distribuzione. Ancor più problematica è la non stabilita all'aumentare delle misure invece di tendere ad un valore determinato. Il doppio della semidispersione massima R=x M x m, (32) è anch esso usato come stima della dispersione di un campione e viene chiamato range. Delle quantità frequentemente usate per caratterizzare una distribuzione sono i quartili, i decili ed i percentili (in generale quantili), indicati con Qi (i=1, 2,3), D i (i=1,..., 9) e con Pi (i=1,..., 99) rispettivamente. Essi sono definiti similmente alla mediana come quei valori della x che dividono la distribuzione rispettivamente in 4, 10 e 100 parti di uguale area, sussistono le ovvie relazioni: Q2 D5 P 50 x. (33) Come stima della dispersione di una distribuzione è spesso usato l intervallo semiinterquartilico Q=(Q 3 Q1)/2, oppure la differenza P90 P10 tra il novantesimo ed il decimo percentile Varianza e deviazione standard La stima di dispersione più utilizzata in ambito scientifico è la deviazione standard anche detta deviazione quadratica media s 2. Viene definita come la radice quadrata della varianza: 1 s = ( x i x )2. i=1 2 (34) Per il calcolo dello scarto quadratico medio di un campione è molto la utile la Pagina 18 di 73

19 seguente proprietà: i=1 i=1 s = (x i x ) = x + x 2 x x i= x 2i x 2, 2 i=1 2 i =1 2 i 2 (35) da cui la formula s 2= 1 x 2 x 2. i=1 i (36) Tale relazione permette un calcolo più agevole di s 2 accumulando successivamente i quadrati dei valori osservati anziché quelli dei loro scarti dalla media. 1.4 Densità di probabilità In un esperimento immaginario si supponga di poter aumentare il numero di misure in modo arbitrario. In base alla legge dei grandi numeri si attende che, dopo aver diviso in intervalli equi-spaziati l asse delle x, disponendo di un numero infinitamente grande di misure, ha senso rende piccola a piacere l ampiezza degli intervalli in cui l asse delle x è stato diviso. Se l intervallo corrispondente ad una data classe di frequenza tende a zero, la probabilità che una misura cada in esso tende ugualmente a zero. Sotto alcune ipotesi, il limite del rapporto tra probabilità dp ed ampiezza dx esiste ed è finito e tenderà ad una curva continua. L ordinata di questa curva al di sopra di un intervallo infinitesimo dx vale quindi: pdf = dp =f ( x). dx (37) La f (x) prende il nome di densità di probabilità (PDF) o di funzione di frequenza della variabile x. La variabile continua modellizza il caso in cui i valori possibili, nonostante l'intrinseca discretizzazione del processo di misura, godono della potenza del continuo. La probabilità di osservare un singolo valore è infinitesima ed ha senso soltanto considerare la probabilità che venga osservato un valore della Pagina 19 di 73

20 variabile x compreso un dato intervallo [x 1, x 2 ] di ampiezza superiore rispetto alla sensibilità sperimentale. Considerando l'intervallo infinitesimale di ampiezza dx, vista l equazione (11), la probabilità che x appartenga all intervallo finito [x 1, x 2 ] è data dalla somma delle probabilità infinitesime dp=f (x) dx. Matematicamente tale probabilità è formalizzata dall integrale di f (x) rispetto ad x nell intervallo [x 1, x 2 ]. Per l intervallo [x 1, x 2 ] vale la x2 P ( x [ x1, x 2] )= x f (x) dx. 1 (38) Per le variabili continue è possibile associare ad ogni variabile x una funzione densità di probabilità f (x), la quale può essere utilizzata per computare la probabilità che la x cada in un qualsiasi intervallo finito prefissato come l'area sottesa dalla curva nell intervallo in questione. Si può definire la funzione di distribuzione per una variabile continua x come: x F( x)= f (t )dt. (39) Essa rappresenta la probabilità di osservare un valore minore o uguale ad x, e dovrà necessariamente soddisfare la condizione di normalizzazione F(+ ) 1. L integrale di una qualunque funzione rappresentante una densità di probabilità deve quindi soddisfare la seguente condizione: + f (x )dx =1. (40) La condizione di normalizzazione è condizione sufficiente a garantire che una qualsiasi densità di probabilità continua debba tendere asintoticamente a zero nel limite ± della variabile indipendente. Questa conclusione è una diretta conseguenza della disuguaglianza di Bienaymé Cebyšef la quale implica che a distanze crescenti dal valore medio di una qualsiasi variabile casuale corrispondano Pagina 20 di 73

21 probabilità decrescenti asintoticamente nulle. Per introdurre il concetto di densità di probabilità ci si è basati sul risultato di un esperimento ideale ipotizzando il comportamento asintotico alcuni parametri come il numero di misure e la sensibilità sperimentale. Formalmente, la densità di probabilità di una variabile casuale continua può essere definita direttamente come una funzione non negativa integrabile su tutto l asse reale, e che soddisfi la condizione (40). Successivamente, si associa ad ogni intervallo infinitesimo dx la quantità dp=f ( x)dx, e ad ogni intervallo finito [x 1, x 2 ] il corrispondente integrale. Si può agevolmente provare che una sì fatta formulazione soddisfa la definizione assiomatica di probabilità. Prese due variabili aleatorie X e Y, indichiamo con il termine densità condizionata di X dato Y = y per tutti i valori P {Y = y } >0, la quantità: Px y ( x y )=P { X=x Y = y }= P { X =x Y = y } p x, y (x, y) =. p y ( y) P { X=x } (41) el caso X e Y siano indipendenti risulta: p X Y ( x y)=p { X=x Y = y } =P { X=x }. (42) Allo stesso modo definiamo la funzione di ripartizione condizionata di Y = y per tutti i valori di tali che P {Y = y } >0 come: F X Y (x y )=P { X x Y = y }= a x p X Y ( a y) (43) Valore d'aspettazione L espressione della speranza matematica o valore d'aspettazione di una generica variabile casuale continua x per una variabile discreta viene definita come: Pagina 21 di 73

22 E( x )= i pi x i. (44) Per una variabile continua si ha: + E( x )= x f ( x ) dx, (45) dove per f ( x) si intende la funzione densità di probabilità della variabile x. La giustificazione di tale definizione è immediata: dopo aver partizionato l asse delle x in un numero di intervalli di ampiezza dx ad ognuno è associata una probabilità infinitesima dp=f (x) dx. Utilizzando la (44) e grazie al il teorema di Cebyšef, le medie aritmetiche dei campioni finiti dei valori della grandezza x tendono proprio alla (45) per. Il valore d'aspettazione di una qualsiasi grandezza W ( x ) funzione della variabile casuale x è definito di conseguenza come: + E[W ( x )]= W (x)f ( x )dx (46) I momenti Presa una qualunque variabile casuale x, considerandone una sua distribuzione di valori, è possibile definirne i momenti. Il momento λ k di ordine k rispetto all origine è definito come il valore d'aspettazione di x k, inoltre il momento μk di k ordine k rispetto alla media è definito come il valore d'aspettazione di [ x E ( x) ]. In formule: k k λ k =E( x )= i x i p i, (47) μk =E [ [ x E ( x) ] ] = i [ x i E( x )]k p i. (48) e k Pagina 22 di 73

23 per una variabile discreta. Analogamente per una variabile continua si ha: + λ k =E(x k )= x k f ( x) dx, (49) e + μk =E [ ( x E(x ))k ]= [ x E(x )]k f ( x) dx. (50) el caso di un cardinalità infinita o nel caso di variabili continue l'esistenza dei momenti non è assicurata. Dalla definizione consegue immediatamente che per qualsiasi distribuzione per cui esista E( x ), sussistono le seguenti identità E( x ) λ1 e Var ( x) μ2 λ 2 λ1, ed inoltre: + + μ1= + [ x E(x )] f ( x) dx= x f ( x)dx E( x) f (x) dx 0. (51) Per distribuzioni simmetriche rispetto alla media tutti i momenti di ordine dispari rispetto ad essa, se esistono, sono nulli in quanto l'integrando è una funzione dispari. Il momento del terzo ordine rispetto alla media aritmetica può essere considerato una stima dell asimmetria di una distribuzione. In genere si utilizza un parametro adimensionale in luogo di μ3, chiamato coefficiente di asimmetria o skewness, definito come: γ= μ3 μ2 = 2 σ2. ( μ 2) (52) La quantità σ =μ2 è la radice quadrata della varianza, γ 1 è nullo per densità di probabilità simmetriche rispetto alla media; il segno è determinato a seconda che i valori della funzione di frequenza per la variabile casuale in questione si trovino maggiormente verso la destra o sinistra rispetto al valore medio. A partire dal quarto ordine è possibile definire un altro parametro adimensionale: il coefficiente di Pagina 23 di 73

24 curtòsi γ 2. La curtòsi è sempre positiva ed è definita come: γ 2= μ4 μ 2 2 μ =σ. 4 (53) Tale parametro è utilizzato per caratterizzare il comportamento asintotico di una distribuzione: più rapida sarà la convergenza a zero per x ± minore sarà il valore di γ 2. Si preferisce generalmente definire la curtòsi in modo differente, usando la relazione: μ ' γ 2= σ34 3, (54) Questo fa sì che essa valga zero per la funzione di Gauss, e che assuma poi valori di segno negativo o positivo per funzioni che convergano a zero nelle code in maniera rispettivamente più rapida o più lenta della distribuzione normale. 1.5 Distribuzioni notevoli el seguito verranno esposti alcuni esempi di distribuzioni di probabilità utilizzate nei capitolo successivi Distribuzione ormale La distribuzione normale, o di Gauss, è una distribuzione di probabilità continua largamente utilizzata come prima approssimazione per descrivere variabili casuali a valori reali le quali tendano ad accentrarsi attorno a un singolo valor medio. Il grafico della funzione di densità di probabilità associata è simmetrico ed ha una forma a campana, altrimenti detta Campana di Gauss. La distribuzione di Gauss è Pagina 24 di 73

25 considerata il caso base delle distribuzioni di probabilità continue a causa del suo ruolo nel teorema del limite centrale che verrà esposto in seguito. La distribuzione normale è largamente utilizzata nelle applicazioni pratiche: in statistica, nelle scienze naturali e sociali rappresenta un semplice modello per fenomeni complessi. La tale distribuzione dipende da due parametri, la media μ e la varianza σ 2, ed è indicata tradizionalmente con: (μ, σ2 ). E' caratterizzata dalla seguente funzione di densità di probabilità, a cui spesso si fa riferimento come curva di Gauss o gaussiana: 2 1 (x μ) 2 σ 1 2 (x ;μ,σ )= e 2 2π σ 2. (55) La distribuzione normale, avente la media μ e σ varianza positiva, gode delle seguenti proprietà: E' simmetrica attorno al punto x=μ. E' unimodulare: la derivata prima è positiva per x< μ, negativa per x> μ, e nulla se è soltanto se x=μ. Ha due punti di flesso, posizionati nei punti x=μ σ e x=μ+σ. E' log-concava. Appartiene all'insieme C Distribuzione γ Con il termine distribuzione gamma si intende una famiglia di distribuzioni continue a due parmametri. Sono comunemente utilizzate tre differenti parametrizzazioni: Con un parametro di forma k e uno di scala θ. Con un parametro di forma k e uno di scala inverso β=1/ θ, chiamato rate. Con un parametro di forma k e uno di media μ=k /β. In qualsiasi parmetrizzazione i parametri sono numeri reali e positivi. Pagina 25 di 73

26 La parametrizzazione con i parametri k e θ è molto utilizzata nel campo della statistica economica. Mentre la parametrizzazione con i parametri k e β è comune nela statistica Bayesiana, dove la distribuzione gamma e utilizzata come ditribuzione coniugata a priori al variare del parametro rate. Una variabile casuale x distribuita secondo la PDF gamma di forma k e scala θ è formulata come: x x k 1 e θ γ(x ; k, θ)= k θ Γ(k ) con x>0 e (56) k,θ >0. Dove Γ è la funzione gamma di Eulero valutata in k. Mentre la distribuzione cumulativa risulta essere: x Γ k, θ F( x ; k, θ)= 0 γ ( y ; k, θ)dy =. Γ (k ) ( ) x (57) Dove Γ è la funzione gamma incompleta. In alternativa, una variabile casuale x distribuita secondo la PDF gamma di forma k e scala β è formulata come: γ' (x ; k,β)= k k 1 β x β x e Γ(k ) con x 0 e k, β> 0. (58) La distribuzione cumulativa in tale rappresentazione risulta essere: x F( x ; k, θ)= 0 γ ' ( y ; k,β)dy= Γ ( k,β x ). Γ(k ) (59) Distribuzione GEV La distribuzione generalizzata dei valori estremi (generalized extreme value o GEV) è una famiglia di distribuzioni continue di probabilità sviluppata nell'ambito della teoria dei valori estremi combinando le distribuzioni di Gumbel, Fréchet e Weibull. Pagina 26 di 73

27 Grazie al teorema sui valori estremi, la distribuzione GEV è l'unica distribuzione ottenibile come limite di una sequenza dei massimi M n=max { X 1, X 2,..., X n } in una successione variabili casuali indipendenti e identicamente distribuite. In generale l'esistenza di una tale distribuzione limite non è scontata e richiede condizioni di regolarità sulla coda delle distribuzioni delle singole variabili aleatorie. onostante ciò la GEV è utilizzata come un'approssimazione per modelli con una lunga, ma comunque finita, sequenza di massimi di variabili casuali. Una distribuzione generalizzata dei valori estremi è parametrizzata da i tre parametri reali, (μ, σ, ξ) σ> 0 rispettivamente il parametro di locazione di scala e forma. Il supporto di definizione dipende dai valori dei parametri. La distribuzione cumulativa in tale rappresentazione risulta essere: {[ x μ F( x ;μ, σ, ξ)=exp 1+ξ σ ( 1/ ξ )] } (60), posto 1+ξ( x μ )/σ>0. Quindi per ξ> 0, è valida per x>(μ σ)/ξ, mentre ξ< 0 è valida per x<μ σ /ξ. Per ξ=0 è formalmente indefinita ed è rimpiazzata per continuità dal limite per ξ 0 : { )} x μ F( x ;μ, σ,0)=exp exp σ, ( (61) senza nessuna condizione su x. La funzione densità è di conseguenza: [ ( 1 x μ f (x ; μ, σ, ξ)= σ 1+ξ σ ( 1 /ξ ) 1 )] {[ x μ exp 1+ ξ σ ( 1 /ξ )] }. (62) Di nuovo, per x>(μ σ)/ξ nel caso ξ> 0 e per x<μ σ /ξ nel caso ξ< 0. La densità è nulla al di fuori del dominio considerato. el caso ξ=0 la densità è positiva su tutta la retta reale ed equivale a: Pagina 27 di 73

28 [( )] { [( x μ x μ 1 f ( x ; μ, σ,0)= σ exp σ exp exp σ Distribuzione χ )]}. (63) 2 2 La distribuzione chi-quadro o distribuzione- χ con k gradi di libertà rappresenta la distribuzione della somma dei quadrati di k variabili aleatorie indipendenti distribuite normalmente. Tale distribuzione è una delle più utilizzate nella statistica inferenziale per il test delle ipotesi e per la costruzione degli intervalli di confidenza. La distribuzione chi-quadro è largamente utilizzata nel così detto test del chi-quadro per la bontà di una regressione lineare o la stima dei paramenti di una distribuzione teorica rispetto ad una distribuzione empirica. La distribuzione chi-quadro può essere vista come un caso particolare della distribuzione gamma. Considerando k variabili aleatorie indipendenti e normali, la somma dei loro quadrati risulta essere: k Q= X 2i. (64) i=1 Tale somma è distribuita in accordo con la distribuzione chi-quadro con k gadi di libertà. La funzione di densità di probabilità per la distribuzione chi-quadro è: x(k /2 ) 1 e x /2 f ( x ; k )= k /2. 2 Γ ( k /2 ) (65) Dove Γ ( k /2 ) indica la funzione Gamma di Eulero. el caso x< 0 è identicamente nulla. La distribuzione cumulativa di probabilità risulta: k x Γ, 2 2 k x F( x ; k )= =P,. 2 2 k Γ 2 ( ) ( ) () (66) Pagina 28 di 73

29 Dove Γ è la funzione gamma incompleta e P è chiamata funzione gamma regolarizzata. 1.6 Teorema del limite centrale Considerando un set di misure statisticamente indipendenti tra loro, ed ipotizzando per esse una distribuzione normale, qualunque loro combinazione lineare, in particolare la media aritmetica, è ancora distribuita secondo la legge normale. Si può quindi attribuire alla media un errore statistico σ x definito come la deviazione standard della media. Questo argomento può essere esteso utilizzando un teorema fondamenta della statistica: il teorema del limite centrale. Siano variabili casuali x i statisticamente indipendenti appartenenti ad una densità di probabilità non nota con media μ e varianza σ2 finite. Sotto queste ipotesi, la distribuzione della media aritmetica del campione x tende asintoticamente alla distribuzione normale con media μ e varianza σ 2 / al crescere di. Il teorema è molto potente in quanto non richiede ipotesi sulla distribuzione delle variabili che compongono il campione esclusa l esistenza di media e varianza. ella misura di una grandezza fisica si può asserire, anche nel caso in cui la distribuzione dei dati sperimentali non è la legge di Gauss, che l errore della media conserva il consueto significato statistico cioè di semiampiezza dell intervallo, centrato su x, contenete il valore vero con probabilità costante prefissata del 68%. Inoltre, il teore ma del limite centrale implica una convergenza asintoticamente normale del valore medio del campione al valore medio della popolazione delle misure. E' importante notare come il prodotto di molte variabili casuali indipendenti debba, secondo il teorema del limite centrale, avere un comportamento asintotico tendente a quello di una distribuzione log-normale indipendentemente dal tipo di distribuzione. Pagina 29 di 73

30 1.7 Stime di parametri Data una densità di probabilità f (x, θ) di una variabile casuale continua x a valori nel campo dei reali dipendente da un parametro θ, il cui valore vero θ sia ignoto, sorge spontaneo il problema della stima di tale parametro sulla base di prove sperimentali indipendenti x i della grandezza x. Le funzioni θ di questo tipo si chiamano appunto stime, le quali sono delle funzione di variabili casuali pertanto delle variabili casuale essa stesse. Di conseguenza, è corretto definire il valore medio o la varianza di una particolare stima, intendendo così riferirci alle caratteristiche della popolazione dei possibili valori restituiti dalla stima stessa in corrispondenza di tutti i possibili campioni che possono essere usati per determinarla. Alle stime vengono associate diverse caratteristiche di controllo; una delle più importanti è la consistenza. Una stima viene detta consistente quando converge debolmente al valore vero del parametro, ossia: lim θ ( x 1, x 2,..., x )=θ. + (67) Utilizzando tale definizione, il teorema di Cebyšef [4] può essere sinteticamente riformulato affermando che il valore medio di un campione è una stima consistente del valore medio della popolazione. Una seconda caratteristica delle stime è la distorsione; una stima viene detta indistorta o imparziale se mediamente coincide col valore vero del parametro, in formule: E( θ )=θ (68) Per definizione la media dei campioni è una stima indistorta del valore medio della Pagina 30 di 73

31 popolazione, mentre la varianza del campione è una stima distorta ma consistente della varianza della popolazione. Per rendere la varianza una stima imparziale si utilizza la varianza corretta del fattore moltiplicativo /( 1). L efficienza di una stima viene definita tramite la varianza; minore sarà la varianza di una stima maggiore sarà la sua efficienza. La disuguaglianza di Cramér-Rao assicura l'esistenza di un limite inferiore per la varianza delle stime, e quindi di un limite superiore per la loro efficienza. Avendo a disposizione M stime differenti θ j dello stesso parametro θ, ogni campione di valori x i genererà attraverso ognuna di tali stime M diversi valori per θ. Indicando con f la densità di probabilità congiunta di questi M valori, risulterà: f (θ1,θ 2,..., θ M, θ )=f M (θ1, θ ) φ(θ 2, θ3,..., θm, θ θ1 ). (69) Dove f M (θ 1, θ ) indica la funzione densità di probabilità marginale della sola θ1 o in altre parole la densità di probabilità legata al verificarsi di un particolare valore per θ1 indipendentemente da quello ottenuto per le altre stime. La funzione φ(θ 2,θ 3...,θ M, θ θ ) è la densità di probabilità condizionata delle ulteriori M 1 stime. Per φ indipendente da θ, le stime successive ad θ1 sono distribuite nella stessa maniera per qualunque valore di θ ; non apportano nessuna nuova informazione sul valore del parametro θ. La stima di θ1 sfrutta tutta l informazione sul parametro ignoto che è contenuta nei dati, in questo caso la stima θ1 viene chiamata sufficiente. on è detto che una stima sufficiente per un certo parametro θ esista, ma l'esistenza è condizione sufficiente per l'esistenza di infinite stime. E' possibile dimostrare che ogni funzione monotona in senso stretto di θ gode della stessa proprietà. Dato un campione di dati indipendenti x i, l espressione i=1 f ( x i, θ ), (70) Pagina 31 di 73

32 rappresenta la densità di probabilità da associare all evento casuale rappresentato da un' -pla di valori, essendo θ il valore del parametro da cui la f dipende. Considerando le x i non più variabili casuali, ma costanti determinate dalle misure sperimentali e sostituendo nella (70) al valore vero θ il generico valore θ si ottiene la celeberrima funzione di verosimiglianza: L( x 1, x 2,..., x θ)= i=1 f ( x i,θ), (71) Essa rappresenta la densità di probabilità associata all evento casuale per cui il parametro vero preso in considerazione assume il valore particolar θ, nell ipotesi di avere già ottenuto la particolare -pla di valori sperimentali x 1, x 2,..., x. Il metodo della massima verosimiglianza consiste nell utilizzare, come stima del parametro θ, il particolare valore θ che rende massima la funzione di verosimiglianza. Matematicamente il problema si può formulare come la ricerca della soluzione per le seguenti relazioni differenziali: d2 L <0. dθ 2 dl =0 dθ (72) el caso di più massimi locali, si sceglie la soluzione che corrisponde al massimo assoluto. Dato che il logaritmo naturale è una funzione monotona strettamente crescente dell argomento, trovare il massimo di ln L equivale ad massimizzare L. Utilizzano il ln L le relazioni (72) diventano: 1 dl d (ln L) = =0. L dθ dθ (73) Per brevità verranno elencate senza dimostrazione alcune importanti proprietà della stima di massima verosimiglianza: La stima di massima verosimiglianza è una stima asintoticamente consistente al Pagina 32 di 73

33 crescere della dimensione del campione. La stima di massima verosimiglianza ha una densità di probabilità asintoticamente normale. La stima di massima verosimiglianza è asintoticamente la stima più efficiente possibile. el caso esista una stima sufficiente di θ essa può sempre essere espressa come funzione della sola stima di massima verosimiglianza. Tutte le precedenti proprietà asintotiche della la stima di massima verosimiglianza sussistono sotto ipotesi molto generali. Condizione sufficiente per la normalità è l'esistenza dei primi due momenti della funzione f ( x, θ), per la consistenza e la massima efficienza è sufficiente che f ( x, θ) sia continua, dotata di derivata prima e seconda rispetto al parametro, e che l operazione l' integrazione rispetto a x converga uniformemente (il dominio di definizione della x non dipende dal parametro). Come già accennato, il teorema di Cramér Rao permette di dimostrare l'esistenza estremo inferiore per le varianze delle stime imparziali di una qualsiasi grandezza dipendente dal parametro θ. Inoltre, assicura che se una stima di varianza minima esiste, essa massimizza la funzione di verosimiglianza. In particolare, ipotizzando che la densità di probabilità f (x, θ) sia una funzione definita in una regione della retta x avente estremi indipendenti dal parametro θ, che esista quasi ovunque la derivata rispetto a θ di f (x, θ) e che esista e sia finito il valore medio del quadrato della seguente espressione: E {[ ]} ln f ( x, θ) θ 2 = 1 E {[ (ln L) θ ]} 2, (74) una qualsiasi stima imparziale di θ ha una varianza che non può essere inferiore ad al valore limite di Cramér-Rao dato dalla : Var ( θ ) 1 {[ ln f (x, θ) E θ ]} 2. (75) Questo estremo inferiore viene raggiunto se e solo se esiste una funzione R(θ) per Pagina 33 di 73

34 la quale risulti: ln f (x i, θ) (ln L) i=1 = θ θ = θ (x 1, x 2,..., x ) θ. R(θ) (76) In tal caso, la stima di minima varianza rende anche massima la funzione di verosimiglianza. La condizione (76) implica che la densità di probabilità f ( x, θ) deve essere una funzione di tipo esponenziale, quindi nel caso generale è assicurato che una stima di varianza minima esista. In ogni caso la stima di massima verosimiglianza tende asintoticamente a questo comportamento al crescere di nonostante il fatto che nulla può essere detto sulla rapidità di tale convergenza. Per un numero di misure finito, non c è alcuna garanzia che la funzione di verosimiglianza abbia un solo massimo, infatti non esiste modo di appurare quale di essi corrisponde asintoticamente alla stima di minima varianza, né esiste modo a priori di determinare quale di questi massimi rappresenti la stima migliore del valore vero. Pagina 34 di 73

35 2 Introduzione all'imputazione singola ella ricerca sperimentale il problema dei dati mancanti è molto comune [5], in particolar modo nelle scienze economico-sociali in cui la somministrazione di questionari è una delle tecniche più utilizzata per la raccolta di dati e informazioni. Data la forte dipendenza dal problema, non esiste un unica tecnica o approccio ogni esperimento rappresenta un caso a sé. el caso in cui il problema dei dati mancanti è irrisolvibile per via fisica (utilizzando diversi strumenti per la misura dei dati), la quantità e la distribuzione dei dati mancanti (missing data), la struttura dei dati e la natura delle variabili coinvolte, saranno l unica indicazione in base alla quale prendere decisioni. ella letteratura sono presenti svariate tecniche e metodologie per poter affrontare il problema dei dati mancanti, come ad esempio i lavori di Rubin e Schafer [6] [7]. Prima di parlare dei metodi per il trattamento dei dati mancanti e quindi per la generazione delle imputazioni è doveroso introdurre alcune questioni metodologiche fondamentali come il concetto di non risposta, la notazione, il meccanismo generatore dei dati mancanti. 2.1 Il concetto di non risposta Il termine non-risposta si riferisce ad un ventaglio di situazioni in cui il dato non viene rilevato. Si parla di non risposta ogni qualvolta non si riesce ad ottenere il dato su una o più variabili di interesse per una o più unità campionarie. Come conseguenza si ha un incremento nella variabilità degli stimatori dovuto ad una Pagina 35 di 73

36 riduzione della base campionaria di analisi e alle eventuali applicazioni di metodi per il trattamento della stessa. Inoltre, si hanno stimatori distorti, nel caso in cui i dati correttamente rilevati (rispondenti) differiscono sistematicamente dai mancanti (non rispondenti) rispetto alle caratteristiche di interesse. Si distinguono due tipi di non risposta: la non risposta totale e la non risposta parziale. Con non risposta totale si riferisce al caso in cui non si ha nessuna informazione disponibile rilevata per unità campionarie. Mentre la non risposta parziale indica il caso in cui le informazioni rilevate sono tali da essere ritenute accettabili, ma alcune informazioni risultano mancanti. Le metodologie che si adottano per trattare le due tipologie di mancata risposta sono sostanzialmente diverse. In questo lavoro verrà trattato il caso delle non risposte parziali Meccanismo generatore dei dati mancanti Sia Y una matrice di dimensione n p di dati non completamente osservata, indichiamo con Y o la parte osservata di Y con Y m la parte mancante di Y. Supponiamo inoltre che R sia la matrice di dimensione n p degli indicatori di risposta, i cui elementi assumono valore zero o uno a seconda che il corrispondente elemento di Y sia mancante o osservato. Euristicamente, si può stabilire che il meccanismo generatore dei dati mancanti è MAR (Missing At Random) se la probabilità che una data osservazione sia mancante dipende da Y o ma non da Y. Un caso particolare di meccanismo MAR è il meccanismo MCAR (Missing Completely At Random), in questo caso la probabilità che una data osservazione sia mancante non dipende né da Y o né da Y m ; i dati mancanti sono essenzialmente un campione casuale dei dati osservabili. Se il processo generatore dei dati mancanti è MAR e il parametro del meccanismo generatore dei dati mancanti rispetto al Pagina 36 di 73

37 parametro del modello sui dati completi è distinto, allora il processo generatore dei dati mancanti è ignorabile. Formalmente, l'utilizzo di un meccanismo MAR implica che la distribuitone di R può dipendere da Y o ma non da Y m. p(r Y o, Y m )= p( R Y o ). (77) el caso del meccanismo MCAR si ha invece: p( R Y o, Y m )= p(r). (78) La definizione formale di ignorabilità del meccanismo dei dati mancanti è stata formulata da Rubin e Schafer ed è la seguente: siano φ e φ ' rispettivamente i parametri del modello dei dati ed i parametri del meccanismo generatore dei dati mancanti, se tali parametri sono distinti, ovvero la conoscenza dell uno non fornisce alcuna informazione sull altro, ed il meccanismo è MAR, ne consegue che il meccanismo dei dati mancanti è ignorabile. Tale assunzione è di fondamentale importanza in quanto permette di stimare il parametro incognito senza specificare la distribuzione dei dati mancanti. ella maggior parte delle situazioni, in cui i dati mancanti provengono da un processo di non risposta, la natura del processo generatore non è facilmente verificabile, tuttavia ci sono situazioni nelle quali possiamo avere la certezza sullo stato di ignorabilità del processo. Il pattern dei dati mancanti (missing data pattern) viene definito come l'insieme ordinato degli stati di risposta associato alla matrice dei dati Y, la matrice R definisce il pattern dei dati mancanti. Un caso particolare di pattern di dati mancanti è il pattern monotono. Siano Y 1, Y 2,...,Y p le variabili ordinate misurate, si definisce pattern monotono quando la mancanza della variabile Y j implica che tutte le variabili che seguono Y k, k > j, siano mancanti per tutte le unità. Pagina 37 di 73

38 Di contro, nel caso in cui una variabile Y j è osservata per una particolare unità anche tutte le variabili antecedenti Y k, k < j, risultano osservate per tutte le unità. 2.2 Imputazione dei dati mancanti el trattamento delle mancate risposte parziali la procedura comunemente utilizzata [8] [9], al fine al fine di ripristinare la completezza della matrice dei dati, è l imputazione, la quale consiste nell assegnazione di un valore sostitutivo del dato mancante. Taluni metodi per il trattamento dei dati mancanti, nel casi in cui la proporzione dei dati mancanti è molto ridotta, sono molto semplici, altri metodi sono piuttosto complessi e richiedono competenze specifiche sul problema. Svariati sono i metodi di imputazione disponibili in letteratura per determinare i valori sostitutivi per le mancate risposte parziali. In linea del tutto generale si posso distinguere tre classi di metodi: Metodi deduttivi: il valore imputato è ricostruito da relazioni o informazioni note. Metodi deterministici: imputazioni ripetute per unità aventi le stesse caratteristiche generano sempre i medesimi valori imputati. Metodi stocastici: nei quali imputazioni ripetute per unità aventi le stesse caratteristiche considerate possono produrre differenti valori imputati, si caratterizzano per la presenza di una componente aleatoria corrispondente ad uno schema probabilistico associato al particolare metodo d imputazione prescelto. Ad eccezione fatta dei metodi deduttivi, tutti i metodi di imputazione per le mancate risposte si basano, esplicitamente o implicitamente, sull'ipotesi che il meccanismo generatore dei dati mancanti sia MAR. el seguito verranno in dettaglio alcuni dei Pagina 38 di 73

1) Si consideri un esperimento che consiste nel lancio di 5 dadi. Lo spazio campionario:

1) Si consideri un esperimento che consiste nel lancio di 5 dadi. Lo spazio campionario: Esempi di domande risposta multipla (Modulo II) 1) Si consideri un esperimento che consiste nel lancio di 5 dadi. Lo spazio campionario: 1) ha un numero di elementi pari a 5; 2) ha un numero di elementi

Dettagli

Stima per intervalli Nei metodi di stima puntuale è sempre presente un ^ errore θ θ dovuto al fatto che la stima di θ in genere non coincide con il parametro θ. Sorge quindi l esigenza di determinare una

Dettagli

1. Distribuzioni campionarie

1. Distribuzioni campionarie Università degli Studi di Basilicata Facoltà di Economia Corso di Laurea in Economia Aziendale - a.a. 2012/2013 lezioni di statistica del 3 e 6 giugno 2013 - di Massimo Cristallo - 1. Distribuzioni campionarie

Dettagli

Slide Cerbara parte1 5. Le distribuzioni teoriche

Slide Cerbara parte1 5. Le distribuzioni teoriche Slide Cerbara parte1 5 Le distribuzioni teoriche I fenomeni biologici, demografici, sociali ed economici, che sono il principale oggetto della statistica, non sono retti da leggi matematiche. Però dalle

Dettagli

Matematica generale CTF

Matematica generale CTF Successioni numeriche 19 agosto 2015 Definizione di successione Monotonìa e limitatezza Forme indeterminate Successioni infinitesime Comportamento asintotico Criterio del rapporto per le successioni Definizione

Dettagli

11. Analisi statistica degli eventi idrologici estremi

11. Analisi statistica degli eventi idrologici estremi . Analisi statistica degli eventi idrologici estremi I processi idrologici evolvono, nello spazio e nel tempo, secondo modalità che sono in parte predicibili (deterministiche) ed in parte casuali (stocastiche

Dettagli

Un po di statistica. Christian Ferrari. Laboratorio di Matematica

Un po di statistica. Christian Ferrari. Laboratorio di Matematica Un po di statistica Christian Ferrari Laboratorio di Matematica 1 Introduzione La statistica è una parte della matematica applicata che si occupa della raccolta, dell analisi e dell interpretazione di

Dettagli

PROBABILITÀ - SCHEDA N. 2 LE VARIABILI ALEATORIE

PROBABILITÀ - SCHEDA N. 2 LE VARIABILI ALEATORIE Matematica e statistica: dai dati ai modelli alle scelte www.dima.unige/pls_statistica Responsabili scientifici M.P. Rogantin e E. Sasso (Dipartimento di Matematica Università di Genova) PROBABILITÀ -

Dettagli

CONCETTO DI LIMITE DI UNA FUNZIONE REALE

CONCETTO DI LIMITE DI UNA FUNZIONE REALE CONCETTO DI LIMITE DI UNA FUNZIONE REALE Il limite di una funzione è uno dei concetti fondamentali dell'analisi matematica. Tramite questo concetto viene formalizzata la nozione di funzione continua e

Dettagli

Probabilità condizionata: p(a/b) che avvenga A, una volta accaduto B. Evento prodotto: Evento in cui si verifica sia A che B ; p(a&b) = p(a) x p(b/a)

Probabilità condizionata: p(a/b) che avvenga A, una volta accaduto B. Evento prodotto: Evento in cui si verifica sia A che B ; p(a&b) = p(a) x p(b/a) Probabilità condizionata: p(a/b) che avvenga A, una volta accaduto B Eventi indipendenti: un evento non influenza l altro Eventi disgiunti: il verificarsi di un evento esclude l altro Evento prodotto:

Dettagli

Indici di dispersione

Indici di dispersione Indici di dispersione 1 Supponiamo di disporre di un insieme di misure e di cercare un solo valore che, meglio di ciascun altro, sia in grado di catturare le caratteristiche della distribuzione nel suo

Dettagli

Il concetto di valore medio in generale

Il concetto di valore medio in generale Il concetto di valore medio in generale Nella statistica descrittiva si distinguono solitamente due tipi di medie: - le medie analitiche, che soddisfano ad una condizione di invarianza e si calcolano tenendo

Dettagli

Relazioni statistiche: regressione e correlazione

Relazioni statistiche: regressione e correlazione Relazioni statistiche: regressione e correlazione È detto studio della connessione lo studio si occupa della ricerca di relazioni fra due variabili statistiche o fra una mutabile e una variabile statistica

Dettagli

Calcolo delle probabilità

Calcolo delle probabilità Calcolo delle probabilità Laboratorio di Bioinformatica Corso A aa 2005-2006 Statistica Dai risultati di un esperimento si determinano alcune caratteristiche della popolazione Calcolo delle probabilità

Dettagli

LE SUCCESSIONI 1. COS E UNA SUCCESSIONE

LE SUCCESSIONI 1. COS E UNA SUCCESSIONE LE SUCCESSIONI 1. COS E UNA SUCCESSIONE La sequenza costituisce un esempio di SUCCESSIONE. Ecco un altro esempio di successione: Una successione è dunque una sequenza infinita di numeri reali (ma potrebbe

Dettagli

Politecnico di Milano. Facoltà di Ingegneria Industriale. Corso di Analisi e Geometria 2. Sezione D-G. (Docente: Federico Lastaria).

Politecnico di Milano. Facoltà di Ingegneria Industriale. Corso di Analisi e Geometria 2. Sezione D-G. (Docente: Federico Lastaria). Politecnico di Milano. Facoltà di Ingegneria Industriale. Corso di Analisi e Geometria 2. Sezione D-G. (Docente: Federico Lastaria). Aprile 20 Indice Serie numeriche. Serie convergenti, divergenti, indeterminate.....................

Dettagli

Per lo svolgimento del corso risulta particolarmente utile considerare l insieme

Per lo svolgimento del corso risulta particolarmente utile considerare l insieme 1. L insieme R. Per lo svolgimento del corso risulta particolarmente utile considerare l insieme R = R {, + }, detto anche retta reale estesa, che si ottiene aggiungendo all insieme dei numeri reali R

Dettagli

LE FUNZIONI A DUE VARIABILI

LE FUNZIONI A DUE VARIABILI Capitolo I LE FUNZIONI A DUE VARIABILI In questo primo capitolo introduciamo alcune definizioni di base delle funzioni reali a due variabili reali. Nel seguito R denoterà l insieme dei numeri reali mentre

Dettagli

Statistica inferenziale

Statistica inferenziale Statistica inferenziale Popolazione e campione Molto spesso siamo interessati a trarre delle conclusioni su persone che hanno determinate caratteristiche (pazienti, atleti, bambini, gestanti, ) Osserveremo

Dettagli

Per studio di funzione intendiamo un insieme di procedure che hanno lo scopo di analizzare le proprietà di una funzione f ( x) R R

Per studio di funzione intendiamo un insieme di procedure che hanno lo scopo di analizzare le proprietà di una funzione f ( x) R R Studio di funzione Per studio di funzione intendiamo un insieme di procedure che hanno lo scopo di analizzare le proprietà di una funzione f ( x) R R : allo scopo di determinarne le caratteristiche principali.

Dettagli

Lezioni di Matematica 1 - I modulo

Lezioni di Matematica 1 - I modulo Lezioni di Matematica 1 - I modulo Luciano Battaia 16 ottobre 2008 Luciano Battaia - http://www.batmath.it Matematica 1 - I modulo. Lezione del 16/10/2008 1 / 13 L introduzione dei numeri reali si può

Dettagli

Corso di. Dott.ssa Donatella Cocca

Corso di. Dott.ssa Donatella Cocca Corso di Statistica medica e applicata Dott.ssa Donatella Cocca 1 a Lezione Cos'è la statistica? Come in tutta la ricerca scientifica sperimentale, anche nelle scienze mediche e biologiche è indispensabile

Dettagli

INTEGRALI DEFINITI. Tale superficie viene detta trapezoide e la misura della sua area si ottiene utilizzando il calcolo di un integrale definito.

INTEGRALI DEFINITI. Tale superficie viene detta trapezoide e la misura della sua area si ottiene utilizzando il calcolo di un integrale definito. INTEGRALI DEFINITI Sia nel campo scientifico che in quello tecnico si presentano spesso situazioni per affrontare le quali è necessario ricorrere al calcolo dell integrale definito. Vi sono infatti svariati

Dettagli

1 Serie di Taylor di una funzione

1 Serie di Taylor di una funzione Analisi Matematica 2 CORSO DI STUDI IN SMID CORSO DI ANALISI MATEMATICA 2 CAPITOLO 7 SERIE E POLINOMI DI TAYLOR Serie di Taylor di una funzione. Definizione di serie di Taylor Sia f(x) una funzione definita

Dettagli

La distribuzione Normale. La distribuzione Normale

La distribuzione Normale. La distribuzione Normale La Distribuzione Normale o Gaussiana è la distribuzione più importante ed utilizzata in tutta la statistica La curva delle frequenze della distribuzione Normale ha una forma caratteristica, simile ad una

Dettagli

SPC e distribuzione normale con Access

SPC e distribuzione normale con Access SPC e distribuzione normale con Access In questo articolo esamineremo una applicazione Access per il calcolo e la rappresentazione grafica della distribuzione normale, collegata con tabelle di Clienti,

Dettagli

E naturale chiedersi alcune cose sulla media campionaria x n

E naturale chiedersi alcune cose sulla media campionaria x n Supponiamo che un fabbricante stia introducendo un nuovo tipo di batteria per un automobile elettrica. La durata osservata x i delle i-esima batteria è la realizzazione (valore assunto) di una variabile

Dettagli

LEZIONE 3. Ing. Andrea Ghedi AA 2009/2010. Ing. Andrea Ghedi AA 2009/2010

LEZIONE 3. Ing. Andrea Ghedi AA 2009/2010. Ing. Andrea Ghedi AA 2009/2010 LEZIONE 3 "Educare significa aiutare l'animo dell'uomo ad entrare nella totalità della realtà. Non si può però educare se non rivolgendosi alla libertà, la quale definisce il singolo, l'io. Quando uno

Dettagli

Dimensione di uno Spazio vettoriale

Dimensione di uno Spazio vettoriale Capitolo 4 Dimensione di uno Spazio vettoriale 4.1 Introduzione Dedichiamo questo capitolo ad un concetto fondamentale in algebra lineare: la dimensione di uno spazio vettoriale. Daremo una definizione

Dettagli

Prova di autovalutazione Prof. Roberta Siciliano

Prova di autovalutazione Prof. Roberta Siciliano Prova di autovalutazione Prof. Roberta Siciliano Esercizio 1 Nella seguente tabella è riportata la distribuzione di frequenza dei prezzi per camera di alcuni agriturismi, situati nella regione Basilicata.

Dettagli

PROBABILITA, VALORE ATTESO E VARIANZA DELLE QUANTITÁ ALEATORIE E LORO RELAZIONE CON I DATI OSSERVATI

PROBABILITA, VALORE ATTESO E VARIANZA DELLE QUANTITÁ ALEATORIE E LORO RELAZIONE CON I DATI OSSERVATI statistica, Università Cattaneo-Liuc, AA 006-007, lezione del 08.05.07 IDICE (lezione 08.05.07 PROBABILITA, VALORE ATTESO E VARIAZA DELLE QUATITÁ ALEATORIE E LORO RELAZIOE CO I DATI OSSERVATI 3.1 Valore

Dettagli

Facciamo qualche precisazione

Facciamo qualche precisazione Abbiamo introdotto alcuni indici statistici (di posizione, di variabilità e di forma) ottenibili da Excel con la funzione Riepilogo Statistiche Facciamo qualche precisazione Al fine della partecipazione

Dettagli

Misure della dispersione o della variabilità

Misure della dispersione o della variabilità QUARTA UNITA Misure della dispersione o della variabilità Abbiamo visto che un punteggio di per sé non ha alcun significato e lo acquista solo quando è posto a confronto con altri punteggi o con una statistica.

Dettagli

1. PRIME PROPRIETÀ 2

1. PRIME PROPRIETÀ 2 RELAZIONI 1. Prime proprietà Il significato comune del concetto di relazione è facilmente intuibile: due elementi sono in relazione se c è un legame tra loro descritto da una certa proprietà; ad esempio,

Dettagli

Elementi di Psicometria con Laboratorio di SPSS 1

Elementi di Psicometria con Laboratorio di SPSS 1 Elementi di Psicometria con Laboratorio di SPSS 1 5-Indici di variabilità (vers. 1.0c, 20 ottobre 2015) Germano Rossi 1 germano.rossi@unimib.it 1 Dipartimento di Psicologia, Università di Milano-Bicocca

Dettagli

Metodi statistici per le ricerche di mercato

Metodi statistici per le ricerche di mercato Metodi statistici per le ricerche di mercato Prof.ssa Isabella Mingo A.A. 2014-2015 Facoltà di Scienze Politiche, Sociologia, Comunicazione Corso di laurea Magistrale in «Organizzazione e marketing per

Dettagli

Esponenziali elogaritmi

Esponenziali elogaritmi Esponenziali elogaritmi Potenze ad esponente reale Ricordiamo che per un qualsiasi numero razionale m n prendere n>0) si pone a m n = n a m (in cui si può sempre a patto che a sia un numero reale positivo.

Dettagli

u 1 u k che rappresenta formalmente la somma degli infiniti numeri (14.1), ordinati al crescere del loro indice. I numeri u k

u 1 u k che rappresenta formalmente la somma degli infiniti numeri (14.1), ordinati al crescere del loro indice. I numeri u k Capitolo 4 Serie numeriche 4. Serie convergenti, divergenti, indeterminate Data una successione di numeri reali si chiama serie ad essa relativa il simbolo u +... + u +... u, u 2,..., u,..., (4.) oppure

Dettagli

2. Leggi finanziarie di capitalizzazione

2. Leggi finanziarie di capitalizzazione 2. Leggi finanziarie di capitalizzazione Si chiama legge finanziaria di capitalizzazione una funzione atta a definire il montante M(t accumulato al tempo generico t da un capitale C: M(t = F(C, t C t M

Dettagli

Capitolo 13: L offerta dell impresa e il surplus del produttore

Capitolo 13: L offerta dell impresa e il surplus del produttore Capitolo 13: L offerta dell impresa e il surplus del produttore 13.1: Introduzione L analisi dei due capitoli precedenti ha fornito tutti i concetti necessari per affrontare l argomento di questo capitolo:

Dettagli

STATISTICA IX lezione

STATISTICA IX lezione Anno Accademico 013-014 STATISTICA IX lezione 1 Il problema della verifica di un ipotesi statistica In termini generali, si studia la distribuzione T(X) di un opportuna grandezza X legata ai parametri

Dettagli

CAPITOLO 16 SUCCESSIONI E SERIE DI FUNZIONI

CAPITOLO 16 SUCCESSIONI E SERIE DI FUNZIONI CAPITOLO 16 SUCCESSIONI E SERIE DI FUNZIONI Abbiamo studiato successioni e serie numeriche, ora vogliamo studiare successioni e serie di funzioni. Dato un insieme A R, chiamiamo successione di funzioni

Dettagli

Statistica. Lezione 6

Statistica. Lezione 6 Università degli Studi del Piemonte Orientale Corso di Laurea in Infermieristica Corso integrato in Scienze della Prevenzione e dei Servizi sanitari Statistica Lezione 6 a.a 011-01 Dott.ssa Daniela Ferrante

Dettagli

Le funzioni continue. A. Pisani Liceo Classico Dante Alighieri A.S. 2002-03. A. Pisani, appunti di Matematica 1

Le funzioni continue. A. Pisani Liceo Classico Dante Alighieri A.S. 2002-03. A. Pisani, appunti di Matematica 1 Le funzioni continue A. Pisani Liceo Classico Dante Alighieri A.S. -3 A. Pisani, appunti di Matematica 1 Nota bene Questi appunti sono da intendere come guida allo studio e come riassunto di quanto illustrato

Dettagli

LEZIONE 7. Esercizio 7.1. Quale delle seguenti funzioni è decrescente in ( 3, 0) e ha derivata prima in 3 che vale 0? x 3 3 + x2. 2, x3 +2x +3.

LEZIONE 7. Esercizio 7.1. Quale delle seguenti funzioni è decrescente in ( 3, 0) e ha derivata prima in 3 che vale 0? x 3 3 + x2. 2, x3 +2x +3. 7 LEZIONE 7 Esercizio 7.1. Quale delle seguenti funzioni è decrescente in ( 3, 0) e ha derivata prima in 3 che vale 0? x 3 3 + x2 2 6x, x3 +2x 2 6x, 3x + x2 2, x3 +2x +3. Le derivate sono rispettivamente,

Dettagli

CAPITOLO 8 LA VERIFICA D IPOTESI. I FONDAMENTI

CAPITOLO 8 LA VERIFICA D IPOTESI. I FONDAMENTI VERO FALSO CAPITOLO 8 LA VERIFICA D IPOTESI. I FONDAMENTI 1. V F Un ipotesi statistica è un assunzione sulle caratteristiche di una o più variabili in una o più popolazioni 2. V F L ipotesi nulla unita

Dettagli

Corso di Matematica per la Chimica

Corso di Matematica per la Chimica Dott.ssa Maria Carmela De Bonis a.a. 203-4 I sistemi lineari Generalità sui sistemi lineari Molti problemi dell ingegneria, della fisica, della chimica, dell informatica e dell economia, si modellizzano

Dettagli

Basi di matematica per il corso di micro

Basi di matematica per il corso di micro Basi di matematica per il corso di micro Microeconomia (anno accademico 2006-2007) Lezione del 21 Marzo 2007 Marianna Belloc 1 Le funzioni 1.1 Definizione Una funzione è una regola che descrive una relazione

Dettagli

Corrispondenze e funzioni

Corrispondenze e funzioni Corrispondenze e funzioni L attività fondamentale della mente umana consiste nello stabilire corrispondenze e relazioni tra oggetti; è anche per questo motivo che il concetto di corrispondenza è uno dei

Dettagli

VERIFICA DELLE IPOTESI

VERIFICA DELLE IPOTESI VERIFICA DELLE IPOTESI Nella verifica delle ipotesi è necessario fissare alcune fasi prima di iniziare ad analizzare i dati. a) Si deve stabilire quale deve essere l'ipotesi nulla (H0) e quale l'ipotesi

Dettagli

FUNZIONI ELEMENTARI - ESERCIZI SVOLTI

FUNZIONI ELEMENTARI - ESERCIZI SVOLTI FUNZIONI ELEMENTARI - ESERCIZI SVOLTI 1) Determinare il dominio delle seguenti funzioni di variabile reale: (a) f(x) = x 4 (c) f(x) = 4 x x + (b) f(x) = log( x + x) (d) f(x) = 1 4 x 5 x + 6 ) Data la funzione

Dettagli

ESAME DI STATO DI LICEO SCIENTIFICO CORSO SPERIMENTALE P.N.I. 2004

ESAME DI STATO DI LICEO SCIENTIFICO CORSO SPERIMENTALE P.N.I. 2004 ESAME DI STAT DI LICE SCIENTIFIC CRS SPERIMENTALE P.N.I. 004 Il candidato risolva uno dei due problemi e 5 dei 0 quesiti in cui si articola il questionario. PRBLEMA Sia la curva d equazione: ke ove k e

Dettagli

Corso di Psicometria Progredito

Corso di Psicometria Progredito Corso di Psicometria Progredito 3.1 Introduzione all inferenza statistica Prima Parte Gianmarco Altoè Dipartimento di Pedagogia, Psicologia e Filosofia Università di Cagliari, Anno Accademico 2013-2014

Dettagli

Analisi statistica degli errori

Analisi statistica degli errori Analisi statistica degli errori I valori numerici di misure ripetute risultano ogni volta diversi l operazione di misura può essere considerata un evento casuale a cui è associata una variabile casuale

Dettagli

Capitolo 2 Distribuzioni di frequenza

Capitolo 2 Distribuzioni di frequenza Edizioni Simone - Vol. 43/1 Compendio di statistica Capitolo 2 Distribuzioni di frequenza Sommario 1. Distribuzioni semplici. - 2. Distribuzioni doppie. - 3. Distribuzioni parziali: condizionate e marginali.

Dettagli

VARIABILI ALEATORIE CONTINUE

VARIABILI ALEATORIE CONTINUE VARIABILI ALEATORIE CONTINUE Se X è una variabile aleatoria continua, la probabilità che X assuma un certo valore x fissato è in generale zero, quindi non ha senso definire una distribuzione di probabilità

Dettagli

CONTINUITÀ E DERIVABILITÀ Esercizi proposti. 1. Determinare lim M(sinx) (M(t) denota la mantissa di t)

CONTINUITÀ E DERIVABILITÀ Esercizi proposti. 1. Determinare lim M(sinx) (M(t) denota la mantissa di t) CONTINUITÀ E DERIVABILITÀ Esercizi proposti 1. Determinare lim M(sin) (M(t) denota la mantissa di t) kπ/ al variare di k in Z. Ove tale limite non esista, discutere l esistenza dei limiti laterali. Identificare

Dettagli

~ Copyright Ripetizionando - All rights reserved ~ http://ripetizionando.wordpress.com STUDIO DI FUNZIONE

~ Copyright Ripetizionando - All rights reserved ~ http://ripetizionando.wordpress.com STUDIO DI FUNZIONE STUDIO DI FUNZIONE Passaggi fondamentali Per effettuare uno studio di funzione completo, che non lascia quindi margine a una quasi sicuramente errata inventiva, sono necessari i seguenti 7 passaggi: 1.

Dettagli

10. Insiemi non misurabili secondo Lebesgue.

10. Insiemi non misurabili secondo Lebesgue. 10. Insiemi non misurabili secondo Lebesgue. Lo scopo principale di questo capitolo è quello di far vedere che esistono sottoinsiemi di R h che non sono misurabili secondo Lebesgue. La costruzione di insiemi

Dettagli

1. Richiami di Statistica. Stefano Di Colli

1. Richiami di Statistica. Stefano Di Colli 1. Richiami di Statistica Metodi Statistici per il Credito e la Finanza Stefano Di Colli Dati: Fonti e Tipi I dati sperimentali sono provenienti da un contesto delimitato, definito per rispettare le caratteristiche

Dettagli

3. Confronto tra medie di due campioni indipendenti o appaiati

3. Confronto tra medie di due campioni indipendenti o appaiati BIOSTATISTICA 3. Confronto tra medie di due campioni indipendenti o appaiati Marta Blangiardo, Imperial College, London Department of Epidemiology and Public Health m.blangiardo@imperial.ac.uk MARTA BLANGIARDO

Dettagli

Fondamenti e didattica di Matematica Finanziaria

Fondamenti e didattica di Matematica Finanziaria Fondamenti e didattica di Matematica Finanziaria Silvana Stefani Piazza dell Ateneo Nuovo 1-20126 MILANO U6-368 silvana.stefani@unimib.it 1 Unità 9 Contenuti della lezione Operazioni finanziarie, criterio

Dettagli

Intorni Fissato un punto sull' asse reale, si definisce intorno del punto, un intervallo aperto contenente e tutto contenuto in

Intorni Fissato un punto sull' asse reale, si definisce intorno del punto, un intervallo aperto contenente e tutto contenuto in Intorni Fissato un punto sull' asse reale, si definisce intorno del punto, un intervallo aperto contenente e tutto contenuto in Solitamente si fa riferimento ad intorni simmetrici =, + + Definizione: dato

Dettagli

ESERCITAZIONE 13 : STATISTICA DESCRITTIVA E ANALISI DI REGRESSIONE

ESERCITAZIONE 13 : STATISTICA DESCRITTIVA E ANALISI DI REGRESSIONE ESERCITAZIONE 13 : STATISTICA DESCRITTIVA E ANALISI DI REGRESSIONE e-mail: tommei@dm.unipi.it web: www.dm.unipi.it/ tommei Ricevimento: su appuntamento Dipartimento di Matematica, piano terra, studio 114

Dettagli

FUNZIONE REALE DI UNA VARIABILE

FUNZIONE REALE DI UNA VARIABILE FUNZIONE REALE DI UNA VARIABILE Funzione: legge che ad ogni elemento di un insieme D (Dominio) tale che D R, fa corrispondere un elemento y R ( R = Codominio ). f : D R : f () = y ; La funzione f(): A

Dettagli

Un gioco con tre dadi

Un gioco con tre dadi Un gioco con tre dadi Livello scolare: biennio Abilità interessate Costruire lo spazio degli eventi in casi semplici e determinarne la cardinalità. Valutare la probabilità in diversi contesti problematici.

Dettagli

Capitolo 1 ANALISI COMPLESSA

Capitolo 1 ANALISI COMPLESSA Capitolo 1 ANALISI COMPLESSA 1 1.4 Serie in campo complesso 1.4.1 Serie di potenze Una serie di potenze è una serie del tipo a k (z z 0 ) k. Per le serie di potenze in campo complesso valgono teoremi analoghi

Dettagli

La variabile casuale Binomiale

La variabile casuale Binomiale La variabile casuale Binomiale Si costruisce a partire dalla nozione di esperimento casuale Bernoulliano che consiste in un insieme di prove ripetute con le seguenti caratteristiche: i) ad ogni singola

Dettagli

Grafici delle distribuzioni di frequenza

Grafici delle distribuzioni di frequenza Grafici delle distribuzioni di frequenza L osservazione del grafico può far notare irregolarità o comportamenti anomali non direttamente osservabili sui dati; ad esempio errori di misurazione 1) Diagramma

Dettagli

Statistica descrittiva

Statistica descrittiva Statistica descrittiva La statistica descrittiva mette a disposizione il calcolo di indicatori sintetici che individuano, con un singolo valore, proprieta` statistiche di un campione/popolazione rispetto

Dettagli

SERIE NUMERICHE. prof. Antonio Greco 6-11-2013

SERIE NUMERICHE. prof. Antonio Greco 6-11-2013 SERIE NUMERICHE prof. Antonio Greco 6--203 Indice Motivazioni........... 3 Definizione........... 3 Errore tipico........... 3 Un osservazione utile...... 3 Condizione necessaria...... 4 Serie armonica.........

Dettagli

Ottimizazione vincolata

Ottimizazione vincolata Ottimizazione vincolata Ricordiamo alcuni risultati provati nella scheda sulla Teoria di Dini per una funzione F : R N+M R M di classe C 1 con (x 0, y 0 ) F 1 (a), a = (a 1,, a M ), punto in cui vale l

Dettagli

Capitolo 2. Operazione di limite

Capitolo 2. Operazione di limite Capitolo 2 Operazione di ite In questo capitolo vogliamo occuparci dell operazione di ite, strumento indispensabile per scoprire molte proprietà delle funzioni. D ora in avanti riguarderemo i domini A

Dettagli

Applicazioni del calcolo differenziale allo studio delle funzioni

Applicazioni del calcolo differenziale allo studio delle funzioni Capitolo 9 9.1 Crescenza e decrescenza in piccolo; massimi e minimi relativi Sia y = f(x) una funzione definita nell intervallo A; su di essa non facciamo, per ora, alcuna particolare ipotesi (né di continuità,

Dettagli

APPUNTI DI MATEMATICA LE FRAZIONI ALGEBRICHE ALESSANDRO BOCCONI

APPUNTI DI MATEMATICA LE FRAZIONI ALGEBRICHE ALESSANDRO BOCCONI APPUNTI DI MATEMATICA LE FRAZIONI ALGEBRICHE ALESSANDRO BOCCONI Indice 1 Le frazioni algebriche 1.1 Il minimo comune multiplo e il Massimo Comun Divisore fra polinomi........ 1. Le frazioni algebriche....................................

Dettagli

Funzione reale di variabile reale

Funzione reale di variabile reale Funzione reale di variabile reale Siano A e B due sottoinsiemi non vuoti di. Si chiama funzione reale di variabile reale, di A in B, una qualsiasi legge che faccia corrispondere, a ogni elemento A x A

Dettagli

LEZIONE n. 5 (a cura di Antonio Di Marco)

LEZIONE n. 5 (a cura di Antonio Di Marco) LEZIONE n. 5 (a cura di Antonio Di Marco) IL P-VALUE (α) Data un ipotesi nulla (H 0 ), questa la si può accettare o rifiutare in base al valore del p- value. In genere il suo valore è un numero molto piccolo,

Dettagli

Funzioni funzione dominio codominio legge argomento variabile indipendente variabile dipendente

Funzioni funzione dominio codominio legge argomento variabile indipendente variabile dipendente Funzioni In matematica, una funzione f da X in Y consiste in: 1. un insieme X detto dominio di f 2. un insieme Y detto codominio di f 3. una legge che ad ogni elemento x in X associa uno ed un solo elemento

Dettagli

Lezione 10: Il problema del consumatore: Preferenze e scelta ottimale

Lezione 10: Il problema del consumatore: Preferenze e scelta ottimale Corso di Scienza Economica (Economia Politica) prof. G. Di Bartolomeo Lezione 10: Il problema del consumatore: Preferenze e scelta ottimale Facoltà di Scienze della Comunicazione Università di Teramo Scelta

Dettagli

Probabilità discreta

Probabilità discreta Probabilità discreta Daniele A. Gewurz 1 Che probabilità c è che succeda...? Una delle applicazioni della combinatoria è nel calcolo di probabilità discrete. Quando abbiamo a che fare con un fenomeno che

Dettagli

Università di Firenze - Corso di laurea in Statistica Seconda prova intermedia di Statistica. 18 dicembre 2008

Università di Firenze - Corso di laurea in Statistica Seconda prova intermedia di Statistica. 18 dicembre 2008 Università di Firenze - Corso di laurea in Statistica Seconda prova intermedia di Statistica 18 dicembre 008 Esame sull intero programma: esercizi da A a D Esame sulla seconda parte del programma: esercizi

Dettagli

Controlli Automatici T. Trasformata di Laplace e Funzione di trasferimento. Parte 3 Aggiornamento: Settembre 2010. Prof. L.

Controlli Automatici T. Trasformata di Laplace e Funzione di trasferimento. Parte 3 Aggiornamento: Settembre 2010. Prof. L. Parte 3 Aggiornamento: Settembre 2010 Parte 3, 1 Trasformata di Laplace e Funzione di trasferimento Prof. Lorenzo Marconi DEIS-Università di Bologna Tel. 051 2093788 Email: lmarconi@deis.unibo.it URL:

Dettagli

Limiti e continuità delle funzioni reali a variabile reale

Limiti e continuità delle funzioni reali a variabile reale Limiti e continuità delle funzioni reali a variabile reale Roberto Boggiani Versione 4.0 9 dicembre 2003 1 Esempi che inducono al concetto di ite Per introdurre il concetto di ite consideriamo i seguenti

Dettagli

Analisi di dati di frequenza

Analisi di dati di frequenza Analisi di dati di frequenza Fase di raccolta dei dati Fase di memorizzazione dei dati in un foglio elettronico 0 1 1 1 Frequenze attese uguali Si assuma che dalle risposte al questionario sullo stato

Dettagli

Consideriamo due polinomi

Consideriamo due polinomi Capitolo 3 Il luogo delle radici Consideriamo due polinomi N(z) = (z z 1 )(z z 2 )... (z z m ) D(z) = (z p 1 )(z p 2 )... (z p n ) della variabile complessa z con m < n. Nelle problematiche connesse al

Dettagli

3 GRAFICI DI FUNZIONI

3 GRAFICI DI FUNZIONI 3 GRAFICI DI FUNZIONI Particolari sottoinsiemi di R che noi studieremo sono i grafici di funzioni. Il grafico di una funzione f (se non è specificato il dominio di definizione) è dato da {(x, y) : x dom

Dettagli

Sistemi di Numerazione Binaria NB.1

Sistemi di Numerazione Binaria NB.1 Sistemi di Numerazione Binaria NB.1 Numeri e numerali Numero: entità astratta Numerale : stringa di caratteri che rappresenta un numero in un dato sistema di numerazione Lo stesso numero è rappresentato

Dettagli

OSSERVAZIONI TEORICHE Lezione n. 4

OSSERVAZIONI TEORICHE Lezione n. 4 OSSERVAZIONI TEORICHE Lezione n. 4 Finalità: Sistematizzare concetti e definizioni. Verificare l apprendimento. Metodo: Lettura delle OSSERVAZIONI e risoluzione della scheda di verifica delle conoscenze

Dettagli

Matematica II: Calcolo delle Probabilità e Statistica Matematica

Matematica II: Calcolo delle Probabilità e Statistica Matematica Matematica II: Calcolo delle Probabilità e Statistica Matematica ELT A-Z Docente: dott. F. Zucca Esercitazione # Esercizi Statistica Descrittiva Esercizio I gruppi sanguigni di persone sono B, B, AB, O,

Dettagli

Statistica. Alfonso Iodice D Enza iodicede@unina.it

Statistica. Alfonso Iodice D Enza iodicede@unina.it Statistica Alfonso Iodice D Enza iodicede@unina.it Università degli studi di Cassino () Statistica 1 / 16 Outline 1 () Statistica 2 / 16 Outline 1 2 () Statistica 2 / 16 Outline 1 2 () Statistica 2 / 16

Dettagli

Matematica e Statistica

Matematica e Statistica Matematica e Statistica Prova d esame (0/07/03) Università di Verona - Laurea in Biotecnologie - A.A. 0/3 Matematica e Statistica Prova di MATEMATICA (0/07/03) Università di Verona - Laurea in Biotecnologie

Dettagli

LA FUNZIONE INTEGRALE

LA FUNZIONE INTEGRALE LA FUNZIONE INTEGRALE MAGLIOCURIOSO & CAMILLO magliocurioso@hotmail.it Sommario. In questa breve dispensa ho semplicementrascritto in L A TEX il contenuto di questa discussione: http://www.matematicamente.it/forum/

Dettagli

1 Giochi a due, con informazione perfetta e somma zero

1 Giochi a due, con informazione perfetta e somma zero 1 Giochi a due, con informazione perfetta e somma zero Nel gioco del Nim, se semplificato all estremo, ci sono due giocatori I, II e una pila di 6 pedine identiche In ogni turno di gioco I rimuove una

Dettagli

LEZIONE 23. Esempio 23.1.3. Si consideri la matrice (si veda l Esempio 22.2.5) A = 1 2 2 3 3 0

LEZIONE 23. Esempio 23.1.3. Si consideri la matrice (si veda l Esempio 22.2.5) A = 1 2 2 3 3 0 LEZIONE 23 231 Diagonalizzazione di matrici Abbiamo visto nella precedente lezione che, in generale, non è immediato che, data una matrice A k n,n con k = R, C, esista sempre una base costituita da suoi

Dettagli

CENNI DI METODI STATISTICI

CENNI DI METODI STATISTICI Corso di Laurea in Ingegneria Aerospaziale CENNI DI METODI STATISTICI Docente: Page 1 Page 2 Page 3 Due eventi si dicono indipendenti quando il verificarsi di uno non influisce sulla probabilità di accadimento

Dettagli

Come descrivere un fenomeno in ambito sanitario fondamenti di statistica descrittiva. Brugnaro Luca

Come descrivere un fenomeno in ambito sanitario fondamenti di statistica descrittiva. Brugnaro Luca Come descrivere un fenomeno in ambito sanitario fondamenti di statistica descrittiva Brugnaro Luca Progetto formativo complessivo Obiettivo: incrementare le competenze degli operatori sanitari nelle metodiche

Dettagli

La categoria «ES» presenta (di solito) gli stessi comandi

La categoria «ES» presenta (di solito) gli stessi comandi Utilizzo delle calcolatrici FX 991 ES+ Parte II PARMA, 11 Marzo 2014 Prof. Francesco Bologna bolfra@gmail.com ARGOMENTI DELLA LEZIONE 1. Richiami lezione precedente 2.Calcolo delle statistiche di regressione:

Dettagli

f(x) = 1 x. Il dominio di questa funzione è il sottoinsieme proprio di R dato da

f(x) = 1 x. Il dominio di questa funzione è il sottoinsieme proprio di R dato da Data una funzione reale f di variabile reale x, definita su un sottoinsieme proprio D f di R (con questo voglio dire che il dominio di f è un sottoinsieme di R che non coincide con tutto R), ci si chiede

Dettagli

Automazione Industriale (scheduling+mms) scheduling+mms. adacher@dia.uniroma3.it

Automazione Industriale (scheduling+mms) scheduling+mms. adacher@dia.uniroma3.it Automazione Industriale (scheduling+mms) scheduling+mms adacher@dia.uniroma3.it Introduzione Sistemi e Modelli Lo studio e l analisi di sistemi tramite una rappresentazione astratta o una sua formalizzazione

Dettagli

19. Inclusioni tra spazi L p.

19. Inclusioni tra spazi L p. 19. Inclusioni tra spazi L p. Nel n. 15.1 abbiamo provato (Teorema 15.1.1) che, se la misura µ è finita, allora tra i corispondenti spazi L p (µ) si hanno le seguenti inclusioni: ( ) p, r ]0, + [ : p

Dettagli