Ulteriori Conoscenze di Informatica e Statistica

Documenti analoghi
Probabilità classica. Distribuzioni e leggi di probabilità. Probabilità frequentista. Probabilità soggettiva

DISTRIBUZIONI DI PROBABILITA

Distribuzioni e inferenza statistica

Vedi: Probabilità e cenni di statistica

3.1 Classificazione dei fenomeni statistici Questionari e scale di modalità Classificazione delle scale di modalità 17

Distribuzioni di probabilità

Schema lezione 5 Intervalli di confidenza

Distribuzioni campionarie

Il campionamento e l inferenza. Il campionamento e l inferenza

DESCRITTIVE, TEST T PER IL CONFRONTO DELLE MEDIE DI CAMPIONI INDIPENDENTI.

DISTRIBUZIONI DI PROBABILITA

Teoria e tecniche dei test. Concetti di base

Laboratorio di Didattica di elaborazione dati 5 STIMA PUNTUALE DEI PARAMETRI. x i. SE = n.

Distribuzione di Probabilità

Note sulla probabilità

Casa dello Studente. Casa dello Studente

Due variabili aleatorie X ed Y si dicono indipendenti se comunque dati due numeri reali a e b si ha. P {X = a, Y = b} = P {X = a}p {Y = b}

Sommario. Capitolo 1 I dati e la statistica 1. Capitolo 2 Statistica descrittiva: tabelle e rappresentazioni grafiche 25

UNIVERSITÀ DEGLI STUDI DI PERUGIA

La SCALA di Probabilità varia tra 0.00 e 1.00.

Statistica ARGOMENTI. Calcolo combinatorio

Intervalli di confidenza

Distribuzioni di Probabilità

Variabili casuali ad una dimensione Testi degli esercizi. Variabili casuali ad una dimensione a.a. 2012/2013 1

Statistica Metodologica Avanzato Test 1: Concetti base di inferenza

STATISTICA (2) ESERCITAZIONE Dott.ssa Antonella Costanzo

Capitolo 5 Confidenza, significatività, test di Student e del χ 2

Lezione 3 Calcolo delle probabilità

3. Distribuzioni. Corso di Simulazione. Anno accademico 2006/07

L indagine campionaria Lezione 3

LEZIONI IN LABORATORIO Corso di MARKETING L. Baldi Università degli Studi di Milano. Strumenti statistici in Excell

Statistica. V Scuola Estiva AISV La statistica come strumento di analisi nelle scienze umanistiche e comportamentali

Variabili aleatorie continue

Modelli descrittivi, statistica e simulazione

Esercitazione 8 maggio 2014

Popolazione. Campione. I risultati di un esperimento sono variabili aleatorie. I valori stimati sono variabili aleatorie. Teorema del limite centrale

ISTOGRAMMI E DISTRIBUZIONI:

LA DISTRIBUZIONE NORMALE (Vittorio Colagrande)

Teorema del limite centrale TCL

Teoria della probabilità Variabili casuali

Statistica. Esercitazione 4 17 febbraio 2011 Medie condizionate. Covarianza e correlazione

Esercitazione: La distribuzione NORMALE

DISTRIBUZIONE NORMALE (1)

Il Corso di Fisica per Scienze Biologiche

Modulo di Statistica e Tecnologia (Dott. Giorgio Poletti

Esame di Statistica (10 o 12 CFU) CLEF 11 febbraio 2016

Esercizi di Calcolo delle Probabilità

Probabilita' mediante l'analisi combinatoria D n,k =Disposizioni di n oggetti a k a k (o di classe k)

Corso integrato di informatica, statistica e analisi dei dati sperimentali Esercitazione VII

Esercitazioni di statistica

esperimento casuale: è un esperimento condotto sotto l effetto del caso; evento elementare: ciascuno dei possibili esiti di un esperimento casuale;

Elementi di base su modello binomiale e modello normale

Fin qui si sono considerate le variabili casuali ciascuna per proprio conto. Ora consideriamo la possibilità di relazioni tra variabili.

Americani Inglesi Firenze Roma Provare l ipotesi che la nazionalità non influisca sulla scelta della meta.

Incertezza di Misura: Concetti di Base

Corso di Laurea in Ingegneria Informatica e Automatica (M-Z) Università di Roma La Sapienza

Ψ PSICOMETRIA. Corso di laurea triennale (classe 34) STATISTICA INFERENZIALE

Università del Piemonte Orientale. Corso di laurea in medicina e chirurgia. Corso di Statistica Medica. La distribuzione t - student

Statistica. Alfonso Iodice D Enza

Statistica. Esercitazione 4 15 maggio 2012 Connessione. Medie condizionate. Covarianza e correlazione

STATISTICA ESERCITAZIONE

Un esempio. Ipotesi statistica: supposizione riguardante: un parametro della popolazione. la forma della distribuzione della popolazione

Elementi di Statistica

Proprietà della varianza

PRINCIPALI DISTRIBUZIONI DI PROBABILITA. Psicometria 1 - Lezione 9 Lucidi presentati a lezione AA 2000/2001 dott. Corrado Caudek

Statistica 1 A.A. 2015/2016

Capitolo 6. La distribuzione normale

Lezione 12. Statistica. Alfonso Iodice D Enza Università degli studi di Cassino. Lezione 12. A. Iodice.

Statistica. POPOLAZIONE: serie di dati, che rappresenta linsieme che si vuole indagare (reali, sperimentali, matematici)

1.4. Siano X B(1, 1/2) e Y B(1, 1/2) variabili aleatorie indipendenti. Quale delle seguenti affermazioni é falsa? E(X + Y ) = 1 V ar(x + Y ) = 1/2

Σ (x i - x) 2 = Σ x i 2 - (Σ x i ) 2 / n Σ (y i - y) 2 = Σ y i 2 - (Σ y i ) 2 / n. 13. Regressione lineare parametrica

Il test (o i test) del Chi-quadrato ( 2 )

Variabili aleatorie Parte I

Statistica, a.a. 2010/2011 Docente: D. Dabergami Lezione 4

LA DISTRIBUZIONE NORMALE

Per capire qual è l altezza media degli italiani è stato intervistato un campione di 1523 cittadini. La media campionaria dell altezza risulta essere:

Distribuzioni campionarie. Antonello Maruotti

STATISTICA: esercizi svolti sulle VARIABILI CASUALI

Esercitazioni di Statistica Matematica A Lezione 2. Variabili con distribuzione gaussiana

Metodologie statistiche per l analisi del rischio ELEMENTI DI PROBABILITÀ PER L ANALISI DEL RISCHIO

Programmazione con Foglio di Calcolo Cenni di Statistica Descrittiva

Statistica. Alfonso Iodice D Enza

La dipendenza. Antonello Maruotti

TECNICHE DI ANALISI DEI DATI

Università del Piemonte Orientale Specializzazioni di area sanitaria Statistica Medica

Esercitazione 8 del corso di Statistica 2

Statistica descrittiva II

STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA

Premessa: la dipendenza in media

Modulo di Statistica e Tecnologia (Dott. Giorgio Poletti

ELABORAZIONE ED ANALISI STATISTICA DEI DATI

Università del Piemonte Orientale. Corsi di laurea triennale di area tecnica. Corso di Statistica e Biometria. Test di ipotesi

1 4 Esempio 2. Si determini la distribuzione di probabilità della variabile casuale X = punteggio ottenuto lanciando un dado. Si ha immediatamente:

b) E necessario formulare delle ipotesi per calcolare l intervallo di confidenza ottenuto al punto a? (motivare brevemente la risposta):

Esercitazioni di Statistica Matematica A Esercitatori: Dott. Fabio Zucca - Dott. Maurizio U. Dini Lezioni del 7/1/2003 e del 14/1/2003

Esercizi riassuntivi di Inferenza

Statistica Inferenziale

Il confronto fra medie

V.C. RETTANGOLARE o UNIFORME

Misure di dispersione (o di variabilità)

Transcript:

ndici di forma Ulteriori Conoscenze di nformatica e Statistica Descrivono le asimmetrie della distribuzione Carlo Meneghini Dip. di fisica via della Vasca Navale 84, st. 83 ( piano) tel.: 06 55 17 72 17 meneghini@fis.uniroma3.it Una distribuzione non simmetrica si dice obliqua Momenti della distribuzione Distribuzione obliqua sx: la media è minore della mediana Distribuzione obliqua dx: la media è maggiore della mediana Momenti centrali (momenti rispetto alla media) f i = frequenza relativa N i frequenza assoluta Media = m o varianza = σ 2 = M 2 Curtosi (Kurtosis) (a 4 ) Coefficiente di asimmetria (a simm ) Skewness per la distribuzione Normale (Gauss) a simm = 0 per la distribuzione Normale (Gauss) a 4 = 3 a 4 > 3 indica una distribuzione più piatta di una Gaussiana a 4 < 3 indica una distribuzione più piccata di una Gaussiana 1

Centratura e standardizzazione Se x è una variabile aleatoria caratterizzata da valor medio μ e varianza σ 2 la variabile Z = (x μ)/σ È una variabile aleatoria con media nulla e varianza unitaria Guppi Tabelle di contingenza Ad ogni valore i-esimo della variabile (qualitativo o quantitativa) è associato il numero delle osservazioni 42 58 1 Modalità 38 28 101 12 21 14 47 92 98 112 293 osservazioni Distribuzioni marginali 12 92 12 92 42 38 21 98 42 38 21 98 58 28 14 112 58 28 14 112 1 101 47 293 1 101 47 293 x i f ij =x ij / N i % Profili di riga 48.91 42.86 51.79 49.49 38.04 38.78 25.00 34.47 13.04 21.43 12.50 16.04 %. stud. f ij =x ij / N j x i % Profili di colonna 31.03 28.97 40.00 34.65 37.62 27.72 25.53 44.68 29.79 %. stud. 31.40 33. 38.23 y j La percentuale di promossi nei diversi anni (x) dipende dall appello (y)? % promossi 60 50 40 30 20 10 0 Pomossi y j La percentuale di promossi nei diversi appelli (y) dipende dall (x)? % promossi 50 40 30 25 20 15 10 5 0 promossi appelli 12 92 Confronto tabelle di contingenza 42 38 58 28 1 101 F ij =x ij /N =f ij fi 15.36 11.95 14.33 12.97 19.80 9.56 49.49 34.47 f j =N j /N 21 14 47 4.10 7.17 4.78 16.04 98 112 293 f i =N i /N 31.40 33. 38.23 N F ij =x ij /N =f ij fi Frequenze osservate 15.36 14.33 19.80 49.49 15.54 16.55 18.92 11.95 12.97 9.56 34.47 10.82 11.53 13.18 4.10 7.17 4.78 16.04 5.04 5.37 6.13 31.40 33. 38.23 49.49 34.47 16.04 Nel caso di indipendenza stocastica si la probabilità congiunta è pari al prodotto delle probabilità: P(A B) = P(B) P(A) Frequenze attese nel caso random F ij =x ij /N =f ij fi 31.40 33. 38.23 2

Frequenza e Probabilità Strumenti Analisi dati Correlazione Tabella teorica L insieme dei valori assunti da una variabile aleatoria come risultato di esperimenti e osservazioni costituisce una distribuzione Per ogni valore la frequenza è il numero di volte che questo valore compare. La frequenza relativa è il numero di volte che questo compare, normalizzato al numero di osservazioni. Le frequenze sono grandezze sperimentali. La probabilità associata ad un dato risultato è il risultato di un procedimento matematico. Frequenza e Probabilità Come determinare la probabilità di un evento? nsieme infinito di prove =dev.st/n 0.5 =n Calcolo delle probabilità P(A): probabilità dell'evento A P(B): probabilità dell'evento B P(A+B) = P(A B) = P(A) + P(B) - P(A B) A AB, A B, intersezione B se P(A B) = 0 gli eventi si dicono indipendenti Probabilità composta P(A B) = P(B) P(A B) = P(A) P(B A) per cui la probabilità che due eventi A e B si verifichino contemporaneamente è pari alla probabilità di uno dei due eventi moltiplicato con la probabilità dell'altro evento condizionato al verificarsi del primo. Nel caso di indipendenza stocastica [P(B A) = P(B)] la probabilità congiunta è pari al prodotto delle probabilità: P(A B) = P(B) P(A) 3

Lacio di 2 dadi 2 1,1 m 3 1,2 2,1 ij 4 1,3 2,2 3,1 5 1,4 2,3 3,2 4,1 6 1,5 2,4 3,3 4,2 5,1 7 1,6 2,5 3,4 4,3 5,2 6,1 8 2,6 3,5 4,4 5,3 6,2 9 3,6 4,5 5,4 6,3 10 4,6 5,5 6,4 11-5,6 6,5 12-6,6 Risultati possibili P 2 = 1/36 P 3 = 2/36 P 4 = 3/36 P 5 = 4/36 P 6 = 5/36 P 7 = 6/36 P 8 = 5/36 P 9 = 4/36 P 10 = 3/36 P 11 = 2/36 P 12 = 1/36 Distribuzione di Bernulli Descrive una variabile casuale che può assumere solo valori 0,1: X=[0,1] P(1) = P(X=1) = p P(0) = P(X=0) = 1-p μ = p σ 2 = p(1-p) Distribuzione Binomiale Descrive una variabile casuale X che rappresenta il numero di successi su n prove, ognuna con probabilità di successo p (X è una sommadi variabili casuali di tipo "bernulli") k=numero di successi, n= numero di prove 1 2 3 4 5 6 7 8 9 10 Distribuzione Binomiale (Bernulli) Pb.: Lancio 5 (N=5) volte una moneta, quale è la probabilità di avere 3 (k=3) teste Valore atteso Dev. St. Distribuzione Binomiale (Bernulli) p = q = 0.5 N=5 N=30 Distribuzione di Poisson La variabile stocastica X può assumere valori discreti X={0,1,2,3,4...} Distribuzione Binomiale con: N >> 1 p << 1 Valore atteso: μ = λ varianza: σ 2 =λ Puó essere usata per descrivere il numero di cellule in una data area, il numero di errori di battitura per pagina, etc... Descrive distribuzioni di oggetti caratterizzati da: - densità costante (numero di oggetti proporzionale alla dimensione della regione di campionamento (superficie, volume, lunghezza etc..) - i conteggi in regioni disgiunte sono indipendenti - i numero di conteggi tende a zero se le dimensioni della regione tendono a zero. 4

μ <x> Distribuzioni di probabilità notevoli Distribuzione Binomiale con: Distribuzione Poisson N >> 1 p << 1 Valore atteso: μ = λ b a Distribuzione di Gauss o Normale Valor medio Dev. standard Globuli_rossi.xls Distribuzioni continue Distribuzione uniforme probabilità Densità di probabilità 5

risultati di un esperimento sono variabili aleatorie. Un esperimento non consente di esaminare ogni elemento di una popolazione o di effettuare tutte le misure possibili. campione Popolazione Teorema del limite centrale La distribuzione delle medie campionari (<x> i ) segue una distribuzione normale indipendentemente dalla distribuzione della popolazione d origine l valor medio della distribuzione delle media campionarie è uguale alla media della popolazione d origine La deviazione standard dell insieme di tutte le medie campionarie (errore standard della media σ x ) è una funzione della deviazione standard della popolazione originaria e del numero di elementi del campione. <x>, x s Stime parametri μ σ nota: dev.st. della popolazione Dato un campione n estratto da una popolazione N è possibile fornire una stima (<x>, s) dei parametri reali della distribuzione (m, s). Popolazione Valore atteso (media) risultati ottenuti su un campione rappresentano una stima dei valori "veri" Varianza valori stimati sono variabili aleatorie Quanto sono accurate queste stime? Varianza campionaria Campione Media campionaria L errore standard della media indica il grado di incertezza da associare alla stima della media ottenuta utilizzando un campione dell intera popolazione Accuratezza delle stime l valor medio ottenuto da un solo campione di m elementi è una stima del valore aspettato della popolazione. L'errore standard della media rappresenta una stima dell'errore fatto nella stima del valore atteso. Risultato di un'osservazione: 6

Accuratezza delle stime Per migliorare la stima del valore atteso si puó ripetere l'esperimento utilizzando K campioni indipendenti Proprietà della distribuzione di Gauss n questo caso la migliore stima del valore atteso è la media delle medie campionarie: Utilizzando K campioni indipendenti l'errore standard della media è: Risultato di un'osservazione: FWHM = 2.σ σ Teorema del limite centrale σ La distribuzione delle medie campionarie su campioni di m elementi segue una distribuzione normale indipendentemente dalla distribuzione della popolazione d origine 2σ La variabile: Date due variabili aleatorie indipendenti X a, X b caratterizzate da μ a σ a,μ b σ b, la variabile Z= X a +X b èunavariabilealeatoriacon: è una variabile aleatoria che, per m molto grande, ha una distribuzione Normale Standard (ha media nulla e varianza unitaria): μ z = μ a +μ b σ z = σ a +σ b Confidenza Pb.: un'osservazione su un campione di m elementi fornisce come risultato il valor medio di una variabile aleatoria. 1) costruisco una variabile aleatoria con distribuzione nota, es.: 2) sulla base della g(t) determino i valori di t che h una bassa probabilità di essere osservati, cioè: g(t) α es.: α=5% Se t 1 < t < t 2 la probabilità di osservare il valore di t, calocolato in base ai dati, è (1-α) Se t < t 1 o t > t 2 la probabilità di osservare il valore di t, calocolato in base ai dati, è α fisso un livello di confidenza α. t 1 t 2 determino un intervallo di valori t α1 t α2 (intervallo di confidenza) tale che la probabilità di osservare t all'esterno dell'intervallo dato sia minore di α probabilità che t appartenga all'intervallo t 1 t 2 7

ntervalli di confidenza: varianza nota Se le osservazioni sono distribuite con: valor medio dev.st. dato il valore medio, osservato su un campione di m elementi, il valore aspettato della popolazione (μ) è contenuto nell'intervallo: con probabilità 1-α. Se le osservazioni sono distribuite con: funzione EXCEL: CONFDENZA(α, dev.st, m) valor medio dev.st. funzione EXCEL: CONFDENZA(α, dev.st, m) La resistenza elettrica di un cavo viene misurata con uno strumento che ha un'incertezza σ=0.5 Ω. Vengono effettuate 5 misure, ne risulta un valor medio R=4.52 Ω CONFDENZA(0.05, 0.5, 5)=0.438 La resistenza vera del cavo è nell'intervallo : R = 4.52 ± 0.44 Ω oppure: R = [4.08, 4.96] Nota: α rappresenta il rischio di sbagliare, cioè la probabilità che il valore vero della resistenza sia esterno all'intervallo dato ntervalli di confidenza: varianza campionaria Molto piú spesso non conosco la varianza della distribuzione. La migliore stima della varianza in un campione di m elementi è: da cui: Unamisuradell'altezzadi un gruppodi 20 studenti fornisce il valore medio: H = 1.68 m con la deviazione standard stimata s = 9 cm. Determinare l'intervallo di confidenza dell'1% probabilità che il valore vero (μ) sia nell'intervallo: Dati numero di osservazioni: m valor medio dev. standard: s 20 1.68 0.09 Confidenza α 0.01 t_a 2.86 inv.t(α; m-1) funzione EXCEL: NV.T(a,m-1) = μ 1.68 ± 0.06 Nota: la variabile t cosi definita ha una distribuzione nota (t-student) con ν = m-1 gradi di libertà. La t-student approssima una distribuzione Gaussiana per ν che tende a infinito valore medio Test di ipotesi, test statistici 1) ipotesi da verificare Es.: il valore misurato è compatibile con il valore vero? 2) costruisco una variabile aleatoria con distribuzione nota, es.: 3) sulla base della g(t) determino i valori di t che h una bassa probabilità di essere osservati, fissando il livello di confidenza α. Se, in base alla distribuzione scelta, il valore osservato fornisce un valore di t con bassa probabilità di essere osservato, l'ipotesi deve essere rifiutata, altrimenti puó essere accettata. g(t) α es.: α=5% t 1 t 2 Se t 1 < t < t 2 il risultato (cui è associato il valore t) è compatibile l'ipotesi fatta con una probabilità del P = (1-α) Se t < t 1 o t > t 2 il risultato (cui è associato il valore t) non è compatibile l'ipotesi fatta con una probabilità del P = (1-α) Nota: α rappresenta la probabilità di sbagliare e scartare un'ipotesi corretta. 8