LA LUNGHEZZA DEI GENI UMANI (Es4.1)
|
|
|
- Amando Casagrande
- 9 anni fa
- Visualizzazioni
Transcript
1 STATISTICA INFERENZIALE: le caratteristiche della popolazione complessiva sono indotte da quelle osservate su un campione estratto dalla popolazione stessa(esempio exit poll) PROBLEMA: dato un campione C 1 possiamo calcolare la sua media X 1 e la sua varianza s 1 e ci chiediamo se questa media e questa varianza rappresentanolamediaμelavarianzaσdell interapopolazione(nbμeσin generale non sono noti) DISTRIBUZIONE DI CAMPIONAMENTO di una data statistica è la distribuzione di tutti i possibili valori che possono essere assunti dalla statistica stessa, calcolati da campioni casuali della stessa dimensione estratti dalla stessa popolazione. Una delle più importanti distribuzioni di campionamento è la MEDIA CAMPIONARIA. 1) Da una popolazione finita di dimensione N si estraggono tuttii possibili campioni C i casuali di ampiezza n 2) Si calcola la media X i per ogni campione 3) Questi valori X i possono essere visti come i valori assunti da una variabile aleatoria Ῡ detta MEDIA CAMPIONARIA
2 LA LUNGHEZZA DEI GENI UMANI (Es4.1) Il progetto genoma umano (HGP, Human Genome Project) è stato il più grande programma di collaborazione internazionale nella storia della biologia. Tale progetto ha determinato la sequenza del DNA di tutti i 23 cromosomi umani, ciascuno dei quali è costituito da milioni di nucleotidi legati tra loro a formare lunghe catene. Essicodificanoigeniicuiprodotti,RNAeproteine,modellanolosviluppoela crescita di ogni individuo. Utilizzando la sequenza genomica pubblicata (Hubbart et al, 2005), abbiamo determinato la lunghezza di tutti i geni notieprevisti.lalunghezzadiungeneèrappresentatadalnumerototaledi nucleotidi che costituiscono la sua regione codificante. La distribuzione di frequenza delle lunghezze geniche nella popolazione di geni è mostrata in figura.
3 In ordinata la probabilità di ottenere un gene con lunghezza (x) quando si campiona casualmente un singolo gene Distribuzione di probabilità della lunghezza dei geni del genoma umano. Il diagramma è troncato in corrispondenza di nucleotidi; 26 geni sono troppo rari per essere visualizzati nell istogramma.(descrizione dell intera popolazione μ=2622 e σ=2036,9)
4 Consideriamo un campione di n=100 geni del genoma umano e l istogramma rappresenta la distribuzione di frequenza ottenuta. X 100 =2411,8 s 100 =1463,5 (μ=2622 e σ=2036,9)
5 Consideriamo la media campionaria per n=20, n=100, n=200 Aumentando la dimensione del campione si riduce la dispersione della distribuzione campionaria di una stima e si aumenta la precisione.
6 PROPRIETA DELLA DISTRIBUZIONE DELLA MEDIA CAMPIONARIA TEOREMA 1 Se si estraggono campioni casuali di ampiezza nda una popolazione avente media μ e deviazione standard σallora la distribuzione della media campionaria Ȳ ha media µ = Y µ Per campioni estratte da popolazioni infinite, o se il campionamento è fatto con reimmissione, la deviazione standard della distribuzione della media campionaria è σ = Y σ n ERRORE STANDARD DALLA MEDIA Se il campionamento è fatto senza reimmissionee la popolazione ha dimensione N allorala deviazione standard della distribuzione della media campionaria è σ Y = σ n N n N 1 N n N 1 FATTORE CORRETTIVO PER LA POPOLAZIONE FINITA n N trascurabile quando 0. 05
7 In generale è impossibile conoscere la distribuzione della media campionaria, senza conoscere l effettiva distribuzione della popolazione: è però possibile trovare la distribuzione limite di una variabile aleatoria i cui valori sono strettamente collegati a quellidi Y TEOREMA DEL LIMITE CENTRALE Se si estraggono campioni casuali di ampiezza nda una popolazione avente media μ e deviazione standard σ allora la variabile Z = Y µ σ MEDIA CAMPIONARIA STANDARDIZZATA n è una variabile aleatoria la cui distribuzione tende alla distribuzione normale standardizzata per n. n 30 Nelle applicazioni se la distribuzione di Ȳ si considera normale, qualunque sia la distribuzione della popolazione. Se la distribuzione della popolazione è normale allora la distribuzione di Ȳ si considera normale per qualsiasi n.
8 APPLICAZIONE DELLA MEDIA CAMPIONARIA ESERCIZIOLa variabile aleatoria Y ha media μ=5 e deviazione standard σ=5. Si estrae un campione di 100 elementi da questa popolazione. Determinare la probabilità che il campione abbia media maggiore di 5.4 SVOLGIMENTODal Teorema 1 la media campionaria ha media e deviazione standard σ 5 1 µ Y = µ = 5 σ = = = Y n Dal Teorema del limite centrale segue che Ȳ ha distribuzione approssimativamente normale poiché n=100 (>30). P( Y > 5. 4) = P Z > = P( Z > 0. 8) 0,2119
9 ESEMPIO I pesi di 20000(=N) cuscinetti a sfere sono distribuiti normalmente con μ=22,4 g. e σ=0,048 g. Se da questa popolazione vengono estratti 300(=m) campioni casuali di ampiezza 36 (=n), determinare μ Ȳ e σ Ȳ, dove Ȳ denota la media campionaria. Determinare per quanti dei campioni casuali la media è 1) compresa tra 22,39 e 24,41 _ 2) superiora a 24,42 Y µ Z = σ 3) inferiore a 22,38 Dal Teorema 1 risulta μ Ȳ =μ=22,4 e σ Ȳ = 0,048 = 36 Poiché la popolazione è distribuita normalmente allora Ȳ ha distribuzione normale con media μ Ȳ =22,4 e σ Ȳ = 0, ,39 22,4 24,41 22,4 < Z < 0,008 0,008 0,008 1) p=p(22,39< Ȳ<24,41)=P = P(-1,25<Z<1,25) n =2P(0<Z<1,25) = +
10 = - 2P(0<Z<1,25)=2[ 1/2- P(Z>1,25)] =1-2 P(Z>1,25 ) = 1-2 0,10565=0,7887 Il numero dei campioni attesi è μ Ȳ = n p= 300 0,7887= 2,37
11 2) p=p(ȳ>24,42)=p Z > 22,42 22,4 0,008 =P(Z>2,5)=0,00621 Il numero dei campioni attesi è μ Ȳ = m p=300 0,00621 = 1,836 3) p=p(ȳ<22,38)=p Z < 22,38 22,4 0,008 =P(Z<-3,75)= P(Z>3,75)= 0,00009 Il numero dei campioni attesi è μ Ȳ = m p=300 0,00009 = 0,027 cioè nessuno
12 ESERCIZIO: Nel 1998 si è verificato che su una certa popolazione il numero medio di giorni di assenza dal lavoro per malattia è stato pari a 5.4 con deviazione standard di 2,8 giorni. Calcolare la probabilità che un campione casuale di 49 dipendenti estratto da questa popolazione abbia una media di assenze 1) maggiore di 6 giorni; 2) fra 4 e 6 giorni; 3) fra 4 giorni e mezzo e 5 giorni e mezzo. La distribuzione della popolazione non è nota, ma poiché n=49>30, grazie al teorema del limite centrale, possiamo assumere che la distribuzione di Ȳ (media campionaria del numero di assenze dal lavoro) è approssimativamente normale con 2,8 μ Ȳ =5,4 e σ Ȳ = = 0, ,4 > 0,4 1) P(Ȳ>6)=P Z = P(Z>1,5)=0,06681 a,b
13 4-5,4 6-5,4 < Z < 0,4 0,4 2) P(4<Ȳ<6)= P = P(-3,5<Z<1,5)= P(0<Z<3,5) + P(0<Z<1,5) = 1/2 P(Z>3,5)+ 1/2- P(Z>1,5) = 1-0, ,06681=0,933 4,5-5,4 0,4 5,5-5,4 < Z < 0,4 3) P(4,5<Ȳ<5,5)= P = P(-2,25<Z<0,25)= P(0<Z<2,25) + P(0<Z<0,25) = 1/2 P(Z>2,25)+ 1/2- P(Z>0,25) = 1-0, ,40129=0,58649
14 ERRORE STANDARDdi Ȳ: ES Ȳ = s n Nel caso di n=100, risulta X 100 =2411,8 e s =s 100 = 1463,5, da cui 1463, 5 ES Y = = 146, Dunque la media campionara si esprime: Ȳ=2411,8±146,3 μ=2622 INTERVALLO DI CONFIDENZA: è un intervallo di valori intorno alla stima campionaria che contiene verosimilmente il parametro della popolazione CONFIDENZA al 95% vuol dire il 95% (cioè 9 su 10) degli intervalli di confidenza contengono il valore μ=2622. In genere I=(Ȳ-2 ES Ȳ, Ȳ+2 ES Ȳ )è intervallo di confidenza al 95%.
Distribuzioni campionarie. Antonello Maruotti
Distribuzioni campionarie Antonello Maruotti Outline 1 Introduzione 2 Concetti base Si riprendano le considerazioni fatte nella parte di statistica descrittiva. Si vuole studiare una popolazione con riferimento
Verifica delle ipotesi
Statistica inferenziale Stima dei parametri Verifica delle ipotesi Concetti fondamentali POPOLAZIONE o UNIVERSO Insieme degli elementi cui si rivolge il ricercatore per la sua indagine CAMPIONE Un sottoinsieme
Distribuzione Normale
Distribuzione Normale istogramma delle frequenze di un insieme di misure di una grandezza che può variare con continuità popolazione molto numerosa, costituita da una quantità praticamente illimitata di
Distribuzione normale
Distribuzione normale istogramma delle frequenze di un insieme di misure relative a una grandezza che varia con continuità popolazione molto numerosa, costituita da una quantità praticamente illimitata
CAMPIONAMENTO - ALCUNI TERMINI CHIAVE
CAMPIONAMENTO - ALCUNI TERMINI CHIAVE POPOLAZIONE = qualsiasi insieme di oggetti (unità di analisi) di ricerca N = ampiezza della popolazione PARAMETRI = caratteristiche della popolazione [media, proporzione
Distribuzione Normale
Distribuzione Normale istogramma delle frequenze di un insieme di misure di una grandezza che può variare con continuità popolazione molto numerosa, costituita da una quantità praticamente illimitata di
Teorema del limite centrale TCL
Teorema del limite centrale TCL Questo importante teorema della statistica inferenziale si applica a qualsiasi variabile aleatoria che sia combinazione lineare di N variabili aleatorie le cui funzioni
Statistica Inferenziale
Statistica Inferenziale a) L Intervallo di Confidenza b) La distribuzione t di Student c) La differenza delle medie d) L intervallo di confidenza della differenza Prof Paolo Chiodini Dalla Popolazione
STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA
Metodi statistici e probabilistici per l ingegneria Corso di Laurea in Ingegneria Civile A.A. 2009-10 Facoltà di Ingegneria, Università di Padova Docente: Dott. L. Corain 1 STATISTICHE, DISTRIBUZIONI CAMPIONARIE
Teorema del Limite Centrale
Teorema del Limite Centrale Problema. Determinare come la media campionaria x e la deviazione standard campionaria s misurano la media µ e la deviazione standard σ della popolazione. È data una popolazione
Esercitazioni di Statistica
Esercitazioni di Statistica La distribuzione delle statistiche campionarie Teorema del limite centrale Prof. Livia De Giovanni [email protected] Esercizio (Scozzafava) Una ferrovia metropolitana
Distribuzioni di Probabilità
Distribuzioni di Probabilità Distribuzioni discrete Distribuzione uniforme discreta Distribuzione di Poisson Distribuzioni continue Distribuzione Uniforme Distribuzione Gamma Distribuzione Esponenziale
Tipi di variabili. Indici di tendenza centrale e di dispersione
Tipi di variabili. Indici di tendenza centrale e di dispersione L. Boni Variabile casuale In teoria della probabilità, una variabile casuale (o variabile aleatoria o variabile stocastica o random variable)
Statistica Inferenziale
Statistica Inferenziale Prof. Raffaella Folgieri Email: [email protected] aa 2009/2010 Esercizio 1 (stima puntuale) In un processo di controllo di qualità, siamo interessati al numero mensile di guasti
Carta di credito standard. Carta di credito business. Esercitazione 12 maggio 2016
Esercitazione 12 maggio 2016 ESERCIZIO 1 Si supponga che in un sondaggio di opinione su un campione di clienti, che utilizzano una carta di credito di tipo standard (Std) o di tipo business (Bsn), si siano
DISTRIBUZIONI DI CAMPIONAMENTO
DISTRIBUZIONI DI CAMPIONAMENTO 12 DISTRIBUZIONE DI CAMPIONAMENTO DELLA MEDIA Situazione reale Della popolazione di tutti i laureati in odontoiatria negli ultimi 10 anni, in tutte le Università d Italia,
Campionamento La statistica media campionaria e la sua distribuzione
Campionamento La statistica media campionaria e la sua distribuzione 1 Definisco il problema da studiare: es. tempo di percorrenza tra abitazione e università Carattere: tempo ossia v.s. continua Popolazione:
Esame di Statistica (10 o 12 CFU) CLEF 11 febbraio 2016
Esame di Statistica 0 o CFU) CLEF febbraio 06 Esercizio Si considerino i seguenti dati, relativi a 00 clienti di una banca a cui è stato concesso un prestito, classificati per età e per esito dell operazione
05. Errore campionario e numerosità campionaria
Statistica per le ricerche di mercato A.A. 01/13 05. Errore campionario e numerosità campionaria Gli schemi di campionamento condividono lo stesso principio di fondo: rappresentare il più fedelmente possibile,
STIMA DELLA VARIANZA CAMPIONARIA
STIMA DELLA VARIANZA CAMPIONARIA Abbiamo visto che una stima puntuale corretta per il valore atteso µ delle variabili aleatorie X i è x n = (x 1 +.. + x n )/n. Una stima puntuale della varianza σ 2 delle
Esercitazioni di statistica
Esercitazioni di statistica Intervalli di confidenza Stefania Spina Universitá di Napoli Federico II [email protected] 10 Dicembre 2014 Stefania Spina Esercitazioni di statistica 1/43 Stefania Spina
Questo calcolo richiede che si conoscano media e deviazione standard della popolazione.
Università del Piemonte Orientale Corso di laurea in biotecnologie Corso di Statistica Medica La distribuzione t - student 1 Abbiamo visto nelle lezioni precedenti come il calcolo del valore Z, riferito
La Distribuzione Normale (Curva di Gauss)
1 DISTRIBUZIONE NORMALE o DISTRIBUZIONE DI GAUSS 1. E la più importante distribuzione continua e trova numerose applicazioni nello studio dei fenomeni biologici. 2. Fu proposta da Gauss (1809) nell'ambito
LE DISTRIBUZIONI CAMPIONARIE
LE DISTRIBUZIONI CAMPIONARIE Argomenti Principi e metodi dell inferenza statistica Metodi di campionamento Campioni casuali Le distribuzioni campionarie notevoli: La distribuzione della media campionaria
Probabilità e Statistica
Probabilità e Statistica Intervalli di confidenza Marco Pietro Longhi C.d.L.: Ingegneria Elettronica e delle Telecomunicazioni, Ingegneria Informatica a.s. 2018/2019 Marco Pietro Longhi Prob. e Stat. 1
Intervalli di confidenza
Probabilità e Statistica Esercitazioni a.a. 2006/2007 C.d.L.: Ingegneria per l Ambiente ed il Territorio, Ingegneria Civile, Ingegneria Gestionale, Ingegneria dell Informazione C.d.L.S.: Ingegneria Civile
Laboratorio di Didattica di elaborazione dati 5 STIMA PUNTUALE DEI PARAMETRI. x i. SE = n.
5 STIMA PUNTUALE DEI PARAMETRI [Adattato dal libro Excel per la statistica di Enzo Belluco] Sia θ un parametro incognito della distribuzione di un carattere in una determinata popolazione. Il problema
Intervalli di confidenza
Probabilità e Statistica Esercitazioni a.a. 2017/2018 C.d.L.: Ingegneria Elettronica e delle Telecomunicazioni, Ingegneria Informatica Intervalli di confidenza Marco Pietro Longhi Probabilità e Statistica
4. Si supponga che il tempo impiegato da una lettera spedita dall Italia per arrivare a destinazione segua una distribuzione normale con media
Esercizi sulle distribuzioni, il teorema limite centrale e la stima puntuale Corso di Probabilità e Inferenza Statistica, anno 007-008, Prof. Mortera 1. Sia X la durata in mesi di una valvola per radio.
Capitolo 7. Distribuzioni campionarie. Statistica. Levine, Krehbiel, Berenson
Levine, Krehbiel, Berenson Statistica Capitolo 7 Distribuzioni campionarie Insegnamento: Statistica Applicata Corsi di Laurea in "Scienze e tecnologie Alimentari" Unità Integrata Organizzativa Agraria,
APPUNTI DI STATISTICA INFERENZIALE. Avalle Fulvia, maggio 2014, ITSOS MARIE CURIE CLASSI 4A BIO e 4B BIO
APPUNTI DI STATISTICA INFERENZIALE Avalle Fulvia, maggio 2014, ITSOS MARIE CURIE CLASSI 4A BIO e 4B BIO PREREQUISITI VARIABILE ALEATORIA (QUANTITATIVA): è una funzione che associa un numero reale ad ogni
Il processo inferenziale consente di generalizzare, con un certo grado di sicurezza, i risultati ottenuti osservando uno o più campioni
La statistica inferenziale Il processo inferenziale consente di generalizzare, con un certo grado di sicurezza, i risultati ottenuti osservando uno o più campioni E necessario però anche aggiungere con
PROVE SCRITTE DI MATEMATICA APPLICATA, ANNO 2006/07
PROVE SCRITTE DI MATEMATICA APPLICATA, ANNO 006/07 Esercizio 1 Prova scritta del 16/1/006 In un ufficio postale lavorano due impiegati che svolgono lo stesso compito in maniera indipendente, sbrigando
Probabilità classica. Distribuzioni e leggi di probabilità. Probabilità frequentista. Probabilità soggettiva
Probabilità classica Distribuzioni e leggi di probabilità La probabilità di un evento casuale è il rapporto tra il numero dei casi favorevoli ed il numero dei casi possibili, purchè siano tutti equiprobabili.
Metodi statistici per le ricerche di mercato
Metodi statistici per le ricerche di mercato Prof.ssa Isabella Mingo A.A. 2013-2014 Facoltà di Scienze Politiche, Sociologia, Comunicazione Corso di laurea Magistrale in «Organizzazione e marketing per
ISTOGRAMMI E DISTRIBUZIONI:
ISTOGRAMMI E DISTRIBUZIONI: i 3 4 5 6 7 8 9 0 i 0. 8.5 3 0 9.5 7 9.8 8.6 8. bin (=.) 5-7. 7.-9.4 n k 3 n k 6 5 n=0 =. 9.4-.6 5 4.6-3.8 3 Numero di misure nell intervallo 0 0 4 6 8 0 4 6 8 30 ISTOGRAMMI
PROBABILITÀ E STATISTICA - 23 Giugno 2017 Scrivere le risposte negli appositi spazi. Motivare dettagliatamente le risposte su fogli allegati
PROBABILITÀ E STATISTICA - 23 Giugno 2017 Scrivere le risposte negli appositi spazi. Motivare dettagliatamente le risposte su fogli allegati 1. - Un urna contiene 2 palline bianche e 28 nere; da essa vengono
Teoria e tecniche dei test
Teoria e tecniche dei test Lezione 9 LA STANDARDIZZAZIONE DEI TEST. IL PROCESSO DI TARATURA: IL CAMPIONAMENTO. Costruire delle norme di riferimento per un test comporta delle ipotesi di fondo che è necessario
Il campionamento e l inferenza. Il campionamento e l inferenza
Il campionamento e l inferenza Popolazione Campione Dai dati osservati mediante scelta campionaria si giunge ad affermazioni che riguardano la popolazione da cui essi sono stati prescelti Il campionamento
Statistica - metodologie per le scienze economiche e sociali /2e S. Borra, A. Di Ciaccio - McGraw Hill
Statistica - metodologie per le scienze economiche e sociali /e S. Borra A. Di Ciaccio - McGraw Hill s. 9. Soluzione degli esercizi del capitolo 9 In base agli arrotondamenti effettuati nei calcoli si
Campionamento La statistica media campionaria e la sua distribuzione. Paola Giacomello Dip. Scienze Sociali ed Economiche Uniroma1
Campionamento La statistica media campionaria e la sua distribuzione 1 Definisco il problema da studiare: es. tempo di percorrenza tra abitazione e università Carattere: tempo ossia v.s. continua Popolazione:
N.B. Per la risoluzione dei seguenti esercizi, si fa riferimento alle Tabelle riportate alla fine del documento.
N.B. Per la risoluzione dei seguenti esercizi, si fa riferimento alle abelle riportate alla fine del documento. Esercizio 1 La concentrazione media di sostanze inquinanti osservata nelle acque di un fiume
Statistica Metodologica
Statistica Metodologica Esercizi di Probabilita e Inferenza Silvia Figini e-mail: [email protected] Problema 1 Sia X una variabile aleatoria Bernoulliana con parametro p = 0.7. 1. Determinare la media
La distribuzione normale
La v.a. normale standardizzata La distribuzione normale standardizzata La distribuzione normale è difficilmente trattabile dal punto di vista calcolatorio, a causa dei suoi due parametri, µ e σ 2. Il ricorso
Dispensa di Statistica
Dispensa di Statistica 1 parziale 2012/2013 Diagrammi... 2 Indici di posizione... 4 Media... 4 Moda... 5 Mediana... 5 Indici di dispersione... 7 Varianza... 7 Scarto Quadratico Medio (SQM)... 7 La disuguaglianza
ESAME. 9 Gennaio 2017 COMPITO B
ESAME 9 Gennaio 2017 COMPITO B Cognome Nome Numero di matricola 1) Approssimare tutti i calcoli alla quarta cifra decimale. 2) Ai fini della valutazione si terrà conto solo ed esclusivamente di quanto
Esercitazione # 6. a) Fissato il livello di significatività al 5% si tragga una conclusione circa l opportunità di avviare la campagna comparativa.
Statistica Matematica A Esercitazione # 6 DUE MEDIE CON VARIANZE NOTE: Esercizio # Le ditte A e B producono sfere luminose. Una volta attivata la reazione chimica che rende luminosa una di queste sfere,
ESAME. 9 Gennaio 2017 COMPITO A
ESAME 9 Gennaio 2017 COMPITO A Cognome Nome Numero di matricola 1) Approssimare tutti i calcoli alla quarta cifra decimale. 2) Ai fini della valutazione si terrà conto solo ed esclusivamente di quanto
Teorema del limite centrale TCL Questo importante teorema della statistica inferenziale si applica a qualsiasi variabile aleatoria che sia combinazion
Teorema del limite centrale TCL Questo importante teorema della statistica inferenziale si applica a qualsiasi variabile aleatoria che sia combinazione lineare di N variabili aleatorie le cui funzioni
Concetti principale della lezione precedente
Corso di Statistica medica e applicata 9 a Lezione Dott.ssa Donatella Cocca Concetti principale della lezione precedente I concetti principali che sono stati presentati sono: Variabili su scala nominale
FREQUENZE GENOTIPICHE E GENICHE
FREQUENZE GENOTIPICHE E GENICHE Questo documento è pubblicato sotto licenza Creative Commons Attribuzione Non commerciale Condividi allo stesso modo http://creativecommons.org/licenses/by-nc-sa/2.5/deed.it
Quanti soggetti devono essere selezionati?
Quanti soggetti devono essere selezionati? Determinare una appropriata numerosità campionaria già in fase di disegno dello studio molto importante è molto Studi basati su campioni troppo piccoli non hanno
Esercitazione 5 del corso di Statistica 2 Prof. Domenico Vistocco
Esercitazione del corso di Statistica Prof. Domenico Vistocco Alfonso Iodice D Enza May 30, 007 1 Esercizio Si consideri una popolazione caratterizzata dai numeri, 3, 6, 8, 11. Si considerino tutti i possibili
