Regressione lineare - ripasso

Dimensione: px
Iniziare la visualizzazioe della pagina:

Download "Regressione lineare - ripasso"

Transcript

1 Regressione lineare - ripasso Quando parliamo di regressione cosa intendiamo? Il modello di regressione è caratterizzato dai seguenti aspetti: 1. siamo interessati a una particolare variabile che vorremmo capire meglio o modellare, come ad esempio le vendite di un determinato prodotto o il prezzo di un'azione. Questa sarà la variabile risposta o variabile dipendente nelle nostre analisi e di solito viene rappresentata dalla lettera y 2. abbiamo un insieme di p variabili che pensiamo possano essere utili per aiutarci a prevedere o modellare la variabile risposta (ad esempio il prezzo del prodotto, il prezzo dei concorrenti, ecc.; oppure i protti, i ricavi, la posizione nanziaria dell'azienda quotata, ecc.). Queste variabili sono dette variabili esplicative, o indipendenti e sono generalmente indicate con x 1, x 2, ecc. Tipicamente un'analisi di regressione viene usata per uno o più dei seguenti scopi: 1. previsione della variabile risposta 2. modellazione della relazione tra x 1, x 2,... e y 3. vericare ipotesi. La base della maggior parte delle analisi di regressione è il modello lineare. Tale modello può essere caratterizzato come segue. Abbiamo a disposizione un insieme di n osservazioni {x 1i, x 2i,..., x pi, y i } con (i = 1,..., n), che rappresenta un campione casuale di una popolazione più ampia. Si assume che queste osservazioni soddisno a una relazione lineare y i = β 0 + β 1 x 1i β p x pi + ε i, dove i coecienti β sono parametri ignoti e le ε i sono termini di errore casuale. Con modello lineare intendiamo che la relazione è lineare nei parametri; un modello quadratico y i = β 0 + β 1 x i + β 2 x 2 i... + ε i, è, quindi, un modello lineare, visto che possiamo vedere x i e x 2 i come versioni di x 1 e x 2. Perché restringiamo la nostra attenzione ai modelli lineari? Sono facili da capire, e facili da trattare matematicamente; ma, soprattutto, funzionano bene in moltissime situazioni (anche se non in tutte le situazioni). Parte del corso cercherà di darci degli strumenti su cosa signica che un modello funziona bene e su come possiamo valutare un modello. Certo, partiamo dal presupposto che Tutti i modelli sono sbagliati, ma seguendo George Box (uno statistico importante) aggiungiamo che alcuni, però, sono utili. Infatti, il più delle volte, non crediamo che il nostro modello lineare veramente descriva la realtà; pensiamo piuttosto che spesso ci fornisce un'utile rappresentazione della realtà. Un'alto utile suggerimento ci viene da un altro grande statistico, John Tukey: abbraccia i tuoi dati, non i tuoi modelli 1

2 Si consideri ora il modello di regressione semplice (cioè con p = 1). Il modello è y i = β 0 + β 1 x i + ε i. Un valore positivo di β 1 è legato a una relazione diretta tra x e y; ad esempio, più alti valori dell'altezza sono associati a più alti valori del peso, o bassi valori di ricavi sono associati a bassi valori di protti. Un valore negativo di β 1 è invece legato a una relazione inversa tra x e y; ad esempio alti valori del prezzo di un prodotto sono associati a una minore domanda, o un bassi tassi di inazione sono associati con maggiori tassi di interesse. Il primo passo di ogni analisi consiste nel guardare i dati; nel contesto della regressione ciò signica guardare gli istogrammi, i box-plot e un diagramma di dispersione. Stimare i parametri ignoti β 0 e β 1 signica disegnare una retta che passi nella nuvola di punti che si osserva nel diagramma di dispersione. Per fare questo abbiamo bisogno di una regola o un criterio che ci fornisca una retta ragionevole e riproducibile. L'approccio usuale si basa sul criterio dei minimi quadrati, dove si scelgono come stime i valori che minimizzano n S = (y i β 0 β 1 x i ) 2. i=1 Questo è un semplice problema di analisi matematica che fu risolto per la prima volta o da Legendre nel 1805 o da Gauss nel 1794 (Legendre lo aveva pubblicato prima, poi Gauss ne rivendicò la priorità). Si può mostrare che le stime ai minimi quadrati soddisfano (xi x)(y i ȳ) ˆβ 1 = (xi x) 2 e ˆβ 0 = ȳ ˆβ 1 x dove x e ȳ indicano rispettivamente la media di x e quella di y. Non è necessario memorizzare queste formule, visto che oggigiorno i computer ci facilitano il calcolo su ogni sorta di insieme di dati. È però utile osservare una implicazione di queste formule. Sia ŷ i = ˆβ 0 + ˆβ 1 x i cioè il valore adattato per la i esima osservazione secondo il modello di regressione ai minimi quadrati. Allora sostituendo le formule precedenti ci fornisce ŷ i ȳ = ˆβ 1 (x i x). Cioè, la stima ai minimi quadrati implica che la migliore previsione per un'osservazione il cui valore x è una unità sopra la media ( x) di x sarà quel valore y che si presenta ˆβ 1 unità sopra la media (ȳ) di y. Questo coeciente di pendenza fornisce una rappresentazione diretta di come posizioni relative nello spazio di x si relazionino con le posizioni relative dello spazio di y. La dierenza tra i valori osservati y i e i valori adattati ŷ i sono chiamati residui. Un interessante annotazione storica spiega il nome regressione di questo metodo. Sir Francis Galton, il grande biologo inglese, aveva raccolto dei dati sull'altezza dei genitori e dei loro gli, e aveva notato che il coeciente ˆβ 1 nel modello precedente era positivo, ma minore di 1; cioè padri alti avevano gli alti, ma più bassi dei rispettivi genitori, mentre padri bassi avevano gli bassi, ma tendenzialmente più alti dei loro padri. Galton chiamò questo fenomeno regressione alla mediocrità, e il termine regressione venne applicato a tutte le analisi di questo tipo, anche se la regressione alla mediocrità non era più evidente. I coecienti ai minimi quadrati hanno signicati specici precisi. Cioè: 2

3 ˆβ 1 : L'aumento (calo) atteso stimato nella variabile risposta associato ad un aumento (calo) unitario della variabile esplicativa. Si osservi la parola stimato si ricordi che ˆβ 1 è una stima di β 1, non il valore stesso. Si osservi anche la parola associato non possiamo dire che un aumento (calo) nella variabile risposta è causato dall'aumento (calo) della variabile esplicativa, ma solo che sono associati l'un l'altro. ˆβ 0 : Il valore atteso stimato della variabile risposta quando la variabile esplicativa assume valore 0. Si osservi che questo potrebbe non avere alcuna interpretazione sica, visto che il valore 0 dell'esplicativa potrebbe non avere alcun senso. Chi dice che la regressione ai minimi quadrati è una buona idea? Nessuno, a meno che non facciamo alcune assunzioni sui nostri dati. Ne abbiamo già menzionata una la relazione dovrebbe essere più o meno lineare. Abbiamo bisogno di qualche altra assunzione per giusticare l'utilizzo del criterio dei minimi quadrati: 1. il valore atteso degli errori è zero (E(ε i ) = 0 per ogni i). Cioè, non può essere vero che per qualche sottogruppo della popolazione il modello sia generalmente troppo basso mentre per qualche altro gruppo troppo alto. Una violazione di questo assunto porterebbe ad alcune dicoltà nella stima di β 0 e signica che il modello non include una necessaria componente sistematica. 2. la varianza degli errori è costante (V ar(ε i ) = σ 2 per ogni i). Cioè, non può essere vero che il modello sia più accurato per qualche parte della popolazione (σ piccolo) e meno accurato per altre parti (σ grande). Questa proprietà è detta omoschedasticità, e la sua violazione è detta eteroschedasticità. Una violazione di questo assunto implica che le stime ai minimi quadrati non sono così ecienti come potrebbero essere nello stimare i parametri, e si possono ottenere stime migliori. Comporta anche intervalli di previsione poco calibrati. 3. gli errori sono incorrelati tra loro. Cioè, non può essere vero che il fatto di conoscere che il modello sottostima y in un particolare caso dica qualcosa sul comportamento del modello per un qualsiasi altro caso. La violazione di questo assunto capita spesso quando i dati sono ordinati rispetto al tempo (serie storiche) dove errori vicini nel tempo sono anche simili tra loro (una tale correlazione legata al tempo è spesso chiamata autocorrelazione). La violazione di questo assunto può portare a problemi nella misurazione della forza della regressione. 4. (*) gli errori sono distribuiti normalmente. Questo assunto è necessario se vogliamo produrre intervalli di condenza e di previsione, o veriche di ipotesi che in genere facciamo. Se questo assunto è violato test di ipotesi e intervalli di condenza e di previsione possono essere mendaci. Si può mostrare che se queste assunzioni sono vere, la regressione ai minimi quadrati è la `cosa giusta' da fare. In questo corso aronteremo il tema di come vericare questi assunti e di come comportarsi se eventualmente qualcuno non fosse soddisfatto. La tabella seguente riassume gli assunti e i problemi ad essi legati. 3

4 4

5 Assunto Cosa signica? Quando viene verosimilmente violato? E(ε i ) = 0 per ogni i Non può succedere che Sottogruppi ben deniti per qualche unità della nei dati possono provocare popolazione il valore y sia problemi. Per esempio sistematicamente inferiore se x =anni di lavoro, e alla retta di regressio- y =salario, e se le don- ne, mentre per altre unità ne sono sistematicamenticamente il valore y sia sistemate sottopagate, si avrà superiore E(ε i ) < 0 per le donne, mentre per gli uomini si V ar(ε i ) = σ 2 per ogni i (omoschedasticità) ε i e ε j non sono legate tra loro per i j ε i N (0, σ 2 ) Non può succedere che la relazione tra x e y sia più forte per qualche unità della popolazione e più debole per altre (eteroschedasticità). Non può succedere che sapere che il valore di y per l'i esimo caso è, ad esempio, minore del suo valore atteso ci dica qualcosa su se il valore di y per un altro caso sia sopra o sotto del suo valore atteso. Gli errori hanno distribuzione Normale 5 avrà E(ε i ) > 0. Sottogruppi ben deniti nei dati possono provocare problemi. Per esempio, potrebbe succedere che i salari delle donne siano meno variabili intorno al loro valore tipico rispetto a quelli degli uomini. Un'altra possibile causa si trova quando i dati hanno un gande campo di variazione. Ad esempio, se y = ricavi di un'azienda e x =spese di pubblicità, è ragionevole aspettarsi che i ricavi siano prevedibili in maniera più accurata per piccole aziende piuttosto che per quelle grandi. Avviene spesso per dati in serie storica. Ad esempio, se le vendite di un prodotto sono più alte del previsto in un mese, diciamo Luglio, ci aspettiamo che siano più alte del previsto anche in Giugno ed Agosto. Perché è un problema? Le stime di β 0 saranno inappropriate. E, in maniera più rilevante, una parte del segnale è stato erroneamente considerato come rumore. Le stime di β 0 e di β 1 saranno meno accurate di quanto potrebbero essere. E, in maniera più importante, la misurazione dell'accuratezza previsiva sarà scorretta. Le misure sulla forza della relazione tra x e y potrebbero essere errate. Può succedere sempre Intervalli di condenza e di previsione e test di ipotesi potrebbero essere errati.

6 Come possiamo valutare la forza della relazione osservata con la regressione? Si può mostrare che n (y i ȳ) 2 = i=1 n (y i ŷ i ) 2 + i=1 n (ŷ i ȳ) 2 Somma dei Quadrati Somma dei Quadrati Somma dei Quadrati = + Totale corretta dei residui della Regressione Variabilità Totale = Variabilità residua + Variabilità dovuta alla regressione Questo ci dice che la variabilità della variabile risposta può essere divisa in due parti la variabilità residua dopo aver eettuato la regressione e la variabilità spiegata dalla regressione. Questo implica immediatamente che una buona regressione è associato a un grande R 2, dove R 2 (ŷi ȳ) 2 Somma dei Quadrati della Regressione = = (yi ȳ) 2 Somma dei Quadrati Totale corretta Il valore R 2 (chiamato Coeciente di Determinazione) misura la proporzione di variabilità della y spiegata dalla regressione. Valori vicini a 1 indicano una forte relazione, mentre valori vicini a 0 una relazione debole. A volte viene usato un valore di R 2 leggermente modicato per tener conto della distorsione presente nel coeciente; l'r 2 aggiustato ha la forma Ra 2 = R 2 1 n 2 (1 R2 ). C'è una relazione signicativa tra x e y? Questo può venire vericato usando la statistica F. L'ipotesi da vericare è H 0 : β 1 = 0 contro La statistica test sarà allora (ŷi ȳ) 2 /1 F = (yi ŷ i ) 2 /(n 2) i=1 H A : β 1 0 = Media dei quadrati di regressione Media dei quadrati dei residui dove la Media dei quadrati è la somma dei quadrati diviso i suoi gradi di libertà. Ipotesi di questo tipo possono essere anche vericate usando test t. Per vericare contro H 0 : β j = β 0 j si può usare la statistica test H A : β j β 0 j t = ˆβ j β 0 j s.e.( ˆβ j ), 6

7 sostituendo appropriatamente j e β j, e che si distribuisce come una t di Student con n 2 gradi di libertà. La stessa distribuzione permette di costruire un intervallo di condenza per il coeciente di regressione; un intervallo di condenza al 100 (1 α)% per β j è ˆβ j ± t n 2 α/2 s.e.( ˆβ j ) dove t n 2 α/2 è l'appropriato valore critico della distribuzione t. I test F e t forniscono indicazioni sulla signicatività statistica, ma non dicono nulla sull'importanza pratica del modello. Conoscere x ci aiuta davvero a capire qualcosa di più sul valore di y? Questa non è una domanda a cui possiamo dare una risposta puramente statistica; richiede conoscenza e comprensione del problema specico e dei dati. Anche se la statistica può aiutare. Si ricordi che stiamo assumendo che gli errori abbiano deviazione standard σ. Ciò signica che, parlando approssimativamente, dopo la regressione ci aspettiamo di conoscere il valore di y con un errore di ±2σ (visto che assumiamo che gli errori rispetto alla retta di regressione sono distribuiti come una normale). La media dei quadrati dei residui n ˆσ 2 i=1 = (y i ŷ i ) 2 n 2 ci fornisce una stima di σ 2 che può essere utilizzata per ottenere una misura dell'errore (sostituiremo ±2ˆσ). La sua radice quadrata è detta errore standard della stima. Una più accurata misura di questo ci viene fornita dall'intervallo di previsione dato un particolare valore di x. Questo intervallo ci fornisce una misura di quanto accurato sia ŷ 0 come previsione di y per qualche particolare valore x 0 ; la sua grandezza dipende sia da ˆσ sia dalla posizione di x 0 rispetto alla media x, visto che i valori lontani da x sono più dicili da prevedere. Specicamente, per una regressione semplice, l'errore standard del valore previsto sulla base del valore x 0 della variabile esplicativa è s.e.(ŷ0 P ) = ˆσ n + (x 0 x) 2 (xi x), 2 dove ˆσ è la radice quadrata della media dei quadrati dei residui. L'intervallo di previsione sarà quindi ŷ 0 ± t n 2 α/2 s.e.(ŷp 0 ) L'intervallo di previsione non dovrebbe essere confuso con un intervallo di condenza per un valore adattato, che sarà più stretto. L'intervallo di previsione è usato per fornire una stima intervallare per una previsione di y per una unità della popolazione con un determinato valore x 0 ; l'intervallo di condenza è invece usato per fornire una stima intervallare per il vero valore medio di y per tutte le unità della popolazione con un particolare valore x 0. L'errore standard corrispondente per un valore adattato in una regressione lineare semplice è s.e.(ŷ0 F 1 ) = ˆσ n + (x 0 x) 2 (xi x), 2 con corrispondente intervallo di condenza ŷ 0 ± t n 2 α/2 s.s.(ŷf 0 ) 7

8 Come abbiamo notato precedentemente, tutti questi test, intervalli, previsioni ecc. sono basati sul fatto che consideriamo veri gli assunti della regressione. Un primo passo per veri- care se gli assunti sono veri si basa su alcuni semplici graci che possono fornirci l'evidenza che alcuni assunti non siano soddisfatti: 1. un graco dei residui verso i valori adattati. Questo graco non dovrebbe avere alcuna forma particolare; cioè non dovrebbe apparire nessuna struttura. Alcuni tipi di strutture indicano potenziali problemi: (a) un punto (o pochi punti) isolati in alto o in basso, a destra o a sinistra. Inoltre, spesso gli altri punti hanno un notevole inclinazione verso questi punti. Questi punti isolati sono punti anomali, e potrebbero avere un forte eetto sulla regressione. Devono essere esaminati accuratamente e forse rimossi dalla analisi (principale) del dataset. (b) potrebbe presentarsi un'impressione di altezze diverse della nuvola di punti, muovendosi da sinistra a destra. Questo può indicare eteroschedasticità. 2. se i dati hanno una struttura temporale, è opportuno disegnare i residui verso il tempo. Ancora, non ci dovrebbe essere alcuna struttura apparente. Se si osserva una struttura ciclica, signica che gli errori non sono incorrelati come dovrebbero essere 3. un normal-plot (o plot dei ranghi) dei residui. Questo graco fornisce una indicazione sull'apparente normalità dei residui. Il graco dovrebbe sembrare (all'incirca) una linea retta. Alcuni punti isolati rappresentano ancora una volta osservazioni anomale, mentre una linea curva indica che gli errori probabilmente non sono distribuiti normalmente, e quindi i test e gli intervalli potrebbero non essere corretti. La formulazione matriciale della regressione I modelli di regressione possono anche essere rappresentati usando matrici e vettori. Questa notazione non è rilevante per la regressione lineare semplice, ma ci fornisce un utilissimo strumento per facilitare l'approccio quando abbiamo a disposizione più di una variabile esplicativa (regressione multipla). Si deniscano le matrici e i vettori che seguono: X = 1 x x n y = y 1. y n β = [ β0 β 1 ] ɛ = Il modello di regressione può quindi essere scritto in maniera succinta ε 1. ε n (1) y = Xβ + ɛ (2) Si può facilmente mostrare che le equazioni normali (che determinano la stima ai minimi quadrati di β) sono (X T X)β = X T y (3) 8

9 che implica che la stima ai minimi quadrati è I valori adattati sono allora ˆβ = (X T X) 1 X T y. (4) ŷ = Xβ = X(X T X) 1 X T y = Hy, dove H = X(X T X) 1 X T è chiamata matrice cappello. Questa matrice è particolamente importante, come vedremo in seguito. Si consideri ora il caso di p variabili esplciative che possono essere usate in un modello lineare per prevedere una variabile risposta y. Siano β 1 x 11 x p1 y 0 1 β 1 ε 1 X =.. y =. β = ɛ =.. (5) 1 x 1n x pn y n ε β n p L'equazione y = Xβ + ɛ dice che y i = β 0 + β 1 x 1i β b x pi + ε i, è ancora una relazione lineare. Così la stessa notazione matriciale ancora rappresenta il modello di regressione lineare. Si ottiene così la stima ai minimi quadrati attraverso ˆβ = (X T X) 1 X T y e ŷ = Hŷ, dove H = X(X T X) 1 X T 9

Regressione Lineare Semplice e Correlazione

Regressione Lineare Semplice e Correlazione Regressione Lineare Semplice e Correlazione 1 Introduzione La Regressione è una tecnica di analisi della relazione tra due variabili quantitative Questa tecnica è utilizzata per calcolare il valore (y)

Dettagli

Il modello di regressione (VEDI CAP 12 VOLUME IEZZI, 2009)

Il modello di regressione (VEDI CAP 12 VOLUME IEZZI, 2009) Il modello di regressione (VEDI CAP 12 VOLUME IEZZI, 2009) Quesito: Posso stimare il numero di ore passate a studiare statistica sul voto conseguito all esame? Potrei calcolare il coefficiente di correlazione.

Dettagli

Statistica. Capitolo 12. Regressione Lineare Semplice. Cap. 12-1

Statistica. Capitolo 12. Regressione Lineare Semplice. Cap. 12-1 Statistica Capitolo 1 Regressione Lineare Semplice Cap. 1-1 Obiettivi del Capitolo Dopo aver completato il capitolo, sarete in grado di: Spiegare il significato del coefficiente di correlazione lineare

Dettagli

Esercitazione del

Esercitazione del Esercizi sulla regressione lineare. Esercitazione del 21.05.2013 Esercizio dal tema d esame del 13.06.2011. Si consideri il seguente campione di n = 9 osservazioni relative ai caratteri ed Y: 7 17 8 36

Dettagli

Statistica Applicata all edilizia: il modello di regressione

Statistica Applicata all edilizia: il modello di regressione Statistica Applicata all edilizia: il modello di regressione E-mail: orietta.nicolis@unibg.it 27 aprile 2009 Indice Il modello di Regressione Lineare 1 Il modello di Regressione Lineare Analisi di regressione

Dettagli

Metodi statistici per l economia (Prof. Capitanio) Slide n. 10. Materiale di supporto per le lezioni. Non sostituisce il libro di testo

Metodi statistici per l economia (Prof. Capitanio) Slide n. 10. Materiale di supporto per le lezioni. Non sostituisce il libro di testo Metodi statistici per l economia (Prof. Capitanio) Slide n. 10 Materiale di supporto per le lezioni. Non sostituisce il libro di testo 1 REGRESSIONE LINEARE Date due variabili quantitative, X e Y, si è

Dettagli

STATISTICA A K (60 ore)

STATISTICA A K (60 ore) STATISTICA A K (60 ore) Marco Riani mriani@unipr.it http://www.riani.it Richiami sulla regressione Marco Riani, Univ. di Parma 1 MODELLO DI REGRESSIONE y i = a + bx i + e i dove: i = 1,, n a + bx i rappresenta

Dettagli

Regressione lineare semplice

Regressione lineare semplice Regressione lineare semplice Prof. Giuseppe Verlato Sezione di Epidemiologia e Statistica Medica, Università di Verona Statistica con due variabili var. nominale, var. nominale: gruppo sanguigno - cancro

Dettagli

Statistica 1 A.A. 2015/2016

Statistica 1 A.A. 2015/2016 Corso di Laurea in Economia e Finanza Statistica 1 A.A. 2015/2016 (8 CFU, corrispondenti a 48 ore di lezione frontale e 24 ore di esercitazione) Prof. Luigi Augugliaro 1 / 35 Il modello di regressione

Dettagli

Dispensa di Statistica

Dispensa di Statistica Dispensa di Statistica 1 parziale 2012/2013 Diagrammi... 2 Indici di posizione... 4 Media... 4 Moda... 5 Mediana... 5 Indici di dispersione... 7 Varianza... 7 Scarto Quadratico Medio (SQM)... 7 La disuguaglianza

Dettagli

R - Esercitazione 6. Andrea Fasulo Venerdì 22 Dicembre Università Roma Tre

R - Esercitazione 6. Andrea Fasulo Venerdì 22 Dicembre Università Roma Tre R - Esercitazione 6 Andrea Fasulo fasulo.andrea@yahoo.it Università Roma Tre Venerdì 22 Dicembre 2017 Il modello di regressione lineare semplice (I) Esempi tratti da: Stock, Watson Introduzione all econometria

Dettagli

Regressione multipla

Regressione multipla Regressione multipla La regressione multipla è l'ovvia generalizzazione della regressione semplice, quando abbiamo più di una variabile esplicativa. Il modello è del tipo y i = β 0 + β x i +... + β p x

Dettagli

Il modello di regressione lineare multipla. Il modello di regressione lineare multipla

Il modello di regressione lineare multipla. Il modello di regressione lineare multipla Introduzione E la generalizzazione del modello di regressione lineare semplice: per spiegare il fenomeno d interesse Y vengono introdotte p, con p > 1, variabili esplicative. Tale generalizzazione diventa

Dettagli

Università del Piemonte Orientale Specializzazioni di area sanitaria Statistica Medica

Università del Piemonte Orientale Specializzazioni di area sanitaria Statistica Medica Università del Piemonte Orientale Specializzazioni di area sanitaria Statistica Medica Regressione Lineare e Correlazione Argomenti della lezione Determinismo e variabilità Correlazione Regressione Lineare

Dettagli

Università del Piemonte Orientale Corso di Laurea in Medicina e Chirurgia. Corso di Statistica Medica. Correlazione. Regressione Lineare

Università del Piemonte Orientale Corso di Laurea in Medicina e Chirurgia. Corso di Statistica Medica. Correlazione. Regressione Lineare Università del Piemonte Orientale Corso di Laurea in Medicina e Chirurgia Corso di Statistica Medica Correlazione Regressione Lineare Corso di laurea in medicina e chirurgia - Statistica Medica Correlazione

Dettagli

Laboratorio di Didattica di elaborazione dati 5 STIMA PUNTUALE DEI PARAMETRI. x i. SE = n.

Laboratorio di Didattica di elaborazione dati 5 STIMA PUNTUALE DEI PARAMETRI. x i. SE = n. 5 STIMA PUNTUALE DEI PARAMETRI [Adattato dal libro Excel per la statistica di Enzo Belluco] Sia θ un parametro incognito della distribuzione di un carattere in una determinata popolazione. Il problema

Dettagli

Statistica multivariata Donata Rodi 17/10/2016

Statistica multivariata Donata Rodi 17/10/2016 Statistica multivariata Donata Rodi 17/10/2016 Quale analisi? Variabile Dipendente Categoriale Continua Variabile Indipendente Categoriale Chi Quadro ANOVA Continua Regressione Logistica Regressione Lineare

Dettagli

Minimi quadrati vincolati e test F

Minimi quadrati vincolati e test F Minimi quadrati vincolati e test F Impostazione del problema Spesso, i modelli econometrici che stimiamo hanno dei parametri che sono passibili di interpretazione diretta nella teoria economica. Consideriamo

Dettagli

CAPITOLO 11 ANALISI DI REGRESSIONE

CAPITOLO 11 ANALISI DI REGRESSIONE VERO FALSO CAPITOLO 11 ANALISI DI REGRESSIONE 1. V F Se c è una relazione deterministica tra due variabili,x e y, ogni valore dato di x,determinerà un unico valore di y. 2. V F Quando si cerca di scoprire

Dettagli

le scale di misura scala nominale scala ordinale DIAGNOSTICA PSICOLOGICA lezione si basano su tre elementi:

le scale di misura scala nominale scala ordinale DIAGNOSTICA PSICOLOGICA lezione si basano su tre elementi: DIAGNOSTICA PSICOLOGICA lezione! Paola Magnano paola.magnano@unikore.it si basano su tre elementi: le scale di misura sistema empirico: un insieme di entità non numeriche (es. insieme di persone; insieme

Dettagli

Cognome, Nome e Numero di matricola: { 0 t 1. f T (t) = 3 { 0 t 1 t

Cognome, Nome e Numero di matricola: { 0 t 1. f T (t) = 3 { 0 t 1 t Politecnico di Milano - Scuola di Ingegneria Industriale II Appello di Statistica per Ingegneria Energetica 8 settembre 0 c I diritti d'autore sono riservati. Ogni sfruttamento commerciale non autorizzato

Dettagli

3.1 Classificazione dei fenomeni statistici Questionari e scale di modalità Classificazione delle scale di modalità 17

3.1 Classificazione dei fenomeni statistici Questionari e scale di modalità Classificazione delle scale di modalità 17 C L Autore Ringraziamenti dell Editore Elenco dei simboli e delle abbreviazioni in ordine di apparizione XI XI XIII 1 Introduzione 1 FAQ e qualcos altro, da leggere prima 1.1 Questo è un libro di Statistica

Dettagli

Sperimentazioni di Fisica I mod. A Statistica - Lezione 2

Sperimentazioni di Fisica I mod. A Statistica - Lezione 2 Sperimentazioni di Fisica I mod. A Statistica - Lezione 2 A. Garfagnini M. Mazzocco C. Sada Dipartimento di Fisica G. Galilei, Università di Padova AA 2014/2015 Elementi di Statistica Lezione 2: 1. Istogrammi

Dettagli

Data Mining. Prova parziale del 20 aprile 2017: SOLUZIONE

Data Mining. Prova parziale del 20 aprile 2017: SOLUZIONE Università degli Studi di Padova Corso di Laurea Magistrale in Informatica a.a. 2016/2017 Data Mining Docente: Annamaria Guolo Prova parziale del 20 aprile 2017: SOLUZIONE ISTRUZIONI: La durata della prova

Dettagli

SCHEDA DIDATTICA N 7

SCHEDA DIDATTICA N 7 FACOLTA DI INGEGNERIA CORSO DI LAUREA IN INGEGNERIA CIVILE CORSO DI IDROLOGIA PROF. PASQUALE VERSACE SCHEDA DIDATTICA N 7 LA DISTRIBUZIONE NORMALE A.A. 01-13 La distribuzione NORMALE Uno dei più importanti

Dettagli

Σ (x i - x) 2 = Σ x i 2 - (Σ x i ) 2 / n Σ (y i - y) 2 = Σ y i 2 - (Σ y i ) 2 / n. 13. Regressione lineare parametrica

Σ (x i - x) 2 = Σ x i 2 - (Σ x i ) 2 / n Σ (y i - y) 2 = Σ y i 2 - (Σ y i ) 2 / n. 13. Regressione lineare parametrica 13. Regressione lineare parametrica Esistono numerose occasioni nelle quali quello che interessa è ricostruire la relazione di funzione che lega due variabili, la variabile y (variabile dipendente, in

Dettagli

MODELLO DI REGRESSIONE LINEARE. le ipotesi del modello di regressione classico, stima con i metodi dei minimi quadrati e di massima verosimiglianza,

MODELLO DI REGRESSIONE LINEARE. le ipotesi del modello di regressione classico, stima con i metodi dei minimi quadrati e di massima verosimiglianza, MODELLO DI REGRESSIONE LINEARE le ipotesi del modello di regressione classico, stima con i metodi dei minimi quadrati e di massima verosimiglianza, teorema di Gauss-Markov, verifica di ipotesi e test di

Dettagli

Analisi descrittiva: calcolando medie campionarie, varianze campionarie e deviazioni standard campionarie otteniamo i dati:

Analisi descrittiva: calcolando medie campionarie, varianze campionarie e deviazioni standard campionarie otteniamo i dati: Obiettivi: Esplicitare la correlazione esistente tra l altezza di un individuo adulto e la lunghezza del suo piede e del suo avambraccio. Idea del progetto: Il progetto nasce dall idea di acquistare scarpe

Dettagli

Proprietà della varianza

Proprietà della varianza Proprietà della varianza Proprietà della varianza Proprietà della varianza Proprietà della varianza Intermezzo: ma perché dovremmo darci la pena di studiare come calcolare la varianza nel caso di somme,

Dettagli

Statistica. Alfonso Iodice D Enza

Statistica. Alfonso Iodice D Enza Statistica Alfonso Iodice D Enza iodicede@gmail.com Università degli studi di Cassino () Statistica 1 / 24 Outline 1 2 3 4 5 () Statistica 2 / 24 Dipendenza lineare Lo studio della relazione tra caratteri

Dettagli

Contenuti: Capitolo 14 del libro di testo

Contenuti: Capitolo 14 del libro di testo Test d Ipotesi / TIPICI PROBLEMI DI VERIFICA DI IPOTESI SONO Test per la media Test per una proporzione Test per la varianza Test per due campioni indipendenti Test di indipendenza Contenuti Capitolo 4

Dettagli

Cognome e Nome:... Corso di laurea:...

Cognome e Nome:... Corso di laurea:... Statistica - corso base Prof. B. Liseo Prova di esame dell 8 gennaio 201 Cognome e Nome:................................................................... Corso di laurea:.......................................................................

Dettagli

Statistica. Alfonso Iodice D Enza

Statistica. Alfonso Iodice D Enza Statistica Alfonso Iodice D Enza iodicede@unicas.it Università degli studi di Cassino () Statistica 1 / 33 Outline 1 2 3 4 5 6 () Statistica 2 / 33 Misura del legame Nel caso di variabili quantitative

Dettagli

Teoria e tecniche dei test. Concetti di base

Teoria e tecniche dei test. Concetti di base Teoria e tecniche dei test Lezione 2 2013/14 ALCUNE NOZIONI STATITICHE DI BASE Concetti di base Campione e popolazione (1) La popolazione è l insieme di individui o oggetti che si vogliono studiare. Questi

Dettagli

Statistica di base per l analisi socio-economica

Statistica di base per l analisi socio-economica Laurea Magistrale in Management e comunicazione d impresa Statistica di base per l analisi socio-economica Giovanni Di Bartolomeo gdibartolomeo@unite.it Definizioni di base Una popolazione è l insieme

Dettagli

Nel modello di regressione Multivariata abbiamo più variabili risposta (tipicamente poche), in particolare avremo:

Nel modello di regressione Multivariata abbiamo più variabili risposta (tipicamente poche), in particolare avremo: Lezione 15 (a cura di Giovanni Mariani) Regressione Multivariata Consideriamo yiyr, con r = numero variabili risposta xixk, con k = numero varibili esplicative Nel modello di regressione Multivariata abbiamo

Dettagli

CHEMIOMETRIA. CONFRONTO CON VALORE ATTESO (test d ipotesi) CONFRONTO DI VALORI MISURATI (test d ipotesi) CONFRONTO DI RIPRODUCIBILITA (test d ipotesi)

CHEMIOMETRIA. CONFRONTO CON VALORE ATTESO (test d ipotesi) CONFRONTO DI VALORI MISURATI (test d ipotesi) CONFRONTO DI RIPRODUCIBILITA (test d ipotesi) CHEMIOMETRIA Applicazione di metodi matematici e statistici per estrarre (massima) informazione chimica (affidabile) da dati chimici INCERTEZZA DI MISURA (intervallo di confidenza/fiducia) CONFRONTO CON

Dettagli

Regressione Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007

Regressione Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007 Regressione Esempio Un azienda manifatturiera vuole analizzare il legame che intercorre tra il costo mensile Y di produzione e il corrispondente volume produttivo X per uno dei propri stabilimenti. Volume

Dettagli

L indagine campionaria Lezione 3

L indagine campionaria Lezione 3 Anno accademico 2007/08 L indagine campionaria Lezione 3 Docente: prof. Maurizio Pisati Variabile casuale Una variabile casuale è una quantità discreta o continua il cui valore è determinato dal risultato

Dettagli

lezione 9 AA Paolo Brunori

lezione 9 AA Paolo Brunori AA 2016-2017 Paolo Brunori Dove siamo arrivati? - la regressione lineare multipla ci permette di stimare l effetto della variabile X sulla Y tenendo ferme tutte le altre variabili osservabili che hanno

Dettagli

Test delle Ipotesi Parte I

Test delle Ipotesi Parte I Test delle Ipotesi Parte I Test delle Ipotesi sulla media Introduzione Definizioni basilari Teoria per il caso di varianza nota Rischi nel test delle ipotesi Teoria per il caso di varianza non nota Test

Dettagli

Fasi del modello di regressione

Fasi del modello di regressione Fasi del modello di regressione Specificazione del modello: scelta del tipo di funzione da utilizzare per descrivere un fenomeno; definizione delle ipotesi di base Stima dei parametri: uso di stimatori

Dettagli

STATISTICA 1, metodi matematici e statistici Introduzione al linguaggio R Esercitazione 7:

STATISTICA 1, metodi matematici e statistici Introduzione al linguaggio R Esercitazione 7: esercitazione 7 p. 1/13 STATISTICA 1, metodi matematici e statistici Introduzione al linguaggio R Esercitazione 7: 20-05-2004 Luca Monno Università degli studi di Pavia luca.monno@unipv.it http://www.lucamonno.it

Dettagli

lezione 10 AA Paolo Brunori

lezione 10 AA Paolo Brunori AA 2016-2017 Paolo Brunori Redditi svedesi - il dataset contiene i dati di reddito di 838 individui - il dataset contiene le variabili: sex = sesso age = età edu = anni di istruzione y_gross = reddito

Dettagli

Il modello di regressione lineare multipla con regressori stocastici

Il modello di regressione lineare multipla con regressori stocastici Università di Pavia Il modello di regressione lineare multipla con regressori stocastici Eduardo Rossi Il valore atteso condizionale Modellare l esperimento casuale bivariato nel quale le variabili casuali

Dettagli

REGRESSIONE E CORRELAZIONE

REGRESSIONE E CORRELAZIONE REGRESSIONE E CORRELAZIONE Nella Statistica, per studio della connessione si intende la ricerca di eventuali relazioni, di dipendenza ed interdipendenza, intercorrenti tra due variabili statistiche 1.

Dettagli

Analisi di Regressione Multivariata. β matrice incognita dei coeff. di regressione (regr. lineare in β)

Analisi di Regressione Multivariata. β matrice incognita dei coeff. di regressione (regr. lineare in β) Analisi di Regressione Multivariata Regressione: metodologia per dedurre info e per anticipare risposte di una variabile dip. Modello classico di regressione lineare: Y {z} n k = {z} X β + ρ {z} {z} n

Dettagli

La regressione lineare multipla

La regressione lineare multipla 13 La regressione lineare multipla Introduzione 2 13.1 Il modello di regressione multipla 2 13.2 L analisi dei residui nel modello di regressione multipla 9 13.3 Il test per la verifica della significatività

Dettagli

lezione n. 6 (a cura di Gaia Montanucci) Verosimiglianza: L = = =. Parte dipendente da β 0 e β 1

lezione n. 6 (a cura di Gaia Montanucci) Verosimiglianza: L = = =. Parte dipendente da β 0 e β 1 lezione n. 6 (a cura di Gaia Montanucci) METODO MASSIMA VEROSIMIGLIANZA PER STIMARE β 0 E β 1 Distribuzione sui termini di errore ε i ε i ~ N (0, σ 2 ) ne consegue : ogni y i ha ancora distribuzione normale,

Dettagli

1 4 Esempio 2. Si determini la distribuzione di probabilità della variabile casuale X = punteggio ottenuto lanciando un dado. Si ha immediatamente:

1 4 Esempio 2. Si determini la distribuzione di probabilità della variabile casuale X = punteggio ottenuto lanciando un dado. Si ha immediatamente: CAPITOLO TERZO VARIABILI CASUALI. Le variabili casuali e la loro distribuzione di probabilità In molte situazioni, dato uno spazio di probabilità S, si è interessati non tanto agli eventi elementari (o

Dettagli

L A B C di R. Stefano Leonardi c Dipartimento di Scienze Ambientali Università di Parma Parma, 9 febbraio 2010

L A B C di R. Stefano Leonardi c Dipartimento di Scienze Ambientali Università di Parma Parma, 9 febbraio 2010 L A B C di R 0 20 40 60 80 100 2 3 4 5 6 7 8 Stefano Leonardi c Dipartimento di Scienze Ambientali Università di Parma Parma, 9 febbraio 2010 La scelta del test statistico giusto La scelta della analisi

Dettagli

Corso di Statistica Industriale

Corso di Statistica Industriale Corso di Statistica Industriale Corsi di Laurea Specialistica in Ingegneria Gestionale e Ingegneria Meccanica Docente: Ilia Negri Orario del corso: Martedì: dalle 14.00 alle 16.00 Venerdì: dalle 10.30

Dettagli

Cognome e Nome:... Matricola e corso di laurea:...

Cognome e Nome:... Matricola e corso di laurea:... Statistica - corso base Prof. B. Liseo Prova di esame dell 8 gennaio 2014 Cognome e Nome:................................................................... Matricola e corso di laurea:...................................................

Dettagli

Note sulla probabilità

Note sulla probabilità Note sulla probabilità Maurizio Loreti Dipartimento di Fisica Università degli Studi di Padova Anno Accademico 2002 03 1 La distribuzione del χ 2 0.6 0.5 N=1 N=2 N=3 N=5 N=10 0.4 0.3 0.2 0.1 0 0 5 10 15

Dettagli

BLAND-ALTMAN PLOT. + X 2i 2 la differenza ( d ) tra le due misure per ognuno degli n campioni; d i. X i. = X 1i. X 2i

BLAND-ALTMAN PLOT. + X 2i 2 la differenza ( d ) tra le due misure per ognuno degli n campioni; d i. X i. = X 1i. X 2i BLAND-ALTMAN PLOT Il metodo di J. M. Bland e D. G. Altman è finalizzato alla verifica se due tecniche di misura sono comparabili. Resta da comprendere cosa si intenda con il termine metodi comparabili

Dettagli

Capitolo 3 Sintesi e descrizione dei dati quantitativi

Capitolo 3 Sintesi e descrizione dei dati quantitativi Levine, Krehbiel, Berenson Statistica II ed. 2006 Apogeo Capitolo 3 Sintesi e descrizione dei dati quantitativi Insegnamento: Statistica Applicata Corso di Laurea in "Scienze e tecnologie Alimentari" Unità

Dettagli

GENETICA QUANTITATIVA

GENETICA QUANTITATIVA GENETICA QUANTITATIVA Caratteri quantitativi e qualitativi I caratteri discontinui o qualitativi esibiscono un numero ridotto di fenotipi e mostrano una relazione genotipo-fenotipo semplice I caratteri

Dettagli

Statistica. Esercitazione 16. Alfonso Iodice D Enza iodicede@unicas.it. Università degli studi di Cassino. Statistica. A. Iodice

Statistica. Esercitazione 16. Alfonso Iodice D Enza iodicede@unicas.it. Università degli studi di Cassino. Statistica. A. Iodice Esercitazione 16 Alfonso Iodice D Enza iodicede@unicas.it Università degli studi di Cassino () 1 / 24 Studio della relazione tra due variabili Commonly Asked Questions Qual è la relazione tra la spesa

Dettagli

La multicollinearità sorge quando c è un elevata correlazione tra due o più variabili esplicative.

La multicollinearità sorge quando c è un elevata correlazione tra due o più variabili esplicative. Lezione 14 (a cura di Ludovica Peccia) MULTICOLLINEARITA La multicollinearità sorge quando c è un elevata correlazione tra due o più variabili esplicative. In un modello di regressione Y= X 1, X 2, X 3

Dettagli

Variabili indipendenti qualitative. In molte applicazioni si rende necessario l introduzione di un fattore a due o più livelli.

Variabili indipendenti qualitative. In molte applicazioni si rende necessario l introduzione di un fattore a due o più livelli. Variabili indipendenti qualitative Di solito le variabili nella regressione sono variabili continue In molte applicazioni si rende necessario l introduzione di un fattore a due o più livelli Ad esempio:

Dettagli

Esercitazione: La distribuzione NORMALE

Esercitazione: La distribuzione NORMALE Esercitazione: La distribuzione NORMALE Uno dei più importanti esempi di distribuzione di probabilità continua è dato dalla distribuzione Normale (curva normale o distribuzione Gaussiana); è una delle

Dettagli

Validazione ediagnostica

Validazione ediagnostica Validazione ediagnostica Il processo di identificazione di un modello di regressione consiste nell iterazione delle seguenti fasi: 1. formulazione di un modello provvisorio 2. stima dei parametri 3. critica

Dettagli

Ulteriori Conoscenze di Informatica e Statistica

Ulteriori Conoscenze di Informatica e Statistica ndici di forma Ulteriori Conoscenze di nformatica e Statistica Descrivono le asimmetrie della distribuzione Carlo Meneghini Dip. di fisica via della Vasca Navale 84, st. 83 ( piano) tel.: 06 55 17 72 17

Dettagli

CORSO DI LAUREA IN INFERMIERISTICA. LEZIONI DI STATISTICA Parte II Elaborazione dei dati Variabilità

CORSO DI LAUREA IN INFERMIERISTICA. LEZIONI DI STATISTICA Parte II Elaborazione dei dati Variabilità CORSO DI LAUREA IN INFERMIERISTICA LEZIONI DI STATISTICA Parte II Elaborazione dei dati Variabilità Lezioni di Statistica VARIABILITA Si definisce variabilità la proprietà di alcuni fenomeni di assumere

Dettagli

i dati escludono vi sia una relazione tra variabile indipendente e variabile dipendente (rispettivamente

i dati escludono vi sia una relazione tra variabile indipendente e variabile dipendente (rispettivamente TEST DI AUTOVALUTAZIONE - SETTIMANA 6 I diritti d autore sono riservati. Ogni sfruttamento commerciale non autorizzato sarà perseguito. Metodi statistici per la biologia Parte A. La retta di regressione.2

Dettagli

Analisi degli Errori di Misura. 08/04/2009 G.Sirri

Analisi degli Errori di Misura. 08/04/2009 G.Sirri Analisi degli Errori di Misura 08/04/2009 G.Sirri 1 Misure di grandezze fisiche La misura di una grandezza fisica è descrivibile tramite tre elementi: valore più probabile; incertezza (o errore ) ossia

Dettagli

Intervallo di confidenza

Intervallo di confidenza Intervallo di confidenza Prof. Giuseppe Verlato, Prof. Roberto de Marco Sezione di Epidemiologia e Statistica Medica, Università di Verona campione inferenza popolazione Media Riportare sempre anche Stima

Dettagli

TOPOGRAFIA 2013/2014. Prof. Francesco-Gaspare Caputo

TOPOGRAFIA 2013/2014. Prof. Francesco-Gaspare Caputo TOPOGRAFIA 2013/2014 L operazione di misura di una grandezza produce un numero reale che esprime il rapporto della grandezza stessa rispetto a un altra, a essa omogenea, assunta come unità di misura. L

Dettagli

05. Errore campionario e numerosità campionaria

05. Errore campionario e numerosità campionaria Statistica per le ricerche di mercato A.A. 01/13 05. Errore campionario e numerosità campionaria Gli schemi di campionamento condividono lo stesso principio di fondo: rappresentare il più fedelmente possibile,

Dettagli

Ogni misura è composta di almeno tre dati: un numero, un'unità di misura, un'incertezza.

Ogni misura è composta di almeno tre dati: un numero, un'unità di misura, un'incertezza. Ogni misura è composta di almeno tre dati: un numero, un'unità di misura, un'incertezza. Misure ripetute forniscono dati numerici distribuiti attorno ad un valore centrale indicabile con un indice (indice

Dettagli

Sommario. Capitolo 1 I dati e la statistica 1. Capitolo 2 Statistica descrittiva: tabelle e rappresentazioni grafiche 25

Sommario. Capitolo 1 I dati e la statistica 1. Capitolo 2 Statistica descrittiva: tabelle e rappresentazioni grafiche 25 Sommario Presentazione dell edizione italiana Prefazione xv xiii Capitolo 1 I dati e la statistica 1 Statistica in pratica: BusinessWeek 1 1.1 Le applicazioni in ambito aziendale ed economico 3 Contabilità

Dettagli

LEZIONI IN LABORATORIO Corso di MARKETING L. Baldi Università degli Studi di Milano. Strumenti statistici in Excell

LEZIONI IN LABORATORIO Corso di MARKETING L. Baldi Università degli Studi di Milano. Strumenti statistici in Excell LEZIONI IN LABORATORIO Corso di MARKETING L. Baldi Università degli Studi di Milano Strumenti statistici in Excell Pacchetto Analisi di dati Strumenti di analisi: Analisi varianza: ad un fattore Analisi

Dettagli

x, y rappresenta la coppia di valori relativa La rappresentazione nel piano cartesiano dei punti ( x, y ),( x, y ),...,( x, y )

x, y rappresenta la coppia di valori relativa La rappresentazione nel piano cartesiano dei punti ( x, y ),( x, y ),...,( x, y ) Università degli Studi di Basilicata Facoltà di Economia Corso di Laurea in Economia Aziendale - a.a. 0/03 lezioni di statistica del 5 e 8 aprile 03 - di Massimo Cristallo - A. Le relazioni tra i fenomeni

Dettagli

CURVE DI DURATA: Introduzione e Rappresentazione analitica

CURVE DI DURATA: Introduzione e Rappresentazione analitica CURVE DI DURATA: Introduzione e Rappresentazione analitica Premesse Si definisce durata di una portata Q riferita ad una sezione di misura, l'intervallo di tempo in cui le portate naturali del corso d

Dettagli

Probabilità classica. Distribuzioni e leggi di probabilità. Probabilità frequentista. Probabilità soggettiva

Probabilità classica. Distribuzioni e leggi di probabilità. Probabilità frequentista. Probabilità soggettiva Probabilità classica Distribuzioni e leggi di probabilità La probabilità di un evento casuale è il rapporto tra il numero dei casi favorevoli ed il numero dei casi possibili, purchè siano tutti equiprobabili.

Dettagli

Statistica. Alfonso Iodice D Enza

Statistica. Alfonso Iodice D Enza Statistica Alfonso Iodice D Enza iodicede@unina.it Università degli studi di Cassino () Statistica 1 / 1 Outline 1 () Statistica 2 / 1 Outline 1 2 () Statistica 2 / 1 Outline 1 2 3 () Statistica 2 / 1

Dettagli

Lezione 18. Statistica. Alfonso Iodice D Enza Università degli studi di Cassino. Lezione 18. A. Iodice

Lezione 18. Statistica. Alfonso Iodice D Enza Università degli studi di Cassino. Lezione 18. A. Iodice Statistica Alfonso Iodice D Enza iodicede@unicas.it Università degli studi di Cassino () Statistica 1 / 45 Outline 1 2 3 4 5 () Statistica 2 / 45 Modello di In molte applicazioni il ruolo delle variabili

Dettagli

STATISTICA (2) ESERCITAZIONE Dott.ssa Antonella Costanzo

STATISTICA (2) ESERCITAZIONE Dott.ssa Antonella Costanzo STATISTICA (2) ESERCITAZIONE 7 11.03.2014 Dott.ssa Antonella Costanzo Esercizio 1. Test di indipendenza tra mutabili In un indagine vengono rilevate le informazioni su settore produttivo (Y) e genere (X)

Dettagli

lezione 7 AA Paolo Brunori

lezione 7 AA Paolo Brunori AA 2016-2017 Paolo Brunori dove siamo arrivati? - se siamo interessati a studiare l andamento congiunto di due fenomeni economici - possiamo provare a misurare i due fenomeni e poi usare la lineare semplice

Dettagli

La regressione lineare. Rappresentazione analitica delle distribuzioni

La regressione lineare. Rappresentazione analitica delle distribuzioni La regressione lineare Rappresentazione analitica delle distribuzioni Richiamiamo il concetto di dipendenza tra le distribuzioni di due caratteri X e Y. Ricordiamo che abbiamo definito dipendenza perfetta

Dettagli

Distribuzione Gaussiana - Facciamo un riassunto -

Distribuzione Gaussiana - Facciamo un riassunto - Distribuzione Gaussiana - Facciamo un riassunto - Nell ipotesi che i dati si distribuiscano seguendo una curva Gaussiana è possibile dare un carattere predittivo alla deviazione standard La prossima misura

Dettagli

tabelle grafici misure di

tabelle grafici misure di Statistica Descrittiva descrivere e riassumere un insieme di dati in maniera ordinata tabelle grafici misure di posizione dispersione associazione Misure di posizione Forniscono indicazioni sull ordine

Dettagli

Esercitazione 9 del corso di Statistica (parte seconda)

Esercitazione 9 del corso di Statistica (parte seconda) Esercitazione 9 del corso di Statistica (parte seconda) Dott.ssa Paola Costantini 17 Marzo 9 Esercizio 1 Esercizio Un economista del Ministero degli Esteri desidera verificare se gli accordi di negoziazione

Dettagli

Il processo inferenziale consente di generalizzare, con un certo grado di sicurezza, i risultati ottenuti osservando uno o più campioni

Il processo inferenziale consente di generalizzare, con un certo grado di sicurezza, i risultati ottenuti osservando uno o più campioni La statistica inferenziale Il processo inferenziale consente di generalizzare, con un certo grado di sicurezza, i risultati ottenuti osservando uno o più campioni E necessario però anche aggiungere con

Dettagli

Esercizi di statistica

Esercizi di statistica Esercizi di statistica Test a scelta multipla (la risposta corretta è la prima) [1] Il seguente campione è stato estratto da una popolazione distribuita normalmente: -.4, 5.5,, -.5, 1.1, 7.4, -1.8, -..

Dettagli

ANALISI DELLE SERIE STORICHE

ANALISI DELLE SERIE STORICHE ANALISI DELLE SERIE STORICHE De Iaco S. s.deiaco@economia.unile.it UNIVERSITÀ del SALENTO DIP.TO DI SCIENZE ECONOMICHE E MATEMATICO-STATISTICHE FACOLTÀ DI ECONOMIA 24 settembre 2012 Indice 1 Funzione di

Dettagli

Confronto fra gruppi: il metodo ANOVA. Nicola Tedesco (Statistica Sociale) Confronto fra gruppi: il metodo ANOVA 1 / 23

Confronto fra gruppi: il metodo ANOVA. Nicola Tedesco (Statistica Sociale) Confronto fra gruppi: il metodo ANOVA 1 / 23 Confronto fra gruppi: il metodo ANOVA Nicola Tedesco (Statistica Sociale) Confronto fra gruppi: il metodo ANOVA 1 / 23 1 Nella popolazione, per ciascun gruppo la distribuzione della variabile risposta

Dettagli

Test per la correlazione lineare

Test per la correlazione lineare 10 Test per la correlazione lineare Istituzioni di Matematica e Statistica 2015/16 E. Priola 1 Introduzione alla correlazione lineare Problema: In base ai dati che abbiamo possiamo dire che c è una qualche

Dettagli

PROCEDURE/TECNICHE DI ANALISI / MISURE DI ASSOCIAZIONE A) ANALISI DELLA VARIANZA

PROCEDURE/TECNICHE DI ANALISI / MISURE DI ASSOCIAZIONE A) ANALISI DELLA VARIANZA PROCEDURE/TECNICHE DI ANALISI / MISURE DI ASSOCIAZIONE A) ANALISI DELLA VARIANZA PROCEDURA/TECNICA DI ANALISI DEI DATI SPECIFICAMENTE DESTINATA A STUDIARE LA RELAZIONE TRA UNA VARIABILE NOMINALE (ASSUNTA

Dettagli

Statistica - metodologie per le scienze economiche e sociali /2e S. Borra, A. Di Ciaccio - McGraw Hill

Statistica - metodologie per le scienze economiche e sociali /2e S. Borra, A. Di Ciaccio - McGraw Hill Statistica - metodologie per le scienze economiche e sociali /e S Borra, A Di Ciaccio - McGraw Hill Es 6 Soluzione degli esercizi del capitolo 6 In base agli arrotondamenti effettuati nei calcoli, si possono

Dettagli

Scale di Misurazione Lezione 2

Scale di Misurazione Lezione 2 Last updated April 26, 2016 Scale di Misurazione Lezione 2 G. Bacaro Statistica CdL in Scienze e Tecnologie per l'ambiente e la Natura II anno, II semestre Tipi di Variabili 1 Scale di Misurazione 1. Variabile

Dettagli

Facoltà di Scienze Statistiche Corso di Laurea in Statistica ed Informatica per l Azienda ESERCIZI DI ALLENAMENTO a.a.

Facoltà di Scienze Statistiche Corso di Laurea in Statistica ed Informatica per l Azienda ESERCIZI DI ALLENAMENTO a.a. Facoltà di Scienze Statistiche Corso di Laurea in Statistica ed Informatica per l Azienda ESERCIZI DI ALLENAMENTO a.a. 2008 PARTE I 1. Si consideri il seguente modello di regressione lineare su dati cross

Dettagli

Maria Prandini Dipartimento di Elettronica e Informazione Politecnico di Milano

Maria Prandini Dipartimento di Elettronica e Informazione Politecnico di Milano Note relative a test di bianchezza rimozione delle componenti deterministiche da una serie temporale a supporto del Progetto di Identificazione dei Modelli e Analisi dei Dati Maria Prandini Dipartimento

Dettagli

Esercitazione 5 Sta/s/ca Aziendale

Esercitazione 5 Sta/s/ca Aziendale Esercitazione 5 Sta/s/ca Aziendale David Aristei 12 maggio 2015 Si è interessa/ ad analizzare le determinan/ a livello aziendale della produ>vità del lavoro (PL, in migliaia di euro per dipendente) di

Dettagli

Settimana 3. G. M. Marchetti. Marzo 2017

Settimana 3. G. M. Marchetti. Marzo 2017 Settimana 3 G. M. Marchetti Marzo 2017 1 / 26 Prima parte Relazioni tra variabili e regressione lineare 2 / 26 Una legge fisica approssimata Il fisico scozzese Forbes 3 / 26 L esperimento di Forbes Sulla

Dettagli

Quanti soggetti devono essere selezionati?

Quanti soggetti devono essere selezionati? Quanti soggetti devono essere selezionati? Determinare una appropriata numerosità campionaria già in fase di disegno dello studio molto importante è molto Studi basati su campioni troppo piccoli non hanno

Dettagli

La variabilità. Dott. Cazzaniga Paolo. Dip. di Scienze Umane e Sociali

La variabilità. Dott. Cazzaniga Paolo. Dip. di Scienze Umane e Sociali Dip. di Scienze Umane e Sociali paolo.cazzaniga@unibg.it Introduzione [1/2] Gli indici di variabilità consentono di riassumere le principali caratteristiche di una distribuzione (assieme alle medie) Le

Dettagli

Analisi della regressione multipla

Analisi della regressione multipla Analisi della regressione multipla y = β 0 + β 1 x 1 + β 2 x 2 +... β k x k + u 2. Inferenza Assunzione del Modello Classico di Regressione Lineare (CLM) Sappiamo che, date le assunzioni Gauss- Markov,

Dettagli

Test F per la significatività del modello

Test F per la significatività del modello Test F per la significatività del modello Per verificare la significatività dell intero modello si utilizza il test F Si vuole verificare l ipotesi H 0 : β 1 = 0,, β k = 0 contro l alternativa che almeno

Dettagli

La media e la mediana sono indicatori di centralità, che indicano un centro dei dati.

La media e la mediana sono indicatori di centralità, che indicano un centro dei dati. La media e la mediana sono indicatori di centralità, che indicano un centro dei dati. Un indicatore che sintetizza in un unico numero tutti i dati, nascondendo quindi la molteplicità dei dati. Per esempio,

Dettagli