DATA MINING PER IL MARKETING (63 ore)

Documenti analoghi
MODELLO DI REGRESSIONE LINEARE. le ipotesi del modello di regressione classico, stima con i metodi dei minimi quadrati e di massima verosimiglianza,

STATISTICA A K (60 ore)

Metodi statistici per l economia (Prof. Capitanio) Slide n. 10. Materiale di supporto per le lezioni. Non sostituisce il libro di testo

Analisi di Regressione Multipla

Destagionalizzazione, detrendizzazione delle serie storiche

STATISTICA (2) ESERCITAZIONE Dott.ssa Antonella Costanzo

Il modello di regressione lineare multipla. Il modello di regressione lineare multipla

s a Inferenza: singolo parametro Sistema di ipotesi: : β j = β j0 H 1 β j0 statistica test t confronto con valore t o p-value

La regressione lineare semplice

lezione n. 6 (a cura di Gaia Montanucci) Verosimiglianza: L = = =. Parte dipendente da β 0 e β 1

Correlazione e regressione

STATISTICA A D (72 ore)

STATISTICA. Regressione-3 L inferenza per il modello lineare semplice

Analisi della regressione multipla

Minimi quadrati vincolati e test F

1. variabili dicotomiche: 2 sole categorie A e B

2. SPECIFICAZIONE DI UN MODELLO DI REGRESSIONE MULTIPLA

Statistica Applicata all edilizia: il modello di regressione

Elementi di statistica per l econometria

Regressione lineare semplice

R - Esercitazione 6. Andrea Fasulo Venerdì 22 Dicembre Università Roma Tre

Variabili indipendenti qualitative. In molte applicazioni si rende necessario l introduzione di un fattore a due o più livelli.

Nel modello omoschedastico la varianza dell errore non dipende da i ed è quindi pari a σ 0.

Statistica multivariata Donata Rodi 17/10/2016

LEZIONI IN LABORATORIO Corso di MARKETING L. Baldi Università degli Studi di Milano. Strumenti statistici in Excell

Università degli Studi Roma Tre Anno Accademico 2014/2015 ST410 Statistica 1

lezione 4 AA Paolo Brunori

Università degli Studi Roma Tre Anno Accademico 2016/2017 ST410 Statistica 1

Statistica 1 A.A. 2015/2016

PROBABILITÀ ELEMENTARE

Esercitazione 5 - Statistica (parte II) Davide Passaretti 9/3/2017

3.1 Classificazione dei fenomeni statistici Questionari e scale di modalità Classificazione delle scale di modalità 17

docente: J. Mortera/P. Vicard Nome

ECONOMETRIA: Laboratorio I

Minimi quadrati ordinari Interpretazione geometrica. Eduardo Rossi

ESAME. 9 Gennaio 2017 COMPITO A

Test F per la significatività del modello

1.1 Obiettivi della statistica Struttura del testo 2

Analisi della varianza

Il modello di regressione lineare multipla con regressori stocastici

Presentazione dell edizione italiana

Statistica. Capitolo 12. Regressione Lineare Semplice. Cap. 12-1

Metodologie Quantitative

COGNOME.NOME...MATR..

Argomenti della lezione:

I. Foglio di esercizi su vettori linearmente dipendenti e linearmente indipendenti. , v 2 = α v 1 + β v 2 + γ v 3. α v 1 + β v 2 + γ v 3 = 0. + γ.

Analisi di Regressione Multivariata. β matrice incognita dei coeff. di regressione (regr. lineare in β)

Regressione & Correlazione

Statistica economica

PROVA SCRITTA DI STATISTICA. CLEA/CLEFIN/CLEMIT (cod. 5047/4038/371/377) 3 Novembre 2004 MOD. A

Esercizi di statistica

STIMA DELLA PIENA INDICE

Università di Pavia Econometria Esercizi 4 Soluzioni

STATISTICA. Regressione-2

Fasi del modello di regressione

La curva di regressione è il luogo dei punti aventi come ordinate le medie condizionate

Esercitazione 5 Sta/s/ca Aziendale

Indice. centrale, dispersione e forma Introduzione alla Statistica Statistica descrittiva per variabili quantitative: tendenza

Statistica Inferenziale

Indice. Prefazione. 4 Sintesi della distribuzione di un carattere La variabilità Introduzione La variabilità di una distribuzione 75

Note sui sistemi lineari per il Corso di Geometria per Chimica, Facoltà di Scienze MM.FF.NN., UNICAL (Dott.ssa Galati C.) Rende, 4 Maggio 2010

Argomenti della lezione:

Università degli Studi Roma Tre Anno Accademico 2017/2018 ST410 Statistica 1

Corso di Geometria BIAR, BSIR Esercizi 3: soluzioni

Indipendenza, Dipendenza e interdipendenza

L'analisi bivariata (analisi della varianza e correlazione) Prof. Stefano Nobile. Corso di Metodologia della ricerca sociale

Corso di Statistica Industriale

Esercitazione del

Metodi statistici per le ricerche di mercato

Il modello di regressione lineare classico

Distribuzioni campionarie

Stima dei parametri. La v.c. multipla (X 1, X 2,.., X n ) ha probabilità (o densità): Le f( ) sono uguali per tutte le v.c.

Regressione Lineare Semplice e Correlazione

Regressione multipla

STATISTICA. Regressione-2

Nota 4.1 Il modello (4.1) può essere anche utilizzato per studiare strutture più complesse. Consideriamo ad esempio il modello polinomiale:

Dipartimento di Economia e Giurisprudenza Università degli Studi di Cassino e del Lazio Meridionale

Esercitazione 9 del corso di Statistica (parte seconda)

Distribuzione normale multidimensionale

Corso di STATISTICA EGA - Classe 1 aa Docenti: Luca Frigau, Claudio Conversano

UNIVERSITÀ DEGLI STUDI ROMA TRE Corso di Laurea in Matematica ST410 - Statistica 1 - A.A. 2013/2014. I Esonero - 29 Ottobre Tot.

Facoltà di Scienze Statistiche Corso di Laurea in Statistica ed Informatica per l Azienda ESERCIZI DI ALLENAMENTO a.a.

Prefazione Ringraziamenti dell'editore Il sito web dedicato al libro Test online: la piattaforma McGraw-Hill Education Guida alla lettura

Vogliamo determinare una funzione lineare che meglio approssima i nostri dati sperimentali e poter decidere sulla bontà di questa approssimazione.

La regressione lineare. Rappresentazione analitica delle distribuzioni

STATISTICA. Esonero 8 novembre 2014 Soluzione. Quesito 1.

Modelli lineari generalizzati

ESERCITAZIONE IV - Soluzioni

Università di Pavia Econometria. Minimi quadrati ordinari Interpretazione geometrica. Eduardo Rossi

Statistica Descrittiva Soluzioni 7. Interpolazione: minimi quadrati

BOZZE M.CHIODI APRILE 2013

Lezione 18. Statistica. Alfonso Iodice D Enza Università degli studi di Cassino. Lezione 18. A. Iodice

ESAME. 9 Gennaio 2017 COMPITO B

Analisi delle componenti principali

lezione 5 AA Paolo Brunori

STATISTICA. Esercitazione 5

Metodi Statistici per la Ricerca Sociale: Formulario

Σ (x i - x) 2 = Σ x i 2 - (Σ x i ) 2 / n Σ (y i - y) 2 = Σ y i 2 - (Σ y i ) 2 / n. 13. Regressione lineare parametrica

3. Vettori, Spazi Vettoriali e Matrici

Transcript:

DATA MINING PER IL MARKETING (63 ore) Marco Riani mriani@unipr.it Sito web del corso http://www.riani.it/dmm

Studio della distribuzione di ˆ E( ˆ) var( ˆ) 2 ( X ' X ) 1

Teorema di Gauss Markov (efficienza degli stimatori OLS p. 192)

Stima di σ 2 E(s 2 )? Qual è la distribuzione di s 2 (somma dei quadrati dei residui diviso i gradi di libertà)

Caratteristiche delle devianze Dev residua Dev totale Dev regressione

Come si distribuiscono le forme quadratiche idempotenti?

Come si distribuiscono le forme quadratiche idempotenti? Premessa: numero di autovalori diversi da zero di una matrice = rango della matrice (p. 294) Gli autovalori di una matrice idempotente sono o 1(p. 288) La somma degli autovalori è uguale alla traccia (p.294) rango e traccia della matrice idempotente coincidono

Distribuzione delle forme quadratiche nella regressione Devianza residua

Distribuzione delle forme quadratiche nella regressione Devianza residua

Distribuzione della devianza residua e e e e=ε M ε Scomposizione spettrale di M M= PΛP e e = ε P ΛP ε Ponendo P ε=v e e= v Λ v v~n(, σ 2 I n )

Distribuzione della devianza residua e e e e = v Λ v v~n(, σ 2 I n )

Distribuzione della devianza residua e e

Distribuzione della devianza totale Scomposizione spettrale di A A= PΛP y Ay=ε P ΛP ε Ponendo P ε=v y Ay= v Λ v v~n(, σ 2 I n )

Distribuzione della devianza totale y Ay= v Λ v v~n(, σ 2 I n )

Affermazioni equivalenti (p. 197)

Distribuzione delle forme quadratiche nella regressione Devianza di regressione

Riassunto finale Le forme quadratiche idempotenti hanno una distribuzione chi quadrato (dato che gli autovalori sono e 1) Il numero di gradi di libertà è dato dal numero di autovalori uguali ad 1 (traccia ossia rango della matrice idempotente)

Scomposizione della devianza totale e distribuzione delle forme quadratiche (p. 197)

Inferenza su un generico coeff. di regressione parziale (p. 197)

Inferenza su un generico coeff. di regressione parziale

t j presenta una distribuzione T di Student con n-k gradi di libertà H: β j = Analisi della distribuzione del test t j

Intervallo di conf. di un generico coeff. di regressione parziale

Analisi della bontà di adattamento R2 nei modelli di regressione lineare multipla

Analisi della varianza e coeff. di correlazione lineare multipla (modelli senza intercetta) Indice di bontà di adattamento

Modelli con intercetta

Coeff. correlazione lineare multipla

Criteri per confrontare i modelli In assenza di relazione lineare tra X e y qual è il valore atteso di R 2

Criteri per confrontare i modelli

Criteri per confrontare i modelli tende a in assenza di dipendenza lineare e tende a 1 in presenza di dipendenza lineare perfetta.

Criteri per confrontare i modelli Dopo semplici passaggi

Ripasso sullle v.c Normale (standardizzata) chi^2 (forme quadratiche idempotenti) T di Student F (rapporto tra forme quadratiche idempotenti indipendenti)

Test di verifica di ipotesi su combinazioni lineari dei coefficienti Esempi

Test di verifica di ipotesi su combinazioni lineari dei coefficienti Se vogliano testare simultaneamente q ipotesi la forma generale è Rβ=r dove R (q k) di costanti note r= vettore noto di q elementi

Test di verifica di ipotesi su combinazioni lineari dei coefficienti

Test di verifica di ipotesi su combinazioni lineari dei coefficienti

Test di verifica di ipotesi su combinazioni lineari dei coefficienti

Esercizio Supponiamo che k=5. Determinare la matrice R ed il vettore r per testare simultaneamente le seguenti ipotesi β 2 +3β 4 =1 β 1-5β 5 = β 3 = β 3 +β 4 +β 5 =2 1 2 3 4 5

Esercizio β 2 +3β 4 =1 β 1-5β 5 = β 3 = β 3 +β 4 +β 5 =2 1 1 1 1 5 1 3 1 R 5 4 3 2 1 2 1 r

Test di verifica di ipotesi su combinazioni lineari dei coefficienti

Test di verifica di ipotesi su combinazioni lineari dei coefficienti

Esercizio Supponiamo che k=6. Determinare la matrice R ed il vettore r per testare simultaneamente le seguenti ipotesi β 3 =β 4 =β 5 = β 6 =

Esercizio β 3 =β 4 =β 5 = β 6 = 1 1 1 1 R 6 5 4 3 2 1 r

Statistica test

Dimostrazione Il numeratore si può scrivere ε Q ε

Devo dimostrare che QQ=Q ε Q ε = forma quadratica idempotente

ε Q ε ~ σ 2 chi^2 chi^2(q) dove q è il numero di righe della matrice R (numero di vincoli)

Distribuzione del test F Numeratore ε Q ε/q Denominatore ε M ε/(n-k) M I X ( X ' X ) 1 X ' I H

Esempio con Excel File regr-test.xlsx