SEMINARIO GRUPPO TEMATICO METODI e TECNICHE La valutazione degli incentivi industriali: aspetti metodologici Università di Brescia, 17 gennaio 2012 Modelli per variabili dipendenti qualitative Paola Zuccolotto Università di Brescia Centro di Studi e Ricerca Dati Metodi Sistemi
Scopo e agenda Scopo: Dare uno sguardo alle problematiche principali riguardanti la previsione statistica per variabili dipendenti qualitative Agenda: Questioni statistiche fondamentali Approcci e metodi di analisi Valutazione della bontà del modello Contestualizzazione nella valutazione Alcuni problemi specifici
Questioni statistiche fondamentali: la previsione Previsione statistica: X 1, X 2 p predittori E(Y) = (X 1, X 2 X p ) Y qualitativa classificazione quantitativa regressione
Questioni statistiche fondamentali: variabili dipendenti qualitative Variabili qualitative dicotomiche (0-1) E(Y) = si modella la probabilità di osservare il valore 1 = (X 1, X 2 X p ) N.B. La funzione è il modello statistico
Approcci e metodi di analisi A seconda della forma scelta per la funzione abbiamo diversi modelli statistici. In generale possiamo distinguere due approcci fondamentali alla definizione di tradizionale e quello algoritmico.
Approcci e metodi di analisi Approccio tradizionale Consiste nello scegliere per una forma funzionale definita a priori, in genere abbastanza semplice. Esempi: regressione logistica, probit
Approcci e metodi di analisi Esempio con due predittori X 1 e X 2 Esempio con tre predittori X 1, X 2 e X 3 X 2 X 3 X 1 X 1 X 2
Approcci e metodi di analisi Facile interpretabilità del modello Facile stima dei parametri Rigidità della funzione
Approcci e metodi di analisi Approccio algoritmico Consiste meccanismi algoritmici per approssimare. Esempi: reti neurali artificiali, alberi di classificazione, ensemble learning, SVM, algoritmi genetici,
Approcci e metodi di analisi Esempio con due predittori X 1 e X 2 Esempio con tre predittori X 1, X 2 e X 3 X 3 X 2 X 1 X 2 X 1
Approcci e metodi di analisi Elevata flessibilità della funzione Pesantezza computazionale Difficoltà di stima dei parametri Difficoltà di interpretazione del modello (black box)
Valutazione della bontà del modello (goodness of fit) Si definisce una soglia s, quindi per ogni soggetto i- esimo i previsione 0 per il soggetto i- esimo i > s 1 per il soggetto i- esimo previsione effettivi 1 0 1 0
Valutazione della bontà del modello (goodness of fit) effettivi 1 0 previsione 1 n 11 n 10 0 n 01 n 00 Misclassification error rate
Valutazione della bontà del modello (goodness of fit) effettivi 1 0 previsione 1 n 11 n 10 0 n 01 n 00 Misclassification error rate Sensitivity True positive rate
Valutazione della bontà del modello (goodness of fit) effettivi 1 0 previsione 1 n 11 n 10 0 n 01 n 00 Misclassification error rate Sensitivity True positive rate Specificity True negative rate
Valutazione della bontà del modello (goodness of fit) Sensitività e specificità variano al variare della soglia s s = 0 s = 1 effettivi effettivi 1 0 1 0 previsione 1 n 11 n 10 0 0 0 previsione 1 0 0 0 n 01 n 00 Sensitivity = 1 Specificity = 0 Sensitivity = 0 Specificity = 1
Valutazione della bontà del modello (goodness of fit) Sensitività e specificità variano al variare della soglia s Sensitivity - Specificity s
Valutazione della bontà del modello (goodness of fit) Il valore ottimale di s si può scegliere osservando la ROC curve Valori bassi di s Valori elevati di s
Valutazione della bontà del modello (goodness of fit) Il valore ottimale di s si può scegliere osservando la ROC curve Soglia moderata Soglia lasca Soglia stretta
Valutazione della bontà del modello (goodness of fit) La ROC curve può essere utilizzata anche per effettuare una valutazione sintetica globale di goodness of fit. In questo modo risulta possibile valutare la bontà di un predittore e confrontare predittori diversi tra loro.
Valutazione della bontà del modello (goodness of fit) Il predittore migliore (attribuzione esatta delle categorie) Il predittore peggiore (attribuzione casuale delle categorie)
Valutazione della bontà del modello (goodness of fit)
Valutazione della bontà del modello (goodness of fit) Si può anche calcolare un indicatore sintetico Area Under the Curve AUC
Variabili dipendenti qualitative: contestualizzazione nella valutazione politiche economiche Propensity Score Matching: calcola la probabilità di partecipanti aventi probabilità simili. Identificazione delle Variabili Strumentali: calcola la predittori associati con il meccanismo di (auto)selezione ma Treatment Effect Model: modella la probabilità di partecipare
Alcuni problemi specifici Variable selection: Approccio tradizionale: step- wise, penalized regression. Approccio algoritmico: Variable Importance measures, metodi di rule extraction Sbilanciamento tra 0 e 1: Metodi di ricampionamento Spostamento soglia su ROC curve Introduzione funzioni di costo