1. CLUSTER ANALYSIS. E <- read.table ('clipboard', header=true) PCA = princomp(e); biplot(pca) Parte 1: analisi preliminari, di tipo grafico.

Documenti analoghi
Cluster Analysis: Metodi non gerarchici

LE INFORMAZIONI STATISTICHE SUI GIOVANI E LA SCUOLA PRODOTTE DA ISTAT ED EUROSTAT

Giovani che non lavorano, non studiano e non frequentano corsi di formazione (NEETs) in provincia di Bergamo e in Europa.

Siete invitati a cambiare un po di parametri dell esercizio (es. aumentare Nrow; diminuire sig2; diminuire i coefficienti di X3 ed X4).

Giovani che non lavorano, non studiano e non frequentano corsi di formazione (NEETs) in provincia di Bergamo e in Europa.

1. GRAFICO DEI DUE R^2. Si riprenda l esercitazione del 19/10, relativa alla tabella IB. IB <- read.table ("clipboard", header=true)

Word ha il vantaggio che possiamo salvare un po' di risultati, anche grafici

Statistiche di sintesi

0.1 Percorrenza e Cilindrata

Introduzione alla giornata

1. ISTOGRAMMI E GRAFICI DI ALCUNE DENSITA (COMPLEMENTO ALLA LEZIONE PRECEDENTE)

Prof. Luigi Frudà. FOCUS ON : SEXUAL HEALTH ROMA- CAMPUS BIO-MEDICO 24 Novembre 2018

VERIFICA DELLE ATTREZZATURE DI DISTRIBUZIONE IN CAMPO

Effetti individuali ed effetti di contesto

Il modello di regressione (VEDI CAP 12 VOLUME IEZZI, 2009)

Insegnamento: Società europee comparate. Trasformazione post-industriale, riforme di welfare e impatto della crisi in Europa.

Enrico Quintavalle, Responsabile Ufficio Studi Confartigianato in collaborazione con Licia Redolfi, Osservatorio MPI Confartigianato Lombardia

LABORATORIO DI PROBABILITA E STATISTICA

Alcuni dati economici

L agricoltura familiare oggi. Una lettura dei dati del Censimento ISTAT 2010

Tabella 1 - Spesa per i servizi per il lavoro pubblici in Europa ( LMP Category 1 ) Milioni di euro. Anni

Che cosa sta accadendo?

Esercitazione finale - corso R base Francesco Vidoli Ottobre 2018

ERASMUS PLUS. KA1 School education staff mobility/ Adult education staff mobility

Anova e regressione. Andrea Onofri Dipartimento di Scienze Agrarie ed Ambientali Universitá degli Studi di Perugia 22 marzo 2011

Epidemiologia della legionellosi

Servizio Stage e Career Service Palazzo Storione, Riviera Tito Livio Padova

LE MISURE SULL EFFICIENZA

Regressione. Monica Marabelli. 15 Gennaio 2016

Cinque parametri educativi di riferimento per il 2020

La partecipazione regionale alla priorità tematica PEOPLE del VII Programma Quadro di Ricerca e Sviluppo. Gruppo indicatori Giugno 2011

Valeria Bandini 19 maggio 2011

OCSE-PISA Il Veneto nel quadro nazionale e internazionale

POLICY SUPPORT FOR PRODUCTIVITY VS. SUSTAINABILITY IN EU AGRICULTURE TOWARDS VIABLE FARMING AND GREEN GROWTH

Page 1/6

ERASMUS PLUS. KA1 School education staff mobility/ Adult education staff mobility

H2020, innovazione e ricerca europea

ERASMUS PLUS. Disposizioni nazionali allegate alla Guida al Programma 2019

Combinazioni di basi in titanio e materiali nel software CEREC 4.5

Anno 2014 Il territorio e le imprese in cifre

Un analisi della partecipazione italiana al primo ciclo di bandi SC6

Le prospettive finanziarie

Povertà dei minori in Italia in prospettiva comparata. Gli effetti della crisi e delle politiche

L IMPORTANZA DEL CONTROLLO FUNZIONALE DELLE IRRORATRICI: LA SITUAZIONE INTERNAZIONALE, ITALIANA I PROTOCOLLI DI PROVA E LE ATTREZZATURE DA IMPIEGARE

Il differenziale retributivo di genere grezzo

Ancora sulla regressione multipla

Rifiuti in Alto Adige Agosto 2019 Andrea Marri Ufficio Gestione Rifiuti

Popolazione e cambiamento demografico nella Lombardia del futuro

CAMERA DI COMMERCIO DI TORINO Settore INNOVAZIONE TECNOLOGICA

Presenze in Europa. Presenze nella strutture turistiche europee (EU28) Totale Non residenti Residenti

ERASMUS PLUS. KA1 School education staff mobility/ Adult education staff mobility

Laboratorio di Statistica Aziendale Modello di regressione lineare multipla

Lavoro femminile e precarietà

Corso Ordine Giornalisti I falsi miti sulle energie rinnovabili Torino, 7 giugno 2016

C.11 IL MERCATO DEL LAVORO: LA POSIZIONE DEL NORD EST RISPETTO ALL EUROPA

I nuovi scenari economici per gli investitori: mercati, BCE e UE

Politiche europee per la ricerca: prospettive e strumenti. Gianluca Quaglio Venezia, 26 giugno 2013

Il calo della natalità in Puglia e le sue conseguenze

Un analisi della partecipazione italiana al primo ciclo di bandi SC6

PISA 2015: l Italia a confronto

LE COMPONENTI DI COSTO DEL PRODOTTO COSMETICO

Esercizio Dire quale variabile debba essere usata come regressore e quale sia la variabile risposta.

Sicurezza stradale: politiche ed esperienze europee

Elaborazioni da Rapporto ESPAD, 2015

Analisi della varianza a due fattori

Regione Detenuti presenti Agenti in forza. Totale

Corso di Economia del Lavoro Daniele Checchi Brucchi cap.11 anno

La migrazione nell UE Gli indicatori dell integrazione. Courcelles, 26 febbraio 2019 Emanuele Galossi

JOINT HEARING ON "Leader experiences- lessons learned and effectiveness of EU funds for rural development"

LABORATORIO 5. ANALISI DELLA VARIANZA AD UN CRITERIO DI CLASSIFICAZIONE

Industria 4.0 per il Futuro del Piemonte

Quarta Conferenza Nazionale sull efficienza energetica L EFFICIENZA ENERGETICA: POTENZIALE RICCHEZZA PER L ITALIA

Il COMMERCIO IN TOSCANA: UNA RADIOGRAFIA ECONOMICA. Enrico Conti. I R P E T Istituto Regionale Programmazione Economica Toscana

ECONOMIA CIRCOLARE: UN OPPORTUNITÀ PER LA CRESCITA REGIONALE? Stefano Casini Benvenuti

Divisione Prodotti Settore Didattica e Servizi agli Studenti Erasmus e Studenti Stranieri

Laboratorio 8. Regressione multipla. 8.1 Analisi del dataset HOOK.DAT

Esercitazione su outliers e osservazioni influenti

ERASMUS PLUS. KA1 School education staff mobility/ Adult education staff mobility

HIV/AIDS: l epidemiologia in Toscana

Enterprise Europe Network: la rete europea a supporto delle PMI Guido Dominoni - Cestec SpA

Gender Pay Gap: cos è come si calcola? Alcuni dati statistici Fattori che determinano il GPG Perché occuparsi di GPG Il GPG in Europa La situazione


Strategie integrate di miglioramento

Finanziamento pubblico e spesa privata: quali trend per la sanità? Nino Cartabellotta Fondazione GIMBE

La Strategia di Lisbona al bivio:

L ECONOMIA RIPARTE? Le sfide per il territorio, le sfide per Confindustria

Competitività del sistema economico dell Emilia Romagna

Investimenti per uscire dalla crisi

Tutela del Marchio. Le informazioni di seguito riportate vi aiuteranno al corretto utilizzo del marchio e del logo dello slogan Take it to the Max.

Analisi grafica residui in R. Da output grafico analisi regressionelm1.csv Vedi dispensa. peso-statura

UNIVERSITA DEL PIEMONTE ORIENTALE ERASMUS + MOBILITA PER DOCENZA. Bando per la mobilità del personale docente a.a. 2016/2017

EUROPEAN DIGITAL LANDSCAPE 2014

ABOUT YOU. Dati Personali *Per favore scegli se partecipi a questa consultazione come: Singolo Individuo / Titolo privato

RACCOLTA DI INFORMAZIONI INDAGINE METODOLOGIA E FONTI. sullo scenario attuale

Giovanni De Mari, Presidente CNSD

VERONA 5-6 Giugno 2006

Le novità sui materiali specifici a rischio

Dalla CRISI ECONOMICA DEL alla CRISI DEL DEBITO SOVRANO Massimo Del Gatto (Università d Annunzio DEc, CRENoS)

Il consumo di suolo agricolo

Transcript:

10 40 25 40 80 120 5 20 55 70 0 4 8 50 70 0.0 2.0 10 40 40 70 1. CLUSTER ANALYSIS Carichiamo la tabella in rete relativa a questa esercitazione (è un progettino di Matteo Vicini e Andrea Ammannati, gentilmente offerto per lo svolgimento di corsi successivi): E <- read.table ('clipboard', header=true) Parte 1: analisi preliminari, di tipo grafico plot(e) 10 30 50 65 80 55 65 80 110 10 30 Education Health Accidents Employment Export HealthyYears GenderPaymentGap IndustrialProduction TaxesLabour TaxesTotal 40 70 0.0 1.5 0 4 8 5 20 25 35 PCA = princomp(e); biplot(pca)

Comp.2-0.4-0.2 0.0 0.2 0.4-40 -20 0 20 40-40 -20 0 20 40 Health Educati Cyprus UnitedK Sweden Switzer Austria Norway Employment Greece Ireland CzechRe TaxesTotal GenderPaymentGap Belgium TaxesLabour HealthyYears France Denmark Germany Netherl Slovaki Export Finland Luxembo Accidents Romania Sloveni Poland IndustrialProd Bulgari Hungary Estoni Croatia Lithuan Spain Latvia Italy Malta Portuga -0.4-0.2 0.0 0.2 0.4 Comp.1 Non è molto trasparente, forse per mancanza di standardizzazione (es. le variabili accidents ed export non si vedono). E2 =E for (i in 1:10) {E2[,i] = (E[,i] - mean(e[,i])) / (sd(e[,i]))} PCA2 = princomp(e2); biplot(pca2)

Comp.2-0.4-0.2 0.0 0.2 0.4-4 -2 0 2 4-4 -2 0 2 4 Malta Bulgari Croatia Romania Lithuan Ireland Latvia Portuga Greece Poland Cyprus Sloveni Slovaki Spain Hungary HealthyYears Luxembo Italy IndustrialPro Estoni Health DenmarkCzechRe Belgium UnitedK Norway Sweden Switzer Education Finland TaxesTotal Netherl Accidents GenderPaymentGap Austria France Export TaxesLabour Employment Germany -0.4-0.2 0.0 0.2 0.4 Comp.1 plot(pca2)

Parte 2: cluster analysis require(cluster) PAM=pam(E2,2) plot(pam) par(mfrow=c(1,2)) plot(pam(e2,2)) Chiedendo 2 clusters, abbiamo una silhouette media pari solo a 0.16. Le prime due componenti principali spiegano il 48.9% della variabilità (pam esegue una PCA). Vediamo se la silhouette media migliora aumentando il numero di clusters. Prima però vediamo anche se la suddivisione in 2 insegna qualcosa. Il blocco dell EST è separato da quello più occidentale. plot(pam(e2,3))

Component 2-3 -2-1 0 1 2 3 4 clusplot(pam(x = E2, k = 3)) Silhouette plot of pam(x = E2, k = 3) Swede Switz Norwa Austr Unite Nethe Denma Belgi Franc Germa Finla Luxem Cypru Irela Slove Czech Latvi Lithu Slova Polan Eston Roman Bulga Hunga Portu Spain Malta Italy Greec Croat n = 30 3 clusters C j j : n j ave i Cj s i 1 : 16 0.11 2 : 8 0.32 3 : 6 0.08-2 0 2 4 Component 1 These two components explain 48.92 % of the point variability. 0.0 0.2 0.4 0.6 0.8 1.0 Silhouette width s i Average silhouette width : 0.16 La silhouette media non è cambiata. Ora si è separato il blocco del sud da quello principale! Provando con plot(pam(e2,4)) e così via si vede che c è un lievissimo miglioramento verso k=6-7, ma d altra parte l interpretazione non è più così evidente quindi non è chiaro che sia davvero meglio. Altra considerazione: alcune nazioni hanno una pessima silhouette, cioè sono classificate male, ad es. Czech Rep. e Slovenia. Il fenomeno scompare solo per k=7, ma lì peggiora ad es. la Svizzera, quindi non è chiaro se convenga separare in più blocchi. In definitiva l utilità della cluster analysis in questo esempio è stata di identificare tre blocchi socioeconomici: l Est europeo, il Sud e il resto. Ovviamente lo sapevamo già, ma si immagini di esaminare un fenomeno nuovo e di scoprire in modo così veritiero la sua scomposizione. ESERCIZIO: effettuare una cluster analysis relativamente alla tabella PLIC-TD_ecc. 2. CLASSIFICAZIONE TRAMITE REGRESSIONE Carichiamo la tabella con le classi. Esse sono state scelte piuttosto arbitrariamente, diciamo seguendo il senso comune, secondo il seguente criterio: quali sono le nazioni più ricche, dove si pensa che la gente sia ricca, ci sia lavoro ecc. (classe 1). La logica è: contiamo sul fatto che questi indicatori socio-economici spieghino la ricchezza.

E stato commesso volutamente un errore rispetto al senso comune, così vediamo se emerge. Ec <- read.table ('clipboard', header=true) Eseguiamo una regressione lineare multipla usando come output la classe: fit = lm(classe ~ Education+Health+Accidents+Employment+Export+HealthyYears+GenderPaymentGap+ IndustrialProduction+ TaxesLabour+ TaxesTotal, data=ec) Notare che basta scrivere fit = lm(classe ~., data=ec) > summary(fit) Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) -4.687731 1.428508-3.282 0.00393 ** Education 0.013568 0.007776 1.745 0.09716. Health 0.004052 0.007225 0.561 0.58149 Accidents 0.205919 0.115303 1.786 0.09009. Employment 0.027607 0.010904 2.532 0.02033 * Export 0.046917 0.038747 1.211 0.24080 HealthyYears 0.019378 0.016938 1.144 0.26680 GenderPaymentGap 0.006630 0.010268 0.646 0.52619 IndustrialProduction 0.003202 0.008859 0.361 0.72175 TaxesLabour -0.002333 0.011677-0.200 0.84377 TaxesTotal 0.014260 0.008119 1.756 0.09513. Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 Residual standard error: 0.2927 on 19 degrees of freedom Multiple R-squared: 0.7559, Adjusted R-squared: 0.6274 F-statistic: 5.884 on 10 and 19 DF, p-value: 0.0004776 Forse il modello senza intercetta ha più senso, ma proseguiamo così a titolo di prova. Il comando predict(fit) fornisce i valori della y dati dal modello. Essi possono contraddire in qualche misura la nostra scelta iniziale, indicando delle possibili correzioni. Il risultato, osservato attentamente, è molto interessante. Si osservi anche round(predict(fit)) fornisce la classificazione in forma perentoria. (Non è sempre vero: round approssima al intero più vicino ed in questo esempio siamo fortunati che l interro più vicino è 0 o 1.)

Ovviamente i metodi di classificazione hanno come scopo primario la classificazione di nuovi individui. Potremmo artificialmente eliminare delle nazioni e vedere come vengono classificate. Più realisticamente, nel nostro caso, possiamo argomentare che l utilizzo di ciascuna nazione ha influenzato il modello e quindi lo ha spostato nella direzione che favorisce la classificazione giusta. Pertanto, anche se magari una certa nazione AA sarebbe stata più naturalmente classificata come 0, avendola usata per costruire il modello stesso ne risulta che il modello aumenterà la sua vicinanza alla classe 1. Pertanto, se dall analisi precedente sono emerse delle situazioni impreviste o strane, si può consolidare la loro analisi eliminandole e poi applicando ad esse il modello sviluppato solo sulle altre. Vediamo un esempio: Denmark (riga 4) ha un punteggio un po diverso dalle aspettative; togliamola e vediamo che succede. Ec2 = Ec[-4,] fit2 = lm(classe ~., data=ec2) Ora, purtroppo, il comando predict(fit2) fornisce le predizioni di Ec2. Sono molto istruttive, perché diverse dalle precedenti. Ma a noi ora interessa la predizione di Denmark, secondo questo nuovo modello, per esse neutro. predict(fit2,ec[4,]) ; fornisce il valore (controllare come conferma con predict(fit2,ec[1,]) ). Il risultato conferma che Denmark è di classe 1. La sua vicinanza a 1 è aumentata, come dev essere: nel primo modello la sua posizione a 0 trascinava il modello in una direzione che rendeva Denmark più vicina a 0 (perché lo stavamo imponendo). 3. CLASSIFICAZIONE NON PERENTORIA Iniziamo rendendo non perentoria la classificazione precedente. Usiamo la funzione logistica, che R calcola in automatico con la funzione plogis. Essa vuole in input il valore da trasformare, 0.5 perché esso è il valore della y a metà strada tra 0 ed 1, ed infine 1 (è una sorta di deviazione standard). Poi abbreviamo i numeri perché hanno troppe cifre: round(plogis(predict(fit), location = 0.5, scale = 1),3) Come si può vedere, i numeri risultano molto schiacciati vicino a 0.5: si guardi ad esempio Germany.

4. REGRESSIONE LOGISTICA Ora svolgiamo una classificazione non perentoria tramite il metodo della regressione logistica. Rlog =glm(classe ~ Education+Health+Accidents+Employment+Export+HealthyYears+GenderPaymentGap+ IndustrialProduction+ TaxesLabour+ TaxesTotal, family = binomial, data=ec) oppure Rlog =glm(classe ~., family = binomial, data=ec) Purtroppo fornisce errore. La cosa non è infrequente quando ci sono troppe variabili: si pensi che si chiede di minimizzare una funzione molto non lineare di 10 variabili. Un trucco per saltarci fuori è di ridurre la variabili e per farlo in fretta osserviamo la matrice di correlazione cor(ec). Vediamo che la classe è più correlata a Employment, Export, TaxesTotal (se ne potrebbero aggiungere altre ma rischiamo di ricreare il problema). Vediamo ora: Rlog2 =glm(classe ~ Employment+Export+ TaxesTotal, family = binomial, data=ec) Ora ha funzionato. Vediamo i punteggi e le probabilità: round(predict(rlog2),3) fornisce i punteggi del modello di regressione lieare multipla sottostante. Vediamo che i valori dell output sono più accentuati, rispetto al caso della regressione fatta sopra. Ecco le relative probabilità: round(predict(rlog2,type="response"),3) Il metodo ora è severissimo! Non dà scampo.