Metodi per la riduzione della dimensionalità. Strumenti quantitativi per la gestione
|
|
- Veronica Pinto
- 7 anni fa
- Visualizzazioni
Transcript
1 Metodi per la riduzione della dimensionalità Strumenti quantitativi per la gestione Emanuele Taufer file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/6c_pca.html#(1) 1/25
2 Introduzione Gli approcci di selezione visti finora cercano di ridurre la variabilità di riducendo il numero di predittori usati: f^ selezionandone un sottoinsieme (best subset) riducendo alcuni coefficienti a zero, o prossimi allo zero (LASSO e ridge) Un terzo approccio ricorre all uso di nuove variabili definite attraverso opportune trasformazioni dei predittori L obiettivo è quello di ottenere un numero di variabili trasformate inferiore al numero di predittori p che siano comunque altamente informative nella previsione di Y In questo caso parliamo di tecniche di riduzione della dimensionalità file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/6c_pca.html#(1) 2/25
3 Combinazioni lineari Siano dati i predittori,,, X1 Siano Z1 Z M, M < p, delle nuove variabili (combinazioni lineari dei predittori) Z m ϕ1m, ϕ2m, ϕ pm p X p = m = 1,, M j=1 ϕ jm X j delle costanti (da determinare) file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/6c_pca.html#(1) 3/25
4 Regressione lineare sulle variabili trasformate L idea è quella di stimare f (semplicemente con OLS) con un modello di regressione lineare M y i θ0 θ m z m m=1 = + +, i = 1,, n In questo caso i parametri da stimare sono : θ0, θ1, θ M Il problema si semplifica notevolmente se M << p: anziché stimare p + 1 coefficienti β0, β1,, β p si stimano solo gli M + 1 coefficienti θ0, θ1, θ M. La tecnica risulta molto efficace se le combinazioni lineari Z1, Z M, M < p preservano adeguatamente l informazione contenuta nei predittori originali. ε i M + 1 file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/6c_pca.html#(1) 4/25
5 Dettaglio teorico Si noti che possiamo riscrivere M m=1 θ m z m = M m=1 = p j=1 = p j=1 p θ m j=1 ϕ jm x j M θ m ϕ jm x j m=1 β j x j dove β j = M m=1 θ mϕ jm In termini pratici si adatta un modello di regressione con dei vincoli sui coefficienti β, che devono soddisfare le relazioni β j M m=1 θ mϕ jm, j = 1, 2,, p. = L introduzione di vincoli, come abbiamo già visto, riduce la flessibilità del modello e pertanto ci si deve aspettare un incremento del bias a fronte di una riduzione della varianza Ancora una volta la tecnica cerca di agire sul trade-off biasvarianza per ottenere una stima ottimale di f file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/6c_pca.html#(1) 5/25
6 Metodi I metodi di riduzione della dimensionalità hanno pertanto due fasi: costruzione di un numero ridotto di variabili Z1 Z2 Z M, M < p utilizzo di Z1, Z2,, Z M per la stima di un modello di regressione lineare Se M = p il modello costruito sulle variabili Z è equivalente a quello costruito usando i predittori X. Due tecniche di base per la riduzione della dimensionalità sono Le componenti principali (CP) I minimi quadrati parziali (PLS),,, file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/6c_pca.html#(1) 6/25
7 Analisi delle componenti principali (PCA) La PCA è una tecnica di riduzione della dimensionalità di un insieme di dati rappresentati da una matrice X di dimensioni n p Ha applicazioni in diversi contesti: dall analisi esplorativa dei dati alla compressione di grossi file di dati (es. immagini) e riconscimento facciale. In questa sede discuteremo di alcune caratteristiche che ci servono per la sua applicazione nel contesto dell analisi di regressione. Nel caso di una matrice di dati n p possiamo pensare a n punti in uno spazio p-dimensionale. Se p è elevato l obiettivo è quello di ridurre la rappresentazione dei punti ad uno spazio di dimensioni più ridotte ma che mantenga nel miglior modo possibile la struttura dei punti originari. Le nuove dimensioni sono individuate dalla componenti principali: se lo spazio ridotto è bidimensionale vi saranno due componenti principali, se a tre dimensioni, tre componenti e così via. file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/6c_pca.html#(1) 7/25
8 Criterio di riduzione Nella tecnica della PCA il miglior modo possibile consiste nella determinazione della combinazione lineare delle variabili originarie che massimizza una misura di variabilità. In altre parole la tecnica della PCA cerca una prima combinazione lineare con varianza massima possibile, dati alcuni vincoli. Successivamente cerca una seconda combinazione lineare che massimizzi la variabilità dati i vincoli e la prima componente e così via. In termini più formali, la prima componente principale per le variabili è la combinazione lineare normalizzata X1, X2,, X p Z1 = ϕ11x1 + + ϕ p1x p che ha variabilità massima. La normalizzazione è riferita al vincolo p j=1 ϕ2 j1 = 1 file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/6c_pca.html#(1) 8/25
9 Coefficienti Le costanti principale, ϕ11 ϕ p1 sono i pesi (loadings) della prima componente La soluzione è determinabile attraverso la decomposizione della matrice di varianza-covarianza di X in autovalori e autovettori. Per ogni singola riga della matrice X ( n unità di osservazione) è possibile calcolare il corrispondente punteggio (score) fattoriale e utilizzarlo, ad esempio, in una rappresentazione (approssimata) unidimensionale della matrice X. z i1 = ϕ11x i1 + ϕ21x i2 + + ϕ p1x ip file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/6c_pca.html#(1) 9/25
10 Esempio: Advertising Spesa in pubblicità e popolazione per n = 100 città in USA X1 X2 = Popolazione in decine di migliaia = Spesa in pubblicità in migliaia di $ Z1 = X X2 Tipicamente le variabili sono standardizzate prima di calcolare le CP file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/6c_pca.html#(1) 10/25
11 Punteggi della prima CP file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/6c_pca.html#(1) 11/25
12 Seconda CP La seconda componente principale è la combinazione lineare normalizzata che ha varianza massima ed è incorrelata con la prima componente principale. Formalmente: tale che Z2 = ϕ12x1 + + ϕ p2x p p j=1 ϕ2 j2 = 1 e Cor( Z1, Z2) = 0 I punteggi fattoriali della seconda CP possono essere utilizzati assieme ai punteggi fattoriali della prima CP, ad esempio, in una rappresentazione (approssimata) bidimensionale della matrice X di dimensione n p. z i2 = ϕ12x i1 + ϕ22x i2 + + ϕ p2x ip file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/6c_pca.html#(1) 12/25
13 Standardizzazione delle variabili nella PCA Le CP possono essere interpretate in diversi modi. Ad esempio, la prima CP identifica la direzione in cui i dati hanno variabilità maggiore. Se la distanza tra punti è misurata con la distanza Euclidea, la prima componente può anche essere interpretata come la retta più vicina alle n osservazioni nello spazio p-dimensionale. Se alcune variabili X hanno, per l unità di misura usata, variabilità molto maggiore rispetto ad altre tendono a dominare la costruzione delle CP. Per evitare quest effetto dovuto semplicemente alla scala con cui sono misurate e variabili, è opportuno procedere ad una standardizzazione di tutte le variabili prima di effettuare una PCA file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/6c_pca.html#(1) 13/25
14 Percentuale di varianza spiegata Poichèle CP sono calcolate massimizzando la varianza, una misura della bontà dell approssimazione dello spazio p-dimensionale originario è data dalla percentuale di variabilità totale presente nella matrice X spiegata dalle prime M componenti principali. La variabilità totale nella matrice (standardizzata) è data da e la varianza spiegata dalla CP m, m = 1, 2,, M è X p V ar( X j ) = j=1 1 n n i=1 z 2 im = 1 ( n n i=1 p j=1 1 n n i=1 x 2 ij ) p j=1 ϕ jm x ij 2 quindi la percentuale di varianza spiegata (PVE) dalla n i=1( p ) j=1 ϕ 2 jmx ij m-esima CP è p j=1 n i=1 x2 ij Per la varianza spiegata dalle prime corrispondenti PVE. In totale ci sono della loro PVE è pari a 1. CP basta sommare le CP e la somma M min(n 1, p) file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/6c_pca.html#(1) 14/25
15 Scree plot Sinistra: scree plot (PVE delle singole CP) Destra: PVE cumulata file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/6c_pca.html#(1) 15/25
16 Regressione con le CP (PCR) L approccio alla regressione con le CP consiste nel costruire M CP dai p predittori e utilizzarle come nuovi predittori in un modello di regressione lineare Poichè le CP cercano di preservare al massimo la variabilità dei predittori, l assunzione di base, non necessariamente vera, è che questo preservi al massimo anche la relazione con Y,, Se l assunto di base della PCR tiene, l uso di Z1 Z M porta a risultati migliori rispetto all uso di X1,, X p, poiché la maggior parte o tutta l informazione dei dati su Y è contenuta in Z1,, e stimando solo M << p coefficienti si mitiga l overfitting. La PCR, utilizzando nuove variabili incorrelate tra loro è una tecnica appropriata anche in caso di forte multicollinearità tra i predittori originali. Z M file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/6c_pca.html#(1) 16/25
17 Esempio: dati simulati Sinistra: dati simulati con, - tutti i predittori legati a p = 45 n = 50 Y Destra: dati simulati con, - solo 2 predittori legati a Y p = 45 n = 50 file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/6c_pca.html#(1) 17/25
18 Confronti La PCR non è una tecnica di selezione delle variabili poichè usa sempre tutti i predittori originali nella costruzione delle combinazioni lineari In questo senso è molto simile alla regressione ridge E opportuno procedere ad una standardizzazione dei predittori prima di calcolare le CP La tecnica funziona bene quando poche componenti riescono a riassumere una parte sostanziale della variabilità totale nei p predittori Il numero M di variabili da usare nella PCR è tipicamente scelto con cross-validazione file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/6c_pca.html#(1) 18/25
19 PCR - Ridge - LASSO Dati imulati in cui le prime 5 CP di l informazionesu Y. X contengono tutta file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/6c_pca.html#(1) 19/25
20 Esempio: PCR sui dati Credit Sinistra: stime dei coefficienti standardizzati sui dati di Credit per diversi valori di M. Destra: MSE ottenuto da 10-fold cross-validazione utilizzando PCR, in funzione di M. file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/6c_pca.html#(1) 20/25
21 Minimi quadrati parziali (PLS) Il metodo delle CP non considera la relazione esistente tra X1,, X p e Y nella costruzione delle variabili Z1,, Z M. Il metodo dei minimi quadrati parziali cerca di considerare quest aspetto. Il metodo delle CP può essere visto come una tecnica di statistical learning unsupervised mentre il metodo PLS è una tecnica supervised file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/6c_pca.html#(1) 21/25
22 Prima combinazione lineare PLS Dati p predittori standardizzati, il coefficiente ϕ j1 è calcolato da una regressione semplice di Y su X j, j = 1,, p e la prima combinazione lineare: Riassumendo: Z1 = ϕ11x1 + + ϕ p1x p Nella PCA i coefficienti di Z1 sono calcolati massimizzando la varianza della combinazione linere sotto vincolo di normalizzazione (somma dei quadrati pari a uno) Nei PLS ogni coefficiente di Z1 è calcolato da regressioni lineari semplici di Y su ciascuno dei predittori file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/6c_pca.html#(1) 22/25
23 Confronto PLS e PCA Continuo: prima componente PLS Tratteggiato: prima componente PCA file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/6c_pca.html#(1) 23/25
24 PLS successive Per identificare la seconda direzione (componente) ciascun predittore viene prima depurato dall effetto di Z1, regredendo ogni variabile su Z1 e calcolandone i residui. Z2 è calcolato sui residui esattamente nello stesso modo in cui è stato calcolato Z1 sui dati originali Questo approccio iterativo può essere ripetuto M identificare più componenti PLS Z1,, Z M Infine, si usano le variabili PLS modo come per la PCR,, Z1 Z M volte per esattamente nello stesso Il numero M di minimi quadrati parziali da utilizzare è determinato con cross-validazione Spesso i PLS non producono risultati sensibilmente migliori rispetto alla regressione ridge o PCR. Infatti, sebbene la riduzione della dimensionalità supervised dei PLS possa ridurre il bias, è anche possibile che aumenti la varianza, cosìcché il beneficio complessivo dei PLS rispetto alla PCR è minimo. file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/6c_pca.html#(1) 24/25
25 Riferimenti bibliografici An Introduction to Statistical Learning, with applications in R. (Springer, 2013) Alcune delle figure in questa presentazione sono tratte dal testo con il permesso degli autori: G. James, D. Witten, T. Hastie e R. Tibshirani file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/6c_pca.html#(1) 25/25
Metodi per la riduzione della dimensionalità Strumenti quantitativi per la gestione
Metodi er la riduzione della dimensionalità Strumenti quantitativi er la gestione Emanuele Taufer Introduzione Combinazioni lineari Regressione lineare sulle variabili trasformate Dettaglio teorico Metodi
DettagliAnalisi delle componenti principali
Analisi delle componenti principali Serve a rappresentare un fenomeno k-dimensionale tramite un numero inferiore o uguale a k di variabili incorrelate, ottenute trasformando le variabili osservate Consiste
DettagliAnalisi delle corrispondenze
Analisi delle corrispondenze Obiettivo: analisi delle relazioni tra le modalità di due (o più) caratteri qualitativi Individuazione della struttura dell associazione interna a una tabella di contingenza
DettagliEsercitazione del
Esercizi sulla regressione lineare. Esercitazione del 21.05.2013 Esercizio dal tema d esame del 13.06.2011. Si consideri il seguente campione di n = 9 osservazioni relative ai caratteri ed Y: 7 17 8 36
DettagliAnalisi Discriminante Strumenti quantitativi per la gestione
Analisi Discriminante Strumenti quantitativi per la gestione Emanuele Taufer Un esempio introduttivo Approccio con Bayes Perchè un altro metodo di classificazione? Classificazione con Bayes Analisi discriminante
DettagliL A B C di R. Stefano Leonardi c Dipartimento di Scienze Ambientali Università di Parma Parma, 9 febbraio 2010
L A B C di R 0 20 40 60 80 100 2 3 4 5 6 7 8 Stefano Leonardi c Dipartimento di Scienze Ambientali Università di Parma Parma, 9 febbraio 2010 La scelta del test statistico giusto La scelta della analisi
DettagliStatistica multivariata Donata Rodi 21/11/2016
Statistica multivariata Donata Rodi 21/11/2016 PCA Tecnica di riduzione delle dimensioni che descrive la struttura multivariata dei dati per analisi descrittive e inferenziali Descrive la variazione di
DettagliLa regressione lineare. Rappresentazione analitica delle distribuzioni
La regressione lineare Rappresentazione analitica delle distribuzioni Richiamiamo il concetto di dipendenza tra le distribuzioni di due caratteri X e Y. Ricordiamo che abbiamo definito dipendenza perfetta
DettagliStatistica multivariata Donata Rodi 17/10/2016
Statistica multivariata Donata Rodi 17/10/2016 Quale analisi? Variabile Dipendente Categoriale Continua Variabile Indipendente Categoriale Chi Quadro ANOVA Continua Regressione Logistica Regressione Lineare
DettagliAnalisi delle corrispondenze
Capitolo 11 Analisi delle corrispondenze L obiettivo dell analisi delle corrispondenze, i cui primi sviluppi risalgono alla metà degli anni 60 in Francia ad opera di JP Benzécri e la sua equipe, è quello
Dettaglie applicazioni al dominio del Contact Management Andrea Brunello Università degli Studi di Udine
e applicazioni al dominio del Contact Management Parte V: combinazione di Università degli Studi di Udine In collaborazione con dott. Enrico Marzano, CIO Gap srl progetto Active Contact System 1/10 Contenuti
DettagliStatistical learning Strumenti quantitativi per la gestione
Statistical learning Strumenti quantitativi per la gestione Emanuele Taufer Vendite Simbologia Reddito Statistical learning A cosa ci serve f? 1 Previsione 2 Inferenza Previsione Errore riducibile e errore
DettagliVariabili indipendenti qualitative. In molte applicazioni si rende necessario l introduzione di un fattore a due o più livelli.
Variabili indipendenti qualitative Di solito le variabili nella regressione sono variabili continue In molte applicazioni si rende necessario l introduzione di un fattore a due o più livelli Ad esempio:
DettagliRegressione Lineare Semplice e Correlazione
Regressione Lineare Semplice e Correlazione 1 Introduzione La Regressione è una tecnica di analisi della relazione tra due variabili quantitative Questa tecnica è utilizzata per calcolare il valore (y)
DettagliDall Analisi Fattoriale alla Regressione Lineare
Dall Analisi Fattoriale alla Regressione Lineare Metodi Quantitativi per Economia, Finanza e Management Esercitazione n 10 Consegna Lavoro di gruppo La scadenza per la consegna del lavoro di gruppo è fissata
DettagliLa multicollinearità sorge quando c è un elevata correlazione tra due o più variabili esplicative.
Lezione 14 (a cura di Ludovica Peccia) MULTICOLLINEARITA La multicollinearità sorge quando c è un elevata correlazione tra due o più variabili esplicative. In un modello di regressione Y= X 1, X 2, X 3
DettagliIl modello di regressione lineare multipla. Il modello di regressione lineare multipla
Introduzione E la generalizzazione del modello di regressione lineare semplice: per spiegare il fenomeno d interesse Y vengono introdotte p, con p > 1, variabili esplicative. Tale generalizzazione diventa
DettagliModelli con predittori qualitativi e modelli con interazioni. Strumenti quantitativi per la gestione
Modelli con predittori qualitativi e modelli con interazioni Strumenti quantitativi per la gestione Emanuele Taufer file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/3d_viq.html#(1) 1/26 Utilizzare
DettagliAnalisi in Componenti Principali (ACP)
Analisi in Componenti Principali (ACP) Metodi di analisi fattoriale Obiettivo: individuazione di variabili di sintesi = dimensioni = variabili latenti = variabili non osservate Approccio: Ordinamenti tra
DettagliEsplorazione grafica di dati multivariati. N. Del Buono
Esplorazione grafica di dati multivariati N. Del Buono Scatterplot Scatterplot permette di individuare graficamente le possibili associazioni tra due variabili Variabile descrittiva (explanatory variable)
DettagliMulticollinearità. Strumenti quantitativi per la gestione
Multicollinearità Strumenti quantitativi per la gestione Emanuele Taufer file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/3c_mc.html#(1) 1/13 Quando non tutto va come dovrebbe Si parla di multi-collinearità
Dettagli3.1 Classificazione dei fenomeni statistici Questionari e scale di modalità Classificazione delle scale di modalità 17
C L Autore Ringraziamenti dell Editore Elenco dei simboli e delle abbreviazioni in ordine di apparizione XI XI XIII 1 Introduzione 1 FAQ e qualcos altro, da leggere prima 1.1 Questo è un libro di Statistica
DettagliLa variabilità. Dott. Cazzaniga Paolo. Dip. di Scienze Umane e Sociali
Dip. di Scienze Umane e Sociali paolo.cazzaniga@unibg.it Introduzione [1/2] Gli indici di variabilità consentono di riassumere le principali caratteristiche di una distribuzione (assieme alle medie) Le
DettagliUNIVERSITA DI PARMA FACOLTA DI ECONOMIA. Corso di pianificazione finanziaria A.a. 2003/2004. La stima del costo del capitale proprio
UNIVERSITA DI PARMA FACOLTA DI ECONOMIA Corso di pianificazione finanziaria A.a. 2003/2004 Parma, 21 ottobre 2003 La stima del costo del capitale proprio Il Weighted average cost of capital (Wacc) WACC
DettagliIl modello di regressione (VEDI CAP 12 VOLUME IEZZI, 2009)
Il modello di regressione (VEDI CAP 12 VOLUME IEZZI, 2009) Quesito: Posso stimare il numero di ore passate a studiare statistica sul voto conseguito all esame? Potrei calcolare il coefficiente di correlazione.
DettagliStatistica. Alfonso Iodice D Enza
Statistica Alfonso Iodice D Enza iodicede@gmail.com Università degli studi di Cassino () Statistica 1 / 24 Outline 1 2 3 4 5 () Statistica 2 / 24 Dipendenza lineare Lo studio della relazione tra caratteri
DettagliUna Breve Introduzione a E-views
1 Dipartimento di Economia Politica e Metodi Quantitativi Università di Pavia 25 Febbraio 2008 Outline Specificazione ARIMA 1 Specificazione ARIMA 2 3 Per specificare una modello ARIMA è necessario differenziare
DettagliSTATISTICA (2) ESERCITAZIONE Dott.ssa Antonella Costanzo
STATISTICA (2) ESERCITAZIONE 7 11.03.2014 Dott.ssa Antonella Costanzo Esercizio 1. Test di indipendenza tra mutabili In un indagine vengono rilevate le informazioni su settore produttivo (Y) e genere (X)
Dettaglilezione 10 AA Paolo Brunori
AA 2016-2017 Paolo Brunori Redditi svedesi - il dataset contiene i dati di reddito di 838 individui - il dataset contiene le variabili: sex = sesso age = età edu = anni di istruzione y_gross = reddito
DettagliRegressione lineare semplice
Regressione lineare semplice Strumenti quantitativi per la gestione Emanuele Taufer Regressione lineare (RL) La regressione lineare per i dati Advertising Analisi d interesse Regressione lineare semplice
DettagliIL CRITERIO DELLA MASSIMA VEROSIMIGLIANZA
Metodi per l Analisi dei Dati Sperimentali AA009/010 IL CRITERIO DELLA MASSIMA VEROSIMIGLIANZA Sommario Massima Verosimiglianza Introduzione La Massima Verosimiglianza Esempio 1: una sola misura sperimentale
DettagliStatistica Applicata all edilizia: il modello di regressione
Statistica Applicata all edilizia: il modello di regressione E-mail: orietta.nicolis@unibg.it 27 aprile 2009 Indice Il modello di Regressione Lineare 1 Il modello di Regressione Lineare Analisi di regressione
DettagliIndicatori compositi. Dott. Cazzaniga Paolo. Dip. di Scienze Umane e Sociali
Dip. di Scienze Umane e Sociali paolo.cazzaniga@unibg.it Indicatori [1/4] Gli indicatori: sintetizzano le caratteristiche di un fenomeno colgono aspetti e problemi del fenomeno che non hanno una immediata
DettagliCAPITOLO 11 ANALISI DI REGRESSIONE
VERO FALSO CAPITOLO 11 ANALISI DI REGRESSIONE 1. V F Se c è una relazione deterministica tra due variabili,x e y, ogni valore dato di x,determinerà un unico valore di y. 2. V F Quando si cerca di scoprire
DettagliTest F per la significatività del modello
Test F per la significatività del modello Per verificare la significatività dell intero modello si utilizza il test F Si vuole verificare l ipotesi H 0 : β 1 = 0,, β k = 0 contro l alternativa che almeno
DettagliStatistica. Alfonso Iodice D Enza
Statistica Alfonso Iodice D Enza iodicede@unina.it Università degli studi di Cassino () Statistica 1 / 1 Outline 1 () Statistica 2 / 1 Outline 1 2 () Statistica 2 / 1 Outline 1 2 3 () Statistica 2 / 1
DettagliModelli con predittori qualitativi e modelli con interazioni
Modelli con predittori qualitativi e modelli con interazioni Strumenti quantitativi per la gestione Emanuele Taufer Utilizzare variabili indipendenti qualitative (VIQ) Codifica binaria 0,1 Esempio: salari
DettagliSTATISTICA A K (60 ore)
STATISTICA A K (60 ore) Marco Riani mriani@unipr.it http://www.riani.it Richiami sulla regressione Marco Riani, Univ. di Parma 1 MODELLO DI REGRESSIONE y i = a + bx i + e i dove: i = 1,, n a + bx i rappresenta
DettagliMetodi statistici per l economia (Prof. Capitanio) Slide n. 10. Materiale di supporto per le lezioni. Non sostituisce il libro di testo
Metodi statistici per l economia (Prof. Capitanio) Slide n. 10 Materiale di supporto per le lezioni. Non sostituisce il libro di testo 1 REGRESSIONE LINEARE Date due variabili quantitative, X e Y, si è
DettagliLezione 18. Statistica. Alfonso Iodice D Enza Università degli studi di Cassino. Lezione 18. A. Iodice
Statistica Alfonso Iodice D Enza iodicede@unicas.it Università degli studi di Cassino () Statistica 1 / 45 Outline 1 2 3 4 5 () Statistica 2 / 45 Modello di In molte applicazioni il ruolo delle variabili
DettagliLa matrice delle correlazioni è la seguente:
Calcolo delle componenti principali tramite un esempio numerico Questo esempio numerico puó essere utile per chiarire il calcolo delle componenti principali e per introdurre il programma SPAD. IL PROBLEMA
DettagliLaboratorio di Statistica 1 con R Esercizi per la Relazione. I testi e/o i dati degli esercizi contassegnati da sono tratti dai libri consigliati
Laboratorio di Statistica 1 con R Esercizi per la Relazione I testi e/o i dati degli esercizi contassegnati da sono tratti dai libri consigliati nel corso. Esercizio 1. 1. Facendo uso dei comandi
DettagliVariabili tutte osservabili: regressione Si parla di regressione quando si ha a disposizione un campione sperimentale di numerosità n della forma X 1
Modelli lineari Come motivazione di ciò che stiamo per fare, pensiamo ai dati indicatori_benessere.txt. Quando li abbiamo esaminati nella lezione 1 tramite la rappresentazione nel piano delle componenti
DettagliAnalisi Fattoriale Concetti introduttivi Marcello Gallucci Milano-Bicocca
Analisi Fattoriale Concetti introduttivi A M D Marcello Gallucci Milano-Bicocca Scopi generali L Analisi Fattoriale (e varianti) si propone di estrarre un numero limitato di fattori (variabili latenti
DettagliNote sulla probabilità
Note sulla probabilità Maurizio Loreti Dipartimento di Fisica Università degli Studi di Padova Anno Accademico 2002 03 1 La distribuzione del χ 2 0.6 0.5 N=1 N=2 N=3 N=5 N=10 0.4 0.3 0.2 0.1 0 0 5 10 15
DettagliFormule matematiche per le valutazioni dell offerta
Formule matematiche per le valutazioni dell offerta Cagliari, 29 settembre 2017 Antonio Bertelli e Alessandro Antonini Offerta economicamente più vantaggiosa Progetto Costo Valutazione parte Economica
DettagliAnalisi in Componenti Principali
Analisi in Componenti Principali 1/20 Analisi in Componenti Principali tecnica di riduzione e interpretazione dei dati spesso gioca un ruolo ausiliario rispetto ad altre tecniche (es. analisi fattoriale,
DettagliIl Modello della Analisi Fattoriale Esplorativa e i Metodi di Classificazione Automatica (Analisi di Raggruppamento)
Il Modello della Analisi Fattoriale Esplorativa e i Metodi di Classificazione Automatica (Analisi di Raggruppamento) Se all interno di un insieme di informazioni articolato in una matrice di dati X si
DettagliBologna 15 settembre. Spazializzazione dati meteo
P.I.C. INTERREG III METODI, STRUMENTI ED INDICATORI PER LA DEFINIZIONE DELLE VARIABILI CLIMATICHE Tavolo di confronto BOLOGNA 15 Settembre 2004 Bologna 15 settembre Spazializzazione dati meteo Alfonso
DettagliTest delle Ipotesi Parte I
Test delle Ipotesi Parte I Test delle Ipotesi sulla media Introduzione Definizioni basilari Teoria per il caso di varianza nota Rischi nel test delle ipotesi Teoria per il caso di varianza non nota Test
DettagliFacoltà di Scienze Statistiche Corso di Laurea in Statistica ed Informatica per l Azienda ESERCIZI DI ALLENAMENTO a.a.
Facoltà di Scienze Statistiche Corso di Laurea in Statistica ed Informatica per l Azienda ESERCIZI DI ALLENAMENTO a.a. 2008 PARTE I 1. Si consideri il seguente modello di regressione lineare su dati cross
DettagliAnalisi dei Fattori. Francesca Marta Lilja Di Lascio Dip.to di Scienze Statistiche P. Fortunati Università di Bologna
Università di Bologna - Facoltà di Scienze Statistiche Laurea Triennale in Statistica e Ricerca Sociale Corso di Analisi di Serie Storiche e Multidimensionali Analisi dei Fattori Francesca Marta Lilja
DettagliEsercizi su distribuzioni doppie, dipendenza, correlazione e regressione (Statistica I, IV Canale)
Esercizi su distribuzioni doppie, dipendenza, correlazione e regressione (Statistica I, IV Canale) Esercizio 1: Un indagine su 10.000 famiglie ha dato luogo, fra le altre, alle osservazioni riportate nella
DettagliESERCIZI SVOLTI Giuliano Bonollo - Michele Bonollo
ESERCIZI SVOLTI Giuliano Bonollo - Michele Bonollo 1 La seguente tabella riporta le frequenze relative riguardanti gli studenti di un università e gli esiti dell esame da essi sostenuto. Qual è la percentuale
DettagliANALISI MULTIDIMENSIONALE DEI DATI (AMD)
ANALISI MULTIDIMENSIONALE DEI DATI (AMD) L Analisi Multidimensionale dei Dati (AMD) è una famiglia di tecniche il cui obiettivo principale è la visualizzazione, la classificazione e l interpretazione della
DettagliStatistica. Capitolo 12. Regressione Lineare Semplice. Cap. 12-1
Statistica Capitolo 1 Regressione Lineare Semplice Cap. 1-1 Obiettivi del Capitolo Dopo aver completato il capitolo, sarete in grado di: Spiegare il significato del coefficiente di correlazione lineare
DettagliRegressione logistica
Regressione logistica Strumenti quantitativi per la gestione Emanuele Taufer Metodi di classificazione Tecniche principali Alcuni esempi Data set Default I dati La regressione logistica Esempio Il modello
DettagliTRACCIA DI STUDIO. Indici di dispersione assoluta per misure quantitative
TRACCIA DI STUDIO Un indice di tendenza centrale non è sufficiente a descrivere completamente un fenomeno. Gli indici di dispersione assolvono il compito di rappresentare la capacità di un fenomeno a manifestarsi
DettagliStatistica multivariata Donata Rodi 08/11/2016
Statistica multivariata Donata Rodi 08/11/2016 MANOVA: Multivariate Analysis of Variance Due o più variabili dipendenti quantitative Una o più variabili indipendenti categoriali (con più livelli) Residui
DettagliRegressione lineare multipla CORSO DI ANALISI DEI DATI Anno Accademico 2009/2010, I ciclo
Regressione lineare multipla CORSO DI ANALISI DEI DATI Anno Accademico 2009/2010, I ciclo 1 Controllo di ipotesi sui parametri In questo contesto risulta necessario avvalersi dell assunzione di normalita
DettagliPsicometria. 9-Analisi fattoriale confermativa vers. 1.0
Psicometria 9-Analisi fattoriale confermativa vers. 1.0 Germano Rossi 1 germano.rossi@unimib.it Giovanni Battista Flebus 1 giovannibattista.flebus@unimib.it 1 Dipartimento di Psicologia, Università di
DettagliSettimana 3. G. M. Marchetti. Marzo 2017
Settimana 3 G. M. Marchetti Marzo 2017 1 / 26 Prima parte Relazioni tra variabili e regressione lineare 2 / 26 Una legge fisica approssimata Il fisico scozzese Forbes 3 / 26 L esperimento di Forbes Sulla
DettagliDispensa di Statistica
Dispensa di Statistica 1 parziale 2012/2013 Diagrammi... 2 Indici di posizione... 4 Media... 4 Moda... 5 Mediana... 5 Indici di dispersione... 7 Varianza... 7 Scarto Quadratico Medio (SQM)... 7 La disuguaglianza
DettagliProblema tipico delle applicazioni idrologiche: qual'è la portata con tempo di ritorno T?
Problema tipico delle applicazioni idrologiche: qual'è la portata con tempo di ritorno T? Il problema dell'inferenza: dato un campione, individuare la distribuzione di probabilità da cui ha avuto origine.
DettagliAnalisi di Regressione Multivariata. β matrice incognita dei coeff. di regressione (regr. lineare in β)
Analisi di Regressione Multivariata Regressione: metodologia per dedurre info e per anticipare risposte di una variabile dip. Modello classico di regressione lineare: Y {z} n k = {z} X β + ρ {z} {z} n
DettagliRegressione lineare multipla Strumenti quantitativi per la gestione
Regressione lineare multipla Strumenti quantitativi per la gestione Emanuele Taufer Regressione lineare multipla (RLM) Esempio: RLM con due predittori Stima dei coefficienti e previsione Advertising data
DettagliSistemi lineari. Lorenzo Pareschi. Dipartimento di Matematica & Facoltá di Architettura Universitá di Ferrara
Sistemi lineari Lorenzo Pareschi Dipartimento di Matematica & Facoltá di Architettura Universitá di Ferrara http://utenti.unife.it/lorenzo.pareschi/ lorenzo.pareschi@unife.it Lorenzo Pareschi (Univ. Ferrara)
DettagliCORSO DI STATISTICA (parte 1) - ESERCITAZIONE 5
CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 5 Dott.ssa Antonella Costanzo a.costanzo@unicas.it Esercizio 1. Misura dell associazione tra due caratteri Uno store manager è interessato a studiare la relazione
DettagliEsercitazione di Calcolo Numerico 1 22 Aprile Determinare la fattorizzazione LU della matrice a 1 1 A = 3a 2 a 2a a a 2 A =
Esercitazione di Calcolo Numerico 22 Aprile 29. Determinare la fattorizzazione LU della matrice a A = 3a 2 a 2a a a 2 ed utilizzarla per calcolare il det(a). 2. Calcolare il determinante della matrice
DettagliPrefazione Ringraziamenti
Prefazione Ringraziamenti Autori Connect XIII XVII XIX XXI Capitolo 1 La misura dell anima 1 1.1 Misurare in psicologia 1 1.1.1 Peculiarità della misura in psicologia 2 1.1.2 L errore nella misura in psicologia
DettagliAnalisi in componenti principali
Capitolo 2 Analisi in componenti principali 2.1 Introduzione L analisi in componenti principali è una tecnica di analisi multivariata tra le più diffuse. Viene utilizzata quando nel dataset osservato sono
DettagliESERCIZIO 1. Vengono riportati di seguito i risultati di un analisi discriminante.
ESERCIZIO 1. Vengono riportati di seguito i risultati di un analisi discriminante. Test di uguaglianza delle medie di gruppo SELF_EFF COLL_EFF COIN_LAV IMPEGNO SODDISF CAP_IST COLLEGHI Lambda di Wilks
DettagliStatistica Descrittiva Soluzioni 7. Interpolazione: minimi quadrati
ISTITUZIONI DI STATISTICA A. A. 2007/2008 Marco Minozzo e Annamaria Guolo Laurea in Economia del Commercio Internazionale Laurea in Economia e Amministrazione delle Imprese Università degli Studi di Verona
DettagliESERCITAZIONE IV - Soluzioni
umero di omicidi ESERCITAZIOE IV - Soluzioni Esercizio I. a),00 12,00 10,00 8,00 6,00 4,00 2,00 0,00 0 5 10 15 20 25 Popolazione povera (%) b) Poiché i due caratteri in analisi sono quantitativi per calcolare
Dettaglix, y rappresenta la coppia di valori relativa La rappresentazione nel piano cartesiano dei punti ( x, y ),( x, y ),...,( x, y )
Università degli Studi di Basilicata Facoltà di Economia Corso di Laurea in Economia Aziendale - a.a. 0/03 lezioni di statistica del 5 e 8 aprile 03 - di Massimo Cristallo - A. Le relazioni tra i fenomeni
DettagliCorso di Psicometria Progredito
Corso di Psicometria Progredito 8.3 Introduzione ai test psicologici Punteggi grezzi e Punteggi standardizzati Rif. bibliografico: Boncori, L. (2006). I test in psicologia. Capitolo 3 Gianmarco Altoè Dipartimento
DettagliSTATISTICA ESERCITAZIONE 13
STATISTICA ESERCITAZIONE 13 Dott. Giuseppe Pandolfo 9 Marzo 2015 Errore di I tipo: si commette se l'ipotesi nulla H 0 viene rifiutata quando essa è vera Errore di II tipo: si commette se l'ipotesi nulla
DettagliSTATISTICA (I modulo - Statistica Descrittiva) Esercitazione I 24/02/2006
STATISTICA (I modulo - Statistica Descrittiva) Esercitazione I 24/02/2006 La seguente tabella contiene i dati inerenti le unità del settore della ristorazione in un dato comune: Unità X 1 X 2 X 3 X 4 X
DettagliPROCEDURE/TECNICHE DI ANALISI / MISURE DI ASSOCIAZIONE A) ANALISI DELLA VARIANZA
PROCEDURE/TECNICHE DI ANALISI / MISURE DI ASSOCIAZIONE A) ANALISI DELLA VARIANZA PROCEDURA/TECNICA DI ANALISI DEI DATI SPECIFICAMENTE DESTINATA A STUDIARE LA RELAZIONE TRA UNA VARIABILE NOMINALE (ASSUNTA
DettagliL analisi della Varianza (ANOVA): i disegni fattoriali tra i soggetti
Lezione 14 L analisi della Varianza (ANOVA): i disegni fattoriali tra i soggetti Argomenti della lezione: Effetti principali e interazioni Analisi dei disegni fattoriali Disegni fattoriali (o a più vie):
DettagliMetodi computazionali per i Minimi Quadrati
Metodi computazionali per i Minimi Quadrati Come introdotto in precedenza si considera la matrice. A causa di mal condizionamenti ed errori di inversione, si possono avere casi in cui il e quindi S sarebbe
DettagliCORSO DI STATISTICA (parte 2) - ESERCITAZIONE 2
CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 2 Dott.ssa Antonella Costanzo a.costanzo@unicas.it Esercizio 1. La variabile Uniforme Continua Data una scheda telefonica da 5 euro di cui non si sa se sia
DettagliAnalisi discriminante in R Strumenti quantitativi per la gestione
Analisi discriminante in R Strumenti quantitativi per la gestione Emanuele Taufer Default data LDA con R Output Plot Previsione Tabella di classificazione Cambiare il criterio di classificazione Costruire
DettagliEsplorazione dei dati. Lucidi e dataset tratti da Turini - Analisi dei Dati, Dip. Inf. Unipi
Esplorazione dei dati Lucidi e dataset tratti da Turini - Analisi dei Dati, Dip. Inf. Unipi Analisi mono e bivariata Si utilizzano indicatori sintetici che individuano, con un singolo valore, proprieta`
DettagliStatistica. Alfonso Iodice D Enza
Statistica Alfonso Iodice D Enza iodicede@unicas.it Università degli studi di Cassino () Statistica 1 / 33 Outline 1 2 3 4 5 6 () Statistica 2 / 33 Misura del legame Nel caso di variabili quantitative
DettagliR - Esercitazione 6. Andrea Fasulo Venerdì 22 Dicembre Università Roma Tre
R - Esercitazione 6 Andrea Fasulo fasulo.andrea@yahoo.it Università Roma Tre Venerdì 22 Dicembre 2017 Il modello di regressione lineare semplice (I) Esempi tratti da: Stock, Watson Introduzione all econometria
DettagliPresentazione dell edizione italiana Prefazione xix Ringraziamenti xxii Glossario dei simboli xxiii
Sommario Presentazione dell edizione italiana Prefazione xix Ringraziamenti xxii Glossario dei simboli xxiii xv Parte I Statistica descrittiva 1 Capitolo 1 Introduzione 3 Perché studiare statistica? 4
Dettaglilezione 9 AA Paolo Brunori
AA 2016-2017 Paolo Brunori Dove siamo arrivati? - la regressione lineare multipla ci permette di stimare l effetto della variabile X sulla Y tenendo ferme tutte le altre variabili osservabili che hanno
DettagliUlteriori applicazioni del test del Chi-quadrato (χ 2 )
Ulteriori applicazioni del test del Chi-quadrato (χ 2 ) Finora abbiamo confrontato con il χ 2 le numerosità osservate in diverse categorie in un campione con le numerosità previste da un certo modello
DettagliRegressione lineare semplice
Regressione lineare semplice Prof. Giuseppe Verlato Sezione di Epidemiologia e Statistica Medica, Università di Verona Statistica con due variabili var. nominale, var. nominale: gruppo sanguigno - cancro
DettagliLa struttura elettronica degli atomi
1 In unità atomiche: a 0 me 0,59A unità di lunghezza e H 7, ev a H=Hartree unità di energia L energia dell atomo di idrogeno nello stato fondamentale espresso in unità atomiche è: 4 0 me 1 e 1 E H 13,
DettagliSommario. Capitolo 1 I dati e la statistica 1. Capitolo 2 Statistica descrittiva: tabelle e rappresentazioni grafiche 25
Sommario Presentazione dell edizione italiana Prefazione xv xiii Capitolo 1 I dati e la statistica 1 Statistica in pratica: BusinessWeek 1 1.1 Le applicazioni in ambito aziendale ed economico 3 Contabilità
DettagliData Mining. Prova parziale del 20 aprile 2017: SOLUZIONE
Università degli Studi di Padova Corso di Laurea Magistrale in Informatica a.a. 2016/2017 Data Mining Docente: Annamaria Guolo Prova parziale del 20 aprile 2017: SOLUZIONE ISTRUZIONI: La durata della prova
DettagliCapitolo 5 Variabili aleatorie discrete notevoli Insegnamento: Statistica Applicata Corso di Laurea in "Scienze e Tecnologie Alimentari"
Levine, Krehbiel, Berenson Statistica Capitolo 5 Variabili aleatorie discrete notevoli Insegnamento: Statistica Applicata Corso di Laurea in "Scienze e Tecnologie Alimentari" Unità Integrata Organizzativa
DettagliApprendimento Automatico (Feature Selection e Kernel Learning)
Apprendimento Automatico (Feature Selection e Kernel Learning) Fabio Aiolli www.math.unipd.it/~aiolli Sito web del corso www.math.unipd.it/~aiolli/corsi/1516/aa/aa.html Servono tutti gli attributi? Gli
DettagliLEZIONI IN LABORATORIO Corso di MARKETING L. Baldi Università degli Studi di Milano. Strumenti statistici in Excell
LEZIONI IN LABORATORIO Corso di MARKETING L. Baldi Università degli Studi di Milano Strumenti statistici in Excell Pacchetto Analisi di dati Strumenti di analisi: Analisi varianza: ad un fattore Analisi
DettagliRegressione logistica. Strumenti quantitativi per la gestione
Regressione logistica Strumenti quantitativi per la gestione Emanuele Taufer file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/4a_rlg.html#(1) 1/25 Metodi di classificazione I metodi usati per analizzare
DettagliIndice generale. Introduzione. Capitolo 1 Essere uno scienziato dei dati... 1
Introduzione...xi Argomenti trattati in questo libro... xi Dotazione software necessaria... xii A chi è rivolto questo libro... xii Convenzioni utilizzate... xiii Scarica i file degli esempi... xiii Capitolo
DettagliAlgebra lineare con R
Università di Napoli Federico II cristina.tortora@unina.it Standardizzare una variabile Standardizzazione Data una variabile X distribuita secondo una media µ e una varianza σ 2 la standardizzazione permette
DettagliDescrizione per la costruzione del modello di regressione
Descrizione per la costruzione del modello di regressione Formulazione delle Ipotesi Ricerca delle variabili esplicative Dati Modello Stima dei parametri Verifica Modello IL MODELLO DI REGRESSIONE LINEARE
Dettagli