L Analisi Multidimensionale dei Dati

Dimensione: px
Iniziare la visualizzazioe della pagina:

Download "L Analisi Multidimensionale dei Dati"

Transcript

1 L Analisi Multidimensionale dei Dati Analisi Discriminante Una Statistica da vedere Area Clienti intermedi Area Buoni clienti Area Cattivi clienti Classificazione a priori Buoni Intermedi Cattivi TOT. 25,00 Classificazione a posteriori Buoni Intermedi Cattivi TOT ,00 5,00 0,00 5,00 0, Matrici e metodi Strategia di AMD Anal. Discrimin. Segmentazione SI Per riga SI Matrice strutturata NO Analisi nello spazio delle variabili NO Cluster Anal. Scaling Multid Correl. Canon. Corrisp. Multi. An. Matrici 3D SI NO Analisi simmetrica NO SI Comp.Princ. An. Corrisp. Analisi esplorative Analisi confermative o esplicative Regress.Mult, Conjoint Anal. An. Non Simm Corrisp. Variabili qualitative Variabili ordinali Variabili quantitative

2 I metodi per le decisioni l Analisi discriminante L AD L AD Rientra Rientra fra fra i i metodi metodi utilizzati nel nel trattamento di di matrici matrici che che comprendono una una variabile privilegiata qualitativa che che costituisce il il fenomeno da da spiegare e p variabili quantitative, che che costituiscono l insieme delle delle variabili esplicative. Gli Gli individui sono sono ripartiti a priori priori in in k gruppi, sulla sulla base base delle delle differenti modalità di di una una variabile qualitativa che che costituisce la la variabile da da spiegare. OBIETTIVO DESCRITTIVO Confrontare la la classificazione a priori priori con con quella quella ottenuta sulla sulla base base dei dei valori valori assunti dalle dalle variabili esplicative. DECISIONALE Assegnare un un nuovo nuovo individuo, di di cui cui non non si si conosce il il gruppo di di appartenenza, ad ad uno uno dei dei gruppi, gruppi, con con la la minima probabilità di di commettere un un errore errore di di classificazione. I dati nell Analisi Discriminante i variabili esplicative j E E 2 E k k k k variabile di risposta 2

3 I dati di base Una matrice partizionata di dati quantitativi La codifica disgiuntiva della variabile di risposta qualitativa.. X = E E 2 E k Notazioni i gruppi Gli individui sono ripartiti in k gruppi definiti a priori sulla base delle differenti modalità di una variabile qualitativa che costituisce la variabile da spiegare. Questa suddivisione individua una partizione in k gruppi E, E 2,, E k tale che { E, E,..., E } 0 ; { E E2 E k } = 2 k,,..., = I 3

4 Notazioni le matrici X Matrice dei dati quantitativi(n,p) g j baricentro del gruppo G j g baricentro della nube totale W j = n B = k V = n j {( x )( ) i gj xi gj } j i= ( g g)( g g) nj j j j= n n n {( x )( ) i g xi g } i= Matrice var-cov gruppo G j (j=,,k) Matrice var-cov tra i gruppi Matrice var-cov totale il caso dei punti pesanti. r =, 2,..., k ; card (E r ) = n r Σ n r = n = I peso individui p, p 2,..., p n (spesso p = p 2 =... = p n ) peso classi q, q 2,..., q k ( q j = n j / n) baricentro gruppo r g = e p r i i i baricentro g = q g r r varianza gruppo r Wr = pi ( ei gr)( ei gr) r n r ei Er varianza comune entro le classi W = qrwr r r r r varianza tra le classi B = q ( g g)( g g) varianza totale p ( )( ) i ei g ei g V= = B + W i r 4

5 Il caso generale p variabili e k gruppi OBIETTIVO Ricercare le k- combinazioni lineari y j delle p variabili esplicative x, x 2,,x p in grado di determinare il sottospazio tale che le proiezioni dei baricentri g j (j=, k) risultino il più distanziate possibile, avendo al tempo stesso il massimo raggruppamento degli individui attorno ai rispettivi baricentri R p g k g 2 g g u g 3 g i e ir = 2 p ( x, x, L, x ) ir ir (i=,,n ; r=,,k) ir L Analisi Fattoriale Discriminante (AFD) L Analisi Fattoriale Discriminante ricerca un sottospazio di R p che minimizzi le distanze tra individui di uno stesso gruppo e massimizzi invece quelle tra individui di gruppi diversi. Massimizzare la varianza tra i gruppi Minimizzare la varianza inerzia entro i gruppi Ipotizza la distribuzione multinormale delle variabili osservate e l uguaglianza delle matrici di varianza-covarianza dei gruppi (ipotesi di omoschedasticità). Utilizza la metrica di Mahalanobis definita dalla matrice W -. rl ipotesi di omoschedasticità. Nel calcolo della distanza di un WRifiuta -(Metodo di Sebestyen) gruppo risulta disperso attorno al proprio baricentro. individuo da un gruppo considera k metriche definite dalle matrici (r=,..., k), definendo così un peso tanto maggiore quanto più il 5

6 la ricerca delle funzioni lineari discriminanti OBIETTIVO Ricercare le k- combinazioni lineari y j delle p variabili esplicative x, x 2,,x p che consentono di separare al meglio i k gruppi. Prima funzione lineare discriminante y La prima combinazione lineare sarà la funzione y = a x +a 2 x 2 + +a p x p che rende massima la varianza tra le classi e, quindi, minima la varianza entro le classi. Seconda funzione lineare discriminante y 2 e successive La seconda combinazione lineare y 2 = a 2 x +a 22 x 2 + +a 2p x p sarà quella che, non correlata con la prima, renderà massima la varianza tra le classi, e così via Discriminazione lineare le ipotesi Ipotesi di omoschedasticità uguaglianza delle matrici di var-cov entro i gruppi Ipotesi di multinormalità le variabili esplicative hanno una distribuzione multinormale 6

7 La soluzione dell ADL ubu Q = = uwu max λ ubu = uwu Q u 2Buu Wu 2Wuu Bu = = 0 ( uwu ) ( uwu ) Buu Wu = Wuu Bu λ Bu = Wu W Bu = λu v = Wu BW v = λv L autovalore λ esprime il potere discriminante associato a ciascuna funzione lineare discriminante I legami con l ACP XX M u= λ u B W v = λv effettuare un AFD sulle n unità utilizzando la metrica euclidea M=I equivale ad effettuare un ACP sui k baricentri utilizzando la metrica W -. 7

8 Esempio il Credit Scoring Il Credit Scoring è un metodo statistico che consente di calcolare la probabilità, e quindi il rischio, di insolvenza legata alla concessione di un credito ad un cliente nuovo o già esistente. Il principio di base del Credit Scoring è che i buoni clienti ed i cattivi clienti si differenziano sulla base di caratteristiche osservabili sotto forma di variabili quantitative e qualitative. Fase DESCRITTIVA Campione storico Buon cliente Cattivo cliente Fase DECISIONALE Nuovo individuo Buon cliente? Cattivo cliente? Esempio il Credit Scoring per i Prestiti Personali Class. a priori = Buon Cliente (max insoluto) 2 = Cliente Medio (max 2-3 insoluti) 3 = Cattivo Cliente (>3 insoluti) Variabili Età Reddito dichiarato (Lire 000) Debt burden (% indebitamento) Anni all ultima occupazione Anni cliente (0 se nuovo) Importo Prestito (Lire 000) Durata Prestito (in mesi) 8

9 La matrice dei dati Variabili esplicative Classificaz. a priori Buoni Clienti Clienti Intermedi Cattivi Clienti id. x x 2 x 3 x 4 x 5 x 6 x 7 x 8 i i i i i i i i i Autovalori e variabilità spiegata Num Valore % % cum. Istogramma Correlazioni variabili-fattori () () (2) (2) Età Età Reddito dic. dic % indebitamento Anni Anni occupazione Anni Anni cliente Importo Durata

10 Cerchio delle correlazioni y 2 Età Reddito dic. Anni occupaz. Anni cliente Durata % indebitam. y Importo Rappresentazione delle unità Area Clienti intermedi Area Buoni clienti Area Cattivi clienti 0

11 La regola di decisione Ogni individuo verrà classificato nel gruppo il cui baricentro risulta più vicino... e i G j d 2 (e i,g j ) = min[d 2 (e i,g j ) j=,,k] e sarà quindi possibile confrontare la nuova partizione così ottenuta con quella definita a priori sulla base delle k modalità della variabile da spiegare. Le regole di classificazione Proiezione di una nuova unità come elemento supplementare sul piano fattoriale discriminante φ s α = ( es g) ' W u Confronto delle k distanze dai baricentri dei gruppi ( ) min ( ) 2 2 es Er d es, gr = d es, gr ; r =,...,k

12 La scelta della distanza ( e g ) ' W ( e g ) s r s r di facile calcolo non tiene conto della possibile diversa forma delle classi ( e g ) ' W ( e g ) s r r s r g e s g 2 Il punto e s risulta più vicino al baricentro del gruppo che non a quello del gruppo 2. Tuttavia, la differente dispersione dei due gruppi mette bene in evidenza come il punto debba essere considerato più logicamente parte del gruppo 2 che non del gruppo. La distanza di Sebestyen, considerando k distanze dai baricentri, ciascuna ponderata con l inverso della variabilità del gruppo corrispondente, consente di risolvere questo problema. Valutazione dei risultati Classificazione a priori Buoni Intermedi Cattivi TOT. Classificazione a posteriori Buoni Intermedi Cattivi TOT % ben classificati ( )/700 = 74,0% 2

13 Consideriamo una matrice con n unità su cui sono osservate p variabili; Le unità sono a priori ripartite in k gruppi sulla base delle diverse modalità di una variabile da spiegare; Si effettua un analisi fattoriale discriminante per valutare il potere discriminante delle variabili esplicative; Il numero di fattori che è possibile estrarre è uguale a k- (normalmente k<=3); Si proiettano le unità sul piano fattoriale ; Se i gruppi risultano ben separati, allora le variabili esplicative hanno un buon potere discriminante e si può passare alla fase decisionale; Una nuova unità, di cui ovviamente non si conosce il gruppo di appartenenza, viene proiettata in supplementare sul piano determinato dalle unità attive; In base ad uno dei criteri di classificazione scelti, l unità verrà assegnata al gruppo al quale risulta più vicina. Buoni Intermedi Cattivi Buoni Intermedi Cattivi ( )/700 = 74,0% 3

14 La stabilità dei risultati il campione test campione totale campione base campione test E E 2 E 3 Sul campione base viene costruita la regola di classificazione che viene poi applicata al campione test. Su entrambi i campioni viene calcolata la % di corretta classificazione. E E 2 E 3 % bc.. = Traccia n campione totale campione base campione test Si scelgono n elementi che costituiscono il campione di base, con i rimanenti n 2 a formare il campione test, facendo in modo che n 2 risulti molto più piccolo di n e che n /n 2 sia un numero intero; Si costruisce la regola di decisione sul campione di base e la si testa sul campione test, calcolando la % di b.c., p i ; n Si ripete lo stesso procedimento per i= volte; n2 n2%bc.=pn24. Si stima la % di b.c. complessiva come media delle p i nnla stabilità dei risultati ii=4

15 La stabilità dei risultati campione totale campione base campione test. 2. Dal campione totale viene escluso un elemento, che costituisce il campione-test, tutti gli altri a costituire il campione di base; Si costruisce la regola di decisione sul campione di base e la si testa sull elemento escluso; 4. correttamente, 0 altrimenti; Si ripete il procedimento escludendo, uno aalla volta, tutti gli elementi; %bc.=5. Si stima la % di b.c. come ni=in3. Si definisce una variabile a che assume valore se l elemento è classificato La stabilità dei risultati campione totale campione base campione test Dal campione totale si estraggono, con reintroduzione, n elementi che costituiscono il campione di base e n 2 elementi che costituiscono il campione-test, con n +n 2 =n; Si costruisce la regola di decisione sugli n elementi del campione di base e la si testa sugli n 2 elementi del campione test; 3. Si calcola la % di b.c. ; 4. Si ripete il procedimento centinaia o migliaia di volte; Si stima la % di b.c. come media delle % di b.c. precedentemente calcolate. 5

16 I criteri di selezione delle variabili Riducono i costi di gestione, elaborazione e rilevazione legati al numero di variabili considerate, migliorando inoltre l affidabilità dei risultati tr ( Wq Bq) det det ( Wq ) ( V ) = q = max max % b.c. = max Due casi particolari Caso di variabili qualitative e quantitative. ACM sulla tabella dei dati ricodificati 2. Scelta del numero di dimensioni (Fattori) 3. AD sulle nuove variabili Caso di due gruppi Una sola funzione discriminante Un solo punto di taglio 6

17 Esempio di tabella dei punteggi Classi di punteggi GOODS % GOODS nelle classi % cum. GOODS BADS % BADS nelle classi % cum. BADS ,00 0,00 0 0,00 0, ,00 0,00 5 3,00 3, ,00 0, ,00 9, ,00 0, ,00 9, ,00 0, ,00 39, ,00 3, ,60 62, ,00 9, ,40 84, ,00 9, ,00 94, ,33 39, ,00 99, ,33 62,67 5,00 00, ,33 84,00 0 0,00 00, ,00 94,00 0 0,00 00, ,00 99,00 0 0,00 00, ,00 00,00 0 0,00 00, ,00 00,00 0 0,00 00,00 TOT , ,00 Scelta del punto di taglio 25,00 20,00 BADS GOODS 5,00 0,00 5,00 0,

18 Il punto di taglio Nel caso in cui è k=2, esiste un unica unica funzione discriminante (Score); La regola di decisione per classificare un nuovo individuo sarà quindi individuata da un unico punto di taglio (Cut-off). Zona di rifiuto Zona di accettazione Score Un altro esempio gli Iris di Fisher Iris setosa Iris versicolor Iris virginica Fase DESCRITTIVA Fase DECISIONALE Setosa Campione storico Versicolor Virginica Setosa Nuovo iris Versicolor Virginica 8

19 Esempio gli iris di Fisher Classe. a priori = Setosa 2 = Versicolor 3 = Virginica Variabili sepal length sepal widh petal length petal widh La matrice dei dati Variabili esplicative Classificaz. a priori Setosa Vesicolor Virginica id. x x 2 x 3 x 4 x 5 i i i i i i i i i

20 Autovalori e variabilità spiegata Num Valore % % cum. Istogramma Correlazioni variabili-fattori () () (2) (2) Sepal Lenght Sepal width Petal lenght Petal width Cerchio delle correlazioni Variables (axes F and F2 00 %),5 SEPAL WIDTH 0,5 0 SEPAL LENGHT PETAL LENGHT PETAL WIDTH -0,5 - -,5 -,5 - -0,5 0 0,5,5 -- axis F (99 %) --> 20

21 Rappresentazione delle unità Observations (axes F and F2 00 %) Setosa Versicolor Virginica axis F (99 %) --> Valutazione dei risultati Classificazione a posteriori Setosa Versicolor Virginica TOT. Classificazione a priori Setosa Versicolor Virginica TOT % ben classificati ( )/50 = 98,0% 2

Capitolo 1. Analisi Discriminante. 1.1 Introduzione. 1.2 Un analisi discriminante Descrizione del dataset

Capitolo 1. Analisi Discriminante. 1.1 Introduzione. 1.2 Un analisi discriminante Descrizione del dataset Capitolo 1 Analisi Discriminante 1.1 Introduzione L analisi discriminante viene condotta per definire una modalità di assegnazione dei casi a differenti gruppi, in funzione di una serie di variabili fra

Dettagli

Analisi delle corrispondenze

Analisi delle corrispondenze Analisi delle corrispondenze Obiettivo: analisi delle relazioni tra le modalità di due (o più) caratteri qualitativi Individuazione della struttura dell associazione interna a una tabella di contingenza

Dettagli

Statistica multivariata 27/09/2016. D.Rodi, 2016

Statistica multivariata 27/09/2016. D.Rodi, 2016 Statistica multivariata 27/09/2016 Metodi Statistici Statistica Descrittiva Studio di uno o più fenomeni osservati sull INTERA popolazione di interesse (rilevazione esaustiva) Descrizione delle caratteristiche

Dettagli

Analisi in Componenti Principali (ACP)

Analisi in Componenti Principali (ACP) Analisi in Componenti Principali (ACP) Metodi di analisi fattoriale Obiettivo: individuazione di variabili di sintesi = dimensioni = variabili latenti = variabili non osservate Approccio: Ordinamenti tra

Dettagli

ANALISI MULTIDIMENSIONALE DEI DATI (AMD)

ANALISI MULTIDIMENSIONALE DEI DATI (AMD) ANALISI MULTIDIMENSIONALE DEI DATI (AMD) L Analisi Multidimensionale dei Dati (AMD) è una famiglia di tecniche il cui obiettivo principale è la visualizzazione, la classificazione e l interpretazione della

Dettagli

7. ANALISI DISCRIMINANTE

7. ANALISI DISCRIMINANTE 7. ANALISI DISCRIMINANTE 7. Introduzione Uno tra i primi a parlare di analisi discriminante (AD) fu Fisher, con riferimento all'attribuzione di alcuni reperti fossili alla categoria dei primati o a quella

Dettagli

Analisi Discriminante Canonica con R

Analisi Discriminante Canonica con R Università di Bologna - Facoltà di Scienze Statistiche Laurea Triennale in Statistica e Ricerca Sociale Corso di Analisi di Serie Storiche e Multidimensionali Prof.ssa Marilena Pillati Analisi Discriminante

Dettagli

ESERCIZIO 1. Vengono riportati di seguito i risultati di un analisi discriminante.

ESERCIZIO 1. Vengono riportati di seguito i risultati di un analisi discriminante. ESERCIZIO 1. Vengono riportati di seguito i risultati di un analisi discriminante. Test di uguaglianza delle medie di gruppo SELF_EFF COLL_EFF COIN_LAV IMPEGNO SODDISF CAP_IST COLLEGHI Lambda di Wilks

Dettagli

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 5

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 5 CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 5 Dott.ssa Antonella Costanzo [email protected] Esercizio 1. Misura dell associazione tra due caratteri Uno store manager è interessato a studiare la relazione

Dettagli

L A B C di R. Stefano Leonardi c Dipartimento di Scienze Ambientali Università di Parma Parma, 9 febbraio 2010

L A B C di R. Stefano Leonardi c Dipartimento di Scienze Ambientali Università di Parma Parma, 9 febbraio 2010 L A B C di R 0 20 40 60 80 100 2 3 4 5 6 7 8 Stefano Leonardi c Dipartimento di Scienze Ambientali Università di Parma Parma, 9 febbraio 2010 La scelta del test statistico giusto La scelta della analisi

Dettagli

Regressione Lineare Semplice e Correlazione

Regressione Lineare Semplice e Correlazione Regressione Lineare Semplice e Correlazione 1 Introduzione La Regressione è una tecnica di analisi della relazione tra due variabili quantitative Questa tecnica è utilizzata per calcolare il valore (y)

Dettagli

Differenze tra metodi di estrazione

Differenze tra metodi di estrazione Lezione 11 Argomenti della lezione: L analisi fattoriale: il processo di estrazione dei fattori Metodi di estrazione dei fattori Metodi per stabilire il numero di fattori Metodi di Estrazione dei Fattori

Dettagli

Riconoscimento automatico di oggetti (Pattern Recognition)

Riconoscimento automatico di oggetti (Pattern Recognition) Riconoscimento automatico di oggetti (Pattern Recognition) Scopo: definire un sistema per riconoscere automaticamente un oggetto data la descrizione di un oggetto che può appartenere ad una tra N classi

Dettagli

Elementi di Statistica

Elementi di Statistica Università degli Studi di Palermo Dipartimento di Ingegneria Informatica Informatica ed Elementi di Statistica 3 c.f.u. Anno Accademico 2010/2011 Docente: ing. Salvatore Sorce Elementi di Statistica Statistica

Dettagli

La matrice delle correlazioni è la seguente:

La matrice delle correlazioni è la seguente: Calcolo delle componenti principali tramite un esempio numerico Questo esempio numerico puó essere utile per chiarire il calcolo delle componenti principali e per introdurre il programma SPAD. IL PROBLEMA

Dettagli

Analisi delle componenti principali

Analisi delle componenti principali Analisi delle componenti principali Serve a rappresentare un fenomeno k-dimensionale tramite un numero inferiore o uguale a k di variabili incorrelate, ottenute trasformando le variabili osservate Consiste

Dettagli

Elementi di Probabilità e Statistica

Elementi di Probabilità e Statistica Elementi di Probabilità e Statistica Statistica Descrittiva Rappresentazione dei dati mediante tabelle e grafici Estrapolazione di indici sintetici in grado di fornire informazioni riguardo alla distribuzione

Dettagli

standardizzazione dei punteggi di un test

standardizzazione dei punteggi di un test DIAGNOSTICA PSICOLOGICA lezione! Paola Magnano [email protected] standardizzazione dei punteggi di un test serve a dare significato ai punteggi che una persona ottiene ad un test, confrontando la

Dettagli

Variabili aleatorie discrete. Giovanni M. Marchetti Statistica Capitolo 5 Corso di Laurea in Economia

Variabili aleatorie discrete. Giovanni M. Marchetti Statistica Capitolo 5 Corso di Laurea in Economia Variabili aleatorie discrete Giovanni M. Marchetti Statistica Capitolo 5 Corso di Laurea in Economia 2015-16 1 / 45 Variabili aleatorie Una variabile aleatoria è simile a una variabile statistica Una variabile

Dettagli

Statistica. Alfonso Iodice D Enza

Statistica. Alfonso Iodice D Enza Statistica Alfonso Iodice D Enza [email protected] Università degli studi di Cassino () Statistica 1 / 24 Outline 1 2 3 4 5 () Statistica 2 / 24 Dipendenza lineare Lo studio della relazione tra caratteri

Dettagli

La statistica. Elaborazione e rappresentazione dei dati Gli indicatori statistici. Prof. Giuseppe Carucci

La statistica. Elaborazione e rappresentazione dei dati Gli indicatori statistici. Prof. Giuseppe Carucci La statistica Elaborazione e rappresentazione dei dati Gli indicatori statistici Introduzione La statistica raccoglie ed analizza gruppi di dati (su cose o persone) per trarne conclusioni e fare previsioni

Dettagli

ANALISI DELLE CORRISPONDENZE MULTIPLE (ACM)

ANALISI DELLE CORRISPONDENZE MULTIPLE (ACM) ANALISI DELLE CORRISPONDENZE MULTIPLE (ACM) Questa procedura è stata introdotta negli anni 70, ad opera della scuola francese di analisi dei dati (Benzecri). Inizialmente fu proposta per analizzare tabelle

Dettagli

Statistica. Campione

Statistica. Campione 1 STATISTICA DESCRITTIVA Temi considerati 1) 2) Distribuzioni statistiche 3) Rappresentazioni grafiche 4) Misure di tendenza centrale 5) Medie ferme o basali 6) Medie lasche o di posizione 7) Dispersione

Dettagli

INDICATORI DI TENDENZA CENTRALE

INDICATORI DI TENDENZA CENTRALE INDICATORI DI TENDENZA CENTRALE INDICATORI DI TENDENZA CENTRALE Consentono di sintetizzare un insieme di misure tramite un unico valore rappresentativo indice che riassume o descrive i dati e dipende dalla

Dettagli

Prof. Anna Paola Ercolani (Università di Roma) Lez Indicatori di dispersione

Prof. Anna Paola Ercolani (Università di Roma) Lez Indicatori di dispersione Consentono di descrivere la variabilità all interno della distribuzione di requenza tramite un unico valore che ne sintetizza le caratteristiche CAMPO DI VARIAZIONE DIFFERENZA INTERQUARTILE SCOSTAMENTO

Dettagli

Analisi delle corrispondenze

Analisi delle corrispondenze Capitolo 11 Analisi delle corrispondenze L obiettivo dell analisi delle corrispondenze, i cui primi sviluppi risalgono alla metà degli anni 60 in Francia ad opera di JP Benzécri e la sua equipe, è quello

Dettagli

Prof. Anna Paola Ercolani (Università di Roma) Lez Indicatori di tendenza centrale

Prof. Anna Paola Ercolani (Università di Roma) Lez Indicatori di tendenza centrale INDICATORI DI TENDENZA CENTRALE Consentono di sintetizzare un insieme di misure tramite un unico valore rappresentativo indice che riassume o descrive i dati e dipende dalla scala di misura dei dati in

Dettagli

Statistica. Alfonso Iodice D Enza

Statistica. Alfonso Iodice D Enza Statistica Alfonso Iodice D Enza [email protected] Università degli studi di Cassino () Statistica 1 / 33 Outline 1 2 3 4 5 6 () Statistica 2 / 33 Misura del legame Nel caso di variabili quantitative

Dettagli

REGRESSIONE E CORRELAZIONE

REGRESSIONE E CORRELAZIONE REGRESSIONE E CORRELAZIONE Nella Statistica, per studio della connessione si intende la ricerca di eventuali relazioni, di dipendenza ed interdipendenza, intercorrenti tra due variabili statistiche 1.

Dettagli

Corso di Laurea: Diritto per le Imprese e le istituzioni a.a Statistica. Statistica Descrittiva 3. Esercizi: 5, 6. Docente: Alessandra Durio

Corso di Laurea: Diritto per le Imprese e le istituzioni a.a Statistica. Statistica Descrittiva 3. Esercizi: 5, 6. Docente: Alessandra Durio Corso di Laurea: Diritto per le Imprese e le istituzioni a.a. 2016-17 Statistica Statistica Descrittiva 3 Esercizi: 5, 6 Docente: Alessandra Durio 1 Contenuti I quantili nel caso dei dati raccolti in classi

Dettagli

Statistica multivariata

Statistica multivariata Parte 3 : Statistica multivariata Quando il numero delle variabili rilevate sullo stesso soggetto aumentano, il problema diventa gestirle tutte e capirne le relazioni. Analisi multivariata Cercare di capire

Dettagli

Metodologie Quantitative. Analisi Fattoriale

Metodologie Quantitative. Analisi Fattoriale Metodologie Quantitative Analisi Fattoriale La soluzione fattoriale ed il modello ACP M Q Marco Perugini Milano-Bicocca 1 Correlazioni e Varianze Ricordate che la correlazione (al quadrato) indica la varianza

Dettagli

Contenuti: Capitolo 14 del libro di testo

Contenuti: Capitolo 14 del libro di testo Test d Ipotesi / TIPICI PROBLEMI DI VERIFICA DI IPOTESI SONO Test per la media Test per una proporzione Test per la varianza Test per due campioni indipendenti Test di indipendenza Contenuti Capitolo 4

Dettagli

Scale di Misurazione Lezione 2

Scale di Misurazione Lezione 2 Last updated April 26, 2016 Scale di Misurazione Lezione 2 G. Bacaro Statistica CdL in Scienze e Tecnologie per l'ambiente e la Natura II anno, II semestre Tipi di Variabili 1 Scale di Misurazione 1. Variabile

Dettagli

INDICATORI DI TENDENZA CENTRALE

INDICATORI DI TENDENZA CENTRALE INDICATORI DI TENDENZA CENTRALE INDICATORI DI TENDENZA CENTRALE Consentono di sintetizzare un insieme di misure tramite un unico valore rappresentativo è indice che riassume o descrive i dati e dipende

Dettagli

Fondamenti di Automatica

Fondamenti di Automatica Fondamenti di Automatica Proprietà strutturali e leggi di controllo aggiungibilità e controllabilità etroazione statica dallo stato Osservabilità e rilevabilità Stima dello stato e regolatore dinamico

Dettagli

STATISTICA esercizi svolti su: INTERPOLAZIONE PONDERATA, REGRESSIONE E CORRELAZIONE

STATISTICA esercizi svolti su: INTERPOLAZIONE PONDERATA, REGRESSIONE E CORRELAZIONE STATISTICA esercizi svolti su: INTERPOLAZIONE PONDERATA, REGRESSIONE E CORRELAZIONE 1 1 INTERPOLAZIONE PONDERATA, REGRESSIONE E CORRELAZIONE 2 1 INTERPOLAZIONE PONDERATA, REGRESSIONE E CORRELAZIONE 1.1

Dettagli

Inferenza statistica Donata Rodi 04/10/2016

Inferenza statistica Donata Rodi 04/10/2016 Inferenza statistica Donata Rodi 04/10/2016 Popolazione Campionamento Campione Parametri Inferenza Statistiche µ, ϭ 2 descrittive Stima X, s 2 Quale test? Parametrico o no Scala di misura 1 gruppo 2 gruppi

Dettagli

Alberi Decisionali Per l analisi del mancato rinnovo all abbonamento di una rivista

Alberi Decisionali Per l analisi del mancato rinnovo all abbonamento di una rivista Alberi Decisionali Per l analisi del mancato rinnovo all abbonamento di una rivista Il problema L anticipazione del fenomeno degli abbandoni da parte dei propri clienti, rappresenta un elemento fondamentale

Dettagli

Esercitazione 1.3. Indici di variabilità ed eterogeneità. Prof.ssa T. Laureti a.a

Esercitazione 1.3. Indici di variabilità ed eterogeneità. Prof.ssa T. Laureti a.a Corso di Statistica Esercitazione.3 Indici di variabilità ed eterogeneità Concentrazione Asimmetria Prof.ssa T. Laureti a.a. 202-203 Esercizio Si considerino i seguenti dati relativi al numero di addetti

Dettagli

(5 sin x + 4 cos x)dx [9]

(5 sin x + 4 cos x)dx [9] FACOLTÀ DI SCIENZE MM. FF. NN. CORSO DI LAUREA IN SCIENZE NATURALI II Modulo di Matematica con elementi di statistica. Esercitazioni A.A. 009.00. Tutor: Mauro Soro, [email protected] Integrali definiti Risolvere

Dettagli

Statistica Applicata all edilizia: il modello di regressione

Statistica Applicata all edilizia: il modello di regressione Statistica Applicata all edilizia: il modello di regressione E-mail: [email protected] 27 aprile 2009 Indice Il modello di Regressione Lineare 1 Il modello di Regressione Lineare Analisi di regressione

Dettagli

ANALISI DEI DATI PER IL MARKETING 2014

ANALISI DEI DATI PER IL MARKETING 2014 ANALISI DEI DATI PER IL MARKETING 2014 Marco Riani [email protected] http://www.riani.it ANALISI DELLE CORRISPONDENZE (cap. VII) Problema della riduzione delle dimensioni L ANALISI DELLE COMPONENTI PRINCIPALI

Dettagli

Metodi statistici per l economia (Prof. Capitanio) Slide n. 10. Materiale di supporto per le lezioni. Non sostituisce il libro di testo

Metodi statistici per l economia (Prof. Capitanio) Slide n. 10. Materiale di supporto per le lezioni. Non sostituisce il libro di testo Metodi statistici per l economia (Prof. Capitanio) Slide n. 10 Materiale di supporto per le lezioni. Non sostituisce il libro di testo 1 REGRESSIONE LINEARE Date due variabili quantitative, X e Y, si è

Dettagli

ESAME. 9 Gennaio 2017 COMPITO B

ESAME. 9 Gennaio 2017 COMPITO B ESAME 9 Gennaio 2017 COMPITO B Cognome Nome Numero di matricola 1) Approssimare tutti i calcoli alla quarta cifra decimale. 2) Ai fini della valutazione si terrà conto solo ed esclusivamente di quanto

Dettagli

STATISTICA 1 ESERCITAZIONE 6

STATISTICA 1 ESERCITAZIONE 6 STATISTICA 1 ESERCITAZIONE 6 Dott. Giuseppe Pandolfo 5 Novembre 013 CONCENTRAZIONE Osservando l ammontare di un carattere quantitativo trasferibile su un collettivo statistico può essere interessante sapere

Dettagli

LEZIONI IN LABORATORIO Corso di MARKETING L. Baldi Università degli Studi di Milano. Strumenti statistici in Excell

LEZIONI IN LABORATORIO Corso di MARKETING L. Baldi Università degli Studi di Milano. Strumenti statistici in Excell LEZIONI IN LABORATORIO Corso di MARKETING L. Baldi Università degli Studi di Milano Strumenti statistici in Excell Pacchetto Analisi di dati Strumenti di analisi: Analisi varianza: ad un fattore Analisi

Dettagli

METODI DI CLASSIFICAZIONE. Federico Marini

METODI DI CLASSIFICAZIONE. Federico Marini METODI DI CLASSIFICAZIONE Federico Marini Introduzione Nella parte introduttiva dell analisi multivariata abbiamo descritto la possibilità di riconoscere l origine di alcuni campioni come uno dei campi

Dettagli

INDICATORI DI TENDENZA CENTRALE

INDICATORI DI TENDENZA CENTRALE Psicometria (8 CFU) Corso di laurea triennale INDICATORI DI TENDENZA CENTRALE Torna alla pri ma pagina INDICATORI DI TENDENZA CENTRALE Consentono di sintetizzare un insieme di misure tramite un unico valore

Dettagli

Statistica Esercitazione. alessandro polli facoltà di scienze politiche, sociologia, comunicazione

Statistica Esercitazione. alessandro polli facoltà di scienze politiche, sociologia, comunicazione Statistica Esercitazione alessandro polli facoltà di scienze politiche, sociologia, comunicazione Obiettivo Esercizio 1. Questo e alcuni degli esercizi che proporremo nei prossimi giorni si basano sul

Dettagli

Modelli lineari generalizzati

Modelli lineari generalizzati Modelli lineari generalizzati Estensione del modello lineare generale Servono allo studio della dipendenza in media di una variabile risposta da una o più variabili antecedenti Vengono attenuate alcune

Dettagli

La regressione lineare. Rappresentazione analitica delle distribuzioni

La regressione lineare. Rappresentazione analitica delle distribuzioni La regressione lineare Rappresentazione analitica delle distribuzioni Richiamiamo il concetto di dipendenza tra le distribuzioni di due caratteri X e Y. Ricordiamo che abbiamo definito dipendenza perfetta

Dettagli

Statistica di base per l analisi socio-economica

Statistica di base per l analisi socio-economica Laurea Magistrale in Management e comunicazione d impresa Statistica di base per l analisi socio-economica Giovanni Di Bartolomeo [email protected] Definizioni di base Una popolazione è l insieme

Dettagli

Sommario. Capitolo 1 I dati e la statistica 1. Capitolo 2 Statistica descrittiva: tabelle e rappresentazioni grafiche 25

Sommario. Capitolo 1 I dati e la statistica 1. Capitolo 2 Statistica descrittiva: tabelle e rappresentazioni grafiche 25 Sommario Presentazione dell edizione italiana Prefazione xv xiii Capitolo 1 I dati e la statistica 1 Statistica in pratica: BusinessWeek 1 1.1 Le applicazioni in ambito aziendale ed economico 3 Contabilità

Dettagli

Analisi della varianza

Analisi della varianza Analisi della varianza Prof. Giuseppe Verlato Sezione di Epidemiologia e Statistica Medica, Università di Verona ANALISI DELLA VARIANZA - 1 Abbiamo k gruppi, con un numero variabile di unità statistiche.

Dettagli

Statistica 1 A.A. 2015/2016

Statistica 1 A.A. 2015/2016 Corso di Laurea in Economia e Finanza Statistica 1 A.A. 2015/2016 (8 CFU, corrispondenti a 48 ore di lezione frontale e 24 ore di esercitazione) Prof. Luigi Augugliaro 1 / 35 Il modello di regressione

Dettagli

Capitolo 12. Suggerimenti agli esercizi a cura di Elena Siletti. Esercizio 12.1: Suggerimento

Capitolo 12. Suggerimenti agli esercizi a cura di Elena Siletti. Esercizio 12.1: Suggerimento Capitolo Suggerimenti agli esercizi a cura di Elena Siletti Esercizio.: Suggerimento Per verificare se due fenomeni sono dipendenti in media sarebbe necessario confrontare le medie condizionate, in questo

Dettagli

PROCEDURE/TECNICHE DI ANALISI / MISURE DI ASSOCIAZIONE A) ANALISI DELLA VARIANZA

PROCEDURE/TECNICHE DI ANALISI / MISURE DI ASSOCIAZIONE A) ANALISI DELLA VARIANZA PROCEDURE/TECNICHE DI ANALISI / MISURE DI ASSOCIAZIONE A) ANALISI DELLA VARIANZA PROCEDURA/TECNICA DI ANALISI DEI DATI SPECIFICAMENTE DESTINATA A STUDIARE LA RELAZIONE TRA UNA VARIABILE NOMINALE (ASSUNTA

Dettagli

Statistical Process Control

Statistical Process Control Statistical Process Control ESERCIZI II Esercizio 1. Una ditta che produce schermi a cristalli liquidi deve tenere in controllo il numero di pixel non funzionanti. Vengono ispezionati venti schermi alla

Dettagli

Esercizi di Calcolo delle Probabilità

Esercizi di Calcolo delle Probabilità Esercizi di Calcolo delle Probabilità Versione del 1/05/005 Corso di Statistica Anno Accademico 00/05 Antonio Giannitrapani, Simone Paoletti Calcolo delle probabilità Esercizio 1. Un dado viene lanciato

Dettagli

La realizzazione di sistemi di rating basati su modelli statistici

La realizzazione di sistemi di rating basati su modelli statistici La realizzazione di sistemi di rating basati su modelli statistici Rischio di Credito: Rating interni e Cartolarizzazione ABI Roma 23 Novembre 2000 A cosa serve un sistema di rating? Clienti non a rischio

Dettagli

Statistica. Alfonso Iodice D Enza

Statistica. Alfonso Iodice D Enza Statistica Alfonso Iodice D Enza [email protected] Università degli studi di Cassino () Statistica 1 / 24 Outline 1 () Statistica 2 / 24 Outline 1 2 () Statistica 2 / 24 Outline 1 2 3 () Statistica 2 /

Dettagli

Statistica. Lezione 1

Statistica. Lezione 1 Università degli Studi del Piemonte Orientale Corso di Laurea in Infermieristica Corso integrato in Scienze della Prevenzione e dei Servizi sanitari Statistica Lezione 1 a.a 2011-2012 Dott.ssa Daniela

Dettagli

Indice. Prefazione. 4 Sintesi della distribuzione di un carattere La variabilità Introduzione La variabilità di una distribuzione 75

Indice. Prefazione. 4 Sintesi della distribuzione di un carattere La variabilità Introduzione La variabilità di una distribuzione 75 00PrPag:I-XIV_prefazione_IAS 8-05-2008 17:56 Pagina V Prefazione XI 1 La rilevazione dei fenomeni statistici 1 1.1 Introduzione 1 1.2 Caratteri, unità statistiche e collettivo 1 1.3 Classificazione dei

Dettagli

L Analisi della Varianza ANOVA (ANalysis Of VAriance)

L Analisi della Varianza ANOVA (ANalysis Of VAriance) L Analisi della Varianza ANOVA (ANalysis Of VAriance) 1 Concetti generali: Confronto simultaneo tra più di due popolazioni, esempi... La analisi della varianza estende il confronto a p gruppi con p>2.

Dettagli

Esercitazione 8 del corso di Statistica 2

Esercitazione 8 del corso di Statistica 2 Esercitazione 8 del corso di Statistica Prof. Domenico Vistocco Dott.ssa Paola Costantini 6 Giugno 8 Decisione vera falsa è respinta Errore di I tipo Decisione corretta non è respinta Probabilità α Decisione

Dettagli

Il modello di regressione lineare multipla. Il modello di regressione lineare multipla

Il modello di regressione lineare multipla. Il modello di regressione lineare multipla Introduzione E la generalizzazione del modello di regressione lineare semplice: per spiegare il fenomeno d interesse Y vengono introdotte p, con p > 1, variabili esplicative. Tale generalizzazione diventa

Dettagli

Analisi della varianza

Analisi della varianza Università degli Studi di Padova Facoltà di Medicina e Chirurgia Facoltà di Medicina e Chirurgia - A.A. 2009-10 Scuole di specializzazione Lezioni comuni Disciplina: Statistica Docente: dott.ssa Egle PERISSINOTTO

Dettagli

I VETTORI GAUSSIANI E. DI NARDO

I VETTORI GAUSSIANI E. DI NARDO I VETTOI GAUSSIANI E. DI NADO. L importanza della distribuzione gaussiana I vettori di v.a. gaussiane sono senza dubbio uno degli strumenti più utili in statistica. Nell analisi multivariata, per esempio,

Dettagli

3.1 Classificazione dei fenomeni statistici Questionari e scale di modalità Classificazione delle scale di modalità 17

3.1 Classificazione dei fenomeni statistici Questionari e scale di modalità Classificazione delle scale di modalità 17 C L Autore Ringraziamenti dell Editore Elenco dei simboli e delle abbreviazioni in ordine di apparizione XI XI XIII 1 Introduzione 1 FAQ e qualcos altro, da leggere prima 1.1 Questo è un libro di Statistica

Dettagli

Indice della lezione. Incertezza e rischio: sinonimi? Le Ipotesi della Capital Market Theory UNIVERSITA DEGLI STUDI DI PARMA FACOLTA DI ECONOMIA

Indice della lezione. Incertezza e rischio: sinonimi? Le Ipotesi della Capital Market Theory UNIVERSITA DEGLI STUDI DI PARMA FACOLTA DI ECONOMIA UNIVERSIT DEGLI STUDI DI PRM FCOLT DI ECONOMI Indice della lezione Corso di Pianificazione Finanziaria Introduzione al rischio Rischio e rendimento per titoli singoli La Teoria di Portafoglio di Markowitz

Dettagli

Esercizi Svolti. 2. Costruire la distribuzione delle frequenze cumulate del tempo di attesa

Esercizi Svolti. 2. Costruire la distribuzione delle frequenze cumulate del tempo di attesa Esercizi Svolti Esercizio 1 Per una certa linea urbana di autobus sono state effettuate una serie di rilevazioni sui tempi di attesa ad una determinata fermata; la corrispondente distribuzione di frequenza

Dettagli

Facoltà di Economia - Università di Pavia Simulazione Prova Scritta di Statistica Sociale 19 dicembre 2012

Facoltà di Economia - Università di Pavia Simulazione Prova Scritta di Statistica Sociale 19 dicembre 2012 Facoltà di Economia - Università di Pavia Simulazione Prova Scritta di Statistica Sociale 19 dicembre 01 Esercizio 1. Con riferimento a due variabili dicotomiche X e Y (con valori possibili 0 o 1) si definisca

Dettagli

Metodi di analisi statistica multivariata

Metodi di analisi statistica multivariata Metodi di analisi statistica multivariata lzo V

Dettagli

STATISTICHE DESCRITTIVE Parte II

STATISTICHE DESCRITTIVE Parte II STATISTICHE DESCRITTIVE Parte II INDICI DI DISPERSIONE Introduzione agli Indici di Dispersione Gamma Differenza Interquartilica Varianza Deviazione Standard Coefficiente di Variazione introduzione Una

Dettagli

Prova scritta di STATISTICA. CDL Biotecnologie. (Programma di Massimo Cristallo - A)

Prova scritta di STATISTICA. CDL Biotecnologie. (Programma di Massimo Cristallo - A) Prova scritta di STATISTICA CDL Biotecnologie (Programma di Massimo Cristallo - A) 1. Un associazione di consumatori, allo scopo di esaminare la qualità di tre diverse marche di batterie per automobili,

Dettagli

I modelli lineari generalizzati per la tariffazione nel ramo RCA: applicazione

I modelli lineari generalizzati per la tariffazione nel ramo RCA: applicazione I modelli lineari generalizzati per la tariffazione nel ramo RCA: applicazione Giuseppina Bozzo Giuseppina Bozzo Considerazioni preliminari La costruzione di un GLM è preceduta da alcune importanti fasi:

Dettagli

Statistica per le ricerche di mercato

Statistica per le ricerche di mercato Università degli studi della Tuscia Dipartimento di Economia e Impresa Statistica per le ricerche di mercato a.a. 2012/13 Dr. Luca Secondi 01. Introduzione al corso 1 Statistica per le ricerche di mercato

Dettagli

Lezione 2. Statistica. Alfonso Iodice D Enza Università degli studi di Cassino. Lezione 2. A. Iodice. Distribuzioni unitarie

Lezione 2. Statistica. Alfonso Iodice D Enza Università degli studi di Cassino. Lezione 2. A. Iodice. Distribuzioni unitarie Statistica Alfonso Iodice D Enza [email protected] Università degli studi di Cassino () Statistica 1 / 39 Outline 1 2 3 4 5 6 7 8 () Statistica 2 / 39 La distribuzione unitaria semplice di un carattere

Dettagli

La variabilità. Dott. Cazzaniga Paolo. Dip. di Scienze Umane e Sociali

La variabilità. Dott. Cazzaniga Paolo. Dip. di Scienze Umane e Sociali Dip. di Scienze Umane e Sociali [email protected] Introduzione [1/2] Gli indici di variabilità consentono di riassumere le principali caratteristiche di una distribuzione (assieme alle medie) Le

Dettagli

Università di Siena. Teoria della Stima. Lucidi del corso di. Identificazione e Analisi dei Dati A.A

Università di Siena. Teoria della Stima. Lucidi del corso di. Identificazione e Analisi dei Dati A.A Università di Siena Teoria della Stima Lucidi del corso di A.A. 2002-2003 Università di Siena 1 Indice Approcci al problema della stima Stima parametrica Stima bayesiana Proprietà degli stimatori Stime

Dettagli