Variabili tutte osservabili: regressione Si parla di regressione quando si ha a disposizione un campione sperimentale di numerosità n della forma X 1
|
|
- Vincenzo Corsini
- 7 anni fa
- Visualizzazioni
Transcript
1 Modelli lineari Come motivazione di ciò che stiamo per fare, pensiamo ai dati indicatori_benessere.txt. Quando li abbiamo esaminati nella lezione 1 tramite la rappresentazione nel piano delle componenti principali, abbiamo estratto come tipo di informazione il possibile legame tra certe regioni, somiglianze e differenze tra regioni; lo scopo era quindi esaminare gli esemplari del campione. In questa lezione invece ci poniamo un problema duale: esaminare le variabili del file indicatori_benessere.txt, i loro legami, le loro somiglianze. La specificità di quel campione non interessa più, esso serve solo a mettere in evidenza legami tra variabili. Un modello, in generale, è composto da due set di variabili: Y j risposte, osservabili (output, variabili dipendenti) X i predittori, fattori (input, variabili indipendenti, explanatory variables) Riassumiamo graficamente la relazione causa effetto così: Y j X i o meglio indicando le diverse frecce tra le diverse variabili. Se ad esempio c è una risposta e due fattori, possiamo anche scrivere: Y X 1 X mentre se c è un fattore e due risposte: Y 1 Y X In un modello lineare si suppone che la risposta sia legata ai fattori da una relazione affine a meno di errore : Y 0 1 X 1 p X p # dove i coefficienti 0, 1,, p descrivono quanto ciascun fattore pesa sulla risposta. Il coefficiente 0 è anche detto intercetta, mentre nel caso particolare p 1 il coefficiente 1 è anche detto pendenza p 1. Il rumore è ipotizzato a media nulla, o se si preferisce la sua media è stata inclusa nell intercetta. Se ci sono più risposte, il modello lineare ha la forma Y X 1 p1 X p 1 Y q 0q 1q X 1 pq X p q Variabili tutte osservabili: regressione Si parla di regressione quando si ha a disposizione un campione sperimentale di numerosità n della forma
2 x 1 1 x 1 p xn 1 xn p y n 1 p cioè tale che ogni elemento x i x i y i del campione contiene sia i valori dei fattori sia della risposta (se ci sono più variabili di risposta, si trattano separatamente). Si effettua una regressione lineare quando si ipotizza che il campione sia descritto da un modello lineare della forma ( ref: mod lin ) e si cercano i coefficienti 0, 1,, p, oltre che la varianza dell errore. Ad esempio, riguardo ai dati indicatori_benessere.txt, ci si può chiedere se ci sia una relazione lineare tra X tasso di disoccupazione e Yspese per alimentari/spese totali. Intuitivamente queste due variabili dovrebbero essere legate. Se si prova, si trova un buon risultato. La regressione permette di trovare una formula con cui si possono prevedere i valori della risposta relativamente a nuovi valori dei fattori. Chi volesse indagare sul commercio di una zona italiana, basta che disponga dei dati relativi alla disoccupazione di quella zona per avere una prima stima delle spese alimentari rispetto alle totali. A parte la previsione, ha senso eseguire una regressione anche solo per analizzare il legame tra diverse variabili. Se il modello di regressione risulta accurato, riteniamo che i fattori X i spieghino bene la risposta Y. Riteniamo che Y sia influenzata in grande misura dai fattori X i. Questi sono alcuni dei significati intuitivi che attribuiamo ad una buona regressione. L accuratezza del modello è misurata da alcuni indicatori che descriveremo al momento opportuno (p-value, R, ed altri, forniti dal software). Naturalmente l esistenza di un legame tra due variabili era già stato esaminato col concetto di correlazione, X,Y. In un certo senso, se ci interessa solo sapere se sue variabili sono legate, X,Y può essere sufficiente ed è sicuramente la prima informazione da avere. Tuttavia, eseguendo l analisi di regressione, in particolare osservando i residui, si acquisiscono nuove informazioni sul legame tra le due variabili. Inoltre, se ci sono in gioco più di due variabili, gli elementi della matrice di correlazione colgono i legami a due a due, ma servono particolari analisi multidimensionali per capire se ci sono legami più complessi che coinvolgono inscindibilmente più di due variabili. Uno degli strumenti è PCA, su cui torneremo da questo nuovo punto di vista. Un altro strumento è la regressione multipla. Ad esemipio, nel caso dei dati indicatori_benessere.txt, ci si può chiedere se la mortalità infantile sia spiegabile tramite il tasso di disoccupazione ed il numero di posti letto in istituti di cura (che descrive sommariamente il livello del servizio sanitario). Purtroppo si vede dalla regressione multipla che questo non accade: il risultato è modesto, c è qualcos altro tra le spiegazioni di un alto o basso tasso di mortalità infantile, che non rientra nelle variabili esaminate dal nostro file. Standardizzazione nella regressione Il coefficiente di correlazione, X,Y è legato alla regressione lineare (detta semplice nel caso p 1): Calcolando CovX,Y si vede subito che Y 0 1 X.
3 1 CovX,Y X X,Y Y X cioè il peso 1 che X ha su Y è proporzionale a X,Y. Se poi si standardizza X (cosidetta standardizzazione parziale del modello), cioè si riscrive il modello nella forma Y 0 1 X X X con X il nuovo coefficiente 1 vale 1 X 1 X,Y Y. Se infine si standardizza anche Y (cosidetta standardizzazione totale del modello), cioè si riscrive il modello nella forma Y Y Y 0 1 X X X con X Y Y e Y, il nuovo coefficiente 1 vale 1 X,Y. In altre parole, se si standardizzano entrambe le variabili, cosa che abbiamo fatto inizialmente sui dati del file indicatori_benessere.txt, il peso 1 della X standardizzata sulla Y standardizzata è proprio il coefficiente di correlazione X,Y. Variabili un po osservabili ed un po nascoste: analisi fattoriale Abbiamo visto sopra che la regressione si usa quando i dati sperimentali contengono informazioni sia sui fattori X i sia sulle risposte Y j. In altri casi si dispone solamente di osservazioni eseguite per le variabili Y j : 1 q yn 1 yn q dove si intende che le variabili Y j devono essere più d una, per aver senso porre il problema. Ci si chiede però ugualmente se per caso non valga un qualche modello lineare, con opportuni fattori X i di cui però non possediamo dati, osservazioni sperimentali. Anzi, in certi esempi applicativi, le risposte Y j sono proprio le osservazioni che possiamo effettuare sulle grandezze X i non misurabili direttamente. Le Y j sono le variabili misurabili, mentre le X i sono le variabili nascoste. Pensando all esempio indicatori_benessere.txt, ci possiamo chiedere: per caso, non è che le cinque variabili misurate (posti letto, ecc.) sono in realtà manifestazioni di una o due variabili nascoste, non misurate, forse più concettuali, come il benessere (potenziale singola variabile esplicativa), oppure le due variabili benessere economico e bontà del servizio sanitario (potenziale coppia di variabili esplicative)?
4 Regressione: stimatori di j e Y Avendo un campione di numerosità n: x 1 1 x 1 p xn 1 xn p y n si introducono i vettori e le matrici y, X y n 1 x 1 1 x 1 p, 1 xn 1 xn p 0 1 p così che i dati dovrebbero essere legati dalla relazione y X. Si cerca col metodo dei minimi quadrati: è il valore di che risolve min y X. Si deve calcolare il gradiente (rispetto a ) della funzione f y X, che vale f X T X X T y; posto uguale a zero, f 0, di trova X T X 1 X T y, che si rivela essere proprio il punto di minimo in quanto f è convessa. Trovato, si può anche calcolare il valore stimato di y, che chiamiamo y: y X XX T X 1 X T y. Riassumendo: X T X 1 X T y y Hy dove H : XX T X 1 X T. Il software calcola. Media e deviazione degli stimatori Consideriamo X come data, non aleatoria. Però y è aleatorio essendo aleatorio. Quindi X T X 1 X T X X T X 1 X T. Da qui si vede che la media di è (quindi è uno stimatore non distorto), la matrice di covarianza di è Q XT X 1 X T X T X 1 X T T XX T 1. Da qui si possono calcolare gli intervalli di confidenza per i parametri del modello. Anche y Hy è aleatorio:
5 y HX HX HX ed ha media y HX XX T X 1 X T X X y e matrice di covarianza Q y HXHX T XX T. Da qui si trovano gli intervalli di confidenza per i valori predetti. Residui Il dato i-esimo è della forma x i 1,,x i p,y i ; se 0, 1,, p sono le stime dei coefficienti, il residuo del dato i-esimo è i y i y i y i 0 1 x i 1 p x i p. Si può anche riscrivere vettorialmente: y y 1 Hy. Plottare i residui può essere utile per rendersi conto dell errore che si commette usando una retta per descrivere i dati. Se i residui hanno una forma disordinata, essi sono ragionevolmente degli errori casuali, ma se hanno un pattern preciso, ciò è indicazione del fatto che la retta non cattura la vera struttura dei dati. Conviene plottare i residui in ordinata mettendo in ascissa non il numero d ordine del campione (che non ha un particolare significato) ma il valore della y: così si vede ad esempio se i residui sono troppo grandi o con un segno ben definito in corrispondenza delle y grandi o viceversa ecc. Il software usa ogni tanto i residui standardizzati i. Bontà del fit Un modo per valutare la bontà del fit con un singolo numero è quello di usare la grandezza (chiamata ad es. multiple R squared) R 1 i y i y detta coefficiente di determinazione o percentuale della varianza spiegata. R è vicino ad 1, ovvero i y i y è vicino a zero, quando la varianza degli errori dopo l uso del modello è molto minore della varianza di partenza dei valori y i ; in altre parole, se il modello è stato in grado di dare una spiegazione della variabilità dei valori y i. Con un po di calcoli che tralasciamo, si dimostra che nella regressione semplice, vale R X,Y dove X,Y è il coefficiente di correlazione. Questo fornisce un altra interpretazione di
6 queste grandezze. Leverage Ricordando H XX T X 1 X T, il numero h i : H ii, i indice del dato i-esimo è detto leverage del dato i-esimo. Interessa in quanto si verifica che Var i 1 h i dove : Var i. Quindi, h i 0 implica Var i, ovvero il dato i-esimo ha un potere di costrizione molto elevato. E quindi una misura dell influenza di ciascun dato. Ad esempio, se (in due dimensioni) i dati sono disposti secondo una nuvola circolare più un dato esterno un po lontano, la nuvola di per sè ha poco potere di identificazione della retta di regressione, così il dato esterno diventa estremamente determinante. In genere un elevato leverage è causato dalla posizione un po estrema rispetto alla X. I dati con elevato leverage vanno osservati con attenzione: potrebbero essere molto importanti, così come da separare dagli altri. La matematica può solo metterli in evidenza. Cook s distance La distanza di Cook del dato i-esimo è D i : y yi p dove y sono le uscite stimate, y i sono quelle stimate senza l uso del dato i-esimo, p è l ordine della regressione multipla. Per definizione, la distanza di Cook del dato i-esimo è una misura dell influenza di quel dato sul risultato del fit. Vale anche D i 1 p r i h i 1 h i (da cui la possibilità di visualizzare le isolinee di D in un grafico residui-leverage). Pertanto, elevato D i nasce da una concomitanza di elevato residuo ed elevato leverage. Anche questo spiega come il leverage sia una misura dell influenza di un dato sul fit. Un dato che, oltre a far leva - a causa della sua posizione estrema - ha anche un grosso residuo, è davvero anomalo rispetto al gruppo: è fuori in tutti i sensi.
Regressione Lineare Semplice e Correlazione
Regressione Lineare Semplice e Correlazione 1 Introduzione La Regressione è una tecnica di analisi della relazione tra due variabili quantitative Questa tecnica è utilizzata per calcolare il valore (y)
DettagliStatistica. Capitolo 12. Regressione Lineare Semplice. Cap. 12-1
Statistica Capitolo 1 Regressione Lineare Semplice Cap. 1-1 Obiettivi del Capitolo Dopo aver completato il capitolo, sarete in grado di: Spiegare il significato del coefficiente di correlazione lineare
DettagliIl modello di regressione (VEDI CAP 12 VOLUME IEZZI, 2009)
Il modello di regressione (VEDI CAP 12 VOLUME IEZZI, 2009) Quesito: Posso stimare il numero di ore passate a studiare statistica sul voto conseguito all esame? Potrei calcolare il coefficiente di correlazione.
Dettaglilezione n. 6 (a cura di Gaia Montanucci) Verosimiglianza: L = = =. Parte dipendente da β 0 e β 1
lezione n. 6 (a cura di Gaia Montanucci) METODO MASSIMA VEROSIMIGLIANZA PER STIMARE β 0 E β 1 Distribuzione sui termini di errore ε i ε i ~ N (0, σ 2 ) ne consegue : ogni y i ha ancora distribuzione normale,
DettagliDispensa di Statistica
Dispensa di Statistica 1 parziale 2012/2013 Diagrammi... 2 Indici di posizione... 4 Media... 4 Moda... 5 Mediana... 5 Indici di dispersione... 7 Varianza... 7 Scarto Quadratico Medio (SQM)... 7 La disuguaglianza
DettagliMetodi statistici per l economia (Prof. Capitanio) Slide n. 10. Materiale di supporto per le lezioni. Non sostituisce il libro di testo
Metodi statistici per l economia (Prof. Capitanio) Slide n. 10 Materiale di supporto per le lezioni. Non sostituisce il libro di testo 1 REGRESSIONE LINEARE Date due variabili quantitative, X e Y, si è
DettagliEsercitazione del
Esercizi sulla regressione lineare. Esercitazione del 21.05.2013 Esercizio dal tema d esame del 13.06.2011. Si consideri il seguente campione di n = 9 osservazioni relative ai caratteri ed Y: 7 17 8 36
DettagliLezioni di Statistica del 15 e 18 aprile Docente: Massimo Cristallo
UIVERSITA DEGLI STUDI DI BASILICATA FACOLTA DI ECOOMIA Corso di laurea in Economia Aziendale anno accademico 2012/2013 Lezioni di Statistica del 15 e 18 aprile 2013 Docente: Massimo Cristallo LA RELAZIOE
DettagliStatistica multivariata Donata Rodi 17/10/2016
Statistica multivariata Donata Rodi 17/10/2016 Quale analisi? Variabile Dipendente Categoriale Continua Variabile Indipendente Categoriale Chi Quadro ANOVA Continua Regressione Logistica Regressione Lineare
DettagliStatistica di base per l analisi socio-economica
Laurea Magistrale in Management e comunicazione d impresa Statistica di base per l analisi socio-economica Giovanni Di Bartolomeo gdibartolomeo@unite.it Definizioni di base Una popolazione è l insieme
DettagliLa regressione lineare. Rappresentazione analitica delle distribuzioni
La regressione lineare Rappresentazione analitica delle distribuzioni Richiamiamo il concetto di dipendenza tra le distribuzioni di due caratteri X e Y. Ricordiamo che abbiamo definito dipendenza perfetta
DettagliSTATISTICA A K (60 ore)
STATISTICA A K (60 ore) Marco Riani mriani@unipr.it http://www.riani.it Richiami sulla regressione Marco Riani, Univ. di Parma 1 MODELLO DI REGRESSIONE y i = a + bx i + e i dove: i = 1,, n a + bx i rappresenta
DettagliCorso integrato di informatica, statistica e analisi dei dati sperimentali Esercitazione VII
Corso integrato di informatica, statistica e analisi dei dati sperimentali Esercitazione VII Un breve richiamo sul test t-student Siano A exp (a 1, a 2.a n ) e B exp (b 1, b 2.b m ) due set di dati i cui
DettagliLa media e la mediana sono indicatori di centralità, che indicano un centro dei dati.
La media e la mediana sono indicatori di centralità, che indicano un centro dei dati. Un indicatore che sintetizza in un unico numero tutti i dati, nascondendo quindi la molteplicità dei dati. Per esempio,
DettagliStatistica Applicata all edilizia: il modello di regressione
Statistica Applicata all edilizia: il modello di regressione E-mail: orietta.nicolis@unibg.it 27 aprile 2009 Indice Il modello di Regressione Lineare 1 Il modello di Regressione Lineare Analisi di regressione
Dettagli3.1 Classificazione dei fenomeni statistici Questionari e scale di modalità Classificazione delle scale di modalità 17
C L Autore Ringraziamenti dell Editore Elenco dei simboli e delle abbreviazioni in ordine di apparizione XI XI XIII 1 Introduzione 1 FAQ e qualcos altro, da leggere prima 1.1 Questo è un libro di Statistica
DettagliVariabili indipendenti qualitative. In molte applicazioni si rende necessario l introduzione di un fattore a due o più livelli.
Variabili indipendenti qualitative Di solito le variabili nella regressione sono variabili continue In molte applicazioni si rende necessario l introduzione di un fattore a due o più livelli Ad esempio:
DettagliEsercizio 2: voto e ore dedicate allo studio
La seguente tabella riporta il voto riportato da 10 studenti all esame di Statistica Sociale e il numero di ore di lezione non seguite dallo studente (il corso prevede 30 ore di lezione). Ci si chiede
Dettaglix, y rappresenta la coppia di valori relativa La rappresentazione nel piano cartesiano dei punti ( x, y ),( x, y ),...,( x, y )
Università degli Studi di Basilicata Facoltà di Economia Corso di Laurea in Economia Aziendale - a.a. 0/03 lezioni di statistica del 5 e 8 aprile 03 - di Massimo Cristallo - A. Le relazioni tra i fenomeni
DettagliLezione 10: Interpolazione lineare Corso di Statistica Facoltà di Economia Università della Basilicata. Prof. Massimo Aria
Lezione 10: Interpolazione lineare Corso di Statistica Facoltà di Economia Università della Basilicata Prof. Massimo Aria aria@unina.it Il concetto di interpolazione In matematica, e in particolare in
DettagliCAPITOLO 11 ANALISI DI REGRESSIONE
VERO FALSO CAPITOLO 11 ANALISI DI REGRESSIONE 1. V F Se c è una relazione deterministica tra due variabili,x e y, ogni valore dato di x,determinerà un unico valore di y. 2. V F Quando si cerca di scoprire
DettagliNel modello di regressione Multivariata abbiamo più variabili risposta (tipicamente poche), in particolare avremo:
Lezione 15 (a cura di Giovanni Mariani) Regressione Multivariata Consideriamo yiyr, con r = numero variabili risposta xixk, con k = numero varibili esplicative Nel modello di regressione Multivariata abbiamo
DettagliMetodologia Sperimentale Agronomica / Metodi Statistici per la Ricerca Ambientale
DIPARTIMENTO DI SCIENZE AGRARIE E AMBIENTALI PRODUZIONE, TERRITORIO, AGROENERGIA Marco Acutis marco.acutis@unimi.it www.acutis.it CdS Scienze della Produzione e Protezione delle Piante (g59) CdS Biotecnologie
DettagliLEZIONI IN LABORATORIO Corso di MARKETING L. Baldi Università degli Studi di Milano. Strumenti statistici in Excell
LEZIONI IN LABORATORIO Corso di MARKETING L. Baldi Università degli Studi di Milano Strumenti statistici in Excell Pacchetto Analisi di dati Strumenti di analisi: Analisi varianza: ad un fattore Analisi
DettagliStatistica descrittiva in due variabili
Statistica descrittiva in due variabili 1 / 65 Statistica descrittiva in due variabili 1 / 65 Supponiamo di misurare su un campione statistico due diverse variabili X e Y. Indichiamo come al solito con
DettagliAnalisi descrittiva: calcolando medie campionarie, varianze campionarie e deviazioni standard campionarie otteniamo i dati:
Obiettivi: Esplicitare la correlazione esistente tra l altezza di un individuo adulto e la lunghezza del suo piede e del suo avambraccio. Idea del progetto: Il progetto nasce dall idea di acquistare scarpe
DettagliStatistica. Alfonso Iodice D Enza
Statistica Alfonso Iodice D Enza iodicede@gmail.com Università degli studi di Cassino () Statistica 1 / 24 Outline 1 2 3 4 5 () Statistica 2 / 24 Dipendenza lineare Lo studio della relazione tra caratteri
DettagliIl metodo dei minimi quadrati. Molto spesso due grandezze fisiche x e y, misurabili direttamente, sono legate tra loro da una legge del tipo:
Il metodo dei minimi quadrati Molto spesso due grandezze fisiche x e y, misurabili direttamente, sono legate tra loro da una legge del tipo: Dove A e B sono costanti y = A + Bx (ad esempio in un moto uniformemente
DettagliTest delle Ipotesi Parte I
Test delle Ipotesi Parte I Test delle Ipotesi sulla media Introduzione Definizioni basilari Teoria per il caso di varianza nota Rischi nel test delle ipotesi Teoria per il caso di varianza non nota Test
DettagliCorrelazione e regressione
SMID a.a. 2004/2005 Corso di Metodi Statistici in Biomedicina Correlazione e regressione 28/1/2005 Relazioni Che rapporto c'è tra la pressione arteriosa e il peso corporeo? relazione tra due variabili
DettagliStatistica 1 A.A. 2015/2016
Corso di Laurea in Economia e Finanza Statistica 1 A.A. 2015/2016 (8 CFU, corrispondenti a 48 ore di lezione frontale e 24 ore di esercitazione) Prof. Luigi Augugliaro 1 / 35 Il modello di regressione
DettagliCHEMIOMETRIA. CONFRONTO CON VALORE ATTESO (test d ipotesi) CONFRONTO DI VALORI MISURATI (test d ipotesi) CONFRONTO DI RIPRODUCIBILITA (test d ipotesi)
CHEMIOMETRIA Applicazione di metodi matematici e statistici per estrarre (massima) informazione chimica (affidabile) da dati chimici INCERTEZZA DI MISURA (intervallo di confidenza/fiducia) CONFRONTO CON
DettagliAnalisi di Regressione Multivariata. β matrice incognita dei coeff. di regressione (regr. lineare in β)
Analisi di Regressione Multivariata Regressione: metodologia per dedurre info e per anticipare risposte di una variabile dip. Modello classico di regressione lineare: Y {z} n k = {z} X β + ρ {z} {z} n
Dettagli0 altimenti 1 soggetto trova lavoroentro 6 mesi}
Lezione n. 16 (a cura di Peluso Filomena Francesca) Oltre alle normali variabili risposta che presentano una continuità almeno all'interno di un certo intervallo di valori, esistono variabili risposta
DettagliRingraziamenti dell Editore
Indice Elenco dei simboli e delle abbreviazioni in ordine di apparizione Ringraziamenti dell Editore XI XVII 1 Introduzione FAQ e qualcos altro, da leggere prima 1 1.1 QuestoèunlibrodiStatistica....................
DettagliAnalisi Multivariata dei Dati. Regressione Multipla
Analisi Multivariata dei Dati Regressione Multipla A M D Marcello Gallucci Milano-Bicocca Lezione: III Effetti multipli Consideriamo ora il caso in cui la variabile dipendente possa essere spiegata da
DettagliREGRESSIONE E CORRELAZIONE
REGRESSIONE E CORRELAZIONE Nella Statistica, per studio della connessione si intende la ricerca di eventuali relazioni, di dipendenza ed interdipendenza, intercorrenti tra due variabili statistiche 1.
DettagliTest F per la significatività del modello
Test F per la significatività del modello Per verificare la significatività dell intero modello si utilizza il test F Si vuole verificare l ipotesi H 0 : β 1 = 0,, β k = 0 contro l alternativa che almeno
DettagliUniversità del Piemonte Orientale Specializzazioni di area sanitaria Statistica Medica
Università del Piemonte Orientale Specializzazioni di area sanitaria Statistica Medica Regressione Lineare e Correlazione Argomenti della lezione Determinismo e variabilità Correlazione Regressione Lineare
DettagliPROCEDURE/TECNICHE DI ANALISI / MISURE DI ASSOCIAZIONE A) ANALISI DELLA VARIANZA
PROCEDURE/TECNICHE DI ANALISI / MISURE DI ASSOCIAZIONE A) ANALISI DELLA VARIANZA PROCEDURA/TECNICA DI ANALISI DEI DATI SPECIFICAMENTE DESTINATA A STUDIARE LA RELAZIONE TRA UNA VARIABILE NOMINALE (ASSUNTA
DettagliIl modello di regressione lineare multipla con regressori stocastici
Università di Pavia Il modello di regressione lineare multipla con regressori stocastici Eduardo Rossi Il valore atteso condizionale Modellare l esperimento casuale bivariato nel quale le variabili casuali
DettagliRegressione lineare semplice
Regressione lineare semplice Prof. Giuseppe Verlato Sezione di Epidemiologia e Statistica Medica, Università di Verona Statistica con due variabili var. nominale, var. nominale: gruppo sanguigno - cancro
DettagliRegressione Mario Guarracino Data Mining a.a. 2010/2011
Regressione Esempio Un azienda manifatturiera vuole analizzare il legame che intercorre tra il volume produttivo X per uno dei propri stabilimenti e il corrispondente costo mensile Y di produzione. Volume
DettagliCovarianza, correlazione e retta di regressione. Paola Lecca, CIBIO UNITN Corso di Matematica e Statistica 2
Covarianza, correlazione e retta di regressione Paola Lecca, CIBIO UNITN Corso di Matematica e Statistica 2 Questa presentazione è stata preparata attingendo dai seguenti testi S. M. Iacus, Statistica,
DettagliL A B C di R. Stefano Leonardi c Dipartimento di Scienze Ambientali Università di Parma Parma, 9 febbraio 2010
L A B C di R 0 20 40 60 80 100 2 3 4 5 6 7 8 Stefano Leonardi c Dipartimento di Scienze Ambientali Università di Parma Parma, 9 febbraio 2010 La scelta del test statistico giusto La scelta della analisi
DettagliStatistica Descrittiva Soluzioni 7. Interpolazione: minimi quadrati
ISTITUZIONI DI STATISTICA A. A. 2007/2008 Marco Minozzo e Annamaria Guolo Laurea in Economia del Commercio Internazionale Laurea in Economia e Amministrazione delle Imprese Università degli Studi di Verona
DettagliStatistica - metodologie per le scienze economiche e sociali /2e S. Borra, A. Di Ciaccio - McGraw Hill
Statistica - metodologie per le scienze economiche e sociali /e S Borra, A Di Ciaccio - McGraw Hill Es 6 Soluzione degli esercizi del capitolo 6 In base agli arrotondamenti effettuati nei calcoli, si possono
DettagliSTATISTICA esercizi svolti su: INTERPOLAZIONE PONDERATA, REGRESSIONE E CORRELAZIONE
STATISTICA esercizi svolti su: INTERPOLAZIONE PONDERATA, REGRESSIONE E CORRELAZIONE 1 1 INTERPOLAZIONE PONDERATA, REGRESSIONE E CORRELAZIONE 2 1 INTERPOLAZIONE PONDERATA, REGRESSIONE E CORRELAZIONE 1.1
DettagliLezione n. 1 (a cura di Irene Tibidò)
Lezione n. 1 (a cura di Irene Tibidò) Richiami di statistica Variabile aleatoria (casuale) Dato uno spazio campionario Ω che contiene tutti i possibili esiti di un esperimento casuale, la variabile aleatoria
DettagliData Mining. Prova parziale del 20 aprile 2017: SOLUZIONE
Università degli Studi di Padova Corso di Laurea Magistrale in Informatica a.a. 2016/2017 Data Mining Docente: Annamaria Guolo Prova parziale del 20 aprile 2017: SOLUZIONE ISTRUZIONI: La durata della prova
DettagliRegressione lineare multipla CORSO DI ANALISI DEI DATI Anno Accademico 2009/2010, I ciclo
Regressione lineare multipla CORSO DI ANALISI DEI DATI Anno Accademico 2009/2010, I ciclo 1 Controllo di ipotesi sui parametri In questo contesto risulta necessario avvalersi dell assunzione di normalita
DettagliProbablità, Statistica e Processi Stocastici
Probablità, Statistica e Processi Stocastici Franco Flandoli, Università di Pisa Riepilogo su PCA (affi ancare scheda R) Si parte da n variabili aleatorie X 1,..., X n. In pratica, si parte da una tabella
DettagliRisoluzione di problemi ingegneristici con Excel
Risoluzione di problemi ingegneristici con Excel Problemi Ingegneristici Calcolare per via numerica le radici di un equazione Trovare l equazione che lega un set di dati ottenuti empiricamente (fitting
DettagliStatistica. Alfonso Iodice D Enza
Statistica Alfonso Iodice D Enza iodicede@unina.it Università degli studi di Cassino () Statistica 1 / 1 Outline 1 () Statistica 2 / 1 Outline 1 2 () Statistica 2 / 1 Outline 1 2 3 () Statistica 2 / 1
DettagliFacoltà di Scienze Statistiche Corso di Laurea in Statistica ed Informatica per l Azienda ESERCIZI DI ALLENAMENTO a.a.
Facoltà di Scienze Statistiche Corso di Laurea in Statistica ed Informatica per l Azienda ESERCIZI DI ALLENAMENTO a.a. 2008 PARTE I 1. Si consideri il seguente modello di regressione lineare su dati cross
DettagliLaboratorio di Statistica 1 con R Esercizi per la Relazione. I testi e/o i dati degli esercizi contassegnati da sono tratti dai libri consigliati
Laboratorio di Statistica 1 con R Esercizi per la Relazione I testi e/o i dati degli esercizi contassegnati da sono tratti dai libri consigliati nel corso. Esercizio 1. 1. Facendo uso dei comandi
DettagliANALISI MULTIVARIATA
ANALISI MULTIVARIATA Marcella Montico Servizio di epidemiologia e biostatistica... ancora sulla relazione tra due variabili: la regressione lineare semplice VD: quantitativa VI: quantitativa Misura la
DettagliIntervallo di fiducia del coefficiente angolare e dell intercetta L intervallo di fiducia del coefficiente angolare (b 1 ) è dato da:
Analisi chimica strumentale Intervallo di fiducia del coefficiente angolare e dell intercetta L intervallo di fiducia del coefficiente angolare (b 1 ) è dato da: (31.4) dove s y è la varianza dei valori
DettagliIl modello lineare misto
Il modello lineare misto (capitolo 9) A M D Marcello Gallucci Univerisità Milano-Bicocca Lezione: 15 GLM Modello Lineare Generale vantaggi Consente di stimare le relazioni fra due o più variabili Si applica
DettagliLEZIONE N. 11 ( a cura di MADDALENA BEI)
LEZIONE N. 11 ( a cura di MADDALENA BEI) F- test Assumiamo l ipotesi nulla H 0 :β 1,...,Β k =0 E diverso dal verificare che H 0 :B J =0 In realtà F - test è più generale H 0 :Aβ=0 H 1 :Aβ 0 A è una matrice
DettagliIl modello di regressione lineare multipla. Il modello di regressione lineare multipla
Introduzione E la generalizzazione del modello di regressione lineare semplice: per spiegare il fenomeno d interesse Y vengono introdotte p, con p > 1, variabili esplicative. Tale generalizzazione diventa
DettagliCognome e Nome:... Corso di laurea:...
Statistica - corso base Prof. B. Liseo Prova di esame dell 8 gennaio 201 Cognome e Nome:................................................................... Corso di laurea:.......................................................................
DettagliMinimi quadrati pesati per la Regressione Lineare
Minimi quadrati pesati per la Regressione Lineare Salto in alto oltre le formule Ing. Ivano Coccorullo Perchè? La tabella che segue riporta il raggio medio dell orbita R ed il periodo di rivoluzione T
DettagliUniversità degli Studi Roma Tre Anno Accademico 2016/2017 ST410 Statistica 1
Università degli Studi Roma Tre Anno Accademico 2016/2017 ST410 Statistica 1 Lezione 1 - Mercoledì 28 Settembre 2016 Introduzione al corso. Richiami di probabilità: spazi di probabilità, variabili aleatorie,
DettagliCap. 7 Distribuzioni campionarie
Cap. 7 Distribuzioni campionarie 1 Popolazione e Campione Una popolazione è l insieme di tutte le unità oggetto di studio Tutti i potenziali votanti nelle prossime elezioni Tutti i pezzi prodotti oggi
DettagliTema d esame del 15/02/12
Tema d esame del 15/0/1 Volendo aprire un nuovo locale, una catena di ristoranti chiede ad un consulente di valutare la posizione geografica ideale all interno di un centro abitato. A questo scopo, avvalendosi
DettagliStatistica multivariata
Parte 3 : Statistica multivariata Quando il numero delle variabili rilevate sullo stesso soggetto aumentano, il problema diventa gestirle tutte e capirne le relazioni. Analisi multivariata Cercare di capire
DettagliESERCIZIO SVOLTO N 1 ESERCIZIO SVOLTO N 2. Determinare e rappresentare graficamente il dominio della funzione
ESERCIZIO SVOLTO N 1 Determinare e rappresentare graficamente il dominio della funzione f(x, y) = y 2 x 2 Trovare gli eventuali punti stazionari e gli estremi di f Il dominio della funzione è dato da dom
DettagliINTERPOLAZIONE. Introduzione
Introduzione INTERPOLAZIONE Quando ci si propone di indagare sperimentalmente la legge di un fenomeno, nel quale intervengono due grandezze x, y simultaneamente variabili, e una dipendente dall altra,
DettagliR - Esercitazione 6. Andrea Fasulo Venerdì 22 Dicembre Università Roma Tre
R - Esercitazione 6 Andrea Fasulo fasulo.andrea@yahoo.it Università Roma Tre Venerdì 22 Dicembre 2017 Il modello di regressione lineare semplice (I) Esempi tratti da: Stock, Watson Introduzione all econometria
DettagliSCOPO DELL ANALISI DI CORRELAZIONE
CORRELAZIONE 1 SCOPO DELL ANALISI DI CORRELAZIONE STUDIARE LA RELAZIONE TRA DUE VARIABILI X E Y 2 diagrammi di dispersione un diagramma di dispersione (o grafico di dispersione) èuna rappresentazione grafica
DettagliIl modello di regressione
Il modello di regressione Capitolo e 3 A M D Marcello Gallucci Milano-Bicocca Lezione: II Concentti fondamentali Consideriamo ora questa ipotetica ricerca: siamo andati in un pub ed abbiamo contato quanti
DettagliRegressione e Correlazione (cap. 11) Importazione dati da file di testo
Regressione e Correlazione (cap. 11) Importazione dati da file di testo Introduzione Nella statistica applicata si osserva la relazione (dipendenza) tra due o più grandezze. Esigenza: determinare una funzione
DettagliCampo di Variazione Costituisce la misura di
Statistica2 22/09/2015 I Parametri di dispersione Campo di Variazione Costituisce la misura di PESO ALLA NASCITA DEI BOVINI matricola PESO SESSO 7 38,00 F 8 38,00 F 1 40,00 F 2 40,00 F 5 40,00 F 10 42,00
Dettagli1 Polinomio di Taylor 1. 2 Formula di Taylor 2. 3 Alcuni sviluppi notevoli 2. 4 Uso della formula di Taylor nel calcolo dei limiti 4
1 POLINOMIO DI TAYLOR 1 Formula di Taylor Indice 1 Polinomio di Taylor 1 Formula di Taylor 3 Alcuni sviluppi notevoli 4 Uso della formula di Taylor nel calcolo dei iti 4 5 Soluzioni degli esercizi 6 La
DettagliANALISI DELLE SERIE STORICHE
ANALISI DELLE SERIE STORICHE De Iaco S. s.deiaco@economia.unile.it UNIVERSITÀ del SALENTO DIP.TO DI SCIENZE ECONOMICHE E MATEMATICO-STATISTICHE FACOLTÀ DI ECONOMIA 24 settembre 2012 Indice 1 Funzione di
DettagliMetodi per la riduzione della dimensionalità. Strumenti quantitativi per la gestione
Metodi per la riduzione della dimensionalità Strumenti quantitativi per la gestione Emanuele Taufer file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/6c_pca.html#(1) 1/25 Introduzione Gli approcci
Dettaglitabelle grafici misure di
Statistica Descrittiva descrivere e riassumere un insieme di dati in maniera ordinata tabelle grafici misure di posizione dispersione associazione Misure di posizione Forniscono indicazioni sull ordine
DettagliStatistica. Esercitazione 16. Alfonso Iodice D Enza iodicede@unicas.it. Università degli studi di Cassino. Statistica. A. Iodice
Esercitazione 16 Alfonso Iodice D Enza iodicede@unicas.it Università degli studi di Cassino () 1 / 24 Studio della relazione tra due variabili Commonly Asked Questions Qual è la relazione tra la spesa
DettagliI. Foglio di esercizi su vettori linearmente dipendenti e linearmente indipendenti. , v 2 = α v 1 + β v 2 + γ v 3. α v 1 + β v 2 + γ v 3 = 0. + γ.
ESERCIZI SVOLTI DI ALGEBRA LINEARE (Sono svolti alcune degli esercizi proposti nei fogli di esercizi su vettori linearmente dipendenti e vettori linearmente indipendenti e su sistemi lineari ) I. Foglio
DettagliCorsi di Laurea in Scienze Biologiche Prova scritta di Informatica e Statistica Generale (A). 05/07/2006
Corsi di Laurea in Scienze Biologiche Prova scritta di Informatica e Statistica Generale (A). 0/07/006 COGNOME NOME MATRICOLA.) Sia {x, x,..., x n } IR una popolazione statistica numerica relativa ad una
Dettagli()Probablità, Statistica e Processi Stocastici
Probablità, Statistica e Processi Stocastici Serie storiche (verso fpca) La tecnica chiamata fpca (functional PCA) esamina serie storiche utilizzando paradigmi propri di PCA. E utile premettere un po di
DettagliGenerazione di Numeri Casuali- Parte 2
Esercitazione con generatori di numeri casuali Seconda parte Sommario Trasformazioni di Variabili Aleatorie Trasformazione non lineare: numeri casuali di tipo Lognormale Trasformazioni affini Numeri casuali
DettagliPAROLE CHIAVE Accuratezza, Accuracy, Esattezza, PRECISIONE, Precision, Ripetibilità, Affidabilità, Reliability, Scarto quadratico medio (sqm), Errore
PAROLE CHIAVE Accuratezza, Accuracy, Esattezza, PRECISIONE, Precision, Ripetibilità, Affidabilità, Reliability, Scarto quadratico medio (sqm), Errore medio, Errore quadratico medio (eqm), Deviazione standard,
DettagliMassimi e minimi relativi in R n
Massimi e minimi relativi in R n Si consideri una funzione f : A R, con A R n, e sia x A un punto interno ad A. Definizione: si dice che x è un punto di massimo relativo per f se B(x, r) A tale che f(y)
DettagliCorso di Laurea in Ingegneria Informatica e Automatica (M-Z) Università di Roma La Sapienza
Corso di Laurea in Ingegneria Informatica e Automatica (M-Z) Università di Roma La Sapienza CALCOLO DELLE PROBABILITÀ E STATISTICA ESAME DEL 16/06/2016 NOME: COGNOME: MATRICOLA: Esercizio 1 Cinque lettere
DettagliSTATISTICA (2) ESERCITAZIONE Dott.ssa Antonella Costanzo
STATISTICA (2) ESERCITAZIONE 7 11.03.2014 Dott.ssa Antonella Costanzo Esercizio 1. Test di indipendenza tra mutabili In un indagine vengono rilevate le informazioni su settore produttivo (Y) e genere (X)
DettagliTeoria e tecniche dei test. Concetti di base
Teoria e tecniche dei test Lezione 2 2013/14 ALCUNE NOZIONI STATITICHE DI BASE Concetti di base Campione e popolazione (1) La popolazione è l insieme di individui o oggetti che si vogliono studiare. Questi
DettagliStatistica. Alfonso Iodice D Enza
Statistica Alfonso Iodice D Enza iodicede@unicas.it Università degli studi di Cassino () Statistica 1 / 33 Outline 1 2 3 4 5 6 () Statistica 2 / 33 Misura del legame Nel caso di variabili quantitative
DettagliCorso di laurea in Statistica Statistica I Esercizi sulla regressione lineare semplice
Corso di laurea in Statistica Statistica I Esercizi sulla regressione lineare semplice Esercizio 1 Efficacia di un disinfettante I dati della Tabella 1 mostrano i conteggi relativi alla presenza o meno
DettagliLa multicollinearità sorge quando c è un elevata correlazione tra due o più variabili esplicative.
Lezione 14 (a cura di Ludovica Peccia) MULTICOLLINEARITA La multicollinearità sorge quando c è un elevata correlazione tra due o più variabili esplicative. In un modello di regressione Y= X 1, X 2, X 3
DettagliREGRESSIONE lineare e CORRELAZIONE. Con variabili quantitative che si possono esprimere in un ampio ampio intervallo di valori
REGRESSIONE lineare e CORRELAZIONE Con variabili quantitative che si possono esprimere in un ampio ampio intervallo di valori Y X La NATURA e la FORZA della relazione tra variabili si studiano con la REGRESSIONE
DettagliLa regressione lineare multipla
13 La regressione lineare multipla Introduzione 2 13.1 Il modello di regressione multipla 2 13.2 L analisi dei residui nel modello di regressione multipla 9 13.3 Il test per la verifica della significatività
DettagliSommario. 2 I grafici Il sistema di coordinate cartesiane Gli istogrammi I diagrammi a torta...51
Sommario 1 I dati...15 1.1 Classificazione delle rilevazioni...17 1.1.1 Esperimenti ripetibili (controllabili)...17 1.1.2 Rilevazioni su fenomeni non ripetibili...18 1.1.3 Censimenti...19 1.1.4 Campioni...19
DettagliSperimentazioni di Fisica I mod. A Statistica - Lezione 2
Sperimentazioni di Fisica I mod. A Statistica - Lezione 2 A. Garfagnini M. Mazzocco C. Sada Dipartimento di Fisica G. Galilei, Università di Padova AA 2014/2015 Elementi di Statistica Lezione 2: 1. Istogrammi
DettagliEsame di Statistica del 19 settembre 2006 (Corso di Laurea Triennale in Biotecnologie, Università degli Studi di Padova).
Esame di Statistica del 19 settembre 2006 (Corso di Laurea Triennale in Biotecnologie, Università degli Studi di Padova). Cognome Nome Matricola Es. 1 Es. 2 Es. 3 Es. 4 Somma Voto finale Attenzione: si
DettagliCompiti tematici dai capitoli 2,3,4
Compiti tematici dai capitoli 2,3,4 a cura di Giovanni M. Marchetti 2016 ver. 0.8 1. In un indagine recente, i rispondenti sono stati classificati rispetto al sesso, lo stato civile e l area geografica
DettagliSTATISTICA 1, metodi matematici e statistici Introduzione al linguaggio R Esercitazione 7:
esercitazione 7 p. 1/13 STATISTICA 1, metodi matematici e statistici Introduzione al linguaggio R Esercitazione 7: 20-05-2004 Luca Monno Università degli studi di Pavia luca.monno@unipv.it http://www.lucamonno.it
DettagliMetodologie Quantitative
Metodologie Quantitative Concetti statistici di base II M Q Marco Perugini Milano-Bicocca 1 Laboratorio Iscrizione/Scelta Turno Laboratorio Metodologie Quantitative Turno 1: Lunedì pomeriggio Turno 2:
Dettaglilezione 10 AA Paolo Brunori
AA 2016-2017 Paolo Brunori Redditi svedesi - il dataset contiene i dati di reddito di 838 individui - il dataset contiene le variabili: sex = sesso age = età edu = anni di istruzione y_gross = reddito
Dettagli