Laboratorio di R - 3 a lezione Prof. Mauro Gasparini
|
|
- Ugo Micheli
- 7 anni fa
- Visualizzazioni
Transcript
1 Laboratorio di R - 3 a lezione Prof. Mauro Gasparini 1. Verifica di ipotesi: il test t di Student In R è disponibile la funzione t.test che effettua il test t di Student ad un campione, a due campioni e per dati appaiati. L utilizzo di tale funzione è: t.test(x, y = NULL, alternative = c("two.sided", "less", "greater"), mu = 0, paired = FALSE, var.equal = FALSE, conf.level = 0.95,...) dove: x, y : sono vettori numerici di dati; alternative: specifica l ipotesi alternativa, a seconda che si tratti di una verifica di ipotesi bilaterale o unilaterale; mu: un numero che indica il valore reale della media (o la differenza tra le medie se si sta effettuando un test a due campioni); paired: una variabile logica che indica se si vuole effettuare un test t per dati appaiati; var.equal: una variabile logica che indica se porre le varianze dei due campioni uguali fra loro; conf.level: livello di confidenza dell intervallo. Esempio: (esempio del Ross) Un gruppo di 22 volontari presso un centro di ricerca medica, viene esposto a vari tipi di virus influenzali e tenuto sotto controllo medico. Ad un campione casuale di 10 volontari viene somministrato un grammo di vitamina C quattro volte al giorno. Agli altri 12 volontari viene somministrato un placebo non distinguibile dal farmaco. I volontari vengono poi visitati spesso da un medico che non conosce la divisione in gruppi, e non appena uno di essi viene trovato guarito si registra la durata della malattia. Alla fine dell esperimento si possiedono i dati contenuti nel file es8_4_2.txt. Si può concludere che l assunzione di 4 grammi di vitamina C al giorno abbia accorciato il decorso medio della malattia? A che livello di significatività? Soluzione: Per provare l ipotesi fatta, la assumiamo come ipotesi alternativa e vediamo se rifiutiamo l ipotesi nulla corrispondente al livello di significatività desiderato. Eseguiamo quindi il seguente test: H 0 : µ vitam _ C µ placebo contro H 1 : µ vitam _ C < µ placebo supponendo che le varianze della durata della malattia nei due casi siano uguali. In R: > t.test(vitam_c, placebo, alternative = "less", paired = FALSE, var.equal = TRUE, conf.level = 0.95) Two Sample t-test data: vitam_c and placebo t = , df = 20, p-value = alternative hypothesis: true difference in means is less than 0 95 percent confidence interval: -Inf sample estimates: mean of x mean of y
2 L ipotesi nulla viene accettata solo per livelli di significatività α < = p-value; l ipotesi nulla H 0 viene dunque rifiutata ad un livello di significatività del 5%: quindi, a questo livello di significatività, i dati raccolti evidenziano un accorciamento del decorso dell influenza somministrando vitamina C. Esercizio 1: (tratto dall es del Ross, modificato) Uno scienziato che si occupa di inquinamento ambientale vuole verificare se due campioni di soluzioni in suo possesso possono provenire dalla stessa sorgente. Se fosse così, i ph delle due soluzioni dovrebbero coincidere, e per stabilire se questo sia vero, vengono fatte 10 misurazioni indipendenti per ciascuna soluzione. I dati ottenuti sono contenuti nel file es8_25.txt. a) Tali dati mostrano un apprezzabile differenza nei ph al 5% di significatività? b) Quanto vale il p-dei-dati (p-value) di questo test? Soluzione: Si vuole verificare l ipotesi: Esercizio 2: (tratto dall es del Ross) A 10 donne incinte è stata somministrata un iniezione di pitocina per stimolarne il travaglio. Le pressioni sanguigne sistoliche immediatamente prima e dopo la somministrazione sono contenute nel file es8_39.txt. Ti sembra che i dati indichino che l iniezione provochi un cambiamento della pressione sanguigna? Soluzione: Si vuole verificare l ipotesi: 2. Regressione lineare Un modello di regressione lineare può essere descritto da una variabile risposta Y e da una o più variabili esplicative X 1,, X r. La variabile Y è rappresentabile tramite la relazione: Y = β 0 + β 1 X 1 + K+ β r X r+ ε, r 1 in cui β 1,, β r sono i parametri che individuano la relazione tra Y e le variabili esplicative, ed ε è la variabile errore casuale, che rappresenta la parte di variabilità di Y non riducibile alla dipendenza da 2 X 1,, X r. Di solito, si assume che ε ~ N ( 0, σ ). Il modello di regressione lineare non impone la linearità rispetto alle variabili, ma solo rispetto ai parametri. L obiettivo è fare inferenza sui valori dei parametri β 1,, β r. Il comando di R per adattare un modello di regressione lineare è lm, che ha il seguente utilizzo: nome_modello <- lm(formula) in cui formula specifica l espressione del modello che si vuole stimare. In genere formula è esprimibile nella forma: variabile risposta ~ variabili esplicative separate da segni + Per ulteriori dettagli sull utilizzo del comando lm, si consiglia di consultare la guida di R:?lm 2
3 Il risultato della funzione lm è una lista composta da numerosi elementi che riassumono la stima del modello ed a cui si può accedere tramite il simbolo $. I principali sono: coef: stime dei parametri di regressione; residuals: residui del modello; fitted: valori stimati con il modello di regressione. Il risultato convenzionale di una analisi di regressione si ottiene con il comando summary(nome_modello). Esempio: Si considerino i dati contenuti nel file auto.txt, che contengono nella prima colonna (potenza) i cavalli di potenza di un automobile, e nella seconda colonna (consumo) i litri di carburante consumati ogni 100 km. Acquisiamo i dati con il comando: auto <- read.table( auto.txt, header = TRUE) attach(auto) Il punto di partenza è sempre un esame grafico dei dati. Il diagramma di dispersione delle due variabili si ottiene con: plot(potenza, consumo, xlab = potenza, ylab = consumo ) Le osservazioni sembrano tendenzialmente allineate lungo una retta con coefficiente angolare positivo e, a conferma di questo, il calcolo del coefficiente di correlazione tra le due variabili fornisce un valore pari a: > cor(potenza, consumo) [1] Si stima allora il modello di regressione lineare semplice consumo = b1 + b2*potenza tramite la funzione lm: > modello <- lm(consumo ~ potenza) > summary(modello) lm(formula = consumo ~ potenza) (Intercept) e-05 *** potenza e-09 *** Residual standard error: on 15 degrees of freedom Multiple R-Squared: , Adjusted R-squared: F-statistic: on 1 and 15 DF, p-value: 4.065e-09 Dal risultato dell analisi di regressione risulta che (Coefficients) il modello stimato è: consumo = *potenza. 3
4 Si può inoltre affermare che sia l intercetta sia il coefficiente angolare sono significativi individualmente, in quanto i livelli di significatività osservati associati sono praticamente nulli (Pr(> t )). Ciò è evidenziato in R da un certo numero di * : maggiore è il numero di *, maggiore è la significatività della corrispondente variabile. Nella colonna Std. Error sono riportate le stime degli scarti quadratici medi degli stimatori dei parametri del modello. Se si è interessati anche alla stima di σ 2, il valore della radice della varianza residua corretta è contenuto in Residual standard error, in questo caso pari a S 2 = Inoltre, si trova che l indice di determinazione R 2 è abbastanza elevato, pari a (Multiple R-Squared). Per sovrapporre il grafico della retta stimata al diagramma di dispersione basta eseguire i comandi grafici: plot(potenza, consumo) abline(modello$coef) Per una verifica della bontà dell adattamento al modello, si esegue un analisi dei residui. Si possono considerare i seguenti strumenti grafici: il grafico dei residui rispetto alle variabili esplicative ottenuto con il comando: resauto <- modello$residuals plot(potenza, resauto) ci permette di individuare scorrette specificazioni della dipendenza dalle variabili esplicative, come ad esempio dipendenze non lineari; il grafico dei residui contro i valori stimati ottenuto con il comando: fitauto <- modello$fitted plot(fitauto,resauto) ci permette di verificare se le ipotesi di omoschedasticità, media nulla e non correlazione dei residui sono verificate. In generale, sotto le ipotesi del modello lineare dei minimi quadrati, tali diagrammi non presentano alcun andamento particolare o sistematico. Ogni scostamento da tali ipotesi indicherà la necessità di migliorare il modello procedendo ad una sua riformulazione anche con curve di tipo non lineare o ad una trasformazione delle variabili esplicative ottenibili attraverso la famiglia. Un altro aspetto molto importante riguarda la verifica della normalità dei residui. Per verificare tale fatto possiamo utilizzare le funzioni qqnorm e qqline: qqnorm(resauto) qqline(resauto) Una volta stimato il modello di regressione e memorizzato nella variabile modello è possibile calcolare i valori predetti nel seguente modo: predict(modello): se vogliamo calcolare i valori predetti per i dati del dataframe utilizzato per stimare i coefficienti della regressione; predict(modello, new) : se vogliamo stimare i valori predetti per nuovi valori delle variabili contenuti nel dataframe new 4
5 Esercizio 3: I dati contenuti nel file esercizio_3.txt riportano le temperature (gradi Fahrenheit) di ebollizione dell acqua relative a diversi valori della pressione della pressione atmosferica (mmhg). Si desidera individuare un modello di regressione appropriato per descrivere la relazione esistente fra le variabili temperatura e pressione. 3. Regressione lineare multipla Vediamo ora come si estendono i risultati ottenuti nel caso della regressione lineare semplice al caso della regressione lineare multipla, cioè quando invece di basarsi solo su una variabile indipendente se ne utilizzano diverse. Esempio: Si considerino i dati contenuti nel file benzina.txt. Le variabili rilevate sono: y: percentuale di benzina ottenuta dal petrolio greggio; x2: gravità del petrolio greggio ( API); x3: pressione del petrolio greggio (lbs/in 2 ); x4: temperatura alla quale il 10% del petrolio si vaporizza ( F); x5: temperatura alla quale tutto il petrolio si vaporizza ( F). Si desidera trovare un buon modello per spiegare la percentuale di benzina ottenuta y in funzione delle quattro variabili disponibili. Acquisiamo i dati: benzina <- read.table( benzina.txt, header = TRUE) attach(benzina) Per la scelta del modello di regressione multipla che descrive y in funzione delle quattro variabili esplicative disponibili, conviene in primo luogo analizzare i diagrammi di dispersione: par(mfrow = c(2,2)) plot(x2,y) title( (1) ) plot(x3,y) title( (2) ) plot(x4,y) title( (3) ) plot(x5,y) title( (4) ) Mentre sembra evidente un legame lineare tra la variabile risposta y e x5, non altrettanto si può dire riguardo il legame tra y e le altre tre variabili esplicative. Tuttavia, poiché si desidera individuare il modello di regressione più appropriato, si inizia stimando il modello di regressione lineare completo: Y = β + β X + β X + β X + β > modello <- lm(y ~ x2 + x3 + x4 + x5) > summary(modello) lm(formula = y ~ x2 + x3 + x4 + x5) X
6 (Intercept) x * x x e-05 *** x < 2e-16 *** Residual standard error: on 27 degrees of freedom Multiple R-Squared: , Adjusted R-squared: F-statistic: on 4 and 27 DF, p-value: < 2.2e-16 Dall analisi di regressione risulta che almeno due parametri, l intercetta β 1 e il coefficiente β 3, non sono significativi. Si prova ad eliminare dal modello la variabile x3; stimando il nuovo modello di regressione si trova: > modello_1 <- lm(y ~ x2 + x4 + x5) > summary(modello_1) lm(formula = y ~ x2 + x4 + x5) (Intercept) x * x e-12 *** x < 2e-16 *** Residual standard error: on 28 degrees of freedom Multiple R-Squared: 0.959, Adjusted R-squared: F-statistic: on 3 and 28 DF, p-value: < 2.2e-16 La sintesi prodotta suggerisce che anche la variabile x2 potrebbe essere eliminata; la sua eliminazione porta a: > modello_2 <- lm(y ~ x4 + x5) > summary(modello_2) lm(formula = y ~ x4 + x5) (Intercept) e-06 *** x e-16 *** x < 2e-16 *** 6
7 Residual standard error: on 29 degrees of freedom Multiple R-Squared: , Adjusted R-squared: F-statistic: on 2 and 29 DF, p-value: < 2.2e-16 Risulta che il modello stimato è: y = *x *x5 con un indice di determinazione R 2 = Per una verifica della bontà di adattamento del modello si esegue un analisi dei residui. I cinque numeri forniti da summary(modello_2) non evidenziano notevoli asimmetrie. Quindi, si considerano il diagramma di dispersione dei residui in funzione dei valori stimati e il diagramma Q- Q normale: res_modello_2 <- modello_2$residuals fit_modello_2 <- modello_2$fitted par(mfrow = c(1,2)) plot(fit_modello_2, res_modello_2) qqnorm(res_modello_2) qqline(res_modello_2) I grafici ottenuti non sembrano evidenziare andamenti sistematici. Concludendo, il modello: y = *x *x5 è nel complesso abbastanza soddisfacente per spiegare le percentuali di benzina ottenuta dal petrolio greggio a partire dalle variabili disponibili. 3. Regressione polinomiale Esempio: Si considerino i dati contenuti nel file censimento.txt, che riportano i dati del censimento degli Stati Uniti (in milioni di persone). Il valore per l anno 19 è di milioni di persone, ma non lo includeremo nella lista perché ce ne serviremo per verificare con quale precisione l equazione interpolante è in grado di prevederlo. 7
8 dati <- read.table('censimento.txt', header = TRUE) attach(dati) plot(anno, popopolazione) > modello <- lm(popolazione ~ anno) > summary(modello) lm(formula = popolazione ~ anno) (Intercept) *** anno e-11 *** Residual standard error: on 16 degrees of freedom Multiple R-Squared: , Adjusted R-squared: F-statistic: on 1 and 16 DF, p-value: 1.882e-11 Risulta che il modello stimato è: popolazione = *anno con un indice di determinazione R 2 = Sovrapponiamo al diagramma di dispersione la retta di regressione lineare così ottenuta: win.graph() plot(anno,popolazione) abline(modello$coef) Per una verifica della bontà di adattamento del modello si esegue un analisi dei residui. I cinque numeri forniti da summary(modello) evidenziano asimmetrie. Si considerano il diagramma di dispersione dei residui in funzione dei valori stimati e il diagramma Q-Q normale: res_modello <- modello$residuals win.graph() par(mfrow = c(1,2)) plot(anno, res_modello) qqnorm(res_modello) qqline(res_modello) 8
9 Si nota una forte regolarità nei residui, che sono prima decrescenti e poi crescenti all aumentare dell ingresso. Questo di solito significa che per descrivere la relazione tra ingresso e risposta si rendono necessari termini di grado più elevato (rispetto a quelli lineari), e ciò in questo caso è ben visibile anche dal diagramma di dispersione dei dati (i quali, più che una retta, sembrano seguire una parabola). Visti anche i discostamenti nel Q-Q plot, vediamo se esiste un modello migliore per descrivere la relazione tra l anno del censimento e la popolazione; proviamo con una trasformazione non lineare della variabile esplicativa. Si sceglie, ad esempio, una relazione del tipo anno^2: > modello_1 <- lm(popolazione ~ I(anno^2)) > summary(modello_1) lm(formula = popolazione ~ I(anno^2)) (Intercept) e-06 *** I(anno^2) < 2e-16 *** Residual standard error: on 16 degrees of freedom Multiple R-Squared: , Adjusted R-squared: F-statistic: 1.007e+04 on 1 and 16 DF, p-value: < 2.2e-16 Risulta che il modello stimato è: popolazione = *anno^2 con un indice di determinazione molto alto (R 2 = ). Sovrapponiamo al diagramma di dispersione la retta di regressione lineare così ottenuta: stime <- modello_1$coef win.graph() plot(anno,popolazione) lines ( anno, stime[1] + stime [2] * anno^2, type="l") Si considerano il diagramma di dispersione dei residui in funzione dei valori stimati e il diagramma Q-Q normale: res_modello_1 <- modello_1$residuals fit_modello_1 <- modello_1$fitted win.graph() par(mfrow = c(1,2)) plot(fit_modello_1, res_modello_1) qqnorm(res_modello_1) qqline(res_modello_1) 9
10 Il modello: popolazione = *anno^2 risulta quindi soddisfacente per descrivere il legame tra l anno e la popolazione residente negli Stati Uniti. Se ora vogliamo prevedere la popolazione per l anno 19: > new <- data.frame ( anno = 19 ) > predict(modello_1, new, se.fit = TRUE) $fit [1] $se.fit [1] $df [1] 16 $residual.scale [1] La stima per la popolazione residente è di milioni di persone; notiamo quindi come l equazione interpolante è in grado di prevedere la popolazione, dato che nella realtà il valore per l anno 19 è di milioni di persone. 10
Il modello di regressione (VEDI CAP 12 VOLUME IEZZI, 2009)
Il modello di regressione (VEDI CAP 12 VOLUME IEZZI, 2009) Quesito: Posso stimare il numero di ore passate a studiare statistica sul voto conseguito all esame? Potrei calcolare il coefficiente di correlazione.
Dettagliiovanella@disp.uniroma2.it http://www.disp.uniroma2.it/users/iovanella Verifica di ipotesi
iovanella@disp.uniroma2.it http://www.disp.uniroma2.it/users/iovanella Verifica di ipotesi Idea di base Supponiamo di avere un idea del valore (incognito) di una media di un campione, magari attraverso
Dettagli0.1 Percorrenza e Cilindrata
0.1 Percorrenza e Cilindrata Iniziamo ora un analisi leggermente più complessa basata sempre sui concetti appena introdotti. Innanzi tutto possiamo osservare, dal grafico ottenuto con il comando pairs,
DettagliLABORATORIO DI PROBABILITA E STATISTICA
UNIVERSITA DEGLI STUDI DI VERONA LABORATORIO DI PROBABILITA E STATISTICA Docente: Bruno Gobbi Corso di laurea in Informatica e Bioinformatica 8 VERIFICA DI IPOTESI LA VERIFICA DI IPOTESI Una delle applicazioni
DettagliStatistica. Capitolo 12. Regressione Lineare Semplice. Cap. 12-1
Statistica Capitolo 1 Regressione Lineare Semplice Cap. 1-1 Obiettivi del Capitolo Dopo aver completato il capitolo, sarete in grado di: Spiegare il significato del coefficiente di correlazione lineare
DettagliEsercizio 1 GRAFICO 1. X e Y sono indipendenti. X e Y non sono correlate. La correlazione tra X e Y è <1. X e Y sono perfettamente correlate
Esercizio 1 Osservare il grafico 1 riportato in figura che mette in relazione una variabile dipendente Y ed una variabile indipendente X e rispondere alle seguenti domande. 400 300 200 GRAFICO 1 100 0
Dettagli> RSS <- c(rs,ss) Per avere un idea di come sono distribuiti i dati (simmetria, dispersione... ):
Laboratorio 7 Test t di Student 7.1 Analisi del dataset FRUITFLY.DAT I dati fruitfly.dat si riferiscono alla fecondità dei moschini della frutta, valutata come numero medio giornaliero di uova prodotte
DettagliSTATISTICA A K (60 ore)
STATISTICA A K (60 ore) Marco Riani mriani@unipr.it http://www.riani.it Richiami sulla regressione Marco Riani, Univ. di Parma 1 MODELLO DI REGRESSIONE y i = a + bx i + e i dove: i = 1,, n a + bx i rappresenta
DettagliStatistica multivariata Donata Rodi 17/10/2016
Statistica multivariata Donata Rodi 17/10/2016 Quale analisi? Variabile Dipendente Categoriale Continua Variabile Indipendente Categoriale Chi Quadro ANOVA Continua Regressione Logistica Regressione Lineare
Dettaglii dati escludono vi sia una relazione tra variabile indipendente e variabile dipendente (rispettivamente
TEST DI AUTOVALUTAZIONE - SETTIMANA 6 I diritti d autore sono riservati. Ogni sfruttamento commerciale non autorizzato sarà perseguito. Metodi statistici per la biologia Parte A. La retta di regressione.2
DettagliR - Esercitazione 6. Andrea Fasulo Venerdì 22 Dicembre Università Roma Tre
R - Esercitazione 6 Andrea Fasulo fasulo.andrea@yahoo.it Università Roma Tre Venerdì 22 Dicembre 2017 Il modello di regressione lineare semplice (I) Esempi tratti da: Stock, Watson Introduzione all econometria
DettagliREGRESSIONE lineare e CORRELAZIONE. Con variabili quantitative che si possono esprimere in un ampio ampio intervallo di valori
REGRESSIONE lineare e CORRELAZIONE Con variabili quantitative che si possono esprimere in un ampio ampio intervallo di valori Y X La NATURA e la FORZA della relazione tra variabili si studiano con la REGRESSIONE
DettagliData Mining. Prova parziale del 20 aprile 2017: SOLUZIONE
Università degli Studi di Padova Corso di Laurea Magistrale in Informatica a.a. 2016/2017 Data Mining Docente: Annamaria Guolo Prova parziale del 20 aprile 2017: SOLUZIONE ISTRUZIONI: La durata della prova
DettagliVariabili indipendenti qualitative. In molte applicazioni si rende necessario l introduzione di un fattore a due o più livelli.
Variabili indipendenti qualitative Di solito le variabili nella regressione sono variabili continue In molte applicazioni si rende necessario l introduzione di un fattore a due o più livelli Ad esempio:
DettagliSTATISTICA 1, metodi matematici e statistici Introduzione al linguaggio R Esercitazione 7:
esercitazione 7 p. 1/13 STATISTICA 1, metodi matematici e statistici Introduzione al linguaggio R Esercitazione 7: 20-05-2004 Luca Monno Università degli studi di Pavia luca.monno@unipv.it http://www.lucamonno.it
DettagliCapitolo 8. Intervalli di confidenza. Statistica. Levine, Krehbiel, Berenson. Casa editrice: Pearson. Insegnamento: Statistica
Levine, Krehbiel, Berenson Statistica Casa editrice: Pearson Capitolo 8 Intervalli di confidenza Insegnamento: Statistica Corso di Laurea Triennale in Economia Dipartimento di Economia e Management, Università
DettagliDAL CAMPIONE ALLA POPOLAZIONE: LA STIMA DEI PARAMETRI
DAL CAMPIONE ALLA POPOLAZIONE: LA STIMA DEI PARAMETRI Andrea Onofri Dipartimento di Scienze Agrarie ed Ambientali Università degli Studi di Perugia Versione on-line: http://www.unipg.it/ onofri/rtutorial/index.html
DettagliFac-simile prova di esame
UNIVERSITÀ CA FOSCARI DI VENEZIA FACOLTÀ DI ECONOMIA Statistica Computazionale I Prof. Stefano Tonellato COGNOME.................................... NOME.................................... MATRICOLA....................................
DettagliTest per la correlazione lineare
10 Test per la correlazione lineare Istituzioni di Matematica e Statistica 2015/16 E. Priola 1 Introduzione alla correlazione lineare Problema: In base ai dati che abbiamo possiamo dire che c è una qualche
DettagliRegressione Lineare Semplice e Correlazione
Regressione Lineare Semplice e Correlazione 1 Introduzione La Regressione è una tecnica di analisi della relazione tra due variabili quantitative Questa tecnica è utilizzata per calcolare il valore (y)
DettagliLABORATORIO DI PROBABILITA E STATISTICA
UNIVERSITA DEGLI STUDI DI VERONA LABORATORIO DI PROBABILITA E STATISTICA Docente: Bruno Gobbi 6 ESERCIZI RIEPILOGATIVI PRIME 3 LEZIONI REGRESSIONE LINEARE: SPORT - COLESTEROLO ESERCIZIO 8: La tabella seguente
DettagliAnalisi grafica residui in R. Da output grafico analisi regressionelm1.csv Vedi dispensa. peso-statura
Analisi grafica residui in R Da output grafico analisi regressionelm1.csv Vedi dispensa peso-statura 1) Il plot in alto a sinistra mostra gli errori residui contro i loro valori stimati. I residui devono
DettagliTest F per la significatività del modello
Test F per la significatività del modello Per verificare la significatività dell intero modello si utilizza il test F Si vuole verificare l ipotesi H 0 : β 1 = 0,, β k = 0 contro l alternativa che almeno
DettagliMetodi statistici per l economia (Prof. Capitanio) Slide n. 10. Materiale di supporto per le lezioni. Non sostituisce il libro di testo
Metodi statistici per l economia (Prof. Capitanio) Slide n. 10 Materiale di supporto per le lezioni. Non sostituisce il libro di testo 1 REGRESSIONE LINEARE Date due variabili quantitative, X e Y, si è
DettagliStatistica. Alfonso Iodice D Enza
Statistica Alfonso Iodice D Enza iodicede@unicas.it Università degli studi di Cassino () Statistica 1 / 33 Outline 1 2 3 4 5 6 () Statistica 2 / 33 Misura del legame Nel caso di variabili quantitative
DettagliEsercizi di statistica
Esercizi di statistica Test a scelta multipla (la risposta corretta è la prima) [1] Il seguente campione è stato estratto da una popolazione distribuita normalmente: -.4, 5.5,, -.5, 1.1, 7.4, -1.8, -..
DettagliEsercitazione 5 - Statistica (parte II) Davide Passaretti 9/3/2017
Esercitazione 5 - Statistica (parte II) Davide Passaretti 9/3/2017 Contents 1 Inferenza sulla regressione semplice 1 1.1 Test sulla pendenza della retta................................... 1 1.2 Test sull
Dettaglilezione n. 6 (a cura di Gaia Montanucci) Verosimiglianza: L = = =. Parte dipendente da β 0 e β 1
lezione n. 6 (a cura di Gaia Montanucci) METODO MASSIMA VEROSIMIGLIANZA PER STIMARE β 0 E β 1 Distribuzione sui termini di errore ε i ε i ~ N (0, σ 2 ) ne consegue : ogni y i ha ancora distribuzione normale,
DettagliTest d ipotesi sulla media
Test d ipotesi sulla media Silvia Parolo 12 December 2014 Riassumendo l esercitazione precedente Nella lezione precedente abbiamo visto che la media campionaria può essere un buon stimatore del valore
DettagliStatistica. Alfonso Iodice D Enza
Statistica Alfonso Iodice D Enza iodicede@gmail.com Università degli studi di Cassino () Statistica 1 / 24 Outline 1 2 3 4 5 () Statistica 2 / 24 Dipendenza lineare Lo studio della relazione tra caratteri
DettagliStatistica Applicata all edilizia: il modello di regressione
Statistica Applicata all edilizia: il modello di regressione E-mail: orietta.nicolis@unibg.it 27 aprile 2009 Indice Il modello di Regressione Lineare 1 Il modello di Regressione Lineare Analisi di regressione
Dettagli1. Esistono differenze nella resistenza tra le varie marche?
Laboratorio 10 Analisi della varianza 10.1 Analisi del dataset STURDY.DAT I dati riportati nel file sturdy.dat si riferiscono ad un esperimento effettuato per studiare la resistenza allo strappo di diverse
DettagliZ-test, T-test, χ 2 -test
Z-test, T-test, χ 2 -test Francesco Corrias Chiara Todaro DIMA 13 febbraio 2012 Francesco Corrias Chiara Todaro (DIMA) Z-test, T-test, χ 2 -test 13 febbraio 2012 1 / 19 Verifica d ipotesi Definizione (Test
DettagliEsame di Statistica del 19 settembre 2006 (Corso di Laurea Triennale in Biotecnologie, Università degli Studi di Padova).
Esame di Statistica del 19 settembre 2006 (Corso di Laurea Triennale in Biotecnologie, Università degli Studi di Padova). Cognome Nome Matricola Es. 1 Es. 2 Es. 3 Es. 4 Somma Voto finale Attenzione: si
DettagliRegressione Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007
Regressione Esempio Un azienda manifatturiera vuole analizzare il legame che intercorre tra il costo mensile Y di produzione e il corrispondente volume produttivo X per uno dei propri stabilimenti. Volume
DettagliDispensa di Statistica
Dispensa di Statistica 1 parziale 2012/2013 Diagrammi... 2 Indici di posizione... 4 Media... 4 Moda... 5 Mediana... 5 Indici di dispersione... 7 Varianza... 7 Scarto Quadratico Medio (SQM)... 7 La disuguaglianza
DettagliEsercizi su distribuzioni doppie, dipendenza, correlazione e regressione (Statistica I, IV Canale)
Esercizi su distribuzioni doppie, dipendenza, correlazione e regressione (Statistica I, IV Canale) Esercizio 1: Un indagine su 10.000 famiglie ha dato luogo, fra le altre, alle osservazioni riportate nella
DettagliIn via preliminare, confrontiamo la distribuzione del peso del cuore nei due sessi.
Laboratorio 12 Analisi della covarianza 12.1 Analisi del dataset CATS.DAT I dati contenuti nel file cats.dat presentano il peso del corpo ed il peso del cuore di alcuni gatti di sesso femminile (1) e maschile
DettagliStatistica. Alfonso Iodice D Enza
Statistica Alfonso Iodice D Enza iodicede@unina.it Università degli studi di Cassino () Statistica 1 / 1 Outline 1 () Statistica 2 / 1 Outline 1 2 () Statistica 2 / 1 Outline 1 2 3 () Statistica 2 / 1
DettagliCognome e Nome:... Matricola e corso di laurea:...
Statistica - corso base Prof. B. Liseo Prova di esame dell 8 gennaio 2014 Cognome e Nome:................................................................... Matricola e corso di laurea:...................................................
DettagliIl modello di regressione lineare multipla. Il modello di regressione lineare multipla
Introduzione E la generalizzazione del modello di regressione lineare semplice: per spiegare il fenomeno d interesse Y vengono introdotte p, con p > 1, variabili esplicative. Tale generalizzazione diventa
DettagliLaboratorio di Statistica Aziendale Modello di regressione lineare semplice
Laboratorio di Statistica Aziendale Modello di regressione lineare semplice Dott.ssa Michela Pasetto michela.pasetto2@unibo.it Caricamento del dataset Il dataset SalesData si trova nella cartella condivisa
DettagliRICHIAMI DI STATISTICA DESCRITTIVA E DI INFERENZA: LA VERIFICA DI IPOTESI: TEST BASATI SU UN CAMPIONE
RICHIAMI DI STATISTICA DESCRITTIVA E DI INFERENZA: LA VERIFICA DI IPOTESI: TEST BASATI SU UN CAMPIONE 1 La verifica di ipotesi Finora abbiamo visto come si utilizza una statistica campionaria per stimare
DettagliLABORATORIO DI PROBABILITA E STATISTICA
UNIVERSITA DEGLI STUDI DI VERONA LABORATORIO DI PROBABILITA E STATISTICA Docente: Bruno Gobbi Corso di laurea in Informatica e Bioinformatica 4 ESERCIZI RIEPILOGATIVI PRIME 3 LEZIONI 1 - STATISTICA DESCRITTIVA
DettagliRegressione lineare semplice
Regressione lineare semplice Strumenti quantitativi per la gestione Emanuele Taufer Regressione lineare (RL) La regressione lineare per i dati Advertising Analisi d interesse Regressione lineare semplice
DettagliSTATISTICA (2) ESERCITAZIONE Dott.ssa Antonella Costanzo
STATISTICA (2) ESERCITAZIONE 7 11.03.2014 Dott.ssa Antonella Costanzo Esercizio 1. Test di indipendenza tra mutabili In un indagine vengono rilevate le informazioni su settore produttivo (Y) e genere (X)
DettagliESERCIZI. Regressione lineare semplice CAPITOLO 12 Levine, Krehbiel, Berenson, Statistica II ed., 2006 Apogeo
Insegnamento: Statistica Corso di Laurea Triennale in Ingegneria Gestionale Facoltà di Ingegneria, Università di Padova Docenti: Prof. L. Salmaso, Dott. L. Corain ESERCIZI Regressione lineare semplice
DettagliTest delle Ipotesi Parte I
Test delle Ipotesi Parte I Test delle Ipotesi sulla media Introduzione Definizioni basilari Teoria per il caso di varianza nota Rischi nel test delle ipotesi Teoria per il caso di varianza non nota Test
DettagliSTATISTICA ESERCITAZIONE 13
STATISTICA ESERCITAZIONE 13 Dott. Giuseppe Pandolfo 9 Marzo 2015 Errore di I tipo: si commette se l'ipotesi nulla H 0 viene rifiutata quando essa è vera Errore di II tipo: si commette se l'ipotesi nulla
DettagliEsercitazione del
Esercizi sulla regressione lineare. Esercitazione del 21.05.2013 Esercizio dal tema d esame del 13.06.2011. Si consideri il seguente campione di n = 9 osservazioni relative ai caratteri ed Y: 7 17 8 36
DettagliRegressione lineare semplice
Regressione lineare semplice Prof. Giuseppe Verlato Sezione di Epidemiologia e Statistica Medica, Università di Verona Statistica con due variabili var. nominale, var. nominale: gruppo sanguigno - cancro
Dettagli3.1 Classificazione dei fenomeni statistici Questionari e scale di modalità Classificazione delle scale di modalità 17
C L Autore Ringraziamenti dell Editore Elenco dei simboli e delle abbreviazioni in ordine di apparizione XI XI XIII 1 Introduzione 1 FAQ e qualcos altro, da leggere prima 1.1 Questo è un libro di Statistica
DettagliLABORATORIO 5. ANALISI DELLA VARIANZA AD UN CRITERIO DI CLASSIFICAZIONE
LABORATORIO 5. ANALISI DELLA VARIANZA AD UN CRITERIO DI CLASSIFICAZIONE 5.1 ESEMPIO DI ANOVA AD UNA VIA In un esperimento un gruppo di bambini è stato assegnato a caso a 3 trattamenti, allo scopo di determinare
DettagliOgni misura è composta di almeno tre dati: un numero, un'unità di misura, un'incertezza.
Ogni misura è composta di almeno tre dati: un numero, un'unità di misura, un'incertezza. Misure ripetute forniscono dati numerici distribuiti attorno ad un valore centrale indicabile con un indice (indice
DettagliEsercizio 8. Ne segue, ovviamente che le aree geografiche di riferimento sono Africa e America del Sud.
Esercizio 8 La Swiss Economic Research della Union Bank of Switzerland conduce un controllo periodico dei livelli dei prezzi e dei salari nella principali città del mondo. Una delle variabili rilevate
DettagliCorso integrato di informatica, statistica e analisi dei dati sperimentali Esercitazione VII
Corso integrato di informatica, statistica e analisi dei dati sperimentali Esercitazione VII Un breve richiamo sul test t-student Siano A exp (a 1, a 2.a n ) e B exp (b 1, b 2.b m ) due set di dati i cui
DettagliProva Scritta di METODI STATISTICI PER L AMMINISTRAZIONE DELLE IMPRESE (Milano, )
Università degli Studi di Milano Bicocca Scuola di Economia e Statistica Corso di Laurea in Economia e Amministrazione delle Imprese (ECOAMM) Prova Scritta di METODI STATISTICI PER L AMMINISTRAZIONE DELLE
DettagliCAPITOLO 11 ANALISI DI REGRESSIONE
VERO FALSO CAPITOLO 11 ANALISI DI REGRESSIONE 1. V F Se c è una relazione deterministica tra due variabili,x e y, ogni valore dato di x,determinerà un unico valore di y. 2. V F Quando si cerca di scoprire
Dettagli0 altimenti 1 soggetto trova lavoroentro 6 mesi}
Lezione n. 16 (a cura di Peluso Filomena Francesca) Oltre alle normali variabili risposta che presentano una continuità almeno all'interno di un certo intervallo di valori, esistono variabili risposta
DettagliREGRESSIONE E CORRELAZIONE
REGRESSIONE E CORRELAZIONE Nella Statistica, per studio della connessione si intende la ricerca di eventuali relazioni, di dipendenza ed interdipendenza, intercorrenti tra due variabili statistiche 1.
Dettagli> cement <- read.table("i:/modelli/cement.dat", col.names=c("tempo", "resist")) > attach(cement)
Laboratorio 6 Analisi dei residui 6.1 Analisi dei dati CEMENT.DAT I dati riportati nel file cement.dat si riferiscono ad uno studio sulla resistenza del cemento alla tensione. La resistenza dipende, tra
DettagliESAME. 9 Gennaio 2017 COMPITO B
ESAME 9 Gennaio 2017 COMPITO B Cognome Nome Numero di matricola 1) Approssimare tutti i calcoli alla quarta cifra decimale. 2) Ai fini della valutazione si terrà conto solo ed esclusivamente di quanto
DettagliStima dei parametri di modelli lineari
Stima dei parametri di modelli lineari Indice Introduzione................................ 1 Il caso studio................................ 2 Stima dei parametri............................ 3 Bontà delle
DettagliUso elementare di R in Statistica G. Marchetti
Uso elementare di R in Statistica G. Marchetti Lezione 1 Introduzione R è un ambiente statistico di pubblico dominio. Il software è libero e può essere scaricato dal sito https: //cran.r-project.org/.
DettagliGiorno n. clienti di attesa
Esercizio 1 Un aspetto cruciale per la qualità del servizio ai clienti in un supermercato è il cosiddetto checkout (ovvero il tempo che il cliente impiega dal momento in cui si mette in fila alla cassa
DettagliRegressione lineare multipla CORSO DI ANALISI DEI DATI Anno Accademico 2009/2010, I ciclo
Regressione lineare multipla CORSO DI ANALISI DEI DATI Anno Accademico 2009/2010, I ciclo 1 Controllo di ipotesi sui parametri In questo contesto risulta necessario avvalersi dell assunzione di normalita
DettagliAnalisi descrittiva: calcolando medie campionarie, varianze campionarie e deviazioni standard campionarie otteniamo i dati:
Obiettivi: Esplicitare la correlazione esistente tra l altezza di un individuo adulto e la lunghezza del suo piede e del suo avambraccio. Idea del progetto: Il progetto nasce dall idea di acquistare scarpe
DettagliANOVA 2. Monica Marabelli. 15 Gennaio 2016
ANOVA 2 Monica Marabelli 15 Gennaio 2016 ANOVA a una via Nella scorsa esercitazione abbiamo visto che nell Analisi della Varianza (ANOVA) si considerano le medie di una variabile dipendente (quantitativa)
DettagliEsame di Statistica (10 o 12 CFU) CLEF 11 febbraio 2016
Esame di Statistica 0 o CFU) CLEF febbraio 06 Esercizio Si considerino i seguenti dati, relativi a 00 clienti di una banca a cui è stato concesso un prestito, classificati per età e per esito dell operazione
DettagliLa multicollinearità sorge quando c è un elevata correlazione tra due o più variabili esplicative.
Lezione 14 (a cura di Ludovica Peccia) MULTICOLLINEARITA La multicollinearità sorge quando c è un elevata correlazione tra due o più variabili esplicative. In un modello di regressione Y= X 1, X 2, X 3
DettagliMODELLO DI REGRESSIONE LINEARE. le ipotesi del modello di regressione classico, stima con i metodi dei minimi quadrati e di massima verosimiglianza,
MODELLO DI REGRESSIONE LINEARE le ipotesi del modello di regressione classico, stima con i metodi dei minimi quadrati e di massima verosimiglianza, teorema di Gauss-Markov, verifica di ipotesi e test di
DettagliCase study. viene espressa in unità µmol per ora per grammo di peso secco.
Vengono studiate due specie diverse (ma dello stesso genere) di piante di interesse agronomico. In particolare, i ricercatori vogliono misurare la capacità dell'apparato radicale di tali piante di assorbire
DettagliAntonella Bodini Istituto di Matematica Applicata e Tecnologie Informatiche E. Magenes del CNR
Antonella Bodini Istituto di Matematica Applicata e Tecnologie Informatiche E. Magenes del CNR Materiale ad uso dei ricercatori che hanno seguito il corso di formazione interna in Statistica, edizione
DettagliCovarianza, correlazione e retta di regressione. Paola Lecca, CIBIO UNITN Corso di Matematica e Statistica 2
Covarianza, correlazione e retta di regressione Paola Lecca, CIBIO UNITN Corso di Matematica e Statistica 2 Questa presentazione è stata preparata attingendo dai seguenti testi S. M. Iacus, Statistica,
DettagliEsercizio 2: voto e ore dedicate allo studio
La seguente tabella riporta il voto riportato da 10 studenti all esame di Statistica Sociale e il numero di ore di lezione non seguite dallo studente (il corso prevede 30 ore di lezione). Ci si chiede
DettagliLezione 18. Statistica. Alfonso Iodice D Enza Università degli studi di Cassino. Lezione 18. A. Iodice
Statistica Alfonso Iodice D Enza iodicede@unicas.it Università degli studi di Cassino () Statistica 1 / 45 Outline 1 2 3 4 5 () Statistica 2 / 45 Modello di In molte applicazioni il ruolo delle variabili
DettagliCHEMIOMETRIA. CONFRONTO CON VALORE ATTESO (test d ipotesi) CONFRONTO DI VALORI MISURATI (test d ipotesi) CONFRONTO DI RIPRODUCIBILITA (test d ipotesi)
CHEMIOMETRIA Applicazione di metodi matematici e statistici per estrarre (massima) informazione chimica (affidabile) da dati chimici INCERTEZZA DI MISURA (intervallo di confidenza/fiducia) CONFRONTO CON
DettagliLaboratorio di Statistica 1 con R Esercizi per la Relazione. I testi e/o i dati degli esercizi contassegnati da sono tratti dai libri consigliati
Laboratorio di Statistica 1 con R Esercizi per la Relazione I testi e/o i dati degli esercizi contassegnati da sono tratti dai libri consigliati nel corso. Esercizio 1. 1. Facendo uso dei comandi
DettagliCaratterizzazione dei consumi energetici (parte 3)
ESERCITAZIONE 4 Caratterizzazione dei consumi energetici (parte 3) 4.1 CuSum: elementi di analisi statistica Il diagramma delle somme cumulate dei residui in funzione del tempo (CuSum) può essere in generale
Dettaglib) Calcolare la devianza tra i gruppi (devianza esterna), la devianza entro i gruppi (devianza interna) e la devianza totale
ESERCIZIO 1 La tendenza recente del mercato dell auto vede i veicoli SUV ed i fuoristrada sempre di più soppiantare le macchine tradizionali. Il loro utilizzo, soprattutto nei centri cittadini, viene criticato
DettagliInferenza statistica
Inferenza statistica Si tratta di un complesso di tecniche, basate sulla teoria della probabilità, che consentono di verificare se sia o no possibile trasferire i risultati ottenuti per un campione ad
DettagliPROBABILITÀ ELEMENTARE
Prefazione alla seconda edizione XI Capitolo 1 PROBABILITÀ ELEMENTARE 1 Esperimenti casuali 1 Spazi dei campioni 1 Eventi 2 Il concetto di probabilità 3 Gli assiomi della probabilità 3 Alcuni importanti
DettagliTest delle ipotesi sulla media.
. Caso di un singolo campione. Varianza nota.. Ipotesi alternativa bilaterale Test delle ipotesi sulla media. Valore medio η e deviazione standard σ della popolazione note. η è il valore stimato dal nostro
DettagliSommario. 2 I grafici Il sistema di coordinate cartesiane Gli istogrammi I diagrammi a torta...51
Sommario 1 I dati...15 1.1 Classificazione delle rilevazioni...17 1.1.1 Esperimenti ripetibili (controllabili)...17 1.1.2 Rilevazioni su fenomeni non ripetibili...18 1.1.3 Censimenti...19 1.1.4 Campioni...19
DettagliLEZIONI DI STATISTICA MEDICA
LEZIONI DI STATISTICA MEDICA Lezione n.11 - Principi dell inferenza statistica - Campionamento - Distribuzione campionaria di una media e di una proporzione - Intervallo di confidenza di una media e di
DettagliOgni misura è composta di almeno tre dati: un numero, un'unità di misura, un'incertezza.
Ogni misura è composta di almeno tre dati: un numero, un'unità di misura, un'incertezza. Corso di laurea in Tossicologia Misure ripetute forniscono dati numerici distribuiti attorno ad un valore centrale
DettagliTest d ipotesi sulla media
Test d ipotesi sulla media Monica Marabelli 4 Dicembre 2015 Riassumendo l esercitazione precedente Nella lezione precedente abbiamo visto che la media campionaria puó essere un buon stimatore del valore
DettagliCognome e Nome:... Corso di laurea:...
Statistica - corso base Prof. B. Liseo Prova di esame dell 8 gennaio 201 Cognome e Nome:................................................................... Corso di laurea:.......................................................................
DettagliUniversità del Piemonte Orientale Specializzazioni di area sanitaria Statistica Medica
Università del Piemonte Orientale Specializzazioni di area sanitaria Statistica Medica Regressione Lineare e Correlazione Argomenti della lezione Determinismo e variabilità Correlazione Regressione Lineare
DettagliStatistica 1 A.A. 2015/2016
Corso di Laurea in Economia e Finanza Statistica 1 A.A. 2015/2016 (8 CFU, corrispondenti a 48 ore di lezione frontale e 24 ore di esercitazione) Prof. Luigi Augugliaro 1 / 35 Il modello di regressione
DettagliN.B. Per la risoluzione dei seguenti esercizi, si fa riferimento alle Tabelle riportate alla fine del documento.
N.B. Per la risoluzione dei seguenti esercizi, si fa riferimento alle abelle riportate alla fine del documento. Esercizio 1 La concentrazione media di sostanze inquinanti osservata nelle acque di un fiume
Dettaglix, y rappresenta la coppia di valori relativa La rappresentazione nel piano cartesiano dei punti ( x, y ),( x, y ),...,( x, y )
Università degli Studi di Basilicata Facoltà di Economia Corso di Laurea in Economia Aziendale - a.a. 0/03 lezioni di statistica del 5 e 8 aprile 03 - di Massimo Cristallo - A. Le relazioni tra i fenomeni
DettagliConfronto fra gruppi: il metodo ANOVA. Nicola Tedesco (Statistica Sociale) Confronto fra gruppi: il metodo ANOVA 1 / 23
Confronto fra gruppi: il metodo ANOVA Nicola Tedesco (Statistica Sociale) Confronto fra gruppi: il metodo ANOVA 1 / 23 1 Nella popolazione, per ciascun gruppo la distribuzione della variabile risposta
DettagliUniversità del Piemonte Orientale Corso di Laurea in Medicina e Chirurgia. Corso di Statistica Medica. Correlazione. Regressione Lineare
Università del Piemonte Orientale Corso di Laurea in Medicina e Chirurgia Corso di Statistica Medica Correlazione Regressione Lineare Corso di laurea in medicina e chirurgia - Statistica Medica Correlazione
DettagliLaboratorio R Corso di Algebra e Modelli lineari (Anno Accademico 2011-12)
Laboratorio R Corso di Algebra e Modelli lineari (Anno Accademico 011-1) REGRESSIONE LINEARE SEMPLICE OPEN STATISTICA 8.44 Per 8 settimanali, appartenenti alla medesima fascia di prezzo e presenti in edicola
Dettaglile scale di misura scala nominale scala ordinale DIAGNOSTICA PSICOLOGICA lezione si basano su tre elementi:
DIAGNOSTICA PSICOLOGICA lezione! Paola Magnano paola.magnano@unikore.it si basano su tre elementi: le scale di misura sistema empirico: un insieme di entità non numeriche (es. insieme di persone; insieme
DettagliLEZIONI IN LABORATORIO Corso di MARKETING L. Baldi Università degli Studi di Milano. Strumenti statistici in Excell
LEZIONI IN LABORATORIO Corso di MARKETING L. Baldi Università degli Studi di Milano Strumenti statistici in Excell Pacchetto Analisi di dati Strumenti di analisi: Analisi varianza: ad un fattore Analisi
DettagliEsercitazione 8 maggio 2014
Esercitazione 8 maggio 2014 Esercizio 2 dal tema d esame del 13.01.2014 (parte II). L età media di n gruppo di 10 studenti che hanno appena conseguito la laurea triennale è di 22 anni. a) Costruire un
DettagliRACCOLTA DI STATISTICHE TEST disponibili nell ambiente R
RACCOLTA DI STATISTICHE TEST disponibili nell ambiente R Materiale integrativo relativo al Modulo I Verifica d ipotesi e stima intervallare a cura di A.R. Brazzale 1 alessandra.brazzale@isib.cnr.it 3 aprile
DettagliESERCITAZIONE IV - Soluzioni
umero di omicidi ESERCITAZIOE IV - Soluzioni Esercizio I. a),00 12,00 10,00 8,00 6,00 4,00 2,00 0,00 0 5 10 15 20 25 Popolazione povera (%) b) Poiché i due caratteri in analisi sono quantitativi per calcolare
Dettagli