ANALISI DELLA VARIANZA
|
|
|
- Cesarina Castelli
- 9 anni fa
- Visualizzazioni
Transcript
1 ANALISI DELLA VARIANZA Il data set coagulation contenuto nella libreria faraway contiene i tempi di coagulazione del sangue (misurato in secondi) di 24 animali sottoposti casualmente a quattro tipi di dieta. Dopo aver caricato la libreria, si carichi il data set con il comando: data(coagulation) coagulation coag diet 1 62 A 2 60 A...etc D D Si digiti help(coagulation) per avere ulteriori informazioni sul dataset. Il primo passo per osservare se il tipo di dieta ha un effetto sul tempo medio di coagulazione del sangue consiste nel costruire un boxplot: boxplot(coag~diet,data=coagulation) o aggiungendo i colori boxplot(coag~diet,data=coagulation,col=c('red','green','blue','yellow')) A B C D 23
2 L utilità del box-plot deriva dal fatto che una sola rappresentazione grafica si evidenziano gli aspetti principali di una distribuzione di frequenza. Il primo e terzo quartile costituiscono gli estremi della scatola del box plot la cui lunghezza è quindi rappresentata dalla differenza interquartile. La linea orizzontale all interno della scatola indica la mediana, per cui a seconda di quanto questa sarà posizionata centralmente si individueranno distribuzione più o meno simmetriche. Le due linee esterne fuori dalla scatola sono anche dette baffi e sono delimitati, rispettivamente, dai valori minimo e massimo della distribuzione. Un baffo eccessivamente lungo indica la presenza di valori anomali. Rappresentazione corner point Con il comando: g <- lm(coag ~ diet, coagulation) si stima un modello lineare in cui la variabile dipendente è il tempo di coagulazione del sangue, coag, dunque quantitativa, mentre il regressore è il fattore dieta, ovvero il carattere qualitativo diet a quattro modalità: la dieta di tipo A, B, C e D. Automaticamente la rappresentazione del modello lineare adottata è quella corner point, ovvero Y ij = µ + α i + ε ij con α 1 =0 Questo lo si può verificare attraverso il comando model.matrix che contente di visualizzare la cosiddetta matrice disegno: model.matrix(g) Per valutare la significatività del modello lineare appena costruito si utilizza il comando: summary(g) lm(formula = coag ~ diet, data = coagulation) e e e e e+00 (Intercept) 6.100e e < 2e-16 *** 24
3 dietb 5.000e e ** dietc 7.000e e *** dietd 2.991e e e Residual standard error: on 20 degrees of freedom Multiple R-Squared: , Adjusted R-squared: F-statistic: on 3 and 20 DF, p-value: 4.658e-05 Andando ad interpretare le stime dei coefficienti se ne deduce che: - la dieta B produce un effetto significativo sul tempo medio di coagulazione del sangue rispetto alla dieta A (intercetta) - la dieta C produce un effetto significativo sul tempo medio di coagulazione del sangue rispetto alla dieta A (intercetta) - la dieta D non produce un effetto significativo rispetto alla dieta A. In che direzioni? Si può affermare che rispetto alla dieta A, la dieta B produce un incremento medio del tempo di coagulazione del sangue di 5 secondi, mentre la dieta C rispetto alla dieta A provoca un incremento medio del tempo di coagulazione maggiore e pari a 7 secondi. Scomposizione della devianza Il comando anova consente di visualizzare la scomposizione della devianza in tra ed entro, nonchè tutti i calcoli necessari per il calcolo della statistica test F: anova(g) Analysis of Variance Table Response: coag Df Sum Sq Mean Sq F value Pr(>F) diet e-05 *** Residuals Rappresentazione a intercetta nulla Verifica della normalità distributiva Un metodo per verificare se la normalità distributiva della variabile risposta è valida è quello che fa riferimento all'uso delle funzioni qq. Tale ipotesi può essere investigata osservando il comportamento dei residui, poiché essi avranno la stessa forma distributiva della variabile risposta ma a differenza di questa sono riscalati rispetto alle diverse medie nei 4 gruppi. Il comando qqnorm applicato ai residui del modello costruisce un grafico in cui riporta in ordinata il valore osservato di ciascun residuo (i quantili campionari) mentre in ascissa rappresenta i valori 25
4 teorici (i quantili di popolazione) che delimitano la stessa frazione percentuale nella distribuzione normale avente ugual media (nulla) e varianza di quella campionaria. qqnorm(g$res) Se la normalità distributiva è valida i punti tendono ad allinearsi lungo la bisettrice di questo grafico. Per visualizzarne la bisettrice si digita il comando: qqline(g$res) Normal Q-Q Plot Sample Quantiles Theoretical Quantiles Verifica dell ipotesi di omoschedasticità Per verificare l ipotesi di omoschedasticità si può utilizzare il test di Levene che si costruisce in questo modo: si considera il valore assoluto dei residui come la variabile risposta di un nuovo modello anova in cui il fattore è costituito dai 4 tipi di dieta. Un eventuale coefficiente significativo indica una varianza significativamente diversa dalle altre. Di solito si valuta questo test con un coefficiente di significatività pari allo 0,01: summary(lm(abs(g$res)~coagulation$diet)) lm(formula = abs(g$res) ~ coagulation$diet) e e e e e+00 (Intercept) * coagulation$dietb
5 coagulation$dietc coagulation$dietd Residual standard error: on 20 degrees of freedom Multiple R-Squared: , Adjusted R-squared: F-statistic: on 3 and 20 DF, p-value: Analisi della varianza a due fattori Quando si hanno due fattori si deve valutare la significatività per: - l effetto del primo fattore - l effetto del secondo fattore - un possibile effetto di interazione fra i due fattori (che indica l azione sinergica dei due fattori assieme) Questi tre effetti sono additivi fra loro. Nel caso particolare in cui si abbia sempre una sola osservazione in corrispondenza dei livelli dei due fattori l effetto di interazione è nullo. Il dataset rats della libreria faraway riguarda un esperimento a cui sono stati sottoposti 48 topi per valutare l efficacia di 4 diversi trattamenti su 3 diversi agenti tossici in termini di tempo di sopravvivenza (misurato in decine di ore). Le variabili del dataset sono: 'time' survival time in tens of hours 'poison' the poison type - a factor with levels 'I' 'II' 'III' 'treat' the treatment - a factor with levels 'A' 'B' 'C' 'D' Si caricano i dati data(rats) e si effettua una analisi della varianza senza fattori di interazione: g <- lm(time ~ treat+poison, rats) summary(g) lm(formula = time ~ treat + poison, data = rats) (Intercept) e-10 *** treatb e-06 *** treatc treatd ** poisonii poisoniii e-07 *** Residual standard error: on 42 degrees of freedom 27
6 Multiple R-Squared: , Adjusted R-squared: F-statistic: on 5 and 42 DF, p-value: 1.123e-08 Invece l analisi della varianza secondo la parametrizzazione corner point con effetti di interazioni si esegue attraverso il commando: g <- lm(time ~ treat+poison+ treat*poison, rats) summary(g) lm(formula = time ~ treat + poison + treat * poison, data = rats) (Intercept) e-06 *** treatb e-05 *** treatc treatd poisonii poisoniii treatb:poisonii treatc:poisonii treatd:poisonii treatb:poisoniii * treatc:poisoniii treatd:poisoniii Residual standard error: on 36 degrees of freedom Multiple R-Squared: , Adjusted R-squared: F-statistic: 9.01 on 11 and 36 DF, p-value: 1.986e-07 La verifica delle 3 ipotesi nulle associate ai 3 effetti si ritrova attraverso il comando anova(g) Analysis of Variance Table Response: time Df Sum Sq Mean Sq F value Pr(>F) poison e-07 *** treat e-06 *** poison:treat Residuals da cui risulta che il fattore trattamento e il fattore veleno sono significativi mentre non lo è la loro interazione. La giusta interpretazione a questi risultati allora è: il tipo di veleno o agente tossico ha una influenza significativa sul tempo di sopravvivenza dei topi; il tipo di trattamento è anch esso determinante sul tempo di sopravvivenza dei topi, verosimilmente ci sarà uno (o più) trattamenti più efficace degli altri; al contrario non esiste alcuna associazione fra veleno e trattamento che abbia una azione particolare sui tempi di sopravvivenza. 28
Analisi della varianza a due fattori
Laboratorio 11 Analisi della varianza a due fattori 11.1 Analisi del dataset PENICILLIN.DAT I dati contenuti nel file penicillin.dat, si riferiscono ad un esperimento di produzione di penicillina tendente
Anova e regressione. Andrea Onofri Dipartimento di Scienze Agrarie ed Ambientali Universitá degli Studi di Perugia 22 marzo 2011
Anova e regressione Andrea Onofri Dipartimento di Scienze Agrarie ed Ambientali Universitá degli Studi di Perugia 22 marzo 2011 Nella sperimentazione agronomica e biologica in genere è normale organizzare
DIAGNOSTICA DEI RESIDUI
DIAGNOSTICA DEI RESIDUI Per valutare la bontà dei residui in un modello di regressione lineare esistono diverse possibilità, alcune di tipo esplorativo basate sulla costruzione di opportuni grafici ed
Il modello di regressione (VEDI CAP 12 VOLUME IEZZI, 2009)
Il modello di regressione (VEDI CAP 12 VOLUME IEZZI, 2009) Quesito: Posso stimare il numero di ore passate a studiare statistica sul voto conseguito all esame? Potrei calcolare il coefficiente di correlazione.
Esercitazione Statistica Computazionale B Modelli di regressione lineare semplice Verifica di ipotesi - Analisi della varianza
Esercitazione Statistica Computazionale B Modelli di regressione lineare semplice Verifica di ipotesi - Analisi della varianza 3 maggio 2005 Esercizio 1 Consideriamo l esempio del libro di testo Annette
Variabili indipendenti qualitative. In molte applicazioni si rende necessario l introduzione di un fattore a due o più livelli.
Variabili indipendenti qualitative Di solito le variabili nella regressione sono variabili continue In molte applicazioni si rende necessario l introduzione di un fattore a due o più livelli Ad esempio:
Laboratorio R Corso di Algebra e Modelli lineari (Anno Accademico 2011-12)
Laboratorio R Corso di Algebra e Modelli lineari (Anno Accademico 011-1) REGRESSIONE LINEARE SEMPLICE OPEN STATISTICA 8.44 Per 8 settimanali, appartenenti alla medesima fascia di prezzo e presenti in edicola
Capitolo 12 La regressione lineare semplice
Levine, Krehbiel, Berenson Statistica II ed. 2006 Apogeo Capitolo 12 La regressione lineare semplice Insegnamento: Statistica Corso di Laurea Triennale in Ingegneria Gestionale Facoltà di Ingegneria, Università
Test F per la significatività del modello
Test F per la significatività del modello Per verificare la significatività dell intero modello si utilizza il test F Si vuole verificare l ipotesi H 0 : β 1 = 0,, β k = 0 contro l alternativa che almeno
L Analisi della Varianza ANOVA (ANalysis Of VAriance)
L Analisi della Varianza ANOVA (ANalysis Of VAriance) 1 Concetti generali: Confronto simultaneo tra più di due popolazioni, esempi... La analisi della varianza estende il confronto a p gruppi con p>2.
VARIETÀ. zona geografica A B C D
Anova a 2 vie con repliche (( chiarire che non devono essere esattamente nello stesso numero per ogni cella ovvero per le ripetizioni dei de fattori ma che excel li legge così) Esercizio-esempio 1 Il valore
1. Esistono differenze nella resistenza tra le varie marche?
Laboratorio 10 Analisi della varianza 10.1 Analisi del dataset STURDY.DAT I dati riportati nel file sturdy.dat si riferiscono ad un esperimento effettuato per studiare la resistenza allo strappo di diverse
Statistica economica
Statistica economica a.a. 013/14 Dr. Luca Secondi 10.a. Output tipico di un modello di regressione lineare multipla 1 Le analisi basate sul modello di regressione prevedono la stima dei coefficienti associati
Inferenza statistica Donata Rodi 04/10/2016
Inferenza statistica Donata Rodi 04/10/2016 Popolazione Campionamento Campione Parametri Inferenza Statistiche µ, ϭ 2 descrittive Stima X, s 2 Quale test? Parametrico o no Scala di misura 1 gruppo 2 gruppi
Laboratorio di Statistica Aziendale Modello di regressione lineare semplice
Laboratorio di Statistica Aziendale Modello di regressione lineare semplice Dott.ssa Michela Pasetto [email protected] Caricamento del dataset Il dataset SalesData si trova nella cartella condivisa
SOLUZIONI DI ALCUNI ESERCIZI. Appello del
SOLUZIONI DI ALCUNI ESERCIZI Appello del 21-06- 2012 E stato osservato per un certo tempo un tipo di piccoli animali galleggianti (zooplankton- Daphnia magna) e si è notato che questi animali tendono ad
Argomenti della lezione:
Lezione 13 L analisi della Varianza (ANOVA): il modello lineare Argomenti della lezione: Modello lineare Disegni a una via L Analisi della Varianza (ANOVA): Esamina differenze tra le medie di due o più
La variabilità. Dott. Cazzaniga Paolo. Dip. di Scienze Umane e Sociali
Dip. di Scienze Umane e Sociali [email protected] Introduzione [1/2] Gli indici di variabilità consentono di riassumere le principali caratteristiche di una distribuzione (assieme alle medie) Le
Teoria e tecniche dei test. Concetti di base
Teoria e tecniche dei test Lezione 2 2013/14 ALCUNE NOZIONI STATITICHE DI BASE Concetti di base Campione e popolazione (1) La popolazione è l insieme di individui o oggetti che si vogliono studiare. Questi
Esercitazione 5 - Statistica (parte II) Davide Passaretti 9/3/2017
Esercitazione 5 - Statistica (parte II) Davide Passaretti 9/3/2017 Contents 1 Inferenza sulla regressione semplice 1 1.1 Test sulla pendenza della retta................................... 1 1.2 Test sull
Indice. centrale, dispersione e forma Introduzione alla Statistica Statistica descrittiva per variabili quantitative: tendenza
XIII Presentazione del volume XV L Editore ringrazia 3 1. Introduzione alla Statistica 5 1.1 Definizione di Statistica 6 1.2 I Rami della Statistica Statistica Descrittiva, 6 Statistica Inferenziale, 6
Esercizio 1 GRAFICO 1. X e Y sono indipendenti. X e Y non sono correlate. La correlazione tra X e Y è <1. X e Y sono perfettamente correlate
Esercizio 1 Osservare il grafico 1 riportato in figura che mette in relazione una variabile dipendente Y ed una variabile indipendente X e rispondere alle seguenti domande. 400 300 200 GRAFICO 1 100 0
ESERCIZIO 1. Di seguito vengono riportati i risultati di un modello fattoriale di analisi della varianza con 3 fattori tra i soggetti.
ESERCIZIO. Di seguito vengono riportati i risultati di un modello fattoriale di analisi della varianza con fattori tra i soggetti. Variabile dipendente: PERF Sorgente Modello corretto Intercept SEX_96
Data Mining. Prova parziale del 20 aprile 2017: SOLUZIONE
Università degli Studi di Padova Corso di Laurea Magistrale in Informatica a.a. 2016/2017 Data Mining Docente: Annamaria Guolo Prova parziale del 20 aprile 2017: SOLUZIONE ISTRUZIONI: La durata della prova
LABORATORIO DI PROBABILITA E STATISTICA
UNIVERSITA DEGLI STUDI DI VERONA LABORATORIO DI PROBABILITA E STATISTICA Docente: Bruno Gobbi 6 ESERCIZI RIEPILOGATIVI PRIME 3 LEZIONI REGRESSIONE LINEARE: SPORT - COLESTEROLO ESERCIZIO 8: La tabella seguente
CAPITOLO 5 Introduzione ai piani fattoriali
Douglas C. Montgomery Progettazione e analisi degli esperimenti 2006 McGraw-Hill CAPITOLO 5 Introduzione ai piani fattoriali Metodi statistici e probabilistici per l ingegneria Corso di Laurea in Ingegneria
L analisi della Varianza (ANOVA): i disegni fattoriali tra i soggetti
Lezione 14 L analisi della Varianza (ANOVA): i disegni fattoriali tra i soggetti Argomenti della lezione: Effetti principali e interazioni Analisi dei disegni fattoriali Disegni fattoriali (o a più vie):
Analisi della varianza
1. 2. univariata ad un solo fattore tra i soggetti (between subjects) 3. univariata: disegni fattoriali 4. univariata entro i soggetti (within subjects) 5. : disegni fattoriali «misti» L analisi della
3.1 Classificazione dei fenomeni statistici Questionari e scale di modalità Classificazione delle scale di modalità 17
C L Autore Ringraziamenti dell Editore Elenco dei simboli e delle abbreviazioni in ordine di apparizione XI XI XIII 1 Introduzione 1 FAQ e qualcos altro, da leggere prima 1.1 Questo è un libro di Statistica
STATISTICA A K (60 ore)
STATISTICA A K (60 ore) Marco Riani [email protected] http://www.riani.it Richiami sulla regressione Marco Riani, Univ. di Parma 1 MODELLO DI REGRESSIONE y i = a + bx i + e i dove: i = 1,, n a + bx i rappresenta
Statistica Sociale - modulo A
Statistica Sociale - modulo A e-mail: [email protected] i quartili IL TERZO QUARTILE per un carattere diviso in classi ESEMPIO: il boxplot I QUARTILI I quartili sono tre indici che dividono la distribuzione
Confronto fra gruppi: il metodo ANOVA. Nicola Tedesco (Statistica Sociale) Confronto fra gruppi: il metodo ANOVA 1 / 23
Confronto fra gruppi: il metodo ANOVA Nicola Tedesco (Statistica Sociale) Confronto fra gruppi: il metodo ANOVA 1 / 23 1 Nella popolazione, per ciascun gruppo la distribuzione della variabile risposta
Statistica. Capitolo 12. Regressione Lineare Semplice. Cap. 12-1
Statistica Capitolo 1 Regressione Lineare Semplice Cap. 1-1 Obiettivi del Capitolo Dopo aver completato il capitolo, sarete in grado di: Spiegare il significato del coefficiente di correlazione lineare
Scale di Misurazione Lezione 2
Last updated April 26, 2016 Scale di Misurazione Lezione 2 G. Bacaro Statistica CdL in Scienze e Tecnologie per l'ambiente e la Natura II anno, II semestre Tipi di Variabili 1 Scale di Misurazione 1. Variabile
Fac-simile prova di esame
UNIVERSITÀ CA FOSCARI DI VENEZIA FACOLTÀ DI ECONOMIA Statistica Computazionale I Prof. Stefano Tonellato COGNOME.................................... NOME.................................... MATRICOLA....................................
Sommario. Capitolo 1 I dati e la statistica 1. Capitolo 2 Statistica descrittiva: tabelle e rappresentazioni grafiche 25
Sommario Presentazione dell edizione italiana Prefazione xv xiii Capitolo 1 I dati e la statistica 1 Statistica in pratica: BusinessWeek 1 1.1 Le applicazioni in ambito aziendale ed economico 3 Contabilità
Statistica Applicata all edilizia: il modello di regressione
Statistica Applicata all edilizia: il modello di regressione E-mail: [email protected] 27 aprile 2009 Indice Il modello di Regressione Lineare 1 Il modello di Regressione Lineare Analisi di regressione
CAPITOLO 4 Blocchi casualizzati, quadrati latini e piani collegati
Douglas C. Montgomery Progettazione e analisi degli esperimenti 2006 McGraw-Hill CAPITOLO 4 Blocchi casualizzati, quadrati latini e piani collegati Metodi statistici e probabilistici per l ingegneria Corso
Università di Padova
Università di Padova Dipartimento di Tecnica e Gestione dei sistemi industriali Corso di Laurea Specialistica in Ingegneria Civile Elaborato di analisi statistica a.a. 5-6 Prof. L. Salmaso Dott. L. Corain
Verifica di ipotesi sui coefficienti di regressione. Verifica di ipotesi sul coefficiente angolare
Verifica di ipotesi sui coefficienti di regressione Per il momento supponiamo di muoverci nel contesto del modello gaussiano. Vogliamo capire se alcune nostre congetture sui coefficienti di regressione
Analisi grafica residui in R. Da output grafico analisi regressionelm1.csv Vedi dispensa. peso-statura
Analisi grafica residui in R Da output grafico analisi regressionelm1.csv Vedi dispensa peso-statura 1) Il plot in alto a sinistra mostra gli errori residui contro i loro valori stimati. I residui devono
LABORATORIO DI PROBABILITA E STATISTICA
UNIVERSITA DEGLI STUDI DI VERONA LABORATORIO DI PROBABILITA E STATISTICA Docente: Bruno Gobbi Corso di laurea in Informatica e Bioinformatica 4 ESERCIZI RIEPILOGATIVI PRIME 3 LEZIONI 1 - STATISTICA DESCRITTIVA
Analisi della Varianza - II
Analisi della Varianza - II ANOVA tra i soggetti M Q Cristina Zogmaister Milano-Bicocca 1 Lez: XXIX Analisi della Varianza (ANOVA, Analysis of Variance) Obiettivo - Confrontare due o più gruppi per stabilire
Dispensa di Statistica
Dispensa di Statistica 1 parziale 2012/2013 Diagrammi... 2 Indici di posizione... 4 Media... 4 Moda... 5 Mediana... 5 Indici di dispersione... 7 Varianza... 7 Scarto Quadratico Medio (SQM)... 7 La disuguaglianza
Statistica di base per l analisi socio-economica
Laurea Magistrale in Management e comunicazione d impresa Statistica di base per l analisi socio-economica Giovanni Di Bartolomeo [email protected] Definizioni di base Una popolazione è l insieme
Esercizi di statistica
Esercizi di statistica Test a scelta multipla (la risposta corretta è la prima) [1] Il seguente campione è stato estratto da una popolazione distribuita normalmente: -.4, 5.5,, -.5, 1.1, 7.4, -1.8, -..
1.1 Obiettivi della statistica Struttura del testo 2
Prefazione XV 1 Introduzione 1.1 Obiettivi della statistica 1 1.2 Struttura del testo 2 2 Distribuzioni di frequenza 2.1 Informazione statistica e rilevazione dei dati 5 2.2 Distribuzioni di frequenza
Premessa: la dipendenza in media
Premessa: la dipendenza in media Supponiamo di avere K diversi livelli di un fattore che potrebbero influire su una determinata variabile. Per esempio supponiamo di domandarci se la diversificazione (intesa
Esercitazioni di statistica
Esercitazioni di statistica Boxplot e numeri indici Stefania Spina Universitá di Napoli Federico II [email protected] 14 Ottobre 014 Stefania Spina Esercitazioni di statistica 1/37 Definizioni La
Analisi della varianza
Università degli Studi di Padova Facoltà di Medicina e Chirurgia Facoltà di Medicina e Chirurgia - A.A. 2009-10 Scuole di specializzazione Lezioni comuni Disciplina: Statistica Docente: dott.ssa Egle PERISSINOTTO
ESERCIZI. Regressione lineare semplice CAPITOLO 12 Levine, Krehbiel, Berenson, Statistica II ed., 2006 Apogeo
Insegnamento: Statistica Corso di Laurea Triennale in Ingegneria Gestionale Facoltà di Ingegneria, Università di Padova Docenti: Prof. L. Salmaso, Dott. L. Corain ESERCIZI Regressione lineare semplice
