Laboratorio di Statistica con R



Documenti analoghi
LABORATORIO-EXCEL N. 2-3 XLSTAT- Pro Versione 7 VARIABILI QUANTITATIVE

LABORATORIO EXCEL XLSTAT 2008 SCHEDE 2 e 3 VARIABILI QUANTITATIVE

Corso integrato di informatica, statistica e analisi dei dati sperimentali Altri esercizi_esercitazione V

Excel Terza parte. Excel 2003

Come costruire una distribuzione di frequenze per caratteri quantitativi continui

STATISTICA 1, metodi matematici e statistici Introduzione al linguaggio R Esercitazione2:

Analisi sensitività. Strumenti per il supporto alle decisioni nel processo di Valutazione d azienda

Prof.ssa Paola Vicard

RAPPRESENTAZIONE GRAFICA E ANALISI DEI DATI SPERIMENTALI CON EXCEL

Excel. A cura di Luigi Labonia. luigi.lab@libero.it

Strumenti informatici Realizzare grafici e tabelle con Excel e SPSS

EXCEL PER WINDOWS95. sfruttare le potenzialità di calcolo dei personal computer. Essi si basano su un area di lavoro, detta foglio di lavoro,

Fogli Elettronici: MS Excel utilizzo avanzato

Funzioni in C. Violetta Lonati

Excel avanzato. I nomi. Gli indirizzi e le formule possono essere sostituiti da nomi. Si creano tramite Inserisci Nome Definisci

Fogli Elettronici: MS Excel

L analisi dei dati. Capitolo Il foglio elettronico

PROGRAMMA SVOLTO NELLA SESSIONE N.

Università di L Aquila Facoltà di Biotecnologie Agro-alimentari

Elementi di Psicometria con Laboratorio di SPSS 1

Esame di Informatica CHE COS È UN FOGLIO ELETTRONICO CHE COS È UN FOGLIO ELETTRONICO CHE COS È UN FOGLIO ELETTRONICO. Facoltà di Scienze Motorie

Per effettuare la stampa di una cartella di lavoro si accede al comando. Stampa dal menu File o si utilizza il pulsante omonimo sulla barra

Introduzione al Foglio Elettronico

PROBABILITÀ - SCHEDA N. 2 LE VARIABILI ALEATORIE

Cos è Excel. Uno spreadsheet : un foglio elettronico. è una lavagna di lavoro, suddivisa in celle, cosciente del contenuto delle celle stesse

Potenzialità statistiche Excel

MS Word per la TESI. Barra degli strumenti. Rientri. Formattare un paragrafo. Cos è? Barra degli strumenti

Prof.ssa Paola Vicard

Prof.ssa Paola Vicard

Le query. Lezione 6 a cura di Maria Novella Mosciatti

GEOGEBRA I OGGETTI GEOMETRICI

Probabilità condizionata: p(a/b) che avvenga A, una volta accaduto B. Evento prodotto: Evento in cui si verifica sia A che B ; p(a&b) = p(a) x p(b/a)

Microsoft Excel. Il foglio elettronico Microsoft Excel Cartelle, Fogli di lavoro e celle Contenuto delle celle. Numeri, date, formule, testo, funzioni

Statistica 4038 (ver. 1.2)

Database 1 biblioteca universitaria. Testo del quesito

E possibile modificare la lingua dei testi dell interfaccia utente, se in inglese o in italiano, dal menu [Tools

POSTA ELETTRONICA Per ricevere ed inviare posta occorrono:

progetti guidati EXCEL Dalla tabella statistica al relativo grafico

La grafica. La built-in funzione grafica plot. x spezzata poligonale. discretizzato

Istruzioni per l installazione del software per gli esami ICoNExam (Aggiornate al 15/01/2014)

Quickstart. Cos è GeoGebra? Notizie in pillole

Gestione ed analisi di base dati nell epidemiologia. delle malattie infettive

A destra è delimitata dalla barra di scorrimento verticale, mentre in basso troviamo una riga complessa.

Moduli (schede compilabili) in Word Esempio: scheda di alimentazione per un degente

Matematica in laboratorio

ARCHIVIAZIONE DOCUMENTI

Appunti di: MICROSOFT EXCEL

8.9 CREARE UNA TABELLA PIVOT

Nell esempio verrà mostrato come creare un semplice documento in Excel per calcolare in modo automatico la rata di un mutuo a tasso fisso conoscendo

Per chi ha la Virtual Machine: avviare Grass da terminale, andando su Applicazioni Accessori Terminale e scrivere grass

Plate Locator Riconoscimento Automatico di Targhe

Il foglio elettronico 5/06/2013

Università degli Studi di Ferrara - A.A. 2014/15 Dott. Valerio Muzzioli ORDINAMENTO DEI DATI

MODULO 4: FOGLIO ELETTRONICO (EXCEL)

Uso di base delle funzioni in Microsoft Excel

LAB LEZ. 1 STATISTICA DESCRITTIVA CON R

per immagini guida avanzata Stampare i fogli di lavoro di Excel Geometra Luigi Amato Guida Avanzata per immagini excel

Definire gli attributi dei blocchi

Aprire, preparare un documento da utilizzare come documento principale per una stampa unione.

EXCEL FUNZIONI PRINCIPALI

5.2 UTILIZZO DELL APPLICAZIONE

Esercizio 1. Nella Tabella A sono riportati i tempi di percorrenza, in minuti, di un tratto autostradale da parte di 40 autoveicoli.

5.3 TABELLE RECORD Inserire, eliminare record in una tabella Aggiungere record Eliminare record

LUdeS Informatica 2 EXCEL. Seconda parte AA 2013/2014

Guida rapida - versione Web e Tablet

Gestione delle informazioni necessarie all attività di validazione degli studi di settore. Trasmissione degli esempi da valutare.

Utilizzo delle formule in Excel

I ESERCITAZIONE. Gruppo I 100 individui. Trattamento I Nuovo Farmaco. Osservazione degli effetti sul raffreddore. Assegnazione casuale

Automatizzare i compiti ripetitivi. I file batch. File batch (1) File batch (2) Visualizzazione (2) Visualizzazione

GESGOLF SMS ONLINE. Manuale per l utente

Guida all uso di Java Diagrammi ER

Interesse, sconto, ratei e risconti

Modulo. Programmiamo in Pascal. Unità didattiche COSA IMPAREREMO...

Per accedere clicca su START o AVVIO (in basso a sinistra sul tuo schermo), poi su PROGRAMMI, ACCESSORI e infine su BLOCCO NOTE.

Che cos'è un modulo? pulsanti di opzione caselle di controllo caselle di riepilogo

Capitolo 3. L applicazione Java Diagrammi ER. 3.1 La finestra iniziale, il menu e la barra pulsanti

Lezione 5. Fogli di calcolo

Esercizio data base "Biblioteca"

Identificare le diverse parti di una finestra: barra del titolo, barra dei menu, barra degli strumenti, barra di stato, barra di scorrimento.

Uso delle tabelle e dei grafici Pivot

STAMPA UNIONE DI WORD

Word è un elaboratore di testi in grado di combinare il testo con immagini, fogli di lavoro e

I Fogli di Calcolo. Fogli di Calcolo

Veneto Lavoro via Ca' Marcello 67/b, Venezia-Mestre tel.: 041/

WORD per WINDOWS95. Un word processor e` come una macchina da scrivere ma. con molte più funzioni. Il testo viene battuto sulla tastiera

per immagini guida avanzata Uso delle tabelle e dei grafici Pivot Geometra Luigi Amato Guida Avanzata per immagini excel

Alcune regole di base per scrivere un programma in linguaggio C

NUOVA PROCEDURA COPIA ED INCOLLA PER L INSERIMENTO DELLE CLASSIFICHE NEL SISTEMA INFORMATICO KSPORT.

Statistica. Lezione 6

GUIDA RAPIDA PER LA COMPILAZIONE DELLA SCHEDA CCNL GUIDA RAPIDA PER LA COMPILAZIONE DELLA SCHEDA CCNL

Access. P a r t e p r i m a

On-line Corsi d Informatica sul web

Registratori di Cassa

FUNZIONI DI IMPAGINAZIONE DI WORD

Programmare in Java. Olga Scotti

On-line Corsi d Informatica sul Web

Organizzare le risorse umane con ricerca obiettivo

Eclipse - Nozioni Base

Introduzione al Linguaggio C

FUNZIONE. Si scrive: A B f: A B x y=f(x) (si legge: f funzione da A in B) x f y= f(x)

Transcript:

Laboratorio di Statistica con R R è un vero e proprio linguaggio di programmazione. Il suo nome, è dovuto probabilmente al nome dei suoi sviluppatori:robert Gentleman e Ross Ihaka Le principali funzioni di R possono essere così riassunte: esecuzione di calcoli analisi statistica ed elaborazione dei dati rappresentazione grafica dei dati R è un linguaggio object-oriented (come C++ e Java): è un ambiente statistico di programmazione ad oggetti (vettori, tabelle, dataset), in cui ogni oggetto viene trattato con un metodo specifico. R è un linguaggio free quindi si può scaricare gratuitamente da Internet all indirizzo: http://cran.r-project.org/. E un linguaggio in costante sviluppo. Prime nozioni di base: Avviando R si apre una finestra, chiamata R Console, con cui interagisce l utente. Dopo alcune informazioni che vengono riportate automaticamente all avvio del programma, compare il simbolo > (prompt di R ), dopo il quale si possono inserire i comandi. I comandi possono essere in riga uno dietro l altro, separati da un punto e virgola, oppure andando ogni volta a capo con il tasto Invio. Importante: R è un linguaggio case-sensitive, ovvero distingue le lettere maiuscole dalle minuscole. R è dotato di una guida on-line che permette di ottenere informazioni sui comandi. Per accedere alla guida è necessario scrivere >help() per avere informazioni generali 1

>help(nome comando) per avere informazioni su un comando specifico Per conoscere invece delle dimostrazioni di alcune funzioni (come ad esempio costruire dei grafici) si utilizza >demo( nome funzione) Gli oggetti in R: scalari e vettori Come abbiamo già accennato R lavora con gli oggetti: gli oggetti fondamentali sono i numeri (scalari) e i vettori. Per assegnare una variabile si utilizza il comando <- > x<-4 assegna a x il valore 4 Se si vuole sapere quale è il valore di x basta richiamarlo nel prompt >x [1] 4 compare così il valore assegnato. Il simbolo [1] significa che R interpreta x come un vettore di lunghezza 1. Per creare un vettore con più elementi si utilizza il comando c(.,.,.,.,.) dove gli elementi sono separati da virgole. Ad esempio: > y<-c(3,7,9,45) assegna a y il vettore (3,7,9,45) Se vogliamo creare un vettore costituito da una successione di numeri che differiscono tra di loro sempre per lo stesso passo, si usa la funzione seq (minimo, massimo, incremento) >seq(1,5,1) otteniamo >[1] 1 2 3 4 5 Il comando lenght(x) dà come risultato la lunghezza del vettore x. 2

Matrici Le matrici sono tabelle di dati organizzati in righe e colonne. In R il comando per inserire una matrice è matrix( dati, n righe, n colonne) Esempio: >A<-matrix(c(1,2,3,4),2,2) >A [,1] [,2] [1,] 1 3 [2,] 2 4 Come si può osservare R di default costruisce le matrici per colonne: se si vuole costruire la matrice per righe, bisogna aggiungere il comando byrow=true dopo il numero di colonne. Se vogliamo estrarre un elemento di una matrice, una riga o una colonna è sufficiente utilizzare le parentesi quadre []. >A[2,2] estrae l elemento (2,2) dalla matrice cioè 4 >A[1,] estrae la prima riga di A >A[,2] estrae la seconda colonna di A Ambiente di lavoro Per visualizzare tutti gli oggetti creati nel nostro ambiente di lavoro (workspace) si deve digitare >ls() mentre se vogliamo rimuovere la variabile x dall ambiente di lavoro o tutto ciò che è stato creato >rm(x) rimuove solo la variabile x >rm(list=(ls)) rimuove tutti gli oggetti 3

Per uscire da una situazione di errore digitare (. ) Importazione di dati da file Excel Per importare in R dei dati salvati su un foglio di calcolo Excel si deve eseguire la seguente procedura: salvare il file.xls in formato testo delimitato da tabulazione assicurarsi che la directory di R sia la stessa di quella dove è stato salvato il file (altrimenti cambiarla dal menu di R) richiamare il file in R usando il comando >read.delim( nomefile.txt ) A questo punto R visualizza tutti i dati organizzati in righe e colonne come erano strutturati in Excel Costruzione di un dataframe Per poter analizzare dal punto di vista statistico i dati caricati al punto precedente è utile costruire un dataframe, ovvero un oggetto simile ad una matrice, ma usato per rappresentare dati sperimentali. Ogni riga contiene un unità statistica, mentre le colonne le variabili misurate sulle unità statistiche. Le colonne possono contenere sia variabili numeriche che di testo. Supponiamo di avere importato in R il file anamnesi.txt dei dati anamnestici avente come colonne le variabili: Età, Luogo di Nascita, Peso, Altezza. Si vuole creare un dataframe con questi dati. Assegniamo innanzitutto un nome al file: >anamnesi<-read.delim( anamnesi.txt ) Per creare il dataframe usiamo il comando: >data.frame(anamnesi) >dati<-data.frame(anamnesi) 4

Con questo ultimo comando abbiamo assegnato al dataframe il nome dati, quindi volendo richiamarlo basterà digitare sul prompt >dati Ora si possono avere delle informazioni di tipo statistico. Il comando >summary(dati) da informazioni su ogni colonna: se si tratta di dati di testo, come ad esempio Luogo di Nascita, fornisce il numero di persone nate in ogni luogo, mentre se si tratta di dati numerici vengono dati gli indici statistici (minimo, 1 quartile, mediana, media, 3 quartile, massimo). Per selezionare una sola colonna si usa il simbolo $: >dati$peso restituirà solo i valori dei pesi (analogo discorso per gli altri dati) Regressione Lineare In R il comando lm (linear model) calcola la retta di regressione tra due variabili. Esempio: vogliamo vedere se c è una relazione lineare tra il peso e l altezza del dataframe. Innanzitutto assegniamo le variabili: >x<-dati$altezza >y<-dati$peso >lm(y x) i dati delle altezze sono memorizzati in x i dati dei pesi sono memorizzati in y restituisce la retta di regressione 5

GRAFICI Per una prima analisi descrittiva dei dati è molto utile rappresentarli graficamente. Ogni volta che viene usato un comando per disegnare un grafico si apre automaticamente una finestra nuova su cui compare il grafico. Questo può essere copiato e incollato in altri ambienti di lavoro. Il comando plot: >plot(x,y) è il diagramma di dispersione di y (vettore ordinate), rispetto ad x (vettore ascisse). Con l opzione type= l il grafico viene visualizzato con una linea continua invece che per punti. Plot viene anche utilizzato per creare un grafico a colonna per la rappresentazione di variabili qualitative. >plot(dati$luogo di Nascita) rappresenterà un grafico dove ogni colonna ha un altezza pari al numero di persone nate in quel luogo (frequenze assolute). E possibile avere in ordinate le frequenze relative in questo modo: il comando table () restituisce le frequenze assolute. Quindi >plot(table(dati$luogo di Nascita)/lenght(dati$Luogo di Nascita) disegnerà un grafico a colonna con frequenze relative. Il comando curve: >curve(funzione, minimo, massimo, n di punti) Richiede un espressione di una funzione che dipenda da una variabile x, gli estremi dell intervallo su cui vogliamo disegnare la funzione ed eventualmente il numero di punti. Esempio: 6

>curve(sin(x), -5,5) è la funzione sin(x) nell intervallo [-5,5]. Istogramma: L istogramma è la rappresentazione grafica tipica per una variabile quantitativa (come ad esempio peso, altezza..). Il comando per creare un istogramma di dati contenuti in un vettore x è: >hist(x, vettore delle classi di frequenza) Se si vuole un istogramma con frequenze relative >hist(x, freq=false) perché di default R costruisce istogrammi con in ordinata le frequenze assolute. Box-Plot Il box-plot è un tipo di rappresentazione che da indicazioni sulla simmetria o asimmetria di una distribuzione. Il box-plot è costituito da una scatola, i cui estremi sono il 1 ed il 3 quartile (Q1, Q3), divisa dalla mediana avente dei baffi in corrispondenza dei valori minimo e massimo. In presenza di outliers (valori anomali), che per R sono quei valori che stanno al di fuori dell intervallo [Q1-1.5(Q3-Q1),Q3+1.5(Q3-Q1)], i baffi vengono posti in corrispondenza delle osservazioni più vicine agli estremi di tale intervallo e interne ad esso. Gli outliers vengono evidenziati da R con dei puntini. Il comando per disegnare un box-plot è >boxplot(x) 7

Opzioni per i grafici R ha a disposizione diverse opzioni riguardanti i grafici. Gli argomenti lty, lwd e col definiscono, rispettivamente, il tipo di tratteggio, lo spessore e il colore del tratto. lty e lwd hanno come argomento i numeri da 2 a 5 ( lty=1 è la linea continua e lwd=1 è lo spessore prestabilito) col ha la sintassi: col= nome colore (in inglese) Se si vuole disegnare due curve nello stesso grafico si utilizza il comando curve con l opzione add=true >curve(dnorm(x), -5,5) >curve(dt(x, df=1), -6,6, lty=2, add=true) rappresenterà la distribuzione normale e la distribuzione di t di Student a 1 grado di libertà nello stesso grafico. Mentre se si vuole aprire in una finestra più sottofinestre in modo da avere dei grafici appaiati per confrontarli il comando è: >par(mfrow=c(, )) dove c (,) mi indica quante sottofinestre si vuole avere. E possibile attribuire un titolo al grafico con il comando main= titolo e assegnare delle etichette agli assi cartesiani con xlab=.. e ylab=.. Esempio: >plot(dati$luogo di Nascita, xlab= luogo di nascita, ylab= frequenze assolute, main= grafico a colonne ) 8

Il comando legend consente di inserire una legenda all interno di un grafico. La sua sintassi è: coordinate del punto in cui si vuole inserire la legenda, un vettore di caratteri alfanumerici, un vettore di colori (col) o di diversi tratteggi (lty). Ad esempio inseriamo una leggenda nel grafico delle due distribuzioni normale e t di Student di prima, indicando con Z la prima e t la seconda: >legend(5,0.3, c( Z, t ), lty=c(1,3)) Il comando text aggiunge testi e notazioni a grafici preesistenti; vuole in input il vettore di coordinate del punto in cui inserire il testo, quindi il testo. Il comando expression, all interno di text, consente di scrivere formule e simboli matematici. 9

Probabilità con R R mette a disposizione numerose funzioni di distribuzione, sia discrete che continue. Le probabilità puntuali si calcolano in R premettendo il suffisso d al nome della variabile Il valore della funzione di ripartizione in un punto si calcola premettendo il suffisso p I quantili q della variabile si ottengono premettendo al nome della variabile il suffisso q Distribuzione binomiale Se indichiamo con p la probabilità di successo di un esperimento aleatorio X, per calcolare la probabilità di ottenere k successi su n prove useremo il comando: >dbinom(k,n,p) Per calcolare P(X k) (probabilità di avere al massimo k successi) significa che vogliamo il valore della funzione di ripartizione nel punto k, quindi: >pbinom(k,n,p) Infine per calcolare P(X>k)=1-P(X k) (probabilità di avere almeno k+1 successi) si utilizza l opzione lower.tail=false che determina la probabilità complementare: >pbinom(k,n,p,lower.tail=false) 10

Il comando per calcolare i quantili della distribuzione vuole prima il valore di, dove = P(X q) e poi i parametri della distribuzione in esame. >qbinom(, n, p) Distribuzione di Poisson: La probabilità che un evento casuale si verifichi x volte quando in media si verifica λ volte (media della distribuzione) è data dalla distribuzione di Poisson. Il comando in R è il seguente: >dpois(x, λ) Analogamente si utilizzano gli altri comandi per la funzione di ripartizione e i quantili. Tabelle di Contingenza: Una tabella di contingenza è una tabella a doppia entrata utilizzata per analizzare le relazioni tra due o più variabili. In questo tipo di tabelle sono riportate le frequenze congiunte delle due variabili. In R è possibile costruire delle tabelle di contingenza in modo poi da calcolare le probabilità condizionate e verificare se c è dipendenza o meno tra le variabili prese in considerazione. Esempio: relazione tra sottoporsi ad un vaccino e malattia Vaccino/Malattia Non si ammala Si ammala Vaccino Si 700 400 Vaccino No 1300 7600 11

Riportiamo questi dati così organizzati in R: >vaccino<-c( Vaccino si, Vaccino no ) >esito<-c( Non si ammala, Si ammala ) >tab<-matrix(c(700,1300,400,7600),2,2, dimnames=list(vaccino,esito)) Richiamando >tab otterremo la tabella. L opzione dimnames serve per aggiungere l intestazione alla tabella in modo che i dati siano più leggibili. Visto che la tabella è costruita tramite il comando matrix è possibile intervenire separatamente sulle righe e colonne. In particolare possiamo ottenere le frequenze marginali con il comando: >margin.table(tab,1) >margin.table(tab,2) frequenze marginali di riga frequenze marginali di colonna Per calcolare le probabilità condizionate si utilizza il comando >prop.table(tab,1) >prop.table(tab,2) probabilità condiz.rispetto ai totali di riga probabilità condiz.rispetto ai totali di colonna Per sapere se c è le due variabili sono indipendenti oppure no si può fare un test di indipendenza del Chi-quadro: >chisq.test(tab) 12