Laboratorio di Statistica e Analisi Dati: Lezione 5

Documenti analoghi
L ambiente grafico di R

INTRODUZIONE A R Lezione 3

Statistica descrittiva con R

Introduzione all Analisi Esplorativa dei Dati mediante R 1

Introduzione al software R

Statistica descrittiva con R

Esercizi in preparazione all esame di. Laboratorio del corso di Principi di Informatica. Prof.sse M. Anselmo e R. Zizza. a.a.

Esercitazione n 2. Costruzione di grafici

Laboratorio di R - 1 a lezione Prof. Mauro Gasparini

L ambiente grafico di R

Esplorazione grafica di dati multivariati. N. Del Buono

Laboratorio di Statistica con R

Consideriamo indici di posizione, non piu di centralita, ma di posizionamento relativo.

Microsoft Excel VI parte: Frequenze & Grafici

Sintesi delle differenze

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 3

La variabilità. Dott. Cazzaniga Paolo. Dip. di Scienze Umane e Sociali

Grafici e Pagina web

Esplorazione grafica di dati multivariati. N. Del Buono

Rappresentazioni grafiche

EUROPEAN COMPUTER DRIVING LICENCE SYLLABUS VERSIONE 5.0

Rappresentazione di curve in tre dimensioni

DEFINIZIONI SMART E RELATIVE ESERCITAZIONI

Il giorno 18 febbraio 2013 verrà effettuato un esame finale (test) di verifica

0.1 Percorrenza e Cilindrata

Teoria e tecniche dei test. Concetti di base

Elementi di Psicometria con Laboratorio di SPSS 1

Sommario. A proposito di A colpo d occhio 1. Novità e miglioramenti 5. Introduzione a Excel Ringraziamenti... xi Autore...

Informatica e Abilità Informatiche Multimediali Esercitazioni di Foglio elettronico

Excel. È data la distribuzione di 1863 famiglie italiane secondo il numero di componenti:

Fogli Elettronici. Idoneità Informatica Prof. Mauro Gaspari

Un grafico utilizza i valori contenuti in un foglio di lavoro per creare una rappresentazione grafica delle relazioni esistenti tra loro;

Scale di Misurazione Lezione 2

Le rappresentazioni grafiche

Insert > Object > Chart

Esercitazioni di statistica

Statistica Sociale - modulo A

Un grafico utilizza i valori contenuti in un foglio di lavoro per creare una rappresentazione grafica delle relazioni esistenti tra loro;

LA RAPPRESENTAZIONE E LA SINTESI DEI DATI

JMP 10 Student Edition: Guida rapida

Laboratorio di ST1 Lezione 2

Laboratorio di Statistica 1 con R Esercizi per la Relazione. I testi e/o i dati degli esercizi contassegnati da sono tratti dai libri consigliati

Esplorazione dei dati. Lucidi e dataset tratti da Turini - Analisi dei Dati, Dip. Inf. Unipi

STATISTICA LAB. Analisi dei dati con R - Ex 2. Marta Nai Ruscone. LIUC - Università Carlo Cattaneo, Castellanza STATISTICA LAB

Università del Piemonte Orientale. Corsi di Laurea Triennale di Area Tecnica. Corso di Statistica e Biometria

Sommario. A proposito di A colpo d occhio 1. Novità di Access Primi passi con Access

Modificare il tipo di grafico Spostare, ridimensionare, cancellare un grafico

Data set relativo a 40 titolari di esercizi commerciali. Durata del percorso casa lavoro (in minuti) Numero dipendenti che lavorano nel negozio

Grafici. 1 Generazione di grafici a partire da un foglio elettronico

ESERCIZI DI RIEPILOGO 1

Uso elementare di R in Statistica G. Marchetti

MICROSOFT EXCEL - GRAFICI

STATISTICA PER LA DIGITAL ECONOMY 2017

Laboratorio di Statistica e Analisi Dati: Lezione 3

Sommario. Capitolo 1 I dati e la statistica 1. Capitolo 2 Statistica descrittiva: tabelle e rappresentazioni grafiche 25

TEORIA E LABORATORIO

Capitolo 4: Tabelle. y(x) = x 3 ì 2x. Capitolo 4: Tabelle 67. Nota: le tabelle non sono disponibili nel modo di rappresentazione grafica 3D.

Esercizi Svolti. 2. Costruire la distribuzione delle frequenze cumulate del tempo di attesa

Metodologie statistiche per l analisi del rischio ELEMENTI DI STATISTICA DESCRITTIVA PER L ANALISI DEL RISCHIO

Modulo III - Rappresentazione grafica

L INTERFACCIA GRAFICA DI EXCEL

MODULO REGISTRO LINEE GUIDA E PRINCIPALI CARATTERISTICHE DEL MODULO REGISTRO

MODULO 4. Testo Chiudi il programma. 37. Indica in quale menu si trova la funzione sostituisci.

Lezione 05. Costruzione di grafici a torte, grafici a linee, istogrammi

Criteri di Valutazione della scheda (solo a carattere indicativo)

Capitolo 3 Sintesi e descrizione dei dati quantitativi

Corso di Informatica di Base

Lab.1 - Excel. Prof. De Michele e Farina

Come ordinare facilmente i dati in un foglio di calcolo Excel definendo chiavi e parametri.

Università di Cassino Corso di Statistica 1 Esercitazione del 14/01/2008 Dott. Alfonso Piscitelli

COME VISUALIZZARE LE COORDINATE DEL PUNTO E SALVARE LA POSIZIONE

Le Apps di Google a scuola

Università del Piemonte Orientale. Corso di Laurea in Medicina e Chirurgia. Corso di Statistica Medica. Statistica Descrittiva Variabili numeriche

ESERCIZIO /03/ :23:20

Metodologie statistiche per l analisi del rischio ELEMENTI DI STATISTICA DESCRITTIVA PER L ANALISI DEL RISCHIO

14/12/2016 IL SOFTWARE EXCEL 4 I GRAFICI I GRAFICI. E se questi dati volessimo trasformarli in grafico?

Dai dati al modello teorico

Claudio Locci - Vincenzo Rundeddu

Indice argomenti. Sommario... Pag. Introduzione... Pag. Cap. 1 Installazione... Pag. 1. Cap. 2 Panoramica su Office Pag.

Statistica. Alfonso Iodice D Enza

Operazioni preliminari: creare una cartella in Documenti

Università di Cassino Corso di Statistica 1 Esercitazione del 15/10/2007 Dott. Alfonso Piscitelli. Esercizio 1

CORSO DI INFORMATICA GENERALE. Università degli Studi di Bergamo

PSICOMETRIA. Esercitazione n.1. C.d.L. Comunicazione e Psicologia a.a. 2012/13

Università del Piemonte Orientale. Corso di Laurea in Biotecnologie. Corso di Statistica Medica. Statistica Descrittiva: Variabili numeriche

Distribuzione di frequenza e rappresentazioni grafiche

Q1 = /4 0 4 = Me = /2 4 = 3

Matematica in laboratorio

Indici di variabilità relativa

Excel come foglio di calcolo. Altri Grafici con Excel Istogrammi, grafici a torta

Modulo 6. Strumenti di Presentazione

Come creare una pianificazione che genera una spedizione in Contactsend

Piccolo vademecum sull uso efficiente di Excel

Statistica. Matematica con Elementi di Statistica a.a. 2015/16

Controllo Statistico della Qualità

Compiti tematici dai capitoli 2,3,4

Esercitazioni. Es 1. Dato il seguente dataset

STATISTICA AZIENDALE Modulo Controllo di Qualità

Excel 2. Master Universitario di II livello in MANAGER NELLE AMMINISTRAZIONI PUBBLICHE A.A Prof.ssa Bice Cavallo

10 I grafici: creazione e personalizzazione

Transcript:

Laboratorio di Statistica e Analisi Dati: Lezione 5 Tommaso C. & Marco G. 23-25 Novembre 2016

News Faq su come interagire con le slide.html Aggiunto link alla pagina principale IDE Corretto il calendario delle lezioni (rimossa la lezione del 7-9 dicembre)

Grafica in R Permette di generare facilmente grafici che: possono essere visualizzati in apposite finestre grafiche (nei sistemi dotati di interfaccia grafica) possono essere salvati direttamente su file in diversi formati Come avete visto durante le lezioni di teoria, la visualizzazione grafica permette di otterere subito una valutazione qualitativa dei vostri dati

Comando plot: dati Il comando che permette la generazione di un grafico è plot. Il tipo di grafico generato dipende dal tipo di argomento passato e dai parametri inseriti x = 10:110 plot(x) se x è un vettore produce un grafico dei valori del vettore rispetto ad un vettore di indici y <- 1: length(x)

Comando plot: dati (cont.) Il comando che permette la generazione di un grafico è plot. Il tipo di grafico generato dipende dal tipo di argomento passato e dai parametri inseriti x = 1:10 y = x^2 plot(x,y) se x e y sono vettori produce un grafico delle coppie ( x i, y i )

Comando plot: dati (cont.) Il comando che permette la generazione di un grafico è plot. Il tipo di grafico generato dipende dal tipo di argomento passato e dai parametri inseriti plot(m) se m è una matrice produce un grafico delle coppie ( m i,1, m i,2 )

Comando plot: dati (cont.) Il comando che permette la generazione di un grafico è plot. Il tipo di grafico generato dipende dal tipo di argomento passato e dai parametri inseriti plot(df) se df è un dataframe, produce i grafici delle distribuzioni delle variabili contenute nel data frame

N.B. Viene effettuato una prodotto cartesiano di tutte le colonne del dataframe che ad esempio con solo 6 colonne ottengo 6 2 grafici 6 = 30

Comando plot: altri argomenti (cont.) Il grafico può essere personalizzato in più modi (per tutte le opzioni digitate? plot.default). I più comuni riguadano il tipo di indicatore dei valori pche il loro colore col plot(x, y, col = 2, pch = "+")

Comando plot: altri argomenti (cont.) Il grafico può essere personalizzato in più modi (per tutte le opzioni digitate? plot.default). I più comuni riguadano il tipo di indicatore dei valori pche il loro colore col plot(x, y, col = "#000000", pch = 9) # con colori hex

Comando plot: altri argomenti (cont.) All interno del grafico è possibile impostare le etichette per gli assi (xlab, ylab), il titolo (main) e il tipo (type, se linee o punti) plot(x, y, xlab = "Sample", ylab = "Value", type = "l", main = "un plot casuale")

Comando plot: altri argomenti (cont.) All interno del grafico è possibile impostare le etichette per gli assi (xlab, ylab), il titolo (main) e il tipo (type) plot(x, y, xlab = "Sample", ylab = "Value", type = "b", col = "#FF00FF", main = "un plot casuale")

Aggiungere linee e punti plot(sort(x),y, xlab = "Sample",ylab = "Value", type = "l") abline(coef(line(x,y)), col = "#00FF00") # aggiunge una retta points(mean(x), mean(y), col= "#FF00FF" ) # aggiunge un punto line(x,y)???? coeff()???? abline()????

Aggiungere linee e punti R permette di aggiungere altri dati anche tramite il comando par(tutorial per gli interessati) par(mfrow=c(1,2)) plot(x, y, xlab = "Sample", ylab = "Value") plot(x, y1, xlab = "Sample", ylab = "Value", col = "#00FF00") Se volete che il secondo plot venga inserito all interno del primo inserite la riga

par(new = TRUE)tra le due righe contenenti il primo e il secondo plot

Salvare una figura Aprire un device grafico specificando il path del file che vorrete salvare usare la funzione plot() chiudere il device grafico jpeg("mioplot.jpg") plot(x, y, col = "#00FF00", xlab = "Sample", ylab = "Value") dev.off() ## quartz_off_screen ## 2

Salvare una figura (cont.)

Barplot Genera un grafico a barre partendo dai valori del vettore x dati <- c(10, 3, 5, 8, 4, 6) barplot(dati, main="esempio di barplot")

Barplot (cont.) Genera un grafico a barre partendo dai valori del vettore x barplot(dati, main="esempio di barplot", horiz = TRUE) Ci sono parametri che permettono di modificare a piacere il grafico

Cosa fa il comando attach()? Diagrammi a bastoncini Molto comodo per rappresentare le frequenze relative/assolute di un vettore. Si creano inserendo i punti nel grafico e successivamente aggiungendo le linee (lines( ) reddito <- read.csv("soluzioni/dataset/reddito.csv") attach(reddito) plot(table(statocivile), type = "p") lines(table(statocivile))

Cosa fa il comando attach()?

Diagrammi a bastoncini Si creano inserendo i punti nel grafico e successivamente aggiungendo le linee (lines( ) plot(table(statocivile), type = "p") lines(table(statocivile)) attach()serve per fissare il dataframe, in questo modo è possibile accedere alle componenti senza usare "$". Ricordatevi di usare detach()quando finite

di usare il dataframe

Diagrammi a bastoncini (MAI E POI MAI) Usare un diagramma a bastoncini per rappresentare le frequenze assolute/relative di valori reali (come l età, il peso, l altezza) vettore <-sample (1:150, 10000,replace = TRUE) plot(table(vettore), type = "p") lines(table(vettore))

Diagrammi ramo-foglia Sono utili quando si hanno pochi dati, perché permettono di riassumere rapidamente i dati mantenendo però tutte le informazioni di partenza Separano la parte intera di un numero da quella decimale Il numero di foglie su un ramo corrisponde alla frequenza assoluta dell intervallo dal quel ramo al ramo successivo vettore <- c(0.1, 2.5, 3.7, 3.7, 0.7, 3.7, 1.5, 1.7, 0.4, 3.6, 0.2) stem(vettore) ## ## The decimal point is at the ## ## 0 1247 ## 1 57 ## 2 5 ## 3 6777

Istogrammi Il comando hist()genera istogrammi a partire da un vettore numerico hist(x)genera un istogramma utilizzando il vettore numerico x hist(eta)

Istogrammi Il comando hist()genera istogrammi a partire da un vettore numerico hist(x, nclass = n)genera un istogramma con un numero ndi classi hist(eta, nclass = 2)

Istogrammi Il comando hist()genera istogrammi a partire da un vettore numerico hist(x, breaks = v)genera un istogramma usando i valori del vettore vcome demilitatori hist(eta, breaks = c(min(eta),20,60,88, max(eta)))

Diagrammi a bastoncini vs. Istogrammi par(mfrow=c(1,2)) vettore <-sample (1:150, 10000, replace = TRUE) plot(table(vettore), type = "p", main = "MAI!") lines(table(vettore)) hist(vettore, main = "Versione corretta")

Diagrammi a bastoncini vs. Istogrammi Nel caso di fattori non è possibile usare il comando hist(), una soluzione è fare un barplot della tabella delle frequenze par(mfrow=c(1,2)) plot(table(statocivile), type = "p") lines(table(statocivile)) barplot(table(statocivile))

Diagramma di Pareto (senza libreria qcc) Mostra insieme frequenze relative e rispettivi valori cumulati. statocivilerel <- sort(prop.table(table(statocivile)), decreasing = TRUE) statocivilecum <- cumsum(statocivilerel) # ylim mi crea un asse y da 0 a 1.3 (per avere più margine) barplot(statocivilerel, ylim = c(0,1.3), space = 0) lines(statocivilecum, type = "b")

Diagramma di Pareto (con libreria qcc) Installare la libreria tramite install.packages("qcc"), importare con library(qcc)e lanciare il comando pareto.chart(). Questo comando, oltre a visualizzare il grafico, scrive sulla consolle delle statistiche dei dati che state analizzando. pareto.chart(table(statocivile)) ##

## Pareto chart analysis for table(statocivile) ## Frequency Cum.Freq. Percentage Cum.Percent. ## Married-civ-spouse 17826 17826 39.41886692 39.41887 ## Never-married 17826 35652 39.41886692 78.83773 ## Divorced 6297 41949 13.92463845 92.76237 ## Separated 1411 43360 3.12016275 95.88254 ## Widowed 1278 44638 2.82605811 98.70859 ## Married-spouse-absent 552 45190 1.22064482 99.92924 ## Married-AF-spouse 32 45222 0.07076202 100.00000

BoxPlot Fornisce in maniera chiara una sintesi dei vostri dati numerici.

Outlier e range interquartile Gli outlier sono valori distanti dai valori osservati, nel caso di esperimenti reali possono ed esempio essere dovuti ad errori di misurazione. Uno dei modi più comuni per calcore gli outlier è usare lo scarto interquartile (IQR( ), ovvero la differenza tra il terzo Q 3 e il primo quartile Q 1 Un outlier x è un valore tale per cui x < Q 1 1.5 IQR x > Q 3 + 1.5 IQR iqr <- IQR(vettore) iqr #scarto interquantile ## [1] 17 q1 <- quantile(vettore,0.25) q1 - (iqr * 1.5) #i valori minori di questo sono outlier ## [1] 163.25 q3 <- quantile(vettore,0.75) q3 + (iqr * 1.5) #i valori maggiori di questo sono outlier ## [1] 231.25 fonti

Outlier e range interquartile I baffi ( x min, x max ) del nostro boxplot sono i valori del vettore v tali che: x min = min{x x > Q 1 1.5 IQR} x max = max{x x < Q 3 + 1.5 IQR} per calcolarli è necessario filtrare i valori e poi prendere il massimo e il minimo vettorenooutlier <- vettore[vettore < q3 + (iqr * 1.5) & vettore > q1 - (iqr * 1.5)] # valore limite superiore max(vettorenooutlier) ## [1] 227 # valore limite inferiore min(vettorenooutlier) ## [1] 171

Boxplot Per disegnare un box plot è necessario chiamare boxplot() boxplot(vettore, vettore2, main = "due vettori", names = c("vett1","vett2") )

Grafici a torta Vengono generati con il comando pie Sono molto comuni e di facile interpretazione Attenzione a non abusarne (vedi esempi successivi) # esempio usando le frequenze assolute calcolate da R pie(table(statocivile), main = "Torta degli stati civili")

Grafici a torta (cont.) Vengono generati con il comando pie Sono molto comuni e di facile interpretazione Attenzione a non abusarne (vedi esempi successivi) # esempio usando due vettori, uno di dati e uno di etichette dati <- c (4,30,15) etichette <- c("promossi", "bocciati", "orale obbligatorio") pie(dati, etichette, main = "Appello gennaio")

Grafici a torta (cont.) Possiamo specificare un vettore di colori corrispondenti ad ogni fetta Oppure una funziona automatica col=rainbow(length(dati)) # esempio usando due vettori, uno di dati e uno di etichette dati <- c (4,30,15) etichette <- c("promossi", "bocciati", "orale obbligatorio") pie(dati, etichette, main = "Appello gennaio", col = c("green", "red", "yellow"))

Grafici a torta (cont.) Nel caso di variabili numeriche con molti valori (es. età, peso, altezza) non usate i grafici a torta pie(table(eta))

Grafici a torta (cont.) Nel caso di variabili numeriche con molti valori (es. età, peso, altezza) non usate i grafici a torta pie(table(eta))

Questo è una porcata!

Grafici a torta (cont.) Soluzione: creare degli intervalli di valori e usarli per dividere i dati col comando cut usare il comando table per calcolare le frequenze degli intervalli e plottarle # creiamo un vettore che divida i dati in 3 blocchi -> lunghezza 4 vettorebreaks <- seq (from = min(eta), to = max(eta), length = 4) table(cut(eta, breaks = vettorebreaks, include.lowest = TRUE)) ## ## [17,41.3] (41.3,65.7] (65.7,90] ## 27725 16153 1344

Grafici a torta (cont.) frequenzeintervalli <- table(cut(eta, breaks = vettorebreaks, include.lowest = TRUE)) pie(frequenzeintervalli) pie(table(eta)) Impostate la lunghezza del vettore con i breaks in maniera ragionevole.

Esercizio 1 1. Scaricare e importare il dataset capelli.csv 2. Usare le funzioni predefinite di R calcolate covarianza e correlazione tra la lunghezza e le altre misure. 3. Fare dei grafici a dispersione per confermare la vostra ipotesi 4. Fare un boxplot e un istogramma della colonna della spesashampomensile, cosa li accomuna? 5. Fare un grafico a torta della probabilità di fidanzamento dividendo in 3 blocchi i dati in questo modo: nell intervallo [0, 0.3] uncool tra (0.3, 0.6] normali tra (0.6, 1] cool

Esercizio 2 (really hard) Per questo esercizio è necessario aver compreso molto bene la teoria. 1. Scaricare e importare il dataset daticlassificatore.csv 2. Visualizzare le prime 6 righe del dataframe 3. Calcore specificity e sensibility al variare della soglia. 4. Fare un plot della curva di ROC 5. Quale valore sembra ragionevole da usare come soglia per il nostro classificatore? Aiuto

Questionario