Analisi dei Gruppi con R
|
|
- Gaetano Frigerio
- 7 anni fa
- Visualizzazioni
Transcript
1 Università di Bologna - Facoltà di Scienze Statistiche Laurea Triennale in Statistica e Ricerca Sociale Corso di Analisi di Serie Storiche e Multidimensionali Prof.ssa Marilena Pillati Analisi dei Gruppi con R Francesca Marta Lilja Di Lascio francesca.dilascio@unibo.it Facoltà di Scienze Statistiche Università di Bologna 1
2 Outlines 1. Idee base e obiettivo dell analisi dei gruppi 2. Preparazione del proprio ambiente di lavoro e del dataset 3. Analisi dei gruppi con il metodo delle k medie 3.1 Il metodo delle k medie in R: la funzione kmeans 3.2 Applicazione in R (3/3) 4. Analisi dei gruppi gerarchica aggregativa 4.1 I metodi gerarchici in R: la funzione hclust 4.2 La funzione dist 4.3 L argomento method di hclust 4.4 Applicazione in R (3/3) 5. Osservazioni conclusive 2
3 1. Idee base e obiettivo dell analisi dei gruppi I metodi di classificazione sono metodi di analisi statistica multivariata utili a identificare insiemi di unità statistiche il più simili tra di loro. Il significato del concetto di somiglianza tra due unità dipende dal tipo di misura che si usa che dipende, a sua volta, dal tipo di variabili con cui si lavora: 1. per variabili quantitative: metrica di Minkowski (include la distanza euclidea e la distanza di Manhattan); 2. per variabili qualitative: coefficiente di Jaccard, coefficiente semplice,..; 3. per variabili di diversa natura: indice di Gower. Sulla base della misura scelta si crea la matrice di prossimità tra coppie di elementi da classificare che vengono inseriti nello stesso cluster in base al metodo di classificazione scelto: 1. partitivo: metodo delle k medie; 2. gerarchico: 2.1 scissorio: metodo di Edwards e Cavalli-Sforza; 2.2 aggregativo: metodo del legame singolo, del legame completo, del centroide, del legame medio, di Ward. 3
4 2. Preparazione del workspace e dei dati Copiare il file iris sp.dat dalla rete alla cartella: c://temp (o ad una sua sottocartella, ad es. AnGruppi ) Aprire la console di R e cambiare directory di lavoro direttamente dalla console di R digitando: setwd("c://temp//angruppi"); check digitando getwd() Il file iris sp.dat contiene i punteggi rilevati su 150 fiori relativi a 4 caratteristiche ritenute importanti per stabilire la specie di appartenenza del fiore. Caricare il file di dati: dati <- read.table("iris_sp.dat",sep=",",dec=".",header=t) Guardare come è fatto il dataset: dim(dati); dati[1,]; summary(dati) L obiettivo è identificare dei sottoinsiemi omogenei di dati che siano diversi tra loro. 4
5 3. Analisi dei gruppi con il metodo delle k medie Il metodo multivariato per individuare partizioni di unità statistiche in un prefissato numero k di clusters è riconducibile all insieme delle procedure delle k medie: ogni unità viene assegnata al cluster che ha, rispetto a tutti gli altri clusters, il centroide ad essa più vicino; il centroide di un cluster è il vettore delle medie delle variabili osservate sulle unità appartenenti a quel gruppo. La distanza su cui si basa tale metodo è la ben nota distanza euclidea. L algoritmo su cui si basa tale metodo è un algoritmo iterativo che, ad ogni passo, minimizza la somma delle distanze (al quadrato) degli n punti dal centroide del cluster di appartenenza. Il vettore dei centroidi iniziali viene selezionato casualmente o può essere scelto dall utente. È buona norma applicare il metodo (per uno stesso fissato numero di gruppi k) utilizzando diversi centroidi iniziali e scegliere il raggruppamento che presenta la minore somma delle devianze entro i gruppi. 5
6 3.1 Metodo delle k medie in R: la funzione kmeans La funzione kmeans permette di eseguire l analisi dei gruppi basata sul metodo delle k medie. I suoi argomenti sono nella seguente linea di comando: in cui: kmeans(x, centers, iter.max = 10, nstart=1, algorithm=c("hartigan-wong", "Lloyd", "Forgy", "MacQueen")) - x è una matrice di dati numerici o un oggetto che può essere letto come tale (per es. è un vettore o un data frame con colonne numeriche); - centers è il numero di clusters che si vogliono identificare o è un vettore di lunghezza pari al numero di clusters che contiene i valori dei centroidi iniziali (distinti). Se è un numero, allora un insieme casuale di righe distinte in x viene selezionato e usato come centers; - iter.max è il numero massimo di iterazioni permesse; - nstart è il numero di insiemi casuali sui quali far costruire la partizione; viene selezionata quella che minimizza il criterio in questione (è utilizzabile se centers è un numero); - algorithm è un character che indica il tipo di algoritmo di ottimizzazione che vogliamo usare per l analisi dei gruppi. 6
7 3.2 Applicazione in R 1/3 Utilizzare la funzione kmeans per identificare 3 clusters all interno del seguente dataset dati1 : dati1 <- dati[,1:2] dim(dati1) k1 <- kmeans(dati1, centers=3, iter.max=20, algorithm="hartigan-wong") k1 summary (k1) k1$size; k1$cluster;... L output è una lista che contiene le seguenti componenti: 1. cluster: un vettore di interi che indica il cluster di appartenenza di ogni osservazione; 2. centers: una matrice che contiene i centroidi dei clusters; 3. withinss: la somma dei quadrati delle distanze calcolate in ogni cluster; 4. size: il numero di osservazioni interne ad ogni cluster. Per una rappresentazione sintetica del raggruppamento ottenuto, digitare: table(k1$cluster) 7
8 3.2 Applicazione in R 2/3 Rappresentare graficamente i clusters generati mediante il metodo delle k medie: plot(dati1, col=k1$cluster) points(k1$centers, col=1:3, pch=8, cex=3) Osservazione 1.: Provare ad eseguire nuovamente l analisi diminuendo il numero di iterazioni: k2 <- kmeans(dati1, centers=7, iter.max=2, algorithm="hartigan-wong") k2 Osservazione 2.: Provare ad eseguire nuovamente il metodo delle k medie ponendo uguale a 2 il numero di clusters: k3 <- kmeans(dati1, centers=2) k3 x11() plot(dati1, col=k3$cluster) points(k3$centers, col=1:2, pch=8, cex=3) Notare che non sapere a priori il corretto numero di gruppi da identificare costituisce uno svantaggio di tale metodo. 8
9 3.2 Applicazione in R 3/3 Rappresentare graficamente l andamento della somma degli scarti al quadrato calcolati entro i gruppi al variare del numero dei clusters al fine di determinare il miglior numero di clusters: n <- nrow(dati1) wss <- rep(0,10) wss[1] <- (n-1)*sum(apply(dati1,2,var)) for(i in 2:10){ wss[i] <- sum(kmeans(dati1,iter.max=20,centers=i)$withinss) } plot(1:10,wss,type="b",xlab="number of groups", ylab="within groups sum of squares") Qual è il numero di clusters più appropriato? Notare che abbiamo utilizzato una nuova funzione di R: apply. 9
10 4. Analisi dei gruppi gerarchica aggregativa I metodi gerarchici aggregativi permettono di individuare raggruppamenti concatenati di unità statistiche (a partire da matrici di dimensioni contenute): una nuova unità viene accorpata alla/e precedenti se è la più vicina/simile ad esse. La distanza tra le unità statistiche può essere calcolata mediante diverse misure di distanza. Le dissimilarità tra i clusters possono essere calcolate mediante diversi metodi: la combinazione distanza/metodo più semplice è il quadrato della distanza euclidea e il metodo del centroide, caso in cui le dissimilarità tra i clusters sono calcolate come distanze euclidee al quadrato tra le medie dei clusters. Lo strumento grafico per visualizzare i raggruppamenti ai vari steps è il dendrogramma, un diagramma ad albero che, selezionato in qualunque livello di dissomiglianza, dà una partizione degli oggetti (in gruppi disgiunti). 10
11 4.1 Metodi gerarchici aggregativi in R: la funzione hclust Il comando hclust permette di eseguire l analisi dei gruppi basata sui metodi gerarchici aggregativi. I suoi argomenti sono nella seguente linea di comando: in cui: hclust(d, method="complete", members=null) - d è una matrice di dissimilarità come prodotta dalla funzione dist (per i dettagli ved. slide 4.2); - method permette di scegliere il tipo di metodo aggregativo che si vuole usare; può essere: ward, single, complete, average, mcquitty, median o centroid ; - members è NULL o un vettore di lunghezza pari a d che dà il numero di osservazioni per cluster; è utile se si vuole inizializzare l algoritmo di classificazione nel mezzo del dendrogramma. 11
12 4.2 La funzione dist L oggetto su cui R realizza l analisi dei gruppi gerarchica (aggregativa) è l oggetto creato dalla funzione dist. La linea di comando per creare tale oggetto è la seguente: in cui: dist(x, method="euclidean", diag=false, upper=false, p=2) - x è la matrice di dati o un oggetto data frame; - method permette di decidere il tipo di distanza su cui basare il calcolo; può essere euclidean, maximum, manhattan, canberra, binary o minkowski ; - diag assume valori logici che indicano se la diagonale della matrice delle distanze deve essere stampata per mezzo di print.dist; - upper assume valori logici per decidere se si vuole visualizzare la matrice di dissomiglianza in forma triangolare superiore; - p è il valore del potere della distanza di Minkowski. Si noti che method="binary" corrisponde al complemento a uno dell indice di Jaccard. 12
13 4.3 L argomento method di hclust R permette di usare, come prima accennato, diversi metodi aggregativi. Ogni metodo parte trattando ogni unità come un cluster e, poi, mediante un algoritmo iterativo, unisce, ad ogni step, i due clusters più simili fino ad ottenere un unico cluster contenente tutte le unità. Terminato l algoritmo, bisogna selezionare il numero di clusters che si ritiene più adeguato. Si ottengono gruppi con caratteristiche diverse a seconda del metodo (in letteratura chiamato anche linkage rule) che viene usato. Il metodo del legame singolo crea gruppi con forme allungate e scarsamente omogenei al loro interno; Il metodo del legame completo identifica gruppi tendenzialmente sferici; Gli altri metodi creano gruppi con caratteristiche comprese tra quelle dei clusters ottenuti mediante il metodo del legame singolo e quelle dei clusters ottenuti mediante il metodo del legame completo. 13
14 4.4 Applicazione in R (1/3) Eseguire un analisi dei gruppi gerarchica con il metodo del legame completo sui dati precedentemente analizzati ( dati1 ): dati1 <- dati[,1:2] dim(dati1) d1 <- dist(dati1, method="euclidean", diag=f, upper=f) h1 <- hclust(d1, method="complete"); h1 Rappresentare graficamente l insieme delle partizioni annidate che sono state calcolate, cioè produrre il dendrogramma; di seguito estrarre 3 clusters e rappresentarli graficamente: plot(h1, main="analisi Gerarchica con Legame Completo") h1cluster <- cutree(h1, k=3) h1cluster x11() plot(dati1, col=h1cluster, main="analisi Gerarchica con Legame Completo") Rappresentare mediante tabella il raggruppamento estratto digitando: table(h1cluster) 14
15 4.4 Applicazione in R (2/3) Tagliare il dendrogramma al livello di dissimilarità pari a 3: h1cluster.bis <- cutree(h1, h=3); table(h1cluster.bis) Ripetere la cluster gerarchica usando il metodo del legame medio e confrontare l output che si ottiene con quello ottenuto mediante il metodo del legame completo: h2 <- hclust(d1, method="ave"); h2 x11() plot(h2, main="analisi Gerarchica con Legame Medio") h2cluster <- cutree(h2, k=3); h2cluster x11() plot(dati1, col=h2cluster, main="analisi Gerarchica con Legame Medio") table(h2cluster) 15
16 4.4 Applicazione in R (3/3) Eseguire l analisi dei gruppi con il metodo del centroide e il quadrato della distanza euclidea; tagliare l albero di classificazione in 10 gruppi e ricostruire l albero dai centri dei gruppi: h3 <- hclust(dist(dati1)^2, "cen"); h3 plot(h3, main="analisi Gerarchica con il Metodo del Centroide") memb <- cutree(h3, k=10); memb cent <- NULL for(k in 1:10){ cent <- rbind(cent,colmeans(dati1[memb==k, ])) } cent h31 <- hclust(dist(cent)^2, method="cen", members=table(memb)) x11() plot(h31, main="analisi Gerarchica a partire dai centri dei 10 clusters") Infine, notare che esistono molte altre funzioni di R per eseguire un analisi dei gruppi (es.: diana) e per manipolare l output ottenuto (es.: as.dendrogram, cut e plot(h1$upper)). 16
17 In conclusione si sottolinea che 5. Osservazioni conclusive 1. I gruppi che vengono identificati dipendono da il tipo di distanza usata per creare la matrice di dissomiglianza; il tipo di metodo che viene scelto, se partitivo o aggregativo; il tipo di metodo di aggregazione (se si è scelto il metodo aggregativo). 2. Non esiste il metodo migliore ma ogni metodo ha i suoi vantaggi e svantaggi. 17
Analisi delle Componenti Principali con R
Università di Bologna - Facoltà di Scienze Statistiche Laurea Triennale in Statistica e Ricerca Sociale Corso di Analisi di Serie Storiche e Multidimensionali Prof.ssa Marilena Pillati Analisi delle Componenti
DettagliAnalisi Discriminante Canonica con R
Università di Bologna - Facoltà di Scienze Statistiche Laurea Triennale in Statistica e Ricerca Sociale Corso di Analisi di Serie Storiche e Multidimensionali Prof.ssa Marilena Pillati Analisi Discriminante
DettagliCluster Analysis. La Cluster Analysis è il processo attraverso il quale vengono individuati raggruppamenti dei dati. per modellare!
La Cluster Analysis è il processo attraverso il quale vengono individuati raggruppamenti dei dati. Le tecniche di cluster analysis vengono usate per esplorare i dati e non per modellare! La cluster analysis
DettagliAnalisi dei Fattori. Francesca Marta Lilja Di Lascio Dip.to di Scienze Statistiche P. Fortunati Università di Bologna
Università di Bologna - Facoltà di Scienze Statistiche Laurea Triennale in Statistica e Ricerca Sociale Corso di Analisi di Serie Storiche e Multidimensionali Analisi dei Fattori Francesca Marta Lilja
DettagliObiettivo: assegnazione di osservazioni a gruppi di unità statistiche non definiti a priori e tali che:
Cluster Analysis Obiettivo: assegnazione di osservazioni a gruppi di unità statistiche non definiti a priori e tali che: le unità appartenenti ad uno di essi sono il più possibile omogenee i gruppi sono
DettagliIntroduzione all analisi di arrays: clustering.
Statistica per la Ricerca Sperimentale Introduzione all analisi di arrays: clustering. Lezione 2-14 Marzo 2006 Stefano Moretti Dipartimento di Matematica, Università di Genova e Unità di Epidemiologia
DettagliIntelligenza Artificiale. Clustering. Francesco Uliana. 14 gennaio 2011
Intelligenza Artificiale Clustering Francesco Uliana 14 gennaio 2011 Definizione Il Clustering o analisi dei cluster (dal termine inglese cluster analysis) è un insieme di tecniche di analisi multivariata
DettagliMaria Brigida Ferraro + Luca Tardella
Cluster Maria Brigida Ferraro + Luca Tardella e-mail: mariabrigida.ferraro@uniroma1.it, ferraromb@gmail.com Lezione #3: Cluster Obiettivi del modulo Cluster 1 Introduzione ai problemi di classificazione
DettagliCluster Analysis Distanze ed estrazioni Marco Perugini Milano-Bicocca
Cluster Analysis Distanze ed estrazioni M Q Marco Perugini Milano-Bicocca 1 Scopi Lo scopo dell analisi dei Clusters è di raggruppare casi od oggetti sulla base delle loro similarità in una serie di caratteristiche
DettagliMetodi di classificazione. Loredana Cerbara
Loredana Cerbara I metodi di classificazione, anche detti in inglese cluster analysis, attengono alla categoria dei metodi esplorativi. Esistono centinaia di metodi di classificazione dei dati ed hanno
DettagliLA CLUSTER ANALYSIS IN R
LA CLUSTER ANALYSIS IN R 1 Cluster gerarchica 1.1 Cluster delle unità sperimentali > sanita= read.table(file.choose(), header =TRUE, row.names=2) > str(sanita) 'data.frame': 20 obs. of 6 variables: $ n
DettagliEsplorazione grafica di dati multivariati. N. Del Buono
Esplorazione grafica di dati multivariati N. Del Buono Scatterplot Scatterplot permette di individuare graficamente le possibili associazioni tra due variabili Variabile descrittiva (explanatory variable)
DettagliRiconoscimento e recupero dell informazione per bioinformatica
Riconoscimento e recupero dell informazione per bioinformatica Clustering: introduzione Manuele Bicego Corso di Laurea in Bioinformatica Dipartimento di Informatica - Università di Verona Una definizione
DettagliEsplorazione grafica di dati multivariati. N. Del Buono
Esplorazione grafica di dati multivariati N. Del Buono Scatterplot Scatterplot permette di individuare graficamente le possibili associazioni tra due variabili Variabile descrittiva (explanatory variable)
DettagliAnalisi Statistica dei Dati Misurazione e gestione dei rischi a.a. 2007-2008
Analisi Statistica dei Dati Misurazione e gestione dei rischi a.a. 2007-2008 Dott. Chiara Cornalba COMUNICAZIONI La lezione del 30 ottobre è sospesa per missione all estero del Prof. Giudici. Dal 6 Novembre
DettagliAnalisi Fattoriale con R
Università di Bologna - Facoltà di Scienze Statistiche Laurea Triennale in Statistica e Ricerca Sociale Corso di Analisi di Serie Storiche e Multidimensionali Prof.ssa Marilena Pillati Analisi Fattoriale
DettagliL A B C di R. Stefano Leonardi c Dipartimento di Scienze Ambientali Università di Parma Parma, 9 febbraio 2010
L A B C di R 0 20 40 60 80 100 2 3 4 5 6 7 8 Stefano Leonardi c Dipartimento di Scienze Ambientali Università di Parma Parma, 9 febbraio 2010 La scelta del test statistico giusto La scelta della analisi
DettagliAnalisi delle Serie Storiche con R
Università di Bologna - Facoltà di Scienze Statistiche Laurea Triennale in Statistica e Ricerca Sociale Corso di Analisi di Serie Storiche e Multidimensionali Prof.ssa Marilena Pillati Analisi delle Serie
DettagliLa matrice delle correlazioni è la seguente:
Calcolo delle componenti principali tramite un esempio numerico Questo esempio numerico puó essere utile per chiarire il calcolo delle componenti principali e per introdurre il programma SPAD. IL PROBLEMA
DettagliIntroduzione al software R
Introduzione al software R 1 1 Università di Napoli Federico II cristina.tortora@unina.it il software R Si tratta di un software molto flessibile che permette di compiere praticamente qualsiasi tipo di
DettagliClustering con Weka. L interfaccia. Prof. Matteo Golfarelli Alma Mater Studiorum - Università di Bologna. Algoritmo utilizzato per il clustering
Clustering con Weka Testo degli esercizi Prof. Matteo Golfarelli Alma Mater Studiorum - Università di Bologna L interfaccia Algoritmo utilizzato per il clustering E possibile escludere un sottoinsieme
DettagliRiconoscimento e recupero dell informazione per bioinformatica. Clustering: validazione. Manuele Bicego
Riconoscimento e recupero dell informazione per bioinformatica Clustering: validazione Manuele Bicego Corso di Laurea in Bioinformatica Dipartimento di Informatica - Università di Verona Sommario Definizione
DettagliANALISI DEI DATI PER IL MARKETING 2014
ANALISI DEI DATI PER IL MARKETING 2014 Marco Riani mriani@unipr.it http://www.riani.it LA CLASSIFICAZIONE CAP IX, pp.367-457 Problema generale della scienza (Linneo, ) Analisi discriminante Cluster Analysis
DettagliSTATISTICA LAB. Analisi dei dati con R - Ex 2. Marta Nai Ruscone. LIUC - Università Carlo Cattaneo, Castellanza STATISTICA LAB
Analisi dei dati con R - Ex 2 Marta Nai Ruscone LIUC - Università Carlo Cattaneo, Castellanza Funzioni Una funzione è un insieme di comandi elementari. In R sono disponibili un gran numero di funzioni
DettagliI modelli lineari generalizzati per la tariffazione nel ramo RCA: applicazione
I modelli lineari generalizzati per la tariffazione nel ramo RCA: applicazione Giuseppina Bozzo Giuseppina Bozzo Considerazioni preliminari La costruzione di un GLM è preceduta da alcune importanti fasi:
DettagliMATLAB Elementi di grafica Costrutti di programmazione
MATLAB Elementi di grafica Costrutti di programmazione Operazioni punto Le operazioni punto agiscono su array che abbiano le stesse dimensioni:.* prodotto elemento per elemento./ divisione elemento per
DettagliA = Quindi > b=a(:) b =
Una breve digressione. Se si vuole uscire da Matlab, occorre digitare ( come già riferito)il comando >> quit Se si vogliono utilizzare le variabili create per una successiva sessione di lavoro, prima di
DettagliCapitolo 10 - Strutture
1 Capitolo 10 - Strutture Strutture In molte situazioni, una variabile non è sufficiente per descrivere un oggetto. Ad esempio, una posizione sul piano cartesiano è identificata da due coordinate, e la
DettagliStatistica multivariata 27/09/2016. D.Rodi, 2016
Statistica multivariata 27/09/2016 Metodi Statistici Statistica Descrittiva Studio di uno o più fenomeni osservati sull INTERA popolazione di interesse (rilevazione esaustiva) Descrizione delle caratteristiche
DettagliISTITUTO SCOLASTICO COMPRENSIVO MINEO UNITA 1 I NUMERI
ISTITUTO SCOLASTICO COMPRENSIVO MINEO CURRICOLO DI MATEMATICA SCUOLA PRIMARIA classe PRIMA A-B-C INDICATORI OBIETTIVI U.D D'APPRENDIMENTO NUMERI 1) Acquisire il concetto di numero (almeno entro il 100)
DettagliMisure di diversità tra unità statistiche. Loredana Cerbara
Misure di diversità tra unità statistiche Loredana Cerbara LA DISTANZA IN STATISTICA In statistica la distanza ha un significato diverso da quello che si può intuire in altre discipline, dove, peraltro,
DettagliIntroduzione alla programmazione
Introduzione alla programmazione Risolvere un problema Per risolvere un problema si procede innanzitutto all individuazione Delle informazioni, dei dati noti Dei risultati desiderati Il secondo passo consiste
DettagliCapitolo 1. Analisi Discriminante. 1.1 Introduzione. 1.2 Un analisi discriminante Descrizione del dataset
Capitolo 1 Analisi Discriminante 1.1 Introduzione L analisi discriminante viene condotta per definire una modalità di assegnazione dei casi a differenti gruppi, in funzione di una serie di variabili fra
DettagliI metodi di Classificazione automatica
L Analisi Multidimensionale dei Dati Una Statistica da vedere I metodi di Classificazione automatica Matrici e metodi Strategia di AMD Anal Discrimin Segmentazione SI Per riga SI Matrice strutturata NO
DettagliPiccolo vademecum sull uso efficiente di Excel
Piccolo vademecum sull uso efficiente di Excel 1 ORGANIZZARE I FILE 1.1 DARE UN NOME PER OGNI VERSIONE CREATA CHE IDENTIFICHI UNIVOCAMENTE IL CONTENUTO, AGGIUNGERE DATA E ORA SE NECESSARIO Esempio: 2015_ANALISI
DettagliAnalisi dei gruppi (Cluster analysis)
Capitolo 10 Analisi dei gruppi (Cluster analysis) Partendo da un collettivo multidimensionale, l analisi dei gruppi mira ad assegnarne le unità a categorie non definite a priori, formando dei gruppi di
DettagliClustering con Weka. L interfaccia. Prof. Matteo Golfarelli Alma Mater Studiorum - Università di Bologna. Algoritmo utilizzato per il clustering
Clustering con Weka Soluzioni degli esercizi Prof. Matteo Golfarelli Alma Mater Studiorum - Università di Bologna L interfaccia Algoritmo utilizzato per il clustering E possibile escludere un sottoinsieme
DettagliRiconoscimento e recupero dell informazione per bioinformatica
Riconoscimento e recupero dell informazione per bioinformatica Clustering: metodologie Manuele Bicego Corso di Laurea in Bioinformatica Dipartimento di Informatica - Università di Verona Sommario Tassonomia
DettagliIstruzioni per l analisi in componenti principali con R
Istruzioni per l analisi in componenti principali con R Vi ricordo che in nero sono state inserite le note e in rosso le istruzioni da digitare sulla console di R Importare il dataset gelati
DettagliIl modello di regressione (VEDI CAP 12 VOLUME IEZZI, 2009)
Il modello di regressione (VEDI CAP 12 VOLUME IEZZI, 2009) Quesito: Posso stimare il numero di ore passate a studiare statistica sul voto conseguito all esame? Potrei calcolare il coefficiente di correlazione.
DettagliTRACCIA DI STUDIO. Indici di dispersione assoluta per misure quantitative
TRACCIA DI STUDIO Un indice di tendenza centrale non è sufficiente a descrivere completamente un fenomeno. Gli indici di dispersione assolvono il compito di rappresentare la capacità di un fenomeno a manifestarsi
DettagliData set relativo a 40 titolari di esercizi commerciali. Durata del percorso casa lavoro (in minuti) Numero dipendenti che lavorano nel negozio
ESERCITAZIONE 1: VARIABILI E DISTRIBUZIONI 1.TIPOLOGIA DEI DATI 2. CALCOLO DI FREQUENZE 3. RAPPRESENTAZIONE GRAFICA DI UNA VARIABILE A Roma nel 2006 è stata effettuata un indagine, tramite questionario,
DettagliProgetto Matlab N 2. Calcolo Numerico 6 CFU. Corso di Laurea in Ingegneria delle Comunicazioni 31/05/2014
Progetto Matlab N 2 Calcolo Numerico 6 CFU Corso di Laurea in Ingegneria delle Comunicazioni 31/05/2014 Procedimento 1. Scrivere una function che implementi il prodotto matrice-vettore AX con A matrice
DettagliCorso di Laurea di Scienze biomolecolari e ambientali Laurea magistrale
UNIVERSITA DEGLI STUDI DI PERUGIA Dipartimento di Chimica, Biologia e Biotecnologie Via Elce di Sotto, 06123 Perugia Corso di Laurea di Scienze biomolecolari e ambientali Laurea magistrale Corso di ANALISI
DettagliIndicatori di Posizione e di Variabilità. Corso di Laurea Specialistica in SCIENZE DELLE PROFESSIONI SANITARIE DELLA RIABILITAZIONE Statistica Medica
Indicatori di Posizione e di Variabilità Corso di Laurea Specialistica in SCIENZE DELLE PROFESSIONI SANITARIE DELLA RIABILITAZIONE Statistica Medica Indici Sintetici Consentono il passaggio da una pluralità
Dettagli<Nome Tabella>.<attributo>
Informatica Generale (AA 07/08) Corso di laurea in Scienze della Comunicazione Facoltà di Lettere e Filosofia Università degli Studi di Salerno : SQL (2) Tabelle mult., variabili, aggreg, group Prof. Alberto
DettagliCompiti tematici dai capitoli 2,3,4
Compiti tematici dai capitoli 2,3,4 a cura di Giovanni M. Marchetti 2016 ver. 0.8 1. In un indagine recente, i rispondenti sono stati classificati rispetto al sesso, lo stato civile e l area geografica
DettagliCORSO DI STATISTICA (parte 1) - ESERCITAZIONE 2
CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 2 Dott.ssa Antonella Costanzo a.costanzo@unicas.it TIPI DI MEDIA: GEOMETRICA, QUADRATICA, ARMONICA Esercizio 1. Uno scommettitore puntando una somma iniziale
DettagliStatistica per le ricerche di mercato
Statistica per le ricerche di mercato A.A. 2012/13 Dr. Luca Secondi 15. Tecniche di analisi statistica multivariata per la segmentazione del mercato Cluster Analysis 1 Cluster analysis La cluster analysis
DettagliRANKER: strumento software per il calcolo e la valutazione comparata di indici sintetici
La misurazione di fenomeni multidimensionali: indici sintetici ed esperienze a confronto RANKER: strumento software per il calcolo e la valutazione comparata di indici sintetici Giulio Barcaroli, Marco
DettagliClustering Mario Guarracino Data Mining a.a. 2010/2011
Clustering Introduzione Il raggruppamento di popolazioni di oggetti (unità statistiche) in base alle loro caratteristiche (variabili) è da sempre oggetto di studio: classificazione delle specie animali,
DettagliIl programma OCTAVE per l insegnamento dell algebra lineare nella Scuola Secondaria p. 1
Il programma OCTAVE per l insegnamento dell algebra lineare nella Scuola Secondaria R. Vitolo Dipartimento di Matematica Università di Lecce SaLUG! - Salento Linux User Group Il programma OCTAVE per l
DettagliLa sintesi delle distribuzioni
Dip. di Scienze Umane e Sociali paolo.cazzaniga@unibg.it Outline 1 Introduzione 2 3 4 Outline 1 Introduzione 2 3 4 Introduzione Analisi descrittiva monovariata: segue la raccolta dei dati e il calcolo
DettagliFondamenti di Informatica 6. Algoritmi e pseudocodifica
Vettori e matrici #1 Fondamenti di Informatica 6. Algoritmi e pseudocodifica Corso di Laurea in Ingegneria Civile A.A. 2010-2011 1 Semestre Prof. Giovanni Pascoschi Le variabili definite come coppie
DettagliRisoluzione di problemi ingegneristici con Excel
Risoluzione di problemi ingegneristici con Excel Problemi Ingegneristici Calcolare per via numerica le radici di un equazione Trovare l equazione che lega un set di dati ottenuti empiricamente (fitting
DettagliL INTERFACCIA GRAFICA DI EXCEL
Dopo l avvio del foglio elettronico apparirà un interfaccia grafica nella quale verrà aperta una nuova cartella di lavoro alla quale il PC assegnerà automaticamente il nome provvisorio di Cartel1. La cartella
DettagliLezione 6 programmazione in Java
Lezione 6 programmazione in Java Nicola Drago drago@sci.univr.it Dipartimento di Informatica Università di Verona Anteprima Le costanti I vettori Cos è un vettore Come si usa I vari tipi di vettori Esempi
Dettagli3. Matrici e algebra lineare in MATLAB
3. Matrici e algebra lineare in MATLAB Riferimenti bibliografici Getting Started with MATLAB, Version 7, The MathWorks, www.mathworks.com (Capitolo 2) Mathematics, Version 7, The MathWorks, www.mathworks.com
Dettagli1 Esercizi di Matlab. L operatore : permette di estrarre sottomatrici da una matrice assegnata. Vediamo alcuni esempi.
Esercizi di Matlab L operatore : permette di estrarre sottomatrici da una matrice assegnata. Vediamo alcuni esempi. Esempio Consideriamo la matrice A formata da n = righe e m = colonne M = 5 6 7 8. 9 0
DettagliMatrici. Matrici.h Definizione dei tipi. Un po di esercizi sulle matrici Semplici. Media difficoltà. Difficili
Matrici Un po di esercizi sulle matrici Semplici Lettura e scrittura Calcolo della trasposta Media difficoltà Calcolo del determinante Difficili Soluzione di sistemi lineari È veramente difficile? 1 Matrici.h
DettagliFondamenti di Informatica
Fondamenti di Informatica AlgoBuild: Strutture selettive, iterative ed array Prof. Arcangelo Castiglione A.A. 2016/17 AlgoBuild : Strutture iterative e selettive OUTLINE Struttura selettiva Esempi Struttura
DettagliCapitolo 8. Intervalli di confidenza. Statistica. Levine, Krehbiel, Berenson. Casa editrice: Pearson. Insegnamento: Statistica
Levine, Krehbiel, Berenson Statistica Casa editrice: Pearson Capitolo 8 Intervalli di confidenza Insegnamento: Statistica Corso di Laurea Triennale in Economia Dipartimento di Economia e Management, Università
DettagliEsercizi svolti. delle matrici
Esercizi svolti. astratti. Si dica se l insieme delle coppie reali (x, y) soddisfacenti alla relazione x + y è un sottospazio vettoriale di R La risposta è sì, perchè l unica coppia reale che soddisfa
Dettagli6) Descrivere con un diagramma a blocchi un algoritmo che legga da input due numeri ne calcoli il prodotto in termini di somme ripetute.
I due esercizi seguenti su un esempio semplice (trovare il massimo tra due o tra tre numeri) introducono la descrizione di algoritmi con diagrammi a blocchi, le strutture di controllo sequenza e condizione,
DettagliMetodi di Analisi dei Dati Sperimentali. AA 2009/2010 Pier Luca Maffettone. Elementi di Matlab
Metodi di Analisi dei Dati Sperimentali AA /2010 Pier Luca Maffettone Elementi di Matlab Sommario Introduzione Variabili Manipolazione di elementi Creazione di vettori/matrici Operazioni elementari Funzioni
DettagliLe Ricerche di Marketing rappresentano il necessario presupposto per la definizione di vincenti strategie di mercato, poiché forniscono il supporto
Le Ricerche di Marketing rappresentano il necessario presupposto per la definizione di vincenti strategie di mercato, poiché forniscono il supporto di dati affidabili e accurati alle decisioni manageriali
DettagliAnno Scolastico 2015/16 PROGRAMMAZIONE ANNUALE CLASSE PRIMA LICEO LINGUISTICO LICEO DELLE SCIENZE UMANE LICEO ECONOMICO-SOCIALE LICEO MUSICALE
LICEO LAURA BASSI - BOLOGNA Anno Scolastico 2015/16 PROGRAMMAZIONE ANNUALE CLASSE PRIMA LICEO LINGUISTICO LICEO DELLE SCIENZE UMANE LICEO ECONOMICO-SOCIALE LICEO MUSICALE MATEMATICA ARGOMENTI: GLI INSIEMI
DettagliSTATISTICA AZIENDALE Modulo Controllo di Qualità
STATISTICA AZIENDALE Modulo Controllo di Qualità A.A. 009/10 - Sottoperiodo PROA DEL 14 MAGGIO 010 Cognome:.. Nome: Matricola:.. AERTENZE: Negli esercizi in cui sono richiesti calcoli riportare tutte la
DettagliCluster Analysis (2 parte)
Cluster Analysis (2 parte) Esempio 2 Data set: Nel data set Dieta (Dieta.txt, Dieta.sav) sono contenute informazioni sul consumo medio dei principali alimenti in 16 paesi Europei. Paese Cereali (Ce) Riso
DettagliSas OnDemand for Academics & SAS e-learnings. Metodi Quantitativi per Economia, Finanza e Management
Sas OnDemand for Academics & SAS e-learnings Metodi Quantitativi per Economia, Finanza e Management Procedure Nel seguente documento saranno elencate le procedure da utilizzare nel Web Editor per poter:
DettagliProgrammazione dinamica
Programmazione dinamica Violetta Lonati Università degli studi di Milano Dipartimento di Informatica Laboratorio di algoritmi e strutture dati Corso di laurea in Informatica Violetta Lonati Programmazione
DettagliSTATISTICA 1 ESERCITAZIONE 1 CLASSIFICAZIONE DELLE VARIABILI CASUALI
STATISTICA 1 ESERCITAZIONE 1 Dott. Giuseppe Pandolfo 6 Ottobre 2014 Popolazione statistica: insieme degli elementi oggetto dell indagine statistica. Unità statistica: ogni elemento della popolazione statistica.
DettagliAnalisi delle Serie Storiche con R
Università di Bologna - Facoltà di Scienze Statistiche Laurea Triennale in Statistica e Ricerca Sociale Corso di Analisi di Serie Storiche e Multidimensionali Prof.ssa Marilena Pillati Analisi delle Serie
DettagliRiconoscimento automatico di oggetti (Pattern Recognition)
Riconoscimento automatico di oggetti (Pattern Recognition) Scopo: definire un sistema per riconoscere automaticamente un oggetto data la descrizione di un oggetto che può appartenere ad una tra N classi
Dettagli8 Introduzione MATLAB
8.1 Basi Per pulire il workspace (eliminare tutte le variabili esistenti): 1 clear Per pulire la finestra dei comandi (command window): 1 clc In MATLAB non è necessario dichiarare le variabili ed esse
DettagliFogli di Calcolo. Corso di Informatica. Fogli di Calcolo. Fogli di Calcolo. Corso di Laurea in Conservazione e Restauro dei Beni Culturali
Corso di Laurea in Conservazione e Restauro dei Beni Culturali Corso di Informatica Gianluca Torta Dipartimento di Informatica Tel: 011 670 6782 Mail: torta@di.unito.it Fogli di Calcolo il termine spreadsheet
DettagliAnalisi della varianza
1. 2. univariata ad un solo fattore tra i soggetti (between subjects) 3. univariata: disegni fattoriali 4. univariata entro i soggetti (within subjects) 5. : disegni fattoriali «misti» L analisi della
DettagliCORSO DI STATISTICA (parte 1) - ESERCITAZIONE 3
CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 3 Dott.ssa Antonella Costanzo a.costanzo@unicas.it Esercizio 1. Sintesi a cinque e misure di variabilità rispetto ad un centro Una catena di fast-food ha selezionato
DettagliIl Modello della Analisi Fattoriale Esplorativa e i Metodi di Classificazione Automatica (Analisi di Raggruppamento)
Il Modello della Analisi Fattoriale Esplorativa e i Metodi di Classificazione Automatica (Analisi di Raggruppamento) Se all interno di un insieme di informazioni articolato in una matrice di dati X si
DettagliStatistica descrittiva con R
Statistica descrittiva con R Monica Marabelli 6 Novembre 2015 Sintesi dei dati Le votazioni in matematica di 20 studenti della Yale University sono state le seguenti: 68 84 75 82 68 90 62 88 76 93 73 79
DettagliDESCRITTIVE, TEST T PER IL CONFRONTO DELLE MEDIE DI CAMPIONI INDIPENDENTI.
Corso di Laurea Specialistica in Biologia Sanitaria, Universita' di Padova C.I. di Metodi statistici per la Biologia, Informatica e Laboratorio di Informatica (Mod. B) Docente: Dr. Stefania Bortoluzzi
DettagliAnalisi della varianza a una via
Analisi della varianza a una via Statistica descrittiva e Analisi multivariata Prof. Giulio Vidotto PSY-NET: Corso di laurea online in Discipline della ricerca psicologico-sociale SOMMARIO Modelli statistici
DettagliPROBLEMI ALGORITMI E PROGRAMMAZIONE
PROBLEMI ALGORITMI E PROGRAMMAZIONE SCIENZE E TECNOLOGIE APPLICATE CLASSE SECONDA D PROGRAMMARE = SPECIFICARE UN PROCEDIMENTO CAPACE DI FAR SVOLGERE AD UNA MACCHINA UNA SERIE ORDINATA DI OPERAZIONI AL
DettagliExcel. Il foglio di lavoro. Il foglio di lavoro Questa viene univocamente individuata dalle sue coordinate Es. F9
Excel Un foglio di calcolo o foglio elettronico è un programma formato da: un insieme di righe e di colonne visualizzate sullo schermo in una finestra scorrevole in cui è possibile disporre testi, valori,
DettagliRappresentazione degli algoritmi
Rappresentazione degli algoritmi Universitá di Ferrara Ultima Modifica: 21 ottobre 2014 1 1 Diagramma di flusso Utilizzare il diagramma di flusso per rappresentare gli algoritmi che risolvono i seguenti
DettagliTest di ipotesi. Test
Test di ipotesi Test E una metodologia statistica che consente di prendere una decisione. Esempio: Un supermercato riceve dal proprio fornitore l assicurazione che non più del 5% delle mele di tipo A dell
DettagliUNITÀ DIDATTICA N. 1 IL NUMERO
UNITÀ DIDATTICA N. 1 IL NUMERO Rappresentare, leggere, scrivere e operare con i numeri naturali e decimali avendo la consapevolezza del valore posizionale delle cifre. Operare con le potenze del 10. Interpretare
DettagliStatistica descrittiva con R
Statistica descrittiva con R Silvia Parolo 21 Novembre 2014 Sintesi dei dati Le votazioni in matematica di 20 studenti della Yale University sono state le seguenti: 68 84 75 82 68 90 62 88 76 93 73 79
DettagliAnalisi delle corrispondenze
Capitolo 11 Analisi delle corrispondenze L obiettivo dell analisi delle corrispondenze, i cui primi sviluppi risalgono alla metà degli anni 60 in Francia ad opera di JP Benzécri e la sua equipe, è quello
DettagliEsercitazione 2 Classificazione dei Temi
Esercitazione 2 Classificazione dei Temi CdL Riassetto del Territorio e Tutela del Paesaggio (RTTP) Università degli Studi di Padova 1 Argomenti 1. Classificazione di un tema Introduzione 2. Metodi di
DettagliPIANO DI STUDIO DELLA DISCIPLINA MATEMATICA e COMPLEMENTI di MATEMATICA
Tel. 0331635718 fax 0331679586 info@isisfacchinetti.it www.isisfacchinetti.it ISIS C.Facchinetti Sede: via Azimonti, 5 21053 Castellanza Modulo Gestione Qualità UNI EN ISO 9001 : 2008 PIANO STUDIO DELLA
DettagliGrafici. 1 Generazione di grafici a partire da un foglio elettronico
Grafici In questa parte analizzeremo le funzionalità relative ai grafici. In particolare: 1. Generazione di grafici a partire da un foglio elettronico 2. Modifica di un grafico 1 Generazione di grafici
DettagliIl campionamento e l inferenza. Il campionamento e l inferenza
Il campionamento e l inferenza Popolazione Campione Dai dati osservati mediante scelta campionaria si giunge ad affermazioni che riguardano la popolazione da cui essi sono stati prescelti Il campionamento
DettagliMicrosoft Access (parte 5) Query. Query. Query. Query. Creare una query
Microsoft Access (parte 5) Anno accademico: 2008-2009 Per estrarre informazioni da un database si utilizzano delle query : procedure di interrogazione Si può creare più query per ogni tabella Occorre avere
DettagliExcel. È data la distribuzione di 1863 famiglie italiane secondo il numero di componenti:
Excel È data la distribuzione di 1863 famiglie italiane secondo il numero di componenti: Calcolare per ogni classe della distribuzione: (a) le frequenze relative; Sia data la distribuzione degli studenti
DettagliSOTTOSPAZI E OPERAZIONI IN SPAZI DIVERSI DA R n
SPAZI E SOTTOSPAZI 1 SOTTOSPAZI E OPERAZIONI IN SPAZI DIVERSI DA R n Spazi di matrici. Spazi di polinomi. Generatori, dipendenza e indipendenza lineare, basi e dimensione. Intersezione e somma di sottospazi,
DettagliCURVE DI DURATA: Introduzione e Rappresentazione analitica
CURVE DI DURATA: Introduzione e Rappresentazione analitica Premesse Si definisce durata di una portata Q riferita ad una sezione di misura, l'intervallo di tempo in cui le portate naturali del corso d
Dettaglix, y rappresenta la coppia di valori relativa La rappresentazione nel piano cartesiano dei punti ( x, y ),( x, y ),...,( x, y )
Università degli Studi di Basilicata Facoltà di Economia Corso di Laurea in Economia Aziendale - a.a. 0/03 lezioni di statistica del 5 e 8 aprile 03 - di Massimo Cristallo - A. Le relazioni tra i fenomeni
DettagliSISTEMI LINEARI. x y + 2t = 0 2x + y + z t = 0 x z t = 0 ; S 3 : ; S 5x 2y z = 1 4x 7y = 3
SISTEMI LINEARI. Esercizi Esercizio. Verificare se (,, ) è soluzione del sistema x y + z = x + y z = 3. Trovare poi tutte le soluzioni del sistema. Esercizio. Scrivere un sistema lineare di 3 equazioni
DettagliTelerilevamento. Esercitazione 5. Classificazione non supervisionata. Apriamo l immagine multi spettrale relativa alla zona di Feltre che si trova in:
Telerilevamento Esercitazione 5 Classificazione non supervisionata Lo scopo di questa esercitazione è quella di effettuare una classificazione non supervisionata di un immagine SPOT5 acquisita sull area
Dettagli