CPU Performance: Regressione multipla e Analisi Cluster in Matlab

Dimensione: px
Iniziare la visualizzazioe della pagina:

Download "CPU Performance: Regressione multipla e Analisi Cluster in Matlab"

Transcript

1 CPU Performance: Regressione multipla e Analisi Cluster in Matlab Alberto Lusoli Abstract Il seguente documento, illustra le tecniche utilizzate nell analisi del dataset CPU Performance. Gli scopi dello studio erano di scoprire le relazioni esistenti tra le caratteristiche delle CPU e le loro prestazioni e di partizionare il Dataset in cluster i più possibili omogenei. L analisi è stata condotta con l ausilio del software MATLAB ed applicando le tecniche della regressione multipla e dell analisi cluster. Oltre alle normali funzioni della Toolbox Statistic, sono state utilizzate funzioni incluse nella toolbox jplv7.

2 Introduzione Che relazione esiste tra quantità di memoria e capacità di elaborazione di un calcolatore? Le prestazioni di una CPU da quali parametri dipendono? Attraverso lo studio del dataset CPU Performances abbiamo cercato di dare una risposta a questi interrogativi. L analisi è stata effettuata su un campione di 09 CPU, ognuna caratterizzata da 10 variabili, con l ausilio del software MATLAB. L analisi comprende lo studio della regressione, con selezione del modello applicando la tecnica Backward Elimination, selezionando le variabili in base alla significatività. Assieme alla stima dei parametri dei regressori, sono stati condotti test per controllare l omoschedasticità, l autocorrelazione e la distribuzione normale dei residui, la multicollinearità e la stabilità dei regressori. Per quanto riguarda l analisi Cluster, il Dataset è stato partizionato utilizzando algoritmi di natura gerarchica agglomerativa e partitiva (K Means). La migliore partizione, in entrambi i casi, è stata ottenuta valutando il Variance Ratio Criterion. Sono stati utilizzati gli strumenti grafici messi a disposizione da Matlab per visualizzare dendogrammi, cluster k means, istogrammi e box plot delle variabili. Il k-means è stato ripetuto una seconda volta considerando solamente le componenti principali. Descrizione dei dati Il dataset CPU Performance è composto da una tabella di 09 righe e 10 colonne. Le prime colonne contengono il nome del produttore ed il nome della CPU. Le colonne dalla 3 alla 8 contengono le caratteristiche della CPU utilizzate nel modello di regressione. La colonna 9 contiene un numero indicante le prestazioni della CPU, secondo quanto dichiarato dai costruttori. La colonna 10 contiene una valutazione delle prestazioni delle CPU, ottenuta tramite regressione lineare in uno studio effettuato sullo stesso Dataset da Kibler,D. & Aha,D. (1988). Numero Colonna Nome 1 Vendor Name Model Name 3 MYCT 4 MMIN 5 MMAX 6 CACH 7 CHMIN 8 CHMAX 9 PRP 10 ERP Tabella 1 - Elenco nomi attributi 1. Vendor Name: Nome del produttore della CPU. Attributo di tipo testuale. Assume 30 diversi valori: (adviser, amdahl,apollo, basf, bti, burroughs, c.r.d, cambex, cdc, dec, dg, formation, four-phase, gould, honeywell, hp, ibm, ipl, magnuson, microdata, nas, ncr, nixdorf, perkin-elmer, prime, siemens, sperry, sratus, wang).

3 3. Model Name: Nome del modello della CPU. Attributo di tipo tesuale. 3. MYCT (machine cycle time): Misura espressa in Nano secondi. Tempo impiegato per un ciclo di Clock. Se il Clock indica il numero di operazioni che la CPU è in grado di eseguire in 1 secondo, il Cycle time è inversamente proporzionale al Clock. Maggiore il cycle time, minore il Clock. Attributo di tipo numerico. 4. MMIN (minimum main memory in kilobytes): Misura espressa in KiloBytes. Quantità minima di informazione che la CPU è in grado di memorizzare. Attributo di tipo numerico. 5. MMAX (maximum main memory in kilobytes): Misura espressa in KiloBytes. Quantità massima di informazione che la CPU è in grado di memorizzare. Attributo di tipo numerico. 6. CACH (cache memory in kilobytes): Misura espressa in KiloBytes. La cache permette di caricare al suo interno più di una locazione di memoria. Questo significa avere la possibilità di memorizzare all interno della memoria della CPU, non solo l istruzione da eseguire, ma anche le istruzioni successive, evitando di dover accedere alle memorie esterne alla CPU. 7. CHMIN (minimum channels in units): Numero minimo di Canali o comunemente chiamati Bus, permettono alla CPU di comunicare con gli altri componenti dell elaboratore. Attributo di tipo numerico. 8. CHMAX (maximum channels in units): Numero massimo di Canali o comunemente chiamati Bus, permettono alla CPU di comunicare con gli altri componenti dell elaboratore. Attributo di tipo numerico. 9. PRP (published relative performance): Numero fornito dal costruttore che esprime la potenza del calcolatore. 10. ERP (estimated relative performance): Stima della potenza del calcolatore ottenuta da Kibler,D. & Aha,D. attraverso la regressione lineare, in uno studio del Modello di regressione multipla Lo studio del Dataset ci ha permesso di capire quali caratteristiche influenzano maggiormente la capacità di elaborazione di una CPU (attributo 9, PRP). Per individuare tali variabili, abbiamo eseguito una regressione multipla includendo nel modello una variabile per volta. Y = " 0 + " 1 x 1 + " x + " 3 x 3 + " 41 x 41 + " 51 x 51 + " 61 x 6 + u (I ) Nell effettuare la regressione multipla abbiamo deciso di analizzare le prestazioni delle CPU attraverso lo studio delle sei variabili MYCT, MMIN, MMAX, CACH, CHMIN., CHMAX. Abbiamo volutamente escluso dall analisi la colonna 10 del dataset, cioè ERP, che corrisponde alla potenza stimata tramite regressione lineare da Kibler,D. & Aha,D in uno studio del Per determinare la capacità del modello di spiegare il fenomeno in esame, vale a dire la potenza della CPU (attributo 9, PRP), abbiamo calcolato di volta in volta il coefficiente di determinazione multipla R : R = ESS TSS = TSS " RSS TSS =1" RSS TSS (II )

4 4 ESS=Explainded Sum of Square RSS=Residual Sum of Square TSS=Total Sum of Square R Può assumere un valore compreso tra: 0 < R <1 L indice R è uno dei più diffusi indicatori della bontà della regressione poiché esprime con immediatezza quanta parte della variabilità complessiva del fenomeno Y, che si intende spiegare tramite X, si può attribuire al legame lineare stimato mediante la retta di regressione; per contro 1- R esprime la parte di variabilità che la regressione stimata non riesce a spiegare e che va, quindi, attribuita a tutte le cause sintetizzate nella v.c. errori (1). Tuttavia, quando si ricorre ad un modello di regressione multipla, è opportuno fare uso di un indice che tenga conto anche del numero di variabili esplicative incluse nel modello e dell ampiezza del campione, l r corretto. L r corretto è dato dalla seguente espressione: R corr n= Numero di osservazioni p=numero di variabili incluse nel modello Di seguito riportiamo i valori assunti da Variabili inserite nel modello (III ) # n "1 & =1" %(1" R ) ( $ n " p "1' R e da Indice R R corr (IV ) per ogni variabile inserita: Indice MYCT 0,0943 0,0899 MYCT MMIN MYCT MMIN MMAX MYCT MMIN MMAX CACH 0,6337 0,630 0,798 0,7898 0,8319 0,886 R corr MYCT MMIN MMAX CACH CHMIN 0,8345 0,8305

5 5 MYCT MMIN MMAX CACH CHMIN CHMAX 0,8649 0,8609 Tabella - Valori coefficiente di determinazione normale e corretto al variare del numero di variabili inserite nel modello Il grafico ottenuto riportando sull asse delle Y i valori assunti da sull asse delle X il numero di variabili inserite, mostra l andamento di variare del numero di variabili inserite nel modello. e da R e di R R corr R corr e al Figura 1 - Andamento del coefficiente di determinazione, normale e corretto, al variare del numero di variabili inserite R corr L andamento crescente di R e di indica che ogni variabile inserita nel modello, contribuisce positivamente nello spiegare il fenomeno Y. Ovviamente R corr indicato nel grafico da una x rossa, assumerà valori sempre inferiori rispetto a R dato che viene corretto per il numero di variabili inserite. Per la scelta del modello ci siamo affidati al metodo Backward Elimination. Abbiamo inizialmente incluso tutte le variabili, stimato R e R corr, poste le ipotesi: H 0 : " i = 0 H 1 : " i # 0 Dato che il test è a code, abbiamo eliminato le variabili con p-value > 0,05. Dall elaborazione di MATLAB abbiamo ottenuto i seguenti valori: Variabile (V ) " Stimato t statistic p-value Intercetta MYCT MMIN MMAX CACH CHMIN

6 6 CHMAX Tabella 3 - Coefficiente stimato e significatività di tutte le variabili Dalla tabella 3, possiamo osservare che la variabile CHMIN, vale a dire il numero minimo di BUS di comunicazione posseduti da una CPU, non influisce in modo significativo sul modello. Il suo p-value è superiore al livello di significatività fissato, 0,05, perciò cade nella regione di non rifiuto dell ipotesi nulla. () Figura - Regione di rifiuto per p value > 0,05 Osservando la figura 1, notiamo che l incremento di R e di R corr quando si aggiunge la variabile 5 è minimo. Calcoliamo nuovamente la regressione escludendo quindi la variabile CHMIN. Variabile " Stimato t statistic p-value Intercetta MYCT MMIN MMAX CACH CHMAX Tabella 4 - Coefficiente stimato e significatività di tutte le variabili incluse nel modello definitivo Nella seconda regressione stimata tutte le variabili risultano significative. Ripetiamo il calcolo di R e di considerando solo le variabili significative: R corr Figura 3 - Andamento del coefficiente di determinazione, normale e corretto, al variare del numero di variabili inserite

7 7 I valori assunti da R e da R corr nel modello definitivo sono: Variabili inserite nel modello Indice R Indice MYCT 0,0943 0,0899 MYCT 0,6337 0,630 MMIN MYCT MMIN MMAX MYCT MMIN MMAX CACH MYCT MMIN MMAX CACH CHMAX 0,798 0,7898 0,8319 0,886 0,8648 0,8615 R corr Tabella 5 - Andamento coefficienti di determinazione al variare del numero di variabili inserite Il test f, condotto sull intera regressione ci ha restituito un p-value uguale a 0, questo significa che il modello scelto è valido. Il coefficiente di determinazione indica che 86,15% della variabilità della Y è spiegato dall insieme delle variabili indipendenti. p-value Test f R R corr Durbin Watson 0 0,8648 0,8615 1,1994 Tabella 6 - Statistiche relative al modello di regressione Il valore Durbin Watson uguale a 1,1994 non ci permette di sapere se tra i residui vi è autocorrelazione. Non avendo a che fare con dati temporali possiamo supporre che non siamo in presenza di autocorrelazione. Visualizziamo quindi i valori assunti dalla Y e i valori stimati dalla regressione: Figura 4 - Andamento valori reali e stimati di Y

8 8 E il relativo andamento dei residui. Figura 5 - Andamento dei Residui Il grafico della dispersione dei residui ci permettere di condurre un analisi grafica per determinare la presenza di eteroschedasticità. Analizzando il grafico, a parte la presenza sporadica di qualche osservazione Outlier, possiamo affermare che la varianza dei residui è costante. Figura 6 - Dispersione dei Residui Con il seguente grafico evidenziamo in rosso le osservazioni Outliers. Dal confronto con il grafico precedente, notiamo che i residui più lontani dalla media 0 corrispondono ai valori outliers evidenziati nella figura 6. Figura 7 - Valori Outliers

9 9 Proseguiamo l analisi controllando se i residui si distribuiscono secondo una normale. L analisi è stata condotta utilizzando il Jarque Bera Test ed il Lillie Test. In entrambi i casi abbiamo constatato che i residui non si distribuiscono secondo una normale. Si è quindi proceduto effettuando una trasformazione logaritmica dei residui, ma ancora una volta il test ci ha confermato la non normalità della distribuzione dei residui. Gli istogrammi illustrano la distribuzione dei residui e la distribuzione del logaritmo dei residui. Figura 8 - Distribuzione dei Residui Figura 9 - Distribuzione logaritmo dei residui Uno dei problemi che si può presentare nell analisi di un modello di regressione multipla è la multicollinearità delle variabili esplicative, che consiste nella presenza di una elevata correlazione tra le variabili esplicative. In questo caso, le variabili collineari non forniscono delle informazioni aggiuntive e risulta difficile individuare l effetto che ciascuna di esse ha sulla variabile risposta. I valori dei coefficienti di regressione per queste variabili potrebbero variare in maniera elevata a seconda di quali variabili indipendenti sono incluse nel modello. Un metodo per la misurazione della multicollinearità si basa sul Variance Inflationary Factor (VIF), che si può calcolare per ciascuna delle variabili esplicative. Il VIFj corrispondente alla variabile j, è di seguito definito (3).

10 VIF j = 1" R j R j è il coefficiente di determinazione che caratterizza il modello in cui la variabile dipendente è Xj e tutte le altre variabili esplicative sono incluse nel modello. Per il calcolo del VIF abbiamo utilizzato in MATLAB un ciclo ricorsivo che ci ha permesso di calcolare il VIF per ciascuna variabile. (VI ) Variabile VIF MYCT MMIN.7386 MMAX CACH CHMIN Tabella 7 - Variabili e VIF, Variance Inflactionary Factor La teoria insegna che se le variabili non sono correlate il VIF è uguale a 1. Nel nostro caso le variabili non superano il 3,036, quindi essendo inferiori di 5 possiamo considerare le variabili non collineari. L ultimo test eseguito sul nostro Dataset è stato il test di Chow per verificare la stabilità dei coefficienti " per l intero periodo campionario. Il test consiste nel dividere il periodo campionario in sottoperiodi, effettuare la regressione su entrambi i sottoperiodi e calcolare i rispettivi Residual Sum of Square.(RSS). Dopodichè si applica la formula: Chow = RSS " (RSS " RSS ) 1 RSS 1 + RSS RSS = Residual Sum of Square per l intero periodo RSS 1 = Residual Sum of Square per il primo sottoperiodo RSS = Residual Sum of Square per il secondo sottoperiodo T= Numero di osservazioni k=numero di regressori # T " k k Si esegue il test di ipotesi. Se il valore della statistica test è maggiore del valore critico della distribuzione F, che è F(k, T-k), si rifiuta l ipotesi nulla che i parametri siano stabili nel tempo. (VII ) H 0 = Parametri stabili H 1 = Parametri non stabili (VIII ) Nel nostro caso i valori ottenuti sono stati: RSS = 7,78"10 5 RSS 1 =,040 "10 5 RSS =,8437"10 5 Chow= 19,498 Valore critico f(5,197)=,599

11 11 Essendo 19,498 >,59, si rifiuta l ipotesi nulla che i coefficienti sono gli stessi nei due sottoperiodi. Analisi Cluster Il processo di clustering è finalizzato all individuazione di gruppi omogenei di osservazioni. Tali gruppi devono essere il più possibile eterogenei tra loro. Il processo di Clustering comincia con l analisi delle variabili che caratterizzano l oggetto di studio, nel nostro caso la CPU. Nel nostro caso si è tenuto conto delle seguenti caratteristiche: Numero Colonna Nome 1 Vendor Name Model Name 3 MYCT 4 MMIN 5 MMAX 6 CACH 7 CHMIN 8 CHMAX 9 PRP Tabella 8 - Caratteristiche utilizzate per Clustering L analisi delle variabili è stata condotta in maniera visuale grazie alle potenzialità grafiche di Matlab. Cominciamo mostrando gli istogrammi in frequenza delle variabili in esame: Figura 10 - Istogrammi in frequenza delle variabili

12 1 Gli istogrammi ci permettono di osservare che tutte le variabili in esame abbiano una distribuzione asimmetrica a destra. In secondo luogo mostriamo i Box Plot per evidenziare la dispersione, la simmetria e la presenza di valori anomali nelle distribuzioni delle variabili: Figura 11 - Box Plot delle variabili Il box plot ci permette di individuare i valori anomali per ogni variabile. Possiamo notare che vi sono molti valori estremi nella variabile 7 cioè PRP, la potenza del calcolatore. Una volta analizzate le variabili, abbiamo proceduto con il primo algoritmo di clustering: il Clustering Gerarchico. Prima di procedere con la partizione del Dataset è stato necessario scegliere la migliore combinazione di misura di distanza e tipo di legame. Per valutare la migliore combinazione, abbiamo utilizzato il coefficiente Cofenetico. Il coefficiente cofenetico può assumere valori compresi tra 0 e 1. Maggiore è il coefficiente cofenetico, migliore risulterà il clustering. Questi i dati relativi alle possibili combinazioni: Funzione di Distanza Tipo di Legame Coefficiente Cofenetico Euclidea Ward Euclidea Completo Euclidea Medio City Block Ward City Block Completo City Block Medio Tabella 9 - Legame, Distanza e Coefficienti Cofenetici

13 13 La combinazione che massimizza il coefficiente cofenetico è quella formata da funzione di distanza Euclidea e legame Medio. Dopo aver selezionato il tipo di legame e la funzione di istanza, abbiamo effettuato il clustering ed visualizzato il dendogramma relativo: Figura 1 - Dendogramma clustering gerarchico Il dendogramma ci permette di visualizzare le divisioni operate sul Dataset. Inoltre ci può aiutare nel determinare il numero ottimale di Clustering. Per ottenere gruppi di dati significativi, la regola generale è quella di tagliare alla radice i rami del dendogramma più lunghi. Oltre all analisi del dendogramma, un altro metodo per la scelta del numero ottimale di partizioni è il Variance Ratio Criterion (VRC). Il VRC è definito come: f (G,X nxp ) = tr(b)= Traccia matrice varianza Between tr(w )= Traccia matrice varianza Within n= Numero di osservazioni g= Numero di gruppi tr(b) /(g "1) tr(w ) /(n " g) Maggiore è il valore del VRC, migliore sarà l analisi Cluster in termini di omogeneità interna ai cluster ed eterogeneità esterna. Per la selezione del numero ottimale di cluster, abbiamo considerato sia la tecnica della massimizzazione del VRC, sia la tecnica di analisi del dendogramma. Abbiamo quindi deciso di dividere il dataset in, 3, 4 e 5 cluster e di selezionare la partizione con il VRC maggiore. La scelta di non operare (IX )

14 14 clustering con più di 5 partizioni è dovuta dal fatto che al di sotto di tale livello, i rami del dendogramma assumono lunghezze troppo piccole. Figura 13 - Dendogramma e numero di Cluster Utilizzando un ciclo ricorsivo in Matlab abbiamo ottenuto i seguenti valori di VRC: Numero Cluster VRC Tabella 10 - Numero Cluster e VRC La suddivisione del Dataset con VRC maggiore è quella che prevede 5 Cluster. Questi 5 Cluster sono cosi composti: Cluster Numero n. osservazioni contenute % osservazioni contenute ,46% 41 19,6% 3 1 0,48% 4 3 1,44% ,00% Tabella 11 - Suddivisione osservazioni in 5 Cluster Il VRC e l analisi del dendogramma ci permette di affermare che tale divisione in 5 Cluster è quella che soddisfa al meglio il nostro bisogno di partizionamento.

15 15 Il secondo approccio adottato per il clustering è stato di tipo partitivo, nello specifico abbiamo utilizzato il procedimento k-means. Il procedimento k means si basa su 4 semplici operazioni che vengono ripetute fino a quando non si ottiene un clustering soddisfacente: 1. Si determinano il numero n dei gruppi da creare. Sono presi dal dataset n elementi che saranno considerati centroidi dei rispettivi gruppi.. Ogni elemento nel dataset viene incluso nel gruppo in cui la distanza euclidea con il centroide è minore 3. Sulla base dei gruppi appena formati si ricalcolano i centroidi 4. Si riparte dal punto fino a quando tutti gli elementi non sono assegnati in maniera definitiva ad un gruppo Non conoscendo a priori il numero corretto di Cluster, abbiamo deciso di procedere a diverse analisi, ognuna con un diverso numero di Cluster. Come nell approccio gerarchico, abbiamo considerato le analisi in,3,4 e 5 cluster e abbiamo scelto la migliore sulla base del Variance Ratio Criterion (VRC). I dati ottenuti sono riportati in tabella: Numero Cluster Cluster ID n. osservazioni contenute % osservazioni contenute , , , , , , , , , , , , , ,74 Tabella 1 - Numero Cluster, divisione delle osservazioni e VIF Dopo aver valutato il VRC di ciascuna divisione, quella in 3 Cluster risulta essere la migliore. Di seguito mostriamo graficamente come le osservazioni si distribuiscono nei 3 gruppi: VRC

16 16 Figura 14 - Suddivisione delle osservazioni in Clustering a 3 gruppi E la relativa matrice di scatterplots: Figura 15 - Matrice Scatterplots per clustering a 3 gruppi Il passo successivo è stato l analisi delle componenti principali. L analisi delle componenti principali è una tecnica classica multivariata che consente di ridurre il

17 17 numero di variabili o caratteri associati ad ogni oggetto che descrivono il profilo degli oggetti concentrando gran parte dell informazione in un numero ristretto di nuove variabili (componenti principali). Tale tecnica porta alla ricerca della riduzione ottimale della matrice di partenza, in grado di conservare il massimo contenuto informativo e quindi la struttura relazionale esistente fra gli oggetti nella matrice dei dati nel minor (4 ) numero possibile di componenti. Con l ausilio del software Matlab abbiamo individuato le componenti principali e la percentuale di varianza spiegata da ciascuna componente. Componente principale % varianza spiegata Tabella 13 - Componenti principali e varianza spiegata Lo scree plot ci permette di mostrare graficamente il contributo di ciascuna componente principale nello spiegare la varianza: Figura 16 - Scree Plot componenti principali Per la scelta delle componenti principali, abbiamo fissato un limite inferiore q, alla quota di varianza spiegata dalle prime r componenti. Tale limite inferiore è stato fissato al valore 0,7. Questo significa che andremo a considerare solamente le prime componenti principali dato che: 59, ,8878 = 71,5480% > 70% (X )

18 18 Dopo aver selezionato le componenti principali, abbiamo eseguito nuovamente l analisi cluster con il metodo k-means. Abbiamo utilizzato lo stesso numero di cluster utilizzato in precedenza cioè 3. Abbiamo ottenuto i seguenti risultati: Numero Cluster 3 Cluster ID n. osservazioni contenute % osservazioni contenute ,99% 56 6,79% ,% Tabella 14 - Clustering in 3 gruppi delle componenti principali VRC L output grafico di Matlab ci aiuta a comprendere meglio la composizione dei 3 cluster: Figura 17 - Clustering in 3 gruppi delle componenti principali Conclusioni I risultati ottenuti ci suggeriscono quali sono i caratteri più importanti da valutare nel determinare la potenza di una CPU. La componente che più influisce sulle prestazioni è il l ampiezza del BUS di collegamento con le altre parti del calcolatore. CPU caratterizzate da un elevato parallelismo, vale a dire che possiedono una ampiezza di BUS elevata, avranno prestazioni superiori rispetto a CPU dotate di BUS con ampiezza inferiore. Il secondo elemento da considerare nel valutare la potenza di una CPU è la

19 19 quantità di memoria Cache posseduta. I risultati del nostro studio contrastano con l attuale tendenza che porta a valutare la potenza delle CPU solamente in base al Clock. Con l analisi cluster abbiamo individuato 5 gruppi con il procedimento gerarchico e 3 gruppi con il procedimento k-means. I dati riassuntivi di ciascun gruppo sono riportati di seguito: ID Gruppo MYCT MMIN MMAX CACH CHMIN CHMAX PRP Min Max Medio Min Max Medio Min Max Medio Min Max Medio Min Max Medio Tabella 15 - Statistiche Cluster Gerarchico Figura 10 - Boxplot cluster gerarchici su attributo PRP

20 0 I Cluster ottenuti rappresentano gruppi di processori dalle caratteristiche simili. Il valore medio dell indice delle prestazioni PRP ci può indicare la fascia in cui rientra la CPU. Processori più potenti apparterranno alla fascia 4, i meno potenti alla fascia 1. Il gruppo 3 ha chiaramente 1 solo elemento al suo interno, tale osservazione rappresenta un outlier e date le sue caratteristiche particolari crea un gruppo a parte. ID Gruppo 1 3 MYCT MMIN MMAX CACH CHMIN CHMAX PRP Min Max Medio Min Max Medio Min Max Medio Tabella 16 - Statistiche Clustering k-means Figura 11 - Boxplot cluster k-means su attributo PRP I cluster ottenuti con il procedimento k-means sono solamente 3. In questo caso, il gruppo 3 contiene le CPU con elevate prestazioni mentre il gruppo CPU con prestazioni modeste.

21 1 Bibliografia (1) Levine et Al Cap.10 () Figura tratta da: Levine et Al Cap.10 (3) Levine et Al Cap.10 (4 ) Cap.3 Cluster

Capitolo 12 La regressione lineare semplice

Capitolo 12 La regressione lineare semplice Levine, Krehbiel, Berenson Statistica II ed. 2006 Apogeo Capitolo 12 La regressione lineare semplice Insegnamento: Statistica Corso di Laurea Triennale in Economia Facoltà di Economia, Università di Ferrara

Dettagli

Statistica. Lezione 6

Statistica. Lezione 6 Università degli Studi del Piemonte Orientale Corso di Laurea in Infermieristica Corso integrato in Scienze della Prevenzione e dei Servizi sanitari Statistica Lezione 6 a.a 011-01 Dott.ssa Daniela Ferrante

Dettagli

RAPPRESENTAZIONE GRAFICA E ANALISI DEI DATI SPERIMENTALI CON EXCEL

RAPPRESENTAZIONE GRAFICA E ANALISI DEI DATI SPERIMENTALI CON EXCEL RAPPRESENTAZIONE GRAFICA E ANALISI DEI DATI SPERIMENTALI CON EXCEL 1 RAPPRESENTAZIONE GRAFICA Per l analisi dati con Excel si fa riferimento alla versione 2007 di Office, le versioni successive non differiscono

Dettagli

Regressione Mario Guarracino Data Mining a.a. 2010/2011

Regressione Mario Guarracino Data Mining a.a. 2010/2011 Regressione Esempio Un azienda manifatturiera vuole analizzare il legame che intercorre tra il volume produttivo X per uno dei propri stabilimenti e il corrispondente costo mensile Y di produzione. Volume

Dettagli

Excel Terza parte. Excel 2003

Excel Terza parte. Excel 2003 Excel Terza parte Excel 2003 TABELLA PIVOT Selezioniamo tutti i dati (con le relative etichette) Dati Rapporto tabella pivot e grafico pivot Fine 2 La tabella pivot viene messa di default in una pagina

Dettagli

Esercitazione #5 di Statistica. Test ed Intervalli di Confidenza (per una popolazione)

Esercitazione #5 di Statistica. Test ed Intervalli di Confidenza (per una popolazione) Esercitazione #5 di Statistica Test ed Intervalli di Confidenza (per una popolazione) Dicembre 00 1 Esercizi 1.1 Test su media (con varianza nota) Esercizio n. 1 Il calore (in calorie per grammo) emesso

Dettagli

Relazioni statistiche: regressione e correlazione

Relazioni statistiche: regressione e correlazione Relazioni statistiche: regressione e correlazione È detto studio della connessione lo studio si occupa della ricerca di relazioni fra due variabili statistiche o fra una mutabile e una variabile statistica

Dettagli

Ricerca di outlier. Ricerca di Anomalie/Outlier

Ricerca di outlier. Ricerca di Anomalie/Outlier Ricerca di outlier Prof. Matteo Golfarelli Alma Mater Studiorum - Università di Bologna Ricerca di Anomalie/Outlier Cosa sono gli outlier? L insieme di dati che sono considerevolmente differenti dalla

Dettagli

I ESERCITAZIONE. Gruppo I 100 individui. Trattamento I Nuovo Farmaco. Osservazione degli effetti sul raffreddore. Assegnazione casuale

I ESERCITAZIONE. Gruppo I 100 individui. Trattamento I Nuovo Farmaco. Osservazione degli effetti sul raffreddore. Assegnazione casuale I ESERCITAZIONE ESERCIZIO 1 Si vuole testare un nuovo farmaco contro il raffreddore. Allo studio partecipano 200 soggetti sani della stessa età e dello stesso sesso e con caratteristiche simili. i) Che

Dettagli

La distribuzione Normale. La distribuzione Normale

La distribuzione Normale. La distribuzione Normale La Distribuzione Normale o Gaussiana è la distribuzione più importante ed utilizzata in tutta la statistica La curva delle frequenze della distribuzione Normale ha una forma caratteristica, simile ad una

Dettagli

Abbiamo costruito il grafico delle sst in funzione del tempo (dal 1880 al 1995).

Abbiamo costruito il grafico delle sst in funzione del tempo (dal 1880 al 1995). ANALISI DI UNA SERIE TEMPORALE Analisi statistica elementare Abbiamo costruito il grafico delle sst in funzione del tempo (dal 1880 al 1995). Si puo' osservare una media di circa 26 C e una deviazione

Dettagli

(a cura di Francesca Godioli)

(a cura di Francesca Godioli) lezione n. 12 (a cura di Francesca Godioli) Ad ogni categoria della variabile qualitativa si può assegnare un valore numerico che viene chiamato SCORE. Passare dalla variabile qualitativa X2 a dei valori

Dettagli

Indici di dispersione

Indici di dispersione Indici di dispersione 1 Supponiamo di disporre di un insieme di misure e di cercare un solo valore che, meglio di ciascun altro, sia in grado di catturare le caratteristiche della distribuzione nel suo

Dettagli

STATISTICA IX lezione

STATISTICA IX lezione Anno Accademico 013-014 STATISTICA IX lezione 1 Il problema della verifica di un ipotesi statistica In termini generali, si studia la distribuzione T(X) di un opportuna grandezza X legata ai parametri

Dettagli

1. Distribuzioni campionarie

1. Distribuzioni campionarie Università degli Studi di Basilicata Facoltà di Economia Corso di Laurea in Economia Aziendale - a.a. 2012/2013 lezioni di statistica del 3 e 6 giugno 2013 - di Massimo Cristallo - 1. Distribuzioni campionarie

Dettagli

Metodologia per l analisi dei dati sperimentali L analisi di studi con variabili di risposta multiple: Regressione multipla

Metodologia per l analisi dei dati sperimentali L analisi di studi con variabili di risposta multiple: Regressione multipla Il metodo della regressione può essere esteso dal caso in cui si considera la variabilità della risposta della y in relazione ad una sola variabile indipendente X ad una situazione più generale in cui

Dettagli

Il database management system Access

Il database management system Access Il database management system Access Corso di autoistruzione http://www.manualipc.it/manuali/ corso/manuali.php? idcap=00&idman=17&size=12&sid= INTRODUZIONE Il concetto di base di dati, database o archivio

Dettagli

SPC e distribuzione normale con Access

SPC e distribuzione normale con Access SPC e distribuzione normale con Access In questo articolo esamineremo una applicazione Access per il calcolo e la rappresentazione grafica della distribuzione normale, collegata con tabelle di Clienti,

Dettagli

L Analisi della Varianza ANOVA (ANalysis Of VAriance)

L Analisi della Varianza ANOVA (ANalysis Of VAriance) L Analisi della Varianza ANOVA (ANalysis Of VAriance) 1 CONCETTI GENERALI Finora abbiamo descritto test di ipotesi finalizzati alla verifica di ipotesi sulla differenza tra parametri di due popolazioni

Dettagli

ANALISI DELLE FREQUENZE: IL TEST CHI 2

ANALISI DELLE FREQUENZE: IL TEST CHI 2 ANALISI DELLE FREQUENZE: IL TEST CHI 2 Quando si hanno scale nominali o ordinali, non è possibile calcolare il t, poiché non abbiamo medie, ma solo frequenze. In questi casi, per verificare se un evento

Dettagli

GRUPPO QUATTRO RUOTE. Alessandro Tondo 19632 Laura Lavazza 19758 Matteo Scordo 19813 Alessandro Giosa 19894. Gruppo Quattro Ruote 1

GRUPPO QUATTRO RUOTE. Alessandro Tondo 19632 Laura Lavazza 19758 Matteo Scordo 19813 Alessandro Giosa 19894. Gruppo Quattro Ruote 1 GRUPPO QUATTRO RUOTE Alessandro Tondo 19632 Laura Lavazza 19758 Matteo Scordo 19813 Alessandro Giosa 19894 Gruppo Quattro Ruote 1 2. ANALISI BIVARIATA 3.1. RISULTATI (continua) 2.1 Consumi ridotti (variabile

Dettagli

LE FUNZIONI A DUE VARIABILI

LE FUNZIONI A DUE VARIABILI Capitolo I LE FUNZIONI A DUE VARIABILI In questo primo capitolo introduciamo alcune definizioni di base delle funzioni reali a due variabili reali. Nel seguito R denoterà l insieme dei numeri reali mentre

Dettagli

Scheduling della CPU. Sistemi multiprocessori e real time Metodi di valutazione Esempi: Solaris 2 Windows 2000 Linux

Scheduling della CPU. Sistemi multiprocessori e real time Metodi di valutazione Esempi: Solaris 2 Windows 2000 Linux Scheduling della CPU Sistemi multiprocessori e real time Metodi di valutazione Esempi: Solaris 2 Windows 2000 Linux Sistemi multiprocessori Fin qui si sono trattati i problemi di scheduling su singola

Dettagli

Sistemi Operativi. Scheduling della CPU SCHEDULING DELLA CPU. Concetti di Base Criteri di Scheduling Algoritmi di Scheduling

Sistemi Operativi. Scheduling della CPU SCHEDULING DELLA CPU. Concetti di Base Criteri di Scheduling Algoritmi di Scheduling SCHEDULING DELLA CPU 5.1 Scheduling della CPU Concetti di Base Criteri di Scheduling Algoritmi di Scheduling FCFS, SJF, Round-Robin, A code multiple Scheduling in Multi-Processori Scheduling Real-Time

Dettagli

Sistemi Operativi SCHEDULING DELLA CPU. Sistemi Operativi. D. Talia - UNICAL 5.1

Sistemi Operativi SCHEDULING DELLA CPU. Sistemi Operativi. D. Talia - UNICAL 5.1 SCHEDULING DELLA CPU 5.1 Scheduling della CPU Concetti di Base Criteri di Scheduling Algoritmi di Scheduling FCFS, SJF, Round-Robin, A code multiple Scheduling in Multi-Processori Scheduling Real-Time

Dettagli

La dispersione dei prezzi al consumo. I risultati di un indagine empirica sui prodotti alimentari.

La dispersione dei prezzi al consumo. I risultati di un indagine empirica sui prodotti alimentari. La dispersione dei prezzi al consumo. I risultati di un indagine empirica sui prodotti alimentari. Giovanni Anania e Rosanna Nisticò EMAA 14/15 X / 1 Il problema Un ottimo uso del vostro tempo! questa

Dettagli

Clustering. Utilizziamo per la realizzazione dell'esempio due tipologie di software:

Clustering. Utilizziamo per la realizzazione dell'esempio due tipologie di software: Esercizio Clustering Utilizziamo per la realizzazione dell'esempio due tipologie di software: - XLSTAT.xls - Cluster.exe XLSTAT.xls XLSTAT.xls è una macro di Excel che offre la possibilità di effettuare

Dettagli

VALORE DELLE MERCI SEQUESTRATE

VALORE DELLE MERCI SEQUESTRATE La contraffazione in cifre: NUOVA METODOLOGIA PER LA STIMA DEL VALORE DELLE MERCI SEQUESTRATE Roma, Giugno 2013 Giugno 2013-1 Il valore economico dei sequestri In questo Focus si approfondiscono alcune

Dettagli

Introduzione alla teoria dei database relazionali. Come progettare un database

Introduzione alla teoria dei database relazionali. Come progettare un database Introduzione alla teoria dei database relazionali Come progettare un database La struttura delle relazioni Dopo la prima fase di individuazione concettuale delle entità e degli attributi è necessario passare

Dettagli

Corso di. Dott.ssa Donatella Cocca

Corso di. Dott.ssa Donatella Cocca Corso di Statistica medica e applicata Dott.ssa Donatella Cocca 1 a Lezione Cos'è la statistica? Come in tutta la ricerca scientifica sperimentale, anche nelle scienze mediche e biologiche è indispensabile

Dettagli

Esercitazione 1 del corso di Statistica 2 Prof. Domenico Vistocco

Esercitazione 1 del corso di Statistica 2 Prof. Domenico Vistocco Esercitazione 1 del corso di Statistica 2 Prof. Domenico Vistocco Alfonso Iodice D Enza April 26, 2007 1...prima di cominciare Contare, operazione solitamente semplice, può diventare complicata se lo scopo

Dettagli

Analisi della performance temporale della rete

Analisi della performance temporale della rete Analisi della performance temporale della rete In questo documento viene analizzato l andamento nel tempo della performance della rete di promotori. Alcune indicazioni per la lettura di questo documento:

Dettagli

Mon Ami 3000 Varianti articolo Gestione di varianti articoli

Mon Ami 3000 Varianti articolo Gestione di varianti articoli Prerequisiti Mon Ami 3000 Varianti articolo Gestione di varianti articoli L opzione Varianti articolo è disponibile per le versioni Azienda Light e Azienda Pro e include tre funzionalità distinte: 1. Gestione

Dettagli

L analisi dei rischi: l aspetto statistico Ing. Pier Giorgio DELLA ROLE Six Sigma Master Black Belt

L analisi dei rischi: l aspetto statistico Ing. Pier Giorgio DELLA ROLE Six Sigma Master Black Belt L analisi dei rischi: l aspetto statistico Ing. Pier Giorgio DELL ROLE Six Sigma Master lack elt Dicembre, 009 Introduzione Nell esecuzione dei progetti Six Sigma è di fondamentale importanza sapere se

Dettagli

Analisi di scenario File Nr. 10

Analisi di scenario File Nr. 10 1 Analisi di scenario File Nr. 10 Giorgio Calcagnini Università di Urbino Dip. Economia, Società, Politica giorgio.calcagnini@uniurb.it http://www.econ.uniurb.it/calcagnini/ http://www.econ.uniurb.it/calcagnini/forecasting.html

Dettagli

Calcolatori Elettronici A a.a. 2008/2009

Calcolatori Elettronici A a.a. 2008/2009 Calcolatori Elettronici A a.a. 2008/2009 PRESTAZIONI DEL CALCOLATORE Massimiliano Giacomin Due dimensioni Tempo di risposta (o tempo di esecuzione): il tempo totale impiegato per eseguire un task (include

Dettagli

LABORATORIO-EXCEL N. 2-3 XLSTAT- Pro Versione 7 VARIABILI QUANTITATIVE

LABORATORIO-EXCEL N. 2-3 XLSTAT- Pro Versione 7 VARIABILI QUANTITATIVE LABORATORIO-EXCEL N. 2-3 XLSTAT- Pro Versione 7 VARIABILI QUANTITATIVE DESCRIZIONE DEI DATI DA ESAMINARE Sono stati raccolti i dati sul peso del polmone di topi normali e affetti da una patologia simile

Dettagli

OCCUPATI SETTORE DI ATTIVITA' ECONOMICA

OCCUPATI SETTORE DI ATTIVITA' ECONOMICA ESERCIZIO 1 La tabella seguente contiene i dati relativi alla composizione degli occupati in Italia relativamente ai tre macrosettori di attività (agricoltura, industria e altre attività) negli anni 1971

Dettagli

Dimensione di uno Spazio vettoriale

Dimensione di uno Spazio vettoriale Capitolo 4 Dimensione di uno Spazio vettoriale 4.1 Introduzione Dedichiamo questo capitolo ad un concetto fondamentale in algebra lineare: la dimensione di uno spazio vettoriale. Daremo una definizione

Dettagli

General Linear Model. Esercizio

General Linear Model. Esercizio Esercizio General Linear Model Una delle molteplici applicazioni del General Linear Model è la Trend Surface Analysis. Questa tecnica cerca di individuare, in un modello di superficie, quale tendenza segue

Dettagli

Soluzione dell esercizio del 2 Febbraio 2004

Soluzione dell esercizio del 2 Febbraio 2004 Soluzione dell esercizio del 2 Febbraio 2004 1. Casi d uso I casi d uso sono riportati in Figura 1. Figura 1: Diagramma dei casi d uso. E evidenziato un sotto caso di uso. 2. Modello concettuale Osserviamo

Dettagli

Analisi dei requisiti e casi d uso

Analisi dei requisiti e casi d uso Analisi dei requisiti e casi d uso Indice 1 Introduzione 2 1.1 Terminologia........................... 2 2 Modello del sistema 4 2.1 Requisiti hardware........................ 4 2.2 Requisiti software.........................

Dettagli

Un po di statistica. Christian Ferrari. Laboratorio di Matematica

Un po di statistica. Christian Ferrari. Laboratorio di Matematica Un po di statistica Christian Ferrari Laboratorio di Matematica 1 Introduzione La statistica è una parte della matematica applicata che si occupa della raccolta, dell analisi e dell interpretazione di

Dettagli

errore I = numero soggetti (I = 4) K = numero livelli tratt. (K = 3) popolazione varianza dovuta ai soggetti trattamento

errore I = numero soggetti (I = 4) K = numero livelli tratt. (K = 3) popolazione varianza dovuta ai soggetti trattamento Analisi della varianza a una via a misure ripetute (Anova con 1 fattore within) modello strutturale dell'analisi della varianza a misure ripetute con 1 fattore: y = μ ik 0 +π i +α k + ik ε ik interazione

Dettagli

Elementi di Psicometria con Laboratorio di SPSS 1

Elementi di Psicometria con Laboratorio di SPSS 1 Elementi di Psicometria con Laboratorio di SPSS 1 12-Il t-test per campioni appaiati vers. 1.2 (7 novembre 2014) Germano Rossi 1 germano.rossi@unimib.it 1 Dipartimento di Psicologia, Università di Milano-Bicocca

Dettagli

~ Copyright Ripetizionando - All rights reserved ~ http://ripetizionando.wordpress.com STUDIO DI FUNZIONE

~ Copyright Ripetizionando - All rights reserved ~ http://ripetizionando.wordpress.com STUDIO DI FUNZIONE STUDIO DI FUNZIONE Passaggi fondamentali Per effettuare uno studio di funzione completo, che non lascia quindi margine a una quasi sicuramente errata inventiva, sono necessari i seguenti 7 passaggi: 1.

Dettagli

Algoritmi di clustering

Algoritmi di clustering Algoritmi di clustering Dato un insieme di dati sperimentali, vogliamo dividerli in clusters in modo che: I dati all interno di ciascun cluster siano simili tra loro Ciascun dato appartenga a uno e un

Dettagli

Plate Locator Riconoscimento Automatico di Targhe

Plate Locator Riconoscimento Automatico di Targhe Progetto per Laboratorio di Informatica 3 - Rimotti Daniele, Santinelli Gabriele Plate Locator Riconoscimento Automatico di Targhe Il programma plate_locator.m prende come input: l immagine della targa

Dettagli

Corso di Psicometria Progredito

Corso di Psicometria Progredito Corso di Psicometria Progredito 3.1 Introduzione all inferenza statistica Prima Parte Gianmarco Altoè Dipartimento di Pedagogia, Psicologia e Filosofia Università di Cagliari, Anno Accademico 2013-2014

Dettagli

Nell esempio verrà mostrato come creare un semplice documento in Excel per calcolare in modo automatico la rata di un mutuo a tasso fisso conoscendo

Nell esempio verrà mostrato come creare un semplice documento in Excel per calcolare in modo automatico la rata di un mutuo a tasso fisso conoscendo Nell esempio verrà mostrato come creare un semplice documento in Excel per calcolare in modo automatico la rata di un mutuo a tasso fisso conoscendo - la durata del mutuo in anni - l importo del mutuo

Dettagli

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 8

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 8 CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 8 Dott.ssa Antonella Costanzo a.costanzo@unicas.it Esercizio 1. Test delle ipotesi sulla varianza In un azienda che produce componenti meccaniche, è stato

Dettagli

Ai fini economici i costi di un impresa sono distinti principalmente in due gruppi: costi fissi e costi variabili. Vale ovviamente la relazione:

Ai fini economici i costi di un impresa sono distinti principalmente in due gruppi: costi fissi e costi variabili. Vale ovviamente la relazione: 1 Lastoriadiun impresa Il Signor Isacco, che ormai conosciamo per il suo consumo di caviale, decide di intraprendere l attività di produttore di caviale! (Vuole essere sicuro della qualità del caviale

Dettagli

Capitolo 13: L offerta dell impresa e il surplus del produttore

Capitolo 13: L offerta dell impresa e il surplus del produttore Capitolo 13: L offerta dell impresa e il surplus del produttore 13.1: Introduzione L analisi dei due capitoli precedenti ha fornito tutti i concetti necessari per affrontare l argomento di questo capitolo:

Dettagli

LEZIONE n. 5 (a cura di Antonio Di Marco)

LEZIONE n. 5 (a cura di Antonio Di Marco) LEZIONE n. 5 (a cura di Antonio Di Marco) IL P-VALUE (α) Data un ipotesi nulla (H 0 ), questa la si può accettare o rifiutare in base al valore del p- value. In genere il suo valore è un numero molto piccolo,

Dettagli

Elaborazione dei dati su PC Regressione Multipla

Elaborazione dei dati su PC Regressione Multipla 21 Elaborazione dei dati su PC Regressione Multipla Analizza Regressione Statistiche Grafici Metodo di selezione Analisi dei dati 21.1 Introduzione 21.2 Regressione lineare multipla con SPSS 21.3 Regressione

Dettagli

Inferenza statistica. Statistica medica 1

Inferenza statistica. Statistica medica 1 Inferenza statistica L inferenza statistica è un insieme di metodi con cui si cerca di trarre una conclusione sulla popolazione sulla base di alcune informazioni ricavate da un campione estratto da quella

Dettagli

e-dva - eni-depth Velocity Analysis

e-dva - eni-depth Velocity Analysis Lo scopo dell Analisi di Velocità di Migrazione (MVA) è quello di ottenere un modello della velocità nel sottosuolo che abbia dei tempi di riflessione compatibili con quelli osservati nei dati. Ciò significa

Dettagli

Guida Compilazione Piani di Studio on-line

Guida Compilazione Piani di Studio on-line Guida Compilazione Piani di Studio on-line SIA (Sistemi Informativi d Ateneo) Visualizzazione e presentazione piani di studio ordinamento 509 e 270 Università della Calabria (Unità organizzativa complessa-

Dettagli

Università degli Studi di Milano Bicocca CdS ECOAMM Corso di Metodi Statistici per l Amministrazione delle Imprese CARTE DI CONTROLLO PER VARIABILI

Università degli Studi di Milano Bicocca CdS ECOAMM Corso di Metodi Statistici per l Amministrazione delle Imprese CARTE DI CONTROLLO PER VARIABILI Università degli Studi di Milano Bicocca CdS ECOAMM Corso di Metodi Statistici per l Amministrazione delle Imprese CARTE DI CONTROLLO PER VARIABILI 1. L azienda Wood produce legno compensato per costruzioni

Dettagli

Il concetto di valore medio in generale

Il concetto di valore medio in generale Il concetto di valore medio in generale Nella statistica descrittiva si distinguono solitamente due tipi di medie: - le medie analitiche, che soddisfano ad una condizione di invarianza e si calcolano tenendo

Dettagli

Grafici delle distribuzioni di frequenza

Grafici delle distribuzioni di frequenza Grafici delle distribuzioni di frequenza L osservazione del grafico può far notare irregolarità o comportamenti anomali non direttamente osservabili sui dati; ad esempio errori di misurazione 1) Diagramma

Dettagli

età sesso luogo-abitazione scuola superiore esperienza insegnamento 1 2 2 2 1 2 2 2 2 2 1 2 3 2 2 2 1 2 4 2 2 2 1 2 5 3 2 2 1 2 6 2 2 2 1 2 7 3 2 1 1

età sesso luogo-abitazione scuola superiore esperienza insegnamento 1 2 2 2 1 2 2 2 2 2 1 2 3 2 2 2 1 2 4 2 2 2 1 2 5 3 2 2 1 2 6 2 2 2 1 2 7 3 2 1 1 età sesso luogo-abitazione scuola superiore esperienza insegnamento 1 1 1 3 1 4 1 5 3 1 6 1 7 3 1 1 8 3 1 9 3 1 10 3 1 11 3 1 1 1 13 4 1 1 14 3 1 15 1 16 1 17 1 18 1 19 1 0 1 1 1 1 3 3 1 4 1 Come analizzare

Dettagli

Analisi sensitività. Strumenti per il supporto alle decisioni nel processo di Valutazione d azienda

Analisi sensitività. Strumenti per il supporto alle decisioni nel processo di Valutazione d azienda Analisi sensitività. Strumenti per il supporto alle decisioni nel processo di Valutazione d azienda Premessa Con l analisi di sensitività il perito valutatore elabora un range di valori invece di un dato

Dettagli

3. Confronto tra medie di due campioni indipendenti o appaiati

3. Confronto tra medie di due campioni indipendenti o appaiati BIOSTATISTICA 3. Confronto tra medie di due campioni indipendenti o appaiati Marta Blangiardo, Imperial College, London Department of Epidemiology and Public Health m.blangiardo@imperial.ac.uk MARTA BLANGIARDO

Dettagli

FUNZIONI ELEMENTARI - ESERCIZI SVOLTI

FUNZIONI ELEMENTARI - ESERCIZI SVOLTI FUNZIONI ELEMENTARI - ESERCIZI SVOLTI 1) Determinare il dominio delle seguenti funzioni di variabile reale: (a) f(x) = x 4 (c) f(x) = 4 x x + (b) f(x) = log( x + x) (d) f(x) = 1 4 x 5 x + 6 ) Data la funzione

Dettagli

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 7

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 7 CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 7 Dott.ssa Antonella Costanzo a.costanzo@unicas.it Esercizio 1. Test delle ipotesi per la media (varianza nota), p-value del test Il manager di un fast-food

Dettagli

ALLEGATO 1 Analisi delle serie storiche pluviometriche delle stazioni di Torre del Lago e di Viareggio.

ALLEGATO 1 Analisi delle serie storiche pluviometriche delle stazioni di Torre del Lago e di Viareggio. ALLEGATO 1 Analisi delle serie storiche pluviometriche delle stazioni di Torre del Lago e di Viareggio. Per una migliore caratterizzazione del bacino idrologico dell area di studio, sono state acquisite

Dettagli

Verifica di ipotesi e intervalli di confidenza nella regressione multipla

Verifica di ipotesi e intervalli di confidenza nella regressione multipla Verifica di ipotesi e intervalli di confidenza nella regressione multipla Eduardo Rossi 2 2 Università di Pavia (Italy) Maggio 2014 Rossi MRLM Econometria - 2014 1 / 23 Sommario Variabili di controllo

Dettagli

Applicazione reale dell AMP Forecast del Mercato IT

Applicazione reale dell AMP Forecast del Mercato IT Variabili considerate (PIL a prezzi costanti) Applicazione reale dell AMP Forecast del Mercato IT TotMerCon (Totale Mercato Consumatori) TotDevCon (Totale Device Consumatori). Analisi delle variabili La

Dettagli

Disegni di Ricerca e Analisi dei Dati in Psicologia Clinica. Indici di Affidabilità

Disegni di Ricerca e Analisi dei Dati in Psicologia Clinica. Indici di Affidabilità Disegni di Ricerca e Analisi dei Dati in Psicologia Clinica Indici di Affidabilità L Attendibilità È il livello in cui una misura è libera da errore di misura È la proporzione di variabilità della misurazione

Dettagli

Cosa è un foglio elettronico

Cosa è un foglio elettronico Cosa è un foglio elettronico Versione informatica del foglio contabile Strumento per l elaborazione di numeri (ma non solo...) I valori inseriti possono essere modificati, analizzati, elaborati, ripetuti

Dettagli

GUIDA RAPIDA PER LA COMPILAZIONE DELLA SCHEDA CCNL GUIDA RAPIDA PER LA COMPILAZIONE DELLA SCHEDA CCNL

GUIDA RAPIDA PER LA COMPILAZIONE DELLA SCHEDA CCNL GUIDA RAPIDA PER LA COMPILAZIONE DELLA SCHEDA CCNL GUIDA RAPIDA BOZZA 23/07/2008 INDICE 1. PERCHÉ UNA NUOVA VERSIONE DEI MODULI DI RACCOLTA DATI... 3 2. INDICAZIONI GENERALI... 4 2.1. Non modificare la struttura dei fogli di lavoro... 4 2.2. Cosa significano

Dettagli

LABORATORIO EXCEL XLSTAT 2008 SCHEDE 2 e 3 VARIABILI QUANTITATIVE

LABORATORIO EXCEL XLSTAT 2008 SCHEDE 2 e 3 VARIABILI QUANTITATIVE Matematica e statistica: dai dati ai modelli alle scelte www.dima.unige/pls_statistica Responsabili scientifici M.P. Rogantin e E. Sasso (Dipartimento di Matematica Università di Genova) LABORATORIO EXCEL

Dettagli

f(x) = 1 x. Il dominio di questa funzione è il sottoinsieme proprio di R dato da

f(x) = 1 x. Il dominio di questa funzione è il sottoinsieme proprio di R dato da Data una funzione reale f di variabile reale x, definita su un sottoinsieme proprio D f di R (con questo voglio dire che il dominio di f è un sottoinsieme di R che non coincide con tutto R), ci si chiede

Dettagli

Funzioni in C. Violetta Lonati

Funzioni in C. Violetta Lonati Università degli studi di Milano Dipartimento di Scienze dell Informazione Laboratorio di algoritmi e strutture dati Corso di laurea in Informatica Funzioni - in breve: Funzioni Definizione di funzioni

Dettagli

Raggruppamenti Conti Movimenti

Raggruppamenti Conti Movimenti ESERCITAZIONE PIANO DEI CONTI Vogliamo creare un programma che ci permetta di gestire, in un DB, il Piano dei conti di un azienda. Nel corso della gestione d esercizio, si potranno registrare gli articoli

Dettagli

Informatica. Rappresentazione dei numeri Numerazione binaria

Informatica. Rappresentazione dei numeri Numerazione binaria Informatica Rappresentazione dei numeri Numerazione binaria Sistemi di numerazione Non posizionali: numerazione romana Posizionali: viene associato un peso a ciascuna posizione all interno della rappresentazione

Dettagli

Elementi di Psicometria con Laboratorio di SPSS 1

Elementi di Psicometria con Laboratorio di SPSS 1 Elementi di Psicometria con Laboratorio di SPSS 1 5-Indici di variabilità (vers. 1.0c, 20 ottobre 2015) Germano Rossi 1 germano.rossi@unimib.it 1 Dipartimento di Psicologia, Università di Milano-Bicocca

Dettagli

Prof.ssa Paola Vicard

Prof.ssa Paola Vicard Questa nota consiste perlopiù nella traduzione (con alcune integrazioni) da Descriptive statistics di J. Shalliker e C. Ricketts, 2000, University of Plymouth Consideriamo i dati nel file esercizio10_dati.xls.

Dettagli

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 1

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 1 CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 1 Dott.ssa Antonella Costanzo a.costanzo@unicas.it A.Studio dell interdipendenza tra variabili: riepilogo Concetto relativo allo studio delle relazioni tra

Dettagli

> d = alimentazione == "benz" > mean(percorr.urbana[!d]) - mean(percorr.urbana[d]) [1] 2.385627. > sd(percorr.urbana[d]) [1] 2.

> d = alimentazione == benz > mean(percorr.urbana[!d]) - mean(percorr.urbana[d]) [1] 2.385627. > sd(percorr.urbana[d]) [1] 2. A questo punto vale la pena di soffermarci di più sull alimentazione. Intanto cerchiamo di indagare se l alimentazione è davvero un fattore significativo per la percorrenza come è luogo comune pensare.

Dettagli

CAPACITÀ DI PROCESSO (PROCESS CAPABILITY)

CAPACITÀ DI PROCESSO (PROCESS CAPABILITY) CICLO DI LEZIONI per Progetto e Gestione della Qualità Facoltà di Ingegneria CAPACITÀ DI PROCESSO (PROCESS CAPABILITY) Carlo Noè Università Carlo Cattaneo e-mail: cnoe@liuc.it 1 CAPACITÀ DI PROCESSO Il

Dettagli

Fasi di creazione di un programma

Fasi di creazione di un programma Fasi di creazione di un programma 1. Studio Preliminare 2. Analisi del Sistema 6. Manutenzione e Test 3. Progettazione 5. Implementazione 4. Sviluppo 41 Sviluppo di programmi Per la costruzione di un programma

Dettagli

APPUNTI SU PROBLEMI CON CALCOLO PERCENTUALE

APPUNTI SU PROBLEMI CON CALCOLO PERCENTUALE APPUNTI SU PROBLEMI CON CALCOLO PERCENTUALE 1. Proporzionalità diretta e proporzionalità inversa Analizziamo le seguenti formule Peso Lordo = Peso Netto + Tara Ricavo = Utile + Costo Rata = Importo + Interesse

Dettagli

MATEMATICA 2001. p = 4/6 = 2/3; q = 1-2/3 = 1/3. La risposta corretta è quindi la E).

MATEMATICA 2001. p = 4/6 = 2/3; q = 1-2/3 = 1/3. La risposta corretta è quindi la E). MATEMATICA 2001 66. Quale fra le seguenti affermazioni è sbagliata? A) Tutte le funzioni ammettono la funzione inversa B) Una funzione dispari è simmetrica rispetto all origine C) Una funzione pari è simmetrica

Dettagli

Esempi di algoritmi. Lezione III

Esempi di algoritmi. Lezione III Esempi di algoritmi Lezione III Scopo della lezione Implementare da zero algoritmi di media complessità. Verificare la correttezza di un algoritmo eseguendolo a mano. Imparare a valutare le prestazioni

Dettagli

( x) ( x) 0. Equazioni irrazionali

( x) ( x) 0. Equazioni irrazionali Equazioni irrazionali Definizione: si definisce equazione irrazionale un equazione in cui compaiono uno o più radicali contenenti l incognita. Esempio 7 Ricordiamo quanto visto sulle condizioni di esistenza

Dettagli

Logica Numerica Approfondimento 1. Minimo Comune Multiplo e Massimo Comun Divisore. Il concetto di multiplo e di divisore. Il Minimo Comune Multiplo

Logica Numerica Approfondimento 1. Minimo Comune Multiplo e Massimo Comun Divisore. Il concetto di multiplo e di divisore. Il Minimo Comune Multiplo Logica Numerica Approfondimento E. Barbuto Minimo Comune Multiplo e Massimo Comun Divisore Il concetto di multiplo e di divisore Considerato un numero intero n, se esso viene moltiplicato per un numero

Dettagli

CAPITOLO 8 LA VERIFICA D IPOTESI. I FONDAMENTI

CAPITOLO 8 LA VERIFICA D IPOTESI. I FONDAMENTI VERO FALSO CAPITOLO 8 LA VERIFICA D IPOTESI. I FONDAMENTI 1. V F Un ipotesi statistica è un assunzione sulle caratteristiche di una o più variabili in una o più popolazioni 2. V F L ipotesi nulla unita

Dettagli

RECUPERO DATI LIFO DA ARCHIVI ESTERNI

RECUPERO DATI LIFO DA ARCHIVI ESTERNI RECUPERO DATI LIFO DA ARCHIVI ESTERNI È possibile importare i dati relativi ai LIFO di esercizi non gestiti con Arca2000? La risposta è Sì. Esistono tre strade per recuperare i dati LIFO per gli articoli

Dettagli

matematica probabilmente

matematica probabilmente IS science centre immaginario scientifico Laboratorio dell'immaginario Scientifico - Trieste tel. 040224424 - fax 040224439 - e-mail: lis@lis.trieste.it - www.immaginarioscientifico.it indice Altezze e

Dettagli

5.3 TABELLE 5.3.1 RECORD 5.3.1.1 Inserire, eliminare record in una tabella Aggiungere record Eliminare record

5.3 TABELLE 5.3.1 RECORD 5.3.1.1 Inserire, eliminare record in una tabella Aggiungere record Eliminare record 5.3 TABELLE In un sistema di database relazionali le tabelle rappresentano la struttura di partenza, che resta poi fondamentale per tutte le fasi del lavoro di creazione e di gestione del database. 5.3.1

Dettagli

E naturale chiedersi alcune cose sulla media campionaria x n

E naturale chiedersi alcune cose sulla media campionaria x n Supponiamo che un fabbricante stia introducendo un nuovo tipo di batteria per un automobile elettrica. La durata osservata x i delle i-esima batteria è la realizzazione (valore assunto) di una variabile

Dettagli

Controlli Automatici T. Trasformata di Laplace e Funzione di trasferimento. Parte 3 Aggiornamento: Settembre 2010. Prof. L.

Controlli Automatici T. Trasformata di Laplace e Funzione di trasferimento. Parte 3 Aggiornamento: Settembre 2010. Prof. L. Parte 3 Aggiornamento: Settembre 2010 Parte 3, 1 Trasformata di Laplace e Funzione di trasferimento Prof. Lorenzo Marconi DEIS-Università di Bologna Tel. 051 2093788 Email: lmarconi@deis.unibo.it URL:

Dettagli

La categoria «ES» presenta (di solito) gli stessi comandi

La categoria «ES» presenta (di solito) gli stessi comandi Utilizzo delle calcolatrici FX 991 ES+ Parte II PARMA, 11 Marzo 2014 Prof. Francesco Bologna bolfra@gmail.com ARGOMENTI DELLA LEZIONE 1. Richiami lezione precedente 2.Calcolo delle statistiche di regressione:

Dettagli

4 3 4 = 4 x 10 2 + 3 x 10 1 + 4 x 10 0 aaa 10 2 10 1 10 0

4 3 4 = 4 x 10 2 + 3 x 10 1 + 4 x 10 0 aaa 10 2 10 1 10 0 Rappresentazione dei numeri I numeri che siamo abituati ad utilizzare sono espressi utilizzando il sistema di numerazione decimale, che si chiama così perché utilizza 0 cifre (0,,2,3,4,5,6,7,8,9). Si dice

Dettagli

Per studio di funzione intendiamo un insieme di procedure che hanno lo scopo di analizzare le proprietà di una funzione f ( x) R R

Per studio di funzione intendiamo un insieme di procedure che hanno lo scopo di analizzare le proprietà di una funzione f ( x) R R Studio di funzione Per studio di funzione intendiamo un insieme di procedure che hanno lo scopo di analizzare le proprietà di una funzione f ( x) R R : allo scopo di determinarne le caratteristiche principali.

Dettagli

IL SISTEMA INFORMATIVO

IL SISTEMA INFORMATIVO IL SISTEMA INFORMATIVO In un organizzazione l informazione è una risorsa importante al pari di altri tipi di risorse: umane, materiali, finanziarie, (con il termine organizzazione intendiamo un insieme

Dettagli

Sistema operativo: Gestione della memoria

Sistema operativo: Gestione della memoria Dipartimento di Elettronica ed Informazione Politecnico di Milano Informatica e CAD (c.i.) - ICA Prof. Pierluigi Plebani A.A. 2008/2009 Sistema operativo: Gestione della memoria La presente dispensa e

Dettagli

Elementi di Psicometria con Laboratorio di SPSS 1

Elementi di Psicometria con Laboratorio di SPSS 1 Elementi di Psicometria con Laboratorio di SPSS 1 29-Analisi della potenza statistica vers. 1.0 (12 dicembre 2014) Germano Rossi 1 germano.rossi@unimib.it 1 Dipartimento di Psicologia, Università di Milano-Bicocca

Dettagli