Introduzione al KDD. Il processo KDD I metodi di DM

Dimensione: px
Iniziare la visualizzazioe della pagina:

Download "Introduzione al KDD. Il processo KDD I metodi di DM"

Transcript

1 Introduzione al KDD Il processo KDD I metodi di DM

2 Introduzione al KDD Knowledge Discovery in Databases (KDD): processo automatico di esplorazione dei dati allo scopo di identificare pattern validi, utili, ignoti processo effettuato su insiemi di dati di grandi dimensioni e elevata complessità Data Mining (DM): cuore del processo KDD Data mining: insieme di meccanismi automatici progettati per consentire l esplorazione di grandi moli di dati alla ricerca di tendenze consistenti e/o relazioni sistematiche tra variabili, e successivamente per validare le scoperte attraverso l applicazione di comportamenti rilevati su nuovi sottoinsiemi di dati sviluppo e utilizzo di diversi algoritmi per l esplorazione dei dati Le ragioni del DM e del KDD: accessibilità e abbondanza dei dati in formato elettronico problematiche: lenta capacità di utilizzo delle informazioni rispetto la crescitadella capacità di accumulo di dati (i.e., internet)

3 Caratteristiche del processo KDD Il processo KDD è iterativo e interattivo iterativo perché composto di passi successivi iterazione a ogni passo (può essere necessario ripetere alcuni passi prima di completare l intero processo) interattivo perché è necessario comprendere il processo e le possibilità di sviluppo a ogni passo non è possibile definire un meccanismo o una formula che sia sempre valida in ogni situazione Nel processo KDD si possono generalmente individuare diversi passi distinti si comincia con la comprensione del dominio e si termina con l acquisizione di nuova conoscenza

4 I passi del processo KDD 1. Comprensione del dominio applicativo passo introduttivo per definire obiettivi e scelte successive formulazione precisa del problema che si sta provando a risolvere per evitare spreco tempo e denaro 2. Esplorazione iniziale dei dati : Fase che include diversi meccanismi di preparazione dei dati pulitura dei dati (per esempio per identificare e rimuovere dati codificati in modo errato), trasformazione dei dati, la selezione di sottoinsiemi di record, preliminare selezione delle caratteristiche descrizione e visualizzazione dei dati (per esempio utilizzando statistiche descrittive, correlazioni, scatterplot, box plot, ecc.). La descrizione dei dati consente di ottenere una fotografia delle caratteristiche importanti dei dati (come ad esempio la tendenza centrale e le misure di dispersione). Le tendenze sono spesso più facili da individuare visivamente che attraverso liste e tabelle numeriche.

5 I passi del processo KDD Nell esplorazione iniziale dei dati è possibile individuare fasi distinte: 2.a Selezione dei dati dati disponibili, dati addizionali, dati da integrare trade-off tra gestione di più informazioni possibili e organizzazione di un dataset semplice da gestire 2.b Pre-processing gestione di missing values, rumore, outliers, 2.c Trasformazione dei dati feature selection, discretizzazione, DATA PRE- PROCESSING

6 I passi del processo KDD 3. Selezione del compito di DM classificazione, regressione, clustering 4. Selezione dell algoritmo di DM scelta fra metodi precisi (es. reti neurali) o interpretabili (es. alberi di decisione) utilizzo di tecniche di meta-learning per selezionare il modello (l algoritmo) 5. Impiego dell algoritmo di DM implementazione dell algoritmo (da iterare più volte se necessario) DATA MINING

7 I passi del processo KDD 6. Valutazione valutazione e interpretazione dei risultati rispetto agli obiettivi definiti al passo 1 generalmente la valutazione del modello decisionale ottenuto avviene utilizzando due criteri (talvolta in conflitto tra loro) Accuratezza Diversi metodi di valutazione Suddivisione dei dati in sottoinsiemi di addestramento/test (75% vs 25%) validazione incrociata v-fold (se non si hanno dati sufficienti) Comprensibilità Es. alberi decisionali e modelli di regressione lineare sono meno complicati e più semplici di modelli quali le reti neurali più semplici da interpretare anche se si potrebbe dover essere costretti a rinunciare ad una maggiore accuratezza predittiva 7. Utilizzo della conoscenza scoperta incorporare la conoscenza in un altro sistema per ulteriori operazioni

8 KDD e DM Gli stadi che caratterizzano un processo KDD sono stati identificati nel 1996 da Fayyad, Piatetsky-Shapiro e Smyth Nell elencare e descrivere le diverse fasi di un processo KDD particolare attenzione è stata posta allo stadio del DM, cioè a tutti quegli algoritmi per l esplorazione e lo studio dei dati. Il DM è ritenuta la fase più importante dell intero processo KDD e questa sua enorme importanza rende sempre più difficile, soprattutto in termini pratici, distinguere il processo KDD dal DM. Alcuni ricercatori usano i termini DM e KDD come sinonimi noi cercheremo di separare i due aspetti e di considerare il DM la fase più significativa del processo KDD, ma non perfettamente coincidente con esso.

9 DM: alcune definizioni Il DM è la non banale estrazione di informazione implicita, precedentemente sconosciuta e potenzialmente utile attraverso l utilizzo di differenti approccci tecnici (Frawley, Piatetsky-Shapiro e Matheus, 1991). ll DM è una combinazione di potenti tecniche che aiutano a ridurre i costi e i rischi come anche ad aumentare le entrate estraendo informazione dai dati disponibili (T.Fahmy). Il DM consiste nell uso di tecniche statistiche da utilizzare con i databases aziendali per scoprire modelli e relazioni che possono essere impiegati in un contesto di business (Trajecta lexicon). Il DM è l esplorazione e l analisi, attraverso mezzi automatici e semiautomatici, di grosse quantità di dati allo scopo di scoprire modelli e regole significative (Berry, Linoff, 1997).

10 DM: alcune definizioni Il DM si riferisce all uso di una variet`a di tecniche per identificare pepite di informazione e di conoscenza per il supporto alla decision making. L estrazione di tale conoscenza avviene in modo che essa possa essere usata in diverse aree come supporto alle decisioni, previsioni e stime. I dati sono spesso voluminosi ma, così come sono, hanno un basso valore e nessun uso diretto può esserne fatto; è l informazione nascosta nei dati che è utile (Clementine user guide). Il DM è la ricerca di relazioni e modelli globali che sono presenti in grandi database, ma che sono nascosti nell immenso ammontare di dati, come le relazioni tra i dati dei pazienti e le loro diagnosi mediche. Queste relazioni rappresentano una preziosa conoscenza del database e, se il database `e uno specchio fedele, del mondo reale contenuto nel database. (Holshemier e Siebes, 1994).

11 Il modello CRISP-DM Un modello alternativo è rappresentato dal Cross Industry Standard Process for Data Mining (CRISP-DM) Tale modello di data mining è stato sviluppato da un consorzio di numerose società Il modello CRISP-DM è costituito da sei fasi,

12 Fasi del modello CRISP-DM 1. Comprensione di business attenzione è posta principalmente sugli obiettivi e le richieste del progetto da una prospettiva prettamente di business viene fornita una definizione del problema di DM 2. Comprensione dei dati obiettivo principale è collezionare dati e formulare ipotesi 3. Preparazione dei dati obiettivo: individuazione di tabelle, record, variabili pulitura dei dati in funzione degli strumenti prescelti per la modellizzazione (punto 4)

13 Fasi del modello CRISP-DM 4. Modellizzazione Obiettivo: selezione e applicazione di una o più tecniche di data mining 5. Valutazione Tramite l analisi dei risultati si valuta se sono stati raggiunti gli obiettivi iniziali prefissati Si ipotizza anche una futura applicazione del modello 6. Implementazione Se il modello raggiunge gli obiettivi, si crea un piano di azione per implementarlo

14 CRISP-DM vs KDD-DM Le fasi 1 e 2 del CRISP-DM rappresentano l identificazione delle finalità di un processo KDD-DM La fase 3 combina le fasi di pre-processing del modello KDD-DM Le fasi finali di entrambi I modelli corrispondono Approfondimenti sul CRISP-DM:

15 Tassonomia dei metodi DM Molti metodi di Data Mining possono essere utilizzati in un processo KDD Due categorie fondamentali di metodi DM verification-oriented (il sistema verifica l ipotesi dell utente) discovery-oriented (il sistema scopre nuovi pattern autonomamente)

16 Tassonomia dei metodi DM PARADIGMI DI DATA MINING VERIFICATION DISCOVERY PREDIZIONE DESCRIZIONE CLASSIFICAZIONE REGRESSIONE CLUSTERING VISUALIZZAZIONE RETI NEURALI RETI BAYESIANE ALBERI DECISIONALI SUPPORT VECTOR MACHINE INSTANCE BASED

17 Metodi verification-oriented I metodi verification-oriented valutano le ipotesi generate da una sorgente esterna es: un esperto umano I metodi v-o comprendono tecniche statistiche test delle ipotesi, analisi della varianza ecc. I metodi v-o hanno rilevanza minore nell ambito del Data Mining

18 Metodi discovery-oriented I metodi discovery-oriented sono in grado di identificare automaticamente pattern nei dati Si suddividono in: metodi descrittivi: orientati all interpretazione dei dati (clustering, visualizzazione) metodi predittivi: costruiscono modelli di comportamento per previsioni su nuovi esempi I metodi d-o si basano sul learning induttivo il modello è costruito generalizzando da esempi di training ed è applicato su nuove istanze sconosciute

19 Unsupervised e supervised learning I metodi di learning unsupervised raggruppano gli esempi senza uno schema pre-specificato sono unsupervised una parte dei metodi d-o descrittivi (es: clustering) I metodi di learning supervised scoprono la relazione fra attributi di input e di output dei dati la relazione input/output è alla base di un fenomeno descritto dal dataset ed è rappresentata nel modello finale

20 Modelli di classificazione e di regressione I metodi di learning supervised costruiscono modelli di due categorie: classificazione e regressione Un regressore pone lo spazio di input in corrispondenza con un dominio a valori reali Un classificatore pone lo spazio di input in corrispondenza con un insieme pre-definito di classi

21 I Dati Dati Dati strutturati Feature

22 I dati (1/2) I dati alla base di un processo di data mining si classificano in: dati strutturati dati semi-strutturati dati non strutturati DATI TRADIZIONALI DATI non TRADIZIONALI (o MULTIMEDIALI)

23 I dati (2/2) La maggior parte dei database scientifici contengono dati strutturati formati da campi ben definiti rappresentati da valori numerici o alfanumerici Esempi di dati semi-strutturati: immagini elettroniche di documenti medici la maggior parte dei documenti web Esempio di dati non strutturati: registrazioni video e multimediali di eventi e processi Questi dati richiedono trattamenti per estrarre e strutturare le informazioni in essi contenute

24 I dati strutturati (1/2) Rappresentati in forma di tabella (singola relazione) le colonne sono le feature (caratteristiche) degli oggetti le righe sono i valori delle feature per una entità (esempio) FEATURE ESEMPI FEATURE VALUE PER UN DATO ESEMPIO

25 I dati strutturati (2/2) Ai dati è associato il problema della loro qualità pre-processing I dati devono essere accurati immagazzinati in accordo al tipo di dato (dati numerici, dati character, dati interi, dati reali, ) non ridondanti (dati ridondanti vanno eliminati) completi (trattamento dei missing value) (Analizzeremo alcune tecniche di pre-processing dei dati)

26 Feature dei dati Esistono diversi tipi di feature caratterizzano le variabili o attributi associati ai dati Possono esistere anche variabili non osservate influenzano il modello, ma per ridurre la complessità non sono raccolte Tipi di feature più comuni: feature numeriche feature categoriche (o simboliche) Altre tipi di feature: feature discrete feature continue

27 Feature numeriche Le feature numeriche includono valori reali o interi es: età, lunghezza, velocità, Importanti proprietà delle feature numeriche: relazione d ordine (2 < 5) relazione di distanza ( d(2.3,4.2)=1.9 )

28 Feature categoriche Le feature categoriche (o simboliche) non hanno caratteristiche numeriche (non sono misurabili) es: colore degli occhi, nazionalità, sesso, Le feature categoriche non soddisfano relazioni di ordine o di distanza Fra feature categoriche esiste solo la relazione di uguaglianza i valori di una feature categorica possono essere uguali oppure no (blu=blu, rosso nero)

29 Trattamento delle feature categoriche Una feature categorica a due valori può essere convertita in una variabile numerica binaria valori consentiti: 0, 1 Una feature categorica a N valori può essere convertita in N variabili numeriche binarie una variabile binaria per ogni valore nella categoria Le feature categoriche così trattate si dicono Dummy variables es: colore degli occhi blu 1000; nero 0100; verde: 0010; marrone 0001

30 Feature continue e feature discrete Feature continue: sono anche dette variabili quantitative (o metriche) Sono misurate utilizzando: scala di intervallo (interval scale) scala di rapporto (ratio scale) Feature discrete: sono anche dette variabili qualitative Sono misurate utilizzando: scala nominale scala ordinale

31 Feature continue scala di intervallo e scala di rapporto Le feature continue sono rappresente con numeri reali o interi La scala di intervallo e la scala di rapporto si differenziano per la definizione dello zero Interval scale: zero posizionato arbitrariamente (non indica assenza di ciò che è misurato) es: temp. Fahrenheit 0 F non è assenza di calore Ratio scale: zero posizionato in modo assoluto es: peso, altezza, salario, La relazione di rapporto non è valida nella interval scale, è valida nella ratio scale

32 Feature discrete scala nominale Le feature discrete sono rappresentate utilizzando simboli o numeri La scala nominale è una scala senza relazione d ordine (order-less scale) che usa simboli o numeri es: codice identificativo di utente residenziale A (oppure 1), commerciale B (oppure 2) I numeri indicano solo diversi valori dell attributo e non hanno ordine

33 Feature discrete scala ordinale La scala ordinale consiste in un ordinamento (elenco) ordinato (ordered ranking) Una feature discreta in scala ordinale è una variabile categorica per cui vale la relazione d ordine, ma non di distanza es: votazione studenti Le relazioni ordinali non sono lineari es: d(studente classificato 4, studente classificato 5 ) d(studente classificato 15, studente classificato 16 ) Le relazioni tra attributi che possono essere stabilite in scala ordinale: maggiore/uguale; uguale; minore/uguale Le variabili ordinali sono strettamente legate alle cosiddette variabili linguistiche (fuzzy) es: ETA (giovane, mezza età, vecchio)

34 Casi speciali di feature Le feature periodiche sono variabili discrete per le quali esiste una relazione di distanza, ma non d ordine es: giorni della settimana, giorni del mese, mesi dell anno Dati classificati rispetto al tempo dati statici: dati che non cambiano con il tempo dati dinamici (o temporali): dati che cambiano con il tempo La maggior parte delle tecniche di DM hanno a che fare con dati statici

35 Trasformazioni di dati Trasformazioni Normalizzazione Smoothing Differenze e rapporti Missing values Outliers

36 Trasformazione dei dati Molte metodi verification-oriented richiedono l informazione a priori dell esistenza di una qualche correlazione tra i dati (es. correlazione lineare), di specifiche tipologie di distribuzioni (es. normali), l assenza di outliers Molti algoritmi discovery-oriented hanno la capacità di trattare automaticamente la presenza di nonlinearità e non-normalità dei dati Gli algoritmi lavorano comunque meglio se tali problemi sono trattati in fase di pre-processing

37 Trasformazioni di dati La trasformazione dei dati può migliorare i risultati delle tecniche di DM e alleviare alcune problematiche quali Dati con errori o incompleti Dati mal distribuiti Forte asimmetria nei dati Presenza di molti picchi di valori La trasformazione da applicare dipende dal tipo di dati, dal loro numero, dalle caratteristiche del problema,

38 Trasformazione dei dati: obiettivi Definire una trasformazione T sull attributo X, Y= T(X) tale che: Y preserva l informazione rilevante di X Y elimina almeno una o più delle problematiche presenti in X Y è più utile di X Scopi principali: stabilizzare le varianze normalizzare le distribuzioni linearizzare le relazioni tra variabili Scopi secondari: semplificare l'elaborazione di dati che presentano caratteristiche non gradite rappresentare i dati in una scala ritenuta più adatta

39 Trasformazioni Trasformazioni esponenziali T p ( x) = ax clog 0) x + d (p = 0) esponenziali con a,b,c,d e p valori reali preservano l ordine preservano alcune statistiche di base sono funzioni continue ammettono derivate sono specificate tramite funzioni semplici p + b (p

40 Trasformazioni Trasformazioni lineari p Tp ( x) = ax + b 1 = Lit. p=1, a= ,b =0 ºC= 5/9(ºF -32) p = 1, a = 5/9, b = -160/9 Obiettivo: migliorare l interpretabilità

41 Trasformazioni Trasformazione logaritmica T p ( x) = clog x + d Si applica a valori positivi omogeneizza varianze di distribuzioni lognormali Esempio: normalizza picchi stagionali Obiettivo: stabilizzare le varienze

42 Trasformazioni Altre trasformazioni che stabilizzano le varianze p Tp ( x) = ax + Trasformazione in radice p = 1/c, c numero intero per omogeneizzare varianze di distribuzioni particolari, e.g., di Poisson Trasformazione reciproca p < 0 per l analisi di serie temporali, quando la varianza aumenta in modo molto pronunciato rispetto alla media b

43 Normalizzazione La normalizzazione dei dati è utile quando è necessario calcolare le distanze tra punti in uno spazio n dimensionale Una tecnica largamente utilizzata considte nel cambiamento dei valori numerici in modo che essi siano scalati in uno specifico intervallo es: [-1,1] o [0,1] La normalizzazione è particolarmente utile quando si utilizzano tecniche di DM basate sulle distanze Si evitare che le variabili che assumono un range di valori più ampio non siano pesate più di quelle feature che in media presentano un range di valori più piccolo L applicazione di una tecnica di normalizzazione va considarata in tutte le fasi del processo di DM e su tutti i nuovi dati i parametri di normalizzazione devono essere conservati

44 Esempi di normalizzazione Normalizzazione tramite scaling decimale sposta il punto decimale dividendo ogni valore numerico per la stessa potenza di 10 valori scalati nell intervallo [-1,1] Siano v il vettore delle feature, v(i) la i.sima componente, il vettore scalato si ottiene: Come si procede: vi () vi () =, K= argmin(max vi () < 1) assegnata la feature v si cerca il max di v(i) 10 K i si scala il punto decimale fino a che max vi ( ) < 1 si applica il divisore a tutti gli altri elementi di v(i) i

45 Esempi di normalizzazione Normalizzazione min-max tecnica appropriata quando sono noti i valori minimo e massimo di una variabile La formula da applicare è la seguente: v( i) min v( i)( new max new min) + new min v( i) = max v( i) min v( i) newmax e newmin specificano i nuovi valori di minimo e massimo per la variabile in questione Se il range in cui si desidera scalare la variabile è costituito dall intervallo [0,1] la formula si semplifica come segue: vi () min vi () i vi () = max vi ( ) min vi ( ) i i

46 Esempi di normalizzazione Normalizzazione della standard deviation (z-score normalization): Trasformazione appropriata per essere utilizzata con algoritmi di DM dasati su misure di distanza Svantaggio:trasforma i dati in modo da renderli non riconoscibili Particolarmente utile quando il massimo e il minimo non sono noti Siano v il vettore delle feature, mean(v) e sd(v) la media e la deviazione standard. La normalizzazione z-score converte il valore in un punteggio standard attraverso la seguente formula: vi () = vi () meanv ( ) sd( v)

47 Data Smoothing Molte tecniche di DM sono insensibili a piccole differenze (non significative) nei valori di una feature in molte applicazioni le differenze tra i valori di una variavile non sono significative e possono spesso essere considerate come variazioni random di uno stesso valore può essere vantaggioso in alcuni casi regolarizzare i valori di una variabile Ridurre il numero di valori distinti di una feature può ridurre la dimensionalità dello spazio dei dati Smoothers possono essere utilizzati per discretizzare delle feature continue (trasformandole in feature discrete)

48 Differenze e rapporti Per migliorare le performance (e per diminuire il numero delle feature) si possono applicare semplici trasformazioni delle variabili es: dati medici al posto di peso (p) e altezza (h) si considera BMI (indice di massa corporea) BMI = rapporto pesato tra p e h di un paziente Le trasformazioni di questo tipo sono utilizzate per comporre nuove feature

49 Missing data Esistono diverse cause che producono dataset non completi, ovvero dataset in cui sono presenti valori mancanti (missing value) Alcuni valori di una feature non sono registrati perché irrilevanti do not care value Alcuni valori di una feature non sono registrati perché sono stati dimenticati o sono stati erroneamente cancellati lost value

50 Missing data Come trattare i missing value? Non esiste una soluzione semplice e safe per risolvere i casi in cui alcuni attributi presentano un numero significativo di valori mancanti Se possibile, si dovrebbe cercare di valutare l importanza dei dati mancanti sperimentando la/e tecniche di DM con e senza gli attributi che presentano tali dati In generale, i metodi per il trattamento dei dati mancanti si possono suddividere in: metodi sequenziali (o metodi di pre-processing) il dataset incompleto è convertito in un dataset completo e successivamente si applica una tecnica di DM metodi paralleli (metodi in cui i valori mancanti sono considerati all interno del processo di acquisizione di conoscenza) modificare l algoritmo di DM per permettergli di gestire tali dati

51 Missing data: metodi sequenziali Riduzione del dataset (soluzione più semplice) eliminazione degli esempi con valori mancanti (listwise o casewise deletion) metodo utilizzabile quando la dimensione del dataset è grande e/o la percentuale dei missing value è bassa produce una perdita (a volte significativa) di informazioni Sostituzione dei missing value con valori costanti un valore globale (il valore più comune della feature) media della corrispondente feature (per attributi di tipo numerico) media della feature della classe (nei problemi di classificazione)

52 Missing data: metodi sequenziali Global closest fit: sostituire il valore mancante con il valore dell attributo più somigliante si confrontano due vettori di feature (quello contente il missing value, ed il candidato ad essere il closest fit) ricerca effettuata su tutte le feature si calcola una distanza tra i due vettori il vettore con la minima distanza viene usato per determinare il valore mancante la distanza usata è NB: sostituire i dati mancanti introduce un bias

53 Missing data: metodi sequenziali La distanza usata nel metodo Global Closest Fit è: = = = = = = i i i i i i i i i i i i i i n i i i y x y x r y x y x y x y x y x y x dist y x dist y x dist e numeri sono e se? o? o e simboliche sono, se 1 se 0 ), ( ), ( ), ( 1 r = differenza tra il massimo ed il minimo valore della feature contenente il missing value Nei problemi di classificazione si utilizza Class closest Fit

54 Missing data Soluzioni più sofisticate per il trattamento dei missing values si basano sulla predizione dei valori mediante un algoritmo di data mining. In questo caso predire i valori mancanti diviene un particolare problema di DM di tipo predittivo

55 Analisi degli outlier Outlier: valori dei dati inusuali (non consistenti o significativamente diversi dal resto degli esempi) Una definizione esatta di un outlier dipende dalle assunzioni relative alla struttura dei dati e all applicazione della tecnica di DM Definizioni generali: Hawkins (Identification of Outlier. Chapman and Hall. 1980) Osservazione che devia così tanto dalle altre osservazioni da suscitare il sospetto che sia stata generata da un meccanismo diverso

56 Analisi degli outlier Barnett e Lewis (Outlier in Statistical Data. John Wiley 1994) un outlier è una osservazione che sembra deviare notevolmente dalle altri componenti dell esempio in cui esso occorre Johnson (Applied Multivariate Statistical Analysis. Prentice Hall, 1992) osservazione in un dataset che sembra essere inconsistente con il rimanente insieme dei dati La scoperta degli outlier può rappresentare un vero e proprio processo di DM individuazione di transazioni economiche fraudolente con carte di credito, intrusioni non autorizzate in reti private, ecc.

57 Analisi degli outlier Molti metodi di DM cercano di minimizzare l influenza degli outlier o di eliminarli durante la fase di pre-processing l eliminazione di outlier è un processo delicato (può far perdere informazioni) Formalmente: il processo di individuazione ed eliminazione degli outlier può essere descritto come il processo di selezione di K degli n esempi che sono dissimili, eccezionali o inconsistenti con il resto del dataset

58 Analisi degli outlier: tassonomia dei metodi I metodi per l identificazione degli outlier possono essere suddivisi in: metodi univariati (assumono che i dati siano iid) metodi multivariati metodi parametrici (o statistici) assumono che sia nota una distribuzione delle osservazioni o una stima statistica di essa etichettano come outlier quelle osservazioni che si discostano dalle assunzioni sul modello inadatti per dataset di dimensione elevata e/o dataset privi di conoscenza a priori sulla distribuzione dei dati metodi non parametrici (metodi model-free) metodi basati sulla distanza tecniche di clustering (cluster di piccole dimensioni considerati come cluster di outlier)

59 Analisi degli outlier Caso monodimensionale Analisi statistica di media e varianza (metodo più semplice) Calcolando media e varianza è possibile stabilire un valore di soglia che sia funzione della varianza tutti i valori che superano la soglia sono potenziali outlier Problema: assunzione a priori di una distribuzione dei dati (nei casi reali la distribuzione è incognita) es: ETA ={3,56,23,39,156,52,41,22,9,28,139,55,20, -67,37,11,55,45,37} media: 39.9, standard deviation: soglia: threshold = media ± 2 standard deviation [-54.1, 131.2] età numero positivo [0, 131.2] I valori 156, -67, 139 sono outlier (presumibilmente typo-error)

60 Analisi degli outlier Caso multidimensionale Individuazione degli outlier in base alle distanze gli outlier sono gli esempi che non hanno abbastanza esempi vicini Formalmente: un esempio s i è un outlier se almeno un sottoinsieme (frazione) di p esempi nel dataset si trova ad una distanza da s i maggiore di una prefissata quantità d Il metodo si basa sull assegnazione a-priori dei parametri p e d La complessità computazionale del metodo è data dal calcolo di una misura di distanza tra tutti gli esempi di un dataset n-dimensionale

61 Analisi degli outlier Caso multidimensionale Diversi tipi di distanze possono essere adottate Distanza di Mahalanobis Calcolo della matrice di covarianza associata al dataset La distanza di Mahalanobis per ciascun dato multivariato (viene calcolata per tutti gli n campioni) è: outlier osservazione con valore M i grande = = n i T n i n i n x x x x n V 1 ) )( ( 1 1 n i x x V x x M n i n i n T n i i,..., 1 ) ( ) ( 1/2 1 1 = = =

62 Analisi degli outlier Tecniche basate sulla deviazione Le tecniche basate sulla deviazione simulano il modo umano di riconoscere gli esempi inusuali Questa classe di metodi si basa su funzioni di dissimilarità (sequential-exception technique): si stabiliscono le caratteristiche di base per un insieme di esempi si riconoscono gli outlier tra gli elementi i cui valori deviano da tali caratteristiche Esempio di funzione di dissimilarità per un insieme di n dati: varianza totale dell insieme di dati Occorre inoltre definire un sottoinsieme di esempi da rimuovere dal dataset per determinare la massima riduzione del valore della funzione di dissimilarità quando questa è calcolata sull insieme residuo

63 Esplorazione grafica di dati multivariati N. Del Buono

64 Introduzione I metodi di esplorazione grafica (o visuale) permettono l identificazione di strutture nei dati I metodi visuali rivestono un ruolo primario nell esplorazione dei dati in virtù della capacità (acquisita in millenni di evoluzione) del sistema occhi-cervello di individuare strutture che presentano delle similarità I metodi visuali rivestono un ruolo abbastanza importante nel processo di KDD-DM, sebbene presentino numerose limitazioni soprattutto nel trattamento di dataset molto grandi I metodi visuali sono noti anche come metodi data-driven hypothesis generation e si contrappongono ai metodi di verifica hypothesis testing

65 Introduzione Esamineremo alcuni metodi di esplorazione grafica cosiddetti informali, che sono stati largamente utilizzati in diversi contesti per l analisi dei dati semplici statistiche meccanismi per la visualizzazione di singole variabili meccanismi per il rilevamento di relazioni tra due variabili meccanismi per il rilevamento di relazioni tra più di due variabili

66 Riassumere i dati mediante semplici statistiche La media aritmetica dei dati ( sample mean ) rappresenta una semplice informazione sul valore medio dei dati (stima del valore medio reale della variabile aleatoria di cui i dati rappresentano una campionatura) v ( i) = i n û è il valore centrale nel senso che minimizza la somma delle differenze al quadrato tra esso e i dati û è una misura del posizionamento (o misura di posizione) dei dati μ

67 Riassumere i dati mediante semplici statistiche Una ulteriore misura del posizionamento dei dati è fornita dalla mediana La mediana è definita come quel valore che divide a metà l insieme dei dati, sicché l'insieme dei valori è per metà minore e per metà maggiore della mediana valore che possiede uno stesso numero di punti al di sotto e al di sopra di essi è il dato centrale della distribuzione è meno sensibile della media aritmetica ai valori estremi

68 Riassumere i dati mediante semplici statistiche Fasi operative per il calcolo della mediana 1) ordinamento crescente dei dati 2) se il numero di dati n è dispari, la mediana corrisponde al dato che occupa la (n+1)/2esima posizione 3) se il numero di dati n è pari, la mediana è data dalla media aritmetica dei due dati che occupano la posizione n/2 e quella n/2+1

69 Riassumere i dati mediante semplici statistiche Esempio di calcolo della mediana dati : {8, 5, 7, 6, 35, 5, 4} ridisposizione in ordine crescente: {4, 5, 5, 6, 7, 8, 35} (n+1)/2=4, la mediana è 6 è tipica nel senso che si avvicina a buona parte dei valori del campione. dati : {8, 5, 7, 6, 5, 4} ridisposizione in ordine crescente:{4, 5, 5, 6, 7, 8}, n è pari, la mediana è la media dei valori che occupano le posizioni (n/2) ed [(n/2)+1] nell'insieme ordinato dei numeri elemento di posizione (n/2) = 3 e elemento di posizione [(n/2)+1]= 4 la mediana vale (5+6)/2=5.5

70 Riassumere i dati mediante semplici statistiche Quando una variabile è di tipo quantitativo discreto (o continua categorizzata), l indice di tendenza centrale adeguato rappresentare la distribuzione è la moda La moda è l osservazione che si verifica con maggiore frequenza in una data distribuzione Si possono avere anche più valori modali (distribuzione bimodale, multimodale) La moda è molto sensibile alla grandezza e al numero delle classe

71 Riassumere i dati mediante semplici statistiche Confronto tra diversi indici di tendenza centrale la moda è il meno informativo in quanto, essendo calcolato sulle frequenze, prescinde totalmente dalla natura numerica dalle osservazioni fornisce conoscenza sul dato che ha la maggiore probabilità di presentarsi la mediana è più informativa della moda poichè considera anche l ordine tra le osservazioni utilizzata per suddividere la distribuzione in parti uguali vantaggio di non essere influenzata da grandi differenze quantitative tra i dati ma solo dalla posizione la media è l indice più informativo in quanto considera anche la distanza tra le osservazioni si utilizza per esprimere un concetto di equidistribuzione

72 Riassumere i dati mediante semplici statistiche Altre misure di posizione dei dati individuano diverse regioni dalla distribuzione dei valori dei dati percentili o centili: valori al di sotto dei quali si trova una determinata percentuale della distribuzione dei dati i quartili separano i dati in 4 parti uguali 25 percentile o primo quartile (la mediana della parte inferiore dei dati) 50 percentile mediana 75 percentile o terzo quartile (la mediana della parte superiore dei dati)

73 Riassumere i dati mediante semplici statistiche Misure di dispersione o di variabilità La media è la misura della localizzazione centrale della distribuzione di una serie di dati Dati con la stessa media possono avere un grado molto diverso di variazione Per esprimere tali variazioni si utilizza la media come punto di riferimento di ciascun valore e si calcola la deviazione di ciascun valore dalla media deviazione standard (radice quadrata della varianza) 2 2 ( v( i) ˆ μ ) varianza σ = n i più σ 2 e σ sono piccoli più i dati sono concentrati più σ 2 e σ sono grandi più i dati sono dispersi

74 Riassumere i dati mediante semplici statistiche Un ulteriore modo di esprimere la variabilità di un insieme di dati è quello di utilizzare il range o campo di variazione range: differenza tra il più grande e il più piccolo valore presente nei dati rappresenta l ampiezza dell intervallo dei dati tiene conto solo dei valori estremi trascurando tutti gli altri nel caso in cui i dati siano pochi si ottiene una stima erronea del range di popolazione tende ad aumentare con l aumento del numero delle osservazioni

75 Riassumere i dati mediante semplici statistiche Range o differenza interqualile: differenza tra il terzo ed il primo quartile elimina l influenza dei valori estremi relativamente indipendente dalla numerosità del campione

76 Visualizzazione grafica di singole variabili: istogramma Un istogramma è un grafico compatto per rappresentare una serie di dati (generalmente continui) Costruire un istogramma per dati continui dividere il range di dati in intervalli (detti classi di intervallo, celle, o semplicemente colonne) se possibile, le colonne dovrebbero essere di uguale larghezza, per aumentare l informazione visiva

77 Visualizzazione grafica di singole variabili: Pareto chart Una significativa variazione dell istogramma è il diagramma di Pareto (Pareto Chart) in economia principio di Pareto : modo di rappresentare in forma grafica gli aspetti prioritari da affrontare per risolvere un problema usato nei processi di miglioramento della qualità, dove i dati di solito presentano diversi tipi di difetti, errori e non conformità, o altre categorie di interesse per l analisi diagramma di Pareto è un istogramma con celle ordinate in senso decrescente affiancato dal grafico delle frequenze cumulate (detto curva di Lorenz) le categorie sono ordinate in modo tale che quella con maggior frequenza si trovi sulla sinistra del grafico, seguita da quella con la seconda frequenza, e così via permette di stabilire quali sono i maggiori fattori che hanno influenza su un dato fenomeno

78 Visualizzazione grafica di singole variabili: box-plot Un buon sistema per rappresentare graficamente i dati è la cosiddetta "Tecnica dei 5 numeri" o "Box and wiskers plot" (letteralmente: diagramma a scatola e baffi) la "scatola" comprende la mediana e è delimitata dal 25 e dal 75 percentile i "baffi" limitano i valori minimo e massimo

79 Visualizzazione grafica di singole variabili: box-plot Box-and-whisker plots sono utili per interpretare la possibile distribuzione dei dati Rappresentano il grado di dispersione o variabilità dei dati (rispetto mediana e/o media) evidenziano le eventuali simmetrie evidenziano la presenza di valori anomali evidenziano il range inter-quartile ovvero la dispersione dei dati

80 Visualizzazione grafica di singole variabili: box-plot (esempio) Esempio di costruzione di un box-plot Dati relativi ai punteggi acquisiti da un insieme di studenti dati: 80, 75, 90, 95, 65, 65, 80, 85, 70, 100 Si ordinano i dati in ordine crescente si determina il primo quartile, la mediana, il terzo quartile, il più grande ed il più piccolo valore: mediana = 80 primo quartile = 70 terzo quartile = 90 Valore minimo = 65 Valore massimo = 100

81 Visualizzazione grafica di singole variabili: box-plot (esempio) 65, 65, 70, 75,80, 80, 85, 90, 95,100 Primo quartile Mediana (secondo quartile) Terzo quartile

82 Visualizzazione grafica di coppie di variabili: Scatterplot Scatter plot o diagramma di dispersione (scatter plot) è un grafico cartesiano formato dai punti ottenuti rilevazione di due variabili numeriche Variabile descrittiva (explanatory variable) Variabile suscettibile (response variable) Alcune proprietà statistiche della distribuzione (posizione, dispersione, correlazione, dati anomali) possono essere dedotte dalla nuvola di punti posizione, coesione interna, orientamento, presenza di punti isolati possibili associazioni tra due variabili Associazione positiva trend in salita Associazione negativa trend in discesa Nessun trend mancanza di associazione

83 Visualizzazione grafica di dati multivariabili: Scatter-matrix Un insieme di dati multivariati (più di due variabili) permette di ottenere diversi scatter plot per ciascuna coppia di variabili Si ottiene cosi la matrice degli scatterplot matrice simmetrica p p (le p righe e p colonne corrispondono a ciascuna variabile) di scatterplot bivariati nella posizione ij grafico della variabile j rispetto la variabile i la stessa variabile compare nella posizione ji in cui gli assi x ed y sono scambiati

84 Visualizzazione grafica di dati multivariabili: Co-plot Un grafico coplot è una successione di scatter-plot di tipo conditionato ciascun diagramma corrisponde a un particolare intervallo di valori di una terza variabile o fattore di condizionamento Metodo di visualizzazione che permette di evidenziare come una variabile di output dipende da una variabile di input date altre variabili descrittive Diverse modalità di rappresentazione Given panels: intervalli di variabilità della variabile condizionata Dependence panels: scatterplot bivariati della variabile suscettibile rispetto le restanti variabili descrittive

85 Visualizzazione grafica di dati multivariabili: diagrammi di Trellis I coplot sono esempi di metodi di visualizzazione più generali noti come diagrammi di Trellis. I diagrammi (o grafici) di Trellis permettono di visualizzare l esistenza di strutture nei dati mediante l utilizzo di grafici 1D,2D o 3D. Visualizzazione le relazioni all interno di grandi dataset distinguendo diversi gruppi di variabili

86 Visualizzazione grafica di dati multivariabili: diagrammi di Trellis Multipanel conditioning Visualizzazione del cambiamento delle relazioni tra due variabili in funzione di una o più variabili condizionate Rappresentazione di diversi tipi di grafici in un range di valori relativo alle variabili selezionate.

87 Esempio: IRIS data Classificazione di tre tipi di fiori iris: Setosa, Versicolor, Virginica. Iris Setosa Iris Versicolor Iris Virginica

88 Esempio: IRIS data Il dataset IRIS è costituito da 150 esempi di fiori iris catalogati in base ad una analisi di 4 attributi (variabili di input): Lunghezza e larghezza dei sepali (elementi costitutivi del calice del fiore) Lunghezza e larghezza dei petali (elemento costitutivo della corolla del fiore) Ogni campione del data set è un vettore di 5 dimensioni (4 variabili continue, 1 categorica) attributi dei fiori (input) classe (output) Iris-virginica

89 Esempio: IRIS data Esempio di scatterplot bivariato (lungh. Sepali, lungh. Petali)

90 Scatterplot matrix: IRIS data

91 Box-and-whisker plot: IRIS data

92 Diagramma di Trellis: Iris Data Esempio di diagramma di Trellis Grafico 3D lunghezza dei sepali (asse x), larghezza dei sepali (asse y) larghezza dei petali (asse z) Condizionato alla: Lunghezza dei petali Specie di fiore

93 Diagramma di Trellis: Iris Data setosa setosa Petal L.: [ ] Petal L.: [ ] versicolor versicolor Petal L.: [ ] Petal L.: [ ]

94 WEKA Checosaè WEKA? WEKA acronomo di Waikato Environment for Knowledge Analysis sviluppato dall Università di Waikato (Nuova Zelanda) a partire dal 1993 collezione di algoritmi di machine learning per il Data Mining contiene algoritmi per il pre-processing, la classificazione, la regressione, il clustering, la visualizazione grafiac, ecc. scritto in Java, open source, rilasciato con licenza GNU

95 WEKA L'interfaccia grafica di Weka è composta da: Simple CLI: l'interfaccia dalla linea di comando; Explorer: consente di esplorare i dati attraverso i comandi WEKA Experimenter: permette di testare diversi algoritmi di data mining Sito Ufficiale:

Esplorazione grafica di dati multivariati. N. Del Buono

Esplorazione grafica di dati multivariati. N. Del Buono Esplorazione grafica di dati multivariati N. Del Buono Scatterplot Scatterplot permette di individuare graficamente le possibili associazioni tra due variabili Variabile descrittiva (explanatory variable)

Dettagli

Esplorazione grafica di dati multivariati. N. Del Buono

Esplorazione grafica di dati multivariati. N. Del Buono Esplorazione grafica di dati multivariati N. Del Buono Scatterplot Scatterplot permette di individuare graficamente le possibili associazioni tra due variabili Variabile descrittiva (explanatory variable)

Dettagli

Introduzione al KDD. Il processo KDD I metodi di DM

Introduzione al KDD. Il processo KDD I metodi di DM Introduzione al KDD Il processo KDD I metodi di DM Introduzione al KDD Knowledge Discovery in Databases (KDD): processo automatico di esplorazione dei dati allo scopo di identificare pattern validi, utili,

Dettagli

Scale di Misurazione Lezione 2

Scale di Misurazione Lezione 2 Last updated April 26, 2016 Scale di Misurazione Lezione 2 G. Bacaro Statistica CdL in Scienze e Tecnologie per l'ambiente e la Natura II anno, II semestre Tipi di Variabili 1 Scale di Misurazione 1. Variabile

Dettagli

Teoria e tecniche dei test. Concetti di base

Teoria e tecniche dei test. Concetti di base Teoria e tecniche dei test Lezione 2 2013/14 ALCUNE NOZIONI STATITICHE DI BASE Concetti di base Campione e popolazione (1) La popolazione è l insieme di individui o oggetti che si vogliono studiare. Questi

Dettagli

La statistica descrittiva per le variabili quantitative

La statistica descrittiva per le variabili quantitative La statistica descrittiva per le variabili quantitative E la sintesi dei dati Gli indici di posizione/tendenza centrale OBIETTIVO Individuare un indice che rappresenti significativamente un insieme di

Dettagli

MISURE DI SINTESI 54

MISURE DI SINTESI 54 MISURE DI SINTESI 54 MISURE DESCRITTIVE DI SINTESI 1. MISURE DI TENDENZA CENTRALE 2. MISURE DI VARIABILITÀ 30 0 µ Le due distribuzioni hanno uguale tendenza centrale, ma diversa variabilità. 30 0 Le due

Dettagli

La variabilità. Dott. Cazzaniga Paolo. Dip. di Scienze Umane e Sociali

La variabilità. Dott. Cazzaniga Paolo. Dip. di Scienze Umane e Sociali Dip. di Scienze Umane e Sociali paolo.cazzaniga@unibg.it Introduzione [1/2] Gli indici di variabilità consentono di riassumere le principali caratteristiche di una distribuzione (assieme alle medie) Le

Dettagli

Ricerca di outlier. Prof. Matteo Golfarelli Alma Mater Studiorum - Università di Bologna

Ricerca di outlier. Prof. Matteo Golfarelli Alma Mater Studiorum - Università di Bologna Ricerca di outlier Prof. Matteo Golfarelli Alma Mater Studiorum - Università di Bologna Ricerca di Anomalie/Outlier Cosa sono gli outlier? L insieme di dati che sono considerevolmente differenti dalla

Dettagli

ESERCIZI DI STATISTICA SOCIALE

ESERCIZI DI STATISTICA SOCIALE ESERCIZI DI STATISTICA SOCIALE FREQUENZA ASSOLUTA Data una distribuzione semplice di dati, ovvero una serie di microdati, si chiama frequenza assoluta di ogni modalità del carattere studiato il numero

Dettagli

Esplorazione dei dati

Esplorazione dei dati Esplorazione dei dati Introduzione L analisi esplorativa dei dati evidenzia, tramite grafici ed indicatori sintetici, le caratteristiche di ciascun attributo presente in un dataset. Il processo di esplorazione

Dettagli

BLAND-ALTMAN PLOT. + X 2i 2 la differenza ( d ) tra le due misure per ognuno degli n campioni; d i. X i. = X 1i. X 2i

BLAND-ALTMAN PLOT. + X 2i 2 la differenza ( d ) tra le due misure per ognuno degli n campioni; d i. X i. = X 1i. X 2i BLAND-ALTMAN PLOT Il metodo di J. M. Bland e D. G. Altman è finalizzato alla verifica se due tecniche di misura sono comparabili. Resta da comprendere cosa si intenda con il termine metodi comparabili

Dettagli

STIME STATISTICHE. Consideriamo il caso della misura di una grandezza fisica che sia affetta da errori casuali. p. 2/2

STIME STATISTICHE. Consideriamo il caso della misura di una grandezza fisica che sia affetta da errori casuali. p. 2/2 p. 1/1 INFORMAZIONI Prossime lezioni Giorno Ora Dove 10/02 14:30 P50 11/02 14:30 Laboratorio (via Loredan) 17/02 14:30 P50 23/02 14:30 P50 25/02 14:30 Aula informatica (6-7 gruppi) 02/03 14:30 P50 04/03

Dettagli

http://www.biostatistica.unich.it STATISTICA DESCRITTIVA LE MISURE DI TENDENZA CENTRALE OBIETTIVO Individuare un indice che rappresenti significativamente un insieme di dati statistici. Esempio: Nella

Dettagli

Dipartimento di Fisica a.a. 2003/2004 Fisica Medica 2 Indici statistici 22/4/2005

Dipartimento di Fisica a.a. 2003/2004 Fisica Medica 2 Indici statistici 22/4/2005 Dipartimento di Fisica a.a. 23/24 Fisica Medica 2 Indici statistici 22/4/25 Ricerca statistica La ricerca può essere deduttiva (data una legge teorica nota cerco verifica tramite più misure) ovvero induttiva

Dettagli

Statistica descrittiva

Statistica descrittiva Statistica descrittiva Caso di 1 variabile: i dati si presentano in una tabella: Nome soggetto Alabama Dato 11.6.. Per riassumere i dati si costruisce una distribuzione delle frequenze. 1 Si determina

Dettagli

Corso di Laurea in Economia Aziendale. Docente: Marta Nai Ruscone. Statistica. a.a. 2015/2016

Corso di Laurea in Economia Aziendale. Docente: Marta Nai Ruscone. Statistica. a.a. 2015/2016 Corso di Laurea in Economia Aziendale Docente: Marta Nai Ruscone Statistica a.a. 2015/2016 1 Indici di posizione GLI INDICI DI POSIZIONE sono indici sintetici che evidenziano le caratteristiche essenziali

Dettagli

Elementi di Statistica

Elementi di Statistica Università degli Studi di Palermo Dipartimento di Ingegneria Informatica Informatica ed Elementi di Statistica 3 c.f.u. Anno Accademico 2010/2011 Docente: ing. Salvatore Sorce Elementi di Statistica Statistica

Dettagli

le scale di misura scala nominale scala ordinale DIAGNOSTICA PSICOLOGICA lezione si basano su tre elementi:

le scale di misura scala nominale scala ordinale DIAGNOSTICA PSICOLOGICA lezione si basano su tre elementi: DIAGNOSTICA PSICOLOGICA lezione! Paola Magnano paola.magnano@unikore.it si basano su tre elementi: le scale di misura sistema empirico: un insieme di entità non numeriche (es. insieme di persone; insieme

Dettagli

http://www.biostatistica.unich.it 1 STATISTICA DESCRITTIVA Le misure di tendenza centrale 2 OBIETTIVO Individuare un indice che rappresenti significativamente un insieme di dati statistici. 3 Esempio Nella

Dettagli

Sperimentazioni di Fisica I mod. A Statistica - Lezione 2

Sperimentazioni di Fisica I mod. A Statistica - Lezione 2 Sperimentazioni di Fisica I mod. A Statistica - Lezione 2 A. Garfagnini M. Mazzocco C. Sada Dipartimento di Fisica G. Galilei, Università di Padova AA 2014/2015 Elementi di Statistica Lezione 2: 1. Istogrammi

Dettagli

Matematica Lezione 22

Matematica Lezione 22 Università di Cagliari Corso di Laurea in Farmacia Matematica Lezione 22 Sonia Cannas 14/12/2018 Indici di posizione Indici di posizione Gli indici di posizione, detti anche misure di tendenza centrale,

Dettagli

Esplorazione dei dati. Lucidi e dataset tratti da Turini - Analisi dei Dati, Dip. Inf. Unipi

Esplorazione dei dati. Lucidi e dataset tratti da Turini - Analisi dei Dati, Dip. Inf. Unipi Esplorazione dei dati Lucidi e dataset tratti da Turini - Analisi dei Dati, Dip. Inf. Unipi Analisi mono e bivariata Si utilizzano indicatori sintetici che individuano, con un singolo valore, proprieta`

Dettagli

p. 1/2 STIME STATISTICHE Consideriamo il caso della misura di una grandezza fisica che sia affetta da errori casuali.

p. 1/2 STIME STATISTICHE Consideriamo il caso della misura di una grandezza fisica che sia affetta da errori casuali. p. 1/2 STIME STATISTICHE Consideriamo il caso della misura di una grandezza fisica che sia affetta da errori casuali. p. 1/2 STIME STATISTICHE Consideriamo il caso della misura di una grandezza fisica

Dettagli

Indice. Prefazione. 4 Sintesi della distribuzione di un carattere La variabilità Introduzione La variabilità di una distribuzione 75

Indice. Prefazione. 4 Sintesi della distribuzione di un carattere La variabilità Introduzione La variabilità di una distribuzione 75 00PrPag:I-XIV_prefazione_IAS 8-05-2008 17:56 Pagina V Prefazione XI 1 La rilevazione dei fenomeni statistici 1 1.1 Introduzione 1 1.2 Caratteri, unità statistiche e collettivo 1 1.3 Classificazione dei

Dettagli

Data Journalism. Analisi dei dati. Angelica Lo Duca

Data Journalism. Analisi dei dati. Angelica Lo Duca Data Journalism Analisi dei dati Angelica Lo Duca angelica.loduca@iit.cnr.it Obiettivo L obiettivo dell analisi dei dati consiste nello scoprire trend, pattern e relazioni nascosti nei dati. di analisi

Dettagli

LE MISURE DI TENDENZA CENTRALE. Dott. Giuseppe Di Martino Scuola di Specializzazione in Igiene e Medicina Preventiva

LE MISURE DI TENDENZA CENTRALE. Dott. Giuseppe Di Martino Scuola di Specializzazione in Igiene e Medicina Preventiva LE MISURE DI TENDENZA CENTRALE Dott. Giuseppe Di Martino Scuola di Specializzazione in Igiene e Medicina Preventiva Individuare un indice che rappresenti significativamente un insieme di dati statistici

Dettagli

Indice. centrale, dispersione e forma Introduzione alla Statistica Statistica descrittiva per variabili quantitative: tendenza

Indice. centrale, dispersione e forma Introduzione alla Statistica Statistica descrittiva per variabili quantitative: tendenza XIII Presentazione del volume XV L Editore ringrazia 3 1. Introduzione alla Statistica 5 1.1 Definizione di Statistica 6 1.2 I Rami della Statistica Statistica Descrittiva, 6 Statistica Inferenziale, 6

Dettagli

tabelle grafici misure di

tabelle grafici misure di Statistica Descrittiva descrivere e riassumere un insieme di dati in maniera ordinata tabelle grafici misure di posizione dispersione associazione Misure di posizione Forniscono indicazioni sull ordine

Dettagli

Pre-elaborazione dei dati (Data pre-processing)

Pre-elaborazione dei dati (Data pre-processing) Pre-elaborazione dei dati (Data pre-processing) I dati nel mondo reale sono sporchi incompleti: mancano valori per gli attributi, mancano attributi importanti, solo valori aggregati rumorosi: contengono

Dettagli

1/55. Statistica descrittiva

1/55. Statistica descrittiva 1/55 Statistica descrittiva Organizzare e rappresentare i dati I dati vanno raccolti, analizzati ed elaborati con le tecniche appropriate (organizzazione dei dati). I dati vanno poi interpretati e valutati

Dettagli

I Componenti del processo decisionale 7

I Componenti del processo decisionale 7 Indice Introduzione 1 I Componenti del processo decisionale 7 1 Business intelligence 9 1.1 Decisioni efficaci e tempestive........ 9 1.2 Dati, informazioni e conoscenza....... 12 1.3 Ruolo dei modelli

Dettagli

7. STATISTICA DESCRITTIVA

7. STATISTICA DESCRITTIVA 7. STATISTICA DESCRITTIVA Quando si effettua un indagine statistica si ha a che fare con un numeroso insieme di oggetti, detto popolazione del quale si intende esaminare una o più caratteristiche (matricole

Dettagli

Statistica Elementare

Statistica Elementare Statistica Elementare 1. Frequenza assoluta Per popolazione si intende l insieme degli elementi che sono oggetto di una indagine statistica, ovvero l insieme delle unità, dette unità statistiche o individui

Dettagli

Dipartimento di Matematica, Informatica ed Economia (DiMIE) Statistica. Antonio Azzollini

Dipartimento di Matematica, Informatica ed Economia (DiMIE) Statistica. Antonio Azzollini Dipartimento di Matematica, Informatica ed Economia (DiMIE) Statistica Antonio Azzollini antonio.azzollini@unibas.it Anno accademico 2017/2018 Quartili e distribuzioni di frequenze Stanze Appartamenti

Dettagli

Analisi univariata Analisi bivariata Analisi multivariata

Analisi univariata Analisi bivariata Analisi multivariata L analisi esplorativa dei dati evidenzia, tramite grafici ed indicatori sintetici, le caratteristiche di ciascun attributo presente in un dataset. Il processo di esplorazione consiste di tre fasi: Analisi

Dettagli

Prefazione Ringraziamenti dell'editore Il sito web dedicato al libro Test online: la piattaforma McGraw-Hill Education Guida alla lettura

Prefazione Ringraziamenti dell'editore Il sito web dedicato al libro Test online: la piattaforma McGraw-Hill Education Guida alla lettura INDICE GENERALE Prefazione Ringraziamenti dell'editore Il sito web dedicato al libro Test online: la piattaforma McGraw-Hill Education Guida alla lettura XI XIV XV XVII XVIII 1 LA RILEVAZIONE DEI FENOMENI

Dettagli

Capitolo 12 La regressione lineare semplice

Capitolo 12 La regressione lineare semplice Levine, Krehbiel, Berenson Statistica II ed. 2006 Apogeo Capitolo 12 La regressione lineare semplice Insegnamento: Statistica Corso di Laurea Triennale in Ingegneria Gestionale Facoltà di Ingegneria, Università

Dettagli

STATISTICA DESCRITTIVA (variabili quantitative)

STATISTICA DESCRITTIVA (variabili quantitative) STATISTICA DESCRITTIVA (variabili quantitative) PRIMO ESEMPIO: Concentrazione di un elemento chimico in una roccia. File di lavoro di STATVIEW Cliccando sul tasto del pane control si ottiene il cosiddetto

Dettagli

La sintesi delle distribuzioni

La sintesi delle distribuzioni Dip. di Scienze Umane e Sociali paolo.cazzaniga@unibg.it Outline 1 Introduzione 2 3 4 Outline 1 Introduzione 2 3 4 Introduzione Analisi descrittiva monovariata: segue la raccolta dei dati e il calcolo

Dettagli

Indice generale. Introduzione. Capitolo 1 Essere uno scienziato dei dati... 1

Indice generale. Introduzione. Capitolo 1 Essere uno scienziato dei dati... 1 Introduzione...xi Argomenti trattati in questo libro... xi Dotazione software necessaria... xii A chi è rivolto questo libro... xii Convenzioni utilizzate... xiii Scarica i file degli esempi... xiii Capitolo

Dettagli

Statistica multivariata 27/09/2016. D.Rodi, 2016

Statistica multivariata 27/09/2016. D.Rodi, 2016 Statistica multivariata 27/09/2016 Metodi Statistici Statistica Descrittiva Studio di uno o più fenomeni osservati sull INTERA popolazione di interesse (rilevazione esaustiva) Descrizione delle caratteristiche

Dettagli

Università di Cassino Corso di Laurea in Scienze Motorie Biostatistica Anno accademico 2011/2012

Università di Cassino Corso di Laurea in Scienze Motorie Biostatistica Anno accademico 2011/2012 Università di Cassino Corso di Laurea in Scienze Motorie Biostatistica Anno accademico 2011/2012 Bruno Federico b.federico@unicas.it Cattedra di Igiene - Università degli Studi di Cassino Indici di sintesi

Dettagli

Presentazione dell edizione italiana

Presentazione dell edizione italiana 1 Indice generale Presentazione dell edizione italiana Prefazione xi xiii Capitolo 1 Una introduzione alla statistica 1 1.1 Raccolta dei dati e statistica descrittiva... 1 1.2 Inferenza statistica e modelli

Dettagli

Indici di. tendenza centrale: posizione: variabilità e dispersione: -quantili -decili -percentili. -Media -Moda -Mediana

Indici di. tendenza centrale: posizione: variabilità e dispersione: -quantili -decili -percentili. -Media -Moda -Mediana Indici di posizione: -quantili -decili -percentili tendenza centrale: -Media -Moda -Mediana variabilità e dispersione: -Devianza - Varianza -Deviazione standard Indici di tendenza centrale Indici di tendenza

Dettagli

Statistica. POPOLAZIONE: serie di dati, che rappresenta linsieme che si vuole indagare (reali, sperimentali, matematici)

Statistica. POPOLAZIONE: serie di dati, che rappresenta linsieme che si vuole indagare (reali, sperimentali, matematici) Statistica La statistica può essere vista come la scienza che organizza ed analizza dati numerici per fini descrittivi o per permettere di prendere delle decisioni e fare previsioni. Statistica descrittiva:

Dettagli

INDICATORI DI TENDENZA CENTRALE

INDICATORI DI TENDENZA CENTRALE INDICATORI DI TENDENZA CENTRALE INDICATORI DI TENDENZA CENTRALE Consentono di sintetizzare un insieme di misure tramite un unico valore rappresentativo indice che riassume o descrive i dati e dipende dalla

Dettagli

Analisi multivariata per osservazioni appaiate. Analisi multivariata per osservazioni appaiate

Analisi multivariata per osservazioni appaiate. Analisi multivariata per osservazioni appaiate Introduzione Notazione Modello additivo Verifica d ipotesi Sia X una variabile q-dimensionale, a valori reali, non degenere, osservata in k tempi diversi (τ 1, τ 2,..., τ k ), sulle stesse n unità statistiche

Dettagli

INTRODUZIONE ALLA STATISTICA

INTRODUZIONE ALLA STATISTICA 1 / 31 INTRODUZIONE ALLA STATISTICA A.A.2017/2018 Perchè studiare la statistica 2 / 31 Le decisioni quotidiane sono spesso basate su informazioni incomplete. Perchè studiare la statistica Le decisioni

Dettagli

Prof. Anna Paola Ercolani (Università di Roma) Lez Indicatori di tendenza centrale

Prof. Anna Paola Ercolani (Università di Roma) Lez Indicatori di tendenza centrale INDICATORI DI TENDENZA CENTRALE Consentono di sintetizzare un insieme di misure tramite un unico valore rappresentativo indice che riassume o descrive i dati e dipende dalla scala di misura dei dati in

Dettagli

Statistica. Antonio Azzollini

Statistica. Antonio Azzollini Dipartimento di Matematica, Informatica ed Economia (DiMIE) Statistica Antonio Azzollini antonio.azzollini@unibas.it Anno accademico 2018/2019 Quartili e distribuzioni di frequenze Stanze Appartamenti

Dettagli

Statistica di base per l analisi socio-economica

Statistica di base per l analisi socio-economica Laurea Magistrale in Management e comunicazione d impresa Statistica di base per l analisi socio-economica Giovanni Di Bartolomeo gdibartolomeo@unite.it Definizioni di base Una popolazione è l insieme

Dettagli

3. rappresentare mediante i grafici ritenuti più idonei le distribuzioni di frequenze assolute dei diversi caratteri;

3. rappresentare mediante i grafici ritenuti più idonei le distribuzioni di frequenze assolute dei diversi caratteri; Esercizio 1 Il corso di Statistica è frequentato da 10 studenti che presentano le seguenti caratteristiche Studente Sesso Colore Occhi Voto Soddisfazione Età Stefano M Nero 18 Per niente 21 Francesca F

Dettagli

N.B. Per la risoluzione dei seguenti esercizi, si fa riferimento alle Tabelle riportate alla fine del documento.

N.B. Per la risoluzione dei seguenti esercizi, si fa riferimento alle Tabelle riportate alla fine del documento. N.B. Per la risoluzione dei seguenti esercizi, si fa riferimento alle Tabelle riportate alla fine del documento. Esercizio 1 Un chimico che lavora per una fabbrica di batterie, sta cercando una batteria

Dettagli

Dispensa di Statistica

Dispensa di Statistica Dispensa di Statistica 1 parziale 2012/2013 Diagrammi... 2 Indici di posizione... 4 Media... 4 Moda... 5 Mediana... 5 Indici di dispersione... 7 Varianza... 7 Scarto Quadratico Medio (SQM)... 7 La disuguaglianza

Dettagli

Riconoscimento automatico di oggetti (Pattern Recognition)

Riconoscimento automatico di oggetti (Pattern Recognition) Riconoscimento automatico di oggetti (Pattern Recognition) Scopo: definire un sistema per riconoscere automaticamente un oggetto data la descrizione di un oggetto che può appartenere ad una tra N classi

Dettagli

Classificazione Mario Guarracino Data Mining a.a. 2010/2011

Classificazione Mario Guarracino Data Mining a.a. 2010/2011 Classificazione Mario Guarracino Data Mining a.a. 2010/2011 Introduzione I modelli di classificazione si collocano tra i metodi di apprendimento supervisionato e si rivolgono alla predizione di un attributo

Dettagli

ELEMENTI DI STATISTICA DESCRITTIVA

ELEMENTI DI STATISTICA DESCRITTIVA Dipartimento di Matematica U. Dini, Università di Firenze Viale Morgagni 67/A, 50134 - Firenze, Italy, vlacci@math.unifi.it November 15, 2015 Terminologia In un esperimento ogni risultato delle caratteristiche

Dettagli

Indici di tendenza centrale Media, mediana e moda.

Indici di tendenza centrale Media, mediana e moda. Indici di tendenza centrale Media, mediana e moda. Indici di tendenza centrale Gli indici di tendenza centrale individuano gli aspetti tipici, ovvero i valori più rappresentativi della distribuzione Questi

Dettagli

Corso di Laurea: Diritto per le Imprese e le istituzioni a.a Statistica. Statistica Descrittiva 3. Esercizi: 5, 6. Docente: Alessandra Durio

Corso di Laurea: Diritto per le Imprese e le istituzioni a.a Statistica. Statistica Descrittiva 3. Esercizi: 5, 6. Docente: Alessandra Durio Corso di Laurea: Diritto per le Imprese e le istituzioni a.a. 2016-17 Statistica Statistica Descrittiva 3 Esercizi: 5, 6 Docente: Alessandra Durio 1 Contenuti I quantili nel caso dei dati raccolti in classi

Dettagli

Grafici e tabelle permettono di fare valutazioni qualitative, non quantitative. E necessario poter sintetizzare i dati attraverso due importanti

Grafici e tabelle permettono di fare valutazioni qualitative, non quantitative. E necessario poter sintetizzare i dati attraverso due importanti Grafici e tabelle permettono di fare valutazioni qualitative, non quantitative. E necessario poter sintetizzare i dati attraverso due importanti indici : Indici di posizione Indici di variazione Indici

Dettagli

INDICATORI DI TENDENZA CENTRALE

INDICATORI DI TENDENZA CENTRALE Psicometria (8 CFU) Corso di laurea triennale INDICATORI DI TENDENZA CENTRALE Torna alla pri ma pagina INDICATORI DI TENDENZA CENTRALE Consentono di sintetizzare un insieme di misure tramite un unico valore

Dettagli

Media: è la più comune misura di tendenza centrale. Può essere calcolata per variabili numeriche.

Media: è la più comune misura di tendenza centrale. Può essere calcolata per variabili numeriche. Misure di tendenza centrale e di variabilità: Media: è la più comune misura di tendenza centrale. Può essere calcolata per variabili numeriche. Il valore medio di una variabile in un gruppo di osservazioni

Dettagli

STATISTICA 1 ESERCITAZIONE 6

STATISTICA 1 ESERCITAZIONE 6 STATISTICA 1 ESERCITAZIONE 6 Dott. Giuseppe Pandolfo 5 Novembre 013 CONCENTRAZIONE Osservando l ammontare di un carattere quantitativo trasferibile su un collettivo statistico può essere interessante sapere

Dettagli

Statistica. Matematica con Elementi di Statistica a.a. 2015/16

Statistica. Matematica con Elementi di Statistica a.a. 2015/16 Statistica La statistica è la scienza che organizza e analizza dati numerici per fini descrittivi o per permettere di prendere delle decisioni e fare previsioni. Statistica descrittiva: dalla mole di dati

Dettagli

Lezione 4 a - Misure di dispersione o di variabilità

Lezione 4 a - Misure di dispersione o di variabilità Lezione 4 a - Misure di dispersione o di variabilità Abbiamo visto che la media è una misura della localizzazione centrale della distribuzione (il centro di gravità). Popolazioni con la stessa media possono

Dettagli

INDICATORI DI TENDENZA CENTRALE

INDICATORI DI TENDENZA CENTRALE INDICATORI DI TENDENZA CENTRALE INDICATORI DI TENDENZA CENTRALE Consentono di sintetizzare un insieme di misure tramite un unico valore rappresentativo è indice che riassume o descrive i dati e dipende

Dettagli

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 2

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 2 CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 2 Dott.ssa Antonella Costanzo a.costanzo@unicas.it Indici di posizione variabilità e forma per caratteri qualitativi Il seguente data set riporta la rilevazione

Dettagli

UNIVERSITA DEGLI STUDI DI PERUGIA STATISTICA MEDICA. Prof.ssa Donatella Siepi tel:

UNIVERSITA DEGLI STUDI DI PERUGIA STATISTICA MEDICA. Prof.ssa Donatella Siepi tel: UNIVERSITA DEGLI STUDI DI PERUGIA STATISTICA MEDICA Prof.ssa Donatella Siepi donatella.siepi@unipg.it tel: 075 5853525 2 LEZIONE Statistica descrittiva STATISTICA DESCRITTIVA Rilevazione dei dati Rappresentazione

Dettagli

L A B C di R. Stefano Leonardi c Dipartimento di Scienze Ambientali Università di Parma Parma, 9 febbraio 2010

L A B C di R. Stefano Leonardi c Dipartimento di Scienze Ambientali Università di Parma Parma, 9 febbraio 2010 L A B C di R 0 20 40 60 80 100 2 3 4 5 6 7 8 Stefano Leonardi c Dipartimento di Scienze Ambientali Università di Parma Parma, 9 febbraio 2010 La scelta del test statistico giusto La scelta della analisi

Dettagli

Esercizi Svolti. 2. Costruire la distribuzione delle frequenze cumulate del tempo di attesa

Esercizi Svolti. 2. Costruire la distribuzione delle frequenze cumulate del tempo di attesa Esercizi Svolti Esercizio 1 Per una certa linea urbana di autobus sono state effettuate una serie di rilevazioni sui tempi di attesa ad una determinata fermata; la corrispondente distribuzione di frequenza

Dettagli

Corso di STATISTICA EGA - Classe 1 aa Docenti: Luca Frigau, Claudio Conversano

Corso di STATISTICA EGA - Classe 1 aa Docenti: Luca Frigau, Claudio Conversano Corso di STATISTICA EGA - Classe 1 aa 2017-2018 Docenti: Luca Frigau, Claudio Conversano Il corso è organizzato in 36 incontri, per un totale di 72 ore di lezione. Sono previste 18 ore di esercitazione

Dettagli

La statistica. Elaborazione e rappresentazione dei dati Gli indicatori statistici. Prof. Giuseppe Carucci

La statistica. Elaborazione e rappresentazione dei dati Gli indicatori statistici. Prof. Giuseppe Carucci La statistica Elaborazione e rappresentazione dei dati Gli indicatori statistici Introduzione La statistica raccoglie ed analizza gruppi di dati (su cose o persone) per trarne conclusioni e fare previsioni

Dettagli

Sommario. Capitolo 1 I dati e la statistica 1. Capitolo 2 Statistica descrittiva: tabelle e rappresentazioni grafiche 25

Sommario. Capitolo 1 I dati e la statistica 1. Capitolo 2 Statistica descrittiva: tabelle e rappresentazioni grafiche 25 Sommario Presentazione dell edizione italiana Prefazione xv xiii Capitolo 1 I dati e la statistica 1 Statistica in pratica: BusinessWeek 1 1.1 Le applicazioni in ambito aziendale ed economico 3 Contabilità

Dettagli

Modelli descrittivi, statistica e simulazione

Modelli descrittivi, statistica e simulazione Modelli descrittivi, statistica e simulazione Master per Smart Logistics specialist Roberto Cordone (roberto.cordone@unimi.it) Statistica descrittiva Cernusco S.N., martedì 28 febbraio 2017 1 / 1 Indici

Dettagli

Capitolo 3 Sintesi e descrizione dei dati quantitativi

Capitolo 3 Sintesi e descrizione dei dati quantitativi Levine, Krehbiel, Berenson Statistica II ed. 2006 Apogeo Capitolo 3 Sintesi e descrizione dei dati quantitativi Insegnamento: Statistica Applicata Corso di Laurea in "Scienze e tecnologie Alimentari" Unità

Dettagli

Statistica. Matematica con Elementi di Statistica a.a. 2017/18

Statistica. Matematica con Elementi di Statistica a.a. 2017/18 Statistica La statistica è la scienza che organizza e analizza dati numerici per fini descrittivi o per permettere di prendere delle decisioni e fare previsioni. Statistica descrittiva: dalla mole di dati

Dettagli

Statistica descrittiva

Statistica descrittiva Luigi Vajani Statistica descrittiva r,,, I o -:i f e l ~ 1 (f"i I - / I I - ETASLIBRI Indice XIII Presentazione Parte prima - Introduzione 3 Capitolo 1 - Concetti generali 1.1 - Introduzione; l.2 - La

Dettagli

Serie storiche Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007

Serie storiche Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007 Serie storiche Introduzione Per alcuni dataset, l attributo target è soggetto ad un evoluzione temporale e risulta associato ad istanti di tempo successivi. I modelli di analisi delle serie storiche si

Dettagli

Per alcuni dataset, l attributo target è soggetto ad un evoluzione temporale e risulta associato ad istanti di tempo successivi.

Per alcuni dataset, l attributo target è soggetto ad un evoluzione temporale e risulta associato ad istanti di tempo successivi. Per alcuni dataset, l attributo target è soggetto ad un evoluzione temporale e risulta associato ad istanti di tempo successivi. I modelli di analisi delle serie storiche si propongono di identificare

Dettagli

Asse matematico. G8. Utilizzare le reti e gli strumenti informatici nelle attività di studio, ricerca e approfondimento

Asse matematico. G8. Utilizzare le reti e gli strumenti informatici nelle attività di studio, ricerca e approfondimento Asse matematico codici Abilità codici Conoscenze I II III IV V G8A1 G8. Utilizzare le reti e gli strumenti informatici nelle attività di studio, ricerca e approfondimento Esprimere procedimenti risolutivi

Dettagli

TRACCIA DI STUDIO. Indici di dispersione assoluta per misure quantitative

TRACCIA DI STUDIO. Indici di dispersione assoluta per misure quantitative TRACCIA DI STUDIO Un indice di tendenza centrale non è sufficiente a descrivere completamente un fenomeno. Gli indici di dispersione assolvono il compito di rappresentare la capacità di un fenomeno a manifestarsi

Dettagli

Università del Piemonte Orientale. Corsi di Laurea Triennale di Area Tecnica. Corso di Statistica e Biometria

Università del Piemonte Orientale. Corsi di Laurea Triennale di Area Tecnica. Corso di Statistica e Biometria Università del Piemonte Orientale Corsi di Laurea Triennale di Area Tecnica Corso di Statistica e Biometria Statistica descrittiva: Dati numerici: statistiche di tendenza centrale e di variabilità Corsi

Dettagli

Laboratorio di dati e sistemi multimediali

Laboratorio di dati e sistemi multimediali Laboratorio di dati e sistemi multimediali Scienze e tecnologie Multimediale Prof. Christian Micheloni Introduzione Nel corso di questa lezione faremmo uso dell iris data set per introdurre i concetti

Dettagli

Dr. Marco Vicentini Anno Accademico Rev 02/04/2011

Dr. Marco Vicentini Anno Accademico Rev 02/04/2011 Università degli Studi di Padova Facoltà di Psicologia, L4, Psicometria, Modulo B Dr. Marco Vicentini marco.vicentini@unipd.it Anno Accademico 2010 2011 Rev 02/04/2011 Tabelle di contingenza Percentuali

Dettagli

Tipi di variabili. Indici di tendenza centrale e di dispersione

Tipi di variabili. Indici di tendenza centrale e di dispersione Tipi di variabili. Indici di tendenza centrale e di dispersione L. Boni Variabile casuale In teoria della probabilità, una variabile casuale (o variabile aleatoria o variabile stocastica o random variable)

Dettagli

Calcolo della Concentrazione Rappresentativa della Sorgente (CRS)

Calcolo della Concentrazione Rappresentativa della Sorgente (CRS) Calcolo della Concentrazione Rappresentativa della Sorgente (CRS) Prof. Renato Baciocchi, Università di Roma Tor Vergata Emiliano Scozza Università di Roma Tor Vergata 1 Valutazione dei Dati Data Set di

Dettagli

Statistica multivariata! Analisi fattoriale

Statistica multivariata! Analisi fattoriale Parte 3 : Statistica multivariata Quando il numero delle variabili rilevate sullo stesso soggetto aumentano, il problema diventa gestirle tutte e capirne le relazioni. Statistica multivariata! Analisi

Dettagli

Analisi della varianza

Analisi della varianza Università degli Studi di Padova Facoltà di Medicina e Chirurgia Facoltà di Medicina e Chirurgia - A.A. 2009-10 Scuole di specializzazione Lezioni comuni Disciplina: Statistica Docente: dott.ssa Egle PERISSINOTTO

Dettagli

Statistica. POPOLAZIONE: serie di dati, che rappresenta linsieme che si vuole indagare (reali, sperimentali, matematici)

Statistica. POPOLAZIONE: serie di dati, che rappresenta linsieme che si vuole indagare (reali, sperimentali, matematici) Statistica La statistica può essere vista come la scienza che organizza ed analizza dati numerici per fini descrittivi o per permettere di prendere delle decisioni e fare previsioni. Statistica descrittiva:

Dettagli

IC BOSCO CHIESANUOVA - CURRICOLO UNITARIO - SCUOLA SECONDARIA I

IC BOSCO CHIESANUOVA - CURRICOLO UNITARIO - SCUOLA SECONDARIA I IC BOSCO CHIESANUOVA - CURRICOLO UNITARIO - SCUOLA SECONDARIA I MATEMATICA Classe PRIMA secondaria 1 COMPETENZE SPECIFICHE ABILITÀ CONOSCENZE IL NUMERO - Utilizzare in modo corretto le tecniche, le procedure

Dettagli

Programmazione con Foglio di Calcolo Cenni di Statistica Descrittiva

Programmazione con Foglio di Calcolo Cenni di Statistica Descrittiva Fondamenti di Informatica Ester Zumpano Programmazione con Foglio di Calcolo Cenni di Statistica Descrittiva Lezione 5 Statistica descrittiva La statistica descrittiva mette a disposizione il calcolo di

Dettagli

Statistica descrittiva in una variabile

Statistica descrittiva in una variabile Statistica descrittiva in una variabile Dott. Nicola Pintus A.a. 2018-2019 Cosa è la statistica? La statistica è la scienza che studia con metodi matematici fenomeni collettivi. La statistica descrittiva

Dettagli

I Dati: aspetti da considerare

I Dati: aspetti da considerare I Dati: aspetti da considerare!! Tipo!! Quantitativi, qualitativi, serie temporali,!! Qualità!! I dati non sono mai perfetti!! Mancanti, inconsistenti, duplicati, errati!! Outliers!! Piccola parte di dati

Dettagli