Clustering. Cos è un analisi di clustering

Dimensione: px
Iniziare la visualizzazioe della pagina:

Download "Clustering. Cos è un analisi di clustering"

Transcript

1 Clustering Salvatore Orlando Data Mining. - S. Orlando Cos è un analisi di clustering Cluster: collezione di oggetti/dati Simili rispetto a ciascun oggetto nello stesso cluster Dissimili rispetto agli oggetti in altri cluster Analisi di clustering Raggruppare oggetti in cluster Clustering è anche definito come unsupervised classification: Non abbiamo classi predefinite Applicazioni tipiche Come uno strumento stand-alone per cercare di capire come i dati sono distribuiti Come passo di preprocessing per altri algoritmi Data Mining. - S. Orlando

2 Applicazioni Image Processing & Pattern Recognition Analisi di dati spaziali Creazione di mappe tematiche nei GIS Scienze Economiche (market research) WWW Classificazione di documenti Clustering di Weblog per scoprire gruppi di pattern accessi simili Data Mining. - S. Orlando 3 Esempi Marketing: Scopri gruppi distinti, e poi usa questa conoscenza per sviluppare programmi di targeted marketing Land use: Identifica aree terrestri simili rispetto al loro uso all interno di database di osservazione della terra (satellite) Assicurazioni: Identifica gruppi di assicurati con caratteristiche comuni City-planning: Identifica gruppi di case sulla base di tipo, valore, e localizzazione geografica Studi di terremoti: Clustering di epicentri Data Mining. - S. Orlando 4

3 Bontà del clustering Un buon metodo di clustering produrrà cluster di alta qualità con Alta similarità intra-class Bassa similarità inter-class La qualità del risultato del clustering dipende dalla misura di similarità usata dallo specifico algoritmo usato La qualità del clustering è anche misurato in base alla sua abilità di scoprire alcuni o tutti i pattern nascosti Data Mining. - S. Orlando 5 Requisiti di un buon metodo di clustering Scalabilità Abilità di trattare con tipi di attributi differenti Scoprire cluster con forme arbitrarie Dovrebbe essere minima la conoscenza di dominio per determinare gli attributi in input Robusto per poter trattare con rumori e outlier Non sensibile all ordinamento dei record in input Capacità di trattare con alta dimensionalità Capacità di incorporare vincoli specificati dagli utenti Interpretabilità e usabilità dei risultati Data Mining. - S. Orlando 6

4 Tipi di dati Matrice dei dati (two modes) n oggetti con p attributi Tabella relazionale i n f if nf p ip np Matrice di dissimilarità (one mode) d(i, j) misura di dissimilarità tra oggetti i e i d(i, j) 0 oggetti molto simili 0 d(,) d(3, ) : d ( n,) 0 d (3,) : d ( n,) 0 : 0 Data Mining. - S. Orlando 7 Misura la qualità del clustering Metrica di Dissimilarità/Similarità: Similarità espressa in termini di una funzione di distanza: d(i, j) Funzione qualità che misura la bontà di un cluster. Le definizioni di funzioni di distanza sono molto differenti per interval-scaled, booleane, categoriche, ordinali, ecc. Pesi dovrebbero essere associati con variabili differenti in base all applicazione o alla semantica dei dati Data Mining. - S. Orlando 8

5 Tipi di dati Variabili numeriche Variabili binarie Variabili categoriche: nominali, ordinali Variabili di tipo misto Data Mining. - S. Orlando 9 Variabili numeriche (interval-scaled) Standardizzazione dei dati per evitare la dipendenza sull unità di misura scelta per ogni variabile f Calcola la deviazione assoluta media: dove: s f = ( n m n + m m = ( f f f nf + + f f f f nf f ). m ) Calcola la misura standardizzata (z-score) z if = if m s f f La deviazione assoluta media è più robusta della deviazione standard if -m f non è elevato al quadrato, riducendo i problemi dovuti a outliers Data Mining. - S. Orlando 0

6 Data Mining. - S. Orlando Variabili numeriche: distanza Distanze per misurare similarità o dissimilarità tra coppie oggetti Minkowski distance dove i = ( i, i,, ip ) e j = ( j, j,, jp ) sono due oggetti p- dimensionali, e q è un intero positivo Se q =, d è la distanza Manhattan q q p p q q j i j i j i j i d ) ( ), ( = ) (, p p j i j i j i j i d = Data Mining. - S. Orlando Variabili numeriche: distanza (cont.) Se q =, d è la Distanza Euclidea: Proprietà d(i,j) 0 d(i,i) = 0 d(i,j) = d(j,i) d(i,j) d(i,k) + d(k,j) Possiamo pesare le variabili, ottenendo così una misura di distanza pesata ) ( ), ( p p j i j i j i j i d =

7 Variabili binarie Una tabella di contingenza per coppie di dati binari: Oggetto j 0 sum Oggetto i 0 q s r t q+ r s+ t sum q+ s r + t p Coefficiente di matching semplice (variabili simmetriche): Coefficiente di Jaccard (variabili asimmetriche, valori 0 sono meno significativi): d ( i, j) = r + p s d ( i, j) = r s q + + r + s Data Mining. - S. Orlando 3 Dissimilarità usando Jaccard Esempio Nome Sesso Febbre Tosse Test- Test- Test-3 Test-4 Jack M Y N P N N N Mary F Y N P N P N Jim M Y P N N N N Sesso è un attributo simmetrico (non considerato) Gli altri attributi sono asimmetrici Y e P corrispondono a, mentre N corrisponde a 0 d d ( jack ( jack, mary, jim d ( jim, mary ) = = 0.33 ) = = 0.67 ) = = 0.75 Data Mining. - S. Orlando 4

8 Variabili nominali Una variabile che può avere più stati Es.: rosso, giallo, blu, verde Possiamo pensare ad una generalizzazione delle var. binarie, da a n Anche le misure ottenute sono generalizzazioni m: # di matches, p: # totale di variabili d ( i, j) = p p m Possiamo decodificare le variabili nominali con un gran numero di variabili binarie Una nuova var. binaria per ciascuno dei valori assunti da una variabile nominale Possiamo così usare le stesse misure usate per le var. binarie Data Mining. - S. Orlando 5 Variabili ordinali Una variabile ordinale è in pratica una variabile nominale con un ordine tra i valori assunti Può essere discreta o continua Possiamo assegnare un rango numerico (rank) ad ogni valore assunto Possiamo così trattare tali variabili come interval-based rimpiazziamo if con il suo rango, dove M f sono i valori diversi assunti da if r {,, M if f Mappiamo i valori di ciascuna variabile sull intervallo [0, ] rimpiazzando l i-esimo valore della f-esima variabile con z if = r M if f } Possiamo quindi calcolare la dissimilarità tra variabili ordinali come se fossero variabili numerico di tipo interval-scaled Data Mining. - S. Orlando 6

9 Variabili numeriche (ratio-scaled) Sono valori numerici misurati su una scala non lineare di valori Scala esponenziale Questo può essere problematico per le misure di distanza associate, a causa della distorsione della scala Distanze piccole tra valori consecutivi vicini allo zero Distanze grandi tra valori lontani dallo zero Soluzioni applicare una trasformazione (logaritmica) in modo da trasfomarli in interval-scaled, oppure considerare i valori come ordinali, assegnando un rango e applicare la distanza usata per variabili numeriche di tipo interval-scaled Data Mining. - S. Orlando 7 Variabili di tipo diverso Oggetti caratterizzati da p attributi diversi Numerici, nominali, ordinali, ecc. Si può usare una formula pesata per rappresentare gli effetti delle distanze calcolate con metodi diversi d ( i, j ) = Σ p f Σ = p f δ = ( ij f δ ) ( ij d f ( ij ) f ) δ ij (f) = 0 se if o jf non esistono nei due oggetti i e j se if = jf =0 ed f è binaria asimmetrica altrimenti δ ij (f) = Data Mining. - S. Orlando 8

10 Variabili di tipo diverso Σ p δ ( f ) d ( f ) d ( i, j ) = f = ij ij Σ p δ ( f ) f = ij Se f è binaria o nominale: d (f) ij = 0 se if = jf, d (f) ij = altrimenti Se f è numerica interval-based: usa distanza normalizzata d ( f ) ij = ma h if hf f è ordinale o ratio-scaled: calcola i ranghi r if e tratta z if come numerica interval-scaled z r = if if M f jf min In pratica tutti i vari d (f) ij saranno compresi nell intervallo [0-] il denominatore sarà maggiore del numeratore, e sarà uguale a p, dove p < p è il numero di variabili che esistono in entrambi gli oggetti, e che non sono binarie asimmetrici Una categorizzazione dei più importanti metodi di clustering h hf Data Mining. - S. Orlando 9 Partitioning algorithms: Costruisci varie partizioni e poi valutali sulla base di qualche criterio. Metodi iterativi. Hierarchy algorithms: Crea una decomposizione gerarchica degli oggetti sulla base di qualche criterio Density-based: basata su funzioni di densità degli oggetti Grid-based: basata su una discretizzazione dello spazio multi-dimensionale (griglia composta da celle che ospitano i vari oggetti) Model-based: Metodo statistico. Si ipotizza via via un modello per ciascun cluster: l idea è quella di trovare il migliore assegnamento dei dati rispetto al modello Data Mining. - S. Orlando 0

11 Partional vs. Hierarchical Una prima distinzione è tra un tipo di clustering hierarchical o partitional Partitional Clustering Gli oggetti sono suddivisi in sottoinsiemi (cluster) che non si sovrappongono Ciascun oggetto appartiene ad un solo cluster Hierarchical clustering I cluster sono annidati, e organizzati all interno di albero gerarchico Data Mining. - S. Orlando Partitional clustering Punti originali Partitional Clustering Data Mining. - S. Orlando

12 Hierarchical Clustering Traditional Hierarchical Clustering Traditional Dendrogram Data Mining. - S. Orlando 3 Altre caratterizzazioni dei metodi di clustering Esclusivo vs. Non-esclusivo Nel clustering non esclusivo, i punti possono appartenere a più cluster Fuzzy vs. non-fuzzy (fuzzy=sfuocato) In fuzzy clustering, un punto appartiene ad ogni cluster con un peso compreso tra 0 e La somma dei pesi deve essere Probabilistic clustering Parziale vs. completo In alcuni casi vogliamo soltanto effettuare il clustering di una parte dei dati Ad esempio, possiamo tralasciare punti che sono outliers rispetto agli altri Data Mining. - S. Orlando 4

13 Tipi di Cluster: Ben-Separati Cluster ben-separati Un cluster è costituito da un insiemi di punti tali che per ogni punto appartenente ad un cluster, questo punto è più vicino (o più simile) ad ogni altro punto del proprio cluster rispetto a tutti gli altri punti Data Mining. - S. Orlando 5 Tipi di Cluster: Center-based Center-based Un cluster è costituito da un insiemi di punti tali che per ogni punto appartenente ad un cluster, questo punto è più vicino (più simile) al centro del proprio cluster rispetto a tutti gli altri centri Possibili centri: Centroid: è una media di tutti i punti nel cluster Medoid: il punto più rappresentativo Data Mining. - S. Orlando 6

14 Tipi di Cluster: Contiguos Cluster Contiguous Cluster (Nearest neighbor) Un cluster è costituito da un insiemi di punti tali che per ogni punto appartenente ad un cluster, questo punto è più vicino (più simile) ad uno o più punti appartenenti al proprio cluster rispetto a tutti gli altri punti Data Mining. - S. Orlando 7 Tipi di Cluster: Density based Density-based Un cluster è una regione densa di punti I cluster sono separati da regioni a bassa densit Si usa questa nozione se i cluster sono irregolari, e se sono presenti rumori o outlier Nota che, rispetto alla slide precedente Le tre curve non formano dei cluster, e diventano rumore scartato dall algoritmo Non abbiamo il collegamento tra i due piccoli cluster circolari Data Mining. - S. Orlando 8

15 Partitioning method Partitioning method: Partiziona il database D di n oggetti in un insieme di k cluster Dato un k, trova un partizionamento in k cluster che ottimizza il criterio di partizionamento scelto Ricerche dell ottimo globale (non fattibili): enumerazione esaustiva di tutte le partizioni possibili Metodi di ricerca euristici (più fattibili): algoritmi k-means e k- medoids k-means (MacQueen 67): Ogni cluster è rappresentato dal centro (media) del cluster k-medoids o PAM (Partition around medoids) (Kaufman & Rousseeuw 87): Ogni cluster è rappresentato da uno degli oggetti del cluster Data Mining. - S. Orlando 9 Algoritmo K-Means Dato k, l algoritmo k-means è implementato in passi iterativi: Scegli in modo casuale k punti che rappresentano i centroidi (means) iniziali dei cluster Repeat. Assegna ciascun oggetto al cluster più vicino (il cui centro risulta il più vicino all oggetto dato). Calcola i centroidi (punti medi) dei cluster. Until Gli assegnamenti non cambiano (o cambiano poco) Data Mining. - S. Orlando 30

16 Algoritmo K-Means Esempio Data Mining. - S. Orlando 3 Commenti sul K-Means Forze Relativamente efficiente: O(tknd), dove n è il # di oggetti, k è il # di cluster, t è il # di iterazioni, e d è il # di attributi. Normalmente abbiamo che k e t << n. Il calcolo può diventare oneroso per valori di d grandi. Spesso termina su un ottimo locale. L ottimo globale può essere trovato usando tecniche come: deterministic annealing e genetic algorithm Debolezze Può essere applicato solo quando il tipo di dato permette di definire la media (che serve per determinare i centroidi del cluster) Problemi con dati categorici Bisogna specificare in anticipo k, il numero di cluster Ha altri problemi che dipendono dalle caratteristiche dei cluster presenti nei dati Data Mining. - S. Orlando 3

17 Variazioni dei metodi K-Means Esistono alcune varianti di k-means che hanno a che fare con La selezione dei k means iniziali Nuove misure di dissimilarità per trattare dati categorici Strategie per calculare i centroidi dei cluster Data Mining. - S. Orlando 33 Valutare il clustering prodotto La misura di valutazione più comune è Sum of the Squared Error (SSE) Calcolo di SSE Per ciascun punto, l errore è la distanza rispetto al centro (centroide, medoide) del cluster di appartenenza Per ottenere SSE, eleviamo al quadrato e sommiamo i vari errori Dati due clustering ottenuti con diversi run di K-means, possiamo scegliere quello che minimizza l errore Un modo semplicistico per ridurre SSE è aumentare K, il numero di cluster In ogni caso un buon clustering (con una valore piccolo di K) può risultare avere un SSE migliore di un clustering cattivo (con un grande valore di K) Data Mining. - S. Orlando 34

18 Problemi legati ai cluster presenti nei dati K-means ha problemi quando i cluster hanno differenti Dimensioni Densità Forma non globulare K-means ha ancora problemi quando i dati presentano outliers Una soluzione è usare K alti (molti clusters) I cluster trovati sono partizioni dei cluster effettivamente presenti Necessario rimettere assieme le partizioni trovate Data Mining. - S. Orlando 35 Limiti di K-means: Dimensioni differenti Original Points K-means Clusters Data Mining. - S. Orlando 36

19 Limiti di K-means: Densità differenti Original Points K-means Clusters Data Mining. - S. Orlando 37 Limiti di K-means: Forme non globulari Original Points K-means Clusters Data Mining. - S. Orlando 38

20 Aumentiamo K per superare i problemi di K-means Original Points K-means Clusters Data Mining. - S. Orlando 39 Aumentiamo K per superare i problemi di K-means Original Points K-means Clusters Data Mining. - S. Orlando 40

21 Aumentiamo K per superare i problemi di K-means Original Points K-means Clusters Data Mining. - S. Orlando 4 Algoritmo K-Medoids Trova oggetti rappresentanti, chiamati medoids, per ogni cluster cluster Rispetto a K-means, possiamo applicare l algoritmo anche se il tipo di dato non permette di definire la media (es. dati categorici) Metodo più robusto in presenza di outliers PAM (Partitioning Around Medoids, 987) Inizia da un insieme iniziale di medoids Iterativamente tenta di rimpiazzare uno dei medoid con un non-medoids se il rimpiazzamento migliora la distanza totale del nuovo clustering, mantieni la modifica PAM funziona bene per piccoli dataset, ma non scala bene Data Mining. - S. Orlando 4

22 Algoritmo K-medoids Scegli in modo arbitrario k medoids dagli oggetti da raggruppare Repeat. Assegna i rimanenti oggetti al medoid più vicino (o più simile). Seleziona in modo random un oggetto non-medoid (o random ) da scambiare con o j (vecchio medoid) 3. Calcola il costo totale SSE relativo allo nuovo clustering ottenuto scambiando o j con o random 4. Se guadagno rispetto ad SSE, allora mantieni lo scambio Until non riusciamo a modificare i medoid Data Mining. - S. Orlando 43 Casi possibili in seguito al riassegnamento di un medoid Scambiamo O j con O random O i P O j O i O i O i O j O j P O j P P O random O random O random O random P riassegnato a O i P riassegnato a O random P non viene riassegnato P riassegnato a O random Oggetto Medoid Relazione prima dello scambio Relazione dopo lo scambio Data Mining. - S. Orlando 44

23 Hierarchical Clustering Due tipi di clustering gerarchico Agglomerative: Inizia con punti considerati come cluster individuali A ciascun passo, unisci le coppie di clusters più vicini Fino a quando rimane un solo cluster (o k cluster) E necessaria una nozione di prossimità tra cluster Divisive: Inizia con un singolo cluster che ingloba tutti i punti A ciascun passo, spezza un cluster Fino a quando ogni cluster contiene un punto (o ci sono k cluster) E necessario scegliere quale cluster spezzare ad ogni passo I metodi agglomerativi sono più usati Data Mining. - S. Orlando 45 Hierarchical Clustering Usa la matrice delle distanze come criterio di clustering. Non bisogna specificare il numero k di cluster come input, ma è necessaria una condizione di terminazione Step 0 Step Step Step 3 Step 4 a a b b a b c d e c c d e d d e e Step 4 Step 3 Step Step Step 0 agglomerative (AGNES) divisive (DIANA) Data Mining. - S. Orlando 46

24 AGNES (Agglomerative Nesting) Usa il metodo Single-Link (MIN) e la matrice delle distanze relative Unisci i nodi che hanno la dissimilarità minima Alla fine tutti i nodi appartengono allo stesso cluster Sensibile a rumori e outlier Hierarchical Clustering Dendrogram Data Mining. - S. Orlando 47 Tipico algoritmo gerarchico agglomerativo L algoritmo è semplice. Calcola la matrice di prossimità. All inizio, ogni punto è un singolo cluster 3. Repeat 4. Unisci i cluster più vicini 5. Aggiorna la matrice di prossimità 6. Until fino a quando rimane un singolo cluster L operazione chiave è il calcolo della vicinanza tra due cluster Questo concetto di vicinanza costituisce la differenza principale tra algoritmi differenti Data Mining. - S. Orlando 48

25 Algoritmo gerarchico agglomerativo: inizio Iniziamo con cluster costituiti da punti individuali e una matrice di prossimità p p p3 p4 p5.. p p p3 p4 p5.... Proimity Matri Data Mining. - S. Orlando 49 Algoritmo ger. agglomerativo: fase intermedia Dopo qualche passo abbiamo dei cluster C C C3 C4 C5 C3 C4 C C C3 C C4 C5 C C5 Proimity Matri Data Mining. - S. Orlando 50

26 Algoritmo ger. agglomerativo: fase intermedia Vogliamo unire C e C5, ma dobbiamo aggiornare la matrice C C C3 C4 C5 C3 C4 C C C3 C C4 C5 C C5 Proimity Matri Data Mining. - S. Orlando 5 Algoritmo ger. agglomerativo: dopo l unione Il problema è come aggiornare la matrice Diverse misure per stabilire distanza/similarità C C U C5 C3 C4 C? C3 C4 C U C5 C3????? C C4? Proimity Matri C U C5 Data Mining. - S. Orlando 5

27 Come definire la similarità Inter-Cluster? p p p3 p4 p5... Similarity? p p MIN MAX Group Average Distance Between Centroids Proimity Matri p3 p4 p5... Data Mining. - S. Orlando 53 Come definire la similarità Inter-Cluster? p p p3 p p p3 p4 p5... MIN MAX Group Average Distance Between Centroids p4 p5... Proimity Matri Data Mining. - S. Orlando 54

28 Come definire la similarità Inter-Cluster? p p p3 p p p3 p4 p5... MIN MAX Group Average Distance Between Centroids p4 p5... Proimity Matri Other methods driven by an objective function Ward s Method uses squared error Data Mining. - S. Orlando 55 Come definire la similarità Inter-Cluster? p p p3 p p p3 p4 p5... MIN MAX Group Average pi Clusteri p Cluster distance(p,p j j distance(clusteri,clusterj) = Cluster Cluster i i j ) j p4 p5... Proimity Matri Distance Between Centroids Data Mining. - S. Orlando 56

29 Confronto tra metodi gerarchici MIN MAX Group Average Data Mining. - S. Orlando 57 DIANA (Divisive Analysis) Algoritmo gerarchico divisive introdotto nel 990 Ordine inverso rispetto ad AGNES Alla fine ciscun node forma un cluster Data Mining. - S. Orlando 58

30 Complessità dei metodi gerarchici Non scala bene: la complessità in tempo è O(n ), dove n è il numero totale di oggetti Una volta che una decisione è stata presa relativamente all agglomerazione/divisione di cluster, non possiamo disfarla Schemi differenti hanno mostrato uno o più di questi problemi: Sensibilità al rumore o agli outliers Difficoltà nel gestire cluster di dimensioni differenti e forme convesse Grandi cluster possono risultare suddivisi Data Mining. - S. Orlando 59 Metodi di clustering basati sulla densità Clustering basato sulla densità Concetto di punti connessi sulla base della densità Caratteristiche principali Scopre cluster di forma arbitraria Gestisce bene i rumori presenti nel dataset Singola scansione Abbiamo bisogno di parametri riguardanti la densità come condizione di terminazione Data Mining. - S. Orlando 60

31 Density-Based Clustering: Background Due parametri per definire la densità: Eps: Massimo raggio di vicinato di un certo punto MinPts: Minimo numero di punti all interno di un certo raggio Eps Numero di punti all interno di un certo raggio: N Eps (p): {q D dist(p,q) Eps} Directly density-reachable: Un punto p è directly density-reachable da un punto q rispetto a (Eps, MinPts) se ) p N Eps (q) ) q è un punto core, ovvero: N Eps (q) MinPts q p MinPts = 5 Eps = cm Data Mining. - S. Orlando 6 Density-Based Clustering: Background (II) Density-reachable: (proprietà transitiva) Un punto p è density-reachable da q se c è una catena di punti p,, p n dove p = q e p n = p tali che p i+ è directly density-reachable da p i q p p Density-connected Un punto p è density-connected ad un punto q se c è un punto o tale che sia p e sia q sono density-reachable da o p o q Data Mining. - S. Orlando 6

32 DBSCAN: Density Based Spatial Clustering of Applications with Noise DBSCAN si basa sulla nozione di cluster basata sulla densità Un cluster è definito come l insieme massimo di punti connessi rispetto alla nozione di densità Scopre cluster di forma arbitraria in database spaziali con rumore/outlier Data Mining. - S. Orlando 63 DBSCAN: L algoritmo Seleziona arbitrariamente un punto p Individua tutti i punti density-reachable da p rispetto a Eps e MinPts. Se p è un punto core, forma un cluster Se p è un punto border, nessun punto è density-reachable da p, per cui passa a considerare il prossimo punto del database. Continua fino alla completa visita di tutti i punti Data Mining. - S. Orlando 64

33 DBSCAN: esempio di funzionamento corretto Original Points Clusters Data Mining. - S. Orlando 65 DBSCAN: punti core, border e noise Original Points Point types: core, border and noise Eps = 0, MinPts = 4 Data Mining. - S. Orlando 66

34 Conclusioni Le analisi di clustering raggruppano oggetti in base alla loro similarità Abbiamo visto che è possibile valutare la similarità rispetto a vari tipi di dati E possibile categorizzare gli algoritmi di clustering in metodi partitioning, hierarchical, density-based, grid-based, e model-based Abbiamo solo visto una parte di questi metodi La scoperta di outlier è utile per vari campi, come scoperta di frodi ecc. Algoritmi per la scoperta di outlier sono collegati a quelli di clustering Esistono metodi basati sulla distanza, ma anche metodi basati su misure statistiche Clustering con vincoli Le analisi di clustering possono avere vincoli da rispettare Ad esempio, vincoli naturali esistono in database spaziali (ponti o strade in un GIS) che impediscono il clustering di oggetti vicini Clustering in database spazio-temporali Necessitano di nuove nozioni di distanza, che considerino anche la dimensione tempo Data Mining. - S. Orlando 67

Ricerca di outlier. Ricerca di Anomalie/Outlier

Ricerca di outlier. Ricerca di Anomalie/Outlier Ricerca di outlier Prof. Matteo Golfarelli Alma Mater Studiorum - Università di Bologna Ricerca di Anomalie/Outlier Cosa sono gli outlier? L insieme di dati che sono considerevolmente differenti dalla

Dettagli

Algoritmi di clustering

Algoritmi di clustering Algoritmi di clustering Dato un insieme di dati sperimentali, vogliamo dividerli in clusters in modo che: I dati all interno di ciascun cluster siano simili tra loro Ciascun dato appartenga a uno e un

Dettagli

ROCK. A Robust Clustering Algorithm for Categorical Attributes. Sudipto Guha, Rajeev Rastogi, Kyuseok Shim

ROCK. A Robust Clustering Algorithm for Categorical Attributes. Sudipto Guha, Rajeev Rastogi, Kyuseok Shim ROCK A Robust Clustering Algorithm for Categorical Attributes Sudipto Guha, Rajeev Rastogi, Kyuseok Shim Presentazione di Sara Liparesi e Francesco Nonni Sistemi Informativi per le Decisioni a.a. 2005/2006

Dettagli

Distributed P2P Data Mining. Autore: Elia Gaglio (matricola n 809477) Corso di Sistemi Distribuiti Prof.ssa Simonetta Balsamo

Distributed P2P Data Mining. Autore: Elia Gaglio (matricola n 809477) Corso di Sistemi Distribuiti Prof.ssa Simonetta Balsamo Distributed P2P Data Mining Autore: (matricola n 809477) Corso di Sistemi Distribuiti Prof.ssa Simonetta Balsamo A.A. 2005/2006 Il settore del Data Mining Distribuito (DDM): Data Mining: cuore del processo

Dettagli

Database. Si ringrazia Marco Bertini per le slides

Database. Si ringrazia Marco Bertini per le slides Database Si ringrazia Marco Bertini per le slides Obiettivo Concetti base dati e informazioni cos è un database terminologia Modelli organizzativi flat file database relazionali Principi e linee guida

Dettagli

Librerie digitali. Video. Gestione di video. Caratteristiche dei video. Video. Metadati associati ai video. Metadati associati ai video

Librerie digitali. Video. Gestione di video. Caratteristiche dei video. Video. Metadati associati ai video. Metadati associati ai video Video Librerie digitali Gestione di video Ogni filmato è composto da più parti Video Audio Gestito come visto in precedenza Trascrizione del testo, identificazione di informazioni di interesse Testo Utile

Dettagli

Il concetto di valore medio in generale

Il concetto di valore medio in generale Il concetto di valore medio in generale Nella statistica descrittiva si distinguono solitamente due tipi di medie: - le medie analitiche, che soddisfano ad una condizione di invarianza e si calcolano tenendo

Dettagli

Progettaz. e sviluppo Data Base

Progettaz. e sviluppo Data Base Progettaz. e sviluppo Data Base! Progettazione Basi Dati: Metodologie e modelli!modello Entita -Relazione Progettazione Base Dati Introduzione alla Progettazione: Il ciclo di vita di un Sist. Informativo

Dettagli

Sistema Informativo Geografico:

Sistema Informativo Geografico: Sistemi Informativi Geografici Sistema Informativo Geografico: È un sistema informativo che tratta informazioni spaziali georeferenziate, ne consente la gestione e l'analisi. Informazioni spaziali: dati

Dettagli

Regressione Mario Guarracino Data Mining a.a. 2010/2011

Regressione Mario Guarracino Data Mining a.a. 2010/2011 Regressione Esempio Un azienda manifatturiera vuole analizzare il legame che intercorre tra il volume produttivo X per uno dei propri stabilimenti e il corrispondente costo mensile Y di produzione. Volume

Dettagli

Modelli di Programmazione Lineare e Programmazione Lineare Intera

Modelli di Programmazione Lineare e Programmazione Lineare Intera Modelli di Programmazione Lineare e Programmazione Lineare Intera 1 Azienda Dolciaria Un azienda di cioccolatini deve pianificare la produzione per i prossimi m mesi. In ogni mese l azienda ha a disposizione

Dettagli

Clustering. Utilizziamo per la realizzazione dell'esempio due tipologie di software:

Clustering. Utilizziamo per la realizzazione dell'esempio due tipologie di software: Esercizio Clustering Utilizziamo per la realizzazione dell'esempio due tipologie di software: - XLSTAT.xls - Cluster.exe XLSTAT.xls XLSTAT.xls è una macro di Excel che offre la possibilità di effettuare

Dettagli

Il Clustering. 13.1 Introduzione al Clustering

Il Clustering. 13.1 Introduzione al Clustering 13 Il Clustering In questo capitolo illustreremo quel task di Data Mining noto come clustering. Il capitolo si apre con una introduzione al clustering; successivamente vengono esaminati i tipi di dati

Dettagli

Organizzazione degli archivi

Organizzazione degli archivi COSA E UN DATA-BASE (DB)? è l insieme di dati relativo ad un sistema informativo COSA CARATTERIZZA UN DB? la struttura dei dati le relazioni fra i dati I REQUISITI DI UN DB SONO: la ridondanza minima i

Dettagli

LE CARTE DI CONTROLLO (4)

LE CARTE DI CONTROLLO (4) LE CARTE DI CONTROLLO (4) Tipo di carta di controllo Frazione difettosa Carta p Numero di difettosi Carta np Dimensione campione Variabile, solitamente >= 50 costante, solitamente >= 50 Linea centrale

Dettagli

Operazioni sui database

Operazioni sui database Operazioni sui database Le operazioni nel modello relazionale sono essenzialmente di due tipi: Operazioni di modifica della base di dati (update) Interrogazioni della base di dati per il recupero delle

Dettagli

Analisi e diagramma di Pareto

Analisi e diagramma di Pareto Analisi e diagramma di Pareto L'analisi di Pareto è una metodologia statistica utilizzata per individuare i problemi più rilevanti nella situazione in esame e quindi le priorità di intervento. L'obiettivo

Dettagli

1 Applicazioni Lineari tra Spazi Vettoriali

1 Applicazioni Lineari tra Spazi Vettoriali 1 Applicazioni Lineari tra Spazi Vettoriali Definizione 1 (Applicazioni lineari) Si chiama applicazione lineare una applicazione tra uno spazio vettoriale ed uno spazio vettoriale sul campo tale che "!$%!

Dettagli

Dimensione di uno Spazio vettoriale

Dimensione di uno Spazio vettoriale Capitolo 4 Dimensione di uno Spazio vettoriale 4.1 Introduzione Dedichiamo questo capitolo ad un concetto fondamentale in algebra lineare: la dimensione di uno spazio vettoriale. Daremo una definizione

Dettagli

Analisi dei requisiti e casi d uso

Analisi dei requisiti e casi d uso Analisi dei requisiti e casi d uso Indice 1 Introduzione 2 1.1 Terminologia........................... 2 2 Modello del sistema 4 2.1 Requisiti hardware........................ 4 2.2 Requisiti software.........................

Dettagli

Indici (Statistiche) che esprimono le caratteristiche di simmetria e

Indici (Statistiche) che esprimono le caratteristiche di simmetria e Indici di sintesi Indici (Statistiche) Gran parte della analisi statistica consiste nel condensare complessi pattern di osservazioni in un indicatore che sia capace di riassumere una specifica caratteristica

Dettagli

Clustering Salvatore Orlando

Clustering Salvatore Orlando Clustering Salvatore Orlando Data e Web Mining. - S. Orlando 1 Cos è un analisi di clustering Obiettivo dell analisi di clustering Raggruppare oggetti in gruppi con un certo grado di omogeneità Cluster:

Dettagli

Università di Pisa A.A. 2004-2005

Università di Pisa A.A. 2004-2005 Università di Pisa A.A. 2004-2005 Analisi dei dati ed estrazione di conoscenza Corso di Laurea Specialistica in Informatica per l Economia e per l Azienda Tecniche di Data Mining Corsi di Laurea Specialistica

Dettagli

1. PRIME PROPRIETÀ 2

1. PRIME PROPRIETÀ 2 RELAZIONI 1. Prime proprietà Il significato comune del concetto di relazione è facilmente intuibile: due elementi sono in relazione se c è un legame tra loro descritto da una certa proprietà; ad esempio,

Dettagli

Elementi di Psicometria con Laboratorio di SPSS 1

Elementi di Psicometria con Laboratorio di SPSS 1 Elementi di Psicometria con Laboratorio di SPSS 1 5-Indici di variabilità (vers. 1.0c, 20 ottobre 2015) Germano Rossi 1 germano.rossi@unimib.it 1 Dipartimento di Psicologia, Università di Milano-Bicocca

Dettagli

Codifiche a lunghezza variabile

Codifiche a lunghezza variabile Sistemi Multimediali Codifiche a lunghezza variabile Marco Gribaudo marcog@di.unito.it, gribaudo@elet.polimi.it Assegnazione del codice Come visto in precedenza, per poter memorizzare o trasmettere un

Dettagli

Uno standard per il processo KDD

Uno standard per il processo KDD Uno standard per il processo KDD Il modello CRISP-DM (Cross Industry Standard Process for Data Mining) è un prodotto neutrale definito da un consorzio di numerose società per la standardizzazione del processo

Dettagli

LA CORRELAZIONE LINEARE

LA CORRELAZIONE LINEARE LA CORRELAZIONE LINEARE La correlazione indica la tendenza che hanno due variabili (X e Y) a variare insieme, ovvero, a covariare. Ad esempio, si può supporre che vi sia una relazione tra l insoddisfazione

Dettagli

Automazione Industriale (scheduling+mms) scheduling+mms. adacher@dia.uniroma3.it

Automazione Industriale (scheduling+mms) scheduling+mms. adacher@dia.uniroma3.it Automazione Industriale (scheduling+mms) scheduling+mms adacher@dia.uniroma3.it Introduzione Sistemi e Modelli Lo studio e l analisi di sistemi tramite una rappresentazione astratta o una sua formalizzazione

Dettagli

Probabilità condizionata: p(a/b) che avvenga A, una volta accaduto B. Evento prodotto: Evento in cui si verifica sia A che B ; p(a&b) = p(a) x p(b/a)

Probabilità condizionata: p(a/b) che avvenga A, una volta accaduto B. Evento prodotto: Evento in cui si verifica sia A che B ; p(a&b) = p(a) x p(b/a) Probabilità condizionata: p(a/b) che avvenga A, una volta accaduto B Eventi indipendenti: un evento non influenza l altro Eventi disgiunti: il verificarsi di un evento esclude l altro Evento prodotto:

Dettagli

Mining Positive and Negative Association Rules:

Mining Positive and Negative Association Rules: Mining Positive and Negative Association Rules: An Approach for Confined Rules Alessandro Boca Alessandro Cislaghi Premesse Le regole di associazione positive considerano solo gli item coinvolti in una

Dettagli

Elementi di Psicometria con Laboratorio di SPSS 1

Elementi di Psicometria con Laboratorio di SPSS 1 Elementi di Psicometria con Laboratorio di SPSS 1 29-Analisi della potenza statistica vers. 1.0 (12 dicembre 2014) Germano Rossi 1 germano.rossi@unimib.it 1 Dipartimento di Psicologia, Università di Milano-Bicocca

Dettagli

Concetti di base di ingegneria del software

Concetti di base di ingegneria del software Concetti di base di ingegneria del software [Dalle dispense del corso «Ingegneria del software» del prof. A. Furfaro (UNICAL)] Principali qualità del software Correttezza Affidabilità Robustezza Efficienza

Dettagli

Corrispondenze e funzioni

Corrispondenze e funzioni Corrispondenze e funzioni L attività fondamentale della mente umana consiste nello stabilire corrispondenze e relazioni tra oggetti; è anche per questo motivo che il concetto di corrispondenza è uno dei

Dettagli

Aprire WEKA Explorer Caricare il file circletrain.arff Selezionare random split al 66% come modalità di test Selezionare J48 come classificatore e

Aprire WEKA Explorer Caricare il file circletrain.arff Selezionare random split al 66% come modalità di test Selezionare J48 come classificatore e Alberi di decisione Aprire WEKA Explorer Caricare il file circletrain.arff Selezionare random split al 66% come modalità di test Selezionare J48 come classificatore e lanciarlo con i parametri di default.

Dettagli

Fasi di creazione di un programma

Fasi di creazione di un programma Fasi di creazione di un programma 1. Studio Preliminare 2. Analisi del Sistema 6. Manutenzione e Test 3. Progettazione 5. Implementazione 4. Sviluppo 41 Sviluppo di programmi Per la costruzione di un programma

Dettagli

Sistemi Operativi Il Sistema Operativo Windows (parte 3)

Sistemi Operativi Il Sistema Operativo Windows (parte 3) Sistemi Operativi Il Sistema Operativo Windows (parte 3) Docente: Claudio E. Palazzi cpalazzi@math.unipd.it Crediti per queste slides al Prof. Tullio Vardanega Architettura di NTFS 1 NTFS file system adottato

Dettagli

Approssimazione polinomiale di funzioni e dati

Approssimazione polinomiale di funzioni e dati Approssimazione polinomiale di funzioni e dati Approssimare una funzione f significa trovare una funzione f di forma più semplice che possa essere usata al posto di f. Questa strategia è utilizzata nell

Dettagli

Multimedia. Creazione di Modelli 3D usando ARC3D

Multimedia. Creazione di Modelli 3D usando ARC3D Multimedia Creazione di Modelli 3D usando ARC3D - The 3D models are created by the ARC 3D webservice, developed by the VISICS research group of the KULeuven in Belgium - Presentazione a cura di Filippo

Dettagli

Statistica e biometria. D. Bertacchi. Variabili aleatorie. V.a. discrete e continue. La densità di una v.a. discreta. Esempi.

Statistica e biometria. D. Bertacchi. Variabili aleatorie. V.a. discrete e continue. La densità di una v.a. discreta. Esempi. Iniziamo con definizione (capiremo fra poco la sua utilità): DEFINIZIONE DI VARIABILE ALEATORIA Una variabile aleatoria (in breve v.a.) X è funzione che ha come dominio Ω e come codominio R. In formule:

Dettagli

Sistemi Informativi Territoriali. Map Algebra

Sistemi Informativi Territoriali. Map Algebra Paolo Mogorovich Sistemi Informativi Territoriali Appunti dalle lezioni Map Algebra Cod.735 - Vers.E57 1 Definizione di Map Algebra 2 Operatori locali 3 Operatori zonali 4 Operatori focali 5 Operatori

Dettagli

e-dva - eni-depth Velocity Analysis

e-dva - eni-depth Velocity Analysis Lo scopo dell Analisi di Velocità di Migrazione (MVA) è quello di ottenere un modello della velocità nel sottosuolo che abbia dei tempi di riflessione compatibili con quelli osservati nei dati. Ciò significa

Dettagli

Sequenziamento a minimo costo di commutazione in macchine o celle con costo lineare e posizione home (In generale il metodo di ottimizzazione

Sequenziamento a minimo costo di commutazione in macchine o celle con costo lineare e posizione home (In generale il metodo di ottimizzazione Sequenziamento a minimo costo di commutazione in macchine o celle con costo lineare e posizione home (In generale il metodo di ottimizzazione presentato in questo file trova la seq. a costo minimo per

Dettagli

Indici di dispersione

Indici di dispersione Indici di dispersione 1 Supponiamo di disporre di un insieme di misure e di cercare un solo valore che, meglio di ciascun altro, sia in grado di catturare le caratteristiche della distribuzione nel suo

Dettagli

Progettazione di Basi di Dati

Progettazione di Basi di Dati Progettazione di Basi di Dati Prof. Nicoletta D Alpaos & Prof. Andrea Borghesan Entità-Relazione Progettazione Logica 2 E il modo attraverso il quale i dati sono rappresentati : fa riferimento al modello

Dettagli

Abbiamo costruito il grafico delle sst in funzione del tempo (dal 1880 al 1995).

Abbiamo costruito il grafico delle sst in funzione del tempo (dal 1880 al 1995). ANALISI DI UNA SERIE TEMPORALE Analisi statistica elementare Abbiamo costruito il grafico delle sst in funzione del tempo (dal 1880 al 1995). Si puo' osservare una media di circa 26 C e una deviazione

Dettagli

1 CARICAMENTO LOTTI ED ESISTENZE AD INIZIO ESERCIZIO

1 CARICAMENTO LOTTI ED ESISTENZE AD INIZIO ESERCIZIO GESTIONE LOTTI La gestione dei lotti viene abilitata tramite un flag nei Progressivi Ditta (è presente anche un flag per Considerare i Lotti con Esistenza Nulla negli elenchi visualizzati/stampati nelle

Dettagli

Analisi di dati di frequenza

Analisi di dati di frequenza Analisi di dati di frequenza Fase di raccolta dei dati Fase di memorizzazione dei dati in un foglio elettronico 0 1 1 1 Frequenze attese uguali Si assuma che dalle risposte al questionario sullo stato

Dettagli

LABORATORIO-EXCEL N. 2-3 XLSTAT- Pro Versione 7 VARIABILI QUANTITATIVE

LABORATORIO-EXCEL N. 2-3 XLSTAT- Pro Versione 7 VARIABILI QUANTITATIVE LABORATORIO-EXCEL N. 2-3 XLSTAT- Pro Versione 7 VARIABILI QUANTITATIVE DESCRIZIONE DEI DATI DA ESAMINARE Sono stati raccolti i dati sul peso del polmone di topi normali e affetti da una patologia simile

Dettagli

Ottimizzazione Multi Obiettivo

Ottimizzazione Multi Obiettivo Ottimizzazione Multi Obiettivo 1 Ottimizzazione Multi Obiettivo I problemi affrontati fino ad ora erano caratterizzati da una unica (e ben definita) funzione obiettivo. I problemi di ottimizzazione reali

Dettagli

Basi di dati 9 febbraio 2010 Compito A

Basi di dati 9 febbraio 2010 Compito A Basi di dati 9 febbraio 2010 Compito A Domanda 0 (5%) Leggere e rispettare le seguenti regole: Scrivere nome, cognome, matricola (se nota), corso di studio e lettera del compito (ad esempio, A) sui fogli

Dettagli

Corso di. Dott.ssa Donatella Cocca

Corso di. Dott.ssa Donatella Cocca Corso di Statistica medica e applicata Dott.ssa Donatella Cocca 1 a Lezione Cos'è la statistica? Come in tutta la ricerca scientifica sperimentale, anche nelle scienze mediche e biologiche è indispensabile

Dettagli

SISTEMI INFORMATIVI AVANZATI -2010/2011 1. Introduzione

SISTEMI INFORMATIVI AVANZATI -2010/2011 1. Introduzione SISTEMI INFORMATIVI AVANZATI -2010/2011 1 Introduzione In queste dispense, dopo aver riportato una sintesi del concetto di Dipendenza Funzionale e di Normalizzazione estratti dal libro Progetto di Basi

Dettagli

VC-dimension: Esempio

VC-dimension: Esempio VC-dimension: Esempio Quale è la VC-dimension di. y b = 0 f() = 1 f() = 1 iperpiano 20? VC-dimension: Esempio Quale è la VC-dimension di? banale. Vediamo cosa succede con 2 punti: 21 VC-dimension: Esempio

Dettagli

MODELLO RELAZIONALE. Introduzione

MODELLO RELAZIONALE. Introduzione MODELLO RELAZIONALE Introduzione E' stato proposto agli inizi degli anni 70 da Codd finalizzato alla realizzazione dell indipendenza dei dati, unisce concetti derivati dalla teoria degli insiemi (relazioni)

Dettagli

A intervalli regolari ogni router manda la sua tabella a tutti i vicini, e riceve quelle dei vicini.

A intervalli regolari ogni router manda la sua tabella a tutti i vicini, e riceve quelle dei vicini. Algoritmi di routing dinamici (pag.89) UdA2_L5 Nelle moderne reti si usano algoritmi dinamici, che si adattano automaticamente ai cambiamenti della rete. Questi algoritmi non sono eseguiti solo all'avvio

Dettagli

Stefania Marrara - Esercitazioni di Tecnologie dei Sistemi Informativi. Integrazione di dati di sorgenti diverse

Stefania Marrara - Esercitazioni di Tecnologie dei Sistemi Informativi. Integrazione di dati di sorgenti diverse Politecnico di Milano View integration 1 Integrazione di dati di sorgenti diverse Al giorno d oggi d la mole di informazioni che viene gestita in molti contesti applicativi è enorme. In alcuni casi le

Dettagli

ColorSplitter. La separazione automatica dei colori di Colibri.. Perché ColorSplitter? Come opera ColorSplitter?

ColorSplitter. La separazione automatica dei colori di Colibri.. Perché ColorSplitter? Come opera ColorSplitter? ColorSplitter La separazione automatica dei colori di Colibri.. ColorSplitter è una nuova funzionalità aggiunta a Colibri, che permette di elaborare un immagine trasformandola in una separata in canali

Dettagli

Analisi Statistica dei Dati Misurazione e gestione dei rischi a.a. 2007-2008

Analisi Statistica dei Dati Misurazione e gestione dei rischi a.a. 2007-2008 Analisi Statistica dei Dati Misurazione e gestione dei rischi a.a. 2007-2008 Dott. Chiara Cornalba COMUNICAZIONI La lezione del 30 ottobre è sospesa per missione all estero del Prof. Giudici. Dal 6 Novembre

Dettagli

2 + (σ2 - ρσ 1 ) 2 > 0 [da -1 ρ 1] b = (σ 2. 2 - ρσ1 σ 2 ) = (σ 1

2 + (σ2 - ρσ 1 ) 2 > 0 [da -1 ρ 1] b = (σ 2. 2 - ρσ1 σ 2 ) = (σ 1 1 PORTAFOGLIO Portafoglio Markowitz (2 titoli) (rischiosi) due titoli rendimento/varianza ( μ 1, σ 1 ), ( μ 2, σ 2 ) Si suppone μ 1 > μ 2, σ 1 > σ 2 portafoglio con pesi w 1, w 2 w 1 = w, w 2 = 1- w 1

Dettagli

Progettazione : Design Pattern Creazionali

Progettazione : Design Pattern Creazionali Progettazione : Design Pattern Creazionali Alessandro Martinelli alessandro.martinelli@unipv.it 30 Novembre 2010 Progettazione : Design Pattern Creazionali Aspetti generali dei Design Pattern Creazionali

Dettagli

Strumenti e metodi per la redazione della carta del pericolo da fenomeni torrentizi

Strumenti e metodi per la redazione della carta del pericolo da fenomeni torrentizi Versione 2.0 Strumenti e metodi per la redazione della carta del pericolo da fenomeni torrentizi Corso anno 2011 E. MANUALE UTILIZZO HAZARD MAPPER Il programma Hazard Mapper è stato realizzato per redarre,

Dettagli

4 3 4 = 4 x 10 2 + 3 x 10 1 + 4 x 10 0 aaa 10 2 10 1 10 0

4 3 4 = 4 x 10 2 + 3 x 10 1 + 4 x 10 0 aaa 10 2 10 1 10 0 Rappresentazione dei numeri I numeri che siamo abituati ad utilizzare sono espressi utilizzando il sistema di numerazione decimale, che si chiama così perché utilizza 0 cifre (0,,2,3,4,5,6,7,8,9). Si dice

Dettagli

PROVA FINALE V. AULETTA G. PERSIANO ALGORITMI II - -MAGIS INFO

PROVA FINALE V. AULETTA G. PERSIANO ALGORITMI II - -MAGIS INFO PROVA FINALE V. AULETTA G. PERSIANO ALGORITMI II - -MAGIS INFO 1. Load Balancing Un istanza del problema del load balancing consiste di una sequenza p 1,..., p n di interi positivi (pesi dei job) e un

Dettagli

Per visualizzare e immettere i dati in una tabella è possibile utilizzare le maschere;

Per visualizzare e immettere i dati in una tabella è possibile utilizzare le maschere; Maschere e Query Le Maschere (1/2) Per visualizzare e immettere i dati in una tabella è possibile utilizzare le maschere; Le maschere sono simili a moduli cartacei: ad ogni campo corrisponde un etichetta

Dettagli

La distribuzione Normale. La distribuzione Normale

La distribuzione Normale. La distribuzione Normale La Distribuzione Normale o Gaussiana è la distribuzione più importante ed utilizzata in tutta la statistica La curva delle frequenze della distribuzione Normale ha una forma caratteristica, simile ad una

Dettagli

CAPITOLO 8 LA VERIFICA D IPOTESI. I FONDAMENTI

CAPITOLO 8 LA VERIFICA D IPOTESI. I FONDAMENTI VERO FALSO CAPITOLO 8 LA VERIFICA D IPOTESI. I FONDAMENTI 1. V F Un ipotesi statistica è un assunzione sulle caratteristiche di una o più variabili in una o più popolazioni 2. V F L ipotesi nulla unita

Dettagli

Indice. pagina 2 di 10

Indice. pagina 2 di 10 LEZIONE PROGETTAZIONE ORGANIZZATIVA DOTT.SSA ROSAMARIA D AMORE Indice PROGETTAZIONE ORGANIZZATIVA---------------------------------------------------------------------------------------- 3 LA STRUTTURA

Dettagli

Informatica 3. Informatica 3. LEZIONE 10: Introduzione agli algoritmi e alle strutture dati. Lezione 10 - Modulo 1. Importanza delle strutture dati

Informatica 3. Informatica 3. LEZIONE 10: Introduzione agli algoritmi e alle strutture dati. Lezione 10 - Modulo 1. Importanza delle strutture dati Informatica 3 Informatica 3 LEZIONE 10: Introduzione agli algoritmi e alle strutture dati Modulo 1: Perchè studiare algoritmi e strutture dati Modulo 2: Definizioni di base Lezione 10 - Modulo 1 Perchè

Dettagli

Statistica inferenziale

Statistica inferenziale Statistica inferenziale Popolazione e campione Molto spesso siamo interessati a trarre delle conclusioni su persone che hanno determinate caratteristiche (pazienti, atleti, bambini, gestanti, ) Osserveremo

Dettagli

Elementi di Psicometria con Laboratorio di SPSS 1

Elementi di Psicometria con Laboratorio di SPSS 1 Elementi di Psicometria con Laboratorio di SPSS 1 10-Il test t per un campione e la stima intervallare (vers. 1.1, 25 ottobre 2015) Germano Rossi 1 germano.rossi@unimib.it 1 Dipartimento di Psicologia,

Dettagli

Statistica. Lezione 6

Statistica. Lezione 6 Università degli Studi del Piemonte Orientale Corso di Laurea in Infermieristica Corso integrato in Scienze della Prevenzione e dei Servizi sanitari Statistica Lezione 6 a.a 011-01 Dott.ssa Daniela Ferrante

Dettagli

Un po di statistica. Christian Ferrari. Laboratorio di Matematica

Un po di statistica. Christian Ferrari. Laboratorio di Matematica Un po di statistica Christian Ferrari Laboratorio di Matematica 1 Introduzione La statistica è una parte della matematica applicata che si occupa della raccolta, dell analisi e dell interpretazione di

Dettagli

Corso di Matematica per la Chimica

Corso di Matematica per la Chimica Dott.ssa Maria Carmela De Bonis a.a. 203-4 I sistemi lineari Generalità sui sistemi lineari Molti problemi dell ingegneria, della fisica, della chimica, dell informatica e dell economia, si modellizzano

Dettagli

per immagini guida avanzata Organizzazione e controllo dei dati Geometra Luigi Amato Guida Avanzata per immagini excel 2000 1

per immagini guida avanzata Organizzazione e controllo dei dati Geometra Luigi Amato Guida Avanzata per immagini excel 2000 1 Organizzazione e controllo dei dati Geometra Luigi Amato Guida Avanzata per immagini excel 2000 1 Il raggruppamento e la struttura dei dati sono due funzioni di gestione dati di Excel, molto simili tra

Dettagli

VALORE DELLE MERCI SEQUESTRATE

VALORE DELLE MERCI SEQUESTRATE La contraffazione in cifre: NUOVA METODOLOGIA PER LA STIMA DEL VALORE DELLE MERCI SEQUESTRATE Roma, Giugno 2013 Giugno 2013-1 Il valore economico dei sequestri In questo Focus si approfondiscono alcune

Dettagli

Raggruppamenti Conti Movimenti

Raggruppamenti Conti Movimenti ESERCITAZIONE PIANO DEI CONTI Vogliamo creare un programma che ci permetta di gestire, in un DB, il Piano dei conti di un azienda. Nel corso della gestione d esercizio, si potranno registrare gli articoli

Dettagli

Suggerimenti per l approccio all analisi dei dati multivariati

Suggerimenti per l approccio all analisi dei dati multivariati Suggerimenti per l approccio all analisi dei dati multivariati Definizione degli obbiettivi Il primo passo è la definizione degli obbiettivi. Qual è l obbiettivo della sperimentazione i cui dati dovete

Dettagli

Misure della dispersione o della variabilità

Misure della dispersione o della variabilità QUARTA UNITA Misure della dispersione o della variabilità Abbiamo visto che un punteggio di per sé non ha alcun significato e lo acquista solo quando è posto a confronto con altri punteggi o con una statistica.

Dettagli

Preprocessamento dei Dati

Preprocessamento dei Dati Preprocessamento dei Dati Raramente i dati sperimentali sono pronti per essere utilizzati immediatamente per le fasi successive del processo di identificazione, a causa di: Offset e disturbi a bassa frequenza

Dettagli

Esercizio 1: trading on-line

Esercizio 1: trading on-line Esercizio 1: trading on-line Si realizzi un programma Java che gestisca le operazioni base della gestione di un fondo per gli investimenti on-line Creazione del fondo (con indicazione della somma in inizialmente

Dettagli

I ESERCITAZIONE. Gruppo I 100 individui. Trattamento I Nuovo Farmaco. Osservazione degli effetti sul raffreddore. Assegnazione casuale

I ESERCITAZIONE. Gruppo I 100 individui. Trattamento I Nuovo Farmaco. Osservazione degli effetti sul raffreddore. Assegnazione casuale I ESERCITAZIONE ESERCIZIO 1 Si vuole testare un nuovo farmaco contro il raffreddore. Allo studio partecipano 200 soggetti sani della stessa età e dello stesso sesso e con caratteristiche simili. i) Che

Dettagli

ANALISI DELLE FREQUENZE: IL TEST CHI 2

ANALISI DELLE FREQUENZE: IL TEST CHI 2 ANALISI DELLE FREQUENZE: IL TEST CHI 2 Quando si hanno scale nominali o ordinali, non è possibile calcolare il t, poiché non abbiamo medie, ma solo frequenze. In questi casi, per verificare se un evento

Dettagli

Dispensa di database Access

Dispensa di database Access Dispensa di database Access Indice: Database come tabelle; fogli di lavoro e tabelle...2 Database con più tabelle; relazioni tra tabelle...2 Motore di database, complessità di un database; concetto di

Dettagli

B+Trees. Introduzione

B+Trees. Introduzione B+Trees Introduzione B+Trees Il B+Trees e la variante maggiormente utilizzata dei BTrees BTrees e B+trees fanno parte della famiglia degli alberi di ricerca. Nel B+Trees i dati sono memorizzati solo nelle

Dettagli

Capitolo 2 Distribuzioni di frequenza

Capitolo 2 Distribuzioni di frequenza Edizioni Simone - Vol. 43/1 Compendio di statistica Capitolo 2 Distribuzioni di frequenza Sommario 1. Distribuzioni semplici. - 2. Distribuzioni doppie. - 3. Distribuzioni parziali: condizionate e marginali.

Dettagli

SPC e distribuzione normale con Access

SPC e distribuzione normale con Access SPC e distribuzione normale con Access In questo articolo esamineremo una applicazione Access per il calcolo e la rappresentazione grafica della distribuzione normale, collegata con tabelle di Clienti,

Dettagli

[ Analisi della. concentrazione] di Luca Vanzulli. Pag. 1 di 1

[ Analisi della. concentrazione] di Luca Vanzulli. Pag. 1 di 1 [ Analisi della concentrazione] di Luca Vanzulli Pag. 1 di 1 LA CONCENTRAZIONE NELL ANALISI DELLE VENDITE L analisi periodica delle vendite rappresenta un preziosissimo indicatore per il monitoraggio del

Dettagli

Introduzione agli Algoritmi Genetici Prof. Beatrice Lazzerini

Introduzione agli Algoritmi Genetici Prof. Beatrice Lazzerini Introduzione agli Algoritmi Genetici Prof. Beatrice Lazzerini Dipartimento di Ingegneria della Informazione Via Diotisalvi, 2 56122 PISA ALGORITMI GENETICI (GA) Sono usati per risolvere problemi di ricerca

Dettagli

Secondo Compitino di Basi di Dati

Secondo Compitino di Basi di Dati Secondo Compitino di Basi di Dati 10 Giugno 2004 NOME: COGNOME: MATRICOLA: Esercizio Punti previsti 1 18 2 12 3 3 Totale 33 Punti assegnati Esercizio 1 (Punti 18) Si vuole realizzare un applicazione per

Dettagli

Progettazione Fisica FILE

Progettazione Fisica FILE Progettazione Fisica Organizzazione dei files Organizzazione indici FILE Insieme di record lunghezza fissa (R) lunghezza variabile Record Header BH RH record1 RH record2 RH record2 RH record3 Block Header

Dettagli

Capitolo 13. Interrogare una base di dati

Capitolo 13. Interrogare una base di dati Capitolo 13 Interrogare una base di dati Il database fisico La ridondanza è una cosa molto, molto, molto brutta Non si devono mai replicare informazioni scrivendole in più posti diversi nel database Per

Dettagli

2. Leggi finanziarie di capitalizzazione

2. Leggi finanziarie di capitalizzazione 2. Leggi finanziarie di capitalizzazione Si chiama legge finanziaria di capitalizzazione una funzione atta a definire il montante M(t accumulato al tempo generico t da un capitale C: M(t = F(C, t C t M

Dettagli

Modelli di Programmazione Lineare Intera

Modelli di Programmazione Lineare Intera 8 Modelli di Programmazione Lineare Intera 8.1 MODELLI DI PROGRAMMAZIONE LINEARE INTERA Esercizio 8.1.1 Una compagnia petrolifera dispone di 5 pozzi (P1, P2, P3, P4, P5) dai quali può estrarre petrolio.

Dettagli

LABORATORIO EXCEL XLSTAT 2008 SCHEDE 2 e 3 VARIABILI QUANTITATIVE

LABORATORIO EXCEL XLSTAT 2008 SCHEDE 2 e 3 VARIABILI QUANTITATIVE Matematica e statistica: dai dati ai modelli alle scelte www.dima.unige/pls_statistica Responsabili scientifici M.P. Rogantin e E. Sasso (Dipartimento di Matematica Università di Genova) LABORATORIO EXCEL

Dettagli

PROCESSO DI INDICIZZAZIONE SEMANTICA

PROCESSO DI INDICIZZAZIONE SEMANTICA PROCESSO DI INDICIZZAZIONE SEMANTICA INDIVIDUAZIONE DEI TEMI/CONCETTI SELEZIONE DEI TEMI/CONCETTI ESPRESSIONE DEI CONCETTI NEL LINGUAGGIO DI INDICIZZAZIONE TIPI DI INDICIZZAZIONE SOMMARIZZAZIONE INDICIZZAZIONE

Dettagli

Slide Cerbara parte1 5. Le distribuzioni teoriche

Slide Cerbara parte1 5. Le distribuzioni teoriche Slide Cerbara parte1 5 Le distribuzioni teoriche I fenomeni biologici, demografici, sociali ed economici, che sono il principale oggetto della statistica, non sono retti da leggi matematiche. Però dalle

Dettagli

postulato della valutazione tramite indicatori: La valutazione di un sistema sanitario tramite indicatori ipotizza

postulato della valutazione tramite indicatori: La valutazione di un sistema sanitario tramite indicatori ipotizza postulato della valutazione tramite indicatori: La valutazione di un sistema sanitario tramite indicatori ipotizza la praticabilità di una scomposizione della complessità in informazioni elementari ed

Dettagli

Informatica 3. LEZIONE 21: Ricerca su liste e tecniche di hashing. Modulo 1: Algoritmi sequenziali e basati su liste Modulo 2: Hashing

Informatica 3. LEZIONE 21: Ricerca su liste e tecniche di hashing. Modulo 1: Algoritmi sequenziali e basati su liste Modulo 2: Hashing Informatica 3 LEZIONE 21: Ricerca su liste e tecniche di hashing Modulo 1: Algoritmi sequenziali e basati su liste Modulo 2: Hashing Informatica 3 Lezione 21 - Modulo 1 Algoritmi sequenziali e basati su

Dettagli

SVM. Veronica Piccialli. Roma 11 gennaio 2010. Università degli Studi di Roma Tor Vergata 1 / 14

SVM. Veronica Piccialli. Roma 11 gennaio 2010. Università degli Studi di Roma Tor Vergata 1 / 14 SVM Veronica Piccialli Roma 11 gennaio 2010 Università degli Studi di Roma Tor Vergata 1 / 14 SVM Le Support Vector Machines (SVM) sono una classe di macchine di che derivano da concetti riguardanti la

Dettagli