Computazione per l interazione naturale: classificazione supervisionata
|
|
- Evelina Conti
- 5 anni fa
- Visualizzazioni
Transcript
1 Computazione per l interazione naturale: classificazione supervisionata Corso di Interazione uomo-macchina II Prof. Giuseppe Boccignone Dipartimento di Scienze dell Informazione Università di Milano boccignone@dsi.unimi.it Il problema dell apprendimento statistico
2 Classificazione dei problemi di learning //apprendimento supervisionato I problemi di learning vengono divisi in due tipologie principali: supervised learning e unsupervised learning: Supervised: prevedere, dato un elemento di cui si conoscono un insieme di parametri (features), il valore di un diverso parametro di output relativo all elemento stesso. Viene definito (mediante apprendimento da insiemi di esempi) un modello Valori di output y Valori assunti dalle singole features x: Quantitativi: forniscono la misura di una grandezza Qualitativi: specificano una classe di appartenenza Quantitativi: regressione. Se y è un vettore, si parla di regressionemultivariata. Qualitativi: l assegnazione ad una classe (categoria), e si parla di classificazione. Numero di possibili classi = 2, si classificazione binaria, altrimenti di classificazione multi-classe. Apprendimento supervisionato //Classificazione
3 Apprendimento supervisionato //Classificazione vs regressione Regressione Classificazione Apprendimento supervisionato //Classificazione vs regressione Regressione Classificazione
4 Apprendimento supervisionato //Classificazione vs regressione Regressione Apprendimento supervisionato //Classificazione Classificazione
5 Apprendimento supervisionato //Classificazione Apprendimento supervisionato //Classificazione
6 Apprendimento supervisionato //Classificazione Apprendimento supervisionato //Classificazione
7 Apprendimento supervisionato //Classificazione Terminologia generale I valori y che si vogliono predire hanno come dominio un insieme discreto,in cui ogni valore denota una classe Ci Lo spazio di input è diviso in regioni di decisione Ri Modelli lineari di classificazione: i confini di decisione sono funzioni lineari dell input x (iperpiani a m! 1 dimensioni nello spazio m-dimensionale delle features) Insiemi di dati linearmente separabili: le classi possono essere separate in modo esatto per mezzo di superfici lineari.
8 Metodologia generale: modelli discriminativi Discriminativi non probabilistici: Trovare f : X! {1,...,K} (funzione discriminante) che mappa ogni input x in una classe Ci (con i = f(x)) Discriminativi probabilistici: Effettuare direttamente una stima di p( y x, T) dal training set questo approccio è detto discriminativo, perchè, a partire da T, viene derivata una caratterizzazione dell output in funzione delle features, in modo tale da discriminare, dato un elemento, il più probabile tra i possibili valori dell output y x Metodologia generale: modelli generativi In un approccio generativo, viene derivato, per ogni possibile output, un modello (sotto forma di distribuzione di probabilità) degli elementi associati a quell output Descrizione completa della situazione: distribuzione di probabilità congiunta p(x, y T), derivata a partire dal training set p(x, y T)= p(y x, T) p(x T) y x Inferire la probabilità a posteriori mediante regola di Bayes p( y x, T) = p(x, y T) / p(x T) y x
9 Modelli probabilistici //inferenza e decisione Step 1: inferenza: determinazione di p(x, y) (nella classificazione p(x,c0), p(x,c1) o di p(x C0), p(x C1)) Step 2: decisione dell azione da compiere La teoria delle decisioni si occupa dello studio dei metodi di scelta delle migliori azioni da intraprendere Modelli probabilistici //teoria delle decisioni Problema: prendere una decisione che minimizzi l errore di classificazione Esempio: caso binario (due classi) Errore di classificazione con probabilità Minimizzato se x è assegnato alla classe per cui p(x, Ck) è massima max max
10 Modelli probabilistici //teoria delle decisioni Funzione di costo di misclassificazione Lkj: costo per la classificazione di Costo atteso Scegliere le Rj in modo da minimizzare E[L]: Assegniamo ogni x alla classe Ci tale che Modelli probabilistici //teoria delle decisioni: caso binario Alla regione R1 corrisponde il valore Alla regione R2 corrisponde il valore x viene assegnato a C1 se (usando Bayes)
11 Modelli probabilistici //teoria delle decisioni: caso binario Modelli probabilistici //teoria delle decisioni: caso binario Opzione di rifiuto: se la classificazione viene rifiutata Soglia di rifiuto! predefinita
12 Funzioni di discriminazione //lineari e lineari generalizzate Cos è unclassificatore lineare? La classificazione è intrinsecamente non lineare Semplicemente: la parte adattiva del classificatore (ad esempio i pesi) è lineare (come per la regressione) parte adattiva lineare decisione non lineare Casi possibili: non linearità fissata a valle della parte adattiva (decisione sigmoidale) non linearità fissata a monte della parte adattiva (funzioni di base non lineari) Funzioni di discriminazione //lineari e lineari generalizzate non linearità fissata a monte della parte adattiva (funzioni di base non lineari)
13 Funzioni di discriminazione //lineari e lineari generalizzate Consentono di assegnare ogni input x a una classe Definiscono una partizione dello spazio degli input in regioni Ri tali che se x! Ri allora x viene assegnato alla classe Ci Modello lineare: Modello lineare generalizzato: funzione di attivazione, non lineare funzione di attivazione, non lineare Funzioni di discriminazione //lineari e lineari generalizzate: caso binario confine di decisione funzioni discriminanti
14 Funzioni di discriminazione //lineari e lineari generalizzate: geometria w ortogonale a tutti i punti sull iperpiano distanza è determinata dalla soglia w0 Funzioni di discriminazione //lineari e lineari generalizzate: geometria y(x) = w T x + w0 fornisce la distanza (in multipli di w ) di x dall iperpiano di decisione sia
15 Funzioni di discriminazione //lineari e lineari generalizzate: caso non binario Approccio 1: definire K! 1 funzioni di discriminazione la funzione fi (1 " i " K! 1) separa i punti appartenenti alla classe Ci da tutti gli altri: se fi(x) > 0 allora x! Ci, altrimenti x #! Ci Funzioni di discriminazione //lineari e lineari generalizzate: caso non binario Approccio 2: definizione di K(K! 1)/2 funzioni di discriminazione,una per ogni coppia di classi la funzione fij (1 " i < j " K) separa punti che potrebbero appartenere a Ci da punti che potrebbero appartenere a Cj : se x! Ci allora fij(x) > 0, mentre se x! Cj allora fij(x) < 0 un punto viene classificato a maggioranza : x! Ci se
16 Funzioni di discriminazione //lineari e lineari generalizzate: caso non binario Approccio 3: K funzioni lineari: Un punto x viene in questo caso assegnato alla classe Ck se Confine di decisione tra due classi iperpiano n " 1-dimensionale Funzioni di discriminazione generalizzata Funzione di discriminazione quadratica: d(d + 1)/2 coefficienti in aggiunta ai d + 1: superfici di separazione più complesse Funzioni di discriminazione generalizzate
17 Funzioni discriminanti vs regressione Classi rappresentate per mezzo di una codifica 1 su K : variabili z1,..., zk utilizzate per codificare le varie classi. Ci codificata dai valori Individuazione delle funzioni di discriminazione per mezzo di funzioni di regressione lineare yi associate alle variabili zi, e quindi alle varie classi Ci x assegnato alla Ck tale che Funzioni discriminanti vs regressione //minimi quadrati Interpretazione della regressione come stima del valore atteso delle variabili zi condizionato a x y(x) è una stima di E[y x], quindi yi(x) fornisce una stima di p(ci x). Ma yi(x) non è una probabilità
18 Funzioni discriminanti vs regressione //minimi quadrati Valori target (discreti, indicano le classi) in modalità 1 su K : un elemento del training set è una coppia Si definisce la matrice dei coefficienti di tutte le funzioni yi d + 1 coefficienti di y2 Allora: Funzioni discriminanti vs regressione //minimi quadrati Definiamo la matrice delle features dei dati di training Allora: n x (d + 1) (d + 1) x K Matrice n x K
19 Funzioni discriminanti vs regressione //minimi quadrati yj(xi) si confronta con l elemento di indici i, j della matrice Y (valore osservato nel training set per il j-esimo componente dell output relativo all elemento xi) La somma dei quadrati delle differenze tra valori calcolati e valori osservati, per tutti gli output relativi all elemento è cioè un elemento della diagonale della matrice L apprendimento per minimi quadrati minimizza la somma complessiva deiquadrati delle differenze tra valori calcolati e valori osservati, per tutti glioutput e tutti gli elementi del training set Funzioni discriminanti vs regressione //minimi quadrati L apprendimento per minimi quadrati minimizza la somma complessiva dei quadrati delle differenze tra valori calcolati e valori osservati, per tutti gli output e tutti gli elementi del training set:
20 Funzioni discriminanti vs regressione //minimi quadrati ++ Semplice MQ vs regressione logistica -- Sensibile agli outliers -- Poco preciso per K>2 Funzioni discriminanti //classificazione per riduzione di dimensionalità Linear Discriminant Analysis (LDA) o Fisher Discriminant Analysis: individuare una proiezione su un sottospazio opportuno in modo tale che le dueclassi siano il più possibile separate (nel caso binario) Si proiettano tutti i punti dello spazio p-dimensionale (p è il numero di features) corrispondenti agli elementi del training set su una retta,mediante una trasformazione Per K = 2, fissata una soglia, assegniamo { altrimenti
21 Funzioni discriminanti //classificazione per riduzione di dimensionalità Funzioni discriminanti //classificazione per riduzione di dimensionalità La scelta della retta su cui proiettare, e quindi dei coefficienti w che ladescrivono, è un elemento determinante rispetto alla possibilità di separare o meno le due classi
22 Funzioni discriminanti //classificazione per riduzione di dimensionalità Approccio 1: n1 elementi in C1 e n2 elementi in C2. I punti medidelle due classi sono Misura della separazione delle due classi, proiettate sulla retta: separazione tra i relativi punti medi Massimizzazione vincolata: proiezione del punto mi sulla retta trovare la retta w che massimizza m2! m1 aumentando i coefficienti di w e mantenendo la relativa proporzionalità, max Metodo dei moltiplicatori di Lagfange Funzioni discriminanti //classificazione per riduzione di dimensionalità max Metodo dei moltiplicatori di Lagfange La direzione di proiezione w è quella della congiungente m1 a m2.
23 Funzioni discriminanti //classificazione per riduzione di dimensionalità Può non essere la migliore separazione possibile Nella proiezione lungo la direzione della congiungente le proiezioni dei punti di ognuna delle classi sono poco concentrati (presentano una varianza elevata): le proiezioni delle due classi tendono maggiormente a sovrapporsi. Necessario individuare rette tali che le proiezioni delle due classi su di esse presentino una limitata dispersione delle proiezioni dei punti delle classi. Funzioni discriminanti //classificazione per riduzione di dimensionalità Dispersione (o scatter) nella proiezione della classe Ci (i = 1, 2): Stimatore di Fisher: tende ad assumere valori più grandi sia in presenza di maggiore distanza tra le proiezioni dei punti medi che di minore dispersione delle proiezioni dei punti delle due classi
24 Funzioni discriminanti //classificazione per riduzione di dimensionalità Stimatore di Fisher: Definiamo la matrice di covarianza empirica per la classe i matrice di dispersione tra le classi matrice di dispersione nelle classi Funzioni discriminanti //classificazione per riduzione di dimensionalità Massimizzando lo Stimatore di Fisher:
25 Modelli discriminativi probabilistici Discriminativi non probabilistici: Trovare f : X! {1,...,K} (funzione discriminante) che mappa ogni input x in una classe Ci (con i = f(x)) Discriminativi probabilistici: Effettuare direttamente una stima di p( y x, T) dal training set questo approccio è detto discriminativo, perchè, a partire da T, viene derivata una caratterizzazione dell output in funzione delle features, in modo tale da discriminare, dato un elemento, il più probabile tra i possibili valori dell output y x Modelli discriminativi probabilistici //regressione logistica Si inferiscono direttamente le probabilità a posteriori della classe Logistic regression: uso una funzione sigmoidale
26 Modelli discriminativi probabilistici //regressione logistica: sigmoide Sigmoide Proprietà di simmetria La funzione inversa è la funzione logit Derivata Modelli discriminativi probabilistici //regressione logistica p(c0 x)=1 - p(c0 x) Lineare in x Per calcolare la p(c x) uso la regressione lineare per ottenere la logit e poi inverto usando la funzione logistica
27 Modelli discriminativi probabilistici //regressione logistica: esempio a 2 classi function EsempioLogisticRegression() %dati di training x = [ ]'; y = [ ]'; %fitting con generalized linear model dello Statistical %Toolbox w = glmfit(x,[y ones(10,1)],'binomial','link','logit') %predizione lineare %z = w(1) + x * (w(2)) %applicazione della funzione logistica alla componente %lineare z = Logistic(w(1) + x * (w(2))) figure(1) plot(x,y,'o', x,z,'-', 'LineWidth',2) C0 C1 end function Output = Logistic(Input) Output = 1./ (1 + exp(-input)); end Modelli discriminativi probabilistici //regressione logistica Estensione a più classi: uso la decisione con funzione softmax La logistica è un caso particolare di softmax a due classi
28 Modelli discriminativi probabilistici //regressione logistica: learning via ML Per due classi possiamo utilizzare l approccio a ML I target tn sono binari e seguono una distribuzione di Bernoulli Funzione di likelihood: L errore è la log-likelihood negativa Modelli discriminativi probabilistici //regressione logistica: learning via ML Calcolo il gradiente di E e pongo a zero: Non esiste soluzione in forma chiusa
29 Modelli discriminativi probabilistici //regressione logistica: learning via ML Non esiste soluzione in forma chiusa = 0 Approccio 1 (semplice): soluzione iterativa, metodo della discesa del gradiente (steepest descent) Metodo del gradiente problemi: overfitting Modelli discriminativi probabilistici //regressione logistica: learning via ML Non esiste soluzione in forma chiusa Approccio 2: IRLS (iterative Reweighted Least Square) una variante del metodo di Newton- Raphson = 0
30 Modelli discriminativi probabilistici //regressione logistica: learning via ML Non esiste soluzione in forma chiusa Approccio 2: IRLS (iterative Reweighted Least Square) una variante del metodo di Newton- Raphson = 0 Modelli discriminativi probabilistici //regressione logistica: K classi Uso la softmax Likelihood multinomiale: =[ ] Errore: Matrice Hessiana: Stima parametri: IRLS
31 Modelli generativi di classificazione In un approccio generativo, viene derivato, per ogni possibile output, un modello (sotto forma di distribuzione di probabilità) degli elementi associati a quell output Descrizione completa della situazione: distribuzione di probabilità congiunta p(x, y T), derivata a partire dal training set p(x, y T)= p(y x, T) p(x T) y x Inferire la probabilità a posteriori mediante regola di Bayes p( y x, T) = p(x, y T) / p(x T) y x Modelli generativi di classificazione: GDA //input gaussiano, K=2 Probabilità a posteriori di C1 Funzione di verosimiglianza Gaussiana Ipotesi: tutte le classi hanno la stessa matrice di covarianza
32 Modelli generativi di classificazione: GDA //input gaussiano, K=2 Con un po di conti... Modelli generativi di classificazione: GDA //input gaussiano, K>2 Più classi Se tutte le classi non hanno la stessa matrice di covarianza il discriminante è quadratico
33 Modelli generativi di classificazione: GDA //input gaussiano, K>2 Più classi Se tutte le classi non hanno la stessa matrice di covarianza il discriminante è quadratico Modelli generativi di classificazione: GDA //input gaussiano: fitting dei parametri con ML ML per i parametri gaussiani Probabilità a priori Probabilità congiunta Likelihood a posteriori Log-likelihood componente a priori componente verosimiglianza
34 Modelli generativi di classificazione: GDA //input gaussiano: fitting dei parametri con ML Ponendo il gradiente uguale a zero Stima dei parametri a priori frazione di punti in una classe Stima delle medie media di punti assegnati a una classe Modelli generativi di classificazione: GDA //input gaussiano: fitting dei parametri con ML Ponendo il gradiente uguale a zero Stima della covarianza (identica per tutte le classi media pesata delle covarianze
35 Modelli generativi di classificazione: GDA //input gaussiano vs LR GDA ha una forte assunzione di Gaussianità dei dati di input se l ipotesi è vera il classificatore è asintoticamente efficiente (il migliore) LR più robusta, meno dipendenza dalle ipotesi sui dati (gaussianità) se input non gaussiano per grandi N, LR è migliore di GDA Modelli generativi di classificazione: Naive Bayes (NB) Feature binarie Ipotesi: features indipendenti, data la classe Regola di decisione: Per il fitting è ancora un GLM Lineare in x
36 Un quadro complessivo
Computazione per l interazione naturale: classificazione probabilistica
Computazione per l interazione naturale: classificazione probabilistica Corso di Interazione uomo-macchina II Prof. Giuseppe Boccignone Dipartimento di Informatica Università di Milano boccignone@di.unimi.it
DettagliComputazione per l interazione naturale: classificazione probabilistica
Computazione per l interazione naturale: classificazione probabilistica Corso di Interazione Naturale Prof. Giuseppe Boccignone Dipartimento di Informatica Università di Milano boccignone@di.unimi.it boccignone.di.unimi.it/in_2016.html
DettagliComputazione per l interazione naturale: macchine che apprendono
Computazione per l interazione naturale: macchine che apprendono Corso di Interazione uomo-macchina II Prof. Giuseppe Boccignone Dipartimento di Scienze dell Informazione Università di Milano boccignone@dsi.unimi.it
DettagliComputazione per l interazione naturale: regressione logistica Bayesiana
Computazione per l interazione naturale: regressione logistica Bayesiana Corso di Interazione uomo-macchina II Prof. Giuseppe Boccignone Dipartimento di Informatica Università di Milano boccignone@di.unimi.it
DettagliComputazione per l interazione naturale: Regressione probabilistica
Computazione per l interazione naturale: Regressione probabilistica Corso di Interazione Naturale Prof. Giuseppe Boccignone Dipartimento di Informatica Università di Milano boccignone@di.unimi.it boccignone.di.unimi.it/in_2018.html
DettagliComputazione per l interazione naturale: Regressione probabilistica
Computazione per l interazione naturale: Regressione probabilistica Corso di Interazione Naturale Prof. Giuseppe Boccignone Dipartimento di Informatica Università di Milano boccignone@di.unimi.it boccignone.di.unimi.it/in_2016.html
DettagliComputazione per l interazione naturale: Regressione lineare
Computazione per l interazione naturale: Corso di Interazione uomo-macchina II Prof. Giuseppe Boccignone Dipartimento di Scienze dell Informazione Università di Milano boccignone@dsi.unimi.it http://homes.dsi.unimi.it/~boccignone/l
DettagliComputazione per l interazione naturale: macchine che apprendono
Computazione per l interazione naturale: macchine che apprendono Corso di Interazione uomo-macchina II Prof. Giuseppe Boccignone Dipartimento di Scienze dell Informazione Università di Milano boccignone@dsi.unimi.it
DettagliComputazione per l interazione naturale: processi gaussiani
Computazione per l interazione naturale: processi gaussiani Corso di Interazione uomo-macchina II Prof. Giuseppe Boccignone Dipartimento di Scienze dell Informazione Università di Milano boccignone@dsi.unimi.it
DettagliComputazione per l interazione naturale: macchine che apprendono
Comput per l inter naturale: macchine che apprendono Corso di Inter uomo-macchina II Prof. Giuseppe Boccignone Dipartimento di Informatica Università di Milano boccignone@di.unimi.it http://boccignone.di.unimi.it/ium2_2014.html
DettagliRegressione. Apprendimento supervisionato //Regressione. Corso di Sistemi di Elaborazione dell Informazione
Regressione SCUOLA DI SPECIALIZZAZIONE IN FISICA MEDICA Corso di Sistemi di Elaborazione dell Informazione Prof. Giuseppe Boccignone Dipartimento di Informatica Università di Milano boccignone@di.unimi.it
DettagliComputazione per l interazione naturale: fondamenti probabilistici (2)
Computazione per l interazione naturale: fondamenti probabilistici (2) Corso di Interazione uomo-macchina II Prof. Giuseppe Boccignone Dipartimento di Scienze dell Informazione Università di Milano boccignone@di.unimi.it
DettagliComputazione per l interazione naturale: fondamenti probabilistici (2)
Computazione per l interazione naturale: fondamenti probabilistici (2) Corso di Interazione uomo-macchina II Prof. Giuseppe Boccignone Dipartimento di Scienze dell Informazione Università di Milano boccignone@dsi.unimi.it
DettagliRiduzione di dimensionalità
Riduzione di dimensionalità SCUOLA DI SPECIALIZZAZIONE IN FISICA MEDICA Corso di Sistemi di Elaborazione dell Informazione Prof. Giuseppe Boccignone Dipartimento di Informatica Università di Milano boccignone@di.unimi.it
DettagliAlgoritmi di classificazione supervisionati
Corso di Bioinformatica Algoritmi di classificazione supervisionati Giorgio Valentini DI Università degli Studi di Milano 1 Metodi di apprendimento supervisionato per problemi di biologia computazionale
DettagliComputazione per l interazione naturale: Modelli dinamici
Computazione per l interazione naturale: Modelli dinamici Corso di Interazione uomo-macchina II Prof. Giuseppe Boccignone Dipartimento di Scienze dell Informazione Università di Milano boccignone@dsi.unimi.it
DettagliClassificazione. Apprendimento supervisionato //Classificazione. Corso di Sistemi di Elaborazione dell Informazione
Classificazione SCUOLA DI SPECIALIZZAZIONE IN FISICA MEDICA Corso di Sistemi di Elaborazione dell Informazione Prof. Giuseppe Boccignone Dipartimento di Informatica Università di Milano boccignone@di.unimi.it
DettagliComputazione per l interazione naturale: modelli a variabili latenti (clustering e riduzione di dimensionalità)
Computazione per l interazione naturale: modelli a variabili latenti (clustering e riduzione di dimensionalità) Corso di Interazione Naturale Prof. Giuseppe Boccignone Dipartimento di Informatica Università
DettagliModelli Probabilistici per la Computazione Affettiva: Learning/Inferenza parametri
Modelli Probabilistici per la Computazione Affettiva: Learning/Inferenza parametri Corso di Modelli di Computazione Affettiva Prof. Giuseppe Boccignone Dipartimento di Informatica Università di Milano
DettagliRiconoscimento e recupero dell informazione per bioinformatica
Riconoscimento e recupero dell informazione per bioinformatica Teoria della decisione di Bayes Manuele Bicego Corso di Laurea in Bioinformatica Dipartimento di Informatica - Università di Verona Sommario
DettagliComputazione per l interazione naturale: fondamenti probabilistici (1)
Computazione per l interazione naturale: fondamenti probabilistici (1) Corso di Interazione uomo-macchina II Prof. Giuseppe Boccignone Dipartimento di Scienze dell Informazione Università di Milano boccignone@dsi.unimi.it
DettagliMinimi quadrati e massima verosimiglianza
Minimi quadrati e massima verosimiglianza 1 Introduzione Nella scorsa lezione abbiamo assunto che la forma delle probilità sottostanti al problema fosse nota e abbiamo usato gli esempi per stimare i parametri
DettagliApprendimento Automatico
Apprendimento Automatico Metodi Bayesiani Fabio Aiolli 11 Dicembre 2017 Fabio Aiolli Apprendimento Automatico 11 Dicembre 2017 1 / 19 Metodi Bayesiani I metodi Bayesiani forniscono tecniche computazionali
DettagliComputazione per l interazione naturale: clustering e riduzione di dimensionalità
Computazione per l interazione naturale: clustering e riduzione di dimensionalità Corso di Interazione uomo-macchina II Prof. Giuseppe Boccignone Dipartimento di Informatica Università di Milano boccignone@di.unimi.it
DettagliComputazione per l interazione naturale: macchine che apprendono
Computazione per l interazione naturale: macchine che apprendono Corso di nterazione aturale Prof Giuseppe Boccignone Dipartimento di nformatica Università di ilano boccignone@diunimiit boccignonediunimiit/_016html
DettagliRegressione Lineare Semplice e Correlazione
Regressione Lineare Semplice e Correlazione 1 Introduzione La Regressione è una tecnica di analisi della relazione tra due variabili quantitative Questa tecnica è utilizzata per calcolare il valore (y)
DettagliStatistica multivariata 27/09/2016. D.Rodi, 2016
Statistica multivariata 27/09/2016 Metodi Statistici Statistica Descrittiva Studio di uno o più fenomeni osservati sull INTERA popolazione di interesse (rilevazione esaustiva) Descrizione delle caratteristiche
DettagliComputazione per l interazione naturale: fondamenti probabilistici
Computazione per l interazione naturale: fondamenti probabilistici Corso di Interazione Naturale Prof. Giuseppe Boccignone Dipartimento di Informatica Università di Milano boccignone@di.unimi.it boccignone.di.unimi.it/in_2017.html
DettagliRegressione Lineare. Corso di Intelligenza Artificiale, a.a Prof. Francesco Trovò
Regressione Lineare Corso di Intelligenza Artificiale, a.a. 2017-2018 Prof. Francesco Trovò 23/04/2018 Regressione Lineare Supervised Learning Supervised Learning: recap È il sottocampo del ML più vasto
DettagliRiconoscimento automatico di oggetti (Pattern Recognition)
Riconoscimento automatico di oggetti (Pattern Recognition) Scopo: definire un sistema per riconoscere automaticamente un oggetto data la descrizione di un oggetto che può appartenere ad una tra N classi
DettagliCorso di Intelligenza Artificiale A.A. 2016/2017
Università degli Studi di Cagliari Corsi di Laurea Magistrale in Ing. Elettronica Corso di Intelligenza rtificiale.. 26/27 Esercizi sui metodi di apprendimento automatico. Si consideri la funzione ooleana
DettagliMETODI DI CLASSIFICAZIONE. Federico Marini
METODI DI CLASSIFICAZIONE Federico Marini Introduzione Nella parte introduttiva dell analisi multivariata abbiamo descritto la possibilità di riconoscere l origine di alcuni campioni come uno dei campi
DettagliPresentazione dell edizione italiana
1 Indice generale Presentazione dell edizione italiana Prefazione xi xiii Capitolo 1 Una introduzione alla statistica 1 1.1 Raccolta dei dati e statistica descrittiva... 1 1.2 Inferenza statistica e modelli
DettagliClassificazione introduzione
- Classificazione introduzione Vittorio Maniezzo Università di Bologna 1 Ringraziamenti Questi lucidi derivano anche da adattamenti personali di materiale prodotto (fornitomi o reso scaricabile) da: A.
DettagliPROBABILITÀ ELEMENTARE
Prefazione alla seconda edizione XI Capitolo 1 PROBABILITÀ ELEMENTARE 1 Esperimenti casuali 1 Spazi dei campioni 1 Eventi 2 Il concetto di probabilità 3 Gli assiomi della probabilità 3 Alcuni importanti
DettagliTecniche di riconoscimento statistico
On AIR s.r.l. Tecniche di riconoscimento statistico Applicazioni alla lettura automatica di testi (OCR) Parte 2 Teoria della decisione Ennio Ottaviani On AIR srl ennio.ottaviani@onairweb.com http://www.onairweb.com/corsopr
DettagliComputazione per l interazione naturale: Richiami di ottimizzazione (3) (e primi esempi di Machine Learning)
Computazione per l interazione naturale: Richiami di ottimizzazione (3) (e primi esempi di Machine Learning) Corso di Interazione Naturale Prof. Giuseppe Boccignone Dipartimento di Informatica Università
DettagliIndice. Prefazione. 4 Sintesi della distribuzione di un carattere La variabilità Introduzione La variabilità di una distribuzione 75
00PrPag:I-XIV_prefazione_IAS 8-05-2008 17:56 Pagina V Prefazione XI 1 La rilevazione dei fenomeni statistici 1 1.1 Introduzione 1 1.2 Caratteri, unità statistiche e collettivo 1 1.3 Classificazione dei
DettagliElementi di statistica per l econometria
Indice Prefazione i 1 Teoria della probabilità 1 1.1 Definizioni di base............................. 2 1.2 Probabilità................................. 7 1.2.1 Teoria classica...........................
DettagliRegressione Lineare e Regressione Logistica
Regressione Lineare e Regressione Logistica Stefano Gualandi Università di Pavia, Dipartimento di Matematica email: twitter: blog: stefano.gualandi@unipv.it @famo2spaghi http://stegua.github.com 1 Introduzione
DettagliSistemi di Elaborazione dell Informazione 170. Caso Non Separabile
Sistemi di Elaborazione dell Informazione 170 Caso Non Separabile La soluzione vista in precedenza per esempi non-linearmente separabili non garantisce usualmente buone prestazioni perchè un iperpiano
DettagliL A B C di R. Stefano Leonardi c Dipartimento di Scienze Ambientali Università di Parma Parma, 9 febbraio 2010
L A B C di R 0 20 40 60 80 100 2 3 4 5 6 7 8 Stefano Leonardi c Dipartimento di Scienze Ambientali Università di Parma Parma, 9 febbraio 2010 La scelta del test statistico giusto La scelta della analisi
Dettagli0 altimenti 1 soggetto trova lavoroentro 6 mesi}
Lezione n. 16 (a cura di Peluso Filomena Francesca) Oltre alle normali variabili risposta che presentano una continuità almeno all'interno di un certo intervallo di valori, esistono variabili risposta
DettagliUniversità degli Studi di Roma Tor Vergata
Funzioni kernel Note dal corso di Machine Learning Corso di Laurea Specialistica in Informatica a.a. 2010-2011 Prof. Giorgio Gambosi Università degli Studi di Roma Tor Vergata 2 Queste note derivano da
DettagliTeoria delle Decisioni Bayesiana
Laurea Magistrale in Informatica Nicola Fanizzi Dipartimento di Informatica Università degli Studi di Bari 14 gennaio 2009 Sommario Introduzione Teoria delle decisioni Bayesiana - nel continuo Classificazione
DettagliComputazione per l interazione naturale: fondamenti probabilistici
Computazione per l interazione naturale: fondamenti probabilistici Corso di Interazione Naturale Prof. Giuseppe Boccignone Dipartimento di Informatica Università di Milano boccignone@di.unimi.it boccignone.di.unimi.it/in_2016.html
DettagliPrefazione Ringraziamenti dell'editore Il sito web dedicato al libro Test online: la piattaforma McGraw-Hill Education Guida alla lettura
INDICE GENERALE Prefazione Ringraziamenti dell'editore Il sito web dedicato al libro Test online: la piattaforma McGraw-Hill Education Guida alla lettura XI XIV XV XVII XVIII 1 LA RILEVAZIONE DEI FENOMENI
DettagliAnalisi Discriminante Strumenti quantitativi per la gestione
Analisi Discriminante Strumenti quantitativi per la gestione Emanuele Taufer Un esempio introduttivo Approccio con Bayes Perchè un altro metodo di classificazione? Classificazione con Bayes Analisi discriminante
Dettagli1 PROCESSI STOCASTICI... 11
1 PROCESSI STOCASTICI... 11 Introduzione... 11 Rappresentazione dei dati biomedici... 11 Aleatorietà delle misure temporali... 14 Medie definite sul processo aleatorio... 16 Valore atteso... 16 Esercitazione
DettagliApprendimento statistico (Statistical Learning)
Apprendimento statistico (Statistical Learning) Il problema dell apprendimento Inquadriamo da un punto di vista statistico il problema dell apprendimento di un classificatore Un training set S={(x,y ),,(x
DettagliNel modello omoschedastico la varianza dell errore non dipende da i ed è quindi pari a σ 0.
Regressione [] el modello di regressione lineare si assume una relazione di tipo lineare tra il valore medio della variabile dipendente Y e quello della variabile indipendente X per cui Il modello si scrive
DettagliUniversità degli Studi Roma Tre Anno Accademico 2014/2015 ST410 Statistica 1
Università degli Studi Roma Tre Anno Accademico 2014/2015 ST410 Statistica 1 Lezione 1 - Martedì 23 Settembre 2014 Introduzione al corso. Richiami di probabilità: spazi di probabilità, variabili aleatorie,
DettagliCampionamento. Una grandezza fisica e' distribuita secondo una certa PDF
Campionamento Una grandezza fisica e' distribuita secondo una certa PDF La pdf e' caratterizzata da determinati parametri Non abbiamo una conoscenza diretta della pdf Possiamo determinare una distribuzione
DettagliLa likelihood. , x 2. } sia prodotto a partire dal particolare valore di a: ; a... f x N. La probabilità che l'i ma misura sia compresa tra x i
La likelihood E' dato un set di misure {x 1, x 2, x 3,...x N } (ciascuna delle quali puo' essere multidimensionale) Supponiamo che la pdf (f) dipenda da un parametro a (anch'esso eventualmente multidimensionale)
DettagliMetodi supervisionati di classificazione
Metodi supervisionati di classificazione Giorgio Valentini e-mail: valentini@dsi.unimi.it DSI - Dipartimento di Scienze dell'informazione Classificazione bio-molecolare di tessuti e geni Diagnosi a livello
DettagliMetodi di classificazione
I metodi di classificazione sono metodi utilizzati per trovare modelli statistici capaci di assegnare ciascun oggetto di provenienza incognita ad una delle classi esistenti. L applicazione di questi metodi
DettagliSTATISTICA MULTIVARIATA SSD MAT/06
Università degli studi di Ferrara Dipartimento di Matematica A.A. 2018/2019 I semestre STATISTICA MULTIVARIATA SSD MAT/06 LEZION 13 Analisi della interdipendenza e della dipendenza : overview Docente:
DettagliComputazione per l interazione naturale: Richiami di ottimizzazione (3) (e primi esempi di Machine Learning)
Computazione per l interazione naturale: Richiami di ottimizzazione (3) (e primi esempi di Machine Learning) Corso di Interazione Naturale Prof. Giuseppe Boccignone Dipartimento di Informatica Università
DettagliMetodi Numerici con elementi di Programmazione (A.A )
Metodi Numerici con elementi di Programmazione (A.A. 2013-2014) Metodi Numerici Appunti delle lezioni: Approssimazione di dati e funzioni Approssimazione ai minimi quadrati Docente Vittoria Bruni Email:
DettagliIndice. centrale, dispersione e forma Introduzione alla Statistica Statistica descrittiva per variabili quantitative: tendenza
XIII Presentazione del volume XV L Editore ringrazia 3 1. Introduzione alla Statistica 5 1.1 Definizione di Statistica 6 1.2 I Rami della Statistica Statistica Descrittiva, 6 Statistica Inferenziale, 6
DettagliApprendimento statistico (Statistical Learning)
Apprendimento statistico (Statistical Learning) Il problema dell apprendimento Inquadriamo da un punto di vista statistico il problema dell apprendimento di un classificatore Un training set S={(x,y ),,(x
DettagliTeoria e tecniche dei test. Concetti di base
Teoria e tecniche dei test Lezione 2 2013/14 ALCUNE NOZIONI STATITICHE DI BASE Concetti di base Campione e popolazione (1) La popolazione è l insieme di individui o oggetti che si vogliono studiare. Questi
DettagliSommario. 2 I grafici Il sistema di coordinate cartesiane Gli istogrammi I diagrammi a torta...51
Sommario 1 I dati...15 1.1 Classificazione delle rilevazioni...17 1.1.1 Esperimenti ripetibili (controllabili)...17 1.1.2 Rilevazioni su fenomeni non ripetibili...18 1.1.3 Censimenti...19 1.1.4 Campioni...19
DettagliStatistica descrittiva
Luigi Vajani Statistica descrittiva r,,, I o -:i f e l ~ 1 (f"i I - / I I - ETASLIBRI Indice XIII Presentazione Parte prima - Introduzione 3 Capitolo 1 - Concetti generali 1.1 - Introduzione; l.2 - La
DettagliUniversità di Siena. Teoria della Stima. Lucidi del corso di. Identificazione e Analisi dei Dati A.A
Università di Siena Teoria della Stima Lucidi del corso di A.A. 2002-2003 Università di Siena 1 Indice Approcci al problema della stima Stima parametrica Stima bayesiana Proprietà degli stimatori Stime
Dettaglilezione n. 6 (a cura di Gaia Montanucci) Verosimiglianza: L = = =. Parte dipendente da β 0 e β 1
lezione n. 6 (a cura di Gaia Montanucci) METODO MASSIMA VEROSIMIGLIANZA PER STIMARE β 0 E β 1 Distribuzione sui termini di errore ε i ε i ~ N (0, σ 2 ) ne consegue : ogni y i ha ancora distribuzione normale,
DettagliSequenze (Sistemi) di Variabili Aleatorie Se consideriamo un numero di variabili aleatorie, generalmente dipendenti si parla equivalentemente di:
Teoria dei Fenomeni Aleatori AA 01/13 Sequenze (Sistemi) di Variabili Aleatorie Se consideriamo un numero di variabili aleatorie, generalmente dipendenti si parla equivalentemente di: N-pla o Sequenza
DettagliRegressione logistica. Strumenti quantitativi per la gestione
Regressione logistica Strumenti quantitativi per la gestione Emanuele Taufer file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/classes/4a_rlg.html#(22) 1/28 Metodi di classificazione I
DettagliMachine Learning: apprendimento, generalizzazione e stima dell errore di generalizzazione
Corso di Bioinformatica Machine Learning: apprendimento, generalizzazione e stima dell errore di generalizzazione Giorgio Valentini DI Università degli Studi di Milano 1 Metodi di machine learning I metodi
DettagliMISURA DELLA VARIAZIONE CONCOMITANTE (COVARIAZIONE/ CONTROVARIAZIONE) DI VARIABILI CARDINALI O QUASI- CARDINALI
ANALISI DELLA CORRELAZIONE MISURA DELLA VARIAZIONE CONCOMITANTE (COVARIAZIONE/ CONTROVARIAZIONE) DI VARIABILI CARDINALI O QUASI- CARDINALI VINCOLI CHE SI IMPONGONO ALLA SUA UTILIZZAZIONE: LA RELAZIONE
DettagliUniversità di Siena. Corso di STATISTICA. Parte seconda: Teoria della stima. Andrea Garulli, Antonello Giannitrapani, Simone Paoletti
Università di Siena Corso di STATISTICA Parte seconda: Teoria della stima Andrea Garulli, Antonello Giannitrapani, Simone Paoletti Master E 2 C Centro per lo Studio dei Sistemi Complessi Università di
DettagliUniversità degli Studi Roma Tre Anno Accademico 2016/2017 ST410 Statistica 1
Università degli Studi Roma Tre Anno Accademico 2016/2017 ST410 Statistica 1 Lezione 1 - Mercoledì 28 Settembre 2016 Introduzione al corso. Richiami di probabilità: spazi di probabilità, variabili aleatorie,
DettagliStatistica multivariata
Statistica multivariata Quando il numero delle variabili rilevate sullo stesso soggetto aumentano, il problema diventa gestirle tutte e capirne le relazioni. Analisi multivariata Cercare di capire le relazioni
DettagliStatistica multivariata
Parte 3 : Statistica multivariata Quando il numero delle variabili rilevate sullo stesso soggetto aumentano, il problema diventa gestirle tutte e capirne le relazioni. Analisi multivariata Cercare di capire
DettagliUniversità degli Studi Roma Tre Anno Accademico 2017/2018 ST410 Statistica 1
Università degli Studi Roma Tre Anno Accademico 2017/2018 ST410 Statistica 1 Lezione 1 - Mercoledì 27 Settembre 2017 Introduzione al corso. Richiami di probabilità: spazi di probabilità, variabili aleatorie,
DettagliKernel Methods. Corso di Intelligenza Artificiale, a.a Prof. Francesco Trovò
Kernel Methods Corso di Intelligenza Artificiale, a.a. 2017-2018 Prof. Francesco Trovò 14/05/2018 Kernel Methods Definizione di Kernel Costruzione di Kernel Support Vector Machines Problema primale e duale
DettagliNaïve Bayesian Classification
Naïve Bayesian Classification Di Alessandro rezzani Sommario Naïve Bayesian Classification (o classificazione Bayesiana)... 1 L algoritmo... 2 Naive Bayes in R... 5 Esempio 1... 5 Esempio 2... 5 L algoritmo
Dettagli1. variabili dicotomiche: 2 sole categorie A e B
Variabile X su scala qualitativa (due categorie) modello di regressione: variabili quantitative misurate almeno su scala intervallo (meglio se Y è di questo tipo e preferibilmente anche le X i ) variabili
DettagliIL CRITERIO DELLA MASSIMA VEROSIMIGLIANZA
Metodi per l Analisi dei Dati Sperimentali AA009/010 IL CRITERIO DELLA MASSIMA VEROSIMIGLIANZA Sommario Massima Verosimiglianza Introduzione La Massima Verosimiglianza Esempio 1: una sola misura sperimentale
DettagliRegressione. Lineare Simple linear regression Multiple linear regression Regression vs Geometrical fitting
Lineare Simple linear regression Multiple linear regression Regression vs Geometrical fitting Non lineare Variabile indipendente non lineare Ottimizzazione numerica (metodi iterativi) 1 Definizioni Nei
DettagliREGRESSIONE E CORRELAZIONE
REGRESSIONE E CORRELAZIONE Nella Statistica, per studio della connessione si intende la ricerca di eventuali relazioni, di dipendenza ed interdipendenza, intercorrenti tra due variabili statistiche 1.
DettagliLa Decisione Statistica Campione aleatorio: risultato dell osservazione di un fenomeno soggetto a fluttuazioni casuali.
La Decisione Statistica Campione aleatorio: risultato dell osservazione di un fenomeno soggetto a fluttuazioni casuali. Analisi del campione: - descrizione sintetica (statistica descrittiva) - deduzione
DettagliSTATISTICA MULTIVARIATA SSD MAT/06
Università degli studi di Ferrara Dipartimento di Matematica A.A. 2018/2019 I semestre STATISTICA MULTIVARIATA SSD MAT/06 LEZIONE 4 - Questioni di analisi e applicazione della regressione lineare Pratica
DettagliCalcolo delle Probabilità e Statistica Matematica previsioni 2003/04
Calcolo delle Probabilità e Statistica Matematica previsioni 2003/04 LU 1/3 Esempi di vita reale : calcolo delle probabilità, statistica descrittiva e statistica inferenziale. Lancio dado/moneta: definizione
Dettagli25 - Funzioni di più Variabili Introduzione
Università degli Studi di Palermo Facoltà di Economia CdS Statistica per l Analisi dei Dati Appunti del corso di Matematica 25 - Funzioni di più Variabili Introduzione Anno Accademico 2013/2014 M. Tumminello
DettagliIntroduzione alla Regressione Logistica
Introduzione alla Regressione Logistica Contenuto regressione lineare semplice e multipla regressione logistica lineare semplice La funzione logistica Stima dei parametri Interpretazione dei coefficienti
DettagliCenni di apprendimento in Reti Bayesiane
Sistemi Intelligenti 216 Cenni di apprendimento in Reti Bayesiane Esistono diverse varianti di compiti di apprendimento La struttura della rete può essere nota o sconosciuta Esempi di apprendimento possono
DettagliMODELLO DI REGRESSIONE LINEARE. le ipotesi del modello di regressione classico, stima con i metodi dei minimi quadrati e di massima verosimiglianza,
MODELLO DI REGRESSIONE LINEARE le ipotesi del modello di regressione classico, stima con i metodi dei minimi quadrati e di massima verosimiglianza, teorema di Gauss-Markov, verifica di ipotesi e test di
DettagliL'analisi bivariata (analisi della varianza e correlazione) Prof. Stefano Nobile. Corso di Metodologia della ricerca sociale
L'analisi bivariata (analisi della varianza e correlazione) Prof. Stefano Nobile Corso di Metodologia della ricerca sociale L analisi della varianza (ANOVA) La tecnica con cui si esplorano le relazioni
DettagliTecniche di riconoscimento statistico
On AIR s.r.l. Tecniche di riconoscimento statistico Applicazioni alla lettura automatica di testi (OCR) Parte 2 Teoria della decisione Ennio Ottaviani On AIR srl ennio.ottaviani@onairweb.com http://www.onairweb.com/corsopr
DettagliClassificazione Mario Guarracino Data Mining a.a. 2010/2011
Classificazione Mario Guarracino Data Mining a.a. 2010/2011 Introduzione I modelli di classificazione si collocano tra i metodi di apprendimento supervisionato e si rivolgono alla predizione di un attributo
DettagliESERCIZIO 1. Vengono riportati di seguito i risultati di un analisi discriminante.
ESERCIZIO 1. Vengono riportati di seguito i risultati di un analisi discriminante. Test di uguaglianza delle medie di gruppo SELF_EFF COLL_EFF COIN_LAV IMPEGNO SODDISF CAP_IST COLLEGHI Lambda di Wilks
DettagliMetodi computazionali per i Minimi Quadrati
Metodi computazionali per i Minimi Quadrati Come introdotto in precedenza si considera la matrice. A causa di mal condizionamenti ed errori di inversione, si possono avere casi in cui il e quindi S sarebbe
Dettaglis a Inferenza: singolo parametro Sistema di ipotesi: : β j = β j0 H 1 β j0 statistica test t confronto con valore t o p-value
Inferenza: singolo parametro Sistema di ipotesi: H 0 : β j = β j0 H 1 : β j β j0 statistica test t b j - b s a jj j0 > t a, 2 ( n-k) confronto con valore t o p-value Se β j0 = 0 X j non ha nessuna influenza
Dettagli1.1 Obiettivi della statistica Struttura del testo 2
Prefazione XV 1 Introduzione 1.1 Obiettivi della statistica 1 1.2 Struttura del testo 2 2 Distribuzioni di frequenza 2.1 Informazione statistica e rilevazione dei dati 5 2.2 Distribuzioni di frequenza
DettagliStatistica multivariata
Parte 3 : Statistica multivariata Quando il numero delle variabili rilevate sullo stesso soggetto aumentano, il problema diventa gestirle tutte e capirne le relazioni. Analisi multivariata Cercare di capire
DettagliTeoria dei Fenomeni Aleatori AA 2012/13
Introduzione alla Statistica Nella statistica, anziché predire la probabilità che si verifichino gli eventi di interesse (cioè passare dal modello alla realtà), si osserva un fenomeno se ne estraggono
DettagliMinimi quadrati ordinari Interpretazione geometrica. Eduardo Rossi
Minimi quadrati ordinari Interpretazione geometrica Eduardo Rossi Il MRLM Il modello di regressione lineare multipla è usato per studiare le relazioni tra la variabile dipendente e diverse variabili indipendenti
Dettagli