Modellazione e disegno sperimentale per sistemi ad alta dimensionalità.

Dimensione: px
Iniziare la visualizzazioe della pagina:

Download "Modellazione e disegno sperimentale per sistemi ad alta dimensionalità."

Transcript

1 Corso di Laurea i Statistica per l Impresa Prova fiale di Laurea Modellazioe e disego sperimetale per sistemi ad alta dimesioalità. Relatrice Prof.ssa Iree Poli Laureado Adrea Zaia Matricola 8909 Ao Accademico

2

3 Alla mia famiglia. I God we trust, all others brig data. W. E. Demig

4

5 INDICE INDICE... i Itroduzioe IL PROBLEMA DELL ALTA DIMENSIONALITA NELL ANALISI STATISTICA MODELLAZZIONE STATISTICA: le assuzioi di ormalità e liearità I Modelli Regressivi Modelli lieari geeralizzati (Geeralized liear model) Modelli per serie storiche Modelli o lieari IL BIG DATA COME RISPOSTA PER AFFRONTARE I PROBLEMI DI ALTA DIMENSIONALITA APPROCCI METODOLOGICI ALLA SELEZIONE DELLE VARIABILI ESPLICATIVE DEL MODELLO La maledizioe dell alta dimesioalità MODELLLI STATISTICI PER SISTEMI AD ALTA DIMENSIONALITA Gli icoveieti degli approcci statistici stadard ell alta dimesioalità La selezioe delle variabili e stima del modello I metodi filtro I metodi wrapper I metodi embedded L approccio LASSO (least absolute shrikage ad selectio operator) Sviluppi successivi alla metodologia LASSO IL DISEGNO SPERIMENTALE Geeralità e formulazioe del problema L alta dimesioalità dello spazio di ricerca I Supersaturated desig Criteri di valutazioe di SSD a due livelli Criteri di valutazioe di SSD a livelli misti Exchage Algorithms Evolutioary approach Algoritmi geetici Reti Neurali CONCLUSIONI BIBLIOGRAFIA i

6 ii

7 Itroduzioe Co il termie di big data si itede u dataset che eccede le ormali dimesioi di ua Base Dati e richiede iovativi strumeti software per la gestioe, l iterrogazioe e la visualizzazioe. La defiizioe è volutamete geerica, perché le dimesioi di questi dataset soo estremamete variabili ed i cotiua ed espoeziale crescita [Big Data: The ext frotier for iovatio, competitio ad productivity; Mc Kisey Global Istitute, May 011] Questo lavoro di tesi preseta alcui aspetti della modellazioe e del disego sperimetali per sistemi caratterizzati da alta dimesioalità. Oltre a dare ua visioe di cosa sia la problematica dell alta dimesioalità e da cosa derivi questa defiizioe, adremo a presetare la differeza co la modellazioe statistica classica e quali uove teciche si soo meglio adattate ello studio di questi sistemi. I dettaglio, el capitolo uo preseteremo e descriveremo il problema dell alta dimesioalità dei sistemi ell aalisi statistica. Nel capitolo due descriveremo brevemete i modelli statistici più utilizzati ell aalisi dei dati, evideziado le difficoltà metodologiche più rilevati che si icotrao elle applicazioi per problemi ad alta dimesioalità. Nel capitolo terzo, descriveremo il problema oto come big data proposto come soluzioe al tema dell alta dimesioalità. Nel capitolo quattro preseteremo gli approcci metodologici più rilevati per la modellazioe statistica i ambito di alta dimesioalità. Nel capitolo cique daremo alcue idicazioi sulla modellazioe. Ifie el capitolo sei preseteremo alcue metodologie per la costruzioe di disegi sperimetali per spazi di gradi dimesioi. 1

8

9 Capitolo 1 IL PROBLEMA DELL ALTA DIMENSIONALITA NELL ANALISI STATISTICA Per cercare co successo uova scieza i gradi dataset, dobbiamo trovare modelli iaspettati e iterpretare le prove e le evideze i modi che permettao di formulare uove domade e suggeriscao ulteriori esplorazioi. I metodi classici per rappresetare i dati possoo o rispodere a queste sfide, impededoci di adare oltre le solite domade e risposte. Co l aumeto delle capacità computazioi degli elaboratori elettroici gli isiemi di dati che vegoo raccolti da ricercatori e studiosi i ogi settore di idagie aumetao i modo espoeziale. No sempre però la crescita del umero dei dati e delle loro dimesioi implica ua maggiore iformazioe e coosceza sui feomei. Solo uovi approcci metodologici e uove forme di modellazioe potrao aiutare ell'idetificare l'iformazioe spesso ascosta i queste gradi isiemi di dati. Nella letteratura statistica si ota u crescete iteresse per la costruzioe di uovi metodi di aalisi e simulazioe che cosetao di idetificare e iterpretare al meglio queste iformazioi. I questo elaborato si darà iizialmete ua descrizioe del problema della grade umerosità e grade dimesioalità dei dati. Si preseterao e aalizzerao quidi le uove metodologie statistiche proposte per affrotare tale problema e si proporrà ifie u approccio che si ritiee di particolare utilità i alcui cotesti di ricerca. Le modere applicazioi di teorie e metodi statistici, possoo iteressare dataset di gradi dimesioi spesso coteeti u eorme umero di misure iereti ad u piccolo gruppo di uità sperimetali. Metre le origii dell idagie statistica possoo essere datate al periodo preidustriale, il maggior sviluppo è certamete avveuto el vetesimo secolo. Per la maggior parte del periodo, il problema pricipale fu quello di cofrotare u gra umero di uità sperimetali osservado per ogua u piccolo umero di 3

10 variabili; ifatti se comuemete idichiamo co p il umero di variabili e co la cardialità delle uità statistiche, fio a poco tempo fa lo sceario i cui ci trovavamo era i gra parte limitato al caso di u valore piccolo di p e u valore grade di. Co l aumetare della capacità computazioale e l ottica che si orieta sempre più ache ad u coteimeto dei costi, ache la raccolta dei dati è cambiata, si riduce il umero di uità sperimetali e si aumeta il umero di variabili associate ad esse, di cosegueza soo stati sviluppati uovi e più accurati metodi di simulazioe. I medicia ad esempio si posso utilizzare le iformazioi di base dei pazieti, raccolte al mometo della diagosi, per prevedere la classe di ua malattia o le possibilità di sopravviveza. Ua delle sfide più importati che la scieza modera si trova ad affrotare è come gestire il gra volume di dati che vegoo cotiuamete geerati da ogi area di ricerca. I dati crescoo i quatità, dimesioe e complessità; quatità per il gra umero di dati che vegoo foriti dalla crescita tecologica degli ultimi ai; dimesioe per il gra umero di variabili che iteressao gli ivestigatori ello sviluppo delle ricerche; e complessità per l'alto livello di coettività che caratterizza i dataset. La domada è quidi come i ricercatori possao estrarre iformazioi utili, dare u sigificato e scoprire uove relazioi da questi eormi detaset? O più geericamete come possoo i ricercatori tradurre questa icredibile quatità di dati i progresso scietifico e tecologico? Queste gradi quatità di dati impediscoo u aperto e trasparete accesso alle iformazioi i essi coteuti. La traspareza e la riproducibilità dei risultati della ricerca soo limitati dall'eorme volume spesso eterogeeo e mal orgaizzato i cui vegoo raccolti i dati. Ioltre u ampio dataset aumeta le possibilità che vi siao delle icogrueze tra il modo i cui vegoo raccolti i dati e gli obbiettivi dell'aalisi e della modellazioe; e che potrebbero quidi geerare degli errori elle valutazioi dovute a false ipotesi. Seza cotare ifie l'aspetto ecoomico, per produrre gra quatità di dati spesso si geerao alti costi e spreco di risorse, che potrebbero avere effetti egativi sulla ricerca stessa. Ioltre è molto probabile i settori come la biologia o i campo medio che vi ua scarsa iformazioe sulla piaificazioe della struttura dei dati creado magari molti dati che risultao però poco utili ad ua accurata previsioe. 4

11 Queste cosiderazioi ci suggeriscoo quidi u cambiameto ella metodologia dell acquisizioe delle iformazioi. L idea dovrebbe essere quidi quella di partire da ua uova prospettiva: ivece di produrre ua vasta gamma di dati e poi cercare di estrarre delle iformazioi seppellite i essi, provare a trovare u modo per produrre piccoli ma itelligeti dataset che quidi coterrao solo le iformazioi rilevati i merito al caso i esame. Quidi ivece di cocetrarsi su teciche che covertoo gradi masse di dati eterogeei e per larga parte irrilevati, si sta cercado di sviluppare ua uovi approcci per geerare e quidi elaborare solo iformazioi rilevati allo studio che si vuole svolgere. Ua metodologia di questo geere rappreseterebbe ua svolta soprattutto ei settori di ricerca dove al mometo la sperimetazioe viee svolta ivestigado su ua variabile e dove spesso viee cosiderata l idea che più dati ho meglio è. Ma più dati da raccogliere sigifica u maggiore impiego di risorse sperimetali e perciò sperimetazioe più costosa, co possibili effetti egativi sull ambiete. L idea è quidi quella di costruire u uovo approccio metodologico per geerare dati che possao forire iformazioi rilevati, accurate e sigificative, usado u umero di risorse molto limitato. Bisoga cosiderare ioltre le problematiche relative all applicazioe pratica degli attuali strumeti statistici, la maggior parte delle metodologie classiche coosciute si basao sulla possibilità di applicare degli strumeti matematici, ivertibilità e derivabilità, che proprio ei casi di gradi database divetao di difficile applicazioe sia i termii di complessità computazioale che di risolvibilità. 5

12 6

13 Capitolo MODELLAZZIONE STATISTICA: le assuzioi di ormalità e liearità. I questo secodo capitolo preseteremo le teciche di aalisi più comui, che si adattao ad u più classico sceario di modelli lieari geeralizzi, serie storiche e modelli o lieari. >> p. Parleremo di modelli regressivi,.1 I Modelli Regressivi I modelli regressivi (Piccolo, 000) soo stati largamete utilizzati ell appredimeto statistico già prima dell utilizzo diffuso dei calcolatori egli ambieti scietifici e della relativa ascita del machie learig. Lo studio e l utilizzo di questi modelli è giustificato oltre che dalla loro semplicità applicativa, ache dal fatto che soo i grado di forire spesso ua descrizioe adeguata e soprattutto iterpretabile dei feomei sotto osservazioe, tuttavia come vedremo o soo altrettato utili el caso dell alta dimesioalità. U modello regressivo multivariato può essere espresso come la relazioe tra la variabile risposta Y e ua matrice di dati X secodo la seguete otazioe: y = Xβ + ε, (.1) dove gli x 1 vettori y cotegoo la risposta, il vettore β cotiee i p parametri eccetto σ, gli x 1 vettori ε cotegoo l'errore e la matrice X è ua matrice x p. I parametri β vegoo stimati co il metodo dei miimi quadrati e l assuzioe sulla distribuzioe di probabilità di ε implica che y N ( X σ I) β, dove N idica 7

14 ua distribuzioe gaussiaa multivariata, co Xβ vettore delle medie e σ I come matrice di covariaze, e I è ua matrice idetità p p. La fuzioe di desità per y è quidi p ( ) { } ( / ) y Xβ y X = ππ exp β. (.) σ I dati su cui si basao le stime soo (X,y). La precedete espressioe cosiderata i fuzioe dei parametri rappreseta la fuzioe di verosimigliaza, ( y X, β) βˆ = argmaxβ p (.3) Così βˆ iteso come stimatore di massima verosimigliaza per β ; soddisfa ioltre queste due importati relazioi, T X Xβ ˆ T = X y, (.4) e β ˆ = T 1 T ( X X) X y, (.5) Ioltre se lo stimatore è corretto, β ˆ N p T 1 ( β,σ ( X X) ), (.6) da cui possiamo otteere l'itervallo di stime per β. I geerale, per la maggioraza degli sceari di massima verosimigliaza riguardati modelli parametrici che coivolgoo u umero fissato di parametri β, per u molto grade; l'approssimazioe è esatta βˆ N ( β,σ ˆ), (.7) p β 8

15 per ua determiata matrice Σ ˆ. Quidi βˆ è asitoticamete o distorta e β ormalmete distribuita. Si ota immediatamete che il processo di stima del modello si basa sulla possibilità di ivertire la matrice dei dati, questo el caso di alta dimesioalità oltre a richiedere u costo computazioale molto elevato, o risulta sempre applicabile.. Modelli lieari geeralizzati (Geeralized liear model) I Geeralized Liear Model (GLM) (Piccolo, 000) soo dei modelli che geeralizzao il modello lieare, di cui soo la aturale estesioe. Si cosidera il caso i cui, quidi, la ostra fuzioe o sia lieare e le variabili o siao ormali. Questa uova classe di modelli è sufficietemete flessibile da icorporare u gra umero di situazioi rilevati per le applicazioi pratiche. I questo caso la forma geerale del modello è sempre: y = Xβ + ε, (.8) qui però il legame fra il valore atteso della variabile risposta e la covariate o è i geere di tipo lieare ma la relazioe è espressa da ua fuzioe g ivertibile e derivabile, e il modello lieare assume quidi la forma: Y = g 1 ( X β ) +ε ; (.9) la fuzioe g è detta lik fuctio e i geere viee scelta i modo da assumete valori i tutto l isieme dei umeri reali. Come è facile ituire ache i questo caso la ecessità di passare per l ivertibilità della fuzioe rede questo modello di difficile applicazioe el caso di alta dimesioalità..3 Modelli per serie storiche Lo studio delle serie storiche ha come oggetto l evoluzioe temporale di feomei diamici i molti settori di ricerca scetifica. (Di Fozo, 005) 9

16 Ua serie storica cosiste di u isieme di osservazioi su u certo feomeo ordiate el tempo. Solitamete le osservazioi soo misurate ad istati di tempo equispaziati, a secoda del feomeo oggetto di studio. I tale situazioe la serie storica può essere idicata come: { x t ; t= 1,..., } (.10) dove co t idichiamo il tempo a cui il dato x t si riferisce Si cerca quidi di studiare la serie storica ella sua diamica temporale (aalisi uivariata) e elle sue coessioi co altre serie storiche ad essa collegate (aalisi multivariata). L aalisi statistica di ua serie storica si propoe di studiare il processo geeratore della serie per poter prevedere l evoluzioe i tempi successivi. U modello stocastico geerale per descrivere il processo geeratore dei dati di ua serie storica { y} t t= 1 modo: relativa ad ua variabile Y può essere rappresetato el seguete Y t = f ( t) + ε (.11) t Nella formula precedete si assume che il feomeo studiato si possa esprimere come la somma di u parte sistematica (o determiistica), { f (t)} e di ua parte casuale (errore) { ε t } che rappreseta la parte stocastica della serie. La compoete determiistica viee scomposta i tre compoeti: il tred, il ciclo e la stagioalità. Tutto ciò che o viee spiegato dalla parte determiistica è riteuto u residuo dovuto al caso e costituisce la parte casuale. Il Tred (T) è la compoete che spiega l adameto della serie riferito al lugo periodo; questa compoete sitetizza la struttura e l evoluzioe sistematica della serie, a prescidere da fattori cotigeti o irrilevati. Per quato riguarda l aalisi del tred va sottolieato che o esistoo teciche sempre valide per evideziarlo. Spesso la sola aalisi visiva della serie permette di evideziare la preseza di u tred, altrimeti si può far affidameto a fuzioi specifiche; geeralmete viee rappresetato co ua fuzioe matematica di tipo semplice. 10

17 Il Ciclo (C) è la compoete che rappreseta le fluttuazioi plurieali attoro al tred dovute alle espasioi e cotrazioi cogiuturali dell attività ecoomica. Geeralmete è meo itido delle altre compoeti i quato spesso si cofode col tred; i questi casi può essere igorato come elemeto autoomo e viee icorporato el tred. La Stagioalità (S) è costituita da variazioi sistematiche del feomeo che tedoo a ripetersi i modo aalogo i periodi successivi (è presete solo per dati co frequeza sub-auale). Questo feomeo è legato solo alla periodicità della serie storica (ad esempio, se la serie è mesile avremo 1 coefficieti stagioali relativi ai mesi). I modelli che vegoo pricipalmete applicati alle serie storiche soo i modelli autoregressivi (AR), i modelli a media mobile (MA) e alcue loro combiazioi ARMA, ARIMA e AMAX I modelli autoregressivi, idicati co la sigla AR. Soo dei modelli uivariati caratterizzati cioè dal fatto che il comportameto della variabile osservata dipede esclusivamete dai suoi valori passati, a meo di u errore casuale { ε t }. Questo modello è capace di descrivere e prevedere co u accettabile margie di errore quei feomei che hao u adameto el tempo approssimabile ad ua retta, e ache quelli che presetao delle oscillazioi dovute alla stagioalità. I modelli a media mobile detti ache moovig everage dallo loro traduzioe i ligua iglese, e idicati co la sigla MA. Soo dei processi stocastici uivariati caratterizzati dal fatto che il comportameto della variabile osservata e modellata Y t dipede solo dai valori preseti e passati della compoete casuale di cui la stessa variabile ha subito l iflueza el tempo. Il termie moovig average deriva dal fatto che la variabile variazioi. Y t è ua somma poderata dei valori più recedeti delle I modelli ARMA ascoo dall uioe del modello autoregressivo e a media mobile. Soo quelli più utilizzati su serie temporali che o presetao stagioalità, quidi su serie temporali di dati auali (ad esempio per le serie del PIL di u paese), sulle quali si devoo compiere operazioi di medie mobili e di regressioe per raggiugere la stazioarietà della serie, codizioe ecessaria per fare aalisi e previsioi e di cui si parlerà i seguito. I pratica i modelli ARIMA si utilizzao per tutte quelle serie temporali stazioarie itoro a u tred (Tred Statioary, idicati co la sigla TS). 11 Y t

18 I modelli ARIMA soo altri modelli uivariati che presetao sia compoeti autoregressive sia a media mobile come i modelli ARMA, ma, a differeza di questi ultimi, la serie di origie sulla quale viee fatta l aalisi è costituita dalle differeze fra u valore della serie e il precedete. Ifatti la lettera I sta per Itegrated (itegrato) per ritorare alla serie origiale si deve compiere l operazioe iversa della differeziazioe che è detta itegrazioe. Per questo motivo si dice ache che i modelli ARIMA soo stazioari i differeza (Differece Statioary, idicati co la sigla DS). Il modello ARMAX è u raffiameto di u ARMA i quato riduce la variaza dell ARMA co l itroduzioe el modello di ua o più variabili esogee cioè o ifluezata dall equilibrio del modello (o variabili i iput). Questo accade per il motivo che le variabili estere cotegoo iformazioi aggiutive rispetto al passato della serie i grado di cotribuire ella spiegazioe della variabilità del modello. Modelli di questo tipo soo stati idetificati co diversi omi quali modelli co fuzioi di trasferimeto, modelli di regressioe co errori di tipo ARMA oppure modelli co regressioe diamica. I ambito lieare questo soo attualmete le pricipali proposte i letteratura, tali modelli però assumedo le ipotesi di liearità risultao di difficile applicazioe el caso di alta dimesioalità..4 Modelli o lieari La classe dei modelli o lieari(azzalii, 003) e` molto vasta ed è stata svluppata sia per applicazioi ell ambito della statistca spaziale, sia ell ambto dell aalisi delle serie storiche. U modello o lieare per dati temporali può essere espresso ella forma: y = f ( t,, β ) + µ co E ( µ ) = 0 (.1) t x t t t x t ove la variabile y t viee proposta i dipedeza o lieare dalla variabile vettoriale k x t, ua dipedeza o lieare dal parametro o oto β R e che l errore sia additivo(azzalii, 199). Per alleggerire le otazioi ella trattazioe 1

19 teorica, si preferisce o evideziare esplicitamete la dipedeza da modello, e allora esso si scrive ella forma x t el y = ( β ) + εt, co E( ε t Ω t ) = 0 e xt Ωt, (.13) t x t dove Ω t deota il complesso di iformazioi dispoibili all istate t che ifluezao y t. Si osservi ifie che qui o sussiste come ei modelli lieari,dove si ha ' f ( t, x t, β ) = xtβ, l uguagliaza tra la dimesioe del vettore x t (che come si può otare o e` resa esplicita ella rappresetazioe del modello) e la dimesioe k di β. Tra i casi più rilevati troviamo le reti eurali artificiali (Artificial Neural Network) e gli State Dipedet Model. Le reti eurali artificiali ascoo dalla volotà di simulare artificialmete l orgaizzazioe ed il fuzioameto fisiologici delle struttura cerebrali umae. Ci si riferisce quidi a reti eurali aturali, costituite da u gradissimo umero di cellule ervose, detti euroi, collegate tra loro i ua complessa rete. Il comportameto itelligete è frutto delle umerose iterazioi tra uità itercoesse. L iput di u euroe è la media dei segali di sego ed itesità diversi proveieti da euroi ad esso collegati. Quado tale media supera ua determiata soglia, il euroe, attraverso u opportua fuzioe di trasferimeto, geera u segale bio-elettrico che si propaga attraverso i pesi sitattici ad altri euroi. Voledo trovare dei difetti a questi sistemi di aalisi possiamo dire che i modelli prodotti dalle rei eurali, ache se molto efficieti, o soo spiegabili i liguaggio simbolico umao; i risultati vao accettati così come soo. Come per qualsiasi algoritmo di modellazioe, ache le reti eurali soo efficieti solo se le variabili predittive soo scelte co cura. No soo i grado di trattare i modo efficiete variabili di tipo categorico co molti valori diversi. Necessitao di ua fase di addestrameto del sistema che fissi i pesi dei sigoli euroi e questa fase può richiedere molto tempo se il umero di record e delle variabili aalizzate è molto grade. No esistoo ioltre, teoremi o modelli che permettao di defiire la rete ottima, quidi la riuscita di ua rete dipede molto dall esperieza del suo creatore. 13

20 Le reti eurali el caso di alta dimesioalità risultao di difficile utilizzo i quato soo la delicata e fodametale fase di appredimeto el caso di alta dimesioalità risulterebbe molto dispediosa. Cocludedo abbiamo visto come tutte le teciche di modellazioe più classiche presetio degli ostacoli ell applicazioe i caso di alta dimesioalità. 14

21 Capitolo 3 IL BIG DATA COME RISPOSTA PER AFFRONTARE I PROBLEMI DI ALTA DIMENSIONALITA Big data è il termie usato per descrivere ua raccolta di dataset così grade e complessa da richiedere strumeti differeti da quelli tradizioali i tutte le fasi del processo, dall acquisizioe all aalisi dei dati e la presetazioe degli stessi. Iizialmete di frote al problema dell alta dimesioalità la prima soluzioe attuata è stata quella di costruire gradi database, questo però ha portato la complessità computazioale dell aalisi ad u livello troppo complesso co le metodologie classiche, ache per i moderi calcolatori. La ostra società iveste eormemete ella raccolta e el trattameto dei dati di ogi tipo su scala, fio a poco tempo fa, iimmagiabile. Immagii iperspettrali, portali iteret, dati fiaziari istate per istate soo solo alcue delle foti più coosciute che alimetao i flussi torreziali di dati ei database scietifici e di busiess i tutto il modo. Nelle tradizioali metodologie statistiche, oi assumiamo u gra umero di osservazioi e u piccolo umero di variabili attetamete selezioate. Ma il sigificato di grade e piccolo è soggetto a cambiameto co il passare del tempo, e come abbiamo visto egli ai è certamete cambiato il sigificato di grade. Nei primi del 900, tre poteva essere cosiderato u umero grade di variabili, metre egli ai 80 u umero cosiderato grade era ceto. Ora il cocetto di grade, di umeroso, è divetato più complesso. La tedeza oggi è quella di avere molte osservazioi ma ache u gra umero di variabili. Vediamo esempi dove i dati raccolti su u osservazioe sigola soo curve, spettri, immagii o ache iteri film; quidi ua sigola osservazioe ha dimesioe ell ordie delle migliaia o milioi, metre poi ci soo solo decie o cetiai di queste che risultao realmete utilizzabili per uo studio. I metodi classici o possoo far frote a questa crescita esplosiva della dimesioalità delle 15

22 osservazioi. Nel futuro quidi l aalisi di questi tipi di dati sarà ciò i cui gli studi cotiuerao a cocetrarsi per lo sviluppo di uovi e migliori metodi. I questo cotesto, molte ricerche soo state sviluppate ed hao portato alla cosiderazioe che l alta dimesioalità possa essere allo stesso tempo ua beedizioe e ua maledizioe. La maledizioe si riferisce all apparete itrattabilità sistematica di ricerca delle iformazioi all itero di uo spazio ad alta dimesioalità, all apparete impossibilità di ua previsioe accurata di ua fuzioe geerale ad alta dimesioalità e di ua sua itegrazioe.(bellma 1961) Di cotro, gli aspetti positivi soo: lo sviluppo di ricerche tedeti ad idividuare piccoli isiemi di dati coteteti iformazioi rilevati per il problema. Negli ultimi decei, i dati, la loro gestioe ed elaborazioe soo divetati dei fattori oipreseti ella vita modera e el lavoro. Eormi ivestimeti soo stati fatti i diversi meccaismi di acquisizioe e elaborazioe dei dati. L idustria dell Iformatio Techology ha avuto ua crescita rapida ed è il segmeto più redditizio dell ecoomia modiale, e gra parte della crescita avviee ello sviluppo, ella gestioe e stoccaggio dei flussi di dati per fii scietifici, medici, igegeristici e commerciali. Alcui esempi receti icludoo: dati fiaziari: egli ultimi dieci ai, i dati fiaziari ad alta frequeza soo divetati dispoibili, come il moitoraggio delle sigole operazioi; dopo la recete crisi ecoomica, quidi, i modelli statistici per questi flussi di dati ad alta dimesioalità si soo resi ecessari per poter meglio prevedere le situazioi precarie; dati dei cosumatori: molte delle trasizioi ormai vegoo fatte i rete e aturalmete ricerche ed acquisti vegoo registrati e messi i correlazioe i database. Questo per poi essere veduti e riveduti ai produttori per mettere i relazioe le esigeze del pubblico co la creazioe della domada di vari bei e servizi; dati biotecologici: il fatastico progresso raggiuto i questi ai ella raccolta di dati sul geoma umao ha portato allo sviluppo di metodologie statistiche ache i campo biologico. immagii satellitari: i foritori di immagii satellitari raccolgoo gradi database di immagii, il cui ordie si aggira 16

23 sui milioi. Ci soo progetti (es. Google Earth) che putao a mappare l itero piaeta co ua accuratezza ell ordie del metro. Ioltre si sta sviluppado ache il settore delle immagii iper-spettrali che vego registrate da specifiche telecamere a livello aereo o satellitare, che registrao o solo le tre bade di colore RGB, ma migliaia di differeti spettri di bada. Le tedeze attuali soo destiate ad accelerare i futuro, i quato ogi ao vegoo ivetati uovi metodi di rilevazioe dei dati. U altro fattore importate da cosiderare è che la società peserà a se stessa sempre più come a ua società guidata dai dati. Le imprese dell idustria dei dati dedicate alla creazioe e gestioe degli stessi, possoo essere preziose tato quato aziede dedicate alla creazioe di oggetti fisici tagibili. Ioltre, i cosumatori stao divetado a loro volta resposabili della creazioe di dati. Ad esempio, alcui ai fa, u immagie 104x104 era cosiderata u oggetto abbastaza cosistete per la gestioe di u computer e solo gli iformatici lavoravao le immagii digitali. Ora, fotocamere che costao poche cetiaia di euro geerao cotiuamete immagii 10 volte più precise. I cosumatori acquisiscoo sempre maggior familiarità co il processo di cattura delle immagii, scaricadole direttamete sul loro computer di casa, modificadole co strumeti software per creare delle persoalizzazioi. Tutto questo gradimeto del cosumatore sta idirizzado sempre più massicci ivestimeti allo sviluppo tecologico ella raccolta e ell aalisi dei dati. Gli esempi precedeti ci mostrao che stiamo vivedo i u era che raccoglie i maiera automatica impoeti quatità di dati che producoo sistematicamete molte misure, seza però sapere quali siao effettivamete rilevati per il feomeo a cui siamo iteressati. Questa si è dimostrata ua svolta rispetto alle assuzioi iiziali, che ha portato quidi dei cambiameti dei metodi usati ell aalisi dell alta dimesioalità oggi. Per molti di questi metodi si assumeva di avere a che fare co poche variabili scelte ad hoc. Ma elle più receti ricerche scietifiche, la scelta delle variabili deve avveire da isiemi molto umerosi. quasi sempre o siamo a coosceza delle variabili da misurare i aticipo, e della loro struttura. Il compito sarà quidi quello di filtrare u adeguato sottoisieme di variabili. Metre l alta dimesioalità è evidete fi da subito, o risulta facile studiare ua struttura 17

24 di tipo sparso, cioè ua struttura caratterizzata da molte variabili di cui solo alcue soo rilevati per il problema. La metodologia di base che è stata utilizzata el modo classico o è applicabile co buoi risultati. La teoria di fodo ei precedeti approcci per l aalisi dei dati è basata sull ipotesi che p < co grade. Molti risultati dei metodi statistici classici meglio si riferivao a osservazioi di ormali multivariate e applicavao metodi matematici per riuscire ad avere dei risultati distributivi esatti. Ma questi metodi o risultao più applicabili el caso p >>. Il caso i cui p >> o è per ulla aomalo ella realtà azi sta divetado u cosiddetto stato dell arte. 18

25 Capitolo 4 APPROCCI METODOLOGICI ALLA SELEZIONE DELLE VARIABILI ESPLICATIVE DEL MODELLO I ai receti soo stati fatti cosiderevoli sforzi el tetativo di stabilire strategie di modellazioe efficieti per dataset ad alta dimesioalità. Per portare u cotributo sigificativo i ricercatori si soo idirizzati allo sviluppo di ua uova classe di teciche per la costruzioe di modelli regressivi che si adattio ad ua accurata previsioe el caso di high dimesioal respose e predictio settigs. L architettura di queste metodologie pesate per la costruzioe di modelli è cocepita per ridurre u poteziale gra umero di regressori i u umero relativamete piccolo di variabili. Vi è tuttavia u idea pricipale che accomua la comuità scietifica, ed è quella di idividuare uove metodologie per poter affrotare i problemi caratterizzati da u umero elevato di variabili. Queste problematiche soo state affrotate i letteratura da molti studiosi di cui si ricorda Tibshirai, Hastie, Friedma, Efro che maggiormete si soo dedicati allo studio di queste problematiche, ricavadoe ache u libero, The Elemets of Statistical Learig, che può essere cosiderato ua bibbia per l argometo. 4.1 La maledizioe dell alta dimesioalità. I problemi d ottimizzazioe sorgoo i tutte le aree della scieza, dell igegeria e del busiess; ci si può ricodurre ad u problema di ottimizzazioe ogi qualvolta si vuole formalizzare matematicamete u problema di decisioe ed idividuare per esso ua soluzioe ottima o subottima. I pratica, a partire da u aalisi del problema si estrapolao le gradezze di iteresse, che soo quidi associate ad opportue variabili. Queste variabili 19

26 costituiscoo le icogite del problema. Occorre poi esprimere quatitativamete gli evetuali legami esisteti tra le variabili e le limitazioi (derivati da cosiderazioi di carattere matematico, fisico o ecoomico) da imporre sulle variabili. Tali legami e limitazioi defiiscoo i vicoli del problema; l isieme dei valori delle variabili per cui i vicoli soo soddisfatti costituirà la regioe delle soluzioi ammissibili (o domiio dei vicoli). Ifie, ma o meo importate, c è la rappresetazioe matematica del problema attraverso la defiizioe formale della fuzioe obbiettivo che si itede miimizzare o massimizzare Secodo Bellma (1961), se il ostro obbiettivo è quello di ottimizzare ua fuzioe su u domiio cotiuo, che è dipede di alcue decie di variabili, potremmo facilmete trovarci di frote al problema di fare decie di miliardi di valutazioi della fuzioe. Bellma propoe u metodo di programmazioe diamica. Da u puto di vista statistico, suppoiamo di avere u isieme di p variabili e suppoiamo che la prima sia dipedete dalle altre e la chiamiamo Y, attraverso u modello cosi defiito: Y i = f x,..., x ) + ε. (4.1) ( i, 1 i, p i Suppoiamo che f sia o ota, e che o siamo i grado di specificare u modello per essa, ivece siamo disposti ad assumere che f sia ua fuzioe lipschitziaa (cioè ua fuzioe reale che ua crescita limitata) di questa variabile e che gli ε i della variabile siao i.i.d. e distribuiti come u N(0,1). Come potrà l accuratezza della stima dipedere dal umero di osservazioi? Se provassimo a calcolare ua sua stima per far covergere il limite ad ua stima accurata servirebbero miliardi di dati, è quidi il tasso di covergeza molto leto ad essere cosiderato la maledizioe dell alta dimesioalità. Questa cosiddetta maledizioe dell alta dimesioalità alle volte ascode la spita prevetiva ella ricerca di u piccolo set di dati, che cocetrio tutte le caratteristiche importati sulla distribuzioe dei dati stessi. Questa cocetrazioe di iformazioi itoro a u piccolo umero di variabili q, dove q è coteuto i p, trasforma quidi ua situazioe molto sfavorevole dovuta alla grade quatità di dati i ua situazioe più favorevole all aalisi dei dati. Ci soo molti fattori che possoo favorire l iterpretazioe del problema: 0

27 solo alcui degli iput potrebbero essere rilevati; i dati di iput potrebbero giacere su u sottoisieme di bassa dimesioalità dello spazio di iput; l espasioe della fuzioe obbiettivo potrebbe essere sparsa i ua base predefiita; lisciameto espoeziale della fuzioe obbiettivo; Questi fattori vegoo chiamati regolatori del problema. Alcue ricerche si soo dedicate all appredimeto statistico per traslare problemi da spazi di ricerca ad alta dimesioalità i sottospazi possibilmete più piccoli, ma che mategao le proprietà di parteza degli oggetti delle aalisi, idetificado il set delle variabili ottimali (ad esempio i base a cocetrazioe di feomei di misura). I uovi modelli statistici stao cercado di affrotare problemi ad alta dimesioalità, itroducedo elle loro procedure di stima degli aspetti statistici rilevati come: ua stima putuale: il metodo più comue di stima dei coefficieti è la stima dei miimi quadrati, che spesso è poco distorta ma ha u ampia variabilità. La stima putuale può, alle volte, essere migliorata riducedo o settado a zero alcui coefficieti. Facedo questo oi sacrifichiamo u po di distorsioe per ridurre la variaza della previsioe, e di cosegueza possiamo migliorare l itera stima putuale l iterpretazioe facilitata: co u gra umero di fattori, spesso e vogliamo determiare u gruppo più piccolo che possa maifestare gli effetti maggiori. Tetado quidi di avere u quadro più geerale siamo disposti a sacrificare alcui piccoli dettagli. Gli obbiettivi degli studiosi si cocetrao ello sviluppare metodi per l approssimazioe di fuzioi i spazi ad alta dimesioalità che agevolio u appredimeto veloce e robusto; queste fuzioi adrao poi utilizzate per sviluppare algoritmi la cui complessità computazioale o cresca rapidamete i rapporto alla dimesioe dello spazio di ricerca. 1

28

29 Capitolo 5 MODELLLI STATISTICI PER SISTEMI AD ALTA DIMENSIONALITA I questo capitolo affroteremo alcui problemi ella modellazioe e el disego sperimetale i casi di alta dimesioalità, presetati i letteratura. Gli approcci i questi campi, spesso, affrotao i dati ad alta dimesioalità i maiera differete. I problemi aalizzati riguardao, teciche di acquisizioe dei dati, problemi co variabili sia qualitative che quatitative, teciche di acquisizioe e selezioe supervisioata di variabili. 5.1 Gli icoveieti degli approcci statistici stadard ell alta dimesioalità Tra i pricipali risultati teorici della statistica classica ci soo la Legge dei Gradi Numeri e il Teorema del Limite Cetrale. Il primo dice che la media campioaria di u campioe radom di dimesioe da ua popolazioe, tede alla media reale della popolazioe. Il secodo ivece dice che se si ha ua somma di variabili aleatorie X i idipedeti e ideticamete distribuite (co desità uguali) co media µ e variaza σ, allora idipedetemete dalla forma distributiva di parteza, al tedere della dimesioe campioaria a ifiito, la somma tede a distribuirsi come ua variabile casuale ormale. I statistica questi risultati soo utili el derivare le proprietà asitotiche degli stimatori dei parametri, ma la loro validità assume la preseza, almeo i teoria, di poche osservazioi per parametro. Gli sforzi di statistici e data miers soo stati dedicati a ridurre i problemi di dimesioalità, i modo da poter impiegare i teoremi statistici classici e la letteratura dei modelli lieari è ricca di algoritmi automatici per la costruzioe di modelli. 3

30 La selezioe delle variabili e l idividuazioe delle caratteristiche utili soo due elemeti fodametali per poter ridurre le dimesioi ed estrapolare delle iformazioi quado siamo di frote ad impoeti quatità di dati. Diverse procedure di selezioe della variabili soo state proposte i statistica, co l obbiettivo di creare modelli parsimoiosi che permettao di iterpretare facilmete le relazioi tra le variabili, riducedo ache gli errori di previsioe. I metodi di selezioe tradizioali (AIC,BIC, ecc ) implicao u problema di ottimizzazioe combiatoria di tipo NP-completo, quidi di complessità poliomiale, co u tempo computazioale che cresce espoezialmete al crescere delle dimesioi. Ache le più raffiate teciche di selezioe del modello, dovedo affrotare uo spazio di ricerca di tutti i possibili modelli troppo ampio, quasi sempre falliscoo el tetativo di determiare il quello che geeralizzi i maiera corretta. La stepwise regressio, la selezioe del miglior sottoisieme e la ridge regressio, cosiderati gli approcci più utilizzati egli ai ovata, mostrao delle lacue molto profode i termii di performace e accuratezza quado si tratta di alta dimesioalità. La selezioe stepwise i tutte le sue variati (forward,backward o etrambe), deve affrotare il problema dei gradi di libertà. Ifatti questa tecica è i grado di idetificare solo modelli co ua complessità al più uguale al umero di osservazioi, geerado ioltre u modello co ua scarsa accuratezza predittiva. La tecica di selezioe del miglior sottoisieme miimizza la somma dei quadrati dei residui RSS, soggetta al umero dei coefficieti o ulli q, co 4 q p ; questa tecica produce u modello sparso, che è molto variabile a causa alla sua atura discreta. La ridge regressio miimizza i RSS soggetta ad u vicolo dei coefficieti sulla orma l. Questa metodologia raggiuge la sue migliori performace di previsioe attraverso il cosiddetto compromesso tra distorsioe e variaza, che sarà spiegato successivamete. Tuttavia la ridge regressio matiee sempre tutti gli stimatori el modello il che o lo rede poco costoso i termii computazioi. Ioltre tutti precedeti metodi classici, hao ach essi u costo computazioale elevato che li rede poco adattabili el caso di aalisi dei problemi ad alta dimesioalità, ed ioltre essedo pricipalmete applicati i codizioi di regressioe lieare divetao sempre meo stabili quado i problemi soo di tipo o lieare o che coivolgoo variabili categoriali. La vera sfida elle selezioe di modelli e variabili i casi di alta dimesioalità è quello di trovare delle procedure

31 automatiche capaci di stabilire i modelli migliori, co u alta precisioe e co ua struttura il più semplice possibile. Per sviluppare questo tipo di procedure iterative il problema maggiore sarà il compromesso tra la variaza e la distorsioe. Se la dimesioe p della matrice di covariza X è grade, come affermato i precedeza, è possibile avere ua previsioe migliore riducedo il umero di varibili. Modelli co molte covariate hao poca distorsioe ma ua gra variabilità, viceversa modelli co poco covariate hao poca variabilità ma ua forte distorsioe. Questo è quello che si defiisce, il compromesso variaza-distorsioe. Il problema della decisioe di quali variabili debbao essere icluse i u modello per avere u buo compromesso fa riferimeto ai problemi di selezioe delle variabili e scelta del modello. Questo trade-off sta alla base di molto approcci di data miig per defiire il miglior modello, e rappreseta ua misura di comparazioe molto utile quado vegoo sviluppati molti algoritmi differeti. I problemi statistici ell aalisi di dati ad alta dimesioalità, che abbiamo presetato, hao aperto la strada a molte discussioi ella comuità scietifica riguardo all idividuazioe del miglior approccio per la selezioe delle variabili e del modello. Ifatti il processo di selezioe delle variabili può ridurre i maiera efficiete lo spazio di tutte le possibili variabili, rimuovedo quelle irrilevati, ridodati o che causao dei disturbi al sistema. Più piccolo sarà lo spazio delle variabili, più facile sarà trovare quale sia il modello corretto. Le variabili irrilevati possoo essere elimiate i quato la loro asseza o ha effetti sull appredimeto del sistema, quelle ridodati perché o cotribuiscoo a forire uove iformazioi sul sistema che stiamo studiado, e quelle di disturbo vao elimiate a maggior ragioe i quato producoo degli effetti o voluti sull accuratezza del modello stesso. 5. La selezioe delle variabili e stima del modello. Adremo qui a presetare le teciche di stima delle variabili e di selezioe dei modelli; i metodi di selezioe degli iput possoo essere divisi i tre classi: filtro, wrapper, embedded. Nel metodo filtro la procedura di selezioe degli iput è idipedete dall adattameto del modello di stima fiale. Nella prima fase viee idetificato u sottoisieme delle variabili di iput che dipedoo da alcui valori, e 5

32 solo le più sigificative vegoo prese i cosiderazioe ella fase di modellazioe. Questa secoda fase dove viee impiegato il modello predittivo fiale, utilizza soltato le variabili degli iput selezioati. L approccio filtro è dal puto di vista computazioale facile da implemetare, dal mometo che il processo di selezioe degli iput è veloce e il modello previsioale viee applicato ua sola volta. D altro cato u problema che potrebbe ascere è che il sottoisieme di variabili che viee riteuto ottimale ella prima fase potrebbe o risultare altrettato sigificativo ella secoda. Nell approccio wrapper, i sottoisiemi di variabili di iput vegoo classificati secodo stime della loro capacità di geeralizzazioe del modello; l errore di Crossvalidatio e il Bootsrap soo spesso usati ella valutazioe delle variabili. Il processo di selezioe delle variabili viee supportato da u algoritmo di ricerca geerale che propoe delle combiazioi prometteti. Metodi euristici come la ricerca greedy, la selezioe forward, l elimiazioe backward e la selezioe per gradi soo tra gli algoritmi di ricerca tipici. L efficacia del modello predittivo fiale è direttamete ottimizzata, cosa che risulta vataggiosa rispetto al metodo filtro; tuttavia l approccio wrapper è più costoso dal puto di vista computazioale perché l adattameto del modello, che è potezialmete costoso i termii di tempo, deve essere applicato più volte. Nell approccio embedded, la selezioe degli iput è icorporata come parte del processo di adattameto; ciò risulta molto preciso applicato alla struttura del modello, se cofrotato co l approccio più uiversale del metodo wrapper, dove il modello viee visto come ua scatola era. Alcue teciche di stima defiiscoo u altra categoria più diretta di metodi embedded. L adattameto del modello è stimato i maiera tale che i parametri associati co alcue variabili di iput si aullio durate il processo di valutazioe. La capacità di geeralizzazioe stimata (l errore di previsioe è ua delle misure più usate) viee spesso utilizzata per stabilire la codizioe di arresto per il totale della previsioe ei metodi diretti. L approccio embedded risulta, solitamete, più leggero dal puto di vista computazioale rispetto al metodo wrapper. Adremo quidi a descrivere i metodi statistici relativi a tre classi di selezioe delle variabili co particolare attezioe ai metodi embedded, i cui la stima di regressioe è elemeto di forte iteresse per l appredimeto statistico delle applicazioi attuali. Tutte e tre le classi di selezioe delle caratteristiche possoo 6

33 essere applicate sia ell appredimeto supervisioato che i quello o supervisioato. Nell appredimeto supervisioato, l obbiettivo è quello di predire il valore di ua o più misure di output, Y d, basate su u umero di valori di iput, X; ell appredimeto o supervisioato o ci soo misure di output, e l obbiettivo è quello di descrivere l associazioe e le relazioi che ci soo fra le varie misure di iput. La maggior parte dei metodi di selezioe delle variabili e di stima del modello, partoo da precise assuzioi riguardo alla struttura del problema, ad esempio si presuppoe che il modello che geera i dati (defiito modello reale) appartega alla famiglia dei modelli di regressioe multipla lieare. Normalmete l efasi posta sul modello di selezioe delle variabili dipede dall obbiettivo di aalisi della regressioe. I geerale, è possibile distiguere tra i segueti obbietti: 1) stima dei parametri di regressioe β { β β,..., } ) stima della variaza degli errori σ ; 0, 1 β p = ; 3) stima della deviazioe stadard dei parametri di regressioe stimati; 4) test d ipotesi sui parametri di regressioe; 5) previsioi sulla risposta; 6) determiazioi di evetuali valori outliers; 7) determiazioe sulla botà del modello stimato I metodi filtro. Molti algoritmi di selezioe delle variabili, che vegoo cosiderati metodi di filtro, icludoo la classificazioe delle variabili come meccaismo pricipale o ausiliario, data la possibilità di metterle i ordie di gradezza e cosiderato il buo successo empirico che si ottiee. Molti articoli presetao la classificazioe delle variabili come metodo di riferimeto. La classificazioe o viee usata ecessariamete per costruire degli stimatori. I criteri di classificazioe verrao defiiti per variabili idividuali e idipedetemete dal cotesto delle altre. L ordie delle variabili si basa su u puteggio S(X ) calcolato da X e Y. Per covezioe, si assume che u puteggio alto sia idicativo di ua variabile quatitativa e che le variabili siao i ordie decrescete secodo S(X ). Per utilizzare la classificazioe delle variabili per 7

34 costruire i stimatori, vegoo defiiti dei sottoisiemi idificati che icorporao variabili di rilevaza decrescete. Secodo la classificazioe, il variable rakig è u metodo di filtro: si tratta di ua fase di pre-elaborazioe idipedete dalla scelta di stimatori e dal modello. Comuque, date determiate assuzioi di idipedeza o di ortogoalità, esso può risultare ottimale i riferimeto a u stimatore dato. Ache quado la classificazioe delle variabili o è ottimale, essa può essere preferibile ad altri metodi di selezioe di sottoisiemi di variabili, grazie alla sua scalabilità computazioale. Dal puto di vista computazioale, questo metodo è efficiete i quato richiede solo l elaborazioe di p puteggi e il loro ordiameto; dal puto di vista statistico è robusto cotro l overfittigs perché itroduce u errore ma co ua variabilità miore.(hastie,tibshirai, 001) Itroduciamo ora alcue otazioi addizioali: se la matrice di iput X { x,..., } =,..., 11 x i x p può essere iterpretata come la realizzazioe di u vettore casuale, tratto da ua distribuzioe sottostate scoosciuta, allora deotiamo co X, la variabile radom corrispodete al -esimo compoete di X. Allo stesso modo Y sarà la variabile radom il cui valore risultate y i e è la realizzazioe. Idichiamo ioltre per X il vettore dimesioale coteete tutte le realizzazioi della variabile -esima e co { y } y =,.., il vettore dimesioale che cotiee tutti i valori di target. i 1 y Le misure più comui di classificazioe delle variabili ell appredimeto supervisioato soo il criterio di correlazioe e il criterio di iformazioe. a) Criterio di correlazioe Cosideriamo i primo luogo la previsioe dell esito di ua variabile cotiua Y. Il coefficiete di correlazioe di Pearso è defiito come: cov( X, Y ) ρ ( X, Y ) =, (5.1) var( X ) var( Y ) dove per cov itediamo la covariaza e per var la variaza. La stima del ρ (, Y ) è data da X r( X, Y) = i= 1 i= 1 ( x ( x i i x x )( y ) i i= 1 y) ( y i y), (5.) 8

35 co x e y barrati che soo le medie secodo l idice. Noostate r( X, Y ) è derivato da ρ (, Y ) può essere usato seza assumere X che i valori di iput siao realizzazioi di ua variabile radom. Nella regressioe lieare, il coefficiete di determiazioe, che è il quadrato di r( X, Y ), rappreseta la frazioe tra la variaza totale attoro al valore medio y che è spiegato dalla relazioe lieare tra X e Y. Pertato, utilizzare r ( X, Y) come u criterio di classificazioe variabile impoe ua classifica secodo la botà di adattameto lieare di variabili idividuali. Criteri di correlazioe come r( X, Y ) posso rilevare solo dipedeze lieari tra variabili di iput e di output. U modo semplice di sollevare questa restrizioe è di fare ua stima o lieare dell output co variabili sigole e valutarlo i accordo alla botà della previsioe. A causa del rischio di overfittig, si può cosiderare i alterativa ua pre-elaborazioe o lieare e poi usare u coefficiete di correlazioe semplice. Altre misure i questa categoria soo sostazialmete delle variazioi alla formula di cui sopra. b) Criterio di iformazioe reciproca. Soo stati proposti diversi approcci al problema di selezioe delle variabili utilizzado criteri della teoria dell iformazioe. Molti di essi fao affidameto su stime empiriche dell iformazioe reciproca tra ciascua variabile e il target, che viee calcolata come: p( X, Y ) I( X, Y) = p( X, Y )log dxdy, X Y (5.3) p( X ) p( Y) dove p X ) e p (Y ) soo desità di probabilità di X e Y, metre p( X, Y ) è la ( desità cogiuta. Il criterio I ( X, Y ) è u misura di dipedeza tra la desità della variabile X e la desità dell output Y. La difficoltà è che queste desità soo spesso tutte scoosciute e la loro stima dai dati è molto difficile. 9

36 Nei casi di variabili discrete o omiali, il criterio di iformazioe reciproca è la desità di probabilità stimata dal coteggio delle frequeze empiriche. Il criterio viee calcolato quidi co: I( X p( Χ= X, Y = y), Y ) = P( Χ= X, Y = y)log. (5.4) p( Χ= X ) p( Y y) X Y = Diverse variazioi su questo criterio soo state proposte per adattarsi a diverse esigeze, ma per le ostre ecessità queste due criteri soo sufficieti. 5.. I metodi wrapper A differeza degli approcci filtro, ei metodi wrapper i sottoisiemi delle variabili di iput soo classificati secodo stime delle capacità di geeralizzazioe del modello. La metodologia wrapper offre u semplice e potete approccio al problema di selezioe delle variabili, idipedetemete dal metodo di appredimeto scelto. Nella sua formulazioe più geerale, la metodologia wrapper cosiste ell usare le performace predittive di ua data macchia di appredimeto per valutare l utilità del relativo sottoisieme di variabili. I pratica, si ha bisogo di defiire: 1. come cercare lo spazio di tutti i possibili sottoisiemi di variabili;. come valutare le performace di previsioe della macchia di appredimeto per guidare la ricerca ed iterromperla; 3. che stimatore utilizzare. Ua ricerca esaustiva può, i teoria, essere eseguita se il umero di variabili o è troppo grade. Ma la eumerazioe di tutti i sottospazi da cosiderare fa lievitare la complessità computazioale del problema rededola itrattabile. A questo scopo può essere utilizzata u ampia gamma di strategie e le loro performace soo solitamete valutate utilizzado u validatio set co la crossvalidatio o il bootstrap. Molti algoritmi iformativi soo stati creati per automatizzare il processo di ricerca dei sottoisiemi di variabili rilevati e di modelli buoi i termii di adattameto e accuratezza della previsioe, seza dover usare 30

SUCCESSIONI E SERIE NUMERICHE

SUCCESSIONI E SERIE NUMERICHE SUCCESSIONI E SERIE NUMERICHE. Successioi umeriche a. Defiizioi: successioi aritmetiche e geometriche Cosideriamo ua sequeza di umeri quale ad esempio:,5,8,,4,7,... Tale sequeza è costituita mediate ua

Dettagli

Successioni. Grafico di una successione

Successioni. Grafico di una successione Successioi Ua successioe di umeri reali è semplicemete ua sequeza di ifiiti umeri reali:, 2, 3,...,,... dove co idichiamo il termie geerale della successioe. Ad esempio, discutedo il sigificato fiaziario

Dettagli

CONCETTI BASE DI STATISTICA

CONCETTI BASE DI STATISTICA CONCETTI BASE DI STATISTICA DEFINIZIONI Probabilità U umero reale compreso tra 0 e, associato a u eveto casuale. Esso può essere correlato co la frequeza relativa o col grado di credibilità co cui u eveto

Dettagli

DEFINIZIONE PROCESSO LOGICO E OPERATIVO MEDIANTE IL QUALE, SULLA BASE

DEFINIZIONE PROCESSO LOGICO E OPERATIVO MEDIANTE IL QUALE, SULLA BASE DEFINIZIONE PROCESSO LOGICO E OPERATIVO MEDIANTE IL QUALE, SULLA BASE DI UN GRUPPO DI OSSERVAZIONI O DI ESPERIMENTI, SI PERVIENE A CERTE CONCLUSIONI, LA CUI VALIDITA PER UN COLLETTIVO Più AMPIO E ESPRESSA

Dettagli

EQUAZIONI ALLE RICORRENZE

EQUAZIONI ALLE RICORRENZE Esercizi di Fodameti di Iformatica 1 EQUAZIONI ALLE RICORRENZE 1.1. Metodo di ufoldig 1.1.1. Richiami di teoria Il metodo detto di ufoldig utilizza lo sviluppo dell equazioe alle ricorreze fio ad u certo

Dettagli

Calcolo della risposta di un sistema lineare viscoso a più gradi di libertà con il metodo dell Analisi Modale

Calcolo della risposta di un sistema lineare viscoso a più gradi di libertà con il metodo dell Analisi Modale Calcolo della risposta di u sistema lieare viscoso a più gradi di libertà co il metodo dell Aalisi Modale Lezioe 2/2 Prof. Adolfo Satii - Diamica delle Strutture 1 La risposta a carichi variabili co la

Dettagli

Statistica (Prof. Capitanio) Alcuni esercizi tratti da prove scritte d esame

Statistica (Prof. Capitanio) Alcuni esercizi tratti da prove scritte d esame Statistica (Prof. Capitaio) Alcui esercizi tratti da prove scritte d esame Esercizio 1 Il tempo (i miuti) che Paolo impiega, i auto, per arrivare i ufficio, può essere modellato co ua variabile casuale

Dettagli

Strumenti di indagine per la valutazione psicologica

Strumenti di indagine per la valutazione psicologica Strumeti di idagie per la valutazioe psicologica 1.2 - Richiami di statistica descrittiva Davide Massidda davide.massidda@gmail.com Descrivere i dati Dovedo scegliere u esame opzioale, uo studete ha itezioe

Dettagli

Analisi statistica dell Output

Analisi statistica dell Output Aalisi statistica dell Output IL Simulatore è u adeguata rappresetazioe della Realtà! E adesso? Come va iterpretato l Output? Quado le Osservazioi soo sigificative? Quati Ru del Simulatore è corretto effettuare?

Dettagli

V Tutorato 6 Novembre 2014

V Tutorato 6 Novembre 2014 1. Data la successioe V Tutorato 6 Novembre 01 determiare il lim b. Data la successioe b = a = + 1 + 1 8 6 + 1 80 + 18 se 0 se < 0 scrivere i termii a 0, a 1, a, a 0 e determiare lim a. Data la successioe

Dettagli

LA VERIFICA DELLE IPOTESI SUI PARAMETRI

LA VERIFICA DELLE IPOTESI SUI PARAMETRI LA VERIFICA DELLE IPOTESI SUI PARAMETRI E u problema di ifereza per molti aspetti collegato a quello della stima. Rispode ad u esigeza di carattere pratico che spesso si preseta i molti campi dell attività

Dettagli

IMPLICAZIONE TRA VARIABILI BINARIE: L Implicazione di Gras

IMPLICAZIONE TRA VARIABILI BINARIE: L Implicazione di Gras IMPLICAZIONE TRA VARIABILI BINARIE: L Implicazioe di Gras Date due variabili biarie a e b, i quale misura posso assicurare che i ua popolazioe da ogi osservazioe di a segue ecessariamete quella di b? E

Dettagli

Elementi di matematica finanziaria

Elementi di matematica finanziaria Elemeti di matematica fiaziaria 18.X.2005 La matematica fiaziaria e l estimo Nell ambito di umerosi procedimeti di stima si rede ecessario operare co valori che presetao scadeze temporali differeziate

Dettagli

Metodi statistici per l analisi dei dati

Metodi statistici per l analisi dei dati Metodi statistici per l aalisi dei dati due ttameti Motivazioi ttameti Obbiettivo: Cofrotare due diverse codizioi (ache defiiti ttameti) per cui soo stati codotti gli esperimeti. due ttameti Esempio itroduttivo

Dettagli

1 Limiti di successioni

1 Limiti di successioni Esercitazioi di matematica Corso di Istituzioi di Matematica B Facoltà di Architettura Ao Accademico 005/006 Aa Scaramuzza 4 Novembre 005 Limiti di successioi Esercizio.. Servedosi della defiizioe di ite

Dettagli

IL CALCOLO COMBINATORIO

IL CALCOLO COMBINATORIO IL CALCOLO COMBINATORIO Calcolo combiatorio è il termie che deota tradizioalmete la braca della matematica che studia i modi per raggruppare e/o ordiare secodo date regole gli elemeti di u isieme fiito

Dettagli

LA GESTIONE DELLA QUALITA : IL TOTAL QUALITY MANAGEMENT

LA GESTIONE DELLA QUALITA : IL TOTAL QUALITY MANAGEMENT LA GESTIONE DELLA QUALITA : IL TOTAL QUALITY MANAGEMENT La gestioe, il cotrollo ed il migliorameto della qualità di u prodotto/servizio soo temi di grade iteresse per l azieda. Il problema della qualità

Dettagli

Sistemi e Tecnologie della Comunicazione

Sistemi e Tecnologie della Comunicazione Sistemi e ecologie della Comuicazioe Lezioe 4: strato fisico: caratterizzazioe del segale i frequeza Lo strato fisico Le pricipali fuzioi dello strato fisico soo defiizioe delle iterfacce meccaiche (specifiche

Dettagli

Metodi statistici per l'analisi dei dati

Metodi statistici per l'analisi dei dati Metodi statistici per l aalisi dei dati due Motivazioi Obbiettivo: Cofrotare due diverse codizioi (ache defiiti ) per cui soo stati codotti gli esperimeti. Metodi tatistici per l Aalisi dei Dati due Esempio

Dettagli

8. Quale pesa di più?

8. Quale pesa di più? 8. Quale pesa di più? Negli ultimi ai hao suscitato particolare iteresse alcui problemi sulla pesatura di moete o di pallie. Il primo problema di questo tipo sembra proposto da Tartaglia el 1556. Da allora

Dettagli

ICT e Sistemi informativi Aziendali. ICT e Sistemi informativi Aziendali. Sommario. Materiale di supporto alla didattica

ICT e Sistemi informativi Aziendali. ICT e Sistemi informativi Aziendali. Sommario. Materiale di supporto alla didattica ICT e Sistemi iformativi Aziedali Materiale di supporto alla didattica ICT e Sistemi iformativi Aziedali CAPITOLO IV base e warehouse Sommario Modelli dei dati Modello relazioale DBMS La progettazioe di

Dettagli

Il test parametrico si costruisce in tre passi:

Il test parametrico si costruisce in tre passi: R. Lombardo I. Cammiatiello Dipartimeto di Ecoomia Secoda Uiversità degli studi Napoli Facoltà di Ecoomia Ifereza Statistica La Verifica delle Ipotesi Obiettivo Verifica (test) di u ipotesi statistica

Dettagli

Approfondimenti di statistica e geostatistica

Approfondimenti di statistica e geostatistica Approfodimeti di statistica e geostatistica APAT Agezia per la Protezioe dell Ambiete e per i Servizi Tecici Cos è la geostatistica? Applicazioe dell aalisi di Rischio ai siti Cotamiati Geostatistica La

Dettagli

Statistica 1 A.A. 2015/2016

Statistica 1 A.A. 2015/2016 Corso di Laurea i Ecoomia e Fiaza Statistica 1 A.A. 2015/2016 (8 CFU, corrispodeti a 48 ore di lezioe frotale e 24 ore di esercitazioe) Prof. Luigi Augugliaro 1 / 19 Iterdipedeza lieare fra variabili quatitative

Dettagli

Appunti sulla MATEMATICA FINANZIARIA

Appunti sulla MATEMATICA FINANZIARIA INTRODUZIONE Apputi sulla ATEATIA FINANZIARIA La matematica fiaziaria si occupa delle operazioi fiaziarie. Per operazioe fiaziaria si itede quella operazioe ella quale avviee uo scambio di capitali, itesi

Dettagli

Sintassi dello studio di funzione

Sintassi dello studio di funzione Sitassi dello studio di fuzioe Lavoriamo a perfezioare quato sapete siora. D ora iazi pretederò che i risultati che otteete li SCRIVIATE i forma corretta dal puto di vista grammaticale. N( x) Data la fuzioe:

Dettagli

Anno 5 Successioni numeriche

Anno 5 Successioni numeriche Ao 5 Successioi umeriche Itroduzioe I questa lezioe impareremo a descrivere e calcolare il limite di ua successioe. Ma cos è ua successioe? Come si calcola il suo limite? Al termie di questa lezioe sarai

Dettagli

Corso di Laurea Magistrale in Ingegneria Informatica A.A. 2014/15. Complementi di Probabilità e Statistica. Prova scritta del del 23-02-15

Corso di Laurea Magistrale in Ingegneria Informatica A.A. 2014/15. Complementi di Probabilità e Statistica. Prova scritta del del 23-02-15 Corso di Laurea Magistrale i Igegeria Iformatica A.A. 014/15 Complemeti di Probabilità e Statistica Prova scritta del del 3-0-15 Puteggi: 1. 3+3+4;. +3 ; 3. 1.5 5 ; 4. 1 + 1 + 1 + 1 + 3.5. Totale = 30.

Dettagli

52. Se in una città ci fosse un medico ogni 500 abitanti, quale sarebbe la percentuale di medici? A) 5 % B) 2 % C) 0,2 % D) 0,5% E) 0,02%

52. Se in una città ci fosse un medico ogni 500 abitanti, quale sarebbe la percentuale di medici? A) 5 % B) 2 % C) 0,2 % D) 0,5% E) 0,02% RISPOSTE MOTIVATE QUIZ D AMMISSIONE 2000-2001 MATEMATICA 51. L espressioe log( 2 ) equivale a : A) 2log B) log2 C) 2log D) log E) log 2 Dati 2 umeri positivi a e b (co a 1), si defiisce logaritmo i base

Dettagli

SUCCESSIONI NUMERICHE

SUCCESSIONI NUMERICHE SUCCESSIONI NUMERICHE Ua fuzioe reale di ua variabile reale f di domiio A è ua legge che ad ogi x A associa u umero reale che deotiamo co f(x). Se A = N, la f è detta successioe di umeri reali. Se co si

Dettagli

PARTE QUARTA Teoria algebrica dei numeri

PARTE QUARTA Teoria algebrica dei numeri Prerequisiti: Aelli Spazi vettoriali Sia A u aello commutativo uitario PARTE QUARTA Teoria algebrica dei umeri Lezioe 7 Cei sui moduli Defiizioe 7 Si dice modulo (siistro) su A (o semplicemete, A-modulo)

Dettagli

Corso di laurea in Matematica Corso di Analisi Matematica 1-2 Dott.ssa Sandra Lucente 1 Funzioni potenza ed esponenziale.

Corso di laurea in Matematica Corso di Analisi Matematica 1-2 Dott.ssa Sandra Lucente 1 Funzioni potenza ed esponenziale. Corso di laurea i Matematica Corso di Aalisi Matematica -2 Dott.ssa Sadra Lucete Fuzioi poteza ed espoeziale. Teorema. Teorema di esisteza della radice -esima. Sia N. Per ogi a R + esiste uo ed u solo

Dettagli

LE MISURE DI VARIABILITÀ DI CARATTERI QUANTITATIVI

LE MISURE DI VARIABILITÀ DI CARATTERI QUANTITATIVI Apputi di Statistica Sociale Uiversità ore di Ea LE MISURE DI VARIABILITÀ DI CARATTERI QUATITATIVI La variabilità di u isieme di osservazioi attiee all attitudie delle variabili studiate ad assumere modalità

Dettagli

ANALISI MATEMATICA 1 Area dell Ingegneria dell Informazione. Appello del 5.02.2013 TEMA 1. f(x) = arcsin 1 2 log 2 x.

ANALISI MATEMATICA 1 Area dell Ingegneria dell Informazione. Appello del 5.02.2013 TEMA 1. f(x) = arcsin 1 2 log 2 x. ANALISI MATEMATICA Area dell Igegeria dell Iformazioe Appello del 5.0.0 TEMA Esercizio Si cosideri la fuzioe f(x = arcsi log x. Determiare il domiio di f e discutere il sego. Discutere brevemete la cotiuità

Dettagli

Numerazione binaria Pagina 2 di 9 easy matematica di Adolfo Scimone

Numerazione binaria Pagina 2 di 9 easy matematica di Adolfo Scimone Numerazioe biaria Pagia di 9 easy matematica di Adolfo Scimoe SISTEMI DI NUMERAZIONE Sistemi di umerazioe a base fissa Facciamo ormalmete riferimeto a sistemi di umerazioe a base fissa, ad esempio el sistema

Dettagli

Interesse e formule relative.

Interesse e formule relative. Elisa Battistoi, Adrea Frozetti Collado Iteresse e formule relative Esercizio Determiare quale somma sarà dispoibile fra 7 ai ivestedo oggi 0000 ad u tasso auale semplice del 5% Soluzioe Il diagramma del

Dettagli

STATISTICA INFERENZIALE SCHEDA N. 2 INTERVALLI DI CONFIDENZA PER IL VALORE ATTESO E LA FREQUENZA

STATISTICA INFERENZIALE SCHEDA N. 2 INTERVALLI DI CONFIDENZA PER IL VALORE ATTESO E LA FREQUENZA Matematica e statistica: dai dati ai modelli alle scelte www.dima.uige/pls_statistica Resposabili scietifici M.P. Rogati e E. Sasso (Dipartimeto di Matematica Uiversità di Geova) STATISTICA INFERENZIALE

Dettagli

19 31 43 55 67 79 91 103 870,5 882,5 894,5 906,5 918,5 930,5 942,5 954,5

19 31 43 55 67 79 91 103 870,5 882,5 894,5 906,5 918,5 930,5 942,5 954,5 Il 16 dicembre 015 ero a Napoli. Ad u agolo di Piazza Date mi soo imbattuto el "matematico di strada", come egli si defiisce, Giuseppe Poloe immerso el suo armametario di tabelle di umeri. Il geiale persoaggio

Dettagli

SISTEMA D'IMPRESA GESTIONE GESTIONE SISTEMA DELLE OPERAZIONI SIMULTANEE E SUCCESSIVE SI DISPIEGANO DINAMICAMENTE

SISTEMA D'IMPRESA GESTIONE GESTIONE SISTEMA DELLE OPERAZIONI SIMULTANEE E SUCCESSIVE SI DISPIEGANO DINAMICAMENTE SISTEMA D'IMPRESA ORGAIZZAZIOE GESTIOE 1 GESTIOE SISTEMA DELLE OPERAZIOI SIMULTAEE E SUCCESSIVE SI DISPIEGAO DIAMICAMETE PER IL RAGGIUGIMETO DEI FII DELL IMPRESA 2 ORGAIZZAZIOE I SESO AMPIO LA RIUIOE DI

Dettagli

Random walk classico. Simulazione di un random walk

Random walk classico. Simulazione di un random walk Radom walk classico Il radom walk classico) è il processo stocastico defiito da co prob. S S0 X k, co X k k co prob. e le X soo tra di loro idipedeti. k Si tratta di u processo a icremeti idipedeti e ideticamete

Dettagli

SUCCESSIONI e LIMITI DI SUCCESSIONI. c Paola Gervasio - Analisi Matematica 1 - A.A. 15/16 Successioni cap3b.pdf 1

SUCCESSIONI e LIMITI DI SUCCESSIONI. c Paola Gervasio - Analisi Matematica 1 - A.A. 15/16 Successioni cap3b.pdf 1 SUCCESSIONI e LIMITI DI SUCCESSIONI c Paola Gervasio - Aalisi Matematica 1 - A.A. 15/16 Successioi cap3b.pdf 1 Successioi Def. Ua successioe è ua fuzioe reale (Y = R) a variabile aturale, ovvero X = N:

Dettagli

Selezione avversa e razionamento del credito

Selezione avversa e razionamento del credito Selezioe avversa e razioameto del credito Massimo A. De Fracesco Dipartimeto di Ecoomia politica e statistica, Uiversità di Siea May 3, 013 1 Itroduzioe I questa lezioe presetiamo u semplice modello del

Dettagli

Serie numeriche: esercizi svolti

Serie numeriche: esercizi svolti Serie umeriche: esercizi svolti Gli esercizi cotrassegati co il simbolo * presetao u grado di difficoltà maggiore. Esercizio. Dopo aver verificato la covergeza, calcolare la somma delle segueti serie:

Dettagli

Random walk classico. Simulazione di un random walk

Random walk classico. Simulazione di un random walk Radom walk classico Il radom walk classico) è il processo stocastico defiito da co prob. S = S0 X k, co X k = k= co prob. e le X soo tra di loro idipedeti. k Si tratta di u processo a icremeti idipedeti

Dettagli

Rendita perpetua con rate crescenti in progressione aritmetica

Rendita perpetua con rate crescenti in progressione aritmetica edita perpetua co rate cresceti i progressioe aritmetica iprediamo l'esempio visto ella scorsa lezioe di redita perpetua co rate cresceti i progressioe arimetica: Questa redita può ache essere vista come

Dettagli

Principi base di Ingegneria della Sicurezza

Principi base di Ingegneria della Sicurezza Pricipi base di Igegeria della Sicurezza L aalisi delle codizioi di Affidabilità del sistema si articola i: (i) idetificazioe degli sceari icidetali di riferimeto (Eveti critici Iiziatori - EI) per il

Dettagli

Campi vettoriali conservativi e solenoidali

Campi vettoriali conservativi e solenoidali Campi vettoriali coservativi e soleoidali Sia (x,y,z) u campo vettoriale defiito i ua regioe di spazio Ω, e sia u cammio, di estremi A e B, defiito i Ω. Sia r (u) ua parametrizzazioe di, fuzioe della variabile

Dettagli

DISTRIBUZIONI DOPPIE

DISTRIBUZIONI DOPPIE DISTRIBUZIONI DOPPIE Fio ad ora abbiamo visto teciche di aalisi dei dati per il solo caso i cui ci si occupi di u solo carattere rilevato su u collettivo (distribuzioi semplici). I termii formali fio ad

Dettagli

Esercizi riguardanti limiti di successioni

Esercizi riguardanti limiti di successioni Esercizi riguardati iti di successioi Davide Boscaii Queste soo le ote da cui ho tratto le esercitazioi del gioro 27 Ottobre 20. Come tali soo be lugi dall essere eseti da errori, ivito quidi chi e trovasse

Dettagli

Soluzione La media aritmetica dei due numeri positivi a e b è data da M

Soluzione La media aritmetica dei due numeri positivi a e b è data da M Matematica per la uova maturità scietifica A. Berardo M. Pedoe 6 Questioario Quesito Se a e b soo umeri positivi assegati quale è la loro media aritmetica? Quale la media geometrica? Quale delle due è

Dettagli

Le carte di controllo

Le carte di controllo Le carte di cotrollo Dott.ssa Bruella Caroleo 07 dicembre 007 Variabilità ei processi produttivi Le caratteristiche di qualsiasi processo produttivo soo caratterizzate da variabilità Le cause di variabilità

Dettagli

Una funzione è una relazione che ad ogni elemento del dominio associa uno e un solo elemento del codominio

Una funzione è una relazione che ad ogni elemento del dominio associa uno e un solo elemento del codominio Radicali Per itrodurre il cocetto di radicali che già avete icotrato alle medie quado avete imparato a calcolare la radice quadrata e cubica dei umeri iteri, abbiamo bisogo di rivedere il cocetto di uzioe

Dettagli

Le onde elettromagnetiche. Origine e natura, spettro delle onde e.m., la polarizzazione

Le onde elettromagnetiche. Origine e natura, spettro delle onde e.m., la polarizzazione Le ode elettromagetiche Origie e atura, spettro delle ode e.m., la polarizzazioe Origie e atura delle ode elettromagetiche: Ua carica elettrica che oscilla geera u campo elettrico E che oscilla e a questo

Dettagli

5 ln n + ln. 4 ln n + ln. 6 ln n + ln

5 ln n + ln. 4 ln n + ln. 6 ln n + ln DOMINIO FUNZIONE Determiare il domiio della fuzioe f = l e e + e + e Deve essere e e + e + e >, posto e = t si ha t e + t + e = per t = e e per t = / Il campo di esisteza è:, l, + Determiare il domiio

Dettagli

Terzo appello del. primo modulo. di ANALISI 18.07.2006

Terzo appello del. primo modulo. di ANALISI 18.07.2006 Terzo appello del primo modulo di ANALISI 18.7.26 1. Si voglioo ifilare su u filo delle perle distiguibili tra loro solo i base alla dimesioe: si hao a disposizioe perle gradi di diametro di 2 cetimetri

Dettagli

Campionamento stratificato. Esempio

Campionamento stratificato. Esempio ez. 3 8/0/05 Metodi Statiici per il Marketig - F. Bartolucci Uiversità di Urbio Campioameto ratificato Ua tecica molto diffusa per sfruttare l iformazioe coteuta i ua variabile ausiliaria (o evetualmete

Dettagli

Esercitazioni di Statistica

Esercitazioni di Statistica Esercitazioi di Statistica Il modello di Regressioe Prof. Livia De Giovai statistica@dis.uiroma.it Esercizio Solitamete è accertato che aumetado il umero di uità prodotte, u idustria possa ridurre i costi

Dettagli

Capitolo 27. Elementi di calcolo finanziario EEE 2015-2016

Capitolo 27. Elementi di calcolo finanziario EEE 2015-2016 Capitolo 27 Elemeti di calcolo fiaziario EEE 205-206 27. Le diverse forme dell iteresse Si defiisce capitale (C) uo stock di moeta dispoibile i u determiato mometo. Si defiisce iteresse (I) il prezzo d

Dettagli

LA DERIVATA DI UNA FUNZIONE

LA DERIVATA DI UNA FUNZIONE LA DERIVATA DI UNA FUNZIONE OBIETTIVO: Defiire lo strumeto matematico ce cosete di studiare la cresceza e la decresceza di ua fuzioe Si comicia col defiire cosa vuol dire ce ua fuzioe è crescete. Defiizioe:

Dettagli

Statistica I, Laurea triennale in Ing. Gestionale, a.a. 2011/12 Registro delle lezioni

Statistica I, Laurea triennale in Ing. Gestionale, a.a. 2011/12 Registro delle lezioni Statistica I, Laurea trieale i Ig. Gestioale, a.a. 2011/12 Registro delle lezioi Lezioe 1 (28/9, ore 11:30). Vedere la registrazioe di Barsati, dispoibile alla pagia http://users.dma.uipi.it/barsati/statistica_2011/idex.html.

Dettagli

La matematica finanziaria

La matematica finanziaria La matematica fiaziaria La matematica fiaziaria forisce gli strumeti ecessari per cofrotare fatti fiaziari che avvegoo i mometi diversi Esempio: Come posso cofrotare i ricavi e i costi legati all acquisto

Dettagli

Matematica II: Calcolo delle Probabilità e Statistica Matematica

Matematica II: Calcolo delle Probabilità e Statistica Matematica Matematica II: Calcolo delle Probabilità e Statistica Matematica ELT A-Z Docete: dott. F. Zucca Esercitazioe # 4 1 Distribuzioe Espoeziale Esercizio 1 Suppoiamo che la durata della vita di ogi membro di

Dettagli

SERIE NUMERICHE Con l introduzione delle serie vogliamo estendere l operazione algebrica di somma ad un numero infinito di addendi.

SERIE NUMERICHE Con l introduzione delle serie vogliamo estendere l operazione algebrica di somma ad un numero infinito di addendi. Serie SERIE NUMERICHE Co l itroduzioe delle serie vogliamo estedere l operazioe algebrica di somma ad u umero ifiito di addedi. Def. Data la successioe {a }, defiiamo la successioe {s } poedo s = a k.

Dettagli

Corsi di Laurea in Ingegneria Edile e Architettura Prova scritta di Analisi Matematica 1 del 6/02/2010. sin( x) log((1 + x 2 ) 1/2 ) = 1 3.

Corsi di Laurea in Ingegneria Edile e Architettura Prova scritta di Analisi Matematica 1 del 6/02/2010. sin( x) log((1 + x 2 ) 1/2 ) = 1 3. Corsi di Laurea i Igegeria Edile e Architettura Prova scritta di Aalisi Matematica del 6// ) Mostrare che + si( ) cos () si( ) log(( + ) / ) = 3. Possibile soluzioe: Cosiderado dapprima il deomiatore otiamo

Dettagli

CARATTERISTICHE MECCANICHE DI PIETRE NATURALI PER FACCIATE VENTILATE. Di seguito verranno utilizzati i seguenti simboli:

CARATTERISTICHE MECCANICHE DI PIETRE NATURALI PER FACCIATE VENTILATE. Di seguito verranno utilizzati i seguenti simboli: PROPOSTA DI UN PROTOCOLLO DI PROVE PER IL CONTROLLO DELLE CARATTERISTICHE MECCANICHE DI PIETRE NATURALI PER FACCIATE VENTILATE FINALITÀ Nel campo edile l utilizzo di rivestimeti esteri da riportare sulle

Dettagli

I appello - 29 Giugno 2007

I appello - 29 Giugno 2007 Facoltà di Igegeria - Corso di Laurea i Ig. Iformatica e delle Telecom. A.A.6/7 I appello - 9 Giugo 7 ) Studiare la covergeza putuale e uiforme della seguete successioe di fuzioi: [ ( )] f (x) = cos (

Dettagli

STATISTICA 1 parte 2/2 STATISTICA INFERENZIALE

STATISTICA 1 parte 2/2 STATISTICA INFERENZIALE STATISTICA parte / U test statistico è ua regola di decisioe Effettuare u test statistico sigifica verificare IPOTESI sui parametri. STATISTICA INFERENZIALE STIMA PUNTUALE STIMA PER INTERVALLI TEST PARAMETRICI

Dettagli

CAPITOLO 5 TEORIA DELLA SIMILITUDINE

CAPITOLO 5 TEORIA DELLA SIMILITUDINE CAPITOLO 5 TEORIA DELLA SIMILITUDINE 5.. Itroduzioe La Teoria della Similitudie ha pricipalmete due utilizzi: Estedere i risultati otteuti testado ua sigola macchia ad altre codizioi operative o a ua famiglia

Dettagli

ESERCIZI DI STATISTICA DESCRITTIVA ALCUNI TRATTI DA PROVE D ESAME DA REALIZZARE ANCHE CON L AUSILIO DI UN FOGLIO DI CALCOLO. Angela Donatiello 1

ESERCIZI DI STATISTICA DESCRITTIVA ALCUNI TRATTI DA PROVE D ESAME DA REALIZZARE ANCHE CON L AUSILIO DI UN FOGLIO DI CALCOLO. Angela Donatiello 1 ESERCIZI DI STATISTICA DESCRITTIVA ALCUNI TRATTI DA PROVE D ESAME DA REALIZZARE ANCHE CON L AUSILIO DI UN FOGLIO DI CALCOLO Agela Doatiello 1 Esercizio. E stato tabulato il peso di ua certa popolazioe

Dettagli

Complessità Computazionale

Complessità Computazionale Uiversità degli studi di Messia Facoltà di Igegeria Corso di Laurea i Igegeria Iformatica e delle Telecomuicazioi Fodameti di Iformatica II Prof. D. Brueo Complessità Computazioale La Nozioe di Algoritmo

Dettagli

Un problema! La letteratura riporta che i pazienti affetti da cancro. = mesi

Un problema! La letteratura riporta che i pazienti affetti da cancro. = mesi CONFRONTO TRA DUE MEDIE U problema! La letteratura riporta che i pazieti affetti da cacro hao ua sopravviveza media di 38.3 mesi e deviazioe stadard di 43.3 mesi: µ 38.3mesi σ 43.3mesi (la distribuzioe

Dettagli

Università degli Studi di Bergamo - Corsi di laurea in Ingegneria Edile e Tessile Indici di posizione e variabilità Esercitazione 2

Università degli Studi di Bergamo - Corsi di laurea in Ingegneria Edile e Tessile Indici di posizione e variabilità Esercitazione 2 Uiversità degli Studi di Bergamo - Corsi di laurea i Igegeria Edile e Tessile Idici di posizioe e variabilità Esercitazioe 2 1. Nella seguete tabella si riporta la distribuzioe di frequeza del cosumo i

Dettagli

Statistica di base. Luca Mari, versione 31.12.13

Statistica di base. Luca Mari, versione 31.12.13 Statistica di base Luca Mari, versioe 31.12.13 Coteuti Moda...1 Distribuzioi cumulate...2 Mediaa, quartili, percetili...3 Sigificatività empirica degli idici ordiali...3 Media...4 Acora sulla media...4

Dettagli

Tecnica delle misurazioni applicate Esame del 4 dicembre 2007

Tecnica delle misurazioni applicate Esame del 4 dicembre 2007 Tecica delle misurazioi applicate Esame del 4 dicembre 7 Problema 1. Il propulsore Mod. WEC viee prodotto da ACME Ic. mediate u processo automatizzato: dati storici cofermao che la lavorazioe di ogi elemeto

Dettagli

Teorema 13. Se una sere converge assolutamente, allora converge:

Teorema 13. Se una sere converge assolutamente, allora converge: Apputi sul corso di Aalisi Matematica complemeti (a) - prof. B.Bacchelli Apputi 03: Riferimeti: R.Adams, Calcolo Differeziale.- Si cosiglia vivamete di fare gli esercizi del testo. Covergeza assoluta e

Dettagli

Successioni ricorsive di numeri

Successioni ricorsive di numeri Successioi ricorsive di umeri Getile Alessadro Laboratorio di matematica discreta A.A. 6/7 I queste pagie si voglioo predere i esame alcue tra le più famose successioi ricorsive, presetadoe alcue caratteristiche..

Dettagli

Analisi Fattoriale Discriminante

Analisi Fattoriale Discriminante Aalisi Fattoriale Discrimiate Bibliografia Lucidi (materiale reperibile via Iteret) Lauro C.N. Uiversità di Napoli Gherghi M. Uiversità di Napoli D Ambra L. Uiversità di Napoli Keeth M. Portier Uiversity

Dettagli

DIPENDENZA O CONNESSIONE. Ovvero quando la conoscenza della modalità di X presente su un unità è informativa della presenza della modalità di Y.

DIPENDENZA O CONNESSIONE. Ovvero quando la conoscenza della modalità di X presente su un unità è informativa della presenza della modalità di Y. DIPENDENZA O CONNESSIONE Due caratteri X e Y cogiutamete cosiderati si dicoo tra loro coessi quado le modalità di u carattere ifluezao il maifestarsi delle modalità dell altro. Ovvero quado la coosceza

Dettagli

Formula per la determinazione della Successione generalizzata di Fibonacci.

Formula per la determinazione della Successione generalizzata di Fibonacci. Formula per la determiazioe della uccessioe geeralizzata di Fiboacci. A cura di Eugeio Amitrao Coteuto dell articolo:. Itroduzioe......... uccessioe di Fiboacci....... 3. Formula di Biet per la successioe

Dettagli

ESERCIZI SULLE SERIE

ESERCIZI SULLE SERIE ESERCIZI SULLE SERIE Studiare la atura delle segueti serie. ) cos 4 + ; ) + si ; ) + ()! 4) ( ) 5) ( ) + + 6) ( ) + + + 7) ( log ) 8) ( ) + 9) log! 0)! Studiare al variare di x i R la atura delle segueti

Dettagli

Il confronto tra DUE campioni indipendenti

Il confronto tra DUE campioni indipendenti Il cofroto tra DUE camioi idiedeti Il cofroto tra DUE camioi idiedeti Cofroto tra due medie I questi casi siamo iteressati a cofrotare il valore medio di due camioi i cui i le osservazioi i u camioe soo

Dettagli

Foglio di esercizi N. 1 - Soluzioni

Foglio di esercizi N. 1 - Soluzioni Foglio di esercizi N. - Soluzioi. Determiare il domiio della fuzioe f) = log 3 + log 3 3)). Deve essere + log 3 3) > 0, ovvero log 3 3) >, ovvero prededo l espoeziale i base 3 di etrambi i membri) 3 >

Dettagli

SUCCESSIONI NUMERICHE

SUCCESSIONI NUMERICHE SUCCESSIONI NUMERICHE LORENZO BRASCO. Teoremi di Cesaro Teorema di Stolz-Cesaro. Siao {a } N e {b } N due successioi umeriche, co {b } N strettamete positiva, strettamete crescete e ilitata. Se esiste

Dettagli

Economia Internazionale - Soluzioni alla IV Esercitazione

Economia Internazionale - Soluzioni alla IV Esercitazione Ecoomia Iterazioale - Soluzioi alla IV Esercitazioe 25/03/5 Esercizio a) Cosa soo le ecoomie di scala? Come cambia la curva di oerta i preseza di ecoomie di scala? Perchè queste oroo u icetivo al commercio

Dettagli

ARGOMENTI Scopi e caratteristiche dello strumento Tipologie di mutui Il mercato secondario e il ruolo svolto nella crisi finanziaria

ARGOMENTI Scopi e caratteristiche dello strumento Tipologie di mutui Il mercato secondario e il ruolo svolto nella crisi finanziaria MERCATO DEI MUTUI A.A. 2015/2016 Prof. Alberto Dreassi adreassi@uits.it DEAMS Uiversità di Trieste ARGOMENTI Scopi e caratteristiche dello strumeto Tipologie di mutui Il mercato secodario e il ruolo svolto

Dettagli

Capitolo Terzo. rappresenta la rata di ammortamento del debito di un capitale unitario. Si tratta di risolvere un equazione lineare nell incognita R.

Capitolo Terzo. rappresenta la rata di ammortamento del debito di un capitale unitario. Si tratta di risolvere un equazione lineare nell incognita R. 70 Capitolo Terzo i cui α i rappreseta la rata di ammortameto del debito di u capitale uitario. Si tratta di risolvere u equazioe lieare ell icogita R. SIANO NOTI IL MONTANTE IL TASSO E IL NUMERO DELLE

Dettagli

Limiti di successioni

Limiti di successioni Argometo 3s Limiti di successioi Ua successioe {a : N} è ua fuzioe defiita sull isieme N deiumeriaturaliavalori reali: essa verrà el seguito idicata più brevemeteco{a } a èdettotermie geerale della successioe

Dettagli

Risposte. f v = φ dove φ(x,y) = e x2. f(x) = e x2 /2. +const. Soluzione. (i) Scriviamo v = (u,w). Se f(x) è la funzione richiesta, si deve avere

Risposte. f v = φ dove φ(x,y) = e x2. f(x) = e x2 /2. +const. Soluzione. (i) Scriviamo v = (u,w). Se f(x) è la funzione richiesta, si deve avere Eserciio 1 7 puti. Dato il campo vettoriale v, + 1,, i si determii ua fuioe f > i modo tale che il campo vettoriale f v sia irrotaioale, cioè abbia le derivate icrociate uguali; ii si spieghi se i risultati

Dettagli

ESEMPIO 1. Immaginiamo come si distribuirebbero le stime campionarie se l operazione di campionamento venisse ripetuta più volte.

ESEMPIO 1. Immaginiamo come si distribuirebbero le stime campionarie se l operazione di campionamento venisse ripetuta più volte. ESEMPIO Prima dell esplosioe di ua cetrale ucleare, i terrei di ua certa regioe avevao ua produzioe media di grao pari a 00 quitali co uo scarto di 5. Dopo la catastrofe si selezioao 00 uità di superficie

Dettagli

che sono una l inversa dell altra; l insieme dei messaggi cifrati C i cui elementi sono indicati con la lettera c.

che sono una l inversa dell altra; l insieme dei messaggi cifrati C i cui elementi sono indicati con la lettera c. I LEZIONE Il ostro iteto è aalizzare i dettaglio i metodi di cifratura che si soo susseguiti el corso della storia prestado particolare attezioe all impiato matematico che e cosete la realizzazioe Iiziamo

Dettagli

Tutti i diritti di sfruttamento economico dell opera appartengono alla Esselibri S.p.A. (art. 64, D.Lgs. 10-2-2005, n. 30)

Tutti i diritti di sfruttamento economico dell opera appartengono alla Esselibri S.p.A. (art. 64, D.Lgs. 10-2-2005, n. 30) Copyright 2005 Esselibri S.p.A. Via F. Russo, 33/D 8023 Napoli Azieda co sistema qualità certificato ISO 400: 2003 Tutti i diritti riservati. È vietata la riproduzioe ache parziale e co qualsiasi mezzo

Dettagli

I numeri complessi. Pagine tratte da Elementi della teoria delle funzioni olomorfe di una variabile complessa

I numeri complessi. Pagine tratte da Elementi della teoria delle funzioni olomorfe di una variabile complessa I umeri complessi Pagie tratte da Elemeti della teoria delle fuzioi olomorfe di ua variabile complessa di G. Vergara Caffarelli, P. Loreti, L. Giacomelli Dipartimeto di Metodi e Modelli Matematici per

Dettagli

Corso di Laurea in Ing. Edile Politecnico di Bari A.A. 2008-2009 Prof. ssa Letizia Brunetti DISPENSE DEL CORSO DI GEOMETRIA

Corso di Laurea in Ing. Edile Politecnico di Bari A.A. 2008-2009 Prof. ssa Letizia Brunetti DISPENSE DEL CORSO DI GEOMETRIA Corso di Laurea i Ig Edile Politecico di Bari AA 2008-2009 Prof ssa Letizia Bruetti DISPENSE DEL CORSO DI GEOMETRIA 2 Idice Spazi vettoriali Cei sulle strutture algebriche 4 2 Defiizioe di spazio vettoriale

Dettagli

II-9 Successioni e serie

II-9 Successioni e serie SUCCESSIONI II-9 Successioi e serie Idice Successioi. Limite di ua successioe........................................... Serie 3. La serie armoica................................................ 6. La

Dettagli

SERIE NUMERICHE Esercizi risolti. 2 b) n=1. n n 2 +n

SERIE NUMERICHE Esercizi risolti. 2 b) n=1. n n 2 +n SERIE NUMERICHE Esercizi risolti. Applicado la defiizioe di covergeza di ua serie stabilire il carattere delle segueti serie, e, i caso di covergeza, trovare la somma: = + b) = + +. Verificare utilizzado

Dettagli

Capitolo 3 CARATTERIZZAZIONE MECCANICA DELLE FIBRE

Capitolo 3 CARATTERIZZAZIONE MECCANICA DELLE FIBRE Capitoo 3 CARATTERIZZAZIONE MECCANICA DELLE FIBRE 3.1 LA TEORIA DI WEIBULL I comportameto meccaico dee fibre di giestra e di juta è stato caratterizzato mediate o studio dea resisteza a trazioe dee fibre

Dettagli

3.4 Tecniche per valutare uno stimatore

3.4 Tecniche per valutare uno stimatore 3.4 Teciche per valutare uo stimatore 3.4. Il liguaggio delle decisioi statistiche, stimatori corretti e stimatori cosisteti La teoria delle decisioi forisce u liguaggio appropriato per discutere sulla

Dettagli

I Sistemi ERP e l innovazione aziendale: dalle Funzioni ai Processi, aspetti innovativi ed aspetti progettuali

I Sistemi ERP e l innovazione aziendale: dalle Funzioni ai Processi, aspetti innovativi ed aspetti progettuali I Sistemi ERP e l iovazioe aziedale: dalle Fuzioi ai Processi, aspetti iovativi ed aspetti progettuali Uiversità di L Aquila, 14 maggio 2004 Ig. Nicola Pace I Sistemi ERP e l iovazioe aziedale Uiversità

Dettagli

STATISTICA DESCRITTIVA

STATISTICA DESCRITTIVA STATISTICA DESCRITTIVA La statistica descrittiva serve per elaborare e sitetizzare dati. Tipicamete i dati si rappresetao i tabelle. Esempio. Suppoiamo di codurre u idagie per cooscere gli iscritti al

Dettagli

Modelli multiperiodali discreti. Strategie di investimento

Modelli multiperiodali discreti. Strategie di investimento Modelli multiperiodali discreti Cosideriamo ora modelli discreti cioè co u umero fiito di stati del modo multiperiodali, cioè apputo co più periodi. Il prototipo di questa classe di modelli è il modello

Dettagli