Corso di Statistica Medica. Studio dell effetto di più variabili indipendenti su una variabile dipendente: Regressione lineare multipla

Dimensione: px
Iniziare la visualizzazioe della pagina:

Download "Corso di Statistica Medica. Studio dell effetto di più variabili indipendenti su una variabile dipendente: Regressione lineare multipla"

Transcript

1 Studio dell effetto di più variabili indipendenti su una variabile dipendente: Regressione lineare multipla Regressione logistica

2 Regressione lineare multipla Nel modello di regressione lineare semplice le variazioni della variabile dipendente sono spiegate mediante una sola variabile esplicativa. Si ottiene così un modello semplice che tuttavia non è sempre in grado di spiegare i fenomeni di interesse in maniera adeguata. Un modello che spiegasse il consumo di burro soltanto in funzione del prezzo p B C B =β 1 +β 2 p B +ε, potrebbe risultare poco realistico. I consumatori infatti, nelle loro scelte, considerano anche i prezzi dei beni sostitutivi, come il prezzo dell olio p O o della margarina p M e risentono di modificazioni del reddito R. Pertanto un modello più realistico dovrebbe considerare quali ulteriori variabili esplicative p O, p M e R: R

3 Un modello di regressione multipla spiega la variabile dipendente Y in funzione di k variabili esplicative o regressori, con k > 2: Per convenzione la prima variabile esplicativa x 1 assume valore 1. Il primo coefficiente di regressione β 1 rappresenta l intercetta del modello. Gli altri coefficienti, di pendenza, costituiscono le derivate parziali della variabile dipendente rispetto alle variabili esplicative: la variazione che subisce in mediay in seguito a una variazione unitaria di x j mentre il valore delle altre variabili rimane costante.

4 Ipotesi sui regressori (X 1,, X k ): (X 1,, X k ) sono variabili deterministiche, ovvero misurate senza errore Ipotesi su ε: La media degli errori è zero La varianza degli errori è costante Gli errori sono indipendenti (incorrelati) La distribuzione degli errori è una v.c Normale Y~Normale

5 I coefficienti del modello di regressione lineare multipla si stimano a partire dai dati campionari mediante il metodo dei minimi quadrati o della massima verosimiglianza. b j stima di β j * Y = b1 + b2 X b k X k I coefficienti di regressione in un modello di regressione multiplo si dicono coefficienti di regressione parziale. Ciascuno di essi esprime la variazione media della variabile dipendente, per ogni variazione unitaria della corrispondente variabile indipendente, a parità di valori assunti rispetto agli altri regressori nel modello. Essendo dotati di unità di misura i valori dei diversi coefficienti di regressione non possono essere tra loro confrontati e quindi non possono essere indicatori dell importanza della variabile indipendente associata nella spiegazione della variabilità della Y. Se si considerano le variabili standardizzate, cioè: Y X std j Y µ Y = σ Y X j µ X J, std = j =1,... k σ X J Y std =, std β 1 + β2 X 2, std βk X k + ε E allora possibile confrontare l entità dei diversi coefficienti di regressione parziale.

6 L indice di determinazione lineare R 2 Per quantificare la bontà di adattamento del modello di regressione ai dati, si può utilizzare un indice che valuta la quota di variabilità di Y spiegata dal modello La devianza totale di Y nel modello di regressione lineare multipla può essere scomposta come segue: è la devianza totale di Y è la devianza di regressione di Y è la devianza residua o di dispersione di Y

7 L indice di determinazione lineare R 2 L indice di determinazione lineare varia fra 0 e 1 poiché 0<= DevReg(Y)<=Dev(Y). R 2 misura la frazione della variabilità di Y dovuta alla sua dipendenza lineare dai regressori. Presenta però alcuni inconvenienti: - può assumere valori elevati anche quando la relazione non è di tipo lineare; - cresce sempre al crescere del numero dei regressori, pertanto non è un indicatore adeguato per il confronto tra modelli con un diverso numero di regressori. R 2 corretto: R 2 = 1 (1 R 2 ) n 1 n m m=# regressori

8 La scomposizione delle devianze vale anche rispetto ai corrispondenti gradi di libertà: n = dimensione campione m = numero regressori è la varianza totale di Y è la varianza di regressione di Y è la varianza residua di Y

9 Test di ipotesi sui parametri (I) In questo contesto risulta necessario avvalersi dell ipotesi di normalità formulata sui residui. Da essa discende infatti la normalità in distribuzione dello stimatore dei minimi quadrati ed il rapporto tra la devianza di regressione sulla devianza residua distribuito come una v.c. F con m ed n-m-1 gdl: Fissato un livello di significatività α, se F campione > Fα allora il test è significativo al livello α, e H 0 va rifiutata.

10 Se H 0 viene rifiutata: la variabilità di Y spiegata dal modello è significativamente più elevata della variabilità residua; ad almeno uno degli m regressori corrisponde in popolazione un coefficiente di regressione significativamente diverso da 0. Se invece F campione <= Fα allora il test NON è significativo al livello α, e H 0 non viene rifiutata; in tal caso il modello non è adeguato, tra Y e gli m regressori non vi è alcuna relazione di dipendenza lineare. Poiché:

11 Test di ipotesi sui parametri (II) Test sul singolo parametro: Fissato un livello di significatività α, se t > +tα/2 oppure t < -tα/2 allora il test è significativo al livello α, e H 0 va rifiutata: il contributo di X j nel modello in cui vi sono gli altri regressori è significativo.

12 I software statistici generalmente per ogni parametro stimato forniscono il p-valore del test. Per ciascuna ipotesi nulla H 0 : b j =0 i software riportano quindi la probabilità: dove t oss è il valore osservato della statistica test sul campione. Di seguito è schematizzato un tipico output di un software per la regressione multipla:

13 Diagnostica del modello di regressione Con il termine diagnostica, nell ambito della regressione, ci si riferisce a un insieme di tecniche volte all individuazione di eventuali problemi rispetto al modello o rispetto ai dati. A questo fine particolare rilievo assumono i residui. L analisi dei residui permette di: - stabilire se le ipotesi formulate sul termine d errore del modello di regressione sono valide rispetto al fenomeno analizzato; - identificare l eventuale presenza di casi outlier (=anomali rispetto alla variabile dipendente Y), di leverage (=anomali rispetto alle X), influenti (=la cui esclusione modifica molto le stime). Poiché i residui sono gli scarti tra i valori osservati e quelli stimati dal modello, costituiscono la base per misurare la variabilità di Y non spiegata dal modello di regressione.

14 Distribuzione dei residui: dovrebbero disporsi in maniera casuale intorno all asse delle ascisse; eteroschedasticità La presenza di strutture nel grafico dei residui può indicare errori di specificazione nel modello: autocorrelazione

15 Presenza di un trend: indica l omissione di un predittore importante. Residui in presenza di una relazione non lineare È stato stimato questo modello: al posto di:

16 Quando è possibile individuare dei gruppi nei residui, ciò può indicare che si è verificato un cambiamento strutturale nella relazione fra la variabile dipendente e le variabili esplicative. Le osservazioni sono divise in due gruppi (o periodi) generati da due modelli con diversi valori dei parametri. Residui molto distanti dagli altri possono indicare la presenza di valori anomali, ossia osservazioni distanti dalla maggioranza dei dati.

17 Dimensione del campione e numero di variabili indipendenti: Si raccomanda un numero di osservazioni volte superiore al numero delle variabili indipendenti; Multicollinearità: Nel caso si abbiano a disposizione numerose variabili indipendenti, è opportuno verificare se esse risultano correlate tra loro; -> bisogna infatti fare attenzione a non includere nel modello di regressione variabili significativamente correlate; Costruzione del modello di regressione: Dopo aver valutato la multicollinearità ed aver escluso eventuali variabili esplicative si procede alla costruzione del modello con le variabili rimanenti.

18 Costruzione del modello di regressione: Approccio forward/backward: partendo da un modello parziale si procede per passi e di volta in volta si aggiunge una variabile che contribuisce in maniera significativa al miglioramento del modello o si elimina una variabile il cui coefficiente non è significativo. Approccio step-wise: si valutano tutti i possibili modelli di regressione ricavabili da un certo insieme di variabili esplicative e si individuano i sottoinsiemi migliori secondo un certo criterio (per esempio osservando l R 2 ). ci vuole logica e buon senso!

19 Esempio di applicazione del modello di regressione multipla Una ditta automobilistica americana ha un registro di vendite dei diversi modelli di macchine. Per identificare i modelli che vanno meglio nel mercato e quelli che vanno peggio, si vuole stabilire una relazione tra le caratteristiche del veicolo e il livello di vendite. Le informazioni sulle macchine sono nel file regr1.sav (file di dati SPSS). Si utilizza la regressione lineare multipla per identificare i fattori che influenzano in modo significativo il livello di vendite. Variabile dipendente Y: vendite (in migliaia) Variabili esplicative X: Vehicle type (tipo di veicolo), Price in thousands (prezzo), Engine size (motore), Horsepower (potenza), Wheelbase (interasse), Width (larghezza), Length (lunghezza), Curb weight (peso), Fuel capacity (capacità serbatoio), Fuel efficiency (benzina per Km)

20 100 La distribuzione della variabile dipendente Y non è normale 80 Frequency Frequency 15 Sales in thousands 10 5 operiamo una trasformazione logaritmica per normalizzare Y: Log-transformed sales 4 6 8

21 Model 1 Regression Residual Total ANOVA b Sum of Squares df Mean Square F Sig a a. Predictors: (Constant), Fuel efficiency, Length, Price in thousands, Vehicle type, Width, Engine size, Fuel capacity, Wheelbase, Curb weight, Horsepower b. Dependent Variable: Log-transformed sales Il test F sul modello stimato con tutti i predittori ha un valore di p <0.001: il modello di regressione spiega dunque in modo significativo la variabilità delle vendite. Model 1 Model Summary Adjusted Std. Error of R R Square R Square the Estimate.697 a a. Predictors: (Constant), Fuel efficiency, Length, Price in thousands, Vehicle type, Width, Engine size, Fuel capacity, Wheelbase, Curb weight, Horsepower Quasi la metà della variabilità totale è spiegata dal modello di regressione (R 2 =0.486)

22 Model 1 (Constant) Vehicle type Price in thousands Engine size Horsepower Wheelbase Width Length Curb weight Fuel capacity Fuel efficiency Coefficients a Unstandardized Coefficients a. Dependent Variable: Log-transformed sales Standardized Coefficients B Std. Error Beta t Sig Anche se il modello spiega bene la variabilità delle vendite, ci sono alcuni fattori non significativi; ciò significa che il modello stimato ha troppi predittori rispetto a quelli necessari. Per quantificare l importanza relativa dei predittori, si deve guardare ai coefficienti standardizzati: anche se il prezzo ha un coefficiente piccolo rispetto al tipo di veicolo, esso contribuisce di più nel modello perché ha un coefficiente standardizzato più grande.

23 Coefficients a Model 1 Vehicle type Price in thousands Engine size Horsepower Wheelbase Width Length Curb weight Fuel capacity Fuel efficiency a. Dependent Variable: Log-transformed sales Correlations Collinearity Statistics Zero-order Partial Part Tolerance VIF Proviamo a ri-stimare il modello usando il metodo step-wise Multicollinearità: c è un problema di correlazione tra le variabili esplicative: i coefficienti di correlazione sono diversi da zero. La Tolerance è la % di varianza in un dato predittore che non può essere spiegata dagli altri predittori. Per cui i valori bassi di tale indice sono indicazione di forte collinearità. Un Variance Inflation Factor (VIF) >2 è considerato problematico.

24 Coefficients a Model 1 2 a. (Constant) Price in thousands (Constant) Price in thousands Wheelbase Dependent Variable: Log-transformed sales Unstandardized Coefficients Standardized Coefficients B Std. Error Beta t Sig Le variabili selezionate dal modello tramite la procedura stepwise sono il prezzo e la wheelbase (interasse), in pratica la dimensione del veicolo. La conclusione è quindi che le vendite sono negativamente influenzate dal prezzo e positivamente dalla dimensione del veicolo. Ossia, le automobili grandi ed economiche sono quelle che vendono meglio (negli USA!). Model 1 2 Model Summary Adjusted Std. Error of R R Square R Square the Estimate.552 a b a. Predictors: (Constant), Price in thousands b. Predictors: (Constant), Price in thousands, Wheelbase Anche in questo modello ridotto quasi la metà della variabilità è spiegata dal modello di regressione (adjusted R 2 =0.422)

25 Case Number Casewise Diagnostics a Diagnostica (I): Log-transfo Predicted Model Std. Residual rmed sales Value Residual Explorer GT Cutlass Breeze Prowler SW a. Dependent Variable: Log-transformed sales Si selezionano i modelli con i residui più grandi: 3000GT e Cutlass hanno i residui più alti e negativi, ossia hanno venduto meno di quanto atteso in base al loro prezzo e dimensione. Anche i modelli Breeze, Prowler e SW hanno avuto una performance peggiore di quella attesa, ma ad un livello minore. Il modello Explorer è l unico che abbia superato le aspettative stimate (residuo positivo). Breeze, Prowler, SW, e Explorer sono vicini alla maggioranza dei dati; l apparente under-performance e over-performance possono essere quindi attribuite al caso. Ci sono poi alcuni modelli che si allontanano dalla maggioranza dei dati

26 Diagnostica (II): Residui rispetto al prezzo: i modelli più costosi sono quelli che si allontanano dalla maggioranza dei dati;

27 Diagnostica (III): Residui rispetto alla dimensione: i modelli più grandi sono quelli che si allontanano dalla maggioranza dei dati;

28 In conclusione: Le vendite degli autoveicoli sono determinate principalmente dal prezzo e dalla dimensione; date queste due informazioni si può prevedere in media quanto venderà un veicolo. Usando il metodo stepwise abbiamo selezionato il modello migliore per predire le vendite. Tramite questo modello abbiamo identificato due tipi di veicoli che stanno andando male nel mercato, nonostante le aspettative, mentre nessun modello sta vendendo particolarmente sopra le aspettative. I grafici diagnostici hanno indicato che il modello stimato può essere influenzato in modo rilevante dai veicoli particolarmente grandi e costosi, come la classe SL o i Pick-Up. (Si può suggerire di trasformare mediante logaritmo anche i prezzi e la wheelbase, per comprimerne i valori estremi).

29 Dalla regressione multipla alla regressione logistica Una delle applicazioni più utili della regressione multipla potrebbe essere quella di predire la mortalità o la morbilità (per es. gli incidenti cerebrovascolari, l'infarto, il cancro o altre malattie). Tuttavia la regressione multipla non può essere applicata a dati categorici come la morte o l'infarto miocardico. Queste variabili infatti hanno due sole possibilità 0 o 1 (vivo o morto, infarto o non infarto, ecc.), non sono misurati su scala continua. Per analizzare queste variabili con un approccio multivariato, esse devono essere trasformate. La trasformazione da utilizzare è quella in logit e il modello analitico è la regressione logistica.

30 La verosimiglianza (likelihood) nei modelli binari Questa breve digressione è finalizzata a chiarire il metodo che si adotta per la costruzione dei modelli logistici, cioè il metodo della probabilità più verosimile o maximum likelihood. Se seguiamo un campione di 10 pazienti per un certo periodo di tempo e siamo interessati a stabilire la mortalità, abbiamo due possibili esiti, vivo o morto. Definiamo la probabilità di morte con p e quella di sopravvivere con il suo complemento 1-p :

31 Dalla Tabella risulta che 3 pazienti sono deceduti (p) nel periodo di osservazione e 7 sono sopravvissuti (1-p). Le osservazioni sono indipendenti (un paziente può vivere o morire indipendentemente dagli altri) quindi possiamo utilizzare la regola moltiplicativa per stimare la probabilità della nostra osservazione: p x (1-p) x (1-p) x p x (1-p) x (1-p) x (1-p) x p x (1-p) x (1-p) (p) 3 x (1-p) 7 Possiamo attribuire varie probabilità al rischio di morte (p). Per esempio un rischio del 10% (0.10) o 20% (0.20) o altri valori. La domanda che ci poniamo è: quanto verosimile (likely) è un certo rischio (per es: mortalità 10%, sopravvivenza 90%) tenuto conto che noi osserviamo una mortalità del 30% (e una sopravvivenza del 70%)? Utilizzando i dati possiamo calcolare la verosimiglianza delle varie ipotesi di rischio.

32 p=10% p=30% p=20% (0.10) 3 x (0.90) 7 = x = (o 4.78 x 10-4 ) (0.30) 3 x (0.70) 7 = x = (o x 10-4 ) (0.20) 3 x (0.80) 7 = x = (o x 10-4 ) La probabilità più alta è quella che coincide con un rischio del 30%. Ripetendo il calcolo (iterativo) per ulteriori valori di rischio troviamo che la più alta probabilità rimane proprio quella che coincide con la % da noi effettivamente osservata nel campione, il 30%. Si dice che l'ipotesi di rischio del 30% è quella meglio supportata dai dati. Siamo arrivati a questa conclusione applicando il calcolo iterativo, cioé testando tutti i possibili valori che p può assumere. Il rischio che ha la verosimiglianza più alta è definito il valore più verosimile (maximum likelihood). Qualsiasi altro valore di rischio fornisce stime meno credibili rispetto a quella del valore più verosimile.

33 Il modello di regressione logistica: prevedere l'esito (outcome) in base ai determinanti del rischio Nell'esempio precedente l'esito (vivo/morto) è stato previsto su 10 soggetti e sulla base di una serie di stime teoriche del rischio (20% o 30%, ecc.). Se oltre a registrare l'esito (vivo/morto) misuriamo anche una o più variabili che riteniamo possano influenzarlo (nel nostro esempio l'ipertrofia ventricolare sinistra, la pressione arteriosa media) possiamo costruire un modello più complesso che cerca di predire l'esito a partire dalle variabili indipendenti. Per esempio: mortalità = a + b (massa ventricolare) + c (pressione arteriosa media) y = a + bx 1 + cx 2

34 In questo caso si deve massimizzare la probabilità di ottenere i valori osservati della variabile dipendente (vivo/morto) in base a un'equazione costruita con i dati relativi alla pressione arteriosa media e alla massa ventricolare sinistra. La likelihood sarà massima quando i coefficienti dell'equazione saranno tali da predire il più accuratamente possibile l'esito caso per caso. per stimare la probabilità di morte a partire da una o più variabili indipendenti, generiamo un modello con coefficienti casuali a partire dai nostri dati: variabile dipendente -> morto/vivo (0/1); variabili indipendenti -> massa ventricolare sinistra, pressione arteriosa Il modello ad ogni iterazione di calcolo potrà risultare efficace o inefficace: Il modello sarà efficace -> in grado di predire la mortalità realmente osservata -> solo se le variabili considerate influenzano la mortalità. Se invece i dati di mortalità (0/1) previsti dal modello non coincidono con i dati di mortalità osservati, -> il modello è inefficace e concludiamo che le variabili indipendenti non influenzano la mortalità. Il metodo di stima si basa sul calcolo iterativo e sulla trasformazione logit; il computer "testa" vari coefficienti di regressione e il calcolo si arresta quando i coefficienti di regressione (b e c dell'equazione) massimizzano la previsione della variabile dipendente sulla base dei dati osservati.

35 Test di ipotesi sul modello: Il likelihood ratio LR è il rapporto tra la likelihood di ottenere i valori della variabile dipendente quando è vera l'ipotesi nulla, cioè quando il modello non consente di predire la variabile dipendente (outcome), diviso per la likelihood calcolata sui dati del nostro campione: LR=LR(H 0 )/LR(campione) Quando il modello non predice la variabile dipendente la likelihood del denominatore sarà uguale a quella del numeratore e il rapporto sarà ~ 1, l'ipotesi nulla sarà cioè vera. Tanto più efficace è il modello tanto più basso sarà LR (che tenderà ad avvicinarsi sempre più allo 0). 2 2ln LR = χ gdl Consultando la distribuzione del Chi-quadro possiamo stabilire se il nostro modello predice significativamente la variabile dipendente. gdl del Chi-quadro: # parametri stimati

36 La trasformazione dei dati in logit Per motivi di calcolo, la variabile dipendente dell'equazione (la mortalità) si trasforma in una funzione logistica (continua) utilizzando la formula: p = p ln 1 p In questa funzione ln è il logaritmo naturale e il rapporto tra p (la probabilità di morte) e (1-p) la probabilità complementare, cioè la sopravvivenza, sono gli odds o probabilità a favore. Gli odds sono il tipico modo che gli scommettitori usano per quantificare la probabilità di vincere. Gli odds quindi ci consentono di trasformare una variabile categorica (si/no) in una variabile che esprime la probabilità dell'evento.

37 Quando la probabilità di morte è del 50% (o 0.5) gli odds sono uguali a 1 (perché 0.5/1 0.5 = 1) e la relativa funzione logistica (che coincide coi log odds) è uguale a 0 (perché il logaritmo di 1 è 0). Un vantaggio dei logit è che la probabilità ad essi corrispondente può variare da 0 a 1, cioè nell'ambito della stessa scala sulla quale è espressa abitualmente la probabilità di un evento: p ln(p/1-p) La funzione logaritmo in base e (ln) è la funzione inversa rispetto alla ( ) funzione esponenziale in base e: y = ln x y x = e e~2.7

38 Possiamo quindi trasformare la variabile mortalità in termini di probabilità dell'evento (morte): p ln = a + bx1 + cx p p = 1/ p=p(y=1)=probabilità dell evento morte [ ( )] a+ bx1+ cx e

39 mortalità = a + b (massa ventricolare) + c (pressione arteriosa media) y = a + bx 1 + cx 2 y=a+b*lvm+c*map ln 1 p p p = 1/[1 + e = a + b* LVM ( a+ b* LVM + c* MAP ) ] + c* MAP Se la funzione logistica stimata dell'equazione che predice la sopravvivenza in base alla massa ventricolare (LVM) e alla pressione arteriosa media (PAM) è: ln(p/1-p)= LVM MAP la probabilità di morte per una massa ventricolare di 120 g/m 2 e una MAP di 110 mmhg è: p=1/[1+e -( x x 110) ]= 1/[1+ e -(-0.95) ]= 1/[ ] = 1/3.58 = 0.30

40 Ripetendo lo stesso calcolo e variando solo la massa ventricolare, portandola cioè da 120 a 130 g/m 2, la probabilità di morte diventa Viceversa riducendola a 110 g/m 2 la probabilità di morte si riduce a Questo modo di procedere è particolarmente utile in quanto ci permette di stimare l'influenza della massa ventricolare sulla sopravvivenza a parità della pressione arteriosa. Tuttavia la valutazione è più immediata con il calcolo degli odds ratio: OR = e 0.068*( ) = 1.54 odds ratio (OR) di un aumento della massa ventricolare sinistra da 120 a 130 g/m 2 la probabilità di morte è 1.54 volte più alta quando la massa ventricolare sinistra aumenta da 120 a 130 g/m 2

41 Allo stesso modo possiamo calcolare gli OR di un aumento della pressione da 110 a 120 mmhg: OR = e 0.065( ) = 1.91 la probabilità di morte è 1.91 volte più alta quando la pressione aumenta da 110 a 120 mmhg. Definizione formale di OR: Odds(Y=1 X)=e (bx) ln(or)=b La probabilità che Y=1 quando X varia di d unità è: OR=e bd

42 Test di ipotesi sul singolo predittore: b = incremento del log-odds per incremento unitario di X; Test d ipotesi H 0 : b=0 (test di Wald) 2 2 β χ = Varianza( β) (1 df) Consultando la distribuzione del Chi-quadro con 1 gdl possiamo stabilire se il predittore X ha un impatto significativo sulla variabile dipendente.

Modelli statistici per l analisi dei dati e la valutazione d efficacia Il caso del Comune di Perugia

Modelli statistici per l analisi dei dati e la valutazione d efficacia Il caso del Comune di Perugia Modelli statistici per l analisi dei dati e la valutazione d efficacia Il caso del Comune di Perugia Alessandra Pelliccia Matteo Cataldi Matteo Filippo Donadi 0 AGENDA Fonti Descrizione dei dati Variabili

Dettagli

Capitolo 12 La regressione lineare semplice

Capitolo 12 La regressione lineare semplice Levine, Krehbiel, Berenson Statistica II ed. 2006 Apogeo Capitolo 12 La regressione lineare semplice Insegnamento: Statistica Corso di Laurea Triennale in Economia Facoltà di Economia, Università di Ferrara

Dettagli

Regressione Mario Guarracino Data Mining a.a. 2010/2011

Regressione Mario Guarracino Data Mining a.a. 2010/2011 Regressione Esempio Un azienda manifatturiera vuole analizzare il legame che intercorre tra il volume produttivo X per uno dei propri stabilimenti e il corrispondente costo mensile Y di produzione. Volume

Dettagli

Statistica multivariata. Statistica multivariata. Analisi multivariata. Dati multivariati. x 11 x 21. x 12 x 22. x 1m x 2m. x nm. x n2.

Statistica multivariata. Statistica multivariata. Analisi multivariata. Dati multivariati. x 11 x 21. x 12 x 22. x 1m x 2m. x nm. x n2. Analisi multivariata Statistica multivariata Quando il numero delle variabili rilevate sullo stesso soggetto aumentano, il problema diventa gestirle tutte e capirne le relazioni. Cercare di capire le relazioni

Dettagli

LEZIONE n. 5 (a cura di Antonio Di Marco)

LEZIONE n. 5 (a cura di Antonio Di Marco) LEZIONE n. 5 (a cura di Antonio Di Marco) IL P-VALUE (α) Data un ipotesi nulla (H 0 ), questa la si può accettare o rifiutare in base al valore del p- value. In genere il suo valore è un numero molto piccolo,

Dettagli

Statistica. Lezione 6

Statistica. Lezione 6 Università degli Studi del Piemonte Orientale Corso di Laurea in Infermieristica Corso integrato in Scienze della Prevenzione e dei Servizi sanitari Statistica Lezione 6 a.a 011-01 Dott.ssa Daniela Ferrante

Dettagli

1) Si consideri un esperimento che consiste nel lancio di 5 dadi. Lo spazio campionario:

1) Si consideri un esperimento che consiste nel lancio di 5 dadi. Lo spazio campionario: Esempi di domande risposta multipla (Modulo II) 1) Si consideri un esperimento che consiste nel lancio di 5 dadi. Lo spazio campionario: 1) ha un numero di elementi pari a 5; 2) ha un numero di elementi

Dettagli

VALORE DELLE MERCI SEQUESTRATE

VALORE DELLE MERCI SEQUESTRATE La contraffazione in cifre: NUOVA METODOLOGIA PER LA STIMA DEL VALORE DELLE MERCI SEQUESTRATE Roma, Giugno 2013 Giugno 2013-1 Il valore economico dei sequestri In questo Focus si approfondiscono alcune

Dettagli

Metodologia per l analisi dei dati sperimentali L analisi di studi con variabili di risposta multiple: Regressione multipla

Metodologia per l analisi dei dati sperimentali L analisi di studi con variabili di risposta multiple: Regressione multipla Il metodo della regressione può essere esteso dal caso in cui si considera la variabilità della risposta della y in relazione ad una sola variabile indipendente X ad una situazione più generale in cui

Dettagli

1. Distribuzioni campionarie

1. Distribuzioni campionarie Università degli Studi di Basilicata Facoltà di Economia Corso di Laurea in Economia Aziendale - a.a. 2012/2013 lezioni di statistica del 3 e 6 giugno 2013 - di Massimo Cristallo - 1. Distribuzioni campionarie

Dettagli

RELAZIONE TRA VARIABILI QUANTITATIVE. Lezione 7 a. Accade spesso nella ricerca in campo biomedico, così come in altri campi della

RELAZIONE TRA VARIABILI QUANTITATIVE. Lezione 7 a. Accade spesso nella ricerca in campo biomedico, così come in altri campi della RELAZIONE TRA VARIABILI QUANTITATIVE Lezione 7 a Accade spesso nella ricerca in campo biomedico, così come in altri campi della scienza, di voler studiare come il variare di una o più variabili (variabili

Dettagli

Metodi statistici per l economia (Prof. Capitanio) Slide n. 9. Materiale di supporto per le lezioni. Non sostituisce il libro di testo

Metodi statistici per l economia (Prof. Capitanio) Slide n. 9. Materiale di supporto per le lezioni. Non sostituisce il libro di testo Metodi statistici per l economia (Prof. Capitanio) Slide n. 9 Materiale di supporto per le lezioni. Non sostituisce il libro di testo 1 TEST D IPOTESI Partiamo da un esempio presente sul libro di testo.

Dettagli

Capitolo 13: L offerta dell impresa e il surplus del produttore

Capitolo 13: L offerta dell impresa e il surplus del produttore Capitolo 13: L offerta dell impresa e il surplus del produttore 13.1: Introduzione L analisi dei due capitoli precedenti ha fornito tutti i concetti necessari per affrontare l argomento di questo capitolo:

Dettagli

Il concetto di valore medio in generale

Il concetto di valore medio in generale Il concetto di valore medio in generale Nella statistica descrittiva si distinguono solitamente due tipi di medie: - le medie analitiche, che soddisfano ad una condizione di invarianza e si calcolano tenendo

Dettagli

Inferenza statistica. Statistica medica 1

Inferenza statistica. Statistica medica 1 Inferenza statistica L inferenza statistica è un insieme di metodi con cui si cerca di trarre una conclusione sulla popolazione sulla base di alcune informazioni ricavate da un campione estratto da quella

Dettagli

Analisi di dati di frequenza

Analisi di dati di frequenza Analisi di dati di frequenza Fase di raccolta dei dati Fase di memorizzazione dei dati in un foglio elettronico 0 1 1 1 Frequenze attese uguali Si assuma che dalle risposte al questionario sullo stato

Dettagli

Regressione Logistica: un Modello per Variabili Risposta Categoriali

Regressione Logistica: un Modello per Variabili Risposta Categoriali : un Modello per Variabili Risposta Categoriali Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 1 / 54 Introduzione Premessa I modelli di regressione

Dettagli

LA CORRELAZIONE LINEARE

LA CORRELAZIONE LINEARE LA CORRELAZIONE LINEARE La correlazione indica la tendenza che hanno due variabili (X e Y) a variare insieme, ovvero, a covariare. Ad esempio, si può supporre che vi sia una relazione tra l insoddisfazione

Dettagli

ANALISI DELLE FREQUENZE: IL TEST CHI 2

ANALISI DELLE FREQUENZE: IL TEST CHI 2 ANALISI DELLE FREQUENZE: IL TEST CHI 2 Quando si hanno scale nominali o ordinali, non è possibile calcolare il t, poiché non abbiamo medie, ma solo frequenze. In questi casi, per verificare se un evento

Dettagli

Relazioni statistiche: regressione e correlazione

Relazioni statistiche: regressione e correlazione Relazioni statistiche: regressione e correlazione È detto studio della connessione lo studio si occupa della ricerca di relazioni fra due variabili statistiche o fra una mutabile e una variabile statistica

Dettagli

La distribuzione Normale. La distribuzione Normale

La distribuzione Normale. La distribuzione Normale La Distribuzione Normale o Gaussiana è la distribuzione più importante ed utilizzata in tutta la statistica La curva delle frequenze della distribuzione Normale ha una forma caratteristica, simile ad una

Dettagli

3) ANALISI DEI RESIDUI

3) ANALISI DEI RESIDUI 3) ANALISI DEI RESIDUI Dopo l analisi di regressione si eseguono alcuni test sui residui per avere una ulteriore conferma della validità del modello e delle assunzioni (distribuzione normale degli errori,

Dettagli

L Analisi della Varianza ANOVA (ANalysis Of VAriance)

L Analisi della Varianza ANOVA (ANalysis Of VAriance) L Analisi della Varianza ANOVA (ANalysis Of VAriance) 1 CONCETTI GENERALI Finora abbiamo descritto test di ipotesi finalizzati alla verifica di ipotesi sulla differenza tra parametri di due popolazioni

Dettagli

STATISTICA IX lezione

STATISTICA IX lezione Anno Accademico 013-014 STATISTICA IX lezione 1 Il problema della verifica di un ipotesi statistica In termini generali, si studia la distribuzione T(X) di un opportuna grandezza X legata ai parametri

Dettagli

Relazioni tra variabili

Relazioni tra variabili Università degli Studi di Padova Facoltà di Medicina e Chirurgia Corso di Laurea in Medicina e Chirurgia - A.A. 009-10 Scuole di specializzazione in: Medicina Legale, Medicina del Lavoro, Igiene e Medicina

Dettagli

Abbiamo costruito il grafico delle sst in funzione del tempo (dal 1880 al 1995).

Abbiamo costruito il grafico delle sst in funzione del tempo (dal 1880 al 1995). ANALISI DI UNA SERIE TEMPORALE Analisi statistica elementare Abbiamo costruito il grafico delle sst in funzione del tempo (dal 1880 al 1995). Si puo' osservare una media di circa 26 C e una deviazione

Dettagli

RISCHIO E CAPITAL BUDGETING

RISCHIO E CAPITAL BUDGETING RISCHIO E CAPITAL BUDGETING Costo opportunità del capitale Molte aziende, una volta stimato il loro costo opportunità del capitale, lo utilizzano per scontare i flussi di cassa attesi dei nuovi progetti

Dettagli

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 8

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 8 CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 8 Dott.ssa Antonella Costanzo a.costanzo@unicas.it Esercizio 1. Test delle ipotesi sulla varianza In un azienda che produce componenti meccaniche, è stato

Dettagli

Regressione logistica. Strumenti quantitativi per la gestione

Regressione logistica. Strumenti quantitativi per la gestione Regressione logistica Strumenti quantitativi per la gestione Emanuele Taufer file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/4a_rlg.html#(1) 1/25 Metodi di classificazione I metodi usati per analizzare

Dettagli

LEZIONE 3. Ing. Andrea Ghedi AA 2009/2010. Ing. Andrea Ghedi AA 2009/2010

LEZIONE 3. Ing. Andrea Ghedi AA 2009/2010. Ing. Andrea Ghedi AA 2009/2010 LEZIONE 3 "Educare significa aiutare l'animo dell'uomo ad entrare nella totalità della realtà. Non si può però educare se non rivolgendosi alla libertà, la quale definisce il singolo, l'io. Quando uno

Dettagli

LE FUNZIONI A DUE VARIABILI

LE FUNZIONI A DUE VARIABILI Capitolo I LE FUNZIONI A DUE VARIABILI In questo primo capitolo introduciamo alcune definizioni di base delle funzioni reali a due variabili reali. Nel seguito R denoterà l insieme dei numeri reali mentre

Dettagli

Corso di laurea in Scienze Motorie Corso di Statistica Docente: Dott.ssa Immacolata Scancarello Lezione 14: Analisi della varianza (ANOVA)

Corso di laurea in Scienze Motorie Corso di Statistica Docente: Dott.ssa Immacolata Scancarello Lezione 14: Analisi della varianza (ANOVA) Corso di laurea in Scienze Motorie Corso di Statistica Docente: Dott.ssa Immacolata Scancarello Lezione 4: Analisi della varianza (ANOVA) Analisi della varianza Analisi della varianza (ANOVA) ANOVA ad

Dettagli

CAPITOLO 8 LA VERIFICA D IPOTESI. I FONDAMENTI

CAPITOLO 8 LA VERIFICA D IPOTESI. I FONDAMENTI VERO FALSO CAPITOLO 8 LA VERIFICA D IPOTESI. I FONDAMENTI 1. V F Un ipotesi statistica è un assunzione sulle caratteristiche di una o più variabili in una o più popolazioni 2. V F L ipotesi nulla unita

Dettagli

Indici di dispersione

Indici di dispersione Indici di dispersione 1 Supponiamo di disporre di un insieme di misure e di cercare un solo valore che, meglio di ciascun altro, sia in grado di catturare le caratteristiche della distribuzione nel suo

Dettagli

Elaborazione dei dati su PC Regressione Multipla

Elaborazione dei dati su PC Regressione Multipla 21 Elaborazione dei dati su PC Regressione Multipla Analizza Regressione Statistiche Grafici Metodo di selezione Analisi dei dati 21.1 Introduzione 21.2 Regressione lineare multipla con SPSS 21.3 Regressione

Dettagli

Prova di autovalutazione Prof. Roberta Siciliano

Prova di autovalutazione Prof. Roberta Siciliano Prova di autovalutazione Prof. Roberta Siciliano Esercizio 1 Nella seguente tabella è riportata la distribuzione di frequenza dei prezzi per camera di alcuni agriturismi, situati nella regione Basilicata.

Dettagli

3. Confronto tra medie di due campioni indipendenti o appaiati

3. Confronto tra medie di due campioni indipendenti o appaiati BIOSTATISTICA 3. Confronto tra medie di due campioni indipendenti o appaiati Marta Blangiardo, Imperial College, London Department of Epidemiology and Public Health m.blangiardo@imperial.ac.uk MARTA BLANGIARDO

Dettagli

postulato della valutazione tramite indicatori: La valutazione di un sistema sanitario tramite indicatori ipotizza

postulato della valutazione tramite indicatori: La valutazione di un sistema sanitario tramite indicatori ipotizza postulato della valutazione tramite indicatori: La valutazione di un sistema sanitario tramite indicatori ipotizza la praticabilità di una scomposizione della complessità in informazioni elementari ed

Dettagli

Il metodo della regressione

Il metodo della regressione Il metodo della regressione Consideriamo il coefficiente beta di una semplice regressione lineare, cosa significa? È una differenza tra valori attesi Anche nel caso classico di variabile esplicativa continua

Dettagli

Concetto di potenza statistica

Concetto di potenza statistica Calcolo della numerosità campionaria Prof. Giuseppe Verlato Sezione di Epidemiologia e Statistica Medica, Università di Verona Concetto di potenza statistica 1 Accetto H 0 Rifiuto H 0 Ipotesi Nulla (H

Dettagli

LE DETERMINANTI DELLA REDDITIVITÀ DELLE SOCIETA OPERANTI NEL COMPARTO TESSILE ABBIGLIAMENTO IN ITALIA

LE DETERMINANTI DELLA REDDITIVITÀ DELLE SOCIETA OPERANTI NEL COMPARTO TESSILE ABBIGLIAMENTO IN ITALIA LE DETERMINANTI DELLA REDDITIVITÀ DELLE SOCIETA OPERANTI NEL COMPARTO TESSILE ABBIGLIAMENTO IN ITALIA Il metodo CVRP per l analisi delle maggiori società tessili italiane Stefano Cordero di Montezemolo

Dettagli

Lineamenti di econometria 2

Lineamenti di econometria 2 Lineamenti di econometria 2 Camilla Mastromarco Università di Lecce Master II Livello "Analisi dei Mercati e Sviluppo Locale" (PIT 9.4) Aspetti Statistici della Regressione Aspetti Statistici della Regressione

Dettagli

4 3 4 = 4 x 10 2 + 3 x 10 1 + 4 x 10 0 aaa 10 2 10 1 10 0

4 3 4 = 4 x 10 2 + 3 x 10 1 + 4 x 10 0 aaa 10 2 10 1 10 0 Rappresentazione dei numeri I numeri che siamo abituati ad utilizzare sono espressi utilizzando il sistema di numerazione decimale, che si chiama così perché utilizza 0 cifre (0,,2,3,4,5,6,7,8,9). Si dice

Dettagli

Elementi di Psicometria con Laboratorio di SPSS 1

Elementi di Psicometria con Laboratorio di SPSS 1 Elementi di Psicometria con Laboratorio di SPSS 1 12-Il t-test per campioni appaiati vers. 1.2 (7 novembre 2014) Germano Rossi 1 germano.rossi@unimib.it 1 Dipartimento di Psicologia, Università di Milano-Bicocca

Dettagli

Calcolo delle probabilità

Calcolo delle probabilità Calcolo delle probabilità Laboratorio di Bioinformatica Corso A aa 2005-2006 Statistica Dai risultati di un esperimento si determinano alcune caratteristiche della popolazione Calcolo delle probabilità

Dettagli

SISTEMI DI NUMERAZIONE E CODICI

SISTEMI DI NUMERAZIONE E CODICI SISTEMI DI NUMERAZIONE E CODICI Il Sistema di Numerazione Decimale Il sistema decimale o sistema di numerazione a base dieci usa dieci cifre, dette cifre decimali, da O a 9. Il sistema decimale è un sistema

Dettagli

> d = alimentazione == "benz" > mean(percorr.urbana[!d]) - mean(percorr.urbana[d]) [1] 2.385627. > sd(percorr.urbana[d]) [1] 2.

> d = alimentazione == benz > mean(percorr.urbana[!d]) - mean(percorr.urbana[d]) [1] 2.385627. > sd(percorr.urbana[d]) [1] 2. A questo punto vale la pena di soffermarci di più sull alimentazione. Intanto cerchiamo di indagare se l alimentazione è davvero un fattore significativo per la percorrenza come è luogo comune pensare.

Dettagli

Statistica. Esercitazione 15. Alfonso Iodice D Enza iodicede@unicas.it. Università degli studi di Cassino. Statistica. A. Iodice

Statistica. Esercitazione 15. Alfonso Iodice D Enza iodicede@unicas.it. Università degli studi di Cassino. Statistica. A. Iodice Esercitazione 15 Alfonso Iodice D Enza iodicede@unicas.it Università degli studi di Cassino () 1 / 18 L importanza del gruppo di controllo In tutti i casi in cui si voglia studiare l effetto di un certo

Dettagli

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 7

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 7 CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 7 Dott.ssa Antonella Costanzo a.costanzo@unicas.it Esercizio 1. Test delle ipotesi per la media (varianza nota), p-value del test Il manager di un fast-food

Dettagli

~ Copyright Ripetizionando - All rights reserved ~ http://ripetizionando.wordpress.com STUDIO DI FUNZIONE

~ Copyright Ripetizionando - All rights reserved ~ http://ripetizionando.wordpress.com STUDIO DI FUNZIONE STUDIO DI FUNZIONE Passaggi fondamentali Per effettuare uno studio di funzione completo, che non lascia quindi margine a una quasi sicuramente errata inventiva, sono necessari i seguenti 7 passaggi: 1.

Dettagli

lezione 18 AA 2015-2016 Paolo Brunori

lezione 18 AA 2015-2016 Paolo Brunori AA 2015-2016 Paolo Brunori Previsioni - spesso come economisti siamo interessati a prevedere quale sarà il valore di una certa variabile nel futuro - quando osserviamo una variabile nel tempo possiamo

Dettagli

Metodi statistici per le ricerche di mercato

Metodi statistici per le ricerche di mercato Metodi statistici per le ricerche di mercato Prof.ssa Isabella Mingo A.A. 2014-2015 Facoltà di Scienze Politiche, Sociologia, Comunicazione Corso di laurea Magistrale in «Organizzazione e marketing per

Dettagli

Principi generali. Vercelli 9-10 dicembre 2005. G. Bartolozzi - Firenze. Il Pediatra di famiglia e gli esami di laboratorio ASL Vercelli

Principi generali. Vercelli 9-10 dicembre 2005. G. Bartolozzi - Firenze. Il Pediatra di famiglia e gli esami di laboratorio ASL Vercelli Il Pediatra di famiglia e gli esami di laboratorio ASL Vercelli Principi generali Carlo Federico Gauss Matematico tedesco 1777-1855 G. Bartolozzi - Firenze Vercelli 9-10 dicembre 2005 Oggi il nostro lavoro

Dettagli

Esercitazione n.2 Inferenza su medie

Esercitazione n.2 Inferenza su medie Esercitazione n.2 Esercizio L ufficio del personale di una grande società intende stimare le spese mediche familiari dei suoi impiegati per valutare la possibilità di attuare un programma di assicurazione

Dettagli

Per studio di funzione intendiamo un insieme di procedure che hanno lo scopo di analizzare le proprietà di una funzione f ( x) R R

Per studio di funzione intendiamo un insieme di procedure che hanno lo scopo di analizzare le proprietà di una funzione f ( x) R R Studio di funzione Per studio di funzione intendiamo un insieme di procedure che hanno lo scopo di analizzare le proprietà di una funzione f ( x) R R : allo scopo di determinarne le caratteristiche principali.

Dettagli

RAPPRESENTAZIONE GRAFICA E ANALISI DEI DATI SPERIMENTALI CON EXCEL

RAPPRESENTAZIONE GRAFICA E ANALISI DEI DATI SPERIMENTALI CON EXCEL RAPPRESENTAZIONE GRAFICA E ANALISI DEI DATI SPERIMENTALI CON EXCEL 1 RAPPRESENTAZIONE GRAFICA Per l analisi dati con Excel si fa riferimento alla versione 2007 di Office, le versioni successive non differiscono

Dettagli

GRUPPO QUATTRO RUOTE. Alessandro Tondo 19632 Laura Lavazza 19758 Matteo Scordo 19813 Alessandro Giosa 19894. Gruppo Quattro Ruote 1

GRUPPO QUATTRO RUOTE. Alessandro Tondo 19632 Laura Lavazza 19758 Matteo Scordo 19813 Alessandro Giosa 19894. Gruppo Quattro Ruote 1 GRUPPO QUATTRO RUOTE Alessandro Tondo 19632 Laura Lavazza 19758 Matteo Scordo 19813 Alessandro Giosa 19894 Gruppo Quattro Ruote 1 2. ANALISI BIVARIATA 3.1. RISULTATI (continua) 2.1 Consumi ridotti (variabile

Dettagli

11. Analisi statistica degli eventi idrologici estremi

11. Analisi statistica degli eventi idrologici estremi . Analisi statistica degli eventi idrologici estremi I processi idrologici evolvono, nello spazio e nel tempo, secondo modalità che sono in parte predicibili (deterministiche) ed in parte casuali (stocastiche

Dettagli

Esercizio 1. Verifica di ipotesi sulla media (varianza nota), p-value del test

Esercizio 1. Verifica di ipotesi sulla media (varianza nota), p-value del test STATISTICA (2) ESERCITAZIONE 6 05.03.2014 Dott.ssa Antonella Costanzo Esercizio 1. Verifica di ipotesi sulla media (varianza nota), p-value del test Il preside della scuola elementare XYZ sospetta che

Dettagli

f(x) = 1 x. Il dominio di questa funzione è il sottoinsieme proprio di R dato da

f(x) = 1 x. Il dominio di questa funzione è il sottoinsieme proprio di R dato da Data una funzione reale f di variabile reale x, definita su un sottoinsieme proprio D f di R (con questo voglio dire che il dominio di f è un sottoinsieme di R che non coincide con tutto R), ci si chiede

Dettagli

Introduzione alle relazioni multivariate. Introduzione alle relazioni multivariate

Introduzione alle relazioni multivariate. Introduzione alle relazioni multivariate Introduzione alle relazioni multivariate Associazione e causalità Associazione e causalità Nell analisi dei dati notevole importanza è rivestita dalle relazioni causali tra variabili Date due variabili

Dettagli

Siamo così arrivati all aritmetica modulare, ma anche a individuare alcuni aspetti di come funziona l aritmetica del calcolatore come vedremo.

Siamo così arrivati all aritmetica modulare, ma anche a individuare alcuni aspetti di come funziona l aritmetica del calcolatore come vedremo. DALLE PESATE ALL ARITMETICA FINITA IN BASE 2 Si è trovato, partendo da un problema concreto, che con la base 2, utilizzando alcune potenze della base, operando con solo addizioni, posso ottenere tutti

Dettagli

Esercitazione Statistica Computazionale B Modelli di regressione lineare semplice Verifica di ipotesi - Analisi della varianza

Esercitazione Statistica Computazionale B Modelli di regressione lineare semplice Verifica di ipotesi - Analisi della varianza Esercitazione Statistica Computazionale B Modelli di regressione lineare semplice Verifica di ipotesi - Analisi della varianza 3 maggio 2005 Esercizio 1 Consideriamo l esempio del libro di testo Annette

Dettagli

Indice di rischio globale

Indice di rischio globale Indice di rischio globale Di Pietro Bottani Dottore Commercialista in Prato Introduzione Con tale studio abbiamo cercato di creare un indice generale capace di valutare il rischio economico-finanziario

Dettagli

Probabilità condizionata: p(a/b) che avvenga A, una volta accaduto B. Evento prodotto: Evento in cui si verifica sia A che B ; p(a&b) = p(a) x p(b/a)

Probabilità condizionata: p(a/b) che avvenga A, una volta accaduto B. Evento prodotto: Evento in cui si verifica sia A che B ; p(a&b) = p(a) x p(b/a) Probabilità condizionata: p(a/b) che avvenga A, una volta accaduto B Eventi indipendenti: un evento non influenza l altro Eventi disgiunti: il verificarsi di un evento esclude l altro Evento prodotto:

Dettagli

APPUNTI SU PROBLEMI CON CALCOLO PERCENTUALE

APPUNTI SU PROBLEMI CON CALCOLO PERCENTUALE APPUNTI SU PROBLEMI CON CALCOLO PERCENTUALE 1. Proporzionalità diretta e proporzionalità inversa Analizziamo le seguenti formule Peso Lordo = Peso Netto + Tara Ricavo = Utile + Costo Rata = Importo + Interesse

Dettagli

Elementi di Psicometria con Laboratorio di SPSS 1

Elementi di Psicometria con Laboratorio di SPSS 1 Elementi di Psicometria con Laboratorio di SPSS 1 29-Analisi della potenza statistica vers. 1.0 (12 dicembre 2014) Germano Rossi 1 germano.rossi@unimib.it 1 Dipartimento di Psicologia, Università di Milano-Bicocca

Dettagli

Lezione n. 2 (a cura di Chiara Rossi)

Lezione n. 2 (a cura di Chiara Rossi) Lezione n. 2 (a cura di Chiara Rossi) QUANTILE Data una variabile casuale X, si definisce Quantile superiore x p : X P (X x p ) = p Quantile inferiore x p : X P (X x p ) = p p p=0.05 x p x p Graficamente,

Dettagli

Test statistici di verifica di ipotesi

Test statistici di verifica di ipotesi Test e verifica di ipotesi Test e verifica di ipotesi Il test delle ipotesi consente di verificare se, e quanto, una determinata ipotesi (di carattere biologico, medico, economico,...) è supportata dall

Dettagli

Domande a scelta multipla 1

Domande a scelta multipla 1 Domande a scelta multipla Domande a scelta multipla 1 Rispondete alle domande seguenti, scegliendo tra le alternative proposte. Cercate di consultare i suggerimenti solo in caso di difficoltà. Dopo l elenco

Dettagli

(a cura di Francesca Godioli)

(a cura di Francesca Godioli) lezione n. 12 (a cura di Francesca Godioli) Ad ogni categoria della variabile qualitativa si può assegnare un valore numerico che viene chiamato SCORE. Passare dalla variabile qualitativa X2 a dei valori

Dettagli

Università del Piemonte Orientale. Corso di laurea in biotecnologia. Corso di Statistica Medica. Intervalli di confidenza

Università del Piemonte Orientale. Corso di laurea in biotecnologia. Corso di Statistica Medica. Intervalli di confidenza Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica Intervalli di confidenza Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica

Dettagli

SPC e distribuzione normale con Access

SPC e distribuzione normale con Access SPC e distribuzione normale con Access In questo articolo esamineremo una applicazione Access per il calcolo e la rappresentazione grafica della distribuzione normale, collegata con tabelle di Clienti,

Dettagli

E naturale chiedersi alcune cose sulla media campionaria x n

E naturale chiedersi alcune cose sulla media campionaria x n Supponiamo che un fabbricante stia introducendo un nuovo tipo di batteria per un automobile elettrica. La durata osservata x i delle i-esima batteria è la realizzazione (valore assunto) di una variabile

Dettagli

OSSERVAZIONI TEORICHE Lezione n. 4

OSSERVAZIONI TEORICHE Lezione n. 4 OSSERVAZIONI TEORICHE Lezione n. 4 Finalità: Sistematizzare concetti e definizioni. Verificare l apprendimento. Metodo: Lettura delle OSSERVAZIONI e risoluzione della scheda di verifica delle conoscenze

Dettagli

APPUNTI DI MATEMATICA LE FRAZIONI ALGEBRICHE ALESSANDRO BOCCONI

APPUNTI DI MATEMATICA LE FRAZIONI ALGEBRICHE ALESSANDRO BOCCONI APPUNTI DI MATEMATICA LE FRAZIONI ALGEBRICHE ALESSANDRO BOCCONI Indice 1 Le frazioni algebriche 1.1 Il minimo comune multiplo e il Massimo Comun Divisore fra polinomi........ 1. Le frazioni algebriche....................................

Dettagli

risulta (x) = 1 se x < 0.

risulta (x) = 1 se x < 0. Questo file si pone come obiettivo quello di mostrarvi come lo studio di una funzione reale di una variabile reale, nella cui espressione compare un qualche valore assoluto, possa essere svolto senza necessariamente

Dettagli

Università del Piemonte Orientale. Corso di laurea in biotecnologia. Corso di Statistica Medica. Analisi dei dati quantitativi :

Università del Piemonte Orientale. Corso di laurea in biotecnologia. Corso di Statistica Medica. Analisi dei dati quantitativi : Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica Analisi dei dati quantitativi : Confronto tra due medie Università del Piemonte Orientale Corso di laurea in

Dettagli

Facciamo qualche precisazione

Facciamo qualche precisazione Abbiamo introdotto alcuni indici statistici (di posizione, di variabilità e di forma) ottenibili da Excel con la funzione Riepilogo Statistiche Facciamo qualche precisazione Al fine della partecipazione

Dettagli

PIL : produzione e reddito

PIL : produzione e reddito PIL : produzione e reddito La misura della produzione aggregata nella contabilità nazionale è il prodotto interno lordo o PIL. Dal lato della produzione : oppure 1) Il PIL è il valore dei beni e dei servizi

Dettagli

VERIFICA DELLE IPOTESI

VERIFICA DELLE IPOTESI VERIFICA DELLE IPOTESI Nella verifica delle ipotesi è necessario fissare alcune fasi prima di iniziare ad analizzare i dati. a) Si deve stabilire quale deve essere l'ipotesi nulla (H0) e quale l'ipotesi

Dettagli

FACOLTÀ DI ECONOMIA Soluzione della Prova di autovalutazione 2012 (primi 6 CFU) ANALISI STATISTICA PER L IMPRESA

FACOLTÀ DI ECONOMIA Soluzione della Prova di autovalutazione 2012 (primi 6 CFU) ANALISI STATISTICA PER L IMPRESA FACOLTÀ DI ECONOMIA Soluzione della Prova di autovalutazione 2012 (primi 6 CFU) ANALISI STATISTICA PER L IMPRESA NB Come potete vedere facendo la somma dei punteggi il numero di quesiti è superiore a quello

Dettagli

Esercitazione 1 del corso di Statistica 2 Prof. Domenico Vistocco

Esercitazione 1 del corso di Statistica 2 Prof. Domenico Vistocco Esercitazione 1 del corso di Statistica 2 Prof. Domenico Vistocco Alfonso Iodice D Enza April 26, 2007 1...prima di cominciare Contare, operazione solitamente semplice, può diventare complicata se lo scopo

Dettagli

Test d ipotesi. Statistica e biometria. D. Bertacchi. Test d ipotesi

Test d ipotesi. Statistica e biometria. D. Bertacchi. Test d ipotesi In molte situazioni una raccolta di dati (=esiti di esperimenti aleatori) viene fatta per prendere delle decisioni sulla base di quei dati. Ad esempio sperimentazioni su un nuovo farmaco per decidere se

Dettagli

Statistiche campionarie

Statistiche campionarie Statistiche campionarie Sul campione si possono calcolare le statistiche campionarie (come media campionaria, mediana campionaria, varianza campionaria,.) Le statistiche campionarie sono stimatori delle

Dettagli

Regressione Logistica

Regressione Logistica Regressione Logistica Esercizio Data set: Nel data set heart.txt (o heart.sav) sono contenute informazioni riguardo 302 pazienti che hanno avuto infarto e 60 che non hanno avuto infarto in uno studio retrospettivo

Dettagli

Sistemi di Numerazione

Sistemi di Numerazione Fondamenti di Informatica per Meccanici Energetici - Biomedici 1 Sistemi di Numerazione Sistemi di Numerazione I sistemi di numerazione sono abitualmente posizionali. Gli elementi costitutivi di un sistema

Dettagli

Esponenziali elogaritmi

Esponenziali elogaritmi Esponenziali elogaritmi Potenze ad esponente reale Ricordiamo che per un qualsiasi numero razionale m n prendere n>0) si pone a m n = n a m (in cui si può sempre a patto che a sia un numero reale positivo.

Dettagli

Elementi di Psicometria con Laboratorio di SPSS 1

Elementi di Psicometria con Laboratorio di SPSS 1 Elementi di Psicometria con Laboratorio di SPSS 1 10-Il test t per un campione e la stima intervallare (vers. 1.1, 25 ottobre 2015) Germano Rossi 1 germano.rossi@unimib.it 1 Dipartimento di Psicologia,

Dettagli

STATISTICA INFERENZIALE PER VARIABILI QUALITATIVE

STATISTICA INFERENZIALE PER VARIABILI QUALITATIVE STATISTICA INFERENZIALE PER VARIABILI QUALITATIVE La presentazione dei dati per molte ricerche mediche fa comunemente riferimento a frequenze, assolute o percentuali. Osservazioni cliniche conducono sovente

Dettagli

Basi di matematica per il corso di micro

Basi di matematica per il corso di micro Basi di matematica per il corso di micro Microeconomia (anno accademico 2006-2007) Lezione del 21 Marzo 2007 Marianna Belloc 1 Le funzioni 1.1 Definizione Una funzione è una regola che descrive una relazione

Dettagli

T DI STUDENT Quando si vogliono confrontare solo due medie, si può utilizzare il test t di Student La formula per calcolare il t è la seguente:

T DI STUDENT Quando si vogliono confrontare solo due medie, si può utilizzare il test t di Student La formula per calcolare il t è la seguente: T DI STUDENT Quando si vogliono confrontare solo due medie, si può utilizzare il test t di Student La formula per calcolare il t è la seguente: t = X i X j s 2 i (n i 1) + s 2 j (n j 1) n i + n j - 2 1

Dettagli

Tasso di interesse e capitalizzazione

Tasso di interesse e capitalizzazione Tasso di interesse e capitalizzazione Tasso di interesse = i = somma che devo restituire dopo un anno per aver preso a prestito un euro, in aggiunta alla restituzione dell euro iniziale Quindi: prendo

Dettagli

Analisi di scenario File Nr. 10

Analisi di scenario File Nr. 10 1 Analisi di scenario File Nr. 10 Giorgio Calcagnini Università di Urbino Dip. Economia, Società, Politica giorgio.calcagnini@uniurb.it http://www.econ.uniurb.it/calcagnini/ http://www.econ.uniurb.it/calcagnini/forecasting.html

Dettagli

Applicazione alla domanda di sigarette (SW Par 12.4)

Applicazione alla domanda di sigarette (SW Par 12.4) Applicazione alla domanda di sigarette (SW Par 12.4) Perche ci interessa conoscere l elastica della domanda di sigarette? Teoria della tassazione ottimale: l imposta ottimale e l inverso dell elastica

Dettagli

Dipartimento di Economia Aziendale e Studi Giusprivatistici. Università degli Studi di Bari Aldo Moro. Corso di Macroeconomia 2014

Dipartimento di Economia Aziendale e Studi Giusprivatistici. Università degli Studi di Bari Aldo Moro. Corso di Macroeconomia 2014 Dipartimento di Economia Aziendale e Studi Giusprivatistici Università degli Studi di Bari Aldo Moro Corso di Macroeconomia 2014 1. Assumete che = 10% e = 1. Usando la definizione di inflazione attesa

Dettagli

Automazione Industriale (scheduling+mms) scheduling+mms. adacher@dia.uniroma3.it

Automazione Industriale (scheduling+mms) scheduling+mms. adacher@dia.uniroma3.it Automazione Industriale (scheduling+mms) scheduling+mms adacher@dia.uniroma3.it Introduzione Sistemi e Modelli Lo studio e l analisi di sistemi tramite una rappresentazione astratta o una sua formalizzazione

Dettagli

Esercitazione #5 di Statistica. Test ed Intervalli di Confidenza (per una popolazione)

Esercitazione #5 di Statistica. Test ed Intervalli di Confidenza (per una popolazione) Esercitazione #5 di Statistica Test ed Intervalli di Confidenza (per una popolazione) Dicembre 00 1 Esercizi 1.1 Test su media (con varianza nota) Esercizio n. 1 Il calore (in calorie per grammo) emesso

Dettagli

STATISTICA DESCRITTIVA SCHEDA N. 5: REGRESSIONE LINEARE

STATISTICA DESCRITTIVA SCHEDA N. 5: REGRESSIONE LINEARE STATISTICA DESCRITTIVA SCHEDA N. : REGRESSIONE LINEARE Nella Scheda precedente abbiamo visto che il coefficiente di correlazione fra due variabili quantitative X e Y fornisce informazioni sull esistenza

Dettagli

Alessandro Pellegrini

Alessandro Pellegrini Esercitazione sulle Rappresentazioni Numeriche Esistono 1 tipi di persone al mondo: quelli che conoscono il codice binario e quelli che non lo conoscono Alessandro Pellegrini Cosa studiare prima Conversione

Dettagli