Che cosa è la Validità?

Documenti analoghi

Principi generali. Vercelli 9-10 dicembre G. Bartolozzi - Firenze. Il Pediatra di famiglia e gli esami di laboratorio ASL Vercelli

Strumenti di indagine per la valutazione psicologica

OSSERVAZIONI TEORICHE Lezione n. 4

T DI STUDENT Quando si vogliono confrontare solo due medie, si può utilizzare il test t di Student La formula per calcolare il t è la seguente:

Inferenza statistica. Statistica medica 1

Metodi statistici per le ricerche di mercato

PROBABILITA CONDIZIONALE

1) Si consideri un esperimento che consiste nel lancio di 5 dadi. Lo spazio campionario:

Rapporto dal Questionari Insegnanti

Elementi di Psicometria con Laboratorio di SPSS 1

LEZIONE 3. Ing. Andrea Ghedi AA 2009/2010. Ing. Andrea Ghedi AA 2009/2010

come nasce una ricerca

La dispersione dei prezzi al consumo. I risultati di un indagine empirica sui prodotti alimentari.

Probabilità condizionata: p(a/b) che avvenga A, una volta accaduto B. Evento prodotto: Evento in cui si verifica sia A che B ; p(a&b) = p(a) x p(b/a)

Test d ipotesi. Statistica e biometria. D. Bertacchi. Test d ipotesi

ANALISI DELLE FREQUENZE: IL TEST CHI 2

Il ragionamento diagnostico TEST DIAGNOSTICO. Dott.ssa Marta Di Nicola. L accertamento della condizione patologica viene eseguito TEST DIAGNOSTICO

Statistica. Lezione 6

SPC e distribuzione normale con Access

Potenza dello studio e dimensione campionaria. Laurea in Medicina e Chirurgia - Statistica medica 1

Edited by Foxit PDF Editor Copyright (c) by Foxit Software Company, 2004 For Evaluation Only.

1. Distribuzioni campionarie

Statistiche campionarie

Elementi di Psicometria con Laboratorio di SPSS 1

Esercizi test ipotesi. Prof. Raffaella Folgieri aa 2009/2010

i criteri di valutazione

Università degli Studi di Milano Bicocca CdS ECOAMM Corso di Metodi Statistici per l Amministrazione delle Imprese CARTE DI CONTROLLO PER VARIABILI

Ai fini economici i costi di un impresa sono distinti principalmente in due gruppi: costi fissi e costi variabili. Vale ovviamente la relazione:

f(x) = 1 x. Il dominio di questa funzione è il sottoinsieme proprio di R dato da

Università di Firenze - Corso di laurea in Statistica Seconda prova intermedia di Statistica. 18 dicembre 2008

Capitolo 2 Distribuzioni di frequenza

Misure finanziarie del rendimento: il Van

Corso di. Dott.ssa Donatella Cocca

Misure finanziarie del rendimento: il Van

Corso di laurea in Scienze Motorie Corso di Statistica Docente: Dott.ssa Immacolata Scancarello Lezione 14: Analisi della varianza (ANOVA)

Calcolo del Valore Attuale Netto (VAN)

Pertanto la formula per una prima approssimazione del tasso di rendimento a scadenza fornisce

Calcolo delle probabilità

SERVIZIO NAZIONALE DI VALUTAZIONE

ESAMI DI QUALIFICA PROFESSIONALE

Laboratorio di Didattica dell analisi: Analisi a priori sulla funzione valore assoluto

RELAZIONE SUL TEST GENERALE D ACCESSO AL CORSO DI LAUREA IN LINGUE E CULTURE STRANIERE

Corso di Laurea in Scienze e Tecnologie Biomolecolari. NOME COGNOME N. Matr.

Il concetto di valore medio in generale

Esercitazione n.2 Inferenza su medie

Capitolo 2. Operazione di limite

Ufficio Scolastico Regionale per l Abruzzo. Rapporto dal Questionari Studenti

Prova di autovalutazione Prof. Roberta Siciliano

Un gioco con tre dadi

RISCHIO E CAPITAL BUDGETING

Corso di Psicometria Progredito

PROBABILITA MISURARE L INCERTEZZA Lanciamo due dadi, facciamo la somma dei punteggi ottenuti. Su quale numero mi conviene scommettere?

LA DISTRIBUZIONE DI PROBABILITÀ DEI RITORNI AZIONARI FUTURI SARÀ LA MEDESIMA DEL PASSATO?

Metodi statistici per l economia (Prof. Capitanio) Slide n. 9. Materiale di supporto per le lezioni. Non sostituisce il libro di testo

3. Confronto tra medie di due campioni indipendenti o appaiati

Laboratorio di Pedagogia Sperimentale. Indice

IL COLLAUDO DI ACCETTAZIONE

Il Controllo Interno di Qualità dalla teoria alla pratica: guida passo per passo IL MODELLO TEORICO. Pasquale Iandolo

risulta (x) = 1 se x < 0.

19txtI_BORRA_ /11/13 10:52 Pagina 449 TAVOLE STATISTICHE

Teoria dei Giochi. Anna Torre

LA CORRELAZIONE LINEARE

Che cos è l intelligenza e come funzionano i test del Q.I.

Progetto LLP-LDV-TOI-09-IT-0448 ValeRIA Valutare la relazione tra insegnamenti e apprendimenti

APPUNTI DI MATEMATICA LE FRAZIONI ALGEBRICHE ALESSANDRO BOCCONI

Esercitazione #5 di Statistica. Test ed Intervalli di Confidenza (per una popolazione)

Università del Piemonte Orientale. Corsi di Laurea Triennale di area tecnica. Corso di Statistica Medica

~ Copyright Ripetizionando - All rights reserved ~ STUDIO DI FUNZIONE

Si comincia a costruire un test partendo dallo studio della caratteristica da misurare.

E naturale chiedersi alcune cose sulla media campionaria x n

Capitolo 12 La regressione lineare semplice

LA STATISTICA si interessa del rilevamento, dell elaborazione e dello studio dei dati; studia ciò che accade o come è fatto un gruppo numeroso di

Capitolo Terzo Valore attuale e costo opportunità del capitale

Concetto di potenza statistica

Presentazione delle prove ITALIANO. Alessia Mattei - Ricercatrice INVALSI 10 luglio 2014

IL RISCHIO D IMPRESA ED IL RISCHIO FINANZIARIO. LA RELAZIONE RISCHIO-RENDIMENTO ED IL COSTO DEL CAPITALE.

Matematica generale CTF

Analisi bivariata. Dott. Cazzaniga Paolo. Dip. di Scienze Umane e Sociali paolo.cazzaniga@unibg.it

FONDAMENTI DI PSICOMETRIA - 8 CFU

Tasso di occupazione per fasce di età. Provincia di Piacenza, ,3 83,1 77,7 27,6 16, anni anni anni.

VERIFICA DELLE IPOTESI

Nozioni generali. Principali forme di trattamento

Servizi di consulenza specialistica per IGRUE

Siamo così arrivati all aritmetica modulare, ma anche a individuare alcuni aspetti di come funziona l aritmetica del calcolatore come vedremo.

La manutenzione come elemento di garanzia della sicurezza di macchine e impianti

Comunicato n. 129 /Ufficio Allievi. Oggetto: CAMBIO INDIRIZZO DI STUDI -ESAMI INTEGRATIVI ESAMI IDONEITA

TEMA 5: Introduzione al costo del capitale

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 8

Teoria delle code. Sistemi stazionari: M/M/1 M/M/1/K M/M/S

Analisi Costi-Benefici

ENTE TITOLARE: ISTITUTO VENETO PER IL LAVORO

Istituzioni di Statistica e Statistica Economica

Statistica. Esercitazione 15. Alfonso Iodice D Enza iodicede@unicas.it. Università degli studi di Cassino. Statistica. A. Iodice

ELEMENTI DI STATISTICA

Nota interpretativa. La definizione delle imprese di dimensione minori ai fini dell applicazione dei principi di revisione internazionali

Regressione Mario Guarracino Data Mining a.a. 2010/2011

Mining Positive and Negative Association Rules:

La Moneta e i Mercati Monetari. Introduciamo una nuova definizione della domanda di moneta (domanda di moneta di tipo keynesiano)

LE SUCCESSIONI 1. COS E UNA SUCCESSIONE

Transcript:

Validità

Che cosa è la Validità? Un test è valido quando misura ciò che intende misurare. Si tratta di un giudizio complessivo della misura in cui prove empiriche e principi teorici supportano l adeguatezza e l appropriatezza delle conclusioni basate su punteggi al test (Messick, 1989: 13)

Tassonomia Tradizionale Validità di Facciata COSTRUTTO Construct Validità Validità del Contenuto Validità di Criterio Validità di Costrutto Concorrente Predittiva

Validità di facciata Il test sembra una misura sensata del costrutto. Leggendo gli item, riesco a capire che costrutto voglio misurare. È importante nelle situazioni di selezione Una buona validità di facciata motiva i candidati (aspetto positivo) Una buona validità di facciata permette ai candidati di aggiustare le proprie risposte (aspetto negativo)

Validità di Contenuto Rappresentatività del Contenuto del costrutto. (Campionamento degli item) Rilevanza del Contenuto Gli item del test devono coprire l intera definizione teorica del costrutto in esame, e cogliere gli aspetti più importanti del costrutto. Senza validità del contenuto non ci sono altre forme di validità Se non abbiamo colto adeguatamente gli aspetti del costrutto, non può esservi alcuna forma di validità Questa forma di validità non viene valutata in modo quantitativo

Validità Rispetto al Criterio Validità Concorrente : il punteggio al test concorda con altre misure valide dello stesso costrutto. La validità concorrente si stabilisce, in generale, tramite la correlazione. Esempio Il punteggio nella scala di autovalutazione dell Aggressività da parte degli scolari correla.70 con la valutazione degli scolari fatta dagli insegnanti Il punteggio nella Scala di Disperazione di Beck (Beck Hopelessness Scale) correla.81 con il Beck Depression Inventory.

Difficoltà di verificare la validità concorrente Stricto sensu, misurare la validità concorrente è possibile se esiste una misura valida che che funga da paragone. Se non abbiamo una misura valida di confronto, la validità concorrente non può essere verificata. Può essere però indagata in modo indiretto. È possibile verificare se esistono delle relazioni coerenti fra il nuovo test e misure (valide) di altri costrutti che debbono essere in vario modo collegate al costrutto per il quale si vuole sviluppare una misura

Validità Rispetto al Criterio Se un test è usato per avere una stima del punteggio in un criterio differito nel tempo parliamo di Validità Predittiva del Test. Validità Predittiva - il punteggio nel test è capace di predire accuratamente la prestazione nel dominio teorico cui il test appartiene. Esempi: Il punteggio verbale del SAT (una specie di test d ingresso) correla.40 con la media degli esami del primo anno alla fine del primo semestre. La scala delle Relazioni Spaziali correla.70 con il successo nella prova di disegno tecnico per studenti degli Istituti Tecnici.

Difficoltà di verificare la validità predittiva Il criterio deve essere valido concettualmente: il criterio deve essere teoricamente connesso al costrutto che si vuole misurare. Il criterio deve essere misurato in modo valido: Se un criterio concettualmente valido non è misurato in modo valido e attendibile, non posso interpretare la validità predittiva. La validità, in tutti i suoi aspetti, è un problema attinente sia alle variabili indipendenti, sia dipendenti

Validità Rispetto al Criterio Validità Concorrente Generalmente si valuta questa validità sul coefficiente di correlazione tra i due test. Problema: quando la correlazione è bassa come la interpretiamo? Accertare i requisiti di attendibilità di ciascun test Accertare la validità di contenuto, predittiva o rispetto alla funzione di ciascun test Accertare quale test è più rapido da somministrare Accertare quale test può essere somministrato ad un ampia gamma di persone Accertare quali attributi rendono un test preferibile all altro

Validità Rispetto al Criterio Validità Predittiva (il criterio è un altra misura) Gli elementi da prendere in considerazione sono: Problema pratico al quale si vuole offrire una soluzione (es. selezionare in un azienda i soggetti con migliori qualità manageriali) Criterio riconosciuto adeguato (sia dal cliente sia dal ricercatore) Intervallo di tempo tra la somministrazione del test e la rilevazione della misura criterio Campione ritenuto accettabile (es. anno di corso degli studenti) Test utilizzato per la predizione (dipende dalla misura che ci interessa)

Validità Rispetto al Criterio: riassunto Si differenzia in: Validità Concorrente il criterio è contemporaneo al test; a volte si tratta di altri strumenti simili al test in esame Validità Predittiva il criterio è successivo al test, spesso si tratta di esiti importanti per l individuo Si stima con: Coefficiente di Validità correlazione r Coefficiente di Determinazione = r 2 Accuratezza della diagnosi (ROC)

Validità di Costrutto Validità di Costrutto - cerca di verificare se un punteggio al test misura il costrutto d interesse. Poiché i costrutti sono astrazioni concettuali, la validità bisogna derivarla in maniera indiretta Il modo di procedere è quello di valutare un insieme di prove che nel loro complesso stabiliscono la validità di Costrutto

Validità di Costrutto La Validità Concorrente è di grande aiuto nel determinare la Validità di Costrutto di un Test. Nell indagare la validità di costrutto si distingue la validità concorrente in due aspetti differenti: Validità Convergente - Alta Correlazione con altre Misure dello stesso Costrutto. Validità Discriminante - Bassa correlazione con altre Misure di altri Costrutti

Validità di Costrutto Approccio per Gruppi Contrapposti Matrici Multi-Tratto-Multi-Metodo MTMM Matrici Multi-Tratto-Multi-Item MTMI Analisi Fattoriale

Validità Rispetto al Criterio Un modo diverso rispetto alla correlazione per valutare la validità del criterio è: Risultato al Criterio + - + Risultato al Test Positivi Falsi positivi - Falsi negativi Negativi

La rappresentatività del campione

Il problema fondamentale della campionatura riguarda la rappresentatività del campione rispetto alla popolazione Individuare la popolazione di riferimento e da questa estrarre il campione

Estrazione del campione Campione casuale semplice: estrazione da una lista con metodo puramente casuale Campionatura sistematica: estrarre ad intervalli regolari i soggetti attinti da una lista Campionatura a quote o mirata: somministrare il test a persone che abbiano certe caratteristiche Campionatura a palla di neve: reperito u piccolo campione, lo si utilizza per reperire altri soggetti campionatura di convenienza: (studenti, pazienti), si può ovviare a problemi di distorsione con validazioni incrociate

La rappresentatività del campione non dipende dalla numerosità ma dalle modalità seguite per estrarre il campione dalla popolazione. Quando il campione è rappresentativo la numerosità aumenta la potenza del campione

Qualunque misura presa su un campione invece che sulla popolazione ha un suo errore standard (in base al quale noi possiamo sapere quanto si discosta dalla misura corrispondente che potremmo prendere sull intera popolazione

Potenza dei test statistici La numerosità del campione garantisce potenza ai test (probabilità che una ricerca porti a risultati significativi) La potenza di un test è data dalla probabilità di respingere l ipotesi nulla quando è falsa Potenza = 1-probablità di commettere un errore di II tipo = 1-β

Validità Predittiva MALATO/ BOCCIATO Risultato al Criterio SANO/ PROMOSSO VP = Veri Positivi FP = Falsi Positivi FN = Falsi Negativi VN = Veri negativi + - Risultato al Test VP e VN = DECISIONE CORRETTA FP e FN = DECISIONE ERRATA Falsi Positivi sono Errori di I Tipo Falsi Negativi sono Errori di II Tipo

Validità Predittiva TOTALE + TOTALE - MALATO/ BOCCIATO VP = Veri Positivi FN = Falsi Negativi TOTALE MALATI/ BOCCIATI SANO/ PROMOSSO FP = Falsi Positivi VN = veri negativi TOTALE SANI/ PROMOSSI Totale + Totale - Potere Predittivo Positivo = Quanti VP sul totale dei malati? Potere Predittivo Negativo = Quanti VN sul totale dei sani? Sensitività = Quanti VP sul totale dei Positivi? Specificità = Quanti VN sul totale dei Negativi?

Validità Predittiva (Extra) PPP = Quanti VP sul totale dei malati? = 50/54 =.93 PPN = Quanti VN sul totale dei sani? =121/124 =.98 Sensitività = Quanti VP sul totale dei Positivi? = 50/53 =.94 Specificità = Quanti VN sul totale dei Negativi? = 121/125 =.97

Validità Predittiva In realtà schizofrenici In realtà normali Totale T=70 o più (diagnosticati come schizofrenici) 30 VP 1 FP 31 T=69 o meno (diagnosticati come normali 20 49 FN VN 50 50 69 100 Scala MMPI M=50 e ds =10. Nella validazione originale nel gruppo sperimentale di pazienti psichiatrici il 60% otteneva Un punteggio superiore a T=70, solo il 2% del gruppo di normali otteneva un punteggio T= 70 (BUONA VALIDITA DEL TEST In tabella viene sottoposto MMPI ad 100 persone il 50% sano e il 50% schizofrenico

Validità Predittiva In realtà schizofrenici In realtà normali Totale T=70 o più (diagnosticati come schizofrenici) 0.6 VP 2,0 FP 2,6 T=69 o meno (diagnosticati come normali 0,4 97,0 FN VN 1,0 99,0 97,4 100 Nella popolazione normale 1% di soggetti è schizofrenico. Popolazione di riferimento diversa dalla precedente Il 97,6% coincidono con la diagnosi e lo 0,4% è di falsi negativi Tutto dipende dalla somiglianza fra la composizione del campione di validazione e la composizione delle popolazioni a cui vengono generalizzati i risultati Conclusione: stare attenti all uso dei punteggi cut-off

Ipotizziamo che lo 0.01% (1%) dei bambini di età compresa tra i 3 anni e i dieci anni risulta aver subito una abuso sessuale. Dai dati pubblicati in letteratura sappiamo che lo 0.80 (80%) dei bambini di età compresa tra i tre e i dieci anni che ha subito un abuso sessuale risulta positivo al test X In letteratura è anche noto che lo 0.096 (9.6%) dei bambini di età superiore ai tre anni che non ha subito abusi sessuali ottiene un risultato positivo al test. A questo punto qual è la probabilità che il bambino A.R., di età compresa tra i tre e i 10 anni abbia subito un abuso sessuale se ha ottenuto un risultato positivo al test?

In altre parole: qual è la probabilità condizionata che il bambino A.R. abbia subito un abuso sessuale avendo ottenuto un risultato positivo al test X? La risposta più frequente, ma errata, varia tra il 70% e 80% di probabilità (sovrastima del fenomeno)

Alcuni autori (Gigerenzer e Hoffrage, 1995) hanno ipotizzato che sia i professionisti che le persone comuni siano in grado di operare ragionamento corretti a patto di poter ragionar su dati assoluti e non relativi

Ipotizziamo che 100 bambini su 10 000 (1%) dei bambini di età compresa tra i tre anni e i dieci anni risulta aver subito una abuso sessuale. Dai dati pubblicati in letteratura sappiamo che 80 su 100 (80%) dei bambini di età superiore ai tre anni che ha subito un abuso sessuale risulta positivo al test X In letteratura è anche noto che 950 bambini su 9900 (9.6%) dei bambini di età compresa tra i tre anni e i dieci anni che non ha subito abusi sessuali ottiene un risultato positivo al test X. A questo punto, se 10000 bambini avessero ottenuto un risultato positivo al test quanti di loro sarebbero abusati? Anche in questo caso risulta una sovrastima del fenomeno.

Sappiamo che su un totale di 10000 bambini con un età compresa tra i tre e i dieci anni ve ne sono 100 che hanno subito un abuso sessuale. Questa informazione rappresenta la PREVALENZA dell abuso sessuale nella popolazione esaminata, (probabilità a priori di un bambino MR di essere stato abusato). 80 di questi 100 bambini abusati risultano positivi al test X. Escludendo i 100 bambini abusati, ne rimangono 9900 in uno stato di non abuso (sani). Tra questi 950 ottengono un risultato positivo al test X, nonostante non siano stati abusati. La probabilità di avere un test positivo, data l assenza di abuso sessuale è il complemento della probabilità di avere un test negativo, data l assenza di abuso. Tirando le somme vi sono 950 + 80 bambini che hanno un risultato positivo al test, per un totale di 1030 bambini. Di questi, tuttavia 80 su 1030 hanno subito un abuso sessuale.

Quindi la risposta corretta è che la proporzione di bambini con un test positivo che ha effettivamente subito un abuso, e quindi che un bambino sia stato abusato dato la positività del test è pari a 0.077 (8%). L errore è l ignorare il tasso di prevalenza della problematica che è invece determinante nell influenzare il potere predittivo di un test.

Validità Predittiva (Extra) 1,00,75,50 ROC Curve La curva ROC (Receiver Operating Curve) mette in relazione sensitività e specificità di un test. Sensitivity,25 0,00 Un buon test quello la cui area sotto la curva è massima 0,00,25,50,75 1,00 1 - Specificity

Attenuazione I coefficienti di validità basati sulla correlazione sono distorti dall attendibilit attendibilità (sempre 0) Attendibilità meno che perfette attenuano la stima della vera validità Errore Tratto Tratto Errore

Attenuazione È stata quindi proposta una correzione per l attenuazione (rapporto tra il coefficiente di validità trovato e i coefficienti di attendibilità dei due test posti a confronto)

Correzione per l attenuazione Correzione del criterio ' 12 r = r 12 r 22 Correzione del Test e del Criterio '' 12 r = r r 12 11 r 22

Correzione per l attenuazione Attenzione: quando si dice che è stata introdotta la correzione per attenuazione, bisogna per prima cosa controllare i valori dei coefficienti di attendibilità, se sono bassi, anche un valore elevato del coefficiente di validità corretto non è sufficiente a sanare la debolezza metrica del test

Approccio per Gruppi Contrapposti Se un test misura ciò che dichiara di misurare allora soggetti con punteggi Alti e Bassi nel test devono comportarsi in maniera differente entro il dominio concettuale del costrutto. Esempi banali: Alti Ansiosi vs. Bassi Ansiosi: ci si aspetta che i due gruppi si comportino in maniera diversa mentre aspettano i risultati di un esame. Attenti vs. Disattenti: ci si aspetta che i due gruppi si comportino in maniera diversa mentre l insegnante parla a lezione.