Caso 1: Estroversione: Il mio tratto di estroversione fa si che io risponda in un certo modo alle domande del test => Analisi fattoriale



Documenti analoghi
Teoria e tecniche dei test LA VALIDITA 10/12/2013. a) SIGNIFICATIVITA TEORICA E OSSERVATIVA DI UN COSTRUTTO. Lezione 6 seconda parte LA VALIDITA

Matrici di Raven (PM47)

Misurazione e attendibilità

ANALISI AFFIDABILITÀ SCALE

Caratteristiche di un buon test

PROCEDURE DI VALIDAZIONE E DI CONTROLLO DELL ATTENDIBILITÁ VALIDITÁ

MISURAZIONE. Sistema empirico (SE): ciò che si vuole misurare; costituito da elementi legati tra loro da relazioni

Teoria e tecniche dei test DIMENSIONALITA DI UN TEST DIMENSIONALITA DI UN TEST (2) 03/04/2012. Lezione 7 DIMENSIONALITA e ATTENDIBILITA

Perché costruire un test psicologico è difficile. Misurazione e attendibilità

Teoria e tecniche dei test. Lezione 4 a.a. 2013/14 TEORIE E MODELLI DI COSTRUZIONE DEI TEST PSICOLOGICI LA STRUTTURA DI UNA TEORIA

la struttura di una teoria

Teoria e tecniche dei test LA STRUTTURA DI UNA TEORIA 20/03/2012 LIVELLO DI ASTRAZIONE TEORICO LIVELLO DI ASTRAZIONE DERIVATO

2. INDICI DI DISCRIMINAZIONE 3. STUDIO DELLA DIMENSIONALITA DI UN TEST

Psicologia della personalità Il testing psicologico. A.A. 2018/19 Esercitazioni prof.ssa Lisa Di Blas

Metodologie Quantitative

Corso di Psicometria Progredito

Prof. Anna Paola Ercolani (Università di Roma) Lez. 1 - La misura del comportamento - cosa misuriamo?

Il progetto sperimentale

Indice: Strategie generali Strategie specifiche Ripetizione Metodi per aumentare la validità

LA MISURA IN PSICOLOGIA

Psicometria con Laboratorio di SPSS 1

Corso di Psicometria Progredito

FONDAMENTI DI PSICOMETRIA - 8 CFU

testi di riferimento struttura del corso obiettivi del corso DIAGNOSTICA PSICOLOGICA lezione 1

perché la risposte ad un item differiscono tra di loro?

Elementi di Psicometria

Questi appunti costituiscono soltanto una traccia sintetica del Corso di Laboratorio di Fisica, a prescindere dalle opportune spiegazioni e dai

Metodologia della ricerca educativa

Strumenti di indagine per la valutazione psicologica

le scale di misura scala nominale scala ordinale DIAGNOSTICA PSICOLOGICA lezione si basano su tre elementi:

Corso di Psicometria Progredito

Grandezze fisiche e loro misura

Scopo dello studio. Metodi

Vantaggi della scelta verso l utilizzo di un solo soggetto:

Errori sistematici e casuali

MISURE ANALITICHE MISURE ANALITICHE. η = x - θ. θ (valore vero) x (misura) ERRORE TOTALE. η 1 > 0

STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA

Metodologia della ricerca 1

Quantificare la variabilità dei processi ecologici

Analisi Fattoriale Concetti introduttivi Marcello Gallucci Milano-Bicocca

INDICE PARTE METODOLOGICA

IL PROCESSO DI ASSESSMENT

DOCIMOLOGIA FRANCESCO AGRUSTI. anno accademico CdL Scienze dell Educazione 9 (6+3) CFU

TOPOGRAFIA 2013/2014. Prof. Francesco-Gaspare Caputo

Concetti principale della lezione precedente

standardizzazione dei punteggi di un test

Gli strumenti di misura. Corso di Fisica ed Elementi di Informatica

3 - Esercizi: strumenti di misura, propagazione degli errori, media, deviazione standard, intervalli

Prefazione Ringraziamenti

NOTE DI MATEMATICA APPLICATA ALL ECONOMIA

Psicometria (8 CFU) Il concetto di misura

TEORIA DEGLI ERRORI DI MISURA, IL CALCOLO DELLE INCERTEZZE

STATISTICA. Regressione-3 L inferenza per il modello lineare semplice

Teoria dei Fenomeni Aleatori AA 2012/13

MISURE DI DISPERSIONE

CALCOLO DELL ERRORE E VALUTAZIONE DI UN METODO ANALITICO

Teoria e tecniche dei test

C.I. di Metodologia clinica

Richiami di inferenza statistica Strumenti quantitativi per la gestione

Richiami di inferenza statistica. Strumenti quantitativi per la gestione. Emanuele Taufer

Selezione del disegno di ricerca. Quantitativo e qualitativo

Compiti tematici dai capitoli 2,3,4

Premessa e obiettivi. dell individuo nella loro pienezza e totalità. ORGANIZZAZIONE STRATEGICA. Risorse Umane POTENZIALE

Luigia Camaioni, Paola Di Blasio, Psicologia dello sviluppo Lo studio dello sviluppo

TEST SULLE CONOSCENZE ED ESERCIZI DEL MANUALE 2 SUGLI INDICATORI

SCALA: INSIEME COERENTE DI ELEMENTI CONSIDERATI INDICATORI DI UN CONCETTO PIÙ GENERALE, LA COSIDETTA VARIABILE LATENTE

I TEST STATISTICI. dott.ssa Gabriella Agrusti

Indice. Prefazione all edizione italiana. Gli Autori e i Curatori dell edizione italiana PARTE PRIMA ASPETTI GENERALI

Laboratorio di Fisica-Chimica

Tipi di variabili. Indici di tendenza centrale e di dispersione

LABORATORIO DI FISICA I

La progettazione di un indagine statistica

Modelli e procedure per l educazione degli adulti

Corso di Psicometria Progredito

o Si sceglie il modello che meglio si adatta alla realtà osservata, cioè quello per il quale risulta più probabile la realtà osservata.

La V di Gowin A cura di Lucilla Ruffilli e Daniela Berardi Laboratorio Epistemologico Pensare per storie

il metodo scientifico comporta l uso sistematico: intesi in senso costruttivo e non per spirito contraddizione o per polemica

Econometria. lezione 13. validità interna ed esterna. Econometria. lezione 13. AA Paolo Brunori

Introduzione. Eduardo Rossi 2. Marzo Università di Pavia (Italy) Rossi Introduzione Econometria / 11

Analisi della varianza

CONVEGNO INTERNAZIONALE. La longevità nella disabilità intellettiva. Trento5-6 ottobre 2012

Corso di Psicometria Progredito

Concetti fondamentali Introduzione ai concetti fondamentali in psicometria

Elementi di Psicometria con Laboratorio di SPSS 1

Il metodo statistico: prova dell ipotesi, intervallo di confidenza

Teoria e tecniche dei test. Obiettivi del corso. Il concetto di misura 25/11/2013. Lezione /14 La misura del comportamento

Dr. Marco Vicentini Anno Accademico Rev 02/04/2011

Metodi statistici per le ricerche di mercato

Breve ripasso di statistica

Distribuzione Gaussiana - Facciamo un riassunto -

Grandezze e Misure.

L'analisi bivariata (associazione e cograduazione)

Metodi Quanti Qualitativi per le scienze sociali

Teoria e tecniche dei test

Acquisizione, rappresentazione e analisi di dati sperimentali

Modelli e procedure per l educazione degli adulti

Distribuzioni campionarie. Antonello Maruotti

Statistica descrittiva in due variabili

Transcript:

ATTENDIBILITA E VALIDITA DELLA MISURAZIONE (cap 7) Un attributo psicologico e un costrutto, ossia una variabile psicologica latente. Latente (contrario di manifesta) significa che non e ne osservata e ne osservabile direttamente. Per renderla misurabile, e necessario operazionalizzarla. 1- Definizione del costrutto 2- Scomposizione del costrutto in sotto dimensioni 3- Individuazione di indicatori che siano manifestazione di ciascuna dimensione, ad esempio sintomi fisici, comportamentali e cognitivi psicologia, nella maggior parte dei casi, si misurano COSTRUTTI, ossia concetti astratti che indicano un complesso della vita psichica degli individui, non osservabili direttamente ma inferiti a partire da una serie di indicatori empirici osservabili. Gli INDICATORI sono variabili o misure empiriche che indicano il costrutto non osservabile tramite una regola di corrispondenza. Il rapporto tra costrutto e indicatori può essere di due tipi e da questo dipende la denominazione degli indicatori, che si distinguono in formativi e riflettivi. Secondo la teoria classica dei test, un indicatore ideale dovrebbe riflettere un unico costrutto, senza essere influenzato da altri costrutti. Un costrutto deve essere definito da più indicatori. Caso 1: Estroversione: Il mio tratto di estroversione fa si che io risponda in un certo modo alle domande del test => Analisi fattoriale Caso 2: Rischio di morte: La combinazione degli indicatori (ad esempio, livello di colesterolo nel sangue, propensione a correre in macchina e propensione a fare uso di alcol) concorrono a determinare il mio rischio di morte => Analisi in componenti principali Stabilità, accuratezza e precisione Accuratezza: il grado di corrispondenza tra misurazione e costrutto misurato (validità) Precisione e stabilità: il grado di sistematicità e coerenza con cui eseguiamo la misurazione (attendibilità) Se uno strumento di misura è accurato allora è anche stabile e preciso. Non e necessariamente vero il contrario: uno strumento può essere preciso ma non accurato, cosi come stabile ma non accurato. È ATTENDIBILE (o affidabile) lo strumento che fornisce misurazioni tra loro coerenti (se effettuando più misurazioni indipendenti dello stesso costrutto esse risultano tra loro coerenti). L attendibilità è pertanto il

grado di accordo tra misurazioni indipendenti del medesimo costrutto. è VALIDO lo strumento di misura che effettivamente misura la proprietà per cui e stato costruito. La validità e pertanto il grado in cui uno strumento misura ciò che dice di misurare. L attendibilità e considerata la base della validità: una misurazione, per essere valida, deve essere anche attendibile. Si dice anche la l attendibilità e il limite massimo della validità: una misurazione non può essere valida più di quanto sia attendibile. Ma attenzione: una misurazione può essere attendibile senza per questo essere necessariamente anche valida. Solitamente si associa l attendibilità all errore CASUALE (accidentale) e la validità all errore SISTEMATICO. L attendibilità e quindi più facilmente rilevabile della validità. L errore accidentale è individuabile attraverso repliche della misurazione sullo stesso soggetto e le variazioni di valore tra le rilevazioni sono dovute all errore accidentale. La validità è di più difficile individuazione dato che l errore sistematico che e alla sua base si presenta costantemente in ogni rilevazione e quindi rende lo stato effettivo della proprietà studiata non conoscibile. L attendibilità corrisponde al grado di fiducia che è lecito riporre in uno strumento, in quanto produce misurazioni coerenti. L attendibilità si riferisce quindi al grado di coerenza tra misurazioni indipendenti della medesima proprietà. È legittimo pretendere anche una stabilità diacronica delle misurazioni, se la proprietà mentale che stiamo cercando di misurare non subisce variazioni sostanziali nel tempo. In base alla teoria classica dei test sappiamo che: X = V + E E, di conseguenza, anche che: Siccome il valore vero V e dato da ripetizioni infinte della misurazione, altro non e che il valore atteso di X: Da cui discende che: Assunti: gli errori casuali non sono in relazione tra loro punteggi osservati ed errori non sono in relazione tra loro L attendibilità è ricavabile come rapporto tra la varianza della parte vera var(v) e la varianza totale del punteggio osservato var(x). Questo rapporto indica in quale misura la variabilità osservata dei punteggi dipende dalle reali variazioni degli stati individuali sulla proprietà misurata dal test, antiche dall errore casuale.

Diverse applicazioni dell attendibilità Metodi basati su due applicazioni Test-retest: coerenza diacronica dei punteggi ricavati a partire dal medesimo strumento, applicato al tempo t e t+1 Forme parallele o equivalenti: coerenza sincronica dei punteggi ricavati a partire da due strumenti paralleli, applicati al tempo t Metodi basati su una sola applicazione Split-half: coerenza dei punteggi ricavati dividendo in due il medesimo strumento, applicato al tempo t (consistenza interna dello strumento) Generalizzazione dello split-half: consistenza interna dello strumento valutata attraverso la media delle correlazioni inter-item ricavabili a partire da tutte le possibili divisioni a meta (α di Cronbach, 1951) Accordo tra valutatori: concordanza delle valutazioni espresse da diversi giudici L α di Cronbach di una scala di misura Utilizzato per valutare la consistenza (coerenza) interna di un test. Varia tra 0 e 1. NON fornisce informazioni sulla dimensionalità della scala. Media delle intercorrelazioni tra tutte le possibili divisioni a meta del test. Dipende dalla intercorrelazione degli item e dalla lunghezza della scala (numerosità degli item). FORMULA PROFETICA DI SPEARMAN-BROWN = identifica la relazione tra attendibilità e numero di item. Si utilizza una volta calcolato il valore dell α e stabilita la lunghezza di una scala per stimare l attendibilità di un test di lunghezza diversa oppure per individuare il numero di item che posso aggiungere/eliminare dal test di partenza per ottenere una certa attendibilità prestabilita. Varia tra 0 (min coerenza) a 1 (max coerenza) ma non esiste accordo unanime su quale sia il livello minimo che deve assumere l α. Siccome dipende non solo dalle intercorrelazioni tra gli item ma anche dalla loro numerosità, si deve tenerne conto nella scelta del livello. Attenzione agli item ridondanti (non informativi) => scale gonfiate Le scale gonfiate sono alla base di due problemi: Paradosso dell attenuazione: Incrementare oltre un certo limite la coerenza interna di una scala non aumenta necessariamente la validità di costrutto e anzi, in alcuni casi, finisce per limitarla. Ad esempio, se la maggior coerenza viene ottenuta sovra rappresentando con item ridondanti una dimensione del costrutto a scapito delle altre Dilemma della larghezza della banda: L eccessivo restringimento del contenuto della scala anche se permette di prevedere comportamenti specifici (alta fedeltà) non correla con nient altro di rilevanza psicologica. Al contrario, item troppo generici hanno alto valore predittivo rispetto a costrutti psicologicamente rilevanti, a spese pero di comportamenti specifici (bassa fedeltà).

K di Cohen Coefficiente di attendibilità utilizzato quando ci sono due o più valutatori che eseguono la medesima misurazione. Il concetto di base dell attendibilità e basato sul grado di accordo tra questi giudici (o rilevatori). Due osservatori codificano indipendentemente lo stesso flusso di comportamento. Dopo la codifica si costruisce la MATRICE DI CONFUSIONE, che riporta in riga le osservazioni riferibili al primo osservatore e in colonna quelle del secondo. Nella diagonale principale si trovano i casi di accordo (AO) tra i giudici: Nelle celle extra-diagonal si trovano i casi di disaccordo (D) tra i giudici. I totali marginali di riga e di colonna consentono di calcolare l accordo dovuto al caso (AC) L accordo vero e dato da: La formula del K di Cohen: Una volta che abbiamo calcolato l accordo osservato, il disaccordo, l accordo dovuto al caso e, di conseguenza, quello vero, possiamo calcolare il K di Cohen. Per comodità alcune volte si moltiplica il risultato per 100. Validità della misurazione Uno dei momenti più difficili nel processo di sviluppo di una misura e quello dell'interpretazione dei punteggi ottenuti dalla misurazione. La registrazione di una significativa affidabilità rivela solo che lo strumento misura veramente qualcosa ma non da alcuna informazione sulla natura di ciò che si sta misurando. La difficoltà deriva dal fatto che la validazione può essere verificata all'interno di un sistema di relazioni ipotizzate tra il costrutto di interesse e altri costrutti; tali relazioni possono essere di causa, effetto o di correlazione. Le prove di validità implicano la verifica simultanea dell'ipotesi riguardante i costrutti e lo strumento. La validazione di una misura può quindi essere vista come la verifica di una teoria. Il processo di validazione non può essere affrontato prima che non sia stato portato a termine quello di verifica dell'affidabilità. VALIDITÀ DI CONTENUTO E il grado con cui gli item dello strumento costituiscono un campione rappresentativo dell universo dei comportamenti relativi al costrutto. VALIDITÀ DI CRITERIO

È il grado di corrispondenza tra la misura e una variabile esterna, diversa dal costrutto originario, che si assume come criterio di riferimento. VALIDITÀ DI COSTRUTTO E il grado con cui la misura del costrutto correla con misure dello stesso costrutto fatte con metodi diversi (CONVERGENTE) e non correla con misure di costrutti diversi fatte con lo stesso o con metodi diversi (DIVERGENTE) VALIDITÀ NOMOLOGICA E il grado con cui il costrutto che vogliamo misurare si inserisce in una serie di relazioni predittive tra costrutti e criteri appositamente definiti. Il costrutto predice ciò che deve predire e non predice ciò che non deve predire, e si inserisce in una rete di relazioni di costrutti affini. VALIDITÀ DI FACCIATA Ha a che vedere con la serietà e l utilità percepita del test da parte dei soggetti cui il test e destinato. Validità di contenuto E il grado con cui gli item dello strumento costituiscono un campione rappresentativo dell universo dei comportamenti relativi al costrutto (Pedon Gnisci). E il grado con cui gli elementi di uno strumento di assessment (valutazione sistematica del comportamento di una persona) sono rilevanti e rappresentativi del costrutto target per un particolare scopo di valutazione (Haynes 1995). La convalida può avvenire solo su un piano puramente LOGICO (alcuni autori parlano di convalida logica) e consiste nella scomposizione analitica del concetto in esame al fine di assicurarsi che tutte le dimensioni siano state ricoperte dagli indicatori selezionati. Alcuni fanno rientrare nella validità di contenuto anche la validità di facciata, ovvero il grado in cui gli item paiono ragionevoli e plausibili indicatori del costrutto. Validità in relazione ad un criterio (predittiva/concorrente) E il grado di corrispondenza tra la misura e una variabile esterna, diversa dal costrutto originario, che si assume come criterio di riferimento. La logica sottostante e la ricerca di una misura, detta criterio, che possa essere considerata una buona approssimazione della variabile di interesse. Il punteggio di un test e utile se consente di stimare o predire il punteggio nella variabile criterio. Due strategie: 1- rapportare il punteggio ottenuto nel test a un criterio esterno (successivo ed indipendente) dalla misura stessa (ad esempio, la valutazione a posteriori del rendimento lavorativo degli individui selezionati). La rilevazione del criterio e posteriore al test, prevede un intervallo tra temporale tra la somministrazione del test e la rilevazione del criterio => VALIDITA PREDITTIVA 2- rapportare il punteggio ottenuto nel test a un criterio rilevato nello stesso momento (ad esempio, l osservazione dei candidati in situazione di interazione). La rilevazione del criterio avviene in modo concomitante alla somministrazione del test, e simultanea al test =>VALIDITA CONCORRENTE)

Sono basate sulla correlazione tra i punteggi. Esiste anche la validità POSTDITTIVA, che e quella ad esempio utilizzata in Tribunale per stabilire se l imputato era in possesso al momento del delitto della capacita di intendere e di volere. Fa parte della validità di criterio anche la validità PER GRUPPI NOTI in cui la misura e applicata anche a persone di cui e già nota la posizione sulla proprietà da rilevare. La validità di costrutto Definita come il grado in cui uno strumento misura ciò che dice di misurare, la validità di costrutto è l aspetto della validità che ha ricevuto maggiore attenzione da parte di ricercatori e metodologi, tanto da rappresentare tout court il significato stesso di validità. Si tratta di valutare la rispondenza di un indicatore alle attese teoriche in termini di relazioni con altre variabili. o o Validità CONVERGENTE => grado di accordo tra due misurazioni del medesimo costrutto fatte con metodi diversi Se la misurazione e valida dal punto di vista del costrutto, l accordo tra due misure del medesimo costrutto fatte con metodi differenti deve essere elevata (esempio: due scale di pregiudizio razziale) Validità DISCRIMINANTE => grado di discriminazione tra due misurazioni di costrutti diversi (parte della medesima rete nomologica). Se la misurazione e valida dal punto di vista del costrutto, non vi e correlazione tra la misurazione del costrutto e misurazioni di altri costrutti La validità nomologica La validità della misurazione del costrutto non va limitata solo alle manifestazioni empiriche di quest ultimo, ma deve prendere in considerazione anche le sue relazioni con altri costrutti e/o criteri della rete di relazioni nomologiche in cui e inserito. La validità nomologica e definita come il grado in cui un costrutto si inserisce in una serie di relazioni predittive, positive o negative o nulle tra costrutti e criteri appositamente definiti. La validità di facciata (o esteriore) La misurazione deve sembrare valida dal punto di vista logico e concettuale a un osservatore esterno (esperti ma anche utilizzatori del test). Non si riferisce a ciò che il test effettivamente misura (validità di contenuto) ma a ciò che sembra misurare. La capacita di un test di produrre risultati affidabili, dipende dall atteggiamento di chi lo usa (soggetti ed esperti). La matrice MTMM di Campbell e Fiske Il modo migliore per valutare la validità di costrutto e sviluppare uno studio in cui vengono misurati diversi costrutti con diversi strumenti, al fine di ottenere una matrice multi tratto-multi metodo (MTMM). Campbell e Fiske (1959) hanno suggerito 4 criteri per ispezionare la matrice al fine di valutare validita convergente e discriminante:

1- le correlazioni tra misure diverse dello stesso tratto (monotrattoeterometodo) devono essere diverse da zero, sufficientemente grandi e statisticamente significative; 2- tali correlazioni devono essere maggiori di quelle relative a misure diverse di tratti diversi (correlazioni eterotratto- eterometodo); 3- tali correlazioni devono poi essere maggiori delle correlazioni tra misure di diversi tratti ottenute con lo stesso metodo (etero tratto mono metodo); 4- il quarto criterio richiede che vi sia una configurazione analoga tra le correlazioni etero tratto-mono metodo e le correlazioni etero tratto etero metodo.