Procedure e strumenti di costruzione della base empirica: progettazione, costruzione e gestione di Corso di Metodologia della ricerca sociale
Cosa decidere prima di progettare il questionario e la matrice dei dati Codifica alfabetica e numerica Risposta multipla e codifica Unità di analisi (proprietà globali) e unità di raccolta (proprietà aggregate) Codifica a priori e a posteriori Identificativo univoco per questionario Code-book 2
Prima della matrice: questionari con codifica incorporata e non incorporata Come raggiungi abitualmente la tua scuola? 1. A piedi 2. In bicicletta 3. In autobus 4. In scuolabus 5. In automobile Incorporata Come raggiungi abitualmente la tua scuola? A piedi In bicicletta In autobus In scuolabus In automobile Non incorporata 3
Prima della matrice: le domande a risposta multipla 4
Prima della matrice: le domande a risposta multipla Codifica disgiuntiva 5
La matrice dei dati Una volta raccolte le informazioni in forma standardizzata (tramite esperimenti, interviste e questionari, etc.) è necessario organizzarle in modo da poterle sottoporre ad analisi statistiche, dunque di trasformarle in una matrice dei dati. Una matrice dei dati è un insieme rettangolare di numeri organizzati in modo tale che a ciascuna riga corrisponda un unico caso (n) e a ciascuna colonna corrisponda un unica variabile (xi). In ogni cella della matrice si trova un dato, cioè il valore assunto da una particolare variabile su un particolare caso. 6
La matrice dei dati Affinché le informazioni possano essere inserite in una matrice dei dati: 1. le unità di analisi devono essere sempre le stesse (cioè le informazioni devono essere riferite tutte a individui, o comuni, o scuole, ecc.. Ad esempio non possiamo inserire nella stessa matrice come casi sia individui che comuni); 2. su tutti i casi devono essere state rilevate le stesse informazioni (queste cioè devono essere standardizzate) Affinché una proprietà possa diventare una variabile deve: 1. potere assumere (almeno) due stati diversi su (almeno) due casi diversi 2. potere essere sottoposta a una definizione operativa. 7
Il rapporto tra concetto, indicatori e variabili concetto Rapporto di indicazione Indicatori Definizione operativa variabili 8
Tipi di matrici Matrici casi per variabili Matrici casi per casi Matrici casi per valori 9
La progettazione della matrice dei dati Per progettare la matrice dati è necessario: stabilire la relazione tra le informazioni rilevate (ad esempio sul questionario) e le variabili: L ordine delle variabili deve seguire l ordine delle domande nel questionario Si deve tenere presente che alcune domande producono più di una variabile definire le variabili e i loro attributi: nominare le variabili (assegnargli una etichetta) determinare il tipo di codifica (numerica, alfanumerica, data) determinare la scala (nominale, ordinale, cardinale) impostare i valori di missing (dovuti e non dovuti). 10
Matrice casi per variabili Valore Variabile Caso Celle 11
Matrice casi per variabili Vettore riga Record Vettore colonna 12
2 diversi modi per classificare le variabili Stevens (1946) Variabili nominali Variabili ordinali Variabili a intervalli Variabili di rapporti Marradi (1980) Variabili a categorie non ordinabili (mutabili) Variabili a categorie ordinabili Variabili quasi-cardinali Variabili cardinali 13
Dal questionario alla matrice dei dati D01 Genere _ Maschio _ Femmina Variabile nominale V01 Genere Maschi 1 Femmine 2 D02 Età (in anni compiuti) V02 Età Variabile cardinale 18, 19 [ ] 45 [ ] ecc. D03 Titolo di studio V03 Titolo di studio _ Licenza media o inferiore Licenza media o inferiore 1 _ Diploma _ Laurea o superiore Variabile ordinale Diploma Laurea o superiore 2 3 14
Dal questionario alla matrice dei dati D4 Qual è il suo grado di soddisfazione in relazione ai seguenti aspetti del servizio? Del tutto insoddisfatto Del tutto soddisfatto Celerità Costo Qualità Variabile4_a Soddisfazione per la celerità [1;5] Variabile4_b Soddisfazione per il costo [1;5] Variabile4_c Soddisfazione per la qualità [1;5] Variabile quasi-cardinale V1 V2 V3 V4_a V4_b V4_c Paolo 1 21 2 3 4 3 Francesca 2 19 2 4 4 2 15
Dal questionario alla matrice dei dati D5 Cosa possiamo fare per migliorare il servizio offerto? Variabile5 Suggerimenti stringa Variabile nominale È possibile inserire in matrice anche informazioni non codificate, ma che possono in seguito essere ricondotte a un certo numero di categorie individuate ex post dai ricercatori. V1 V2 V3 V4_a V4_b V4_c V5 Paolo 1 21 2 3 4 3 nulla Francesca 2 19 2 4 4 2 assumere personale più competente 16
Dal questionario alla matrice dei dati Il tracciato record indica la posizione di ogni variabile sulla riga della matrice (per esempio che il genere è nella seconda colonna, il titolo di studio nella quarta, etc.). Genere Età Titolo di studio Soddisfazione per la rapidità Soddisfazione per la qualità Soddisfazione per il costo Suggerimenti V1 V2 V3 V4_a V4_b V4_c V5 Paolo 1 21 2 3 4 3 nulla Francesca 2 19 2 4 4 2 assumere personale più competente 17
Dal questionario alla matrice dei dati d09. Rispetto a quando hai iniziato a svolgere questa professione, ti ritieni più o meno soddisfatto/a? (Dai una risposta per ciascun aspetto a, b, c, d) V09A V09B V09C Meno soddisfatto/a di quanto mi aspettassi Mi aspettavo esattamente ciò che ho ottenuto finora Più soddisfatto/a di quanto mi aspettassi a) Livello 1. 2. 3. professionale raggiunto b) Mansioni svolte 1. 2. 3. c) Utilità sociale della professione svolta 1. 2. 3. V09D d) Guadagno economico 1. 2. 3. 18
Domande in batteria 19
Dal questionario alla matrice dei dati Il codice, o codebook assegna a ogni modalità di una variabile un valore numerico e tiene traccia dell informazione contenuta dai simboli. 20
Matrice dei dati con etichette (codifica ex post) 21
Matrice dei dati con etichette (codifica ex ante) 22
L organizzazione delle variabili in matrice 23
L etichettatura delle variabili Qual è il suo regime di lavoro? 1. Full time 2. Part-time orizzontale (alcune ore al giorno) 3. Part-time verticale (alcuni giorni alla settimana) 4. Per alcuni periodi dell anno NO SÌ e delle modalità Qual è il suo regime di lavoro? Full time Part-time orizzontale (alcune ore al giorno) Part-time verticale (alcuni giorni alla settimana) Per alcuni periodi dell anno Regime di lavoro Full time Part-time orizzontale (alcune ore al giorno) Part-time verticale (alcuni giorni alla settimana) Per alcuni periodi dell anno 24
Controllare la pulizia della matrice: i trucchi del mestiere Caratteri discreti e caratteri continui Variabili dicotomiche (dummy) Distribuzioni di frequenza Controllo della plausibilità dei valori Controlli di congruenza Controllo dei valori mancanti L assegnazione dei nomi alle variabili L aggregazione delle modalità L impiego di media e mediana nella pulizia dei dati L eventuale ponderazione dei casi (campione/popolazione) 25
Il trattamento dei valori mancanti I casi in cui si possono presentare valori mancanti, evenienza peraltro relativamente rara, sono 4: Il soggetto può posizionarsi sulla risposta «non so» Il soggetto non è tenuto a rispondere a una certa domanda (prima c è un filtro) Il soggetto si rifiuta di rispondere a una domanda Il soggetto presenta, nella cella corrispondente, un valore implausibile 26
La ponderazione dei casi % popolazione % campione Pesi Licenza elementare 29,5 25,3 29,5/25,3=1,7 Licenza media 42,4 40,8 42,4/40,8=1,04 Diploma 20,7 23,4 20,7/23,4=0,88 Laurea 7,4 10,5 7,4/10,5=0,70 Totale 100 100 27
Standardizzazione e deflazione Standardizzazione z i = (xi xm) SD(X) Deflazione x i = (xi xm) SD i 28