Approfondimento 2.1. Le principali tecniche di campionamento



Documenti analoghi
Elementi di Psicometria con Laboratorio di SPSS 1

CALCOLO COMBINATORIO

Università del Piemonte Orientale. Corsi di Laurea Triennale di area tecnica. Corso di Statistica Medica

Statistica. Lezione 6

f(x) = 1 x. Il dominio di questa funzione è il sottoinsieme proprio di R dato da

Il database management system Access

Rapporto dal Questionari Insegnanti

Corso di Psicometria Progredito

PROGETTO INDAGINE DI OPINIONE SUL PROCESSO DI FUSIONE DEI COMUNI NEL PRIMIERO

Metodi statistici per le ricerche di mercato

Calcolo del Valore Attuale Netto (VAN)

Siamo così arrivati all aritmetica modulare, ma anche a individuare alcuni aspetti di come funziona l aritmetica del calcolatore come vedremo.

Tasso di interesse e capitalizzazione

Come archiviare i dati per le scienze sociali

Calcolo delle probabilità

= variazione diviso valore iniziale, il tutto moltiplicato per 100. \ Esempio: PIL del 2000 = 500; PIL del 2001 = 520:

Elementi di Psicometria con Laboratorio di SPSS 1

La relazione presenta quanto emerso dalla prima indagine condotta sugli utenti della Biblioteca Isimbardi.

GRUPPO MY- social media solutions / Via G.Dottori 94, Perugia / PI

ANALISI DELLE FREQUENZE: IL TEST CHI 2

MOCA. Modulo Candidatura. [Manuale versione 1.0 marzo 2013]

Verifica di ipotesi e intervalli di confidenza nella regressione multipla

Analisi sensitività. Strumenti per il supporto alle decisioni nel processo di Valutazione d azienda

Esercizi di Probabilità e Statistica

Esercitazione 1 del corso di Statistica 2 Prof. Domenico Vistocco

Calcolo delle Probabilita, INGEGNERIA INFORMATICA, semestre II, laurea (ord. Leonardo.

IL COLLAUDO DI ACCETTAZIONE

Convertitori numerici in Excel

(concetto classico di probabilità)

Primi esercizi per gli studenti del corso di Statistica ed Elementi di Probabilita

IL MODELLO CICLICO BATTLEPLAN

lo PERSONALIZZARE LA FINESTRA DI WORD 2000

CORSO DI CALCOLO DELLE PROBABILITÀ E STATISTICA. Esercizi su eventi, previsioni e probabilità condizionate

Il mercato assicurativo: selezione avversa, fallimenti del mercato, menù di contratti, assicurazione obbligatoria

CAPITOLO 8 LA VERIFICA D IPOTESI. I FONDAMENTI

I TUTORI. I tutori vanno creati la prima volta seguendo esclusivamente le procedure sotto descritte.

Determinare la grandezza della sottorete

APPUNTI DI MATEMATICA LE FRAZIONI ALGEBRICHE ALESSANDRO BOCCONI

4 3 4 = 4 x x x 10 0 aaa

Statistica e biometria. D. Bertacchi. Variabili aleatorie. V.a. discrete e continue. La densità di una v.a. discreta. Esempi.

Ufficio Scolastico Regionale per l Abruzzo. Rapporto dal Questionari Studenti

Un gioco con tre dadi

Strumenti di indagine per la valutazione psicologica

Dimensione di uno Spazio vettoriale

La distribuzione Normale. La distribuzione Normale

risulta (x) = 1 se x < 0.

Laboratorio di Pedagogia Sperimentale. Indice

Matrice Excel Calcolo rata con DURATA DEL FINANZIAMENTO determinata dall'utente

PROCEDURA INVENTARIO DI MAGAZZINO di FINE ESERCIZIO (dalla versione 3.2.0)

INTRODUZIONE I CICLI DI BORSA

Elementi di Psicometria con Laboratorio di SPSS 1

INVIO SMS

Capitolo 13. Interrogare una base di dati

Logica Numerica Approfondimento 1. Minimo Comune Multiplo e Massimo Comun Divisore. Il concetto di multiplo e di divisore. Il Minimo Comune Multiplo

Il calendario di Windows Vista

Gli attributi di STUDENTE saranno: Matricola (chiave primaria), Cognome, Nome.

Analisi e diagramma di Pareto

LA DISTRIBUZIONE DI PROBABILITÀ DEI RITORNI AZIONARI FUTURI SARÀ LA MEDESIMA DEL PASSATO?

ISTITUTO COMPRENSIVO BARBERINO MUGELLO

Database 1 biblioteca universitaria. Testo del quesito

Il campionamento. Ulteriori vantaggi: economicità (costi e tempi limitati)

Corso di Laurea in Scienze e Tecnologie Biomolecolari. NOME COGNOME N. Matr.

PLIDA Progetto Lingua Italiana Dante Alighieri Certificazione di competenza in lingua italiana

Ricerca Operativa Esercizi sul metodo del simplesso. Luigi De Giovanni, Laura Brentegani

Tutte le interrogazioni possono essere condotte su qualsiasi campo della banca dati (ad esempio, Forma, Frequenza, Lunghezza, ecc...).

Test d ipotesi. Statistica e biometria. D. Bertacchi. Test d ipotesi

Analisi dei Dati 12/13 Esercizi proposti 3 soluzioni

UTILIZZATORI A VALLE: COME RENDERE NOTI GLI USI AI FORNITORI

Cosa dobbiamo già conoscere?

Matrice Excel Calcolo rata con TASSO DI INTERESSE determinato dall'utente

Strutturazione logica dei dati: i file

Statistiche campionarie

Soluzione dell esercizio del 2 Febbraio 2004

VINCERE AL BLACKJACK

matematica probabilmente

Le query di raggruppamento

Autismo e teoria della mente

A tal fine il presente documento si compone di tre distinte sezioni:

Una sperimentazione. Probabilità. Una previsione. Calcolo delle probabilità. Nonostante ciò, è possibile dire qualcosa.

OSSERVAZIONI TEORICHE Lezione n. 4

MODULO 5 Appunti ACCESS - Basi di dati

1. Calcolare la probabilità che estratte a caso ed assieme tre carte da un mazzo di 40, fra di esse vi sia un solo asso, di qualunque seme.

Matrice Excel Calcolo rata con IMPORTO DEL FINANZIAMENTO determinato dall'utente

Manuale Helpdesk per utenti

Il confronto fra proporzioni

Gentile Dirigente Scolastico,

Database. Si ringrazia Marco Bertini per le slides

Per poter affrontare il problema abbiamo bisogno di parlare di probabilità (almeno in maniera intuitiva). Analizziamo alcune situazioni concrete.

1. Distribuzioni campionarie

Manuale di istruzioni sulle maschere per il calcolo del punteggio e del voto (unico) degli studenti che sostengono la Prova nazionale 2011

RILANCIO ALLARMI SU SWC701

Probabilità discreta

Egregio Dirigente, INVALSI Villa Falconieri - Via Borromini, Frascati RM tel fax c.f.

RAPPRESENTAZIONE GRAFICA E ANALISI DEI DATI SPERIMENTALI CON EXCEL

Test statistici di verifica di ipotesi

come nasce una ricerca

Istruzioni per l uso

APPUNTI SU PROBLEMI CON CALCOLO PERCENTUALE

Interesse, sconto, ratei e risconti

Transcript:

1 1. La storia insegna Approfondimento 2.1 Le principali tecniche di campionamento Venite un momento nel 1936. Sono candidati alle elezioni presidenziali degli Stati Uniti il Presidente uscente Franklin Delano Roosevelt per i Democratici e il Governatore del Kansas Alfred Mossman Landon per i Repubblicani. All epoca veniva pubblicata un autorevole e prestigiosa rivista, il Literary Digest, che mediante sondaggio aveva predetto con successo l esito delle cinque precedenti elezioni presidenziali. Nel numero in edicola il 31 Ottobre 1936 1, tre giorni prima delle elezioni, la rivista annuncia la vittoria di Landon col 57% dei voti. Solo che il 3 novembre si vota, e Roosevelt stravince. Diciamo che non ci stupirebbe più di tanto sapere che quell anno il cartoncino di auguri di Natale dei Repubblicani per il direttore del Literary Digest non è mai arrivato Ma come è stato possibile un errore di questo tipo? D accordo che la statistica non è infallibile, ma in quel caso lo sbaglio è stato davvero sesquipedale. Vediamo allora come era stato condotto il sondaggio. Il giornale aveva spedito 10 milioni di questionari, una cifra impensabile anche oggi, a tutti i suoi abbonati e potenziali abbonati, individuati dagli elenchi del telefono. Ritornarono 2.4 milioni di schede, e dalle analisi effettuate su questi dati, Landon risultò vincitore. Ora, basare la previsione su questi dati significava ritenere il gruppo di 2.4 milioni di persone che avevano risposto al sondaggio un campione rappresentativo della popolazione di elettori. All epoca però possedeva un telefono solo una famiglia su quattro, e gli abbonati alla rivista erano una fascia molto selezionata della popolazione, che come è facile immaginare non comprendeva i meno abbienti. Per cui, difficilmente questo metodo di campionamento avrebbe portato ad ottenere un campione realmente rappresentativo della popolazione, perché larghe fasce della popolazione erano escluse. Ma anche nel caso, dobbiamo considerare che di 10 milioni di schede inviate, ne erano ritornate circa un quarto. Per chi avrebbero votato i restanti tre quarti di persone che non hanno risposto? (Qui impariamo un aspetto fondamentale delle ricerche: le ricerche sono condotte su chi effettivamente fornisce i dati, ma disgraziatamente nella popolazione alla quale vogliamo generalizzare i risultati vi sono anche quelli che non rispondono e che non possono o non vogliono partecipare ne hanno tutto il diritto..). In una situazione simile, l attendibilità dei dati non poteva essere garantita solo dalla numerosità (ampiezza) del campione. In effetti, proprio in occasione delle elezioni del 1936 un oscuro statistico ed ex pubblicitario aveva avanzato qualche dubbio sul successo delle predizioni del Literary Digest, e utilizzando un campione molto più modesto quanto a numeri (circa 50.000), aveva correttamente predetto la vittoria di Roosevelt. Si trattava di George Horace Gallup, fondatore della più importante agenzia di sondaggi americana. Come aveva fatto? Aveva "campionato" meglio. In questo approfondimento vengono presentate le principali tecniche di campionamento. 2. I principali tipi di campionamento in psicologia Il campionamento può essere principalmente di due tipi: probabilistico e non probabilistico. Se il campionamento è di tipo probabilistico, ogni unità di analisi ha una probabilità individuabile e non uguale a zero di entrare a far parte del campione. Quando non è possibile conoscere tale probabilità, si parla di campionamento non probabilistico. Da un punto di vista strettamente statistico, i campioni probabilistici sono migliori perché consentono di ottenere un alto grado di rappresentatività del campione e quindi una stima ottimale delle caratteristiche della popolazione da cui il campione è stato tratto. Il campionamento non probabilistico, dall altra parte, non consente stime dei parametri particolarmente accurate, ma permette di contenere le spese per la realizzazione della ricerca sia in termini di tempo che di denaro, e nei casi in cui lo scopo della ricerca sia di tipo 1 http://historymatters.gmu.edu/d/5168/

2 esplorativo, ossia volto all individuazione di tendenze o di fenomeni ad un livello più superficiale, risulta comunque adeguato (De Carlo e Robusto, 1996). I tipi principali di campionamento probabilistico sono: Campionamento casuale semplice (con e senza ripetizione) Campionamento stratificato Campionamento per clusters (aree o grappoli ) Campionamento sistematico I tipi principali di campionamento non probabilistico sono: Campionamento per quote Campionamento a scelta ragionata 2.1 Il campionamento casuale semplice Il campionamento casuale semplice prevede che le unità di analisi vengano estratte singolarmente in modo casuale, in modo che ogni unità di analisi abbia la stessa probabilità di venire selezionata e la sua probabilità di entrare a far parte del campione sia indipendente da quella delle altre (Figura 1). Figura 1 Procedura per il campionamento casuale semplice Se quindi la popolazione degli studenti di psicometria del primo anno è composta da 180 studenti, e vogliamo estrarre un campione di 18 studenti con questa tecnica di campionamento, ogni studente avrà una probabilità uguale a 1/10 (10%) di entrare a far parte del campione. Naturalmente, perché ogni studente abbia la stessa probabilità di essere estratto dobbiamo assicurarci che dopo ogni estrazione il suo nome venga re-inserito nell insieme da cui si campiona: se alla scuola superiore la vostra insegnante di matematica estraeva a caso dal sacchetto dei numeri della tombola i numeri corrispondenti a voi e ai vostri compagni per decidere chi interrogare, all inizio del nuovo giro di interrogazioni la vostra probabilità di essere estratti in una classe di 25 allievi era di 1 su 25, ma se la fortuna vi arrideva e non venivate estratti subito, via via che venivano sottoposti al supplizio i vostri compagni la vostra probabilità di essere estratti la volta successiva aumentava, dato che diventava 1 su 24, 1 su 23, 1 su 22, etc., finché, al termine del giro, non era 1 su 2, se non addirittura avevate la certezza di dover essere interrogati la volta successiva! Questo esempio ci

3 mostra la differenza fra campionamento casuale semplice con e senza reinserimento. In quello con reinserimento, detto anche bernoulliano, il numero della tombola che vi corrisponde viene reinserito nel sacchetto ogni volta, anche se siete stati estratti, per cui potrebbe capitarvi di essere interrogati due volte di fila! Questa procedura, per quanto non riscuota la vostra simpatia nel contesto delle interrogazioni di matematica, nel caso del campionamento delle unità di analisi per una ricerca è quella che offre le maggiori garanzie di rappresentatività di un campione, poiché consente stime più affidabili dei parametri e degli errori di stima, e genera una selezione oggettiva e valida degli elementi del campione per qualunque variabile si voglia considerare, mettendoci quindi al riparo da distorsioni (biases). Pensate al caso in cui dovete selezionare da una gabbia di 50 topolini bianchi un campione di 10 elementi da sottoporre ad un esperimento (tale esempio è riportato anche in De Carlo e Robusto, 1996). Ingenuamente, si potrebbe pensare di aprire lo sportello superiore della gabbia, entrare col braccio e acchiappare 10 topolini a caso (per quanto comprendo che questa operazione potrebbe suscitare una certa apprensione in alcuni dei lettori ). Il punto è che dal nostro punto di vista la scelta può apparire casuale di fatto non stiamo scegliendo ma non lo è da un punto di vista pratico, dato che i topolini non sono i numerini della tombola, per cui, appena vedono il vostro arto avvicinarsi minaccioso, tenderanno a sfuggirvi. I dieci che riuscirete a prendere, quindi, saranno con ogni probabilità i dieci meno abili a mettersi in salvo, e dunque quel campione non sarà rappresentativo della popolazione dei 50 occupanti la gabbia, la quale comprende anche i più svegli a tagliare la corda. Riguardo a questa caratteristica, quindi, il campione non sarà rappresentativo. Per realizzare campionamento casuale semplice, dunque, abbiamo bisogno innanzitutto di creare una lista completa di tutti gli elementi della popolazione da cui intendiamo campionare. A quel punto possiamo assegnare ad ogni unità di analisi un numero e mediante un urna contenente palline numerate o mediante le tavole dei numeri casuali, procedere all estrazione. Nel caso dei topolini, anche i più scaltri non hanno scampo: se esce il loro numero, saranno presi comunque. Vediamo praticamente come fare. Innanzitutto numeriamo le unità di analisi da 00 a 50. Consultiamo poi le tavole dei numeri casuali, che possono essere facilmente rintracciate sui manuali di psicometria o statistica, o anche sul Web 2, come la seguente (Tabella 1). Poiché dobbiamo individuare i numeri da 00 a 50, della colonna 1 prendiamo solo le prime due cifre di ogni numero: avremo quindi 73, 07, 60, 83, 10, 39, 59, 38, etc. Naturalmente può capitare che alcuni numeri non siano utilizzabili, come il 73, perché fuori dalla gamma prevista. Nessun problema, prendiamo il successivo, anche se questo a un certo punto ci costringerà ad utilizzare i numeri della colonna 2 (e quindi considereremo 42, 77, 83, etc.). Naturalmente, di volta in volta, potete anche scegliere di considerare gli ultimi due numeri, o una coppia centrale. In campioni piccoli, o estratti da popolazioni di limitata ampiezza, se utilizziamo un campionamento con reinserimento possono verificarsi ripetizioni, ossia la stessa unità di analisi viene estratta due volte. Nel caso dei topolini è un problema, perché il campione di 10 elementi deve contenere 10 elementi distinti, costringendoci, di fatto, a realizzare un campionamento senza reimmissione. Questa estrazione va necessariamente considerata nulla e si deve passare al valore successivo della tavola dei numeri casuali, come nel caso di valori non compresi nella gamma 2 Ad esempio, all indirizzo http://www.rand.org/publications/classics/randomdigits è possibile scaricarne una versione classica, da cui è stata riprodotta quella riportata in questo volume. Si trovano anche siti che permettono di impostare vari parametri per la casualizzazione, come ad esempio http://stattrek.com/tables/random.aspx, dove potete impostare il numero di elementi da campionare, le etichette numeriche e il numero da cui cominciare a generare sequenze casuali (seed). Nell esempio dei topolini, impostando a 10 il numero di soggetti, le cifre da 00 a 50, non permettendo la ripetizione e avendo come seed 160710975, ho ottenuto la seguente sequenza: 00 05 18 21 03 44 35 30 40 14. Il problema legato all uso di software per la generazione di numeri casuali è che sono deterministici, ossia, se impostate le stesse condizioni iniziali, ottenere sempre la stessa sequenza di numeri casuali, il che, ne converrete, è un po un controsenso Numeri casuali possono essere generati in Microsoft Excel, versione italiana, scrivendo in una cella l espressione =casuale() e premendo INVIO. Viene restituito un numero casuale compreso fra 0 e 1 e ripetendo l operazione su più celle si possono ottenere quanti numeri casuali si desidera. A quel punto si può scegliere di prendere i primi due decimali, o i primi tre, etc.

4 Tabella 1Tavola dei numeri casuali Soggetto 1 2 3 4 5 6 7 8 9 10 1 73135 42742 95719 09035 85794 74296 08789 88156 64691 19202 2 07638 77929 03061 18072 96207 44156 23821 99538 04713 66994 3 60528 83441 07954 19814 59175 20695 05533 52139 61212 06455 4 83596 35655 06958 92983 05128 09719 77433 53783 92301 50498 5 10850 62746 99599 10507 13499 06319 53075 71839 06410 19362 6 39820 98952 43622 63147 64421 80814 43800 09351 31024 73167 7 59580 06478 75569 78800 88835 54486 23768 06156 04111 08408 8 38508 07341 23793 48763 90822 97022 17719 04207 95954 49953 9 30692 70668 94688 16127 56196 80091 82067 63400 05462 69200 10 65443 95659 18288 27437 49632 24041 08337 65676 96299 90836 11 27267 50264 13192 72294 07477 44606 17985 48911 97341 30358 12 91307 06991 19072 24210 36699 53728 28825 35793 28976 66252 13 68434 94688 84473 13622 62126 98408 12843 82590 09815 93146 14 48908 15877 54745 24591 35700 04754 83824 52692 54130 55160 15 06913 45197 42672 78601 11883 09528 63011 98901 14974 40344 16 10455 16019 14210 33712 91342 37821 88325 80851 43667 70883 17 12883 97343 65027 61184 04285 01392 17974 15077 90712 26769 18 21778 30976 38807 36961 31649 42096 63281 02023 08816 47449 19 19523 59515 65122 59659 86283 68258 69572 13798 16435 91529 20 67245 52670 35583 16563 79246 86686 76463 34222 26655 90802 21 60584 47377 07500 37992 45134 26529 26760 83637 41326 44344 22 53853 41377 36066 94850 58838 73859 49364 73331 96240 43642 23 24637 38736 74384 89342 52623 07992 12369 18601 03742 83873 24 83080 12451 38992 22815 07759 51777 97377 27585 51972 37867 25 16444 24334 36151 99073 27493 70939 85130 32552 54846 54759 26 60790 18157 57178 65762 11161 78576 45819 52979 65130 04860 27 03991 10461 93716 16894 66083 24653 84609 58232 88618 19161 28 38555 95554 32886 59780 08355 60860 29735 47762 71299 23853 29 17546 73704 92052 46215 55121 29281 59076 07936 27954 58909 30 32643 52861 95819 06831 00911 98936 76355 93779 80863 00514 31 69572 68777 39510 35905 14060 40619 29549 69616 33564 60780 32 24122 66591 27699 06494 14845 46672 61958 77100 90899 75754 33 61196 30231 92962 61773 41839 55382 17267 70943 78038 70267 34 30532 21704 10274 12202 39685 23309 10061 68829 55986 66485 35 03788 97599 75867 20717 74416 53166 35208 33374 87539 08823 36 48228 63379 85783 47619 53152 67433 35663 52972 16818 60311 37 60365 94653 35075 33949 42614 29297 01918 28316 98953 73231 38 83799 42402 56623 34442 34994 41374 70071 14736 09958 18065 39 32960 07405 36409 83232 99385 41600 11133 07586 15917 06253 40 19322 53845 57620 52606 66497 68646 78138 66559 19640 99413 41 11220 94747 07399 37408 48509 23929 27482 45476 85244 35159 42 31751 57260 68980 05339 15470 48355 88651 22596 03152 19121 43 88492 99382 14454 04504 20094 98977 74843 93413 22109 78508 44 30934 47744 07481 83828 73788 06533 28597 20405 94205 20380 45 22888 48893 27499 98748 60530 45128 74022 84617 82037 10268 46 78212 16993 35902 91386 44372 15486 65741 14014 87481 37220 47 41849 84547 46850 52326 34677 58300 74910 64345 19325 81549 48 46352 33049 69248 93460 45305 07521 61318 31855 14413 70951 49 11087 96294 14013 31792 59747 67277 76503 34513 39663 77544 50 52701 08337 56303 87315 16520 69676 11654 99893 02181 68161 prevista, però tenete presente che questo comporta un alterazione dell effettiva casualità della selezione, che in certi casi può non essere del tutto trascurabile. Ad ogni modo, una volta completata l operazione avremo la lista dei 10 estratti, sapremo quali topolini andare a prendere dalla gabbia. E questa volta l essere abili a svignarsela non li aiuterà De Carlo e Robusto (1996) considerano nel novero dei campionamenti probabilistici anche il campionamento quasi-casuale (o haphazard o di convenienza). Di fatto, si tratta dei campioni sui

5 quali vengono svolte le maggior parte delle ricerche pubblicate sulle riviste scientifiche. In questi casi non c è una scelta intenzionale, a nessun livello, delle unità di analisi, per cui possono essere considerati come casuali, ma non è dato che tutti gli elementi abbiano la stessa probabilità di essere estratti. Esempi di campioni di questo tipo possono essere gli studenti che si prestano volontariamente come soggetti per un esperimento, gruppi di conoscenti dello studente che raccoglie dati sul test al quale sta lavorando per la tesi, bambini della scuola materna adiacente al dipartimento di psicologia, etc. In nessuno di questi casi gli elementi del campione sono scelti a caso dalla popolazione, né hanno tutti la stessa probabilità di entrare a far parte del campione: se non conoscete nessun laureando in psicometria, la probabilità che vi chiedano di compilare una barbosissima batteria di test sarà molto bassa, mentre se siete il fidanzato di una laureanda, be, vi conviene non prendere altri impegni 2.2 Il campionamento stratificato In alcune ricerche può diventare una priorità non solo la stima dei parametri nella popolazione, ma anche in eventuali sotto-popolazioni (o sub-popolazioni). Ad esempio, supponiamo di voler indagare la riuscita accademica nella popolazione degli studenti di psicologia di un certo ateneo (supponiamo di ampiezza finita, N = 800) con particolare attenzione al genere e al fatto che siano studenti lavoratori o meno, utilizzando un campione di 50 studenti. Se impiegassimo un campionamento casuale semplice su tutta la popolazione, con buona probabilità riusciremmo a riprodurre un campione di 100 studenti che rifletta adeguatamente quelle due particolari caratteristiche della popolazione (rapporto maschi/femmine e lavoratori/non lavoratori), ma non necessariamente. Poiché il focus della ricerca però è proprio su queste caratteristiche, in questi casi è preferibile campionare in modo casuale direttamente all interno dei singoli strati, ossia delle suddivisioni derivanti dagli incroci delle categorie delle variabili di interesse, così da essere certi di riprodurre le proporzioni note nella popolazione. Questo tipo di campionamento prende così il nome di campionamento stratificato. In base agli scopi dello studio, si può scegliere di utilizzare una sola variabile di stratificazione (ad esempio, solo il genere se interessano le differenze maschi-femmine), oppure varie (includendo non solo genere e status di lavoratore o meno, ma anche il livello socioeconomico, la fascia di età, etc.). In questo modo, con una sola operazione riduciamo la possibilità di distorsioni nelle stime dei parametri della popolazione, contenendo al contempo la numerosità campionaria. Differentemente dal caso del campionamento casuale semplice, però, questa tecnica di campionamento ci obbliga ad avere informazioni a priori sulla popolazione che stiamo studiando. Esistono varie tecniche di realizzazione del campionamento stratificato, come ben illustrato in De Carlo e Robusto (1996), ma la loro esposizione va al di là degli scopi di questo capitolo. Vediamo invece come realizzare un campionamento stratificato in base all esempio proposto in precedenza. Innanzitutto dobbiamo procurarci informazioni circa la distribuzione del genere e dell essere o meno lavoratori della popolazione di 800 studenti, e individuare la percentuale (sul totale) di studenti che possiede ogni incrocio fra le categorie delle due variabili considerate (Tabella 2). Tabella 2 Esempio di stratificazione di due variabili (Genere e Status Lavorativo) in un campione di 800 studenti Genere Status Non lavoratori Lavoratori Totale Maschi 144 (18%) 64 (8%) 208 Femmine 400 (50%) 192 (24%) 592 Totale 544 256 800

6 A questo punto sappiamo che il campione di 50 studenti che intendiamo individuare per la ricerca dovrà essere composto al 18% da studenti maschi non lavoratori, all 8% da studenti maschi lavoratori, al 50% da studentesse non lavoratrici e al 24% da studentesse lavoratrici. I partecipanti alla ricerca verranno quindi campionati a caso all interno di questi strati in proporzione, in modo da riflettere esattamente le proporzioni individuate nella popolazione (Tabella 3). Tabella 3 Stratificazione di un campione di 50 studenti in base alle informazioni sulla popolazione contenute nella Tabella 2 Sub-popolazione Percentuale nota nella popolazione Numero necessario nel campione Maschi non lavoratori 18% Il 18% di 50 50 0,18 = 9 Maschi lavoratori 8% L 8% di 50 50 0,08 = 4 Femmine non lavoratrici 50% Il 50% di 50 50 0,50 = 25 Femmine lavoratrici 24% Il 24% di 50 50 0,24 = 12 Individuati gli studenti che soddisfano i criteri per l inclusione in ognuno degli strati, ne campioneremo casualmente 9 fra i maschi non lavoratori, 4 fra i maschi lavoratori, 25 fra le femmine non lavoratrici, 12 fra le femmine lavoratrici, ottenendo così un campione di 50 soggetti perfettamente rappresentativo della popolazione per le variabili genere e status lavorativo. Naturalmente questo non ci assicura che anche altre variabili, qui non prese in considerazione, siano distribuite come nella popolazione ad esempio, il livello socio-economico. La scelta delle variabili di stratificazione deve essere quindi eseguita con particolare attenzione, in modo da individuare quelle che pesano di più nel rendere il campione rappresentativo della popolazione. In genere, nelle ricerche su larga scala come possono essere quelle di validazione di un test psicologico ci si basa su genere, fascia di età e titolo di studio, in quanto sono informazioni facilmente ottenibili per la popolazione italiana dai dati Istat sui censimenti 3 e, se il campione necessario non è particolarmente ampio, è una impresa fattibile. Il problema è che spesso non si tiene conto di un ulteriore variabile di stratificazione come la regione di residenza: se individuare soggetti di un certo genere, di una certa fascia di età e con un certo titolo di studio può essere relativamente problematico nella regione in cui si trova l ateneo (ad esempio, in Liguria), può diventare più complicato se si aggiunge il vincolo che i partecipanti siano anche di un altra regione (ad esempio molisani, piuttosto che pugliesi, o altra regione geograficamente distante da quella in cui ci si trova). Si presti particolare attenzione al fatto che il campionamento all interno degli strati deve essere casuale (Figura 2). Ossia, occorre effettivamente avere la lista degli elementi che soddisfano le condizioni di inclusione in ogni strato, e procedere come abbiamo visto per il campionamento casuale semplice. Qualora la scelta dei soggetti venga fatta liberamente dal ricercatore, vale a dire, vengano incluse nella ricerca persone individuate con procedure non casuali, la procedura di campionamento non è più probabilistica, dato che si viola la condizione di equiprobabilità di entrare a far parte del campione ad esempio, se dobbiamo includere maschi di età compresa fra 80 e 85 anni con licenza media, non campioniamo a caso nella popolazione, ma prendiamo i nonni dei nostri studenti. Questo tipo di campionamento prende in nome di campionamento per quote, e fa parte dei tipi di campionamento non probabilistico. E tipico dei sondaggi di opinione, quelli che vengono eseguiti telefonicamente o per strada, ed è molto più soggetto a distorsioni delle procedure di campionamento probabilistico. 3 http://dawinci.istat.it/dawinci/jsp/md/index.html

7 2.3 Il campionamento per clusters Figura 2 Procedura per il campionamento stratificato Qualora la popolazione sia divisa, in modo naturale o artificiale, in sottogruppi di unità di analisi aggregate in base a criteri specifici (ad esempio, geografici), si può utilizzare il campionamento per clusters (in italiano, grappoli ). Esempi di clusters possono essere le classi di una scuola, i quartieri di una città, le popolazioni di studenti degli atenei, e così via: in tutti i casi, vi sono grappoli di elementi già costituiti, e il campionamento avviene sui grappoli, piuttosto che sulle unità che li compongono. Questa procedura risponde a necessità di topo organizzativo, come ad esempio quelle relative alle indagini su ampie aree geografiche. Poniamo di voler condurre un indagine su larga scala sugli studenti delle scuole superiori di Genova. In questo caso i grappoli sono costituiti dalle scuole, per cui potremmo pensare di ottenere l elenco di tutte le scuole superiori genovesi ed estrarre casualmente da questo elenco un numero limitato di istituti (poniamo 10). La procedura di campionamento per cluster prevede che vengano eseguite osservazioni su tutti gli elementi che compongono il grappolo, ma nel nostro caso significherebbe somministrare un test a tutti gli alunni di ogni scuola campionata. In questi casi si procede ad un secondo stadio di campionamento per cluster, selezionando a caso, all interno di ogni istituto, un numero limitato di classi (poniamo 5 per istituto), che a loro volta costituiscono dei sub-clusters. Naturalmente possiamo considerare come clusters anche gli anni di corso (dalla prima alla quinta), ottenendo così un terzo stadio di campionamento (Figura 3). Ogni cluster (o sub-cluster) viene trattato come un entità unica, indipendentemente dall insieme di elementi che contiene. In genere si tende a controllare che i cluster abbiano numerosità simile, ma non è strettamente necessario. Il risultato finale ottimale dovrebbe essere un campione con molti cluster di ampiezza limitata, molto omogenei al loro interno ma eterogenei fra di loro, così da contenere sia costi di rilevazione, sia le distorsioni legate alla rappresentatività del campione. Nell esempio delle scuole, potremmo ottenere dati su una classe per anno di corso per ogni istituto campionato. Si noti che in questo caso non si è tenuto conto del quartiere della città per la scelta degli istituti: lo avessimo fatto avremmo dovuto considerare un ulteriore sub-cluster, questa volta di tipo geografico.

8 2.4 Il campionamento sistematico Figura 3 Procedura per il campionamento per clusters Nel campionamento sistematico, gli N elementi della popolazione vengono numerati con i numeri interi da 1 a N, e in base all ampiezza campionaria n desiderata si decide quello che è il passo di campionamento k, che è uguale a N / n. In altri termini, si decide di selezionare uno ogni k individui nell ordine numerico. Pensate al caso dell interrogazione di matematica. Siamo alla ripresa del giro delle interrogazioni e la professoressa decide di interrogare 4 dei 20 alunni. Se si basasse su un campionamento sistematico, dovrebbe chiamare uno ogni 20 / 4 = 5 nell ordine sul registro. Quindi, a partire da un numero a caso, diciamo 3, vengono chiamati ad essere interrogati il 3, il 3+5 = 8, il 8+5 = 13 e il 13+5 = 18 (Figura 4). Il campionamento sistematico ha il vantaggio di consentire procedure di estrazione, rilevazione e controllo molto semplici e rapide, e produce stime più precise di quelle ottenibili da un campione casuale semplice se la variabilità della variabile del campione sistematico è maggiore di quella della popolazione. Figura 4 Procedura per il campionamento sistematico

9 2.5 Il campionamento non probabilistico a scelta ragionata A volte la scelta dei quartieri di una città da indagare può non avvenire in modo casuale, ma a scelta ragionata. In questi casi, la selezione non è guidata da una tavola di numeri casuali, ma dalle conoscenze e dalle informazioni che il ricercatore possiede sulla popolazione. Per cui, la scelta delle scuole potrebbe non essere casuale, ma ragionata in base al quartiere di appartenenza. Si potrebbe infatti considerare che in alcune scuole il livello socio-economico delle famiglie degli studenti è più elevato che in altre, o che in alcuni quartieri la percentuale di popolazione immigrata è maggiore. Si cerca quindi di individuare un campione composto da elementi, per così dire, tipici, così da essere certi che essi appartengano alle tipologie più rilevanti per gli scopi della ricerca. Anche in questo caso il campionamento diventa di tipo non probabilisitico, in quanto è il giudizio del ricercatore che guida la scelta delle unità di analisi (o dei clusters). Per quanto l introduzione di un elemento di arbitrarietà comporti un certo rischio di ottenere distorsioni nei risultati, se eseguito in modo corretto e da ricercatori competenti con solide conoscenze sul fenomeno e sulla popolazione di interesse anche questo tipo di campionamento può portare a risultati apprezzabili. Riferimenti bibliografici De Carlo, N. A., & Robusto, E. (1996). Teoria e tecniche di campionamento nelle scienze sociali. Milano: LED.