Progetto Patrimonio Linguistico o delle Parole Mancanti

Progetto Patrimonio Linguistico o delle Parole Mancanti Relazione tecnica preliminare Parte 2 dott. andrea pammolli statistico dott. giuseppe montefrancesco responsabile U.O. Prevenzione Dipendenze Patologiche ASL 7- Siena - Italy 18/08/2014 1

Il questionario è composto da 31 domande strutturate (anche dette domande a risposta chiusa, ossia con un numero finito di scelte possibili) e da 79 domande non strutturate (anche dette domande a risposta aperta). I metodi di analisi utilizzati per le domande strutturate sono quelli classici dell analisi quantitativa (test t di Student per il confronto tra medie, test z o chi-quadro per il confronto tra proporzioni). Per l analisi delle domande non strutturate abbiamo utilizzato metodi di analisi lessicometrica (text mining). La prima fase è stata quella di normalizzazione e costituzione della collezione di testi a disposizione, costituita dalle risposte alle singole domande (detto corpus) alla scopo di eliminare errori di battitura, accenti sbagliati, uniformare le forme grafiche presenti correggendo anche la presenza di maiuscole o minuscole. Tale operazione è stata resa possibile grazie al controllo ortografico di Excel, utilizzando il dizionario in esso contenuto. A questo punto, il corpus, in formato.csv, è stato importato nel package RcmdrPlugin.temis, interfaccia grafica del sottostante package tm di R. E stata impostata come prima colonna, quella contenente le risposte alle singole domande e, dalla seconda colonna in poi sono state inserite le variabili categoriali, tra le quali quella relativa al numero progressivo di domanda posta al soggetto (seconda colonna). Il corpus così ottenuto è stato suddiviso e analizzato sia nel suo complesso che nelle sue parti (dette subcorpus), questi ultimi creati sulla base di un criterio oggettivo di raggruppamento dipendente dalla struttura del questionario stesso. Prima di descrivere il corpus, è stato utilizzato uno strumento di tagging grammaticale, al fine di poter individuare la categoria di appartenenza delle varie forme grammaticali e quindi uniformarle (aggettivi, sostantivi e verbi). Lo strumento che ha reso possibile tale operazione è stato TreeTagger. Siamo quindi passati all analisi vera e propria. Tale fase è stata preceduta anche dall'eliminazione delle cosiddette "parole vuote" (anche stop word) ossia i termini come articoli, preposizioni, etc.. al fine di poter individuare i termini maggiormente frequenti, quelli cosiddetti specifici ed infine quelli peculiari sia all interno del corpus e che nei subcorpus. Tali valutazioni sono state effettuate sia a livello descrittivo (in termini di percentuali) sia a livello inferenziale applicando i test di significatività adeguati. Per termini specifici si intendono quelli caratteristici di una parte del corpus (subcorpus) rispetto all'intero corpus, valutato in base al loro sovra/sotto utilizzo nella parte rispetto al tutto. Nel primo caso si diranno frequenti, nel secondo caso si diranno rari. Non si esclude la possibilità di trovare un termine specifico "comune" a più subcorpus. In caso contrario il termine verrà detto "esclu1sivo o originale". Per termini peculiari si intendono le unità lessicali che risultano avere all'interno del corpus un forte sovra/sotto utilizzo rispetto ad un modello di riferimento, tipicamente costituito da un lessico di frequenza, ossia un corpus di grandi dimensioni (circa 500.000 occorrenze), specifico per un determinato argomento. Tali unità vengono spesso dette "parole chiave". Al fine di poter rendere confrontabili le frequenze del corpus con quelle del lessico è stata preventivamente svolta una normalizzazione, ossia esprimere con un comun denominatore ciascuna frequenza relativa nel corpus e nel lessico. 2

Un corpus viene generalmente descritto attraverso indici in grado di caratterizzarne il tipo e l'eventuale possibilità di attuare metodi statistici di analisi, oppure, solamente darne una descrizione riassuntiva. Per dimensione di un corpus, si intende il totale delle occorrenze in esso contenute, dove per occorrenza (anche token) intendiamo ogni singola apparizione di una parola nel testo. Tipicamente, la dimensione minima per poter essere analizzata con tecniche statistiche risulta pari a 15.000 occorrenze. Nell'insieme di un corpus sono di notevole importanza le forme grafiche (catena di caratteri) distinte. Infatti la percentuale di tali termini in un corpus (o subcorpus) non deve essere al di sotto del 20% se vogliamo utilizzare metodi statistici. Allo stesso modo deve essere al di sotto del 50% la percentuale dei termini con una sola occorrenza, ossia presenti una sola volta (detti anche hapax). E' necessario e doveroso sottolineare che nell'analisi sono stati volutamente tralasciati eventuali possibili raggruppamenti di termini considerati simili (es. marijuana, cannabis, canna) perché l'obiettivo principale, almeno in questa prima fase è stato quello di individuare i singoli termini "caratteristici" del linguaggio indipendentemente dal loro significato intrinseco. Alcuni acronimi utilizzati nelle tabelle: Global freq. Global freq % Level frequenza assoluta nel corpus frequenza relativa percentuale nel corpus frequenza assoluta nel subcorpus analizzato % Term/Level frequenza relativa percentuale del termine nel subcorpus analizzato % Level/Term frequenza relativa percentuale del termine nel subcorpus rispetto al corpus T Prob Statistica t di Student p-value 3

Analisi stratificata per Genere Caratteristiche socio-demografiche Il campione è costituto da 261 (55.7%) soggetti di sesso maschile e 208 (44.3%) soggetti di sesso femminile. L età media dei soggetti di sesso femminile (18.3, SD=6.8) è significativamente superiore a quella dei soggetti di sesso maschile (16.8, SD=4.0) (p=0.002). Il 93.8% dei soggetti di sesso maschile è uno studente delle scuole superiori, mentre il 76.4% è di sesso femminile lo è (p<0.05). Il 20.2% degli studenti di sesso femminile è uno studente universitario, mentre solo il 3.9% dei soggetti di sesso maschile lo è (p<0.05). L 89.9% dei soggetti di sesso maschile è in possesso di un titolo di studio medio inferiore, mentre il 71.8% è di sesso femminile lo è (p<0.05). Il 22.3% dei soggetti di sesso femminile è in possesso di un titolo di studio medio superiore mentre solo il 7.4% dei soggetti di sesso maschile lo è (p<0.05). Competenza-Esperienza del fenomeno Non viene rilevata nessuna differenza di genere statisticamente significativa relativamente al livello di competenza che si attesta, indipendentemente dal genere, intorno al 50% come sufficiente e intorno al 40% come buono. Il 28.2% dei soggetti di sesso maschile è venuto a contatto con soggetti che facevano uso di sostanze, mentre il 19.7% dei soggetti di sesso femminile lo è (p<0.05). Il 23.4% dei soggetti di sesso maschile ha fatto almeno una volta uso di sostanze, mentre il 13.0% dei soggetti di sesso femminile lo è (p<0.05). Solo 6 soggetti (9.8%) dei soggetti di sesso maschile di coloro che hanno dichiarato di aver provato almeno una volta una sostanza, dichiara di essere dipendente e 2, il 7.4% dei soggetti di sesso femminile (p>0.05). Di quest ultimi solamente 2, equamente ripartiti per genere, dichiara di aver ricevuto cure. Compulsive e Sostanze d Abuso Circa il 70% dichiara indipendentemente dal genere di conoscere il significato di Dipendenza Patologica. Circa la metà dei soggetti, il 43.8% dei soggetti di sesso maschile ed il 56.1% dei soggetti di sesso femminile hanno dichiarato di sapere se vi è una qualche relazione tra compulsive dipendenza patologica (p<0.05). Tra coloro che hanno risposto Si (115 soggetti di sesso femminile e 113 soggetti di sesso maschile), 80 soggetti, il 70.8%, dei soggetti di sesso maschile, dichiara la compulsione come un desiderio irrefrenabile di comportarsi in un certo modo, mentre il 68.7% si registra nei soggetti di sesso femminile (p>0.05). Circa il 65% indipendentemente dal genere, dichiara che il processo di consumo di sostanze stupefacenti 4

ha a che fare con bisogno e/o piacere. Circa il 66%dei soggetti, indipendentemente dal genere, dichiara che una sostanza d abuso è qualsiasi sostanza di cui si può abusare. Sentito Parlare In questo caso riportiamo solamente i risultati ritenuti statisticamente significativi, tralasciando il resto. Riportiamo in tabella sottostante i risultati ottenuti 5

Analisi delle domande non strutturate L Analisi precedentemente svolta sarà stratificata per genere e zona di residenza, in modo da andare ad individuare il linguaggio specifico, peculiare e rilevante separatamente per maschi, femmine e per soggetti residenti nelle seguenti quattro aree: Siena, Amiata, Colle di Val d'elsa e Val di Chiana. Inoltre sarà eseguito un test sulla significatività della differenza di proporzione d uso fra i due sessi. Sesso Maschile Il corpus: dimensione e caratteristiche La dimensione del corpus (totale delle occorrenze) è 33749 (considerato piccolo), di cui 3916 forme grafiche distinte (Word type). La percentuale di termini unici (Type/Token Ratio, TTR) è pari al 10.5% (essendo <20%, questo permette di procede con l analisi). La percentuale di hapax (termini presenti una sola volta) è il 46.5% (essendo <50%, anche questo permette di procedere). Infine ogni forma grafica si presenta in media 9.56 volte. Tab. 8 Caratteristiche corpus iniziale Da quanto riportato in Tab. 8, possiamo osservare i principali indicatori lessicometrici per il corpus ed i relativi subcorpus. 6

Da quanto osservato, si evince che i risultati saranno attendibili solo per il subcorpus 2, i risultati che otterremo dagli altri, dovranno essere presi con molta cautela. Analisi dei termini maggiormenti frequenti nel corpus e nei quattro subcorpus Andiamo adesso ad analizzare i termini pieni maggiormente frequenti nel corpus dapprima e, successivamente nei quattro sub corpus, considerandone un massimo di 25 e ordinati in maniera decrescente per numero di occorrenze. Quindi, da questa fase, abbiamo eliminato dal vocabolario, tutti gli stop word ossia quelle forme grafiche non aventi nessun significato come articoli, preposizioni, etc.. I termini rimasti, daranno un idea del linguaggio utilizzato, restringendo così il raggio d azione, ma non necessariamente non rappresenterà né il più specifico né il peculiare (casi trattati successivamente). Il corpus risulta essere così costituito: Tab. 9 Caratteristiche del nuovo corpus 7

Tab. 10 Termini più frequenti nel corpus 8

Tab. 11 Termini più frequenti subcorpus 1 9

Analisi delle specificità Con questa analisi andiamo ad individuare i termini che nelle singole domande presentano un significativo sovra-sotto uso rispetto all intero corpus (in neretto, corsivo e sottolineato). Ciò non esclude la possibilità che esistano termini comuni a più domande. Se ciò non fosse vero, tali termini verrebbero detti esclusivi (o originali ). Tra i termini significativi il cui valore della statistica test t risulta positivo sono detti specifici, quelli con termine negativo sono detti rari. Abbiamo considerato come significativi da un punto di vista linguistico, quelli associati ad un p<0.05, tra quelli che presentavano un numero di occorrenze superiore al numero delle categorie di domande non strutturate (4) + 1). Di questi abbiamo considerato il massimo dei termini significativi. Il test fa riferimento alla distribuzione di una variabile aleatoria ipergeometrica. 13

Competenze del partecipante 15

Patrimonio Linguistico 16

Esperienza diretta/indiretta 17

Linguaggio da strada 18

Sesso Femminile Il corpus: dimensione e caratteristiche La dimensione del corpus (totale delle occorrenze) è 28930 (considerato piccolo), di cui 3012 forme grafiche distinte (Word type). La percentuale di termini unici (Type/Token Ratio, TTR) è pari al 10.4% (essendo <20%, questo permette di procede con l analisi). La percentuale di hapax (termini presenti una sola volta) è il 43.03% (essendo <50%, anche questo permette di procedere). Infine ogni forma grafica si presenta in media 9.60 volte. Tab. 15 Caratteristiche corpus iniziale Da quanto riportato in Tab. 15, possiamo osservare i principali indicatori lessicometrici per il corpus ed i relativi subcorpus. 19

Da quanto osservato, si evince che i risultati saranno attendibili solo per il subcorpus 2, i risultati che otterremo dagli altri, dovranno essere presi con molta cautela. Analisi dei termini maggiormenti frequenti nel corpus e nei quattro subcorpus Andiamo adesso ad analizzare i termini pieni maggiormente frequenti nel corpus dapprima e, successivamente nei quattro sub corpus, considerandone un massimo di 25 e ordinati in maniera decrescente per numero di occorrenze. Quindi, da questa fase, abbiamo eliminato dal vocabolario, tutti gli stop word ossia quelle forme grafiche non aventi nessun significato come articoli, preposizioni, etc.. I termini rimasti, daranno un idea del linguaggio utilizzato, restringendo così il raggio d azione, ma non necessariamente non rappresenterà né il più specifico né il peculiare (casi trattati successivamente). Il corpus risulta essere così costituito: Tab. 16 Caratteristiche del nuovo corpus 20

Analisi stratificata per Area di Residenza Caratteristiche socio-demografiche Il campione è costituto da 490 soggetti di cui 19 (3.9%) missing. La proporzione tra maschi e femmine è pressochè identica (50%) per Siena e Colle, mentre vi è una netta dominanza dei soggetti di sesso maschile per Amiata (76%) e Val di Chiana (69%). (p<0.05). Gli studenti delle scuole superiori sono tra l'80% ed il 96% con un valore significativamente superiore di Colle (96%) rispetto a Siena (81%), (p<0.05), mentre gli studenti universitari sono significativamente superiori a Siena (16.1%) rispetto a Colle (1.6%), (p<0.05). Stesso trend si osserva per i soggetti che hanno conseguito un diploma di scuola media inferiore e superiore: gli studenti con un diploma di scuola media inferiore sono in percentuale significativamente superiori a Colle (92.6%) rispetto a Siena (76%), (p<0.05), mentre gli studenti con un diploma di scuola media superiore sono in percentuale significativamente superiori a Siena (19.6%) rispetto a Colle (4.1 %), (p<0.05). Non vi è una significativa differenza tra l'età media dei soggetti (p>0.05) che si attesta intorno ai 17 anni. Competenza-Esperienza del fenomeno Non viene rilevata nessuna differenza di area statisticamente significativa relativamente al livello di competenza che si attesta, indipendentemente dall'area, intorno al 40% come buono e intorno al 50% come sufficiente per tutte le aree tranne l'amiata (28%). Si rileva una significativa superiore competenza dichiarata come "ottima" per i soggetti dell'amiata (20%) rispetto ai soggetti di Siena (3.9) e Colle (7.3), (p<0.05). Il 32.8% dei soggetti di Colle è venuto a contatto con soggetti che facevano uso di sostanze, mentre ciò avviene nel 6.9% dei soggetti della Val di Chiana (p<0.05). Nelle altre aree tale conoscenza si attesta intorno al 20%. Circa il 20% dei soggetti, indipendentemente dall'area di interesse ha fatto almeno una volta uso di sostanze. Solo 5 soggetti (14.3%) dei soggetti di Siena di coloro che hanno dichiarato di aver provato almeno una volta una sostanza, dichiara di essere dipendente e 2, l' 8.0% dei soggetti di Colle ed infine 1, il 9.1% dei soggetti della Val di Chiana (p>0.05). Di quest ultimi solamente un soggetto a Siena ed uno in Val di Chiana, dichiara di aver ricevuto cure. 31

Compulsive e Sostanze d Abuso Circa il 75% dichiara indipendentemente dalla zona di residenza di conoscere il significato di Dipendenza Patologica. Circa la metà dei soggetti, il 45% dei soggetti, indipendentemente dalla zona di residenza, ha dichiarato di sapere se vi è una qualche relazione tra compulsive dipendenza patologica. Tra coloro che hanno risposto Si", circa il 70%, dei soggetti di Siena e Val di Chiana, circa il 60% dei soggetti di Colle ed 44% dei soggetti dell'amiata dichiara la compulsione come un desiderio irrefrenabile di comportarsi in un certo modo. Circa il 60% indipendentemente dalla zona di residenza, dichiara che il processo di consumo di sostanze stupefacenti ha a che fare con bisogno e/o piacere. Tra il 70% e l'80% dei soggetti, indipendentemente dalla zona di residenza, dichiara che una sostanza d abuso è qualsiasi sostanza di cui si può abusare. Sentito Parlare In questo caso riportiamo solamente i risultati ritenuti statisticamente significativi, tralasciando il resto. Riportiamo in tabella sottostante i risultati ottenuti 32

Analisi per area di residenza Amiata Il corpus: dimensione e caratteristiche Il corpus ha tutti i parametri al di sotto dei valori soglia per poter eseguire un analisi statistica testuale. Nonostante questo riportiamo i risultati ottenuti, almeno a livello esplorativo-descrittivo. Tab. 22 Caratteristiche corpus iniziale Da quanto riportato in Tab. 22, possiamo osservare i principali indicatori lessicometrici per il corpus ed i relativi subcorpus. 33

Analisi dei termini maggiormenti frequenti nel corpus e nei quattro subcorpus Andiamo adesso ad analizzare i termini pieni maggiormente frequenti nel corpus dapprima e, successivamente nei quattro sub corpus, considerandone un massimo di 25 e ordinati in maniera decrescente per numero di occorrenze. Quindi, da questa fase, abbiamo eliminato dal vocabolario, tutti gli stop word ossia quelle forme grafiche non aventi nessun significato come articoli, preposizioni, etc.. I termini rimasti, daranno un idea del linguaggio utilizzato, restringendo così il raggio d azione, ma non necessariamente non rappresenterà né il più specifico né il peculiare (casi trattati successivamente). Il corpus risulta essere così costituito: Tab. 23 Caratteristiche del nuovo corpus 34

Colle di Val d Elsa Il corpus: dimensione e caratteristiche Il corpus ha tutti i parametri al di sotto dei valori soglia per poter eseguire un analisi statistica testuale. Nonostante questo riportiamo i risultati ottenuti, almeno a livello esplorativo-descrittivo. Tab. 29 Caratteristiche corpus iniziale Da quanto riportato in Tab. 29, possiamo osservare i principali indicatori lessicometrici per il corpus ed i relativi subcorpus. 45

Val di Chiana Il corpus: dimensione e caratteristiche Il corpus ha tutti i parametri al di sotto dei valori soglia per poter eseguire un analisi statistica testuale. Nonostante questo riportiamo i risultati ottenuti, almeno a livello esplorativo-descrittivo. Tab. 36 Caratteristiche corpus iniziale Da quanto riportato in Tab. 36, possiamo osservare i principali indicatori lessicometrici per il corpus ed i relativi subcorpus. 57

Siena Il corpus: dimensione e caratteristiche Il corpus ha tutti i parametri al di sotto dei valori soglia per poter eseguire un analisi statistica testuale. Nonostante questo riportiamo i risultati ottenuti, almeno a livello esplorativo-descrittivo. Tab. 43 Caratteristiche corpus iniziale Da quanto riportato in Tab. 43, possiamo osservare i principali indicatori lessicometrici per il corpus ed i relativi subcorpus. 69