Progetto Patrimonio Linguistico o delle Parole Mancanti

Documenti analoghi
Linguistica Computazionale

Progetto Unico Ser.T.

MODELLI QUANTITATIVI. f x r = c

Osservatorio per le Politiche Sociali - Terzo Rapporto

Test di orientamento della Facoltà di Scienze MM.FF.NN. A.A. 2007/2008

OGGETTO: Ricoveri ospedalieri per patologie respiratorie nella popolazione nata in Italia, residente a S. Polo e nel resto del comune di Brescia.

La matrice dati. La matrice dati

INCIDENTI DOMESTICI OVER 65. Anni 2010 e 2011

Compiti tematici dai capitoli 2,3,4

Titolo della lezione Corso di Statistica Prof. Andrea CICCARELLI

Statistica Elementare

Livello di misura Scala Nominale Scala Ordinale Scala di Rapporti. Scala Nominale

Metodi statistici per le ricerche di mercato

Fonti e strumenti statistici per la comunicazione

Metodi Quantitativi per Economia, Finanza e Management. Esempi di Analisi Univariata

ANALISI DEL QUADRO DEMOGRAFICO DELL ASL DI BERGAMO. A cura dell Osservatorio Socio-Sanitario Direzione Sociale ASL di Bergamo

Figura 1. Obiettivi di studio che i ragazzi intendono raggiungere (%)

Titolo della lezione. Introduzione

bambini di cinque anni in provincia di Bergamo

Rappresentazioni Tabellari e Grafiche. Corso di Laurea Specialistica in SCIENZE DELLE PROFESSIONI SANITARIE DELLA RIABILITAZIONE Statistica Medica

OGGETTO: Ricoveri ospedalieri per diverse patologie nel quartiere S. Polo e nel resto del comune di Brescia nel periodo

Elementi di Statistica

Linguistica Computazionale

Noi e l ambiente. Prof.ssa Paola Carroccia, Prof.ssa Filippa Latella ITET A. de Viti de Marco Triggiano

PERCORSI ED ESITI DELLA GRAVIDANZA

Masterplan Città di Castello smart Scheda: demografia Versione 1.1 (maggio 2014)

Effettuazione di un TEST D IPOTESI. = stima del parametro di interesse calcolata sui dati campionari

Tutta la scienza è fondata sulle misure (Helmholtz)

(f o -f a ) f a fo = frequenza osservata fa = frequenza attesa per effetto del caso (cioè se è vera l'ipotesi nulla) DISEGNI CON UNA SOLA VARIABILE

Statistica Sociale - modulo A

Tipi di variabili. Indici di tendenza centrale e di dispersione

LE OPINIONI DEI CONSUMATORI CIRCA LE NUOVE TIPOLOGIE DI ALIMENTAZIONE PER AUTOMOBILI

STATISTICA: esercizi svolti sulla MEDIA ARITMETICA

Dipartimento di Sociologia e Ricerca Sociale. Corso di Laurea in Sociologia. Insegnamento di Statistica (a.a ) dott.ssa Gaia Bertarelli

Tra i non fumatori qual è la percentuale di non utilizzatori di sostanze stupefacenti? Scegli un'alternativa: a. 86% b. 10% c. 50% d. 25% e.

11. Il lessico dei testi

LA PARTECIPAZIONE DEI GIOVANI

SINTESI DELL INDAGINE INVALSI 2017 (II classe delle superiori, riformata)

Le medie. Antonello Maruotti

STATISTICA A K (60 ore)

Le sezione del questionario relativa alla corretta alimentazione viene qui riportata:

OBIETTIVI DI APPRENDIMENTO

RELAZIONE RISULTATI PROVE INVALSI 2018

CERTIFICATI ISO 9001:2008

Indagine pilota TECO-2017

Linguistica dei Corpora (2) Lezione 3: Manipolare testi (non solo con cqp)

Obiettivi del corso. Analisi dei dati

Ma quali fenomeni sono da intendersi per fenomeni collettivi?

Servizio Sviluppo Economico, studi e statistica. Analisi dei redditi dei cittadini di Trento anno d imposta 2014

Stefania Taralli Anno Accademico 2017/2018 1

Analisi customer sul servizio di Call Center dell URP del Comune di Bari. (periodo di rilascio dal 18/11/2017 al 22/11/2017)

VISIONE DEL FUTURO ALLEGATO STATISTICO

INDAGINE CONOSCITIVA SUI BISOGNI FORMATIVI

AIP. L ANALISI AUTOMATIZZATA dei DATI TESTUALI: IL SOFTWARE ALCESTE

COMUNE di SAN COLOMBANO AL LAMBRO BORGO INSIGNE (Titolo Araldico) Provincia di MILANO. Servizio Gestione Sistema Qualità

Statistica Applicata Corso di Laurea in Scienze Naturali a. a. 2018/2019

Informazioni introduttive Le prove Invalsi sono state somministrate: al 71,8% degli alunni nella prova italiano e al 70% degli alunni nella prova

Titolo della lezione Corso di Statistica Prof. Andrea CICCARELLI

I codici miscellanei nel basso medioevo

Esercitazione. 24 Aprile 2012

La statistica. Elaborazione e rappresentazione dei dati Gli indicatori statistici. Prof. Giuseppe Carucci

Tabella per l'analisi dei risultati

Profilo socio-demografico

Data set relativo a 40 titolari di esercizi commerciali. Durata del percorso casa lavoro (in minuti) Numero dipendenti che lavorano nel negozio

A proposito di valutazione scolastica

POPOLAZIONE: INDICI DI STRUTTURA E DINAMICA. Anno Anticipazione

ESERCITAZIONE ANCOVA

PROVINCIA DI ROVIGO Assessorato alle Politiche Giovanili

Introduzione alla statistica con Excel

ATTEGGIAMENTI PSICOSOCIALI SUGLI USI DEI MEZZI TECNOLOGICI

Analisi bivariata. Il caso di caratteri qualitativi

ANALISI EPIDEMIOLOGICA SULLA FREQUENZA DEI TUMORI NELLA ZONA SOCIO-SANITARIA VALDARNO ARETINA Eta anni

Il consumo di alcol nel 2011: risultati della sorveglianza PASSI

Facoltà di Medicina e Chirurgia

Segnalazioni alle prefetture

Infermieristica e Medicina di Genere:

UNIVERSITA DEGLI STUDI DI SALERNO

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 3

Informazioni Statistiche N 2/2005

Le statistiche sui redditi dei cittadini

Risultati relativi al Primo Trimestre 2009

RESTITUZIONE DATI INVALSI 2018ANNO SCOLASTICO 2018/19. a cura delle FF.SS. Massa Stefania e Canargiu Giovanni

UNIVERSITA DEGLI STUDI DI SALERNO

Report. Alunni diplomati presso l'istituto San Giovanni Bosco e Cennino Cennini di Colle di Val d'elsa nel quinquennio :

UNIVERSITA DEGLI STUDI DI SALERNO

Laboratorio di Chimica Fisica. Analisi Statistica

Dispense Associazione PRELIMINARY DRAFT

Statistiche per l analisi dei trend Capitolo 6

Distribuzione di frequenza relativa e percentuale: esempio

UNIVERSITA DEGLI STUDI DI SALERNO

ALLA FINE DELLA CLASSE QUARTA L ALUNNO È IN GRADO DI Competenza Abilità Conoscenze. Quando ascolta l alunno è in grado di:

UNIVERSITA DEGLI STUDI DI SALERNO

Obiettivi del corso. Analisi dei dati

Mortalità e Incidenza patologie cardiovascolari e respiratorie nei comuni di Rodengo Saiano, Gussago, Castegnato e Ospitaletto - Settembre

Un anno dopo risultati di una scelta

LE PRESTAZIONI DI PRONTO SOCCORSO DELL ANNO 2012 NELL ASL DELLA PROVINCIA DI VARESE. Direzione Generale U.O.C. Osservatorio Epidemiologico

materiale didattico II incontro

U.O. Epidemiologia Registro Tumori ASL Lecce. Dati di incidenza e Mortalità

UNIVERSITA DEGLI STUDI DI SALERNO

Transcript:

Progetto Patrimonio Linguistico o delle Parole Mancanti Relazione tecnica preliminare Parte 2 dott. andrea pammolli statistico dott. giuseppe montefrancesco responsabile U.O. Prevenzione Dipendenze Patologiche ASL 7- Siena - Italy 18/08/2014 1

Il questionario è composto da 31 domande strutturate (anche dette domande a risposta chiusa, ossia con un numero finito di scelte possibili) e da 79 domande non strutturate (anche dette domande a risposta aperta). I metodi di analisi utilizzati per le domande strutturate sono quelli classici dell analisi quantitativa (test t di Student per il confronto tra medie, test z o chi-quadro per il confronto tra proporzioni). Per l analisi delle domande non strutturate abbiamo utilizzato metodi di analisi lessicometrica (text mining). La prima fase è stata quella di normalizzazione e costituzione della collezione di testi a disposizione, costituita dalle risposte alle singole domande (detto corpus) alla scopo di eliminare errori di battitura, accenti sbagliati, uniformare le forme grafiche presenti correggendo anche la presenza di maiuscole o minuscole. Tale operazione è stata resa possibile grazie al controllo ortografico di Excel, utilizzando il dizionario in esso contenuto. A questo punto, il corpus, in formato.csv, è stato importato nel package RcmdrPlugin.temis, interfaccia grafica del sottostante package tm di R. E stata impostata come prima colonna, quella contenente le risposte alle singole domande e, dalla seconda colonna in poi sono state inserite le variabili categoriali, tra le quali quella relativa al numero progressivo di domanda posta al soggetto (seconda colonna). Il corpus così ottenuto è stato suddiviso e analizzato sia nel suo complesso che nelle sue parti (dette subcorpus), questi ultimi creati sulla base di un criterio oggettivo di raggruppamento dipendente dalla struttura del questionario stesso. Prima di descrivere il corpus, è stato utilizzato uno strumento di tagging grammaticale, al fine di poter individuare la categoria di appartenenza delle varie forme grammaticali e quindi uniformarle (aggettivi, sostantivi e verbi). Lo strumento che ha reso possibile tale operazione è stato TreeTagger. Siamo quindi passati all analisi vera e propria. Tale fase è stata preceduta anche dall'eliminazione delle cosiddette "parole vuote" (anche stop word) ossia i termini come articoli, preposizioni, etc.. al fine di poter individuare i termini maggiormente frequenti, quelli cosiddetti specifici ed infine quelli peculiari sia all interno del corpus e che nei subcorpus. Tali valutazioni sono state effettuate sia a livello descrittivo (in termini di percentuali) sia a livello inferenziale applicando i test di significatività adeguati. Per termini specifici si intendono quelli caratteristici di una parte del corpus (subcorpus) rispetto all'intero corpus, valutato in base al loro sovra/sotto utilizzo nella parte rispetto al tutto. Nel primo caso si diranno frequenti, nel secondo caso si diranno rari. Non si esclude la possibilità di trovare un termine specifico "comune" a più subcorpus. In caso contrario il termine verrà detto "esclu1sivo o originale". Per termini peculiari si intendono le unità lessicali che risultano avere all'interno del corpus un forte sovra/sotto utilizzo rispetto ad un modello di riferimento, tipicamente costituito da un lessico di frequenza, ossia un corpus di grandi dimensioni (circa 500.000 occorrenze), specifico per un determinato argomento. Tali unità vengono spesso dette "parole chiave". Al fine di poter rendere confrontabili le frequenze del corpus con quelle del lessico è stata preventivamente svolta una normalizzazione, ossia esprimere con un comun denominatore ciascuna frequenza relativa nel corpus e nel lessico. 2

Un corpus viene generalmente descritto attraverso indici in grado di caratterizzarne il tipo e l'eventuale possibilità di attuare metodi statistici di analisi, oppure, solamente darne una descrizione riassuntiva. Per dimensione di un corpus, si intende il totale delle occorrenze in esso contenute, dove per occorrenza (anche token) intendiamo ogni singola apparizione di una parola nel testo. Tipicamente, la dimensione minima per poter essere analizzata con tecniche statistiche risulta pari a 15.000 occorrenze. Nell'insieme di un corpus sono di notevole importanza le forme grafiche (catena di caratteri) distinte. Infatti la percentuale di tali termini in un corpus (o subcorpus) non deve essere al di sotto del 20% se vogliamo utilizzare metodi statistici. Allo stesso modo deve essere al di sotto del 50% la percentuale dei termini con una sola occorrenza, ossia presenti una sola volta (detti anche hapax). E' necessario e doveroso sottolineare che nell'analisi sono stati volutamente tralasciati eventuali possibili raggruppamenti di termini considerati simili (es. marijuana, cannabis, canna) perché l'obiettivo principale, almeno in questa prima fase è stato quello di individuare i singoli termini "caratteristici" del linguaggio indipendentemente dal loro significato intrinseco. Alcuni acronimi utilizzati nelle tabelle: Global freq. Global freq % Level frequenza assoluta nel corpus frequenza relativa percentuale nel corpus frequenza assoluta nel subcorpus analizzato % Term/Level frequenza relativa percentuale del termine nel subcorpus analizzato % Level/Term frequenza relativa percentuale del termine nel subcorpus rispetto al corpus T Prob Statistica t di Student p-value 3

Analisi stratificata per Genere Caratteristiche socio-demografiche Il campione è costituto da 261 (55.7%) soggetti di sesso maschile e 208 (44.3%) soggetti di sesso femminile. L età media dei soggetti di sesso femminile (18.3, SD=6.8) è significativamente superiore a quella dei soggetti di sesso maschile (16.8, SD=4.0) (p=0.002). Il 93.8% dei soggetti di sesso maschile è uno studente delle scuole superiori, mentre il 76.4% è di sesso femminile lo è (p<0.05). Il 20.2% degli studenti di sesso femminile è uno studente universitario, mentre solo il 3.9% dei soggetti di sesso maschile lo è (p<0.05). L 89.9% dei soggetti di sesso maschile è in possesso di un titolo di studio medio inferiore, mentre il 71.8% è di sesso femminile lo è (p<0.05). Il 22.3% dei soggetti di sesso femminile è in possesso di un titolo di studio medio superiore mentre solo il 7.4% dei soggetti di sesso maschile lo è (p<0.05). Competenza-Esperienza del fenomeno Non viene rilevata nessuna differenza di genere statisticamente significativa relativamente al livello di competenza che si attesta, indipendentemente dal genere, intorno al 50% come sufficiente e intorno al 40% come buono. Il 28.2% dei soggetti di sesso maschile è venuto a contatto con soggetti che facevano uso di sostanze, mentre il 19.7% dei soggetti di sesso femminile lo è (p<0.05). Il 23.4% dei soggetti di sesso maschile ha fatto almeno una volta uso di sostanze, mentre il 13.0% dei soggetti di sesso femminile lo è (p<0.05). Solo 6 soggetti (9.8%) dei soggetti di sesso maschile di coloro che hanno dichiarato di aver provato almeno una volta una sostanza, dichiara di essere dipendente e 2, il 7.4% dei soggetti di sesso femminile (p>0.05). Di quest ultimi solamente 2, equamente ripartiti per genere, dichiara di aver ricevuto cure. Compulsive e Sostanze d Abuso Circa il 70% dichiara indipendentemente dal genere di conoscere il significato di Dipendenza Patologica. Circa la metà dei soggetti, il 43.8% dei soggetti di sesso maschile ed il 56.1% dei soggetti di sesso femminile hanno dichiarato di sapere se vi è una qualche relazione tra compulsive dipendenza patologica (p<0.05). Tra coloro che hanno risposto Si (115 soggetti di sesso femminile e 113 soggetti di sesso maschile), 80 soggetti, il 70.8%, dei soggetti di sesso maschile, dichiara la compulsione come un desiderio irrefrenabile di comportarsi in un certo modo, mentre il 68.7% si registra nei soggetti di sesso femminile (p>0.05). Circa il 65% indipendentemente dal genere, dichiara che il processo di consumo di sostanze stupefacenti 4

ha a che fare con bisogno e/o piacere. Circa il 66%dei soggetti, indipendentemente dal genere, dichiara che una sostanza d abuso è qualsiasi sostanza di cui si può abusare. Sentito Parlare In questo caso riportiamo solamente i risultati ritenuti statisticamente significativi, tralasciando il resto. Riportiamo in tabella sottostante i risultati ottenuti 5

Analisi delle domande non strutturate L Analisi precedentemente svolta sarà stratificata per genere e zona di residenza, in modo da andare ad individuare il linguaggio specifico, peculiare e rilevante separatamente per maschi, femmine e per soggetti residenti nelle seguenti quattro aree: Siena, Amiata, Colle di Val d'elsa e Val di Chiana. Inoltre sarà eseguito un test sulla significatività della differenza di proporzione d uso fra i due sessi. Sesso Maschile Il corpus: dimensione e caratteristiche La dimensione del corpus (totale delle occorrenze) è 33749 (considerato piccolo), di cui 3916 forme grafiche distinte (Word type). La percentuale di termini unici (Type/Token Ratio, TTR) è pari al 10.5% (essendo <20%, questo permette di procede con l analisi). La percentuale di hapax (termini presenti una sola volta) è il 46.5% (essendo <50%, anche questo permette di procedere). Infine ogni forma grafica si presenta in media 9.56 volte. Tab. 8 Caratteristiche corpus iniziale Da quanto riportato in Tab. 8, possiamo osservare i principali indicatori lessicometrici per il corpus ed i relativi subcorpus. 6

Da quanto osservato, si evince che i risultati saranno attendibili solo per il subcorpus 2, i risultati che otterremo dagli altri, dovranno essere presi con molta cautela. Analisi dei termini maggiormenti frequenti nel corpus e nei quattro subcorpus Andiamo adesso ad analizzare i termini pieni maggiormente frequenti nel corpus dapprima e, successivamente nei quattro sub corpus, considerandone un massimo di 25 e ordinati in maniera decrescente per numero di occorrenze. Quindi, da questa fase, abbiamo eliminato dal vocabolario, tutti gli stop word ossia quelle forme grafiche non aventi nessun significato come articoli, preposizioni, etc.. I termini rimasti, daranno un idea del linguaggio utilizzato, restringendo così il raggio d azione, ma non necessariamente non rappresenterà né il più specifico né il peculiare (casi trattati successivamente). Il corpus risulta essere così costituito: Tab. 9 Caratteristiche del nuovo corpus 7

Tab. 10 Termini più frequenti nel corpus 8

Tab. 11 Termini più frequenti subcorpus 1 9

Tab. 12 Termini più frequenti subcorpus 2 10

Tab. 13 Termini più frequenti subcorpus 3 11

Tab. 14 Termini più frequenti subcorpus 4 12

Analisi delle specificità Con questa analisi andiamo ad individuare i termini che nelle singole domande presentano un significativo sovra-sotto uso rispetto all intero corpus (in neretto, corsivo e sottolineato). Ciò non esclude la possibilità che esistano termini comuni a più domande. Se ciò non fosse vero, tali termini verrebbero detti esclusivi (o originali ). Tra i termini significativi il cui valore della statistica test t risulta positivo sono detti specifici, quelli con termine negativo sono detti rari. Abbiamo considerato come significativi da un punto di vista linguistico, quelli associati ad un p<0.05, tra quelli che presentavano un numero di occorrenze superiore al numero delle categorie di domande non strutturate (4) + 1). Di questi abbiamo considerato il massimo dei termini significativi. Il test fa riferimento alla distribuzione di una variabile aleatoria ipergeometrica. 13

14

Competenze del partecipante 15

Patrimonio Linguistico 16

Esperienza diretta/indiretta 17

Linguaggio da strada 18

Sesso Femminile Il corpus: dimensione e caratteristiche La dimensione del corpus (totale delle occorrenze) è 28930 (considerato piccolo), di cui 3012 forme grafiche distinte (Word type). La percentuale di termini unici (Type/Token Ratio, TTR) è pari al 10.4% (essendo <20%, questo permette di procede con l analisi). La percentuale di hapax (termini presenti una sola volta) è il 43.03% (essendo <50%, anche questo permette di procedere). Infine ogni forma grafica si presenta in media 9.60 volte. Tab. 15 Caratteristiche corpus iniziale Da quanto riportato in Tab. 15, possiamo osservare i principali indicatori lessicometrici per il corpus ed i relativi subcorpus. 19

Da quanto osservato, si evince che i risultati saranno attendibili solo per il subcorpus 2, i risultati che otterremo dagli altri, dovranno essere presi con molta cautela. Analisi dei termini maggiormenti frequenti nel corpus e nei quattro subcorpus Andiamo adesso ad analizzare i termini pieni maggiormente frequenti nel corpus dapprima e, successivamente nei quattro sub corpus, considerandone un massimo di 25 e ordinati in maniera decrescente per numero di occorrenze. Quindi, da questa fase, abbiamo eliminato dal vocabolario, tutti gli stop word ossia quelle forme grafiche non aventi nessun significato come articoli, preposizioni, etc.. I termini rimasti, daranno un idea del linguaggio utilizzato, restringendo così il raggio d azione, ma non necessariamente non rappresenterà né il più specifico né il peculiare (casi trattati successivamente). Il corpus risulta essere così costituito: Tab. 16 Caratteristiche del nuovo corpus 20

Tab. 17 Termini più frequenti nel corpus 21

Tab. 18 Termini più frequenti subcorpus 1 22

Tab. 19 Termini più frequenti subcorpus 2 23

Tab. 20 Termini più frequenti subcorpus 3 24

Tab. 21 Termini più frequenti subcorpus 4 25

Analisi delle specificità Con questa analisi andiamo ad individuare i termini che nelle singole domande presentano un significativo sovra-sotto uso rispetto all intero corpus (in neretto, corsivo e sottolineato). Ciò non esclude la possibilità che esistano termini comuni a più domande. Se ciò non fosse vero, tali termini verrebbero detti esclusivi (o originali ). Tra i termini significativi il cui valore della statistica test t risulta positivo sono detti specifici, quelli con termine negativo sono detti rari. Abbiamo considerato come significativi da un punto di vista linguistico, quelli associati ad un p<0.05, tra quelli che presentavano un numero di occorrenze superiore al numero delle categorie di domande non strutturate (4) + 1). Di questi abbiamo considerato il massimo dei termini significativi. Il test fa riferimento alla distribuzione di una variabile aleatoria ipergeometrica. 26

Competenze del partecipante 27

Patrimonio Linguistico 28

Esperienza diretta/indiretta 29

Linguaggio da strada 30

Analisi stratificata per Area di Residenza Caratteristiche socio-demografiche Il campione è costituto da 490 soggetti di cui 19 (3.9%) missing. La proporzione tra maschi e femmine è pressochè identica (50%) per Siena e Colle, mentre vi è una netta dominanza dei soggetti di sesso maschile per Amiata (76%) e Val di Chiana (69%). (p<0.05). Gli studenti delle scuole superiori sono tra l'80% ed il 96% con un valore significativamente superiore di Colle (96%) rispetto a Siena (81%), (p<0.05), mentre gli studenti universitari sono significativamente superiori a Siena (16.1%) rispetto a Colle (1.6%), (p<0.05). Stesso trend si osserva per i soggetti che hanno conseguito un diploma di scuola media inferiore e superiore: gli studenti con un diploma di scuola media inferiore sono in percentuale significativamente superiori a Colle (92.6%) rispetto a Siena (76%), (p<0.05), mentre gli studenti con un diploma di scuola media superiore sono in percentuale significativamente superiori a Siena (19.6%) rispetto a Colle (4.1 %), (p<0.05). Non vi è una significativa differenza tra l'età media dei soggetti (p>0.05) che si attesta intorno ai 17 anni. Competenza-Esperienza del fenomeno Non viene rilevata nessuna differenza di area statisticamente significativa relativamente al livello di competenza che si attesta, indipendentemente dall'area, intorno al 40% come buono e intorno al 50% come sufficiente per tutte le aree tranne l'amiata (28%). Si rileva una significativa superiore competenza dichiarata come "ottima" per i soggetti dell'amiata (20%) rispetto ai soggetti di Siena (3.9) e Colle (7.3), (p<0.05). Il 32.8% dei soggetti di Colle è venuto a contatto con soggetti che facevano uso di sostanze, mentre ciò avviene nel 6.9% dei soggetti della Val di Chiana (p<0.05). Nelle altre aree tale conoscenza si attesta intorno al 20%. Circa il 20% dei soggetti, indipendentemente dall'area di interesse ha fatto almeno una volta uso di sostanze. Solo 5 soggetti (14.3%) dei soggetti di Siena di coloro che hanno dichiarato di aver provato almeno una volta una sostanza, dichiara di essere dipendente e 2, l' 8.0% dei soggetti di Colle ed infine 1, il 9.1% dei soggetti della Val di Chiana (p>0.05). Di quest ultimi solamente un soggetto a Siena ed uno in Val di Chiana, dichiara di aver ricevuto cure. 31

Compulsive e Sostanze d Abuso Circa il 75% dichiara indipendentemente dalla zona di residenza di conoscere il significato di Dipendenza Patologica. Circa la metà dei soggetti, il 45% dei soggetti, indipendentemente dalla zona di residenza, ha dichiarato di sapere se vi è una qualche relazione tra compulsive dipendenza patologica. Tra coloro che hanno risposto Si", circa il 70%, dei soggetti di Siena e Val di Chiana, circa il 60% dei soggetti di Colle ed 44% dei soggetti dell'amiata dichiara la compulsione come un desiderio irrefrenabile di comportarsi in un certo modo. Circa il 60% indipendentemente dalla zona di residenza, dichiara che il processo di consumo di sostanze stupefacenti ha a che fare con bisogno e/o piacere. Tra il 70% e l'80% dei soggetti, indipendentemente dalla zona di residenza, dichiara che una sostanza d abuso è qualsiasi sostanza di cui si può abusare. Sentito Parlare In questo caso riportiamo solamente i risultati ritenuti statisticamente significativi, tralasciando il resto. Riportiamo in tabella sottostante i risultati ottenuti 32

Analisi per area di residenza Amiata Il corpus: dimensione e caratteristiche Il corpus ha tutti i parametri al di sotto dei valori soglia per poter eseguire un analisi statistica testuale. Nonostante questo riportiamo i risultati ottenuti, almeno a livello esplorativo-descrittivo. Tab. 22 Caratteristiche corpus iniziale Da quanto riportato in Tab. 22, possiamo osservare i principali indicatori lessicometrici per il corpus ed i relativi subcorpus. 33

Analisi dei termini maggiormenti frequenti nel corpus e nei quattro subcorpus Andiamo adesso ad analizzare i termini pieni maggiormente frequenti nel corpus dapprima e, successivamente nei quattro sub corpus, considerandone un massimo di 25 e ordinati in maniera decrescente per numero di occorrenze. Quindi, da questa fase, abbiamo eliminato dal vocabolario, tutti gli stop word ossia quelle forme grafiche non aventi nessun significato come articoli, preposizioni, etc.. I termini rimasti, daranno un idea del linguaggio utilizzato, restringendo così il raggio d azione, ma non necessariamente non rappresenterà né il più specifico né il peculiare (casi trattati successivamente). Il corpus risulta essere così costituito: Tab. 23 Caratteristiche del nuovo corpus 34

Tab. 24 Termini più frequenti nel corpus 35

Tab. 25 Termini più frequenti subcorpus 1 36

Tab. 26 Termini più frequenti subcorpus 2 37

Tab. 27 Termini più frequenti subcorpus 3 38

Tab. 28 Termini più frequenti subcorpus 4 39

Analisi delle specificità Con questa analisi andiamo ad individuare i termini che nelle singole domande presentano un significativo sovra-sotto uso rispetto all intero corpus (in neretto, corsivo e sottolineato). Ciò non esclude la possibilità che esistano termini comuni a più domande. Se ciò non fosse vero, tali termini verrebbero detti esclusivi (o originali ). Tra i termini significativi il cui valore della statistica test t risulta positivo sono detti specifici, quelli con termine negativo sono detti rari. Abbiamo considerato come significativi da un punto di vista linguistico, quelli associati ad un p<0.05, tra quelli che presentavano un numero di occorrenze superiore al numero delle categorie di domande non strutturate (4) + 1). Di questi abbiamo considerato il massimo dei termini significativi. Il test fa riferimento alla distribuzione di una variabile aleatoria ipergeometrica. 40

Competenze del partecipante 41

Patrimonio Linguistico 42

Esperienza diretta/indiretta 43

Linguaggio da strada 44

Colle di Val d Elsa Il corpus: dimensione e caratteristiche Il corpus ha tutti i parametri al di sotto dei valori soglia per poter eseguire un analisi statistica testuale. Nonostante questo riportiamo i risultati ottenuti, almeno a livello esplorativo-descrittivo. Tab. 29 Caratteristiche corpus iniziale Da quanto riportato in Tab. 29, possiamo osservare i principali indicatori lessicometrici per il corpus ed i relativi subcorpus. 45

Analisi dei termini maggiormenti frequenti nel corpus e nei quattro subcorpus Andiamo adesso ad analizzare i termini pieni maggiormente frequenti nel corpus dapprima e, successivamente nei quattro sub corpus, considerandone un massimo di 25 e ordinati in maniera decrescente per numero di occorrenze. Quindi, da questa fase, abbiamo eliminato dal vocabolario, tutti gli stop word ossia quelle forme grafiche non aventi nessun significato come articoli, preposizioni, etc.. I termini rimasti, daranno un idea del linguaggio utilizzato, restringendo così il raggio d azione, ma non necessariamente non rappresenterà né il più specifico né il peculiare (casi trattati successivamente). Il corpus risulta essere così costituito: Tab. 30 Caratteristiche del nuovo corpus 46

Tab. 31 Termini più frequenti nel corpus 47

Tab. 32 Termini più frequenti subcorpus 1 48

Tab. 33 Termini più frequenti subcorpus 2 49

Tab. 34 Termini più frequenti subcorpus 3 50

Tab. 35 Termini più frequenti subcorpus 4 51

Analisi delle specificità Con questa analisi andiamo ad individuare i termini che nelle singole domande presentano un significativo sovra-sotto uso rispetto all intero corpus (in neretto, corsivo e sottolineato). Ciò non esclude la possibilità che esistano termini comuni a più domande. Se ciò non fosse vero, tali termini verrebbero detti esclusivi (o originali ). Tra i termini significativi il cui valore della statistica test t risulta positivo sono detti specifici, quelli con termine negativo sono detti rari. Abbiamo considerato come significativi da un punto di vista linguistico, quelli associati ad un p<0.05, tra quelli che presentavano un numero di occorrenze superiore al numero delle categorie di domande non strutturate (4) + 1). Di questi abbiamo considerato il massimo dei termini significativi. Il test fa riferimento alla distribuzione di una variabile aleatoria ipergeometrica. 52

Competenze del partecipante 53

Patrimonio Linguistico 54

Esperienza diretta/indiretta 55

Linguaggio da strada 56

Val di Chiana Il corpus: dimensione e caratteristiche Il corpus ha tutti i parametri al di sotto dei valori soglia per poter eseguire un analisi statistica testuale. Nonostante questo riportiamo i risultati ottenuti, almeno a livello esplorativo-descrittivo. Tab. 36 Caratteristiche corpus iniziale Da quanto riportato in Tab. 36, possiamo osservare i principali indicatori lessicometrici per il corpus ed i relativi subcorpus. 57

Analisi dei termini maggiormenti frequenti nel corpus e nei quattro subcorpus Andiamo adesso ad analizzare i termini pieni maggiormente frequenti nel corpus dapprima e, successivamente nei quattro sub corpus, considerandone un massimo di 25 e ordinati in maniera decrescente per numero di occorrenze. Quindi, da questa fase, abbiamo eliminato dal vocabolario, tutti gli stop word ossia quelle forme grafiche non aventi nessun significato come articoli, preposizioni, etc.. I termini rimasti, daranno un idea del linguaggio utilizzato, restringendo così il raggio d azione, ma non necessariamente non rappresenterà né il più specifico né il peculiare (casi trattati successivamente). Il corpus risulta essere così costituito: Tab. 37 Caratteristiche del nuovo corpus 58

Tab. 38 Termini più frequenti nel corpus 59

Tab. 39 Termini più frequenti subcorpus 1 60

Tab. 40 Termini più frequenti subcorpus 2 61

Tab. 41 Termini più frequenti subcorpus 3 62

Tab. 42 Termini più frequenti subcorpus 4 63

Analisi delle specificità Con questa analisi andiamo ad individuare i termini che nelle singole domande presentano un significativo sovra-sotto uso rispetto all intero corpus (in neretto, corsivo e sottolineato). Ciò non esclude la possibilità che esistano termini comuni a più domande. Se ciò non fosse vero, tali termini verrebbero detti esclusivi (o originali ). Tra i termini significativi il cui valore della statistica test t risulta positivo sono detti specifici, quelli con termine negativo sono detti rari. Abbiamo considerato come significativi da un punto di vista linguistico, quelli associati ad un p<0.05, tra quelli che presentavano un numero di occorrenze superiore al numero delle categorie di domande non strutturate (4) + 1). Di questi abbiamo considerato il massimo dei termini significativi. Il test fa riferimento alla distribuzione di una variabile aleatoria ipergeometrica. 64

Competenze del partecipante 65

Patrimonio Linguistico 66

Esperienza diretta/indiretta 67

Linguaggio da strada 68

Siena Il corpus: dimensione e caratteristiche Il corpus ha tutti i parametri al di sotto dei valori soglia per poter eseguire un analisi statistica testuale. Nonostante questo riportiamo i risultati ottenuti, almeno a livello esplorativo-descrittivo. Tab. 43 Caratteristiche corpus iniziale Da quanto riportato in Tab. 43, possiamo osservare i principali indicatori lessicometrici per il corpus ed i relativi subcorpus. 69

Analisi dei termini maggiormenti frequenti nel corpus e nei quattro subcorpus Andiamo adesso ad analizzare i termini pieni maggiormente frequenti nel corpus dapprima e, successivamente nei quattro sub corpus, considerandone un massimo di 25 e ordinati in maniera decrescente per numero di occorrenze. Quindi, da questa fase, abbiamo eliminato dal vocabolario, tutti gli stop word ossia quelle forme grafiche non aventi nessun significato come articoli, preposizioni, etc.. I termini rimasti, daranno un idea del linguaggio utilizzato, restringendo così il raggio d azione, ma non necessariamente non rappresenterà né il più specifico né il peculiare (casi trattati successivamente). Il corpus risulta essere così costituito: Tab. 44 Caratteristiche del nuovo corpus 70

Tab. 45 Termini più frequenti nel corpus 71

Tab. 46 Termini più frequenti subcorpus 1 72

Tab. 47 Termini più frequenti subcorpus 2 73

Tab. 48 Termini più frequenti subcorpus 3 74

Tab. 49 Termini più frequenti subcorpus 4 75

Analisi delle specificità Con questa analisi andiamo ad individuare i termini che nelle singole domande presentano un significativo sovra-sotto uso rispetto all intero corpus (in neretto, corsivo e sottolineato). Ciò non esclude la possibilità che esistano termini comuni a più domande. Se ciò non fosse vero, tali termini verrebbero detti esclusivi (o originali ). Tra i termini significativi il cui valore della statistica test t risulta positivo sono detti specifici, quelli con termine negativo sono detti rari. Abbiamo considerato come significativi da un punto di vista linguistico, quelli associati ad un p<0.05, tra quelli che presentavano un numero di occorrenze superiore al numero delle categorie di domande non strutturate (4) + 1). Di questi abbiamo considerato il massimo dei termini significativi. Il test fa riferimento alla distribuzione di una variabile aleatoria ipergeometrica. 76

Competenze del partecipante 77

Patrimonio Linguistico 78

Esperienza diretta/indiretta 79

Linguaggio da strada 80