aided content analysis)

Documenti analoghi

Quick Introduction T-LAB 9.1. Strumenti per l Analisi dei Testi. Marzo Copyright T-LAB by Franco Lancia All rights reserved.

Database. Si ringrazia Marco Bertini per le slides

Excel. A cura di Luigi Labonia. luigi.lab@libero.it

Organizzazione degli archivi

DIPLOMA DI STATISTICA

ISTRUZIONI PER LA GESTIONE BUDGET

Il questionario. Laboratorio del corso Tecniche quantitative di ricerca sociale. IV lezione. Modulo: Rilevazione dei dati

Sistema operativo. Sommario. Sistema operativo...1 Browser...1. Convenzioni adottate

LE CARATTERISTICHE DEI PRODOTTI MULTIVARIANTE

WG-TRANSLATE Manuale Utente WG TRANSLATE. Pagina 1 di 15

Gestione Turni. Introduzione

EXCEL PER WINDOWS95. sfruttare le potenzialità di calcolo dei personal computer. Essi si basano su un area di lavoro, detta foglio di lavoro,

GESTIONE CONTRATTI. Contratti clienti e contratti fornitori

I database relazionali (Access)

LA RICLASSIFICAZIONE DEI SALDI CONTABILI CON MICROSOFT ACCESS 2007

Corso di. Dott.ssa Donatella Cocca

In questo manuale sono indicate le procedure per utilizzare correttamente la gestione delle offerte dei fornitori.

FUNZIONI DI IMPAGINAZIONE DI WORD

Strutturazione logica dei dati: i file

POLIAGE GUIDA RAPIDA

Clustering. Utilizziamo per la realizzazione dell'esempio due tipologie di software:

PROCESSO DI INDICIZZAZIONE SEMANTICA

Compilatore risorse display grafico LCD serie IEC-line

Dispensa di Informatica I.1

GUIDA RAPIDA PER LA COMPILAZIONE DELLA SCHEDA CCNL GUIDA RAPIDA PER LA COMPILAZIONE DELLA SCHEDA CCNL

Olga Scotti. Basi di Informatica. Excel

Guida alla costruzione di tavole con i database

Database Manager Guida utente DMAN-IT-01/09/10

(Esercizi Tratti da Temi d esame degli ordinamenti precedenti)

Scheda operativa Versione rif c00. Libro Inventari

GUIDA PER IL DOCENTE ALL UTILIZZO DELL APPLICATIVO ONLINE E PORTFOLIO

Costruzione del layout in gino cms

Analisi sensitività. Strumenti per il supporto alle decisioni nel processo di Valutazione d azienda

Mon Ami 3000 Varianti articolo Gestione di varianti articoli

per immagini guida avanzata Organizzazione e controllo dei dati Geometra Luigi Amato Guida Avanzata per immagini excel

Come archiviare i dati per le scienze sociali

Manuale operativo - Procedura per la costruzione, la pubblicazione di questionari

5.3 TABELLE RECORD Inserire, eliminare record in una tabella Aggiungere record Eliminare record

Università degli Studi di Ferrara - A.A. 2014/15 Dott. Valerio Muzzioli ORDINAMENTO DEI DATI

GESTIONE INTERESSI DI MORA. Impostazioni su Gestione Condominio. Addebito interessi su codice spesa 22. Immissione/gestione versamenti

Sistema Informativo Gestione Fidelizzazione Clienti MANUALE D USO

per immagini guida avanzata Uso delle tabelle e dei grafici Pivot Geometra Luigi Amato Guida Avanzata per immagini excel

Gestione delle informazioni necessarie all attività di validazione degli studi di settore. Trasmissione degli esempi da valutare.

1. PRIME PROPRIETÀ 2

2.0 Gli archivi. 2.1 Inserire gli archivi. 2.2 Archivio Clienti, Fornitori, Materiali, Noleggi ed Altri Costi. Impresa Edile Guida all uso

Reti sequenziali sincrone

Progettazione di Basi di Dati

Sistema Informativo Geografico:

I TUTORI. I tutori vanno creati la prima volta seguendo esclusivamente le procedure sotto descritte.

LABORATORIO EXCEL XLSTAT 2008 SCHEDE 2 e 3 VARIABILI QUANTITATIVE

Introduzione al Foglio Elettronico

connessioni tra i singoli elementi Hanno caratteristiche diverse e sono presentati con modalità diverse Tali relazioni vengono rappresentate QUINDI

Settaggio impostazioni tema. Cliccando nuovamente su aspetto e poi su personalizza si avrà modo di configurare la struttura dinamica della template.

Librerie digitali. Video. Gestione di video. Caratteristiche dei video. Video. Metadati associati ai video. Metadati associati ai video

ECDL - Database. European Computer Driving Licence - Modulo 5 - Database LEZIONE 2

ABBINATORE Manuale Utente

Analisi statistica di dati testuali: il software SPAD

Il foglio elettronico. Excel PARTE

Manuale d uso Software di parcellazione per commercialisti Ver [05/01/2015]

Abilità Informatiche A.A. 2010/2011 Lezione 9: Query Maschere Report. Facoltà di Lingue e Letterature Straniere

Autorità Nazionale Anticorruzione e per la valutazione e la trasparenza delle amministrazioni pubbliche

Corso di Access. Prerequisiti. Modulo L2A (Access) 1.1 Concetti di base. Utilizzo elementare del computer Concetti fondamentali di basi di dati

Versioni x.7.9 Note Operative

MANUALE MOODLE STUDENTI. Accesso al Materiale Didattico

M:\Manuali\VARIE\GENERAZIONE REPORT PARAMETRICI.doc GENERAZIONE REPORT PARAMETRICI

Raggruppamenti Conti Movimenti

Gestione Risorse Umane Web

Università di L Aquila Facoltà di Biotecnologie Agro-alimentari

Aprire, preparare un documento da utilizzare come documento principale per una stampa unione.

Registratori di Cassa

LA RICLASSIFICAZIONE DI BILANCIO CON MICROSOFT ACCESS

PROCEDURA INVENTARIO DI MAGAZZINO di FINE ESERCIZIO (dalla versione 3.2.0)

Appunti sulla Macchina di Turing. Macchina di Turing

Protocollo Informatico (D.p.r. 445/2000)

Come costruire una presentazione. PowerPoint 1. ! PowerPoint permette la realizzazione di presentazioni video ipertestuali, animate e multimediali

Il menu File contiene tutti i comandi relativi alle seguenti operazioni:

Il calcolo delle provvigioni con Excel

Protocollo di tracciamento e valutazione degli studenti dei corsi di italiano ICoNLingua A.A

Progetto ASTREA WP2: Sistema informativo per il monitoraggio del sistema giudiziario

LA DAINESE GROUP SRL PRESENTA

Cosa è un foglio elettronico

Prof.ssa Paola Vicard

Centro Acquisti per la Pubblica Amministrazione EmPULIA. Linee guida per gli Enti Aderenti. Procedure Negoziate: Richiesta di Preventivo. Versione 2.

PROGRAMMA SVOLTO NELLA SESSIONE N.

Funzioni funzione dominio codominio legge argomento variabile indipendente variabile dipendente

MS Word per la TESI. Barra degli strumenti. Rientri. Formattare un paragrafo. Cos è? Barra degli strumenti

LABORATORIO-EXCEL N. 2-3 XLSTAT- Pro Versione 7 VARIABILI QUANTITATIVE

OSSIF WEB. Manuale query builder

SOFTWARE PER LA RILEVAZIONE DEI TEMPI PER CENTRI DI COSTO

Airone Gestione Rifiuti Funzioni di Esportazione e Importazione

Regione Piemonte Portale Rilevazioni Crediti EELL Manuale Utente

Esame di Informatica CHE COS È UN FOGLIO ELETTRONICO CHE COS È UN FOGLIO ELETTRONICO CHE COS È UN FOGLIO ELETTRONICO. Facoltà di Scienze Motorie

MATEMATICA DEL DISCRETO elementi di teoria dei grafi. anno acc. 2009/2010

Il Software e Il Sistema Operativo. Prof. Francesco Accarino IIS Altiero Spinelli A.S. 09/10

GESTIONE DEI BENI USATI

Guida alla compilazione on-line delle domande di Dote Scuola A.S per le Famiglie INDICE

Modulo 3 - Elaborazione Testi 3.6 Preparazione stampa

Modulo: Fogli elettronici

FIRESHOP.NET. Gestione Lotti & Matricole.

Transcript:

T-Lab Stefano Nobile

L analisi del contenuto computerizzata (computer aided content analysis) I software in commercio per l analisi l del contenuto computerassistita possono essere distinti in due grandi famiglie. Alla prima famiglia appartengono programmi come: Atlas.ti Nud.ist Aquad Kwalitan HyperResearch Della seconda fanno parte programmi come: Lexico Spad-T Taltac Alceste T-Lab 2

Cosa è T-Lab T-LAB è un software costituito da un insieme di strumenti linguistici e statistici per l'analisi dei testi che possono essere utilizzati nelle seguenti pratiche di ricerca: analisi semantica, analisi del contenuto, Text Mining. In particolare, gli strumenti T-LAB T consentono di realizzare tre tipi di analisi: A - ANALISI DELLE CO-OCCORRENZE OCCORRENZE di parole-chiave: indici di associazione confronti tra coppie mappe concettuali analisi delle sequenze concordanze; B - ANALISI TEMATICHE delle unità di contesto: modellizzazione dei temi emergenti, analisi tematica dei contesti elementari (es. frammenti di testo,, frasi, paragrafi), sequenze di temi, classificazione tematica di documenti, contesti chiave di parole tematiche; C - ANALISI COMPARATIVE dei sottoinsiemi del corpus: analisi delle specificità, analisi delle corrispondenze, analisi delle corrispondenze multiple, cluster analysis. 3

La preparazione del corpus: i criteri strutturali I criteri strutturali da rispettare riguardano le dimensioni del corpus e la sua suddivisone in parti. Ogni corpus (testo o insieme di testi) deve essere in formato.txt e non deve superare gli 8Mb (versione 4) o i 30Mb (versione 7, circa 18.0001 pagine in formato ASCII). Tuttavia la dimensione massima trattabile non è stata ancora puntualmente definita. I limiti per la grandezza minima richiedono criteri di valutazione diversi: questo perché - sotto una certa soglia - le dimensioni del corpus possono compromettere l'attendibilità di molte analisi statistiche. A questo proposito, basta attenersi alle seguenti indicazioni: un minimo di 5.000 occorrenze (circa 30 K); oppure, nel caso di risposte a domande aperte, un minimo di 50 risposte. In quest'ultimo ultimo caso, infatti, ogni risposta costituisce una diversa unità di contesto. Ai fini del trattamento, il corpus può essere costituito da un unico u testo senza ulteriori partizioni (versione 4) ovvero come risultante dell importazione di più testi (versione 7). Il testo deve essere ripartito secondo criteri stabiliti dall'utilizzatore (ad es. un libro suddiviso in capitoli), da più testi (ad es. diverse interviste o risposte a domande aperte) classificati attraverso l'uso di etichette che rinviano ad altrettante variabili. In tutti questi casi, il corpus è suddiviso in parti che devono essere individuate con precisi criteri formali. 4

La preparazione del corpus: i criteri formali Nel caso di un corpus costituito da unico testo, e comunque quando l'utilizzatore non fa ricorso all'uso di variabili, non sono richiesti altri tipi di interventi e si può passare direttamente alla fase di importazione. Quando invece si fa uso di variabili, la preparazione del corpus richiede i seguenti accorgimenti. Ogni testo o sottoinsieme di esso (le "parti" individuate dalle variabili) deve essere preceduto da una riga di codifica. Ogni riga di codifica ha il seguente formato: Inizia con una stringa di quattro asterischi (****) seguita da uno u spazio (blank( blank). Da T-LAB T questa stringa viene interpretata nel modo seguente: "qui inizia un testo o una unità di contesto definita dall'utilizzatore"; Continua, con l'aggiunta di stringhe costituite da singoli asterischi ed etichette che individuano casi (IDnumber( IDnumber), variabili e rispettive modalità. Termina con un ritorno di carrello ("a capo"). 5

L importazione del corpus Ecco qualche esempio. La riga seguente introduce un testo (o parte del corpus) codificato con tre variabili - ETA (età), SES (sesso) e PROF (professione) - e relative modalità (ADUL, FEM, OPER) **** *ETA_ADUL *SES_FEM *PROF_OPER La riga seguente introduce un testo (o parte del corpus) codificato con le stesse variabili e con l'etichetta IDnumber **** *IDnumber_0001 *ETA_ADUL *SES_FEM *PROF_OPER La riga seguente introduce un testo (o parte del corpus) codificato con due variabili: ANNO, TEST (testata giornalistica) **** *ANNO_98 *TEST_REPUB 6

L importazione del corpus In ogni riga di codifica, le norme T-LAB T da rispettare sono le seguenti: 1. ogni etichetta (IDnumber( IDnumber,, variabile o modalità) ) non deve essere intervallata da spazi vuoti; 2. ogni etichetta, sia nel caso delle variabili che delle modalità,, non deve superare la lunghezza di 8 caratteri (minimo 2); nelle versioni 7.0 e successive questa lunghezza è stata portata a 15; 3. ogni etichetta delle variabili va congiunta alla rispettiva modalità attraverso l'uso del trattino basso "_" (underscore( underscore); 4. tra una variabile e l'altra, cioè prima del successivo asterisco, va inserito uno spazio vuoto (blank( blank); 5. per ogni parte del corpus, la riga di codifica deve includere tutte le variabili usate; 6. il numero massimo di variabili utilizzabili è 50, quello delle modalità (per ogni variabile) è di 150; 7. il numero massimo di IDnumber è fissato a 30.000; 7

Un esempio di codifica variabili art (artista) dec (decennio) sex (sesso) gen1 (genere musicale estensivo) gen2 (genere musicale intensivo) e vanno codificate secondo questo schema (esempi) * art_venditti * dec_1960 * dec_1970 * dec_1980 * dec_1990 * dec_2000 * sex_maschi * sex_femmine * gen1_rock * gen1_melodico * gen1_autore * gen2_grandint * gen2_meteore * gen2_autorcla * gen2_autormod * gen2_rock-cla * gen2_rock-mod * gen2_hiphop 8

I primi passi 9

Il pre-trattamento del testo Nella fase di pre-processing processing T-LAB realizza i seguenti trattamenti: normalizzazione del testo; disambiguazione; segmentazione in contesti elementari; lemmatizzazione automatica; costruzione del vocabolario del corpus; selezione delle parole chiave 10

La fase di pre-trattamento 11

La normalizzazione del testo Vengono eliminate dal testo le seguenti categorie: Aggettivi indefiniti Articoli Avverbi Esclamazioni Interiezioni Preposizioni Pronomi (dimostrativi, insefiniti e relativi) Verbi ausiliari (essere, avere, andare, venire) Verbi modali (dovere, parere, potere, sapere, sembrare, solere, volere) 12

La lemmatizzazione T-lab opera una lemmatizzazione automatica sulla quale l utente l può intervenire. Egli può operare vari tipi di scelte e optare per due strategie: Utilizzare il maggior numero possibile di lemmi disponibili sapendo che, se la loro quantità supera quota 500, viene abilitata solo l analisi l delle corrispondenze e, in successione, l analisi dei cluster Contenere il numero di lemmi entro il limite di 500 13

La elmmatizzazione I dizionari permettono, attraverso la procedura di lemmatizzazione,, di costruire vocabolari di due tipi: Uno basato sulla semantica a dizionario L altro basato sulla semantica a enciclopedia (Lancia, 2004: 61) 14

La semantica a dizionario Figlio (lemma) Figlia Figlie Figli Figlio 15

La semantica a dizionario iperonimia famiglia genitore figlio madre padre iponimia 16

La semantica a enciclopedia figlio famiglia autorità padre genitore protezione dipendenza affetto preoccupazione madre 17

La personalizzazione delle impostazioni 18

La personalizzazione delle impostazioni Per adattare alle nostre esigenze la dimensione del corpus da analizzare, possiamo: Modificare il valore delle soglia Selezionare i lemmi da mettere fuori analisi Ripristinare uno o più lemmi Selezionare o deselezionare le parole chiave Va ricordato che poiché t-lab consente di salvare le impostazioni personalizzate, ciò rende possibile analizzare il corpus con diverse impostazioni di analisi 19

La selezione delle parole- chiave Consiste nella predisposizione di una o più liste di unità lessicali (parole, lemmi o categorie) da utilizzare per costruire le tabelle dati da analizzare. L'opzione impostazioni automatiche rende disponibile liste di parole chiave selezionate da T-LAB; T tuttavia, poiché la scelta delle unità di analisi è estremamente rilevante ai fini delle successive elaborazioni, si consiglia vivamente l'uso delle impostazioni personalizzate.. In questo modo l'utilizzatore potrà scegliere di modificare la lista suggerita da T-LAB T e/o di costruire liste che meglio corrispondono ai suoi obiettivi di indagine. Nella fase di importazione T-Lab T seleziona automaticamente circa 200 parole-chiave del corpus, appartenenti alle categorie grammaticali che sono più dense di significato: nomi, verbi e aggettivi. A questo scopo, viene anche utilizzata una lista di parole vuote. Il criterio di selezione varia in funzione del tipo di analisi. 20

La selezione delle parole- chiave Se il corpus è costituito da un unico testo, le parole selezionate sono semplicemente quelle con i più elevati valori di occorrenza. Quando il corpus è costituito da due o più testi. T-LAB T applica il seguente algoritmo: seleziona le parole con valori di occorrenza superiori alla soglia minima applica il test del CHI quadro a tutti gli incroci di ogni parola selezionata per tutti i testi in analisi: seleziona le parole con i valori maggiori al test del CHI quadro, avvero quelle parole che, nel corpus, "fanno la differenza. 21

Le unità di analisi Le unità di analisi di T-LAB T sono di due tipi: unità lessicali e unità di contesto. A - le UNITÀ LESSICALI sono parole, singole o multiple, archiviate e classificate in base a un qualche criterio. Più precisamente, nel database T-T LAB ogni unità lessicale costituisce un record classificato con due campi: forma e lemma.. Nel primo campo, denominato forma, sono elencate le parole così come compaiono nel corpus, mentre nel secondo, denominato lemma, sono elencate le label attribuite a gruppi di unità lessicali classificate secondo criteri linguistici (es. lemmatizzazione) o tramite dizionari e griglie semantiche definite dall'utilizzatore. 22

La unità di contesto B - le UNITÀ DI CONTESTO sono porzioni di testo in cui può essere suddiviso il corpus. Più esattamente, nella logica T-LAB, T le unità di contesto possono essere di tre tipi: B.1 documenti primari, corrispondenti alla suddivisione "naturale" del corpus (es. interviste, articoli, risposte a domande aperte, etc.), ovvero ai contesti iniziali definiti dall'utilizzatore; B.2 contesti elementari, corrispondenti alle unità sintagmatiche (frammenti di testo, frasi, paragrafi) in cui può essere suddiviso ogni contesto iniziale; B.3 sottoinsiemi del corpus, corrispondenti a gruppi di documenti primari riconducibili alla stessa "categoria" (es. interviste di "uomini" o di "donne", articoli di un particolare anno una particolare testata, etc.) o a cluster tematici ottenuti con specifici strumenti T-LAB. T 23

Il processo di ricerca con t-labt Le sei fasi numerate, dalla preparazione del corpus all'interpretazione degli output, sono supportate da strumenti T-LAB e sono sempre reversibili; Tramite le impostazioni automatiche è possibile evitare due fasi (3 e 4); tuttavia, ai fini della qualità dei risultati, si raccomanda l'uso delle funzioni Personalizzazione del Dizionario (strumento del menu "Lessico") e Impostazioni Personalizzate (cioè selezione delle parole chiave). 24

L'uso degli strumenti lessico È finalizzato a verificare il corretto riconoscimento delle unità lessicali e a personalizzare la loro classificazione, cioè a verificare e a modificare le scelte automatiche fatte da T- LAB. 25

Associazioni di parole 26

Associazione di parole: gli indici di associazione Generalmente, nell analisi dei testi, gli indici di associazione sono coefficienti che vengono utilizzati come misure ponderate delle co-occorrenze occorrenze In T-LAB T viene utilizzato uno dei più collaudati indici di associazione: il coefficiente del coseno,, la cui formula è la seguente: C( X, Y ) = X X IY Dove il coefficiente del coseno tra ogni coppia di parole (X, Y) è definito come rapporto tra la quantità delle loro co- occorrenze + Y 27

Associazioni di parole 28

Confronto tra coppie di parole chiave 29

Confronto tra coppie di parole chiave 30

Confronto tra coppie di parole chiave: il calcolo del test del chi quadrato Associate Non associate totale Parola A 9 228 237 Parola B 17 55 72 26 283 309 31

Specificità Questa opzione è abilitata a condizione che nel corpus esista almeno una variabile e che questa abbia (ovviamente) almeno due modalità Se questa condizione sussiste, sono possibili due tipi di confronti: Tra un sottoinsieme e la totalità del corpus Tra coppie di sottoinsiemi In entrambi i casi, da questo tipo di analisi è possibile ottenere Le parole tipiche e corrispettive Le parole esclusive 32

Specificità: : le combinazioni possibili Sottoinsiem e corpus Specifiche Sì Sì Esclusive Sì Sì 33

Analisi delle sequenze Questa opzione consente di realizzare un analisi markoviana di due tipi di sequenze: Quelle concernenti le relazioni tra unità lessicali (parole, lemmi o categorie) presenti nel corpus di analisi Quelle presenti in file esterni predisposti dall utilizzatore Una catena markoviana è costituta da una successione di eventi, generalmente indicati come stati, caratterizzata da due proprietà: L insieme degli eventi e dei loro possibili esiti è finito L esito di ogni evento dipende solo (o al massimo) dall evento immediatamente precedente, con la conseguenza che ad ogni transizione da un evento all altro altro corrisponde un valore di probabilità (Lancia, 2004: 73) 34

Analisi delle sequenze. Catene markoviane (transizioni) A B C D E F Tot A 8 7 11 2 1 29 B 6 24 5 10 8 53 C 9 24 3 28 16 80 D 3 7 5 6 14 35 E 4 5 26 11 7 53 F 7 9 18 5 7 46 35

Analisi delle sequenze. Catene markoviane (Probabilità di transizione) A B C D E F A.11.11.09.08.15 B.28.30.20.09.20 C.24.45.14.49.39 D.38.09.04.21.11 E.07.19.35.17.15 F.03.15.20.40.13 Tot 1 1 1 1 1 1 36

Analisi delle sequenze: grafici 37

Analisi delle sequenze: tabelle 38

Analisi delle sequenze: nodi Secondo la teoria dei grafi, i predecessori e i successori di ogni nodo possono essere rappresentati con delle frecce in ingresso (predecessori) o in uscita (successori) In base al loro rapporto (predecessori/successori) è possibile verificare la varietà semantica generata dal nodo Se è maggiore di quanta ne riceve (ratio>1), il nodo è definito sorgente Se è tanta quanta ne riceve (ratio=1), il nodo è definito relais Se è inferiore a quanta ne riceve (ratio<1), il nodo è definito assorbente 39

Analisi delle sequenze: sommario Cover (coverage) indica in quale misura percentuale le occorrenze sono precedute o seguite da unità lessicali incluse nella lista dall utilizzatore 40

Strumenti per analisi tematiche Questi strumenti consentono di individuare, esaminare e mappare i temi presenti nei testi analizzati. Poiché tema è una parola polisemica,, in questo caso è utile far riferimento ad alcune definizioni operative. Infatti, in questi strumenti T-LAB, T tema è una label usata per indicare tre diverse entità: 1. una specifica ( tematica( tematica ) ) parola chiave usata per estrarre un insieme di contesti elementari in cui essa è associata con uno specifico gruppo di parole preselezionate dall utilizzatore; 2. un cluster tematico di unità di contesto caratterizzate dagli stessi pattern di parole chiave; 3. una componente di un modello probabilistico che rappresenta ogni unità di contesto (sia essa un contesto elementare o un documento) come generato da una mistura di temi o topics. 41

Mappe dei nuclei tematici Le relazioni analizzate, a seconda del numero di unità lessicali selezionate, possono essere di due tipi: Tra singole parole (lemmi o categorie), se la quantità di unità selezionate è compresa tra 10 e 75 Tra cluster (nuclei tematici) se la quantità delle unità selezionate supera i 75 elementi, fino a un massimo di 500 42

Mappe dei nuclei tematici (multidimensional scaling) 43

Mappe dei nuclei tematici (analisi delle corrispondenze) 44

Analisi delle corrispondenze Come in altri software (TalTac( TalTac, Lexico, Spad-T), questa procedura si propone l obiettivo l di evidenziare somiglianze e differenze tra unità di contesto (sottoinsiemi del corpus o contesti elementari). Questa procedura permette dunque di analizzare due tipi di tabelle: Unità lessicali per variabili Segmenti (contesti elementari) per unità lessicali 45

Analisi delle corrispondenze: occorrenze e co-occorrenze occorrenze Nella analisi dei testi. queste due nozioni sono di fondamentale importanza. La prima é di agevole comprensione: le occorrenze. infatti, sono quantità risultanti dal conteggio del numero di volte in cui una "parola" (forma o lemma) ricorre all'interno di un corpus o di una sua parte. La nozione di co-occorrenza occorrenza,, al contrario, è meno intuitiva. A questo proposito. per facilitare l'utilizzatore meno esperto. T-LAB T propone la metafora della co- abitazione. In effetti, nel suo database, ogni singola "parola" (forma o lemma) ha una serie di "indirizzi" in cui sono registrati i luoghi del corpus in cui "abita": questi "luoghi" sono i contesti elementari, cioè dei segmenti di testo che - grosso modo - corrispondono a degli enunciati. Le co-occorrenze occorrenze.. quindi, sono quantità risultanti dal conteggio del numero di volte in cui due o più elementi linguistici (forme o lemmi) "co-abitano" - ovvero sono contemporaneamente presenti - all'interno degli stessi contesti elementari. 46

Analisi delle corrispondenze: occorrenze e co-occorrenze occorrenze Il calcolo delle co-occorrenze occorrenze si effettua attraverso la costruzione di specifiche tabelle dalla forma quadrata. ovvero con gli stessi elementi in riga e in colonna. In termini tecnici, si dice che queste tabelle sono di tipo simmetrico in quanto le due parti separate dalla diagonale contengono in modo speculare gli stessi valori. In gran parte l'analisi dei testi si realizza attraverso lo studio delle relazioni tra occorrenze e co- occorrenze: : ciò, sia attraverso particolari indici di associazione, sia attraverso l'uso di tecniche statistiche di tipo multidimensionale quali la cluster analysis e l'analisi delle corrispondenze. 47

Analisi delle corrispondenze 48

Analisi delle corrispondenze 49

Analisi delle corrispondenze 50

Analisi delle corrispondenze Nel caso dell analisi segmenti per lemmi, le tabelle sono costituite da tante righe quanti sono i lemmi e da tante colonne quanti sono i segmenti, ossia le parti in cui è stato suddiviso il corpus. Le caselle contengono valori binari (presenza/assenza) 51

Cluster analisys Questa procedura può essere attivata soltanto dopo una precedente analisi delle Corrispondenze. Vengono utilizzate le coordinate dei lemmi o delle parole chiave sui primi assi fattoriali, fino a un massimo di 7. Viene utilizzata una clusterizzazione gerarchica con il metodo di Ward e criterio di partizione fissato al superamento della soglia del 50% nel rapporto tra varianza inter-cluster e totale 52

Tipologie dei contesti elementari 53

Tipologie dei contesti elementari Nella colonna CAT viene indicato se la caratteristica è stata selezionata dall utilizzatore nella funzione impostazioni di analisi (A) oppure se è stata proposta da T-LAB come descrizione supplementare (S) 54