Lez. 9 Gli spogli lessicali Parte seconda 02/11/09
LE CONCORDANZE È l elenco delle parole contenute in un testo, ordinate alfabeticamente e accompagnate da alcuni riferimenti che ne rendono possibile il ritrovamento nell originale Si devono selezionare le parole da espungere o da includere; la concordanza di tutte le parole di un testo è un retaggio della forma cartacea di questa operazione Si deve definire la dimensione del contesto Si possono usare gli operatori standard
I caratteri jolly Sono simboli che sostituiscono un carattere o un insieme di caratteri MS-DOS li ha ereditato dai sistemi Unix (con molte limitazioni)? = un carattere qualsiasi * = più caratteri qualsiasi
CONCORDANZE - 2 Le forme di output delle concordanze dei moderni programmi sono di due tipi: Kwic e Kwoc Kwic (Key Word In Context): le forme vengono allineate a partire da una stessa colonna di stampa Kwoc (Key Word Out of Context): le forme si trovano esternamente, come esponente
Il formato KWIC Le forme possono essere centrate, allineate a destra oppure a sinistra per aumentare la leggibilità Il contesto è breve (una riga, in genere) I riferimenti di mappatura del testo si trovano ad inizio riga (possono variare a seconda della codifica)
Esempio tratto da La patente di Luigi Pirandello Programma TACT
Il formato KWOC La parola chiave si trova esternemante, come esponente È sostanzialmente un indice al quale viene associata una riga di contesto È particolarmente indicato per contesti ampi, sviluppati su più righe
Esempio tratto da La patente di Luigi Pirandello Programma TACT
Indici di rilievo che studieremo Token Rapporto T/t Type Rapporto t/t (TTR) Hapax legomena Frequenza assoluta Hapax dislegomena Frequenza relativa Deviazione standard Frequenza cumulativa Costante di Zipf Coefficiente di Variazione Z-score Range Indice di Kurtosis Media Caratteristica di Herdann
Text Analysis Portal for Research
Cos è Tapor Si tratta di un analizzatore testuale che prevede 3 set di strumenti per altrettante tipologie di file testuali File di testo semplice (plain text) File HTML File XML Il progetto nasce come collaborazione tra 6 università
Le 6 università canadesi McMaster University University of Alberta Université de Montreal University of New Brunswick University of Toronto University of Victoria
Un problema spinoso Il formato dei file riconosciuti da un analizzatore testuale è vario e non standard Generalmente si tratta di file con estensione TXT (plain text) Tact legge solo formati MS-DOS, TAPoR tutte le tipologie di plain text
Salvare il file È consigliabile salvare il file come testo normale.txt, in formato Unicode UTF-8
Selezionare l opzione inserisci interruzioni di riga con separatore solo ritorno a capo
Il programma si può occupare da solo di sostituire i caratteri non presenti nelle tabelle Ascii a 256 caratteri I caratteri non compatibili tra il set utilizzato da Office e le tabelle Ascii vengono segnalati in rosso. Un segnale di attenzione mette l utente in allarme.
Muoversi in Tapor Tre tipologie di testi analizzabili (TXT, HTML, XML) Diversi strumenti per le diverse tipologie Su file lunghi le operazioni possono richiedere molto tempo, dipendentemente dalla macchina e dalla connessione a Internet
Lista di frequenze Concordanza Collocazioni Collocazioni dx/sx Clusters Estrattore di date Distribuzione
Analisi plain text: gli strumenti 1. List words (elencazione delle parole): elenca tutte le parole presenti nel testo, ordinandole in 4 modi (alfabetico diretto ed inverso, di frequenza, di ordine di comparsa) 2. Find text (ricerca del testo): è lo strumento di concordanza per cercare parole, frasi o righe di testo (NON è case sensitive)
BOX DI SELEZIONE PER L OPZIONE LIST WORDS Qui si inserisce il file.txt da analizzare Selezionare l opzione All words per ottenere la lista di frequenze completa Accertarsi di lasciare selezionata l opzione di ordinamento per frequenza Flaggare la casella per visualizzare i risultati in una nuova scheda del browser Tasto per avviare l elaborazione
I punti interrogativi aprono altrettante finestre di aiuto contestuale BOX DI SELEZIONE PER L OPZIONE LIST WORDS
RISULTATO INTERROGAZIONE SUL 1 CAP. PROMESSI SPOSI
ORDINAMENTO ALFABETICO
RISULTATO INTERROGAZIONE 1 NOVELLA DECAMERON
Stop word list È una lista di parole che verranno escluse dall analisi Normalmente sono numeri e parole vuote (con l eccezione dell analisi per clusters) Articoli, congiunzioni, proposizioni, singoli caratteri sono inutili ai fini della ricerca, e potrebbero causare anche errori nella pertinenza delle ricerche
STRUMENTO FIND TEXT - CONCORDANZA
CONCORDANZA PER LA PAROLA ABBONDIO
L INDICE Può essere considerato un caso particolare di concordanza senza contesto È una lista delle parole contenute in un testo (o corpus) accompagnata dai riferimenti ai luoghi in cui è possibile rintracciare le singole parole In genere è ordinato alfabeticamente in forma ascendente (A-Z)
La lemmatizzazione Le forme che otteniamo dalle liste viste finora sono per lo più flesse Ci sono quindi vari tempi dei verbi, maschili e femminili, singolare e plurale, enclitiche, e così via Lemmatizzare significa riportare le diverse forme sotto un unico lemma (entrata di vocabolario) e ricostruire quindi un dizionario del testo
Pro e Contro Nel modo lemmatizzato il vantaggio è la facilità di consultazione, lo svantaggio è la distanza che si crea tra il lemma e la parola (rischio di perdita di informazione). Nel modo non-lemmatizzato il vantaggio è la perfetta aderenza dello spoglio con le parole usate nel testo, lo svantaggio una difficoltà di consultazione.
L INDICE LEMMATIZZATO Si tratta di una variazione dell indice classico È sostanzialmente un piccolo vocabolario dell opera in analisi, nel senso proprio del termine Come il suo progenitore in genere è ordinato alfabeticamente in forma ascendente (A-Z)