MODELLI QUANTITATIVI Qualunque sia il modello di estrazione di regolarità o di conoscenze dai dati empirici, esiste sempre una base statistica da cui occorre partire. Un fenomeno linguistico specifico è costituito dall occorrere di un certo numero di casi su un insieme di testi. Ad esempio, l uso di una certa parola avviene un certo numero di volte in un numero di testi che possiamo raccogliere. Certamente il numero di volte che una certa parola appare in un testo non definisce in modo completo l uso che di tale parola si fa, in quanto quel valore resterà sempre un valore teorico, esprimibile in termini di regole. Tuttavia, possiamo affermare che il numero di volte che tale parola appare nella raccolta di testi disponibile è un immagine approssimativa di quel valore teorico. Questo definisce i concetti fondamentali delle teorie della statistica e della probabilità. L insieme dei testi su cui calcoliamo le nostre frequenze è detto campione, ed è un approssimazione (indefinita) di una realtà assoluta detta universo. Non potremo mai conoscere l universo, in quanto consiste nella totalità dei fenomeni. Ma noi sappiamo che, in linguistica, la totalità dei fenomeni è conoscibile solo per le lingue morte, mentre le lingue vive sono illimitate, cioè sono collezioni non finite di fenomeni. All interno del campione, ogni singolo fenomeno ha una frequenza, cioè appare un certo numero di volte. Il numero di volte che un fenomeno occorre si chiama frequenza; se dividiamo la frequenza per il numero degli elementi presenti nel campione, otteniamo la frequenza relativa o probabilità del fenomeno stesso. Otteniamo, infatti, un decimale (una percentuale) che, se il grado di approssimazione del campione all universo si mantiene costante, rappresenta la probabilità di ulteriore occorrenza del fenomeno stesso. In altri termini, se un certo fenomeno occorre 0,3 volte, cioè rappresenta il 30% di un campione, se il campione continua a crescere in modo regolare, avremo il 30% di probabilità che il prossimo evento sia del tipo identificato. Un esempio: se la parola scandalo ha una frequenza 25 su un campione di 125 parole, questo indica una probabilità di 0,20. Ciò significa che se il campione cresce in maniera uniforme, su un campione di 250 parole avremo 50 occorrenze di scandalo e su 1250 parole avremo 250 scandalo. La funzione degli studi statistici linguistici è confermare la corrispondenza delle probabilità calcolate con l effettiva distribuzione del fenomeno e, in caso contrario, di misurare la significatività della divergenza e fornirne un interpretazione. Alcuni concetti fondamentali La frequenza di un fenomeno è il numero di volte che un certo elemento compare in un corpus. Tradizionalmente riflette il rapporto type/token, dove type indica un tipo di evento e token l'occorrenza dell'evento stesso. Riferito alla linguistica diremo che distinguiamo le parole che corrispondono ai type, mentre i token sono detti occorrenze. La tradizione italiana e francese utilizza un ulteriore livello, cioè il lemma, che è l'entrata di dizionario cui la parola si riferisce. In questo caso parleremo di lemmi, forme e occorrenze. Un lista di frequenza può essere ordinata per frequenza crescente o decrescente. In caso di frequenza decrescente si può assegnare un numero d'ordine alle singole posizioni, da 1 a n. Questo numero d'ordine si chiama rango. Nel 1949 Zipf formulò una legge, detta appunto legge di Zipf secondo cui f x r = c
cioè, il prodotto tra frequenza (f) e rango (r ) è una costante c. In realtà si tratta di una costante molto approssimata, come mostrano i valori qui riportati, provenienti da uno dei corpora più importanti, il Brown Corpus: r f c 1 69868 69868 the 2 36426 72852 of 3 28891 86673 and 4 26215 104860 to 5 24548 122740... 101 940 94940 102 921 93942 103 921 94863 104 920 95680 Si noti che le parole più frequenti sono parole cosiddette grammaticali. Una formulazione intuitiva della legge di Zipf è che nella distribuzione di una serie di fenomeni esiste - un numero ristretto di elementi che hanno frequenza altissima - un numero medio di elementi che hanno frequenze medie - un numero elevatissimo di elementi con frequenze moto basse Secondo alcuni la legge di Zipf rappresenta molto bene solo la distribuzione di alcuni eventi, come le parole di un testo, mentre non si applica ad altri eventi. La frequenza relativa è data dalla frequenza assoluta divisa per il numero totale delle occorrenze del corpus. Le frequenze relative possono essere anche espresse in termini di frequenze percentuali, moltiplicando la frequenza relativa. 100. A partire dai valori delle frequenze, si possono calcolare: - la media aritmetica data dalla somma delle frequenze divisa per la somma dei tipi - la mediana, un indice di posizione e si definisce come quel valore che bipartisce la distribuzione ordinata in senso non decrescente delle modalità di un carattere. Per cui al primo gruppo apparterranno le osservazioni inferiori o uguali alla mediana, al secondo gruppo le osservazioni superiori o uguali alla stessa. La mediana è spesso indicata in forma grafica nel modo seguente
dove la parte a "scatola" indica le percentuali che si distribuiscono tra il 75 e il 25 posto e la linea contenuta nella "scatola" indica la mediana. - lo scarto quadratico è una misura della deviazione dei valori osservati dalla media e si ottiene sottraendo la media dalla singola frequenza osservata. Le frequenze non sono elementi enormemente utili in se stesse, ma possono essere oggetto di valutazione. Un modo di valutazione delle frequenze assolute è il test detto chi quadro, che serve a valutare la deviazione di una certa frequenza dalla distribuzione ideale. Supponiamo di voler confrontare due serie di frequenze, ad esempio la distribuzione riferimenti di terza persona in Giapponese e in Inglese; i valori potrebbero essere English Japanese Ellipsis 0 104 Central pronouns 314 73 Non-central pronouns 28 12 Names 291 314 Common NPs 174 205 Per costruire il modello teorico ordineremo i nostri dati in una tabella, dove faremo le somme di ogni colonna e di ogni riga. tota O : 0 314 28 291 174 807 104 73 12 314 205 708 totb 104 387 40 605 379 totgen 1515 Da questa tabella calcoliamo la distribuzione teorica secondo la formula seguente:
per ogni casella si sostituire il valore con quello ottenuto da tota * totb / totgen A : 55.4 206 21.3 322 202 807 48.6 181 18.7 283 177 708 104 387 40 605 379 1515 Per valutare questa discrepanza costruiamo un'altra tabella con la seguente formula: per ogni casella ((O - A) 2 /A) dove O sta per frequenza osservata ed A sta per frequenza attesa. Si otterrà, così, la tabella seguente (0-55,4)2 / 55,4 = 55,4 (314-206)2 / 206= 56,6 (28-21,3)2/21,3= 2,1 (291-322)2/322= 3 (174-202)2/202= 3,8 (104-48,6)2/48,6= 63,1 (73-181)2/181= 64,4 (12-18,7)2/18,7= 2,4 (314-283)2/283= 3,4 (205-177)2/177= 4,4 Il valore totale del chi-quadro è 258,6, cioè la somma di tutti i valori delle singole caselle. Per poter continuare nella valutazione del chi-quadro dobbiamo ora calcolare i gradi di libertà della tabella, secondo la formula gdl = (r-1)(c-1) dove gdl sta per "gradi di libertà", r per righe e c per colonne. Nel nostro caso avremo (2-1)*(5-1)= 4 Il grado di libertà 4, associato ad una soglia di errore che avremo fissato a priori, ad esempio a 0,5, permette di ricercare un valore di soglia in una tabella disponibile in tutti i manuali di statistica, cioè la tabella del chi-quadro. Nel nostro caso, la soglia di errore e 4 gradi di libertà danno un valore di 9,49, ampiamente inferiore al valore calcolato. Questo significa che le discrepanze evidenziate tra i due campioni, Giapponese ed Inglese, sono molto significative. Ovviamente i metodi fin qui illustrati - sono stati descritti in maniera sommaria ed estremamente semplificata; una caratteristica del metodo statistico è la sua dipendenza dal problema che si affronta - non sono gli unici metodi di elaborazione, ma puntano tutti ad indicare che la rilevanza delle frequenze non è in sé utile se non è valutata in funzione di una distribuzione teorica dei fenomeni - è convinzione comune che la distribuzione più "naturale" dei fenomeni sia indicata dalla curva di Gauss o curva a campana, qui sotto riportata corrispondente alla formula
Dove x) e' il valore medio della distribuzione e e' la deviazione standard.