MODELLI QUANTITATIVI. f x r = c

Documenti analoghi
Dispense Associazione PRELIMINARY DRAFT

REGRESSIONE E CORRELAZIONE

Dr. Marco Vicentini Anno Accademico Rev 20/04/2011

Statistica Elementare

DISTRIBUZIONI DI PROBABILITA (parte 1) 1 / 19

UNIVERSITA DEGLI STUDI DI BRESCIA-FACOLTA DI MEDICINA E CHIRURGIA CORSO DI LAUREA IN INFERMIERISTICA SEDE DI DESENZANO dg STATISTICA MEDICA.

Statistica descrittiva in una variabile

distribuzione normale

Casa dello Studente. Casa dello Studente

Metodi statistici per le ricerche di mercato

TRACCIA DI STUDIO. Indici di dispersione assoluta per misure quantitative

LE DISTRIBUZIONI CAMPIONARIE

Statistica descrittiva in due variabili

IPOTESI SULLA FORMA DELLA DISTRIBUZIONE CASO DI UN CAMPIONE

N.B. Per la risoluzione dei seguenti esercizi, si fa riferimento alle Tabelle riportate alla fine del documento.

Statistica descrittiva II

CORSO DI LAUREA IN INFERMIERISTICA. LEZIONI DI STATISTICA Parte II Elaborazione dei dati Variabilità

Verifica delle ipotesi

materiale didattico II incontro

17. LA DISTRIBUZIONE NORMALE E LA FUNZIONE DI GAUSS

La media e la mediana sono indicatori di centralità, che indicano un centro dei dati.

Quantili, Mediana e Quartili. Ranking dei dati. Pietro Coretto Università degli Studi di Salerno

APPUNTI DI STATISTICA INFERENZIALE. Avalle Fulvia, maggio 2014, ITSOS MARIE CURIE CLASSI 4A BIO e 4B BIO

UNIVERSITA DEGLI STUDI DI BRESCIA-FACOLTA DI MEDICINA E CHIRURGIA CORSO DI LAUREA IN INFERMIERISTICA SEDE DI DESENZANO dg STATISTICA MEDICA.

CONFRONTO TRA LA MEDIE DI DUE CAMPIONI INDIPENDENTI

ELEMENTI DI STATISTICA DESCRITTIVA

Grafici e tabelle permettono di fare valutazioni qualitative, non quantitative. E necessario poter sintetizzare i dati attraverso due importanti

STIME STATISTICHE. Consideriamo il caso della misura di una grandezza fisica che sia affetta da errori casuali. p. 2/2

DESCRITTIVE, TEST T PER IL CONFRONTO DELLE MEDIE DI CAMPIONI INDIPENDENTI.

Statistiche per l analisi dei trend Capitolo 6

La distribuzione delle frequenze. T 10 (s)

3. rappresentare mediante i grafici ritenuti più idonei le distribuzioni di frequenze assolute dei diversi caratteri;

Probabilità classica. Distribuzioni e leggi di probabilità. Probabilità frequentista. Probabilità soggettiva

Esercizio 1 Questa tabella esprime i tempi di durata di 200 apparecchiature elettriche:

STATISTICA 1 ESERCITAZIONE 6

Laboratorio di Chimica Fisica. Analisi Statistica

La media e la mediana sono indicatori di centralità, che indicano un centro dei dati.

Una statistica è una quantità numerica il cui valore è determinato dai dati.

TEORIA DEGLI ERRORI DI MISURA, IL CALCOLO DELLE INCERTEZZE

IL PALLINOMETRO SCOPO

Questionario 1. Sono assegnati i seguenti dati

Corso di Psicometria Progredito

Modelli probabilistici variabili casuali

PROBABILITA. Distribuzione di probabilità

p. 1/2 STIME STATISTICHE Consideriamo il caso della misura di una grandezza fisica che sia affetta da errori casuali.

Elementi di Statistica

Teoria e tecniche dei test. Concetti di base

CURVE DI DURATA: Introduzione e Rappresentazione analitica

Matematica Lezione 21

4. VALORI CENTRALI. Statistica sociale

Statistica parametrica e non parametrica. Gli intervalli di confidenza

Dr. Marco Vicentini Anno Accademico Rev 02/04/2011

Corso di Psicometria Progredito

Nozioni di statistica

Distribuzione Normale

07/01/2016. Scalisi - Tecniche Psicometriche LA VERIFICA DELLE IPOTESI. La verifica delle ipotesi. Popolazioni e campioni

Esercitazione di Statistica Indici di associazione

ESEMPI DI DOMANDE PER LA PROVA SCRITTA DI STATISTICA SOCIALE

Esercizi di statistica

Dispensa di Statistica

Matematica Lezione 22

( ) ( ) ( e la probabilità che si verifichi un evento compreso tra c e b a < c < b sarà data da:

Attività di recupero

La statistica. Elaborazione e rappresentazione dei dati Gli indicatori statistici. Prof. Giuseppe Carucci

DISTRIBUZIONE NORMALE (1)

Statistica Esercitazione. alessandro polli facoltà di scienze politiche, sociologia, comunicazione

Variabili aleatorie. Variabili aleatorie

Statistica Un Esempio

IL PALLINOMETRO SCOPO

Statistica16 1/12/2015

Distribuzione normale

Seconda Lezione. Ing. Andrea Ghedi AA 2009/2010. Ing. Andrea Ghedi AA 2009/2010 DISTRIBUZIONE DI FREQUENZA

Elaborazione statistica di dati

Lezione 5 Corso di Statistica. Francesco Lagona

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 4

UNIVERSITÀ DEGLI STUDI DI NAPOLI FEDERICO II DIPARTIMENTO DI INGEGNERIA AEROSPAZIALE D.I.A.S. STATISTICA PER L INNOVAZIONE. a.a.

Indici di tendenza centrale Media, mediana e moda.

Statistica a.a Autovalutazione 1

Distribuzione Normale

Sperimentazioni di Fisica I mod. A Statistica - Lezione 2

Slide Cerbara parte 1. Le medie

SISTEMI DI DUE EQUAZIONI IN DUE INCOGNITE

POPOLAZIONE E CAMPIONI

INDICATORI DI TENDENZA CENTRALE

INFORMAZIONI. p. 1/23

CALCOLO DELL ERRORE E VALUTAZIONE DI UN METODO ANALITICO

Vogliamo determinare una funzione lineare che meglio approssima i nostri dati sperimentali e poter decidere sulla bontà di questa approssimazione.

Errore nella misura sperimentale

Ulteriori conoscenze di informatica Elementi di statistica Esercitazione3

Indici di. tendenza centrale: posizione: variabilità e dispersione: -quantili -decili -percentili. -Media -Moda -Mediana

Lezione 5 Corso di Statistica. Domenico Cucina

Appunti di statistica ed analisi dei dati

Metodi statistici per le ricerche di mercato

Variabilità e Concentrazione Esercitazione n 02

4. INDICI DI POSIZIONE

Il test (o i test) del Chi-quadrato ( 2 )

Tipi di variabili. Indici di tendenza centrale e di dispersione

Prof. Anna Paola Ercolani (Università di Roma) Lez Indicatori di tendenza centrale

L'analisi bivariata (analisi della varianza e correlazione) Prof. Stefano Nobile. Corso di Metodologia della ricerca sociale

Programma della parte introduttiva: Lezione 5

Transcript:

MODELLI QUANTITATIVI Qualunque sia il modello di estrazione di regolarità o di conoscenze dai dati empirici, esiste sempre una base statistica da cui occorre partire. Un fenomeno linguistico specifico è costituito dall occorrere di un certo numero di casi su un insieme di testi. Ad esempio, l uso di una certa parola avviene un certo numero di volte in un numero di testi che possiamo raccogliere. Certamente il numero di volte che una certa parola appare in un testo non definisce in modo completo l uso che di tale parola si fa, in quanto quel valore resterà sempre un valore teorico, esprimibile in termini di regole. Tuttavia, possiamo affermare che il numero di volte che tale parola appare nella raccolta di testi disponibile è un immagine approssimativa di quel valore teorico. Questo definisce i concetti fondamentali delle teorie della statistica e della probabilità. L insieme dei testi su cui calcoliamo le nostre frequenze è detto campione, ed è un approssimazione (indefinita) di una realtà assoluta detta universo. Non potremo mai conoscere l universo, in quanto consiste nella totalità dei fenomeni. Ma noi sappiamo che, in linguistica, la totalità dei fenomeni è conoscibile solo per le lingue morte, mentre le lingue vive sono illimitate, cioè sono collezioni non finite di fenomeni. All interno del campione, ogni singolo fenomeno ha una frequenza, cioè appare un certo numero di volte. Il numero di volte che un fenomeno occorre si chiama frequenza; se dividiamo la frequenza per il numero degli elementi presenti nel campione, otteniamo la frequenza relativa o probabilità del fenomeno stesso. Otteniamo, infatti, un decimale (una percentuale) che, se il grado di approssimazione del campione all universo si mantiene costante, rappresenta la probabilità di ulteriore occorrenza del fenomeno stesso. In altri termini, se un certo fenomeno occorre 0,3 volte, cioè rappresenta il 30% di un campione, se il campione continua a crescere in modo regolare, avremo il 30% di probabilità che il prossimo evento sia del tipo identificato. Un esempio: se la parola scandalo ha una frequenza 25 su un campione di 125 parole, questo indica una probabilità di 0,20. Ciò significa che se il campione cresce in maniera uniforme, su un campione di 250 parole avremo 50 occorrenze di scandalo e su 1250 parole avremo 250 scandalo. La funzione degli studi statistici linguistici è confermare la corrispondenza delle probabilità calcolate con l effettiva distribuzione del fenomeno e, in caso contrario, di misurare la significatività della divergenza e fornirne un interpretazione. Alcuni concetti fondamentali La frequenza di un fenomeno è il numero di volte che un certo elemento compare in un corpus. Tradizionalmente riflette il rapporto type/token, dove type indica un tipo di evento e token l'occorrenza dell'evento stesso. Riferito alla linguistica diremo che distinguiamo le parole che corrispondono ai type, mentre i token sono detti occorrenze. La tradizione italiana e francese utilizza un ulteriore livello, cioè il lemma, che è l'entrata di dizionario cui la parola si riferisce. In questo caso parleremo di lemmi, forme e occorrenze. Un lista di frequenza può essere ordinata per frequenza crescente o decrescente. In caso di frequenza decrescente si può assegnare un numero d'ordine alle singole posizioni, da 1 a n. Questo numero d'ordine si chiama rango. Nel 1949 Zipf formulò una legge, detta appunto legge di Zipf secondo cui f x r = c

cioè, il prodotto tra frequenza (f) e rango (r ) è una costante c. In realtà si tratta di una costante molto approssimata, come mostrano i valori qui riportati, provenienti da uno dei corpora più importanti, il Brown Corpus: r f c 1 69868 69868 the 2 36426 72852 of 3 28891 86673 and 4 26215 104860 to 5 24548 122740... 101 940 94940 102 921 93942 103 921 94863 104 920 95680 Si noti che le parole più frequenti sono parole cosiddette grammaticali. Una formulazione intuitiva della legge di Zipf è che nella distribuzione di una serie di fenomeni esiste - un numero ristretto di elementi che hanno frequenza altissima - un numero medio di elementi che hanno frequenze medie - un numero elevatissimo di elementi con frequenze moto basse Secondo alcuni la legge di Zipf rappresenta molto bene solo la distribuzione di alcuni eventi, come le parole di un testo, mentre non si applica ad altri eventi. La frequenza relativa è data dalla frequenza assoluta divisa per il numero totale delle occorrenze del corpus. Le frequenze relative possono essere anche espresse in termini di frequenze percentuali, moltiplicando la frequenza relativa. 100. A partire dai valori delle frequenze, si possono calcolare: - la media aritmetica data dalla somma delle frequenze divisa per la somma dei tipi - la mediana, un indice di posizione e si definisce come quel valore che bipartisce la distribuzione ordinata in senso non decrescente delle modalità di un carattere. Per cui al primo gruppo apparterranno le osservazioni inferiori o uguali alla mediana, al secondo gruppo le osservazioni superiori o uguali alla stessa. La mediana è spesso indicata in forma grafica nel modo seguente

dove la parte a "scatola" indica le percentuali che si distribuiscono tra il 75 e il 25 posto e la linea contenuta nella "scatola" indica la mediana. - lo scarto quadratico è una misura della deviazione dei valori osservati dalla media e si ottiene sottraendo la media dalla singola frequenza osservata. Le frequenze non sono elementi enormemente utili in se stesse, ma possono essere oggetto di valutazione. Un modo di valutazione delle frequenze assolute è il test detto chi quadro, che serve a valutare la deviazione di una certa frequenza dalla distribuzione ideale. Supponiamo di voler confrontare due serie di frequenze, ad esempio la distribuzione riferimenti di terza persona in Giapponese e in Inglese; i valori potrebbero essere English Japanese Ellipsis 0 104 Central pronouns 314 73 Non-central pronouns 28 12 Names 291 314 Common NPs 174 205 Per costruire il modello teorico ordineremo i nostri dati in una tabella, dove faremo le somme di ogni colonna e di ogni riga. tota O : 0 314 28 291 174 807 104 73 12 314 205 708 totb 104 387 40 605 379 totgen 1515 Da questa tabella calcoliamo la distribuzione teorica secondo la formula seguente:

per ogni casella si sostituire il valore con quello ottenuto da tota * totb / totgen A : 55.4 206 21.3 322 202 807 48.6 181 18.7 283 177 708 104 387 40 605 379 1515 Per valutare questa discrepanza costruiamo un'altra tabella con la seguente formula: per ogni casella ((O - A) 2 /A) dove O sta per frequenza osservata ed A sta per frequenza attesa. Si otterrà, così, la tabella seguente (0-55,4)2 / 55,4 = 55,4 (314-206)2 / 206= 56,6 (28-21,3)2/21,3= 2,1 (291-322)2/322= 3 (174-202)2/202= 3,8 (104-48,6)2/48,6= 63,1 (73-181)2/181= 64,4 (12-18,7)2/18,7= 2,4 (314-283)2/283= 3,4 (205-177)2/177= 4,4 Il valore totale del chi-quadro è 258,6, cioè la somma di tutti i valori delle singole caselle. Per poter continuare nella valutazione del chi-quadro dobbiamo ora calcolare i gradi di libertà della tabella, secondo la formula gdl = (r-1)(c-1) dove gdl sta per "gradi di libertà", r per righe e c per colonne. Nel nostro caso avremo (2-1)*(5-1)= 4 Il grado di libertà 4, associato ad una soglia di errore che avremo fissato a priori, ad esempio a 0,5, permette di ricercare un valore di soglia in una tabella disponibile in tutti i manuali di statistica, cioè la tabella del chi-quadro. Nel nostro caso, la soglia di errore e 4 gradi di libertà danno un valore di 9,49, ampiamente inferiore al valore calcolato. Questo significa che le discrepanze evidenziate tra i due campioni, Giapponese ed Inglese, sono molto significative. Ovviamente i metodi fin qui illustrati - sono stati descritti in maniera sommaria ed estremamente semplificata; una caratteristica del metodo statistico è la sua dipendenza dal problema che si affronta - non sono gli unici metodi di elaborazione, ma puntano tutti ad indicare che la rilevanza delle frequenze non è in sé utile se non è valutata in funzione di una distribuzione teorica dei fenomeni - è convinzione comune che la distribuzione più "naturale" dei fenomeni sia indicata dalla curva di Gauss o curva a campana, qui sotto riportata corrispondente alla formula

Dove x) e' il valore medio della distribuzione e e' la deviazione standard.