Informazione, Entropia e Probabilità

Documenti analoghi
Ψ PSICOMETRIA. Corso di laurea triennale (classe 34) STATISTICA INFERENZIALE

NOZIONI DI CALCOLO DELLE PROBABILITÀ

La PROBABILITA è un numero che si associa ad un evento E ed esprime il grado di aspettativa circa il suo verificarsi.

Sperimentazioni di Fisica I mod. A Statistica - Lezione 3

MATEMATICA. a.a. 2014/15

3.1 La probabilità: eventi e variabili casuali

Per capire qual è l altezza media degli italiani è stato intervistato un campione di 1523 cittadini. La media campionaria dell altezza risulta essere:

Lanciando un dado, il tuo compagno esclama: uscirà 1, 2, 3, 4, 5 o 6 oppure: uscirà il numero 4. uscirà il numero 9

Introduzione al Calcolo delle Probabilità

Linguistica Computazionale

Probabilità. Ing. Ivano Coccorullo

Statistica Inferenziale

Lezione 2. La probabilità oggettiva : definizione classica e frequentistica e loro problemi

Lezione 1: Università Mediterranea di Reggio Calabria Decisions Lab. Insiemi. La Probabilità Probabilità e Teoria degli Insiemi

FENOMENI CASUALI. fenomeni casuali

La probabilità composta

Probabilità I Calcolo delle probabilità

1 Ingredienti base del CDP. 2 Denizioni classica e frequentista. 3 Denizione assiomatica. 4 La σ-algebra F. 5 Esiti equiprobabili

Cenni di probabilità

Calcolo della probabilità

Progetto Lauree Scientifiche Liceo Classico L.Ariosto, Ferrara Dipartimento di Matematica Università di Ferrara 24 Gennaio 2012

PROBABILITA. DEFINIZIONE: Ogni singolo risultato di un esperimento casuale si chiama evento elementare

CALCOLO DELLE PROBABILITA' risultato non può essere previsto con certezza ogni risultato possibile di un esperimento

1. Descrivere gli spazi campionari dei seguenti esperimenti casuali: 1. lancio di un dado 2. lancio di due dadi 3.

Calcolo delle probabilità

PROBABILITA. Sono esempi di fenomeni la cui realizzazione non è certa a priori e vengono per questo detti eventi aleatori (dal latino alea, dado)

Probabilità classica. Distribuzioni e leggi di probabilità. Probabilità frequentista. Probabilità soggettiva

Introduzione alla probabilità

Scopo del Corso: Lezione 1. La Probabilità. Organizzazione del Corso e argomenti trattati: Prerequisiti:

CALCOLO DELLE PROBABILITA

Teoria della probabilità

Esperimentazioni di Fisica 1 Elementi di Calcolo delle Probabilità

Esercitazione del 31/01/2012 Istituzioni di Calcolo delle Probabilità

Lezione 3 Calcolo delle probabilità

Esercizi su variabili aleatorie discrete

Esercizi di Calcolo delle Probabilità

STATISTICA: esercizi svolti sulle VARIABILI CASUALI

Elementi di Psicometria con Laboratorio di SPSS 1

Lezione 1. La Statistica Inferenziale

Variabili aleatorie. Variabili aleatorie e variabili statistiche

Probabilità Condizionale - 1

NOZIONI DI CALCOLO DELLE PROBABILITÀ ALCUNE DEFINIZIONI

TEORIA DELL INFORMAZIONE ED ENTROPIA FEDERICO MARINI

p. 1/2 INFORMAZIONI Prossime lezioni Giorno Ora Dove 27/01 14:30 P50 29/01 14:30 Laboratorio (via Loredan) 03/02 14:30 P50 05/02 14:30 P50

Modelli descrittivi, statistica e simulazione

Statistica. Motivazioni

Note introduttive alla probabilitá e alla statistica

Università del Piemonte Orientale. Corso di Laurea Triennale di Infermieristica Pediatrica ed Ostetricia. Corso di Statistica Medica

IL CALCOLO DELLE PROBABILITA

Probabilità esempi. Aiutiamoci con una rappresentazione grafica:

Elementi di probabilità

Teorema del limite centrale TCL

STATISTICA e PROBABILITA'

CALCOLO delle PROBABILITA

IL CALCOLO DELLE PROBABILITA

Calcolo delle probabilità

La probabilità matematica

Unità 30. Sommario. Bibliografia. Auto-informazione di un evento Auto-informazione di un esperimento aleatorio Esempi. [Bel] -- [Ros] 9.

PROBABILITA. Nella costruzione dello spazio degli eventi la difficoltà aumenta notevolmente laddove sia necessario fare uso del prodotto cartesiano.

PROBABILITA E STATISTICA

Corso di Statistica. Introduzione alla Probabilità. Prof.ssa T. Laureti a.a

Tipi di variabili. Indici di tendenza centrale e di dispersione

Calcolo combinatorio

Campionamento La statistica media campionaria e la sua distribuzione. Paola Giacomello Dip. Scienze Sociali ed Economiche Uniroma1

Il Calcolo delle Probabilità è lo strumento matematico per trattare fenomeni aleatori cioè non deterministici.

OPERAZIONI CON GLI EVENTI

prima urna seconda urna

esperimento casuale: è un esperimento condotto sotto l effetto del caso; evento elementare: ciascuno dei possibili esiti di un esperimento casuale;

UNIVERSITÀ di ROMA TOR VERGATA

Probabilità delle cause:

Idraulica e Idrologia: Lezione 6

Il Corso di Fisica per Scienze Biologiche

Modelli probabilistici variabili casuali

STATISTICA 1 ESERCITAZIONE 8

Calcolo delle Probabilità Soluzioni 1. Spazio campionario ed eventi

Costruzione di macchine. Modulo di: Progettazione probabilistica e affidabilità. Marco Beghini e Leonardo Bertini. Lezione 1: Probabilità: fondamenti

Ulteriori Conoscenze di Informatica e Statistica

L indagine campionaria Lezione 3

È l insieme di tutti i possibili esiti di un esperimento aleatorio; si indica generalmente con il simbolo.

UNIVERSITÀ di ROMA TOR VERGATA

LA PROBABILITAÁ ALGEBRA IL CALCOLO DELLE PROBABILITAÁ. richiami della teoria

Distribuzione Gaussiana - Facciamo un riassunto -

Riprendiamo le probabilità. 1.Probabilità a priori oggettiva 2.Probabilità a posteriori frequentista

Calcolo delle Probabilità

Teoria dell informazione

Lezione 8. La Statistica Inferenziale

Lo spazio degli eventi del lancio di un dado regolare a sei facce è l insieme U U

Probabilità e numeri casuali Teoria e programmazione Pascal e C++

Calcolo delle probabilità

Statistica 1 A.A. 2015/2016

Variabili casuali. - di Massimo Cristallo -

La simulazione con DERIVE Marcello Pedone LE SIMULAZIONI DEL LANCIO DI DADI CON DERIVE

Problemi indeterminati

5 di tutti i possibili risultati relativi a un determinato esperimento si chiama spazio probabilistico

Il caso, probabilmente: la partita a dadi di Riccardo Mini

incompatibili compatibili complementari eventi composti probabilità composta

Statistica. Capitolo 4. Probabilità. Cap. 4-1

STII/Teoria dell Informazione

( ) ( ) Ω={1,2,3,4,5,6} B B A Siano A e B due eventi di Ω: si definisce evento condizionato B A. Consideriamo il lancio di un dado:

Esercizi settimana 5. Esercizi applicati. Esercizio 1. Si considerino tre monete truccate, ognuna con probabilità 2 3

Transcript:

Informazione, Entropia e Probabilità Alessandro Lenci Università di Pisa, Dipartimento di Linguistica Via Santa Maria, 36, 56100 Pisa, Italy alessandro.lenci@ilc.cnr.it Linguaggio e comunicazione - LO042 Cosa è un sistema? Un sistema (dinamico) è un insieme di aspetti del mondo che mutano nel tempo lo stato di un sistema al tempo t 1 è il modo in cui si presentano al tempo t 1 gli aspetti che lo compongono l insieme degli stati in cui può trovarsi il sistema è il suo spazio degli stati (state space) Il comportamento di un sistema è il cambiamento nel tempo del suo stato il comportamento di un sistema è una traiettoria nello spazio degli stati

Lo spazio degli stati Stati del sistema = {s 1, s 2, s 3, s 4, } s 1 s 4 s 2 s3 Complessità e organizzazione Collier & Hooker 1999 La complessità di un sistema dipende dalla quantità di informazione necessaria per descrivere i suoi stati e il suo comportamento L organizzazione di un sistema dipende dalle interdipendenze e correlazioni tra le sue componenti e dal loro grado di (non) linearità

Complessità e organizzazione organizzazione complessità Sistemi semplici e poco organizzati Sistemi complessi e poco organizzati gas Sistemi semplici e mediamente organizzati Sistemi complessi e altamente organizzati cristalli esseri viventi sistemi cognitivi LINGUAGGIO Complessità e informazione Un oggetto complesso richiede più informazione per essere descritto La quantità di informazione necessaria per descrivere un sistema dipende da: la quantità dei suoi stati possibili la regolarità (predicibilità) delle sue dinamiche grado di randomness (casualità) del verificarsi dei suoi stati

Incertezza e informazione L informazione è la diminuzione dell incertezza se un evento aleatorio si verifica, abbiamo ottenuto dell informazione più un evento è incerto maggiore è l informazione che otteniamo sapendo che si è verificato L entropia è la misura della quantità di informazione o incertezza di una variabile casuale un sistema può essere descritto come una variabile casuale (W) gli stati possibili del sistema sono i valori della variabile a cui è associata una distribuzione di probabilità p ad ogni istante t i, p fornisce la probabilità che il sistema si trovi in un certo stato La definizione di probabilità Esperimento il processo attraverso cui viene compiuta una certa osservazione lanciare un dado e vedere l esito che produce (il numero ottenuto) un esperimento aleatorio è un esperimento il cui esito non può essere previsto con certezza prima che venga eseguito la teoria della probabilità si occupa di assegnare una probabilità al verificarsi di un evento sulla base di una serie di esperimenti (osservazioni) ripetuti Spazio campione (Ω) l insieme degli esiti (risultati) possibili di un esperimento ciascun esito si chiama punto campione esperimento: lancio di un dado Ω d = {1, 2, 3, 4, 5, 6} esperimento: lancio di una moneta Ω m = {testa, croce}

La definizione di probabilità Evento un sottoinsieme A dello spazio campione Ω, i cui elementi si dicono i risultati favorevoli all evento A l insieme di tutti i possibili eventi di Ω si chiama spazio degli eventi (E) i punti campione sono gli eventi elementari Esperimento: lancio di un dado Ω d = {1, 2, 3, 4, 5, 6} evento A = {ottenere un numero pari}evento complesso A = {2, 4, 6} evento B = {ottenere un 6} evento semplice B = {6} evento C = {ottenere un numero compreso tra 1 e 6} C = {1, 2, 3, 4, 5, 6} = Ω d un evento equivalente allo spazio campionario si dice evento certo La definizione di probabilità Dato uno spazio campione Ω, una funzione di probabilità P (distribuzione di probabilità) assegna a ogni evento di Ω un numero reale compreso tra 0 e 1 (P: E [0, 1]) una funzione di probabilità definisce uno spazio probabilistico per Ω Definizione classica di probabilità (a priori) Dato un esperimento in cui Ω è finito e tutti i punti campione sono egualmente verosimili e mutuamente esclusivi, per ogni evento A: P ( A) = A Ω

Probabilità classica Esperimento: lancio di un dado (non truccato) Ωd = {1, 2, 3, 4, 5, 6} Ωd = 6 A = {ottenere un 6} A = {6} A = 1 P(A) = A / Ωd = 1/6 = 0,16666666666666 B = {ottenere un numero pari} B = {2, 4, 6} B = 3 P(B) = B / Ωd = 3/6 = 1/2 = 0,5 D = {ottenere un numero maggiore di 6} D = { } D = 0 P(D) = C / Ωd = 0/6 = 0 (evento impossibile) La definizione classica non è appropriata se Ω è infinito o i vari esiti non sono egualmente verosimili Frequenza e probabilità Legge dei Grandi Numeri La frequenza relativa di un evento converge verso la sua vera probabilità con l aumentare del numero degli esperimenti Definizione frequentista di probabilità (empirica o a posteriori) la probabilità di un evento è interpretata come il limite a cui tende la sua frequenza relativa in una serie di repliche dello stesso esperimento f A P( A) = lim n n Esperimento: lancio di un dado (truccato) A = {ottenere un numero pari} f A = numero di volte in cui è stato ottenuto 2, 4 o 6 come esito del lancio n = numero di lanci al crescere di n, P(A) f A /n

Incertezza e informazione L entropia è una misura dell incertezza di un sistema misura quanto è difficile predire qual è lo stato del sistema in un certo istante t i Da cosa dipende il grado di incertezza? numero di stati alternativi possibili lancio di un dato = 6 esiti possibili estrazione di una carta = 52 esiti possibili l estrazione di una carta ha un maggior grado di incertezza!! distribuzione delle probabilità per ciascun stato se gli stati hanno probabilità uniforme è più difficile prevedere quale si verificherà in un dato momento (a parità del loro numero) cf. lancio di un dado non truccato vs. lancio di un dado in cui sappiamo che il 6 ha probabilità doppia di uscire degli altri numeri Entropia puntuale L entropia è misurata in bits (cifre binarie) Supponiamo che ad ogni istante t i si debba trasmettere un messaggio per comunicare in quale stato si trova il sistema in t i che il messaggio debba essere in codice binario (una stringa di 0 e 1) Entropia puntuale (informazione) di uno stato numero di bits necessari per trasmettere (= descrivere) che il sistema si trova nello stato s H ( s) = log2 p( s)

Entropia In generale, un numero binario di n cifre può codificare al massimo 2 n messaggi un numero binario di 2 cifre può codificare 4 messaggi diversi 00, 01, 10, 11 Se W ha n stati possibili (tutti equiprobabili), il numero di bits necessari per codificare uno stato è log 2 n H(s) = log 2 n se gli stati del sistema sono equiprobabili, p(s) = 1/n e n = 1/p(s) quindi, H(s) = log 2 1/p(s) = - log 2 p(s) se W ha 1 stato possibile, H(s) = 0 bits se W ha 2 stati possibili, H(s) = 1 bits se W ha 4 stati possibili, H(s) = 2 bits Entropia del sistema H ( W ) = s V ( W ) P( s)log2p( s) L entropia di un variabile W è il numero medio di bits necessari per codificare i suoi stati possibili Se W ha n stati possibili equiprobabili l entropia del sistema è uguale all entropia puntuale W = 4 stati equiprobabili (p(s) = 1/4) H(W) = - (1/4*log 2 1/4+1/4*log 2 1/4+1/4*log 2 1/4+1/4*log 2 1/4) H(W) = - (1/4*(-2)+1/4*(-2)+1/4*(-2)+1/4*(-2)) H(W) = - (-1/2-1/2-1/2-1/2) = -(-2) = 2 bits (= log 2 4) L entropia aumenta col crescere del numero degli stati possibili W = 8 stati equiprobabili H(W) log 2 8 = 3 bits

Entropia W = estrazione di una parola da un testo (esiti non equiprobabili!!) V(W) = {il, cane, mangia, gatto} p(cane) = 1/4 p(il) = 1/2 p(mangia) = 1/8 p(gatto) = 1/8 H(W) = - (1/4*log 2 1/4 + 1/2*log 2 1/2 + 1/8*log 2 1/8 + 1/8*log 2 1/8) H(W) = - (0,25*(-2) + 0,5 * (-1) + 0,125 * (-3) + 0,125 * (-3)) H(W) = - (-0,5-0,5-0,375 0,375) = 1,75 bits L entropia è il numero medio di bits necessari per descrivere gli stati del sistema L entropia permette di stabilire il codice ottimale per descrivere un sistema gli stati più probabili (più frequenti) sono descritti usando messaggi più corti gli stati meno probabili sono descritti usando messaggi più lunghi Entropia e codice ottimale Codice di Shannon-Fano Stati del sistema = {il, cane, mangia, gatto} p(cane) = 1/4 p(il) = 1/2 p(mangia) = 1/8 p(gatto) = 1/8 Codifica ottimale in bits il = 0 cane = 10 gatto = 110 mangia = 111 L entropia di un sistema che usasse questo tipo di codifica per trasmettere messaggi sarebbe di 1,75 bits

Entropia A parità di numero di esiti possibili, meno è uniforme la distribuzione di probabilità e minore è l entropia Entropia e organizzazione L entropia aumenta con l aumentare degli stati possibili di un sistema A parità di stati possibili l entropia diminuisce se aumenta la struttura e l organizzazione del sistema aumenta la predicibilità delle dinamiche del sistema entropia Maggiore ridondanza dell informazione Regolarità nelle dinamiche del sistema Esistenza di schemi e pattern ricorrenti nella sequenza degli stati, ecc.

Probabilità congiunte P(A B) oppure P(A,B) probabilità del verificarsi congiunto di due eventi A e B Esperimento: lancio di due dadi Probabilità di ottenere 6 in tutti e due dadi Esperimento: estrazione di due parole da un testo Probabilità di ottenere un verbo e un aggettivo insieme probabilità di eventi congiunti = prodotto di probabilità Il calcolo del prodotto delle probabilità dipende dalla relazione tra i due eventi eventi indipendenti - il verificarsi dell uno non condiziona il verificarsi dell altro eventi dipendenti - il verificarsi dell uno condiziona il verificarsi dell altro Probabilità congiunte eventi indipendenti Due eventi A e B sono indipendenti se e solo se il verificarsi di A non ha nessun effetto sulla possibilità per B di verificarsi, e viceversa Esperimento: lancio di due dadi Qual è la probabilità di ottenere in un lancio 6 in entrambi i dadi? evento A = {1 dado = 6} P(A) = 1/6 evento B = {2 dado = 6} P(B) = 1/6 la probabilità che lanciando i due dadi ottenga 6 in entrambi i casi è dunque uguale a 1/6 di 1/6, ovvero 1/36 P(A,B) = 1/36 = 1/6 * 1/6 = P(A) * P(B) Se due eventi A e B sono indipendenti, allora vale che: P( A, B) = P( A) P( B)

Probabilità congiunte eventi non indipendenti Un esempio di eventi non indipendenti estrarre 2 parole consecutive da un testo bigramma = sequenza di 2 parole n-gramma = sequenza di n parole Qual è la probabilità di estrarre un una sequenza <Art, N>? la probabilità di estrarre una parola v 2 (consecutiva a v 1 ) non è indipendente dalla probabilità di estrarre v 1 dipendenze sintattiche, semantiche, ecc. determinate dalla grammatica es. gli articoli tendono a ricorrere davanti ai nomi poiché Art e N non sono indipendenti P(Art, N) P(Art) * P(N) Probabilità condizionata P(A B) probabilità che si verifichi A dato che sappiamo che è avvenuto B se A e B sono dipendenti, il fatto di sapere che B è avvenuto altera la probabilità da assegnare ad A, ovvero P(A) P(A B) esempio -1 tuonare e piovere non sono eventi indipendenti (se tuona generalmente sta per piovere, ovvero in genere al tuono segue la pioggia) P(pioggia tuono) > P(pioggia) esempio 2 la probabilità di estrare un nome da un testo sapendo che la parola che lo precede è un articolo (P(nome articolo)) è maggiore della probabilità semplice di estrarre un nome La probabilità condizionata permette di stimare la probabilità di sequenze di eventi tra i quali esiste un rapporto di dipendenza: P( A B) = P( B) P( A B)

Entropia di sequenze di variabili L entropia di una sequenza di eventi è uguale alla somna delle entropie degli eventi singoli: H(W 1,, W n ) = H(W 1 ) + + H(W n ) L entropia di sequenze di variabili è massima nel caso in cui le variabili siano tutte statisticamente indipendenti l entropia della congiunzione delle variabili diminuisce all aumentare della connessione statistica tra le variabili