MODULO 04 ELEMENTI DI TEORIA DEI LINGUAGGI FORMALI Un linguaggio di programmazione è uno strumento per esprimere algoritmi in una forma adatta allo loro esecuzione da parte di un elaboratore La formulazione di un algoritmo in un linguaggio di programmazione è detta programma Il processo di esecuzione di un programma col quale si ottengono i risultati calcolati dall algoritmo codificato dal programma, è fatto in generale da due passi: compilazione ovvero una trasformazione del testo del programma (codice sorgente) operata da un altro programma detto compilatore, in una forma equivalente ma eseguibile dalla macchina (codice oggetto o codice macchina) esecuzione nella quale il codice oggetto viene eseguito dall elaboratore Questa caratteristica è tipica dei linguaggi di programmazione nati per esprimere algoritmi in una forma indipendente dalla macchina ma espressiva per l utente La descrizione di un linguaggio di programmazione distingue aspetti sintattici, semantici e pragmatici I primi riguardano la forma che le frasi del linguaggio possono assumere, i secondi il significato di ogni frase e gli ultimi sono legati alla utilizzazione pratica del linguaggio IL LINGUAGGIO Alcune definizioni preliminari Alfabeto è un insieme finito e non vuoto di elementi detti simboli ALR = { I, V, X, L, D, C, M } APCP = {begin, end, while, repeat, for, } alfabeto lettere romane alfabeto parole chiave del Pascal Stringa ( o parola, o frase) su un alfabeto A è la concatenazione di un numero finito di simboli di A La stringa vuota è fatta da 0 simboli e si indica di norma con ε o con λ III, IVX, CCC sono parole su ALR Lunghezza o cardinalità di una stringa α è il numero di simboli concatenati per formare α e si indica con α XVII = 4 ε = 0 1
La concatenazione di due stringhe α e β si indica giustapponendole αβ ; la stringa vuota ε è unità sinistra e destra rispetto alla concatenazione αε = εα = α non è commutativa αβ βα ma è associativa α(βγ) = (αβ)γ Dato un alfabeto A, la stellatura di A, scritta A *, si può definire per induzione usando come costruttore la concatenazione (cl base) ε A * (cl induttiva) se α A * e a A, aα A * ad es se A = { a, b}, A * = {ε, a, b, aa, bb, ba, bb, aaa, aab, }, oppure definendo le potenze cartesiane n-esime di A come segue A 0 = { ε } A 1 = A A 2 = A x A A n +1 = A x A n e poi unendole A * = U i N A i = A 0 u A 1 u u x A n u La stellatura di un alfabeto A qualunque contiene dunque tutte le frasi su A di lunghezza finita Se indichiamo con l operazione di concatenazione su A * con le proprietà già indicate, l algebra (A *,, ε) è un monoide su A u { ε } detto linguaggio universale su A Per definizione un linguaggio L su A è un sottinsieme di A * : L A * 2
Tra due linguaggi, in quanto insiemi, si possono applicare le operazioni di unione e intersezione Se L 1 e L 2 sono due linguaggi su uno stesso alfabeto A, allora L 1 L 2 = { α α L 1 oppure α L 2 } è l unione L 1 L 2 = { α α L 1 e α L 2 } è l intersezione Oltre a queste abbiamo la concatenazione denotata ancora con e definita come segue: sia ( A * ) l insieme delle parti di A *, allora : ( A * ) x ( A * ) ( A * ) tale che dati due linguaggi L 1 e L 2 su A con le seguenti proprietà: L 1 L 2 = {αβ I α L 1, β L 2 } L 1, L 2 ( A * ), L {ε } = {ε } L L { } = { } L = { } L 1 ( L 2 L 3 ) = ( L 1 L 2 ) L 3 identità zero associatività e l iterazione denotata con, che dato un linguaggio L produce il linguaggio L cosi definito L = U n N L n L ( A * ), con L n è definito per induzione L n = L 0 ={ε }, n=0 L n-1 L, n>0 Il simbolo si chiama stella di Kleene Un linguaggio su un alfabeto A può essere descritto in modo insiemistico, ad es se A = { a,b } la scrittura L bs = {a n b n I n N} definisce l insieme delle stringhe formate da due sottostringhe α e β di uguale lunghezza n>=0 e tale che i simboli di α siano tutti uguali ad a e quelli di β tutti uguali a b; questo linguaggio è chiamato bisomatico [ Manca, op cit], 3
mentre L bp ={a n b m I n,m N} descrive il linguaggio bipartito [ Manca, op cit] le cui frasi sono fatte di due sottostringhe α e β con i simboli di α tutti uguali ad a e quelli di β tutti uguali a b Questo linguaggio può essere ottenuto tramite iterazione e concatenazione L bp ={a} {b} Il problema centrale della teoria dei linguaggi formali consiste nel fornire metodi rigorosi per definirli Un modo naturale per descrivere un linguaggio è quello di definire la forma delle sue frasi; ciò avviene fornendo una descrizione sintattica all interno di un più ampio contesto generativo ( poiché consente di generare un linguaggio) detto grammatica Una grammatica può pensarsi come un algoritmo in grado di produrre frasi caratterizzate da descrizioni sintattiche e può essere espressa anche come automa generatore Oltre agli algoritmi di generazione ci sono quelli di riconoscimento che possono essere implementati anche sotto forma di automi riconoscitori Sugli automi torneremo più avanti, ora ci occupiamo di definire che cosa sia una grammatica partendo da un esempio completo Vogliamo costruire un linguaggio che chiamiamo LN 10, le cui frasi rappresentano numeri in base 10 dotati di parte intera e/o di parte frazionaria Quelle che seguono 179, 394, 1538 sono frasi di questo linguaggio e l alfabeto A sul quale sono costruite è A = {0, 1,2,,9, } Ma LN 10 per quanto visto è un sottoinsieme di A *, LN 10 A *, anzi dato che la parola vuota ha qui nessun interesse, detto A + = A * - { ε } l insieme di tutte le stringhe di lunghezza finita privo della stringa vuota, sarà LN 10 A + Tuttavia questa proprietà che non dà alcuna informazione che consenta di distinguere le frasi che appartengono a LN 10 da altre definite sullo stesso alfabeto: occorre fornire un criterio per distinguere sequenze qualsiasi di A + da quelle buone appartenenti a LN 10 4
Tale criterio consiste nel definire la forma delle frasi corrette di LN 10 e si presenta come un insieme di regole o produzioni che definiscono la sintassi delle frasi del linguaggio: 1 Nd Sd I Sd I Sd Sd 2 Sd Cd I Sd Cd 3 Cd 0 I 1 I 2 I I 9 Ciascuna regola ha una struttura del tipo parte_ sinistra parte_ destra e si noti che in questo esempio la parte sinistra di ciascuna delle regole date è fatta di un solo simbolo La è un simbolo ausiliario che si può leggere in più modi equivalenti la parte sx produce la parte dx può essere riscritta come la parte dx ha la forma indicata nella parte dx la barra verticale è un altro simbolo ausiliario che significa oppure Pertanto la regola 1 stabilisce che un qualsiasi numero di LN 10 che indichiamo con Nd ha una forma del tipo Sd cioè una Sequenza di digit, oppure (I) un punto seguito da una Sd, oppure (I) una Sd seguita da un punto seguita da una Sd La 2 prescrive che una Sd sia formata da una singola Cifra decimale, Cd, oppure da una Sd seguita da una Cd ( questa è una regola ricorsiva ) Infine la 3 prescrive che una cifra decimale Cd può essere una delle cifre dell alfabeto A Le tre regole descrivono esaurientemente tutte le possibili forme delle frasi di LN 10 I simboli Nd, Sd e Cd si dicono categorie sintattiche o variabili, appartengono al linguaggio col quale descriviamo LN 10, detto metalinguaggio, e in questo senso sono dei mètasimboli da tenere distinti ( qui attraverso l uso del grassetto) da quelli, appartenenti all alfabeto, che usiamo per formare le frasi di LN 10 e che sono invece simboli terminali 5
Usiamo la scrittura α =>β per indicare che β è generata direttamente da α sostituendo una categoria sintattica presente in α con una delle sue possibili riscritture come prescritto dalle regole del linguaggio Ad es la sequenza Sd => Sd Cd => Sd 5 => Sd Cd 5 => Cd Cd 5 => 3 Cd 5 => 3 0 5 esprime il processo di generazione o derivazione della frase 305 di LN 10, ottenuta con una catena di generazioni dirette Una derivazione di 1832 da Nd è data da Nd => Sd Cd => Sd Cd Sd => Sd Cd Sd Cd => Cd Cd Sd Cd => =>Cd Cd Cd Cd => 1 Cd Cd Cd => 18 Cd Cd =>18 3 Cd => 1832 Fissando le idee su quanto detto, individuiamo un insieme finito di norma indicato con V di simboli nonterminali (variabili, cat sint) un insieme finito T di simboli terminali un elemento S di V, detto simbolo iniziale (start symbol) o assioma un insieme P sottoinsieme di V x (V T) detto insieme delle produzioni Riferendoci all esempio presentato abbiamo V = {Nd, Sd, Cd} T = {0, 1,,9, } S = Nd P = {(Nd, Sd), (Nd, Sd), (Nd, Sd Sd), (Sd, Cd), (Sd, Sd Cd), (Cd, 0),,(Cd, 9)} ( si noti che scriviamo v w 1 Iw 2 I Iw n se (v,w 1 ), (v,w 2 ),, (v, w n ) sono tutte le produzioni in P con v in V come primo elemento) Le frasi di LN 10 sono esattamente quelle stringhe che possono essere derivate da Nd ( simbolo iniziale ) applicando le produzioni e contenenti solo i simboli terminali appartenenti all alfabeto Ciò giustifica la seguente Definizione 1 Una grammatica G, libera dal contesto (in inglese, context free), è una quadrupla G = (V, T, S, P) con V, T, S e P come specificato sopra 6
Data una grammatica G = (V, T, S, P) libera dal contesto, la relazione binaria di derivazione diretta => è definita su (V T) e come abbiamo detto, α =>β si legge come α genera (o deriva) direttamente β ; questa relazione può essere definita specificando che α =>β esattamente nel caso in cui β sia ottenuta da α sostituendo una singola variabile ( categoria sintattica ) in α secondo quanto prescritto da una produzione in P, cioè nel caso in cui esistono le stringhe γ e δ in (V T), la stringa v in V e la produzione (v, w ) in P tale che α = γ v δ, β = γ w δ è Date due relazioni qualsiasi R: A B e S: B C, la relazione composta S R:A C S R = {(a,c) esiste un b in B con arb e bsc } A X C Se una relazione R ha dominio e codominio uguali, R: A A, le potenze di R sono definite induttivamente come : R 0 = id A = {(a,a) a A} R 1 = R R 2 = R R R 3 = R 2 R R n+1 = R n R identità La chiusura transitiva di R viene indicata con R + e definita come R + = U n>0 R n invece la chiusura riflessiva transitiva di R indicata con R *, è R * = U n 0 R n Ad esempio se R: N N è una relazione dai naturali ai naturali nella quale mrn sse m=n+1, allora R + è la relazione >, maggiore, mentre R * è la relazione, maggiore o uguale La relazione binaria => * su ( V T) è la chiusura riflessiva e transitiva di =>, scriviamo w => * w che significa w deriva w nel caso in cui w = w oppure se esiste una sequenza w 1, w 2,, w n (n >= 2) di stringhe in (V T), tale che w = w 1 ; w j => w j+1 per 1 j < n ; w n = w 7
Definizione 2 Il linguaggio L(G) generato da una grammatica G è l insieme delle stringhe di caratteri terminali che possono essere derivate da S L(G) = {w w T, S => * w } Un insieme LLC T è un linguaggio libero dal contesto se LLC è un L(G) generato da una grammatica acontestuale G Come secondo es di grammatica libera dal contesto sia G 2 ( V, T, S, P) con: V = {S} T = {a, b} S = asb ab si può notare che le sole derivazioni possibili sono del tipo S => ab S => asb => aabb S => asb => aasbb => aaabbb etc Usando la notazione a n come abbreviazione di una stringa di n occorrenze di a, il linguaggio generato da G 2 è L(G 2 ) = { a n b n n 1} che abbiamo già visto: il linguaggio bisomatico Esercizi 1 Definire la grammatica che genera il linguaggio delle frasi palindrome su {a, b} 2 Definire la grammatica le cui frasi sono numeri naturali divisibili per 5 3 Data la grammatica G nella quale: V = {S, A, B, C, D}, T = {a, b}, S è il simbolo distinto e P contiene le seguenti produzioni: S CD Ab ba C acai bcb Ba ab AD ad Bb bb BD bd C ε Aa aa D ε derivare qualche frase e descrivere il linguaggio generato da G 4 Descrivete la grammatica le cui frasi sono espressioni aritmetiche esprimibili con i simboli a, +, *, ( e ) Nota La semplice osservazione della forma delle derivazioni di una grammatica non consente affatto di stabilire quale sia il linguaggio generato, occorre produrre una dimostrazione (spesso induttiva) Un testo fondamentale per queste problematiche è quello di Hopcrooft e Ullman citato in bibliografia 8
La classificazione di N Chomsky L analisi fatta sulla forma delle produzioni di una grammatica ha portato alla seguente classificazione dovuta a Chomsky Grammatiche di tipo 0 La struttura delle produzioni non è soggetta ad alcun vincolo; i linguaggi generati da esse si dicono di tipo 0 e indicati con L 0 Grammatiche di tipo 1 ( contestuali ) Un modo di caratterizzarle è imponendo che ciascuna produzione α β abbia questa caratteristica α β i linguaggi generati si diranno, analogamente, di tipo 1 e indicati con L 1 Grammatiche di tipo 2 ( context-free, acontestuali, libere dal contesto ) Ogni produzione è del tipo A α con A V e α ( V T) + La parte sinistra è costituita da un solo simbolo terminale Si prestano a descrivere linguaggi di programmazione, i linguaggi che generano si chiamano liberi dal contesto e sono denotati con L 2 Grammatiche di tipo 3 ( regolari ) Ciascuna produzione è del tipo A ab oppure A a con A, B V e a T regolari si dicono i linguaggi generati da esse, denotati con L 3 Cenni di semantica denotazionale Un linguaggio di programmazione serve per esprimere i processi di calcolo che devono essere svolti da un elaboratore Se vogliamo assegnare una semantica a un linguaggio allora dobbiamo trovare il modo di specificare senza ambiguità quale sia il significato di un qualsiasi programma scritto in quel linguaggio Due modi fondamentali sono 1 spiegare come si comporta una macchina più o meno reale che esegua il programma stesso; 2 costruire un modello che, indipendentemente da qualsiasi macchina, fornisca per ogni programma un oggetto matematico che ne definisca il significato 9
Il primo modo di procedere, detto operazionale, implica la definizione di una macchina in grado di eseguire il linguaggio e dare la semantica di uno specifico programma consiste nel mostrare il comportamento della macchina durante l esecuzione di quel programma: è esattamente questo che abbiamo fatto nel caso delle istruzioni della macchina a registri e (informalmente) nel caso delle istruzioni di sequenza, selezione e iterazione avendo supposto che la macchina che le esegue sia un normale personal La seconda alternativa, detta denotazionale, consiste invece nel definire una funzione di interpretazione semantica che associ a ogni programma un elemento di un insieme di oggetti matematici che diremo oggetti semantici scelti come significato o denotazione di quel programma Attraverso un esempio molto semplice vediamo l approccio denotazionale Cominciamo definendo un linguaggio per rappresentare i numeri naturali servendoci dei caratteri z e u ; la grammatica che genera tale linguaggio è G(V, T, S, P) con V={ Num, Cif } categorie sintattiche T={ z, u } simboli terminali S= Num assioma, simbolo iniziale P={Num ::=Cif I Num Cif ; Cif ::= z I u } insieme delle produzioni (notate che nelle produzioni ho usato il simbolo ::=, invece che la freccia, per separare la parte sinistra dalla destra e che non indicato in grassetto le categorie sintattiche: questa notazione è molto vicina alla BNF) Il linguaggio generato da G coincide con {z, u} e ogni parola ha una precisa struttura Per dare una semantica denotazionale a questo linguaggio occorre innanzitutto scegliere l insieme delle denotazioni che intendiamo usare La scelta è obbligata: visto che intendiamo rappresentare numeri naturali, scegliamo l insieme N dei naturali, appunto, sul quale assumiamo definite le operazioni di somma e prodotto e li rappresentiamo nella consueta rappresentazione decimale Restano da definire le funzioni di interpretazione semantica che ci permetteranno di passare da un programma sintatticamente corretto al suo significato C è un modo standard per definire tali funzioni, detto definizione guidata dalla sintassi, che consiste nel definire: 1 una funzione di interpretazione semantica per ogni categoria sintattica presente nella grammatica; 2 ciascuna funzione di interpretazione per casi, uno per ogni produzione della grammatica che abbia la categoria sintattica in questione come membro sinistro 10
Per il nostro esempio le due funzioni da definire sono allora: N : Num N C : Cif N corrispondenti alle due categorie sintattiche La prima associa ogni parola del linguaggio generato dalle produzioni con membro sinistro Num al suo significato: chiamiamo ancora Num tale linguaggio La seconda associa ogni parola del linguaggio Cif al suo significato Per definire C dobbiamo considerare due casi, ovvero C u = 1 C z = 0 da interpretare come segue: per ogni elemento c di Cif, C c = 1 se c= u cioè se è derivabile con la seconda produzione per Cif, C c = 0 se c= z In definitiva il significato della parola u è il naturale 1, mentre quello della z è, denota, il naturale 0 Le definizioni corrispondenti ai vari casi vengono chiamate clausole delle definizioni semantiche; in ciascuna clausola delle funzioni di interpretazione, le componenti sintattiche sono racchiuse in una coppia omologa di per distinguerle dalle componenti semantiche: più precisamente gli elementi dei domini sintattici che compaiono nelle definizioni sono sempre racchiusi come indicato Se la definizione di C è immediata, quella di N è più complicata poiché Num è definito ricorsivamente ( una produzione è ricorsiva se la categoria sintattica nel lato sinistro è presente anche in quello destro) Usando n come generico elemento di Num e c come generico elemento di Cif abbiamo la seguente definizione N c = C c N nc = 2 N n + C c da interpretare come: il significato di una parola n appartenente a Num è dato dalla prima clausola che rimanda alla funzione C se n è derivabile con la prima produzione per Num, altrimenti se n è derivabile con la seconda allora ha una struttura formata da due parti, n e c rispettivamente, come espresso dalla seconda clausola Calcoliamo il significato del programma uzu : osservando che uzu è formata dalla u più a destra che appartiene alla categoria Cif e dalla parte uz appartenente alla categoria Num, avremo N uzu = 2 N uz + C u = 2 ( 2 N u + C z ) + C u = = 2 ( 2 C u + C z ) + C u = = 2 ( 2x 1 + 0 ) + 1 = 5 11
Num Num Cif u z u Albero sintattico (parziale) della parola uzu Esercizi 1 verificare denotazionalmente che uuz e zzuuz hanno lo stesso significato 2 calcolare il significato di uuzu Questo modulo si chiude qui Nel prossimo indagheremo il rapporto tra i linguaggi e gli automi riconoscitori deterministici a stati finiti con qualche cenno a questioni di calcolabilità e decidibilità 12