0. Innledning. Et grunnleggende spørsmål i semantikk er:

Transkript

1 0. Innledning Et grunnleggende spørsmål i semantikk er: Hvordan bestemmes en setnings mening ut i fra meningen til dens deler? Hvordan bestemmes en setnings mening ut i fra meningen til ordene som inngår i setningen og måten de er satt sammen på? Spørsmålet tar utgangspunkt i følgende forutsetning. Vi hører stadig setninger vi ikke har hørt før. Likevel skjønner vi dem. Vi er også i stand til å si setninger vi hverken har sagt eller hørt før og gjøre oss forstått. Språket er produktivt. På en eller annen måte må både taler og tilhører ha tilgang til et sett regler som bestemmer meningen til slike ytringer. Et mål i formell semantikk er å besvare dette spørsmålet. Samtidig starter en med en del forutsetninger: 1. En er primært opptatt av at språket er "om noe" - av forholdet mellom språket og det det beskiver. 2. Å beskrive det et språklig uttrykk sier om verden i et eller annet språk bringer oss ikke utenfor språket selv. Derfor flyttes oppmerksomheten til forholdet mellom ulike språklige uttrykks mening: hvilke uttrykk medfører (eng.: entails) hvilke andre uttrykk. 3. Hvordan verden kan være (kunne ha vært) og hva de (ikke-logiske) ordene betyr (eller kunne ha betydd) beskrives av en formell modell. 4. En setning er navn på en sannhetsverdi gitt en modell. Forutsetning 4 kjenner vi igjen fra Frege. Hverken denne eller forutsetning 3 er delt av alle som arbeider med formell semantikk. F.eks. har den såkalte situasjonssemantikken stilt seg skeptisk til dem. De to første forutsetningene, samt ønsket om å finne ut hvordan setningens mening bestemmes ut i fra delenes mening, er det derimot full enighet om. Foutsetning 4 er grunnen til at formell semantikk nooen ganger kalles sannhetsfunksjonell ("truth-functional"), mens forutsetning 3 forklarer hvorfor den noen ganger kalles modellteoretisk. Kjært barn har mange navn. Men disse forutsetningene begrenses hovedspørsmålet til: Hvordan bestemmes en setnings sannhetsverdi i en gitt modell ut i fra denotasjone til delene i denne modellen? I læreboka (Semantics, Saeed 1997) besvares dette spørsmålet for språket predikatlogikk (se seksjon 10.4 og 10.5). Men når alt kommer til alt, er vi mer interssert i naturlige språk som norsk og engelsk enn i det formelle logiske språket. I læreboka antydes det et 1

2 visst samsvar mellom engelske setninger og logiske formler, men dette gjøres ikke systematisk. I det følgende skal vi se hvordan vi kan gi en like formell semantikk for et utsnitt av et naturlig språk, som for predikatlogikk. En kan tenke seg to måter å gjøre dette på. Enten kan en prøve å gi semantikken for det naturlige språket på samme måte som det er gitt for predikatlogikken, eller en kan forsøke å definere en formell oversettelse fra det naturlige språket til et logisk språk som vi alt har definert tolkningen av. Vi skal se på begge alternativ. Begge tilnærminger krever at vi begynner med en presis fremstilling av syntaksen til det språkfragmentet vi vil studere, og vi vil begynne der. 1. Kontekstfrie frasestrukturgrammatikker Vi vil gjøre bruk av såkalte frasestrukturgrammatikker, og av disse igjen en underklasse kalt kontekstfrie frasestrukturgrammatikker. Vi begynner med en frasestruktur eller konstituentstruktur. I lingvistikken er det vanlig å tilegne setninger syntaktiske strukturer, gjerne i form av trær. Et svært enkelt eksempel er: S NP VP DET N TV NP et barn fant DET N et A N stort A N Figur 1 snilt dyr Dette treet representerer en del forskjellig informasjon. For det første at ord som er samlet under en node, f.eks. et stort snilt dyr, utgjør en enhet til forskjell fra ord som ikke er samlet under en node, eks. fant et. Slike deler av setningen kaller vi en konstituent, eller en frase. Det er ulike tester som brukes for å bestemme fraser, f.eks. kan fraser koordineres, et barn og et stort snilt dyr, og de kan "flyttes", som NPen et stort snilt dyr i et stort snilt dyr tok Jon bilde av. Kategorien vi tilordner frasene, som S, NP, N, etc., bærer også informasjon. Hvis to fraser er av samme kategori kan de opptre i de samme kontekstene. Både et dyr, et snilt dyr, og et stort snilt dyr er NP-er, dvs. vi kan la de ulike N-nodene oppta samme plass bak DET-en et, og vi er sikker på at resultatet blir en NP. Tilsvarende vet vi at et stort snilt dyr fant et dyr er en setning fordi vi har skiftet NP-fraser med andre NP-fraser. Dette er kjent fra lingvistikkvarianten til ex.fac og utdypet i læreboka Innføring i lingvistikk (Endresen, Simonsen, Sveen, 1996). 2

3 Det er også en del forutsetninger som ligger under treet som ikke alle lingvistiske modeller deler, f. eks: Ikke alle modeller introduserer en egen VP-node. En trerepresentasjon forutsetter at de elementene som hører nærmest sammen forekommer ved siden av hverandre. Noen vil kanskje hevde at i en setning som Jon satte søpla ut, er satte nærmere knyttet til ut enn til søpla og at det er naturlig å behandle satte _ ut som en enhet. Da trenger en andre strukturer enn trær. Ulike lingvistiske modeller takler disse spørsmålene ulikt: A. I Leksikalsk-funksjonell grammatikk (LFG) tilordnes en setning to strukturer. Den ene er en frasestruktur med VP-node hvor altså bare ledd som står ved siden av hverandre kan utgjøre fraser. I den andre strukturen, den funksjonelle strukturen, er det ingenting som tilsvarer VP. SubjektsNPet og objektsnpet ligger på samme nivå. Samtidig kan ord som ikke stor sammen i frasestrukturen grupperes sammen i den funksjonelle strukturen. B. I Van Vallin og LaPollas modell er det også to strukturer, en over og en under setningen. Her er det strukturen over setningen som er en funksjonell struktur uten VP og med gruppering av ledd som forekommer et stykke fra hverandre. Strukturene er ikke trær fordi grener krysser hverandre. C. I GB-teori brukes det bare en struktur i den grammatiske representasjonen. Dette er tildels et tre, men det er et mye mer komplekst tre enn det vi har tegnet opp, fordi det bl.a. inneholder mange tomme noder. Dessuten går det utover en ren trestruktur i det at det er avhengigheter mellom (fulle) noder og (tomme) noder som forekommer langt fra hverandre. Men her vil vi bruke enkle frasestrukturtrær. De kan ses på som en felles kjerne for ulike utvidelser og omforminger. I Generalisert frasestrukturgrammatikk (GPSG) (Gazdar et al 1985) brukes tilnærmet slike strukturer som det eneste nivået. Den samme informasjonen som vi finner i et tre kan også uttrykkes i hakeparentesnotasjon (eng.: square bracket notation). Treet fra figur 1 vil da se ut som [ S [ NP [ DET et][ N barn ]] [ VP [ TV fant] [ NP [ DET et][ N [ A stort] [ N [ A snilt][ N dyr] ] ] ] ] ] Så til grammatikkene. Vi skal lage generative grammatikker som svarer til frasestrukturer. Akkurat som det grunnleggende spørsmålet vi stilte for semantikken, hviler vår tilnærming til syntaks på en antagelse om språkets produktivitet. Siden mennesker er i stand til å produsere setninger de ikke har sett eller hørt før, og i stand til å avgjøre om slike setninger er grammatiske eller ikke, må det finnes en endelig grammatikk som genererer alle disse setningene. Altså en endelig innretning kalt en grammatikk som kan generere et ubegrenset antall setninger. Dette er en forutsetning for all generativ grammatikk og den knyttes spesielt til arbeidene av Noam Chomsky fra midten av 50-tallet. 3

4 Her er et eksempel på en kontekstfri frasestrukturgrammatikk: EKSEMPELGRAMMATIKK 1 S NP VP NP DET N N A N N N PP VP VP PP VP IV VP TV NP PP P NP DET: et, hvert, noe N: barn, dyr, spill, tak A: stort, snilt IV: sprang, satt TV: dyttet, hjalp, fant, så P: til, på, bak En kontekstfri frasestrukturgrammatikk består av: 1. En endelig mengde ord. I eksempelet er denne O = {et, hvert, noe, barn,, på, bak} En endelig mengde kategorisymboler, K. I eksempelet er K = {S, NP, VP, DET, N, A, PP, IV, TV, P} Ett bestemt av kategorisymbolene i K. I eksempelet (og svært ofte ellers) er dette S. 4. En mengde produksjonsregler, f.eks. NP DET N. På venstre side av pilen står det et kategorisymbol, på høyre side står det null eller flere kategorisymboler. 5. Et leksikon. Dette er en mengde av par av kategorisymboler og ord. Vi har valgt å skrive disse f.eks. som N: barn, A: stor, altså med et kolon mellom ord og kategorisymbol. I eksempelgrammatikken valgte vi en litt forenklet skrivemåte for leksikon. I stedet for f.eks. N: barn N: dyr N: spill N: tak 1 I teknisk litteratur kalles O for alfabetet og elementene i O for grunnsymboler eller terminalsymboler. 2 I teknisk litteratur kalles disse symbolene ofte for metasymboler eller ikke-terminaler. 4

5 trakk vi dette sammen til N:barn, dyr, spill, tak Man kan også se leksikon skrevet på samme måte som de syntaktiske reglene, f.eks. N barn N dyr N spill osv. I så fall kan en betrakte leksikalske regler og produksjonsregler under ett og slå sammen de to siste punktene, 4 og 5, i definisjonen av en kontekstfri grammatikk til: "En mengde produksjonsregler som består av: et kategorisymbol på venstre siden av en pil, og hvor det på høyre siden forekommer 0 eller flere symboler, der hvert symbol enten er et kategorisymbol eller et ord". Da kan en også tillate blandete regler som N N og N Denne grammatikken aksepterer treet i eksempelet foran. Ser en litt nærmere på de to - grammatikken og treet - begynner en å se en sammenheng. Det er en korrespondanse mellom deler av treet og grammatikken f.eks. mellom deltreet: VP TV Figur 2 NP og regelen: VP TV NP Og mellom deltreet: A stort Figur 3 og det leksikalske oppslaget: A: stort 5

6 Vi skal gjøre denne sammenhengen presis. 3 Vi trenger å snakke om deler av trær. Gitt et tre t. Hvis n er en node i t som ikke er en bladnode, så vil vi si at n sammen med alle ns døtre og kantene mellom dem utgjør et lokalt tre i t. Altså vil trærne i figur 2 og figur 3 være lokale trær i treet fra figur 1. Nå har vi det vi trenger for å definere forholdet mellom et tre og en grammatikk: En kontekstfri grammatikk G genererer treet t hvis og bare hvis 1. Toppnoden i t er merket med det utpekte symbolet i G, S. 2. Alle bladnodene i t er merket med ord (=grunnsymboler). 3. Ethvert lokalt tre i t svarer til en produksjonsregel eller et leksikonoppslag. Det er nå rett frem å sjekke at treet i figur 1 er generert av eksempelgrammatikken. Legg merke til at grammatikkregler kan komme til anvendelse flere ganger. Samtidig kan det være regler som ikke brukes i det hele tatt i dette treet. Det er også viktig å lese reglene riktig. En regel som S NP VP sier at en S kan bestå av en NP og en VP, men ikke at den må bestå av det. Det ser vi i VP-reglene, der vi har flere alternativ for hva en VP kan bestå av. Hvis vi tar alle ordene som sitter på treets blader i samme rekkefølge som de står i treet, altså Et barn fant et stort snilt dyr i eksempelet, kaller vi det treets utkomme (eng.: "the yield of the tree"). En ordstreng s er en grammatisk setning i grammatikk G hvis det finnes et tre t slik at t er generert av grammatikken G og s er utkomme til treet. Med denne definisjonen kan vi sjekke at setningen i eksempelet er grammatisk i følge eksempelgrammatikken. Hva med ordsekvensen Et barn dyttet til et stort dyr, er den en grammatisk setning? Svaret er nei fordi ingen av de trærne grammatikken konstruerer har denne strengen som utkomme. Det kan vi se hvis vi prøver å bygge et tre nedenifra og opp. De eneste mulighetene vi får med disse ordene gir deltrærne i figur 4, og herfra går ingen vei videre. NP PP DET N TV P NP et barn dyttet til DET N et A N Figur 4 stort dyr 3 Skulle vi vært strengt formelle her, burde vi først definert hva et tre er, hva det vil si at treet er ordnet (altså at rekkefølgen til søsternoder spiller en rolle), og hva det vil si at treet er dekorert med symboler. Men så formelle vil vi ikke være. Vi stoler på intuisjonen. 6

7 Hvordan en finner mulige trær for en streng ut i fra en grammatikk kalles parsing. Det studeres i datalingvistikk, og vi skal ikke gå videre med temaet her. Eksempelgrammatikken er svært liten. Det betyr at det er mange norske setninger som den ikke regner som grammatiske. Den fra figur 4 er et eksempel. Dessuten er det mange ord som ikke står i leksikon. Hva med en NP som en bil? En mulighet er å utvide DET med en og N med bil. Da får vi med en bil, men også en barn og et bil. Et annet alternativ er å bli finere i ordklasseinndelingen: DETn: DETm: Nn: Nm: et, hvert, noe en, hver, noen barn, dyr, spill, tak bil, gutt, båt Vi ser at da trenger vi også flere regler. NP-regelen må deles i to: NP DETn Nn NP DETm Nm Når en lager kontekstfrie frasestrukturgrammatikker for er naturlig språk, er det vanlig å bygge opp større og større grammatikkfragmenter. Det er at mål hele tiden å ikke generere ordstrenger som ikke er setninger i språket, mens det sees på som et mindre problem at det finnes grammatiske setninger som ikke blir generert av grammatikken. Hvis det er tilfelle, kan en utvide leksikon og legge til nye regler. Når vi vender oss mot semantikken, vil vi bruke tilsvarende teknikk. Vi vil starte med små fragmenter som vi gir tolkningsregler for. Deretter vil vi utvide med flere syntaktiske konstruksjoner ved å legge til nye syntaktiske regler med tilhørende tolkningsregler. Oppgaver Oppgave 1 I eksempelgrammatikk 1 har vi bare med ubestemte NP-er. Utvid grammatikken med bestemte NP-er slik at f.eks. Barnet dyttet et dyr blir grammatisk. Samtidig skal Et barnet dyttet et dyr bli ugrammatisk. Oppgave 2 Eksempelgrammatikken tillater bare adjektiv i attributiv posisjon. Utvid grammatikken med predikative adjektiv som i Dyret er stort. Oppgave 3 Utvid grammatikken med enkle relativer som i Et barn som dyttet et dyr sprang. 7

8 2. Kvantorfri norsk og direkte tolkning Vi skal lage syntaktiske og semantiske regler for fragmenter av norsk. Semantikken vil ha form av tolkning i en modell etter mønster fra predikatlogikken (førsteordens logikk). Følgende definisjon vil være felles for de forskjellige fragmenter MODELL En modell M for et språk L består av et domene D som ikke er tomt (D ), og en funksjon F som gir denotasjon til (innholds)ordene i L. Vi skriver det gjerne M= D,F. FRAGMENT N1 BASIS Syntaks Syn1: S NP VP Syn2: VP IV L1: NP : Anne, Jon, Mari L2: IV : løper, ler, sitter Semantikk En modell M for fragment N1 består av et domene D som ikke er tomt (D ), og en funksjon F som gir denotasjonen til ordene i N1 slik at: LSem 1: F(α) D, hvis α er en NP. LSem 2: F(α) D, hvis α er et IV. Som for predikatlogikk finnes det mange forskjellige modeller for et slikt fragment. Tolkningsreglene for hvordan sammensatte uttrykk tolkes ut i fra delene, vil være de samme for alle modeller. Til en gitt modell vil vi bruke notasjonen [[ α ]] for tolkningen av et uttrykk α i denne modellen. Vi kaller også [[ α ]] for denotasjonen til α i modellen. Har vi behov for å snakke om tolkningen i flere modeller, f.eks. M 1 og M 2, vil vi skille mellom dem ved å bruke notasjonen [[ α ]] M 1 og [[ α ]] M 2, evt. [[ α ]] 1 og[[ α ]] 2. Det vi tolker er trær. Hver node i trærne tilskrives en denotasjon. Reglene sier hvordan denotasjonen til en node er bestemt ut i fra denotasjonen til nodens døtre. Vi vil bruke hakeparentesnotasjon for trærne. Tolkningsregler for sammensatte uttrykk: SemL: For enhver leksikalsk regel X: y, skal [[ [ X y] ]] = F(y) Sem1: [[ [ S [ NP α ] [ VP β] ] ]] = sann [[ [ NP α ] ]] [[ [ VP β] ]] [[ [ S [ NP α ] [ VP β] ] ]] = usann [[ [ NP α ] ]] [[ [ VP β] ]] Sem2: [[ [ VP [ IV β] ] ]] = [[ [ IV β] ]] 8

9 Her vil de greske bokstavene α, β variere over (del)trær skrevet på hakeparantesnotasjon. Hvis vi innfører den konvensjonen at vi lar kategorisymboler stå for et vilkårlig tre i den tilhørende kategorien, kan vi skrive den første delen av Sem1 på den enklere formen: Sem1: [[ [ S NP VP ] ]] = sann [[ NP ]] [[ VP ]] Vi vil tidvis bruke en slik forenklet notasjon i de semantiske reglene som kommer. Det er viktig å holde klart for seg når vi snakker om språklige uttrykk og når vi snakker om ting som språklige uttrykk er navn på. Skriver vi et ord som Jon, mener vi her ordet selv, det språklige uttrykket. Skriver vi derimot [[ Jon ]], mener vi et objekt, det objektet som navnet Jon er navn på. Grunnen til at dette blir så vanskelig, er at vi både vil snakke om språket norsk og om betydningen til norske uttrykk i norsk. Deler av norsk blir både objektsspråk og metaspråk. Det blir problematisk hvis vi skriver Jon både for navnet og den personen det er navn på. Det er derfor vi utvider metaspråket norsk med en del symboler, som f.eks. de doble hakeparentesene. I det følgende vil vi i tillegg bruke små bokstaver i metaspråket vårt for objekter, for slike ting som navn i objektsspråket er navn på. Når vi snakket om logikk (Saeed kapittel 10) kunne vi gjøre omvendt. Da var navnene i objektspråket på formen j og vi kunne bruke engelske eller norske ord for objektene, som Paul. Eksempel - Modell M 1 Vi skal lage en eksempelmodell M 1. Modellen har domene D={a, b, c, d, e}, og en denotasjonsfunksjon gitt ved F(Anne) = a F(Jon) = b F(Mari ) = c F(løper ) = {a, b, c} F(ler) = {b, d} F(sitter) = {c, d} Altså "Anne" er et ord i språket vi studerer, mens "a" er objektet det er navn på. Vi skal evaluere setningen [ S [ NP Mari] [ VP [ IV løper] ] ]. Modellen gir denotasjon til ordene Mari og løper. Videre har vi: [[ [ NP Mari] ]] = F(Mari) = c fra regelen SemL [[ [ IV løper] ]] = F(løper) = {a, b, c} fra regelen SemL [[ [ VP [ IV løper] ] ]] = [[ [ IV løper] ]] = {a, b, c} fra regelen Sem2 [[ [ S [ NP Mari] [ VP [ IV løper] ] ] ]] = sann fra regel Sem1 fordi [[ [ NP Mari] ]] [[ [ VP [ IV løper] ] ]] 9

10 FRAGMENT N2 SETNINGS-KONJUNKSJON OG -DISJUNKSJON Fragmentet består av det samme som N1 og i tillegg: Syntaks Syn3: S S og S Syn4: S S eller S Semantikk Sem3: [[ [ S [ S α ] og [ S β] ] ]] = sann [[ [ S α ] ]] = sann og [[ [ S β] ]] = sann [[ [ S [ S α ] og [ S β] ] ]] = usann ellers Sem4: [[ [ S [ S α ] eller [ S β] ] ]] = sann [[ [ S α ] ]] = sann eller [[ [ S β] ]] = sann [[ [ S [ S α ] eller [ S β] ] ]] = usann ellers Dette kan alternativt uttrykkes med en sannhetsverditabell, jfr. Kap. 4 i Saeed. FRAGMENT N3 TRANSITIVE VERB Fragmentet består av det samme som N2 og i tillegg: Syntaks Syn5: VP TV NP L3: TV : liker, beundrer, respekterer Semantikk LSem3: F(α) D D, hvis α er et TV. Sem5: [[ [ VP TV NP ] ]] = {x D x, [[ NP ]] [[ TV ]] } Det nye her er tolkningen av VP-er med transitive verb. Akkurat som denotasjonen av et intransitivt verb er en mengde, f.eks. denotasjonen av VP-en ler er mengden av de som ler, så er denotasjonen av VP-en beundrer Mari mengden av de som beundrer Mari. Eksempel - Modell M 1, fortsatt Vi utvider eksempelmodellen M 1 med tolkning av de nye ordene. F(liker) = { a, b, b, c, b, d, b, b } F(beundrer) = { a, c, b, c, b, b, c, a } F(respekterer) = Hvis vi nå skal tolke setningen 10

11 [ S [ NP Anne] [ VP [ TV beundrer] [ NP Mari] ] ] blir det nye, interessante tolkningen av VP-noden. [[ [ VP [ TV beundrer] [NP Mari] ] ]] = {x D x, [[ [ NP Mari ] ]] [[ [ TV beundrer] ]]} = {x D x,c { a, c, b, c, b, b, c, a } = {a, b} Siden [[ [ NP Anne] ]] = a, ser vi at setningen blir sann. Når det gjelder negasjon er det umiddelbart en forskjell på den posisjonen negasjonen har i setningen, sammen med verbet, og den semantiske funksjonen negasjonen har, som en setningsoperator. Vi ser først på en syntaktisk konstruksjon som gjenspeiler negasjonens semantiske rolle. FRAGMENT N4 SETNINGSNEGASJON Fragmentet består av det samme som N3 og i tillegg: Syntaks Syn6: S Det er ikke slik at S Semantikk Sem6: [[ [ S Det er ikke slik at [ S α] ] ]] = sann [[ [ S α ] ]] = usann [[ [ S Det er ikke slik at [ S α] ] ]] = usann [[ [ S α ] ]] = sann Det er også mulig å betrakte negasjonen som en operator på verb. FRAGMENT N5 VERBALNEGASJON Fragmentet består av N4 utvidet med 4 Syntaks Syn7: IV IV ikke Syn8: TV TV ikke Semantikk Sem7: [[ [ IV [ IV β] ikke ] ]] = D [[ [ IV β] ]] Sem8: [[ [ TV [ TV β] ikke ] ]] = D D [[ [ TV β] ]] 4 Her burde de syntaktiske reglene vært noe mer utviklet for å forhindre at negasjonen blir repetert. Vi overlater det til en oppgave. 11

12 Så lenge vi bare betrakter NP-er som er egennavn, blir den semantiske effekten den samme som med setningsnegasjon. Dette vil ikke lenger gjelde når vi kommer til NP-er med kvantorer. En tredje mulighet, som kanskje er den semantisk mest naturlige, er å se på negasjonen som noe som kombineres med VP-ledd. For et språk som engelsk (didn't see Mary) er dette også det mest naturlige syntaktisk, og det er enkelt å skrive frasestrukturregler for en slik sammensetning. For norsk er det ikke like enkelt å få til dette med frasestrukturregler. Da må en bruke en noe mer kompleks syntaktisk beskrivelse enn det vi har gjort så langt. Vi vil ikke gå videre med det her. FRAGMENT N6 VERBALKONJUNKSJON OG VERBALDISJUNKSJON Fragmentet består av N5 utvidet med Syntaks Syn9: VP VP og VP Syn10: VP VP eller VP Syn11: TV TV og TV Syn12: TV TV eller TV Semantikk Sem9: [[ [ VP [ VP β] og [ VP γ] ] ]] = [[ [ VP β] ]] [[ [ VP γ] ]] Sem10: [[ [ VP [ VP β] eller [ VP γ] ] ]] = [[ [ VP β] ]] [[ [ VP γ] ]] Sem11: [[ [ TV [ TV β] og [ TV γ] ] ]] = [[ [ TV β] ]] [[ [ TV γ] ]] Sem12: [[ [ TV [ TV β] eller [ TV γ] ] ]] = [[ [ TV β] ]] [[ [ TV γ] ]] Oppgaver Oppgave 1 a. Beregn sannhetsverdien til Anne løper og ler i modellen M 1. b. Beregn sannhetsverdien til Anne løper og ler ikke i M 1. Oppgave 2 Tegn opp trær og beregn sannhetsverdi for hver av de følgende setningene i M 1. a. Jon liker ikke Anne. b. Jon liker Mari og beundrer Anne. c. Jon liker og beundrer Mari. 12

13 d. Tegn opp alle trærne som N6 tilordner setningen Jon liker og beundrer ikke Anne, og beregn de tilhørende sannhetsverdiene. e. Tegn opp alle de trærne som N6 tilordner til setningen Jon liker ikke og beundrer Anne, og beregn de tilhørende sannhetsverdiene. Oppgave 3 a. Noen av eksempelsetningene i oppgave 1 og oppgave 2 høres litt underlige ut. En del steder vil det høres bedre ut med men enn med og. Hvor gjelder det? Prøv å antyde en regel for hvor en bør bruke men. b. I i hvert fall et av trærne i (2d) vil hverken og eller men høres naturlig ut. Foreslå en alternativ norsk formulering med samme mening. Gi syntaktisk og semantisk regel for denne konstruksjonen. Oppgave 4 Setningen i oppgave (2d) var flertydig, mens grammatikken lar (1b) være entydig. Forskjellen bunner i at vi har konjunksjon og disjunksjon mellom fraser av kategori TV, men ikke mellom IV-fraser. Den jobben ble overlatt til VP-konjunksjonen. Utvid fragmentet slik at også Anne løper og ler ikke blir tvetydig. Diskutér hvorvidt setningen er flertydig, bl.a. i lys av oppgave 3. Oppgave 5 Den måten vi har innført negasjonen på, overgenerer. For eksempel vil Jon ler ikke ikke ikke, og Anne beundrer ikke ikke Jon, bli grammatiske setninger med sannhetsverdier. Foreslå endringer av fragment N5 og N6 slik at det bare kan stå en forekomst av ikke til hvert verb. Oppgave 6 Lag en modell som gjør følgende setninger sanne samtidig: Mari ler, men løper ikke. Jon beundrer Mari og liker Jon. Det er ikke slik at Anne beundrer Jon og liker Mari. Anne beundrer Jon eller liker Mari. Oppgave 7 Utvid fragmentet med adjektiv i predikativ posisjon som i Mari er snill. Semantisk kan du gi adjektiv samme type tolking som andre generelle termer, som IV. 13

14 3. Kvantorfri norsk og indirekte tolkning Alternativt til å tolke det naturlige språket direkte i en modell, kan vi lage en indirekte tolkning. Vi oversetter fra det naturlige språket til logikk. Dette logiske språket har en modellteoretisk tolkning. Tolkningen av en setning i det naturlige språket blir identifisert med tolkningen av oversettelsen. For å få til dette, utvider vi språket for predikatlogikk med en ny konstruksjon og en ny metode for å konstruere formler: 1. Hvis φ er en formel og v en variabel, så er ^v[φ] en mengdeterm. 2. Hvis M er en mengdeterm og t er en term, så er M(t) en formel. For eksempel er ^x[b(x, m)] og ^x[l(x) B(x, m)] mengdetermer. Hvis m står for Mari, L for ler og B for beundrer, så skal disse mengdetermene stå for mengden av de individene som beundrer Mari og for mengden av de som både ler og beundrer Mari, henholdsvis. Spesielt vil dette si at ^x[l(x)] og L har samme denotasjon i enhver modell. Formelen ^v[φ](t) er sann dersom denotasjonen til t er medlem av denotasjonen til ^v[φ]. Spesielt vil dette si at de to formlene L(j) og ^x[l(x)](j) alltid vil ha samme sannhetsverdi, og tilsvarende for paret ^x[l(x) B(x, m)](j) og (L(j) B(j, m)). Formelt kan vi lage følgende tolkningsregler. Gitt en modell M = D, F, 1. Da er [[ ^v[ϕ] ]] = {a D [[ ϕ ]] v a = sann}, hvor [[ t ]]v a symboler t som er forskjellig fra v, mens [[ v ]] v a = a. = [[ t ]] for alle 2. Hvis M er en mengdeterm og t er en term, så er [[ M(t) ]] = sann hvis og bare hvis [[ t ]] [[ M ]]. Med dette i orden er vi klar til å definere oversettelsen. Vi vil definere en oversettelse av syntaktiske trær slik at hver node oversettes med en term, mengdeterm eller formel og slik at toppnoden, setningen som helhet, oversettes med en formel. Vi vil skrive α for oversettelsen til α. LO1: Hvis α er et ord som er en NP, så fins det et korresponderende navn β i det logiske språket, og α oversettes med β. Altså vil α =β. LO2: Hvis α er et ord som er en IV, så fins det et korresponderende predikatsymbol β i det logiske språket, og α =β. LO3: Hvis α er et ord som er en TV, så fins det et korresponderende binært relasjonssymbol β i det logiske språket, og α =β. Med det eksempelleksikonet vi har hatt så langt, med NP-ene Mari, Jon og Anne, de intransitive verbene løper, ler og sitter, og de transitive verbene liker, beundrer og respekterer, kan vi ha følgende logiske språk og oversettelse: Navn: a, j, m Predikatsymboler: L, E, S Binære relasjonssymboler: I, B, R 14

15 Anne = a Jon = j Mari = m løper = L ler = E sitter = S liker = I beundrer = B respekterer = R Til hver syntaktisk regel vil vi ha en korresponderende semantisk regel. Denne vil fortelle hvordan trær som er konstruert fra en gitt syntaktisk regel skal oversettes. Oversettelse O0: For enhver leksikalsk regel X: y, hvor X er NP, IV eller TV, skal [ X y] = y. O1: [ S NP VP ] = VP (NP ) O2: [ VP IV ] = IV O3: [ S S 1 og S 2 ] = S 1 S 2 O4: [ S S 1 eller S 2 ] = S 1 S 2 O5: [ VP TV NP] = ^x[ TV (x, NP )] O6: [ S Det er ikke slik at [ S α ] ] = ( [ S α ] ) O7: [ IV [ IV β] ikke ] = ^x[ [ IV β] (x)] O9: [ VP VP 1 og VP 2 ] = ^x[ VP 1 (x) VP 2 (x)] O10: [ VP VP 1 eller VP 2 ] = ^x[ VP 1 (x) VP 2 (x)] Vi har ikke innført tilstrekkelig med redskaper i det logiske språket til å definere oversettelser av de syntaktiske reglene 8, 11 og 12. Vi vil derfor her bare betrakte fragmenter uten dem. Vi illustrerer med setningen [S [ NP Anne] [VP [TV beundrer] [ NP Mari] ] ] og antar de leksikalske oversettelsene innført over. Da vil: [ NP Mari] = Mari = m [TV beundrer] = beundrer = B [VP [TV beundrer] [ NP Mari ]] = ^x[b(x, m)] [ NP Anne] = Anne = a [ S [ NP Anne] [ VP [TV beundrer] [ NP Mari] ] ] = ^x[b(x, m)](a) Denne formelen vet vi er ekvivalent til formelen B(a, m). I figur 5 har vi vist hvordan oversettelsen kan fremstilles i treform. 15

16 S : ^x[b(x, m)](a) VP : ^x[b(x, m)] NP :a TV NP : m Anne :a beundrer : B Mari Figur 5 : m Dette kan kanskje virke som mye arbeid i forhold til hva vi får igjen. Slik blir det ofte når vi skal definere formelle regler som skal dekke alle tilfeller. Til gjengjeld har vi fått et sett regler som garantert virker, og som kan danne grunnlag for utvidelser. Oppgaver Oppgave 1 a. Oversett setningen Anne løper og ler til predikatlogikk ved hjelp av reglene gitt over. b. Tegn opp de trærne grammatikkfragmentet tilordner til Anne løper og ler ikke og oversett dem til predikatlogikk. Se på oppgave 4 s. 13. Utvid tilsvarende syntaksreglene og oversettelsesreglene fra siste avsnitt slik at setningen får to oversettelser inn i logikk som ikke er ekvivalente. Oppgave 2 Tegn opp trær og oversett følgende setninger inn i predikatlogikk. a. Jon liker Anne og Mari ler. b. Jon liker Mari og beundrer Anne. c. Mari respekterer Anne og ler ikke. Oppgave 3 Lag en modell M 2 for det predikatlogiske språket med følgende egenskap. Hvis vi tar en setning i fragmentet av norsk som vi har oversettelsesregler for, og oversetter treet til denne setningen inn i predikatlogikk og tolker den formelen vi får i M 2, så skal sannhetsverdien bli den samme som hvis vi tolker treet direkte i M 1. Vis at sannhetsverdiene blir de samme ved å tolke formlene du fant i oppgave 1 over og sammenlikn resultatet med oppgave 1 på s

17 4. Kvantorer og indirekte tolkning Vi innfører følgende nye syntaktiske og leksikalske regler: Syn13: NP PN Syn14: NP DET N L4: PN : Anne, Jon, Mari L5: N : barn, hus, dyr L6: DET : ethvert, et Fragmentet består av disse reglene sammen med de tidligere Syn1 -Syn7, Syn9 og Syn 10, og de leksikalske reglene L2 og L3. Vi har altså tatt ut L1. Vi oppnår det samme med Syn13 sammen med L4. Oversettelsesreglene vil avvike litt fra tidligere. Noen av reglene vil se på en større del av treet som skal oversettes enn bare en node og dens døtre. For leksikon, vil L2 og L3 oversettes som tidligere. Nå vil det være ord listet under PN som oversettes til navn, f.eks. Mari = m. Ordene listet under N vil oversettes med predikatsymbol. De bahandles altså likt som IV-er. Begge er å oppfatte som generelle termer. De har mengder av individer som ekstensjon. Flere predikatsymboler: A, H, D barn hus dyr = A = H = D Ordene oppført under DET vil ikke ha selvstendige oversettelser. De vil få sin mening som en del av meningen til treet hvor de forekommer når vi konstruerer oversettelsen til en større del av treet. De syntakstiske reglene vi kjenner fra tidligere, vil beholde sine oversettelser unntatt reglene Syn1 og Syn5. Altså går reglene O1 og O5 ut. I stedet vil vi tolke disse samtidig med Syn13 og Syn14. I tillegg må vi endre og utvide oversettelsesregelen for leksikalsk innsetting. De endrete og nye reglene ser da slik ut: O0: For enhver leksikalsk regel X: y, hvor X er PN, N, IV eller TV, skal [ X y] = y. O1+13: [ S [ NP PN ] VP ] = VP ([ NP PN ] ) O1+14a: [ S [ NP [ DET ethvert ] N ] VP ] = ( x : N (x) ) VP (x) O1+14b: [ S [ NP [ DET et ] N] VP ] = ( x : N (x) ) VP (x) Her må x være en variabel som ikke allerede forekommer i N eller VP. Vi kan illustrere med oversettelsen av [ S [ NP [ DET ethvert ] [ N barn ] ] [ VP [ TV beundrer] [ NP Mari] ] ] Oversettelsen av VP-en blir som i forrige seksjon lik ^x[b(x, m)]. Siden 17

18 [ N barn ] = barn = A vil oversettelsen av hele setningen bli som er lik ( y : [ N barn ] (y) ) ([ VP beundrer Mari] (y) ) ( y : A(y) ) (^x[b(x, m)](y)) Denne formelen er ekvivalent til (har samme tolkning som) ( y : A(y) ) (B(y, m)), som er den formelen vi umiddelbart ville representert setningen med. Tilslutt er det oversettelsene av VP-er med transitive verb. Dette blir ikke noe annet enn en kombinasjon av det vi nettopp gjorde og den regelen for slike konstruksjoner vi innførte i forrige avsnitt. O5+13: [ VP TV [ NP PN] ] = ^x[ TV (x, [ NP PN ] )] O5+14a: [ VP TV [ NP [ DET ethvert ] N ] ] ) = ^x[( y : N (y) ) TV (x, y)] O5+14b: [ VP TV [ NP [ DET et ] N] ] ) = ^x[( y : N (y) ) TV (x, y)] Vi illustrerer med setningen [ S [ NP [ DET ethvert ] [ N barn ] ] [ VP [ TV beundrer] [ NP [ DET et] [ N dyr ] ] ] ] Hvis dyr = D, vil [ VP [ TV beundrer] [ NP [ DET et] [ N dyr ] ] ] = ^x[ ( y : D(y) ) B(x, y)] og oversettelsen av hele setningen blir ( z :A(z) ) (^x[( y : D(y) ) B(x, y)](z)) som er ekvivalent til ( z :A(z) ) ( y : D(y) ) B(z, y) Vi viser denne oversettelsen på treform i figur 6. 18

19 S : ( z :A(z)) (^x[( y : D(y)) B(x, y)](z) ) NP VP : ^x[( y : D(y)) B(x, y)] DET N : A TV : B NP ethvert barn : A beundrer : B DET N : D Figur 6 et dyr : D Det er vanlig å anta at en setning som Ethvert barn beundrer et dyr, er flertydig mellom denne tolkningen og den som kan uttrykkes ved ( y : D(y) ) ( z :A(z) ) B(z, y) Dette blir tydeligere i eksempler som Enhver lingvistikkstudent har lest en bok av Chomsky. Med den ene lesningen dreier seg om en bestemt bok - den samme for alle studentene. Mens studentene med den andre lesningen kan ha lest forskjellige bøker. Lignende flertydigheter kan en også se der kvantorer samvirker med negasjon. Et eksempel kan være setningen: Alle er ikke enig med deg. Her kan de to mulige lesningene presiseres med setningene: a) Noen er uenig med deg. b) Alle er uenig med deg. Som oftest vil det ikke være tvil om hva som er intendert. Men en kan også se genuine misforståelser. I Uniforum No13, 1998, UiOs internavis for ansatte, blir de fem rektorkandidatene spurt 10 spørsmål, deriblant Tør du stå for noe ikke alle i universitetsmiljøet er enig i? Fire av kandidatene tolket spørsmålet som (a) over, mens en av dem svarer: Det er sjelden «alle i universitetsmiljøet er enig i noe» og hvis rektor er på kant med en slik mening, bør han lytte nærmere til miljøene. En av oppgavene i formell semantikk er nettopp å studere slike flertydigheter. Hvilke lesninger kan en setning ha? Hvilke syntaktiske og semantiske mekanismer er det som tilsammen gir de mulige lesningene? For å kunne besvare dette, trengs mer avanserte metoder enn de vi så langt har sett på. Det er ikke tilstrekkelig med enkle frasestrukturgrammatikker og semantiske regler som virker direkte på frasetrærne. For det første trengs det mer avanserte grammatikker som kan få frem at negasjonen er en VP- 19

20 operatorer samtidig som verbet "står på andre plass" i norske hovedsetninger. For det andre må de semantiske reglene kunne få frem mer enn en logisk formel til en syntaktisk analyse. Hvordan dette kan gjøres, var et av bidragene fra Richard Montague til formell semantikk rundt Hans tilnærming ble senere tatt opp og modifisert i Chomskytradisjonen i syntaks og førte til innføringen av et ekstra grammatisk nivå, kalt LF (for "logical form") i GB-versjonen av syntaks. Men hvordan dette kan gjøres, overlater vi til mer avanserte semantikkurs. Oppgaver Oppgave 1 a. Tegn opp trær og oversett følgende setninger inn i predikatlogikk: i. Ethvert barn løper ikke. ii. Det er ikke slik at ethvert barn løper. b. Lag en struktur som gjør (i) usann, men (ii) sann. c. Lag en struktur som gjør (i) sann og (ii) usann. Oppgave 2 Tegn opp trær og oversett følgende setninger inn i predikatlogikk. a. Ethvert barn liker et hus og respekterer ethvert dyr. b. Jon liker et hus og respekterer ethvert dyr eller ler. Oppgave 3 Utvid fragmentet med adjektiv i predikativ posisjon som i Mari er snill. Semantisk kan du gi adjektiv samme type oversettelse som andre generelle termer, som f.eks. IV. Oppgave 4 Utvid fragmentet med adjektiv i attributiv posisjon som et stort, snilt dyr. (Se eksempelgrammatikk1 i avsnittet om kontekstfrie frasestrukturgrammatikker.) Semantisk kan du også her behandle adjektiv som generelle termer. Altså vil noe være et snilt dyr, hvis det er et dyr og det er snilt, og noe vil være en rød ball dersom det er rødt og det er en ball. Dette gir ikke helt riktig resultat for alle adjektiv, f.eks kan Putte være et stort dyr, men en liten elefant. Men vi vil ikke gå inn på alternative tolkninger her. 20

21 Litteratur mm. For å få vite mer om kontekstfrie frasestrukturgrammatikker, fins det flere muligheter: 1. Ta kurset SLI 260, eller snakk med noen som tar eller har tatt kurset. 2. Sjekk ut Mac-programmet PSG-laboratory som lar deg leke med frasestrukturgrammatikker. Krever ingen spesielle kunnskaper. Treet i figur 1 er tegnet av dette programmet etter at det fikk se eksempelgrammatikk 1. Snakk med de samme folkene som under punkt 1 om hvordan du finner programmet og kommer i gang. 3. Se på boka Beskow. et al. Denne er skrevet av de samme som har laget det nevnte programmet. Svært elementær. Det finnes flere bøker om formell semantikk, bl.a. Chierchia og McConnell-Ginet, og Heim og Kratzer. For en innføring i Montagues originale tilnærming, se Dowty et. al Beskow, Bjørn, Torbjørn Lager og Joakim Nivre, 1996, Elementa i generativ grammatikk, Lund: Studentlitteratur, 104 s. Chierchia, Gennaro og Sally McConnell-Ginet, 1990, Meaning and grammar : an introduction to semantics, Cambridge, Mass. : MIT Press, 476 s. Dowty, David R., Robert E. Wall og Stanley Peters, 1981, Introduction to Montague semantics, 313 s. Endresen, Rolf Theil, Hanne Gram Simonsen og Andreas Sveen, 1996, Innføring i lingvistikk, Oslo : Universitetsforl., 349 s. Gazdar, Gerald, Ewan Klein, Geoffrey Pullum og Ivan Sag, 1985, Generalized phrase structure grammar, Cambridge, Oxford: Blackwell, 276 s. Heim, Irene og Angelika Kratzer, 1998, Semantics in generative grammar, Malden, Mass. : Blackwell, 324 s. Saeed, John I., 1997, Semantics, Oxford: Blackwell 21