INF2820 Datalingvistikk V2011 Jan Tore Lønning & Stephan Oepen
FORMELLE OG NATURLIGE SPRÅK KONTEKSTFRIE GRAMMATIKKER 7. februar 2011 2
Naturlige språk som formelle språk Et formelt språk består av: En endelig mengde A Ø En delmengde L A* Begrensninger: Bare to nivåer: Symboler Strenger Ingen indre struktur Naturlige språk, alt. 1 Hvert norsk ord oppfattes om et symbol Setninger er strenger av ord Men hva med: Ordenes indre struktur Setninger mer enn strenger har struktur Naturlige språk, alt. 2 Hver lyd (eller bokstav) oppfattes som et symbol Setninger er strenger av lyder/bokstaver Men hva med: At det fins ord mellom lyder og setninger Setninger har struktur 7. februar 2011 3
Ordklasser/ Part of speech N V N Jenta spiste eplet N V jenta, gutten, potetene, sola,.. spiste, så, likte, kastet, (Forenklet:) Ord av samme klasse kan erstatte hverandre: Gutten spiste eplet. Jenta så potetene. Ord av forskjellige klasser kan ikke alltid erstatte hverandre: *Gutten jenta potetene. *Spiste så potetene. 7. februar 2011 4
Noen ordklasser Klasse Underklasser (føyes til senere) Eksempler V verb kastet, spiser, løper, er, N A nomen, substantiv, noun adjektiv Fellesnavn, common noun, CN Egennavn, proper name jenta, gutter, barna, potetene, Per, Kari, Michelle, Bill, P preposisjon på, under, ved, Det Bestemmer, determiner Pronomen en, enhver, noen, ingen, jeg, du, oss, min, 7. februar 2011 5
Bøyning/infleksjon Entall N, substantiv Flertall Ubestemt Bestemt Ubestemt Bestemt gutt gutten gutter guttene jente jenta jenter jentene barn barnet barn barna V, verb infinitiv presens preteritum perfektum imperativ Adjektiv, avledning kaste kaster kastet kasta bygge bygger bygde bygget kastet kasta bygd bygget Abstrakt trekk Ubest+flertall preteritum Skille Realisering -er, -, -et, -de, -et, Substantiv, avledning kast kastende kasting bygg byggende bygging gå går gikk gått gå gående gåing 7. februar 2011 6
Ordform - trekk En fullform av et ord vil ha en del trekk ( features ) Noen av disse er inherente og felles for alle former av et leksem: Kjønn/ gender for substantiv Jente/jenta/jenter/jentene er femininum Transitivitet(stype) for verb Kaste/kaster/kastet/kast tar nomen-komplementet Vite/vet/visste/visst tar komplementsetning (at ) Andre er spesifikke for formen av ordet, Jfr. forrige foil Kjønn for adjektiv Begge typer er avgjørende for hvor ordet kan forekomme: Ei jente *et jente *ei jenta 7. februar 2011 7
Fraser NP Jenta Den lille hunden Hunden fra Moss Du V spiste likte så VP NP eplet et stort, grønt eple eplet som Per hadde kjøpt det Frase: sekvens av ord som hører sammen, her: NP, VP Forskjellige fraser av samme kategori oppfører seg ganske likt Fraser kan delvis identifiseres ved at de kan Koordineres: Du og barna dine, stjal en bil og stakk misplasseres Hvis noe opptrer på en unormal plass er det gjerne en frase 7. februar 2011 8
Frasestruktur En setning er hierarkisk ordnet i fraser 7. februar 2011 9
Context-Free Grammars Terminals We ll take these to be words (for now) Non-Terminals The constituents in a language Like noun phrase, verb phrase and sentence Rules Rules are equations that consist of a single nonterminal on the left and any number of terminals and non-terminals on the right. 2/7/2011 Speech and Language Processing - Jurafsky and Martin 10
Eksempelgrammatikk L0 7. februar 2011 11
Leksikalske regler i L0 OBS L0 er ikke lingvistisk realistisk men illustrerer formalismen 7. februar 2011 12
Definition Generell frasestrukturgrammatikk: venstresiden være en vilkårlig symbolstreng Kontekstfri grammatikk = kontekstfri frasestrukturgrammatikk: 2/7/2011 Venstresiden består av én ikke-terminal Speech and Language Processing - Jurafsky and Martin 13
Konvensjoner Forenkling, kan skrive A β γ δ for A β A γ A δ 7. februar 2011 14
Avledning α β, i ord: β kan direkte avledes fra α dersom: α har formen γ C δ for en ikke-terminal C det er en regel på formen C ψ og β = γ ψ δ α 1 * α m, i ord: α m kan avledes fra α 1 dersom: det fins en sekvens α 1, α 2,, α m der m>1, og α i α i+1 En kontekstfri grammatikk G generer språket L(G) = { w A* S * w} 7. februar 2011 15
Eksempel Eksempler på tavla Samme streng kan avledes på flere måter Er vi interessert i dette? Noen ganger Andre ganger ikke 7. februar 2011 16
Trær Et lokalt tre: En node som ikke er et blad Alle døtrene Rekkefølgen mellom døtrene Kantene mellom mor og datter En regel B s1, s2,, sn tillater ( license ) et lokalt tre hvis og bare hvis det har formen: B s1 s2.. sn 7. februar 2011 17
Trær En CFG G, generer et tre t hviss Toppen av t er merket med S Bladene er merket med terminaler Hvert lokalt tre er tillatt av en produksjonsregel T(G) for mengde av trær generert av G Utkomme ( yield ) av treet t er symbolene på bladene i riktig rekkefølge En streng w er avledbar fra G hviss w er utkomme til et tre i T(G). Forkortelse: hviss for hvis og bare hvis 7. februar 2011 18
L1 Vi lager en liten grammatikk for en del av norsk. Flertydighet: Koordinasjon PP-tilknytning Verbets argumenter 7. februar 2011 19
Kontekstfrie og regulære språk Alle regulære språk er kontekstfrie Det fins kontekstfrie språk som ikke er regulære: L = {a n b n n > 1} S ab S asb 7. februar 2011 20
Fra regulært til kontekstfritt S svarer til starttilstand En ikketerminal per tilstand: S, A1, A2, A3 En regel per transisjon: S a A1 A1 b A2 A2 b S A2 c A3 A3 c A1 En regel per sluttilstand A3 ε 7. februar 2011 21