INF2820 Datalingvistikk V Gang Jan Tore Lønning

Like dokumenter
INF2820 Datalingvistikk V Gang Jan Tore Lønning

INF2820 Datalingvistikk V Gang Jan Tore Lønning

2/6/2012. Begrensninger ved regulære språk. INF2820 Datalingvistikk V2012. Formelle språk som ikke er regulære KONTEKSTFRIE GRAMMATIKKER.

INF2820 Datalingvistikk V2011. Jan Tore Lønning & Stephan Oepen

INF2820 Datalingvistikk V2012. Jan Tore Lønning

INF2820 Datalingvistikk V Gang Jan Tore Lønning

INF2820 Datalingvistikk V Gang Jan Tore Lønning

INF2820 Datalingvistikk V Gang 23.3 Jan Tore Lønning

INF2820 Datalingvistikk V2014. Forelesning 4, 6.2 Jan Tore Lønning

INF2820 Datalingvistikk V gang, Jan Tore Lønning

INF2820 Datalingvistikk V Gang Jan Tore Lønning

INF2820 Datalingvistikk V2015. Forelesning 4, 9.2 Jan Tore Lønning

INF2820 Datalingvistikk V Gang 13.4 Jan Tore Lønning

INF2820 Datalingvistikk V2016. Forelesning 4, 10.2 Jan Tore Lønning

INF2820 Datalingvistikk V gang, Jan Tore Lønning

INF2820 Datalingvistikk V2012. Jan Tore Lønning

INF2820 Datalingvistikk V2018 Forelesning 4, 5.2 Jan Tore Lønning

INF2820 Datalingvistikk V2017 Forelesning 4, 6.2 Jan Tore Lønning

INF2820 Datalingvistikk V2016. Forelesning 4, 10.2 Jan Tore Lønning

INF2820 Datalingvistikk V Gang 6.4 Jan Tore Lønning

INF2820 Datalingvistikk V Gang 6.4 Jan Tore Lønning

2/24/2012. Context-Free Grammars. I dag. Avledning. Eksempel: grammar1 PARSING. Jan Tore Lønning

INF2820 Datalingvistikk V gang, Jan Tore Lønning

INF2820 Datalingvistikk V2012

INF2820 Datalingvistikk V2012. Jan Tore Lønning

INF2820 Datalingvistikk V2014. Jan Tore Lønning

INF2820 Datalingvistikk V2011. Jan Tore Lønning & Stephan Oepen

INF2820 Datalingvistikk V2011. Jan Tore Lønning & Stephan Oepen

INF2820 Datalingvistikk V Gang 19.3 del 1 Jan Tore Lønning

1/31/2011 SAMMENHENGER FSA OG REGULÆRE UTTRYKK. Regulære språk. Fra FSA til RE. Fra regulært uttrykk til NFA REGULÆRE UTTRYKK I DATALINGVISTIKK DEL 2

INF2820 Datalingvistikk V2011. Jan Tore Lønning & Stephan Oepen

2/22/2011. Høyre- og venstreavledninger. I dag. Chomsky-normalform (CNF) Chomsky-normalform (CNF) PARSING. Jan Tore Lønning & Stephan Oepen

INF INF1820. Arne Skjærholt. Negende les INF1820. Arne Skjærholt. Negende les

INF2820 Datalingvistikk V Gang 13.3 Jan Tore Lønning

UNIVERSITETET I OSLO

INF INF1820. Arne Skjærholt INF1820. Dagens språk: Russisk. dyes yataya l yektsiya. Arne Skjærholt. десятая лекция

INF2820 Datalingvistikk V Gang 6.3 Jan Tore Lønning

INF 2820 V2016: Innleveringsoppgave 3 del 1

INF2820 Datalingvistikk V Gang 9.3 Jan Tore Lønning

3/8/2011. I dag. Dynamic Programming. Example. Example FORMELLE EGENSKAPER VED SPRÅK (KAP. 16) Jan Tore Lønning & Stephan Oepen

INF2820 Datalingvistikk V Gang Jan Tore Lønning

INF2820 Datalingvistikk V Gang 9.3 Jan Tore Lønning

Syntax/semantics - I INF 3110/ /29/2005 1

INF2820 Datalingvistikk V2014. Jan Tore Lønning

INF2820 Datalingvistikk V2012. Jan Tore Lønning

INF2820 Datalingvistikk V Gang 16.3 Jan Tore Lønning

INF2820 Datalingvistikk V gang, Jan Tore Lønning

INF2820 V2017 Oppgavesett 5 Gruppe 21.2

INF 2820 V2015: Obligatorisk innleveringsoppgave 3

Oppgave 1 Vi har gitt følgende grammatikk for noe vi kan kalle speilengelsk :

INF2820 Datalingvistikk V Gang 4.5 Jan Tore Lønning

INF2820 Datalingvistikk V2012. Jan Tore Lønning & Stephan Oepen

INF2820 V2017 Oppgavesett 6 Gruppe 7.3

INF2820 Datalingvistikk V Gang Jan Tore Lønning

INF2820 Datalingvistikk V gang, 27.2 Jan Tore Lønning

3/5/2012. Chart alternativ datastruktur. Fundamentalregelen. Chart-parsing. Bottom-up FORMELL SPRÅKTEORI. Jan Tore Lønning

INF2820 Datalingvistikk V Gang 26.2 Jan Tore Lønning

INF 2820 V2016: Innleveringsoppgave 3 hele

Slides til 12.1 Formelt språk og formell grammatikk

INF2820 Datalingvistikk V Gang 13.4 Jan Tore Lønning

. Grammatiske problem med å beskrive ordklassen adverb og setningsleddet adverbial i norsk. Sverre Stausland Johnsen Universitetet i Oslo

INF2820 Datalingvistikk V2012. Jan Tore Lønning

Oppgave 2. Eksamen INF2820, 2015, oppgave 2. La gramatikk G være:

INF2820 Datalingvistikk V gang, Jan Tore Lønning

INF2820 Datalingvistikk V2011. Jan Tore Lønning & Stephan Oepen

2/24/2012. Dynamic Programming. I dag. Example. Example PARSING. Jan Tore Lønning

INF2820 Datalingvistikk V Gang 2.3 Jan Tore Lønning

INF2820 Datalingvistikk V Gang 16.3 Jan Tore Lønning

INF 2820 V2018: Innleveringsoppgave 2

INF2820 Datalingvistikk V Gang 27.2 Jan Tore Lønning

Spørsmål 1.1 (10%) Lag en ikke-deterministisk endelig tilstandsautomat (NFA) som beskriver dette språket.

3/1/2011. I dag. Recursive descent parser. Problem for RD-parser: Top Down Space. Jan Tore Lønning & Stephan Oepen

Oppgave 1 (samlet 15%)

Eksamen INF2820 Datalingvistikk, H2018, Løsningsforslag

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF2820 Datalingvistikk V Gang 2.3 Jan Tore Lønning

INF2820 Datalingvistikk V gang, Jan Tore Lønning

INF 2820 V2016: Obligatorisk innleveringsoppgave 3

INF2820 Datalingvistikk V2017 Forelesning 1.2 Jan Tore Lønning

INF2820 Datalingvistikk V Gang 2.3 Jan Tore Lønning

INF2820 Datalingvistikk V Gang 30.3 Jan Tore Lønning

INF2820 Datalingvistikk V Gang 9.3 Jan Tore Lønning

INF2820 V2017 Oppgavesett 5 arbeidsoppgaver

INF2820 Datalingvistikk V2018 Forelesning 1 del 1, 15. jan. Jan Tore Lønning

Oppgave 1 (samlet 15%)

Obligatorisk oppgave 4, INF2820, 2014

INF2820 Datalingvistikk V2011. Jan Tore Lønning & Stephan Oepen

INF2820 Datalingvistikk V gang, Jan Tore Lønning

INF2820 Datalingvistikk V Gang 13.3 Jan Tore Lønning

INF 2820 V2016: Obligatorisk innleverinsoppgave 1

INF2820 Datalingvistikk V2012. Jan Tore Lønning

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF2820 Datalingvistikk V2017 Forelesning 1.1, 16.1 Jan Tore Lønning

IN1140: Introduksjon til språkteknologi. Forelesning #7

Oppgave 1. La G1 være grammatikken med hovedsymbol S og følgende regler:

INF2820 Datalingvistikk V2015. Jan Tore Lønning

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF5820. Language technological applications. H2010 Jan Tore Lønning

Oppgave 1. Spørsmål 1.1 (10%) Gitt det regulære uttrykket: a((bcd)+(cd))*cd

Transkript:

INF2820 Datalingvistikk V2017 5. Gang - 13.2 Jan Tore Lønning

I dag Tekstnormalisering: lemmatisering og «stemming» Tagget tekst og tagging Begrensninger ved regulære språk Frasestruktur og kontekstfrie grammatikker Kontekstfrie grammatikker, avledninger og trær Kontekstfrie grammatikker og naturlige språk 2

Hva gjorde vi sist? Naturlige språk har struktur Ord - flere definisjoner Litt morfologi Språkteknologi: leksikon og morfologisk analyse Tekstprosessering: Setningssegmentering og ordtokenisering 3

Tekstnormalisering Søk Søk1: regjeringen foreslo Søk2: regjeringen foreslår Får vi det samme? For mange oppgaver ønsker vi at foreslo skal være det samme som foreslå Lemmatisering: Skifter en ordform med lemmaet svarende til leksemet Kan gjøres hvis vi har en morfologisk analysator med leksikon Men som eksempelet med murer viser: Prosessen er ikke entydig med mindre vi gjør noe mer Parsing eller tagging eller Velger første eller den mest frekvente 4

Stemming Forsøk på å finne stammen i ord uten leksikon (stamme er ikke alltid det samme som lemma) Forenklet lemmatisering Brukes i søkemotorer In [50]: norsk_stem = nltk.snowballstemmer('norwegian') In [52]: norsk_stem.stem('murer') Out[52]: 'mur' In [53]: norsk_stem.stem('uangripelige') Out[53]: 'uangrip In [55]: norsk_stem.stem('foreslo') Out[55]: 'foreslo' 5

I dag Tekstnormalisering: lemmatisering og «stemming» Tagget tekst og tagging Begrensninger ved regulære språk Frasestruktur og kontekstfrie grammatikker Kontekstfrie grammatikker, avledninger og trær Kontekstfrie grammatikker og naturlige språk 6

Tagget tekst [('And', 'CC'), ('now', 'RB'), ('for', 'IN'), ('something', 'NN'), ('completely', 'RB'), ('different', 'JJ')] Hver token i en tekst er tilordnet en part of speech (POS) tag Det er en endelig mengde tagger 7

Ulike POS tag set NLTK: Universal POS Tagset, 12 tags, (2. utg NLTK-bok) Simplified POS tagset, 19 tags, (1.utg., defunct) Brown tagset: Originalt: 87 tags Versjoner med utvidete tagger <original>-<more> Penn treebank: 35 ordtagger + 9 punctuation tags 8

Universal POS tag set (NLTK) Tag Meaning English Examples ADJ adjective new, good, high, special, big, local ADP adposition on, of, at, with, by, into, under ADV adverb really, already, still, early, now CONJ conjunction and, or, but, if, while, although DET determiner, article the, a, some, most, every, no, which NOUN noun year, home, costs, time, Africa NUM numeral twenty four, fourth, 1991, 14:24 PRT particle at, on, out, over per, that, up, with PRON pronoun he, their, her, its, my, I, us VERB verb is, say, told, given, playing, would. punctuation marks., ;! X other ersatz, esprit, dunno, gr8, univeristy 9

Substantiv Penn treebank Brown 10

Verb Penn treebank Brown 11

Adjektiv + Preposisjoner Brown 12

Distribution of universal POS in Brown Cat Freq ADV 56 239 NOUN 275 244 ADP 144 766 NUM 14 874 DET 137 019. 147 565 PRT 29 829 VERB 182 750 X 1 700 CONJ 38 151 PRON 49 334 ADJ 83 721

Tagger Hva er en tagger? Det er en prosess som tilordner en tag til hvert ord i teksten ut i fra kontekst En noe begrenset morfologisk analyse+ Disambiguering Hvordan virker en tagger? Ulike teknikker Regelbaserte F.eks. OB-taggeren for norsk (Constraint-based) Maskinlæring Hidden-Markov Model, standard tilnærming (INF1820, INF4820) Maximum entropy Perceptron ( dep learning ) i vinden de siste årene 14

Arbeid med tekst Setningssegmentering Tokenisering Tagging [('And', 'CC'), ('now', 'RB'), ('for', 'IN'), ('something', 'NN'), ('completely', 'RB'), ('different', 'JJ')] Xvxvxvxvxvxvxvxvxvxvxvxvxv Xvxvxvxvxvxvxvxvxvxvx Xycxycxcycvdferefdvdferdf Nfnfnf Wgwgwgwgwg Wgwgwgwgwgwgwgwgwg Whhhhh Wgwgwgw Whwhwhwhwhwhwhwhwhhwhw Whwhwhhwwh Whhhhh Whhhhhhhhh whhhhhhhhhhhhhhh Xvxvx vxv xvxv xvxvx vxv xv xvxv Xvxvxvxvxvxvxvxvxvxvx Xycxyc xcy cvd fe ref dv df erdf Nfn fnf Wg wg wg wg wg Wgwgwg wgwg wgwg wgwg Whh hhh Whh hhh alternativ Morf. analyse Syntaktisk analyse= parsing Osv. 15

I dag Tekstnormalisering: lemmatisering og «stemming» Tagget tekst og tagging Begrensninger ved regulære språk Frasestruktur og kontekstfrie grammatikker Kontekstfrie grammatikker, avledninger og trær Kontekstfrie grammatikker og naturlige språk 16

Fins det språk som ikke er regulære? Eksempler, A = {a,b,c} Regulære L = {w w > 10 000 000} L = {w w inneholder sekvensen abc} L = {w w inneholder 118 a-er} Ikke-regulære L={w w w A*} L={w w R w A*} L={a n b n } 9. februar 2017 17

Formelle språk som ikke er regulære Anta at L er et uendelig regulært språk over A. Da fins et tall n>0 s.a. enhver streng w A* lengre enn n, kan deles itre: w=xyz, hvor y >0 og w er i L hvis og bare hvis xy k z er i L for alle k>0. Pumpelemma for regulære språk Anta at M er en DFA over alfabetet A, som anerkjenner L, dvs L=L(M) M har et visst antall tilstander n. La w L(M) og w >n. Når M leser w, må det finnes en tilstand s som w er innom to forskjellige steder i w. ( pigeon hole principle ), mao: w kan skrives på formen xyz der y >0 og M er i samme tilstand etter xy som etter x (og etter xyy ) Da må xy n z L(M) for alle n. 18

Er naturlige språk regulære som Et Kari kjente en mann så by løp barn fra Kan vi beskrive syntaksen til setninger i naturlige språk med regulære uttrykk/fsa? Antatt ikke pga center embedding (Chomsky, Syntactic structures, 1957)

Center embedding Regulært Barnet smilte. Barnet, som eide hunden, smilte. Barnet, som eide hunden, som elsket katta, smilte. Barnet, som eide hunden, som elsket katta, som jagde musa, smilte. NP, (som TV NP,)* VP Ikke regulært Musa rømte. Musa, som katta jagde, rømte. Musa, som katta, som hunden elsket, jagde, rømte. Musa, som katta, som hunden, som barnet eide, elsket, jagde, rømte. NP (, som NP,) n (TV,) n VP Kan dette gjentas for alle n? 20

Chomsky&Miller (1963): 21

Begrensninger ved regulære språk Regulære språk er ikke ideelle modeller for naturlige språk fordi: 1. Det er ikke sikkert naturlige språk er regulære 2. Mindre mønstre forekommer flere steder og må skrives ut fullt hvert sted, e.g. DET (ADJ)* N V DET (ADJ)* N DET (ADJ)* N 3. Naturlige språk har en hierarkisk struktur som ikke fanges opp 22

I dag Tekstnormalisering: lemmatisering og «stemming» Tagget tekst og tagging Begrensninger ved regulære språk Frasestruktur og kontekstfrie grammatikker Kontekstfrie grammatikker, avledninger og trær Kontekstfrie grammatikker og naturlige språk 23

Setning Fraser NP, VP, PP NP S VP NP VP V AP N P Struktur PP NP Syntaks Struktur over ordnivå Morfem angripe lig u e/pl Hun studerer uangripelige IT-systemer ved UiO u+angripe+lig+e V Adj PL Adj Adj_pl Morfologi Ordenes struktur 9. februar 2017 24

Fraser NP Jenta Den lille hunden Hunden fra Moss Du V spiste likte så VP NP eplet et stort, grønt eple eplet som Per hadde kjøpt det Frase: sekvens av ord som hører sammen, her: NP, VP Forskjellige fraser av samme kategori oppfører seg ganske likt Fraser kan delvis identifiseres ved at de kan Koordineres: Du og barna dine, stjal en bil og stakk misplasseres Hvis noe opptrer på en unormal plass er det gjerne en frase 9. februar 2017 25

Frasestruktur En setning er hierarkisk ordnet i fraser 9. februar 2017 26

Eksempel: grammar1 9. februar 2017 27

Context-Free Grammars Terminals We ll take these to be words (for now) Non-Terminals The constituents in a language Like noun phrase, verb phrase and sentence Rules Rules are equations that consist of a single nonterminal on the left and any number of terminals and non-terminals on the right. 2/9/2017 Speech and Language Processing - Jurafsky and Martin 28

Eksempelgrammatikk L0 9. februar 2017 29

Leksikalske regler i L0 OBS L0 er ikke helt lingvistisk realistisk men illustrerer formalismen 9. februar 2017 30

I dag Tekstnormalisering: lemmatisering og «stemming» Tagget tekst og tagging Begrensninger ved regulære språk Frasestruktur og kontekstfrie grammatikker Kontekstfrie grammatikker, avledninger og trær Kontekstfrie grammatikker og naturlige språk 9. februar 2017 31

Context-Free Grammars Det mest sentrale verktøyet i datalingvistikk 2/9/2017 Speech and Language Processing - Jurafsky and Martin 32

Eksempel: Avledning S NP VP Det N VP the N VP the dog VP the dog V NP PP the dog saw NP PP the dog saw Det N PP the dog saw a N PP the dog saw a man PP the dog saw a man P NP the dog saw a man in NP the dog saw a man in Det N the dog saw a man in the N the dog saw a man in the park Flere avledninger av samme streng, for eksempel: S NP VP NP V NP PP NP V NP P NP NP V NP P Det N NP V NP P Det park 9. februar 2017 33

Avledning, leses: kan direkte avledes fra dersom: har formen C for en ikke-terminal C det er en regel på formen C og = 1 * m, leses: m kan avledes fra 1 dersom: det fins en sekvens 1, 2,, m der m>1, og i i+1 En kontekstfri grammatikk G generer språket L(G) = { w A* S * w} Alle sekvenser av terminaler som kan avledes fra startsymbolet 9. februar 2017 34

Hva betyr kontekstfri? Generell frasestrukturgrammatikk: venstresiden kan være en vilkårlig symbolstreng: Kontekstfri grammatikk = kontekstfri frasestrukturgrammatikk: Venstresiden består av én ikke-terminal A 2/9/2017 Speech and Language Processing - Jurafsky and Martin 35

Konvensjoner Forenkling, kan skrive A for A A A 9. februar 2017 36

Flertydighet Samme streng kan avledes på flere måter Er vi interessert i dette? Noen ganger Andre ganger ikke Interessant hvis de representerer ulike måter setningen er bygget opp på (=) ulike strukturer (trær) ulike betydninger ved flertydighet 9. februar 2017 37

Eksempel: grammar1 9. februar 2017 38

Trær Et lokalt tre: En node som ikke er et blad Alle døtrene Rekkefølgen mellom døtrene Kantene mellom mor og datter En regel B s1, s2,, sn tillater ( license ) et lokalt tre hvis og bare hvis det har formen: 9. februar 2017 39 B s1 s2.. sn

Trær En CFG G, generer et tre t hviss Toppen av t er merket med S Bladene er merket med terminaler Hvert lokalt tre er tillatt av en produksjonsregel T(G) for mengde av trær generert av G Utkomme ( yield ) av treet t er symbolene på bladene i riktig rekkefølge Forkortelse: hviss for hvis og bare hvis En streng w er avledbar fra G hviss w er utkomme til et tre i T(G). 9. februar 2017 40

Ekvivalens Definisjon To grammatikker, G1 og G2, er (svakt) ekvivalente hvis og bare hvis L(G1)=L(G2) G1 og G2 er sterkt ekvivalente hvis T(G1)=T(G2) 9. februar 2017 41

I dag Tekstnormalisering: lemmatisering og «stemming» Tagget tekst og tagging Begrensninger ved regulære språk Frasestruktur og kontekstfrie grammatikker Kontekstfrie grammatikker, avledninger og trær Kontekstfrie grammatikker og naturlige språk 9. februar 2017 42

CFGs for naturlige språk CFG er en generell og fleksibel formalisme Hvordan kan vi best lage CFG for å modellere naturlige språk? Hva er det korrekte/beste treet for en setning i et naturlig språk? Skal vi begrense CFG formalismen som vi bruker for naturlige språk? Ulike lingvistiske teorier, ulike svar Svaret kan avhenge av formålet: lingvistisk generalisering eller effektive beregninger Men det er en viss enighet på tvers av dette 43

Hoder ( heads ) I en CFG regel har alle elementer på høyresiden samme status I en NL regel har som oftest et ledd hovedrollen NP Det N PP P NP VP V NP VP VP PP a house to the house built the house built the house in a week I et PS tre og en CFG regel kan en frase være hodet i en annen frase I noen modeller snakker en bare om ord som hodet 44

Egenskaper ved hoder Semantisk kriterium: Hode og frase synes å være samme type ting Syntactic criteria for a relation between a head H and a dependent D in a construction C [Zwicky, Hudson]: 1. H determines the syntactic category of C; H can replace C. 2. H determines the semantic category of C; D specifies H. 3. H is obligatory; D may be optional. 4. H selects D and determines whether D is obligatory. 5. The form of D depends on H (agreement or government). 6. The linear position of D is specified with reference to H. Ikke alltid enkelt å avgjøre hva som er hodet Ulike grammatiske teorier skiller seg i detaljene (eks. Er the car en DP (the er hodet) eller NP (car er hodet)?) 45

X-bar En antagelse i flere grammatiske modeller/teorier En frase har tre nivåer: Full frase, eks. NP (= N ) Ord, eks N Midtnivå, eks. N (Called Nominal in J&M) Gjelder i prinsippet for all fraser: NP, VP, AP, PP Men ikke alle delene like hyppige for alle typer NP Det N N AP N N N PP VP V V V PP V V NP For generell form og mer informasjon, se Wikipedia 46

47

N =NP N =NOM DET A =AP N =NOM N =NOM P =PP A =AP N =NOM N P =PP 48

Eksempel fra Wikipedia 9. februar 2017 49

Komplementer vs. modifikatorer Komplement (argument): Kim gave the book to Mary Obligatorisk Eks, ugrammatisk: *Kim gave the book Kan ikke skifte med en annen preposisjon: *Kim gave the book from Mary Plasseres i X-bar-teori som Søster til X Datter til X Eks.: P P NP, eks. til skolen V V NP, eks. så Kari V V NP PP, eks. gave the book to Mary 50

Komplementer vs. modifikatorer Modifikator: Kim sang in the garden Kan fjernes uten at det blir ugrammatisk Kan gjentas: sang in the garden with great joy Kan bruke annen preposisjon: sang with great joy Plasseres i X-bar-teori som Søster til X Datter til X Eks.: N N PP, eks. mannen med pistolen N AP N, eks. rød bil V V PP, eks. traff Kari på stasjonen Kan noen ganger være vanskelig å avgjøre om det er komplement eller modifikator 51

Eksempel NP=N N Ikke: * a professor from Germany of physics N Det N NP comp NP Adju. A professor of physics from Germany 9. februar 2017 52