IN1140: Introduksjon til språkteknologi. Forelesning #5

Like dokumenter
INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF1820: Ordklasser INF1820: Ordklasser. Arne Skjærholt. 13. februar. INF1820: Ordklasser. Arne Skjærholt. 13. februar

IN1140: Introduksjon til språkteknologi. Forelesning #6

IN1140: Introduksjon til språkteknologi. Forelesning #6

IN1140: Introduksjon til språkteknologi. Forelesning #6

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF1820 INF Arne Skjærholt INF1820. dairoku: del 6, kougi: forelesning. Arne Skjærholt

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

Norsk minigrammatikk bokmål

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF2820 Datalingvistikk V2011. Jan Tore Lønning & Stephan Oepen

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF INF1820. Arne Skjærholt INF1820. Dagens språk: Russisk. dyes yataya l yektsiya. Arne Skjærholt. десятая лекция

INF2820 Datalingvistikk V2012. Jan Tore Lønning

2/6/2012. Begrensninger ved regulære språk. INF2820 Datalingvistikk V2012. Formelle språk som ikke er regulære KONTEKSTFRIE GRAMMATIKKER.

. Grammatiske problem med å beskrive ordklassen adverb og setningsleddet adverbial i norsk. Sverre Stausland Johnsen Universitetet i Oslo

INF1820: Oppsummering

Setningsledd. Norsk som fremmedspråk Side 131

Ordklasser Inndelingen ORDKLASSEINNDELINGEN

2 Substantiv Genus Bøyning Substantiv med bare entallsformer Substantiv med bare flertallsformer 17 2.

FORBEREDELSE TIL ÅRSPRØVE I ENGELSK 7. KLASSE FREDAG 19. MAI 2017

INF2820 Datalingvistikk V Gang Jan Tore Lønning

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF INF1820. Arne Skjærholt. Terza lezione INF1820. Arne Skjærholt. Terza lezione

INF2820 Datalingvistikk V Gang Jan Tore Lønning

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

IN1140: Introduksjon til språkteknologi. Forelesning #12

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

Morfologi. Studiet av ordenes struktur Kap. 11 Om morfer (selvsagt) og litt større ting. EXFAC EURA 2. Morfologi1 1

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF2820 Datalingvistikk V2015. Forelesning 4, 9.2 Jan Tore Lønning

UKEPLAN FOR 7A, UKE 23 TIME

Sjekkliste B2-nivå. 1 Har du brukt stor/liten forbokstav, punktum (.), komma (,) og spørsmålstegn (?) riktig?

INF2820 Datalingvistikk V Gang Jan Tore Lønning

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF2820 Datalingvistikk V2017 Forelesning 1.2 Jan Tore Lønning

APPENDIKS D Geminittisk språk/grammatikk

UKEPLAN FOR 7B, UKE 23 MANDAG TIRSDAG ONSDAG

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

UNIVERSITETET I OSLO

Grammatikk En innføring av Anne Lene Berge

LF - Eksamen i INF1820

INF2820 Datalingvistikk V2017 Forelesning 2, 23.1 Jan Tore Lønning

INF2820 Datalingvistikk V2016. Forelesning 4, 10.2 Jan Tore Lønning

IN1140: Introduksjon til språkteknologi. Forelesning #2

Setningsledd. Arne Martinus Lindstad Tekstlaboratoriet Universitetet i Oslo.

Slides til 12.1 Formelt språk og formell grammatikk

INF2820 Datalingvistikk V Gang Jan Tore Lønning

INF1820: Ordklassetagging

INF2820 Datalingvistikk V Gang Jan Tore Lønning

IN1140: Introduksjon til språkteknologi. Forelesning #4

Kom i gang veiledning

INF2820 Datalingvistikk V2014. Jan Tore Lønning

Syntax/semantics - I INF 3110/ /29/2005 1

INF 2820 V2016: Innleveringsoppgave 3 del 1

7. trinn Målark Chapter 1 Bokmål

INF2820 Datalingvistikk V2012. Jan Tore Lønning

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF2820 Datalingvistikk V2014. Forelesning 4, 6.2 Jan Tore Lønning

EXFAC EURA Syntaks2 1

INF 2820 V2016: Obligatorisk innleverinsoppgave 1

IN1140: Introduksjon til språkteknologi. Forelesning #8

INF2820 Datalingvistikk V2012. Jan Tore Lønning & Stephan Oepen

"Det er fort gjort og skrive feil." En presentasjon av en automatisk grammatikkontroll for bokmål

Morfologi. Studiet av ordenes struktur Kap. 11. EXFAC EURA 2. Morfologi1 1

INF2820 Datalingvistikk V2016. Jan Tore Lønning

INF2820 Datalingvistikk V2016. Jan Tore Lønning

Minigrammatikk. Trinn 1

Eksamen Norwegian Beginning Level (3-timer/3-hours)

UKE TEMA SKRIVE GRAMMATIKK VERK ARBEIDMETODER. flertall

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF2820 Datalingvistikk V2015. Jan Tore Lønning

Fasit til oppgaver i Språk i skolen, kapittel 4. Versjon: 15. mai 2015

INF2820 Datalingvistikk V2014. Jan Tore Lønning

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF2820 Datalingvistikk V Gang 23.3 Jan Tore Lønning

Stikkordregister. avgrensa handling, 124 avleiingsmorfem, 46 avleiingsuffiks, stadium, 70

Læringsmål for trinnet: Kva skal elevane lære, kunne, mestre innanfor kompetansemålet Eleven Skal Kunne

norsk grammatikk bok C2FFB2EE7079E5C7671E474DBC1B7657 Norsk Grammatikk Bok

IN1140: Introduksjon til språkteknologi. Forelesning #7

INF2820 Datalingvistikk V2015. Jan Tore Lønning

Grammatikk Adverb. Forteller oss noe nytt om ord eller setninger

INF2820 Datalingvistikk V2016. Forelesning 4, 10.2 Jan Tore Lønning

IN1140: Introduksjon til språkteknologi. Forelesning #8

INF INF1820. Arne Skjærholt. Negende les INF1820. Arne Skjærholt. Negende les

van Baar Språkservice Substantiv 2015 Substantiv: Hovedregel

norsk grammatikk 149BE6CADCAB6FFCFBAA3C DC4 Norsk Grammatikk 1 / 6

Begrep Forklaring Eksempel

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

NORSK FOR INTERNASJONALE STUDENTER

INF2820 Datalingvistikk V2011. Jan Tore Lønning & Stephan Oepen

NORSK FOR INTERNASJONALE STUDENTER

Norsk Grammatikk Oppgaver

NORSK FOR INTERNASJONALE STUDENTER

INF 2820 V2016: Innleveringsoppgave 3 hele

BESTEMT ELLER UBESTEMT FORM?

INF2820 Datalingvistikk V gang, Jan Tore Lønning

Transkript:

IN1140: Introduksjon til språkteknologi Forelesning #5 Samia Touileb Universitetet i Oslo 19. september 2017

Tema for i dag 2 Fra forrige forelesning: Ikke-deterministiske FSAer, Regulære språk Ordklasser Ordklassetaggede korpuser Ordklassetagging

3 For saueprat-eksempelet: Q = {q 0, q 1, q 2, q 3, q 4 } Σ = {a, b,!} F = {q4 } δ(q, i) er gitt ved transisjonstabellen

4 Eksempel 1: Eksempel 2:

Ikke-deterministiske FSAer 5 En FSA er ikke-deterministisk dersom: for minst en tilstand (node) og ett symbol finnes det mer enn en transisjon som passer (to transisjoner med samme symbol) disse valgene kan involvere tomme (ɛ-)transisjoner b a! S 0 S 1 ø ø S 1 ø S 1,S 2 ø S 2 ø ø S 3 S 3 ø ø ø

Ikke-deterministiske FSAer 6 Enhver ikke-deterministisk FSA kan gjøres deterministisk Strategier: Backup: Hver gang må foreta et valg: marker hvor langt du har kommet og hvilken tilstand Look-ahead: Se framover i input en Parallellisme: Utforske alternative ruter samtidig

7 Hvorfor endelige ( finite )? Antall tilstander er bestemt på forhånd (transisjonstabellen) Derfor bruker maskinen begrenset minne Hva den gjør ved hvert skritt bestemmes av transisjonstabellen Tilstanden ved ethvert tidspunkt reflekterer prosesseringsrekkefølgen Klasser av formelle språk som ikke er regulære krever ekstra minne for å holde styr på tidligere informasjon, feks såkalte center-embedding konstruksjoner (mer om dette senere)

Formell språkteori 8 Et formelt språk er en mengde strenger Et endelig alfabet Σ og noen operasjoner for å kombinere strenger Regulære språk er den enkleste klassen av formelle språk Klassen av språk som kan defineres av regulære uttrykk Klassen av språk som kan gjenkjennes av FSAer

Kompleksitet 9 Komputasjonell kompleksitet: hvilken uttrykkskraft og ressurser som kreves for å prossessere klasser av formelle språk Lingvistisk kompleksitet: hva gjør noen konstruksjoner eller setninger vanskeligere å forstå This is the dog, that worried the cat, that killed the rat, that ate the malt, that lay in the house that Jack built. This is the malt that the rat that the cat that the dog worried killed ate.

Chomsky-hierarkiet 10 Et hierarki av klasser av språk (sett på som mengder av strenger), ordnet etter kompleksitet Språkene i én klasse inkluderer språkene i lavere klasser Sammenheng mellom klassen av språk og hvilke formelle regelsystemer man kan bruke for å generere språkene

Chomsky-hierarkiet 11

Chomsky-hierarkiet 12 Regulære språk: endelig tilstandsmaskin (FSA) Kontekstfrie språk: kontekstfrie grammatikker (CFG) Kontekstsensitive språk: Turingmaskin med endelig tape Turing-ekvivalente språk: Turingmaskin formell modell som kan beskrive logikken bak enhver algoritme (se https://plato.stanford.edu/entries/turing-machine/ for mer info om Turingmaskiner og http://www.youtube.com/watch?v=cyw2ewoo6c4 for en morsom representasjon)

Chomsky-hierarkiet Fra J&M (kap. 16) og Wikipedia Type Name Allowable Rules 0 Turing Unrestricted equivalent α β, such that α ɛ 1 Context- Sensitive αaβ αγβ, such that γ ɛ Definition a formal language for which there exists a Turing machine (or other computable function) which will enumerate all valid strings of the language the left-hand sides and right-hand sides of any production rules may be surrounded by a context of terminal and nonterminal symbols Recognizing Automaton Turing Machines Turing Machines with finite tape 13

Chomsky-hierarkiet forts. 14 Fra J&M (kap. 16) og Wikipedia Type Name Allowable Rules 2 Context- A γ Free 3 Regular A xb or A x Definition The left-hand side of the production rule is also always a nonterminal symbol FSA Recognizing Automaton Context-free grammars FSA

Hva med naturlige språk? 15 Chomsky-hierarkiet har også blitt brukt for å forstå naturlige språkskompleksitet og ikke minst hvilke modeller vi kan bruke til å prosessere dem Chomsky (1957): English is not a regular language Om kontekstfrie språk: I do not know whether or not English is itself literally outside the range of such analyses

Formell språkteori 16 Hva slags uttrykk er ikke regulære? I naturlige språk: feks såkalt center-embedding 1. The dog died 2. The cat the dog saw died 3. The cat the dog the mouse bit saw died 4.... (the noun) n (transitivt-verb) n 1 intransitivt-verb Lignende vil være regulære: A*B* died

Formell språkteori 17 Men representerer dette faktisk språkbruk? Autentisk eksempel: [When the pain, [which nobody [who has not experienced it] can imagine], finally arrives], they can be taken aback by its severity.

Regulære språk 18 Hvordan kan vi karakterisere klassen av regulære språk? ɛ er den tomme strengen ø er den tomme mengden Σ er et alfabet (symboler)

Regulære språk 19 Klassen av regulære språk over Σ kan defineres formelt som: ø er et regulært språk a Σ ɛ, {a} er et regulært språk Dersom L1 og L 2 er regulære språk, da er følgende språk også regulære: 1. L 1 L 2 (konkatenering, L 1 L 2 = {xy x L 1, y L 2}) 2. L 1 L 2 (union eller disjunksjon) 3. L 1 (Kleenes closure) Alle regulære uttrykk faller inn under dette tellerene (*, +, {n,m}) er repetisjon + Kleenes* (feks a b) og [] (feks [ab])er disjunksjoner

Regulære språk De regulære språkene er lukket under: differanse: L 1 L 2 : mengden strenger som er i L 1 men ikke i L 2 snitt: L1 L 2 : mengden strenger som er i både L 1 og L 2 komplement: Dersom L1 er et regulært språk så er Σ 1 L 1, mengden av alle mulige strenger som ikke er i L 1 reversering: Dersom L1 er et regulært språk så er L R 1, mengden av reverserte strenger fra L 1 1 Σ er det endelige settet av alle mulige strenger som kan utformes fra alfabetet Σ 20

Regulære språk 21 Egenskapene kan brukes til å bevise medlemskap i en formell språklig klasse Feks: Engelsk er ikke regulært L ce = (the noun) n (transitivt-verb) n 1 intransitivt-verb Lce er snittet av det naturlige språket engelsk med den regulære mengden L reg =A*B* intransitivt verb da regulære språk er lukket under snitt og Lreg er et regulært språk så ville snittet mellom engelsk og L reg være regulært dersom engelsk var regulært engelsk er altså ikke regulært

Tema for i dag 22 Ordklasser Ordklassetaggede korpuser Ordklassetagging

Lingvistikk 23

Ordklasser? 24 Bindeledd mellom ordet og setningen (syntaks): Sier noe om hva slags kontekster et ord forekommer i Sier noe om uttale (record, content) Helt essensiell i en rekke språkteknologiske applikasjoner: Talesyntese Morfologisk analyse Chunking, syntaktisk parsing Word Sense Disambiguation Informasjonsekstraksjon

Ordklasser 25 Substantiv Adjektiv Verb Adverb Taksonomi - et system som har kategorier som er uttømmende, gjensidig utelukkende, styrt av et prinsipp Alle ord havner i en klasse og ingen ord havner i mer enn én klasse Vi trenger kriterier for ordklasseinndeling

Ordklassekriterier 26 3 slags kriterier: 1. Formelle eller morfologiske kriterier Hvilke bøyningsformer har ordet? Har de samme ordklasse? hare - haren og redd - reddere *harare og *redden 2. Funksjonelle eller syntaktiske kriterier (hva slags funksjon har ordet i en setning, hvilken posisjoner forekommer typisk i) Hvordan kan ordet kombineres med andre ord? en redd hare og redd for ilden *en redd og *en hare for ilden 3. Betydningsmessige eller semantiske kriterier Hva er typiske betydninger hos ord i ordklassen? hare - dyr, levende vesen redd - egenskap

Ordklassekriterier 27 Adjektivet rød: form: rød, rødt (bøyning etter kjønn), røde (bestemt), rødere (komparativ form), rødest (superlativ) funksjon: et rødt eple (attributiv funksjon attribuer et egenskap), Håret hennes er rødt (predikativ funksjon en identitesmarkør) betydning: betegner en egenskap, typisk for adjektiv MEN: De røde tapte borgerkrigen?? Adjektivet er i en substantiv kotekst: unntakk. Fokusere på: Normale (prototypiske) bruken Vekting av kriteriene

Ordklasser: substantiv 28 Substantiv olje, bord, jente, sorg 1. Bøyes i bestemthet og tall Bestemthet: kan knytte til seg bestemt artikkel som suffiks: bilen, greina, huset, tanken, bordet Tall: (de fleste har) forskjellige endelser for entall og flertall: bil-biler, grein-greiner, tanke-tanker, border 2. Kjerne i substantivfraser, med modifikatorer: en alldeles fantastisk vakker stol 3. Betegner ting - mennesker, objekter, vesen, steder, fenomener og abstrakte enheter Unntak - egennavn Bøyes ikke

Ordklasser: substantiv 29 Substantivene er enten fellesnavn eller egennavn Fellesnavn: substantivene på forrige side Egennavn: ord som Adam, Eva, Haugesund, Dagros, Norge

Ordklasser: substantiv 30 Fellesnavnene har enten konkret eller abstrakt betydning Konkrete: en slags gjenstandsbetydning, betegner konkrete størrelser, f.eks. blomst, bok, bord, mann, tang, tårn Abstrakte: ikke gjenstandsbetydning, betegner abstrakte begreper eller forestillinger (handlinger, tilstands, egenskaper), f.eks. fred, ro, slag, tvil, vennskap, verdighet, alderdom Ikke alltid så lett å skille: en mørkhåret skjønnhet dø i skjønnhet (abstrakt egenskap) spenstig som en ungdom i min ungdom en fin tegning flink i tegning

Ordklasser: substantiv 31 Vi kan også skille mellom tellelige og ikke-tellelige/massebetegnende substantiver Tellelige: bil, bord, okse, stang Ikke-tellelige: kjøtt, smør, støv Både tellelig og ikke-tellelig betydning: et vakkert tre bordet er laget av tre mange høye fjell støtt som fjell mange steiner mye stein

Ordklasser: substantiv 32 Egennavn refererer til en enkelt gjenstand eller et bestemt individ, f.eks.ida, Torggata, Colosseum, Apple Navn på dyr, land, byer, gater, bygninger, elver, steder, planeter, foreninger, firmaer, fly, tog, kunstverk Vanligvis unik referanse Egennavn i flertallsform viser til helheten, f.eks. De forente stater, Hebridene Noen substantiver kan fungere som begge deler: Bibelen er verdens mestselgende roman (egennavn) Hun leste i sin bibel (fellesnavn) Egennavn som fellesnavn: Hemsedal er et skisportens mekka... en quisling, et eldorado, et watergate

Ordklasser: verb 33 Verb (hovedverb) sparke, sove, håpe, arbeide, bygge, leve 1. Bøyes i tid (presens-preteritum) inndeles i finitte vs. infinitte former Finitte (kan stå alene i en setning): imperativ, presens, preteritum: spark, sparker, sparket Infinitte (kan ikke stå alene, de trenger en fuknsjonell markør/hjelpeverb): infinitiv, perfektum partisipp (å) sparke, (ha) sparket Transitivitet: transitiv (krever to argumenter: subjekt og objekt) - intransitiv (tar ikke objekt, krever ikke et argument) 2. Kan stå alene som predikat 3. Betegner handlinger, aktiviteter og tilstander Unntak - hjelpeverb (forekommer typisk med et innholdsverb): må, skal, bli

Ordklasser: verb 34 Kan grupperes basert på semantisk og grammatisk forhold (hva de betyr) Tre hovedgrupper a) Aktivitetsverb uttrykker en aktiv handling, dvs. at noen gjør eller utfører noe. Forutsetter en agens (en som gjør noe aktivt, med viten og vilje) Ida arbeider hele dagen De gravde et hull De fleste går til jobben Fredrik spiller bass

Ordklasser: verb 35 Tre hovedgrupper (forts.) b) Endrings-eller overgangsverb uttrykker et forløp eller en endringsprosess, dvs subjektet er patiens og gjennomgår eller opplever en forandring eller overgang Faren døde like etter krigen Bilen forsvant nedover gata Barna sovnet fort Plantene vokser hele året

Ordklasser: verb 36 Tre hovedgrupper (forts.) c) Tilstandsverb uttrykker en tilstand, subjektet er i gitt tilstand uten å forandres (ingen gjør noe med vilje) Han ble i London resten av livet De bor nå i Mumbai Thon eier snart hele byen De lever et lykkelig liv sammen Boken som ligger på bordet, tilhører meg

Ordklasser: adjektiv 37 Adjektiv: rød, snill, vanskelig, levende 1. Samsvarsbøyes i bestemthet, kjønn og tall, gradbøyes (rød, rødere, rødest, interessant, mer interessant, mest interessant) 2. Modifikator (adledd) til substantiv 3. Betegner egenskaper

Ordklasser: adjektiv 38 De mest typiske egenskapene er permanente (kvaliteter): Størrelse, allment: stor, liten, vertikalt: høy, lav, kort, horisontalt: bred, smal, lang Form: rett, krokete, rund, flat Farge/lys: svart, gul, lys, mørk, dus Lydstyrke: høy, lav, skarp Smak: sur, søt, bitter Noen adjektiver uttrykker midlertidige egenskaper: Livstilstand: gammel, ung, levende, frisk, syk Sinnstilstand: sint, trøtt, glad, redd Temperatur: varm, kald, lunken Andre egenskaper: lat, arbeidsom, ren, skitten, rask, sein

Ordklasser: adjektiv 39 Gradbøyes ved bøyningsendelse eller mer mest. Betydningen angir et punkt på en skala (feks. ung gammel / men ikke levende død). Men mange adjektiv har en mer presis betydning som er vanskelig å gradere, f.eks. død, gift, gratis, nybakt, lovlig Noen av de mest sentrale adjektivene opptrer i par med motsatt betydning antonymer: høy lav stor liten lang kort

Ordklasser: adverb 40 Adverb: her, ofte, derfor, trolig, ikke, kanskje, nå, vanligvis 1. Ubøyelige (Engelsk: beautiful beautifully, careful carefully) 2. Står som modifikatorer til verb, adjektiv, adverb og setninger 3. Betegner forskjellige omstendigheter - rom, tid, måte m.m.

Ordklasser: adverb 41 Tidsadverb uttrykker relativ tid, dvs. et tidspunkt i forhold til et annet Han kom etterpå (etter et tidspunkt i fortiden) Han kom da (på et tidspunkt i fortiden) Kom etterpå! (etter dette tidspunktet) Kommer han nå? (på dette tidspunktet) Du skal komme etterpå (etter et tidspunkt i framtiden) Du skal komme da (på et omtalt tidspunkt i framtiden)

Ordklasser: adverb 42 Måtesadverb uttrykker måten noe blir gjort på Hun gjennomgikk pensum stykkevis De lå andføttes Gradsadverb uttrykker mengde, intensitet eller grad ved verbhandlingen Jeg fryser litt Nå har du tullet nok

Ordklasser: preposisjoner 43 Preposisjoner: Funksjonsord klassen ved, på, under, i, foran, av 1. Ubøyelige 2. Kjerne i preposisjonsfraser, tar substantiv 3. Betegner relasjoner, f.eks. romlige Hytta ligger ved sjøen Elevene var svake i engelsk Taket på huset ble nettopp reparert

Ordklasser: preposisjoner 44 Varierende semantisk innhold Lokalisere gjenstander og begivenheter i rom og tid Boka ligger på bordet Den lå bak skapet Vi drar i mai Kan også uttrykke måte eller middel: Hun satt i dype tanker Hun svarte med et lite smil Hun åpnet døren med en rusten nøkkel

Ordklasser: preposisjoner 45 Preposisjon uten utfylling: verbalpartikkel De sovnet inn Han brøt sammen etter løpet Vi drakk opp all vinen Danner en semantisk og syntaktisk enhet med verbet

Ordklasser: pronomen 46 Pronomen: jeg, hun, dere, seg, hverandre, hvem, man 1. Av svært ulik form, uregelmessig bøyning 2. Som substantiv, kan fungere som setningsledd alene 3. Lite eget innhold, får betydning fra sammenhengen (konteksten) Jeg liker grammatikk Man skal respektere hverandre Hvem tok vesken?

Ordklasser: pronomen 47 Pronomen får sitt innhold enten fra et element i selve talesituasjonen eller fra et nominalt ledd (typisk substantiv) i konteksten. Leddet som gir pronomen innhold er pronomenets antesedent Se her Er du sulten? Gro Harlem Brundtland er en tidligere norsk politiker. Hun var norges første kvinnelige statsminister...

Ordklasser: pronomen 48 Personlige pronomen kan bøyes, egne former for første, andre og tredje person, samt entall og flertall Nominativ Akkusativ 1.pers.ent. jeg meg 2.pers.ent. du deg 3.pers.ent han ham 3.pers.ent hun henne 3.pers.ent den/det den/det 1.pers.flt. vi oss 2.pers.flt. dere dere 3.pers.flt. de dem

Ordklasser: pronomen 49 Refleksivt pronomen er seg på norsk. Har antesedent i samme setning, oftest subjektet i setningen Brukes kun i tredje person. I første og andre person brukes akkusativformen Jeg vasker meg Hun vasker seg Vi vasker oss

Ordklasser: pronomen 50 Resiproke pronomen er hverandre på norsk. Uttrykker en gjensidig relasjon, slik at A og B beundrer hverandre impliserer at A beundrer B og B beundrer A Vi beundrer hverandre De beundrer hverandre

Ordklasser: pronomen 51 Interrogative pronomen (spørreord) Hvem når vi spør etter et menneske, ellers er det hva Hvem er det? Hva vil du ha å drikke? Hun spurte hvem det var

Ordklasser: determinativ 52 Determinativ (artikler): min, din, denne, alle, noen 1. Bøyning i kjønn og tall (min bil, mitt hus) 2. Bestemmer til substantiv 3. Bestemmer, spesifiserer substantivets referanse

Ordklasser: Determinativ 53 3 hovedtyper: a) Possessiver: angir eiendom eller tilhørighet, bøyes i person Det er min bok Her har du boken din b) Demonstrativer: viser til eller peker på en bestemt person eller ting som kan iakttas eller er omtalt Den hytta ligger fint til Dette treet er kjempestort c) Kvantorer: uttrykker mengde eller kvantitet, noen med bøyning (noen, ingen, en) og noen uten (to, tre, visse, enkelte, utallige) Hun har spist opp all maten Ida har kjøpt noen bøker

Ordklasser: Konjunksjoner 54 Konjunksjoner: og, eller, men, for, så 1. Bøyelige 2. Binder sammen ledd av samme slag, f.eks. ord, fraser og setninger 3. Grammatisk funksjon, betegner relasjoner Fullstendig ro og absolutt trygghet (nominalfrase og nominalfrase) Konkret og abstrakt betydning (adjektivfrase og adjektivfrase) Han var på ski og hun var i kirken (setning og setning)

Ordklasser: subjunksjoner 55 Subjunksjoner: (en måte å danne leddsetninger = små setninger i andre setninger for å utvidde setninger) å, at, om, som, før 1. Ubøyelige 2. Innleder leddsetninger - underordner en setning under en annen 3. Grammatisk funksjon, betegner relasjoner Hun elsker å danse Vi tror at det verste snart er over Der er hunden som spiste kaken

Inndeling av ordklasser 56 åpne vs. lukkede ordklasser Åpne: substantiv, verb og adjektiv inneholder mange tusen ord, kan enkelt fylle på med nye Eksempel: nye bilmodeller - nye farger (brannbilrød) Lukkede: inneholder mange færre ord enn de åpne kan ikke fritt skape nye ord gjennom orddannelse (pronomen) Innholdsord vs. funksjonsord Innholdsord: substantiv, verb, adjektiv rikt betydningsinnhold, Funksjonsord: mer allment betydningsinnhold. Finnes fremst i de lukkede ordklassene. Ikke helt én-til-én, feks hjelpeverb.

Språklige data: korpusdata 57 Modellere språklig kunnskap Trenger språklige data Språkteknologi: programmer som generaliserer over språklige mønstre Korpusdata helt sentralt Et korpus (tekstkorpus) er en strukturert samling tekster Elektronisk lagret

Ordklassetaggede korpuser 58 Brown-korpuset for engelsk (1979): 87 ordklassetagger 1 mill. ord, utvalg fra 500 tekster hentet fra forskjellige sjangere Automatisk tagget og manuelt rettet Penn Treebank (1993) 45 ordklassetagger Wall Street Journal (1 mill. ord), Brown-korpuset (tagget versjon), Switchboard, ATIS (sample) Ordklassetagger, syntaktisk struktur (trær som representerer frasestruktur)

Ordklassetaggede korpuser 59 Norsk dependenstrebank (2014) Trebank for norsk Utviklet ved Nasjonalbiblioteket Manuelt tagget (lingvister, 2år) Ordklasser samt mye morfologisk informasjon 1 Det det pron nøyt ent pers 3 2 er være verb pres 3 hun hun pron fem ent pers hum 3 nom 4 som som sbu _ 5 eier eie verb pres 6 og og konj _ 7 driver drive verb pres 8 stedet sted subst appell nøyt be ent

60 Eksempler fra Penn (J&M): The/DT Grand/JJ jury/nn commented/vbd on/in a/dt number/nn of/in other/jj topics/nns./. DT : determiner JJ : adjective NN : noun, singular or mass VBD : verb, past tense IN : preposition or subordinating conjunction NNS : noun, plural There/EX are/vbp 70/CD children/nns there/rb EX : existential there VBP : verb, non-3rd person singular present CD : cardinal number RB : adverb

61 Tagging følger en manual Noen avgjørelser vanskelige Eks: skillet mellom preposisjoner (IN), partikler (RP) og adverb (RB) Mrs./NNP Shaefer/NNP never/rb got/vbd around/rp to/to joining/vbg All/DT we/prp gotta/vbn do/vb is/vbz go/vb around/in the/dt corner/nn Chateau/NNP Petrus/NNP costs/vbz around/rb 250/CD Manualen: preposisjoner er assosiert med en etterfølgende subtstantivfrase. Around tagges som adverb i betydningen omtrent

Ordklassetagging 62 Oppmerking av ordklasseinformasjon for hvert ord i et korpus Språkteknologi: automatiske systemer Flertydighet vanskeliggjør dette betydelig Ordnivå: Tokenisering

Tokenisering 63 Tokenisering Tokenisering handler om å dele inn en tekst i ord og setninger. Tidligere har vi gjort det enkelt og bare splittet på mellomrom. Men dette er problematisk: Tar ikke hensyn til tegnsetting og gir ord som cents. said, positive. Crazy?. Her kunne vi tatt bort tegnsetting, men tegnsetting forekommer også innad i ord: m.p.h. cap n, AT&T. Tall inneholder komma i engelsk: 555,000 Det kan være ønskelig å ekspandere forkortede former som for eksempel I m, you re, they ve til henholdsvis I am, you are, they have. Da er det viktig å skille mellom slike former og genitiv s (Mary s) eller anførselstegn ( Oh no, he said)

Ordklassetagging 64 Input: streng av ord og en spesifisert mengde tagger Output: en tagg per ord Book/VB that/dt flight/nn./. Does/VBZ that/dt flight/nn serve/vb dinner/nn?/. Flertydighet: book, that

Flertydighet 65 De fleste engelske ord er entydige Men mange av de mest frekvente ordene er flertydige Tall fra Brown-korpuset: 11.5% av engelske ordtyper er flertydige 40% av Brown tokens er flertydige Heldigvis er ikke alle lesninger like sannsynlige

Algoritmer for ordklassetagging 66 To hovedkategorier: 1. Regelbaserte taggere: stor database med håndskrevne regler. Eksempel: book er substantiv, og ikke verb, dersom etterfølger en determinativ 2. Probabilistiske taggere: bruker et ordklassetagget korpus ( treningskorpus ) til å beregne sannsynlighet for en gitt tagg i en gitt kontekst

NLTK 67 Fra http://www.nltk.org/book/ch05.html > import nltk > text = word_tokenize( And now for something completely different ) > nltk.pos_tag(text) [( And, CC ), ( now, RB ), ( for, IN ), ( something, NN ), ( completely, RB ), ( different, JJ )] > text = word_tokenize("they refuse to permit us to obtain the refuse permit") > nltk.pos_tag(text) [( They, PRP ), ( refuse, VBP ), ( to, TO ), ( permit, VB ), ( us, PRP ), ( to, TO ), ( obtain, VB ), ( the, DT ), ( refuse, NN ), ( permit, NN )]

NLTK 68 > nltk.corpus.brown.tagged_words() [( The, AT ), ( Fulton, NP-TL ),...] > nltk.corpus.brown.tagged_words(tagset= universal ) [( The, DET ), ( Fulton, NOUN ),...]

NLTK 69 > from nltk.corpus import brown > brown_news_tagged = brown.tagged_words(categories= news, tagset= universal ) > tag_fd = nltk.freqdist(tag for (word, tag) in brown_news_tagged) > tag_fd.most_common() [( NOUN, 30640), ( VERB, 14399), ( ADP, 12355), (., 11928), ( DET, 11389), ( ADJ, 6706), ( ADV, 3349), ( CONJ, 2717), ( PRON, 2535), ( PRT, 2264), ( NUM, 2166), ( X, 106)]