IN1140: Introduksjon til språkteknologi. Forelesning #13

Like dokumenter
LF - Eksamen i INF1820

INF INF1820. Arne Skjærholt. Negende les INF1820. Arne Skjærholt. Negende les

UNIVERSITETET I OSLO

IN1140: Introduksjon til språkteknologi. Forelesning #13

Slides til 12.1 Formelt språk og formell grammatikk

For økt elevengasjement i norsk 8 10

INF1820: Oppsummering

INF1820: Ordklasser INF1820: Ordklasser. Arne Skjærholt. 13. februar. INF1820: Ordklasser. Arne Skjærholt. 13. februar

INF2820 Datalingvistikk V2011. Jan Tore Lønning & Stephan Oepen

Norsk minigrammatikk bokmål

IN1140: Introduksjon til språkteknologi. Forelesning #7

IN1140 H2019 gruppeoppgaver Språkmodeller og Ordklasser

INF INF1820. Arne Skjærholt INF1820. Dagens språk: Russisk. dyes yataya l yektsiya. Arne Skjærholt. десятая лекция

UNIVERSITETET I OSLO

INF 2820 V2016: Innleveringsoppgave 3 del 1

Hjemmeeksamen 1 i INF3110/4110

Satsingsområder: Lesing, skriving og regning Tilpasset opplæring Digital kompetanse

Grammatikk Adverb. Forteller oss noe nytt om ord eller setninger

LOKAL LÆREPLAN Vestre Jakobeslv FAG: Norsk 8. klasse

UNIVERSITETET I OSLO

Grunnleggende ferdigheter/momenter fra lokal læreplan

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

. Grammatiske problem med å beskrive ordklassen adverb og setningsleddet adverbial i norsk. Sverre Stausland Johnsen Universitetet i Oslo

UKEPLAN UKE 46 UKE: 46 DATO: GRUPPE: E

Oppgave 1 Vi har gitt følgende grammatikk for noe vi kan kalle speilengelsk :

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF 2820 V2016: Obligatorisk innleverinsoppgave 1

Løsningsforslag. Oppgavesettet består av 9 oppgaver med i alt 20 deloppgaver. Ved sensur vil alle deloppgaver telle omtrent like mye.

IN1140: Introduksjon til språkteknologi. Forelesning #8

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

Løsningsforslag. Emnekode: Emne: Matematikk for IT ITF Eksamenstid: Dato: kl til kl desember Hjelpemidler: Faglærer:

Ordklasser Inndelingen ORDKLASSEINNDELINGEN

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

Oppgave 2. Eksamen INF2820, 2015, oppgave 2. La gramatikk G være:

Setningsledd. Arne Martinus Lindstad Tekstlaboratoriet Universitetet i Oslo.

IN1140 H2018 gruppeoppgaver Sannsynlighet og språkmodeller

Vårplan i norsk for 7.klasse Kaldfjord skole. Vi tar forbehold om endringer!

EKSAMEN. Oppgavesettet består av 9 oppgaver med i alt 20 deloppgaver. Ved sensur vil alle deloppgaver telle omtrent like mye.

Læringsmål for trinnet: Kva skal elevane lære, kunne, mestre innanfor kompetansemålet Eleven Skal Kunne

Addisjon og subtraksjon i fire kategorier

Oppgave 1 (samlet 40%)

IN1140: Introduksjon til språkteknologi. Forelesning #12

samspill Alder 2-3 år Alder 3-4 år Alder 4-5 år Hole kommune språkprosjekt

Norsk med tegnstøtte (NMT) Kurskveld 1. Kurssted: Tønsberg rådhus Fagansvarlig: Ann Karin J. Grimholt KL

RENDALEN KOMMUNE Fagertun skole. Årsplan i norsk for 7. trinn

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

UNIVERSITETET I OSLO

Innholdsfortegnelse. Forord 9. Om å bruke Nå begynner vi! 11

TID TEMA KOMPETANSEMÅL ARBEIDSMETODER VURDERINGSFORMER RESSURSER

Emnenavn: Matematikk for IT. Eksamenstid: Faglærer: Christian F Heide

Oppgave 1. Spørsmål 1.1 (10%) Gitt det regulære uttrykket: a((bcd)+(cd))*cd

FAGPLAN I NORSK FOR 7. TRINN HØSTEN 2016

2/6/2012. Begrensninger ved regulære språk. INF2820 Datalingvistikk V2012. Formelle språk som ikke er regulære KONTEKSTFRIE GRAMMATIKKER.

EKSAMEN I EMNE. TDT4136 Logikk og resonnerende systemer. Fredag 19. desember 2008 Tid: kl

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF2820 Datalingvistikk V2012. Jan Tore Lønning

Lokal læreplan i fransk, Huseby skole. Fransk 8. trinn

Eksamensoppgave i TMA4140 Diskret matematikk

Oppgave 1 (samlet 15%)

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

EKSAMENSOPPGAVE NFUT0006 NORSK FOR UTLENDINGER KORTKURS. Kandidatnummer:

INF2820 V2017 Oppgavesett 6 Gruppe 7.3

Årsplan i norsk med Zeppelin 6

MATEMATIKK. September

NO-158 V-18, generell informasjon

ÅRSPLAN Skoleåret: Trinn: 7.

ÅRSPLAN. Skoleåret: 2017/2018 Trinn: 7. Fag: Norsk Bøker: Zeppelin språkbok og lesebok. + Arbeidsbøker. Letelese Ordliste

INF 2820 V2016: Innleveringsoppgave 3 hele

Grammatikk En innføring av Anne Lene Berge

APPENDIKS D Geminittisk språk/grammatikk

jeg kan improvisere med stemme og instrumenter med utgangspunkt i enkle rytmiske, melodiske og harmoniske mønstre.

Årsplan i norsk med Zeppelin 6

Årsplan i Norsk 3.trinn 2018/2019. lytte etter, gjenfortelle, forklare og reflektere over innholdet i muntlige tekster

Periodeplan. Fag og uketimer: Norsk 10 t/u Gruppe: E Periode: Høst 2017

Fagplan i norsk 7. trinn

Årsplan Engelsk

Et barn er født i Betlehem

INF1080 Logiske metoder for informatikk. 1 Små oppgaver [70 poeng] 1.1 Grunnleggende mengdelære [3 poeng] 1.2 Utsagnslogikk [3 poeng]

Ivar Utne, ; RETTA ; forslag om oppg. II (tekstslingvistikk) FORSLAG TIL SVAR PÅ EKSAMENSOPPGAVER FOR NOSP102-F

EXFAC EURA Syntaks2 1

Leksehjelp for foresatte

Høgskoleni østfold EKSAMEN

EKSAMEN. Oppgavesettet består av 16 oppgaver. Ved sensur vil alle oppgaver telle like mye med unntak av oppgave 6 som teller som to oppgaver.

Årsplan Engelsk Årstrinn: 7. årstrinn Kristin Tynes Vågen

UKEPLAN FOR 7A, UKE 23 TIME

Periode Kompetansemål Tema/Innhold Læremiddel Vurdering Uke 34 Orientere seg i store tekstmengder Lese ulike

ÅRSPLAN I NORSK. 8. klasse 2015/ 16

Løsningsforslag til eksamenen i MAT103, våren 2016

ÅRSPLAN Arbeidsmåter ( forelesing, individuelt elevarbeid, gruppearbeid, forsøk, ekskursjoner )

Satsingsområder: Lesing og begrepstrening Tilpasset opplæring Regning IKT og vurdering for læring

IN2080. Oppgave 1. Oppgave 2. Eksamen. Vår Den nondeterministiske endelige automaten A er gitt ved (Q, Σ, δ, q 0, F ) der

Oppgave 1 (samlet 15%)

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

UNIVERSITETET I OSLO DET HUMANISTISKE FAKULTET

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

Storsteinnes skole Mulighetenes skole med trygghet, ansvar og respekt former vi framtida.

Transkript:

IN1140: Introduksjon til språkteknologi Forelesning #13 Lilja Øvrelid Universitetet i Oslo 16 november 2020

Tema for i dag 2 I dag Gjennomgang av digital prøveeksamen Obligkonkurranse Eksamen 25 november kl 09:00 4 timers hjemmeeksamen i Inspera Trøsterunde på Zoom Alle hjelpemidler er tillatt (lærebok, nettressurser, notater osv.) Det er ikke tillatt å samarbeide eller kommunisere med andre under eksamen om oppgavene.

3 Oppgave 1 Hvilket av alternativene kan ikke gjenkjennes med det følgende regulære uttrykket: ^..j..t.{1,3}$ Majestic Adjective Adjusting Adjunction

3 Oppgave 1 Hvilket av alternativene kan ikke gjenkjennes med det følgende regulære uttrykket: ^..j..t.{1,3}$ Majestic Adjective Adjusting Adjunction

4 Oppgave 2 Skriv et regulært uttrykk som gjenkjenner følgende klasse av strenger : En streng som starter med = etterfulgt av et aritmetisk uttrykk som bruker heltall, addisjon, subtraksjon, og/eller multiplikasjon.

4 Oppgave 2 Skriv et regulært uttrykk som gjenkjenner følgende klasse av strenger : En streng som starter med = etterfulgt av et aritmetisk uttrykk som bruker heltall, addisjon, subtraksjon, og/eller multiplikasjon. Anta her at heltallet inneholder maksimum fire siffer, og at strenger inneholder maksimum tre aritmetiske operasjoner.

4 Oppgave 2 Skriv et regulært uttrykk som gjenkjenner følgende klasse av strenger : En streng som starter med = etterfulgt av et aritmetisk uttrykk som bruker heltall, addisjon, subtraksjon, og/eller multiplikasjon. Anta her at heltallet inneholder maksimum fire siffer, og at strenger inneholder maksimum tre aritmetiske operasjoner. For eksempel skal strengene = 2*3+8-1 og = 2+1000+120+9 gjenkjennes av ditt regulære utrykk.

4 Oppgave 2 Skriv et regulært uttrykk som gjenkjenner følgende klasse av strenger : En streng som starter med = etterfulgt av et aritmetisk uttrykk som bruker heltall, addisjon, subtraksjon, og/eller multiplikasjon. Anta her at heltallet inneholder maksimum fire siffer, og at strenger inneholder maksimum tre aritmetiske operasjoner. For eksempel skal strengene = 2*3+8-1 og = 2+1000+120+9 gjenkjennes av ditt regulære utrykk. Eksempelsvar "starter med" ^ "addisjon, subtraksjon, multiplikasjon" (\+- ) "heltall med maks fire siffer" \d{1,4} (alt. [0-9]{1,4})

Oppgave 2 Skriv et regulært uttrykk som gjenkjenner følgende klasse av strenger : En streng som starter med = etterfulgt av et aritmetisk uttrykk som bruker heltall, addisjon, subtraksjon, og/eller multiplikasjon. Anta her at heltallet inneholder maksimum fire siffer, og at strenger inneholder maksimum tre aritmetiske operasjoner. For eksempel skal strengene = 2*3+8-1 og = 2+1000+120+9 gjenkjennes av ditt regulære utrykk. Eksempelsvar "starter med" ^ "addisjon, subtraksjon, multiplikasjon" (\+- ) "heltall med maks fire siffer" \d{1,4} (alt. [0-9]{1,4}) Det finnes flere måter å løse denne oppgaven på. Følgende er et eksempel: ^=\s\d{1,4}((\* \+ \-)\d{1,4}){1,3} 4

5 Oppgave 3 Gitt følgende setning (dikt fra André Bjerke): I landet Miramarmora var Farao på ferie hos farmora og mormora. En morgen klatret mormora til Farao i furua, og så begynte moroa. 1. Forklar forskjellen mellom begrepene tokens og types. 2. Gi antall tokens og types i setningen. Eksempelsvar 1. Typer er antall unike ord i teksten, mens tokens er antall løpende ord (der like forekomster telles flere ganger). 2. 26 tokens og 22 typer. (mormora, Farao, og,. forekommer to ganger.)

6 Oppgave 4 Hvor mange trigram forekommer i teksten under? <s> Bjelleklang bjelleklang over skog og hei </s> <s> Hør på bjellens muntre klang når Blakken drar i vei </s> Velg ett alternativ 10 12 14 16 <s> Bjelleklang bjelleklang, Bjelleklang bjelleklang over, bjelleklang over skog etc.

6 Oppgave 4 Hvor mange trigram forekommer i teksten under? <s> Bjelleklang bjelleklang over skog og hei </s> <s> Hør på bjellens muntre klang når Blakken drar i vei </s> Velg ett alternativ 10 12 14 16 <s> Bjelleklang bjelleklang, Bjelleklang bjelleklang over, bjelleklang over skog etc.

7 Oppgave 5 Ta for deg ett av trigrammene fra forrige oppgave og vis hvordan det kan brukes til å beregne sannsynligheten for et ord gitt de to foregående ordene i en trigrammodell. Eksempelsvar Vi benytter tellinger av trigram og bigram for å beregne sannsynligheten for ett ord gitt de to foregående ordene, P(w i w i 2 w i 1 ) Eksempel: Trigram: bjelleklang over skog P(skog bjelleklang over) = count(bjelleklang over skog)/count(bjelleklang over) = 1/1

Oppgave 6 Her skal vi jobbe med følgende setning: Underholdende og sofistikert. Herman tok Norge med storm. Gitt ordklassene i Tabell 1 under, tildel ordklasser til alle ordene i setningen. Du må velge ett alternativ for hvert ord. NOUN ADJ VERB PROPN PREP CONJ SUBJ ADV DET PUNCT Substantiv Adjektiv Verb Egennavn Preposisjon Konjunksjon Subjunksjon Adverb Determinativ Tegnsetting 8

8 Oppgave 6 Her skal vi jobbe med følgende setning: Underholdende og sofistikert. Herman tok Norge med storm. Svar Underholdende ADJ og CONJ sofistikert ADJ. PUNKT Herman PROPN tok VERB Norge PROPN med PREP storm NOUN. PUNKT

9 Oppgave 7 Gitt at vi har trent en ordklassetagger. Det finnes to strategier for å evaluere en slik modell: Ekstrinsisk og intrinsisk evaluering. Forklar forskjellen mellom disse to strategiene.

9 Oppgave 7 Gitt at vi har trent en ordklassetagger. Det finnes to strategier for å evaluere en slik modell: Ekstrinsisk og intrinsisk evaluering. Forklar forskjellen mellom disse to strategiene. Eksempelsvar Ekstrinsisk evaluering = Vi evaluerer modellen indirekte utfra hvordan den påvirker resultatene for en annen oppgave. Intrinsisk evaluering = Bruker et mer direkte mål for hvor bra modellen er på oppgaven den ble trent for.

10 Oppgave 8 Anta følgende kontekstfrie grammatikk: S NP VP NP NP PP VP V2 NP VP V1 NP Rudolf, Nissen, nissen, gavene, sleden, grøten V1 sov, danset V2 trakk, spiste PP P NP P med

10 Oppgave 8 Grammatikken over er ikke en komplett grammatikk for norsk. For hver av setningene under, ta stilling til om de gis en analyse av grammatikken. Rudolf danset Nissen danset med Rudolf Rudolf spiste med nissen Nissen spiste gavene Nissen med gavene sov Table: JA X X X NEI X X

11 Oppgave 9 Er grammatikken i forrige oppgave rekursiv? Hvis ja, forklar hvorfor. Hvis nei, gi et eksempel på en rekursiv regel.

11 Oppgave 9 Er grammatikken i forrige oppgave rekursiv? Hvis ja, forklar hvorfor. Hvis nei, gi et eksempel på en rekursiv regel. Eksempelsvar Ja, grammatikken er rekursiv. Regelen NP > NP PP er rekursiv fordi den inneholder samme kategori på venstre og høyre side.

12 Oppgave 10 Vi ønsker å avgjøre hvorvidt sleden er en konstituent i setningen Rudolf trakk sleden. Beskriv minst to konstituenttester og vis hvordan de kan brukes for å hjelpe oss med å avgjøre om sleden er en konstituent.

12 Oppgave 10 Vi ønsker å avgjøre hvorvidt sleden er en konstituent i setningen Rudolf trakk sleden. Beskriv minst to konstituenttester og vis hvordan de kan brukes for å hjelpe oss med å avgjøre om sleden er en konstituent. Eksempelsvar (forkortet) Stå alene: Hva trakk Rudolf? Sleden. Erstattes med pronomen: Rudolf trakk den. Flyttes som enhet: Det var sleden som Rudolf trakk. Sleden ble trukket av Rudolf.

13 Oppgave 11 Du skal nå utvide grammatikken slik at den kan håndtere setninger som Rudolf tror at nissen sov og Rudolf tror at nissen spiste grøten. Hvilke regler må du legge til den opprinnelige grammatikken for å kunne analysere disse setningene?

13 Oppgave 11 Du skal nå utvide grammatikken slik at den kan håndtere setninger som Rudolf tror at nissen sov og Rudolf tror at nissen spiste grøten. Hvilke regler må du legge til den opprinnelige grammatikken for å kunne analysere disse setningene? Eksempelsvar VP -> V3 CP CP -> C S C -> at V3 -> tror

14 Oppgave 12 Tegn det syntaktiske treet for to setninger som gis en analyse av grammatikken.

14 Oppgave 12 Tegn det syntaktiske treet for to setninger som gis en analyse av grammatikken. S NP VP Nissen V2 spiste NP gavene

14 Oppgave 12 Tegn det syntaktiske treet for to setninger som gis en analyse av grammatikken. S NP VP NP PP V1 Nissen P NP sov med gavene

Oppgave 13 I denne oppgaven har vi et lite utvalg ord fra film-anmeldelser som hører til klassene positiv eller negativ. 1 god, fantastisk, morsom (POS) 2 teit, morsom, gøy (POS) 3 dårlig, kjedelig, morsom (NEG) 4 dårlig, kjedelig (NEG) 5 dårlig, teit, kjedelig (NEG) Gitt et nytt test-dokumentet D som inneholder følgende ord: god, teit, fantastisk, bruk Naive Bayes-formelen til å klassifisere test-dokumentet D. Her skal du: 1. Regne ut sannsynlighetene for de forskjellige ordene. Du trenger bare å regne ut for ordene i test-dokumentet. Ikke bruk glatting. 2. Regne ut hvilken verdi som er størst. Blir dokumentet klassifisert som positiv eller negativ? 15

16 Oppgave 13 forts. ˆb = argmaxb B P (b) n j=1 P (v j b) Eksempelsvar Prior sannsynlighetene: P (P OS) = 2 5, P (NEG) = 3 5 Sannsynligheten for hvert ord i testdokumentet gitt den positive eller den negative klassen: P (god P OS) = 1 6, P (teit P OS) = 1 6, P (fantastisk P OS) = 1 6 P (god NEG) = 0 8, P (teit NEG) = 1 8, P (fantastisk NEG) = 0 8 Da får vi: P (P OS)P (S P OS) = 2 5 (1 1 1) 6 3 = 2 5 6 3 P (NEG)P (S NEG) = 3 5 (0 1 0) 8 3 = 0 Setningen blir klassifisert som positiv.

16 Oppgave 13 forts. ˆb = argmaxb B P (b) n j=1 P (v j b) Eksempelsvar Prior sannsynlighetene: P (P OS) = 2 5, P (NEG) = 3 5 Sannsynligheten for hvert ord i testdokumentet gitt den positive eller den negative klassen: P (god P OS) = 1 6, P (teit P OS) = 1 6, P (fantastisk P OS) = 1 6 P (god NEG) = 0 8, P (teit NEG) = 1 8, P (fantastisk NEG) = 0 8 MERK: Vi godtar at studenten teller antall distinkte ord i hver klasse. Altså at resultatene blir: P (P OS)P (S P OS) = 2 5 (1 1 1) 5 3 = 2 5 4 P (NEG)P (S NEG) = 3 5 (0 1 0) 4 3 = 0

17 Oppgave 14 Hvilken semantisk relasjon holder mellom følgende ord-par? Finn de som passer sammen: død - levende klementin - skall slede - transportmiddel snill - slem dame - kvinne dyr - reinsdyr synonymi hyponymi meronymi antonymi hypernymi X X X X X X

18 Oppgave 15 Gi en kort beskrivelse av hva som kjennetegner de følgende semantiske rollene og illustrer svaret ditt med minst ett eksempel for hver rolle. 1. EXPERIENCER 2. AGENT 3. PATIENT 4. INSTRUMENT

18 Eksempelsvar 1. EXPERIENCER: deltageren som opplever handlingen beskrevet av verbet uten å kontrollere den, ofte via sansene. F.eks. Peter ser toget, Peter hører en lyd. 2. AGENT: deltageren som utfører en handling med viten og vilje. F.eks. Peter slår Jenny. 3. PATIENT: deltageren som blir påvirket av handlingen som beskrives, endrer ofte tilstand. F.eks. Peter knuser ruten. 4. INSTRUMENT: redskapet som brukes til å utføre en handling. F.eks. Peter knuser ruten med hammeren.

19 Oppgave 16 Den vanligste måten å løse Named Entity Recognition på er ved ord-for-ord klassifisering, så kalt BIO klassifisering. Anta følgende setning: Thorbjørn Egner ble født 12.12.1912 i Norge på Kampen i Oslo Angi riktig BIO klassifisering med riktig kategori for hvert ord i setningen. Her opererer vi med følgende katergorier: PER (person), ORG (organisajon), LOC (location), DT (dato), GPE (geopolitical entity).

19 Svar O B P I P B O I O B L I L B D I D B G I G Thorbjørn X Egner X ble X født X 12.12.1912 X i X Norge X X på X Kampen X X i X Oslo X X

20 Oppgave 17 Vi har sett på to hovedeksempler av dialogsystemer: oppgaveorienterte dialogagenter og chatbots. For å kunne utvikle slike systemer må vi først forstå hvilke egenskaper av menneskelige samtaler kan være utfordrende å automatisere. Gi eksempler på to slike egenskaper, og forklar hvorfor de er utfordrende.

Eksempelsvar Et lite utvalg av egenskaper av menneskelig språk som kan være utfordrende: Hver sin tur til å snakke. Problemet her, er hvordan kan vi vite at den andre er ferdig med å snakke? Forankring: systemet bør kunne vise brukeren at den har forstått hva brukeren snakker om. Men å identifisere når vi skal gjøre det, eller hvordan er utfordrende. Struktur: rekkefølgen av spørsmål/svar er ikke alltid konsekvent når to mennesker har en samtale, og av og til ombestemmer vi oss. Da må maskinen kunne forstå at det vi snakket om tidligere har endret seg, og at den bør oppdatere sin forståelse av samtalen. Inferens og implikasjon: Vi mennesker klarer fint å forstå både implikasjon og inferens, men for at en maskin skal kunne forstå det må den ha en bred forståelse av verden rundt oss. Flertydighet i språket. 20

Obligkonkurransen 21

21 Obligkonkurransen Tre studenter har fått (nesten) full pott på alle obliger og er vinnere av obligkonkurransen i IN1140 høsten 2020:

21 Obligkonkurransen Tre studenter har fått (nesten) full pott på alle obliger og er vinnere av obligkonkurransen i IN1140 høsten 2020: Helle Bollingmo Irma Hofseth Fearnley Victor Alexander Steen-Olsen

Obligkonkurransen Tre studenter har fått (nesten) full pott på alle obliger og er vinnere av obligkonkurransen i IN1140 høsten 2020: Helle Bollingmo Irma Hofseth Fearnley Victor Alexander Steen-Olsen Gratulerer!!!!!! (Send meg addressen din så kommer en overraskelse i posten...) 21