UIVERSITETET I OSLO et matematisk-naturvitskapelige fakultet Eksam i: IF1820 Introduksjon til språk- og kommunikasjonsteknologi Eksamsdag: 17. juni 2016 Tid for eksam: 14.30 18.30 Oppgavesettet er på 6 sider. Vedlegg: Tillatte hjelpemidler: Ing Ing Kontroller at oppgavesettet er komplett før du begynner å besvare spørsmåle. (Fortsettes på side 2.)
Eksam i IF1820, 17. juni 2016 Side 2 Oppgave 1 Tilstandsmaskiner og regulære uttrykk (vekt 25%) q 5 r o q h 0 q o p p 1 q 2 q 3 q 4 t s q k 6 q i 7 q m 8 q 9 e r q 10 q t 11 1. I figur over ser du tilstandsautomat som gjkjner kelte norske verbformer. Hvilke former av hvilke verb gjkjner automat? u trger ikke liste opp alle forme, m beskriv alle mulighete for automat. Imperativ, infinitiv, press, preteritum av rope, hoppe, skimte. 2. Skriv et regulært uttrykk som gjkjner de samme forme som automat. /(rop hopp skimt)(e er et)?/ /(rop hopp skimt)(e[rt]?)?/ /(rop hopp skimt)(e(r t)?)?/ 3. I faget har vi snakket del om skillet mellom deterministiske og ikke-deterministiske automater. Hva kjnetegner deterministisk automat? En deterministisk automat kjnetegnes av at det kun finnes én mulig transisjon fra hver tilstand gitt et symbol htet fra alfabetet. Oppgave 2 Morfologi (vekt 25%) 1. Vi skiller mellom såkalte åpne og lukkede ordklasser. Hva skiller de to type ordklasse fra hverandre? e åpne ordklasse utvides ofte og får stadig nye medlemmer. e lukkede derimot består av lit gruppe ord som svært sjeld får nye medlemmer 2. Av de ti ordklasse vi opererer med på norsk, hvilke regner vi som åpne? Substantiv, verb, adjektiv (adverb) (Fortsettes på side 3.)
Eksam i IF1820, 17. juni 2016 Side 3 ( t w) = (t i t i 1 ) (w i t i ) i=1 3. Ligning over viser sannsynlighet HMM-modell tilordner taggsekvs gitt ordsekvs. Hvilke sannsynligheter trger vi for å regne ut sannsynlighet for at setning Baby begynte å gå tidlig har taggsekvs subst verb sbu verb adv? Observasjonssannsynligheter og transisjonssannsynligheter (Baby subst) x (subst <s>) x (begynte verb) x (verb subst) x (aa sbu) x (sbu verb) x (gaa verb) x (verb sbu) x (tidlig adv) x (adv verb) 4. Et viktig problem for HMM-modeller er ukjte ord. Beskriv kort hvilket problem ukjte ord medfører for HMM-modell og hvordan vi løser det. Ved MLE fra et korpus vil d estimerte sannsynlighet for et ukjt ord bli 0 og dermed blir sannsynlighet for hele setning 0 (pga multiplikasjon). ette kan løses ved såkalt smoothing, der man reserverer noe av sannsynlighetsmass for ukjte ord (f.eks. add-one smoothing). Oppgave 3 Syntaks (vekt 25%) Anta følgde grammatikk for et fragmt av norsk: S V V et baby vindu vugge V sover i ved 1. Hvor mange analyser tildeler grammatikk til setninge under? (a) baby sover i vugge ved et vindu 2 analyser (Fortsettes på side 4.)
Eksam i IF1820, 17. juni 2016 Side 4 S baby V ved sover i et vindu vugge S baby V sover i vugge ved (b) et barn i vugge sover 1 analyse et vindu 2. Tegn treet eller trærne grammatikk tilordner setning (a). 3. Utvid grammatikk slik at d tillater vilkårlig mange adjektiver foran substantivet i substantivfras og godtar setninger som: (a) lit søt baby sover i stor vugge -> om om -> om -> Adj om 4. Hvor mange analyser tilordner d utvidede grammatikk din til setning rund lit søt baby sover? 1 analyse Oppgave 4 Semantikk (vekt 25%) 1. Vi sier at Erna Solberg og statsminister har lik referanse, m forkjellig betydning. Hva mer vi med dette? (Fortsettes på side 5.)
Eksam i IF1820, 17. juni 2016 Side 5 Referanse og betydning er to ulike aspekter ved ming. er referanse peker ut objekter i verd, represterer betydning et mer varig mingsaspekt. F.eks. i 2016 er Erna Solberg statsminister, s orde Erna Solberg og statsminister referer til det samme, m statsminister inneholder ogs mer informasjon, f.eks. landets politiske overhode, etc. som er uavhgig av referanse. 2. Forklar kort hva semantisk rolle er, og hvordan vi bruker semantiske roller til å analysere setninger. Semantiske roller beskriver de ulike rolle deltagere i handling som beskrives av hovedverbet innehar. et er i hovedsak verbets argumter som analyseres og tildeles rolle og dette gjøres på konstitutnivå. 3. Analyser setning søte baby kaster grøt. ved hjelp av semantiske roller. Beskriv de forskjellige rolle du har tilordnet. søte baby AGET grøy THEME AGET-roll brukes for å beskrive deltager som utfører handling beskrevet av verbet med vit og vilje. THEME-roll brukes for å beskrive deltager som påvirkes av handling og som forflyttes som følge av at handling finner sted. 4. I informasjonsgjfinning (Information Retrieval) brukes som regel d såkalte vektorrommodell for å represtere dokumter. Beskriv kort hvordan dokumter represteres i dne modell. I vektorrommodell represteres dokumterer som vektor der dimsjone er orde ( terme ) som forekommer i dokumtet. ersom term forekommer i dokumtet er dets verdi i vektor ikkull, f.eks. terms frekvs i dokumtet eller vektet frekvs (se under). La oss anta følgde dokumtsamling: d 1 = {a,a,b,b,b} d 2 = {a,a,a,b,b} For dne samling får vi vektore d 1 og d 2 : d 1 = (2,3) d 2 = (3,2) der dimsjone i vektor svarer til hholdsvis terme a og b. 5. I vektorrommodell brukes ofte tf-idf -vekting for å forbedre modell. Hvordan regner vi ut idf-vekt, og hva er hsikt med dne vekting? tf-idf vekter brukes til vekte termers frekvs i vektorrommodell og foretrekker ord som er vanlige i ett dokumt, m sjeldne i samling som helhet. Vekting regnes ut slik: v 1,movie = tf 1,movie idf movie (Fortsettes på side 6.)
Eksam i IF1820, 17. juni 2016 Side 6 der idf-vekt regnes ut slik: idf movie = log n movie der vi har dokumter i dokumtsamling, og n movie inneholder term movie. av dem