Mer om WSD Ordlikhet. Ordlikhet INF5820 H2008. Jan Tore Lønning. Institutt for Informatikk Universitetet i Oslo. 17. september

Like dokumenter
Informasjonsgjenfinning

INF5820 H gang, 19.9 Ordmeningsentydiggjøring Word Sense Disambiguation (WSD)

HMM-tagging INF4820 H2008. Jan Tore Lønning. 30. september. Institutt for Informatikk Universitetet i Oslo

Sammendrag INF5820 H2008. Jan Tore Lønning. 1. oktober. Institutt for Informatikk Universitetet i Oslo

Factoid Spørsmål Svar

LF - Eksamen i INF1820

INF5820 H gang, 10.9 Ordmeningsentydiggjøring Word Sense Disambiguation (WSD)

Mengdelære INF1800 LOGIKK OG BEREGNBARHET FORELESNING 2: MENGDELÆRE. Læreboken. Mengder. Definisjon (Mengde) Roger Antonsen

INF1800 LOGIKK OG BEREGNBARHET

På oppdagelsesreise etter den tapte informasjonen. Søk og søkemotorer Teoretisk gjennomgang

INF5820 H gang, 10.9

INF5820 Natural Language Processing - NLP. H2009 Jan Tore Lønning

3 Største felles faktor og minste felles multiplum

IN1140: Introduksjon til språkteknologi. Forelesning #10

Leksikalsk semantikk II

Praktisk bruk av maskinlæring i vedlikehold

MAT1030 Diskret Matematikk

Forelesning 29: Kompleksitetsteori

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

Enkle generiske klasser i Java

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

Fra speilmetoden til automatisk ekstrahering av et betydningstagget korpus for WSD-formål

MAT1030 Diskret matematikk

TDT4117 Information Retrieval - Autumn 2014

IN1140: Introduksjon til språkteknologi. Forelesning #10

Kap. 5, Del 3: INF5110, fra 1/3-2011

Dagens plan. INF3170 Logikk. Mengder. Definisjon. Notasjon. Forelesning 0: Mengdelære, Induksjon. Martin Giese. 23. januar 2008.

Kapittel 8. Potensregning og tall på standardform

Betinget sannsynlighet, total sannsynlighet og Bayes setning Kapittel 4.5

INF1820: Oppsummering

Eksamen - INF 283 Maskinlæring

Konvertering mellom tallsystemer

Lineære likningssystemer og matriser

Repetisjon og mer motivasjon. MAT1030 Diskret matematikk. Repetisjon og mer motivasjon

VELKOMMEN TIL MAT-INF1100(L) Knut Mørken Rom 1033, Niels Henrik Abels hus

INF2820 Datalingvistikk V Gang 13.4 Jan Tore Lønning

HANDLINGSPLAN MOT MOBBING FOR LYNGSTAD OG VEVANG BARNEHAGER

INF2820 Datalingvistikk V Gang, del Jan Tore Lønning

Litt kontekst Topic maps er en måte å organisere informasjon på en ISO standard (ISO/IEC 13250:2000) en XML applikasjon et lag oppå XML (gjerne også o

MAT1030 Diskret Matematikk

Forelesning 23. MAT1030 Diskret Matematikk. Repetisjon og mer motivasjon. Repetisjon og mer motivasjon. Forelesning 23: Grafteori.

Kapittel 5: Mengdelære

15 Hovedprinsippet for vektorrom med et indre produkt

EKSAMENSOPPGAVE I FAG TDT4117 INFORMASJONSGJENFINNING (BOKMÅL) SENSURVEILEDNING

UNIVERSITETET I OSLO

Nyhet! uunnværlig på jobb.

. Grammatiske problem med å beskrive ordklassen adverb og setningsleddet adverbial i norsk. Sverre Stausland Johnsen Universitetet i Oslo

MAT1030 Diskret Matematikk

IN1140: Introduksjon til språkteknologi. Forelesning #13

INF1800 Forelesning 2

Language descriptors in Norwegian Norwegian listening Beskrivelser for lytting i historie/samfunnsfag og matematikk

Årsplan engelsk fordypning 2018/2019

Mange definisjoner. Hva er datagruvedrift (data mining)?

UNIVERSITETET I OSLO

INF1010. Grensesnittet Comparable<T>

Relasjonsdatabasedesign

Årsplan engelsk fordypning 2018/2019

INF1010 våren 2008 Uke 4, 22. januar Arv og subklasser

MAT1030 Diskret Matematikk

Repetisjon: (nesten) alt du trenger å kunne om ORM og realisering

Kapittel 5: Mengdelære

Dette er min sjette rapport som programsensor. Den er skrevet med utgangspunkt i rapportene for årene

Forelesning 14. Rekursjon og induksjon. Dag Normann februar Oppsummering. Oppsummering. Beregnbare funksjoner

Løsningsforslag eksamen INF3480 vår 2011

INF Algoritmer og datastrukturer

Kap. 6 Ortogonalitet og minste kvadrater

Oppgave 1 (samlet 15%)

INF1820: Applikasjoner

Dagens tema: Begrepsdannelse Eksterne entydighetsskranker

TMA4140 Diskret Matematikk Høst 2018

Betinget sannsynlighet, total sannsynlighet og Bayes setning Kap. 4.5 STK1000 H11

Oblig3 - obligatorisk oppgave nr. 3 (av 3) i INF3350/4350

Årsplan norsk fordypning 2018/2019

INF2820 Datalingvistikk V Gang 6.4 Jan Tore Lønning

Løsningsforslag til eksamen i MA1202/MA6202 Lineær algebra med anvendelser høsten 2009.

Generalisering til mange klasser - feilrettingsmetodene

Grafteori. MAT1030 Diskret Matematikk. Repetisjon og mer motivasjon. Repetisjon og mer motivasjon. Forelesning 23: Grafteori.

SOSI standard - versjon Del 1: Regler for navning av geografiske elementer. DEL 1: Regler for navning av geografiske elementer

MAT1030 Diskret matematikk

INF2820 Datalingvistikk V Gang 23.3 Jan Tore Lønning

Måling av informasjonssikkerhet i norske virksomheter

MAT1030 Diskret Matematikk

Diskusjonsoppgaver Hvilke fordeler oppnår man ved analytisk evaluering sammenliknet med andre tilnærminger?

Årsplan norsk fordypning 2018/2019

MAT1030 Diskret matematikk

MAT1030 Diskret matematikk. Kompleksitetsteori. Forelesning 29: Kompleksitetsteori. Dag Normann KAPITTEL 13: Kompleksitetsteori. 7.

Oblig2 - obligatorisk oppgave nr. 2 (av 4) i INF1000 v2008

INF2820 Datalingvistikk V Gang 6.4 Jan Tore Lønning


INF2810: Funksjonell Programmering. Lister og høyereordens prosedyrer

INF våren 2017

Spørsmålskompilering del 1

INF 2820 V2015: Obligatorisk innleveringsoppgave 3

Inception Elaboration Construction Transition Bemanning 1 1,5 2 2 Varighet i uker Antall iterasjoner (lengde i uker i parentes) Tabell 1

Forelesning 3, kapittel 3. : 3.2: Sannsynlighetsregning. Kolmogoroffs aksiomer og bruk av disse.

Dyp læring. Sigmund Rolfsjord

KUNSTEN Å LÆRE. P. Krishna

UNIVERSITETET I OSLO

Transkript:

INF5820 H2008 Institutt for Informatikk Universitetet i Oslo 17. september

Outline 1 Utfyllende om glatting Andre WSD-metoder Bootstrapping 2 Samforekomstvektor Kontekstassosiasjon Vektorlikhet

Glatting Utfyllende om glatting Andre WSD-metoder Bootstrapping Motivasjon Et endelig antall observasjoner er ikke helt representative. Det at vi ikke har sett noe utelukker ikke at det finnes. Ønsker ikke å multiplisere med 0 (ingen informasjon) og i hvert fall ikke dividere med 0 (tull).

Eksempel Utfyllende om glatting Andre WSD-metoder Bootstrapping P(s i ) = count(s i, w) count(w) for i = 1,... n Her vil Ønsker ingen P(s i ) = 0 n P(s i ) = 1 i=1 Vi antar at vi har sett alt en gang mer enn vi har: P(s i ) = count(s i, w) + 1 count(w) + n Egenskapen beholdes n i=1 P(s i) = 1 (en sannsynlighet)

Kommentarer Utfyllende om glatting Andre WSD-metoder Bootstrapping Å legge til 1 kan bli for mye hvis det er mange usette klasser. Anta at f er som i boka, men har 20 plasser. Da blir det 2 20, dvs. mer enn en million forskjellige vektorer. Hvis vi nå ville telle count( f, w) og w har noen hundre forekomster, vil det bli alt for mye sannsynlighet på det vi ikke har sett. Vi kan legge til mindre enn 1. Det finnes mange mer avanserte metoder for glatting.

Trekksannsynligheter Utfyllende om glatting Andre WSD-metoder Bootstrapping Litt uklart i boka hva f j er f.eks. i (20.8). Mer presist: det er et vokabular v 1, v 2,... v m. En kontekstvektor f representerer en kontekst c ved at f j = 1 hvis v j er tilstede i c, for j = 1,... m f j = 0 ellers count(f j, s) teller altså opp de forekomstene av s der v j er i konteksten for f j = 1 og de forekomstene av s der v j ikke er i konteksten for f j = 0. Glatting: P(f j s) = count(f j, s) + 1 count(s) + 2

Beslutningslisteklassifikator Utfyllende om glatting Andre WSD-metoder Bootstrapping Også basert på supervised korpuslæring. En annen klassifikator En rekke tester Metoder for å lære denne

Ordboksbaserte metoder Utfyllende om glatting Andre WSD-metoder Bootstrapping Lesk-algoritmen Hovedidé: Sammenlikn kontkest med det du finner i en definisjonsordbok Enkleste form: Sammenlikn ordene i konteksten med orden i definisjonene for ordet vi skal dismbiguere. Mer avansert: Sammnlikn definisjonene til ordene i konteksten med definsjonene for ordet som skal disambigueres.

Flere metoder Utfyllende om glatting Andre WSD-metoder Bootstrapping Bruk thesaurus, f.eks. WordNet og relasjoner i det. Oversettelse: Tospråklig ordbok Korpus av oversettelser Helge Dyvik s speilmetode

Bootstrapping Utfyllende om glatting Andre WSD-metoder Bootstrapping Når vi har lite treningsdata 1 Start med noe treningsdata 2 Lag en klassifikator fra dette 3 Bruk dette til å klassifisere et større korpus 4 Plukk ut de beslutningene du er mest sikker på 5 Utvid treningsdata med de beslutningene du er mest sikker på 6 Gjenta

WSD mange muligheter Utfyllende om glatting Andre WSD-metoder Bootstrapping Valg 1 Kunnskapskilde: oppmerket enspråklig korpus (supervised methods), umerket enspråklig korpus (unsupervised methods), oversettelseskorpus, enspråklig ordbok, tospråklig ordbok 2 Hvilken informasjon vi vil trekke ut av kilden 3 Hvordan vi vil trekke informasjon ut av kilden 4 Hvordan vi vil bruke informasjonen Maskinlæring: 3 + 4 Praksis Kombinasjon av ulike metoder

( similarity ) vs. WSD Ett ord flere meninger WSD Flere ord (nesten) samme mening, word similarity Men: WSD går på en spesifikk forekomst av et ord. går på mønster over alle forekomster, en leksikalsk egenskap

Likhet similarity (Nesten) synonymer Men også hyponymer eller søsken i et hyponym-hierarki, eller mer generelt (nære) slektninger. De fleste metoder vil finne ord med liknende egenskaper men svært forskjellig innhold: vått tørt, stor liten, blå rød

Kilde: en thesaurus, f.eks. Word Net Et uttrykk for nærhet i thesaurusen som vi vil bruke Algoritmer/maskinlæringsteknikker for å finne hvilke ord som står i nærhetsrelasjonen Boka nevner 5 forskjellige algoritmer

Distribusjonbaserte metoder Se nærmere på disse fordi Liknende teknikker som i WSD og til IR Krever bare et (umerket) korpus Hovedidé: You shall know a word by the company it keeps! (Firth 1957) Liknende ord opptrer i liknende kontekster. Jfr. WSD: samme mening opptrer i liknende kontekster.

Noen typer valg Hvordan definerer vi kontekst (jfr. WSD)? Hvordan bruker vi kontekstene? Hvordan vekter vi kontekstvektorene? Hvordan beregner vi avstanden mellom kontekstvektorene?

Samforekomstvektor Valg Hvor stort vindu? 2 ord? 1000 ord? Hvilke ord i vinduet? Alle ord unntatt stoppord, eller Nøkkelord (jfr. bokas WSD)? Går ikke siden vi ikke vet hvilke ord som hører sammen. Ord som står i bestemte relasjoner til ordene vi ser på

Samforekomstvektor Grammatiske relasjoner I discovered dried tangerines. Ord funksjon til discover subject I tangerine object-of discover dried adj-mod-of tangerine I subj-of discover tangerine adj-mod dried Relasjoner av ulike typer Grammatiske avhenger delvis av grammatisk modell Semantiske

Kontekstassosiasjon En feature f = (r, w ), eksempel: (obj-of discover) Skulle tro at assoc prob (w, f ) = P(f w) = count(f, w) count(w) Slik vi gjorde med WSD. Ikke galt, men andre virker bedre

Pointwise mutual information I(x, y) = log 2 P(x, y) P(x)P(y) Denne er 1 hvis de er uavhengige, > 1 hvis det forekommer ofte sammen assoc PMI (w, f ) = log 2 P(w, f ) P(w)P(f )

Kontekstassosiasjon Andre mål: Lin association measure t-test Vi skal ikke/trenger ikke lære alle i detaljer: Skjønne det generelle bildet Trenger å skjønne noe i detalj Bruker tildels pakker, andres programmer Være klar over at det kan være mer som skjer enn det vi har lært Være i stand til å gå i detalj når vi trenger det

Vektorlikhet Hva skal vi se på? Differanse, eller Skalarprodukt? Differanse Lengden av avstandsvektoren Manhatten: N x i y i i=1 Euklidsk: N (x i y i ) 2 i=1

Produkt sim dot-product ( v, w) = v w = N v i w i i=1 sim cosine ( v, w) = v w v w = =1 hvis de peker i samme retning N N i=1 v i w i i=1 v 2 i N i=1 w 2 i