INF1820: Introduksjon til språk-og kommunikasjonsteknologi

Like dokumenter
INF1820: Introduksjon til språk-og kommunikasjonsteknologi

IN1140: Introduksjon til språkteknologi. Forelesning #5: Språkmodeller

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

IN1140 H2018 gruppeoppgaver Sannsynlighet og språkmodeller

Forelesning 3, kapittel 3. : 3.2: Sannsynlighetsregning. Kolmogoroffs aksiomer og bruk av disse.

IN1140 H2019 gruppeoppgaver Språkmodeller og Ordklasser

Sannsynligheten for en hendelse (4.2) Empirisk sannsynlighet. ST0202 Statistikk for samfunnsvitere

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

Loven om total sannsynlighet. Bayes formel. Testing for sykdom. ST0202 Statistikk for samfunnsvitere

INF5820 Natural Language Processing - NLP. H2009 Jan Tore Lønning

ÅMA110 Sannsynlighetsregning med statistikk, våren Grunnbegrep. Grunnbegrep, sannsynligheten for et utfall

Kapittel 4.3: Tilfeldige/stokastiske variable

ÅMA110 Sannsynlighetsregning med statistikk, våren 2010

ST0202 Statistikk for samfunnsvitere

ÅMA110 Sannsynlighetsregning med statistikk, våren 2011

ÅMA110 Sannsynlighetsregning med statistikk, våren 2011

LF - Eksamen i INF1820

Sannsynlighetsbegrepet

Blokk1: Sannsynsteori

Sannsynlighetsregning og Statistikk

Introduction to the Practice of Statistics

Sannsynlighet i uniforme modeller. Addisjon av sannsynligheter

ÅMA110 Sannsynlighetsregning med statistikk, våren 2007

STK Oppsummering

MULTIPLE CHOICE ST0103 BRUKERKURS I STATISTIKK September 2016

Slide 1. Slide 2 Statistisk inferens. Slide 3. Introduction to the Practice of Statistics Fifth Edition

Sannsynlighetsregning og kombinatorikk

Oppgave 1 (samlet 15%)

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

ST0202 Statistikk for samfunnsvitere

Sannsynligheten for en hendelse (4.2) Empirisk sannsynlighet. ST0202 Statistikk for samfunnsvitere

STK1100 våren Betinget sannsynlighet og uavhengighet. Svarer til avsnittene 2.4 og 2.5 i læreboka

Terningkast. Utfallsrommet S for et terningskast med en vanlig spillterning med 6 sider er veldefinert 1, 2, 3, 4, 5, 6

ÅMA110 Sannsynlighetsregning med statistikk, våren 2008

Betinget sannsynlighet

IN1140: Introduksjon til språkteknologi. Forelesning #13

Denne uken: Kapittel 4.3 og 4.4

Generalisering til mange klasser - feilrettingsmetodene

Fagdag ) Du skal fylle ut en tippekupong. På hvor mange måter kan dette gjøres?

ST1101/ST6101 Sannsynlighetsregning og statistikk Vår 2019

HMM-tagging INF4820 H2008. Jan Tore Lønning. 30. september. Institutt for Informatikk Universitetet i Oslo

Sannsynlighetsregning

STK1100 våren Introduksjon til sannsynlighetsbegrepet. Deterministiske fenomener. Stokastiske forsøk. Litt historikk

Kapittel 3: Stokastiske variable og sannsynlighetsfordelinger

ØVINGER 2017 Løsninger til oppgaver. 3.1 Myntkast For et enkelt myntkast har vi to mulige utfall, M og K. Utfallsrommet blir

Oppgave 1 (samlet 15%)

ST0202 Statistikk for samfunnsvitere

6 Sannsynlighetsregning

ECON Statistikk 1 Forelesning 3: Sannsynlighet. Jo Thori Lind

Kapittel 2: Sannsynlighet

STK1100 våren Introduksjon til sannsynlighetsbegrepet. Deterministiske fenomener. Stokastiske forsøk. Litt historikk

ÅMA110 Sannsynlighetsregning med statistikk (5sp), våren 2012 BMF100 Sannsynlighetsregning og statistikk 1 (10sp), våren 2012

ST0202 Statistikk for samfunnsvitere

Forelesning 5, kapittel 3. : 3.5: Uavhengige hendelser.

ECON Statistikk 1 Forelesning 4: Stokastiske variable, fordelinger. Jo Thori Lind

ST0103 Brukerkurs i statistikk Høst 2014

Kompetansemål Hva er sannsynlighet?... 2

Følgelig vil sannsynligheten for at begge hendelsene inntreffer være null,

Innledning kapittel 4

STK1100 våren Introduksjon til sannsynlighetsbegrepet. Svarer til avsnittene 2.1 og 2.2 i læreboka

INF2820 Datalingvistikk V Gang, del Jan Tore Lønning

Datainnsamling, video av forelesning og referansegruppe

Statistikk 1 kapittel 3

ST0202 Statistikk for samfunnsvitere

1 Section 4-1: Introduksjon til sannsynlighet. 2 Section 4-2: Enkel sannsynlighetsregning. 3 Section 5-1: Introduksjon til sannsynlighetsfordelinger

ÅMA110 Sannsynlighetsregning med statistikk, våren 2011

Kapittel 2, Sannsyn. Definisjonar og teorem på lysark, eksempel og tolking på tavla. TMA september 2016 Ingelin Steinsland

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INNHOLD. Matematikk for ungdomstrinnet

Kapittel 4: Sannsynlighet - Studiet av tilfeldighet

Deterministiske fenomener MAT0100V Sannsynlighetsregning og kombinatorikk

TMA4240 Statistikk H2010

Bruk av norsk talegjenkjenning for virtuelle besøk innen helsesektoren

Quiz, 4 Kombinatorikk og sannsynlighet

Sannsynlighet: Studiet av tilfeldighet

TMA4240 Statistikk Høst 2015

ST0202 Statistikk for samfunnsvitere [4]

Fra første forelesning:

INF1820: Ordklassetagging

SANNSYNLIGHETSREGNING

Dimensjonalitetsproblemer (3)

TMA4240 Statistikk 2014

Talegjenkjenning for funksjonshemmede. Innledede test av talegjenkjenning for funksjonshemmede. Prosjekt: Antall sider:

Tema 1: Hendelser, sannsynlighet, kombinatorikk Kapittel ST1101 (Gunnar Taraldsen) :19

ST0202 Statistikk for samfunnsvitere

Dokument-embeddings / Markov-kjeder. Fredrik Jørgensen, Schibsted Media/UiO

Innledning kapittel 4

INF2820 Datalingvistikk V2011. Jan Tore Lønning & Stephan Oepen

Oppgaver. Innhold. Sannsynlighet Vg1P

Forelening 1, kapittel 4 Stokastiske variable

ST1101/ST6101 Sannsynlighetsregning og statistikk Vår 2019

Betinget sannsynlighet, total sannsynlighet og Bayes setning Kapittel 4.5

Statistikk 1 kapittel 3

Forelesning 4, kapittel 3. : 3.4: Betinget sannsynlighet.

INF5820 H gang, 10.9 Ordmeningsentydiggjøring Word Sense Disambiguation (WSD)

IN2110 Obligatorisk innlevering 1a

Mer om Markov modeller

Transkript:

INF1820: Introduksjon til språk-og kommunikasjonsteknologi Sjette forelesning Lilja Øvrelid 27 februar, 2017 1 Sannsynlighet Sannsynlighet spiller en svært viktig rolle i språkteknologi... og også i dette kurset! Språklig input inneholder mye bråk (noise), er flertydig og usegmentert Sannsynlighetsteori gir gode modeller for problemløsing og valg under usikre betingelser Bruker sannsynlighet for å kvantifisere graden av sikkerhet/usikkerhet vi innehar 2

Sannsynlighet Gir oss mulighet til å modellere språklige sammenhenger: Gitt kontekst Y, hva er sannsynligheten for at vi nettopp hørte ord X (og ikke ord Z)? Gitt at vi har struktur X i input en, hva er sannsynligheten for at vi også har struktur Y? 3 Sannsynlighet Terningkast-eksempler Hva er sannsynligheten for å kaste en 1? Hva er sannsynligheten for å kaste en 2? Hva er sannsynligheten for å kaste en 3 eller 4? 4

Sannsynlighet Men hva har dette med språklige fenomener å gjøre? Talegjenkjenning: hvilket ord ble nettopp ytret? Vi har etablert at taleren snakker engelsk Kan beregne sannsynligheten for at ordet er the og f.eks. telephone Vi kan være ganske sikre på at det mest sannsynlige ordet er the (ca 5%) 5 Litt terminologi Utfallsrommet ( sample space ): mengden Ω av mulige utfall, hvert utfall er assosiert med en sannsynlighet, summerer til 1. Eksempel: terningkast Ω = {1, 2, 3, 4, 5, 6} Distribusjon: mengde (ikke-negative) tall som summerer til 1. Eksempel: terningkast Seks resultater, antar typisk at disse er like sannsynlige: 1/6 (uniform distribusjon) 6

Litt terminologi Hendelser (A, B, C,... ) utfallsmengden ( events ) er delmengder av Enhver mengde utfall har en sannsynlighet: summen av medlemmenes sannsynlighet Sannsynligheten for å slå et partall: 0.5 En sannsynlighetsfunksjon P er en funksjon fra hendelser til intervallet [0, 1] P(A) gir sannsynligheten for hendelsen A Med terning: P({2}) = 1 6, P({2, 4, 6}) = 1 2 7 Aksiomer Sannsynlighetsteoriens 3 aksiomer: P(A) 0 for alle hendelser A P(Ω) = 1 P(A B) = P(A) + P(B) (additivitet for disjunkte hendelser) 8

Modeller Dette er grunnlaget for alle sannsynlighetsmodeller: vi lager en modell over en mengde data tildeler en distribusjon til mengden av mulige utfall Notasjon: sannsynligheten skal alltid summere til 1: p i = 1.0 i 9 Felles sannsynlighet Felles sannsynlighet ( joint probability ) for to hendelser A og B er sannsynligheten for at begge hendelser finner sted, P(A B) kaster to mynter, første er kron, andre er mynt Uavhengighet: sannsynligheten for en påvirker ikke sannsynligheten for den andre. To hendelser er uavhengige hvis P(A og B) = P(A)P(B) (Multiplikasjonsregelen) 10

Sannsynlighet og språk Vi begynner å nærme oss... 1000-siders terning (Hva er sannsynligheten for 567?) Velger ut de 1000 mest frekvente ordene fra Brown-korpuset Ved hvert terningkast velger vi ordet med den rangeringen (1=the, 2=of osv.) 320 990 646 94 756 whether designed passed must southern En svært enkel ordgenerator 11 Sannsynlighet og språk Men ikke helt slik vi tenker oss modellering av språklige fenomener Hva er sannsynligheten for en setning noen faktisk har ytret? In the beginning was the word 6 ord: 1/1000 * 1/1000 * 1/1000 * 1/1000 * 1/1000 * 1/1000 Men tildeler samme sannsynlighet til enhver sekvens av seks ord Bra eller dårlig grammatikk for engelsk? Modellen vil gi sannsynlighet 0 til enhver sekvens med ord som ikke er blant de 1000 mest frekvente + Men vil også gi sannsynlighet 0 til en setning som ikke er på engelsk 12

Sannsynlighet og språk Et bedre forslag: tildele hvert ord en sannsynlighet som tilsvarer dets frekvens i et korpus F.eks. the forekommer 69903 ganger ut av 1159267 ord, gir en sannsynlighet på ca. 0.0603 Utfallsrom (Ω) = mengden av engelske ord (funnet empirisk, dvs i korpuset) Tildeler dem en sannsynlighet som tilsvarer frekvens i korpuset Dette er en unigram ordmodell Sannsynlighetene summerer til 1.0 13 Sannsynlighet og språk Toppen av unigramdistribusjonen for Brown-korpuset ord telling frekvens the 69903 0.068271 of 36341 0.035493 and 28772 0.028100 to 26113 0.025503 a 23309 0.022765 in 21304 0.020807 that 10780 0.010528 is 10100 0.009864 was 9814 0.009585 he 9799 0.009570 for 9472 0.009251 it 9082 0.008870......... 14

Zipfs lov Empirisk lov innenfor matematisk statistikk Ranger alle ordene etter frekvens Det andre ordet vil opptre ca halvparten så ofte som det første ordet, det tredje ordet en tredjedel så ofte som det første, osv. https://www.youtube.com/watch?v=fcn8zs912oe 15 Sannsynlighet og språk Hva er sannsynligheten for setningen The woman arrived? Fra unigrammodellen: P(the) = 0.068271, P(woman) = 0.00023, P(arrived) = 0.00006 Sannsynligheten til vår 3-ords setning (S) blir da P(S) = P(the) * P(woman) * P(arrived) Antar at sannsynligheten til et ord er uavhengig av posisjon 16

Betinget sannsynlighet Noen ganger ønsker vi å begrense utfallsrommet Vi har mer informasjon som vi vil inkludere i modellen Trekker et kort og får vite at kortet er rødt Gjetter et ord og får vite at ordet er et substantiv Gjetter et ord og får vite hva det foregående ordet er Skal gjette noe, men har informasjon som gjør at vi kan gjette bedre Betinget sannsynlighet ( conditional probability ) 17 Betinget sannsynlighet Betinget sannsynlighet ( conditional probability ) Lar oss håndtere avhengige hendelser P(A B) = P(A)P(B A) = P(B)P(A B) 18

Betinget sannsynlighet Kjederegelen generaliserer multiplikasjonsregelen til flere hendelser: P(A B C D E...) = P(A)P(B A)P(C A B)P(D A B C)... 19 Språkmodeller

Språkmodeller Språkmodeller (n-grammodeller): sannsynlighetsmodeller som angir sannsynligheten for neste ord gitt de n 1 foregående ordene Kan også brukes til regne ut sannsynligheten for en hel setning 20 Språkmodeller Brukes innenfor en rekke språkteknologiske områder: talegjenkjenning det vil jeg gjerne er mer sannsynlig enn det vil jeg hjerne stavekontroll Their are problems wit this sentence maskinoversettelse mer sannsynlige setninger er antagelig bedre oversettelser Sentral kobling til nye metoder for ML: deep learning 21

Språkmodeller Et n-gram er en sekvens av n ord (tokens) 2-gram (bigram; n = 2) er en sekvens av to ord, feks Johaug blir, blir utestengt, utestengt i, i ett, ett år 3-gram (trigram; n = 3) er en sekvens av tre ord, feks Johaug blir utestengt, blir utestengt i, utestengt i ett, i ett år En språkmodell (n-grammodell) er en modell som forutsier det siste ordet i et n-gram gitt de foregående ordene 22 Notasjon Sum og produkt n i=1 a i = a 1 + a 2 +... + a n n i=1 a i = a 1 a 2... a n Eksempler 7 i=1 1 + 2 + 3 + 4 + 5 + 6 + 7 = 28 7 i=1 1 2 3... 7 = 5040 23

Språkmodeller Vi ønsker å finne sannsynligheten for et ord w gitt en historie h: P(w h), for eksempel: P(år Johaug blir utestengt i ett) Hvordan kan vi beregne denne sannsynligheten? En mulighet er frekvens i et korpus (som i den tidligere unigram-modellen) C(Johaug, blir, utestengt, i, ett, ar) C(Johaug, blir, utestengt, i, ett) Hvorfor er denne metoden problematisk? 24 Kjederegelen Finne en smartere metode for å beregne sannsynligheten for w gitt h, eller en sekvens av ord (P(w 1, w 2, w 3,...)) Kan benytte oss av kjederegelen: P(X 1... X n ) = P(X 1 )P(X 2 X 1 )P(X 3 X 2 1 )... P(X n X n 1 1 ) For sekvenser av ord: = n k=1 n k=1 P(X k X k 1 1 ) P(w k w k 1 1 ) 25

n-grammodellen Ideen bak n-grammodellen: i stedet for å beregne sannsynligheten for et ord gitt alle de foregående ordene, ser vi kun på noen få av de foregående ordene (avhengig av n): Bigrammodellen: P(w n w n 1 ) P(år ett) Markov-antagelsen: vi kan forutsi sannsynligheten til en framtidig hendelse ved å se på en begrenset historie 26 Markovantagelsen Vi kan generalisere bigrammodellen til n-grammodellen, som ser på n 1 av de foregående ordene Med en bigrammodell blir sannsynligheten for en streng w 1,..., w k da produktet av de individuelle ordenes sannsynlighet, slik: P(w 1... w k ) = k P(w i w i 1 ) i=1 Med en trigrammodell: P(w 1... w k ) = k P(w i w i 2 w i 1 ) i=1 27

Markovantagelsen Vi kan beregne disse sannsynlighetene som tidligere: tellinger fra et korpus (normalisert slik at ligger mellom 1 og 0) P(w n w n 1 ) = C(w n 1w n ) w C(w n 1w) = C(w n 1w n ) C(w n 1 ) P(år ett) = C(ett, år) C(ett) Sannsynlighetene gis ved relativ frekvens i et korpus Dette kalles Maximum Likelihood Estimation 28 Trening Hva vi teller som et ord avhenger av applikasjon Tokenisering Normalisering av bokstavering, forkortelser, numeriske uttrykk, tegnsetting, etc. Lemmatisering. Baseformer vs fullformer 29

Trening Et eksempel (J&M) Minikorpus: <s> I am Sam </s> <s> Sam I am </s> <s> I do not like green eggs and ham </s> Hvilke bigrammer har vi i korpuset? Beregner bigramsannsynlighetene: P(w n w n 1 ) = C(w n 1w n ) C(w n 1 ) 30 Trening Et eksempel (J&M) Minikorpus: <s> I am Sam </s> <s> Sam I am </s> <s> I do not like green eggs and ham </s> Bigramsannsynligheter: P(I <s>) = 2/3 =.67 P(Sam <s>) = 1/3 =.33 P(am I) = 2/3 =.67 P(</s> Sam) = 1/2 = 0.5 P(Sam am) = 1/2 = 0.5 P(do I) = 1/3 = 0.33 31

Testing Med disse sannsynlighetene kan vi beregne sannsynligheten for en setning k P(w 1... w k ) = P(w i w i 1 ) Eksempel: i=1 P(<s> I am Sam </s>) = P(I <s>)p(am I)P(Sam am)p(</s> Sam) =.67 x.67 x.5 x.5 = 0.112225 32 Trening og testing Sannsynlighetene i en språkmodell kommer fra korpuset den ble trenet på Vi bruker treningssettet til å beregne modellen og testsettet til å evaluere modellen Appliseres deretter på nytt datasett: testdata Evaluering: Intrinsisk evaluering: modell trenes på treningssettet og testes på testsettet viktig at disse ikke overlapper! Ekstrinsisk evaluering: applikasjonsbasert, end-to-end måler effekten av bruk i en applikasjon ved resultatene for applikasjonen (feks maskinoversettelsessystemet eller talegjenkjenneren som LM er del av) 33

Trening Dersom vi tester på treningsdataene får vi urealistisk inntrykk av resultater for en virkelig applikasjon Vil gi et drastisk fall ved applikasjon på usette datasett Overfitting : modellene inneholder mye korpusspesifikk informasjon treningskorpus og testkorpus hentet fra samme sjanger balansert korpus 34 Trening Problemer Data sparseness uavhengig av korpusets størrelse, vil det alltid være fraser som mangler språkets kreativitet Ukjente ord Ord med frekvens 0 gir oss problemer. Hvorfor? 35

Smoothing Mulige løsninger Utjevning ( smoothing ): passe på at alle n-grammer får frekvens større enn 0 Metoder for å inkludere ukjente ord i modellen 36 Smoothing Ta noe av sannsynlighetsmassen fra frekvente hendelser og gi til usette hendelser Enkleste metoden: Add-one (Laplace) smoothing der V er antall ordtyper Andre metoder: Back-off Klasse-baserte modeller P(w n w n 1 ) = C(w n 1w n ) + 1 C(w n 1 ) + V 37