INF1820: Introduksjon til språk-og kommunikasjonsteknologi Tredje forelesning Lilja Øvrelid 30 januar, 2011
DATA Kvalitative eller kvantitative Rådata: uprosesserte tall, tegn, bilder Laveste abstraksjonsnivå: data informasjon kunnskap Mt Everests høyde bok om Mt Everests geologiske egenskaper rapport om beste rute til toppen
DATA Empiricism is a theory of knowledge which asserts that knowledge comes via the senses experience Rationalism is any view appealing to reason as a source of knowledge or justification (Eng Wikipedia)
DATA Empiricism is a theory of knowledge which asserts that knowledge comes via the senses experience Rationalism is any view appealing to reason as a source of knowledge or justification (Eng Wikipedia) Paradigmeskifter lingvistikk og datalingvistikk: empirisme rasjonalisme, 60-tallet revitalisering av empiriske metoder 90-tallet Rasjonalistene: teori-drevet, symbolske metoder Empiristene: data-drevet, statistiske metoder
EKSEMPEL: ORDKLASSETAGGING TDAP (1958/59): første automatiske ordklassetaggeren Hvert ord tildeles alle kompatible tagger leksikon 14 håndskrevne regler eliminerer tagger som er inkompatible med konteksten Feks V elimineres etter artikkel ( the, a )
EKSEMPEL: ORDKLASSETAGGING TDAP (1958/59): første automatiske ordklassetaggeren Hvert ord tildeles alle kompatible tagger leksikon 14 håndskrevne regler eliminerer tagger som er inkompatible med konteksten Feks V elimineres etter artikkel ( the, a ) CGC (1963): tildeler ordklasser basert på endelser (suffikser) Leksikon for 400 funksjonsord (artikler, preposisjoner, etc.) og 1500 uregelmessige former Regler for endelser Eks: nationalities NOUN/VERB (Suffix test 1) -ies -y NOUN (Suffix test 2) Kontekstregler ( Context Frame Rules ), lovlige taggsekvenser Robust tagger
EKSEMPEL: ORDKLASSETAGGING TAGGIT (1971): første som ble applisert til store tekstmengder Leksikon med ca 3000 oppslag Suffiksliste 450 strenger Filtrering med 3300 kontekstregler Flere tagger enn CGC (82, jf 30) Suffikslisten avledet semiautomatisk fra et tekstkorpus (Brown) Evaluert på delmengde av Brown-korpuset: 77%
EKSEMPEL: ORDKLASSETAGGING CLAWS (1983): TAGGIT, og inn med statistikk! Leksikon ca 7000 oppslag, avledet fra korpus 700 suffikser Kontekstregler supplert med bigram-frekvenser, beregnet over korpus Beregner sannsynligheten til hele setningen basert på disse
EKSEMPEL: ORDKLASSETAGGING CLAWS forts. Eksempel, flertydig sekvens Henry NP likes NNS VBZ stews NNS VBZ.. Fire muligheter NP NNS NNS. NP NNS VBZ. NP VBZ NNS. NP VBZ VBZ. Bigram frekvenser over tagger, feks freq(np NNS)=17, freq(nns NNS)=5, freq(nns.)=135 etc. Sannsynlighet for setning: produkt av bigram-sannsynligheter (17*5*135=11475), delt på verdien for alle mulige sekvenser (38,564). P( NP NNS NNS. =0.3) Evaluert på LOB-korpuset: 96%
EKSEMPEL: ORDKLASSETAGGING I dag: For engelsk: ca 98% I all hovedsak statistiske, data-drevne trenger treningskorpus Andre språk, andre utfordringer
SPRÅKLIGE DATA Modellere språklig kunnskap Trenger språklige data Introspeksjon Faktisk språkbruk korpusdata Språkteknologi: programmer som generaliserer over språklige mønstre Korpusdata helt sentralt Menneskelig språkprossessering: hvordan modelleres språk i hjernen?
SPRÅK OG HJERNE Neurolingvistikk lingvistisk fagområde som studerer de mekanismer i den menneskelige hjerne som kontrollerer språk (-forståelse, -produksjon og - tilegnelse) Hjernen: Storehjernen er organisert i lapper : pannelappen, tinninglappen, isselappen, bakhodelappen. Utgjør 80% av hjernen Storehjernen har to halvdeler som arbeider i harmoni med hverandre gjennom corpus collosum (som består av over 200 millioner aktive nerveceller) Kontralateral hjernefunksjon
Hvor er språk lokalisert? Data fra atypisk språk, feks ved hjerneskader Afasi enhver type språkvansker etter hjerneskade forskjellige typer avhengig av hvor skaden har oppstått Brocas område Brocas afasi, frontre delen av venstre hjernehalvdel Wernickes område Wernickes afasi, Planum Temporale i venstre hjernehalvdel Språk lateralisert til venstre hjernehalvdel
Afasistudier kan også si noe om hvordan språkevnen er organisert i hjernen Brocas afasi: agrammatisk språk, problemer med forståelse av syntaktisk komplekse konstruksjoner Yes... ah... Monday... er... Dad and Peter H... (his own name), and Dad... er... hospital... and ah... Wednesday... Wednesday, nine o clock... and oh... Thursday... ten o clock, ah doctors... two... an doctors... and er... teeth... yah Wernickes afasi: semantisk usammenhengende, men stort sett syntaktisk korrekt I felt worse because I can no longer keep in mind from the mind of the minds to keep me from mind and up to the ear which can be to find among ourselves.
Moderne teknologi (MRI, CT, ERP) bekrefter stort sett lateralisering, mer nøyaktig bilde Forandringer i hjerneaktivitet
Neurolingvistiske data: hvor språket sitter empirisk støtte for teoretiske hypoteser Informasjon om organisering av språket: modulært organisert separate moduler Ord i nettverk semantisk, uttale table - chair tool - pool Funksjonsord adskilt fra innholdsord (Broca s afasi)
Språkets autonomi? Adskilt fra andre kognitive mekanismer Språklige savanter Språkutvikling Kristisk periode for språktilegnelse hos barn Må trigges av miljøet Ville barn, Genie
SPRÅKLIGE DATA: KORPUSDATA Et korpus (tekstkorpus) er en strukturert samling tekster Elektronisk lagret Siste 30 årene innenfor lingvistikk og datalingvistikk: empirisk revolusjon Større og større tekstmengder tilgjengelig Empiriske data for lingvistiske studier (motsetning til introspeksjon) Treningsmateriale for datalingvistiske modeller av språklige fenomener
SPRÅKLIGE DATA: KORPUSDATA Korpus laget for å representere et visst språk eller språklig variant Språklige data to muligheter: 1. Arkivere alle setninger i et språk: UMULIG 2. Plukke ut et mindre utvalg ( sample ) av språket: MULIG 2 er mulig men ikke trivielt Et korpus må konstrueres slik at det minimerer fordommer ( bias ) og maksimerer representativitet
ET TENKT KORPUS FOR NORSK Vi må inkludere forskjellige typer tekster: Skrift og tale? [registere] Fra forskjellige deler av landet? Et utvalg av dialekter? [regionale dialekter] Kun fra 2000-tallet? Hva med 1990? Eller 1950? [tidsperioder] Språk produsert av både menn og kvinner? Alle aldersgrupper, inkludert barn? Hva med utdanningsnivå? Sosial status? [demografi] Skal vi inkludere nyhetsstoff? Hva med kronikker, romaner og e-post? Tegneserier og tekstmeldinger? [sjanger]
ET TENKT KORPUS FOR NORSK Svarer JA på alle spørsmålene... men vi må også ta hensyn til fordeling, feks 50% tekst og 50% tale? 20% nyhetsstoff og 15% romaner? etc. Representativt korpus 1. ekstra-lingvistiske faktorer (feks demografi) 15% av innbyggerene bor i Oslo, så vi kan fordele korpuset etter dette 20% av befolkningen er over 60, la oss inkludere 20% av 60+ tekster 2. lingvistisk fordeling 20% av alle norske tekster er romaner 20% av korpuset 20-åringer leser og skriver dobbelt så mye som 60+, dobbelt så mange tekster produsert av/for 20-åringer
ET TENKT KORPUS FOR NORSK For (2): Ikke gitt at vi har denne typen informasjon om befolkningen For (1): Ikke tilfredsstillende heller, demografi er ikke en nøyaktig indikator for språkbruk Umulig å oppnå et objektivt representativt korpus. Men vi prøver allikevel...
Hva kan vi gjøre med en tekst? Lære noe om teksten Feks typiske fraser i Monty Python and the Holy Grail Amazon bruker dette for anbefalinger av faglitteratur Lære noe om språk generelt Problematisk?
Hvor mye kan vi lære om engelsk språk fra finansielle nyheter fra Wall Street Journal? Fra en samling poesi? For å motvirke denne effekten: representative korpuser Brown korpuset: 1 mill ord, tekster fra 500 kilder, kategorisert etter sjanger (nyheter, anmeldelser, religion, hobby etc.)
KORPUS FOR MASKINLÆRING William Shakespeare (1564-1616) Originale skuespill, dikt Andre tekster som er eller ikke er skrevet av ham (uvisst) Kan vi automatisk sammenligne tekster av ukjent opphav med kjente Shakespeare og ikke-shakespeare tekster? Konstruere en klassifiserer: Trene på kjente Shakespeare (S) og ikke-shakespeare (ikke-s) Appliser på tekst med ukjent opphav: ligner mest på S eller ikke-s?
EKSISTERENDE KORPUSER NLTK kommer med flere innebygde korpuser >>> import nltk >>> from nltk.book import * *** Introductory Examples for the NLTK Book *** Loading text1,..., text9 and sent1,..., sent9 Type the name of the text or sentence to view it. Type: texts() or sents() to list the materials. text1: Moby Dick by Herman Melville 1851 text2: Sense and Sensibility by Jane Austen 1811 text3: The Book of Genesis text4: Inaugural Address Corpus text5: Chat Corpus text6: Monty Python and the Holy Grail text7: Wall Street Journal text8: Personals Corpus text9: The Man Who Was Thursday by G. K. Chesterton 1908
EKSISTERENDE KORPUSER Tilgjengelig for nedlasting: Project Gutenberg (Forsøk på) representative korpuser Brown 1M ord British National Corpus (BNC), 100M ord (register, domene, forskjellige tidsperioder, sjanger, demografi osv) American National Corpus, under bygging Større korpuser: Gigaword (nyhetstekster) Google n-gram corpus: 100 GB data unigram (n=1) til fivegram (n=5) frekvens
EKSISTERENDE KORPUSER Visualisering Google n-grams (trigram starter med He/She) He She is was has said had did does will also can told says could would went died and added stated received wanted noted looked wants took must may began lives or came tried served seems explained used holds graduated knew returned seemed made gave asked pointed needs joined became should suggested believes argues goes shook loves learned turned moved likes grew started decided a not the that to also been be in he an born me on his have she very currently one so no has at said her now served it had survived worked as married from written just published always out up made there still preceded never buried through wearing taught my him
EKSISTERENDE KORPUSER Korpuser for andre språk enn engelsk Arabisk Gigaword Chinese news NoWaC ( Norwegian Web as Corpus ) ca 700 millioner ord web-dokumenter fra.no-domener NoTa-korpuset transkripsjoner av samtaler og intervju fra informanter født og oppvokst i Oslo-området transkribert tekst og tale ordklasse og en del morfologisk informasjon
EKSISTERENDE KORPUSER Parallelle korpuser EUROPARL, OPUS
ANNOTERING Korpuser inneholder forskjellige typer informasjon og har gjennomgått forskjellige former for (automatisk/manuell) annotering Delt opp i enheter som tilsvarer et ord, sk tokens: ord, tall, tegnsetting tokenisering I motsetning til type en form uavhengig av av individuelle forekomster Hvor mange tokens? Hvor mange typer? The rain stays mainly on the plane Stemming eller lemmatisering: reduksjon til baseform
ANNOTERING Korpuser med manuell annotering Mennesker merker opp lingvistisk informasjon Ordklasse (feks Brown) The/at Fulton/np County/np Grand/jj Jury/nn said/vbd Friday/nr an/at investigation/nn... Syntaks (trebanker, feks Penn Treebank) Ordsemantikk, diskursrelasjoner etc. (S (NP (ADJ Happy) (N linguists)) (VP (V make) (NP (Det a) (N diagram))))
MANUELT ANNOTERT KORPUS FOR MASKINLÆRING Et korpus med manuelt annotert ordbetydning SKIM the pages for a clearer insight: Reading She SKIMS through the novel which seems to fascinate them: Reading Remove the vanilla pod, SKIM the jam, and let it cool: Removing We SKIMMED across the surface of that sodding lake whilst all around us gathered the dark hosts of hell: Self motion Konstruere en klassifiserer: Tren på Reading, Removing og Self motion instanser Appliser på ny instans: hvilken klasse ligner den mest på? A red grouse SKIMMED low over the heather:???
OPPSUMMERING: SPRÅKLIGE DATA Økende viktighet innenfor LT (korpusdata) Eks ordklassetagging Menneskelig språkprosessering afasi-studier måling av hjerneaktivitet Korpusdata representativitet størrelse annotering Utstrakt bruk i språkteknologiske modeller