INF1820: Introduksjon til språk-og kommunikasjonsteknologi

Like dokumenter
INF1820: Introduksjon til spra k-og kommunikasjonsteknologi

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

IN1140: Introduksjon til språkteknologi. Forelesning #3

INF INF1820. Lectio secunda INF1820. Arne Skjærholt. Lectio secunda

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

IN1140: Introduksjon til språkteknologi. Forelesning #2

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

IN1140 H2019 gruppeoppgaver Språkmodeller og Ordklasser

Han Ola of Han Per: A Norwegian-American Comic Strip/En Norsk-amerikansk tegneserie (Skrifter. Serie B, LXIX)

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

IN1140: Introduksjon til språkteknologi. Forelesning #10

IN1140: Introduksjon til språkteknologi. Forelesning #10

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

IN1140 H2018 gruppeoppgaver Sannsynlighet og språkmodeller

FIRST LEGO League. Härnösand 2012

Slope-Intercept Formula

Vekeplan 4. Trinn. Måndag Tysdag Onsdag Torsdag Fredag AB CD AB CD AB CD AB CD AB CD. Norsk Matte Symjing Ute Norsk Matte M&H Norsk

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

Endelig ikke-røyker for Kvinner! (Norwegian Edition)

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

Of all the places in the world, I love to stay at Grandma Genia and

Emneevaluering GEOV272 V17

INF2820 Datalingvistikk V Gang, del Jan Tore Lønning

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF2820 Datalingvistikk V2018 Forelesning 1 del 1, 15. jan. Jan Tore Lønning

Mannen min heter Ingar. Han er også lege. Han er privatpraktiserende lege og har et kontor på Grünerløkka sammen med en kollega.

Hvorfor skal vi lære grammatikk?

INF2820 Datalingvistikk V2017 Forelesning 1.1, 16.1 Jan Tore Lønning

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

Språkleker og bokstavinnlæring

SAMPOL115 Emneevaluering høsten 2014

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

THE MONTH THE DISCIPLINE OF PRESSING

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF1820 V2014 Oppgave 3b CFGer og semantikk

ÅRSPLAN I ENGELSK FOR 2. TRINN høst 2014 Læreverk: Stairs

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

The Frankenstein Teacher: (To undervisningstimar pr. veke)

Hvor mye teoretisk kunnskap har du tilegnet deg på dette emnet? (1 = ingen, 5 = mye)

Engelsk gruppe 2 høsten 2015

GEO231 Teorier om migrasjon og utvikling

Livets slutt i sykehjem pasienters og pårørendes forventninger og erfaringer En syntese av kvalitative studier

INF1820 V2013 Oppgave 3b CFGer og semantikk

INF1820: Oppsummering

Hvor mye praktisk kunnskap har du tilegnet deg på dette emnet? (1 = ingen, 5 = mye)

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

"Somebody That I Used To Know" Gotye feat. Kimbra (2011)

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

Felles avslutning Itsy Bitsy Spider Syng sangen sammen og gjør bevegelsene som hører til.

. Grammatiske problem med å beskrive ordklassen adverb og setningsleddet adverbial i norsk. Sverre Stausland Johnsen Universitetet i Oslo

BIBSYS Brukermøte 2011 Live Rasmussen og Andreas Christensen. Alt på et brett? -om pensum på ipad og lesebrett

INF2820 Datalingvistikk V gang, Jan Tore Lønning

Det er flere som spør om jeg ikke snart skal få meg kjæreste.

Hvor mye praktisk kunnskap har du tilegnet deg på dette emnet? (1 = ingen, 5 = mye)

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

EN Skriving for kommunikasjon og tenkning

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

Årsplan ENGELSK 5.trinn. Setningsmønster It starts at It finishes at I want to be a when I grow up

INF2820 Datalingvistikk V gang, Jan Tore Lønning

Unit Relational Algebra 1 1. Relational Algebra 1. Unit 3.3

Ny norsk dialektinnsamling gir ny forståing av grammatikken. Åshild Søfteland, Universitetet i Oslo, doktorgradsstipendiat i nordisk språkvitskap

GEO326 Geografiske perspektiv på mat

INF2820 Datalingvistikk V2014. Jan Tore Lønning

The internet of Health

Oppgave 1 (samlet 15%)

Kartleggingsskjema / Survey

INF INF1820. Arne Skjærholt INF1820. Dagens språk: Russisk. dyes yataya l yektsiya. Arne Skjærholt. десятая лекция

INF2820 Datalingvistikk V2016. Jan Tore Lønning

GEOV219. Hvilket semester er du på? Hva er ditt kjønn? Er du...? Er du...? - Annet postbachelor phd

INF5820. Language technological applications. H2010 Jan Tore Lønning

Trigonometric Substitution

Gol Statlige Mottak. Modul 7. Ekteskapsloven

Eksamen ENG1002/1003 Engelsk fellesfag Elevar og privatistar/elever og privatister. Nynorsk/Bokmål

INF2820 Datalingvistikk V2015. Jan Tore Lønning

SJEKKESKOLEN: EN STEG-FOR-STEG GUIDE TIL TILTREKNING AV FANTASTISKE JENTER (NORWEGIAN EDITION) BY ANDREAS GODE VIBBER

Hvor mye teoretisk kunnskap har du tilegnet deg på dette emnet? (1 = ingen, 5 = mye)

Trådløsnett med. Wireless network. MacOSX 10.5 Leopard. with MacOSX 10.5 Leopard

Fagevalueringsrapport FYS Diffraksjonsmetoder og elektronmikroskopi

Vedlegg til veiledning til læreplan i engelsk. Se skolenettet.no/veiledninger

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

FORBEREDELSE TIL ÅRSPRØVE I ENGELSK 7. KLASSE FREDAG 19. MAI 2017

INF2820 Datalingvistikk V2011. Jan Tore Lønning & Stephan Oepen

Samlede Skrifter PDF. ==>Download: Samlede Skrifter PDF ebook

Information search for the research protocol in IIC/IID

5 E Lesson: Solving Monohybrid Punnett Squares with Coding

STILLAS - STANDARD FORSLAG FRA SEF TIL NY STILLAS - STANDARD

Tuberkulosescreening fra et brukerperspektiv. Frokostmøte LHLI,

Hvor mye teoretisk kunnskap har du tilegnet deg på dette emnet? (1 = ingen, 5 = mye)

Newtons fargeskive. Regnbuens farger blir til hvitt. Sett skiva i rask rotasjon ved hjelp av sveiva.

lytte etter og bruke engelske språklyder gjennom praktiskestetiske gi eksempler på noen situasjoner der det kan være nyttig å kunne engelsk

... Annita Fjuk DESIGN THINKING

The Norwegian Citizen Panel, Accepted Proposals

Transkript:

INF1820: Introduksjon til språk-og kommunikasjonsteknologi Tredje forelesning Lilja Øvrelid 30 januar, 2011

DATA Kvalitative eller kvantitative Rådata: uprosesserte tall, tegn, bilder Laveste abstraksjonsnivå: data informasjon kunnskap Mt Everests høyde bok om Mt Everests geologiske egenskaper rapport om beste rute til toppen

DATA Empiricism is a theory of knowledge which asserts that knowledge comes via the senses experience Rationalism is any view appealing to reason as a source of knowledge or justification (Eng Wikipedia)

DATA Empiricism is a theory of knowledge which asserts that knowledge comes via the senses experience Rationalism is any view appealing to reason as a source of knowledge or justification (Eng Wikipedia) Paradigmeskifter lingvistikk og datalingvistikk: empirisme rasjonalisme, 60-tallet revitalisering av empiriske metoder 90-tallet Rasjonalistene: teori-drevet, symbolske metoder Empiristene: data-drevet, statistiske metoder

EKSEMPEL: ORDKLASSETAGGING TDAP (1958/59): første automatiske ordklassetaggeren Hvert ord tildeles alle kompatible tagger leksikon 14 håndskrevne regler eliminerer tagger som er inkompatible med konteksten Feks V elimineres etter artikkel ( the, a )

EKSEMPEL: ORDKLASSETAGGING TDAP (1958/59): første automatiske ordklassetaggeren Hvert ord tildeles alle kompatible tagger leksikon 14 håndskrevne regler eliminerer tagger som er inkompatible med konteksten Feks V elimineres etter artikkel ( the, a ) CGC (1963): tildeler ordklasser basert på endelser (suffikser) Leksikon for 400 funksjonsord (artikler, preposisjoner, etc.) og 1500 uregelmessige former Regler for endelser Eks: nationalities NOUN/VERB (Suffix test 1) -ies -y NOUN (Suffix test 2) Kontekstregler ( Context Frame Rules ), lovlige taggsekvenser Robust tagger

EKSEMPEL: ORDKLASSETAGGING TAGGIT (1971): første som ble applisert til store tekstmengder Leksikon med ca 3000 oppslag Suffiksliste 450 strenger Filtrering med 3300 kontekstregler Flere tagger enn CGC (82, jf 30) Suffikslisten avledet semiautomatisk fra et tekstkorpus (Brown) Evaluert på delmengde av Brown-korpuset: 77%

EKSEMPEL: ORDKLASSETAGGING CLAWS (1983): TAGGIT, og inn med statistikk! Leksikon ca 7000 oppslag, avledet fra korpus 700 suffikser Kontekstregler supplert med bigram-frekvenser, beregnet over korpus Beregner sannsynligheten til hele setningen basert på disse

EKSEMPEL: ORDKLASSETAGGING CLAWS forts. Eksempel, flertydig sekvens Henry NP likes NNS VBZ stews NNS VBZ.. Fire muligheter NP NNS NNS. NP NNS VBZ. NP VBZ NNS. NP VBZ VBZ. Bigram frekvenser over tagger, feks freq(np NNS)=17, freq(nns NNS)=5, freq(nns.)=135 etc. Sannsynlighet for setning: produkt av bigram-sannsynligheter (17*5*135=11475), delt på verdien for alle mulige sekvenser (38,564). P( NP NNS NNS. =0.3) Evaluert på LOB-korpuset: 96%

EKSEMPEL: ORDKLASSETAGGING I dag: For engelsk: ca 98% I all hovedsak statistiske, data-drevne trenger treningskorpus Andre språk, andre utfordringer

SPRÅKLIGE DATA Modellere språklig kunnskap Trenger språklige data Introspeksjon Faktisk språkbruk korpusdata Språkteknologi: programmer som generaliserer over språklige mønstre Korpusdata helt sentralt Menneskelig språkprossessering: hvordan modelleres språk i hjernen?

SPRÅK OG HJERNE Neurolingvistikk lingvistisk fagområde som studerer de mekanismer i den menneskelige hjerne som kontrollerer språk (-forståelse, -produksjon og - tilegnelse) Hjernen: Storehjernen er organisert i lapper : pannelappen, tinninglappen, isselappen, bakhodelappen. Utgjør 80% av hjernen Storehjernen har to halvdeler som arbeider i harmoni med hverandre gjennom corpus collosum (som består av over 200 millioner aktive nerveceller) Kontralateral hjernefunksjon

Hvor er språk lokalisert? Data fra atypisk språk, feks ved hjerneskader Afasi enhver type språkvansker etter hjerneskade forskjellige typer avhengig av hvor skaden har oppstått Brocas område Brocas afasi, frontre delen av venstre hjernehalvdel Wernickes område Wernickes afasi, Planum Temporale i venstre hjernehalvdel Språk lateralisert til venstre hjernehalvdel

Afasistudier kan også si noe om hvordan språkevnen er organisert i hjernen Brocas afasi: agrammatisk språk, problemer med forståelse av syntaktisk komplekse konstruksjoner Yes... ah... Monday... er... Dad and Peter H... (his own name), and Dad... er... hospital... and ah... Wednesday... Wednesday, nine o clock... and oh... Thursday... ten o clock, ah doctors... two... an doctors... and er... teeth... yah Wernickes afasi: semantisk usammenhengende, men stort sett syntaktisk korrekt I felt worse because I can no longer keep in mind from the mind of the minds to keep me from mind and up to the ear which can be to find among ourselves.

Moderne teknologi (MRI, CT, ERP) bekrefter stort sett lateralisering, mer nøyaktig bilde Forandringer i hjerneaktivitet

Neurolingvistiske data: hvor språket sitter empirisk støtte for teoretiske hypoteser Informasjon om organisering av språket: modulært organisert separate moduler Ord i nettverk semantisk, uttale table - chair tool - pool Funksjonsord adskilt fra innholdsord (Broca s afasi)

Språkets autonomi? Adskilt fra andre kognitive mekanismer Språklige savanter Språkutvikling Kristisk periode for språktilegnelse hos barn Må trigges av miljøet Ville barn, Genie

SPRÅKLIGE DATA: KORPUSDATA Et korpus (tekstkorpus) er en strukturert samling tekster Elektronisk lagret Siste 30 årene innenfor lingvistikk og datalingvistikk: empirisk revolusjon Større og større tekstmengder tilgjengelig Empiriske data for lingvistiske studier (motsetning til introspeksjon) Treningsmateriale for datalingvistiske modeller av språklige fenomener

SPRÅKLIGE DATA: KORPUSDATA Korpus laget for å representere et visst språk eller språklig variant Språklige data to muligheter: 1. Arkivere alle setninger i et språk: UMULIG 2. Plukke ut et mindre utvalg ( sample ) av språket: MULIG 2 er mulig men ikke trivielt Et korpus må konstrueres slik at det minimerer fordommer ( bias ) og maksimerer representativitet

ET TENKT KORPUS FOR NORSK Vi må inkludere forskjellige typer tekster: Skrift og tale? [registere] Fra forskjellige deler av landet? Et utvalg av dialekter? [regionale dialekter] Kun fra 2000-tallet? Hva med 1990? Eller 1950? [tidsperioder] Språk produsert av både menn og kvinner? Alle aldersgrupper, inkludert barn? Hva med utdanningsnivå? Sosial status? [demografi] Skal vi inkludere nyhetsstoff? Hva med kronikker, romaner og e-post? Tegneserier og tekstmeldinger? [sjanger]

ET TENKT KORPUS FOR NORSK Svarer JA på alle spørsmålene... men vi må også ta hensyn til fordeling, feks 50% tekst og 50% tale? 20% nyhetsstoff og 15% romaner? etc. Representativt korpus 1. ekstra-lingvistiske faktorer (feks demografi) 15% av innbyggerene bor i Oslo, så vi kan fordele korpuset etter dette 20% av befolkningen er over 60, la oss inkludere 20% av 60+ tekster 2. lingvistisk fordeling 20% av alle norske tekster er romaner 20% av korpuset 20-åringer leser og skriver dobbelt så mye som 60+, dobbelt så mange tekster produsert av/for 20-åringer

ET TENKT KORPUS FOR NORSK For (2): Ikke gitt at vi har denne typen informasjon om befolkningen For (1): Ikke tilfredsstillende heller, demografi er ikke en nøyaktig indikator for språkbruk Umulig å oppnå et objektivt representativt korpus. Men vi prøver allikevel...

Hva kan vi gjøre med en tekst? Lære noe om teksten Feks typiske fraser i Monty Python and the Holy Grail Amazon bruker dette for anbefalinger av faglitteratur Lære noe om språk generelt Problematisk?

Hvor mye kan vi lære om engelsk språk fra finansielle nyheter fra Wall Street Journal? Fra en samling poesi? For å motvirke denne effekten: representative korpuser Brown korpuset: 1 mill ord, tekster fra 500 kilder, kategorisert etter sjanger (nyheter, anmeldelser, religion, hobby etc.)

KORPUS FOR MASKINLÆRING William Shakespeare (1564-1616) Originale skuespill, dikt Andre tekster som er eller ikke er skrevet av ham (uvisst) Kan vi automatisk sammenligne tekster av ukjent opphav med kjente Shakespeare og ikke-shakespeare tekster? Konstruere en klassifiserer: Trene på kjente Shakespeare (S) og ikke-shakespeare (ikke-s) Appliser på tekst med ukjent opphav: ligner mest på S eller ikke-s?

EKSISTERENDE KORPUSER NLTK kommer med flere innebygde korpuser >>> import nltk >>> from nltk.book import * *** Introductory Examples for the NLTK Book *** Loading text1,..., text9 and sent1,..., sent9 Type the name of the text or sentence to view it. Type: texts() or sents() to list the materials. text1: Moby Dick by Herman Melville 1851 text2: Sense and Sensibility by Jane Austen 1811 text3: The Book of Genesis text4: Inaugural Address Corpus text5: Chat Corpus text6: Monty Python and the Holy Grail text7: Wall Street Journal text8: Personals Corpus text9: The Man Who Was Thursday by G. K. Chesterton 1908

EKSISTERENDE KORPUSER Tilgjengelig for nedlasting: Project Gutenberg (Forsøk på) representative korpuser Brown 1M ord British National Corpus (BNC), 100M ord (register, domene, forskjellige tidsperioder, sjanger, demografi osv) American National Corpus, under bygging Større korpuser: Gigaword (nyhetstekster) Google n-gram corpus: 100 GB data unigram (n=1) til fivegram (n=5) frekvens

EKSISTERENDE KORPUSER Visualisering Google n-grams (trigram starter med He/She) He She is was has said had did does will also can told says could would went died and added stated received wanted noted looked wants took must may began lives or came tried served seems explained used holds graduated knew returned seemed made gave asked pointed needs joined became should suggested believes argues goes shook loves learned turned moved likes grew started decided a not the that to also been be in he an born me on his have she very currently one so no has at said her now served it had survived worked as married from written just published always out up made there still preceded never buried through wearing taught my him

EKSISTERENDE KORPUSER Korpuser for andre språk enn engelsk Arabisk Gigaword Chinese news NoWaC ( Norwegian Web as Corpus ) ca 700 millioner ord web-dokumenter fra.no-domener NoTa-korpuset transkripsjoner av samtaler og intervju fra informanter født og oppvokst i Oslo-området transkribert tekst og tale ordklasse og en del morfologisk informasjon

EKSISTERENDE KORPUSER Parallelle korpuser EUROPARL, OPUS

ANNOTERING Korpuser inneholder forskjellige typer informasjon og har gjennomgått forskjellige former for (automatisk/manuell) annotering Delt opp i enheter som tilsvarer et ord, sk tokens: ord, tall, tegnsetting tokenisering I motsetning til type en form uavhengig av av individuelle forekomster Hvor mange tokens? Hvor mange typer? The rain stays mainly on the plane Stemming eller lemmatisering: reduksjon til baseform

ANNOTERING Korpuser med manuell annotering Mennesker merker opp lingvistisk informasjon Ordklasse (feks Brown) The/at Fulton/np County/np Grand/jj Jury/nn said/vbd Friday/nr an/at investigation/nn... Syntaks (trebanker, feks Penn Treebank) Ordsemantikk, diskursrelasjoner etc. (S (NP (ADJ Happy) (N linguists)) (VP (V make) (NP (Det a) (N diagram))))

MANUELT ANNOTERT KORPUS FOR MASKINLÆRING Et korpus med manuelt annotert ordbetydning SKIM the pages for a clearer insight: Reading She SKIMS through the novel which seems to fascinate them: Reading Remove the vanilla pod, SKIM the jam, and let it cool: Removing We SKIMMED across the surface of that sodding lake whilst all around us gathered the dark hosts of hell: Self motion Konstruere en klassifiserer: Tren på Reading, Removing og Self motion instanser Appliser på ny instans: hvilken klasse ligner den mest på? A red grouse SKIMMED low over the heather:???

OPPSUMMERING: SPRÅKLIGE DATA Økende viktighet innenfor LT (korpusdata) Eks ordklassetagging Menneskelig språkprosessering afasi-studier måling av hjerneaktivitet Korpusdata representativitet størrelse annotering Utstrakt bruk i språkteknologiske modeller