INF1820: Introduksjon til språk-og kommunikasjonsteknologi

Like dokumenter
INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF1820: Ordklasser INF1820: Ordklasser. Arne Skjærholt. 13. februar. INF1820: Ordklasser. Arne Skjærholt. 13. februar

INF1820 INF Arne Skjærholt INF1820. dairoku: del 6, kougi: forelesning. Arne Skjærholt

IN1140: Introduksjon til språkteknologi. Forelesning #6

IN1140: Introduksjon til språkteknologi. Forelesning #6

IN1140: Introduksjon til språkteknologi. Forelesning #6

IN1140: Introduksjon til språkteknologi. Forelesning #5

Norsk minigrammatikk bokmål

Ordklasser Inndelingen ORDKLASSEINNDELINGEN

Setningsledd. Norsk som fremmedspråk Side 131

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

2 Substantiv Genus Bøyning Substantiv med bare entallsformer Substantiv med bare flertallsformer 17 2.

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

. Grammatiske problem med å beskrive ordklassen adverb og setningsleddet adverbial i norsk. Sverre Stausland Johnsen Universitetet i Oslo

Sjekkliste B2-nivå. 1 Har du brukt stor/liten forbokstav, punktum (.), komma (,) og spørsmålstegn (?) riktig?

Grammatikk En innføring av Anne Lene Berge

INF INF1820. Arne Skjærholt INF1820. Dagens språk: Russisk. dyes yataya l yektsiya. Arne Skjærholt. десятая лекция

APPENDIKS D Geminittisk språk/grammatikk

Morfologi. Studiet av ordenes struktur Kap. 11 Om morfer (selvsagt) og litt større ting. EXFAC EURA 2. Morfologi1 1

INF1820: Oppsummering

"Det er fort gjort og skrive feil." En presentasjon av en automatisk grammatikkontroll for bokmål

Fasit til oppgaver i Språk i skolen, kapittel 4. Versjon: 15. mai 2015

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

UKE TEMA SKRIVE GRAMMATIKK VERK ARBEIDMETODER. flertall

Setningsledd. Arne Martinus Lindstad Tekstlaboratoriet Universitetet i Oslo.

Stikkordregister. avgrensa handling, 124 avleiingsmorfem, 46 avleiingsuffiks, stadium, 70

FORBEREDELSE TIL ÅRSPRØVE I ENGELSK 7. KLASSE FREDAG 19. MAI 2017

INF2820 Datalingvistikk V2011. Jan Tore Lønning & Stephan Oepen

UKEPLAN FOR 7A, UKE 23 TIME

Kom i gang veiledning

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

IN1140: Introduksjon til språkteknologi. Forelesning #12

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

Grammatikk Adverb. Forteller oss noe nytt om ord eller setninger

EXFAC EURA Syntaks2 1

NORSK FOR INTERNASJONALE STUDENTER

UKEPLAN FOR 7B, UKE 23 MANDAG TIRSDAG ONSDAG

BESTEMT ELLER UBESTEMT FORM?

SETNINGSLEDD... 2 Verbal... 2 Subjekt... 2 Objekt... 5 Indirekte objekt... 6 Predikativ... 8 Adverbial... 9

NORSK FOR INTERNASJONALE STUDENTER

Morfologi. Studiet av ordenes struktur Kap. 11. EXFAC EURA 2. Morfologi1 1

NORSK ANDRESPRÅKSKORPUS KURSHEFTE. ASK, kurshefte Hilde Johansen (2011) 1

INF1820: Ordklassetagging

Begrep Forklaring Eksempel

Grammatiske termer til bruk i skoleverket

NORSK FOR INTERNASJONALE STUDENTER

Innhold. 1 Innledning Semantikk Talespråk og skriftspråk 47. Forkortelser Språket som kodesystem 17 1.

Dere skal kunne om ordklasser.

Oppgåver til kapittel 3

IN1140: Introduksjon til språkteknologi. Forelesning #2

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

Register. Соседи 1. Marit Bjerkeng

IN1140: Introduksjon til språkteknologi. Forelesning #3

For økt elevengasjement i norsk 8 10

IN1140: Introduksjon til språkteknologi. Forelesning #7

Ordklasser. Av Kim Freddy Føreland

KORT REPETISJON AV ORDSTILLING:

Forkortelser og tegnbruk...19

LF - Eksamen i INF1820

GRAMMATIKK.

UNIVERSITETET I OSLO

Læringsmål for trinnet: Kva skal elevane lære, kunne, mestre innanfor kompetansemålet Eleven Skal Kunne

Fagplan i engelsk 7. trinn

Oppgaver til kapittel 4

Gruppe:G Navn: UKEPLAN Uke 1

7. trinn Målark Chapter 1 Bokmål

INF1820 INF Arne Skjærholt INF1820. Arne Skjærholt

Halvårsplan høsten 2019

Skriftlig eksamen (Written Exam) (3 timer)

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

Sandefjordskolen BREIDABLIKK UNGDOMSSKOLE ÅRSPLAN I SPANSK 10. TRINN SKOLEÅR

METODISK VEILEDNING OM LÆREPLAN OG RAMMEVERK 1. Metodisk veiledning. Grammatikkens plass i norskopplæringen

samspill Alder 2-3 år Alder 3-4 år Alder 4-5 år Hole kommune språkprosjekt

Eksamen Norwegian Beginning Level (3-timer/3-hours)

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

Fagplan, 6. trinn, Norsk.

Innhold NorskPluss Kort botid

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

Halvårsplan i norsk for 7.trinn

Forord Om å bruke Nå begynner vi! Hei! Presentasjon av familien til Johanne En vanlig dag... 41

a) Sett strek mellom ordene og forklaringene som betyr omtrent det samme. b) Sett inn riktig ord uten å

UKEPLAN UKE 41 UKE: 41 DATO: GRUPPE: E

Årsplan i engelsk 7.trinn

HER STÅR SKREVET ORD DU MÅ LÆRE, SPRÅK ER VIKTIG OM VI I VERDEN SKAL VÆRE.

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

Uke 7: Små barn, små setninger I

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF2820 Datalingvistikk V2018 Forelesning 4, 5.2 Jan Tore Lønning

INF 2820 V2016: Innleveringsoppgave 3 del 1

Halvårsplan VK-klassen vår 2014

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

Uke: 9 Navn: Gruppe: G

Sandefjordskolen BREIDABLIKK UNGDOMSSKOLE ÅRSPLAN I TYSK 9. TRINN SKOLEÅR Periode 1: UKE 34-39

Ústav germanistiky, nordistiky a nederlandistiky

UKEPLAN UKE 38 UKE: 38 DATO: GRUPPE: E

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

Satsingsområder: Lesing, skriving og regning Tilpasset opplæring Digital kompetanse

Løvetann. Du skal lære: Lytte og skrive: En sang av Alf Prøysen lytte ut ord. Repetere grammatikk. Bøye verb og substantiv. Lese

Transkript:

INF1820: Introduksjon til språk-og kommunikasjonsteknologi Sjuende forelesning Lilja Øvrelid 28 februar, 2011

LINGVISTIKK Fonetik/fonologi Morfologi Syntaks Semantik Pragmatik Studiet av talljud och talsystem Studiet av ordets struktur Studiet av satsens struktur Studiet av språklig betydelse Studiet av språkanvending Bindestreksdisipliner: psykolingvistikk, neurolingvistikk, sosiolingvistikk, datalingvistikk

GRAMMATIKK Indre grammatikk i hjernen lingvistens/grammatikerens oppgave å karakterisere Ytre grammatikk deskriptiv, f.eks. Norsk Referansegrammatikk normativ, f.eks. Språkrådet Studiet av hvordan setninger bygges opp (av fonemer, morfemer, ord och ordkombinasjoner).

GRAMMATIKK http://beta.visl.sdu.dk/visl/nor/edutainment/games/

ORDKLASSER? Bindeledd mellom ordet og setningen (syntaks): Sier noe om hva slags kontekster et ord forekommer i Sier noe om uttale (record, content, discount) Helt essensiell i en rekke språkteknologiske applikasjoner: Talesyntese Stemming for IR, hente ut innholdsord Morfologisk analyse Chunking, syntaktisk parsing Word Sense Disambiguation

ORDKLASSER Substantiv Adjektiv Verb Adverb Taksonomi - uttømmende, gjensidig utelukkende, styrt av et prinsipp Alle ord havner i en klasse og ingen ord havner i mer enn én klasse Vi trenger kriterier for ordklasseinndeling

ORDKLASSEKRITERIER 3 slags kriterier: 1. formelle eller morfologiske kriterier hvilke bøyningsformer har ordet? hare - haren og redd - reddere *harare och *redden 2. funksjonelle eller syntaktiske kriterier hvordan kan ordet kombineres med andre ord? en redd hare och redd for ilden *en redd och *en hare for ilden 3. betydningsmessige eller semantiske kriterier hva er typiske betydninger hos ord i ordklassen? hare - dyr, levende vesen redd - egenskap

ORDKLASSEKRITERIER Eksempel - adjektivet RØD: form: rød, rødt, røda, rødere, rødest funksjon: et rødt eple (attributiv funksjon), Håret hennes er rødt (predikativ funksjon) betydning: betegner en egenskap, typisk for adjektiv MEN: De røde tapte borgerkrigen?? normale (prototypiske) bruken vekting av kriteriene

ORDKLASSER: SUBSTANTIV Substantiv: olje, bord, jente, sorg 1. bøyes i bestemthet og tall bestemthet: kan knytte til seg bestemt artikkel som suffiks: bilen, greina, huset, tanken tall: (de fleste har) forskjellige endelser for entall og flertall: bil-biler, grein-greiner, tanke-tanker 2. kjerne i substantivfraser, med modifikatorer: en alldeles fantastisk vakker stol 3. betegner ting - mennesker, objekter, vesen, steder, fenomener och abstrakte enheter Unntak - egennavn bøyes ikke

ORDKLASSER: SUBSTANTIV Substanstivene er enten fellesnavn eller egennavn Fellesnavn: substantivene på forrige side Egennavn: ord som Adam, Eva, Haugesund, Dagros, Norge vanligvis ikke bøyning semantisk og syntaktisk mye til felles med egennavnene

ORDKLASSER: SUBSTANTIV Fellesnavnene har enten konkret eller abstrakt betydning Konkrete: en slags gjenstandsbetydning, betegner konkrete størrelser, f.eks. blomst, bok, bord, mann, tang, t/aarn Abstrakte: ikke gjenstandsbetydning, betegner abstrakte begreper eller forestillinger (handlinger, tilstands, egenskaper), f.eks. fred, ro, slag, tvil, vennskap, verdighet, alderdom Ikke alltid så lett å skille, noen substantiver har både konkret og abstrakt betydning: en mørkhåret skjønnhet dø i skjønnhet spenstig som en ungdom i min ungdom en fin tegning flink i tegning

ORDKLASSER: SUBSTANTIV Vi kan også skille mellom tellelige og ikke-tellelige/massebetegnende substantiver Tellelige: bil, bord, okse, stang Ikke-tellelige: kjøtt, smør, støv Ett og samme substantiv kan brukes i både tellelig og ikke-tellelig betydning, f.eks. tre, fjell, mur, stein et vakkert tre bordet er laget av tre mange høye fjell støtt som fjell mange steiner mye stein

ORDKLASSER: SUBSTANTIV Egennavn refererer til en enkelt gjenstand eller et bestemt individ, f.eks.ida, Torggata, Colosseum, Apple Navn på dyr, land, byer, gater, bygninger, elver, steder, planeter, foreninger, firmaer, fly, tog, kunstverk Vanligvis unik referanse Egennavn i flertallsform viser til helheten, f.eks. De forente stater, Hebridene Noen substantiver kan fungere som begge deler: Bibelen er verdens mestselgende roman Hun leste i sin bibel Egennavn som fellesnavn: Hemsedal er et skisportens mekka... en quisling, et eldorado, et watergate

ORDKLASSER: VERB Verb (hovedverb): sparke, sove, håpe, arbeide, bygge, leve 1. bøyes i tid (presens-preteritum) inndeles i finitt vs. infinitt former finitte: imperativ, presens, preteritum: spark, sparker, sparket infinitte: infinitiv, perfektum partisipp (å) sparke, (ha) sparket transitivitet: transitiv - intransitiv 2. kan stå alene som predikat 3. betegner handlinger, aktiviteter och tilstander Unntak - hjelpeverb: må, skal, bli

ORDKLASSER: VERB Kan grupperes basert på semantisk og grammatisk forhold Tre hovedgrupper a) Aktivitetsverb uttrykker en aktiv handling, dvs. at noen gjør eller utfører noe. Forutsetter en agens Ida arbeider hele dagen De gravde et hull De fleste går til jobben Fredrik spiller bass Regner også verb som uttrykker en aktivitet uten eksplisitt agens til denne gruppen: Det blåste kraftig hele dagen Det ulmet i asken

ORDKLASSER: VERB Tre hovedgrupper (forts.) b) Endrings-eller overgangsverb uttrykker et forløp eller en endringsprosess, dvs subjektet er patiens og gjennomgår eller opplever en forandring eller overgang Faren døde like etter krigen Bilen forsvant nedover gata Barna sovnet fort Plantene vokser hele året

ORDKLASSER: VERB Tre hovedgrupper (forts.) c) Tilstandsverb uttrykker en tilstand, subjektet er i gitt tilstand uten å forandres Han ble i London resten av livet De bor nå i Mumbai Thon eier snart hele byen De lever et lykkelig liv sammen Boken som ligger på bordet, tilhører meg

ORDKLASSER: ADJEKTIV Adjektiv: rød, snill, vanskelig, levende 1. samsvarsbøyes i bestemthet, kjønn och tall, gradbøyes 2. modifikator (adledd) til substantiv 3. betegner egenskaper

ORDKLASSER: ADJEKTIV De mest typiske egenskapene er permanente (kvaliteter): Størrelse, allment: stor, liten, vertikalt: høy, lav, kort, horisontalt: bred, smal, lang Form: rett, krokete, rund, flat Farge/lys: svart, gul, lys, mørk, dus Lydstyrke: høy, lav, skarp Smak: sur, søt, bitter Noen adjektiver uttrykker midlertidige egenskaper: Livstilstand: gammel, ung, levende, frisk, syk Sinnstilstand: sint, trøtt, glad, redd Temperatur: varm, kald, lunken Andre egenskaper: lat, arbeidsom, ren, skitten, rask, sein

ORDKLASSER: ADJEKTIV Gradbøyes ved bøyningsendelse eller mer mest. Betydningen angir et punkt på en skala. Men mange adjektiv har en mer presis betydning som er vanskelig å gradere, f.eks. død, gift, gratis, nybakt, lovlig Noen av de mest sentrale adjektivene opptrer i par med motsatt betydning antonymer: høy lav stor liten lang kort

ORDKLASSER: ADVERB Adverb: her, ofte, derfor, trolig, ikke, kanskje, nå, vanligvis 1. ubøyelige 2. Står som modifikatorer til verb, adjektiv, adverb och setninger 3. betegner forskjellige omstendigheter - rom, tid, måte m.m.

ORDKLASSER: ADVERB Tidsadverb uttrykker relativ tid, dvs. et tidspunkt i forhold til et annet Han kom etterpå (etter et tidspunkt i fortiden) Han kom da (på et tidspunkt i fortiden) Kom etterpå! (etter dette tidspunktet) Kommer han nå? (på dette tidspunktet) Du skal komme etterpå (etter et tidspunkt i framtiden) Du skal komme da (på et omtalt tidspunkt i framtiden)

ORDKLASSER: ADVERB Måtesadverb uttrykker måten noe blir gjort på Hun gjennomgikk pensum stykkevis De lå andføttes Gradsadverb uttrykker mengde, intensitet eller grad ved verbhandlingen Jeg fryser litt Nå har du tullet nok

ORDKLASSER: PREPOSISJONER Preposisjoner: ved, på, under, i, foran, av 1. ubøyelige 2. kjerne i preposisjonsfraser, tar substantiv 3. betegner relasjoner, f.eks. romlige Hytta ligger ved sjøen Elevene var svake i engelsk Taket på huset ble nettopp reparert

ORDKLASSER: PREPOSISJONER Varierende semantisk innhold, noen rene funksjonsord, andre mer innhold En viktig funksjon preposisjoner har er å lokalisere gjenstander og begivenheter i rom og tid Boka ligger på bordet Den lå bak skapet Vi drar i mai Kan også uttrykke måte eller middel: Hun satt i dype tanker Hun svarte med et lite smil Hun åpnet døren med en rusten nøkkel

ORDKLASSER: PREPOSISJONER Preposisjon uten utfylling: verbalpartikkel De sovnet inn Han brøt sammen etter løpet Vi drakk opp all vinen Danner en semantisk og syntaktisk enhet med verbet

ORDKLASSER: PRONOMEN Pronomen: jeg, hun, dere, seg, hverandre, hvem, man 1. av svært ulik form, uregelmessig bøyning 2. som substantiv, kan fungere som setningsledd alene 3. lite eget innhold, fr betydning fra sammenhengen (konteksten) Jeg liker grammatikk Man skal respektere hverandre Hvem tok vesken?

ORDKLASSER: PRONOMEN Pronomen får sitt innhold enten fra et element i selve talesituasjonen eller fra en nominal leddtype (typisk substantiv) i konteksten. Leddet som gir pronomen innhold er pronomenets antesedent Se her Er du sulten? Gro Harlem Brundtland er en tidligere norsk politiker. Hun var norges første kvinnelige statsminister...

ORDKLASSER: PRONOMEN Personlige pronomen kan bøyes, egne former for første, andre og tredje person, samt entall og flertall Nominativ Akkusativ 1.pers.ent. jeg meg 2.pers.ent. du deg 3.pers.ent han ham 3.pers.ent hun henne 3.pers.ent den/det den/det 1.pers.flt. vi oss 2.pers.flt. dere dere 3.pers.flt. de dem

ORDKLASSER: PRONOMEN Refleksivt pronomen er seg på norsk. Har antesedent i samme setning, oftest subjektet i setningen Brukes kun i tredje person. I første og andre person brukes akkusativformen Jeg vasker meg Hun vasker seg Vi vasker oss

ORDKLASSER: PRONOMEN Resiproke pronomen er hverandre på norsk. Uttrykker en gjensidig relasjon, slik at A og B beundrer hverandre impliserer at A beundrer B og B beundrer A Vi beundrer hverandre De beundrer hverandre

ORDKLASSER: PRONOMEN Interrogative pronomen (spørreord) Hvem når vi spør etter et menneske, ellers er det hva Hvem er det? Hva vil du ha å drikke? Hun spurte hvem det var

ORDKLASSER: DETERMINATIV Determinativ (artikler): min, din, denne, alle, noen 1. bøyning i kjønn og tall 2. bestemmer til substantiv 3. bestemmer, spesifiserer substantivets referanse

ORDKLASSER: DETERMINATIV 3 hovedtyper: a) Possessiver: angir eiendom eller tilhørighet, bøyes i person Det er min bok Her har du boken din b) Demonstrativer: viser til eller peker på en bestemt person eller ting som kan iakttas eller er omtalt Den hytta ligger fint til Dette treet er kjempestort c) Kvantorer: uttrykker mengde eller kvantitet, noen med bøyning (noen, ingen, en) og noen uten (to, tre, visse, enkelte, utallige) Hun har spist opp all maten Ida har kjøpt noen bøker

ORDKLASSER: KONJUNKSJONER Konjunksjoner: og, eller, men, for, så 1. ubøyelige 2. binder sammen ledd av samme slag, f.eks. ord, fraser og setninger 3. grammatisk funksjon, betegner relasjoner fullstendig ro og absolutt trygghet (nominalfrase og nominalfrase) konkret og abstrakt betydning (adjektivfrase och adjektivfrase) han var på ski og hun var i kirken (setning og setning)

ORDKLASSER: SUBJUNKSJONER Subjunksjoner: å, at, om, som, før 1. ubøyelige 2. innleder leddsetninger - underordner en setning under en annen 3. grammatisk funksjon, betegner relasjoner Hun elsker å danse Vi tror at det verste snart er over Der er hunden som spiste kaken

INNDELING AV ORDKLASSER åpne vs. lukkede ordklasser åpne: substantiv, verb og adjektiv innehåller mange tusen ord, kan enkelt fylle på med nye Eksempel: nye bilmodeller - nye farger (brannbilrød) lukkede: inneholder mange færre ord enn de åpne kan ikke fritt skape nye ord gjennom orddannelse innholdsord vs. funksjonsord innholdsord: substantiv, verb, adjektiv rikt betydningsinnhold, refererer utenfor språket formord: mer allment betydningsinnhold, refererer ikke utenfor språket. Finns fremst i de lukkede ordklassene. Ikke helt en-til-en, feks hjelpeverb.

KORPUSDATA Modellere språklig kunnskap Trenger språklige data Introspeksjon Faktisk språkbruk korpusdata Språkteknologi: programmer som generaliserer over språklige mønstre Korpusdata helt sentralt Menneskelig språkprossessering: hvordan modelleres språk i hjernen?

SPRÅKLIGE DATA: KORPUSDATA Et korpus (tekstkorpus) er en strukturert samling tekster Elektronisk lagret Siste 30 årene innenfor lingvistikk og datalingvistikk: empirisk revolusjon Større og større tekstmengder tilgjengelig Empiriske data for lingvistiske studier (motsetning til introspeksjon) Treningsmateriale for datalingvistiske modeller av språklige fenomener

ORDKLASSETAGGEDE KORPUSER Brown-korpuset for engelsk (1979): 87 ordklassetagger 1 mill. ord, utvalg fra 500 tekster hentet fra forskjellige sjangere Automatisk tagget og manuelt rettet Penn Treebank (1993) 45 ordklassetagger Wall Street Journal, Brown-korpuset, Switchboard, ATIS Ordklassetagger, syntaktisk struktur (frasestruktur)

ORDKLASSETAGGEDE KORPUSER Oslo-korpuset Tekstkorpus for norsk Utviklet ved Tekstlaboratoriet Automatisk tagget (Oslo-Bergen taggeren) ordklasser samt mye morfologisk informasjon subst <dato> 7.8.97 subst <klokke> 15.10 subst @TITTEL kong subst appell fl ub (p) vegne subst appell uby behold subst appell uby gen beholds subst fem appell ent be tida subst fem appell ent be gen tidas subst fem appell ent ub tid subst fem appell ent ub gen tids subst fem appell fl be tidene subst fem appell fl be gen tidenes subst fem appell fl ub tider subst fem appell fl ub gen tiders subst fem appell uby (drlig) rd subst fem prop Aud subst fem prop gen Auds subst fl ub (alle) mann subst gen prop Kristi subst mask appell ent be dagen subst mask appell ent be gen dagens subst mask appell ent ub dag subst mask appell ent ub gen dags subst mask appell fl be dagene

Eksempler fra Penn (J&M): The/DT Grand/JJ jury/nn commented/vbd on/in a/dt number/nn of/in other/jj topics/nns./. There/EX are/vbp 70/CD children/nns there/rb Although/IN preliminary/jj findings/nns were/vbd reported/vbn more/rbr than/in a/dt year/nn ago/in,/, the/dt latest/jjs results/nns appear/vbp in/in today/nn s/pos New/NNP England/NNP Journal/NNP of/in Medicine/NNP

Tagging følger en manual Noen avgjørelser vanskelige Eks: skillet mellom preposisjoner (IN), partikler (RP) og adverb (RB) Mrs./NNP Shaefer/NNP never/rb got/vbd around/rp to/to joining/vbg All/DT we/prp gotta/vbn do/vb is/vbz go/vb around/in the/dt corner/nn Chateau/NNP Petrus/NNP costs/vbz around/rb 250/CD Manualen: preposisjoner er assosiert med en etterfølgende subtstantivfrase. Around tagges som adverb i betydningen omtrent

ORDKLASSETAGGING Oppmerking av ordklasseinformasjon for hvert ord i et korpus Språkteknologi: automatiske systemer Flertydighet vanskeliggjør dette betydelig Ordnivå: Tokenisering

TOKENISERING Tokenisering Tokenisering handler om å dele inn en tekst i ord og setninger. Tidligere har vi gjort det enkelt og bare splittet på mellomrom. Men dette er problematisk: Tar ikke hensyn til tegnsetting og gir ord som cents. said, positive. Crazy?. Her kunne vi tatt bort tegnsetting, men tegnsetting forekommer også innad i ord: m.p.h. cap n, AT&T. Tall inneholder komma i engelsk: 555,000 Det kan være ønskelig å ekspandere forkortede former som for eksempel I,m, you re, they ve til henholdsvis I am, you are, they have. Da er det viktig å skille mellom slike former og genitiv s (Mary s) eller anførselstegn ( Oh no, he said)

ORDKLASSETAGGING Input: streng av ord og en spesifisert mengde tagger Output: en tagg per ord Book/VB that/dt flight/nn./. Does/VBZ that/dt flight/nn serve/vb dinner/nn?/. Flertydighet: book, that

FLERTYDIGHET De fleste engelske ord er entydige Men mange av de mest frekvente ordene er flertydige Tall fra Brown-korpuset: 11.5% av engelske ordtyper er flertydige 40% av Brown tokens er flertydige Heldigvis er ikke alle lesninger like sannsynlige (a)

ALGORITMER FOR ORDKLASSETAGGING To hovedkategorier: 1. Regelbaserte taggere: stor database med håndskrevne regler. Eksempel: book er substantiv, og ikke verb, dersom etterfølger en determinativ 2. Probabilistiske taggere: bruker et ordklassetagget korpus ( treningskorpus ) til å beregne sannsynlighet for en gitt tagg i en gitt kontekst