dairoku: del 6, kougi: forelesning Arne Skjærholt 第 六 講 義 Arne Skjærholt 第 六 講 義
Ordklassene er bindeleddet mellom ordet (det morfologiske nivået) og syntaksen (setningsstrukturen). Det kan bestemme hva slags kontekst et ord forekommer i, og av og til også uttale: en. record, content, discount. Ordklassetagging er en helt sentral oppgave i de fleste datalingvistiske applikasjoner: TTS, shunking, parsing...
Substantiv Adjektiv Verb Adverb 2013-02-22 Ordklassene er en taksonomi. Det vil si at det er en fullstendig, gjensidig utelukkende klassifikasjon av ord. Alle ord havner i én og bare én klasse. Vi trenger en form for kriterier for å bestemme ordklassene. Substantiv Verb Adverb Adjektiv
Formelle Annet navn: morfologiske kriterier. Hvilke bøyningsformer har ordet? Formelle
Funksjonelle Annet navn: syntaktiske kriterier. Hvordan kan ordet kombineres med andre ord? Funksjonelle
Betydningsmessige Annet navn: semantiske kriterier. Hva er typiske betydninger hos ord i klassen? Betydningsmessige
rød, røde, rødt, rødere, rødest en rød bil, huset er rødt Egenskap Vi forholder også til den prototypiske (dvs. normale) bruken av ordet. rød, røde, rødt, rødere, rødest en rød bil, huset er rødt Egenskap
rød, røde, rødt, rødere, rødest en rød bil, huset er rødt Egenskap de røde tapte borgerkrigen Vi forholder også til den prototypiske (dvs. normale) bruken av ordet. rød, røde, rødt, rødere, rødest en rød bil, huset er rødt Egenskap de røde tapte borgerkrigen
Substantiv Bøyes i bestemthet og tall. Bestemthet merkes enten med bøyning eller bestemmer, entall er umerket og flertall markeres med endelse (for det meste). Substantivet er kjerne i substantivfrasen, med modifikatorer: en alldeles fantastisk vakker stol Substantiv De betegner ting. Mennesker, dyr, objekter, fenomener, og ideer.
Egennavn Egennavnene er et unntak. De har vanligvis ikke bøyning (på norsk), men har eller semantisk og syntaktisk mye til felles med fellesnavnene. Egennavn
Fellesnavn Fellesnavn er enten konkrete eller abstrakte. Konkrete er ting som finnes ute i verden, mens abstrakter er begreper eller ideer. Men det er selvfølgelig uklare tilfeller: en mørkhåret skjønnhet/dø i skjønnhet; spenstig som en ungdom/i min ungdom... Fellesnavn
Tellbarhet De fleste substantiver er tellbare, men noen er ikke-tellbare eller massebetegnende. Ord som kjøtt, smør, støv Igjen, noen ord kan brukes på begge måter: Jeg liker øl/det står to øl i kjøleskapet; et vakkert tre/bordet er av tre. Tellbarhet
Verb Bøyes (på norsk) i tid, delt inn i finitte vs. infinitte former. Kan stå alene som predikat. Kan klassifiseres etter transitivitet: Hvor mange argumenter tar verbet? Betegner handlinger, aktiviteter, tilstander. Verb Merk: Dette gjelder kun hovedverb. Hjelpeverb oppfører seg annerledes.
Aktivitetsverb Uttrykker en aktiv handling, og forutsetter en agens, men vi regner også verb uten eksplisitt agens, som blåse, regne, ulme, til denne klassen også. Aktivitetsverb
Overgangsverb Uttrykker at det skjer noe med subjektet (som er patiens). Typiske eksempler er dø, forsvinne, sovne, vokse. Overgangsverb
Tilstandsverb En begrenset klasse på norsk, men vanlig på andre språk. Norske eksempler: eie, bli, leve, ligge. Tilstandsverb
Adjektiv Samsvarsbøyes i bestemthet, kjønn og tall, kan gradbøyes. Modifikator til substantiv. Betegner egenskaper. Det typiske adjektivet angir en permanent egenskap (liten, stor, bred, lang, smal), men noen er også mer kortvarige (sint, trøtt, gammel, ung, ren, skitten). Adjektiv Gradbøyingen angir punkt på en skala, men noen ord er vanskelige å gradbøye: død, gift, gratis, lovlig, nybakt.
Antonymer Noen av de sentrale adjektivene kommer i par med motsatt betydning: liten og stor, høy og liten, lang og kort Antonymer
Adverb Noen kan gradbøyes, men de fleste er ubøyelige. Modifiserer verb, avjektiv, adverb og hele setninger. Angir omstendigheter: rom, tid, måte... Adverb
Preposisjoner Bøyes ikke. Kjerne i preposisjonsfrasen, tar substantiv. Betegner relasjoner. Preposisjoner Sammen med verb finner vi av og til preposisjoner uten utfylling: bryte sammen, sovne inn, drikke opp. Dette kalles for verbalpartikkel. Partikkelen danner en semantisk og syntaktisk enhet med verbet, men kan være vanskelig å skille fra en PP som selekteres av verbet.
Pronomen Stor variasjon i form og bøyning, så vanskelig å klassifisere morfologisk. Som substantiv. Ikke eget innhold, men står for noe annet i konteksten. Pronomen Mange typer: personlig, refleksivt, resiprokt, spørrende (interrogativer).
Antesedenten Det som pronomenet faktisk betyr. Bestemmes utifra konteksten, kan være veldig tvetydig, og er vanskelig å avgjøre automatisk. Antesedenten
Determinativ Bøyes i kjønn og tall. Bestemmer til substantiv. Spesifiserer substantivets referanse. Determinativ 3 hovedtyper: possessiver (min boka, boka di), demonstrativer (den bilen, dette treet), kvantorer (noen, ingen, en, alle tallordene, visse enkelte).
Konjunksjoner Bøyes ikke. Binder sammen to like ting til å lage en ting av samme type. Grammatisk funksjon. Konjunksjoner
Subjunksjoner Bøyes ikke. Innleder leddsetninger: underordner en setning under en annen. Grammatisk funksjon. Subjunksjoner
Innholdsord Funksjonsord Innholdsord er de som refererer utenfor språket, mens funksjonsordene refererer ikke utenfor språket. Dette skillet svarer stort sett til skillet mellom åpne og lukkede ordklasser, men er ikke helt én til én. For eksempel er hjelpeverb funksjonsord. Innholdsord Funksjonsord
Ordklassetagging Lam og piggvar på bryllupsmenyen To måter å gjøre tagging på. Regelbaserte metoder, der ordene tilordnes alle mulige tagger (f.eks. med en FST-basert metode) og så fjernes alternativer som er umulige. OBT virker sånn. Lam og piggvar på bryllupsmenyen Det andre alternativet er statistiske modeller som direkte finner den mest sannsynlige taggsekvensen for en ordsekvens. Det skal vi se på de neste to ukene.
Ordklassetagging Lam/subst og/konj piggvar/subst på/prep bryllupsmenyen/subst To måter å gjøre tagging på. Regelbaserte metoder, der ordene tilordnes alle mulige tagger (f.eks. med en FST-basert metode) og så fjernes alternativer som er umulige. OBT virker sånn. Lam/subst og/konj piggvar/subst på/prep bryllupsmenyen/subst Det andre alternativet er statistiske modeller som direkte finner den mest sannsynlige taggsekvensen for en ordsekvens. Det skal vi se på de neste to ukene.
Ordklassetagging Ordklassetagging Oppgaven er å automatisk tilordne riktig ordklasse tagg til alle ordene i en setning. Stort sett er ord entydige, men hvis du velger en tilfeldig engelsk ordform er 11.5% tvetydige, men i løpende tekst er 40% av ordene du ser tvetydige. Ordklassetagging