Arne Skjærholt 13. februar Arne Skjærholt 13. februar
Ordklasser Ordklasser Ordklassene er bindeleddet mellom ordet (det morfologiske nivået) og syntaksen (setningsstrukturen). Det kan bestemme hva slags kontekst et ord forekommer i, og av og til også uttale: en. record, content, discount. Ordklassene er ikke universelle! Noen språk har for eksempel ikke adjektiver (de bruker verb i stedet, mer om det etter hvert), og andre språ har ordklasser vi ikke har. Kinesisk og japansk bruker for eksempel telleord sammen med substantiver som telles. Ordklasser Ordklassetagging er en helt sentral oppgave i de fleste datalingvistiske applikasjoner: TTS, shunking, parsing...
Substantiv Adjektiv Verb Adverb 2014-02-13 Ordklasser Ordklassene er en taksonomi. Det vil si at det er en fullstendig, gjensidig utelukkende klassifikasjon av ord. Alle ord havner i én og bare én klasse. Vi trenger en form for kriterier for å bestemme ordklassene. Vi bruker tre kriterier for å bestemme ordklasser: formelle, funksjonelle, og betydningsmessige kriterier. Substantiv Adjektiv Verb Adverb
Ordklasser Formelle Annet navn: morfologiske kriterier. Hvilke bøyningsformer har ordene i klassen? Formelle
Ordklasser Funksjonelle Annet navn: syntaktiske kriterier. Hvordan kan ordene i klassen kombineres med andre ordklasser? Funksjonelle
Ordklasser Betydningsmessige Annet navn: semantiske kriterier. Hva er typiske betydninger hos ord i klassen? Betydningsmessige
Ordklasser rød, røde, rødt, rødere, rødest en rød bil, huset er rødt Egenskap Vi forholder også til den prototypiske (dvs. normale) bruken av ordet. Jamfør hare. rød, røde, rødt, rødere, rødest en rød bil, huset er rødt Egenskap
Ordklasser rød, røde, rødt, rødere, rødest en rød bil, huset er rødt Egenskap de røde tapte borgerkrigen Vi forholder også til den prototypiske (dvs. normale) bruken av ordet. Jamfør hare. rød, røde, rødt, rødere, rødest en rød bil, huset er rødt Egenskap de røde tapte borgerkrigen
Ordklasser 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. Spørrerunde. 1. 2. 3. 4. 5. 6. 7. 8. 9. 10.
Ordklasser 1. Substantiv 2. Verb 3. Adjektiv 4. Adverb 5. Preposisjon 6. Pronomen 7. Determinativ 8. Konjunksjon 9. Subjunksjon 10. Interjeksjon Spørrerunde. 1. Substantiv 2. Verb 3. Adjektiv 4. Adverb 5. Preposisjon 6. Pronomen 7. Determinativ 8. Konjunksjon 9. Subjunksjon 10. Interjeksjon
Substantiv Bøyes i bestemthet og tall. Bestemthet merkes enten bøyning eller bestemmer (eller begge deler [det store huset], i motsetning til svensk [stora huset] og dansk [det store hus]), entall er umerket og flertall markeres med endelse (for det meste). Norske substantiver har også kjønn, men bøyes ikke i det. Det er en fast egenskap ved substantivet. Substantiv Substantivet er kjerne i substantivfrasen, med modifikatorer: en aldeles fantastisk vakker stol De betegner ting (i en litt utvidet forstand): mennesker, dyr, objekter, fenomener, og ideer.
Fellesnavn Fellesnavn er de vanlige substantivene. De er enten konkrete eller abstrakte. Konkrete er ting som finnes ute i verden, mens abstrakter er begreper eller ideer. Men det er selvfølgelig uklare tilfeller: en mørkhåret skjønnhet/dø i skjønnhet; spenstig som en ungdom/i min ungdom... Fellesnavn
Egennavn Egennavnene (Per, Kari... ) er litt annerledes. De har vanligvis ikke bøyning (på norsk!), men har ellers semantisk og syntaktisk mye til felles med fellesnavnene. Her ser vi at selv om de ikke er nøyaktig like, særlig m.t.p. det morfologiske, men også syntaktisk, sier vi at de er i samme ordklasse. Egennavn
Tellbarhet De fleste substantiver er tellbare, men noen er ikke-tellbare eller massebetegnende. Ord som kjøtt, smør, støv Igjen, noen ord kan brukes på begge måter: Jeg liker øl/det står to øl i kjøleskapet; et vakkert tre/bordet er av tre. Her finner vi også en bruk som kan minne om de østasiatiske telleordene: tre flasker øl. Vi setter inn et nytt ord for å gjøre noe utellbart tellbart. Tellbarhet Andre språk kan ha andre kategorier i substantivet. Ganske vanlig er kasus og animathet (levende/ikke-levende, brukes til en viss grad i slaviske språk som russisk og tsjekkisk).
Verb Bøyes (på norsk) i tid, delt inn i finitte vs. infinitte former. Kan stå alene som predikat. Kan klassifiseres etter transitivitet: Hvor mange argumenter tar verbet? Betegner handlinger, aktiviteter, tilstander. Merk: Dette gjelder kun hovedverb. Hjelpeverb oppfører seg annerledes. Verb I andre språk er det vanlig med mer bøyning: person, aspekt, modus for eksempel.
Aktivitetsverb Uttrykker en aktiv handling, og forutsetter en agens, men vi regner også verb uten eksplisitt agens, som blåse, regne, ulme, til denne klassen. Aktivitetsverb
Overgangsverb Uttrykker at det skjer noe med subjektet (som er patiens). Typiske eksempler er dø, forsvinne, sovne, vokse. Overgangsverb
Tilstandsverb En begrenset klasse på norsk, men vanlig på andre språk. Norske eksempler: eie, bli, leve, ligge. Denne typen verb kan ofte brukes i stedet for adjektiver, i språk som ikke har det. Vi har da egne ord for å være rød og lignende. Tilstandsverb
Adjektiv Samsvarsbøyes i bestemthet, kjønn og tall, kan gradbøyes. Modifikator til substantiv. Betegner egenskaper. Det typiske adjektivet angir en permanent egenskap (liten, stor, bred, lang, smal), men noen er også mer kortvarige (sint, trøtt, gammel, ung, ren, skitten). Adjektiv Gradbøyingen angir punkt på en skala, men noen ord er vanskelige å gradbøye: død, gift, gratis, lovlig, nybakt.
Antonymer Noen av de sentrale adjektivene kommer i par med motsatt betydning: liten og stor, høy og liten, lang og kort. Antonymer
Adverb Noen kan gradbøyes (mest de som er avledet fra adjektiver), men de fleste er ubøyelige. Modifiserer verb, adjektiv, adverb og hele setninger. Angir omstendigheter: rom, tid, måte... Adverb
Preposisjoner Bøyes ikke. Kjerne i preposisjonsfrasen, tar substantiv. Betegner relasjoner. Sammen med verb finner vi av og til preposisjoner uten utfylling: bryte sammen, sovne inn, drikke opp. Dette kalles for verbalpartikkel. Partikkelen danner en semantisk og syntaktisk enhet med verbet, men kan være vanskelig å skille fra en PP som selekteres av verbet. Preposisjoner Noen språk har postposisjoner i stedet for preposisjoner (gjerne de som har SOV i stedet for SVO), og noen (f.eks. sanskrit) har faktisk begge deler.
Pronomen Stor variasjon i form og bøyning, så vanskelig å klassifisere morfologisk utifra endelser, men følger antesedenten i kjønn og tall. Som substantiv. Ikke eget innhold, men står for noe annet i konteksten. Pronomen Mange typer: personlig (jeg, du... ), refleksivt (seg), resiprokti (hverandre), spørrende (interrogativer; hvem, hva).
Antesedenten Det som pronomenet faktisk betyr. Bestemmes utifra konteksten, kan være veldig tvetydig, og er vanskelig å avgjøre automatisk. Antesedenten
Determinativ Eller bestemmer på norsk. Bøyes i kjønn og tall. Bestemmer til substantiv. Spesifiserer substantivets referanse. Determinativ 3 hovedtyper: possessiver (min bok, boka di), demonstrativer (den bilen, dette treet), kvantorer (noen, ingen, en, alle tallordene, visse enkelte), forsterkere (egen).
Konjunksjon Bøyes ikke. Binder sammen to like ting til å lage en ting av samme type. Grammatisk funksjon. Konjunksjon
Subjunksjon Bøyes ikke. Innleder leddsetninger (som inkluderer infinitivssetninger, å er en subjunksjon!): underordner en setning under en annen. Grammatisk funksjon. Subjunksjon
Interjeksjon Interjeksjon
Innholdsord Funksjonsord Innholdsord er de som refererer utenfor språket, mens funksjonsordene refererer ikke utenfor språket. Dette skillet svarer stort sett til skillet mellom åpne og lukkede ordklasser, men er ikke helt én til én. For eksempel er hjelpeverb funksjonsord. Innholdsord Funksjonsord
Ordklassetagging Lam og piggvar på bryllupsmenyen To måter å gjøre tagging på. Regelbaserte metoder, der ordene tilordnes alle mulige tagger (f.eks. med en FST-basert metode) og så fjernes alternativer som er umulige. OBT virker sånn. Lam og piggvar på bryllupsmenyen Det andre alternativet er statistiske modeller som direkte finner den mest sannsynlige taggsekvensen for en ordsekvens. Det skal vi se på de neste to ukene.
Ordklassetagging Lam/subst og/konj piggvar/subst på/prep bryllupsmenyen/subst To måter å gjøre tagging på. Regelbaserte metoder, der ordene tilordnes alle mulige tagger (f.eks. med en FST-basert metode) og så fjernes alternativer som er umulige. OBT virker sånn. Lam/subst og/konj piggvar/subst på/prep bryllupsmenyen/subst Det andre alternativet er statistiske modeller som direkte finner den mest sannsynlige taggsekvensen for en ordsekvens. Det skal vi se på de neste to ukene.
Ordklassetagging Ordklassetagging Oppgaven er å automatisk tilordne riktig ordklasse tagg til alle ordene i en setning. Stort sett er ord entydige, men hvis du velger en tilfeldig engelsk ordform er 11.5% tvetydige, men i løpende tekst er 40% av ordene du ser tvetydige. Ordklassetagging