IN1140: Introduksjon til språkteknologi. Forelesning #5

Størrelse: px
Begynne med side:

Download "IN1140: Introduksjon til språkteknologi. Forelesning #5"

Transkript

1 IN1140: Introduksjon til språkteknologi Forelesning #5 Samia Touileb Universitetet i Oslo 19. september 2017

2 Tema for i dag 2 Fra forrige forelesning: Ikke-deterministiske FSAer, Regulære språk Ordklasser Ordklassetaggede korpuser Ordklassetagging

3 3 For saueprat-eksempelet: Q = {q 0, q 1, q 2, q 3, q 4 } Σ = {a, b,!} F = {q4 } δ(q, i) er gitt ved transisjonstabellen

4 4 Eksempel 1: Eksempel 2:

5 Ikke-deterministiske FSAer 5 En FSA er ikke-deterministisk dersom: for minst en tilstand (node) og ett symbol finnes det mer enn en transisjon som passer (to transisjoner med samme symbol) disse valgene kan involvere tomme (ɛ-)transisjoner b a! S 0 S 1 ø ø S 1 ø S 1,S 2 ø S 2 ø ø S 3 S 3 ø ø ø

6 Ikke-deterministiske FSAer 6 Enhver ikke-deterministisk FSA kan gjøres deterministisk Strategier: Backup: Hver gang må foreta et valg: marker hvor langt du har kommet og hvilken tilstand Look-ahead: Se framover i input en Parallellisme: Utforske alternative ruter samtidig

7 7 Hvorfor endelige ( finite )? Antall tilstander er bestemt på forhånd (transisjonstabellen) Derfor bruker maskinen begrenset minne Hva den gjør ved hvert skritt bestemmes av transisjonstabellen Tilstanden ved ethvert tidspunkt reflekterer prosesseringsrekkefølgen Klasser av formelle språk som ikke er regulære krever ekstra minne for å holde styr på tidligere informasjon, feks såkalte center-embedding konstruksjoner (mer om dette senere)

8 Formell språkteori 8 Et formelt språk er en mengde strenger Et endelig alfabet Σ og noen operasjoner for å kombinere strenger Regulære språk er den enkleste klassen av formelle språk Klassen av språk som kan defineres av regulære uttrykk Klassen av språk som kan gjenkjennes av FSAer

9 Kompleksitet 9 Komputasjonell kompleksitet: hvilken uttrykkskraft og ressurser som kreves for å prossessere klasser av formelle språk Lingvistisk kompleksitet: hva gjør noen konstruksjoner eller setninger vanskeligere å forstå This is the dog, that worried the cat, that killed the rat, that ate the malt, that lay in the house that Jack built. This is the malt that the rat that the cat that the dog worried killed ate.

10 Chomsky-hierarkiet 10 Et hierarki av klasser av språk (sett på som mengder av strenger), ordnet etter kompleksitet Språkene i én klasse inkluderer språkene i lavere klasser Sammenheng mellom klassen av språk og hvilke formelle regelsystemer man kan bruke for å generere språkene

11 Chomsky-hierarkiet 11

12 Chomsky-hierarkiet 12 Regulære språk: endelig tilstandsmaskin (FSA) Kontekstfrie språk: kontekstfrie grammatikker (CFG) Kontekstsensitive språk: Turingmaskin med endelig tape Turing-ekvivalente språk: Turingmaskin formell modell som kan beskrive logikken bak enhver algoritme (se for mer info om Turingmaskiner og for en morsom representasjon)

13 Chomsky-hierarkiet Fra J&M (kap. 16) og Wikipedia Type Name Allowable Rules 0 Turing Unrestricted equivalent α β, such that α ɛ 1 Context- Sensitive αaβ αγβ, such that γ ɛ Definition a formal language for which there exists a Turing machine (or other computable function) which will enumerate all valid strings of the language the left-hand sides and right-hand sides of any production rules may be surrounded by a context of terminal and nonterminal symbols Recognizing Automaton Turing Machines Turing Machines with finite tape 13

14 Chomsky-hierarkiet forts. 14 Fra J&M (kap. 16) og Wikipedia Type Name Allowable Rules 2 Context- A γ Free 3 Regular A xb or A x Definition The left-hand side of the production rule is also always a nonterminal symbol FSA Recognizing Automaton Context-free grammars FSA

15 Hva med naturlige språk? 15 Chomsky-hierarkiet har også blitt brukt for å forstå naturlige språkskompleksitet og ikke minst hvilke modeller vi kan bruke til å prosessere dem Chomsky (1957): English is not a regular language Om kontekstfrie språk: I do not know whether or not English is itself literally outside the range of such analyses

16 Formell språkteori 16 Hva slags uttrykk er ikke regulære? I naturlige språk: feks såkalt center-embedding 1. The dog died 2. The cat the dog saw died 3. The cat the dog the mouse bit saw died (the noun) n (transitivt-verb) n 1 intransitivt-verb Lignende vil være regulære: A*B* died

17 Formell språkteori 17 Men representerer dette faktisk språkbruk? Autentisk eksempel: [When the pain, [which nobody [who has not experienced it] can imagine], finally arrives], they can be taken aback by its severity.

18 Regulære språk 18 Hvordan kan vi karakterisere klassen av regulære språk? ɛ er den tomme strengen ø er den tomme mengden Σ er et alfabet (symboler)

19 Regulære språk 19 Klassen av regulære språk over Σ kan defineres formelt som: ø er et regulært språk a Σ ɛ, {a} er et regulært språk Dersom L1 og L 2 er regulære språk, da er følgende språk også regulære: 1. L 1 L 2 (konkatenering, L 1 L 2 = {xy x L 1, y L 2}) 2. L 1 L 2 (union eller disjunksjon) 3. L 1 (Kleenes closure) Alle regulære uttrykk faller inn under dette tellerene (*, +, {n,m}) er repetisjon + Kleenes* (feks a b) og [] (feks [ab])er disjunksjoner

20 Regulære språk De regulære språkene er lukket under: differanse: L 1 L 2 : mengden strenger som er i L 1 men ikke i L 2 snitt: L1 L 2 : mengden strenger som er i både L 1 og L 2 komplement: Dersom L1 er et regulært språk så er Σ 1 L 1, mengden av alle mulige strenger som ikke er i L 1 reversering: Dersom L1 er et regulært språk så er L R 1, mengden av reverserte strenger fra L 1 1 Σ er det endelige settet av alle mulige strenger som kan utformes fra alfabetet Σ 20

21 Regulære språk 21 Egenskapene kan brukes til å bevise medlemskap i en formell språklig klasse Feks: Engelsk er ikke regulært L ce = (the noun) n (transitivt-verb) n 1 intransitivt-verb Lce er snittet av det naturlige språket engelsk med den regulære mengden L reg =A*B* intransitivt verb da regulære språk er lukket under snitt og Lreg er et regulært språk så ville snittet mellom engelsk og L reg være regulært dersom engelsk var regulært engelsk er altså ikke regulært

22 Tema for i dag 22 Ordklasser Ordklassetaggede korpuser Ordklassetagging

23 Lingvistikk 23

24 Ordklasser? 24 Bindeledd mellom ordet og setningen (syntaks): Sier noe om hva slags kontekster et ord forekommer i Sier noe om uttale (record, content) Helt essensiell i en rekke språkteknologiske applikasjoner: Talesyntese Morfologisk analyse Chunking, syntaktisk parsing Word Sense Disambiguation Informasjonsekstraksjon

25 Ordklasser 25 Substantiv Adjektiv Verb Adverb Taksonomi - et system som har kategorier som er uttømmende, gjensidig utelukkende, styrt av et prinsipp Alle ord havner i en klasse og ingen ord havner i mer enn én klasse Vi trenger kriterier for ordklasseinndeling

26 Ordklassekriterier 26 3 slags kriterier: 1. Formelle eller morfologiske kriterier Hvilke bøyningsformer har ordet? Har de samme ordklasse? hare - haren og redd - reddere *harare og *redden 2. Funksjonelle eller syntaktiske kriterier (hva slags funksjon har ordet i en setning, hvilken posisjoner forekommer typisk i) Hvordan kan ordet kombineres med andre ord? en redd hare og redd for ilden *en redd og *en hare for ilden 3. Betydningsmessige eller semantiske kriterier Hva er typiske betydninger hos ord i ordklassen? hare - dyr, levende vesen redd - egenskap

27 Ordklassekriterier 27 Adjektivet rød: form: rød, rødt (bøyning etter kjønn), røde (bestemt), rødere (komparativ form), rødest (superlativ) funksjon: et rødt eple (attributiv funksjon attribuer et egenskap), Håret hennes er rødt (predikativ funksjon en identitesmarkør) betydning: betegner en egenskap, typisk for adjektiv MEN: De røde tapte borgerkrigen?? Adjektivet er i en substantiv kotekst: unntakk. Fokusere på: Normale (prototypiske) bruken Vekting av kriteriene

28 Ordklasser: substantiv 28 Substantiv olje, bord, jente, sorg 1. Bøyes i bestemthet og tall Bestemthet: kan knytte til seg bestemt artikkel som suffiks: bilen, greina, huset, tanken, bordet Tall: (de fleste har) forskjellige endelser for entall og flertall: bil-biler, grein-greiner, tanke-tanker, border 2. Kjerne i substantivfraser, med modifikatorer: en alldeles fantastisk vakker stol 3. Betegner ting - mennesker, objekter, vesen, steder, fenomener og abstrakte enheter Unntak - egennavn Bøyes ikke

29 Ordklasser: substantiv 29 Substantivene er enten fellesnavn eller egennavn Fellesnavn: substantivene på forrige side Egennavn: ord som Adam, Eva, Haugesund, Dagros, Norge

30 Ordklasser: substantiv 30 Fellesnavnene har enten konkret eller abstrakt betydning Konkrete: en slags gjenstandsbetydning, betegner konkrete størrelser, f.eks. blomst, bok, bord, mann, tang, tårn Abstrakte: ikke gjenstandsbetydning, betegner abstrakte begreper eller forestillinger (handlinger, tilstands, egenskaper), f.eks. fred, ro, slag, tvil, vennskap, verdighet, alderdom Ikke alltid så lett å skille: en mørkhåret skjønnhet dø i skjønnhet (abstrakt egenskap) spenstig som en ungdom i min ungdom en fin tegning flink i tegning

31 Ordklasser: substantiv 31 Vi kan også skille mellom tellelige og ikke-tellelige/massebetegnende substantiver Tellelige: bil, bord, okse, stang Ikke-tellelige: kjøtt, smør, støv Både tellelig og ikke-tellelig betydning: et vakkert tre bordet er laget av tre mange høye fjell støtt som fjell mange steiner mye stein

32 Ordklasser: substantiv 32 Egennavn refererer til en enkelt gjenstand eller et bestemt individ, f.eks.ida, Torggata, Colosseum, Apple Navn på dyr, land, byer, gater, bygninger, elver, steder, planeter, foreninger, firmaer, fly, tog, kunstverk Vanligvis unik referanse Egennavn i flertallsform viser til helheten, f.eks. De forente stater, Hebridene Noen substantiver kan fungere som begge deler: Bibelen er verdens mestselgende roman (egennavn) Hun leste i sin bibel (fellesnavn) Egennavn som fellesnavn: Hemsedal er et skisportens mekka... en quisling, et eldorado, et watergate

33 Ordklasser: verb 33 Verb (hovedverb) sparke, sove, håpe, arbeide, bygge, leve 1. Bøyes i tid (presens-preteritum) inndeles i finitte vs. infinitte former Finitte (kan stå alene i en setning): imperativ, presens, preteritum: spark, sparker, sparket Infinitte (kan ikke stå alene, de trenger en fuknsjonell markør/hjelpeverb): infinitiv, perfektum partisipp (å) sparke, (ha) sparket Transitivitet: transitiv (krever to argumenter: subjekt og objekt) - intransitiv (tar ikke objekt, krever ikke et argument) 2. Kan stå alene som predikat 3. Betegner handlinger, aktiviteter og tilstander Unntak - hjelpeverb (forekommer typisk med et innholdsverb): må, skal, bli

34 Ordklasser: verb 34 Kan grupperes basert på semantisk og grammatisk forhold (hva de betyr) Tre hovedgrupper a) Aktivitetsverb uttrykker en aktiv handling, dvs. at noen gjør eller utfører noe. Forutsetter en agens (en som gjør noe aktivt, med viten og vilje) Ida arbeider hele dagen De gravde et hull De fleste går til jobben Fredrik spiller bass

35 Ordklasser: verb 35 Tre hovedgrupper (forts.) b) Endrings-eller overgangsverb uttrykker et forløp eller en endringsprosess, dvs subjektet er patiens og gjennomgår eller opplever en forandring eller overgang Faren døde like etter krigen Bilen forsvant nedover gata Barna sovnet fort Plantene vokser hele året

36 Ordklasser: verb 36 Tre hovedgrupper (forts.) c) Tilstandsverb uttrykker en tilstand, subjektet er i gitt tilstand uten å forandres (ingen gjør noe med vilje) Han ble i London resten av livet De bor nå i Mumbai Thon eier snart hele byen De lever et lykkelig liv sammen Boken som ligger på bordet, tilhører meg

37 Ordklasser: adjektiv 37 Adjektiv: rød, snill, vanskelig, levende 1. Samsvarsbøyes i bestemthet, kjønn og tall, gradbøyes (rød, rødere, rødest, interessant, mer interessant, mest interessant) 2. Modifikator (adledd) til substantiv 3. Betegner egenskaper

38 Ordklasser: adjektiv 38 De mest typiske egenskapene er permanente (kvaliteter): Størrelse, allment: stor, liten, vertikalt: høy, lav, kort, horisontalt: bred, smal, lang Form: rett, krokete, rund, flat Farge/lys: svart, gul, lys, mørk, dus Lydstyrke: høy, lav, skarp Smak: sur, søt, bitter Noen adjektiver uttrykker midlertidige egenskaper: Livstilstand: gammel, ung, levende, frisk, syk Sinnstilstand: sint, trøtt, glad, redd Temperatur: varm, kald, lunken Andre egenskaper: lat, arbeidsom, ren, skitten, rask, sein

39 Ordklasser: adjektiv 39 Gradbøyes ved bøyningsendelse eller mer mest. Betydningen angir et punkt på en skala (feks. ung gammel / men ikke levende død). Men mange adjektiv har en mer presis betydning som er vanskelig å gradere, f.eks. død, gift, gratis, nybakt, lovlig Noen av de mest sentrale adjektivene opptrer i par med motsatt betydning antonymer: høy lav stor liten lang kort

40 Ordklasser: adverb 40 Adverb: her, ofte, derfor, trolig, ikke, kanskje, nå, vanligvis 1. Ubøyelige (Engelsk: beautiful beautifully, careful carefully) 2. Står som modifikatorer til verb, adjektiv, adverb og setninger 3. Betegner forskjellige omstendigheter - rom, tid, måte m.m.

41 Ordklasser: adverb 41 Tidsadverb uttrykker relativ tid, dvs. et tidspunkt i forhold til et annet Han kom etterpå (etter et tidspunkt i fortiden) Han kom da (på et tidspunkt i fortiden) Kom etterpå! (etter dette tidspunktet) Kommer han nå? (på dette tidspunktet) Du skal komme etterpå (etter et tidspunkt i framtiden) Du skal komme da (på et omtalt tidspunkt i framtiden)

42 Ordklasser: adverb 42 Måtesadverb uttrykker måten noe blir gjort på Hun gjennomgikk pensum stykkevis De lå andføttes Gradsadverb uttrykker mengde, intensitet eller grad ved verbhandlingen Jeg fryser litt Nå har du tullet nok

43 Ordklasser: preposisjoner 43 Preposisjoner: Funksjonsord klassen ved, på, under, i, foran, av 1. Ubøyelige 2. Kjerne i preposisjonsfraser, tar substantiv 3. Betegner relasjoner, f.eks. romlige Hytta ligger ved sjøen Elevene var svake i engelsk Taket på huset ble nettopp reparert

44 Ordklasser: preposisjoner 44 Varierende semantisk innhold Lokalisere gjenstander og begivenheter i rom og tid Boka ligger på bordet Den lå bak skapet Vi drar i mai Kan også uttrykke måte eller middel: Hun satt i dype tanker Hun svarte med et lite smil Hun åpnet døren med en rusten nøkkel

45 Ordklasser: preposisjoner 45 Preposisjon uten utfylling: verbalpartikkel De sovnet inn Han brøt sammen etter løpet Vi drakk opp all vinen Danner en semantisk og syntaktisk enhet med verbet

46 Ordklasser: pronomen 46 Pronomen: jeg, hun, dere, seg, hverandre, hvem, man 1. Av svært ulik form, uregelmessig bøyning 2. Som substantiv, kan fungere som setningsledd alene 3. Lite eget innhold, får betydning fra sammenhengen (konteksten) Jeg liker grammatikk Man skal respektere hverandre Hvem tok vesken?

47 Ordklasser: pronomen 47 Pronomen får sitt innhold enten fra et element i selve talesituasjonen eller fra et nominalt ledd (typisk substantiv) i konteksten. Leddet som gir pronomen innhold er pronomenets antesedent Se her Er du sulten? Gro Harlem Brundtland er en tidligere norsk politiker. Hun var norges første kvinnelige statsminister...

48 Ordklasser: pronomen 48 Personlige pronomen kan bøyes, egne former for første, andre og tredje person, samt entall og flertall Nominativ Akkusativ 1.pers.ent. jeg meg 2.pers.ent. du deg 3.pers.ent han ham 3.pers.ent hun henne 3.pers.ent den/det den/det 1.pers.flt. vi oss 2.pers.flt. dere dere 3.pers.flt. de dem

49 Ordklasser: pronomen 49 Refleksivt pronomen er seg på norsk. Har antesedent i samme setning, oftest subjektet i setningen Brukes kun i tredje person. I første og andre person brukes akkusativformen Jeg vasker meg Hun vasker seg Vi vasker oss

50 Ordklasser: pronomen 50 Resiproke pronomen er hverandre på norsk. Uttrykker en gjensidig relasjon, slik at A og B beundrer hverandre impliserer at A beundrer B og B beundrer A Vi beundrer hverandre De beundrer hverandre

51 Ordklasser: pronomen 51 Interrogative pronomen (spørreord) Hvem når vi spør etter et menneske, ellers er det hva Hvem er det? Hva vil du ha å drikke? Hun spurte hvem det var

52 Ordklasser: determinativ 52 Determinativ (artikler): min, din, denne, alle, noen 1. Bøyning i kjønn og tall (min bil, mitt hus) 2. Bestemmer til substantiv 3. Bestemmer, spesifiserer substantivets referanse

53 Ordklasser: Determinativ 53 3 hovedtyper: a) Possessiver: angir eiendom eller tilhørighet, bøyes i person Det er min bok Her har du boken din b) Demonstrativer: viser til eller peker på en bestemt person eller ting som kan iakttas eller er omtalt Den hytta ligger fint til Dette treet er kjempestort c) Kvantorer: uttrykker mengde eller kvantitet, noen med bøyning (noen, ingen, en) og noen uten (to, tre, visse, enkelte, utallige) Hun har spist opp all maten Ida har kjøpt noen bøker

54 Ordklasser: Konjunksjoner 54 Konjunksjoner: og, eller, men, for, så 1. Bøyelige 2. Binder sammen ledd av samme slag, f.eks. ord, fraser og setninger 3. Grammatisk funksjon, betegner relasjoner Fullstendig ro og absolutt trygghet (nominalfrase og nominalfrase) Konkret og abstrakt betydning (adjektivfrase og adjektivfrase) Han var på ski og hun var i kirken (setning og setning)

55 Ordklasser: subjunksjoner 55 Subjunksjoner: (en måte å danne leddsetninger = små setninger i andre setninger for å utvidde setninger) å, at, om, som, før 1. Ubøyelige 2. Innleder leddsetninger - underordner en setning under en annen 3. Grammatisk funksjon, betegner relasjoner Hun elsker å danse Vi tror at det verste snart er over Der er hunden som spiste kaken

56 Inndeling av ordklasser 56 åpne vs. lukkede ordklasser Åpne: substantiv, verb og adjektiv inneholder mange tusen ord, kan enkelt fylle på med nye Eksempel: nye bilmodeller - nye farger (brannbilrød) Lukkede: inneholder mange færre ord enn de åpne kan ikke fritt skape nye ord gjennom orddannelse (pronomen) Innholdsord vs. funksjonsord Innholdsord: substantiv, verb, adjektiv rikt betydningsinnhold, Funksjonsord: mer allment betydningsinnhold. Finnes fremst i de lukkede ordklassene. Ikke helt én-til-én, feks hjelpeverb.

57 Språklige data: korpusdata 57 Modellere språklig kunnskap Trenger språklige data Språkteknologi: programmer som generaliserer over språklige mønstre Korpusdata helt sentralt Et korpus (tekstkorpus) er en strukturert samling tekster Elektronisk lagret

58 Ordklassetaggede korpuser 58 Brown-korpuset for engelsk (1979): 87 ordklassetagger 1 mill. ord, utvalg fra 500 tekster hentet fra forskjellige sjangere Automatisk tagget og manuelt rettet Penn Treebank (1993) 45 ordklassetagger Wall Street Journal (1 mill. ord), Brown-korpuset (tagget versjon), Switchboard, ATIS (sample) Ordklassetagger, syntaktisk struktur (trær som representerer frasestruktur)

59 Ordklassetaggede korpuser 59 Norsk dependenstrebank (2014) Trebank for norsk Utviklet ved Nasjonalbiblioteket Manuelt tagget (lingvister, 2år) Ordklasser samt mye morfologisk informasjon 1 Det det pron nøyt ent pers 3 2 er være verb pres 3 hun hun pron fem ent pers hum 3 nom 4 som som sbu _ 5 eier eie verb pres 6 og og konj _ 7 driver drive verb pres 8 stedet sted subst appell nøyt be ent

60 60 Eksempler fra Penn (J&M): The/DT Grand/JJ jury/nn commented/vbd on/in a/dt number/nn of/in other/jj topics/nns./. DT : determiner JJ : adjective NN : noun, singular or mass VBD : verb, past tense IN : preposition or subordinating conjunction NNS : noun, plural There/EX are/vbp 70/CD children/nns there/rb EX : existential there VBP : verb, non-3rd person singular present CD : cardinal number RB : adverb

61 61 Tagging følger en manual Noen avgjørelser vanskelige Eks: skillet mellom preposisjoner (IN), partikler (RP) og adverb (RB) Mrs./NNP Shaefer/NNP never/rb got/vbd around/rp to/to joining/vbg All/DT we/prp gotta/vbn do/vb is/vbz go/vb around/in the/dt corner/nn Chateau/NNP Petrus/NNP costs/vbz around/rb 250/CD Manualen: preposisjoner er assosiert med en etterfølgende subtstantivfrase. Around tagges som adverb i betydningen omtrent

62 Ordklassetagging 62 Oppmerking av ordklasseinformasjon for hvert ord i et korpus Språkteknologi: automatiske systemer Flertydighet vanskeliggjør dette betydelig Ordnivå: Tokenisering

63 Tokenisering 63 Tokenisering Tokenisering handler om å dele inn en tekst i ord og setninger. Tidligere har vi gjort det enkelt og bare splittet på mellomrom. Men dette er problematisk: Tar ikke hensyn til tegnsetting og gir ord som cents. said, positive. Crazy?. Her kunne vi tatt bort tegnsetting, men tegnsetting forekommer også innad i ord: m.p.h. cap n, AT&T. Tall inneholder komma i engelsk: 555,000 Det kan være ønskelig å ekspandere forkortede former som for eksempel I m, you re, they ve til henholdsvis I am, you are, they have. Da er det viktig å skille mellom slike former og genitiv s (Mary s) eller anførselstegn ( Oh no, he said)

64 Ordklassetagging 64 Input: streng av ord og en spesifisert mengde tagger Output: en tagg per ord Book/VB that/dt flight/nn./. Does/VBZ that/dt flight/nn serve/vb dinner/nn?/. Flertydighet: book, that

65 Flertydighet 65 De fleste engelske ord er entydige Men mange av de mest frekvente ordene er flertydige Tall fra Brown-korpuset: 11.5% av engelske ordtyper er flertydige 40% av Brown tokens er flertydige Heldigvis er ikke alle lesninger like sannsynlige

66 Algoritmer for ordklassetagging 66 To hovedkategorier: 1. Regelbaserte taggere: stor database med håndskrevne regler. Eksempel: book er substantiv, og ikke verb, dersom etterfølger en determinativ 2. Probabilistiske taggere: bruker et ordklassetagget korpus ( treningskorpus ) til å beregne sannsynlighet for en gitt tagg i en gitt kontekst

67 NLTK 67 Fra > import nltk > text = word_tokenize( And now for something completely different ) > nltk.pos_tag(text) [( And, CC ), ( now, RB ), ( for, IN ), ( something, NN ), ( completely, RB ), ( different, JJ )] > text = word_tokenize("they refuse to permit us to obtain the refuse permit") > nltk.pos_tag(text) [( They, PRP ), ( refuse, VBP ), ( to, TO ), ( permit, VB ), ( us, PRP ), ( to, TO ), ( obtain, VB ), ( the, DT ), ( refuse, NN ), ( permit, NN )]

68 NLTK 68 > nltk.corpus.brown.tagged_words() [( The, AT ), ( Fulton, NP-TL ),...] > nltk.corpus.brown.tagged_words(tagset= universal ) [( The, DET ), ( Fulton, NOUN ),...]

69 NLTK 69 > from nltk.corpus import brown > brown_news_tagged = brown.tagged_words(categories= news, tagset= universal ) > tag_fd = nltk.freqdist(tag for (word, tag) in brown_news_tagged) > tag_fd.most_common() [( NOUN, 30640), ( VERB, 14399), ( ADP, 12355), (., 11928), ( DET, 11389), ( ADJ, 6706), ( ADV, 3349), ( CONJ, 2717), ( PRON, 2535), ( PRT, 2264), ( NUM, 2166), ( X, 106)]

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF1820: Introduksjon til språk-og kommunikasjonsteknologi INF1820: Introduksjon til språk-og kommunikasjonsteknologi Fjerde forelesning Lilja Øvrelid 6 februar, 2014 OVERSIKT Såkalt endelig tilstand (finite-state) -teknologi er kjapp og effektiv nyttig for et

Detaljer

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF1820: Introduksjon til språk-og kommunikasjonsteknologi INF1820: Introduksjon til språk-og kommunikasjonsteknologi Fjerde forelesning Lilja Øvrelid 6 februar, 2014 OVERSIKT Såkalt endelig tilstand (finite-state) -teknologi er kjapp og effektiv nyttig for et

Detaljer

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF1820: Introduksjon til språk-og kommunikasjonsteknologi INF1820: Introduksjon til språk-og kommunikasjonsteknologi Femte forelesning Lilja Øvrelid 13 februar, 2017 1 Lingvistikk Bindestreksdisipliner: psykolingvistikk, neurolingvistikk, sosiolingvistikk, datalingvistikk

Detaljer

INF1820: Ordklasser 2014-02-13. INF1820: Ordklasser. Arne Skjærholt. 13. februar. INF1820: Ordklasser. Arne Skjærholt. 13. februar

INF1820: Ordklasser 2014-02-13. INF1820: Ordklasser. Arne Skjærholt. 13. februar. INF1820: Ordklasser. Arne Skjærholt. 13. februar Arne Skjærholt 13. februar Arne Skjærholt 13. februar Ordklasser Ordklasser Ordklassene er bindeleddet mellom ordet (det morfologiske nivået) og syntaksen (setningsstrukturen). Det kan bestemme hva slags

Detaljer

IN1140: Introduksjon til språkteknologi. Forelesning #6

IN1140: Introduksjon til språkteknologi. Forelesning #6 IN1140: Introduksjon til språkteknologi Forelesning #6 Samia Touileb Universitetet i Oslo 26. september 2019 Tema for i dag 2 Ordklasser Ordklassetaggede korpuser Ordklassetagging Ordklasser? 3 Parts-of-speech

Detaljer

IN1140: Introduksjon til språkteknologi. Forelesning #6

IN1140: Introduksjon til språkteknologi. Forelesning #6 IN1140: Introduksjon til språkteknologi Forelesning #6 Samia Touileb Universitetet i Oslo 04. oktober 2018 Tema for i dag 2 Ordklasser Ordklassetaggede korpuser Ordklassetagging Ordklasser? 3 Parts-of-speech

Detaljer

IN1140: Introduksjon til språkteknologi. Forelesning #6

IN1140: Introduksjon til språkteknologi. Forelesning #6 IN1140: Introduksjon til språkteknologi Forelesning #6 Samia Touileb Universitetet i Oslo 04. oktober 2018 Tema for i dag 2 Ordklasser Ordklassetaggede korpuser Ordklassetagging Ordklasser? 3 Parts-of-speech

Detaljer

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF1820: Introduksjon til språk-og kommunikasjonsteknologi INF1820: Introduksjon til språk-og kommunikasjonsteknologi Sjuende forelesning Lilja Øvrelid 28 februar, 2011 LINGVISTIKK Fonetik/fonologi Morfologi Syntaks Semantik Pragmatik Studiet av talljud och talsystem

Detaljer

INF1820 INF1820 2013-02-22. Arne Skjærholt INF1820. dairoku: del 6, kougi: forelesning. Arne Skjærholt

INF1820 INF1820 2013-02-22. Arne Skjærholt INF1820. dairoku: del 6, kougi: forelesning. Arne Skjærholt dairoku: del 6, kougi: forelesning Arne Skjærholt 第 六 講 義 Arne Skjærholt 第 六 講 義 Ordklassene er bindeleddet mellom ordet (det morfologiske nivået) og syntaksen (setningsstrukturen). Det kan bestemme hva

Detaljer

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF1820: Introduksjon til språk-og kommunikasjonsteknologi INF1820: Introduksjon til språk-og kommunikasjonsteknologi Fjerde forelesning Lilja Øvrelid 6 februar, 2017 1 FS-metoder Oversikt Såkalt endelig tilstand (finite-state) -teknologi er kjapp og effektiv

Detaljer

Norsk minigrammatikk bokmål

Norsk minigrammatikk bokmål Norsk minigrammatikk bokmål Ordklassene Substantiv Adjektiv Artikler Pronomen Tallord Verb Adverb Konjunksjoner Preposisjoner Interjeksjoner ORDKLASSENE Den norske grammatikken inneholder ti ordklasser:

Detaljer

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF1820: Introduksjon til språk-og kommunikasjonsteknologi INF1820: Introduksjon til språk-og kommunikasjonsteknologi Fjerde forelesning Lilja Øvrelid 6 februar, 2017 1 FS-metoder Oversikt Såkalt endelig tilstand (finite-state) -teknologi er kjapp og effektiv

Detaljer

INF2820 Datalingvistikk V2011. Jan Tore Lønning & Stephan Oepen

INF2820 Datalingvistikk V2011. Jan Tore Lønning & Stephan Oepen INF2820 Datalingvistikk V2011 Jan Tore Lønning & Stephan Oepen FORMELLE OG NATURLIGE SPRÅK KONTEKSTFRIE GRAMMATIKKER 7. februar 2011 2 Naturlige språk som formelle språk Et formelt språk består av: En

Detaljer

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF1820: Introduksjon til språk-og kommunikasjonsteknologi INF1820: Introduksjon til språk-og kommunikasjonsteknologi Syvende forelesning Lilja Øvrelid 6 mars, 2017 1 Ordklassetagging Ordklasser? Bindeledd mellom ordet og setningen (syntaks): Sier noe om hva slags

Detaljer

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF1820: Introduksjon til språk-og kommunikasjonsteknologi INF1820: Introduksjon til språk-og kommunikasjonsteknologi Syvende forelesning Lilja Øvrelid 6 mars, 2017 1 Ordklassetagging Ordklasser? Bindeledd mellom ordet og setningen (syntaks): Sier noe om hva slags

Detaljer

INF1820 2013-04-12 INF1820. Arne Skjærholt INF1820. Dagens språk: Russisk. dyes yataya l yektsiya. Arne Skjærholt. десятая лекция

INF1820 2013-04-12 INF1820. Arne Skjærholt INF1820. Dagens språk: Russisk. dyes yataya l yektsiya. Arne Skjærholt. десятая лекция Arne Skjærholt десятая лекция Dagens språk: Russisk. dyes yataya l yektsiya Arne Skjærholt десятая лекция N,Σ,R,S Nå er vi tilbake i de formelle, regelbaserte modellene igjen, og en kontekstfri grammatikk

Detaljer

INF2820 Datalingvistikk V2012. Jan Tore Lønning

INF2820 Datalingvistikk V2012. Jan Tore Lønning INF2820 Datalingvistikk V2012 Jan Tore Lønning BEGRENSNINGER VED REGULÆRE SPRÅK OG KONTEKSTFRIE GRAMMATIKKER 2 I dag 1. Begrensninger ved regulære språk 2. Noen egenskaper ved naturlige språk 3. Kontekstfrie

Detaljer

2/6/2012. Begrensninger ved regulære språk. INF2820 Datalingvistikk V2012. Formelle språk som ikke er regulære KONTEKSTFRIE GRAMMATIKKER.

2/6/2012. Begrensninger ved regulære språk. INF2820 Datalingvistikk V2012. Formelle språk som ikke er regulære KONTEKSTFRIE GRAMMATIKKER. INF2820 Datalingvistikk V2012 Jan Tore Lønning Begrensninger ved regulære Regulære er ikke ideelle modeller for naturlige, dvs Verken regulære uttrykk eller NFA er ideelle for å beskrive naturlige fordi:

Detaljer

. Grammatiske problem med å beskrive ordklassen adverb og setningsleddet adverbial i norsk. Sverre Stausland Johnsen Universitetet i Oslo

. Grammatiske problem med å beskrive ordklassen adverb og setningsleddet adverbial i norsk. Sverre Stausland Johnsen Universitetet i Oslo .. Grammatiske problem med å beskrive ordklassen adverb og setningsleddet adverbial i norsk Sverre Stausland Johnsen Universitetet i Oslo stausland.johnsen@iln.uio.no Universitetet i Stavanger 15. januar

Detaljer

INF1820: Oppsummering

INF1820: Oppsummering Arne Skjærholt 8. mai Arne Skjærholt 8. mai Kurset gir en innføring i lingvistisk teori og relaterer denne til språkteknologiske problemområder, metoder og applikasjoner. Fokus er på å koble teori til

Detaljer

Setningsledd. Norsk som fremmedspråk Side 131

Setningsledd. Norsk som fremmedspråk Side 131 Setningsledd Norsk som fremmedspråk Side 131 VERBAL er det viktigste leddet i en setning Det forteller om handlingen, og det sier noe om tiden når den skjer Verbalet kan være et enkelt ord, eller det kan

Detaljer

Ordklasser Inndelingen ORDKLASSEINNDELINGEN

Ordklasser Inndelingen ORDKLASSEINNDELINGEN Ordklasser Inndelingen ORDKLASSEINNDELINGEN Hvorfor lære om ordklasser? Viktig del av den grammatiske språkbeskrivelsen Forstå bøyningsmåter skrive korrekt Innsikt i hvordan norsk skiller seg fra andre

Detaljer

2 Substantiv Genus Bøyning Substantiv med bare entallsformer Substantiv med bare flertallsformer 17 2.

2 Substantiv Genus Bøyning Substantiv med bare entallsformer Substantiv med bare flertallsformer 17 2. 1 Innhold Del 1: Ord og klasser av ord 1 Ord og klasser av ord 9 2 Substantiv 11 2.1 Genus 11 2.2 Bøyning 13 2.3 Substantiv med bare entallsformer 17 2.4 Substantiv med bare flertallsformer 17 2.5 Genitiv

Detaljer

FORBEREDELSE TIL ÅRSPRØVE I ENGELSK 7. KLASSE FREDAG 19. MAI 2017

FORBEREDELSE TIL ÅRSPRØVE I ENGELSK 7. KLASSE FREDAG 19. MAI 2017 FORBEREDELSE TIL ÅRSPRØVE I ENGELSK 7. KLASSE FREDAG 19. MAI 2017 Prøve består av følgende deler: Lyttetekst: Svar på spørsmål med fullstendige setninger Lesetekst: Les teksten og svar på spørsmålene med

Detaljer

INF2820 Datalingvistikk V Gang Jan Tore Lønning

INF2820 Datalingvistikk V Gang Jan Tore Lønning INF2820 Datalingvistikk V2017 5. Gang - 13.2 Jan Tore Lønning I dag Tekstnormalisering: lemmatisering og «stemming» Tagget tekst og tagging Begrensninger ved regulære språk Frasestruktur og kontekstfrie

Detaljer

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF1820: Introduksjon til språk-og kommunikasjonsteknologi INF1820: Introduksjon til språk-og kommunikasjonsteknologi Femtende forelesning REPETISJON Lilja Øvrelid 14 mai, 2011 1 / 68 FRA EMNEBESKRIVELSEN Kurset gir en innføring i lingvistisk teori og relaterer

Detaljer

INF INF1820. Arne Skjærholt. Terza lezione INF1820. Arne Skjærholt. Terza lezione

INF INF1820. Arne Skjærholt. Terza lezione INF1820. Arne Skjærholt. Terza lezione Arne Skjærholt Terza lezione Arne Skjærholt Terza lezione Regulære uttrykk Regex Regulære uttrykk (regular expressions) er et godt eksempel på det som kalles finite-state methods (hvorfor det heter det

Detaljer

INF2820 Datalingvistikk V Gang Jan Tore Lønning

INF2820 Datalingvistikk V Gang Jan Tore Lønning INF2820 Datalingvistikk V2016 5. Gang - 17.2 Jan Tore Lønning I dag Kontekstfrie grammatikker, avledninger og trær Kontekstfrie grammatikker og regulære språk Kontekstfrie grammatikker for naturlige språk

Detaljer

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF1820: Introduksjon til språk-og kommunikasjonsteknologi INF1820: Introduksjon til språk-og kommunikasjonsteknologi Fjerde forelesning Lilja Øvrelid 06 februar, 2012 OVERSIKT Finite-state -teknologi er kjapp og effektiv nyttig for et antall språkteknologiske

Detaljer

IN1140: Introduksjon til språkteknologi. Forelesning #12

IN1140: Introduksjon til språkteknologi. Forelesning #12 IN1140: Introduksjon til språkteknologi Forelesning #12 Lilja Øvrelid Universitetet i Oslo 15 november 2018 Tema for i dag 2 I dag Repetisjon Digital prøveeksamen Neste uke Gjennomgang av eksamensoppgave

Detaljer

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF1820: Introduksjon til språk-og kommunikasjonsteknologi INF1820: Introduksjon til språk-og kommunikasjonsteknologi Trettende forelesning REPETISJON Lilja Øvrelid 15 mai, 2017 1 Fra emnebeskrivelsen Kurset gir en innføring i lingvistisk teori og relaterer denne

Detaljer

Morfologi. Studiet av ordenes struktur Kap. 11 Om morfer (selvsagt) og litt større ting. EXFAC EURA 2. Morfologi1 1

Morfologi. Studiet av ordenes struktur Kap. 11 Om morfer (selvsagt) og litt større ting. EXFAC EURA 2. Morfologi1 1 Morfologi Studiet av ordenes struktur Kap. 11 Om morfer (selvsagt) og litt større ting EXFAC EURA 2. Morfologi1 1 Setninger består av ord (grupper av ord) Ord har struktur: les-te, en god les-er -te: bøyning

Detaljer

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF1820: Introduksjon til språk-og kommunikasjonsteknologi INF1820: Introduksjon til språk-og kommunikasjonsteknologi Trettende forelesning REPETISJON Lilja Øvrelid 15 mai, 2017 1 Fra emnebeskrivelsen Kurset gir en innføring i lingvistisk teori og relaterer denne

Detaljer

INF2820 Datalingvistikk V2015. Forelesning 4, 9.2 Jan Tore Lønning

INF2820 Datalingvistikk V2015. Forelesning 4, 9.2 Jan Tore Lønning INF2820 Datalingvistikk V2015 Forelesning 4, 9.2 Jan Tore Lønning I dag Oppsummering av endelige tilstandsteknikker Begrensninger ved regulære språk Regulære uttrykk: teoretiske og praktiske Noen egenskaper

Detaljer

UKEPLAN FOR 7A, UKE 23 TIME

UKEPLAN FOR 7A, UKE 23 TIME UKEPLAN FOR 7A, UKE 23 TIME MANDAG 04.06 TIRSDAG 05.06 ONSDAG Besøksdag fra Nordhus TORSDAG 08.06 FREDAG 09.06 1. FY/ MU Gjennomgang av Årsprøve i norsk Språkboka s. 160: Årsprøve i Låt-prosjektet vurderings-

Detaljer

Sjekkliste B2-nivå. 1 Har du brukt stor/liten forbokstav, punktum (.), komma (,) og spørsmålstegn (?) riktig?

Sjekkliste B2-nivå. 1 Har du brukt stor/liten forbokstav, punktum (.), komma (,) og spørsmålstegn (?) riktig? Sjekkliste B2-nivå 1 Har du brukt stor/liten forbokstav, punktum (.), komma (,) og spørsmålstegn (?) riktig? 2 Har du subjekt og et bøyd verb i alle setninger? 3 Har du satt ordene på riktig plass i setningene?

Detaljer

INF2820 Datalingvistikk V Gang Jan Tore Lønning

INF2820 Datalingvistikk V Gang Jan Tore Lønning INF2820 Datalingvistikk V2015 5. Gang - 16.2 Jan Tore Lønning I dag Kontekstfrie grammatikker, avledninger og trær (delvis repetisjon) Kontekstfrie grammatikker og regulære språk Kontekstfrie grammatikker

Detaljer

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF1820: Introduksjon til språk-og kommunikasjonsteknologi INF1820: Introduksjon til språk-og kommunikasjonsteknologi Niende forelesning Lilja Øvrelid 20 mars, 2017 1 Formelle modeller Kan fange inn den språklige kunnskapen v.hj.a et lite antall formelle modeller

Detaljer

INF2820 Datalingvistikk V2017 Forelesning 1.2 Jan Tore Lønning

INF2820 Datalingvistikk V2017 Forelesning 1.2 Jan Tore Lønning INF2820 Datalingvistikk V2017 Forelesning 1.2 Jan Tore Lønning ENDELIGE TILSTANDSMASKINER OG REGULÆRE SPRÅK 19. januar 2017 2 Fysisk modell En tape delt opp i ruter. I hver rute står det et symbol. En

Detaljer

APPENDIKS D Geminittisk språk/grammatikk

APPENDIKS D Geminittisk språk/grammatikk 1 APPENDIKS D Geminittisk språk/grammatikk Jeg har latt overskriften på dette appendikset bli sående i sin opprinnelige form, selv om jeg kun har maktet å gi et nokså usystematisk og mangelfullt innblikk

Detaljer

UKEPLAN FOR 7B, UKE 23 MANDAG TIRSDAG ONSDAG

UKEPLAN FOR 7B, UKE 23 MANDAG TIRSDAG ONSDAG TIME UKEPLAN FOR 7B, UKE 23 MANDAG TIRSDAG ONSDAG Besøksdag fra Nordhus TORSDAG FREDAG 1. FY/ 2. Gjennomgang av vurderingskriteriene til årsprøven i norsk. Årsprøve i norsk fram til ca. 11.00 /FY Språkboka

Detaljer

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF1820: Introduksjon til språk-og kommunikasjonsteknologi INF1820: Introduksjon til språk-og kommunikasjonsteknologi Niende forelesning Lilja Øvrelid 20 mars, 2017 1 Formelle modeller Kan fange inn den språklige kunnskapen v.hj.a et lite antall formelle modeller

Detaljer

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO UIVERSITETET I OSLO et matematisk-naturvitskapelige fakultet Eksam i: IF1820 Introduksjon til språk- og kommunikasjonsteknologi Eksamsdag: 17. juni 2016 Tid for eksam: 14.30 18.30 Oppgavesettet er på 6

Detaljer

Grammatikk En innføring av Anne Lene Berge

Grammatikk En innføring av Anne Lene Berge Grammatikk En innføring av Anne Lene Berge Det er vanlig å dele et språksystem inn i fire hoveddeler: fonologien, som beskriver lydsystemet, morfologien, som gjør greie for hvordan ord er bygd opp og hvordan

Detaljer

LF - Eksamen i INF1820

LF - Eksamen i INF1820 LF - Eksamen i INF820 INF820 Eksamen vår 207 Hjelpemidler Ingen. Flervalgsoppgaver I oppgave og 6 får man 5 poeng for riktig svar og 0 poeng for galt svar. I oppgave 0 får du 2 poeng for hvert riktig svar

Detaljer

INF2820 Datalingvistikk V2017 Forelesning 2, 23.1 Jan Tore Lønning

INF2820 Datalingvistikk V2017 Forelesning 2, 23.1 Jan Tore Lønning INF2820 Datalingvistikk V2017 Forelesning 2, 23.1 Jan Tore Lønning ENDELIGE TILSTANDSMASKINER OG REGULÆRE SPRÅK, DEL 2 19. januar 2017 2 Sist uke: FSA Brukes om hverandre: Finite state automaton - FSA

Detaljer

INF2820 Datalingvistikk V2016. Forelesning 4, 10.2 Jan Tore Lønning

INF2820 Datalingvistikk V2016. Forelesning 4, 10.2 Jan Tore Lønning INF2820 Datalingvistikk V2016 Forelesning 4, 10.2 Jan Tore Lønning I dag Ord Begrensninger med regulære språk Regulære uttrykk i praksis Utvidete regulære uttrykk Frasestruktur og kontekstfrie grammatikker

Detaljer

IN1140: Introduksjon til språkteknologi. Forelesning #2

IN1140: Introduksjon til språkteknologi. Forelesning #2 IN1140: Introduksjon til språkteknologi Forelesning #2 Samia Touileb Universitetet i Oslo 30. august 2018 Tema forrige uke 2 Introduksjon Hva er språkteknologi? Hva er IN1140? Praktiske detaljer Tema for

Detaljer

Setningsledd. Arne Martinus Lindstad Tekstlaboratoriet Universitetet i Oslo.

Setningsledd. Arne Martinus Lindstad Tekstlaboratoriet Universitetet i Oslo. Setningsledd Arne Martinus Lindstad Tekstlaboratoriet Universitetet i Oslo http://www.hf.uio.no/tekstlab Hvorfor lære setningsanalyse? Økt forståelse for hvordan man bygger opp setninger i skriftlige arbeider

Detaljer

Slides til 12.1 Formelt språk og formell grammatikk

Slides til 12.1 Formelt språk og formell grammatikk Slides til 12.1 Formelt språk og formell grammatikk Andreas Leopold Knutsen April 6, 2010 Introduksjon Grammatikk er studiet av reglene som gjelder i et språk. Syntaks er læren om hvordan ord settes sammen

Detaljer

INF2820 Datalingvistikk V Gang Jan Tore Lønning

INF2820 Datalingvistikk V Gang Jan Tore Lønning INF2820 Datalingvistikk V2017 6. Gang - 20.2 Jan Tore Lønning I dag Kontekstfrie grammatikker og naturlige språk (fortsatt fra sist) Kontekstfrie grammatikker og regulære språk Grammatikker og trær i NLTK

Detaljer

INF1820: Ordklassetagging

INF1820: Ordklassetagging NF1820: Ordklassetagging NF1820: Ordklassetagging Arne Skjærholt 6. mars NF1820: Ordklassetagging Arne Skjærholt 6. mars NF1820: Ordklassetagging Ordklassetagging Never gonna give you up Never gonna let

Detaljer

INF2820 Datalingvistikk V Gang Jan Tore Lønning

INF2820 Datalingvistikk V Gang Jan Tore Lønning INF2820 Datalingvistikk V2018 5. Gang - 12.2 Jan Tore Lønning I dag Tokenisering, lemmatisering og «stemming» Tagget tekst og tagging Begrensninger ved regulære språk Frasestruktur og kontekstfrie grammatikker

Detaljer

IN1140: Introduksjon til språkteknologi. Forelesning #4

IN1140: Introduksjon til språkteknologi. Forelesning #4 IN1140: Introduksjon til språkteknologi Forelesning #4 Samia Touileb Universitetet i Oslo 13. september 2018 Tema for i dag 2 Regulære uttrykk Endelige tilstandsmaskiner ( Finite State Automata, FSA) Definisjon

Detaljer

Kom i gang veiledning

Kom i gang veiledning Brukerveiledning Kom i gang veiledning PCS kommunikasjonstavle Art.nr 461333 Rev A NO 2 Innhold 1. PCS kommunikasjonstavle... 5 2. Beskrivelse av sidene i PCS kommunikasjonstavle... 6 Tavle: beskrivelse

Detaljer

INF2820 Datalingvistikk V2014. Jan Tore Lønning

INF2820 Datalingvistikk V2014. Jan Tore Lønning INF2820 Datalingvistikk V2014 Jan Tore Lønning ENDELIGE TILSTANDSTEKNIKKER OG REGULÆRE UTTRYKK I DATALINGVISTIKK DEL 2 22. januar 2014 2 DFA deterministisk endelig maskin Q = {q0, q1, q2,, qn-1} Strengt

Detaljer

Syntax/semantics - I INF 3110/ /29/2005 1

Syntax/semantics - I INF 3110/ /29/2005 1 Syntax/semantics - I Program program execution Compiling/interpretation Syntax Classes of langauges Regular langauges Context-free langauges Scanning/Parsing Meta models INF 3/4-25 8/29/25 Program

Detaljer

INF 2820 V2016: Innleveringsoppgave 3 del 1

INF 2820 V2016: Innleveringsoppgave 3 del 1 INF 2820 V2016: Innleveringsoppgave 3 del 1 Pga tekniske problemer er oppgaveteksten delt i to. Dette er første del. Andre del legges ut mandag 13.3! Besvarelsene skal leveres i devilry innen fredag 24.3

Detaljer

7. trinn Målark Chapter 1 Bokmål

7. trinn Målark Chapter 1 Bokmål Målark Chapter 1 Bokmål Jeg kan lese en dialog sammen med andre. Jeg kan lese og lytte til nyheter og annonser. Jeg kan lese en enkel faktatekst med mange bilder. Jeg kan lese mer avanserte faktatekster

Detaljer

INF2820 Datalingvistikk V2012. Jan Tore Lønning

INF2820 Datalingvistikk V2012. Jan Tore Lønning INF2820 Datalingvistikk V2012 Jan Tore Lønning ENDELIGE TILSTANDSTEKNIKKER OG REGULÆRE UTTRYKK I DATALINGVISTIKK DEL 2 20. januar 2012 2 Non-Determinism Speech and Language Processing - Jurafsky and Martin

Detaljer

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF1820: Introduksjon til språk-og kommunikasjonsteknologi INF1820: Introduksjon til språk-og kommunikasjonsteknologi Tiende forelesning Lilja Øvrelid 20 mars, 2014 1 / 1 FORMELLE MODELLER kan representere den språklige kunnskapen v.hj.a et lite antall formelle

Detaljer

INF2820 Datalingvistikk V2014. Forelesning 4, 6.2 Jan Tore Lønning

INF2820 Datalingvistikk V2014. Forelesning 4, 6.2 Jan Tore Lønning INF2820 Datalingvistikk V2014 Forelesning 4, 6.2 Jan Tore Lønning I dag Oppsummering av endelige tilstandsteknikker Regulære uttrykk: teoretiske og praktiske Begrensninger ved regulære språk Noen egenskaper

Detaljer

EXFAC EURA Syntaks2 1

EXFAC EURA Syntaks2 1 EXFAC EURA Syntaks2 1 Språk Noen avvik fra og tillegg til kap. 12 (som ikke skal leses i sin helhet), bedre tilpasset ILOS-fagenes terminologi og språk Mest om form i dag og om verbet Feil i eksemplene?

Detaljer

INF 2820 V2016: Obligatorisk innleverinsoppgave 1

INF 2820 V2016: Obligatorisk innleverinsoppgave 1 INF 2820 V2016: Obligatorisk innleverinsoppgave 1 OBS Korrigert eksemplene oppgave 2, 8.2 Besvarelsene skal leveres i devilry innen torsdag 18.2 kl 18.00 Filene det vises til finner du på /projects/nlp/inf2820/fsa

Detaljer

IN1140: Introduksjon til språkteknologi. Forelesning #8

IN1140: Introduksjon til språkteknologi. Forelesning #8 IN1140: Introduksjon til språkteknologi Forelesning #8 Samia Touileb Universitetet i Oslo 18. oktober 2017 Forrige uke 2 Syntaks Tema for i dag 3 Midtveisevaluering IN1140, høst 2018 Kontekstfrie grammatikker

Detaljer

INF2820 Datalingvistikk V2012. Jan Tore Lønning & Stephan Oepen

INF2820 Datalingvistikk V2012. Jan Tore Lønning & Stephan Oepen INF2820 Datalingvistikk V2012 Jan Tore Lønning & Stephan Oepen ENDELIGE TILSTANDSTEKNIKKER OG REGULÆRE UTTRYKK I DATALINGVISTIKK 17. januar 2012 2 Naturlige språk En mann kjøpte en bil av en mann som hadde

Detaljer

"Det er fort gjort og skrive feil." En presentasjon av en automatisk grammatikkontroll for bokmål

Det er fort gjort og skrive feil. En presentasjon av en automatisk grammatikkontroll for bokmål 1 av 5 02.06.2010 17:00 "Det er fort gjort og skrive feil." En presentasjon av en automatisk grammatikkontroll for bokmål Av Kristin Hagen og Pia Lane Det siste året har Tekstlaboratoriet ved Universitetet

Detaljer

Morfologi. Studiet av ordenes struktur Kap. 11. EXFAC EURA 2. Morfologi1 1

Morfologi. Studiet av ordenes struktur Kap. 11. EXFAC EURA 2. Morfologi1 1 Morfologi Studiet av ordenes struktur Kap. 11 EXFAC EURA 2. Morfologi1 1 Morfologi - Wikipedia Morfologi er læren om former (gresk logos = lære, morpho = form ) og kan referere til: Morfologi (biologi),

Detaljer

INF2820 Datalingvistikk V2016. Jan Tore Lønning

INF2820 Datalingvistikk V2016. Jan Tore Lønning INF2820 Datalingvistikk V2016 Jan Tore Lønning ENDELIGE AUTOMATER «FINITE STATE AUTOMATA» (FSA) 25. januar 2016 2 Fysisk modell En tape delt opp i ruter. I hver rute står det et symbol. En innretning som

Detaljer

INF2820 Datalingvistikk V2016. Jan Tore Lønning

INF2820 Datalingvistikk V2016. Jan Tore Lønning INF2820 Datalingvistikk V2016 Jan Tore Lønning ENDELIGE AUTOMATER «FINITE STATE AUTOMATA» (FSA) 3. februar 2016 2 Fysisk modell En tape delt opp i ruter. I hver rute står det et symbol. En innretning som

Detaljer

Minigrammatikk. Trinn 1

Minigrammatikk. Trinn 1 Minigrammatikk Trinn 1 Innholdsfortegnelse Personlige pronomen... 1 Verb: Infinitiv-presens... 2 Verb: SVA... 3 Spørresetninger uten spørreord... 4 Preposisjoner: Stedsnavn... 5 Verb: XVS (Verb på 2. plass)...

Detaljer

Eksamen Norwegian Beginning Level (3-timer/3-hours)

Eksamen Norwegian Beginning Level (3-timer/3-hours) Eksamen 2600 Norwegian Beginning Level 22.05.2017 Tid/Time : Målform/Language : Sidetall/Pages : 09.00 12.00 (3-timer/3-hours) Norsk/Engelsk Norwegian/English 11 med forsiden/11 including frontpage Hjelpemiddel/Aid

Detaljer

UKE TEMA SKRIVE GRAMMATIKK VERK ARBEIDMETODER. flertall

UKE TEMA SKRIVE GRAMMATIKK VERK ARBEIDMETODER. flertall ÅRSPLAN I NORSK FOR GO1 01-01 UKE TEMA SKRIVE GRAMMATIKK VERK ARBEIDMETODER -5 Bli kjent 1. Presentasjon Substantiv: egennavn og. Fortell om en fellesnavn, entall og kap. 1 matrett flertall På norsk- 6-7

Detaljer

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF1820: Introduksjon til språk-og kommunikasjonsteknologi INF1820: Introduksjon til språk-og kommunikasjonsteknologi Tiende forelesning Lilja Øvrelid 20 mars, 2014 1 / 51 FORMELLE MODELLER kan representere den språklige kunnskapen v.hj.a et lite antall formelle

Detaljer

INF2820 Datalingvistikk V2015. Jan Tore Lønning

INF2820 Datalingvistikk V2015. Jan Tore Lønning INF2820 Datalingvistikk V2015 Jan Tore Lønning ENDELIGE TILSTANDSTEKNIKKER OG REGULÆRE UTTRYKK I DATALINGVISTIKK DEL 2 22. januar 2015 2 ENDELIGE AUTOMATER «FINITE STATE AUTOMATA» (FSA) 23. januar 2015

Detaljer

Fasit til oppgaver i Språk i skolen, kapittel 4. Versjon: 15. mai 2015

Fasit til oppgaver i Språk i skolen, kapittel 4. Versjon: 15. mai 2015 Fasit til oppgaver i Språk i skolen, kapittel 4. Versjon: 15. mai 2015 S V IO DO 1) Hun gav ham (nøklene). Oppgave A og B S V IO DO 2) (Politimannen) gav dem (bøter). S V IO DO 3) (Mamma) sendte meg (nye

Detaljer

INF2820 Datalingvistikk V2014. Jan Tore Lønning

INF2820 Datalingvistikk V2014. Jan Tore Lønning INF2820 Datalingvistikk V2014 Jan Tore Lønning ENDELIGE TILSTANDSTEKNIKKER OG REGULÆRE UTTRYKK I DATALINGVISTIKK 19. januar 2014 2 Naturlige språk En mann kjøpte en bil av en mann som hadde eid bilen i

Detaljer

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF1820: Introduksjon til språk-og kommunikasjonsteknologi INF1820: Introduksjon til språk-og kommunikasjonsteknologi Ellevte forelesning Lilja Øvrelid 26 mars, 2012 1 / 48 FORMELLE MODELLER Kan fange inn den språklige kunnskapen v.hj.a et lite antall formelle

Detaljer

INF2820 Datalingvistikk V Gang 23.3 Jan Tore Lønning

INF2820 Datalingvistikk V Gang 23.3 Jan Tore Lønning INF2820 Datalingvistikk V2015 10. Gang 23.3 Jan Tore Lønning I dag Trekkbaserte grammatikker, delvis repetisjon Formelle egenskaper: Alternative format for slike grammatikker Tolkning av grammatikkreglene

Detaljer

Stikkordregister. avgrensa handling, 124 avleiingsmorfem, 46 avleiingsuffiks, stadium, 70

Stikkordregister. avgrensa handling, 124 avleiingsmorfem, 46 avleiingsuffiks, stadium, 70 Stikkordregister 0-stadium, 70 A abessiv, 197, 198 abessiv adposisjon, 362 ablativ, 195 additiv konjunksjon, 384, 385 adessiv, 195 adjektiv, 50, 51, 163 adjektivfrase, 51, 53 adjektivmodifikator, 57 adposisjon,

Detaljer

Læringsmål for trinnet: Kva skal elevane lære, kunne, mestre innanfor kompetansemålet Eleven Skal Kunne

Læringsmål for trinnet: Kva skal elevane lære, kunne, mestre innanfor kompetansemålet Eleven Skal Kunne FAGPLAN I ENGELSK FOR 7. ÅRSTRINN, GOL SKULE KOMPETANSEMÅL FRÅ L-06 ETTER 7. ÅRSTRINN Språklæring 1. Identifisere og bruke ulike situasjoner for å utvide egne engelskferdigheter. Kappitel Chapter 1 Tema:

Detaljer

norsk grammatikk bok C2FFB2EE7079E5C7671E474DBC1B7657 Norsk Grammatikk Bok

norsk grammatikk bok C2FFB2EE7079E5C7671E474DBC1B7657 Norsk Grammatikk Bok Norsk Grammatikk Bok Thank you for downloading. As you may know, people have look hundreds times for their favorite books like this, but end up in malicious downloads. Rather than enjoying a good book

Detaljer

IN1140: Introduksjon til språkteknologi. Forelesning #7

IN1140: Introduksjon til språkteknologi. Forelesning #7 IN1140: Introduksjon til språkteknologi Forelesning #7 Lilja Øvrelid Universitetet i Oslo 11 oktober 2018 Tema for i dag 2 Forrige uke Ordklasser Ordklassetagging Oblig2a: språkmodeller (frist: 17/9) I

Detaljer

INF2820 Datalingvistikk V2015. Jan Tore Lønning

INF2820 Datalingvistikk V2015. Jan Tore Lønning INF2820 Datalingvistikk V2015 Jan Tore Lønning ENDELIGE TILSTANDSTEKNIKKER OG REGULÆRE UTTRYKK I DATALINGVISTIKK DEL 2 26. januar 2015 2 ENDELIGE AUTOMATER «FINITE STATE AUTOMATA» (FSA) 26. januar 2015

Detaljer

Grammatikk Adverb. Forteller oss noe nytt om ord eller setninger

Grammatikk Adverb. Forteller oss noe nytt om ord eller setninger Side 1 av 10 Tekst og filosofiske spørsmål: Øyvind Olsholt Sist oppdatert: 20. november 2003 Forteller oss noe nytt om ord eller setninger er navnet på en rekke småord i språket som forteller oss noe om

Detaljer

INF2820 Datalingvistikk V2016. Forelesning 4, 10.2 Jan Tore Lønning

INF2820 Datalingvistikk V2016. Forelesning 4, 10.2 Jan Tore Lønning INF2820 Datalingvistikk V2016 Forelesning 4, 10.2 Jan Tore Lønning I dag Ord Begrensninger med regulære språk Regulære uttrykk i praksis Utvidete regulære uttrykk Frasestruktur og kontekstfrie grammatikker

Detaljer

IN1140: Introduksjon til språkteknologi. Forelesning #8

IN1140: Introduksjon til språkteknologi. Forelesning #8 IN1140: Introduksjon til språkteknologi Forelesning #8 Samia Touileb Universitetet i Oslo 17. oktober 2017 Tema for i dag 2 Fra forrige uke: HMM og FSA Evaluering Syntaks HMM og FSA 3 HMM er er en utvidelse

Detaljer

INF INF1820. Arne Skjærholt. Negende les INF1820. Arne Skjærholt. Negende les

INF INF1820. Arne Skjærholt. Negende les INF1820. Arne Skjærholt. Negende les Arne Skjærholt egende les Arne Skjærholt egende les σύνταξις Syntaks, fra gresk for oppstilling, er studiet av hvordan vi bygger opp setninger fra ord. Pāṇini (ca. 400 år f.kr.) er den første som formulerer

Detaljer

van Baar Språkservice Substantiv 2015 Substantiv: Hovedregel

van Baar Språkservice Substantiv 2015 Substantiv: Hovedregel Substantiv: Hovedregel Substantiv er ting, personer eller steder:,,,,, et barn, Substantivene har tre kjønn (genus):hankjønn (Masculin); hunkjønn (Feminin); og intetkjønn (Neutral) ssubstantiv får artikkelen

Detaljer

norsk grammatikk 149BE6CADCAB6FFCFBAA3C DC4 Norsk Grammatikk 1 / 6

norsk grammatikk 149BE6CADCAB6FFCFBAA3C DC4 Norsk Grammatikk 1 / 6 Norsk Grammatikk 1 / 6 2 / 6 3 / 6 Norsk Grammatikk forklaringer på norsk og engelsk. Learn more about Grammatikk-tabeller: En god plass å starte [A good place to start] Grammar terminology How to use

Detaljer

Begrep Forklaring Eksempel

Begrep Forklaring Eksempel Adjektiv Adverb Akkusativ Ord som beskriver et substantiv (navn på ting, dyr, personer). Ord som beskriver et verb (det noen gjør eller det som hender). Adverbet sier noe mer om handlingen. Som på norsk

Detaljer

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF1820: Introduksjon til språk-og kommunikasjonsteknologi INF1820: Introduksjon til språk-og kommunikasjonsteknologi Sjette forelesning Arne Skjærholt 25 januar, 2012 SIST GANG Forrige gang: Alle rare ordene Alle rare morfene Nå: Morfologi med datamaskin (computational

Detaljer

NORSK FOR INTERNASJONALE STUDENTER

NORSK FOR INTERNASJONALE STUDENTER NORSK FOR INTERNASJONALE STUDENTER Nivå 3 SUBSTANTIV Nasjonalitetsord Ord som betegner personer fra et land, skal skrives med liten bokstav. De skal normalt ikke ha artikkelen en foran når de forteller

Detaljer

INF2820 Datalingvistikk V2011. Jan Tore Lønning & Stephan Oepen

INF2820 Datalingvistikk V2011. Jan Tore Lønning & Stephan Oepen INF2820 Datalingvistikk V2011 Jan Tore Lønning & Stephan Oepen ENDELIGE TILSTANDSTEKNIKKER OG REGULÆRE UTTRYKK I DATALINGVISTIKK 26. januar 2011 2 Naturlige språk En mann kjøpte en bil av en mann som hadde

Detaljer

NORSK FOR INTERNASJONALE STUDENTER

NORSK FOR INTERNASJONALE STUDENTER NORSK FOR INTERNASJONALE STUDENTER Nivå 2 SUBSTANTIV Ubestemt artikkel I de fleste tilfeller kan man ikke vite hvilken artikkel et substantiv har. Man må lære artikkelen sammen med substantivet. Predikativ

Detaljer

Norsk Grammatikk Oppgaver

Norsk Grammatikk Oppgaver We have made it easy for you to find a PDF Ebooks without any digging. And by having access to our ebooks online or by storing it on your computer, you have convenient answers with norsk grammatikk oppgaver.

Detaljer

NORSK FOR INTERNASJONALE STUDENTER

NORSK FOR INTERNASJONALE STUDENTER NORSK FOR INTERNASJONALE STUDENTER Nivå 1 Substantiv, kjønn Norske substantiver har tre kjønn (genus). Kjønnene har ulik artikkel: Hankjønn: en gutt, en mann, en bil, en by Hunkjønn: ei jente, ei klokke,

Detaljer

INF 2820 V2016: Innleveringsoppgave 3 hele

INF 2820 V2016: Innleveringsoppgave 3 hele INF 2820 V2016: Innleveringsoppgave 3 hele Dette er det komplette settet! Besvarelsene skal leveres i devilry innen fredag 24.3 kl 18.00 Det blir 5 sett med innleveringsoppgaver. Hvert sett gir inntil

Detaljer

BESTEMT ELLER UBESTEMT FORM?

BESTEMT ELLER UBESTEMT FORM? BESTEMT ELLER UBESTEMT FORM? Substantivene kan være i bestemt eller ubestemt form på norsk. Vi har noen absolutte regler for hvilken form vi skal bruke, men tre viktige distinksjoner hjelper oss også når

Detaljer

INF2820 Datalingvistikk V gang, Jan Tore Lønning

INF2820 Datalingvistikk V gang, Jan Tore Lønning INF2820 Datalingvistikk V2014 15. gang, 8.5.2014 Jan Tore Lønning Språk og grammatikk Språk (formelt): En endelig mengde A Ø En undermengde L A* Grammatikk: En endelig innretning som definerer L Klasser

Detaljer