Rune Lain Knudsen og Ruth Vatvedt Fjeld: LBK2013: Korpusressurs med mange anvendelsesmuligheter

Størrelse: px
Begynne med side:

Download "Rune Lain Knudsen og Ruth Vatvedt Fjeld: LBK2013: Korpusressurs med mange anvendelsesmuligheter"

Transkript

1 Rune Lain Knudsen og Ruth Vatvedt Fjeld: LBK2013: Korpusressurs med mange anvendelsesmuligheter

2 Hva er LBK og LBK2013? LBK dokumenterer ordforrådet i moderne bokmål og inneholder tekster fra perioden 1985 til i dag (monitor korpus). LBK2013 er et representativt, vektet korpus laget for leksikografiske formål. LBK2013 består av ca.100 millioner ord fra Institutt for lingvistiske og nordiske studier (ILN)

3 LBKs arkitektur IMS Open Corpus Workbench 1 Morfologisk annotert av OBT-Stat 2 Metadata annotert manuelt, lagres i XML Søkbart via webgrensesnittet Glossa 3 Alle tekster deles inn i tekstkategorier og gis en eller flere emnekategorier hvis hensiktsmessig april 2011 Ny Powerpoint mal

4 Hovedkategorifordeling i LBK % 5 % 5 % 35 % Skjønnlitteratur Sakprosa Unormert Aviser og kulørte ukeblader TV-tekster 49 % 11. april 2011 Ny Powerpoint mal

5 Kriterier for fordeling Sjangre og teksttyper, f.eks. Emner, f.eks. Moderne romaner Lærebøker Blogger Juridiske dokumenter Artikkelsamlinger Fagtidsskrifter Biografier Jus Medisin Realfag Humaniora Sport og fritid Religion og livssyn Sykepleie Institutt for lingvistiske og nordiske studier (ILN)

6 Demografiske variabler Alder Kjønn Oppvekststed Fødselsår Utgiver Utgivelsesår Altså: gode muligheter for å lage strukturerte subkorpus for spesielle undersøkelser. Institutt for lingvistiske og nordiske studier (ILN)

7 Tidsperioden for LBK2013 Fra 1985 og fremover mer vanlig med digitale dokumenter Fokus på moderne bokmål Vi ønsker å tilby et statisk korpus bl.a. for repeterbare og sammenlignbare eksperimenter 11. april 2011 Ny Powerpoint mal

8 Arbeidshistorikk for LBK2013 Minimumskrav til arbeidsstab: Prosjektleder Teknisk ansvarlig / ingeniør Assistent LBK2013 har krevd ca. 11 årsverk, men kunne krevd mindre Kontinuitet fremfor kvantitet 11. april 2011 Ny Powerpoint mal

9 Arbeidsstatistikk for LBK M M M PROJECT LEADER ASSISTANT ENGINEER SIZE 11. april 2011 Ny Powerpoint mal

10 Verktøy Vi så et behov for ett sammenslått grensesnitt for tekstprosessering, XML, filhåndtering og loggføring Det bør ikke være slik at assistenten(e) må kunne noe om teknologien bak tekstene. 2012: Forenklet arbeidsprosess for assistenter 11. april 2011 Ny Powerpoint mal

11 LBKtexts 11. april 2011 Ny Powerpoint mal

12 Hvorfor lage et korpus av moderne tekster? Lemmaseleksjon Endring i bruksfrekvens Neologismer Paleologismer Betydningsbeskrivelse Endring i betydning Betydningsutvidelse Endring i konnotasjoner 11. april 2011 Ny Powerpoint mal

13 Bruk av variantformer Wordform TV-tekst LBK NoTa tiden/tida (time) 72/28 92/8 60/40 takken/takka (thanks) 100/0 100/0 - hjelpen/hjelpa (help) 91/9 95/5 50/50 lysten/lysta (desire) 100/0 100/0 100/0 moren/mora (mother) 81/19 91/9 79/11 kvinnen/kvinna (woman) 100/0 99/1 100/0 uken/uka (week) 42/58 63/37 21/ april 2011 Ny Powerpoint mal

14 Historisk utvikling: muslim Språkendringer speiler kulturendringer: Periode Ant. Treff Totalt Relativt (%) , , , , , , april 2011 Ny Powerpoint mal

15 Muslim som førsteledd ( ) muslim 215 muslim 164 muslim 1 muslimsk 176 muslimsk 139 muslimsk 8 muslimsk-kroatisk 2 muslimsk-kroatiske 6 muslimsk-dominert 2 muslimske 2 muslimsk-dominert 11. april 2011 Ny Powerpoint mal

16 Muslim som førsteledd ( ) muslim 1217 muslim 948 muslim 987 muslimsk 923 muslimsk 499 muslimsk 14 muslimbrødrene 4 muslimene 3 muslimhat 5 muslimbror 1 muslimhets 2 muslimskdominert 3 muslimskføde 1 muslimsirkel 1 muslimhater 2 muslimsk-arabisk 1 muslimdominert 1 muslimhatende 1 muslimhater 1 muslimskhet 1 muslimvennlig 1 muslimsk-jødisk 1 muslimfrykten 1 muslimisme 1 muslimskdominert 1 muslimdebatt 1 muslimhets 11. april 2011 Ny Powerpoint mal

17 Hvorfor et balansert korpus for leksikografisk dokumentasjon? Lemmaseleksjon bør støtte seg på frekvens i korpus Nye lemmaer inn, gamle lemmaer merkes som foreldet Ordbokstyper: allmennspråklige ordbøker fagspråklige ordbøker populariserte for eksperter 11. april 2011 Ny Powerpoint mal

18 Hvorfor lage et balansert korpus? Er det en myte at alle tekster på samme språk har et kjerneordforråd som er likt for de aller fleste? Eller har tekster av forskjellig art også forskjellig ordforråd? Balansert og merket korpus gir god anledning til subkorpus og komparativ analyse av teksttyper 11. april 2011 Ny Powerpoint mal

19 Strukturord Det juridiske språket har mange flere preposisjoner og subjunksjoner i høyfrekvent bruk: LBK og være i det en som på jeg ha DOMMER i være det at til av og for som 11. april 2011 Ny Powerpoint mal

20 Innholdsord Frekvensrangering (Juridiske tekster vs. allmennspråk) LEMMA JUR LBK sak lagmannsrett ville dom anke part gi gjelde seg høyesterett grunn ledd ta komme krav spørsmål forhold side rett vise foreligge følge krone bestemmelse lov eiendom april 2011 Ny Powerpoint mal

21 Fraseologi grunn hvorfor er det så frekvent i juridiske tekster? Flerordsanalyse viser at kollokasjonen legge til grunn er høyfrekvent i dommer. Slik analyse er viktig når man skal finne ut hva som skiller et slikt fagspråk fra allmennspråk 11. april 2011 Ny Powerpoint mal

22 Legge til grunn : Hele LBK: 581 treff ( %) Jur: 469 treff (0.0073%) at dersom retten ikke finner å kunne legge til grunn et vanlig samvær for begge barna, informasjon om garantiens innhold Banken måtte kunne menneskerettssituasjonen blir stadig verre Man kan ikke ved steining. ( 57 ) Jeg må som er den riktige, må jeg enighet mellom partene om at Høyesterett kan legge til grunn legge til grunn legge til grunn legge til grunn legge til grunn at garantien ble lest av selskapets representanter at rettsvesenet og domstolene opptrer gjennomsiktig og at opplysningen om dødsdommen faktisk ble gitt at ambassadens rådgiver er faglig dyktig og dette som gjengs vilkår i bransjen på 11. april 2011 Ny Powerpoint mal

23 Kollokasjonsanalyser av LBK : DeepDict-analyse 1 fra GramTrans på 40 millioner ord 2013: Samme type analyse, men på 100 millioner ord Vi har nå muligheten til å kvantifisere forandringene i resultatene fra 40 millioner til 100 millioner ord 1 Fjeld et. al Semi-automatic retrieval of multiword phrases in a corpus of modern Norwegian. In Computergestützte und korpusbasierte Methoden in der Phraseologie, Phraseografe und der Lexikografie 11. april 2011 Ny Powerpoint mal

24 Hvorfor 100 millioner løpeord? Sammenliknende kollokasjonsanalyse ved 40 og 100 mill: Tro Premodifers (2008): 5.54:6 kristen 7.54:3 usvikelig 4.88:5 religiøs 2.66:6 god 2.23:6 stor 2.11:5 liten 3.08:4 rett 4.03:3 overdreven 3.84:3 PROP-hum's 4.53:2 urokkelig 3.4:3 vane 2.25:4 sterk 2.11:4 katolsk 3:3 sann 2.99:3 muslimsk 3.19:2 optimistisk 0.67:4 ny 0.57:4 gammel 2.35:2 blind 3.33:1 inderlig 1.27:3 jødisk 2.09:2 ortodoks 1.02:3 mangle 1.63:2 luthersk 2.58:1 enfoldig Tro Premodifers (2013): 6.14:7 kristen 5.09:8 god 5.3:6 religiøs 3.46:7 stor 5.45:5 PROP-hum's 7.4:3 usvikelig 4.13:6 sterk 6.46:3 urokkelig 5.28:4 overdreven 4.99:4 han's 2.79:6 liten 3.71:5 rett 4.64:4 vane 4.56:4 naiv 3.95:4 blind 2.68:5 katolsk 3.59:4 sann 3.56:4 ond 3.94:3 PROP-hum 2.92:4 muslimsk 4.62:2 henne's 3.41:3 optimistisk 1.19:5 ny 2.09:4 mangle 3.7:2 all 11. april

25 Videre arbeid: Sammenkobling med andre ressurser Pilot: Korpus-ordbok (LBK-Bokmålsordboka) Gi brukere definisjoner fra en ordbok i f.eks. konkordanseoppslag ved søk i korpus Eksperimenter med automatisk disambiguering av delbetydninger 11. april 2011 Ny Powerpoint mal

26 Sammenkobling med andre ordbok Ordbøker er ofte problematiske som betydningsinventar pga. finkornede betydningsinndelinger Lav grad av enighet blant menneskelige annotører lav presisjon for algoritmer 11. april 2011 Ny Powerpoint mal

27 Sammenkobling med andre ressurser I fremtiden ønsker vi å utforske andre ressurser som betydningsinventar, i første omgang ordnett Vil sannsynligvis by på noen av de samme problemene som ordbøker iht. finkornethet Vil kunne gi interessant informasjon til bruker om f.eks. semantiske relasjoner mellom ord i konteksten 11. april 2011 Ny Powerpoint mal

Medlemssøk v.2.0. NO 982 111 986 MVA Bankplassen 1a 0151 Oslo

Medlemssøk v.2.0. NO 982 111 986 MVA Bankplassen 1a 0151 Oslo Medlemssøk v.2.0 NO 982 111 986 MVA Innhold Introduksjon...3 Sette opp informasjonsfeltene for medlemssøk...3 Medlemssøket...5 Nytt medlemssøk...5 Overskrive lagrede søk...8 Introduksjon Dagens søkefunksjon

Detaljer

Mastergradsoppgave. Barns rettigheter i en barnevernssak JUS399. Selvbestemmelsesrett, medbestemmelsesrett og prosessuelle rettigheter

Mastergradsoppgave. Barns rettigheter i en barnevernssak JUS399. Selvbestemmelsesrett, medbestemmelsesrett og prosessuelle rettigheter Mastergradsoppgave JUS399 Barns rettigheter i en barnevernssak Selvbestemmelsesrett, medbestemmelsesrett og prosessuelle rettigheter Kandidatnr.: 17 29 35 Veileder: Gudrun Holgersen Totalt 14 853 ord Bergen

Detaljer

Felles innspill fra jurister, med våre egne kommentarer

Felles innspill fra jurister, med våre egne kommentarer Felles innspill fra jurister, med våre egne kommentarer Her følger et viktig dokument. Vi ser gjennom det, fremhever tekst og legger til enkelte kommentarer. (Les selv det originale dokumentet.) «Felles

Detaljer

Digital og/eller analog skoledag?

Digital og/eller analog skoledag? Digital og/eller analog skoledag? Mitt navn er (som sagt) Odin Hetland Nøsen. Jeg er for tiden rådgiver hos skolesjefen i Randaberg, og har tidligere vært ITkonsulent på den gang Høgskolen i Stavanger,

Detaljer

Over 2000 ansatte i Norge. Markedsledere på subseautstyr.

Over 2000 ansatte i Norge. Markedsledere på subseautstyr. 1 Over 2000 ansatte i Norge. Markedsledere på subseautstyr. 2 Nettet er tatt i bruk av det offentlige til å publisere informasjon og kommunisere med borgerne. Hvordan kan fangsten av dokumenter som skal

Detaljer

Til 1000/1001: Kort mini-introduksjon til sosiologisk metode

Til 1000/1001: Kort mini-introduksjon til sosiologisk metode 1 Til 1000/1001: Kort mini-introduksjon til sosiologisk metode (Ivar Frønes. Også presentert som forelesning) Sosiologisk forståelse Sosiologi dreier seg om studier av samfunnsmessige fenomen og forhold.

Detaljer

RAPPORT. Evaluering av bruken av bærbare elev- PC er for elever i Vest-Agderskolen. September 2008 Vest-Agder fylkeskommune

RAPPORT. Evaluering av bruken av bærbare elev- PC er for elever i Vest-Agderskolen. September 2008 Vest-Agder fylkeskommune RAPPORT Evaluering av bruken av bærbare elev- PC er for elever i Vest-Agderskolen September 2008 Vest-Agder fylkeskommune Bakgrunn for saken Første halvår 2005 ble det startet opp et pilotprosjekt for

Detaljer

Veiledning og vurdering av Bacheloroppgave for Informasjonsbehandling

Veiledning og vurdering av Bacheloroppgave for Informasjonsbehandling Veiledning og vurdering av Bacheloroppgave for Informasjonsbehandling Oppdatert 15. jan. 2014, Svend Andreas Horgen (studieleder Informasjonsbehandling og itfag.hist.no) Her er noen generelle retningslinjer

Detaljer

Slik leser 10-åringer i Norge

Slik leser 10-åringer i Norge En kartlegging av leseferdigheten blant -åringer i Norge 01 Slik leser -åringer i Norge Senter for leseforsking OO Senter for leseforsking ISBN: 82-7649-029-8 Opplag: 00 eks. På oppdrag for Senter for

Detaljer

Veiledende informasjon om anskaffelse av veterinærvakttjenester

Veiledende informasjon om anskaffelse av veterinærvakttjenester Veiledende informasjon om anskaffelse av veterinærvakttjenester 1. Innledning Les dette sammen med A-rundskriv nr. 2/2012 samt malen til konkurransegrunnlag. Konkurranselovgivningen og andre grupper Også

Detaljer

Rapport om NAV kontorenes praksis ved behandling av søknader om midlertidig botilbud

Rapport om NAV kontorenes praksis ved behandling av søknader om midlertidig botilbud Sosial- og helseavdelingen Kommunene i Aust-Agder Deres ref. Vår ref. (bes oppgitt ved svar) Dato Sak nr. 2014/378 / FMAAKRK 28.05.2014. Rapport om NAV kontorenes praksis ved behandling av søknader om

Detaljer

Barnehagens samarbeid med foreldre som ikke bor sammen

Barnehagens samarbeid med foreldre som ikke bor sammen Barnehagens samarbeid med foreldre som ikke bor sammen I Rammeplanen for barnehagen står det: Barnehagen skal gi barn under opplæringspliktig alder gode utviklings og aktivitetsmuligheter i nær forståelse

Detaljer

Semantisk annotering av læringsmateriale

Semantisk annotering av læringsmateriale Semantisk annotering av læringsmateriale Hvordan gjenbruk av ressurser i diskusjonsforumer hjelper studenter i deres kollaborative læringsprosess Masteroppgave for Richard Persen Institutt for informasjons-

Detaljer

Innholdsfortegnelse: Innledende bemerkninger

Innholdsfortegnelse: Innledende bemerkninger Innholdsfortegnelse: Innledende bemerkninger....1 Advokatens råd ved skilsmisse.....2 Ektepakt. 7 Skilsmisse prosessen - Fra separasjon til skilsmisse.. 9 Skifte. 12 Deling av verdier og gjeld ved skilsmisse.....12

Detaljer

Vurdering av brukerkrav til Klart DU Kan! Av Fride Skjefte og Hilde Wågan Olsen

Vurdering av brukerkrav til Klart DU Kan! Av Fride Skjefte og Hilde Wågan Olsen Vurdering av brukerkrav til Klart DU Kan! Av Fride Skjefte og Hilde Wågan Olsen Bakgrunn Valg av oppgave Problemstilling Problemløsning Metode Use Case Rapid Application Development Vurdering av dagens

Detaljer

En e-bok fra Appex Hvordan få mest ut av Facebook?

En e-bok fra Appex Hvordan få mest ut av Facebook? En e-bok fra Appex Hvordan få mest ut av Facebook? Klikk for å dele Denne e-boken er inspirert av og delvis oversatt fra Facebook sin utgivelse «Page Publishing Best Practices». 2 Facebook beste praksis

Detaljer

Veileder i likemannsarbeid for tuberkulosepasienter

Veileder i likemannsarbeid for tuberkulosepasienter Veileder i likemannsarbeid for tuberkulosepasienter Inkluderer veiledning for bruk av brosjyren Du blir frisk av tuberkulose i likemannsarbeidet Landsforeningen for hjerte- og lungesyke Innhold Hva er

Detaljer

EKSAMENSOPPGAVE I FAG TDT4117 INFORMASJONSGJENFINNING (BOKMÅL) SENSURVEILEDNING

EKSAMENSOPPGAVE I FAG TDT4117 INFORMASJONSGJENFINNING (BOKMÅL) SENSURVEILEDNING Norges teknisk-naturvitenskapelige universitet Institutt for datateknikk og informasjonsvitenskap EKSAMENSOPPGAVE I FAG TDT4117 INFORMASJONSGJENFINNING (BOKMÅL) SENSURVEILEDNING Faglig kontakt under eksamen:

Detaljer

Kathrine F. Finnøy. «Man kan ikke se gjennom fingrene uten UV-stråling»

Kathrine F. Finnøy. «Man kan ikke se gjennom fingrene uten UV-stråling» Kathrine F. Finnøy «Man kan ikke se gjennom fingrene uten UV-stråling» En kvantitativ forskningsstudie av idiomforståelsen hos ungdommer med norsk som morsmål Masteravhandling i nordisk språkvitenskap

Detaljer

Endring av Bioteknologinemndas navn og hjemmel til å gi felles forskrift om nemndas virksomhet

Endring av Bioteknologinemndas navn og hjemmel til å gi felles forskrift om nemndas virksomhet Helse- og omsorgsdepartementet Vår ref.: 2013/5105 Deres ref.: 1327/46 Dato: 30.10.2013 Endring av Bioteknologinemndas navn og hjemmel til å gi felles forskrift om nemndas virksomhet Bioteknologinemnda

Detaljer

Vår ref. Deres ref. Dato: 09/985-14-MBA 27.01.2011

Vår ref. Deres ref. Dato: 09/985-14-MBA 27.01.2011 Vår ref. Deres ref. Dato: 09/985-14-MBA 27.01.2011 Norwegians onlinebooking er ikke universelt utformet Ombudet fant at onlinebookingen på Norwegians internettside ikke er universelt utformet fordi det

Detaljer

Studentene og fagspråket. Spørreundersøkelse blant studenter i alderen 19-29 år. Gjennomført på oppdrag fra Språkrådet. TNS Politikk & samfunn

Studentene og fagspråket. Spørreundersøkelse blant studenter i alderen 19-29 år. Gjennomført på oppdrag fra Språkrådet. TNS Politikk & samfunn Spørreundersøkelse blant studenter i alderen -2 år Gjennomført på oppdrag fra Språkrådet TNS.2.24 Innhold Dokumentasjon av undersøkelsen 3 2 Oppsummering av hovedfunn 3 4 Vedlegg: Bakgrunn 22 Vedlegg:

Detaljer

VEILEDNING I LØSNING AV OPPGAVER SOM PRØVER HELHETLIG KOMPETANSE

VEILEDNING I LØSNING AV OPPGAVER SOM PRØVER HELHETLIG KOMPETANSE VEILEDNING I LØSNING AV OPPGAVER SOM PRØVER HELHETLIG KOMPETANSE INNHOLD MÅLGRUPPE...20 HENSIKTEN MED VEILEDNINGEN...20 HELHETLIG KOMPETANSE... 20 "VIRKELIGHETSNÆRE" OPPGAVER... 21 DITT ANSVAR!...22 HVORDAN

Detaljer

Rapport til undersøkelse i sosiologi og sosialantropologi

Rapport til undersøkelse i sosiologi og sosialantropologi Rapport til undersøkelse i sosiologi og sosialantropologi Problemstilling: Er det en sammenheng mellom kjønn og hva de velger å gjøre etter videregående? Er det noen hindringer for ønske av utdanning og

Detaljer

POLSKE INNVANDRERE I NORGE: INTEGRERING OG KULTURDELTAKELSE

POLSKE INNVANDRERE I NORGE: INTEGRERING OG KULTURDELTAKELSE FORSKNINGSRAPPORT POLSKE INNVANDRERE I NORGE: INTEGRERING OG KULTURDELTAKELSE Aleksandra Janaczyk for MojaNorwegia.pl Oktober 213, Oslo 2 FORORD Denne rapporten er litt annerledes enn vanlige, mer profesjonelle

Detaljer

6. Brukerveiledning. Forord

6. Brukerveiledning. Forord 6. Brukerveiledning Forord I denne rapporten vil man finne en skriftlig brukerveiledning om TEXTOP. Denne brukerveiledningen er først og fremst ment for hvordan brukeren skal handle for å oppnå sine mål

Detaljer

Utredning om et nasjonalt korpus for språkteknologi

Utredning om et nasjonalt korpus for språkteknologi Rapport Tittel: Forfattere: Norsk språkbank Utredning om et nasjonalt korpus for språkteknologi Torbjørn Svendsen, Institutt for teleteknikk, NTNU Magne H. Johnsen, Institutt for teleteknikk, NTNU Knut

Detaljer

OSLO TINGRETT. Dommer: Tingrettsdommer Dagfinn Grønvik

OSLO TINGRETT. Dommer: Tingrettsdommer Dagfinn Grønvik OSLO TINGRETT DOM Avsagt: Saksnr.: 17.01.2014 i Oslo tingrett, 12-117110TVI-OTIR/07 Dommer: Tingrettsdommer Dagfinn Grønvik Saken gjelder: Gyldigheten av Patentstyrets Annen avdelings avgjørelse om foretaksnavnet

Detaljer

Informasjonsbrev får flere til å gi opplysninger om utleie

Informasjonsbrev får flere til å gi opplysninger om utleie Informasjonsbrev får flere til å gi opplysninger om utleie Anne May Melsom, Tor Arne Pladsen og Majken Thorsager Omtrent 12 000 skattytere har fått informasjonsbrev om hvordan de skal rapportere opplysninger

Detaljer