Utredning om et nasjonalt korpus for språkteknologi

Størrelse: px
Begynne med side:

Download "Utredning om et nasjonalt korpus for språkteknologi"

Transkript

1 Rapport Tittel: Forfattere: Norsk språkbank Utredning om et nasjonalt korpus for språkteknologi Torbjørn Svendsen, Institutt for teleteknikk, NTNU Magne H. Johnsen, Institutt for teleteknikk, NTNU Knut Hofland, HIT-senteret, UiB Christian-Emil Ore, Dokumentasjonsprosjektets etterorg., UiO Dato: 3. september, 1999 Tilgjengelighet: Åpen Antall sider: 53 Sammendrag: Denne rapporten gir en framstilling av resultatene fra prosjektet Nasjonalt korpus for språkteknologi forprosjekt. Prosjektet er utført av NTNU, Universitetet i Bergen, Universitetet i Oslo, Telenor FoU, SINTEF Tele og data og Nordisk Språkteknologi. Konsortiet har arrangert to seminarer med deltakere fra øvrige norske FoU-miljøer innen språkteknologi og språkvitenskap og fra brukermiljøer. Innspillene fra disse informasjonsinnhentings- og høringsrundene, samt en grunnleggende enighet blant konsortiepartnerne gjør at vi anser at hovedlinjene i rapporten har bred støtte i det norske FoU-miljøet. Det foreslås etablert et nasjonalt korpus for språkteknologi, som skal være en felles ressurs for språkteknologisk forskning og utvikling. En kartlegging av eksisterende språkteknologiske ressurser for norsk, viser at selv om det eksisterer en ikke ubetydelig mengde av data, må det en betydelig innsats til for å få etablert en norsk språkteknologisk korpus som er tjenelig for moderne språkteknologisk forskning og utvikling for norsk språk. Rapporten framlegger en liste over eksisterende språkdata for norsk, og fremmer en prioritert liste over suppleringer til de eksisterende språkdata. Rettighetshaverne av de eksisterende språkdata er i prinsippet positive til å forhandle om å innlemme disse dataene i et nasjonalt korpus. Rapporten diskuterer også forvaltning, organisering og finansiering av et nasjonalkorpus. Det foreslås at det etableres en nasjonal forvaltning av de innsamlede data, og at tilgang til nasjonalkorpuset baseres på medlemsskap og evt. stykkpris for ikke-medlemmer. Lisenseringsbetingelser bør avhenge av innhold og tiltenkt bruk av innsamlede data. Det foreslås at nasjonalkorpuset organiseres i moduler, og at innsamling gjøres på modul-nivå, som prosjekter. Datainnsamlingen bør i hovedsak være offentlig finansiert. Tre Stikkord: Språkteknologi Språkdata Nasjonal ressurs Prosjektleder: Professor Torbjørn Svendsen, NTNU

2 Innhold 0. Konklusjon Innledning Taledatabaser i et nasjonalt korpus Tekstkorpus Anvendelser av et tekstkorpus Omfang og mengde Eksisterende materiale Moduler og prioriteringer Kostnader Hva kan en ønske av leksikalske ressurser Leksikalsk database Analyseverktøy mot korpus Mulige leverandører Ressursbehov Forvaltning av nasjonalkorpuset Lisensering Pris Avgrensninger på bruk Forvaltning Finansiering og organisering av datainnsamling Organisering Finansiering...20 Vedlegg...21 A Taledatabaser...21 A1 Talegjenkjenning og syntese...21 A2 Ulike talebaserte anvendelser...22 A3 Aktører innen talebasert språkteknologi for norsk...24 A4 Eksisterende taledatabaser for norsk...25 A5 Prioritert liste over taledatabaser i Nasjonalt Korpus...27 A6 Database - formater og - standarder...29 A7 Arbeids - og kostnads - estimater...30 A8 Relevante web-adresser...33 B Tekstkorpus...34 B1 Anvendelser av et korpus...34 B2 Oppbygging av et norsk korpus...34 B.2.1 Oppbygging og distribusjon av internasjonale korpus...34 B.2.2 Opphavsrett B.2.3 Omfang og teksttyper...37 B.2.4 Tekstkoding...38 B.2.5 Distribusjon og søking...39 B3 Eksisterende materiale...40 B4 Moduler og prioriteringer...42 B5 Kostnader...42 B6 Vedlegg

3 Eksempeltekst fra Informasjon fra Utenriksdepartementet Eksempel på søkeresultater...47 C Oversikt over leksikalske ressurser og mulige leverandører...49 C1 Hva kan en ønske av leksikalske ressurser?...49 C.1.1 Leksikalsk database...49 C.1.2 Analyseverktøy mot korpus...49 C2 Eksisterende ressurser og mulige leverandører...50 C.2.1 Data til leksikalske databaser...50 C.2.2 Analyseverktøy mot korpus...52 C3 Ressursbehov

4 0. Konklusjon Språk er en forutsetning for samfunnet vårt. Mennesker bruker språket til å kommunisere med hverandre gjennom tale og tekst, og i stadig økende grad til å kommunisere med maskiner. Språket er i tillegg en viktig kulturbærer, og spiller stor rolle for vår oppfattelse av identitet og tilhørighet. Språkteknologien er et hjelpemiddel til å forenkle og forbedre kommunikasjonen mennesker imellom og til å gjøre grensesnittet mellom menneske og maskin enklere, og mer naturlig. Eksempler er automatisk talegjenkjenning og syntetisk tale, maskinoversettelse og hjelpemidler til skrivestøtte. Språkteknologien er spesielt viktig for mange grupper av funksjonshemmede, som f.eks. blinde og hørselshemmede, bevegelseshemmede og dyslektikere. Betydningen av språkteknologien i morgendagens samfunn er blitt understreket av mange. Microsofts Bill Gates har gjentatte ganger understreket den sentrale rollen taleteknologien vil ha framover, ikke bare som et sentralt element i Windows. At språkteknologi og norskspråklig programvare vil ha betydning for norsk næringsutvikling er understreket blant annet i Næringsrettet IT-plan for perioden Språkteknologien er av natur språkavhengig, og dette innebærer at det er et betydelig utviklingsarbeid forbundet med utviklingen av språkteknologiske produkter og tjenester for alle språk. En forutsetning for en slik utvikling er tilgangen på tilstrekkelige mengder med språkdata. En prosjektgruppe bestående av fagpersoner fra NTNU, Universitetene i Oslo og Bergen, Sintef Tele og data, Telenor FoU og Nordisk Språkteknologi har utredet behov, organisering og finansiering av en samling av språkdata for norsk språk, et Nasjonalt korpus for språkteknologi. Prosjektgruppen har konsultert det øvrige språkteknologiske og språkvitenskapelige miljø i Norge, samt potensielle brukere av data og resultater i dette arbeidet. Det har vært stor enighet om hovedkonklusjonene. Det er derfor et samlet fagmiljø som står bak anbefalingene i denne rapporten, som kort er oppsummert nedenunder. Innhold: Et nasjonalt korpus for språkteknologi skal inneholde taledata, tekstdata og leksikalske ressurser. Både nynorsk og bokmål skal inkluderes, og det må være et dekkende utvalg av dialekter. Modularitet: Det anbefales at korpuset bygges opp som en samling av moduler. Hver modul vil ha en egenverdi, og skal kunne benyttes som en selvstendig ressurs, men vil inngå i en planmessig helhet. Modulariteten vil gjøre det mulig med en trinnvis oppbygning av nasjonalkorpuset. Hver modul realiseres som et eget prosjekt, og gjøres tilgjengelig etter hvert som de ferdigstilles. Dette muliggjør at ulike finansieringskilder kan utnyttes. Prioriteringslister: Det er foretatt en kartlegging av eksisterende og framtidige behov for språkdata hos aktørene innen språkteknologisk FoU. Ut fra kartleggingen er det utarbeidet prioriteringslister for realisering av korpusmoduler. Listene skal legges til grunn for rekkefølge i arbeidet med datainnsamling. Prioriteringsrekkefølgen 3

5 reflekterer det samlede behov, og enkeltaktører vil kunne ha avvikende prioriteringsønsker på kort sikt. I tabellene nedenunder er prioriteringslistene for moduler av de ulike datatypene angitt. Antatte kostnader er angitt i årsverk. Det understrekes at anslagene på årsverk er omtrentlige. Prioritet Type Talestil Formål Behov (timer) Årsverk forsker Årsverk andre 1 Romkvalitet Manuskript Diktering, modeller Telefon Manuskript Modeller Mobiltlf. Manuskript Modeller Tlf. i bil Manuskript Diverse Telefon Spontan Diktering Romkvalitet Manuskript Prosodi/ 5 5½ 3 Lydbibliotek 7 Telefon Spontan Dialog Telefon Manuskript Emnesøk 15 ½ 1 9 Audio Spontan Emnesøk 15 ½ 1 Tabell 1. Prioriteringsliste for taledata. Tabellen forutsetter at eksisterende taledata vil bli gjort tilgjengelig for nasjonalkorpuset, og angir det utfyllende behovet. Prioritet Bearbeiding Teksttyper Årsverk bokmål Årsverk nynorsk 1 Basal Sakprosa, småtrykk, 4 6 upublisert materiale 2 Basal Aviser og media, 4 6 skjønnlitteratur 3 Utvidet tekstkoding og Sakprosa, småtrykk, 3 3 kontroll upublisert materiale 3 Utvidet tekstkoding og Aviser og media, 3 3 kontroll skjønnlitteratur 4 Tagget Alle 2,5 3 Tabell 2. Prioriteringsliste for tekstdata. Det endelige sluttproduktet vil bli et tagget tekstkorpus på 100 millioner ord for hver målform. I anslagene over årsverk vil fordelingen mellom fagpersoner på forskernivå og annen assistanse være om lag 50/50. 4

6 Prioritet Aktivitetstype Antall årsverk 1 Utvikling av stavevarianter/basis 2,5 dialektvarianter 2 Utvikling av uttalebeskrivelse for navn, 3 1 årsverk pr ord 3 Kvalitetskontroll av eksisterende lister 0,5 4 Utvikling av uttalebeskrivelse for dialekter 4 1 årsverk pr dialekt og målform Tabell 3. Prioriteringsliste for leksikalske ressurser. Om lag 2/3 av årsverkene vil være på forskernivå. Forvaltning. Det anbefales at nasjonalkorpuset forvaltes nasjonalt. Forvaltningsorganisasjonen må være en juridisk person som kan forestå avtaleinngåelse, og bør være knyttet til en institusjon med lang forventet levetid. En forvaltningsorganisasjon vil stå som eier av korpuset, og vil måtte ta seg av administrative og strategiske funksjoner i tillegg til vedlikehold og videreutvikling. De tre hovedfunksjonene kan gjerne deles mellom ulike institusjoner, slik at man unngår sammenblanding av forvalterrolle og egne forskningsmessige eller kommersielle interesser. Et mulig scenario er å legge de administrative oppgavene til en offentlig instans som allerede har et ansvar for norsk språk, la et bredt sammensatt styre ivareta strategiske funksjoner, og å la ansvar for vedlikehold og utvikling bli utført av faglig kompetente institusjoner, for eksempel ved universitetene. Lisensering. Nasjonalkorpuset skal være tilgjengelig for alle aktører innen norsk språkteknologisk FoU. Pris på tilgangen bør være differensiert, avhengig av tiltenkt bruk og av type virksomhet. Det anbefales at det brukes en modell med medlemsskap og stykkpris. Medlemmer får for sin årlige kontingent tilgang til alle moduler som tilkommer nasjonalkorpuset i et år, ikke-medlemmer kan kjøpe tilgang til enkeltmoduler i henhold til en prisliste. Det må utarbeides lisensavtaler for hver enkelt modul, slik at rettstvister med hensyn på bruk og spredning unngås. Finansiering. Finansiering av nasjonalt språkteknologisk korpus bør etter prosjektgruppens mening i hovedsak være offentlig. Graden av offentlig finansiering kan variere, f.eks. kan det være tenkelig å kreve høyere egenfinansiering for moduler som foreslås innsamlet utenfor normal prioriteringsrekkefølge. Finansieringskilder for de ulike modulene kan variere, og kan være avhengig av tiltenkt bruksområde. Forvaltningen av nasjonalkorpuset vil fordre at det avsettes langsiktig finansiering til utføring av de administrative forvaltningsfunksjonene. 5

7 1. Innledning Nasjonalt korpus for språkteknologi er et forprosjekt som er utført for Norges Forskningsråd av NTNU, Universitetet i Oslo, Universitetet i Bergen, Sintef Tele og data, Telenor FoU og Nordisk språkteknologi. Prosjektets formål er å komme med anbefalinger til innhold, omfang og organisering av en språkteknologisk database som skal være en nasjonal ressurs for forskning og utvikling av språkteknologi. Språkteknologi er både basert på tale (f.eks. automatisk talegjenkjenning, syntetisk tale, identitetsbestemmelse basert på stemmegjenkjenning, talekompresjon for effektiv overføring og lagring) og tekst (f.eks. teknikker for skrivestøtte, som staveog grammatikkontroll og stilistisk støtte, maskinoversettelse og teksttolkning). Språkteknologien vil kunne forenkle bruk av datamaskiner generelt, og det vil ha stor språkpolitisk betydning at det eksisterer norske versjoner. Språkteknologiske hjelpemidler har spesielt stor betydning for mennesker med spesielle behov, som f.eks. blinde, hørselshemmede, bevegelseshemmede og mennesker med lese- og skrivevansker. Språkteknologien er av natur språkavhengig. Det betyr at det er et betydelig utviklingsarbeid forbundet med utviklingen av språkteknologiske produkter og tjenester for alle språk. Skal vi ha norskspråklige produkter, er det nødvendig med et større arbeid for å utvikle disse, som forutsetter både teknologisk og lingvistisk kompetanse. Moderne språkteknologi er i høy grad avhengig av tilgang på store mengder språkdata, og tilgang på norske språkdata er en forutsetning for norske språkteknologiske produkter. Innsamling av språkdata er kostbart, og det norske markedet er lite. Internasjonalt er store mengder språkdata blitt samlet inn, stort sett med betydelig grad av offentlig finansiering, også for de store språkene. Siden utviklingskostnadene for språkteknologien er tilnærmet de samme for alle språk, vil framtida til norsk språkteknologi være avhengig av offentlige tilskudd, spesielt til innsamling av språkdata. Det vil da være en effektiv utnyttelse av offentlige ressurser å samle språkdata til et nasjonalt korpus, som vil være tilgjengelig for alle aktører innen språkteknologisk FoU, framfor å gi tilskudd til enkeltstående produktutvikling. Både når det gjelder forskningsmidler og språkdata ligger Norge etter land vi naturlig sammenligner oss med. De fleste vesteuropeiske land, samt USA og Japan har etablert større språkdatabaser. Også våre skandinaviske naboer, Danmark og Sverige, ligger langt foran oss i innsamling av språkdata. Utvikling av språkteknologi for norsk har sterke koblinger til offisielle språk- og kulturpolitiske mål. I St.meld. nr. 13 ( ) finner vi i kap. 3.4, Elektroniske språkverktøy i høve til dei nasjonale språkpolitiske måla denne generelle målformuleringen: Målet er å kunne gi både nynorsk- og bokmålsbrukarane gode reiskaper til støtte for språkbehandling og å tilby relevante informasjonstenester o.a. på begge målformer. Innstillingen fra familie-, kultur- og administrasjonskomitéen (Innst. S. nr. 174, ) har dette utsagnet fra flertallet: Det vil lett kunna bli 6

8 slik at dersom ikkje staten tek den kulturpolitiske styringa når det gjeld språk og IT, vil tilfeldige programvareutviklarar kunna leggja føringar på utviklinga av norsk språk. Og til slutt, i Næringsrettet IT-plan for perioden fra Nærings- og handelsdepartementet heter det: Å sikre flerspråklighet i fremveksten av det nye informasjonssamfunnet er viktig, ikke bare for å erobre markedene, men også for å sikre overlevelsesevnen for verdens mange språk, og ikke minst norsk. Dette krever utvikling av språkverktøy/-metoder som gjør oss i stand til å kommunisere på norsk, og selge norske multimedia produkter internasjonalt.... Norskspråklig programutvikling og norskprodusert multimedia etableres som satseområde. Norges Forskningsråd har igangsatt et forprosjekt som har hatt som formål å foreslå retningslinjer for et nasjonalt korpus for språkteknologi. Korpuset vil inneholde taledata, tekstdata og leksikalske ressurser. Korpusinnholdet skal være av generisk natur, dvs. at det vil være språkdata som har stor allmenn interesse for språkteknologisk forskning og utvikling som skal inkluderes, og at det vil bli lagt stor vekt på gjenbruksaspekter. Av de spørsmål forprosjektet har tatt sikte på å avklare er: Hva slags data er det behov for å inkludere Hvor store mengder av hver datatype er nødvendig? Hvilke standarder for innsamling og organisering av dataene bør følges? Hva kan inkluderes av eksisterende data? Hvilke opphavsrettslige forhold må avklares, og hvordan? Forvaltning, lisensbetingelser og videreutvikling av databasen? Forprosjektet er blitt gjennomført i perioden desember 1998 til august Både teknologi og marked synes modent for norske språkteknologiske produkter, og det er ønskelig å starte arbeidet med innsamling av data snarest, dvs. høsten 1999 eller vinteren Rapporten gir først en oversikt over kartlagte behov for språkdata av ulike typer (tale, tekst, leksikalske ressurser). Her vil man finne en oversikt over mengde og type av eksisterende data, og prioriterte lister over hva som gjenstår å samle inn. Utfyllende opplysninger er lagt til vedlegg. Deretter diskuteres spørsmål om forvaltning av et nasjonalt korpus for språkteknologi, samt finansiering og organisering av nasjonalkorpuset. Rapporten forutsetter likestilling mellom nynorsk og bokmål, og språkdata på de to målformene bør samles inn parallelt. 7

9 2. Taledatabaser i et nasjonalt korpus Utvikling av talebaserte språkteknologi-produkter er i utgangspunktet helt avhengig av tilgang til store taledatabaser. Taledatabasene brukes hovedsakelig til å designe de to viktigste grunnmodulene i slike produkter, nemlig talegjenkjenning og talesyntese. Blant de anvendelser/produkter som en ser som viktigst pr. i dag kan en nevne: Diktering (gjenkjenning) Kommandostyring, navigering (gjenkjenning) E-postlesing (syntese) og generering (gjenkjenning) Taleproteser (gjenkjenning, syntese) Mobiltelefon i bil (gjenkjenning) Telefonbaserte dialogsystemer (gjenkjenning, syntese) Emnesøk i digitale multimedia-arkiver (gjenkjenning) Etter konsultasjoner med norske kommersielle aktører og universiteter, samt forespørsler till utenlandske kommersielle aktører, har en kommet fram til en prioritert liste over nødvendige taledatabaser som bør inngå i et nasjonalt korpus. En del av disse databasene forekommer allerede på norsk, men langt fra i den kvantitet som er nødvendig. Tabellen nedenfor gir et estimat av behovene i prioritert rekkefølge. En vil sterkt påpeke at det angitte antall årsverk er kun veiledende. PRIOR. KVALITET OPPTAK FORMÅL TOTALT BEHOV (TIMER) FINNES (TIMER) GJEN- STÅR (TIMER) ÅRS- VERK FAGLIG ÅRS- VERK UKVAL. 1 Rom- Manuskript Diktering, kvalitet modeller 2 Telefon Manuskript Modeller Mobiltlf. Manuskript Modeller Tlf. i bil Manuskript Diverse Telefon Spontan Diktering Romkvalitet Manuskript Prosodi/ 5 ½ ½ 5 5½ 3 lydbibliotek 7 Telefon Spontan Dialog Telefon Manuskript Emnesøk ½ 1 9 Audio Spontan Emnesøk ½ 1 Sum årsverk Under FORMÅL skiller en mellom anvendelser (diktering, emnesøk), design (av akustiske modeller, lydbibliotek), analyse (prosodi, dialogstrukturer) og diverse (både anvendelser og modeller). 8

10 Under ÅRSVERK skiller en mellom faglig kvalifisert arbeidskraft (typisk universitets-utdannelse innen språkteknologi) og ukvalifisert arbeidskraft (studenter, timebaserte ansatte etc.). I vedlegget vil man finne et estimat av tilsvarende kostnader forbundet med de enkelte databasene. En vil til slutt sterkt påpeke behovet for å følge standarder gitt av internasjonalt kjente og mye brukte databaser/database-produsenter (SpeechDat, Linguistic Data Corporation, ELRA) samt anbefalinger fra internasjonale komiteer som EAGLES. En mer detaljert beskrivelse av behov for norske taledatabaser er gitt i vedlegg A. 9

11 3. Tekstkorpus 3.1. Anvendelser av et tekstkorpus Et stort tekstkorpus vil være en helt basal ressurs for utvikling av språkteknologiske produkter. Metoder for talegjenkjenning krever bl. a. statistiske språkmodeller, for å lage slike kreves store tekstmengder. De fleste språkteknologiske produkter har behov for elektroniske ordbøker eller leksikalske databaser. Med et stort tekstkorpus kan en foreta kontroll av et allerede eksisterende leksikon med hensyn til kvalitet og dekning, og en kan tilpasse og utvide ordforrådet slik språket avtegner seg i praktisk bruk gjennom korpuset. Et stort tekstkorpus er også helt nødvendig for å kunne utvikle formelle grammatikker. Ordene i korpuset må da være grammatisk merket (tagget). Formelle grammatikker brukes av analyse- og genereringsprogrammer, som for eksempel programmer for grammatikkontroll, innholdstolking, maskinoversetting og automatisk sammendrag av tekst. Resultatene fra statistisk bearbeiding av et stort korpus vil også kunne brukes til å forbedre systemer for dokumentsøk og søkemotorer for Internett. Et tekstkorpus vil selvsagt også være en verdifull ressurs i den generelle språkforskningen. En må ikke undervurdere behovet for mer langsiktig grunnforskning. Det er fremdeles mange grunnleggende og teknologiske relevante forhold om språk og språks formaliserbarhet som ikke er utforsket Omfang og mengde For at en statistisk språkmodell skal være pålitelig, må den være basert på minimum 100 millioner ord for hver målform, både for bokmål og for nynorsk. For leksikalske studier av ord som forekommer sjelden, vil selv 100 millioner ord være i minste laget. Det må være en viss spredning mht. moderat og radikalt bokmål, konservativt og radikalt nynorsk og dialekt. Tekstene bør også ha god spredning etter forfatters hjemsted, kjønn og alder og tekstene bør være beregnet på ulike aldersgrupper. Tekstene må være av nyere dato, men bør helst være spredd over minst 5-10 år. Også oversatte tekster må inkluderes. Innhenting av bokmål- og nynorsktekster bør om mulig foregå parallelt. Tekstene må dekke et bredt spekter av teksttyper. Etter innhenting av spesifikasjoner fra brukere og opplysninger om hvordan sammenlignbare utenlandske korpus som British National Corpus (BNC) er bygd opp, vil følgende hovedkategorier måtte inngå (med angivelse av omtrentlig fordeling mellom hovedkategoriene): A: Aviser, media (25 %) B: Skjønnlitteratur (25 %) C: Sakprosa (45 %) D: Upublisert materiale, småtrykk (5 %) 10

12 Fordelingen av tekster etter teksttyper og alder vil bli noe ulik for bokmål og nynorsk pga. mindre tilfang av nynorsktekster innen noen av undergruppene. Hele korpuset bør være grammatisk merket (tagget). Minimum ord og helst 1 million ord bør være manuelt kontrollert. I eksisterende korpus brukes tekstutsnitt fra 2000 ord til ord fra hver tekst. Lange tekstutsnitt gir færre tekster å administrere, mens kortere tekstutsnitt gir større bredde i utvalget. Et omfang på ca ord gir en passe avveining mellom disse ytterpunktene. Dette gir 5000 tekstutsnitt for et korpus på 100 millioner ord. Materialet merkes (kodes) etter anbefalingene fra Text Encoding Initiative (TEI). Det betyr at hver tekst har en innledende del med opplysninger om tittel, forfatter, trykkested og -år. Denne delen kan suppleres med ytterligere opplysninger om forfatter og emneklassifikasjon av tekst. I tekstene kan en ha ulik detaljeringsnivå på markering av avsnitt, kapittel, overskrifter, fet og kursiv skrift etc Eksisterende materiale Ved universitetene i Oslo og Bergen og ved SINTEF finnes det en del tekstmateriale. For å kunne innlemme dette i et nasjonalt korpus, må bruksavtalene for materialet reforhandles. Materialet har ulik koding og må konverteres til et felles format. En del av materialet må tilføres ekstra merking slik at alle tekstene får et definert minimum av koding og tilleggsopplysninger. Totalt kan en bruke ca. 20 millioner ord av det eksisterende materialet. Flere forlag har også allerede signalisert at de kan bidra med materiale Moduler og prioriteringer Oppbyggingen av korpuset kan deles inn i moduler etter tekstkategori og bearbeidingsgrad. En kan tenke seg følgende arbeidsmoduler: Modul M1: Modul M2: Modul M3: Utvalg av tekster, konvertering av maskinleselig tekst/ocr-skanning, minimum at tekstkoding, programmering Ekstra tekstkoding og kontroll Automatisk tagging, manuell kontroll av tagging på en del av materialet De eksisterende tekstene er i hovedsak fra kategori A og B med noe fra C. Prioriteringen av tekstkategorier vil dermed bli i rekkefølge D, C, B og A for modul M1. For Modul M2 og M3 vil prioriteringen mellom kategoriene være lik. 11

13 3.5. Kostnader Følgende veiledende estimat på arbeidstid er basert på et prosjekt over 3 år og et automatisk tagget korpus på 100 millioner ord (5000 tekster á ord) hvor 1 million ord er manuelt kontrollert og hvor 5 % av tekstene er manuelt OCR-skannet (15 % for nynorsk). For modul M2 regner vi med 2 timer behandling pr. tekst à ord. Estimatet på tagging er basert på at en har en ferdig tagger tilgjengelig (Oslo taggeren el. lignende). For nynorsk vil det kunne bli aktuelt å gjøre noe ekstra arbeid med taggeren. Årsverk brutt ned etter moduler og teksttyper: Prioritet Arbeidsmodul Teksttyper Bokmål Nynorsk 1 M1 C+D M1 A+B M2 C+D M2 A+B M3 A+B+C+D 2,5 3 Totalt 16,5 21 Ca. halvparten av årsverkene vil være ikke-forsker/programmerer-årsverk (assistent). 12

14 4. Hva kan en ønske av leksikalske ressurser Korpusprosjektets hovedmål er å skaffe til veie store mengder tekst og transkribert tale med lydopptak for å utvikle ulike språkteknologiske verktøy og produkter. Leksikalske ressurser som ordbøker, ordlister, tesaurer og morfo-syntaktiske analyseprogram forutsetter ideelt eksistensen av et korpus. Det kan derfor virke noe selvmotsigende å snakke om leksikalske ressurser som skal leveres sammen med et korpus. De nevnte leksikalske ressursene er imidlertid en forutsetning for å kunne få størst mulig nytte av det innsamlede tekst- og talemateriale. Det er dermed tale om en gjensidig avhengighet for å utvikle både korpus og leksikalske ressurser. Mye av de basale leksikalske ressursene er allerede på plass for både bokmål og nynorsk. Det finnes ordlister med systemer for fullformsgenerering og uttalemarkering samt morfo-syntaktiske analyseprogrammer. I tillegg er det mulig å fremskaffe omfattende lister over person-, steds-, og firma-navn. Det er gjort en del for å spesifisere verbs argumentstruktur og noe med stilistisk merking. Det er imidlertid gjort lite på området dialekt- og ortografiske tesaurer, emnespesifikke semantiske tesaurer. Korpusprosjektet er tenkt slik at det i tillegg til de rent tekstlige og lydlige ressursene, skal etableres en samling med leksikalske ressurser av ulike slag. Det er satt opp en oversikt over de ulike ressursene en kan tenke seg. Oversikten er satt opp med basis i hva som finnes, og hva det er kommet ønsker om fra ulike institusjoner og firma Leksikalsk database Den leksikalske databasen vil bestå av følgende komponenter: 1) Basale ordlister (allmennord, termer, navn etc.) med muligheter for fullformsproduksjon 2) Utaleleksikon 3) Dialekt- og rettskrivings-tesaurer 4) Emne-tesaurer Analyseverktøy mot korpus Til bearbeiding av råmaterialet som inngår i korpuset, er det behov for automatiske analyseverktøy: 1) Morfosyntaktiske analyse og markeringsprogrammer (taggere) 2) Avanserte søke og analyse-verktøy til bruk mot korpuset 13

15 4.2. Mulige leverandører Det finnes en rekke mulige leverandører. For almennord med fullformsystemer er det universitetene og Lingsoft som har de største ressursene. Lingsoft vil ikke stille sitt materiale til disposisjon annet gjennom det å merke (tagge) de løpende ordene i tekstene. En kan likevel si at det er svært god dekning for ordlistesystemer for almennord. Det er også god dekning for personnavn, stedsnavn og firmanavn registrert i Norge. For utenlandske navn har vi ikke tatt med noen leverandører. Men Kunnskapsforlaget har gjennom sine leksikon og atlasdatabaser svært god dekning også her. Navnelister er ikke en absolutt nødvendighet i et korpusprosjekt, men særlig Telenor har bedt om at det blir utviklet navnelister med kvalitetskontrollert utalebeskrivelse. Utviklingen av slike lister er derfor prioritert. Det er gjort lite eller intet i forbindelse med rettskrivnings- og dialekttesaurer. Alle interessentene i korpusprosjektet har behov for gode verktøy for å kunne standardisere ulike realiseringer av lemma. Vi har derfor prioritert dette. Med emnespesifikke tesaurer tenker vi her på synonym-ordlister og hierarkier innen ulike fagdisipliner som medisin, jus, teknologiske disipliner etc. Det nærmeste en kommer emnespesifikke semantiske tesaurer, er de tradisjonelle synonymordbøkene. IBM-utviklet riktignok elektroniske synonymordbøker på 1980-tallet. Utviklingen av emmnespesifikke tesaurer er svært kostbart og må oppdateres kontinuerlig. De må som navnet tilsier lages spesifikt for hvert enkelt fagområde. Det er lite realistisk å forestille seg en total semantisk tesaurus for et helt språk. Tesaurene er imidlertid helt nødvendig for å lage avanserte språkorienterte kontorstøtte- og søkesystemer for ulike profesjoner. Vi antar at Norsk termbank og Rådet for teknisk terminologi bør engasjeres i den fortløpende utviklingen av slike tesaurer. Grunnet de store kostnadene og de svært spesifikke anvendelsesområdene har vi valgt å ikke ta disse med i den listen av verkøy som vi foreslår skal utvikles i regi av et nasjonalt korpusprosjekt Ressursbehov For de leksikalske databasene er det behov for noe programmeringskompetanse. Ut over denne vil det til ordlisten være behov for personer med leksikografisk kompetanse og til uttalelistene vil det være behov for personer med fonetikkkompetanse (e.g. hovedfagsstudenter). 14

16 Aktivitetstype Antall årsverk A Programmering 1 B Utvikling av stavevarianter/basis 2 dialektvarianter C Utvikling av uttalebeskrivelse for navn, 2,5 1 årsverk pr ord D Kvalitetskontroll av eksisterende lister 0,5 E Utvikling av uttalebeskrivelse for dialekter 1 årsverk pr dialekt og målform 4 Vi anbefaler at aktivitetene A-D har høyeste prioritet. I aktivitet E forestiller vi oss at det velges standarduttale for sydlige Sør-Norge, Vestlandet, Trøndelag og Nord- Norge. Aktivitet E er satt opp som en ønskelig, men ikke-prioritert oppgave. 15

17 5. Forvaltning av nasjonalkorpuset Innsamling av språkdata er viktig og nødvendig. Det er imidlertid en forutsetning for effektiv utnyttelse av de innsamlede data at det er en klar og framtidsrettet politikk med hensyn på forvaltning, lisensering og eventuell videre utvikling av nasjonalkorpuset Lisensering En forutsetning for konseptet med et nasjonalt språkteknologisk korpus har vært at de innsamlede språkdata skal bli tilgjengelig for alle aktører innen språkteknologisk forskning og utvikling på den norskspråklige arena. Tilgjengelighet er imidlertid ikke synonymt med fritt tilgjengelig, og den politikk som velges for lisensering er av betydning både for de opphavsrettslige spørsmål såvel som for tilgang på eksisterende data og for hvor attraktivt det vil være å gjøre arbeid med datainnsamling. Lisenseringspolitikken vil ha to hovedelementer pris og eventuelle avgrensninger på bruken av databasen. Ulike alternativer vil kort bli diskutert under Pris En har en rekke muligheter for prissettingen av bruk av korpusmaterialet: 1. Gratis. Dette alternativet vil gi alle interessenter fri tilgang til det innsamlede korpusmaterialet. Alle kostnader, inklusive forvaltning, vedlikehold og distribusjon, vil bæres av den som finansierer selve innsamlingen. 2. Medlemsavgift. Med dette alternativet vil det bli fri tilgang til korpusmaterialet for de som betaler en årlig medlemsavgift. Nivået på medlemsavgiften kan være differensiert, dvs. at kommersielle medlemmer vil betale en vesentlig høyere medlemsavgift enn ikke-kommersielle aktører (som f.eks. universiteter). 3. Stykkpris. Dette alternativet innebærer at hver enkelt del av korpusmaterialet blir prissatt i henhold til produksjonskost og forventet nytteverdi. Leverandøren av datamaterialet vil ha sterk innflytelse på prissettingen i de tilfeller hvor datainnsamlingen er gjort helt eller delvis uten offentlig støtte. 4. Medlemsskap og stykkpris. Dette alternativet er en kombinasjon av alternativ 2 og 3. Medlemmer vil ha tilgang på en kopi av alt korpusmateriale som under punkt 2. Ikke-medlemmer vil kunne få tilgang på deler av materialet etter en stykkprisordning. Hvis en ser på hva som er gjort internasjonalt, er alternativ 4 det valget som er gjort både i USA og i Europa gjennom henholdsvis Linguistic Data Consortium og ELRA. Dette alternativet har klare fordeler gjennom at det er mulig å til en viss grad dekke inn kostnadene til en driftsorgansisasjon (og eventuelt også noe av grunnkostnadene). Prosjektgruppen vil anbefale dette alternativet Avgrensninger på bruk Det vil være nødvendig å ha klare retningslinjer og avtaler for bruken av de innsamlede språkdata. Dette er både på grunn av opphavsrettslige problemstillinger, 16

18 dataloven og av konkurransemessige hensyn. For tekstdata vil det for eksempel trolig være uproblematisk å bruke tekstene til å finne statistiske sammenhenger til bruk i talegjenkjenning. Det kan være større problemer forbundet med bruk av leksikalske data, som eventuelt kan gjenbrukes til å utgi ordbøker dersom det ikke settes begrensninger på bruken. Likeledes vil det kunne være kurant å tillate spesifikke språkdata brukt i akademisk forskning, mens de samme data ikke vil kunne tillates benyttet til kommersiell virksomhet. Vi vil ikke her gå gjennom alle mulig alternativer. Gjennom prosjektgruppens arbeid er det blitt klart at det mest realistiske alternativet er å følge de samme valg som er gjort internasjonalt i LDC og ELRA. Dette alternativet går i korte trekk ut på at det vil være spesielle brukslisenser for hver enkelt korpuskomponent. I tillegg vil lisensene for forskningsinstitusjoner og for kommersielle foretak generelt være ulike. Lisensavtalene er bygget opp over samme lest, med variasjoner for tilpasning til datainnhold og til eventuelle betingelser knyttet til innsamling og opprinnelig eier av databasen Forvaltning Forvaltningen av nasjonalkorpuset er tett knyttet til innsamling av eksisterende og nye data. Uten en god forvaltning av de innsamlede ressursene, vil den investeringen som gjøres være til liten nytte. Det vil også være en forutsetning for å kunne utnytte eksisterende data, og for å gjøre det attraktivt å bidra til å samle inn nye data, at det er en juridisk person med en forventet levedyktighet som får rett til å forvalte korpuset. Vi ser det derfor som meget ønskelig at forvaltningen av nasjonalkorpuset blir knyttet til en eksisterende institusjon. Prosjektgruppen vil anbefale at en går inn for en nasjonal forvaltning av det norske korpusmaterialet framfor å overdra de innsamlede data til internasjonale organisasjoner som ELRA (European Language Resource Association) eller LDC (Linguistic Data Consortium). Dette vil føre til at kontrollen med bruken av norske språkdata, som er samlet inn med nasjonal innsats og finansiering, forblir i Norge og at helhetssynet som er grunnleggende for et nasjonalkorpus beholdes. Dette vil ikke være til hinder for at man inngår avtaler med ELRA eller LDC om distribusjon av hele, eller deler av, databasen. Forvaltningen av nasjonalkorpuset vil omfatte funksjoner knyttet til administrasjon, strategi og vedlikehold/utvikling. Disse funksjonene kan kort beskrives slik: Administrasjon. De administrative funksjonene inkluderer distribusjon, arkivering, sekretærtjenester, økonomiforvaltning og juridiske tjenester. De juridiske tjenestene er primært knyttet til avtaleinngåelser og utforming av lisensavtaler. Det er av stor betydning at avtaler og lisenser blir utformet slik at rettstvister kan unngås. De administrative funksjonene må sikres en langsiktig grunnfinansiering, slik at levedyktigheten til nasjonalkorpuset sikres. Dette vil være en viktig premiss for at det skal være interessant å overdra eksisterende språkdata til nasjonalkorpuset. Strategi. I de strategiske funksjonene ligger oppfølging og justering av prioriteringslister for datainnsamling, kontakt med Forskningsråd og andre 17

19 finansieringskilder for realisering av moduler i nasjonalkorpuset og vurdering av forslag til nye moduler. Den strategiske funksjonen vil kunne ivaretas av et styre som har en sammensetning som representerer de ulike språkteknologiske interesser i Norge. Vedlikehold/utvikling. Vedlikehold og utvikling inkluderer blant annet oppdatering og dokumentasjon av modulene i nasjonalkorpuset, utvikling av programvare samt faglig kontroll og oppfølging av leverandører av språkdataressurser. Dette er oppgaver som må utføres av faglig kompetente miljøer. Dersom en nasjonal forvaltning velges, ser vi for oss noen alternative organisasjonsmodeller: 1. De administrative funksjonene legges organisatorisk til en eksisterende institusjon som allerede har et ansvar for norsk språk og språkdata, f.eks. Språkteknologisk sekretariat (Norsk språkråd) eller Nasjonalbiblioteket. Denne institusjonen blir eier av nasjonalkorpuset, og har en fast grunnfinansiering. Strategifunksjonene ivaretas av et styre som har sterk representasjon fra de nasjonale språkteknologiske FoU-miljøer. Arbeid med videreutvikling og vedlikehold legges til ett eller flere fagmiljøer, for eksempel ved universitetene. En interessant modell er å gi helhetsansvar for henholdsvis taledata, tekstdata og leksikalske ressurser til tunge fagmiljøer på de respektive områdene. 2. Som alternativ 1, men med en noe mer distribuert organisasjon. Administrativt og strategisk er organiseringen som over. Vedlikehold og distribusjon for individuelle korpusmoduler utføres på oppdrag for forvaltningsinstitusjonen. Oppdragene gis for hver enkelt modul. 3. Hele forvaltningen legges til ett av universitetene. Eierskap kan fortsatt være hos en sentral institusjon, eller hos en egen enhet ved vertsinstitusjonen. Uansett hvilket alternativ som velges, understrekes betydningen av at en sammenblanding mellom forvaltning og egeninteresser (kommersielle såvel som forskningsmessige) må unngås. Dette kan enklest unngås ved at det er et skille mellom de tre forvaltningsfunksjonene, og at det er en bred representasjon i styringsorganene. Prosjektgruppen har ikke foretatt noen omfattende undersøkelse for å finne aktuelle institusjoner som kan ta seg av forvaltningen av nasjonalkorpuset. Gjennom vårt arbeid har vi imidlertid registrert disse mulighetene: Norsk språkråd er i prinsippet interessert i å ta forvaltningsansvaret for et nasjonalkorpus. HIT-senteret ved UiB og har også uttrykt en slik interesse. HIT-senteret, NTNU og UiO kan være villige til å ta ansvar for vedlikehold og utvikling av henholdsvis tekst-, tale- og leksikondelen av nasjonalkorpuset. NST har også nevnt at et framtidig utdannings- og kompetansesenter innen språkteknologi på Voss kan tenkes å ta et slikt ansvar. For alles vedkommende er interessen avhengig av at nødvendige ressurser blir stilt til rådighet. Listen er ikke fullstendig, og det er trolig mulig å finne andre alternativer. 18

20 6. Finansiering og organisering av datainnsamling Norge ligger etter de fleste andre vestlige land med hensyn på innsamling av språkressurser. Den eksisterende språkteknologiske infrastruktur i Norge er kjennetegnet av at det eksisterer relativt lite data som er tilrettelagt for språkteknologiske anvendelser, og at det som eksisterer er samlet inn på ad hoc basis, dvs. at språkressursene utgjør en temmelig heterogen datasamling, både med hensyn på innhold, format og formål. Vi har imidlertid muligheten til å dra fordeler av å komme sent på banen. Hvis en ser på den datainnsamlingen som er blitt gjort internasjonalt, er også den preget av ad hoc hensyn. Et nasjonalt språkteknologisk korpus betinger en helhetstenkning som sikrer at de ulike innholdskomponenter tilsammen utgjør et fornuftig hele, og at har et gjennomtenkt og gjennomgående forhold til dataformater, organisering og innhold som sikrer at kost/nytteforholdet blir best mulig, også med tanke på korpusets levetid Organisering Prosjektgruppen er av det syn at en etablering av et nasjonalt språkteknologisk korpus best gjøres ved en modularisering av den store helheten som det endelige korpuset vil utgjøre. Hver enkelt modul i korpuset skal være en frittstående datasamling, som har et stort anvendelsesområde i kraft av seg selv, men som inngår som en naturlig komponent i helhetssynet som skal prege nasjonalkorpuset. Hvis en slik modulær oppbygning velges, vil det muliggjøre en gradvis, planmessig oppbygning av nasjonalkorpuset. Hver modul kan etableres separat, som egne prosjekter, og gjøres tilgjengelig etter hvert som de ferdigstilles. Innsamlingen kan derved foregå stegvis, etter en prioritert liste over komponenter, og det blir mulig å planlegge finansieringen av datainnsamlingen over en lengre periode. Det bør gjøres et arbeid overfor rettighetshaverne til eksisterende språkdata med tanke på å innlemme allerede eksisterende språkdata i nasjonalkorpuset. Som beskrevet i kapitlene om tale, tekst og leksikalske ressurser, er det allerede betydelige mengder med språkdata på norsk, og rettighetshaverne har i utgangspunktet stort sett stilt seg positive til å inngå avtaler om å gjøre disse språkdataene tilgjengelige for et nasjonalt korpus. For å gjøre det attraktivt for rettighetshaverne av eksisterende data, vil det være nødvendig å føre forhandlinger med så mange som mulig av disse rettighetshaverne på et tidlig tidspunkt. Det vil være lite attraktivt å gjøre egne data tilgjengelige dersom man ikke har noen sikkerhet for at det blir andre data tilgjengelig innen overskuelig framtid. Jo mer data det er mulig å få forhåndstilsagn eller foreløpige avtaler på, jo større mulighet blir det for å få tilgang på mer av de eksisterende data. Innsamling av nye data, eller tilrettelegging av eksisterende data, bør utføres på oppdrag fra det offentlige, f.eks. Forskningsrådet eller driftsorganisasjonen for Nasjonalkorpuset i henhold til en prioritert liste. Det bør være åpning for å komme 19

PLAN FOR ETABLERING AV NORSK SPRÅKBANK 15. august 2008. Utarbeidet av en arbeidsgruppe nedsatt av Språkrådet

PLAN FOR ETABLERING AV NORSK SPRÅKBANK 15. august 2008. Utarbeidet av en arbeidsgruppe nedsatt av Språkrådet PLAN FOR ETABLERING AV NORSK SPRÅKBANK 15. august 2008 Utarbeidet av en arbeidsgruppe nedsatt av Språkrådet Forord Regjeringa har i to stortingsmeldinger omtalt etablering av en norsk språkbank som det

Detaljer

SPRÅKRÅDET. REF. VÅR REF. DATO 2006/04040 KU/KU3 IE:kdp 200600064-4 TB 28.08.2006. Svar på KKDs brev av 29. mai 2006 om en norsk språkbank

SPRÅKRÅDET. REF. VÅR REF. DATO 2006/04040 KU/KU3 IE:kdp 200600064-4 TB 28.08.2006. Svar på KKDs brev av 29. mai 2006 om en norsk språkbank SPRÅKRÅDET Kultur- og kirkedepartementet Postboks 8030 Dep 0030 Oslo REF. VÅR REF. DATO 2006/04040 KU/KU3 IE:kdp 200600064-4 TB 28.08.2006 Svar på KKDs brev av 29. mai 2006 om en norsk språkbank Brevet

Detaljer

IT Funk-prosjektenes skjebne 1998 2004

IT Funk-prosjektenes skjebne 1998 2004 ARBEIDSNOTAT 38/2005 Anders Ekeland, Marianne Broch, Tor B. Hansen og Nils Solum IT Funk-prosjektenes skjebne 1998 2004 NIFU STEP Studier av innovasjon, forskning og utdanning Wergelandsveien 7, 0167 Oslo

Detaljer

Dokumentasjon av vitenskapelige publikasjoner

Dokumentasjon av vitenskapelige publikasjoner (UHR beklager at figurene ikke er synlige i nettversjonen, ta kontakt med Vidar Røeggen får å få tilsendt publikasjonen) Dokumentasjon av vitenskapelige publikasjoner Opprettelse av nasjonale registre

Detaljer

ecampus Norge en moderne infrastruktur for forskning, undervisning og formidling

ecampus Norge en moderne infrastruktur for forskning, undervisning og formidling ecampus Norge en moderne infrastruktur for forskning, undervisning og formidling Innhold Innledning 2 1. Visjon for høyere utdanning 3 2. Internasjonal utvikling 5 2.1 Trender innenfor høyere utdanning

Detaljer

Publikasjonsserie. fra. Norsk EDIPRO. Hefte 1. Versjon 3.0

Publikasjonsserie. fra. Norsk EDIPRO. Hefte 1. Versjon 3.0 Veiledning i bruk av EDIFACT i ELEKTRONISK SAMHANDLING Publikasjonsserie fra Norsk EDIPRO Hefte 1 En innføring i grunnleggende begreper og teknologier Versjon 3.0 Juni 1999 Forord Norsk veiledning i bruk

Detaljer

Innholdsfortegnelse. 1 Introduksjon 3 1.1 Innhold 3 1.2 Prosjektet Elektronisk strømmarked 3 1.3 Motivasjon 4 1.4 Hvorfor Internett?

Innholdsfortegnelse. 1 Introduksjon 3 1.1 Innhold 3 1.2 Prosjektet Elektronisk strømmarked 3 1.3 Motivasjon 4 1.4 Hvorfor Internett? 1 Introduksjon 3 1.1 Innhold 3 1.2 Prosjektet Elektronisk strømmarked 3 1.3 Motivasjon 4 1.4 Hvorfor Internett? 4 2 Sensa i det elektroniske markedet 5 2.1 Sensa Elektroniske Strømsenter 6 2.2 Kommunikasjon

Detaljer

Ni norske inkubatorer Midtveisgjennomgang av første pulje i SIVAs program

Ni norske inkubatorer Midtveisgjennomgang av første pulje i SIVAs program FoU-rapport nr. 6/2003 Ni norske inkubatorer Midtveisgjennomgang av første pulje i SIVAs program Per-Anders Havnes Tittel Forfattere Ni norske inkubatorer. Midtveisgjennomgang av første pulje i SIVAs program

Detaljer

Krav til universell utforming av nettsider Konsekvensvurdering av WCAG 2.0 AA

Krav til universell utforming av nettsider Konsekvensvurdering av WCAG 2.0 AA Krav til universell utforming av nettsider Konsekvensvurdering av WCAG 2.0 AA Innhold 1 Sammendrag... 1 2 Innledning...3 2.1 Bakgrunn... 3 2.2 Formål... 3 2.3 Oppgaveramme... 4 3 Grunnlagsmateriale og

Detaljer

Utkast til nasjonal metadatastrategi

Utkast til nasjonal metadatastrategi Utkast til nasjonal metadatastrategi Oppsummering Dette notatet presenterer et utkast til en nasjonal metadatastrategi. Strategien gir en overordnet beskrivelse av dagens situasjon, hvilke samfunnsmessige

Detaljer

Hvilke muligheter har regnskapsbyråer til å bli rådgivere i SMB-sektoren?

Hvilke muligheter har regnskapsbyråer til å bli rådgivere i SMB-sektoren? Hvilke muligheter har regnskapsbyråer til å bli rådgivere i SMB-sektoren? av Anita E. Tobiassen Paul N. Gooderham SNF-prosjekt nr. 6300: Økt verdiskapning i SMB-sektoren: styrking av påvirkningen fra autoriserte

Detaljer

Digitale læringsressurser og modeller for fleksibilisering ved HiG, HH og HiL

Digitale læringsressurser og modeller for fleksibilisering ved HiG, HH og HiL Sluttrapport for SAK-prosjekt: Digitale læringsressurser og modeller for fleksibilisering ved HiG, HH og HiL Versjon 1.1 17. januar 2012 Best før 2013 1 Innhold 1 Sammendag 4 2 Innledning 6 2.1 Deltakere

Detaljer

Forord. Kjersti Enger

Forord. Kjersti Enger Forord Etter et bedriftsbesøk hos Optimal as i desember 2000, og etter spørsmål fra Leif Nordahl, gav produksjonssjefen (Olav Engum) uttrykk for at de ønsket å kjøre et prosjekt om e-handel i samarbeid

Detaljer

Økt tilgang til norske forskningsresultater

Økt tilgang til norske forskningsresultater Økt tilgang til norske forskningsresultater Anbefalinger fra arbeidsgruppe oppnevnt av UHRs forskningsutvalg 30. januar 2009 1 Innhold: 0. Hovedpunkter...3 1. Innledning...5 1.2 UHRs innfallsvinkel...7

Detaljer

NR Norwegian Computing Center/Applied Research and Development

NR Norwegian Computing Center/Applied Research and Development Evaluering av datastøttet samarbeid Globalt Vindu i Posten Teori, metodikk og resultater NR Norwegian Computing Center/Applied Research and Development Norsk Regnesentral ANVENDT DATAFORSKNING RAPPORT/REPORT

Detaljer

FORNUFTIG BRUK AV KONSULENTTJENESTER?

FORNUFTIG BRUK AV KONSULENTTJENESTER? NEDRE ROMERIKE DISTRIKTSREVISJON REVISJONSRAPPORT FORNUFTIG BRUK AV KONSULENTTJENESTER? SKEDSMO KOMMUNE Januar 2005 Utført av Nina Neset FORNUFTIG BRUK AV KONSULENTTJENESTER? INNHOLD SAMMENDRAG, SAMLET

Detaljer

Fra bruk til gjenbruk

Fra bruk til gjenbruk Tilrådinger fra interdepartemental arbeidsgruppe Fra bruk til gjenbruk Gjennomføring av direktiv 2003/98/EF om gjenbruk av den offentlige sektors informasjon og supplerende forslag Overlevert Arbeids-

Detaljer

THE NORWEGIAN LANGUAGE IN THE DIGITAL AGE NORSK I DEN DIGITALE TIDSALDEREN BOKMÅLSVERSJON

THE NORWEGIAN LANGUAGE IN THE DIGITAL AGE NORSK I DEN DIGITALE TIDSALDEREN BOKMÅLSVERSJON White Paper Series Hvitbokserie THE NORWEGIAN LANGUAGE IN THE DIGITAL AGE NORSK I DEN DIGITALE TIDSALDEREN BOKMÅLSVERSJON Koenraad De Smedt Gunn Inger Lyse Anje Müller Gjesdal Gyri S. Losnegaard White

Detaljer

FORORD. Kristiansand, 1. desember 2011. Espen Fosse Prosjektleder

FORORD. Kristiansand, 1. desember 2011. Espen Fosse Prosjektleder FORORD Universitetet i Agder (UiA) har arbeidet med temaet «Digital eksamen» i flere år. Denne prosjektrapporten skiller seg ut fra det øvrige arbeidet ved å favne bredere og mer overordnet. Målet har

Detaljer

Grunnleggende teleforskning

Grunnleggende teleforskning Teknologi alle kan bruke (SPODIS) Neste generasjon internett (ENNCE) Trådløst bredbånd krever kunnskap (WIRAC) Grunnleggende teleforskning Plug-and-Play kan gi enklere datahverdag Sluttrapport 2002 Kryptonøkkeldistribusjon

Detaljer

KOMPETANSE FOR INNOVASJON?

KOMPETANSE FOR INNOVASJON? ØF-rapport nr 08/2004 KOMPETANSE FOR INNOVASJON? Evaluering av prosjektet Kompetanseutvikling for innovasjon i små og mellomstore utkantbedrifter Av Jorid Vaagland Tittel: Forfatter: KOMPETANSE FOR INNOVASJON?

Detaljer

Behov for vitenskapelig utstyr, databaser, samlinger av vitenskapelig materiale og annen infrastruktur

Behov for vitenskapelig utstyr, databaser, samlinger av vitenskapelig materiale og annen infrastruktur 1 Behov for vitenskapelig utstyr, databaser, samlinger av vitenskapelig materiale og annen infrastruktur Delprosjekt 1: Databaser, registre, samlinger Delprosjekt 2: Avansert vitenskapelig utstyr Delprosjekt

Detaljer

FoU N 91/2000. Gjermund Hartviksen og Eivind Rinde. Nettsentrisk pasientinformasjon

FoU N 91/2000. Gjermund Hartviksen og Eivind Rinde. Nettsentrisk pasientinformasjon FoU N 91/2000 Gjermund Hartviksen og Eivind Rinde Nettsentrisk pasientinformasjon Tittel FoU Notat 91/2000 Nettsentrisk pasientinformasjon ISBN ISSN 0809-1021 Prosjekt nr BH0101 Program Bransjeløsninger

Detaljer

Norsk medietidsskrifts overgang til digital publisering og open access (OA)

Norsk medietidsskrifts overgang til digital publisering og open access (OA) 2013 Norsk medietidsskrifts overgang til digital publisering og open access (OA) Utredning Finansiert av NML og NFR Innholdsfortegnelse 1 Sammenfatning... 3 2 Innledning... 4 2.1 Premisser... 5 2.2 Om

Detaljer

KONSEKVENSER FOR FORVALTNINGEN AV PETROLEUMSFONDET DERSOM SPESIELLE MILJØHENSYN BLIR LAGT TIL GRUNN VED VALG AV INVESTERINGSSTRATEGI

KONSEKVENSER FOR FORVALTNINGEN AV PETROLEUMSFONDET DERSOM SPESIELLE MILJØHENSYN BLIR LAGT TIL GRUNN VED VALG AV INVESTERINGSSTRATEGI KONSEKVENSER FOR FORVALTNINGEN AV PETROLEUMSFONDET DERSOM SPESIELLE MILJØHENSYN BLIR LAGT TIL GRUNN VED VALG AV INVESTERINGSSTRATEGI Brev fra Norges Bank til Finansdepartementet 16. mars 1999 1. Innledning

Detaljer

Rapport fra Forprosjekt Harmonisering av IKT Infrastruktur og drift

Rapport fra Forprosjekt Harmonisering av IKT Infrastruktur og drift Tittel: Rapport fra Forprosjekt Harmonisering av IKT Infrastruktur og drift Side 1 av 48 Side 2 av 48 Innholdsfortegnelse 1 SAMMENDRAG... 6 2 BAKGRUNN... 8 3 PROSJEKTMANDAT... 8 3.1 FORPROSJEKTETS HOVEDMÅL

Detaljer

Innst. S. nr. 313. (2008 2009) Innstilling til Stortinget fra familie- og kulturkomiteen. St.meld. nr. 24 (2008 2009)

Innst. S. nr. 313. (2008 2009) Innstilling til Stortinget fra familie- og kulturkomiteen. St.meld. nr. 24 (2008 2009) Innst. S. nr. 313 (2008 2009) Innstilling til Stortinget fra familie- og kulturkomiteen St.meld. nr. 24 (2008 2009) Innstilling fra familie- og kulturkomiteen om Nasjonal strategi for digital bevaring

Detaljer

Trond Lossius, Mayra Henriquez og Aashild Grana ESCAPE. Foreløpig rapport fra forprosjekt ang. etablering av kompetansesenter for flyktig kunst

Trond Lossius, Mayra Henriquez og Aashild Grana ESCAPE. Foreløpig rapport fra forprosjekt ang. etablering av kompetansesenter for flyktig kunst Trond Lossius, Mayra Henriquez og Aashild Grana ESCAPE Foreløpig rapport fra forprosjekt ang. etablering av kompetansesenter for flyktig kunst BEK - Bergen senter for elektronisk kunst 26. februar 2008

Detaljer

Forord 3. II. IKT som fag i norsk høyere utdanning 12 1. INNLEDNING 13 2. AVGRENSNINGER OG ANVENDELSE AV IKT SOM FAG 18

Forord 3. II. IKT som fag i norsk høyere utdanning 12 1. INNLEDNING 13 2. AVGRENSNINGER OG ANVENDELSE AV IKT SOM FAG 18 Forord 3 I. Sammendrag og anbefalinger 4 A. Sammendrag 5 B. Anbefalinger 7 II. IKT som fag i norsk høyere utdanning 12 1. INNLEDNING 13 1.1 Mandat og arbeidsmåte 13 1.2 Utredningsgruppens sammensetning

Detaljer

IMDi-rapport 8-2008. Hva koster norsken? Kostnader i syv kommuner til norskopplæring for voksne innvandrere.

IMDi-rapport 8-2008. Hva koster norsken? Kostnader i syv kommuner til norskopplæring for voksne innvandrere. IMDi-rapport 8-2008 Hva koster norsken? Kostnader i syv kommuner til norskopplæring for voksne innvandrere. Visjon Like muligheter og like levekår i et flerkulturelt samfunn Foto: Christian Roth Christensen/IMDi

Detaljer