Utredning om et nasjonalt korpus for språkteknologi

Save this PDF as:
 WORD  PNG  TXT  JPG

Størrelse: px
Begynne med side:

Download "Utredning om et nasjonalt korpus for språkteknologi"

Transkript

1 Rapport Tittel: Forfattere: Norsk språkbank Utredning om et nasjonalt korpus for språkteknologi Torbjørn Svendsen, Institutt for teleteknikk, NTNU Magne H. Johnsen, Institutt for teleteknikk, NTNU Knut Hofland, HIT-senteret, UiB Christian-Emil Ore, Dokumentasjonsprosjektets etterorg., UiO Dato: 3. september, 1999 Tilgjengelighet: Åpen Antall sider: 53 Sammendrag: Denne rapporten gir en framstilling av resultatene fra prosjektet Nasjonalt korpus for språkteknologi forprosjekt. Prosjektet er utført av NTNU, Universitetet i Bergen, Universitetet i Oslo, Telenor FoU, SINTEF Tele og data og Nordisk Språkteknologi. Konsortiet har arrangert to seminarer med deltakere fra øvrige norske FoU-miljøer innen språkteknologi og språkvitenskap og fra brukermiljøer. Innspillene fra disse informasjonsinnhentings- og høringsrundene, samt en grunnleggende enighet blant konsortiepartnerne gjør at vi anser at hovedlinjene i rapporten har bred støtte i det norske FoU-miljøet. Det foreslås etablert et nasjonalt korpus for språkteknologi, som skal være en felles ressurs for språkteknologisk forskning og utvikling. En kartlegging av eksisterende språkteknologiske ressurser for norsk, viser at selv om det eksisterer en ikke ubetydelig mengde av data, må det en betydelig innsats til for å få etablert en norsk språkteknologisk korpus som er tjenelig for moderne språkteknologisk forskning og utvikling for norsk språk. Rapporten framlegger en liste over eksisterende språkdata for norsk, og fremmer en prioritert liste over suppleringer til de eksisterende språkdata. Rettighetshaverne av de eksisterende språkdata er i prinsippet positive til å forhandle om å innlemme disse dataene i et nasjonalt korpus. Rapporten diskuterer også forvaltning, organisering og finansiering av et nasjonalkorpus. Det foreslås at det etableres en nasjonal forvaltning av de innsamlede data, og at tilgang til nasjonalkorpuset baseres på medlemsskap og evt. stykkpris for ikke-medlemmer. Lisenseringsbetingelser bør avhenge av innhold og tiltenkt bruk av innsamlede data. Det foreslås at nasjonalkorpuset organiseres i moduler, og at innsamling gjøres på modul-nivå, som prosjekter. Datainnsamlingen bør i hovedsak være offentlig finansiert. Tre Stikkord: Språkteknologi Språkdata Nasjonal ressurs Prosjektleder: Professor Torbjørn Svendsen, NTNU

2 Innhold 0. Konklusjon Innledning Taledatabaser i et nasjonalt korpus Tekstkorpus Anvendelser av et tekstkorpus Omfang og mengde Eksisterende materiale Moduler og prioriteringer Kostnader Hva kan en ønske av leksikalske ressurser Leksikalsk database Analyseverktøy mot korpus Mulige leverandører Ressursbehov Forvaltning av nasjonalkorpuset Lisensering Pris Avgrensninger på bruk Forvaltning Finansiering og organisering av datainnsamling Organisering Finansiering...20 Vedlegg...21 A Taledatabaser...21 A1 Talegjenkjenning og syntese...21 A2 Ulike talebaserte anvendelser...22 A3 Aktører innen talebasert språkteknologi for norsk...24 A4 Eksisterende taledatabaser for norsk...25 A5 Prioritert liste over taledatabaser i Nasjonalt Korpus...27 A6 Database - formater og - standarder...29 A7 Arbeids - og kostnads - estimater...30 A8 Relevante web-adresser...33 B Tekstkorpus...34 B1 Anvendelser av et korpus...34 B2 Oppbygging av et norsk korpus...34 B.2.1 Oppbygging og distribusjon av internasjonale korpus...34 B.2.2 Opphavsrett B.2.3 Omfang og teksttyper...37 B.2.4 Tekstkoding...38 B.2.5 Distribusjon og søking...39 B3 Eksisterende materiale...40 B4 Moduler og prioriteringer...42 B5 Kostnader...42 B6 Vedlegg

3 Eksempeltekst fra Informasjon fra Utenriksdepartementet Eksempel på søkeresultater...47 C Oversikt over leksikalske ressurser og mulige leverandører...49 C1 Hva kan en ønske av leksikalske ressurser?...49 C.1.1 Leksikalsk database...49 C.1.2 Analyseverktøy mot korpus...49 C2 Eksisterende ressurser og mulige leverandører...50 C.2.1 Data til leksikalske databaser...50 C.2.2 Analyseverktøy mot korpus...52 C3 Ressursbehov

4 0. Konklusjon Språk er en forutsetning for samfunnet vårt. Mennesker bruker språket til å kommunisere med hverandre gjennom tale og tekst, og i stadig økende grad til å kommunisere med maskiner. Språket er i tillegg en viktig kulturbærer, og spiller stor rolle for vår oppfattelse av identitet og tilhørighet. Språkteknologien er et hjelpemiddel til å forenkle og forbedre kommunikasjonen mennesker imellom og til å gjøre grensesnittet mellom menneske og maskin enklere, og mer naturlig. Eksempler er automatisk talegjenkjenning og syntetisk tale, maskinoversettelse og hjelpemidler til skrivestøtte. Språkteknologien er spesielt viktig for mange grupper av funksjonshemmede, som f.eks. blinde og hørselshemmede, bevegelseshemmede og dyslektikere. Betydningen av språkteknologien i morgendagens samfunn er blitt understreket av mange. Microsofts Bill Gates har gjentatte ganger understreket den sentrale rollen taleteknologien vil ha framover, ikke bare som et sentralt element i Windows. At språkteknologi og norskspråklig programvare vil ha betydning for norsk næringsutvikling er understreket blant annet i Næringsrettet IT-plan for perioden Språkteknologien er av natur språkavhengig, og dette innebærer at det er et betydelig utviklingsarbeid forbundet med utviklingen av språkteknologiske produkter og tjenester for alle språk. En forutsetning for en slik utvikling er tilgangen på tilstrekkelige mengder med språkdata. En prosjektgruppe bestående av fagpersoner fra NTNU, Universitetene i Oslo og Bergen, Sintef Tele og data, Telenor FoU og Nordisk Språkteknologi har utredet behov, organisering og finansiering av en samling av språkdata for norsk språk, et Nasjonalt korpus for språkteknologi. Prosjektgruppen har konsultert det øvrige språkteknologiske og språkvitenskapelige miljø i Norge, samt potensielle brukere av data og resultater i dette arbeidet. Det har vært stor enighet om hovedkonklusjonene. Det er derfor et samlet fagmiljø som står bak anbefalingene i denne rapporten, som kort er oppsummert nedenunder. Innhold: Et nasjonalt korpus for språkteknologi skal inneholde taledata, tekstdata og leksikalske ressurser. Både nynorsk og bokmål skal inkluderes, og det må være et dekkende utvalg av dialekter. Modularitet: Det anbefales at korpuset bygges opp som en samling av moduler. Hver modul vil ha en egenverdi, og skal kunne benyttes som en selvstendig ressurs, men vil inngå i en planmessig helhet. Modulariteten vil gjøre det mulig med en trinnvis oppbygning av nasjonalkorpuset. Hver modul realiseres som et eget prosjekt, og gjøres tilgjengelig etter hvert som de ferdigstilles. Dette muliggjør at ulike finansieringskilder kan utnyttes. Prioriteringslister: Det er foretatt en kartlegging av eksisterende og framtidige behov for språkdata hos aktørene innen språkteknologisk FoU. Ut fra kartleggingen er det utarbeidet prioriteringslister for realisering av korpusmoduler. Listene skal legges til grunn for rekkefølge i arbeidet med datainnsamling. Prioriteringsrekkefølgen 3

5 reflekterer det samlede behov, og enkeltaktører vil kunne ha avvikende prioriteringsønsker på kort sikt. I tabellene nedenunder er prioriteringslistene for moduler av de ulike datatypene angitt. Antatte kostnader er angitt i årsverk. Det understrekes at anslagene på årsverk er omtrentlige. Prioritet Type Talestil Formål Behov (timer) Årsverk forsker Årsverk andre 1 Romkvalitet Manuskript Diktering, modeller Telefon Manuskript Modeller Mobiltlf. Manuskript Modeller Tlf. i bil Manuskript Diverse Telefon Spontan Diktering Romkvalitet Manuskript Prosodi/ 5 5½ 3 Lydbibliotek 7 Telefon Spontan Dialog Telefon Manuskript Emnesøk 15 ½ 1 9 Audio Spontan Emnesøk 15 ½ 1 Tabell 1. Prioriteringsliste for taledata. Tabellen forutsetter at eksisterende taledata vil bli gjort tilgjengelig for nasjonalkorpuset, og angir det utfyllende behovet. Prioritet Bearbeiding Teksttyper Årsverk bokmål Årsverk nynorsk 1 Basal Sakprosa, småtrykk, 4 6 upublisert materiale 2 Basal Aviser og media, 4 6 skjønnlitteratur 3 Utvidet tekstkoding og Sakprosa, småtrykk, 3 3 kontroll upublisert materiale 3 Utvidet tekstkoding og Aviser og media, 3 3 kontroll skjønnlitteratur 4 Tagget Alle 2,5 3 Tabell 2. Prioriteringsliste for tekstdata. Det endelige sluttproduktet vil bli et tagget tekstkorpus på 100 millioner ord for hver målform. I anslagene over årsverk vil fordelingen mellom fagpersoner på forskernivå og annen assistanse være om lag 50/50. 4

6 Prioritet Aktivitetstype Antall årsverk 1 Utvikling av stavevarianter/basis 2,5 dialektvarianter 2 Utvikling av uttalebeskrivelse for navn, 3 1 årsverk pr ord 3 Kvalitetskontroll av eksisterende lister 0,5 4 Utvikling av uttalebeskrivelse for dialekter 4 1 årsverk pr dialekt og målform Tabell 3. Prioriteringsliste for leksikalske ressurser. Om lag 2/3 av årsverkene vil være på forskernivå. Forvaltning. Det anbefales at nasjonalkorpuset forvaltes nasjonalt. Forvaltningsorganisasjonen må være en juridisk person som kan forestå avtaleinngåelse, og bør være knyttet til en institusjon med lang forventet levetid. En forvaltningsorganisasjon vil stå som eier av korpuset, og vil måtte ta seg av administrative og strategiske funksjoner i tillegg til vedlikehold og videreutvikling. De tre hovedfunksjonene kan gjerne deles mellom ulike institusjoner, slik at man unngår sammenblanding av forvalterrolle og egne forskningsmessige eller kommersielle interesser. Et mulig scenario er å legge de administrative oppgavene til en offentlig instans som allerede har et ansvar for norsk språk, la et bredt sammensatt styre ivareta strategiske funksjoner, og å la ansvar for vedlikehold og utvikling bli utført av faglig kompetente institusjoner, for eksempel ved universitetene. Lisensering. Nasjonalkorpuset skal være tilgjengelig for alle aktører innen norsk språkteknologisk FoU. Pris på tilgangen bør være differensiert, avhengig av tiltenkt bruk og av type virksomhet. Det anbefales at det brukes en modell med medlemsskap og stykkpris. Medlemmer får for sin årlige kontingent tilgang til alle moduler som tilkommer nasjonalkorpuset i et år, ikke-medlemmer kan kjøpe tilgang til enkeltmoduler i henhold til en prisliste. Det må utarbeides lisensavtaler for hver enkelt modul, slik at rettstvister med hensyn på bruk og spredning unngås. Finansiering. Finansiering av nasjonalt språkteknologisk korpus bør etter prosjektgruppens mening i hovedsak være offentlig. Graden av offentlig finansiering kan variere, f.eks. kan det være tenkelig å kreve høyere egenfinansiering for moduler som foreslås innsamlet utenfor normal prioriteringsrekkefølge. Finansieringskilder for de ulike modulene kan variere, og kan være avhengig av tiltenkt bruksområde. Forvaltningen av nasjonalkorpuset vil fordre at det avsettes langsiktig finansiering til utføring av de administrative forvaltningsfunksjonene. 5

7 1. Innledning Nasjonalt korpus for språkteknologi er et forprosjekt som er utført for Norges Forskningsråd av NTNU, Universitetet i Oslo, Universitetet i Bergen, Sintef Tele og data, Telenor FoU og Nordisk språkteknologi. Prosjektets formål er å komme med anbefalinger til innhold, omfang og organisering av en språkteknologisk database som skal være en nasjonal ressurs for forskning og utvikling av språkteknologi. Språkteknologi er både basert på tale (f.eks. automatisk talegjenkjenning, syntetisk tale, identitetsbestemmelse basert på stemmegjenkjenning, talekompresjon for effektiv overføring og lagring) og tekst (f.eks. teknikker for skrivestøtte, som staveog grammatikkontroll og stilistisk støtte, maskinoversettelse og teksttolkning). Språkteknologien vil kunne forenkle bruk av datamaskiner generelt, og det vil ha stor språkpolitisk betydning at det eksisterer norske versjoner. Språkteknologiske hjelpemidler har spesielt stor betydning for mennesker med spesielle behov, som f.eks. blinde, hørselshemmede, bevegelseshemmede og mennesker med lese- og skrivevansker. Språkteknologien er av natur språkavhengig. Det betyr at det er et betydelig utviklingsarbeid forbundet med utviklingen av språkteknologiske produkter og tjenester for alle språk. Skal vi ha norskspråklige produkter, er det nødvendig med et større arbeid for å utvikle disse, som forutsetter både teknologisk og lingvistisk kompetanse. Moderne språkteknologi er i høy grad avhengig av tilgang på store mengder språkdata, og tilgang på norske språkdata er en forutsetning for norske språkteknologiske produkter. Innsamling av språkdata er kostbart, og det norske markedet er lite. Internasjonalt er store mengder språkdata blitt samlet inn, stort sett med betydelig grad av offentlig finansiering, også for de store språkene. Siden utviklingskostnadene for språkteknologien er tilnærmet de samme for alle språk, vil framtida til norsk språkteknologi være avhengig av offentlige tilskudd, spesielt til innsamling av språkdata. Det vil da være en effektiv utnyttelse av offentlige ressurser å samle språkdata til et nasjonalt korpus, som vil være tilgjengelig for alle aktører innen språkteknologisk FoU, framfor å gi tilskudd til enkeltstående produktutvikling. Både når det gjelder forskningsmidler og språkdata ligger Norge etter land vi naturlig sammenligner oss med. De fleste vesteuropeiske land, samt USA og Japan har etablert større språkdatabaser. Også våre skandinaviske naboer, Danmark og Sverige, ligger langt foran oss i innsamling av språkdata. Utvikling av språkteknologi for norsk har sterke koblinger til offisielle språk- og kulturpolitiske mål. I St.meld. nr. 13 ( ) finner vi i kap. 3.4, Elektroniske språkverktøy i høve til dei nasjonale språkpolitiske måla denne generelle målformuleringen: Målet er å kunne gi både nynorsk- og bokmålsbrukarane gode reiskaper til støtte for språkbehandling og å tilby relevante informasjonstenester o.a. på begge målformer. Innstillingen fra familie-, kultur- og administrasjonskomitéen (Innst. S. nr. 174, ) har dette utsagnet fra flertallet: Det vil lett kunna bli 6

8 slik at dersom ikkje staten tek den kulturpolitiske styringa når det gjeld språk og IT, vil tilfeldige programvareutviklarar kunna leggja føringar på utviklinga av norsk språk. Og til slutt, i Næringsrettet IT-plan for perioden fra Nærings- og handelsdepartementet heter det: Å sikre flerspråklighet i fremveksten av det nye informasjonssamfunnet er viktig, ikke bare for å erobre markedene, men også for å sikre overlevelsesevnen for verdens mange språk, og ikke minst norsk. Dette krever utvikling av språkverktøy/-metoder som gjør oss i stand til å kommunisere på norsk, og selge norske multimedia produkter internasjonalt.... Norskspråklig programutvikling og norskprodusert multimedia etableres som satseområde. Norges Forskningsråd har igangsatt et forprosjekt som har hatt som formål å foreslå retningslinjer for et nasjonalt korpus for språkteknologi. Korpuset vil inneholde taledata, tekstdata og leksikalske ressurser. Korpusinnholdet skal være av generisk natur, dvs. at det vil være språkdata som har stor allmenn interesse for språkteknologisk forskning og utvikling som skal inkluderes, og at det vil bli lagt stor vekt på gjenbruksaspekter. Av de spørsmål forprosjektet har tatt sikte på å avklare er: Hva slags data er det behov for å inkludere Hvor store mengder av hver datatype er nødvendig? Hvilke standarder for innsamling og organisering av dataene bør følges? Hva kan inkluderes av eksisterende data? Hvilke opphavsrettslige forhold må avklares, og hvordan? Forvaltning, lisensbetingelser og videreutvikling av databasen? Forprosjektet er blitt gjennomført i perioden desember 1998 til august Både teknologi og marked synes modent for norske språkteknologiske produkter, og det er ønskelig å starte arbeidet med innsamling av data snarest, dvs. høsten 1999 eller vinteren Rapporten gir først en oversikt over kartlagte behov for språkdata av ulike typer (tale, tekst, leksikalske ressurser). Her vil man finne en oversikt over mengde og type av eksisterende data, og prioriterte lister over hva som gjenstår å samle inn. Utfyllende opplysninger er lagt til vedlegg. Deretter diskuteres spørsmål om forvaltning av et nasjonalt korpus for språkteknologi, samt finansiering og organisering av nasjonalkorpuset. Rapporten forutsetter likestilling mellom nynorsk og bokmål, og språkdata på de to målformene bør samles inn parallelt. 7

9 2. Taledatabaser i et nasjonalt korpus Utvikling av talebaserte språkteknologi-produkter er i utgangspunktet helt avhengig av tilgang til store taledatabaser. Taledatabasene brukes hovedsakelig til å designe de to viktigste grunnmodulene i slike produkter, nemlig talegjenkjenning og talesyntese. Blant de anvendelser/produkter som en ser som viktigst pr. i dag kan en nevne: Diktering (gjenkjenning) Kommandostyring, navigering (gjenkjenning) E-postlesing (syntese) og generering (gjenkjenning) Taleproteser (gjenkjenning, syntese) Mobiltelefon i bil (gjenkjenning) Telefonbaserte dialogsystemer (gjenkjenning, syntese) Emnesøk i digitale multimedia-arkiver (gjenkjenning) Etter konsultasjoner med norske kommersielle aktører og universiteter, samt forespørsler till utenlandske kommersielle aktører, har en kommet fram til en prioritert liste over nødvendige taledatabaser som bør inngå i et nasjonalt korpus. En del av disse databasene forekommer allerede på norsk, men langt fra i den kvantitet som er nødvendig. Tabellen nedenfor gir et estimat av behovene i prioritert rekkefølge. En vil sterkt påpeke at det angitte antall årsverk er kun veiledende. PRIOR. KVALITET OPPTAK FORMÅL TOTALT BEHOV (TIMER) FINNES (TIMER) GJEN- STÅR (TIMER) ÅRS- VERK FAGLIG ÅRS- VERK UKVAL. 1 Rom- Manuskript Diktering, kvalitet modeller 2 Telefon Manuskript Modeller Mobiltlf. Manuskript Modeller Tlf. i bil Manuskript Diverse Telefon Spontan Diktering Romkvalitet Manuskript Prosodi/ 5 ½ ½ 5 5½ 3 lydbibliotek 7 Telefon Spontan Dialog Telefon Manuskript Emnesøk ½ 1 9 Audio Spontan Emnesøk ½ 1 Sum årsverk Under FORMÅL skiller en mellom anvendelser (diktering, emnesøk), design (av akustiske modeller, lydbibliotek), analyse (prosodi, dialogstrukturer) og diverse (både anvendelser og modeller). 8

10 Under ÅRSVERK skiller en mellom faglig kvalifisert arbeidskraft (typisk universitets-utdannelse innen språkteknologi) og ukvalifisert arbeidskraft (studenter, timebaserte ansatte etc.). I vedlegget vil man finne et estimat av tilsvarende kostnader forbundet med de enkelte databasene. En vil til slutt sterkt påpeke behovet for å følge standarder gitt av internasjonalt kjente og mye brukte databaser/database-produsenter (SpeechDat, Linguistic Data Corporation, ELRA) samt anbefalinger fra internasjonale komiteer som EAGLES. En mer detaljert beskrivelse av behov for norske taledatabaser er gitt i vedlegg A. 9

11 3. Tekstkorpus 3.1. Anvendelser av et tekstkorpus Et stort tekstkorpus vil være en helt basal ressurs for utvikling av språkteknologiske produkter. Metoder for talegjenkjenning krever bl. a. statistiske språkmodeller, for å lage slike kreves store tekstmengder. De fleste språkteknologiske produkter har behov for elektroniske ordbøker eller leksikalske databaser. Med et stort tekstkorpus kan en foreta kontroll av et allerede eksisterende leksikon med hensyn til kvalitet og dekning, og en kan tilpasse og utvide ordforrådet slik språket avtegner seg i praktisk bruk gjennom korpuset. Et stort tekstkorpus er også helt nødvendig for å kunne utvikle formelle grammatikker. Ordene i korpuset må da være grammatisk merket (tagget). Formelle grammatikker brukes av analyse- og genereringsprogrammer, som for eksempel programmer for grammatikkontroll, innholdstolking, maskinoversetting og automatisk sammendrag av tekst. Resultatene fra statistisk bearbeiding av et stort korpus vil også kunne brukes til å forbedre systemer for dokumentsøk og søkemotorer for Internett. Et tekstkorpus vil selvsagt også være en verdifull ressurs i den generelle språkforskningen. En må ikke undervurdere behovet for mer langsiktig grunnforskning. Det er fremdeles mange grunnleggende og teknologiske relevante forhold om språk og språks formaliserbarhet som ikke er utforsket Omfang og mengde For at en statistisk språkmodell skal være pålitelig, må den være basert på minimum 100 millioner ord for hver målform, både for bokmål og for nynorsk. For leksikalske studier av ord som forekommer sjelden, vil selv 100 millioner ord være i minste laget. Det må være en viss spredning mht. moderat og radikalt bokmål, konservativt og radikalt nynorsk og dialekt. Tekstene bør også ha god spredning etter forfatters hjemsted, kjønn og alder og tekstene bør være beregnet på ulike aldersgrupper. Tekstene må være av nyere dato, men bør helst være spredd over minst 5-10 år. Også oversatte tekster må inkluderes. Innhenting av bokmål- og nynorsktekster bør om mulig foregå parallelt. Tekstene må dekke et bredt spekter av teksttyper. Etter innhenting av spesifikasjoner fra brukere og opplysninger om hvordan sammenlignbare utenlandske korpus som British National Corpus (BNC) er bygd opp, vil følgende hovedkategorier måtte inngå (med angivelse av omtrentlig fordeling mellom hovedkategoriene): A: Aviser, media (25 %) B: Skjønnlitteratur (25 %) C: Sakprosa (45 %) D: Upublisert materiale, småtrykk (5 %) 10

12 Fordelingen av tekster etter teksttyper og alder vil bli noe ulik for bokmål og nynorsk pga. mindre tilfang av nynorsktekster innen noen av undergruppene. Hele korpuset bør være grammatisk merket (tagget). Minimum ord og helst 1 million ord bør være manuelt kontrollert. I eksisterende korpus brukes tekstutsnitt fra 2000 ord til ord fra hver tekst. Lange tekstutsnitt gir færre tekster å administrere, mens kortere tekstutsnitt gir større bredde i utvalget. Et omfang på ca ord gir en passe avveining mellom disse ytterpunktene. Dette gir 5000 tekstutsnitt for et korpus på 100 millioner ord. Materialet merkes (kodes) etter anbefalingene fra Text Encoding Initiative (TEI). Det betyr at hver tekst har en innledende del med opplysninger om tittel, forfatter, trykkested og -år. Denne delen kan suppleres med ytterligere opplysninger om forfatter og emneklassifikasjon av tekst. I tekstene kan en ha ulik detaljeringsnivå på markering av avsnitt, kapittel, overskrifter, fet og kursiv skrift etc Eksisterende materiale Ved universitetene i Oslo og Bergen og ved SINTEF finnes det en del tekstmateriale. For å kunne innlemme dette i et nasjonalt korpus, må bruksavtalene for materialet reforhandles. Materialet har ulik koding og må konverteres til et felles format. En del av materialet må tilføres ekstra merking slik at alle tekstene får et definert minimum av koding og tilleggsopplysninger. Totalt kan en bruke ca. 20 millioner ord av det eksisterende materialet. Flere forlag har også allerede signalisert at de kan bidra med materiale Moduler og prioriteringer Oppbyggingen av korpuset kan deles inn i moduler etter tekstkategori og bearbeidingsgrad. En kan tenke seg følgende arbeidsmoduler: Modul M1: Modul M2: Modul M3: Utvalg av tekster, konvertering av maskinleselig tekst/ocr-skanning, minimum at tekstkoding, programmering Ekstra tekstkoding og kontroll Automatisk tagging, manuell kontroll av tagging på en del av materialet De eksisterende tekstene er i hovedsak fra kategori A og B med noe fra C. Prioriteringen av tekstkategorier vil dermed bli i rekkefølge D, C, B og A for modul M1. For Modul M2 og M3 vil prioriteringen mellom kategoriene være lik. 11

13 3.5. Kostnader Følgende veiledende estimat på arbeidstid er basert på et prosjekt over 3 år og et automatisk tagget korpus på 100 millioner ord (5000 tekster á ord) hvor 1 million ord er manuelt kontrollert og hvor 5 % av tekstene er manuelt OCR-skannet (15 % for nynorsk). For modul M2 regner vi med 2 timer behandling pr. tekst à ord. Estimatet på tagging er basert på at en har en ferdig tagger tilgjengelig (Oslo taggeren el. lignende). For nynorsk vil det kunne bli aktuelt å gjøre noe ekstra arbeid med taggeren. Årsverk brutt ned etter moduler og teksttyper: Prioritet Arbeidsmodul Teksttyper Bokmål Nynorsk 1 M1 C+D M1 A+B M2 C+D M2 A+B M3 A+B+C+D 2,5 3 Totalt 16,5 21 Ca. halvparten av årsverkene vil være ikke-forsker/programmerer-årsverk (assistent). 12

14 4. Hva kan en ønske av leksikalske ressurser Korpusprosjektets hovedmål er å skaffe til veie store mengder tekst og transkribert tale med lydopptak for å utvikle ulike språkteknologiske verktøy og produkter. Leksikalske ressurser som ordbøker, ordlister, tesaurer og morfo-syntaktiske analyseprogram forutsetter ideelt eksistensen av et korpus. Det kan derfor virke noe selvmotsigende å snakke om leksikalske ressurser som skal leveres sammen med et korpus. De nevnte leksikalske ressursene er imidlertid en forutsetning for å kunne få størst mulig nytte av det innsamlede tekst- og talemateriale. Det er dermed tale om en gjensidig avhengighet for å utvikle både korpus og leksikalske ressurser. Mye av de basale leksikalske ressursene er allerede på plass for både bokmål og nynorsk. Det finnes ordlister med systemer for fullformsgenerering og uttalemarkering samt morfo-syntaktiske analyseprogrammer. I tillegg er det mulig å fremskaffe omfattende lister over person-, steds-, og firma-navn. Det er gjort en del for å spesifisere verbs argumentstruktur og noe med stilistisk merking. Det er imidlertid gjort lite på området dialekt- og ortografiske tesaurer, emnespesifikke semantiske tesaurer. Korpusprosjektet er tenkt slik at det i tillegg til de rent tekstlige og lydlige ressursene, skal etableres en samling med leksikalske ressurser av ulike slag. Det er satt opp en oversikt over de ulike ressursene en kan tenke seg. Oversikten er satt opp med basis i hva som finnes, og hva det er kommet ønsker om fra ulike institusjoner og firma Leksikalsk database Den leksikalske databasen vil bestå av følgende komponenter: 1) Basale ordlister (allmennord, termer, navn etc.) med muligheter for fullformsproduksjon 2) Utaleleksikon 3) Dialekt- og rettskrivings-tesaurer 4) Emne-tesaurer Analyseverktøy mot korpus Til bearbeiding av råmaterialet som inngår i korpuset, er det behov for automatiske analyseverktøy: 1) Morfosyntaktiske analyse og markeringsprogrammer (taggere) 2) Avanserte søke og analyse-verktøy til bruk mot korpuset 13

15 4.2. Mulige leverandører Det finnes en rekke mulige leverandører. For almennord med fullformsystemer er det universitetene og Lingsoft som har de største ressursene. Lingsoft vil ikke stille sitt materiale til disposisjon annet gjennom det å merke (tagge) de løpende ordene i tekstene. En kan likevel si at det er svært god dekning for ordlistesystemer for almennord. Det er også god dekning for personnavn, stedsnavn og firmanavn registrert i Norge. For utenlandske navn har vi ikke tatt med noen leverandører. Men Kunnskapsforlaget har gjennom sine leksikon og atlasdatabaser svært god dekning også her. Navnelister er ikke en absolutt nødvendighet i et korpusprosjekt, men særlig Telenor har bedt om at det blir utviklet navnelister med kvalitetskontrollert utalebeskrivelse. Utviklingen av slike lister er derfor prioritert. Det er gjort lite eller intet i forbindelse med rettskrivnings- og dialekttesaurer. Alle interessentene i korpusprosjektet har behov for gode verktøy for å kunne standardisere ulike realiseringer av lemma. Vi har derfor prioritert dette. Med emnespesifikke tesaurer tenker vi her på synonym-ordlister og hierarkier innen ulike fagdisipliner som medisin, jus, teknologiske disipliner etc. Det nærmeste en kommer emnespesifikke semantiske tesaurer, er de tradisjonelle synonymordbøkene. IBM-utviklet riktignok elektroniske synonymordbøker på 1980-tallet. Utviklingen av emmnespesifikke tesaurer er svært kostbart og må oppdateres kontinuerlig. De må som navnet tilsier lages spesifikt for hvert enkelt fagområde. Det er lite realistisk å forestille seg en total semantisk tesaurus for et helt språk. Tesaurene er imidlertid helt nødvendig for å lage avanserte språkorienterte kontorstøtte- og søkesystemer for ulike profesjoner. Vi antar at Norsk termbank og Rådet for teknisk terminologi bør engasjeres i den fortløpende utviklingen av slike tesaurer. Grunnet de store kostnadene og de svært spesifikke anvendelsesområdene har vi valgt å ikke ta disse med i den listen av verkøy som vi foreslår skal utvikles i regi av et nasjonalt korpusprosjekt Ressursbehov For de leksikalske databasene er det behov for noe programmeringskompetanse. Ut over denne vil det til ordlisten være behov for personer med leksikografisk kompetanse og til uttalelistene vil det være behov for personer med fonetikkkompetanse (e.g. hovedfagsstudenter). 14

16 Aktivitetstype Antall årsverk A Programmering 1 B Utvikling av stavevarianter/basis 2 dialektvarianter C Utvikling av uttalebeskrivelse for navn, 2,5 1 årsverk pr ord D Kvalitetskontroll av eksisterende lister 0,5 E Utvikling av uttalebeskrivelse for dialekter 1 årsverk pr dialekt og målform 4 Vi anbefaler at aktivitetene A-D har høyeste prioritet. I aktivitet E forestiller vi oss at det velges standarduttale for sydlige Sør-Norge, Vestlandet, Trøndelag og Nord- Norge. Aktivitet E er satt opp som en ønskelig, men ikke-prioritert oppgave. 15

17 5. Forvaltning av nasjonalkorpuset Innsamling av språkdata er viktig og nødvendig. Det er imidlertid en forutsetning for effektiv utnyttelse av de innsamlede data at det er en klar og framtidsrettet politikk med hensyn på forvaltning, lisensering og eventuell videre utvikling av nasjonalkorpuset Lisensering En forutsetning for konseptet med et nasjonalt språkteknologisk korpus har vært at de innsamlede språkdata skal bli tilgjengelig for alle aktører innen språkteknologisk forskning og utvikling på den norskspråklige arena. Tilgjengelighet er imidlertid ikke synonymt med fritt tilgjengelig, og den politikk som velges for lisensering er av betydning både for de opphavsrettslige spørsmål såvel som for tilgang på eksisterende data og for hvor attraktivt det vil være å gjøre arbeid med datainnsamling. Lisenseringspolitikken vil ha to hovedelementer pris og eventuelle avgrensninger på bruken av databasen. Ulike alternativer vil kort bli diskutert under Pris En har en rekke muligheter for prissettingen av bruk av korpusmaterialet: 1. Gratis. Dette alternativet vil gi alle interessenter fri tilgang til det innsamlede korpusmaterialet. Alle kostnader, inklusive forvaltning, vedlikehold og distribusjon, vil bæres av den som finansierer selve innsamlingen. 2. Medlemsavgift. Med dette alternativet vil det bli fri tilgang til korpusmaterialet for de som betaler en årlig medlemsavgift. Nivået på medlemsavgiften kan være differensiert, dvs. at kommersielle medlemmer vil betale en vesentlig høyere medlemsavgift enn ikke-kommersielle aktører (som f.eks. universiteter). 3. Stykkpris. Dette alternativet innebærer at hver enkelt del av korpusmaterialet blir prissatt i henhold til produksjonskost og forventet nytteverdi. Leverandøren av datamaterialet vil ha sterk innflytelse på prissettingen i de tilfeller hvor datainnsamlingen er gjort helt eller delvis uten offentlig støtte. 4. Medlemsskap og stykkpris. Dette alternativet er en kombinasjon av alternativ 2 og 3. Medlemmer vil ha tilgang på en kopi av alt korpusmateriale som under punkt 2. Ikke-medlemmer vil kunne få tilgang på deler av materialet etter en stykkprisordning. Hvis en ser på hva som er gjort internasjonalt, er alternativ 4 det valget som er gjort både i USA og i Europa gjennom henholdsvis Linguistic Data Consortium og ELRA. Dette alternativet har klare fordeler gjennom at det er mulig å til en viss grad dekke inn kostnadene til en driftsorgansisasjon (og eventuelt også noe av grunnkostnadene). Prosjektgruppen vil anbefale dette alternativet Avgrensninger på bruk Det vil være nødvendig å ha klare retningslinjer og avtaler for bruken av de innsamlede språkdata. Dette er både på grunn av opphavsrettslige problemstillinger, 16

18 dataloven og av konkurransemessige hensyn. For tekstdata vil det for eksempel trolig være uproblematisk å bruke tekstene til å finne statistiske sammenhenger til bruk i talegjenkjenning. Det kan være større problemer forbundet med bruk av leksikalske data, som eventuelt kan gjenbrukes til å utgi ordbøker dersom det ikke settes begrensninger på bruken. Likeledes vil det kunne være kurant å tillate spesifikke språkdata brukt i akademisk forskning, mens de samme data ikke vil kunne tillates benyttet til kommersiell virksomhet. Vi vil ikke her gå gjennom alle mulig alternativer. Gjennom prosjektgruppens arbeid er det blitt klart at det mest realistiske alternativet er å følge de samme valg som er gjort internasjonalt i LDC og ELRA. Dette alternativet går i korte trekk ut på at det vil være spesielle brukslisenser for hver enkelt korpuskomponent. I tillegg vil lisensene for forskningsinstitusjoner og for kommersielle foretak generelt være ulike. Lisensavtalene er bygget opp over samme lest, med variasjoner for tilpasning til datainnhold og til eventuelle betingelser knyttet til innsamling og opprinnelig eier av databasen Forvaltning Forvaltningen av nasjonalkorpuset er tett knyttet til innsamling av eksisterende og nye data. Uten en god forvaltning av de innsamlede ressursene, vil den investeringen som gjøres være til liten nytte. Det vil også være en forutsetning for å kunne utnytte eksisterende data, og for å gjøre det attraktivt å bidra til å samle inn nye data, at det er en juridisk person med en forventet levedyktighet som får rett til å forvalte korpuset. Vi ser det derfor som meget ønskelig at forvaltningen av nasjonalkorpuset blir knyttet til en eksisterende institusjon. Prosjektgruppen vil anbefale at en går inn for en nasjonal forvaltning av det norske korpusmaterialet framfor å overdra de innsamlede data til internasjonale organisasjoner som ELRA (European Language Resource Association) eller LDC (Linguistic Data Consortium). Dette vil føre til at kontrollen med bruken av norske språkdata, som er samlet inn med nasjonal innsats og finansiering, forblir i Norge og at helhetssynet som er grunnleggende for et nasjonalkorpus beholdes. Dette vil ikke være til hinder for at man inngår avtaler med ELRA eller LDC om distribusjon av hele, eller deler av, databasen. Forvaltningen av nasjonalkorpuset vil omfatte funksjoner knyttet til administrasjon, strategi og vedlikehold/utvikling. Disse funksjonene kan kort beskrives slik: Administrasjon. De administrative funksjonene inkluderer distribusjon, arkivering, sekretærtjenester, økonomiforvaltning og juridiske tjenester. De juridiske tjenestene er primært knyttet til avtaleinngåelser og utforming av lisensavtaler. Det er av stor betydning at avtaler og lisenser blir utformet slik at rettstvister kan unngås. De administrative funksjonene må sikres en langsiktig grunnfinansiering, slik at levedyktigheten til nasjonalkorpuset sikres. Dette vil være en viktig premiss for at det skal være interessant å overdra eksisterende språkdata til nasjonalkorpuset. Strategi. I de strategiske funksjonene ligger oppfølging og justering av prioriteringslister for datainnsamling, kontakt med Forskningsråd og andre 17

19 finansieringskilder for realisering av moduler i nasjonalkorpuset og vurdering av forslag til nye moduler. Den strategiske funksjonen vil kunne ivaretas av et styre som har en sammensetning som representerer de ulike språkteknologiske interesser i Norge. Vedlikehold/utvikling. Vedlikehold og utvikling inkluderer blant annet oppdatering og dokumentasjon av modulene i nasjonalkorpuset, utvikling av programvare samt faglig kontroll og oppfølging av leverandører av språkdataressurser. Dette er oppgaver som må utføres av faglig kompetente miljøer. Dersom en nasjonal forvaltning velges, ser vi for oss noen alternative organisasjonsmodeller: 1. De administrative funksjonene legges organisatorisk til en eksisterende institusjon som allerede har et ansvar for norsk språk og språkdata, f.eks. Språkteknologisk sekretariat (Norsk språkråd) eller Nasjonalbiblioteket. Denne institusjonen blir eier av nasjonalkorpuset, og har en fast grunnfinansiering. Strategifunksjonene ivaretas av et styre som har sterk representasjon fra de nasjonale språkteknologiske FoU-miljøer. Arbeid med videreutvikling og vedlikehold legges til ett eller flere fagmiljøer, for eksempel ved universitetene. En interessant modell er å gi helhetsansvar for henholdsvis taledata, tekstdata og leksikalske ressurser til tunge fagmiljøer på de respektive områdene. 2. Som alternativ 1, men med en noe mer distribuert organisasjon. Administrativt og strategisk er organiseringen som over. Vedlikehold og distribusjon for individuelle korpusmoduler utføres på oppdrag for forvaltningsinstitusjonen. Oppdragene gis for hver enkelt modul. 3. Hele forvaltningen legges til ett av universitetene. Eierskap kan fortsatt være hos en sentral institusjon, eller hos en egen enhet ved vertsinstitusjonen. Uansett hvilket alternativ som velges, understrekes betydningen av at en sammenblanding mellom forvaltning og egeninteresser (kommersielle såvel som forskningsmessige) må unngås. Dette kan enklest unngås ved at det er et skille mellom de tre forvaltningsfunksjonene, og at det er en bred representasjon i styringsorganene. Prosjektgruppen har ikke foretatt noen omfattende undersøkelse for å finne aktuelle institusjoner som kan ta seg av forvaltningen av nasjonalkorpuset. Gjennom vårt arbeid har vi imidlertid registrert disse mulighetene: Norsk språkråd er i prinsippet interessert i å ta forvaltningsansvaret for et nasjonalkorpus. HIT-senteret ved UiB og har også uttrykt en slik interesse. HIT-senteret, NTNU og UiO kan være villige til å ta ansvar for vedlikehold og utvikling av henholdsvis tekst-, tale- og leksikondelen av nasjonalkorpuset. NST har også nevnt at et framtidig utdannings- og kompetansesenter innen språkteknologi på Voss kan tenkes å ta et slikt ansvar. For alles vedkommende er interessen avhengig av at nødvendige ressurser blir stilt til rådighet. Listen er ikke fullstendig, og det er trolig mulig å finne andre alternativer. 18

20 6. Finansiering og organisering av datainnsamling Norge ligger etter de fleste andre vestlige land med hensyn på innsamling av språkressurser. Den eksisterende språkteknologiske infrastruktur i Norge er kjennetegnet av at det eksisterer relativt lite data som er tilrettelagt for språkteknologiske anvendelser, og at det som eksisterer er samlet inn på ad hoc basis, dvs. at språkressursene utgjør en temmelig heterogen datasamling, både med hensyn på innhold, format og formål. Vi har imidlertid muligheten til å dra fordeler av å komme sent på banen. Hvis en ser på den datainnsamlingen som er blitt gjort internasjonalt, er også den preget av ad hoc hensyn. Et nasjonalt språkteknologisk korpus betinger en helhetstenkning som sikrer at de ulike innholdskomponenter tilsammen utgjør et fornuftig hele, og at har et gjennomtenkt og gjennomgående forhold til dataformater, organisering og innhold som sikrer at kost/nytteforholdet blir best mulig, også med tanke på korpusets levetid Organisering Prosjektgruppen er av det syn at en etablering av et nasjonalt språkteknologisk korpus best gjøres ved en modularisering av den store helheten som det endelige korpuset vil utgjøre. Hver enkelt modul i korpuset skal være en frittstående datasamling, som har et stort anvendelsesområde i kraft av seg selv, men som inngår som en naturlig komponent i helhetssynet som skal prege nasjonalkorpuset. Hvis en slik modulær oppbygning velges, vil det muliggjøre en gradvis, planmessig oppbygning av nasjonalkorpuset. Hver modul kan etableres separat, som egne prosjekter, og gjøres tilgjengelig etter hvert som de ferdigstilles. Innsamlingen kan derved foregå stegvis, etter en prioritert liste over komponenter, og det blir mulig å planlegge finansieringen av datainnsamlingen over en lengre periode. Det bør gjøres et arbeid overfor rettighetshaverne til eksisterende språkdata med tanke på å innlemme allerede eksisterende språkdata i nasjonalkorpuset. Som beskrevet i kapitlene om tale, tekst og leksikalske ressurser, er det allerede betydelige mengder med språkdata på norsk, og rettighetshaverne har i utgangspunktet stort sett stilt seg positive til å inngå avtaler om å gjøre disse språkdataene tilgjengelige for et nasjonalt korpus. For å gjøre det attraktivt for rettighetshaverne av eksisterende data, vil det være nødvendig å føre forhandlinger med så mange som mulig av disse rettighetshaverne på et tidlig tidspunkt. Det vil være lite attraktivt å gjøre egne data tilgjengelige dersom man ikke har noen sikkerhet for at det blir andre data tilgjengelig innen overskuelig framtid. Jo mer data det er mulig å få forhåndstilsagn eller foreløpige avtaler på, jo større mulighet blir det for å få tilgang på mer av de eksisterende data. Innsamling av nye data, eller tilrettelegging av eksisterende data, bør utføres på oppdrag fra det offentlige, f.eks. Forskningsrådet eller driftsorganisasjonen for Nasjonalkorpuset i henhold til en prioritert liste. Det bør være åpning for å komme 19

NORSK SPRÅKRÅD. REF. VÅR REF. DATO 2003/1372 ME/MEI CBU:elt 200300096-2 OH 25.6.03 HØRING VEDRØRENDE ENDRINGER I ÅNDSVERKLOVEN

NORSK SPRÅKRÅD. REF. VÅR REF. DATO 2003/1372 ME/MEI CBU:elt 200300096-2 OH 25.6.03 HØRING VEDRØRENDE ENDRINGER I ÅNDSVERKLOVEN NORSK SPRÅKRÅD Kultur- og kirkedepartementet Postboks 8030 Dep 0030 OSLO REF. VÅR REF. DATO 2003/1372 ME/MEI CBU:elt 200300096-2 OH 25.6.03 Brevet sendes også elektronisk til: asap@kkd.dep.no HØRING VEDRØRENDE

Detaljer

Hva er det med tale? Forskningsutfordringer og aktiviteter innen taleteknolog. Torbjørn Svendsen NTNU

Hva er det med tale? Forskningsutfordringer og aktiviteter innen taleteknolog. Torbjørn Svendsen NTNU Hva er det med tale? Forskningsutfordringer og aktiviteter innen taleteknolog Torbjørn Svendsen NTNU 1 Maskiner er ikke like flinke som mennesker I hvert fall ikke når det gjelder språk Gjenkjenne tale

Detaljer

SAFERS: Speech Analytics For Emergency Response Services. Pierre Lison, Norsk Regnesentral

SAFERS: Speech Analytics For Emergency Response Services. Pierre Lison, Norsk Regnesentral www.nr.no SAFERS: Speech Analytics For Emergency Response Services Kan taleteknologi og maskinlæring brukes for å effektivisere nødmeldetjenester? Pierre Lison, Norsk Regnesentral IKT-Forum, 27.09.2017

Detaljer

Prosjekt Tale gjenkjenning på Nor sk. Et Inkluderende arbeidsliv med talegjenkjenning

Prosjekt Tale gjenkjenning på Nor sk. Et Inkluderende arbeidsliv med talegjenkjenning Prosjekt Tale gjenkjenning på Nor sk Et Inkluderende arbeidsliv med talegjenkjenning Prosjekt i regi av NAV Deltakere : Bengt Kjellså, InfoShare Solutions AS Daniel Scheidegger, NAV Kompetansesenter for

Detaljer

På vei mot en generell norsk tesaurus (Ref #7de4b4e5)

På vei mot en generell norsk tesaurus (Ref #7de4b4e5) På vei mot en generell norsk tesaurus (Ref #7de4b4e5) Søknadssum: 1 772 500 Varighet: Treårig Kategori: Innsatsområder Samarbeid og partnerskap Nasjonalbibliotekets digitale tjenester som grunnlag for

Detaljer

NO-CLARIN fra et UiO-HF-perspektiv. Janne Bondi Johannessen Nasjonalt møte om CLARIN, Nasjonalbiblioteket, 18.juni 2010

NO-CLARIN fra et UiO-HF-perspektiv. Janne Bondi Johannessen Nasjonalt møte om CLARIN, Nasjonalbiblioteket, 18.juni 2010 NO-CLARIN fra et UiO-HF-perspektiv Janne Bondi Johannessen Nasjonalt møte om CLARIN, Nasjonalbiblioteket, 18.juni 2010 Noen utfordringer om hva som finnes Antall ressurser Innholdet i ressursene Type ressurser

Detaljer

Fonema 1 - Metodeutvikling for naturtro norsk talesyntese

Fonema 1 - Metodeutvikling for naturtro norsk talesyntese Prosjektforslag: Fonema 1 - Metodeutvikling for naturtro norsk talesyntese Jon Emil Natvig elenor FoU 1) (gr. Fonema: lyd av stemme, tale) Motivasjon Norsk talesyntese Ikke god nok i dag Internasjonal

Detaljer

BIRD - Administrasjon av forskningsdata (Ref #2219b941)

BIRD - Administrasjon av forskningsdata (Ref #2219b941) BIRD - Administrasjon av forskningsdata (Ref #2219b941) Søknadssum: 1 000 000 Varighet: Toårig Kategori: Innsatsområder Samarbeid og partnerskap Opplysninger om søker Organisasjonsnavn / nr Handelshøyskolen

Detaljer

Norges første kunstige barnestemme. Torbjørn Nordgård Lingit AS Universitetet i Nordland

Norges første kunstige barnestemme. Torbjørn Nordgård Lingit AS Universitetet i Nordland Norges første kunstige barnestemme Torbjørn Nordgård Lingit AS Universitetet i Nordland Hvorfor barnestemmer? Viktigste motivasjon er funksjonshemmede som er avhengig av talesyntese i sin kommunikasjon

Detaljer

Årsplan engelsk fordypning 2015/2016

Årsplan engelsk fordypning 2015/2016 Årsplan engelsk fordypning 015/016 Fag Kode Klasse Skoleår Faglærer Engelsk 10 015/016 Lisa R. Nilsen fordypning Læreverk: On the Move 3 + kopier, hefter, bøker, aviser, IKT, bibliotek og filmer Tema/Emner:

Detaljer

Årsplan engelsk fordypning 2014/2015

Årsplan engelsk fordypning 2014/2015 Årsplan engelsk fordypning 014/015 Fag Kode Klasse Skoleår Faglærer Engelsk 9 014/015 Lisa R. Nilsen fordypning Læreverk: On the Move + kopier, hefter, bøker, aviser, IKT, bibliotek og filmer Tema/Emner:

Detaljer

Språkbankens sommerseminar Om språkteknologiens muligheter i Forskningsrådet. Avdelingsdirektør Jon Holm 6. juni 2011

Språkbankens sommerseminar Om språkteknologiens muligheter i Forskningsrådet. Avdelingsdirektør Jon Holm 6. juni 2011 Språkbankens sommerseminar Om språkteknologiens muligheter i Forskningsrådet Avdelingsdirektør Jon Holm 6. juni 2011 Norges forskningsråd vitenskap energi, ressurser og miljø Adm.dir. Stab samfunn og helse

Detaljer

Læreplan i norsk - kompetansemål

Læreplan i norsk - kompetansemål ROSSELAND SKOLE LÆREPLAN I NORSK 6. TRINN Årstimetallet i faget: 133 Songdalen for livskvalitet Læreplan i norsk - kompetansemål Kompetansemål etter 7. årstrinn Muntlig kommunikasjon Hovedområdet muntlig

Detaljer

PLAN FOR ETABLERING AV NORSK SPRÅKBANK 15. august 2008. Utarbeidet av en arbeidsgruppe nedsatt av Språkrådet

PLAN FOR ETABLERING AV NORSK SPRÅKBANK 15. august 2008. Utarbeidet av en arbeidsgruppe nedsatt av Språkrådet PLAN FOR ETABLERING AV NORSK SPRÅKBANK 15. august 2008 Utarbeidet av en arbeidsgruppe nedsatt av Språkrådet Forord Regjeringa har i to stortingsmeldinger omtalt etablering av en norsk språkbank som det

Detaljer

Årsplan engelsk fordypning 2016/2017

Årsplan engelsk fordypning 2016/2017 Årsplan engelsk fordypning 016/017 Fag Kode Klasse Skoleår Faglærer Engelsk fordypning 8 016/017 Sondre Rue Læreverk: On the Move + kopier, hefter, bøker, aviser, IKT, bibliotek og filmer Tema/Emner: «Let

Detaljer

Åpne data. NTNUs politikk for åpne forskningsdata

Åpne data. NTNUs politikk for åpne forskningsdata Åpne data NTNUs politikk for åpne forskningsdata UTKAST, Forskningsutvalget 9. juni 2017 Bakgrunn Tilgjengeliggjøring og gjenbruk av forskningsdata bidrar til økt etterprøvbarhet og transparens i vitenskapen,

Detaljer

Strategi Samarbeidstiltaket og systemet FS (Felles studentsystem)

Strategi Samarbeidstiltaket og systemet FS (Felles studentsystem) Strategi Samarbeidstiltaket og systemet FS (Felles studentsystem) Versjon 10. juni 2013 1 Bakgrunn Samarbeidstiltaket FS er et samarbeid mellom norske universiteter og høgskoler med ansvar for å videreutvikle

Detaljer

Formål og hovedinnhold norsk Grünerløkka skole

Formål og hovedinnhold norsk Grünerløkka skole Formål og hovedinnhold norsk Grünerløkka skole Revidert høst 2016 1 Formål Norsk er et sentralt fag for kulturforståelse, kommunikasjon, dannelse og identitetsutvikling. Gjennom aktiv bruk av det norske

Detaljer

Årsplan norsk fordypning 2015/2016

Årsplan norsk fordypning 2015/2016 Årsplan norsk fordypning 015/016 Fag Kode Klasse Skoleår Faglærer Norsk 10 015/016 Hege B. Knudsen fordypning Læreverk: Kontekst fordypning i norsk + kopier, hefter, bøker, aviser, IKT, bibliotek og filmer

Detaljer

Årsplan Norsk 2014 2015

Årsplan Norsk 2014 2015 Årsplan Norsk 2014 2015 Årstrinn: Lærere: 9.årstrinn Anniken Løvdal, Lena Veimoen, Siri Wergeland Maria S. Grün, Hanne Marie Haagensen Kompetansemål Tidspunkt Tema/Innhold Lærestoff Arbeidsmåter Vurdering

Detaljer

Årsplan norsk fordypning 2017/2018

Årsplan norsk fordypning 2017/2018 Årsplan norsk fordypning 017/018 Fag Kode Klasse Skoleår Faglærer Norsk 10 017/018 Hanne Holm fordypning Læreverk: Kontekst fordypning i norsk + kopier, hefter, bøker, aviser, IKT, bibliotek og filmer

Detaljer

Årsplan i norsk 9. trinn Lærere: Lena, Julie, Lasse

Årsplan i norsk 9. trinn Lærere: Lena, Julie, Lasse Årsplan i norsk 9. trinn 2016-2017 Lærere: Lena, Julie, Lasse Kompetansemål Mål for opplæringen er at elevene skal kunne: Muntlig kommunikasjon 1. Samtale om form, innhold og formål i litteratur, teater

Detaljer

nettbasert produksjon og distribusjon av lydbøker

nettbasert produksjon og distribusjon av lydbøker nettbasert produksjon og distribusjon av lydbøker Formater i PipeOnline DAISY (Digital Accessible Information System) er en veletablert internasjonal standard for strukturering av digitale lydbøker. Standarden

Detaljer

Norsk revidert januar Arbeidsgruppe

Norsk revidert januar Arbeidsgruppe Norsk revidert januar 01 Arbeidsgruppe Caroline A. Bullen Jorunn Andersen Gunn Arnøy Tastarustå skole Tastarustå skole Tastaveden skole 1 Muntlig kommunikasjon Kompetansemål Kompetansenivå Kjennetegn på

Detaljer

Vitskaplege samlingar. Åse Wetås, Norsk Ordbok 2014 Ope seminar om Språkbanken, 17.6.10

Vitskaplege samlingar. Åse Wetås, Norsk Ordbok 2014 Ope seminar om Språkbanken, 17.6.10 Vitskaplege samlingar Åse Wetås, Norsk Ordbok 2014 Ope seminar om Språkbanken, 17.6.10 Språkbanken sett frå språksamlingane Språksamlingane ved Institutt for lingvistiske og nordiske studium (ILN) Kva

Detaljer

ecampus Norge en moderne infrastruktur for forskning, undervisning og formidling

ecampus Norge en moderne infrastruktur for forskning, undervisning og formidling Idé, design og trykk: Tapir Uttrykk Nasjonalt sertifikat: 1660 Grafisk design og trykk: Tapir Uttrykk Nasjonalt sertifikat: 1660 Produksjon: Tapir Uttrykk Nasjonalt sertifikat: 1660 Tapir Uttrykk Nasjonalt

Detaljer

ifinger med tegnspråk Sluttrapport

ifinger med tegnspråk Sluttrapport ifinger med tegnspråk Sluttrapport 1 Forord Prosjektet er finansiert av Extrastiftelsen gjennom Norges Døveforbund. Det er Statped læringsressurser og teknologiutvikling som har hatt hovedansvaret for

Detaljer

Årsplan engelsk fordypning 2017/2018

Årsplan engelsk fordypning 2017/2018 Årsplan engelsk fordypning 017/018 Fag Kode Klasse Skoleår Faglærer Engelsk 9 017/018 Hege B. Knudsen fordypning Læreverk: On the Move + kopier, hefter, bøker, aviser, IKT, bibliotek og filmer Tema/Emner:

Detaljer

ROSSELAND SKOLE LÆREPLAN I NORSK 7. TRINN

ROSSELAND SKOLE LÆREPLAN I NORSK 7. TRINN ROSSELAND SKOLE LÆREPLAN I NORSK 7. TRINN Songdalen for livskvalitet Årstimetallet i faget: 152 Generell del av læreplanen, grunnleggende ferdigheter og prinsipper for opplæringen er innarbeidet i planen

Detaljer

Mapping mot norsk webdewey (Ref #684d0eaa)

Mapping mot norsk webdewey (Ref #684d0eaa) Mapping mot norsk webdewey (Ref #684d0eaa) Søknadssum: 2 086 000 Varighet: Toårig Kategori: Innsatsområder Nasjonalbibliotekets digitale tjenester som grunnlag for nye tilbud Opplysninger om søker Organisasjonsnavn

Detaljer

Taleteknologi. Torbjørn Svendsen Institutt for elektronikk og telekommunikasjon NTNU. Taleteknologi - introduksjon Professor Torbjørn Svendsen, NTNU 1

Taleteknologi. Torbjørn Svendsen Institutt for elektronikk og telekommunikasjon NTNU. Taleteknologi - introduksjon Professor Torbjørn Svendsen, NTNU 1 Taleteknologi Torbjørn Svendsen Institutt for elektronikk og telekommunikasjon NTNU Taleteknologi - introduksjon Professor Torbjørn Svendsen, NTNU 1 Taleteknologi - introduksjon Professor Torbjørn Svendsen,

Detaljer

Årsplan Norsk 2015 2016 Årstrinn: 6. årstrinn Lærere: Anlaug Laugerud, Renate Nagel Dahl og Hanna Guldhaug

Årsplan Norsk 2015 2016 Årstrinn: 6. årstrinn Lærere: Anlaug Laugerud, Renate Nagel Dahl og Hanna Guldhaug Årsplan Norsk 2015 2016 Årstrinn: 6. årstrinn Lærere: Anlaug Laugerud, Renate Nagel Dahl og Hanna Guldhaug Akersveien 4, 0177 OSLO Tlf: 23 29 25 00 Kompetansemål Tidspunkt Tema/Innhold Lærestoff Arbeidsmåter

Detaljer

Bibliotek- og arkivfaglig støtte Karin Rydving Universitetsbiblioteket i Bergen

Bibliotek- og arkivfaglig støtte Karin Rydving Universitetsbiblioteket i Bergen U N I V E R S I T E T E T I B E R G E N Universitetsbiblioteket Bibliotek- og arkivfaglig støtte Karin Rydving Universitetsbiblioteket i Bergen Universitetsbiblioteket Universitetsbiblioteket i Bergen

Detaljer

Kulturutredningen høringsuttalelse fra Språkrådet

Kulturutredningen høringsuttalelse fra Språkrådet Fra: Arnfinn Muruvik Vonen [mailto:arnfinn.muruvik.vonen@sprakradet.no] Sendt: 1. juli 2013 23:51 Til: Postmottak KUD Emne: Kulturutredningen 2014 - høringsuttalelse fra Språkrådet Kulturdepartementet

Detaljer

ELCOM deltagerprosjekt: Elektronisk strømmarked. Siri A. M. Jensen, NR. Oslo Energi, 3.desember 1996. Epost: Siri.Jensen@nr.no.

ELCOM deltagerprosjekt: Elektronisk strømmarked. Siri A. M. Jensen, NR. Oslo Energi, 3.desember 1996. Epost: Siri.Jensen@nr.no. ELCOM deltagerprosjekt: Elektronisk strømmarked Siri A. M. Jensen, NR Oslo Energi, 3.desember 1996 1 Hva gjøres av FoU innenfor Elektronisk handel og markedsplass? Elektronisk handel -> Information Highway

Detaljer

FORSLAG TIL ÅRSPLAN 8. TRINN (ukenumre og ferier varierer fra skoleår til skoleår og må justeres årlig)

FORSLAG TIL ÅRSPLAN 8. TRINN (ukenumre og ferier varierer fra skoleår til skoleår og må justeres årlig) FORSLAG TIL ÅRSPLAN 8. TRINN (ukenumre og ferier varierer fra skoleår til skoleår og må justeres årlig) I tillegg til lærebøkene som er nevnt i selve årsplanen, kan en også bruke følgende titler: Kontekst

Detaljer

UNIVERSITETS BIBLIOTEKET I BERGEN

UNIVERSITETS BIBLIOTEKET I BERGEN UNIVERSITETS BIBLIOTEKET I BERGEN STRATEGI 2016 2022 // UNIVERSITETET I BERGEN STRATEGI 2016 2022 UNIVERSITETSBIBLIOTEKET I BERGEN 3 INNLEDNING Universitetsbiblioteket i Bergen (UB) er et offentlig vitenskapelig

Detaljer

Løpende hovedinnhold og trekke ut relevant kommunikasjon. Les side Kort sagt side 41. informasjon i muntlige tekster

Løpende hovedinnhold og trekke ut relevant kommunikasjon. Les side Kort sagt side 41. informasjon i muntlige tekster Kommunikasjon Hvorfor vi skriver - hensikt Uke [1] Lytte til, oppsummere Jeg forstår hva som kjennetegner god KURS 1.1 KOMMUNIKASJON Løpende hovedinnhold og trekke ut relevant kommunikasjon. Les side 10-13

Detaljer

Universitetsbiblioteket i Bergens strategi

Universitetsbiblioteket i Bergens strategi Universitetsbiblioteket i Bergens strategi 2016-2022 Innledning Universitetsbiblioteket i Bergen (UB) er et offentlig vitenskapelig bibliotek. UB er en del av det faglige og pedagogiske tilbudet ved Universitetet

Detaljer

Test of English as a Foreign Language (TOEFL)

Test of English as a Foreign Language (TOEFL) Test of English as a Foreign Language (TOEFL) TOEFL er en standardisert test som måler hvor godt du kan bruke og forstå engelsk på universitets- og høyskolenivå. Hvor godt må du snake engelsk? TOEFL-testen

Detaljer

Nasjonale satsingsområder innen medisinsk og helsefaglig forskning: Prosedyre for etablering

Nasjonale satsingsområder innen medisinsk og helsefaglig forskning: Prosedyre for etablering Nasjonale satsingsområder innen medisinsk og helsefaglig forskning: Prosedyre for etablering En nasjonal forskningssatsing i regi av NSG er basert på nasjonal konsensus blant partene og organiseres som

Detaljer

Når. Kompetansemål Arbeidsform Vurdering. Øving i og test i. uregelrette verb. September a-c It s my life Utforsking av språk og tekst

Når. Kompetansemål Arbeidsform Vurdering. Øving i og test i. uregelrette verb. September a-c It s my life Utforsking av språk og tekst Når Årsplan - Engelsk fordypning 2017-2018 Faglærer: Gjermund Frøland Læreverk: Oppgåver i, Searching 10, https://www.learnenglishfeelgood.com/ + anna ad hoc NB: Kompetansemål gjelder etter 10.trinn Faget

Detaljer

Årsplan norsk fordypning 2015/2016

Årsplan norsk fordypning 2015/2016 Årsplan norsk fordypning 015/016 Fag Kode Klasse Skoleår Faglærer Norsk fordypning 9 015/016 Åshild A. Asmussen Læreverk: Kontekst fordypning i norsk + kopier, hefter, bøker, aviser, IKT, bibliotek og

Detaljer

INF2820 Datalingvistikk V2015. Jan Tore Lønning

INF2820 Datalingvistikk V2015. Jan Tore Lønning INF2820 Datalingvistikk V2015 Jan Tore Lønning INF2820 Datalingvistikk 21. januar 2015 2 I dag: 1. Time: Datalingvistikk: motivasjon og eksempler Praktisk informasjon 2. Time: Endelige tilstandsteknikker

Detaljer

S 3/10 Faglig organisering av Det nye universitetet

S 3/10 Faglig organisering av Det nye universitetet Interimsstyret for samorganisering og samlokalisering av NVH og UMB S 3/10 Faglig organisering av Det nye universitetet Interimsstyret hadde første drøfting av faglig organisering på seminaret 21. oktober

Detaljer

Ofte stilte spørsmål om Innovasjonsprosjekter i BIA

Ofte stilte spørsmål om Innovasjonsprosjekter i BIA Ofte stilte spørsmål om Innovasjonsprosjekter i BIA Søkere og deltakere Kan et forskningsmiljø søke på vegne av en gruppe bedrifter? Hvor mange bedrifter bør være med i et prosjekt? Må vi samarbeide med

Detaljer

1 Status og erfaringer

1 Status og erfaringer Av: Axel Bojer, Knut Yrvin Dato: 30. august 2005 Statusrapport for oversetting av OOo Høsten 2004 ut sommeren 2005 Innholdsliste 1 Status og erfaringer...1 2 Veien framover...2 2.1 Forslag til minimumsbudsjett:...2

Detaljer

Læreplan i engelsk - programfag i utdanningsprogram for studiespesialisering

Læreplan i engelsk - programfag i utdanningsprogram for studiespesialisering Læreplan i engelsk - programfag i utdanningsprogram for Fastsatt som forskrift av Utdanningsdirektoratet 31. mars 2006 etter delegasjon i brev 26. september 2005 fra Utdannings- og forskningsdepartementet

Detaljer

Lokal læreplan i norsk 10

Lokal læreplan i norsk 10 Lokal læreplan i norsk 10 -Romanen -Rep. nynorsk: substantiv, adjektiv - samtale om form, innhold og formål i litteratur, teater og film og framføre tolkende opplesing og dramatisering - lese og analysere

Detaljer

Oslo universitetssykehus HF

Oslo universitetssykehus HF Oslo universitetssykehus HF Styresak Dato møte: 25. september 2015 Saksbehandler: Viseadministrerende direktør økonomi og finans Vedlegg: Gaveerklæring vedrørende utredning av nytt klinikkbygg på Radiumhospitalet

Detaljer

INF2820 Datalingvistikk V2016. Jan Tore Lønning

INF2820 Datalingvistikk V2016. Jan Tore Lønning INF2820 Datalingvistikk V2016 Jan Tore Lønning INF2820 Datalingvistikk 20. januar 2016 2 I dag: 1. Time: Datalingvistikk: motivasjon og eksempler Praktisk informasjon 2. Time: Regulære språk OBS: Lov å

Detaljer

Anskaffelse av nytt Biblioteksystem

Anskaffelse av nytt Biblioteksystem Oppdatert: 2009-10-27 Til: Styremøte 2009-11-02 Saksdokument S-2009/57 Anskaffelse av nytt Biblioteksystem Det vises til vedlagte notat om anskaffelsen. Notatet ble brukt da KD ble orientert på etatsstyringsmøtet

Detaljer

Brukerveiledning for Lingdys 3.5

Brukerveiledning for Lingdys 3.5 Brukerveiledning for Lingdys 3.5 3.5.120.0 Lingit AS Brukerveiledning for Lingdys 3.5 Innhold Hva er LingDys?...1 Installasjon...2 Installasjon fra CD...2 Oppdatering til ny versjon eller nyinstallasjon

Detaljer

Vurdering. Kompetansemål Arbeidsfor m. Når. Øving i og test i. uregelrette verb. September a-c It s my life Utforsking av språk og tekst

Vurdering. Kompetansemål Arbeidsfor m. Når. Øving i og test i. uregelrette verb. September a-c It s my life Utforsking av språk og tekst Årsplan - Engelsk fordypning 2017-2018 Faglærer: Gjermund Frøland Læreverk: Searching 8 Searching 9 Read and Write NB: Kompetansemål gjelder etter 10.trinn Faget består av to hovedområder: Utforsking av

Detaljer

ELF: Elektronisk fagbibliotek

ELF: Elektronisk fagbibliotek ELF: Elektronisk fagbibliotek Forprosjekt: Prosjektbeskrivelse, budsjett og plan. Ole Husby, BIBSYS 2000-11-29 Bakgrunn for prosjektet Oppdragsgiver for forprosjektet er NUUB. Overgangen til elektroniske

Detaljer

Høringssvar fra IKT- Norge - Utredning om mulige avgivergrensesnitt for grunnbok- og matrikkelinformasjon

Høringssvar fra IKT- Norge - Utredning om mulige avgivergrensesnitt for grunnbok- og matrikkelinformasjon Oscarsgt. 20 0352 Oslo Tlf: 22 54 27 40 Org.nr.: 971 037 296 MVA Miljøverndepartementet Postboks 8013 Dep 0030 Oslo 12.08.2012 Høringssvar fra IKT- Norge - Utredning om mulige avgivergrensesnitt for grunnbok-

Detaljer

Søknad. Dette skjemaet er til orientering. Søknadsskjemaet blir tilgjengelig i digital form på Norgesuniversitetets hjemmeside i juni.

Søknad. Dette skjemaet er til orientering. Søknadsskjemaet blir tilgjengelig i digital form på Norgesuniversitetets hjemmeside i juni. Søknad Dette skjemaet er til orientering. Søknadsskjemaet blir tilgjengelig i digital form på Norgesuniversitetets hjemmeside i juni. 1. Prosjekttittel Tittelen bør være så kort som mulig, men må samtidig

Detaljer

Årsplan Norsk 2014 2015 Årstrinn: 6. årstrinn

Årsplan Norsk 2014 2015 Årstrinn: 6. årstrinn Årsplan Norsk 2014 2015 Årstrinn: 6. årstrinn Akersveien 4, 0177 OSLO Tlf: 23 29 25 00 Lærere: Unni S. Tveit, Eirin S. Hammerstad og Hanna Guldhaug Kompetansemål Tidspunkt Tema/Innhold Lærestoff Arbeidsmåter

Detaljer

INF2820 Datalingvistikk V2014. Jan Tore Lønning

INF2820 Datalingvistikk V2014. Jan Tore Lønning INF2820 Datalingvistikk V2014 Jan Tore Lønning INF2820 Datalingvistikk 19. januar 2014 2 I dag: 1. Time: Datalingvistikk: motivasjon og eksempler Praktisk informasjon 2. Time: Endelige tilstandsteknikker

Detaljer

SolidPlant er perfekt for deg som jobber med design av rørsystemer og anlegg, og er kjent med SolidWorks.

SolidPlant er perfekt for deg som jobber med design av rørsystemer og anlegg, og er kjent med SolidWorks. SolidPlant, det eneste virkelig spesifikasjonsstyrte anleggsdesign programmet for SolidWorks. Ved å kombinere intuitive parametrisk styrte SolidWorks med en sofistikert database for å generere alle komponenter

Detaljer

Anbefalinger om videreutvikling av Oppgaveregistret

Anbefalinger om videreutvikling av Oppgaveregistret E L M E R ENKLERE OG MER EFFEKTIV RAPPORTERING Middelthuns gate 27, Postboks 5250 Majorstua, N-0303 Oslo Anbefalinger om videreutvikling av Oppgaveregistret Rapport fra ELMER-prosjektet 24. juli 2001 Et

Detaljer

DIAGNOSERAPPORT. for. Dato:19122012 Utført av: Tommy Svendsen

DIAGNOSERAPPORT. for. Dato:19122012 Utført av: Tommy Svendsen DIAGNOSERAPPORT for Dato:19122012 Utført av: Tommy Svendsen Generell synlighet (pagerank) En god start er å sjekke den generelle synligheten på siden. Dette er en test som rangerer med utgangspunkt i hvor

Detaljer

Fag: Norsk Trinn: 6. Lesekurs / Studieteknikk Tidsperiode; 34-38

Fag: Norsk Trinn: 6. Lesekurs / Studieteknikk Tidsperiode; 34-38 Fag: Norsk Trinn: 6. Lesekurs / Studieteknikk Tidsperiode; 34-38 Grunnleggende ferdigheter Kompetansemål Delmål Aktivitet for å oppnå målet Grunnleggende ferdigheter er integrert i kompetansemålene der

Detaljer

Holbergs gate 1 / 0166 Oslo T: E: W: Høringsuttalelse Høring - Innspill til stortingsmelding om humaniora

Holbergs gate 1 / 0166 Oslo T: E: W:  Høringsuttalelse Høring - Innspill til stortingsmelding om humaniora Holbergs gate 1 / 0166 Oslo T: 22 04 49 70 E: nso@student.no W: www.student.no Høringsuttalelse Høring - Innspill til stortingsmelding om humaniora Dato: 20.05.2016 2016001177 Høringsuttalelse Innspill

Detaljer

Oslo universitetssykehus HF

Oslo universitetssykehus HF Oslo universitetssykehus HF Styresak Dato dok.: 18. juni.2009 Dato møte: 25. juni 2009 Saksbehandler: Administrerende direktør Vedlegg: Oppfølgingen av styresak 20/2009 SAK 103/2009 STATUS IKT I OSLO UNIVERSITETSSYKEHUS

Detaljer

Training module on. Grant Contract 517846-LLP-1-2011-1-DK-LEONARDO-LMP

Training module on. Grant Contract 517846-LLP-1-2011-1-DK-LEONARDO-LMP Training module on 2Fish project: Inclusion of secondary service professions within fishery to the normal VET system Grant Contract 517846-LLP-1-2011-1-DK-LEONARDO-LMP Kurs tittel: Kurs Type: Kvalifiserings

Detaljer

Aktive hyller (Ref #1307884069102)

Aktive hyller (Ref #1307884069102) Aktive hyller (Ref #1307884069102) Søknadssum: 429600 Kategori: Ny formidling Varighet: Ettårig Opplysninger om søker Organisasjonsnavn / nr Deichmanske bibliotek / 992410213 Arne Garborgs plass 4 0179

Detaljer

FORSKNINGS INFRASTRUKTUR

FORSKNINGS INFRASTRUKTUR FORSKNINGS INFRASTRUKTUR HANDLINGSPLAN 2018 2022 // UNIVERSITETET I BERGEN HANDLINGSPLAN FOR FORSKNINGSINFRASTRUKTUR 2018 2022 // UNIVERSITETET I BERGEN 2 FORSKNINGS- INFRASTRUKTUR Universitetet i Bergens

Detaljer

Norsyg en syntaksbasert dyp parser for norsk

Norsyg en syntaksbasert dyp parser for norsk en syntaksbasert dyp parser for norsk Petter Haugereid petterha@hf.ntnu.no Institutt for språk- og kommunikasjonsstudier NTNU Språkteknologi ved NTNU, seminar VI, 30. november 2006 Oversikt 1 2 Oversikt

Detaljer

Invitasjon til å søke om støtte - programvare for talegjenkjenning på bokmål og nynorsk

Invitasjon til å søke om støtte - programvare for talegjenkjenning på bokmål og nynorsk Til søkere Vår dato 11.06.2015 Invitasjon til å søke om støtte - programvare for talegjenkjenning på bokmål og nynorsk Sak 14/5030 Innhold 1 Innledning... 3 2 Beskrivelse av leveransen... 3 2.1 Innledning...

Detaljer

(12) PATENT (19) NO (11) 330271 (13) B1 NORGE. (51) Int Cl. Patentstyret

(12) PATENT (19) NO (11) 330271 (13) B1 NORGE. (51) Int Cl. Patentstyret (12) PATENT (19) NO (11) 3271 (13) B1 NORGE (1) Int Cl. G06Q /00 (06.01) Patentstyret (21) Søknadsnr 08 (86) Int.inng.dag og søknadsnr (22) Inng.dag.03.04 (8) Videreføringsdag (24) Løpedag.03.04 () Prioritet

Detaljer

FAGLIG & ADMINISTRATIV ORGANISERING NIVÅ3 - FAKULTET H

FAGLIG & ADMINISTRATIV ORGANISERING NIVÅ3 - FAKULTET H FAGLIG & ADMINISTRATIV ORGANISERING NIVÅ3 - FAKULTET H Styrevedtak NTNU 15. februar NTNU-styret vedtar på nivå 2 i fusjonerte NTNU. Ekstraordinært dekanmøte etter styremøtet. Mandat fra rektor om hvilke

Detaljer

En titt inn i strategiprosessen i Språkrådet Arnfinn Muruvik Vonen, Språkrådet, amv@sprakradet.no Nettverk for økonomistyring, DFØ, Oslo, 29.

En titt inn i strategiprosessen i Språkrådet Arnfinn Muruvik Vonen, Språkrådet, amv@sprakradet.no Nettverk for økonomistyring, DFØ, Oslo, 29. En titt inn i strategiprosessen i Språkrådet Arnfinn Muruvik Vonen, Språkrådet, amv@sprakradet.no Nettverk for økonomistyring, DFØ, Oslo, 29. februar 2012 Dette er Språkrådet Språkrådet er statens fagorgan

Detaljer

ET VERKTØY FOR FORSKNING

ET VERKTØY FOR FORSKNING strategi 2016 2019 ET VERKTØY FOR FORSKNING NSD Et verktøy for forskning strategi 2016 2019 «Målet med statens eierskap i NSD er å sikre dataforvaltning og tjeneste yting overfor forskningssektoren. Selskapet

Detaljer

Standardisering av språkteknologiske termer i Norden? Torbjørg Breivik, Språkrådet

Standardisering av språkteknologiske termer i Norden? Torbjørg Breivik, Språkrådet Standardisering av språkteknologiske termer i Norden? Torbjørg Breivik, Språkrådet Program 09:00: Åpning v/torbjørg Breivik, ASTIN 09:20: Status, Finland v/kimmo Koskenniemi 09:40: Status, Norge v/koenraad

Detaljer

Forskningsrådets prinsipper for åpen tilgang til vitenskaplig publisering

Forskningsrådets prinsipper for åpen tilgang til vitenskaplig publisering Forskningsrådets prinsipper for åpen tilgang til vitenskaplig publisering Norges forskningsråd 2009 Norges forskningsråd Postboks 2700 St. Hanshaugen 0131 OSLO Telefon: 22 03 70 00 Telefaks: 22 03 70 01

Detaljer

Nye spanskemner ved NTNU studieåret 2016/2017

Nye spanskemner ved NTNU studieåret 2016/2017 Nye spanskemner ved NTNU studieåret 2016/2017 Innholdsfortegnelse SPA1202 Spansk språkferdighet og litteratur... 1 SPA1104 Spansk språk II... 4 SPA2402 Spanskspråklige tekster... 7 SPA1202 Spansk språkferdighet

Detaljer

Oppsummering DRI

Oppsummering DRI DRI1001 Digital forvaltning Oppsummering 14.11.2006 Datasystemer og informasjonssystemer IKT i offentlig virksomhet Saksbehandlersystemer IKT i samarbeid og beslutninger Styring av teknologiutvikling og

Detaljer

Modellering av uttalevariasjon for automatisk talegjenkjenning

Modellering av uttalevariasjon for automatisk talegjenkjenning Modellering av uttalevariasjon for automatisk talegjenkjenning Ingunn Amdal, Institutt for teleteknikk, NTNU/Telenor FoU Trym Holter, SINTEF Tele og data Torbjørn Svendsen, Institutt for teleteknikk, NTNU

Detaljer

Standardisering og språk: Språkteknologi, talegjenkjenning og database som redskap for universell utforming

Standardisering og språk: Språkteknologi, talegjenkjenning og database som redskap for universell utforming Standardisering og språk: Språkteknologi, talegjenkjenning og database som redskap for universell utforming Rudolph Brynn Prosjektleder Standard Norge Din veiviser i en verden av muligheter 11 Presentasjon

Detaljer

Nasjonalt IKTs Fagforum Arkitektur

Nasjonalt IKTs Fagforum Arkitektur Nasjonalt IKTs Fagforum Arkitektur Mandat Dokumentkontroll Forfatter Gjennomgang Godkjent av Programkontoret Nasjonal IKT Fagforum Arkitektur Styringsgruppen Nasjonal IKT Endringslogg Versjon Dato Endring

Detaljer

Notat Emne: Behandling av søknader om finansiering av forskningsinfrastruktur 2009 Dato: 25. august 2009

Notat Emne: Behandling av søknader om finansiering av forskningsinfrastruktur 2009 Dato: 25. august 2009 Notat Emne: Behandling av søknader om finansiering av forskningsinfrastruktur 2009 Dato: 25. august 2009 Innledning Med forankring i strategien Verktøy for forskning, 1 og på grunnlag av statsbudsjettet

Detaljer

ÅRSPLAN I NORSK. 8. klasse 2015/ 16

ÅRSPLAN I NORSK. 8. klasse 2015/ 16 ÅRSPLAN I NORSK 8. klasse 2015/ 16 LÆREVERK: Kontekst (Gyldendal norsk Forlag) - Basisbok - Grammatikk og rettskriving - Nynorskboka Nettsiden: www.gyldendal.no/kontekst Kontekst tekster1 + div. kopier

Detaljer

Testing av øreproppens passform har aldri vært enklere

Testing av øreproppens passform har aldri vært enklere Testing av øreproppens passform har aldri vært enklere DOC2475 NO En personlig opplæring i bruk av ørepropper som hørselsvern inkluderer test av brukerens egne øreproppers passform, samt tilbyr et utvalg

Detaljer

Sandefjordskolen BREIDABLIKK UNGDOMSSKOLE ÅRSPLAN I SPANSK 10. TRINN SKOLEÅR 2015-2016. Periode 1: UKE 34-39. Kompetansemål:

Sandefjordskolen BREIDABLIKK UNGDOMSSKOLE ÅRSPLAN I SPANSK 10. TRINN SKOLEÅR 2015-2016. Periode 1: UKE 34-39. Kompetansemål: Sandefjordskolen Periode 1: UKE 34-39 BREIDABLIKK UNGDOMSSKOLE ÅRSPLAN I SPANSK 10. TRINN SKOLEÅR 2015-2016 Kunne utnytte egne erfaringer med språklæring i læring av det nye språket. Kunne undersøke likheter

Detaljer

Strategi Et fremragende universitetsbibliotek for et fremragende universitet!

Strategi Et fremragende universitetsbibliotek for et fremragende universitet! Strategi 2020 Et fremragende universitetsbibliotek for et fremragende universitet! 1 Universitetsbiblioteket Strategi 2010-2020 Visjon Et fremragende universitetsbibliotek for et fremragende universitet!

Detaljer

NORSK TEKSTARKIV Jostein H. Hauge

NORSK TEKSTARKIV Jostein H. Hauge NAVF'S EDB-SENTER FOR HUMANISTISK FORSKNING VILLAVEI 10, POSTBOKS 53 5014 BERGEN-UNIVERSITETET Oktober 1979 NORSK TEKSTARKIV Jostein H. Hauge FORHISTORIE Datamaskinell språkbehandling er kanskje det feltet

Detaljer

Nordlandet ungdomsskole Kjennetegn på måloppnåelse i engelsk 10.trinn etter revidert plan 2013

Nordlandet ungdomsskole Kjennetegn på måloppnåelse i engelsk 10.trinn etter revidert plan 2013 ENGELSK kjennetegn på måloppnåelse NUS HOVEDOMRÅDE Språklæring: 1. bruke ulike situasjoner, arbeidsmåter og læringsstrategier for å utvikle egne ferdigheter i engelsk 2. kommentere eget arbeid med å lære

Detaljer

34-36 Muntlig kommunikasjon -uttrykke og grunngi egne standpunkter og vise respekt for andres -opptre i ulike roller gjennom

34-36 Muntlig kommunikasjon -uttrykke og grunngi egne standpunkter og vise respekt for andres -opptre i ulike roller gjennom KAPITLER EMNER OG LÆRINGSMÅL PERIODE KOMPETANSEMÅL LÆRINGSSTRATEGIER OG METODER Kap. 1 i leseboka På biblioteket Kap 2 i leseboka Lesekurs Forberedende lesing til nasjonale prøver. Gjennomføring av nasjonale

Detaljer

Periode Kompetansemål Tema/Innhold Læremiddel Vurdering Uke 34 Orientere seg i store tekstmengder Lese ulike

Periode Kompetansemål Tema/Innhold Læremiddel Vurdering Uke 34 Orientere seg i store tekstmengder Lese ulike Årsplan Fag: Norsk Lærebok: Fabel 8 Periode Kompetansemål Tema/Innhold Læremiddel Vurdering Uke 34 Orientere seg i store mengder Lese ulike Fabel 8 Lese ulike typer er og 38 saker/skjønnlitterære er 101

Detaljer

ÅRSPLAN I NORSK 10. TRINN 2015 / 2016

ÅRSPLAN I NORSK 10. TRINN 2015 / 2016 Læreverk: Neon 10 Vi gjør oppmerksom på at det kan bli forandringer i årsplanen, men emnene vil bli de samme. Frosta skole, 18.08.2015 Faglærer: Anne Marie Rise, Heidi Brekken Kvamvold, Anne Jørstad Stenhaug

Detaljer

VURDERINGSKRITERIER Kjennetegn på måloppnåelse

VURDERINGSKRITERIER Kjennetegn på måloppnåelse NORSK 4.trinn KOMPETANSEMÅL Mål for opplæringen er at eleven skal kunne: VURDERINGSKRITERIER Kjennetegn på måloppnåelse IDEBANKEN 1. Samhandle med andre gjennom lek, dramatisering, samtale og diskusjoner.

Detaljer

H V O R D A N G J Ø R E E N P O W E R P O I N T P R E S E N T A S J O N M E R T I L G J E N G E L I G F O R B L I N D E O G S V A K S Y N T E

H V O R D A N G J Ø R E E N P O W E R P O I N T P R E S E N T A S J O N M E R T I L G J E N G E L I G F O R B L I N D E O G S V A K S Y N T E H V O R D A N G J Ø R E E N P O W E R P O I N T P R E S E N T A S J O N M E R T I L G J E N G E L I G F O R B L I N D E O G S V A K S Y N T E Et forprosjekt i rehabilitering gjennomført av Norges Blindeforbund,

Detaljer

Oversikt Med ProHAB Kultur får man oversikt over alle lag og foreninger i en kommune eller organisasjon.

Oversikt Med ProHAB Kultur får man oversikt over alle lag og foreninger i en kommune eller organisasjon. ProHAB Kultur Lag og foreningsregister og tilskuddsmodul i ProHAB Administrasjonssystem eller selvstendig kulturprogram - Gir god oversikt over alle lag og organisasjoner - Er enkelt å lære - Gir forslag

Detaljer

Artikkel 1 Navn og formål

Artikkel 1 Navn og formål Revidert siste gang April 2009 Artikkel 1 Navn og formål Seksjon 1 Navn Organisasjonens navn er TETRA-forum Norge. Seksjon 2 Formål Organisasjonens hovedformål er å være en viktig bidragsyter i arbeidet

Detaljer

Stemmen er en viktig del av personligheten. En del vi gjerne ønsker å beholde ved en diagnose som indikerer tap av taleevnen.

Stemmen er en viktig del av personligheten. En del vi gjerne ønsker å beholde ved en diagnose som indikerer tap av taleevnen. Stemmen er en viktig del av personligheten. En del vi gjerne ønsker å beholde ved en diagnose som indikerer tap av taleevnen. For å bistå smed dette har Acapela Group laget tjenesten my-own-voice. Denne

Detaljer

Faglærere: Ida Wessman og Tommy Mjåland Trinn: 8. Skoleår: 2016/17. Lytting og muntlig kommunikasjon: 1.1 Kommunikasjon

Faglærere: Ida Wessman og Tommy Mjåland Trinn: 8. Skoleår: 2016/17. Lytting og muntlig kommunikasjon: 1.1 Kommunikasjon Fag: Norsk Faglærere: Ida Wessman og Tommy Mjåland Trinn: 8. Skoleår: 2016/17 Period e Kompetansemål 1+2 lytte til, oppsummere hovedinnhold og trekke ut relevant informasjon i muntlige tekster Grunnlegge

Detaljer

Hjelp til oppfinnere. 01 Beskyttelse av dine ideer 02 Patenthistorie 03 Før du søker et patent 04 Er det oppfinnsomt?

Hjelp til oppfinnere. 01 Beskyttelse av dine ideer 02 Patenthistorie 03 Før du søker et patent 04 Er det oppfinnsomt? Hjelp til oppfinnere 01 Beskyttelse av dine ideer 02 Patenthistorie 03 Før du søker et patent 04 Er det oppfinnsomt? 05 Å få et patent 01 Beskyttelse av dine ideer Hvis du har en idé til et nytt produkt

Detaljer

NORGE. Patentstyret (12) SØKNAD (19) NO (21) 20101728 (13) A1. (51) Int Cl. G06Q 20/00 (2006.01)

NORGE. Patentstyret (12) SØKNAD (19) NO (21) 20101728 (13) A1. (51) Int Cl. G06Q 20/00 (2006.01) (12) SØKNAD (19) NO (21) 1728 (13) A1 NORGE (1) Int Cl. G06Q /00 (06.01) Patentstyret (21) Søknadsnr 1728 (86) Int.inng.dag og søknadsnr (22) Inng.dag.12. (8) Videreføringsdag (24) Løpedag.12. () Prioritet.03.04,

Detaljer

ÅRSPLAN I NORSK 10. TRINN Åkra ungdomsskole

ÅRSPLAN I NORSK 10. TRINN Åkra ungdomsskole ÅRSPLAN I NORSK 10. TRINN Åkra ungdomsskole 2016-2017 SENTRALE KOMPETANSEMÅL ELEVENS KOLONNE Læreverk: Nye Kontekst LÆRERENS KOLONNE Læreverk: Nye Kontekst Lærerens bok, Nye Kontekst Oppgaver, Nye Kontekst,

Detaljer