Språkbanken Avsparkseminar 17. juni 2010 Kristin Bakken
Kven er vi? Kristin Bakken, forskingsdirektør Arne Martinus Lindstad, seniorrådgjevar Johanne Ostad, seniorrådgjevar Svein Arne Solbakk, IKT-direktør
Mål med dagen 1. Dele informasjon kva skjer med Språkbanken? 2. Kartlegging Kva for eksisterande ressursar finst? Kva for behov har dei ulike miljøa for Språkbankressursar? Kva for nyutvikling trengst? Ønskjer tett og open dialog mellom Språkbanken, leverandørar og brukarar av ressursar
Difor har vi: invitert representantar frå universitets- og høgskulemiljøa, næringslivet, departement og underliggjande etatar bede folk som representerer ulike miljø halde innleiingar sett av god tid til plenumsrespons og plenumsdiskusjonar tenkt å skrive referat frå plenumsøktene
Bakgrunn og utgangspunkt Mål og meining. Ein heilskapleg norsk språkpolitikk. (St.meld. nr. 35, 2007-2008) Plan for etablering av Norsk språkbank. Språkrådet 2008 I og med statsbudsjettet for 2010 vart Språkbanken lagt til Nasjonalbiblioteket
Kvifor Nasjonalbiblioteket? NB er ein forskingsinfrastruktur NB har eit ambisiøst digitaliseringsprogram NB har robuste system for langtidslagring, migrering, mottak og distribusjon av digitale data NB har tre juristar som er spesialistar på opphavsrett NB har generell forskingskompetanse
Litt om Nasjonalbiblioteket Grunnlaget for verksemda er pliktavleveringslova Omfattar alle medietypar, papirbaserte publikasjonar, film, lyd, kringasting + internettsider Digitaliseringsprogrammet: vi skal digitalisere heile samlinga på dei neste 20 åra Vi er digitalt arkiv for andre: NRK, aviser, arbeider no med foto
Meir om digitaliseringsprogrammet I dag er netto lagringskapasitet 5 PB 800 GB pr døgn tilvekst med digitaliserte bøker I bokdigitaliseringsaktiviteten er 50 serverar involverte samtidig Vi har pr i dag digitalisert ca. 110.000 av den totale mengda norske bokpublikasjonar 450.000 Storstilt avisdigitalisering startar i 2010 I tillegg digitalt avlevert materiale: Aftenposten, Adresseavisen, Stavanger aftenblad + fleire på gang 2 milliardar innhausta norske websider
Effektiv utnytting av eksisterande infrastruktur og kompetanse Moglege synergiar pga. digitaliseringsprogrammet? Kan NB sine eksisterande data utnyttast for Språkbank-formål? Kan språkteknologi betre kvaliteten på digitaliseringsprogrammet?
Organiseringa av Språkbanken i NB Språkbanken integrert i verksemda i NB (jf. argumentasjonen for plassering) Fagleg ansvar og kontaktpunkt til Avdeling for fag og forsking to tilsette med ansvar for Språkbanken IKT-ansvar til Avdeling for IKTD to nye årsverk i første omgang til IKT-drift Juridisk ekspertise Støttetenester som gjeld lokale, personal, arkiv, informasjon, rekneskap osb.
Språkbankens råd Syte for informasjonsutveksling mellom relevante institusjonar og aktørar Kartleggje brukarbehov og prioritere mellom desse behova Strategisk og fagleg retningsgjevande funksjon når det gjeld utvikling og utbygging Sikre at Språkbanken blir utvikla i tråd med språkpolitiske føringar
Medlemmer Forskingsrådet: Torunn Haavardsholm IBM: Roar Fundingsrud Nasjonalbiblioteket: Kristin Bakken NTNU: Torbjørn Svendsen Språkrådet: Sylfest Lomheim Telenor: Knut Kvale UiB: Victoria Rosén UiO: Janne Bondi Johannessen UiT: Trond Trosterud
Måla med Språkbanken Å sikre framtida til det norske språket ved at språkteknologiske produkt og tenester er bygde på norsk, og ikkje eit anna språk Å leggje til rette for forsking og undervisning Å leggje til rette for nærings- og teknologiutvikling Å leggje til rette for utvikling av offentlege tenester Å byggje opp ei samling digitale kvalitetssikra språkressursar og syte for at dei blir gjorde tilgjengelege
Budsjett 8 mill. over statsbudsjettet for 2010 For å byggje opp og utvikle innhaldet i Språkbanken + stillingar, aktivitetar og drift Håper på vidareføring og opptrapping i 2011 budsjettsøknad sendt
Innhaldet i Språkbanken Tre moglege typar innhald: 1. Eksisterande ressursar som finst i forskingsinstitusjonane eller andre stader 2. Nyutvikla ressursar 3. Ressursane etter Nordisk språkteknologi holding AS
Eksisterande ressursar har prioritet Nytte ut arbeidet som alt er gjort Ikkje gjere same arbeidet fleire gonger Sikre - drifte gjere tilgjengeleg - vidareutvikle Kartlegging Avtaleklarering Vi treng innhald for etablering av distribusjonsmodell og teknisk plattform
Dei første ressursane som er ferdige som har utviklingspotensial som er ulike med omsyn til proveniens 2002 2008: grundig kartlegging Byggjer på denne og eiga oppdatering Drøftingar i Rådet
Fire kandidatar Norsk ordbank (UiO, Språkrådet) Norsk aviskorpus (Unidigital, UiB) Norsk leksikografisk bokmålskorpus (UiO) NoTa-korpuset (Norsk talespråkskorpus Oslo-delen) Kvifor desse? Ulike m.o.t. eigarskap, opphavsrett, type innhald I tillegg sentrale, påkosta, utviklingspotensial Startpunktet: dialog med eigarane om vilkår for innlegging
Avgjerande spørsmål kva vil det seie at ein ressurs inngår i Språkbanken? At ressursen er lagra i Språkbanken At ressursen er distribuert frå Språkbanken Distribusjon vil primært seie at nokon får ein ikkjeeksklusiv bruksrett til heile ressursen med tanke på vidareutvikling Underordna her: nettbasert tilgang til ressursen via utarbeidde brukargrensesnitt
Viktige omsyn: At Språkbanken skal vere ei offentleg teneste som leverandørar og brukarar ser seg tente med At ressursane så langt det er mogleg skal distribuerast gratis At ressursar med ulik proveniens skal distribuerast på mest mogleg eins måte Difor krevst grundig arbeid på avtalesida når ressursane blir lagde inn i Språkbanken
Å avtalefeste at tilleggsverdi/vidareutvikla versjonar blir tilbakeførde til Språkbanken Å modularisere innhaldet i Språkbanken for å kunne levere skreddarsaum for spesifikke behov Versjonering Å lage ein open nettbasert distribusjonsmodell
Særlege utfordringar Kommersiell bruk av eksisterande ressursar (jf. eksisterande avtaleverk og forskingsformål) Tilbakeleveringsprinsippet òg vanskeleg når det gjeld kommersiell bruk
Situasjonen i Norden Danmark: Aktivitet ved fleire akademiske institusjonar om etablering av ressursar som vert stilt til rådvelde for forsking Samordning ved DK-CLARIN Prosjektbasert, manglar sentral driftsorganisasjon DK-CLARIN ikkje for kommersielle aktørar
Situasjonen i Norden Sverige: Språkbanken ved Göteborgs universitet Ein forskingsinstitusjon på linje med fleire andre Ei nasjonal rolle i kraft av fagleg tyngd, ikkje nasjonalt mandat Både driftsorganisasjon og prosjektbasert Ikkje taleteknologi Ikkje for kommersielle brukarar I tillegg: Svensk nationell datatjänst (jf. NSD i Norge)
Situasjonen i Norden Det finst m.a.o. ikkje nokon språkbank i vår forstand å samanlikne seg med i Norden Ressursane finst (ofte spreidde mange stader), men er berre tilgjengelege for akademiske formål Generelt problem for alle: opphavsrettar Òg ei utfordring å sikre og drifte ressursar etter at prosjektfinansieringa er over
Kva skal Språkbanken tilby norsk språkteknologi og språkforsking? Kvalitetssikra innhald: rådata, foredla data, applikasjonar Sikker langtidslagring + migrering Distribusjonsordningar på vegner av utviklingsmiljøa Juridisk kompetanse avtaler, avtalemalar, løfte opp spørsmålet om juridisk klarering for språkteknologiske formål til høgaste nivå Drift av ressursar mellom prosjektperiodar Middel til nyutvikling
Utviklingsmiddel Kan brukast til Å vidareutvikle eksisterande ressursar Å utvikle nye ressursar
Korleis kan dette tene utviklingsmiljøa? Nye prosjekt kan svare på eksplisitte behov i miljøa og bidra til fagutvikling og kompetansebygging i desse miljøa Utviklingsmidla til Språkbanken vil styrke norsk språkteknologi
Nye utviklingsprosjekt Kan vere vidareutvikling av eksisterande prosjekt eller noko heilt nytt Vi må identifisere og avgrense eitt eller to prosjekt i år Dagen i dag er eitt utgangspunkt for dette Språkbankens råd vil ha dette som sak 22. september Lyse ut prosjekta Tildele middel før jul Pga. habilitet nordisk fagkomite?
www.språkbanken.no