LIA - Language Infrastructure made Accessible Janne Bondi Johannessen Språkbankens seminar, 6. juni 2011
Mål The main goal of this project is to rescue old and endangered language recordings of Norwegian and Sami language, annotate them and make them accessible in an electronic database (corpus). => Lage et forskningsverktøy av verdifullt materiale for lingvister og språkforskere, etnologer, og språkteknologer 3
Hvem står bak LIA UiO UiB NTNU UiT Nasjonalbiblioteket Humboldt-Universität zu Berlin University of Wisconsin Madison 4
Prioritert av UiO 5
LIA Søknad sendt til NFRs infrastruktur-program Søknaden har gått videre til 2. runde i utvelgelsesprosessen Dialogmøte unnagjort Revidert søknad skal sendes innen 19.august Svar i slutten av oktober Søknadsbeløp: 30 mill kr Må reduseres til: 25 mill kr 6
Viktig å redde gammelt materiale Haugen 1992:331: Seip declared that my colleague and I made phonograph recordings of various kinds of Norwegian speech. Our material can now be found in the Phonetic Institute of the University of Oslo and will be preserved there as a testimonial to the language our countrymen used in the New World (Seip 1934, 296). Unfortunately, the Phonetic Institute made no provision for such preservation. Neither Seip nor Selmer did any further research on the material, and the fragile phonograph rolls were left to accumulate dust. Arne Vanvik, when asked recently by Hallvard Dørum, found that only a part of the rolls could be recovered, the rest were either broken or lost 7
Taleopptak og verktøy Redde verdifullt talemateriale digitalisere Gjøre materialet klart til bruk: Transkribere, tagge parse, legge inn i korpus (database) Forbedre verktøy Gjøre korpussystemet Glossa klart til søking i hierarkiske strukturer Lage verktøy: Syntaktisk parser for talespråk 8
Norsk tale fra Norge Målførearkivet University of Oslo (The UiO Dialect Archive): 550 hours (611 tapes) of recordings of Norwegian dialects. Has been digitised. NTNU, Trondheim 64 hours of recorded tapes of 117 different recording sessions. It is not digitised and inventorised. University of Tromsø 700 hours of dialect recordings (including child language), out of which 500 hours are on Norwegian place names. Not digitised and inventorised. University of Bergen 1500 hours of dialects. Not digitised but inventorised. 9
Samisk tale i Norge 500 hours of Sami recordings at the University of Tromsø. Not digitised and inventorised. 10
Norsk tale i Midtvesten, USA 400 hours of digitised recordings at the UiO and the University of Wisconsin, Madison. recordings done by the Oslo professors Seip and Selmer in the 1930s, Harvard professor Einar Haugen s recordings from the 1930s 40s Arnstein Hjelde s recordings from the 1980s, Madison professor Joe Salmons s recent recordings Janne Bondi Johannessen s recordings from two recording tours in the American Mid West in 2010. 11
Alt talematerialet skal høres gjennom og kvalitetssjekkes. Alt materialet vil digitaliseres. Ikke alt materialet vil egne seg for videre bearbeiding, pga Dårlig lydkvalitet Personsensitive opplysninger i samtalene Innhold som ikke er relevant for forskere i dag 12
Florence og Archie, Westby (WI)
Målførearkivet http://www.tekstlab.uio.no/nota/scandiasyn/ (1951-56, Aurland) 14
Forbedre verktøy Integrere Glossa-grensesnittet med andre systemer som det fra Humboldt University, Berlin. Søke på mange nivåer, særlig hierarkisk. Glossa presentert internasjonalt LREC 2008 (Marrakech, Morocco), Nodalida 2007 (Tartu, Estonia), NODALIDA 2009 (Odense, Denmark), LREC 2010 (Valetta, Malta). Glossa brukt I korpusverktøy andre steder. 15
Lage verktøy Utvikle en syntaktisk analysator (parser) for norsk og samisk, inkludert talespråk. Parserne vil bygge på den norske Oslo- Bergen-taggeren, og den samiske taggeren, som beggge er CG- (constraint-grammar) taggere. Mål dependens-analyse Middel: annotere et treningskorpus, samt utvikle regler basert på VISL-dependenstagging, og den statistiske MALT-parseren. 16
En dependensanalyse 17 For this statement has Beckmeyer until now not presented any evidence. (Hall ognivre 2008)
Talematerialet vil altså bestå av Kombinasjonen Tale Transkripsjon Informasjon om informant (bosted, alder, kjønn) Morfologisk analyse Syntaktisk analyse 18
Hvem ønsker talespråksmaterialet? Språkteknologer Språkforskere 19
Språkteknologi-bruk Utvikle modeller for å utvikle for norsk og samisk Taleanalyse Talesyntese Dikteringssystemer, talespråklige brukergrensesnitt i bil, kontor- og husholdningsmaskiner, industri, automatisk transkribering 20
Språkteknologi-brukere Universitetene NTNU, KTH, SU Industri og næringsliv Microsoft, Norsk lyd- og blindeskriftbibliotek (NLB), Lingit, software-firmaer 21
Språkforsknings-bruk Kort sikt: Korpuset vil gjøre det mulig å gjøre deskriptive studier av diakrone aspekter og ikke minst utviklingsaspekter ved norsk språk og dialekter, samt samisk. For norsk vil korpuset komplementere det moderne nordiske dialektkorpuset, slik at isoglosser vil kunne tegnes på språklige kart, både synkront og diakront grunnlag, både fonologisk og grammatisk. 22
Lang sikt Hva slags kategorier kan og kan ikke forekomme i et språk? Hvis språklige kategorier faller, hva er i så fall rekkefølgen? Hvor mye påvirker dialekter hverandre? Hva slags innflytelse har nærhet til storbyer? Hvordan endres et språk når det eksporteres til et nytt kontinent og møter andre språk? Hva slags likheter og forskjeller er det mellom norsk immigrantspråk i Amerika og immigrantspråk i Norge? 23
Brukere blant forskningsmiljøer Centre for Advanced Study in Theoretical Linguistics (CASTL, UiT) Nordic Centre of Excellence in Microcomparative Syntax (NORMS, UiT, NTNU, UiO) N CLAV (dialektforskere i hele Norden) Språkendringsprosessar og FORSE (UiB) NorDiaSyn (UiO, UiT, NTNU, UiB, UiA) Norsk Ordbok 2014 (UiO, NTNU) University of Wisconsin, Madison (m.fl.) 24
Nasjonal interesse Det er ingen annen nasjon som vil ta kostnaden som trengs for å bygge opp norskspråklige og samisk-språklige datasamlinger. 25
Viktig for Norge Verktøy for forskning Nasjonal strategi for forskningsinfrastruktur (2008-2017): Vitenskapelige databaser, som omfatter strukturerte, systematiserte, digitalt lagrete data som for eksempel [ ] tekster eller lydfiler hvor informasjonen kan finnes igjen ved bruk av ulike søkekriterier i et datasystem. (s.7) Mål og meining (2008): Understreker viktigheten av at det finnes språkteknologi for norsk språk. Klima for forskning 11.4.4: Forskningen skal bidra til å styrke, bevare og utvikle samisk språk, kultur, nærings- og samfunnsliv. St.meld. nr. 28 (2007 2008) Samepolitikken: Regjeringen vil arbeide for fortsatt styrking av samisk forskning og rekruttering av samiske forskere. 26
Et problem med talespråksmateriale Personvernloven Taleopptak betraktes som sensitivt materiale. Behandling av sensitive opplysninger krever som regel konsesjon (tillatelse) fra Datatilsynet. Fri tilgjengeliggjøring av slike opptak er derfor problematisk. Men: Personvernloven gjelder ikke etter ens død. De mange gamle opptakene har derfor en spesielt verdifull status i vår sammenheng. 27
LIA-prosjektet Er viktig! Passer veldig godt inn i Språkbankens paraply Parser Digitalisering Distribuering 28