LIA - Language Infrastructure made Accessible. Janne Bondi Johannessen

Like dokumenter
IT-verktøy i infrastrukturprosjektet LIA

Adr: Von der Lippes gt 6, 0454 Oslo Født:

Slope-Intercept Formula

EN Skriving for kommunikasjon og tenkning

Norsk marin forskning sett utenifra. Stein Kaartvedt Universitetet i Oslo

Unit Relational Algebra 1 1. Relational Algebra 1. Unit 3.3

Mannen min heter Ingar. Han er også lege. Han er privatpraktiserende lege og har et kontor på Grünerløkka sammen med en kollega.

Information search for the research protocol in IIC/IID

INESS Infrastructure for the Exploration of Syntax and Semantics

Presenting a short overview of research and teaching

Dag W. Aksnes. Norsk forskning målt ved publisering og sitering

Han Ola of Han Per: A Norwegian-American Comic Strip/En Norsk-amerikansk tegneserie (Skrifter. Serie B, LXIX)

SIU Internasjonal mobilitet blant ph.d.- kandidater Bergen, 20. mai 2011 Forskerutdann.administr-seminar Arne Haugen

Juridiske aspekter ved publisering i åpne institusjonelle arkiv

Vekeplan 4. Trinn. Måndag Tysdag Onsdag Torsdag Fredag AB CD AB CD AB CD AB CD AB CD. Norsk Matte Symjing Ute Norsk Matte M&H Norsk

Prosjektet Digital kontaktinformasjon og fullmakter for virksomheter Digital contact information and mandates for entities

Samarbeidsbasert forskning er det mulig også i arbeidet med systematiske kunnskapsoversikter?

NO-CLARIN fra et UiO-HF-perspektiv. Janne Bondi Johannessen Nasjonalt møte om CLARIN, Nasjonalbiblioteket, 18.juni 2010

Emneevaluering GEOV272 V17

The Norwegian Citizen Panel, Accepted Proposals

Bibliography: The Norwegian Language in America (Under construction) Arnstein Hjelde

Presenting a short overview of research and teaching

SIU Ph.d.-mobilitet. UiB 2. februar Arne Haugen

Vitskaplege samlingar. Åse Wetås, Norsk Ordbok 2014 Ope seminar om Språkbanken,

Trigonometric Substitution

Ole Isak Eira Masters student Arctic agriculture and environmental management. University of Tromsø Sami University College

STILLAS - STANDARD FORSLAG FRA SEF TIL NY STILLAS - STANDARD

Røde Kors Grunnkurs i Førstehjelp

NORSI Norwegian Research School in Innovation, PING Program for Innovation and Growth

buildingsmart Norge seminar Gardermoen 2. september 2010 IFD sett i sammenheng med BIM og varedata

Øystein Haugen, Professor, Computer Science MASTER THESES Professor Øystein Haugen, room D

Administrasjon av postnummersystemet i Norge Post code administration in Norway. Frode Wold, Norway Post Nordic Address Forum, Iceland 5-6.

Noen universitetstrender og samfunnsutfordringer

Uke 5. Magnus Li INF /

SeaWalk No 1 i Skjolden

SERVICE BULLETINE

Simulert tilbakekalling av makrell - produkter kjøpt i Japan

Eurokrisen og Norge. Martin Skancke Mai 2014

NORSI Kappe workshop - introduction

P(ersonal) C(omputer) Gunnar Misund. Høgskolen i Østfold. Avdeling for Informasjonsteknologi

Bærekraftig FM til tiden/ Bærekraftig FM på tid

Betydningen av ledelse for digitalisering og innovasjon i helsesektoren

FREMTIDENS SIKKERHETS- UTFORDRINGER

Agenda -Historikk Content -Aktiviteter -Daglig Målstyring. -Erfaringsutveksling. Bruk av målstyring - erfaringsutveksling. Svein Ove Eimhjellen

Plagiat og PhD: Hva gjør man med det? Kunnskapsløs eller juksemaker? Plagiatsaker

GoOpen 2008 Oslo 8. april. Jernbaneverket Fri programvare i driftskritiske systemer. Ole Morten Killi ole.morten.killi@bouvet.

Of all the places in the world, I love to stay at Grandma Genia and

Eksamen ENG1002/1003 Engelsk fellesfag Elevar og privatistar/elever og privatister. Nynorsk/Bokmål

Markedsrapport Tyskland

Internasjonale studenter en ressurs for Norge?

GEOV219. Hvilket semester er du på? Hva er ditt kjønn? Er du...? Er du...? - Annet postbachelor phd

Norsk (English below): Guide til anbefalt måte å printe gjennom plotter (Akropolis)

Økologisk økonomi Ny økonomi for livskraftige samfunn og bærekraftig natur

Samlede Skrifter PDF. ==>Download: Samlede Skrifter PDF ebook

Søker du ikke om nytt frikort/skattekort, vil du bli trukket 15 prosent av utbetalingen av pensjon eller uføreytelse fra og med januar 2016.

Dagens tema: Eksempel Klisjéer (mønstre) Tommelfingerregler

Molare forsterkningsbetingelser

5 E Lesson: Solving Monohybrid Punnett Squares with Coding

Hvordan ser pasientene oss?

Eiendomsverdi. The housing market Update September 2013

Ekstraordinær generalforsamling HAVFISK ASA

BIBSYS Brukermøte 2011 Live Rasmussen og Andreas Christensen. Alt på et brett? -om pensum på ipad og lesebrett

Samarbeid, arbeidsdeling og konsentrasjon (SAK) knyttet til instituttsektoren og UoH - sektoren. Tore Nepstad og Ole Arve Misund

Hvordan føre reiseregninger i Unit4 Business World Forfatter:

Livets slutt i sykehjem pasienters og pårørendes forventninger og erfaringer En syntese av kvalitative studier

Informasjon om permittering og lønn

FIRST LEGO League. Härnösand 2012

1 User guide for the uioletter package

TEKSTER PH.D.-KANDIDATER FREMDRIFTSRAPPORTERING

In honour of Thor Heyerdahl bridge builder, challenger and boundary breaker

Citation and reference tools for your master thesis

Emnedesign for læring: Et systemperspektiv

Resesjonsrisiko? Trondheim 7. mars 2019

Side 2 af 12 in identitet vil holdes skjult. Les om retningslinjer for personvern. (Åpnes i nytt vindu) 1) Navn på gruppen:

Læring uten grenser. Trygghet, trivsel og læring for alle

Social Project Management. CIO Konferansen Prosjektstyring 09. juni 2016

The internet of Health

Barns personvern spesielt samtykke til behandling av personopplysninger

Bestille trykk av doktoravhandling Ordering printing of PhD Thesis

Opportunistiske forskere og utålmodige industripartnere? Om forskning og innovasjon i FMEene. 28. oktober 2014 Roger Sørheim

Forskning med nanopartikler til bruk innen kreftdiagnose og behandling

Verktøy for å håndtere siteringer og referanser i masteroppgaven. Citation and reference tools for your master thesis. Citations and references

Bouvet Island. The Norvegia expedition in 1927/28 declared the world s most isolated island as Norwegian area. Birds. No. 1/2018 Norway Post Stamps

Challenges in organic black currant production. v/sigrid Mogan

Gaute Langeland September 2016

Trådløsnett med. Wireless network. MacOSX 10.5 Leopard. with MacOSX 10.5 Leopard

Vurdering FOR læring - tilbakemeldinger og bevis på læring

Endelig ikke-røyker for Kvinner! (Norwegian Edition)

What's in IT for me? Sted CAMPUS HELGELAND, MO I RANA Tid

Tekna Vegdrift vinterdrift GPS-styrt strøing (salting) Dagfin Gryteselv, Statens vegvesen, Vegdirektoratet

Smart High-Side Power Switch BTS730

Språkleker og bokstavinnlæring

DA DET PERSONLIGE BLE POLITISK PDF

Utstyr for avstandsmåling. Dommersamling 14. mars 2015 Stein Jodal

Databases 1. Extended Relational Algebra

Baltic Sea Region CCS Forum. Nordic energy cooperation perspectives

Forskerutdanningen ved NMBU-MINA. Innspill til gruppearbeid, diskusjon og erfaringsutveksling

ADDENDUM SHAREHOLDERS AGREEMENT. by and between. Aker ASA ( Aker ) and. Investor Investments Holding AB ( Investor ) and. SAAB AB (publ.

HONSEL process monitoring

NORTEM - statusrapport og utfordringer fra et infrastrukturprosjekt i startgropa..

Transkript:

LIA - Language Infrastructure made Accessible Janne Bondi Johannessen Språkbankens seminar, 6. juni 2011

Mål The main goal of this project is to rescue old and endangered language recordings of Norwegian and Sami language, annotate them and make them accessible in an electronic database (corpus). => Lage et forskningsverktøy av verdifullt materiale for lingvister og språkforskere, etnologer, og språkteknologer 3

Hvem står bak LIA UiO UiB NTNU UiT Nasjonalbiblioteket Humboldt-Universität zu Berlin University of Wisconsin Madison 4

Prioritert av UiO 5

LIA Søknad sendt til NFRs infrastruktur-program Søknaden har gått videre til 2. runde i utvelgelsesprosessen Dialogmøte unnagjort Revidert søknad skal sendes innen 19.august Svar i slutten av oktober Søknadsbeløp: 30 mill kr Må reduseres til: 25 mill kr 6

Viktig å redde gammelt materiale Haugen 1992:331: Seip declared that my colleague and I made phonograph recordings of various kinds of Norwegian speech. Our material can now be found in the Phonetic Institute of the University of Oslo and will be preserved there as a testimonial to the language our countrymen used in the New World (Seip 1934, 296). Unfortunately, the Phonetic Institute made no provision for such preservation. Neither Seip nor Selmer did any further research on the material, and the fragile phonograph rolls were left to accumulate dust. Arne Vanvik, when asked recently by Hallvard Dørum, found that only a part of the rolls could be recovered, the rest were either broken or lost 7

Taleopptak og verktøy Redde verdifullt talemateriale digitalisere Gjøre materialet klart til bruk: Transkribere, tagge parse, legge inn i korpus (database) Forbedre verktøy Gjøre korpussystemet Glossa klart til søking i hierarkiske strukturer Lage verktøy: Syntaktisk parser for talespråk 8

Norsk tale fra Norge Målførearkivet University of Oslo (The UiO Dialect Archive): 550 hours (611 tapes) of recordings of Norwegian dialects. Has been digitised. NTNU, Trondheim 64 hours of recorded tapes of 117 different recording sessions. It is not digitised and inventorised. University of Tromsø 700 hours of dialect recordings (including child language), out of which 500 hours are on Norwegian place names. Not digitised and inventorised. University of Bergen 1500 hours of dialects. Not digitised but inventorised. 9

Samisk tale i Norge 500 hours of Sami recordings at the University of Tromsø. Not digitised and inventorised. 10

Norsk tale i Midtvesten, USA 400 hours of digitised recordings at the UiO and the University of Wisconsin, Madison. recordings done by the Oslo professors Seip and Selmer in the 1930s, Harvard professor Einar Haugen s recordings from the 1930s 40s Arnstein Hjelde s recordings from the 1980s, Madison professor Joe Salmons s recent recordings Janne Bondi Johannessen s recordings from two recording tours in the American Mid West in 2010. 11

Alt talematerialet skal høres gjennom og kvalitetssjekkes. Alt materialet vil digitaliseres. Ikke alt materialet vil egne seg for videre bearbeiding, pga Dårlig lydkvalitet Personsensitive opplysninger i samtalene Innhold som ikke er relevant for forskere i dag 12

Florence og Archie, Westby (WI)

Målførearkivet http://www.tekstlab.uio.no/nota/scandiasyn/ (1951-56, Aurland) 14

Forbedre verktøy Integrere Glossa-grensesnittet med andre systemer som det fra Humboldt University, Berlin. Søke på mange nivåer, særlig hierarkisk. Glossa presentert internasjonalt LREC 2008 (Marrakech, Morocco), Nodalida 2007 (Tartu, Estonia), NODALIDA 2009 (Odense, Denmark), LREC 2010 (Valetta, Malta). Glossa brukt I korpusverktøy andre steder. 15

Lage verktøy Utvikle en syntaktisk analysator (parser) for norsk og samisk, inkludert talespråk. Parserne vil bygge på den norske Oslo- Bergen-taggeren, og den samiske taggeren, som beggge er CG- (constraint-grammar) taggere. Mål dependens-analyse Middel: annotere et treningskorpus, samt utvikle regler basert på VISL-dependenstagging, og den statistiske MALT-parseren. 16

En dependensanalyse 17 For this statement has Beckmeyer until now not presented any evidence. (Hall ognivre 2008)

Talematerialet vil altså bestå av Kombinasjonen Tale Transkripsjon Informasjon om informant (bosted, alder, kjønn) Morfologisk analyse Syntaktisk analyse 18

Hvem ønsker talespråksmaterialet? Språkteknologer Språkforskere 19

Språkteknologi-bruk Utvikle modeller for å utvikle for norsk og samisk Taleanalyse Talesyntese Dikteringssystemer, talespråklige brukergrensesnitt i bil, kontor- og husholdningsmaskiner, industri, automatisk transkribering 20

Språkteknologi-brukere Universitetene NTNU, KTH, SU Industri og næringsliv Microsoft, Norsk lyd- og blindeskriftbibliotek (NLB), Lingit, software-firmaer 21

Språkforsknings-bruk Kort sikt: Korpuset vil gjøre det mulig å gjøre deskriptive studier av diakrone aspekter og ikke minst utviklingsaspekter ved norsk språk og dialekter, samt samisk. For norsk vil korpuset komplementere det moderne nordiske dialektkorpuset, slik at isoglosser vil kunne tegnes på språklige kart, både synkront og diakront grunnlag, både fonologisk og grammatisk. 22

Lang sikt Hva slags kategorier kan og kan ikke forekomme i et språk? Hvis språklige kategorier faller, hva er i så fall rekkefølgen? Hvor mye påvirker dialekter hverandre? Hva slags innflytelse har nærhet til storbyer? Hvordan endres et språk når det eksporteres til et nytt kontinent og møter andre språk? Hva slags likheter og forskjeller er det mellom norsk immigrantspråk i Amerika og immigrantspråk i Norge? 23

Brukere blant forskningsmiljøer Centre for Advanced Study in Theoretical Linguistics (CASTL, UiT) Nordic Centre of Excellence in Microcomparative Syntax (NORMS, UiT, NTNU, UiO) N CLAV (dialektforskere i hele Norden) Språkendringsprosessar og FORSE (UiB) NorDiaSyn (UiO, UiT, NTNU, UiB, UiA) Norsk Ordbok 2014 (UiO, NTNU) University of Wisconsin, Madison (m.fl.) 24

Nasjonal interesse Det er ingen annen nasjon som vil ta kostnaden som trengs for å bygge opp norskspråklige og samisk-språklige datasamlinger. 25

Viktig for Norge Verktøy for forskning Nasjonal strategi for forskningsinfrastruktur (2008-2017): Vitenskapelige databaser, som omfatter strukturerte, systematiserte, digitalt lagrete data som for eksempel [ ] tekster eller lydfiler hvor informasjonen kan finnes igjen ved bruk av ulike søkekriterier i et datasystem. (s.7) Mål og meining (2008): Understreker viktigheten av at det finnes språkteknologi for norsk språk. Klima for forskning 11.4.4: Forskningen skal bidra til å styrke, bevare og utvikle samisk språk, kultur, nærings- og samfunnsliv. St.meld. nr. 28 (2007 2008) Samepolitikken: Regjeringen vil arbeide for fortsatt styrking av samisk forskning og rekruttering av samiske forskere. 26

Et problem med talespråksmateriale Personvernloven Taleopptak betraktes som sensitivt materiale. Behandling av sensitive opplysninger krever som regel konsesjon (tillatelse) fra Datatilsynet. Fri tilgjengeliggjøring av slike opptak er derfor problematisk. Men: Personvernloven gjelder ikke etter ens død. De mange gamle opptakene har derfor en spesielt verdifull status i vår sammenheng. 27

LIA-prosjektet Er viktig! Passer veldig godt inn i Språkbankens paraply Parser Digitalisering Distribuering 28