Alfabet og språkteknologi Ciprian-Virgil Gerstenberger Universitetet i Tromsø Norge Skriftspråk och språkteknologi 15.05.2011 Arjeplog, Sverige
Innhold Problemanalyse Alfabet og datamaskin Språkteknologi
Innhold Problemanalyse Alfabet og datamaskin Språkteknologi
Innhold Problemanalyse Alfabet og datamaskin Språkteknologi
En betydning flere betegnelser Ciprian-Virgil Gerstenberger eller Ciprian Virgil Gerstenberger? demokrati eller folkestyre? triangel eller trekant? bestemme eller avgjøre? sentrum eller centrum? synonymi eller redundans? navnlikhet eller overflødighet?
Flere betydninger en betegnelse Ciprian: 1. Ciprian Gerstenberger 2. Ciprian Porumbescu triangel: 1. trekant (geometri) 2. musikkinstrument polysemi/homonymi eller ambiguitet? flertydighet eller tvetydighet?
To sider, en relasjon Avbildning fra A til B A B 1, B 2, B 3 Avbildning fra B til A A 1, A 2, A 3 B
Ideelt A B og A B A B
Lyd tegn Rumensk â (România), î (înainte) Engelsk y /j/ (you), /i/ (heavy)
Bruce s eksempel fra Lulesamisk Extra-lange konsonanter som er ofte ikke markert 1. maná du drar 2. manná hun/han drar 3. manná hun/han begynner å drar
Michaels eksempel om kildinsamiske alfabetvarianter
Menneske vs. datamaskin mennesker klarer seg i begge situasjoner for datamaskiner må alt være klart og tydeligt det som er vanskelig for mennesker er enda vanskeligere å tydeliggjøre for datamaskiner (Bruce: Skriverregler skal være lærbare! ) kunnskap, regler for å tydeliggjøre
Utvikling ASCII (American Standard Code for Information Interchange)
Utvikling UTF-8: hvert tegn kodet som tall (utvetydig)
Spørsmål Kan man få tegn i tillegg for pitesamisk? Ja, men vil man det virklig? identitet brukbarheit
Problemer Operativsystem (Windows, Mac, Linux, Symbian, Android, iphone) Aplikasjoner = programmer: Nettleser (Internet Explorer, Firefox, Safari), Skriveprogram (Word, Emacs, OpenOffice) Grafiske programmer har forsjellige elementer: tekstfelt, labels, etc. Skriftkoding og -egenskaper (fonttype, fontstørrelse, fontfarge, etc.)
Spesialtegn i kildinsamisk
Kildinsamisk i nettleseren Safari på Mac
Kildinsamisk i nettleseren Google Chrome på Mac
Spesialtegn (diacritics) Unngå spesialtegn! Tenk også på mobiltelefoner: tekstmelding, epost, ordbøker Alternativet: tegnkjede, tegnsekvens!
Tegnkjede Lulesamisk: xxxngxxx, yyyngyyy Prisen: tvetydighet! Tysk: Hoehe, Oede, Poet Höhe, Öde, Pöt
Tastatur utvikling av tastatur med spesialtegn er mulig ikke uten problemer på ulike operativsystemer med ulike programmer Alternativet: bruk av tastatur fra majoritetsspråkskrift!
Sørsamisk alfabet bokstaver vs. tegn vs. tegnkjeder blanding av norsk og svensk bytte tastaturen hele tida (selv med snarvei er det tungt) brukere gjør det ofte ikke
Løsning på datamaskin Godta alle varianter, vis det riktige!
Løsning på datamaskin Godta alle varianter, vis det riktige!
Spørsmål Er representasjoner av tegn virklig utvetydig på datamaskinen? For datamaskin ja, men ikke for mennesker!
Bruk av feil tegn to ganger på den samme NRK-sida
Vårt arbeid med den kildin-russiske ordboka
Data for språkteknologi å lage gode programmer krever gode data feil på lavt nivå fortsetter på høyere nivåer feilsøking og retting krever mye tid og energi
Samisk språkteknologi: Giellatekno Nordsamisk, Sørsamisk, lulesamisk, kildinsamisk, skoltesamisk, kvensk, meankeli, etc. utvikle ressurser og applikasjoner for alle samiske språk språkdata i elektronisk format
Språkteknologi alt som man gjør med og for språk på datamaskin språkdokumentasjon rettskrivningsverktøy elektroniske ordbøker språkanalyse læreprogrammer maskinoversetting datamaskin som svært nyttig hjelpemiddel
Språkdokumentasjon Kildinsamisk Pitesamisk
Rettskrivningsverktøy: Divvun
Ordbøker
Ordbøker
Ordbøker
Språkanalyse Ordformanalyse (morfologi) Ordrekkefølgeanalyse (setningsanalyse, syntaks)
Læreprogrammer: Oahpa!
Maskinoversetting
Konklusjoner ingen bra avbildning fra lyd til tegn (perfekt ortografi) probleme må analyseres og avgjøres (navnlikhet vs. overflødighet og flertydighet vs. tvetydighet) kompromisser datamaskiner er nyttig hjepler men krever mye nye kunnskaper for å lage gode språkapplikasjoner trengs rene data