Hva er det med tale? Forskningsutfordringer og aktiviteter innen taleteknolog. Torbjørn Svendsen NTNU

Like dokumenter

SAFERS: Speech Analytics For Emergency Response Services. Pierre Lison, Norsk Regnesentral

Modellering av uttalevariasjon for automatisk talegjenkjenning

Talegjenkjenning for funksjonshemmede. Innledede test av talegjenkjenning for funksjonshemmede. Prosjekt: Antall sider:

Gir flerspråklighet et fortrinn?

Prosjekt Tale gjenkjenning på Nor sk. Et Inkluderende arbeidsliv med talegjenkjenning

Fonema 1 - Metodeutvikling for naturtro norsk talesyntese

Norges første kunstige barnestemme. Torbjørn Nordgård Lingit AS Universitetet i Nordland

Taleteknologi. Torbjørn Svendsen Institutt for elektronikk og telekommunikasjon NTNU. Taleteknologi - introduksjon Professor Torbjørn Svendsen, NTNU 1

KONSONANTFORBINDELSER

Stemmen er en viktig del av personligheten. En del vi gjerne ønsker å beholde ved en diagnose som indikerer tap av taleevnen.

TIDLIG INNSATS FOR LIVSLANG LÆRING

Tekstmining: En kort innføring

Gir flerspråklighet et fortrinn?

Lokal læreplan i norsk 10

Sandefjordskolen BREIDABLIKK UNGDOMSSKOLE ÅRSPLAN FOR FORESATTE NORSK 9.TRINN SKOLEÅR

SKJEMA FOR UNDERVISNINGSPLANLEGGING

Jeg vil se mappa mi!

Norsk. Arbeidsgruppe. Bente Hagen. Ingebjørg Vatnøy

Sandefjordskolen BREIDABLIKK UNGDOMSSKOLE ÅRSPLAN FOR FORESATTE NORSK 9.TRINN SKOLEÅR Side 1 av 8

Kunstig intelligens og telesektoren: hva blir det neste? Dr. Mohammed Sourouri Seniorkonsulent, Acando Mai, 2018

LÆREPLAN FOR FORSØK MED FREMMEDSPRÅK PÅ BARNETRINNET

Meningsfull matematikk for alle

Web-basert OpenLab Drilling simulator: Erfaringer, status og muligheter ved bruk av maskinlæring og automatisering. Erich Suter Post.Doc.

Enkel beskrivelse av somali

Høykvalitets norsk talesyntese

Kjære unge dialektforskere,

MULTICOM 112. Muntlig innvirkning A1: Ingen krav

NORSK SPRÅKRÅD. REF. VÅR REF. DATO 2003/1372 ME/MEI CBU:elt OH HØRING VEDRØRENDE ENDRINGER I ÅNDSVERKLOVEN

Overvinn dine skriftlige utfordringer med..txtanalyser

Uttaleundervisning. Fra det enkle til det kompliserte. Turid Alice Våge

Enkel beskrivelse av islandsk språk

Uke Kompetansemål Emne Arbeidsmåte Læremidler Vurdering

Bruk av digitale læringsmidler, læringsressurser og læringsomgivelser. Sten Ludvigsen, InterMedia, Universitetet ioslo Udir, Nov 2011

Årsplan engelsk fordypning 2018/2019

Læreplaner og kartleggingsverktøy for språklige minoriteter

Årsplan i norsk for 9. trinn Timefordeling:

UKE 33-44, og Skjønnlitterære og sakpregede tekster (noe repetisjon fra 8. trinn)

Norsk revidert januar Arbeidsgruppe

Frakkagjerd ungdomsskole Årsplan 8.trinn FAG: Norsk

Du betyr en forskjell. (Fritt etter foredrag av Brynhild Farbrot)

Sandefjordskolen BREIDABLIKK UNGDOMSSKOLE ÅRSPLAN I SPANSK 9. TRINN SKOLEÅR Periode 1: UKE Kompetansemål:

Sandefjordskolen BREIDABLIKK UNGDOMSSKOLE ÅRSPLAN I SPANSK 8. TRINN SKOLEÅR

Årsplan i norsk 9. trinn Lærere: Julie Strøm og Aksel Mygland

Studieplan for Smart læring for personlig utvikling (SOS6606) Studieåret 2015/2016

Grunnleggende Online Kurs Trener 1

Årsplan i Norsk. Kompetansemål: (punkter fra K-06) Delmål: Arbeidsmetode: Vurderingsmetode: LES OG LÆR

Sandefjordskolen LOKAL LÆREPLAN I SPANSK BREIDABLIKK UNGDOMSSKOLE

Måling gir millioner! Benchmarking med fra CII

Årsplan engelsk fordypning 2018/2019

Digitalisering: Digitale infrastrukturer for læring og progresjon. Sten Ludvigsen, UV, UiO

Årsplan i NORSK Trinn 10 Skoleåret Haumyrheia skole

DIGI-universet. Hvordan blir fremtiden? Bente Sollid Storehaug, CEO ESV Digital, Nordic

Å være trener for barn. Er et stort ansvar

Årsplan i norsk 9. trinn Lærere: Lena, Julie, Lasse

Sandefjordskolen BREIDABLIKK UNGDOMSSKOLE ÅRSPLAN I SPANSK 10. TRINN SKOLEÅR Periode 1: UKE Kompetansemål:

En annen hovedtype av arbeidshukommelse kan kalles forforståelsens

Årsplan i norsk 9. trinn

Årsplan engelsk fordypning 2017/2018

FORSLAG TIL ÅRSPLAN 8. TRINN (ukenumre og ferier varierer fra skoleår til skoleår og må justeres årlig)

TTT4185 Taleteknologi Semesteroppgave 2

Årsplan engelsk fordypning 2015/2016

INF2820 Datalingvistikk V2014. Jan Tore Lønning

Andrespråksutvikling i barnehagen Sonja Kibsgaard

ÅRSPLAN I NORSK 10. TRINN 2015 / 2016

Sandefjordskolen BREIDABLIKK UNGDOMSSKOLE ÅRSPLAN I TYSK 8. TRINN SKOLEÅR Periode 1: UKE Kompetansemål: Kjennetegn på måloppnåelse:

HALVÅRSPLAN NORSK 2. TRINN

Sammenhengen mellom og

BA 2015 tilgjengeliggjør benchmarkingsprogram fra Construction Industry Institute

KOMMUNIKASJON TRENER 1

Effektiv møteledelse. Ole I. Iversen Assessit AS Mob:

NIVÅ FORTREFFELIG KOMPETENT UNDERVEIS PÅ BEGYNNER- STADIET KRITERIER. Bruker til sammen minst 4 ulike uttrykk for å hevde egne meninger

Årsplan engelsk fordypning 2014/2015

RESULTATRAPPORT: Lydstyring-prosjektet

Teknologi for utvikling av en norsk barnestemme

Norsk 1.og 2.trinn. Kompetansemål Delmål 1. trinn Delmål 2. trinn. Delmål Innhold/ arbeidsmåter Delmål Innhold/ arbeidsmåter

Undervisningsopplegg Skolejoggen trinn

Nonverbal kommunikasjon

Sammenheng mellom læringsutbyttebeskrivelse og vurdering. Christian Jørgensen

INF2820 Datalingvistikk V2015. Jan Tore Lønning

En app for fuglekikkere

ÅRSPLAN NORSK 10. TRINN

Velocardiofacialt syndrom

De vanligste kognitive testene. Peter Bekkhus-Wetterberg, overlege Hukommelsesklinikken, Geriatrisk avd OUS Ullevål

DRI1010 Emnekode. Oppgave Kandidatnummer Dato

Contents. Stemmer i TalkBack... 3 Installere norsk tale til TalkBack... 4

Klassisering. Insitutt for matematiske fag, NTNU 21. august Klassiseringsproblemet. Notat for TMA4240/TMA4245 Statistikk

INF2820 Datalingvistikk V2018 Forelesning 1 del 1, 15. jan. Jan Tore Lønning

Kom i gang med SKILLS Smartbok! Vi veileder deg steg for steg!

Geografisk forstand (neighbours) Politisk (samme land, situasjoner av språkdominans) Lingvistisk (av samme diakronisk opphav, hører til samme tett

Sandefjordskolen BREIDABLIKK UNGDOMSSKOLE ÅRSPLAN I TYSK 9. TRINN SKOLEÅR Periode 1: UKE Kompetansemål: Kjennetegn til måloppnåelse:

Emne Fokus Eleven skal kunne: Lesemåter og lesefaser. - kjenne til ulike lesestrategier og bruke Lesestrategier

Lokal læreplan i fremmedspråk. Sunnland skole

Jeg takker på forhånd for god samarbeidsvilje og ønsker lykke til med utfyllingen av spørreundersøkelsen.

Undervisningsopplegg til txt 2015 Tidsinnstilt

Berøringsskjerm - og hva så?

Dei mest relevante formuleringane for oss

INF2820 Datalingvistikk V2016. Jan Tore Lønning

Vedlegg 1 til retningslinje Norsk olje og gass anbefalte retningslinjer for felles modell for arbeidstillatelser.

Transkript:

Hva er det med tale? Forskningsutfordringer og aktiviteter innen taleteknolog Torbjørn Svendsen NTNU 1

Maskiner er ikke like flinke som mennesker I hvert fall ikke når det gjelder språk Gjenkjenne tale Forstå tale Snakke selv Hovedårsak: Tale (og språk) inneholder stor variasjon, både mellom individer og for en enkeltperson måned Klokkeslett 2

Dialektvariasjon Ulike språk: Når det er så store forskjeller at det ikke er gjensidig forståelig stemmer ikke alltid jfr skandinaviske språk Forskjeller innen et språk kommer til uttrykk ved dialekt og aksent Dialekter er forskjellige dialektord Aksent gir uttaleforskjell dialektbakgrunn gir opphav til uttaleforskjeller, selv om vi prøver å snakke normalisert også for fremmedspråklig bakgrunn 3

4

Automatisk talegjenkjenning Analysen ligner på det vi gjør i det indre øret frekvensanalyse Gjenkjenning basert på statistikk. Kunnskapskilder Modeller av språklydene Uttaleleksikon hvordan ord er sammensatt av lyder Språkmodell hvordan ord settes sammen til setninger 5

Uttaleleksikon En talegjenkjenner har et uttaleleksikon som forteller hvordan ordene i gjenkjennerens ordforråd uttales ligner på lydskrift For å få god ytelse tillates ofte flere uttalevarianter pr ord Avveining mellom antall uttalevarianter og kompleksitet/økte muligheter for forveksling Hvordan skal en velge uttalevarianter på best mulig måte? Hvordan kan gjenkjenneren til å utvide ordforrådet? 6

Uttalemodellering Uttalen kan spesifiseres manuelt, f.eks. av fonetikere Passer godt med vår oppfattelse av uttale Hvordan sikre at leksikonet hjelper gjenkjenneren å gjøre færrest mulig feil? Flere tillatte uttalevarianter -> bedre dekning av uttale, men økt sjanse for forveksling Hva med aksent? Automatisk læring av uttale Læringsmål: minimum gjenkjenningsfeil Kan gjøres diskriminativt, dvs at læringsprosessen tar hensyn til alle uttaler i leksikonet for å minske sjansen for forveksling Krever treningsdata for å lære 7

Ordforrådet Hva skjer hvis et ord ikke finnes i gjenkjennerens vokabular? Uten konfidenskontroll: feil gjenkjenning Med (god) konfidenskontroll : Jeg forstår ikke, vennligst gjenta Kan vi gjøre det mer intelligent? En totrinnsprosess kan hjelpe: Første steg er å detektere at et segment i talestrømmen inneholder noe som ikke er i vokabularet Tre alternativ videre: Bruk et stort reserveleksikon for å dekode segmentet Gjenkjenn lydene i segmentet (fonemene), og predikter hvordan ordet skrives Gjenkjenn på stavelsesnivå og kombiner til ortografi Permanent utvidelse av ordforrådet Brukerdefinert (krever kunnskap om lydskrift) Uttaleprediksjon med regler/statistikk ut fra ortografi 8

Litt om norsk I utgangspunktet er det like kostnadskrevende å utvikle taleteknologi for alle språk Norsk har noen særtrekk: Mangel på uttalenorm Utbredt aksept av dialektbruk (og forventning om at også teknologien kan akseptere det) To målformer Mange tillatte varianter av ord og bøyninger Mange sammensatte ord Det er i utgangspunktet mer krevende å utvikle taleteknologi for norsk enn for mange andre språk 9

Barn og unge Talegjenkjennere trenes med tale fra store databaser Databasene har ikke tale fra barn og unge (heller ikke eldre) Barns fysiologi gjør at stemmen er annerledes enn for voksne Frekvensspekteret er annerledes pga kortere taleorgan Forsøk: Tilpass en stor database med voksentale slik at stemmene ligner mer på barnestemmer. Tren gjenkjenner for barnestemmer med de modifiserte lydfilene Original Modifisert Resultat: Kraftig forbedring i gjenkjenningsraten for barn 10

Tekst-til-talesyntese FONEMA-prosjektet hadde som mål å automatisere og forenkle produksjon av nye, norske stemmer Utviklet prosedyrer for å produsere taledatabaser for syntetisk tale (datadrevet skjøtesyntese unit selection synthesis), og for å automatisk skape syntetiske stemmer fra den innleste databasen Etter at opptakene var kvalitetssikret tok produksjonen av grunnversjonen av en stemme et par timer, og var helautomatisk 11

Tekst-til-talesyntese, en hybrid løsning Lyddatabase (som f.eks. Kari) HMM-basert system for prediksjon og for valg av lydenheter TRAINING DATA Analysis INPUT TEXT TTS frontend Target model construction Eksperimentelt system HTS training Voice database Candidate list construction Meget god evaluering i internasjonal konkurranse (Blizzard Challenge 2010) State alignment Selection & boundary decision Waveform concatenation 12

Norske taleteknologiprodukter Vi ligger etter de store landene Dragon Dictate (iphone/ipad app) første generelle talegjenkjenningsprodukt for norsk Fungerer dårligere enn den engelske versjonen Generelle, fullskala storvokabular dikteringssystemer eksisterer så langt ikke for norsk Nye, og mer avanserte produkter finnes bare for de store språkene 13

14

15

Apple SIRI Forutsetter god talegjenkjenning (men ikke nødvendigvis perfekt) Har taleforståelse, dvs. at innholdet i den gjenkjente teksten blir tolket Er integrert med kunnskapskilder og presentasjonsmåter En norsk SIRI vil kreve betydelig mer enn bare en talegjenkjenner for norsk 16

IBM Watson Etter at Deep Blue slo verdensmester Kasparov i sjakk måtte større utfordinger til Watson er et datasystem som konkurrerte i TVspørrekonkurransen Jeopardy og vant Systemet tolker spørsmål som er stilt i naturlig språk (en litt kronglete form for naturlig språk) Store krav til resonnering Gjør bruk av kunnskapskilder for å besvare spørsmålene Syntetisk tale ut, ingen talegjenkjenning 17

18

Watson Utnytter naturlig språkprosessering, resonnering, informasjonsgjenfinning, kunnskapsrepresentasjon og maskinlæring 2880 prosessorkjerner og 16 TB minne Ikke klar for lap-top en ennå Hva blir neste utfordring? Talegjenkjenning vil gi noen tilleggsutfordringer Mindre tid til å analysere tekstinnhold og søke i informasjonskilder Må ta hensyn til at gjenkjent tekst kan inneholde feil 19

Tale og maskiner Språk og tale er den kanskje mest avanserte kognitive aktivitet vi bedriver Mange uløste problemer før maskinene er i nærheten av menneskelig nivå Minst en faktor på 10 dårligere ytelse for gjenkjenning pr i dag Omgivelsesstøy Variasjon Norsk er et lite språk, og har ikke samme kommersielle interesse som de store språkene Men vi har like stor nytte av teknologien og bør satse på å gjøre oss mer interessante ved å ha kunnskap, infrastruktur (språkdata) og incitamenter for utvikling og tilpasning av norsk taleteknologi. 20

21