Taleteknologi. Torbjørn Svendsen Institutt for elektronikk og telekommunikasjon NTNU. Taleteknologi - introduksjon Professor Torbjørn Svendsen, NTNU 1

Like dokumenter
Hva er det med tale? Forskningsutfordringer og aktiviteter innen taleteknolog. Torbjørn Svendsen NTNU


SAFERS: Speech Analytics For Emergency Response Services. Pierre Lison, Norsk Regnesentral

INF2820 Datalingvistikk V2017 Forelesning 1.1, 16.1 Jan Tore Lønning

INF2820 Datalingvistikk V2016. Jan Tore Lønning

INF2820 Datalingvistikk V2018 Forelesning 1 del 1, 15. jan. Jan Tore Lønning

Fonema 1 - Metodeutvikling for naturtro norsk talesyntese

INF2820 Datalingvistikk V2014. Jan Tore Lønning

IKT for brukere med nedsatt funksjonsevne

INF2820 Datalingvistikk V2015. Jan Tore Lønning

NORSK SPRÅKRÅD. REF. VÅR REF. DATO 2003/1372 ME/MEI CBU:elt OH HØRING VEDRØRENDE ENDRINGER I ÅNDSVERKLOVEN

Prosjekt Tale gjenkjenning på Nor sk. Et Inkluderende arbeidsliv med talegjenkjenning

Telenors erfaringer med bruk av norsk taleteknologi, og hva er Telenors framtidige behov på området?

Modellering av uttalevariasjon for automatisk talegjenkjenning

Norsk taleteknologi status hausten Knut Kvale

INF2820 Datalingvistikk V2011. Jan Tore Lønning & Stephan Oepen

Standardisering og språk: Språkteknologi, talegjenkjenning og database som redskap for universell utforming

Årsplan engelsk fordypning 2018/2019

Årsplan engelsk fordypning 2015/2016

Norges første kunstige barnestemme. Torbjørn Nordgård Lingit AS Universitetet i Nordland

Årsplan engelsk fordypning 2014/2015

Årsplan engelsk fordypning 2018/2019

System integration testing. Forelesning Systems Testing UiB Høst 2011, Ina M. Espås,

EN Skriving for kommunikasjon og tenkning

Stemmen er en viktig del av personligheten. En del vi gjerne ønsker å beholde ved en diagnose som indikerer tap av taleevnen.

Årsplan engelsk fordypning 2016/2017

Ny norsk dialektinnsamling gir ny forståing av grammatikken. Åshild Søfteland, Universitetet i Oslo, doktorgradsstipendiat i nordisk språkvitskap

Foreldreveileder i hvordan lære å lese og å oppnå bedre leseflyt med «Tempolex bedre lesing 4.0», veilederversjon 1.0

Kronikken i ComputerWorld, 19. nov. 2010:

Talegjenkjenning for funksjonshemmede. Innledede test av talegjenkjenning for funksjonshemmede. Prosjekt: Antall sider:

Studieretningen Digital kommunikasjon og signalbehandling. To hovedprofiler fra 4. Klasse:

Kom godt i gang med CD-ORD 8. mikrov.no

Falske Basestasjoner Hvordan er det mulig?

Brukerveiledning til Oribi Speak for Chrome

Digitalt førstevalg hva innebærer det i praksis Arild Jansen, AFIN/SERI, UiO

Akustikk, signalbehandling og kommunikasjon

Digitale verktøy eller pedagogikk kan vi velge?

1/18/2011. Forelesninger. I dag: Obligatoriske oppgaver. Gruppeundervisning. Jan Tore Lønning & Stephan Oepen

VELKOMMEN. UKE 1: Introduksjon Plenum IN1050. Julie og Maria

Årsplan engelsk fordypning 2017/2018

IKT utvikling i samfunnet.

Introduksjon til dataanlegget ved Institutt for informatikk. Marc Bezem Institutt for informatikk Universitetet i Bergen

RESULTATRAPPORT: Lydstyring-prosjektet

Norsk i den digitale tidsalderen. Maskinoversettelse: hvordan fungerer det? Koenraad De Smedt (Universitetet i Bergen)

NYHETER FRA DFØ DIGITALISERING. Julia Olderskog, utviklingsansvarlig Henrik Hanasand, prosjektleder Kundeforum

En økning i høreapparatets ytelse. Trådløst ekstrautstyr fra Phonak

Norsyg en syntaksbasert dyp parser for norsk

Digital humaniora

Når kunst møter vitenskap.

1.8 Binære tall EKSEMPEL

Muliggjørende teknologier "Teknologibad" Manufacturing

BLISSTAVLE for Rolltalk Designer. Veiledning

Ny teknologi gir nye godstransportløsninger

Bygg et Hus. Steg 1: Prøv selv først. Sjekkliste. Introduksjon. Prøv selv

Taleboka TTS digital SAPI5 talesyntese. Brukerveiledning

Overvinn dine skriftlige utfordringer med..txtanalyser

BIBSYS Brukermøte 2011 Live Rasmussen og Andreas Christensen. Alt på et brett? -om pensum på ipad og lesebrett

Læringsmål og pensum. v=nkiu9yen5nc

Hvordan komme i gang med ArchiMate? Det første modelleringsspråket som gjør TOGAF Praktisk

InfoRed Publisering. - produktbeskrivelse. TalkPool WebServices Postboks Åneby

Bestille trykk av doktoravhandling Ordering printing of PhD Thesis

Besøk hos Seniornett, 12. februar 2007

Harald Holone

En internett basert og fleksibel database som kan tilpasses til ethvert behov, og som vil vokse med bedriften/institusjonen.

FORVENTNINGER TIL SIKKERHET I DET DIGITALE ROM

Innføring i bruk av Klikker 4

nettbasert produksjon og distribusjon av lydbøker

Test of English as a Foreign Language (TOEFL)

Et kommunikasjonsmiddel er en gjenstand som inneholder et ordforråd og som kan brukes av ASK-brukere for å uttrykke seg, eller for å støtte tale.

ONSCREENKEYS 5. Windows XP / Windows Vista / Windows 7 / Windows 8

TEORI OG PRAKSIS. Kjønnsidentitet og polaritetsteori. En kasusstudie av en samtalegruppe med transpersoner

Vi erstatter den tradisjonelle oppslagstavlen

Tilgjengelige apps fra design til bruk

Analog til digital omformer

Informasjonssikkerhet som hinder for ønsket om bruk av informasjonssystemer? eforvaltningskonferansen 11. februar 2010, Oslo

Visma.net. Redefining business solutions

IP-telefoni Brukerveiledning

Emneevaluering GEOV272 V17

IP-telefoni Brukerveiledning

Utredning om et nasjonalt korpus for språkteknologi

Talefrihet Muligheter med Rolltalk

Samiske læremidler på internett og UiTs rolle i dette

- reklamebannere mobil og tablet

Elektronisk kommunikasjonssystem på systemnivå

tenk deg kontorets nye attraksjon

IP-telefoni Brukerveiledning

samtaler om ulike fritidsaktiviteter

For å gjennomføre undersøkelsen på norsk trykker du på det norske flagget under. Du

Nye standarder for WiMAX: IEEE j og m

AGENDA. En produktiv arbeidsplass Ja, derfor Office 365 Hege Line Arnstein Andreassen. Office 365 del 2. Avslutning. Marie Johansen, Microsoft

BlindShell bruksanvisning

Digitalisering av offentlig sektor - EVRY`s rolle og samfunnsansvar

KOMPETANSEMÅL LÆRINGSMÅL VURDERING Muntlig kommunikasjon lytte etter, gjenfortelle,

Veiledning for innlevering av masteroppgaver til biblioteket

Gangemesteren Nybegynner Scratch PDF

HURTIGREFERANSE MODEM SETUP FOR NOKIA Copyright Nokia Corporation Alle rettigheter forbeholdt.

- Hvordan fungerer elektronisk kommunikasjon og hvordan bidrar ny teleteknologi til endringer i samfunnet og for den enkelte?

Å være forberedt. Veien til D-IKT 2.0. Helge Skrivervik mymayday.com as Drammensregionen IKT Intern-seminar Drammen 24/9/2014. mymayday.

1. Arduino Bluetooth 2 HC-05 modul

Mal for vurderingsbidrag

Transkript:

Taleteknologi Torbjørn Svendsen Institutt for elektronikk og telekommunikasjon NTNU Taleteknologi - introduksjon Professor Torbjørn Svendsen, NTNU 1

Taleteknologi - introduksjon Professor Torbjørn Svendsen, NTNU 2

Taleteknologi Speech is not just the future of Windows, but the future of computing itself William H. Gates III Computers are starting to do what most two-year-olds can do: identify spoken words and answer back IEEE Spectrum, Jan. 1997 Hyde s lov: The accuracy of speech recognizers is 98% S.R. Hyde, Joint Speech Research Unit, 1969 Korrolar: Because speech recognizers have an accuracy of 98%, tests must be arranged to prove it Taleteknologi - introduksjon Professor Torbjørn Svendsen, NTNU 3

Hvorfor tale? Enkelt naturlig kommunikasjonsform krever ingen særskilte forkunnskaper eller ferdigheter Frigjørende hender og øyne fri til andre oppgaver kan unngå tastatur og skjerm hjelp for funksjonshemmede Tilgjengelighet av informasjon hvor som helst, når som helst, hvem som helst For eksempel: Enkelt grensesnitt basert på tale og telefon Tale- og språkteknologi på norsk må ha en norsk basis språkkunnskap og teknologikunnskap Taleteknologi - introduksjon Professor Torbjørn Svendsen, NTNU 4

Taleteknologi - flerfaglig Elektronikk Signalbehandling Lingvistikk Statistikk Taleteknologi Fonetikk Psykologi Språkdata Informatikk Taleteknologi - introduksjon Professor Torbjørn Svendsen, NTNU 5

Talekoding Kompresjon/ dekompresjon Taleteknologi - introduksjon Professor Torbjørn Svendsen, NTNU 6

Talekoding Kompresjon for å spare båndbredde eller lagerplass Telefoni GSM, satellitt Internett Bildetelefon, MPEG Digital kringkasting Talepost Kombinasjon med eller supplement til talesyntese Manipulering av talesignaler Eks: generering av bredbånds tale fra telefontale, stemmetransformasjon Digital signalbehandling + kunnskap om taleproduksjon og talepersepsjon Taleteknologi - introduksjon Professor Torbjørn Svendsen, NTNU 7

Talegjenkjenning Send epost til Petter Taleteknologi - introduksjon Professor Torbjørn Svendsen, NTNU 8

Talegjenkjenning Tale-til-tekst Internasjonal status: God ytelse under kontrollerte forhold Problemer: Støy (bakgrunn, linje) talervariasjon uttalevariasjon variasjon i uttrykksmåte Behov for robust talegjenkjenning Tale Egenskapsuttrekking Mønstergjenkjenning Statistisk grammatikk Tekst Akustiske modeller Uttaleleksikon Grammatikk Taleteknologi - introduksjon Professor Torbjørn Svendsen, NTNU 9

Talegjenkjenning Kompleksitet (og ytelse) avhenger av Talemodus Isolerte ytringer - kontinuerlig tale Talermodus Talertrent - taleruavhengig - taleradaptivt Ordforråd Naturlighet Lest tale / diktering Spontan, naturlig tale Støyforhold Taleteknologi - introduksjon Professor Torbjørn Svendsen, NTNU 10

Talegjenkjenning - ytelse Oppgave Ordforråd Modus Ordnøyaktighet Oppgave Ordforråd Perpl Ordnøyaktighet Tall (0-9) 10 SI ~100% Sammenhengende tall 10 10 ~99% Stemme-oppringing 37 SD 100% Sjøforsvar ressurshåndtering 991 <60 97% Bokstaver + tall + kommandoord 39 SD/SI 96%/93% Flyreiseinformasjon 1800 <25 97% Flyreise, ord 129 SD/SI 99%/97% Næringslivsavis, transkripsjon Japanske bynavn 200 SD 97% Nyhetssendinger transkripsjon 64.000 <140 94% 64.000 <140 86% Basic English, ord 1109 SD 96% Samtale, transkripsjon 10.000 - ~68% Isolerte ord Kontinuerlig tale (Kilde: Soong &Juang, 2003) Taleteknologi - introduksjon Professor Torbjørn Svendsen, NTNU 11

Stemmegjenkjenning Jeg er Torbjørn Det er feil! Du er ikke Torbjørn. Taleteknologi - introduksjon Professor Torbjørn Svendsen, NTNU 12

Stemmegjenkjenning Talerverifikasjon Verifisering av påstått identitet Adgangskontroll (fysisk eller logisk) Feiltyper: Feil taler akseptert/sann taler avvist Typisk ytelse: ca. 1-2 % feilrate Taleridentifikasjon Bestemmelse av en talers identitet Ofte kriminaltekniske anvendelser Generelt ~uendelig sett av mulige talere vanskelig å estimere feilrate Hvis endelig antall mulige talere, pålitelig (jfr. talerverifikasjon) Baseres ofte på samme teknologi som talegjenkjenning Taleteknologi - introduksjon Professor Torbjørn Svendsen, NTNU 13

Talesyntese Du har fått epost fra Petter Taleteknologi - introduksjon Professor Torbjørn Svendsen, NTNU 14

Talesyntese Konvertering fra tekst til tale: Frasekonkatenering - skjøting av setningsdeler Begrenset meldingsrepertoar Tungvint å gjøre endringer Tekst-til-tale syntese (TTS) All tekst kan leses opp Begrensning på språk Behov for forbedret talekvalitet Prosodimodellering Lydgenerering Tolkning og realisering av emosjoner Tekst Tekst til lydskrift Intonasjon Lydgenerering Tale TTS Uttaleordliste og -regler Modeller og regler Lyddata Taleteknologi - introduksjon Professor Torbjørn Svendsen, NTNU 15

Eksempel - norsk talesyntese Norsk: De enkleste og mest etablerte former for taleteknologiske anvendelser er i sin helhet basert på generelle prinsipper for digital signalbehandling. Dette vil si at tale, i form av analoge lydsignaler, kodes digitalt, for dermed å kunne lagres i datamaskiner og ved behov reproduseres som analoge signaler gjennom dekoding. Det er dette som skjer ved vanlig telefoni (etter digitaliseringen av telenettet) og naturligvis ved GSM mobiltelefoni, som i utgangspunktet er et heldigitalt system. Arne Engelsk (på norsk): The simplest and most established applications of speech technology are completely based on general principles of digital signal processing. This means that speech, represented by analog signals, are digitally encoded for computer storage, and can be reproduced on demand as analog signals through decoding. This is what happens in ordinary telephony (since the telecommuncations networks became digital) and of course in GSM mobile telephony, which from the origin was a completely digital system. Arne Henrik t15 Taleteknologi - introduksjon Professor Torbjørn Svendsen, NTNU 16

Dialogsystem Hvor skal du reise fra? Når går neste buss til sentrum? Talegjenkjenning Grammatisk og semantisk analyse Dialoghåndtering Data Talesyntese Dialogsystem Taleteknologi - introduksjon Professor Torbjørn Svendsen, NTNU 17

Dialoganalyse 400 opptak av dialog menneske-menneske deprimerende lytting.. 150 WoZ-dialoger over telefon mer optimistisk ~ 30 k tekstbaserte forespørsler gjorde oss oppmerksom på betydningen av semantikk Taleteknologi - introduksjon Professor Torbjørn Svendsen, NTNU 18

TABOR-dialog (forenklet) Eksempel 1 Eksempel 2 Nei Info Start Velkommen Vet? Ja Fra hvor? Til hvor? Bussinfo Tidsinfo Avgang el. ankomst? Dag? Ja Tidsinfo? Ja Ja Nei Gjenta? Nei Annen avgang? Nei Annen buss? Nei Stopp Ja Taleteknologi - introduksjon Professor Torbjørn Svendsen, NTNU 19

Et nettverk for tidsangivelse Taleteknologi - introduksjon Professor Torbjørn Svendsen, NTNU 20

Start Taleteknologi - introduksjon Professor Torbjørn Svendsen, NTNU 21

Korrekt tidsangivelse Taleteknologi - introduksjon Professor Torbjørn Svendsen, NTNU 22

Vanlig tidsangivelse Taleteknologi - introduksjon Professor Torbjørn Svendsen, NTNU 23

Tekniske spesifikasjoner Linux basert PC-plattform TABULIB: C/C++ programvarebasis (Telenor FoU) TABUSS/BUSTUC: Prolog basert NLP-del Dialoghåndtering i Perl Frasekonkatenering 6 forskjellige talegjenkjennere valg av gjenkjenner avhengig av hvor i dialogen man befinner seg Taleteknologi - introduksjon Professor Torbjørn Svendsen, NTNU 24

Noen utfordinger Varierende måte å uttale tall og tidspunkt Folk benytter synonymer for navn på holdeplasser Folk vet ikke navnene på holdeplassene Systemet bryter sammen i kraftig bakgrunnsstøy For dårlig ytelse for barnestemmer Klar degradasjon i nøyaktighet for mobiltelefon Degradasjon i nøyaktighet for høyttalende telefoner Rigid dialog neste generasjon er mer fleksibel Taleteknologi - introduksjon Professor Torbjørn Svendsen, NTNU 25

Omgivelseskontroll Styring av omgivelsene ved bruk av talte kommandoer Hovedkostnaden ligger i automatisering og elektrisk/ maskinelt utstyr Nøyaktighet og brukervennlighet i talegjenkjenneren er vesentlig enkeltstående kommandoord eller setningskommandoer valg av vokabular er viktig forbedrer ytelsen til talegjenkjenneren unngå utilsiktet aktivisering av omgivelseskontrollen bruk tale der tale er best, bruk andre metoder der de er best! Taleteknologi - introduksjon Professor Torbjørn Svendsen, NTNU 26

Diktering Erstatning for tastaturbruk - hjelp for synshemmede, bevegelseshemmede, personer med lese- og skrivevansker Korrespondanse og annen tekstgenerering Dagens systemer gir noenlunde akseptabel ytelse for de fleste brukere Foreløpig ingen dikteringssystemer for norsk tale Krever normalisert uttale - ikke dialekt Mange (tillatte) alternative skrivemåter og bøyningsformer skaper spesielle problemer for norsk Egennavn (person-, steds-, firma-navn osv.) Taleteknologi - introduksjon Professor Torbjørn Svendsen, NTNU 27

Eksempel - svensk diktering Taleteknologi - introduksjon Professor Torbjørn Svendsen, NTNU 28

Lesemaskiner Talesyntese (tekst-til-tale) Lesehjelp til elektroniske dokumenter epost nettsider (inklusive nyheter og andre informasjonstjenester) tekst på papir (ved hjelp av optisk leser/scanner og optisk karaktergjenkjenning) Taleteknologi - introduksjon Professor Torbjørn Svendsen, NTNU 29

Taleprotese Talesyntese for personer med tapt/nedsatt taleevne Vanlig tastatur eller symboltastatur Forståelighet og naturlighet viktig Personlig tilpasning av syntetisk stemme stemmen en viktig del av personlig identitet relativt enkelt med gammeldags syntese, men dårlig kvalitet hittil et omfattende arbeid med moderne metoder som gir høy kvalitet forenklinger/forbedringer forventes Taleteknologi - introduksjon Professor Torbjørn Svendsen, NTNU 30

Døvetelefon Talegjenkjenning for oversettelse fra tale til tekst Gjenkjent tale vises på monitor/display Tekst til tale ved hjelp av talesyntese Talegjenkjenner Bla bla bla bla Talesyntese Taleteknologi - introduksjon Professor Torbjørn Svendsen, NTNU 31

Synface Hjelp for hørselshemmede Gir mulighet for munnavlesning som hjelp ved telefonbruk Taleteknologi - introduksjon Professor Torbjørn Svendsen, NTNU 32

Teleface Taleteknologi - introduksjon Professor Torbjørn Svendsen, NTNU 33

Skrivestøtte Hjelp til ortografi og formulering, spesielt rettet mot personer med lese- og skrivevansker Enkelt system: Gi brukeren valg (meny) mellom sannsynlige ordalternativer når feilstavede ord detekteres Inkluderer ordforklaring, ordklasse eks: jærne - alternativer hjerne, gjerne, jernet Mer avansert system: Automatisk tekstanalyse detekterer skrivefeil Analysen reduserer antall valgmuligheter Valgmulighetene kan leses opp med syntetisk tale (evt. hele setningen), eller listes opp i en meny Taleteknologi - introduksjon Professor Torbjørn Svendsen, NTNU 34

Nasjonal FoU-kompetanse Telenor R&I: ca. 4 forskere Talesyntese, talegjenkjenning, dialog kompetanse på talekoding SINTEF IKT 2 forskere med doktorgrad FoU innen Talegjenkjenning, dialogsystemer NTNU 6 professorer/1.amanuenser, 3 forskere/postdocs, 8-10 dr.gradsstipendiater aktive innen taleteknologi etablert flerfaglig samarbeid signalbehandling, akustikk, elektronikk, lingvistikk, fonetikk, NLP talegjenkjenning, talesyntese, dialog, stemmegjenkjenning, (talekoding) Taleteknologi - introduksjon Professor Torbjørn Svendsen, NTNU 35

Norsk tale- og språkteknologi Språkteknologien får økende betydning i IKT-samfunnet Språket viktig kulturbærer, og viktig for identitet og tilhørighet Behov for produkter og kunnskap for norsk språk Stadig mer avanserte systemer krever både språkkompetanse og teknologisk kompetanse behov for mer kompetanse - økt utdanning på hovedfags- og doktorgradsnivå mange uløste problemer, behov for mer kunnskap - forskning Taleteknologi - introduksjon Professor Torbjørn Svendsen, NTNU 36

Norsk tale- og språkteknologi Språkteknologien er avhengig av språkdata f.eks. dikteringssystemer: relevante taledata (lest/diktert tale, mange talere) - 300-1000 timer relevante tekstdata (> 200 millioner ord) uttaleleksikon (~100.000 grunnord) bokmål/nynorsk? telefonbasert dialogsystem (talegjenkjenner): telefontale, utrente brukere, støy tekst og uttaleleksikon som over Lite marked, store datamengder (og kostnader) Norsk språkbank Taleteknologi - introduksjon Professor Torbjørn Svendsen, NTNU 37

Hvor god er teknologien i dag? Taleteknologien har fortsatt betydelig forbedringspotensial Gjelder spesielt talegjenkjenning Likevel - tilstrekkelig god ytelse til at det er mulig å lage mange gode hjelpemidler - hvis man tar hensyn til at teknologien ikke er perfekt i designet Tale kan være svaret på mange problemer, men langt fra alle. Alternativer er bl.a.: sporing av øyefokus enkle knappeløsninger Taleteknologi - introduksjon Professor Torbjørn Svendsen, NTNU 38

Hva med norsk? Foreløpig relativt lite norske produkter basert på taleteknologi Hovedproblem: Mangel på språkdata Data fra NSTs konkursbo kjøpt våren 2007 Akustiske data (>1000 timer) Tekstdata (~700 MOrd) Innlemmet i Norsk språkbank Max Manus har dikteringssystemer for sykehusdomenet (Philips/ Nuance) Nuance har gjenkjennere for telefonanvendelser Telenor utvikler tjenester med taleteknologi Kommersiell norsk talesyntese fra Nuance (NST) og Acapela (Sverige) Flere (enkle) talebaserte tjenester tilgjengelig (systemintegrasjon) Behov for langt mer Taleteknologi - introduksjon Professor Torbjørn Svendsen, NTNU 39

Forskningsprosjekter ved NTNU BRAGE - Brukergrensesnitt med naturlig tale (2002-2006) VOCALS - Voice Centric User Interfaces for Location Based Services (2003-2008) FONEMA - Metodeutvikling for naturtro norsk talesyntese (2003-2007) SVoG - Storvokabular gjenkjenner for norsk (2007-2008) SIRKUS - Spoken Information Retrieval by Knowledge Utilization in Statistical Speech Processing (2008-2011) RUNDKAST - En transkribert database av kringkastede nyhetssendinger for språkteknologiske anvendelser (2005- ) Digitale utfordringer - deltakelse og funksjonshemming i informasjonssamfunnet (2007-2010) SMUDI - Stemmestyring for multimodal dialog (2007-2011) S2S - Sound to sense (Marie Curie nettverk, 2008-2011) Taleteknologi - introduksjon Professor Torbjørn Svendsen, NTNU 40