Taleteknologi Torbjørn Svendsen Institutt for elektronikk og telekommunikasjon NTNU Taleteknologi - introduksjon Professor Torbjørn Svendsen, NTNU 1
Taleteknologi - introduksjon Professor Torbjørn Svendsen, NTNU 2
Taleteknologi Speech is not just the future of Windows, but the future of computing itself William H. Gates III Computers are starting to do what most two-year-olds can do: identify spoken words and answer back IEEE Spectrum, Jan. 1997 Hyde s lov: The accuracy of speech recognizers is 98% S.R. Hyde, Joint Speech Research Unit, 1969 Korrolar: Because speech recognizers have an accuracy of 98%, tests must be arranged to prove it Taleteknologi - introduksjon Professor Torbjørn Svendsen, NTNU 3
Hvorfor tale? Enkelt naturlig kommunikasjonsform krever ingen særskilte forkunnskaper eller ferdigheter Frigjørende hender og øyne fri til andre oppgaver kan unngå tastatur og skjerm hjelp for funksjonshemmede Tilgjengelighet av informasjon hvor som helst, når som helst, hvem som helst For eksempel: Enkelt grensesnitt basert på tale og telefon Tale- og språkteknologi på norsk må ha en norsk basis språkkunnskap og teknologikunnskap Taleteknologi - introduksjon Professor Torbjørn Svendsen, NTNU 4
Taleteknologi - flerfaglig Elektronikk Signalbehandling Lingvistikk Statistikk Taleteknologi Fonetikk Psykologi Språkdata Informatikk Taleteknologi - introduksjon Professor Torbjørn Svendsen, NTNU 5
Talekoding Kompresjon/ dekompresjon Taleteknologi - introduksjon Professor Torbjørn Svendsen, NTNU 6
Talekoding Kompresjon for å spare båndbredde eller lagerplass Telefoni GSM, satellitt Internett Bildetelefon, MPEG Digital kringkasting Talepost Kombinasjon med eller supplement til talesyntese Manipulering av talesignaler Eks: generering av bredbånds tale fra telefontale, stemmetransformasjon Digital signalbehandling + kunnskap om taleproduksjon og talepersepsjon Taleteknologi - introduksjon Professor Torbjørn Svendsen, NTNU 7
Talegjenkjenning Send epost til Petter Taleteknologi - introduksjon Professor Torbjørn Svendsen, NTNU 8
Talegjenkjenning Tale-til-tekst Internasjonal status: God ytelse under kontrollerte forhold Problemer: Støy (bakgrunn, linje) talervariasjon uttalevariasjon variasjon i uttrykksmåte Behov for robust talegjenkjenning Tale Egenskapsuttrekking Mønstergjenkjenning Statistisk grammatikk Tekst Akustiske modeller Uttaleleksikon Grammatikk Taleteknologi - introduksjon Professor Torbjørn Svendsen, NTNU 9
Talegjenkjenning Kompleksitet (og ytelse) avhenger av Talemodus Isolerte ytringer - kontinuerlig tale Talermodus Talertrent - taleruavhengig - taleradaptivt Ordforråd Naturlighet Lest tale / diktering Spontan, naturlig tale Støyforhold Taleteknologi - introduksjon Professor Torbjørn Svendsen, NTNU 10
Talegjenkjenning - ytelse Oppgave Ordforråd Modus Ordnøyaktighet Oppgave Ordforråd Perpl Ordnøyaktighet Tall (0-9) 10 SI ~100% Sammenhengende tall 10 10 ~99% Stemme-oppringing 37 SD 100% Sjøforsvar ressurshåndtering 991 <60 97% Bokstaver + tall + kommandoord 39 SD/SI 96%/93% Flyreiseinformasjon 1800 <25 97% Flyreise, ord 129 SD/SI 99%/97% Næringslivsavis, transkripsjon Japanske bynavn 200 SD 97% Nyhetssendinger transkripsjon 64.000 <140 94% 64.000 <140 86% Basic English, ord 1109 SD 96% Samtale, transkripsjon 10.000 - ~68% Isolerte ord Kontinuerlig tale (Kilde: Soong &Juang, 2003) Taleteknologi - introduksjon Professor Torbjørn Svendsen, NTNU 11
Stemmegjenkjenning Jeg er Torbjørn Det er feil! Du er ikke Torbjørn. Taleteknologi - introduksjon Professor Torbjørn Svendsen, NTNU 12
Stemmegjenkjenning Talerverifikasjon Verifisering av påstått identitet Adgangskontroll (fysisk eller logisk) Feiltyper: Feil taler akseptert/sann taler avvist Typisk ytelse: ca. 1-2 % feilrate Taleridentifikasjon Bestemmelse av en talers identitet Ofte kriminaltekniske anvendelser Generelt ~uendelig sett av mulige talere vanskelig å estimere feilrate Hvis endelig antall mulige talere, pålitelig (jfr. talerverifikasjon) Baseres ofte på samme teknologi som talegjenkjenning Taleteknologi - introduksjon Professor Torbjørn Svendsen, NTNU 13
Talesyntese Du har fått epost fra Petter Taleteknologi - introduksjon Professor Torbjørn Svendsen, NTNU 14
Talesyntese Konvertering fra tekst til tale: Frasekonkatenering - skjøting av setningsdeler Begrenset meldingsrepertoar Tungvint å gjøre endringer Tekst-til-tale syntese (TTS) All tekst kan leses opp Begrensning på språk Behov for forbedret talekvalitet Prosodimodellering Lydgenerering Tolkning og realisering av emosjoner Tekst Tekst til lydskrift Intonasjon Lydgenerering Tale TTS Uttaleordliste og -regler Modeller og regler Lyddata Taleteknologi - introduksjon Professor Torbjørn Svendsen, NTNU 15
Eksempel - norsk talesyntese Norsk: De enkleste og mest etablerte former for taleteknologiske anvendelser er i sin helhet basert på generelle prinsipper for digital signalbehandling. Dette vil si at tale, i form av analoge lydsignaler, kodes digitalt, for dermed å kunne lagres i datamaskiner og ved behov reproduseres som analoge signaler gjennom dekoding. Det er dette som skjer ved vanlig telefoni (etter digitaliseringen av telenettet) og naturligvis ved GSM mobiltelefoni, som i utgangspunktet er et heldigitalt system. Arne Engelsk (på norsk): The simplest and most established applications of speech technology are completely based on general principles of digital signal processing. This means that speech, represented by analog signals, are digitally encoded for computer storage, and can be reproduced on demand as analog signals through decoding. This is what happens in ordinary telephony (since the telecommuncations networks became digital) and of course in GSM mobile telephony, which from the origin was a completely digital system. Arne Henrik t15 Taleteknologi - introduksjon Professor Torbjørn Svendsen, NTNU 16
Dialogsystem Hvor skal du reise fra? Når går neste buss til sentrum? Talegjenkjenning Grammatisk og semantisk analyse Dialoghåndtering Data Talesyntese Dialogsystem Taleteknologi - introduksjon Professor Torbjørn Svendsen, NTNU 17
Dialoganalyse 400 opptak av dialog menneske-menneske deprimerende lytting.. 150 WoZ-dialoger over telefon mer optimistisk ~ 30 k tekstbaserte forespørsler gjorde oss oppmerksom på betydningen av semantikk Taleteknologi - introduksjon Professor Torbjørn Svendsen, NTNU 18
TABOR-dialog (forenklet) Eksempel 1 Eksempel 2 Nei Info Start Velkommen Vet? Ja Fra hvor? Til hvor? Bussinfo Tidsinfo Avgang el. ankomst? Dag? Ja Tidsinfo? Ja Ja Nei Gjenta? Nei Annen avgang? Nei Annen buss? Nei Stopp Ja Taleteknologi - introduksjon Professor Torbjørn Svendsen, NTNU 19
Et nettverk for tidsangivelse Taleteknologi - introduksjon Professor Torbjørn Svendsen, NTNU 20
Start Taleteknologi - introduksjon Professor Torbjørn Svendsen, NTNU 21
Korrekt tidsangivelse Taleteknologi - introduksjon Professor Torbjørn Svendsen, NTNU 22
Vanlig tidsangivelse Taleteknologi - introduksjon Professor Torbjørn Svendsen, NTNU 23
Tekniske spesifikasjoner Linux basert PC-plattform TABULIB: C/C++ programvarebasis (Telenor FoU) TABUSS/BUSTUC: Prolog basert NLP-del Dialoghåndtering i Perl Frasekonkatenering 6 forskjellige talegjenkjennere valg av gjenkjenner avhengig av hvor i dialogen man befinner seg Taleteknologi - introduksjon Professor Torbjørn Svendsen, NTNU 24
Noen utfordinger Varierende måte å uttale tall og tidspunkt Folk benytter synonymer for navn på holdeplasser Folk vet ikke navnene på holdeplassene Systemet bryter sammen i kraftig bakgrunnsstøy For dårlig ytelse for barnestemmer Klar degradasjon i nøyaktighet for mobiltelefon Degradasjon i nøyaktighet for høyttalende telefoner Rigid dialog neste generasjon er mer fleksibel Taleteknologi - introduksjon Professor Torbjørn Svendsen, NTNU 25
Omgivelseskontroll Styring av omgivelsene ved bruk av talte kommandoer Hovedkostnaden ligger i automatisering og elektrisk/ maskinelt utstyr Nøyaktighet og brukervennlighet i talegjenkjenneren er vesentlig enkeltstående kommandoord eller setningskommandoer valg av vokabular er viktig forbedrer ytelsen til talegjenkjenneren unngå utilsiktet aktivisering av omgivelseskontrollen bruk tale der tale er best, bruk andre metoder der de er best! Taleteknologi - introduksjon Professor Torbjørn Svendsen, NTNU 26
Diktering Erstatning for tastaturbruk - hjelp for synshemmede, bevegelseshemmede, personer med lese- og skrivevansker Korrespondanse og annen tekstgenerering Dagens systemer gir noenlunde akseptabel ytelse for de fleste brukere Foreløpig ingen dikteringssystemer for norsk tale Krever normalisert uttale - ikke dialekt Mange (tillatte) alternative skrivemåter og bøyningsformer skaper spesielle problemer for norsk Egennavn (person-, steds-, firma-navn osv.) Taleteknologi - introduksjon Professor Torbjørn Svendsen, NTNU 27
Eksempel - svensk diktering Taleteknologi - introduksjon Professor Torbjørn Svendsen, NTNU 28
Lesemaskiner Talesyntese (tekst-til-tale) Lesehjelp til elektroniske dokumenter epost nettsider (inklusive nyheter og andre informasjonstjenester) tekst på papir (ved hjelp av optisk leser/scanner og optisk karaktergjenkjenning) Taleteknologi - introduksjon Professor Torbjørn Svendsen, NTNU 29
Taleprotese Talesyntese for personer med tapt/nedsatt taleevne Vanlig tastatur eller symboltastatur Forståelighet og naturlighet viktig Personlig tilpasning av syntetisk stemme stemmen en viktig del av personlig identitet relativt enkelt med gammeldags syntese, men dårlig kvalitet hittil et omfattende arbeid med moderne metoder som gir høy kvalitet forenklinger/forbedringer forventes Taleteknologi - introduksjon Professor Torbjørn Svendsen, NTNU 30
Døvetelefon Talegjenkjenning for oversettelse fra tale til tekst Gjenkjent tale vises på monitor/display Tekst til tale ved hjelp av talesyntese Talegjenkjenner Bla bla bla bla Talesyntese Taleteknologi - introduksjon Professor Torbjørn Svendsen, NTNU 31
Synface Hjelp for hørselshemmede Gir mulighet for munnavlesning som hjelp ved telefonbruk Taleteknologi - introduksjon Professor Torbjørn Svendsen, NTNU 32
Teleface Taleteknologi - introduksjon Professor Torbjørn Svendsen, NTNU 33
Skrivestøtte Hjelp til ortografi og formulering, spesielt rettet mot personer med lese- og skrivevansker Enkelt system: Gi brukeren valg (meny) mellom sannsynlige ordalternativer når feilstavede ord detekteres Inkluderer ordforklaring, ordklasse eks: jærne - alternativer hjerne, gjerne, jernet Mer avansert system: Automatisk tekstanalyse detekterer skrivefeil Analysen reduserer antall valgmuligheter Valgmulighetene kan leses opp med syntetisk tale (evt. hele setningen), eller listes opp i en meny Taleteknologi - introduksjon Professor Torbjørn Svendsen, NTNU 34
Nasjonal FoU-kompetanse Telenor R&I: ca. 4 forskere Talesyntese, talegjenkjenning, dialog kompetanse på talekoding SINTEF IKT 2 forskere med doktorgrad FoU innen Talegjenkjenning, dialogsystemer NTNU 6 professorer/1.amanuenser, 3 forskere/postdocs, 8-10 dr.gradsstipendiater aktive innen taleteknologi etablert flerfaglig samarbeid signalbehandling, akustikk, elektronikk, lingvistikk, fonetikk, NLP talegjenkjenning, talesyntese, dialog, stemmegjenkjenning, (talekoding) Taleteknologi - introduksjon Professor Torbjørn Svendsen, NTNU 35
Norsk tale- og språkteknologi Språkteknologien får økende betydning i IKT-samfunnet Språket viktig kulturbærer, og viktig for identitet og tilhørighet Behov for produkter og kunnskap for norsk språk Stadig mer avanserte systemer krever både språkkompetanse og teknologisk kompetanse behov for mer kompetanse - økt utdanning på hovedfags- og doktorgradsnivå mange uløste problemer, behov for mer kunnskap - forskning Taleteknologi - introduksjon Professor Torbjørn Svendsen, NTNU 36
Norsk tale- og språkteknologi Språkteknologien er avhengig av språkdata f.eks. dikteringssystemer: relevante taledata (lest/diktert tale, mange talere) - 300-1000 timer relevante tekstdata (> 200 millioner ord) uttaleleksikon (~100.000 grunnord) bokmål/nynorsk? telefonbasert dialogsystem (talegjenkjenner): telefontale, utrente brukere, støy tekst og uttaleleksikon som over Lite marked, store datamengder (og kostnader) Norsk språkbank Taleteknologi - introduksjon Professor Torbjørn Svendsen, NTNU 37
Hvor god er teknologien i dag? Taleteknologien har fortsatt betydelig forbedringspotensial Gjelder spesielt talegjenkjenning Likevel - tilstrekkelig god ytelse til at det er mulig å lage mange gode hjelpemidler - hvis man tar hensyn til at teknologien ikke er perfekt i designet Tale kan være svaret på mange problemer, men langt fra alle. Alternativer er bl.a.: sporing av øyefokus enkle knappeløsninger Taleteknologi - introduksjon Professor Torbjørn Svendsen, NTNU 38
Hva med norsk? Foreløpig relativt lite norske produkter basert på taleteknologi Hovedproblem: Mangel på språkdata Data fra NSTs konkursbo kjøpt våren 2007 Akustiske data (>1000 timer) Tekstdata (~700 MOrd) Innlemmet i Norsk språkbank Max Manus har dikteringssystemer for sykehusdomenet (Philips/ Nuance) Nuance har gjenkjennere for telefonanvendelser Telenor utvikler tjenester med taleteknologi Kommersiell norsk talesyntese fra Nuance (NST) og Acapela (Sverige) Flere (enkle) talebaserte tjenester tilgjengelig (systemintegrasjon) Behov for langt mer Taleteknologi - introduksjon Professor Torbjørn Svendsen, NTNU 39
Forskningsprosjekter ved NTNU BRAGE - Brukergrensesnitt med naturlig tale (2002-2006) VOCALS - Voice Centric User Interfaces for Location Based Services (2003-2008) FONEMA - Metodeutvikling for naturtro norsk talesyntese (2003-2007) SVoG - Storvokabular gjenkjenner for norsk (2007-2008) SIRKUS - Spoken Information Retrieval by Knowledge Utilization in Statistical Speech Processing (2008-2011) RUNDKAST - En transkribert database av kringkastede nyhetssendinger for språkteknologiske anvendelser (2005- ) Digitale utfordringer - deltakelse og funksjonshemming i informasjonssamfunnet (2007-2010) SMUDI - Stemmestyring for multimodal dialog (2007-2011) S2S - Sound to sense (Marie Curie nettverk, 2008-2011) Taleteknologi - introduksjon Professor Torbjørn Svendsen, NTNU 40