Analog. INF 1040 Sampling, kvantisering og lagring av lyd. Kontinuerlig. Digital

Like dokumenter
INF 1040 Sampling, kvantisering og lagring av lyd

INF 1040 Sampling, kvantisering og lagring av lyd

Analog. INF 1040 Sampling, kvantisering og lagring av lyd. Kontinuerlig. Digital

Analog. INF 1040 Sampling, kvantisering og lagring av lyd. Kontinuerlig. Digital

Tema nr 2: Analog eller digital, kontinuerlig eller diskret. Eksempel på ulike båndbredder. Frekvensinnhold og båndbredde. Analog

Sampling, kvantisering og lagring av lyd

INF 1040 høsten 2008: Oppgavesett 9 Sampling og kvantisering av lyd (kapittel 11)

Repetisjon: Sampling. Repetisjon: Diskretisering. Repetisjon: Diskret vs kontinuerlig. Forelesning, 12.februar 2004

Temaer i dag. Mer om romlig oppløsning. Optisk avbildning. INF 2310 Digital bildebehandling

Sampling av bilder. Romlig oppløsning, eksempler. INF Ukens temaer. Hovedsakelig fra kap. 2.4 i DIP

Forelesning, 23.februar INF2400 Sampling II. Øyvind Ryan. Februar 2006

Forelesning, 17.februar INF2400 Sampling II. Øyvind Ryan. Februar 2005

Løsningsforslag til kapittel 11 sampling, kvantisering og lagring av lyd

INF januar 2017 Ukens temaer (Kap med drypp fra kap. 4. i DIP)

TDT4105/TDT4110 Informasjonsteknologi grunnkurs:

For J kvantiseringsnivåer er mean square feilen:

Temaer i dag. Mer om romlig oppløsning. Optisk avbildning. INF 2310 Digital bildebehandling

INF 1040 høsten 2009: Oppgavesett 8 Introduksjon til lyd (kapittel 9 og 10)

INF1040 Digital representasjon

INF 2310 Digital bildebehandling

INF 2310 Digital bildebehandling

INF 2310 Digital bildebehandling

INF 2310 Digital bildebehandling

Forkunnskapskrav. Hva handler kurset om. Kontaktinformasjon. Kurset er beregnet på en student som kan

Lyd. Litt praktisk informasjon. Litt fysikk. Lyd som en funksjon av tid. Husk øretelefoner på øvelsestimene denne uken og en stund framover.

MPEG-1 lag 1, 2 og lag 3

MPEG-1 lag 1, 2 og lag 3

INF 1040 Digital representasjon 2007 Utkast til - Obligatorisk oppgave nr 2

Lektor 2 for Stovner VGS 12. februar 2013

Introduksjon til lyd. Det ytre øret. Fra lydbølger til nerveimpulser. INF Digital representasjon : Introduksjon til lyd.

INF1040 Digital representasjon Oppsummering 2008 del II

Analog til digital omformer

INF1040 Digital representasjon Oppsummering 2008 del II

MPEG-1 lag 1, 2 og lag 3

f(t) F( ) f(t) F( ) f(t) F( )

Digitalisering av lyd

Digital sampling og analog estetikk

Kap 7: Digital it prosessering av analoge signaler

Det fysiske laget, del 2

Den analoge verden blir digitalisert

UNIVERSITETET I OSLO

FFT. Prosessering i frekvensdomenet. Digital signalprosessering Øyvind Brandtsegg

INF Digital representasjon : Introduksjon til lyd

6DPSOLQJ DY NRQWLQXHUOLJH VLJQDOHU

Obligatorisk oppgave nr 4 FYS Lars Kristian Henriksen UiO

7.3 Samplerate-konvertering

3UDNWLVN DQYHQGHOVH DY ')7

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

Fysisk Lag. Overføringskapasitet. Olav Lysne med bidrag fra Kjell Åge Bringsrud, Pål Spilling og Carsten Griwodz

UNIVERSITETET I OSLO

Noen presiseringer mhp Diskret Fourier Transform. Relevant for oblig 1.

Læringsmål tall. Prefikser for potenser av Store tall. Kunne prefikser for store tall i. det binære tallsystemet

LØSNINGSFORSLAG TIL SIGNALBEHANDLING 1 JUNI 2010

Hjelpemidler: D Ingen trykte eller håndskrevne hjelpemidler tillatt. Bestemt, enkel kalkulator tillatt.

DV - CODEC. Introduksjon

Læringsmål tall. Kunne prefikser for store tall i. det binære tallsystemet. Forstå ulike prinsipper for representasjon av.

Introduksjon til lyd. Litt praktisk informasjon. Fra lydbølger til nerveimpulser. Det ytre øret

Reelle tall på datamaskin

Lyd på datamaskiner. Knut Mørken. November 17, 2008

MAT-INF 2360: Obligatorisk oppgave 1

HØGSKOLEN I SØR-TRØNDELAG Avdeling for teknologi

Sampling ved Nyquist-raten

Løsning av øvingsoppgaver, INF2310, 2005, kompresjon og koding

Introduksjon til lyd. Det ytre øret. Fra lydbølger til nerveimpulser. INF Digital representasjon : Introduksjon til lyd.

Hjelpemidler: D Ingen trykte eller håndskrevne hjelpemidler tillatt. Bestemt, enkel kalkulator tillatt.

Løsningsforslag, Ukeoppgaver 9 INF2310, våren kompresjon og koding del I

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO.

UNIVERSITETET I OSLO

TMA Matlab Oppgavesett 2

Introduksjon til lyd. Litt praktisk informasjon. Fra lydbølger til nerveimpulser. Det ytre øret

Repetisjon: Eksempel. Repetisjon: Aliasing. Oversikt, 26.februar Gitt. Alle signaler. Ettersom. vil alle kontinuerlig-tid signaler.

INF Digital representasjon : Introduksjon til lyd

Tall. Posisjons-tallsystemer. Representasjon av heltall. Tall positive, negative heltall, flytende tall. Tekst ASCII, UNICODE XML, CSS

INF Stikkord over pensum til midtveis 2017 Kristine Baluka Hein

Datakonvertering. analog til digital og digital til analog

y(t) t

UNIVERSITETET I OSLO.

Vedlegg B; Nedbøralgoritme.

Cubase Digital lydredigering

Datakonvertering. analog til digital og digital til analog

Dagens temaer. Endelig lengde data. Tema. Time 11: Diskret Fourier Transform, del 2. Spektral glatting pga endelig lengde data.

KAPITTEL 10 Flerskala-analyse og kompresjon av lyd

Introduksjon til lyd. Litt praktisk informasjon. Det ytre øret. Fra lydbølger til nerveimpulser

Løsningsforslag til kapittel 10 - Lydbølger

Fourier-Transformasjoner II

Tips til arbeidet med obligatorisk oppgave 2 i MAT-INF 1100 høsten 2004

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

KAPITTEL 4 Følger og differensligninger

UTVIDET TEST AV PROGRAM

Oblig 1 FYS2130. Elling Hauge-Iversen

Hurtigtest femords setninger

Kap 7: Digital prosessering av analoge signaler. 1. Sampling og rekonstruksjon 2. Finne spektret til samplet signal

Utkast med løsningshint inkludert UNIVERSITETET I OSLO

The Good, the Bad, the Ugly. gy Fra vinyl til høyoppløst digitallyd. Sverre Holm November 2018

UNIVERSITETET I OSLO

Midtveiseksamen. INF Digital Bildebehandling

Transkript:

INF 14 Sampling, kvantisering og lagring av lyd Temaer i dag : 1. Analog eller digital, kontinuerlig eller diskret 2. Sampling, kvantisering, digitalisering 3. Nyquist-Shannon teoremet 4. Oversampling, undersampling, aliasing 5. Avspilling av digitalisert lyd 6. Maskering og redundans 7. Maskering av lyd i praksis 8. Standarder og fil-formater Pensumlitteratur: Læreboka, kapittel 11 NB! Bruk appendiks A! Analog Analog: Any form of transmission of information where the transmitted signal s amplitude or frequency is varied in direct proportion to the intensity of the sound,. Chambers Dictionary of Science and Technology I analog lagring av lyd er det en direkte proporsjonalitet mellom den virkelige lydintensiteten og det vi lagrer, og den lagrede informasjonen er kontinuerlig. INF14-lyd2-1 INF14-lyd2-2 Kontinuerlig Digital Et kontinuerlig lydsignal er et lydsignal som funksjon av tid der signalstyrken kan ha uendelig høy presisjon, og signalet eksisterer for alle verdier av tiden innenfor et intervall i tid. En variabel t som er definert over et intervall a < t < b er kontinuerlig dersom vi innenfor intervallet har uendelig oppløsning, slik at t kan ha hvilken som helst verdi innenfor grensene. Begrepet digital brukes for å beskrive at informasjonen er representert ved diskrete signaler, eller ved at et bestemt signal finnes eller ikke finnes - i bestemte posisjoner, - til bestemte tider, - ved bestemte frekvenser; - eller ved kombinasjoner av disse. INF14-lyd2-3 INF14-lyd2-4

Diskret Fra artist via CD til ditt øre Vi sier at en variabel t som er definert i et intervall a < t < b er diskret dersom vi har en endelig oppløsning innenfor intervallet, slik at settet med mulige verdier av t innenfor grensene er begrenset. En diskret-tid representasjon av et lydsignal er altså et lydsignal som bare er målt på visse tidspunkter. A/D-omformer Sampling Kvantisering D/A-omformer Filtering Interpolasjon INF14-lyd2-5 INF14-lyd2-6 Repetisjon: Diskretisering i rommet Punkter i flerdimensjonale rom må snappes til nærmeste representerbare punkt på samme måte som tall (punkter i det endimensjonale rom) snappes til nærmeste representerbare tall Diskretisering av lyd Vi bestemmer på forhånd hvor ofte vi skal måle ( sample ) lydintensiteten. Dette er samplingsfrekvensen. Selve målingen kvantiseres ( snappes ) til nærmeste (eller nærmeste mindre) representerbare verdi. Lydintensitet, y(t) Eksakt verdi Diskretisert verdi Hvor presist? Kvantiseringsnivåer Eksakt verdi Diskretisert verdi Tid, t hvor ofte? - Samplingsraten INF14-lyd2-7 INF14-lyd2-8

Diskret representasjon av et kontinuerlig lydsignal Alle lydsignaler må samples og kvantiseres for å kunne lagres digitalt. Samplingsintervall og samplingsfrekvens Sampling er første skritt i en digitalisering. Tiden diskretiseres, og vi tar bare vare på en sekvens av lydintensitetsverdier y(t) ved bestemte diskrete tidspunkter. Amplitude 1-1,1,2,3 tid, sekunder Hvor ofte? - Samplingsraten Sekvensen y[n], for n =,1,2,3,, N-1 er en diskret-tid (eller digital) representasjon av det kontinuerlige signalet y(t). Tidsavstanden mellom to sampler, gitt i sekunder (eller millisekunder) kalles samplingsintervallet, T s Prosessen som gjør signalet diskret i tid kalles sampling. Å sample et signal vil si å plukke ut verdien til signalet på tidspunkter med gitte intervaller. Lydintensiteten ved tiden t, y(t) må så kvantiseres for å kunne lagres (f.eks. til un-signed byte som gir verdiene -255). Hvis samplingsintervallet er det samme mellom alle sampler sier vi at vi har en uniform sampling. Samplingsfrekvens (også kalt samplingsrate) angis i Hz, og er det inverse av samplingsintervallet, f s = 1 / T s Samplingen gjøres av en A/D-omformer ved at lydintensiteten (i praksis mikrofonspenningen) holdes i et lite tidsintervall. INF14-lyd2-9 INF14-lyd2-1 Lydintensiteten holdes fast i samplingsintervallet Den kontinuerlige kurven vi skal sample Tidspunktene vi skal sample på Sampling gjøres av A/D-omformeren ved at en lydintensitet / spenning holdes fast i et lite tidsintervall (samplingsintervallet) Kvantisering - et begrep fra latin (quantitas, mengde, antall; quantus, hvor stor). kvantifisere om det å uttrykke noe relativt presist i en målbar størrelse, til forskjell fra en kvalitativ, omtrentlig angivelse. kvantisere en prosess som avrunder signal-amplituden til alle leddene i en sekvens av sampler av et kontinuerlig signal y(t) til bestemte diskrete verdier gjerne heltall. quantization the division of the amplitude range of a continuously variable signal into discrete levels for the purpose of sampling and coding Chambers Dictionary of Science and Technology quantize to limit a variable to values that are integral multiplies of a basic unit. Collins English Dictionary INF14-lyd2-11 INF14-lyd2-12

Uniform kvantisering Anta at spenningen varierer mellom y min og y max. Anta at vi deler området mellom y min og y max i N kvantiseringsnivåer. Da er B = {b, b 1,, b N } de N+1 beslutningsgrensene som bestemmer hvilket nivå en målt spenning y(t) havner i. Vi har N forskjellige outputverdier eller rekonstruksjonsnivåer, Q = {q 1, q 2,, q N }. Hvis alle kvantiseringsnivåene har lik bredde,, kalles dette uniform kvantisering. Her illustrert for N = 4 nivåer med lik bredde. kvantisert variabel q 4 q 3 q 2 q 1 b y min b 1 b 2 kontinuerlig variabel hvor presist? Kvantiseringsnivåer b 3 b 4 y max INF14-lyd2-13 Kvantiseringsfeil Anta at y(t) rekonstrueres til verdien q. Da får vi en kvantiseringsfeil e = y(t) - q. La oss si at vi velger q slik at den ligger midt i kvantiseringscellen ( midread, se lysark INF14-lyd2-18). Den største kvantiseringsfeilen vi kan få for et sampel er da halvparten av bredden på en kvantiseringscelle: y(t) Alle verdier i dette intervallet kvantiseres til samme verdi q. Kvantiseringsfeilen e q INF14-lyd2-14 Signal/støyforhold Signal/støyforholdet (Signal-to-Noise Ratio, SNR) uttrykkes ofte i desibel En høy SNR-verdi forteller at støyen er lite hørbar i forhold til signalet. Hvis vi uttrykker omfanget av signalet med y og omfanget av støyen med s, så kan signal/støy-forholdet uttrykkes ved 2 y SNR = 1 log 1 = 2 log 2 1 s Husk at lydintensiteten, dvs. effekten i en lydbølge, er proporsjonal med kvadratet av amplituden. y s Kvantiseringsstøy (for de interesserte) Kvantiseringsfeil kan gi opphav til hørbar kvantiseringsstøy. Anta at vi bruker N biter per sampel, og at det analoge signalet ligger i området fra y max til +y max. Da har signalet en største verdi på omtrent 2 N-1. Den største kvantiseringsfeilen er 1/2, som vi har sett ovenfor. Vi får da for det såkalte signal/kvantiseringsstøy-forholdet ( Signal-to-Quantization Noise Ratio ): SQNR db) = 2log N 1 2 = 2 N log 1/ 2 ( 1 1 ( 2) 6 N Hver ekstra bit vi bruker til et sampel gir oss ca 6 db bedre SQNR. 16 biter (CD-standard) gir oss en SQNR på minst 16 x 6 db = 96 db. INF14-lyd2-15 INF14-lyd2-16

Hvor mange kvantiseringsnivåer trenger vi? Når vi skal velge antall kvantiseringsnivåer, kan vi bruke det vi vet om hva øret kan oppfatte. Kvantiseringsfeil som er så små at vi ikke kan høre dem, er OK. Fordi vi stiller ulike krav til kvalitet, kan vi velge ulike nivåer for tale, musikk og telefoner. Musikk-CD: 16 biter (65 536 nivåer), samplingsfrekvens 44 1 Hz Digital telefon: 8 biter (256 nivåer), samplingsfrekvens 8 Hz Fordi kvantiseringsnivåene representeres i det binære tallsystemet, velger vi antall kvantiseringsnivåer som en potens av 2, altså 2 n. n er dermed antall biter per sampel (den såkalte ordlengden). n = log 2 (antallnivåer) Amplitude.15.1.5 -.5 -.1 -.15 -.2 -.25 Kvantisering av Beethovens 5. symfoni Beethoven, Symfoni Bethovens No. 59., Op. samplet 67, 1. med sats, 44.1 samplet khz med 44.1 khz 16 bit kvantisering 4 bit kvantisering -.3 2 4 6 8 1 12 Tid 16 biters kvantisering høres slik ut: lyd36.wav Er det lurt å komprimere lydfilen ved å redusere ordlengden fra 16 til 4 biter? 4 biters kvantisering høres slik ut : lyd37.wav Altså: Ikke særlig lurt! INF14-lyd2-17 INF14-lyd2-18 Midtread kvantisering Vi har så langt skalert og kvantisert en kontinuerlig variabel y(t) i området fra y min til y max til heltallene fra til G-1 ved å runde av til nærmeste heltall: y( t) y f = Round G ymax y min min Dette kalles medread -kvantisering. Midread -kvantisering gir oss bl.a. en kvantiseringscelle sentrert omkring null, hvilket kan være en fordel hvis inputsignalet y(t) ofte er. Ulempe: Vi får G+1 kvantiseringsnivåer, og første og siste kvantiseringscelle er ikke like brede som de andre. kvantisert variabel 8 "midtread" kvantisering -1 1 kvantiseringsfeil: kontinuerlig variabel Midrise kvantisering Et alternativ er midrise -kvantisering, der vi alltid går ned til største heltall mindre eller lik y(t) (floor-funksjonen). Da blir ligningen f = Int G y( t) y max y y min min Hvis vi i tilegg klipper verdien som svarer til y max, får vi G output-verdier, og alle kvantiseringsceller er like brede. Midrise -kvantisering kan imidlertid gi kvantiseringsstøy hvis signalet y(t) er nær. kvantisert variabel 8 "midrise" kvantisering -1 1 kvantiseringsfeil: kontinuerlig variabel INF14-lyd2-19 INF14-lyd2-2

Nyquist-teoremet Vi har et fundamentalt spørsmål: Hvor ofte må vi måle lydintensiteten i et gitt lydsignal? Harry Nyquist og Claude Shannon ga oss følgende teorem: Anta at et analogt signal er bånd-begrenset, dvs. at det ikke har sinuskomponenter med frekvenser over et maksimum f max. Signalet kan da rekonstrueres eksakt fra de samplene vi har, hvis samplingsfrekvensen f s = 1/T s er større enn 2f max. 2f max kalles Nyquist-raten. Hvis vi sampler med en samplingsfrekvens f s som er minst 2f max, så sampler vi i henhold til Nyquist-teoremet. Anta at vi skal sample lyd slik at vi kan rekonstruere alle hørbare frekvenser (opp til 2 Hz) uten noen feil eller forvrenging. Hva er f s? Sampling med Nyquist-raten Diskret til analog rekonstruksjon gir som resultat den kombinasjon av sinusoider som - er kompatibelt med det diskrete signalet - har lavest mulige frekvenser Sampler vi med lavere frekvens enn Nyquist-raten og senere forsøker å rekonstruere det analoge signalet, får vi rekonstruert feil signal. I praksis oversampler vi med en viss faktor for å få god rekonstruksjon. INF14-lyd2-21 INF14-lyd2-22 Oversampling og undersampling Oversampling Oversampling betyr at vi sampler med en høyere samplingsrate enn 2f max. I rekonstruksjonen gjøres en filtrering/prosessering for å få tilbake det analoge signalet. Vi sampler for eksempel en f =125 Hz sinus med f s =1 khz som gir f s /f = 1 /125 = 8 sampler pr periode. Dette er en 4X oversampling (svarte piler i figuren). Denne filtreringen blir enklere og kan gjøres raskere hvis vi oversampler. 1 125 Hz 62,5 Hz Vi vil også få redusert kvantiseringsstøyen. Dersom vi oversampler med for høy faktor, øker lagringsbehovet unødvendig mye. Amplitude Undersampling betyr at vi sampler med lavere samplingsrate enn 2f max. -1,1,2,3,4,5,6,7,8 tid, sekunder Da får vi forvrenginger i frekvensinnholdet/aliasing. INF14-lyd2-23 INF14-lyd2-24

Undersampling og aliasing Aliasing betegner det fenomenet at en sinusoid ved for lav samplingsrate gir opphav til samme diskrete signal som en sinusoid med lavere frekvens. Vi sampler for eksempel en f =125 Hz sinus med f s = 1.5 f = 187.5 Hz. 1 Dette gir for eksempel sampler ved t =.2 og ved t =.733 125 Hz 62,5 Hz (stiplede røde piler). Rekonstruksjon gir sinus med f a = 62.5 Hz, -1 (stiplet kurve i figuren). tid, sekunder Vi har fått en aliasing. Merk at f a = f s f når f < f s < 2 f Amplitude,1,2,3,4,5,6,7,8 INF14-lyd2-25 Frekvensfolding (for de interesserte) I figuren til høyre vises ½ sekund av tre sinus-funksjoner med frekvenser 2, 4 og 6 Hz. Vi sampler med en fast f s = 8Hz Vi får rekonstruert sinusoider med henholdsvis f = 2, 4 og 2 Hz. f som er under halvparten av f s blir rekonstruert til korrekt frekvens f mellom ½ f s og f s, blir rekonstruert til f a = f s f fa / fs 1-1,125, 25,375, 5,5 tid, sekunder Frekvensfolding,5 1 f / fs INF14-lyd2-26 Fra artist via CD til ditt øre Fra samplede punkter til avspilling Når lydsignalet skal spilles av, må det konverteres tilbake til et kontinuerlig / analogt signal igjen. Denne konverteringen kalles D/A-omforming (Digital -> Analog) og gjøres f.eks. i CD-spilleren (eller i programmet play). For å spille av lydsignalet, må vi vite samplingsraten. Vi må vite tidsintervallet mellom et sampel og det neste. A/D-omformer Sampling Kvantisering Sample med 44 1 Hz Kvantisere til 16 biter D/A-omformer Filtering Interpolasjon Avspillingsprogrammet vet at på tidspunkt t 1 var lydstyrken l 1, og på tidspunkt t 2 var lydstyrken l 2. l l 1 l 2 l 3 l 4 l 5 l 6 t t 1 t 2 t 3 t 4 t 5 t 6 INF14-lyd2-27 INF14-lyd2-28

Mer om avspilling Avspillingsprogrammet må også fylle ut med lydverdier mellom hvert sampel, dvs. f.eks. mellom tidspunkt t og tidspunkt t 1. Dette kan gjøres på flere måter (algoritmer), f.eks. Ved Avspilling ved å sette inn kopier av sampel Denne algoritmen sier at lydsignalet har samme lydstyrke på alle tidspunkt mellom samplene, f.eks. mellom tidspunkt t og tidspunkt t 1. Sette inn kopier av forrige sampel Lineær interpolasjon Høyere-ordens interpolasjon Dette gjøres vanligvis ved at vi sier vi skifter fra lydstyre l til l 1 på et tidspunkt midt mellom sampel t og t 1, osv. Med denne metoden skifter signalet brått fra en verdi til en annen. Brå skifter gir ikke alltid god lyd! Husk at for å representere slike brå skift trengs det mange frekvenskomponenter, helt opp til de mest høyfrekvente! Jf. lærebokas avsnitt 8.4 om interpolasjon! t t 1 t 2 t 3 t 4 t 5 t 6 t t 1 t 2 t 3 t 4 t 5 t 6 INF14-lyd2-29 INF14-lyd2-3 Avspilling ved lineær interpolasjon Algoritmen sier at lydsignalet har endrer seg gradvis fra den lydstyrken det hadde på tidspunkt t til den lydstyrken det skal ha på tidspunkt t 1. Lydstyrken på tidspunkt mellom t til t 1 finnes ved å legge en rett linje mellom verdien på tidspunkt t og verdien på tidspunkt t 1. Med denne måten blir det ikke så brå skifter i lydstyrke. Den avspilte lyden vil ikke inneholde så høye frekvenser som i forrige algoritme. (Husk lyden av trekant- og firkantpulser!) Avspilling ved høyere-ordens interpolasjon Algoritmen antar at lydsignalet har endrer seg gradvis fra den lydstyrken det hadde på tidspunkt t til den lydstyrken det skal ha på tidspunkt t 1. Lydstyrken på tidspunkt mellom t til t 6 finnes ved å tilpasse en glatt kurve (f.eks. et polynom) mellom verdiene på tidspunkt t og verdien på tidspunkt t 1, osv. Kurven skal gå gjennom alle punktene t, t 1, t 2, t 3, t 4, t g og t 6, og den skal være glatt i skjøtene (for eksempel en spline-kurve). Med denne metoden blir det glatte overganger i lydstyrke. t t 1 t 2 t 3 t 4 t 5 t 6 t t 1 t 2 t 3 t 4 t 5 t 6 INF14-lyd2-31 INF14-lyd2-32

Kommentar til avspilling i praksis I virkeligheten er det som skjer i en moderne CD-spiller en kombinasjon av både digital og analog signalbehandling. Lydsignalet oppsamples, og filtreres både med software (digitale filtere) og i elektronikken (analoge filtere). Når produsenter og selgere av CD-spillere reklamerer med for eksempel 8 X oversampling. så betyr det ikke at de tryller fram 7 ekstra sampler av det originale signalet det betyr bare at det legges inn 7 kopier av hvert sampel før filtrering og DA-konvertering for å få en enklere (og som regel litt bedre) rekonstruksjon av signalet. Lagring av digital lyd Anta at vi har samplet med samplingsraten f s, og at vi har samplet minst i henhold til Nyquist raten. Hvis lydsignalet varer i N sekunder, må vi lagre N*f s sampler. Hvert sampel lagres med valgt datatype, vanligvis 16 bit integer. Hvis vi lagrer i stereo, lagrer vi 2 kanaler, hver med f.eks. 16 biter. Skal vi lagre 1 time musikk som er samplet med samplingsfrekvens 2 Hz, blir lagringsbehovet 2 *3 6*16 biter = 1 152 biter = 144 byte = 144 MB (288 MB i stereo). INF14-lyd2-33 INF14-lyd2-34 Hva ligger på en musikk-cd? Data lagres som bitmønstre i spesielle posisjonsceller/bins. Standard for CD audio kalles Red Book Audio-CD er deles inn i følgende enheter: Kapasiteten er 74 minutter a 6 sekunder. Enheten sekund har 75 blokker En blokk består av 98 rammer En ramme inneholder 24 byte data Avspilling skjer ved at rotasjonshastigheten varieres mens platen avspilles (innenfra og utover) slik at 75 blokker leses pr. sekund med datarate: R = 44 1 sampler/s*2 byte*2 kanaler = 176 4 byte/s. INF14-lyd2-35 Redundans og maskering av lyd Det er en god del lyd vi faktisk ikke kan høre på grunn av annen lyd, og som vi derfor heller ikke nødvendigvis trenger å lagre. Dette skyldes flere effekter: Frekvensmaskering Tidsmaskering Stereoredundans Dette er grunnlaget for avansert komprimering, for eksempel i MP3-lydformatet INF14-lyd2-36

Frekvensmaskering For en gitt frekvens finnes et kritisk frekvensbånd der denne lyden vil maskere ut andre lyder. Figuren viser maskeringsterskelen for tre toner (lydintensitet 6 db). Noen hovedpunkter : Frekvensmaskeringen er asymmetrisk. Jo høyere lydintensitet, dess bredere frekvensmaskering. Tidsmaskering Man kan spille en 1 khz maskeringstone med lydintensitet 6 db og en nærliggende testtone, for eksempel 1.1 khz med 3 db. Pga frekvensmaskering kan ikke testtonen høres. Når maskeringstonen slås av kan vi høre den - men først etter at det har gått litt tid. Vi kan finne maskeringstiden for flere lydintensiteter og frekvenser, og finne 2D maskeringsterskel i frekvens og tid. Frekvensmaskeringen er bredere for høyere frekvenser. Vi filtrerer lyden til separate signaler på 32 frekvensbånd, istedenfor å måtte ta vare på signalstyrken på alle frekvenser. INF14-lyd2-37 INF14-lyd2-38 Postmaskering og premaskering Metning avhenger av varighet Tidsmaskering skyldes at hårcellene i det indre øre går i metning, og trenger litt tid før de igjen reagerer normalt. Postmaskering har et effektivt tidsintervall på 5-2 ms. En sterk lyd kan maskere en svakere lyd som spilles like før Premaskering har mye kortere effektivt tidsintervall, 2-5 ms. Metningsfenomenet avhenger av hvor lenge maskeringstonen har blitt spilt. Stiplet kurve viser maskeringstid når tonen er spilt i 1 ms Heltrukket kurve når tonen er spilt i 2 millisekunder. (Fra Li and Drew, Fundamentals of Multimedia, 24). INF14-lyd2-39 INF14-lyd2-4

Stereoredundans To kanaler gir et mye rikere lydbilde enn bare en kanal. I mange tidsintervaller er det vanligvis stor likhet mellom signalene i de to kanalene. Vi kan beregne : Korrelasjonen mellom kanalene Differansen mellom kanalene Det kan være mest effektivt å lagre det ene signalet pluss differansen mellom dem. Da kan vi alltid komme tilbake til de to originale signalene. Maskering av lyd Maskering: Én lyd er ikke hørbar samtidig med en annen lyd 1. Simultan maskering Støy kan maskere en tone En tone kan maskere støy Støy kan maskere støy 2. Tidsmaskering Premaskering (ca 2 ms) Postmaskering (ca 1 ms) INF14-lyd2-41 INF14-lyd2-42 Eksempel 1: Støy kan maskere en tone Eksempel 2: En tone kan maskere støy Vi kan ikke høre en sinusoid som ligger i samme kritiske bånd som støyen hvis lydtrykknivået er under en viss terskel. Vi kan ikke høre en filtrert støy som ligger i det samme kritiske bånd som en sinusoid, hvis lydtrykket er under en viss terskel. Filtrert støy Tone 1 Tone 2 Støy + Tone 1 Støy + Tone 2 Filtrert støy Tone 1 Tone 2 Støy + Tone 1 Støy + Tone 2 Senter 41 Hz Bredde 111 Hz 82 Hz 5 db under støyen 41 Hz 5 db under støyen Senter 1 khz Bredde 162 Hz -15 db 2 khz 1 khz Ikke maskert Maskert Ikke maskert Maskert INF14-lyd2-43 INF14-lyd2-44

Hvordan kan vi utnytte maskering? Hvis en lyd er maskert, så kan vi ikke høre den. Gjør en frekvensanalyse av signalet, og finn maskeringsterskelen. Sørg for at kvantiseringsstøyen ligger under maskeringsterskelen. Når dynamikken endres med tiden, så brukes bare noen få kvantiseringsnivåer der hvor amplituden er liten. Del opp signalet i tidsvinduer: Finn max amplitude i vinduet. Finn skalafaktor. Normaliser med skalafaktor. Kvantiser. Nå brukes hele det dynamiske området til kvantiseringen. Send skala-faktor og kvantiserte sampler..15.5 -.5 -.1 -.15 -.2 -.25 Amplitude.1 Beethoven, Beethovens Bethovens 5. symfoni, 9, 9., samplet samplet med med 44.1 44.1 med khz khz 44.1 khz 16 bit kvantisering 4 bit kvantisering -.3 2 4 6 8 1 12 Tid INF14-lyd2-45 Bitallokering og -maskering Maskeringsterskelen i hvert delbånd gir en JND-grense Just Noticeable Distortion for hvert bånd. Vi tilordner bit til delbånd slik at kvantiseringsstøyen faller under eller så lite over JND som mulig. Da vil Signal to Quantization Noise Ratio (SQNR) ligge under JND. INF14-lyd2-46 Lydeksempel: Kastanjetter og gitar Eksempler på kompresjon av lyd Kompresjonsfaktor 2 4 8 Direkte kvantisering - kvantiseringsfeil (SQNR) 8 biter 4 biter 2 biter Nedsampling (halv samplingsfrekvens) og kvantisering 16 biter 8 biter 4 biter MP1 - kompresjonsfeil (SQNR) 4biter 2 biter INF14-lyd2-47 INF14-lyd2-48

Noen kjente lydformater.mp3 (En del av Motion Picture Experts Group (MPEG), layer3, ~64 Kb/s (ukomprimert CD 44 1 x 16 = 75.6 Kb/s)).AU (Sun s lydformat, 8-12 bit, noe brukt på Internett).WAV (Microsoft/IBM, offisiell standard for PC).MID (For MIDI koder, ikke all slags lyd).mod (Krysning mellom.wav og.mid) Digitalisering av lyd oppsummering Et kontinuerlig lydsignal er en reell funksjon y(t) av tiden t. Digitaliseringsprosessen består av tre enkle steg: 1. Bestem samplingsintervallet T s (bruk Nyquist-kriteriet!) og ta N diskrete sampler y[n], n=,1,2,3,, N-1. 2. Skalér verdien av alle samplene, for eksempel til verdiområdet 255 (8 biter). 3. Kvantiser verdiene av de skalerte samplene ved å avrunde til nærmeste heltallsverdi (eller gå ned til nærmeste heltallsverdi). Legg merke til at vi ikke trenger å ta vare på verdien av tiden eller verdien av n for hvert sampel. Så lenge vi lagrer dem etter hverandre og kjenner T s, er tidspunktet for hvert sampel implisitt gitt. Vi kan spare plass ved å la være å lagre det vi ikke hører. INF14-lyd2-49 INF14-lyd2-5