MPEG-1 lag 1, 2 og lag 3

Like dokumenter
MPEG-1 lag 1, 2 og lag 3

MPEG-1 lag 1, 2 og lag 3

MPEG-1 lag 1, 2 og lag 3

mobiltelefon, DAB og itunes

Analog. INF 1040 Sampling, kvantisering og lagring av lyd. Kontinuerlig. Digital

INF 1040 Sampling, kvantisering og lagring av lyd

Tema nr 2: Analog eller digital, kontinuerlig eller diskret. Eksempel på ulike båndbredder. Frekvensinnhold og båndbredde. Analog

EKSAMEN I FAG TTT4110 Informasjons- og signalteori. Norsk tekst på oddetalls-sider. (English text on even numbered pages.)

INF 1040 høsten 2008: Oppgavesett 9 Sampling og kvantisering av lyd (kapittel 11)

8/24/2009. INF3470 Digital signalbehandling Introduksjon Sverre Holm

INF 1040 Sampling, kvantisering og lagring av lyd

Sampling, kvantisering og lagring av lyd

mobiltelefon, DAB og itunes

Repetisjon: Sampling. Repetisjon: Diskretisering. Repetisjon: Diskret vs kontinuerlig. Forelesning, 12.februar 2004

Analog. INF 1040 Sampling, kvantisering og lagring av lyd. Kontinuerlig. Digital

INF3470/4470 Digital signalbehandling. Introduksjon Sverre Holm

1.1 ØRETS ANATOMI OG FYSIOLOGI. Grunnleggende innføring i hvordan øret er bygd opp og hvordan det tekniske systemet gjør at vi kan oppfatte lyd

Analog. INF 1040 Sampling, kvantisering og lagring av lyd. Kontinuerlig. Digital

FFT. Prosessering i frekvensdomenet. Digital signalprosessering Øyvind Brandtsegg

EKSAMEN I FAG TTT4110 Informasjons- og signalteori. Norsk tekst på oddetalls-sider. ( English text on even numbered pages.)

7.3 Samplerate-konvertering

INF3470/4470 Digital signalbehandling. Introduksjon

Unit Relational Algebra 1 1. Relational Algebra 1. Unit 3.3

WMA eller MP3 Val av kvalitet


KROPPEN LEDER STRØM. Sett en finger på hvert av kontaktpunktene på modellen. Da får du et lydsignal.

Hjelpemidler: D Ingen trykte eller håndskrevne hjelpemidler tillatt. Bestemt, enkel kalkulator tillatt.

Det fysiske laget, del 2

Hjelpemidler: D Ingen trykte eller håndskrevne hjelpemidler tillatt. Bestemt, enkel kalkulator tillatt.

Lydkoding mobiltelefon, DAB, itunes,

UNIVERSITETET I OSLO

7.3 Samplerate-konvertering

Slope-Intercept Formula

Dagens temaer. Endelig lengde data. Tema. Time 11: Diskret Fourier Transform, del 2. Spektral glatting pga endelig lengde data.

Kap 7: Digital it prosessering av analoge signaler

Lyd. Litt praktisk informasjon. Litt fysikk. Lyd som en funksjon av tid. Husk øretelefoner på øvelsestimene denne uken og en stund framover.

The Good, the Bad, the Ugly. gy Fra vinyl til høyoppløst digitallyd. Sverre Holm November 2018

Dynamic Programming Longest Common Subsequence. Class 27

WMA. grp 5. dig3800. Del 1

Det aktive øret i støyen eller det intelligente øret

Mathematics 114Q Integration Practice Problems SOLUTIONS. = 1 8 (x2 +5x) 8 + C. [u = x 2 +5x] = 1 11 (3 x)11 + C. [u =3 x] = 2 (7x + 9)3/2

pdf

Lektor 2 for Stovner VGS 12. februar 2013

Endelig ikke-røyker for Kvinner! (Norwegian Edition)

INF3470/4470 Digital signalbehandling. Introduksjon Sverre Holm

Oppdag Discover hørselen your hearing. Informasjon om hørselstap

Level Set methods. Sandra Allaart-Bruin. Level Set methods p.1/24

PARABOLSPEIL. Still deg bak krysset

Hvordan føre reiseregninger i Unit4 Business World Forfatter:

01 Laplace og Z-transformasjon av en forsinket firkant puls.

Sampling av bilder. Romlig oppløsning, eksempler. INF Ukens temaer. Hovedsakelig fra kap. 2.4 i DIP

IIR filterdesign Sverre Holm

Forkunnskapskrav. Hva handler kurset om. Kontaktinformasjon. Kurset er beregnet på en student som kan

Digital sampling og analog estetikk

Lyd og video på nettsider

Transformanalyse. Jan Egil Kirkebø. Universitetet i Oslo 17./23. september 2019

HONSEL process monitoring

Prosjektplan. Innføring. Andreas Kleppe Prosjektplan for INF3460 V INF3460 våren 2009 Prosjekt i digital signalbehandling og akustikk

INF Digital representasjon : Introduksjon til lyd

Uke 10: Diskret Fourier Transform, II

Løsningsforslag til kapittel 11 sampling, kvantisering og lagring av lyd

STØTTEMATERIALE TIL FORELESNINGENE OM SKATT

Moving Objects. We need to move our objects in 3D space.

303d Signalmodellering: Gated sinus a) Finn tidsfunksjonen y(t) b) Utfør en Laplace transformasjon og finn Y(s)

For J kvantiseringsnivåer er mean square feilen:

Exercise 1: Phase Splitter DC Operation

Uke 9: Diskret Fourier Transform, I

Trigonometric Substitution

Et hørselsproblem (1)

Hjelpemidler/hjelpemiddel: D - "Ingen trykte eller håndskrevne hjelpemidler tillatt. Enkel kalkulator tillatt."

Forelesning, 17.februar INF2400 Sampling II. Øyvind Ryan. Februar 2005

Forelesning, 23.februar INF2400 Sampling II. Øyvind Ryan. Februar 2006

EKSAMEN I FAG TTT4110 Informasjons- og signalteori. Norsk tekst på oddetalls-sider. ( English text on even numbered pages.)

Databases 1. Extended Relational Algebra

Tidsdomene analyse (kap 3 del 1)

The regulation requires that everyone at NTNU shall have fire drills and fire prevention courses.

UNIVERSITETET I OSLO

Speed Racer Theme. Theme Music: Cartoon: Charles Schultz / Jef Mallett Peanuts / Frazz. September 9, 2011 Physics 131 Prof. E. F.

Physical origin of the Gouy phase shift by Simin Feng, Herbert G. Winful Opt. Lett. 26, (2001)

Elektronisk innlevering/electronic solution for submission:

Vekeplan 4. Trinn. Måndag Tysdag Onsdag Torsdag Fredag AB CD AB CD AB CD AB CD AB CD. Norsk Matte Symjing Ute Norsk Matte M&H Norsk

Solutions #12 ( M. y 3 + cos(x) ) dx + ( sin(y) + z 2) dy + xdz = 3π 4. The surface M is parametrized by σ : [0, 1] [0, 2π] R 3 with.

Prosjektplan for prosjekt i digital signalbehandling og akustikk

I kunstverdenen er glitch art en relativ ny kunstform som er basert på de uventede resultatene av digitale feil. - WIKIPEDIA

Sampling ved Nyquist-raten

PSY 1002 Statistikk og metode. Frode Svartdal April 2016

VELKOMMEN INN I DITT NYE TV-UNIVERS. Foto: Jens Haugen / ANTI

STE 6146 Digital signalbehandling. Løsningsforslag til eksamen avholdt

Han Ola of Han Per: A Norwegian-American Comic Strip/En Norsk-amerikansk tegneserie (Skrifter. Serie B, LXIX)

Hvor mye teoretisk kunnskap har du tilegnet deg på dette emnet? (1 = ingen, 5 = mye)

PATIENCE TÅLMODIGHET. Is the ability to wait for something. Det trenger vi når vi må vente på noe

HINT- Hearing in Noise Test

Konvolusjon og filtrering og frevensanalyse av signaler

KONTINUASONSEKSAMEN I FAG SIE2010 Informasjons- og signalteori

Public roadmap for information management, governance and exchange SINTEF

UNIVERSITETET I OSLO

Graphs similar to strongly regular graphs

INF3470/4470 Digital signalbehandling. Repetisjon

INF Digital representasjon : Introduksjon til lyd

UNIVERSITETET I OSLO

Transkript:

MPEG-1 lag 1, 2 og lag 3 Sverre Holm Basert på presentasjon laget av Torbjörn Ekman, 2005 (nå på NTNU) INSTITUTT FOR INFORMATIKK August 2009-1 MPEG audiokoding Motivasjon for de fleste kapitlene i Ambardar, Digital signal processing: A Modern Introduction, Thomson, 2007. INSTITUTT FOR INFORMATIKK August 2009-2 1

Digital representation of Sounds Pulse Coded Modulation (PCM) 110 1 Kvantiserings nivåer 011 010 001 000 111 110 101 Tid Diskretisert variabel 0.8 0.6 0.4 0.2 0-0.2-0.4 16 bit 4 bit 16 bit kvantisering gir 2*2*2* 2 = 2 16 = 65 536 nivåer Ved 44100 samples per sek, blir bitraten: 16*44100 = 705 600 bits/s = halv CD-rate -0.6-0.8-1 -1-0.8-0.6-0.4-0.2 0 0.2 0.4 0.6 0.8 1 Kontinuerlig variabel INSTITUTT FOR INFORMATIKK August 2009-3 Beethovens 5. symfoni 16 bit kvantisering 2 16 = 65536 nivåer 4 bits kvantisering 2 4 =16 nivåer 0.15 Bethovens 9., samplet med 44.1 khz 0.1 0.05 16 bit kvantisering 4 bit kvantisering 0 mplitude A -0.05-0.1-0.15-0.2-0.25-0.3 0 20 40 60 80 100 120 Tid INSTITUTT FOR INFORMATIKK August 2009-4 2

Hvorfor høres det så ille ut? Problem: Bare noen få kvantiseringsnivåer => for stor avrundingsfeil. Ofte at signalet settes til null da nivået var lavere enn laveste kvantiseringsnivå Kvantisering og sampling: Kap 7: Digital behandling av analoge signaler Mulig løsning: Skaler blokker av data slik at maximumsverdien alltid utnytter hele dynamikkområdet til kvantisereren Kostnad: Må sende over skalafaktorer kt NICAM, Near Instantaneous Companded Audio Multiplex: format for digital lyd over analog TV. Blokklengde 32 samples, 3 bit pr blokk sideinfo. Stereo kodes med 10 av 14 bit ved samplingsrate 32 khz => 728 kbit/s. Variant av adaptiv differensiell puls kode modulasjon INSTITUTT FOR INFORMATIKK August 2009-5 Stasjonæritet - tidsinvarians = Egenskaper varierer ikke med tiden, kap 3: Tids-domene analyse Forutsettes i det meste av analyser Tale er korttids stasjonær, dvs bare over ca 20 ms, Endres 1/20e-3=50 ganger pr sekund INSTITUTT FOR INFORMATIKK August 2009-6 3

Direktesampling (PCM) KILDE Unngå aliasing i samplingen LP- FILTER LP- FILTER Bruk nok bit til å få liten nok kvantiseringsfeil A/D BITSTRØM D/A KODER DEKODER INSTITUTT FOR INFORMATIKK August 2009-7 Bitrater CD: 441*2*16 44.1 * 16 = 1.411 1411Mbit/s bi/ 4 bit: 25% => 350 kbit/s låter forferdelig MP3, AAC etc: 128 kbit/s ~ CD/12 Hva er det lure trikset? INSTITUTT FOR INFORMATIKK August 2009-8 4

MPEG-1 Audio Psychoacoustics in sound compression How do we hear? Digital representation of sounds Sound compression Psychoacoustics Masking 110 011 Adaptive quantization Bit allocation Filterbanks 010 001 000 111 110 101 Tid INSTITUTT FOR INFORMATIKK August 2009-9 1. Tinning 2. Øregang 3. Ytre øre 4. Trommehinne 5. Ovale vindu 6. Hammeren 7. Ambolt 8. Stigbøylen Øret 9. Bueganger 10. Sneglehuset 11. Hørselnerve 12. Øretrompeten Wikimedia Commons INSTITUTT FOR INFORMATIKK August 2009-10 5

The Ear INSTITUTT FOR INFORMATIKK August 2009-11 The frequency filters of the ear: Mapping frequency to a location Unwound cochlea Kap 5: Frekvensanalyse INSTITUTT FOR INFORMATIKK August 2009-12 6

Threshold for audible sounds Reference 0 db: 20 μpa = 2 10-5 N/m 2 Kap 5: Frekvensanalyse INSTITUTT FOR INFORMATIKK August 2009-13 Filterbank Approach Encoding BI Source LPfilter A/D Kap 5: Frekvensanalyse T STREAM FILTERBANK Scaling Scaling Scaling PSYCHOACOUSTIC ANALYSIS Quantize Quantize Quantize BIT ALLOCATION MUX BIT STREAM INSTITUTT FOR INFORMATIKK August 2009-14 7

Decoding is much simpler BIT STREAM Scaling Scaling Scaling FILT TERBANK Σ D/A LPfilter Kap 3: Tidsdomene systemer: linearitet Kap 3: Inverse systemer INSTITUTT FOR INFORMATIKK August 2009-15 Filterbanks in MPEG-1 audio layer 1-3 Kap 5: Frekvensanalyse av systemer Kap 6: Digitale filtre Kap 10: FIR Filterdesign Polyphase filterbank 32 subbands, e.g. bw 44100/2/32 = 689 Hz 512 tap FIR-filters 80 adds and mults per output Equal width Not perfect reconstruction Frequency overlap Kap 4: z-transform INSTITUTT FOR INFORMATIKK August 2009-16 8

What is this Psychoacoustics that is used in the Encoder? Kap 8: Diskret Fourier Transform; Estimering av effektspektrum INSTITUTT FOR INFORMATIKK August 2009-22 Masking We do not hear all sounds. 1. Absolute threshold of hearing: 2. Masking: One sound is inaudible in the presence of another sound. 1. Simultaneous masking Noise Masking Tone Tone Masking Noise Noise Masking Noise 2. Nonsimultaneous masking Pre masking (2 ms) Post masking (100 ms) INSTITUTT FOR INFORMATIKK August 2009-23 9

Filtered Noise Center 410 Hz Width 111 Hz Noise Masking Tone Tone 1, 820 Hz 5 db below noise Tone 2, 410 Hz 5 db below noise Noise + Tone 1 Noise + Tone 2 Not masked Masked You can not hear a sinusoid that lies in the same critical band as a filtered noise if the sound pressure level is below a certain threshold. This effect also stretches out beyond the critical band. INSTITUTT FOR INFORMATIKK August 2009-24 Filtered Noise Center 1 khz Width 162 Hz 15 db below Tone Masking Noise Tone 1, 2 khz Tone 2, 1 khz Noise + Tone 1 Not masked Noise + Tone 2 Masked You can not hear a filtered noise that lies in the same critical band as a sinusoid if the sound pressure level is below a certain threshold. This effect also stretches out beyond the critical band. INSTITUTT FOR INFORMATIKK August 2009-25 10

Exploit Masking If a sound is masked we can t hear it. Make a frequency analysis of the signal and find the masking threshold. h Put the quantization noise under the masking threshold and we won t hear the quantization. Kap 8: DFT, Fast Fourier transform, Estimering av effektspektrum INSTITUTT FOR INFORMATIKK August 2009-26 Bit Allocation and Masking The masking threshold h in each subband gives the Just Noticeable Distortion (JND) limit for that band. Bits are assigned to subbands so that the quantization noise falls below or as little over the JND as possible. Then the Signal to Quantization noise Ratio (SQR) falls below JND INSTITUTT FOR INFORMATIKK August 2009-30 11

Castanets and Guitar 22050 Hz INSTITUTT FOR INFORMATIKK August 2009-31 Bit allocation with 2 bits per sample 22050 Hz INSTITUTT FOR INFORMATIKK August 2009-32 12

Bit allocation with 4 bits per sample 22050 Hz INSTITUTT FOR INFORMATIKK August 2009-33 Kapitler i læreboka MP3-koding 1 Overview Praktiske eksempler som mp1/mp3 2 Discrete Signals Musikk og talesignal 3 Time-Domain Analysis Linearitet: kan dele i frekvensbånd, behandle for seg og så sette sammen igjen Tidsinvarians gjelder bare over kort tid for musikk og tale. Differanseligninger: FIR filtre 4 z-transform Analysis Analyse av filter i filterbanken: nøkkel til å få til filterdesign 5 Frequency Domain Analysis Frekvensdomene er sentralt i modell av hørsel Frekvensselektive filtre: båndpassfiltre Inverse systemer: kan dele i bånd i koder og addere sammen igjen i dekoder 6 Filter Concepts Filterstrukturer, hvordan implementere filterbank i koder og dekoder 7 Digital Processing of Analog Signals A/D-analyse: kvantiseringsstøy ved direkte sampling Mutirate system: Hvert delfilter kan nedsamples pga bare 1/32 av total båndbredde => trenger bare 1/32 samplerate per filter 8 The Discrete Fourier Transform and Its Frekvensanalyse av signaler Applications. FFT brukes i estimering av spektrum i koder. Må estimere korttidsspektrum for å gjøre adaptiv bittildeling 9 Design of IIR Filters. 10 Design of FIR Filters. Hvordan finne koeffisienter til bp-filtrene i filterbanken? 11 MATLAB Examples A Useful Concepts from Analog Theory INSTITUTT FOR INFORMATIKK August 2009-42 13