MIK 200 Anvendt signalbehandling, 2012.

Like dokumenter
Eksempel: kast med to terninger

To-dimensjonale kontinuerlige fordelinger

TMA4240 Statistikk Høst 2008

Diskrete sannsynlighetsfordelinger som histogram. Varians. Histogram og kumulativ sannsynlighet. Forventning (gjennomsnitt) (X=antall mynt i tre kast)

MIK 200 Anvendt signalbehandling, Prosjekt 3, Wavelet-transformasjon.

Diskrete sannsynlighetsfordelinger som histogram. Varians. Histogram og kumulativ sannsynlighet. Binomial-fordelingen

Kapittel 2: Hendelser

Foreleses onsdag 8. september 2010

Kapittel 3: Stokastiske variable og sannsynlighetsfordelinger

Kapittel 3: Stokastiske variable og sannsynlighetsfordelinger

Generell informasjon om faget er tilgjengelig fra fagets nettside, og for øvinger brukes It s learning. 1 Stokastiske system og prosesser 2

Terningkast. Utfallsrommet S for et terningskast med en vanlig spillterning med 6 sider er veldefinert 1, 2, 3, 4, 5, 6

TMA4240 Statistikk H2010

3.1 Stokastisk variabel (repetisjon)

MIK 200 Anvendt signalbehandling, Prosjekt 2, Diskret kosinus-transformasjon.

Sum to terninger forts. Eksempel: kast med to terninger. Sum to terninger forts. Kapittel 3. TMA4240 H2006: Eirik Mo

Generell informasjon om faget er tilgjengelig fra It s learning. 1 En kort oppsummering Adaptiv filtrering 2. 3 Prediksjon 4

Oppfriskning av blokk 1 i TMA4240

3.4: Simultanfordelinger (siste rest) 4.1,4.2,4.3: Multivariat del (ferdig med kapittel 3 og 4 etter denne forelesningen)

Generell informasjon om faget er tilgjengelig fra It s learning. 7.1 Stokastisk prosess Lineær prediktor AR-3 prosess...

Løsningsforslag ECON 2130 Obligatorisk semesteroppgave 2017 vår

TMA4240 Statistikk H2010

Betinget sannsynlighet

Forelening 1, kapittel 4 Stokastiske variable

ÅMA110 Sannsynlighetsregning med statistikk, våren 2008

Forelesning 13. mars, 2017

Stokastisk variabel. Eksempel augefarge

1 Section 4-1: Introduksjon til sannsynlighet. 2 Section 4-2: Enkel sannsynlighetsregning. 3 Section 5-1: Introduksjon til sannsynlighetsfordelinger

Forelesning 5: Kontinuerlige fordelinger, normalfordelingen. Jo Thori Lind

MIK 200 Anvendt signalbehandling, Lab. 5, brytere, lysdioder og logikk.

Høgskolen i Telemark. Institutt for økonomi og informatikk FORMELSAMLING Statistikk I. Til bruk ved eksamen. Per Chr. Hagen

Tyngdepunkt. Togforsinkelsen (Eksamen Des2003.1a) I denne oppgaven kan du bruke uten å vise det at. Kapittel 4

1.1.1 Rekke med konstante ledd. En rekke med konstante ledd er gitt som. a n (1) n=m

ST1101/ST6101 Sannsynlighetsregning og statistikk Vår 2019

FORMELSAMLING TIL STK1100 OG STK1110

6 x P (X = x) = x=1 = P (X 2 = 6)P (X 2 = 6)P (X 3 = 6) =

ÅMA110 Sannsynlighetsregning med statistikk, våren

Løsningsforslag, eksamen statistikk, juni 2015

Bernoulli forsøksrekke og binomisk fordeling

ÅMA110 Sannsynlighetsregning med statistikk, våren Kp. 3 Diskrete tilfeldige variable. Diskrete tilfeldige variable, varians (kp. 3.

TMA4240/TMA4245 Statistikk Oppsummering diskrete sannsynlighetsfordelinger

UNIVERSITETET I OSLO Matematisk Institutt

Forelesning 7. mars, 2017

ECON Statistikk 1 Forelesning 4: Stokastiske variable, fordelinger. Jo Thori Lind

statistikk, våren 2011

TMA4240 Statistikk H2015

Tilfeldige variabler. MAT0100V Sannsynlighetsregning og kombinatorikk

Dato: Tirsdag 28. november 2006 Lengde på eksamen: 4 timer Tillatte hjelpemidler: Kun standard enkel kalkulator, HP 30S

TMA4240 Statistikk Høst 2016

TMA4245 Statistikk Høst 2016

TMA4240 Statistikk Eksamen desember 2015

TMA4245 Statistikk Eksamen desember 2016

ÅMA110 Sannsynlighetsregning med statistikk, våren ÅMA110 Sannsynlighetsregning med statistikk, våren 2010

Togforsinkelsen (Eksamen Des2003.1a) I denne oppgaven kan du bruke uten å vise det at

Generell informasjon om faget er tilgjengelig fra It s learning.

STK1100 våren Kontinuerlige stokastiske variabler Forventning og varians Momentgenererende funksjoner

µ = E(X) = Ʃ P(X = x) x

Eksamensoppgave i Løsningsskisse TMA4240 Statistikk

ST0103 Brukerkurs i statistikk Høst 2014

Forventning og varians.

Utvalgsfordelinger. Utvalg er en tilfeldig mekanisme. Sannsynlighetsregning dreier seg om tilfeldige mekanismer.

Eksamensoppgave i TMA4240 Statistikk

Litt om forventet nytte og risikoaversjon. Eksempler på økonomisk anvendelse av forventning og varians.

Forventning og varians.

STK1100 våren Forventningsverdi. Forventning, varians og standardavvik

Histogramprosessering

Binomisk sannsynlighetsfunksjon

ØVINGER 2017 Løsninger til oppgaver. Lineærkombinasjonen Z = 5X + 8Y har forventningsverdi

ECON240 Vår 2018 Oppgaveseminar 1 (uke 6)

ST0202 Statistikk for samfunnsvitere

Løsningskisse for oppgaver til undervisningsfri uke 8 ( februar 2012)

A) B) 400 C) 120 D) 60 E) 10. Rett svar: C. Fasit: ( 5 6 = 60. Hvis A, B, C er en partisjon av utfallsrommet S, så er P (A B) lik.

Kapittel 4: Matematisk forventning

ST1101/ST6101 Sannsynlighetsregning og statistikk Vår 2019

La U og V være uavhengige standard normalfordelte variable og definer

Diskrete sannsynlighetsfordelinger.

Statistikk 1 kapittel 4

Fasit for tilleggsoppgaver

ST0202 Statistikk for samfunnsvitere

Kapittel 4.4: Forventning og varians til stokastiske variable

Forelesing 27 Oppsummering. Torstein Fjeldstad Institutt for matematiske fag, NTNU

TMA4240 Statistikk H2010

Kap. 7 - Sannsynlighetsfordelinger

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

Løsningsforslag til obligatorisk oppgave i ECON 2130

Kapittel 4.3: Tilfeldige/stokastiske variable

Formelsamling V-2014 MAT110. Statistikk 1. Per Kristian Rekdal

Kapittel 5: Mengdelære

Øvingsforelesning i Matlab TDT4105

Øving 1 TMA Grunnleggende dataanalyse i Matlab

Formelsamling i medisinsk statistikk

Tilfeldige variable (5.2)

ST0202 Statistikk for samfunnsvitere

Kapittel 5: Tilfeldige variable, forventning og varians.

MAT1120. Obligatorisk oppgave 1 av 2. Torsdag 20. september 2018, klokken 14:30 i Devilry (devilry.ifi.uio.no).

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

MAT Grublegruppen Uke 37

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

EKSAMEN. TILLATTE HJELPEMIDLER: Kalkulator. Hornæs: Formelsamling statistikk HiG. John Haugan: Formler og tabeller.

Observatorar og utvalsfordeling. Torstein Fjeldstad Institutt for matematiske fag, NTNU

Transkript:

Stavanger, 1. november 2011 Det teknisknaturvitenskapelige fakultet MIK 200 Anvendt signalbehandling, 2012. Prosjekt 1, Tapsfri komprimering. Vi skal i dette miniprosjektet se litt på hvordan en kan gjøre tapsfri komprimering av bilder. De siste delene i dette dokumentet inneholder litt relevant teori, gjerne ganske kort i tildels i stikkordspreg, som vil være nyttig når oppgavene løses. Det kan også være nødvendig for dere selv å finne fram til mer utfyllende informasjon om disse emnene. Siste side i oppgaven her er et skjema for egenevaluering av arbeidet. Den siste sida her skal være første side i deres innlevering. 1 Selve oppgaven. Generelt for prosjektene er at oppgavene ikke er gitt som steg for steg prosedyrer for hva dere skal gjøre, men formulert mye kortere slik at dere selv må finne ut hvordan ting skal gjøres. Derfor skal også rapporten være litt annerledes enn lab-rapportene. Her må en også få med hva og hvordan (og hvorfor) ting er gjort for å komme fram til resultatet, i tillegg til at resultatet også presenteres. I dette første prosjektet er målet å få til tapsfri koding av et bilde, som eksempelbilde brukes lena. Mange hint, inkludert datafiler og nyttige Matlab-filer er på IC-tools nettsida. 1. Grunnleggende bildebehandling. Dere skal laste inn bildet lena i Matlab og se på det. Rapporten skal inneholde (a) En utskrift (figur) med hele bildet (gråtoner). (b) Et utsnitt av området omkring øynene. (c) Dimensjon for bildet, antall pixler i høyde og bredde retning. (d) Minimum og maksimum verdi for pixlene. Karl Skretting, Institutt for data- og elektroteknikk (IDE), Universitetet i Stavanger (UiS), 4036 Stavanger. Sentralbord 51 83 10 00. Direkte 51 83 20 16. E-post: karl.skretting@uis.no.

(e) En figur med et histogram for pixelverdiene i bildet. (f) Førsteordens entropi for bildet. 2. Omdann bildet til en sekvens av pixel (heltall) linje for linje kolonne for kolonne linje for linje og DPCM kolonne for kolonne og DPCM For hver av disse fire sekvensene skal dere (a) finne førsteordens entropi for sekvensen (b) estimere hvor mange bit sekvensen kan kodes med (c) kode sekvensen med Huff06. 3. Omdann bildet til flere sekvenser med en prediksjon eller CALIC-lignende metode. Her kan nyttige tips finnes på IC-tools nettsida og på JPEG-LS og andre sider i Wikipedia. Dere skal forklare metoden som brukes, og hvorfor dette er hensiktsmessig. Metoden vil da typisk omforme bilde til flere sekvenser av heltall, for hver av disse sekvensene skal dere (a) finne førsteordens entropi for hver sekvensene (b) estimere hvor mange bit sekvensene kan kodes med (c) kode sekvensene med Huff06. 2

2 Sannsynlighetsregning, en kort oppsummering. Stoffet som presenteres her er ei kort oppsummering av det som ofte presenteres i de aller første kapitlene i ei lærebok om sannsynlighetsregning, eller i et eget tilleggskapittel (appendix) i lærebøker om emner (signalbehandling, datakomprmering,...) der sannsynlighetsregning brukes. Det kan godt være at dere bør se deres favorittbok om sannsynlighetsregning i stedet for denne oppsummeringa. I Wikipedia står det mye om sannsynlighetsregning, hvis en ønsker å se der kan en gjerne starte med sannsynlighets teori eller ei liste med aktuelle delemner. 2.1 Introduksjon, hendelser Et stokastisk eksperiment, eller bare et eksperiment, er en prosess der resultatet, her gjerne kalla utfallet (eng. outcome), er avhengig av tilfeldigheter (det vil si effekter vi ikke har noen kjennskap til). Eksempler: kaste terning, trekke kort, måle været, antall telefoner inn til et kontor, antall trafikkulykker, og mye mer. Eksperiment i denne sammenheng er altså videre enn fag som kjemi og fysikk. Utfallet ses på som et punkt (element) i et sett (med alle muligheter) S, det kalles utfallsrommet (eng. sample space). Ulike deler av dette rommet (subsett) kalles hendelser (eng. events). For hendelsen E definerer vi sannsynligheten, P (E). En har 0 P (E) 1. (1) For utfallsrommet S har en P (S) = 1. Hendelsen ikke E kalles komplementet til E og skrives E C, en har P (E C ) = 1 P (E). (2) For to hendelser, A og B, har en at unionen av disse hendelsene, (A B), betyr at en av hendelsene skjer eller at begge hendelser skjer. For sannsynligheten har en alltid P (A B) = P (A) + P (B) P (A B) (3) Her er hendelsen P (A B) snittet av de to hendelser A og B. Det betyr at begge hendelsene inntreffer. I noen bøker skrives dette uten og da har en AB = A B. Merk at det må komme tydelig fram av sammenhengen at A og B da representerer hendelser, ikke konstanter eller (stokastiske) variabler. Hendelsene A og B er gjensidig utelukket, det er det samme som disjunkte, hvis snittet av disse to settene er den tomme mengden, AB = A B =. (4) 3

Da har en P (A B) = P (A) + P (B). (5) Betinget sannsynlighet for en hendelse B gitt hendelse A (at hendelse A har inntruffet eller hvis/forutsatt at hendelse A inntreffer) skrives P (B A) og en har P (A B) P (B A) =. (6) P (A) og formelen som gjerne kalles Bayes formel P (AB) = P (A B) = P (B A)P (A) = P (A B)P (B). (7) Hendelsene A og B kalles uavhengige hvis P (AB) = P (A B) = P (A)P (B). (8) da har en P (B A) = P (B) og P (A B) = P (A). (9) 2.2 Stokastiske variabler Til et eksperiment kan vi knytte en stokastisk variabel (eng. random variable) X. Dette er en funksjon som er definert over S. Vi antar nå at verdiene i S er reelle tall (i teorien og praksis kan de gjerne være mye mer, typisk et sett av logiske, heltalls og reelle verdier). Den stokastiske variabelen X kan da også ta et reelt tall som verdi. Vi skriver da: Sannsynligheten for at X tar (har) verdien a som P (X = a). Sannsynligheten for at X er i intervallet mellom a og b skrives P (a < X < b). Sannsynlighetsfordelingen til X er da bestemt av sannsynlighetsfordelingsfunksjonen, på engelsk kalles denne cumulative distribution function som forkortes cdf. F (x) = P ( < X x). (10) 2.3 Diskrete stokastiske variabler For en diskret stokastisk variabel X har en at den må ta en verdi fra et tellbart utfallsrom S = {x 1, x 2,...}. En diskret stokastisk variabel har definert en sannsynlighetstetthetsfordelingsfunksjon, p(x) = P (X = x), på engelsk kalles denne probability mass function eller også med navnet som helst brukes for kontinuerlige stokastiske variabler probability density function, som forkortes pdf og ofte skrives som f(x). En skriver ofte også f(x) (i stedet for p(x)) 4

for diskrete variabler. En har da at p(x i ) er positiv, p(x) = 0 for x / S, og at sannsynlighetene summeres opp til 1 p(x i ) = 1, i=1 f(x) dx = 1. (11) Sannsynlighetsfordelingen til X, F (x), er da bestemt av sannsynlighetstetthetsfordelingsfunksjon, p(x), F (x) = P ( < X x) = p(x i ) = x all x i x f(u) du. (12) Gjennomsnittet eller forventningsverdien (eng. mean), µ, er definert som µ = E[X] = j x j p(x j ). (13) Variansen, σ 2, er definert som σ 2 = Var(X) = E[(X E[X]) 2 ] = j (x j µ) 2 p(x j ). (14) For begge har en at x j er de verdier av X der sannsynligheten er positiv (det vil si ulik 0). Noen viktige diskrete stokastiske variabler er binomialfordeling, Poissonfordeling, og hypergeometriskfordeling. 2.4 Kontinuerlige stokastiske variabler Kontinuerlige stokastiske variabler har en tetthet, den kan finnes ved å derivere sannsynlighetsfordelingsfunksjonen F (x) og da får en sannsynlighetstetthetsfordelingsfunksjonen f(x) = F (x). Gjennomsnitt og varians er definert som µ = E[X] = σ 2 = Var(X) = E[(X µ) 2 ] = xf(x) dx. (15) (x µ) 2 f(x) dx. (16) Normalfordelingen (Gaussisk fordeling) er den viktigste kontinuerlige fordelingen, der har en sannsynlighetstetthetsfordelingsfunksjonen definert som f(x) = 1 σ 1 2π e Denne funksjonen er plottet i figur 1. 2 ( x µ σ )2. (17) 5

1 σ = 0.3989 2π σ µ 2σ µ σ µ µ + σ µ + 2σ Figur 1: Sannsynlighetstetthetsfordelingsfunksjonen for normalfordelingen. 2.5 Avhengige og uavhengige stokastiske variabler Når vi samtidig observerer to stokastiske variabler (for eksempel høyde X og vekt Y for personer) kan en danne en todimensjonal stokastisk variable (X, Y ). Den felles sannsynlighetsfordelingsfunksjonen (cdf) er F (x, y) = F XY (x, y) = P (X x, Y y). (18) X og Y har også sine egne sannsynlighetsfordelingsfunksjoner og F X (x) = F XY (x, ) = P (X x, Y hva som helst) (19) F Y (y) = F XY (, y) = P (X hva som helst, Y y), (20) disse kalles marginale fordelinger. Tilsvarende har en også sannsynlighetstetthetsfordelingsfunksjonene (pdf), f XY (x, y), f(x, y) = f XY (x, y) = P (X = x, Y = y) (diskret) (21) F XY (a, b) = b a For kontinuerlige stokastiske variabler kan en skrive f XY (x, y)dxdy (kontinuerlig) (22) og f X (x) = f Y (y) = f XY (x, y)dy (23) f XY (x, y)dx (24) Hvis en har at F XY (x, y) = F X (x)f Y (y) eller like gjerne f XY (x, y) = f X (x)f Y (y) sier en at X og Y statistisk uavhengige. Kovarians for to vilkårlige stokastiske 6

variabler X og Y er definert av Cov(X, Y ) = E[(X E[X])(Y E[Y ])] Cov(X, Y ) = E[XY ] E[X]E[Y ] (25) Hvis E(XY ) = E(X)E(Y ) sies X og Y å være ukorrelerte, da har en Cov(X, Y ) = 0. Merk at statistisk uavhengighet impliserer ukorrelerthet, det motsatte er ikke nødvendigvis tilfelle. 2.6 Bruk i datakomprimering I datakomprimering er sannsynlighetsregning viktig, eller kanskje mer presist estimering av sannsynlighet er viktig. Det en skal kode (komprimere) antas gjerne å være en sekvens av symboler (tall). Koding (og dekoding) skjer gjerne ved at en tar et og et symbol i rekkefølge og gjør om til en bitsekvens. Hvis en vet sannsynligheten for et symbol, eller kan estimere denne ganske nøyaktig, så kan en (med aritmetisk koding) kode dette symbolet med så få bit som teoretisk mulig, altså på en optimal måte. Ved aritmetisk koding trenger en ikke nødvendigvis ha et heltall antall bit for koding av et symbol, en kan for eksempel ha 0.42 bit for symbolet. En enkel måte å estimere sannsynligheten for et symbol er å telle hvor mange ganger symbolet forekommer i sekvensen. Anta at symbolet s i forekommer n i ganger i en sekvens med N symboler totalt. Estimert sannsynlighet for s i i en tilfeldig posisjon i denne sekvensen er da P (s i ) = n i /N. I en gitt posisjon kan sannsynligheten være en annen, for eksempel hvis en vet at sekvensen er sortert, hvis en vet foregående symbol, eller kanskje alle de foregående symboler. Poenget er at en ikke trenger å kode den informasjonen som er kjent eller som en kan beregne (ved dekoding!). Er data dekorrellerte så er sannsynligheten for et symbol ikke avhengig av foregående (eller etterfølgende) symboler, det er da mye enklere å estimere sannsynligheten riktig for de ulike symboler og dermed få bedre komprimering. En modell som gir riktig sannsynlighet, riktig sannsynlighetsfordeling, er svært nyttig. Er data ikke helt dekorrelerte kan en hensiktsmessig modell være et godt hjelpemiddel for koding. Ex. SPIHT for bildekomprimering. 7

3 Informasjonsteori Også dette er et fagfelt i seg selv. Dette blir fort ganske komplisert, med de grunnleggende begrepene informasjon og entropi er enklere og nyttige i forbindelse med datakomprimering. Også for dette emne kan en se i Wikipedia under Information theory. I forbindelse med datakomprimering er spesielt (sann) entropi viktig. Dette er nemlig minste mulige antall bit per symbol en kan forvente å få ved tapsfri komprimering. 3.1 Informasjon Vi ønsker et mål, en enhet, for informasjon knyttet til en hendelse A, i(a). For dette målet er det naturlig at en ønsker følgende egenskaper Informasjon er avhengig av sannsynligheten: i(a) = f(p (A)). Til mer sannsynlig A er til mindre informasjon. Altså er i(a) en minkende funksjon av sannsynligheten. Informasjon til to uavhengige hendelser skal være summen av informasjonen for hver enkelt hendelse. Altså hvis P (AB) = P (A)P (B) så i(ab) = i(a) + i(b). Ut fra dette kan en vise, som Shannon gjorde i 1948, at den logiske (faktisk eneste mulige) definisjone for (selv-)informasjon er i(a) = log b 1 P (A) = log b P (A). (26) Hvis b = 2 så er enhet for informasjonen bits. Prefikset selv for informasjonen er med for å presisere at det er hele informasjonen knyttet til hendelsen A, men ingenting mer. 3.2 Entropi Entropi som begrep er knyttet til (kilden for) en sekvens av hendelser, hvert element er hendelsens utfall. Gitt en datakilde som genererer en sekvens av element der hvert element er fra settet {A 1, A 2,... A m }. I første omgang antar en at hvert element som genereres er uavhengig av alle andre element og at P (A i ) er sannsynligheten for A i i alle posisjoner. Gjennomsnitts informasjon for hvert symbol kalles da entropi og er nå m m H = P (A i )i(a i ) = P (A i ) log 2 P (A i ). (27) i=1 i=1 8

Merk at vi her har b = 2 så enhet er bits. Hvis elementene ikke er uavhengige av hverandre, eller symbolene har sannsynlighet som varierer med posisjon så kan en se på en sekvens med n symboler som et enkelt element, et enkelt symbol som vi her kaller A n A n = [A k(1), A k(2),... A k(n) ], k(i) {1, 2,... m}. (28) Det er da totalt m n mulige symboler, og hver har sin spesielle sannsynlighet. Entropi med hensyn til symbolene A n er da m n H n = P (A n i ) log 2 P (A n i ) (29) i=1 Ofte vil en ha det slik at hvert enkelt symbol (A i ) er kun avhengig av omkringliggende symboler og uavhengig av symboler langt vekke. For eksempel så er maksimum temperatur (for å ha det riktig bør en heller si avvik fra middelverdien for aktuell dato/årstid) hvert døgn gjerne avhengig av tilsvarende verdier døgnene like før (eller etter for den saks skyld), men uavhengig av maksimum temperatur for lenger siden. Dermed vil en ha at avhengiheten mellom lange symbol avtar etter hvert som lengde av symbolene øker, fordi det avhengige området relativt sett blir kortere og kortere. Dermed kan en definere entropi for disse lange sekvensene som for uavhengige symbol. Altså, under forutsetning av at de lange symbolene er uavhengige av hverandre (og av posisjonene sine), en kan anta at de lange symbolene blir uavhengige av hverandre (og av posisjonene sine) at når n, da defineres entropi med hensyn til de enkelte symbolene A i fra kilden S som 1 H(S) = lim n n Hn. (30) Ofte brukes bare førsteordens entropi, som er den entropien en får for symbolene når en antar at de er uanhengige av hverandre (selv om de faktisk ikke er uavhengige av hverandre) H = i P (A i ) log 2 P (A i ). (31) P (A i ) er da gjerne estimert ut fra en realisering av prosessen (kilden S). Hvis symbolene fra kilden er uavhengige og likt fordelt (iid) så er førsteordens entropi og (sann) entropi den samme. For de fleste virkelige signaler er det imidlertid ikke slik. Eksempel med iid. Alfabet er {a, b, c, d}. Sannsynligheter er henholdsvis { 1 2, 1 4, 1 8, 1 8 }. 9

Vi får da: 4 H = P (A i ) log 2 (1/P (A i )) i=1 = 1 2 log 2(2) + 1 4 log 2(4) + 1 8 log 2(8) + 1 8 log 2(8) = 1 2 + 1 2 + 3 8 + 3 8 = 7 4. (32) 3.3 Modeller Utgangspunktet for beregning av entropi er gjerne en datamodell. Dette er ofte en iid-modell eller en Markov-modell. Nedenfor er en enkel figur som illustrerer en generell modell. Kilde Symbol Det er ofte hensiktsmessig å lage en modell for kilden som genererer sekvensen av symboler. En kan da beregne noen egenskaper for modellen, for eksempel entropi, og så overføre disse til kilden. Virkeligheten eller kilden er for eksempel: lyd, bilde, video, tekst, eller datafil. Merk at her forenkler vi og kaller også 2D-data som et bilde for en sekvens, noe det jo ikke er. Modellene kan være av varierende kompleksitetsgrad. De kan være enkle, og dermed ganske greie å beregne egenskaper ut fra men de passer da kanskje ikke så godt til virkeligheten. Modellene kan også være ganske store og komplekse, og da gjerne passe ganske bra med virkeligheten. I denne sammenheng har en at en modell passer til en kilde hvis de genererer symbolsekvenser med samme statistiske egenskaper. Det er ofte vanskelig å finne gode enkle modeller som passer bra til virkelige kilder. iid-modell Den enkleste modellen er en iid-modell, da er symbolene fra kilden er uavhengige og likt fordelt. Det er gjerne utgangspunktet, den modellen en prøver først, hvis en ikke vet noe om kilden, men bare har en resulterende sekvens. iid-modell x 3, x 2, x 1 10

I figuren over er x i symboler fra et alfabet A, x i A = {a 1, a 2,..., a M }, og hver x i har samme sannsynlighetsfordeling P (x i = a j ) = P (a j ), for j = 1, 2,..., M. (33) og j P (a j) = 1. For iid-modell er entropi lik førsteordens entropi. En utvidelse er at hvis en har noe forhåndskunnskap, eller gjør prediksjon for neste symbol, så kan en bruke en iid-modell for systemet som består av både kilden og prediktoren. Det vil si at en antar et prediksjonsfeilene passer til en iid-modell. Generell Markov-modell Ved tidspunkt n er kilden i en bestemt tilstand, som en kaller s n (state). For en Markovkilde er denne tilstanden gitt av de k siste utverdiene. For hver mulig tilstand, s i, antar en så en iid-modell. Disse modellen er ulike hverandre. En k-te ordens Markov-modell er P (x n = a j s n ) = P (a j s n ) (34) = P (x n x n 1, x n 2,..., x n k ) (35) Merk at de her skriver kun x n der det fullstendig burde stått x n = a j. Uansett, merk at tilstandene kun er definert ut fra tidligere utgangsverdier og ikke noen mer inngående kunnskap om kilden. Markov-modellen for kilden ar da gitt av orden og alle (estimerte) sannsynligheter P (a j s i ). Hvis alfabetet har M symbol og orden er k så har en M k ulike tilstander. Alle sannsynlighetene kan samles i ei stor matrise P med størrelse M M k. Denne kalles transisjonsmatrisa for modellen. P (a j s i ) = P j,i = P (j, i). (36) Merk at en i P har indeks j først for å angi linje og indeks i sist for å angi kolonne. En kar også at sum av sannsynligheter for hver tilstand skal være 1, det er sum av hver kolonne i matrisa P, M j=1 P (j, i) = 1 for alle i. Entropi for Markov-modellen er da veid gjennomsnitt av entropi for hver av tilstandene M k H = P (s i )H(s i ) (37) i=1 H(s i ) = M P (a j s i ) log 2 P (a j s i ) (38) j=1 Sannsynlighet for hver av tilstandene, P (s i ), kan en finne ut fra matrisa P, generelt er det komplisert men for en førsteordens Markov-modell er det ganske greitt. 11

Førsteordens Markov-modell Tilstanden er kun avhengig av forrige utsymbol, s n = x n 1. Merk s n er tilstand i steg n, mens s i er tilstand nummer i (av de M k mulige). For førsteordens Markov-modell har en altså k = 1. Eksempel: linje i et binært bilde (telefaks) kan gjerne modelleres med en førsteordens Markov-modell. Alfabetet er da A = {b, w}, M = 2. Modellen har da to tilstander s w og s b kun avhengig av om forrige symbol er henholdsvis w eller b. En har for eksempel estimert P (s w ) = 30/31 og P (s b ) = 1/31, vi mener her det samme med P (s w ) som P (x = w) og P (w). Videre har vi de betingde sannsynlighetene P (w s w ) = 0.99 P (w s b ) = 0.3 P (b s w ) = 0.01 P (b s b ) = 0.7 Med iid-modell vil en da finne (førsteordens) entropi som H = P (w) log 2 P (w) P (b) log 2 P (b) (39) = 30/31 log 2 30/31 1/31 log 2 1/31 = 0.2056. (40) Med førsteordens Markov-modell får en da for hver av de ulike tilstandene H(s w ) = P (b s w ) log 2 P (b s w ) P (w s w ) log 2 P (w s w ) (41) = 0.01 log 2 0.01 0.99 log 2 0.99 = 0.0808 (42) H(s b ) = P (b s b ) log 2 P (b s b ) P (w s b ) log 2 P (w s b ) (43) = 0.7 log 2 0.7 0.3 log 2 0.3 = 0.8813 (44) Og med å vekte disse to entropiene med sannsynlighetene for hver tilstand får vi entropi for førsteordens Markov-kilde som H = P (s b )H(s b ) + P (s w )H(s w ) (45) = 1/31 0.8813 + 30/31 0.0808 = 0.1066. (46) En kan merke seg at den riktigere modellen, førsteordens Markov-kilde, gir lavere entropi enn en iid-modell. Her hadde vi gitt P (s w ) og P (s b ). De kan også finnes ut fra transisjonsmatrisa [ ] 0.99 0.3 P =. (47) 0.01 0.7 La Vi har v n = [ P (xn = w) P (x n = b) ] [ P (xn+1 = w), og v n+1 = P (x n+1 = b) ]. (48) v n+1 = Pv n og v n+k = P k v n (49) 12

Uansett hva v n er vil dette ofte konvergerer (det kan også være at en kommer inn i en fast syklus) [ ] P lim v (sw ) n+k =. (50) k P (s b ) Det vil si at hver kolonne i P k da er v n+k, (k ). Altså [ ] P (sw ) P (s lim k Pk = w ). (51) P (s b ) P (s b ) Dere kan gjerne teste om P som gitt i ligning mot de oppgitte verdiene. 47 konvergerer og om det er 3.4 Oppsummering Her kommer en kort oppsummering om estimering av førsteordens entropi, og estimering av antall bit for en sekvens ut fra estimert første-ordens entropi. N ulike symboler i alfabetet A = {s 1, s 2,..., s N }. En har en sekvens med L symbol F = {s i1, s i2,..., s il }, der i j [1,..., N]. Antall forekomster av hvert symbol er n 1, n 2,..., n N, og en har rimeligvis at N i=1 n i = L. Sannsynlighet for hvert symbol estimeres da som p i = n i /L. Første-ordens entropi er H = N i=1 p i log 2 p i som også kan skrives som H = log 2 L 1 L N i=1 n i log 2 n i. og estimert antall bit for (å kode) en sekvens er da HL. 13

MIK 200 Anvendt signalbehandling. Prosjekt 1, Tapsfri komprimering. Student 1 Student 2 Resultat: (fylles ut av faglærer) godkjent / ikke godkjent Egenvurdering: Mål for læringsutbytte er: En skal kunne bruke de grunnleggende Matlabkommandoer for bildebehandling. En skal kunne noen grunnleggende begreper, slik som informasjon, entropy og sammenhengen med datakomprimering. En skal forstå og bruke noen metoder for tapsfri komprimering. En skal også kunne implementere disse i Matlab, og presentere og tolke resultatene på en god og riktig måte. Dere skal også selv vurdere resultatet av det arbeidet dere har gjort i denne øvinga, ved selv å gi karakter på deres besvarelse. Karakterskala er den vanlige fra A (best) til E (dårligst) og F (stryk). Egenvurderingstabell Student 1 Student 2 Læringsutbytte for oppgave 1. Læringsutbytte for oppgave 2. Læringsutbytte for oppgave 3. Rapport, oppgave 1. Rapport, oppgave 2. Rapport, oppgave 3. Kommentarer: