Tegn og tekst. Posisjonssystemer. Logaritmer en kort repetisjon. Bitposisjoner og bitmønstre. Kapittel August 2008

Like dokumenter
Læringsmål. INF1000: Forelesning 12. Hovedkilde. Kunne binærtall og heksadesimale tall og konvertering mellom ulike tallsystemer: Titallsystemet

Tegn og tekst. \yvind og ]se N{rb}? Læreboka kapittel August Institutt for informatikk 29. august 2007.

INF 1000 høsten 2011 Uke 11: 2. november

INF 1000 høsten Innhold uke 11. Digital representasjon av tekster, tall, former,

Tegn og tekst. \yvind og ]se N{rb}? Læreboka kapittel 2. Institutt for informatikk Gerhard Skagestein 30. august 2006.

Unicode. Unikt vakkert eller unisont håpløst? En vandring gjennom tegnkodingens historie. Dag Lamgmyhr, Ifi/UiO Ark 1 av 23

Tegn og tekst. Læringsmål. Om tegn og glyfer. Problemstilling. \yvind og ]se N{rb?

INF1040 Oppgavesett 3: Tegn og tekst

Albregtsen og Skagestein: Digital representasjon Løsningsforslag til kapittel 2 Representasjon av tegn og tekster

Oppsummering 2008 del 1

Oppsummering 2008 del 1

Tegn og tekst. Et representert tegn kan vises på flere måter. Noen definisjoner. Enda noen definisjoner. \yvind og ]se N{rb}? a a a.

INF1040 Digital representasjon Oppsummering

TDT4110 Informasjonsteknologi grunnkurs: Tema: Betingelser og logiske uttrykk Utgave 3: Kap. 3

if (be): else (not_to_be): TDT4110 Informasjonsteknologi grunnkurs: Tema: Betingelser og logiske uttrykk Utgave 3: Kap.

Tegn og tekst. Om tegn og glyfer. Tegnkoder og kodetabeller Kode Noe som representerer noe annet. Et representert tegn kan vises på flere måter

Dagens tema. C-programmering. Nøkkelen til å forstå C-programmering ligger i å forstå hvordan minnet brukes.

Referansehåndbok for strekkode

Digital representasjon

Dagens tema. Flyt-tall. Koding. Tegnsett. Hvordan lagres de? Hvilke egenskaper har de? Hvordan regner man med dem?

DRIFTSANALYSER 2012/2013 FORELØBIGE RESULTATER

Digital representasjon

Offentlig utvalg for punktskrift, OUP Norsk standard for 8-punktskrift punktskrift 24. oktober 2004 sist endret

Digital representasjon

Vektorer. Dagens tema. Deklarasjon. Bruk

Grunnleggende Tekstbehandling

Dagens tema INF1070. Vektorer (array er) Tekster (string er) Adresser og pekere. Dynamisk allokering

Ordliste 2. Byte (byte) En streng på 8 biter som behandles som en enhet.

Datamaskinen LC-2. Dagens tema. Tall i datamaskiner Hvorfor kan LC-2 lagre tall i intervallet ? Hvorfor er det akkurat celler i lageret?

Dagens tema. Datamaskinen LC-2 En kort repetisjon. Binære tall Litt om tallsystemer generelt. Binære tall. Heksadesimale og oktale tall

Dagens tema: INF2100. Utvidelser av Minila array-er. tegn og tekster. Flass- og Flokkode. prosedyrer. Prosjektet struktur. feilhåndtering.

Høgskolen i Molde Institutt for Informatikk Eksamen in270: Datakommunikasjon Våren 2003 Skisse til svar:

Dagens tema INF1070. Vektorer (array-er) Tekster (string-er) Adresser og pekere. Dynamisk allokering

Godkjenning av møteinnkalling

Målet med dette notatet er å dokumentere at det er funnet løsmasser ved grunnen og å dokumentere miljøgiftkonsentrasjonen i sedimentene.

Handi-Lift EA7 Målskjema

Testobservator for kjikvadrattester

INF1040 Oppgavesett 7: Tall og geometrier

IN 147 Program og maskinvare

Digital representasjon

Netlife Sans er vår egen skrifttype. Den inneholder alle de visuelle elementene til identiteten vår. Den er tegnet i fire vekter, med en egen vekt

Handi-Lift EA7 Målskjema

Godkjenning av møteinnkalling

Målskjema. Serie nr.: Bruker Navn: Adresse: Kontaktpersoner. E-post: E-post: Levering Adresse:

Husk å registrer deg på emnets hjemmeside!

INF1020 Algoritmer og datastrukturer GRAFER

STRATEGOS B. Målskjema. Serie nr.: Bruker Navn: Adresse: Kontaktpersoner. E-post: E-post: Levering Avd. Bruker Annet: Adresse:

Handi-Lift ML7 Målskjema

PDF created with pdffactory Pro trial version

! " # $ % & ^Pv`!$ x âîv7ç È'Ç È b j k Æ' z{3 b jkæ b ÇÈÉÊ&( )! c q r É. xy+ - Êlm l D E ` &! D E â î #" ' #$ '#! v( D/Ev A B x y&?

'f( '?jfj(f{) Pa vegne av styret i Lenningen L(Ilypelag. Til Andelseiere og sponsorer i Lenningen L0ypelag!

(a 1, a 2, a 3, a 4 ) ³Æ s 10. a 1 a 2 a 3 a 4 a 1 a 2 a 3 a 4. ( a 1 a 2 a 3 a 4 a 1 a 2 a 3 a 4) (a 1 a 2 a 3 a 4 a 1 a 2 a 3 a 4)

Velkommen til INF2100. Bakgrunnen for INF2100. Hva gjør en kompilator? Prosjektet. Jeg er Dag Langmyhr

L ; D = B M B N I < G H = D = F C M E N < D ; <? ; < = H M = < F E < M B = B C O P E < E F D < Q K

Î Ö ØØ Ò Ú Ö

ﺪ ﻩ ﻋﺍ ﻮﹶ ﻭ ﻗ ﻪ ﹾﻘ ﹾﻟ ﻔ ﺍ ﹺﻝ ﻮ ﹸﺃ ﺻ ﹸ ﻣ ﺔ ﻮﹸ ﻈ ﻣ ﻨ $ ﺡﺮﺷ! " ' (# $% & )*! +,!* -

ISO Dagens tema. Tegn. Uttrykk. I Minila lagres kun heltall, men de kan tolkes som tegn. Det siste om Minila.

Velkommen til INF2100

Velkommen til INF2100

TDT4105/TDT4110 Informasjonsteknologi grunnkurs:

Dagens plan. INF Algoritmer og datastrukturer. Koding av tegn. Huffman-koding

Tall. Ulike klasser tall. Læringsmål tall. To måter å representere tall. De naturlige tallene: N = { 1, 2, 3, }

PDF created with pdffactory Pro trial version

PDF created with pdffactory Pro trial version

INF1040 løsningsforslag oppgavesett 7: Tall og geometrier

Eksamen i INF 1040, 5. desember Det matematisk-naturvitenskapelige fakultet. Ditt kandidatnr: DETTE ER ET LØSNINGSFORSLAG

UNIVERSITETET I OSLO

Godkjenning av møteinnkalling

Tall. Posisjons-tallsystemer. Representasjon av heltall. Tall positive, negative heltall, flytende tall. Tekst ASCII, UNICODE XML, CSS

INF Algoritmer og datastrukturer

TDT4105/TDT4110 Informasjonsteknologi grunnkurs:

Dagens tema. C-programmering. Nøkkelen til å forstå C-programmering ligger i å forstå hvordan minnet brukes.

Vår ref.: Saksbehandler: Arkiv: 15/ Frode Mikalsen U43 AKVA Løpenr.: Tlf. dir.innvalg: Deres ref.: Dato: 6880/

ËØÓ Ø ÑÓ Ð ÓÖ ÝÑÑ ØÖ Û Ú Ù Ú Ö Ù Ä Ö Ò ÖÓÒع ÝÑÑ ØÖÝ ØÓ Ø Ä Ö Ò ÑÓ Ð ÓÖ ÝÑÑ ØÖ Ó Ò Û Ú Û Ø Ö Ø ÓÒ Ð ÔÖ Ò ÓÖ Ä Ò Ö Ò ½ ËÓ Ö ½ ÒÒ Ä Ò Ö Ò ¾ ½ ÒØÖ ÓÖ Å Ø

Eksamen i INF 1040, 5. desember Det matematisk-naturvitenskapelige fakultet

UNIVERSITETET I OSLO

INF1040 Digital representasjon TALL

Forord. Det er i kostnadsberegningen ikke tatt med kostnader til grunnerverv, VA og elektro. Antatt kostnad fra fv. 155 Osloveien er 1,6 mill.

UNIVERSITETET I OSLO

Innkalling er sendt til: Namn Funksjon Representerer

Ó³ Ÿ , º 6Ä7(176Ä177).. 823Ä Œ. Œ ²±μ,,.. É ²,.. μ ²Ó,.. Íμ,.. ŠÊÉÊ μ,.. μ ±μ,.. ÒÏ

Perceived semantic. quality. Semantic quality. Syntactic. quality. guttens alder er grønn: gutt.alder = grønn

Efficiency, Integrity, Reliability, Surviveability, Usability. Correctness, Maintainability, Verifiability

ˆ ˆŠ Œ ˆ ˆ Œ ƒ Ÿ Ÿ Œ œ ˆ ˆ Š Œ. .. ³μ. μ ± Ë ²Ó Ò Ö Ò Í É Å ˆˆ Ô± ³ É ²Ó μ Ë ±, μ, μ Ö Œ Œ ˆˆ 79 ˆ Š ˆ

Ì ÊÁË ÈÖÓ Ö Ñ ÜÔÐÓÖ Ö Ë ÓÒ ËØ ØÙ Ê ÔÓÖØ ÏÓÐ Ò Ë Ö Ò Ö ÏÓÐ Ò ºË Ö Ò ÖÖ º Ùº Ø Ê Ö ÁÒ Ø ØÙØ ÓÖ ËÝÑ ÓÐ ÓÑÔÙØ Ø ÓÒ ÊÁË µ ÂÓ ÒÒ Ã ÔÐ Ö ÍÒ Ú Ö ØÝ Ä ÒÞ Ù ØÖ

Tom Heine Nätt og Christian F. Heide. Datasikkerhet

Tall. Binære regnestykker. Binære tall positive, negative heltall, flytende tall

TALL. Titallsystemet et posisjonssystem. Konvertering: Titallsystemet binære tall. Det binære tallsystemet. Alternativ 1.

I# w ,F3<#""" wxy2t {r u v$ 0 Y 4 } ~ Â ` - é$8 UX#' ] d Ñ \ ] J. I \ ] O,+R:,!" {%O DM%M5#' ] J*CO!

R, t. reference model. observed model 1 P

r t = S t r t ; s = ½ T T

Ò Ø Ø Ì Ð Ô Ó ÙØ ÝØØ ÍØ ÝØØ ÐÐ Ö Ø Ð Ô Ë ØØ ÙÐ ÑÔ Ö Ñ ÙØ ÝØØ Ú Ò Ò Ø Ó ØØ Ð ÒØ ÐÐ Ö Ð ÙØ ÐÐ Ö ÓÐ Ë Ò Ð Ö Ò Ñ ÙØ Ð Ò ÔÓÐ Ø

ÒÒÓÙÒ Ö Ñ Û Ø Ö Ù Ò ÝÐ ØØ Ò ÝÒ ÖÓÒ Þ ÌÖ Ò Ø ÓÒ ØÓÛ Ö Ø ÙÒ Ð Ø Ö Ð Ô Ö ÒØ Ö Þ Ö ÒØ º Ö Þ Ò ºÞ ÒØ Ö ÓÖ ÓÒÓÑ Ê Ö Ò Ö Ù Ø Ù Ø ÓÒ Ó ÖÐ ÍÒ Ú Ö ØÝ Þ Æ Ø ÓÒ Ð

Ã Ô Ø ÐÚ Ö ÑÓ ÐÐ Ò Ó ØÓÖÑÓ ÐÐ Ö Ã Ô ØØ Ð

Ë Ð Ô Ø Ä Ð Ö ÑÑ Ö ÑÐ ØØ Ò Ó ÓÖ Ò ÓÒ Ã Ô ØØ Ð ½ Ó ¾

Linklaget - direkte forbindelser mellom noder

UNIVERSITETET I OSLO

Ã Ô ½ Ë Ð Ô Ø Ô Ø Ð ØÖÙ ØÙÖ

USER GUIDE. RRD Silencioso

Ë Ò Ö Ä Ò ÇÖ Ø Ò È Õµ ʺ º Ö º ĺ ÖØ Ý ØÖ Ø ÓÑÔÐ Ø Ö Ø Ö Þ Ø ÓÒ Ó Ö ÙÐ Ø Ø Ö ÓÒØ Ò Ò Ë Ò Ö Ð Ò ÓÖ Ø Ú Òº Ì Ö Ø Ö Þ Ø ÓÒ Ð Ø ÓÖ Ø Ò ¹ Ô Ò ÙÔÓÒ ÑÓ Ð Ò È

Transkript:

Posisjonssystemer 10 5 (100 000) 10 4 (10 000) 10 3 (1 000) 10 2 (100) 10 1 (10) 10 0 (1) Tegn og tekst \yvind og ]se N{rb}? 2 7 (128) 2 6 (64) 2 5 (32) 2 4 (16) 2 3 (8) 2 2 (4) 2 1 (2) 2 0 (1) Kapittel 2 27. August 2008 INF1040-Tekst-1 INF1040-Tekst-2 Bitposisjoner og bitmønstre Logaritmer en kort repetisjon Med n bitposisjoner, hvor mange ulike bitmønstre kan man lage? Hvis vi trenger k ulike bitmønstre t (av lik lengde), hvor mange bitposisjoner trenger vi da? n sifre (biter/bitposisjoner) gir tallene fra 0 til 2 n 1, dvs 2 n ulike bitmønstre Toerlogaritmen til k er det tallet du må opphøye 2 i for å få k. Funksjonen n = log 2 (k): 18 16 14 12 10 8 6 4 2 0 0 20000 40000 60000 80000 100000 120000 INF1040-Tekst-3 INF1040-Tekst-4

Regneregler: 0 + 0 = 0 0 + 1 = 1 1+0 = 1 1 + 1 = 0 og 1 i mente Regning med binærtall Addisjon Eksempler: 5 + 2: 5 + 5: 7 + 7: Regneregler: 0 * 0 = 0 0 * 1 = 0 1*0 = 0 1 * 1 = 1 Regning med binærtall Multiplikasjon lik Eksempler: 5 * 5: 7 * 7: INF1040-Tekst-5 INF1040-Tekst-6 Læringsmål (tegn og tekst) Forstå prinsippene for hvordan tegn og tekst kan representeres ved hjelp av bits og bytes. Kjenne til en del sentrale standarder, spesielt: ASCII ISO 8859 alfabetsuppen Unicode Kunne hovedtrekkene i hvordan disse standardene er bygget opp. Problemstilling Utgangspunkt: Hvert tegn i teksten representeres av et unikt bitmønster. Eksempel: E = 01000101 H = 01001000 I = 01001001 HEI = 01001000 01000101 01001001 Sender (skriver) og mottaker (leser) må være enige om kodingen. Vi trenger standarder! INF1040-Tekst-7 INF1040-Tekst-8

Hvilke tegn skal representeres? Hvor mange biter per tegn? Aktuelle spørsmål Fast eller variabelt antall biter per tegn? Hvordan håndtere tegn som er varianter av andre tegn? ligaturer (sammensetninger)? Bør det være noen form for systematikk tikk i bitmønstrene? t A Godt prinsipp: Om tegn og glyfer tegnrepresentasjon (kode) glyfer α 0110 0001 a lager/ hukommelse a ( memory )?? a a a Skill representasjon fra fremvisning ( rendering ) INF1040-Tekst-9 INF1040-Tekst-10 00 10 20 30 40 50 60 70 ASCII kodetabell 0 NUL DLE space 0 @ P ` p American Standard Code for Information Interchange 1963 1 SOH DC1! 1 A Q a q 2 STX DC2 2 B R b r 3 ETX DC3 # 3 C S c s 4 EOT DC4 $ 4 D T d t 5 ENQ NAK % 5 E U e u 6 ACK SYN & 6 F V f v 7 BEL ETB ' 7 G W g w 8 BS CAN ( 8 H X h x 9 HT EM ) 9 I Y i y A LF SUB * : J Z j z B VT ESC + ; K [ k { C FF FS, < L \ l D CR GS - = M ] m } E SO RS. > N ^ n ~ F SI US /? O _ o DEL LF (Line Feed): 0x0A Linjeskift: LF og CR Indicates movement of the printing mechanism or display cursor to the next line. CR (Carriage Return): 0x0D Indicates movement of the printing mechanism or display cursor to the starting gposition of the same line. Linjeskift representeres i dag på ulike måter: PC: CR + LF Mac: CR UNIX: LF INF1040-Tekst-11 INF1040-Tekst-12

ISO 646-60 00 10 20 30 40 50 60 70 kodetabell 0 NUL DLE space 0 @ P ` p Bygger på ASCII. [ \ ] { } er ofret til fordel for Æ Ø Å æ ø å Lignende tilpasninger er gjort i tilsvarende standarder for andre språkmiljøer. 1 SOH DC1! 1 A Q a q 2 STX DC2 2 B R b r 3 ETX DC3 # 3 C S c s 4 EOT DC4 $ 4 D T d t 5 ENQ NAK % 5 E U e u 6 ACK SYN & 6 F V f v 7 BEL ETB ' 7 G W g w 8 BS CAN ( 8 H X h x 9 HT EM ) 9 I Y i y A LF SUB * : J Z j z B VT ESC + ; K Æ k æ C FF FS, < L Ø l ø D CR GS - = M Å m å E SO RS. > N ^ n ~ F SI US /? O _ o DEL INF1040-Tekst-13 ISO 8859-1 (Latin-1) kodetabell 00 10 20 30 40 50 60 70 80 90 A0 B0 C0 D0 E0 F0 0 NUL DLE space 0 @ P ` p no break space À Ð à ð 1 SOH DC1! 1 A Q a q ± Á Ñ á ñ ISO 8859-15 (Latin-9) kodetabell ISO 8859-1 modernisert 00 10 20 30 40 50 60 70 80 90 A0 B0 C0 D0 E0 F0 0 NUL DLE space 0 @ P ` p no break space À Ð à ð 1 SOH DC1! 1 A Q a q ± Á Ñ á ñ 2 STX DC2 2 B R b r ² Â Ò â ò 3 ETX DC3 # 3 C S c s ³ Ã Ó ã ó 4 EOT DC4 $ 4 D T d t Ä Ô ä ô 5 ENQ NAK % 5 E U e u µ Å Õ å õ 6 ACK SYN & 6 F V f v un- Æ Ö æ ö 7 BEL ETB ' 7 G W g w defined Ç ç 8 BS CAN ( 8 H X h x È Ø è ø 9 HT EM ) 9 I Y i y ¹ É Ù é ù A LF SUB * : J Z j z ª º Ê Ú ê ú B VT ESC + ; K [ k { Ë Û ë û C FF FS, < L \ l ¼ Ì Ü ì ü D CR GS - = M ] m } - ½ Í Ý í ý E SO RS. > N ^ n ~ ¾ Î Þ î þ F SI US /? O _ o DEL Ï ß ï ÿ INF1040-Tekst-14 2 STX DC2 2 B R b r ² Â Ò â ò 3 ETX DC3 # 3 C S c s ³ Ã Ó ã ó 4 EOT DC4 $ 4 D T d t Ž Ä Ô ä ô 5 ENQ NAK % 5 E U e u µ Å Õ å õ 6 ACK SYN & 6 F V f v un- Š Æ Ö æ ö 7 BEL ETB ' 7 G W g w defined Ç ç 8 BS CAN ( 8 H X h x š ž È Ø è ø 9 HT EM ) 9 I Y i y ¹ É Ù é ù A LF SUB * : J Z j z ª º Ê Ú ê ú B VT ESC + ; K [ k { Ë Û ë û C FF FS, < L \ l Œ Ì Ü ì ü D CR GS - = M ] m } - œ Í Ý í ý E SO RS. > N ^ n ~ Ÿ Î Þ î þ F SI US /? O _ o DEL Ï ß ï ÿ INF1040-Tekst-15 8 biter: Extended ASCII og ISO 8859 8859-1: Latin Alphabet No. 1 (Vest-Europa) 8859-2: Latin Alphabet No. 2 (slavisk, ungarsk, romansk) 8859-3: Latin Alphabet No. 3 (esperanto, maltesisk) 8859-5: Latin/Cyrillic Alphabet 8859-6: Latin/Arabic Alphabet 8859-7: Latin/Modern Greek Alphabet 8859-8: Latin/Hebrew Alphabet 8859-9: Latin Alphabet No. 5 (moderne tyrkisk) 8859-13: Latin Alphabet No. 7 (islandsk, grønlandsk, baltisk, nordsamisk) 8859-14: Latin Alphabet No. 8 (keltisk) 8859-15: Latin Alphabet No. 9 (modernisert 8859-1, med bl.a. euro-tegn) INF1040-Tekst-16

ETSI GSM 03.38 kodetabell for SMS 00 10 20 30 40 50 60 70 0 @ Δ space 0 P p 1 _! 1 A Q a q 2 $ Φ 2 B R b r 3 Γ # 3 C S c s pluss disse 10 escape - sekvensene 4 è Λ 4 D T d t ESC e 5 é Ω % 5 E U e u 6 ù Π & 6 F V f v FF ESC LF 7 ì Ψ ' 7 G W g w [ ESC < 8 ò Σ ( 8 H X h x \ ESC / 9 Ç Θ ) 9 I Y i y ] ESC > A LF Ξ * : J Z j z B Ø ESC + ; K Ä k ä C ø Æ, < L Ö l ö D CR æ - = M Ñ m ñ E Å undef. > N Ü n ü F å É /? O $ o à ^ ESC Λ { ESC ( ESC @ } ESC ) ~ ESC = INF1040-Tekst-17 Den endelige løsning? Unicode og ISO 10646 21 biter, med mulighet for 1 114 112 kodepunkter Ca 130 000 private Ca 870 000 ennå ikke brukt Første 128 tegn er identisk med ASCII Første 256 tegn identisk med ISO 8859-1 For hvert tegn finnes en representativ glyf kodepunktet et navn klassifisering skriveretning se http://www.unicode.org/charts/ Vedtatte tegn med kodepunkter skal aldri endres INF1040-Tekst-18 Unicode-kuben Tegnsettet er delt opp i 17 plan med 2 16 = 65536 bitmønstre i hvert plan Plan 0: BMP Basic Multilingual Plane U+0000 to U+FFFF I Unicode Plan 1: SMP Supplementary Multilingual Plane skriver vi U+ historiske språk (f. eks. egyptiske hieroglyfer), musikk istedenfor 0x Plan 2: SIP Supplementary Ideographic Plane sjeldne kinesiske tegn Kodepunkt: Kodepunkt vs representasjon Tegnets numeriske verdi. Det som står i kodetabellen. Representasjon: Hvordan tegnet representeres som et bitmønster. Plan 14: SPP Supplementary Special Purpose Plane tag characters 100000 FF00 000000 0000 00 FF 256 17 256 BMP Basic Multilingual Plane INF1040-Tekst-19 INF1040-Tekst-20

Unicode Transformation Formats UTF-32 (lite brukt): Bruker 32 biter for alle tegn. UTF-16: Tegn i BMP: 16 biter. Unicode UTF-32 Føy til ledende 0-biter opp til 32 biter foran representasjonen av kodepunktet Hva er representasjonen for A i UTF-32? (Kodepunktet for A er U+0041 = 0000 0000 0100 0001 2 ) Tegn utenfor BMP: surrogatpar (32 biter). UTF-8: Bruker 8, 16, 24, eller 32 biter avhengig av tegnet. t Tegnene i ASCII: 8 biter med ledende 0. Hva er representasjonen for i UTF-32? (Kodepunktet for er U+2658 = 0010 0110 0101 1000 2 ) INF1040-Tekst-21 INF1040-Tekst-22 Unicode UTF-16 Unicode UTF-16 eksempel Med 16 biter kan kodepunktene i BMP representeres direkte. De 16 planene over BMP adresseres med surrogatpar: High surrogate D800 DBFF : 1101 10xx xxxx xxxx Low surrogate DC00 DFFF: 1101 11xx xxxx xxxx Gir indirekte tilgang til 2 20 = 1 048 576 ekstra tegn Hva er representasjonen for i Unicode UTF-16? (Kodepunktet for er U+1D11E = 1 1101 0001 0001 1110 2 2) High surrogate : 1101 10xx xxxx xxxx Low surrogate : 1101 11xx xxxx xxxx xxxx xxxx xxxx xxxx xxxx + 0001 0000 0000 0000 0000 256 = x xxxx xxxx xxxx xxxx xxxx 256 17 INF1040-Tekst-23 INF1040-Tekst-24

Koding med variabel lengde Unicode UTF-8 8, 16, 24 eller 32 biter avhengig av kodepunktet kt t Unicode UTF-8 eksempler Hva er representasjonen for Ø i Unicode UTF-8? (Kodepunktet for Ø er U+00D8 = 0000 0000 1101 1000 2 ) Hva er representasjonen for i Unicode UTF-8? (Kodepunktet for er U+2658 = 0010 0110 0101 1000 2 ) Hva er representasjonen for i Unicode UTF-16? (Kodepunktet for er U+1D11E = 1 1101 0001 0001 1110 2 ) INF1040-Tekst-25 INF1040-Tekst-26 Big endian vs. Little endian Byte order mark (BOM) I representasjoner som krever mer enn én byte, finnes det to mulige rekkefølger av bytene: Starte med den mest signifikante ( Big endian ) Starte med den minst signifikante ( Little/small endian ) Et Byte order mark (BOM) er tegnet Zero width no-break space med kodepunkt U+FEFF i begynnelsen av en Unicode-fil. Siden det ikke finnes noe tegn med kodepunkt FFFE, kan BOM brukes til å finne filformatet (UTF-32, UTF-16, UTF-8 og Big eller Small endian): Eksempel: UTF-16 Big endian for A er 0x 00 41 UTF-16 Little endian for A er 0x 41 00 Koding UTF-32, big-endian BOM-bitmønster 0x 00 00 FE FF Begge muligheter blir brukt i praksis, og dette kan gi problemer når data overføres fra et maskinmiljø til et annet! UTF-32, little-endian 0x FF FE 00 00 UTF-16, big-endian 0x FE FF UTF-16, little-endian UTF-8 0x FF FE 0x EF BB BF INF1040-Tekst-27 INF1040-Tekst-28

Planen videre I dag har vi gjort oss ferdige med binærtall og tallsystemer. t sett på representasjon av tegn og tekst. Les i læreboken om Den historiske utviklingen frem til ASCII (kapittel 2.3-2.4) Hva er et tegn? (kapittel 2.10.2-2.10.3) På plenumstimen torsdag/tirsdag d får dere en introduksjon til å bestemme layout på nettsider ved hjelp av stilark (CSS). Neste onsdag ser vi på XML. INF1040-Tekst-29