Tegn og tekst. Læringsmål. Om tegn og glyfer. Problemstilling. \yvind og ]se N{rb?

Like dokumenter
Tegn og tekst. Posisjonssystemer. Logaritmer en kort repetisjon. Bitposisjoner og bitmønstre. Kapittel August 2008

Læringsmål. INF1000: Forelesning 12. Hovedkilde. Kunne binærtall og heksadesimale tall og konvertering mellom ulike tallsystemer: Titallsystemet

Tegn og tekst. \yvind og ]se N{rb}? Læreboka kapittel August Institutt for informatikk 29. august 2007.

Tegn og tekst. \yvind og ]se N{rb}? Læreboka kapittel 2. Institutt for informatikk Gerhard Skagestein 30. august 2006.

INF 1000 høsten 2011 Uke 11: 2. november

INF 1000 høsten Innhold uke 11. Digital representasjon av tekster, tall, former,

Unicode. Unikt vakkert eller unisont håpløst? En vandring gjennom tegnkodingens historie. Dag Lamgmyhr, Ifi/UiO Ark 1 av 23

Albregtsen og Skagestein: Digital representasjon Løsningsforslag til kapittel 2 Representasjon av tegn og tekster

Tegn og tekst. Et representert tegn kan vises på flere måter. Noen definisjoner. Enda noen definisjoner. \yvind og ]se N{rb}? a a a.

Tegn og tekst. Om tegn og glyfer. Tegnkoder og kodetabeller Kode Noe som representerer noe annet. Et representert tegn kan vises på flere måter

INF1040 Oppgavesett 3: Tegn og tekst

Offentlig utvalg for punktskrift, OUP Norsk standard for 8-punktskrift punktskrift 24. oktober 2004 sist endret

DRIFTSANALYSER 2012/2013 FORELØBIGE RESULTATER

Dagens tema. C-programmering. Nøkkelen til å forstå C-programmering ligger i å forstå hvordan minnet brukes.

Numerisk derivasjon og integrasjon utledning av feilestimater

Digital representasjon

Temahefte nr. 1. Hvordan du regner med hele tall

TDT4110 Informasjonsteknologi grunnkurs: Tema: Betingelser og logiske uttrykk Utgave 3: Kap. 3

if (be): else (not_to_be): TDT4110 Informasjonsteknologi grunnkurs: Tema: Betingelser og logiske uttrykk Utgave 3: Kap.

Digital representasjon

Dagens tema. Flyt-tall. Koding. Tegnsett. Hvordan lagres de? Hvilke egenskaper har de? Hvordan regner man med dem?

Matematikk Øvingsoppgaver i numerikk leksjon 8 Numerisk integrasjon

Referansehåndbok for strekkode

Matematikk Øvingsoppgaver i numerikk leksjon 9 Numerisk integrasjon

Digital representasjon

x 1, x 2,..., x n. En lineær funksjon i n variable er en funksjon f(x 1, x 2,..., x n ) = a 1 x 1 + a 2 x a n x n,

Vektorer. Dagens tema. Deklarasjon. Bruk

Brøkregning og likninger med teskje

Dagens tema INF1070. Vektorer (array er) Tekster (string er) Adresser og pekere. Dynamisk allokering

Målet med dette notatet er å dokumentere at det er funnet løsmasser ved grunnen og å dokumentere miljøgiftkonsentrasjonen i sedimentene.

Løsningsforslag til Obligatorisk oppgave 2

1 Mandag 25. januar 2010

Godkjenning av møteinnkalling

Testobservator for kjikvadrattester

Netlife Sans er vår egen skrifttype. Den inneholder alle de visuelle elementene til identiteten vår. Den er tegnet i fire vekter, med en egen vekt

Oppsummering 2008 del 1

Oppsummering 2008 del 1

Eneboerspillet. Håvard Johnsbråten

Sensorveiledning Oppgaveverksted 4, høst 2013 (basert på eksamen vår 2011)

Handi-Lift EA7 Målskjema

Løsningsforslag til avsluttende eksamen i HUMIT1750 høsten 2003.

IKT-trapp for Lade skole

Dagens tema INF1070. Vektorer (array-er) Tekster (string-er) Adresser og pekere. Dynamisk allokering

Fasit. Oppgavebok. Kapittel 5. Bokmål

Dagens tema: INF2100. Utvidelser av Minila array-er. tegn og tekster. Flass- og Flokkode. prosedyrer. Prosjektet struktur. feilhåndtering.

M2, vår 2008 Funksjonslære Integrasjon

! Dekoder: En av 2 n output linjer er høy, avhengig av verdien på n inputlinjer. ! Positive tall: Som før

TFY4104 Fysikk. Institutt for fysikk, NTNU. Høsten Løsningsforslag til øving 8. a = e m E

Grunnleggende Tekstbehandling

LEDDVIS INTEGRASJON OG DERIVASJON AV POTENSREKKER:

Integrasjon Skoleprosjekt MAT4010

Sem 1 ECON 1410 Halvor Teslo

LEDDVIS INTEGRASJON OG DERIVASJON AV POTENSREKKER: a n x n. R > 0, med summen s(x). Da gjelder: a n n + 1 xn+1 for hver x < R.

Målskjema. Serie nr.: Bruker Navn: Adresse: Kontaktpersoner. E-post: E-post: Levering Adresse:

2-komplements representasjon. Binær addisjon. 2-komplements representasjon (forts.) Dagens temaer

Handi-Lift EA7 Målskjema

Godkjenning av møteinnkalling

Bioberegninger - notat 3: Anvendelser av Newton s metode

Get filmleie. Brukerveiledning

STRATEGOS B. Målskjema. Serie nr.: Bruker Navn: Adresse: Kontaktpersoner. E-post: E-post: Levering Avd. Bruker Annet: Adresse:

FASIT, tips og kommentarer

Løsningsforslag Kollokvium 6

INF1040 Digital representasjon Oppsummering

ALTERNATIV GRUNNBOK BOKMÅL

Microsoft PowerPoint MER ENN KULEPUNKTER

Hva er tvang og makt? Tvang og makt. Subjektive forhold. Objektive forhold. Omfanget av tvangsbruk. Noen eksempler på inngripende tiltak

Datamaskinen LC-2. Dagens tema. Tall i datamaskiner Hvorfor kan LC-2 lagre tall i intervallet ? Hvorfor er det akkurat celler i lageret?

Dagens tema. Datamaskinen LC-2 En kort repetisjon. Binære tall Litt om tallsystemer generelt. Binære tall. Heksadesimale og oktale tall

gir g 0 (x) = 2x + x 2 (x + 3) x x 2 x 1 (x + 3) 2 x 5 + 2x 4 + 6x 3 + x 2 + x + 3 x 2 (x + 3) 2 g(x; y) h(x) F (x; y) =

( ) ( ) DEL 1 Uten hjelpemidler. x x x x. Oppgave 1. Vi deriverer med produktregel: Vi deriverer kjerneregelen: Vi velger u = x 3 som kjerne.

L ; D = B M B N I < G H = D = F C M E N < D ; <? ; < = H M = < F E < M B = B C O P E < E F D < Q K

Fasit til utvalgte oppgaver MAT1100, uka 20-24/9

... JULEPRØVE 9. trinn...

Handi-Lift ML7 Målskjema

'f( '?jfj(f{) Pa vegne av styret i Lenningen L(Ilypelag. Til Andelseiere og sponsorer i Lenningen L0ypelag!

9.6 Tilnærminger til deriverte og integraler

MAT 100a - LAB 4. Før vi gjør dette, skal vi for ordens skyld gjennomgå Maple-kommandoene for integrasjon (cf. GswM kap. 12).

Terminprøve Matematikk for 1P 1NA høsten 2014

Høgskolen i Molde Institutt for Informatikk Eksamen in270: Datakommunikasjon Våren 2003 Skisse til svar:

Numerisk Integrasjon

! " # $ % & ^Pv`!$ x âîv7ç È'Ç È b j k Æ' z{3 b jkæ b ÇÈÉÊ&( )! c q r É. xy+ - Êlm l D E ` &! D E â î #" ' #$ '#! v( D/Ev A B x y&?

1 Mandag 1. mars 2010

E K S A M E N. Algoritmiske metoder I. EKSAMENSDATO: 13. desember HINDA / 98HINDB / 98HINEA ( 2DA / 2DB / 2EA ) TID:

Driftshåndbok for EasyMP Multi PC Projection

Integralregning. Mål. for opplæringen er at eleven skal kunne

... JULEPRØVE

1 Mandag 18. januar 2010

MED SVARFORSLAG UNIVERSITETET I OSLO

Fasit. Grunnbok. Kapittel 2. Bokmål

Løsningsforslag Kollokvium 1

1 Algebra. 1 Skriv disse uttrykkene så enkelt som mulig: a) 2(a + 3) (3 + 3a) b) 2(1 a) + a(2 + a) c) 1 + 2(1 3a) + 5a d) 4a 3ab 2(a 5b) + 3(ab 2b)

Snarveien til. MySQL og. Dreamweaver CS5. Oppgaver

IN 147 Program og maskinvare

Årsprøve trinn Del 2

PDF created with pdffactory Pro trial version

Velkommen til INF2100. Bakgrunnen for INF2100. Hva gjør en kompilator? Prosjektet. Jeg er Dag Langmyhr

Praktiske opplysninger til rektor. Fag: MATEMATIKK 1TY for yrkesfag Fagkode: MAT1006 Eksamensdato: Antall forberedelsesdager: Ingen

Kom i gang med Perspektiver Smartbok! Vi veileder deg steg for steg!

UNIVERSITETET I OSLO

addisjon av 2 og 3. Vi skriver da i alt: 2+3= og etter at likhetstegnet er skrevet så gir matcad oss svaret.

Transkript:

Læringsmål Tegn og tekst Forstå prinsippene for hvordn tegn og tekst kn representeres ved hjelp v biter og bytes. Kjenne til en del sentrle stndrder, spesielt: ASCII ISO 8859 lfbetsuppen \yvind og ]se N{rb? Unicode Kunne hovedtrekkene i hvordn disse stndrdene er bygget opp. (Kpittel 2) INF1040-Tekst-1 INF1040-Tekst-2 Problemstilling Om tegn og glyfer Utgngspunkt: Hvert tegn i teksten representeres v et unikt bitmønster. Eksempel: E = 01000101 2 H = 01001000 2 I = 01001001 2 Tegn Det bkenforliggende begrep for bestemte strektegninger på ppir, skjerm, steintvler... Glyf Et tegn kn vises frm med ulike glyfer: A A A A... se neste lysrk Det heter tegn! Krkterer får mn på skolen! HEI = 01001000 01000101 01001001 2 Sender (skriver) og mottker (leser) må være enige om kodingen. Vi trenger stndrder! Kontrollkode/kontrolltegn Tegn som ikke vises frm i form v en glyf, men som brukes til å styre eller påvirke fremvisningsenheten eller dtoverføringen Eksempel: ASCII-koden 0000111 2 (Audible bell) kn få fremvisningsenheten til å gi lyd fr seg INF1040-Tekst-3 INF1040-Tekst-4

Et representert tegn kn vises på flere måter A tegnrepresentsjon (kodepunkt) 0110 0001 2?? glyfer α Kodepunkter og kodetbeller Kodepunkt Et tegns numeriske verdi Eksempel: 0x41 er kodepunktet for A i ASCII Kodetbell En ordnet liste v kodepunkter og hv de representerer Koding ( Encoding ) 1. Oppsett v en kodetbell 2. Kodingsprinsipp brukt i forbindelse med dtoverføring kodepunkt A B C 0x41 0x42 0x43 Kodetbell INF1040-Tekst-5 INF1040-Tekst-6 Sentrle spørsmål Hvordn lese en kodetbell Hvilke tegn skl representeres? Hvor mnge biter per tegn? Fst eller vribelt ntll biter per tegn? Hvordn håndtere tegn som er vrinter v ndre tegn? ligturer (smmensetninger)? Ersttt x med sifferet i venstre kolonne for å få kodepunktet Representtiv glyf for tegnet 0 1 2 0x 00 undef 01 A 02 E 1x 10 LTRS 11 C 12 X Hv er forskjellige tegn eller bre ulike glyfer for smme tegn? Bør det være noen form for systemtikk i bitmønstrene? 3 4 03 É 04 I 13 Z 14 S INF1040-Tekst-7 INF1040-Tekst-8

Budot kodetbell (1870 ) Brukt i tidlige telegrfsystemer 5-biters representsjon 32 mulige bitmønstre To pln LTRS og FIGS Få kontrolltegn LTRS 0x 1x 0 undef LTRS 1 A C 2 E X 3 É Z 4 I S 5 O T 6 U W 7 Y V 8 FIGS DEL 9 J K A G M B H L C B R D C Q E F Z FIGS 0x 1x 0 undef LTRS 1 1. 2 2, 3 & : 4 3 ; 5 4! 6 O? 7 5 ' 8 FIGS DEL 9 6 ( A 7 ) B H = C 8 - D 9 / E F Budot - sendeenhet Kodetbellen er utformet med tnke på håndens ergonomi LTRS none IV V both none undef FIGS LTRS DEL I A J C K II E G X M I II É H Z L III I B S R III I O C T Q III II U F W Z FIGS none IV V both none undef FIGS LTRS DEL I 1 6. ( II 2 7, ) I II & H : = III 3 8 ; - III I 4 9! / III II O F? F D P F 0 % III II I Y D V P III II I 5 0 ' % INF1040-Tekst-9 INF1040-Tekst-10 Escpe-prinsippet Et escpe-tegn signliserer t de etterfølgende representsjonene skl tolkes på en lterntiv måte enten frm til et vsluttende escpe-tegn eller et bestemt ntll representsjoner (vnligvis én) Med escpe-prinsippet kn omfnget v tegnsettet utvides utover hv ntll bitposisjoner i utgngspunktet tillter Eksempel: Escpe-tegnpret FIGS og LTRS i Budot utvider omfnget v tegnsettet nesten til det dobbelte Den største ulempen er t mn ikke kn gå inn et tilfeldig sted i tekstrepresentsjonen og se hvilket tegn som står der Allikevel er escpe-prinsippet mye brukt INF1040-Tekst-11 ITA2 Interntionl Telegrph Alphbet 2 (1930 ) Bygger på Budot og Murry I bruk i telegrftjenesten helt opp til våre dger! LTRS 0x 1x 0 blnk T 1 E Z 2 LF L 3 A W 4 spce H 5 S Y 6 I P 7 U Q 8 CR O 9 D B A R G B J FIGS C N M D F X E C V F K LTRS FIGS 0x 1x 0 blnk 5 1 3 + 2 LF ) 3-2 4 spce undef 5 ' 6 6 8 0 7 7 1 8 CR 9 9 WRU? A 4 undef B BEL FIGS C.. D undef / E 9 = F ( LRTS INF1040-Tekst-12

6-biters tegn kodetbell (1960 ) Mnge ulike vrinter til og med på smme mskintype Eksempel her: UNIVACs 6-bits FIELDATA kodetbell Ofte bygd på FIELDATA (en US-Army stndrd) Meget utbredt på 60-tllets dtmskiner Gir rom for A Z, 0 9, noen spesiltegn Ikke små bokstver, ingen nsjonle tegn (Æ, Ø, Å) Tll og bokstver systemtisk plssert 0x 1x 2x 3x 0 @ K ) 0 1 [ L - 1 2 ] M + 2 3 # N < 3 4 Δ O = 4 5 spce P > 5 6 A Q & 6 7 B R $ 7 8 C S * 8 9 D T ( 9 A E U % B F V : ; C G W? / D H X!. E I Y, F J Z \ INF1040-Tekst-13 ASCII (1963 ) ASCII Americn Stndrd Code for Informtion Interchnge 7-biters kode 128 tegn Meget gjennomtenkt stndrd brukes den dg i dg, og er inkludert i nyere stndrder Gir rom for A Z, z, 0 9, mnge spesiltegn... men ikke for internsjonle tegn (æ, ø, å) se www.jimprice.com/jim-sc.htm INF1040-Tekst-14 ASCII kodetbell 0x 1x 2x 3x 4x 5x 6x 7x 0 NUL DLE spce 0 @ P ` p 1 SOH DC1! 1 A Q q 2 STX DC2 2 B R b r 3 ETX DC3 # 3 C S c s 4 EOT DC4 $ 4 D T d t 5 ENQ NAK % 5 E U e u 6 ACK SYN & 6 F V f v 7 BEL ETB ' 7 G W g w 8 BS CAN ( 8 H X h x 9 HT EM ) 9 I Y i y A LF SUB * : J Z j z B VT ESC + ; K [ k { C FF FS, < L \ l D CR GS - = M ] m } E SO RS. > N ^ n ~ F SI US /? O _ o DEL ISO 646-60 kodetbell Identisk med ASCII, bortsett fr t [ \ ] { } er ofret til fordel for ÆØÅæøå Lignende tilpsninger er gjort i tilsvrende stndrder for ndre språkmiljøer \yvind og ]se N{rb? 0x 1x 2x 3x 4x 5x 6x 7x 0 NUL DLE spce 0 @ P ` p 1 SOH DC1! 1 A Q q 2 STX DC2 2 B R b r 3 ETX DC3 # 3 C S c s 4 EOT DC4 $ 4 D T d t 5 ENQ NAK % 5 E U e u 6 ACK SYN & 6 F V f v 7 BEL ETB ' 7 G W g w 8 BS CAN ( 8 H X h x 9 HT EM ) 9 I Y i y A LF SUB * : J Z j z B VT ESC + ; K Æ k æ C FF FS, < L Ø l ø D CR GS - = M Å m å E SO RS. > N ^ n ~ F SI US /? O _ o DEL INF1040-Tekst-15 INF1040-Tekst-16

8 biter: Extended ASCII og ISO 8859 (1968 ) 8859-1: Ltin Alphbet No. 1 (Vest-Europ) 8859-2: Ltin Alphbet No. 2 (slvisk, ungrsk, romnsk) se http://nl.ijs.si/gnusl/cee/chrset.html 8859-3: Ltin Alphbet No. 3 (espernto, mltesisk) 8859-5: Ltin/Cyrillic Alphbet 8859-6: Ltin/Arbic Alphbet 8859-7: Ltin/Modern Greek Alphbet 8859-8: Ltin/Hebrew Alphbet 8859-9: Ltin Alphbet No. 5 (moderne tyrkisk) 8859-13: Ltin Alphbet No. 7 (islndsk, grønlndsk, bltisk, nordsmisk) 8859-14: Ltin Alphbet No. 8 (keltisk) 8859-15: Ltin Alphbet No. 9 (modernisert 8859-1, bl.. med euro-tegn) På folkemunne omtlt som ISO 8859 lfbetsuppen INF1040-Tekst-17 ISO 8859-1 (Ltin-1) kodetbell ISO 8859-15 (Ltin-15) kodetbell ISO 8859-1 modernisert 0x 1x 2x 3x 4x 5x 6x 7x 8x 9x Ax Bx Cx Dx Ex Fx 0 NUL DLE spce 0 @ P ` p no brek spce À Ð à ð 1 SOH DC1! 1 A Q q ± Á Ñ á ñ 2 STX DC2 2 B R b r ² Â Ò â ò 3 ETX DC3 # 3 C S c s ³ Ã Ó ã ó 4 EOT DC4 $ 4 D T d t Ä Ô ä ô 5 ENQ NAK % 5 E U e u µ Å Õ å õ 6 ACK SYN & 6 F V f v undefined Æ Ö æ ö 7 BEL ETB ' 7 G W g w Ç ç 8 BS CAN ( 8 H X h x È Ø è ø 9 HT EM ) 9 I Y i y ¹ É Ù é ù A LF SUB * : J Z j z ª º Ê Ú ê ú B VT ESC + ; K [ k { Ë Û ë û C FF FS, < L \ l ¼ Ì Ü ì ü D CR GS - = M ] m } - ½ Í Ý í ý E SO RS. > N ^ n ~ ¾ Î Þ î þ F SI US /? O _ o DEL Ï ß ï ÿ INF1040-Tekst-18 0x 1x 2x 3x 4x 5x 6x 7x 8x 9x Ax Bx Cx Dx Ex Fx 0 NUL DLE spce 0 @ P ` p no brek spce À Ð à ð 1 SOH DC1! 1 A Q q ± Á Ñ á ñ 2 STX DC2 2 B R b r ² Â Ò â ò 3 ETX DC3 # 3 C S c s ³ Ã Ó ã ó 4 EOT DC4 $ 4 D T d t Ž Ä Ô ä ô 5 ENQ NAK % 5 E U e u µ Å Õ å õ 6 ACK SYN & 6 F V f v undefined Š Æ Ö æ ö 7 BEL ETB ' 7 G W g w Ç ç 8 BS CAN ( 8 H X h x š ž È Ø è ø 9 HT EM ) 9 I Y i y ¹ É Ù é ù A LF SUB * : J Z j z ª º Ê Ú ê ú B VT ESC + ; K [ k { Ë Û ë û C FF FS, < L \ l Œ Ì Ü ì ü D CR GS - = M ] m } - œ Í Ý í ý E SO RS. > N ^ n ~ Ÿ Î Þ î þ F SI US /? O _ o DEL Ï ß ï ÿ INF1040-Tekst-19 Windows 1252 kodetbell Bygger på ISO 8859-1 0x 1x 2x 3x 4x 5x 6x 7x 8x 9x Ax Bx Cx Dx Ex Fx 0 NUL DLE spce 0 @ P ` p undef no brek spce À Ð à ð 1 SOH DC1! 1 A Q q undef ± Á Ñ á ñ 2 STX DC2 2 B R b r ² Â Ò â ò 3 ETX DC3 # 3 C S c s ƒ ³ Ã Ó ã ó 4 EOT DC4 $ 4 D T d t Ä Ô ä ô 5 ENQ NAK % 5 E U e u µ Å Õ å õ 6 ACK SYN & 6 F V f v Æ Ö æ ö 7 BEL ETB ' 7 G W g w Ç ç 8 BS CAN ( 8 H X h x ˆ È Ø è ø 9 HT EM ) 9 I Y i y ¹ É Ù é ù A LF SUB * : J Z j z Š š ª º Ê Ú ê ú B VT ESC + ; K [ k { Ë Û ë û C FF FS, < L \ l Œ œ ¼ Ì Ü ì ü D CR GS - = M ] m } undef undef - ½ Í Ý í ý E SO RS. > N ^ n ~ Ž ž ¾ Î Þ î þ F SI US /? O _ o DEL undef Ÿ Ï ß ï ÿ INF1040-Tekst-20

LF (Line Feed): 0x0A Linjeskift: LF og CR Indictes movement of the printing mechnism or disply cursor to the next line. CR (Crrige Return): 0x0D Indictes movement of the printing mechnism or disply cursor to the strting position of the sme line. Linjeskift representeres i dg på ulike måter: PC: CR + LF Mc: CR UNIX: LF Tegnsett for mobiltelefon - SMS Short Messge Services SMS 7-bit tegnsett ETSI GSM 03.38 vrint v ASCII, tillter c 160 tegn i en melding 16-bit tegnsett Unicode UTF-16 se lysrk Tekst-33, tillter c 70 tegn pr melding 8-bit tegnsett for binære dt (PDU-meldinger) Protocol description unit ETSI: Europen Telecommunictions Stndrds Institute www.etsi.org INF1040-Tekst-21 INF1040-Tekst-22 ETSI GSM 03.38 kodetbell for SMS 0x 1x 2x 3x 4x 5x 6x 7x 0 @ Δ spce 0 P p 1 _! 1 A Q q 2 $ Φ 2 B R b r 3 Γ # 3 C S c s 4 è Λ 4 D T d t 5 é Ω % 5 E U e u 6 ù Π & 6 F V f v 7 ì Ψ ' 7 G W g w 8 ò Σ ( 8 H X h x 9 Ç Θ ) 9 I Y i y A LF Ξ * : J Z j z B Ø ESC + ; K Ä k ä C ø Æ, < L Ö l ö D CR æ - = M Ñ m ñ E Å undef. > N Ü n ü F å É /? O $ o à pluss disse 10 escpe - sekvensene ESC e FF ESC LF [ ESC < \ ESC / ] ESC > ^ ESC Λ { ESC ( ESC @ } ESC ) ~ ESC = INF1040-Tekst-23 Den endelige løsning? Unicode og ISO 10646 21 biter, med mulighet for 1 114 112 kodepunkter C 130 000 privte C 870 000 ennå ikke brukt Første 128 tegn er identisk med ASCII Første 256 tegn identisk med ISO 8859-1 For hvert tegn finnes en representtiv glyf kodepunktet se http://www.unicode.org/chrts/ et nvn klssifisering skriveretning Vedttte tegn med kodepunkter skl ldri endres INF1040-Tekst-24

Unicode-kuben Tegnsettet er delt opp i 17 pln med 2 16 = 65536 bitmønstre i hvert pln Pln 0: BMP Bsic Multilingul Plne U+0000 to U+FFFF Pln 1: SMP Supplementry Multilingul Plne historiske språk (f.eks. egyptiske hieroglyfer), musikk Pln 2: SIP Supplementry Ideogrphic Plne sjeldne kinesiske tegn Pln 14: SPP Supplementry Specil Purpose Plne tg chrcters 10xxxx 16 FFxx 16 00xxxx 16 00xx 16 00 16 FF 16 256 256 17 I Unicode skriver vi U+ istedenfor 0x BMP Bsic Multilingul Plne INF1040-Tekst-25 Noen eksempler: Men hv er nå egentlig et tegn? Norsk: (f.eks. i nvn) oppfttes som å Spnsk: ll (eks. Mllorc) oppfttes som j Er ö ett tegn, eller o med tødler? Er ½ ett tegn, eller tre? Ligturer: e æ, ij ij to eller ett tegn? Er bokstven Å og enheten Å to forskjellige tegn? Kontroversielt tem: Unifisering v CJK (tegnsettet brukt I kinesisk, jpnsk og korensk) INF1040-Tekst-26 Bsistegn, kombinsjonstegn og forhåndssmmenstte tegn I Unicode finnes mnge tegnsekvenser som vises som en eneste, smmenstt glyf. Eksempel: Et tegn med dikritiske merker (se neste lysrk) representeres som et bsistegn etterfulgt v ett eller flere kombinsjonstegn. Eksempel: Ö representeres ved hjelp v de to tegnene O og, dvs. U+4F etterfulgt v U+A8 For å være komptibel med ASCII og ISO 8859-1 finnes det også såklte forhåndssmmenstte ( precomposed ) tegn, der bsistegn og kombinsjonstegn oppfttes som ett tegn Eksempel: Ö kn også representeres direkte som forhåndssmmenstt tegn, dvs. U+D6 Smme tekst kn ltså representeres på flere måter! INF1040-Tekst-27 Eksempler på dikritiske merker cute ccent rmstrong or ring bove breve ˇ cron/háček ˇ cedill bsistegn circumflex ˆ dikritisk merke diresis/umlut double cute ccent grve ccent ` mcron ogonek ç INF1040-Tekst-28

Tegn med endret utseende Er ² i teksten x² et spesielt tegn U+B2 = ², eller er det det vnlige tegnet U+32 = 2 som hr vært gjenstnd for en egnet formtering? Er ½ et spesielt tegn U+BD = ½, eller er det de tre tegnene U+31 = 1, U+2F = / og U+32 = 2 som hr vært gjenstnd for en egnet formtering? Unicode omftter ikke kontrolltegn for formtering. Hovedprinsippet er derfor t spesielle glyf-vrinter representeres som egne tegn. Unicode normlisering For å kunne smmenlikne tekster, bør de være normlisert til smme form Den vnligste normliseringsformen (form D): Ersttte forhåndssmmenstte tegn med bsistegn pluss kombinsjonstegn L tegn med endret utseende stå urørt Andre former kn imidlertid være nyttige i spesielle tilfeller Unicode inneholder imidlertid meknismer for å kunne normlisere til bsistegnene (komptibilitetsdekomposisjon) Smme tekst kn ltså representeres på flere måter! INF1040-Tekst-29 INF1040-Tekst-30 Representsjon v kodepunkter I Unicode representeres ikke nødvendigvis et kodepunkt så direkte som I de tidligere stndrdene. Det finnes flere ulike formter, klt UTF Unicode Trnsformtion Formts (Unicode) eller UCS Universl Chrcter Set (ISO 10646) UTF-32 = UCS-4 (lite brukt) 32-biters representsjoner for lle tegn UTF-16 = UCS-2 Tegn i BMP: 16-biters representsjoner Tegn utenfor BMP: 32-biters representsjoner (surrogtpr) UTF-8 = UCS-1: 8, 16, 24 eller 32-biters representsjoner, vhengig v tegnet ASCII-tegnene: Smme representsjon som i ASCII med en ekstr 0 i forknt. Dette hr stor prktisk betydning. Unicode UTF-32 Føy til ledende 0-biter opp til 32 biter forn den direkte representsjonen v kodepunktet Hv er representsjonen for A i UTF-32? (Kodepunktet for A er U+0041 = 0000 0000 0100 0001 2 ) Hv er representsjonen for i UTF-32? (Kodepunktet for er U+2658 = 0010 0110 0101 1000 2 ) INF1040-Tekst-31 INF1040-Tekst-32

Unicode UTF-16 Med 16 biter kn kodepunktene i BMP representeres direkte. De 16 plnene over BMP, i lt 2 20 = 1 048 576 kodepunkter, dresseres fr BMP med surrogtpr: High surrogte D800 DBFF : 1101 10xx xxxx xxxx 2 Low surrogte DC00 DFFF: 1101 11xx xxxx xxxx 2 Representsjoner som strter med 1101 1 kn ikke brukes for vnlige tegn, og surrogtprene beslglegger derfor plss i BMP High surrogte : 1101 10xx xxxx xxxx 2 Low surrogte : 1101 11xx xxxx xxxx 2 17 Kodepunkter opptil 16 biter representeres direkte Kodepunkter med mer enn 16 biter representeres med surrogtpr Nyttelsten i et surrogtpr er 20 biter vi kn ltså dressere 16 lg i Unicode-kuben For å kunne dressere lle 16 lg over BMP, dderer vi 2 16 til nyttelsten Unicode UTF-16 16 biter xxxxxxxxxxxxxxxx 20 biter 110110xxxxxxxxxx 110111xxxxxxxxxx High surrogte : 1101 10xx xxxx xxxx 2 Low surrogte : 1101 11xx xxxx xxxx 2 xxxx xxxx xxxx xxxx xxxx 2 + 0001 0000 0000 0000 0000 2 = x xxxx xxxx xxxx xxxx xxxx 2 256 256 Bieffekten er t et område i BMP tilsvrende 2048 tegn må reserveres for surrogtpr xxxx xxxx xxxx xxxx xxxx 2 + 0001 0000 0000 0000 0000 2 = x xxxx xxxx xxxx xxxx xxxx 2 INF1040-Tekst-33 INF1040-Tekst-34 Unicode Et krt over BMP Unicode UTF-16 eksempel 0? 1? 0?xx 1?xx 2?xx 3?xx 4?xx 5?xx 6?xx 7?xx 8?xx 9?xx A?xx B?xx C?xx D?xx E?xx F?xx Hv er representsjonen for i Unicode UTF-16? (Kodepunktet for er U+1D11E = 1 1101 0001 0001 1110 2 ) 2? 3? ASCII 4? 5? 6? 7? 8? 9? A? B? ISO 8859-1 Reservert for UTF-16 surrogtpr Hv er representsjonen for Liner B i Unicode UTF-16? (Kodepunktet for er U+1000F) C? D? Hver rute = 16*16 tegn = 256 tegn E? F? INF1040-Tekst-35 INF1040-Tekst-36

Enslig motorvogn = 0 + ASCII-kode Motorvogn i tog begynner lltid med et ntll 1er-biter etterfulgt v en 0 Antll 1er-biter i motorvognen = ntll vogner i toget Vognene begynner lltid med 10 Disse bitmønstrene brukes ikke for vnlige tegn i UTF-8 Unicode UTF-8 7 biter 0xxxxxxx 11 biter 110xxxxx 10xxxxxx 1110xxxx 11110xxx 16 biter 10xxxxxx http://www.ifi.unizh.ch/mml/mduerst/ppers/pdf/iuc11-utf-8.pdf ASCII med en ekstr ledende 0 er komptibel med UTF-8 10xxxxxx 21 biter 10xxxxxx 10xxxxxx 10xxxxxx INF1040-Tekst-37 Unicode UTF-8 eksempler Hv er representsjonen for A i Unicode UTF-8? Kodepunktet for A er U+0041 = 0000 0000 1101 1000 2 A ligger i ASCII-settet og det holder med motorvognen : UTF-8-representsjonen for A er 0x0041 Hv er representsjonen for Ø i Unicode UTF-8? Kodepunktet for Ø er U+00D8 = 0000 0000 1101 1000 2 Trenger et tog med plss til minst 8 biter d trenger vi to bytes: 11 biter 110xxxxx 10xxxxxx Setter inn for x: 11000011 10011000 = 0xC3 0x98 UTF-8-representsjonen for Ø er ltså 0xC398 INF1040-Tekst-38 Unicode UTF-8 eksempler Hv er representsjonen for i Unicode UTF-8? (Kodepunktet for er U+2658 = 0010 0110 0101 1000 2 ) Big endin vs. Little endin I representsjoner som krever mer enn én byte, finnes det to mulige rekkefølger v bytene: Strte med den mest signifiknte ( Big endin ) Strte med den minst signifiknte ( Little/smll endin ) Hv er representsjonen for i Unicode UTF-16? (Kodepunktet for er U+1D11E = 1 1101 0001 0001 1110 2 ) Eksempel: UTF-16 Big endin for A er 0x 00 41 UTF-16 Little endin for A er 0x 41 00 Begge muligheter blir brukt i prksis, og dette kn gi problemer når dt overføres fr et mskinmiljø til et nnet! UTF-8 hr ikke dette problemet, siden vi her ser på en byte d gngen INF1040-Tekst-39 INF1040-Tekst-40

Byte order mrk (BOM) Et Byte order mrk (BOM) er tegnet Zero width no-brek spce med kodepunkt U+FEFF i begynnelsen v en Unicode-fil. Siden det ikke finnes noe tegn med kodepunkt U+FFFE, kn BOM brukes til å finne filformtet (UTF-32, UTF-16, UTF-8 og Big eller Smll endin): Koding BOM-bitmønster UTF-32, Big endin 0x 00 00 FE FF UTF-32, Little endin 0x FF FE 00 00 UTF-16, Big endin 0x FE FF UTF-16, Little endin 0x FF FE UTF-8 0x EF BB BF Plin vs. fncy tekst Unicode-stndrden omftter bre plin text : Tekst uten typogrfiske virkemidler som bestemt skrifttype og skriftstørrelse, fet skrift, kursiv, bestemt linjevstnd, innrykk osv. Fncy tekst er Unicodes betegnelse på tekst med slike typogrfiske virkemidler. Disse må legges inn i teksten i en eller nnen form for formtteringskommndoer til fremvisningsenheten. Fncy tekst er temet for neste forelesning! INF1040-Tekst-41 INF1040-Tekst-42