Posebni znaki Unicode. Problem razlikovanja navzven podobnih številk in črk.

Vsak uporabnik interneta je pri poskusu konfiguriranja ene ali druge svoje funkcije vsaj enkrat na zaslonu zagledal napisano besedo "Unicode". Kaj je to, boste izvedeli z branjem tega članka.

Opredelitev

Unicode je standard za kodiranje znakov. Predlagala ga je neprofitna organizacija Unicode Inc. leta 1991. Standard je bil razvit z namenom združiti čim več različnih tipov znakov v enem dokumentu. Stran, ki je bila ustvarjena na njeni podlagi, lahko vsebuje črke in hieroglife iz različnih jezikih(iz ruščine v korejščino) in matematični znaki. V tem primeru so vsi znaki v tem kodiranju prikazani brez težav.

Razlogi za nastanek

Nekoč, že dolgo prej enoten sistem"Unicode", kodiranje je bilo izbrano na podlagi preferenc avtorja dokumenta. Zaradi tega je bilo za branje enega dokumenta pogosto treba uporabiti različne tabele. Včasih je bilo treba to storiti večkrat, kar je bistveno zapletlo življenje navadnega uporabnika. Kot smo že omenili, je rešitev tega problema leta 1991 predlagala neprofitna organizacija Unicode Inc., ki je predlagala novo vrsto kodiranja znakov. Namen je bil združiti zastarele in raznolike standarde. "Unicode" je kodiranje, ki je omogočilo doseganje takrat nepredstavljivega: ustvariti orodje, ki podpira ogromno število znakov. Rezultat je presegel številna pričakovanja - pojavili so se dokumenti, ki so hkrati vsebovali tako angleško kot rusko besedilo, latinščino in matematične izraze.

Toda pred ustvarjanjem enotnega kodiranja je bila potrebna rešitev številnih težav, ki so se pojavile zaradi ogromne raznolikosti standardov, ki so že obstajali v tistem času. Najpogostejši med njimi:

vilinske črke ali "krakozyabry";
omejen nabor znakov;
problem pretvorbe kodiranja;
podvojene pisave.

Majhen zgodovinski izlet

Predstavljajte si, da je v 80. letih. Računalniška tehnologija še ni tako razširjena in ima drugačen videz od današnje. Takrat je vsak OS edinstven na svoj način in ga vsak navdušenec spremeni za posebne potrebe. Potreba po izmenjavi informacij se spremeni v dodatno izpopolnjevanje vsega na svetu. Poskus branja dokumenta, ustvarjenega v drugem operacijskem sistemu, pogosto prikaže nerazumljiv nabor znakov na zaslonu in začnejo se igre s kodiranjem. To ni vedno mogoče storiti hitro, včasih pa se lahko potreben dokument odpre v šestih mesecih ali celo kasneje. Ljudje, ki pogosto izmenjujejo informacije, si sami ustvarijo pretvorbene tabele. In delo na njih razkrije zanimivo podrobnost: ustvariti jih morate v dveh smereh: »od mojega do tvojega« in obratno. Stroj ne more narediti banalne inverzije izračunov, saj je vir v desnem stolpcu, rezultat pa v levem, ne pa obratno. Če je bilo potrebno uporabiti katero Posebni simboli v dokumentu jih je bilo treba najprej dodati, nato pa partnerju tudi razložiti, kaj mora narediti, da se ti liki ne spremenijo v »nore«. In ne pozabimo, da smo morali za vsako kodiranje razviti ali implementirati lastne pisave, kar je privedlo do ustvarjanja ogromnega števila dvojnikov v OS.

Predstavljajte si tudi, da boste na strani pisav videli 10 kosov enakih Times New Roman z majhnimi oznakami: za UTF-8, UTF-16, ANSI, UCS-2. Ali zdaj razumete, da je bil razvoj univerzalnega standarda nujna potreba?

"Očetje stvarniki"

Začetki Unicode segajo v leto 1987, ko so Joe Becker iz Xeroxa skupaj z Leejem Collinsom in Markom Davisom iz Apple začel raziskovati na področju praktičnega ustvarjanja univerzalnega nabora znakov. Avgusta 1988 je Joe Becker objavil osnutek predloga za 16-bitni mednarodni večjezični sistem kodiranja.

Nekaj mesecev pozneje se je delovna skupina Unicode razširila na Kena Whistlerja in Mikea Kernegana iz RLG, Glenna Wrighta iz Sun Microsystems in nekaj drugih, s čimer je zaključila predhodno delo na enem standardu kodiranja.

splošen opis

Unicode temelji na konceptu znaka. Ta definicija se nanaša na abstraktni pojav, ki obstaja v določeni vrsti pisave in se uresničuje skozi grafeme (njegove »portrete«). Vsak znak je določen v "Unicode" edinstvena koda ki pripadajo določenemu bloku standarda. Na primer, grafem B obstaja v angleški in ruski abecedi, v Unicode pa ima 2 različna znaka. Zanje je uporabljena transformacija, to pomeni, da je vsak od njih opisan s ključem baze podatkov, nizom lastnosti in polnim imenom.

Prednosti Unicode

Od drugih sodobnikov se je kodiranje Unicode razlikovalo po ogromni ponudbi znakov za "šifriranje" znakov. Dejstvo je, da so imeli njegovi predhodniki 8 bitov, torej so podpirali 28 znakov, vendar nov razvoj imel že 216 znakov, kar je bil velik korak naprej. To je omogočilo kodiranje skoraj vseh obstoječih in običajnih abeced.

S prihodom "Unicode" ni bilo treba uporabljati pretvorbenih tabel: kot enoten standard je preprosto zanikal njihovo potrebo. Na enak način so "crakozyabry" potonili v pozabo - en sam standard jih je onemogočil in tudi odpravil potrebo po ustvarjanju podvojenih pisav.

Razvoj Unicode

Seveda napredek ne miruje in od prve predstavitve je minilo 25 let. Vendar kodiranje Unicode trmasto ohranja svoj položaj v svetu. V mnogih pogledih je to postalo mogoče zaradi dejstva, da se je postalo enostavno izvajati in širiti, saj so ga prepoznali razvijalci lastniške (plačane) in odprtokodne programske opreme.

Hkrati pa ne smemo domnevati, da nam je danes na voljo enako kodiranje Unicode kot pred četrt stoletja. Na ta trenutek njegova različica se je spremenila v 5.x.x, število kodiranih znakov pa se je povečalo na 231. Možnost uporabe večje količine znakov je bila opuščena, da bi še vedno ohranili podporo za Unicode-16 (kodiranje, pri katerem je bilo največje število znakov omejeno do 216). Od svojega začetka in do različice 2.0.0 je "Unicode Standard" povečal število znakov, ki so bili vključeni vanj, skoraj 2-krat. Rast priložnosti se je nadaljevala tudi v naslednjih letih. Do različice 4.0.0 je že obstajala potreba po povečanju samega standarda, kar je bilo tudi storjeno. Kot rezultat, je "Unicode" dobil obliko, v kateri ga poznamo danes.

Kaj je še v Unicode?

Poleg ogromnega števila znakov, ki se nenehno dopolnjujejo, ima še eno uporabno lastnost. To je tako imenovana normalizacija. Namesto pomikanja po celotnem dokumentu znak za znakom in zamenjave ustreznih ikon iz iskalne tabele se uporablja eden od obstoječih algoritmov za normalizacijo. o čem se pogovarjamo?

Namesto zapravljanja računalniških virov za redno preverjanje istega znaka, ki je lahko v različnih abecedah podobni, se uporablja poseben algoritem. Omogoča vam, da vzamete podobne znake v ločen stolpec nadomestne tabele in se že sklicujete nanje ter ne preverjate vseh podatkov znova in znova.

Štirje takšni algoritmi so bili razviti in implementirani. V vsakem od njih se preoblikovanje odvija po strogo določenem principu, ki se razlikuje od drugih, zato katerega od njih ni mogoče imenovati za najbolj učinkovitega. Vsak je bil razvit za posebne potrebe, implementiran in uspešno uporabljen.

Porazdelitev standarda

V svoji 25-letni zgodovini je Unicode verjetno najbolj razširjeno kodiranje na svetu. Temu standardu so prilagojeni tudi programi in spletne strani. O širini uporabe lahko govori dejstvo, da Unicode danes uporablja več kot 60 % internetnih virov.

Zdaj veste, kdaj se je pojavil standard Unicode. Kaj je to, tudi vi veste in boste lahko cenili celoten pomen izuma, ki ga je izdelala skupina strokovnjakov Unicode Inc. pred več kot 25 leti.

Potrebujete gostovanje ali domeno? Klikni tukaj! Želite ustvariti spletno trgovino? Klikni tukaj! (Skupaj)

Včasih je pri pisanju objave potreben znak (znak), ki ga ni na tipkovnici, v takih situacijah vam bo pomagala tabela znakov Unicode. Danes si bomo ogledali spletna storitev, v katerem so združeni vsi znaki Unicode ...

Tabela znakov Unicode

Za tiste, ki jih zanima ozadje videza Unicode- tukaj je povezava do wikipedije

Torej opredelimo svoje interese v znaki unicode je njihova uporaba v njihovih člankih, na njihovih spletnih straneh.
Najprej pojdimo na stran storitvenih znakov Unicode:

Oglejmo si vmesnik te storitve. Na samem vrhu je iskalno polje, dovolj je, da vtipkate ime elementa, ki ga iščete, na primer: "Puščica" ali "Elipsis", po vnosu kliknite na iskanje, da dobite rezultat.

Poleg iskanja je preklopnik jezikov strani.

Spodaj je seznam pogosto zahtevanih simbolov, morda bo med njimi tisti, ki ga potrebujete, če je tako, samo kliknite na simbol, da odprete stran s podrobnimi informacijami o njem.

Glavni del strani je tabela znakov unicode, za lažje iskanje lahko kliknete tudi na "Nadzorni znaki", da izberete skupino znakov, na primer: "Grški znaki", če morate vstaviti grški znak.

Iskanje želenega elementa v tabeli znakov Unicode

Uporabimo na primer iskanje in vanj vnesemo besedo "puščica" in kliknemo iskanje.

Na strani z rezultati iskanja poiščite simbol, ki ga potrebujemo, in ga kliknite, da odprete stran podrobne informacije o njem.

Na strani znak unicode zanima nas njegova HTML koda ali Mnemonika, oboje je mogoče uporabiti na spletni strani, za to kopirajte kodo in jo prilepite na pravo mesto v oznaki HTML, brskalnik jo bo interpretiral in prikazal kot simbol na stran.

Upoštevajte, da je na strani z znaki Unicode možnost izbire pisave. Vedno preizkusite, kako se bo vaša pisava upodabljala z Verdana, Arial (in drugimi spletnimi pisavami). ne podpirajo vseh znakov.

(kode od 0 do 127), tj. Latinske črke, številke in posebni znaki so kodirani v enem bajtu. Ruske črke (cirilica) predstavljajo 16-bitne (dvobajtne) kode:

110XXXXXX 10XXXXXX,

kjer so X binarne števke za umestitev kode znakov v skladu s tabelo UNICODE.

Unicode (eng. Unicode) je standard za kodiranje znakov, ki omogoča predstavitev znakov skoraj vseh pisnih jezikov. Znaki, predstavljeni v Unicode, so kodirani kot nepodpisana cela števila. Te številke se imenujejo kode znakov Unicode ali preprosto UNICODE. Unicode ima več oblik za predstavitev znakov na računalniku: UTF-8, UTF-16 (UTF-16BE, UTF-16LE) in UTF-32 (UTF-32BE, UTF-32LE). (Angleški format transformacije Unicode - UTF).

Razmislite, kako je kodiran UTF-8 pismo F. njo UNICODE- 1046 10 ali 0416 16 ali 10000 010110 2. UNICODE v binarni obliki je razdeljen na dva dela: pet levih bitov in šest desnih. Leva stran je dopolnjena z bajtom z znakom 110 dvobajtna koda UTF-8: 110 10000. Dva bita sta dodeljena desni strani 10 znak nadaljevanja večbajtne kode: 10 010110. Končna črkovna koda F v UTF-8 izgleda takole:

110 10000 10 010110 2
ali D0 96 16

Tako je ruska črka kodirana dvakrat: najprej v 11-bitno UNICODE, nato pa v 16-bitni UTF-8.

V spodnji tabeli, poleg kod UNICODE in UTF-8 v šestnajstiškem zapisu, dane kode UTF-8 v decimalnem zapisu in za primerjavo cirilice v kodiranju CP-1251, drugače imenovano okna-1251.

Tabela cirilicnih kod v UTF-8

Simbol	UNICODE		UTF-8		CP-1251
Simbol	Shestn.	deset	Shestn.	deset	CP-1251
AMPAK	0410	1040	D090	208 144	192
B	0411	1041	D091	208 145	193
AT	0412	1042	D092	208 146	194
G	0413	1043	D093	208 147	195
D	0414	1044	D094	208 148	196
E	0415	1045	D095	208 149	197
F	0416	1046	D096	208 150	198
W	0417	1047	D097	208 151	199
IN	0418	1048	D098	208 152	200
Y	0419	1049	D099	208 153	201
TO	041A	1050	D09A	208 154	202
L	041B	1051	D09B	208 155	203
M	041C	1052	D09C	208 156	204
H	041D	1053	D09D	208 157	205
O	041E	1054	D09E	208 158	206
P	041F	1055	D09F	208 159	207
R	0420	1056	D0A0	208 160	208
Z	0421	1057	D0A1	208 161	209
T	0422	1058	D0A2	208 162	210
Pri	0423	1059	D0A3	208 163	211
F	0424	1060	D0A4	208 164	212
X	0425	1061	D0A5	208 165	213
C	0426	1062	D0A6	208 166	214
H	0427	1063	D0A7	208 167	215
W	0428	1064	D0A8	208 168	216
SCH	0429	1065	D0A9	208 169	217
Kommersant	042A	1066	D0AA	208 170	218
S	042B	1067	D0AB	208 171	219
b	042C	1068	D0AC	208 172	220
E	042D	1069	D0AD	208 173	221
YU	042E	1070	D0AE	208 174	222
jaz	042F	1071	D0AF	208 175	223
ampak	0430	1072	D0B0	208 176	224
b	0431	1073	D0B1	208 177	225
v	0432	1074	D0B2	208 178	226
G	0433	1075	D0B3	208 179	227
d	0434	1076	D0B4	208 180	228
e	0435	1077	D0B5	208 181	229
no	0436	1078	D0B6	208 182	230
h	0437	1079	D0B7	208 183	231
in	0438	1080	D0B8	208 184	232
th	0439	1081	D0B9	208 185	233
do	043A	1082	D0BA	208 186	234
l	043B	1083	D0BB	208 187	235
m	043C	1084	D0BC	208 188	236
n	043D	1085	D0BD	208 189	237
približno	043E	1086	D0BE	208 190	238
P	043F	1087	D0BF	208 191	239
R	0440	1088	D180	209 128	240
z	0441	1089	D181	209 129	241
T	0442	1090	D182	209 130	242
pri	0443	1091	D183	209 131	243
f	0444	1092	D184	209 132	244
X	0445	1093	D185	209 133	245
c	0446	1094	D186	209 134	246
h	0447	1095	D187	209 135	247
sh	0448	1096	D188	209 136	248
SCH	0449	1097	D189	209 137	249
b	044A	1098	D18A	209 138	250
s	044B	1099	D18B	209 139	251
b	044C	1100	D18C	209 140	252
uh	044D	1101	D18D	209 141	253
Yu	044E	1102	D18E	209 142	254
jaz	044F	1103	D18F	209 143	255
Znaki izven splošnega pravila
Joj	0401	1025	D001	208 101	168
yo	0451	1025	D191	209 145	184

Včasih morate svojemu dizajnu dodati ikono, vendar ne želite vključiti dodatnih slik ali celotne pisave ikone, kot je Font Awesome? Potem imamo za vas dobro novico – v vašem brskalniku je že na voljo obsežna knjižnica ikon in simbolov. Imenuje se Unicode in je standard, ki dodeljuje edinstveni identifikatorji za nenehno naraščajoče število (trenutno več kot 110.000) simbolov in ikon.

To pa ne pomeni, da imate na izbiro na stotine tisoč ikon. Odvisno je od brskalnika, ki jih upodablja, in za to uporablja pisave, ki so nameščene v sistemu. V tem članku smo zbrali številne nabore znakov, ki so na voljo v sistemih Windows, Linux, OS X, Android in IOS. Danes jih lahko uporabite v svojem oblikovanju!

Nasvet: ki pojasnjuje vse, kar morate vedeti o kodiranju in Unicode, ki ga priporočamo v branje vsakemu razvijalcu programske opreme.

Kako uporabljati te ikone

Ikone, prikazane v spodnjih tabelah, so običajni znaki, ki jih lahko kopirate in prilepite, kot da bi bile črke abecede. Če pa se kodiranje uporablja za shranjevanje datotek HTML/CSS ne UTF-8 ne bodo prikazani. Zato smo uvedli HTML escape kodo, ki bo vedno delovala. Tukaj je tisto, kar morate storiti za uporabo teh ikon:

Poiščite ikono, ki vam je všeč. Zagotovili smo majhne in velike predoglede.
Kopirajte kodo.
Prilepite ga v HTML kot navadno besedilo. V CSS jih lahko uporabite kot vrednost lastnosti vsebino. V JS, PHP in drugih programskih jezikih jih lahko uporabljate kot navadno besedilo v nizih.
Ikone lahko prilagodite tako, da nastavite velikost pisave, barvo, besedilo in senco tako kot običajno besedilo.

ikone

ime	Predogled		Koda
smeška	☺	☺	☺
Opozorilni znak	⚠	⚠	⚠
Vrelci	♨	♨	♨
invalidski voziček	♿	♿	♿
Recikliraj	♻	♻	♻
8 žoga	➑	➑	➑
visokonapetostni	⚡	⚡	⚡
bela zvezda	☆	☆	☆
Črna zvezda	★	★	★
belo srce	♡	♡	♡
črno srce	❤	❤	❤
Kava	☕	☕	☕
Letalo	✈	✈	✈
Peščena ura	⌛	⌛	⌛
ura	⌚	⌚	⌚
Črne škarje	✂	✂	✂
Bele škarje	✄	✄	✄
Krona	♕	♕	♕
Sidro	⚓	⚓	⚓
križ	✝	✝	✝
Črno bel krog	◑	◑	◑
Osma opomba	♪	♪	♪
Osvetljene osme note	♫	♫	♫
Zvezdica s štirimi baloni	✣	✣	✣
Obkrožena bela zvezda	✪	✪	✪
bela zvezda	✰	✰	✰
Bela štirikraka zvezda	✧	✧	✧
Črna štirikraka zvezda	✦	✦	✦
Preverjanje glasovnice	☑	☑	☑
Kljukica	✔	✔	✔
Križni znak	✘	✘	✘
Svinčnik	✎	✎	✎
Roka za pisanje	✍	✍	✍
Ženska	♀	♀	♀
moški	♂	♂	♂
črn telefon	☎	☎	☎
bel telefon	☏	☏	☏
Ovojnica	✉	✉	✉
telefonsko lokacijo	✆	✆	✆

Puščice v unicode

ime	Predogled		Koda
Puščica v levo	←	←	←
Puščica v desno	→	→	→
Puščica navzgor
Puščica navzdol	↓	↓	↓
Puščica levo desno	↔	↔	↔
Puščica navzgor in navzdol	↕	↕	↕
Desno in levo puščice	⇄	⇄	⇄
Puščice gor in dol	⇅	⇅	⇅
Puščica dol levo za 90 stopinj	↲	↲	↲
Puščica navzdol-desno 90 stopinj	↳	↳	↳
Puščica gor levo za 90 stopinj	↰	↰	↰
Puščica gor-desno 90 stopinj	↱	↱	↱
Severozahodna puščica do vogala	⇱	⇱	⇱
Jugovzhodna puščica do vogala	⇲	⇲	⇲
Puščica levo do vrstice	⇤	⇤	⇤
Puščica desno do vrstice	⇥	⇥	⇥
Polkrožna puščica v nasprotni smeri urnega kazalca	↶	↶	↶
Polkrožna puščica v smeri urinega kazalca	↷	↷	↷
Krožna puščica v nasprotni smeri urinega kazalca	↺	↺	↺
Krožna puščica v smeri urinega kazalca	↻	↻	↻
Široka puščica v desno	➔	➔	➔
Cikcak puščica navzdol	↯	↯	↯
Severozahodna puščica	↖	↖	↖
Težka jugovzhodna puščica	➘	➘	➘
Težka puščica v desno	➙	➙	➙
Težka severovzhodna puščica	➚	➚	➚
Črtkana puščica v desno	➟	➟	➟
Puščica s pikami v levo	⇠	⇠	⇠
Črna puščica v desno	➤	➤	➤
Bela puščica levo	⇦	⇦	⇦
Bela puščica v desno	⇨	⇨	⇨
Levi kotni narekovaj	«	«	«
Pravokotni narekovaj	»	»	»
Desni črni kazalec
Levi črni kazalec	◀	◀	◀
Gor črni kazalec	▲	▲	▲
Črni kazalec navzdol	▼	▼	▼
Desni beli kazalec	▷	▷	▷
Levi beli kazalec	◁	◁	◁
Navzgor beli kazalec	△	△	△
Bela kazalec navzdol	▽	▽	▽
Puščica z lokom	➴	➴	➴

Posebni znaki v unicode

Valuta v unicode

vremenske ikone

ime	Predogled		Koda
stopnje	°	°	°
majhno sonce	☀	☀	☀
veliko sonce	☼	☼	☼
oblak	☁	☁	☁
Dežnik	☔	☔	☔
snežinka 1	❆	❆	❆
snežinka 2	❅	❅	❅
snežinka 3	❄	❄	❄

Kazalniki Unicode

ime	Predogled		Koda
Kazalec levo črn	☚	☚	☚
Kazalec desno črn	☛	☛	☛
Kazalec levo bel	☜	☜	☜
Kazalec gor belo	☝	☝	☝
Kazalec desno bel	☞	☞	☞
Kazalec navzdol belo	☟	☟	☟

Znaki zodiaka v unicode

ime	Predogled		Koda
Oven	♈	♈	♈
Bik	♉	♉	♉
Dvojčka	♊	♊	♊
Rak	♋	♋	♋
lev	♌	♌	♌
Devica	♍	♍	♍
tehtnice	♎	♎	♎
Škorpijon	♏	♏	♏
Strelec	♐	♐	♐
Kozorog	♑	♑	♑
Vodnar	♒	♒	♒
Ribe	♓	♓	♓

Simboli kartic v unicode

ime	Predogled		Koda
Klub Črna	♠	♠	♠
srca črna	♥	♥	♥
Diamanti črni	♦	♦	♦
Piki črni	♣	♣	♣
Klub Bela	♤	♤	♤
srca bela	♡	♡	♡
Diamanti beli	♢	♢	♢
Pike bele	♧	♧	♧

Šahovske figure v unicode

ime	Predogled		Koda
kralj beli	♔	♔	♔
kraljica bela	♕	♕	♕
Rook White	♖	♖	♖
Škof Beli	♗	♗	♗
Vitez Beli	♘	♘	♘
zastavljalka bela	♙	♙	♙
kralj črn	♚	♚	♚
kraljica črna	♛	♛	♛
Rook Black	♜	♜	♜
Škof Črni	♝	♝	♝
Črni vitez	♞	♞	♞
Pawn Black	♟	♟	♟

Igra s kockami

ime	Predogled		Koda
Vrzi kocke ena	⚀	⚀	⚀
Kocke Rot Two	⚁	⚁	⚁
Mete tri kocke	⚂	⚂	⚂
Mete kocke štiri	⚃	⚃	⚃
Mete kocke pet	⚄	⚄	⚄
Mete šest kock	⚅	⚅	⚅

Matematični simboli v Unicode

ime	Predogled		Koda
neskončnost	∞	∞	∞
plus minus	±	±	±
Manj kot ali enako	≤	≤	≤
Več kot ali enako	≥	≥	≥
Ni enako	≠	≠	≠
divizije	÷	÷	÷
množenje x	×	×	×
Težko množenje x	✖	✖	✖
Nadpis ena	¹	¹	¹
Nadpis dva	²	²	²
Nadpis tri	³	³	³
Obkroženi plus	⊕	⊕	⊕
Obkroženo množenje	⊗	⊗	⊗
Logično IN	∧	∧	∧
Logično ALI	∨	∨	∨
Delta	∆	∆	∆
pita	∏	∏	∏
Sigma (SUM)	∑	∑	∑
Omega	Ω	Ω	Ω
Prazen komplet	∅	∅	∅
Kot	∠	∠	∠
vzporedno	∥	∥	∥
Pravokotno	⊥	⊥	⊥
Skoraj enako	≈	≈	≈
trikotnik	△	△	△
Krog	○	○	○
Kvadrat	□	□	□

Ulomki

ime	Predogled		Koda
ena četrtina (1/4)	¼	¼	¼
polovica (1/2)	½	½	½
tri četrtine (3/4)	¾	¾	¾
ena tretjina (1/3)	⅓	⅓	⅓
Dve tretjini (2/3)	⅔	⅔	⅔
ena osem (1/8)	⅛	⅛	⅛
Tri osmice (3/8)	⅜	⅜	⅜
Pet osmic (5/8)	⅝	⅝	⅝
Sedem osem (7/8)	⅞	⅞	⅞

Rimske številke v unicode

ime	Predogled		Koda
Rimska številka ena	Ⅰ	Ⅰ	Ⅰ
Rimska številka dve	Ⅱ	Ⅱ	Ⅱ
Rimska številka tri	Ⅲ	Ⅲ	Ⅲ
Rimska številka štiri	Ⅳ	Ⅳ	Ⅳ
rimska številka pet	Ⅴ	Ⅴ	Ⅴ
rimska številka šest	Ⅵ	Ⅵ	Ⅵ
rimska številka sedem	Ⅶ	Ⅶ	Ⅶ
Rimska številka osem	Ⅷ	Ⅷ	Ⅷ
rimska številka devet	Ⅸ	Ⅸ	Ⅸ
Rimska številka deset	Ⅹ	Ⅹ	Ⅹ
Rimska številka Enajst	Ⅺ	Ⅺ	Ⅺ
Rimska številka dvanajst	Ⅻ	Ⅻ	Ⅻ

Obstaja nekaj razlik pri upodabljanju teh znakov v različnih operacijski sistemi. To povzročajo različne družine pisav, ki se uporabljajo. Poleg tega iOS in Android nekatere znake Unicode zamenjata z emojiji, zato preverite dodane znake, da se prepričate, da se to ne zgodi in da se ikone prikažejo, kot je predvideno.

Elementi kodnega prostora, ki predstavljajo nenegativna cela števila. Družina kodiranja definira strojno predstavitev zaporedja kod UCS.

Kode v standardu Unicode so razdeljene na več področij. Območje s kodami U+0000 do U+007F vsebuje znake ASCII z ustreznimi kodami. Sledijo področja znakov različnih skript, ločil in tehničnih simbolov. Nekatere kode so rezervirane za prihodnjo uporabo. Pod ciriličnimi znaki so dodeljena področja znakov s kodami od U + 0400 do U + 052F, od U + 2DE0 do U + 2DFF, od U + A640 do U + A69F (glej Cirilica v Unicode).

Predpogoji za nastanek in razvoj Unicode

Ker so bili v številnih računalniških sistemih (na primer Windows NT) fiksni 16-bitni znaki že uporabljeni kot privzeto kodiranje, je bilo odločeno, da se vsi najpomembnejši znaki kodirajo le znotraj prvih 65.536 mest (t. i. angleščina. osnovno večjezično letalo, BMP). Preostali prostor se uporablja za "dodatne znake" (eng. komplementarni znaki): sistemi pisanja izumrlih jezikov ali zelo redko uporabljenih kitajskih črk, matematičnih in glasbenih simbolov.

Za združljivost s starejšimi 16-bitnimi sistemi je bil izumljen sistem UTF-16, kjer je prvih 65.536 pozicij, brez pozicij iz intervala U+D800…U+DFFF, prikazanih neposredno kot 16-bitna števila, ostali pa so predstavljeni. kot "nadomestni pari" (prvi element para iz regije U+D800…U+DBFF, drugi element para iz regije U+DC00…U+DFFF). Za nadomestne pare je bil uporabljen del kodnega prostora (2048 pozicij), ki je bil prej rezerviran za "znake za zasebno uporabo".

Ker je v UTF-16 mogoče prikazati le 2 20 +2 16 −2048 (1 112 064) znakov, je bila ta številka izbrana kot končna vrednost kodnega prostora Unicode.

Čeprav je bilo območje kode Unicode razširjeno preko 2 16 že v različici 2.0, so bili prvi znaki v "top" regiji postavljeni šele v različici 3.1.

Vloga tega kodiranja v spletnem sektorju nenehno raste, v začetku leta 2010 je bil delež spletnih strani, ki uporabljajo Unicode, približno 50 %.

Različice Unicode

Ker se tabela znakov sistema Unicode spreminja in dopolnjuje ter se izdajajo nove različice tega sistema - in to delo še poteka, saj je sistem Unicode sprva vključeval samo ravnino 0 - dvobajtne kode - so izdani tudi novi dokumenti ISO. Sistem Unicode obstaja v celoti v naslednjih različicah:

1.1 (ustreza ISO/IEC 10646-1:1993), standard 1991-1995.
2.0, 2.1 (isti ISO/IEC 10646-1:1993 plus dodatki: "Spremembe" 1 do 7 in "Tehnični popravki" 1 in 2), standard iz leta 1996.
3.0 (ISO/IEC 10646-1:2000), standard 2000.
3.1 (standarda ISO/IEC 10646-1:2000 in ISO/IEC 10646-2:2001), standard 2001.
3.2, standard 2002.
4.0, standard 2003.
4.01, standard 2004.
4.1, standard 2005.
5.0, standard 2006.
5.1, standard 2008.
5.2, standard 2009.
6.0, standard 2010.
6.1, standard 2012.
6.2, standard 2012.

Kodni prostor

Čeprav obrazca UTF-8 in UTF-32 omogočata kodiranje do 231 (2147483648) kodnih točk, je bila sprejeta odločitev, da se za združljivost z UTF-16 uporabi samo 1112064. Vendar je tudi to več kot dovolj – danes (v različici 6.0) je uporabljenih nekaj manj kot 110.000 kodnih mest (109.242 grafičnih in 273 drugih znakov).

Kodni prostor je razdeljen na 17 letala 2 po 16 (65536) znakov. Ozemljitvena plošča se imenuje osnovni, vsebuje simbole najpogostejših skript. Prva ravnina se uporablja predvsem za zgodovinske pisave, druga ravnina se uporablja za redko uporabljene kitajske črke, tretja je rezervirana za arhaične kitajske črke. Letala 15 in 16 sta rezervirana za zasebno uporabo.

Za določitev Znaki Unicode zapis oblike »U+ xxxx” (za kode 0…FFFF) ali „U+ xxxxxx” (za kode 10000…FFFFF) ali „U+ xxxxxx» (za kode 100000…10FFFF), kjer xxx- šestnajstiške številke. Na primer, znak "I" (U+044F) ima kodo 044F = 1103.

Sistem kodiranja

Univerzalni sistem kodiranja (Unicode) je nabor grafičnih znakov in način za njihovo kodiranje za računalniško obdelavo besedilnih podatkov.

Grafični simboli so simboli, ki imajo vidno sliko. Grafični znaki so v nasprotju s kontrolnimi znaki in znaki za oblikovanje.

Grafični simboli vključujejo naslednje skupine:

črke, ki jih vsebuje vsaj ena od streženih abeced;
številke;
ločila;
posebni znaki (matematični, tehnični, ideogrami itd.);
ločevalniki.

Unicode je sistem za linearno predstavitev besedila. Znake, ki imajo dodatne nadpisne ali podpisne elemente, lahko predstavimo kot zaporedje kod, zgrajenih po določenih pravilih (sestavljena različica, sestavljeni znak) ali kot en sam znak (monolitna različica, predkomponirani znak).

Modifikacijski simboli

Predstavitev znaka "Y" (U+0419) kot osnovnega znaka "AND" (U+0418) in znaka za spreminjanje "̆" (U+0306)

Grafični znaki v Unicode se delijo na razširjene in nerazširjene (brez širine). Neraztegnjeni znaki ne zavzamejo prostora v nizu, ko so prikazani. Sem spadajo zlasti naglasna znamenja in drugi diakritični znaki. Tako razširjeni kot nerazširjeni znaki imajo svoje kode. Razširjeni znaki se sicer imenujejo osnovni znaki. osnovni znaki), in nerazširjeno - spreminjanje (eng. kombiniranje znakov); slednji pa se ne morejo samostojno srečati. Znak "á" je na primer lahko predstavljen kot zaporedje osnovnega znaka "a" (U+0061) in modifikatorskega znaka "́" (U+0301) ali kot monoliten znak "á" (U+00C1 ).

Posebna vrsta spreminjajočih se znakov so izbirniki različic sloga. izbirniki variacij). Vplivajo samo na tiste simbole, za katere so definirane takšne različice. V različici 5.0 so za serijo definirane možnosti pisave matematični simboli, za znake tradicionalne mongolske abecede in za znake mongolske kvadratne pisave.

Oblike normalizacije

Ker so lahko predstavljeni isti znaki različne kode, kar včasih otežuje obdelavo, obstajajo procesi normalizacije, ki so zasnovani tako, da besedilo privedejo do določene standardne oblike.

Standard Unicode opredeljuje 4 oblike normalizacije besedila:

Normalizacijska oblika D (NFD) je kanonična razgradnja. V procesu preoblikovanja besedila v to obliko se vsi sestavljeni znaki rekurzivno nadomestijo z več sestavljenimi znaki, v skladu s tabelami razčlenitve.
Normalizacijska oblika C (NFC) je kanonična razgradnja, ki ji sledi kanonična sestava. Najprej se besedilo reducira na obliko D, po kateri se izvede kanonična kompozicija - besedilo se obdela od začetka do konca in upošteva se naslednja pravila:
- Simbol S je primarniče ima v bazi znakov Unicode ničelni modifikacijski razred.
- V katerem koli zaporedju znakov, ki se začne z začetnim znakom S, je znak C blokiran pred S, če in samo če je med S in C kateri koli znak B, ki se bodisi začne bodisi ima enak modifikacijski razred ali večji od C. To je pravilo velja samo za nize, ki so bili podvrženi kanonični razgradnji.
- Primarni Sestavljen je znak, ki ima kanonično razgradnjo v bazi znakov Unicode (ali kanonično razgradnjo za hangul in ni na seznamu izključitev).
- Simbol X je lahko primarni kombiniran s simbolom Y, če in samo če obstaja primarni sestavljeni Z, ki je kanonično enakovreden zaporedju .
- Če naslednji simbol C ni blokiran z zadnjim najdenim začetnim osnovnim simbolom L in ga je mogoče uspešno primarno ujemati z njim, se L nadomesti s sestavljenim L-C in C se odstrani.
Normalizacijska oblika KD (NFKD) je združljiva razgradnja. Ko se pretvorijo v to obliko, se vsi sestavljeni znaki zamenjajo tako z uporabo kanoničnih zemljevidov razgradnje Unicode kot z združljivimi preslikavami razgradnje, nato pa se rezultat postavi v kanoničen vrstni red.
Normalizacijska oblika KC (NFKC) - združljiva razgradnja, ki ji sledi kanonično sestavo.

Izraza "sestava" in "razgradnja" pomenita povezavo oziroma razgradnjo simbolov na njihove sestavne dele.

Primeri

Izvirno besedilo	NFD	NFC	NFKD	NFKC
Francais	Franc\u0327ais	Fran\xe7ais	Franc\u0327ais	Fran\xe7ais
A, Yo, Y		\u0410, \u0401, \u0419	\u0410, \u0415\u0308, \u0418\u0306	\u0410, \u0401, \u0419
が	\u304b\u3099	\u304c	\u304b\u3099	\u304c
Henrik IV	Henrik IV	Henrik IV	Henrik IV	Henrik IV
Henry Ⅳ	Henry \u2163	Henry \u2163	Henrik IV	Henrik IV

dvosmerno pisanje

Standard Unicode podpira jezike, napisane tako od leve proti desni (eng. od leve proti desni, LTR), kot tudi pisanje od desne proti levi (eng. od desne proti levi, RTL) - na primer arabske in hebrejske črke. V obeh primerih so znaki shranjeni v "naravnem" vrstnem redu; njihov prikaz ob upoštevanju želene smeri pisanja zagotavlja aplikacija.

Poleg tega Unicode podpira kombinirana besedila, ki združujejo fragmente z različnimi smermi pisanja. Ta možnost se imenuje dvosmernost(Angleščina) dvosmerno besedilo, BiDi). Nekateri poenostavljeni besedilni procesorji (na primer v mobilni telefon) lahko podpira Unicode, vendar nima dvosmerne podpore. Vsi znaki Unicode so razdeljeni v več kategorij: napisani od leve proti desni, napisani od desne proti levi in napisani v kateri koli smeri. Znaki zadnje kategorije (večinoma ločila), ko so prikazani, zavzamejo smer okoliškega besedila.

Zastopani liki

Unicode vključuje skoraj vse sodobne skripte, vključno z:

drugo.

Številne zgodovinske pisave so bile dodane za akademske namene, med drugim: rune, starogrški, egipčanski hieroglifi, klinopis, majevska pisava, etruščanska abeceda.

Unicode ponuja široko paleto matematičnih in glasbenih simbolov ter piktogramov.

Vendar Unicode v osnovi izključuje logotipe podjetij in izdelkov, čeprav se pojavljajo v pisavah (na primer logotip Apple v MacRoman (0xF0) ali logotip Windows v Wingdings (0xFF)). V pisavah Unicode je treba logotipe postaviti samo v območje znakov po meri.

ISO/IEC 10646

Konzorcij Unicode tesno sodeluje z delovna skupina ISO/IEC/JTC1/SC2/WG2, ki razvija mednarodni standard 10646 (ISO /IEC 10646). Obstaja sinhronizacija med standardom Unicode in ISO/IEC 10646, čeprav vsak standard uporablja svojo terminologijo in dokumentacijski sistem.

Sodelovanje med konzorcijem Unicode in Mednarodno organizacijo za standardizacijo Mednarodna organizacija za standardizacijo, ISO ) se je začelo leta 1991 . Leta 1993 je ISO izdal DIS 10646.1. Za sinhronizacijo z njim je konzorcij odobril standard Unicode različice 1.1, ki je vključeval dodatne znake iz DIS 10646.1. Posledično so se vrednosti kodiranih znakov v Unicode 1.1 in DIS 10646.1 natančno ujemale.

Sodelovanje med obema organizacijama se je nadaljevalo tudi v prihodnje. Leta 2000 Standard Unicode 3.0 je bil sinhroniziran z ISO/IEC 10646-1:2000. Prihajajoča tretja različica ISO/IEC 10646 bo sinhronizirana z Unicode 4.0. Morda bodo te specifikacije celo objavljene kot enoten standard.

Podobno kot formata UTF-16 in UTF-32 v standardu Unicode ima standard ISO/IEC 10646 tudi dve glavni obliki kodiranja znakov: UCS-2 (2 bajta na znak, podobno kot UTF-16) in UCS-4 ( 4 bajte na znak, podobno kot UTF-32). UCS pomeni univerzalni multi-oktet(večbajtni) kodiran nabor znakov(Angleščina) univerzalni nabor kodiranih znakov z več okteti ). UCS-2 se lahko šteje za podmnožico UTF-16 (UTF-16 brez nadomestnih parov), UCS-4 pa je sinonim za UTF-32.

Predstavitvene metode

Unicode ima več oblik predstavitve. Format transformacije Unicode, UTF ): UTF-8 , UTF-16 (UTF-16BE, UTF-16LE) in UTF-32 (UTF-32BE, UTF-32LE). Za prenos po sedembitnih kanalih je bila razvita tudi oblika predstavitve UTF-7, vendar zaradi nezdružljivosti z ASCII ni bila široko uporabljena in ni bila vključena v standard. 1. aprila 2005 sta bili predlagani dve predstavitvi šale: UTF-9 in UTF-18 (RFC 4042).

Unicode UTF-8: 0x00000000 - 0x0000007F: 0xxxxxxx 0x00000080 - 0x000007FF: 110xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx

Teoretično so možni, vendar niso vključeni v standard, tudi:

0x00200000 - 0x03FFFFFF: 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 0x04000000 - 0x7FFFFFFF: 11111100xxx 1xxxxx 1xxx 1xxxx 1xxxxxxxxxxxxxxxxxxxxxx

Čeprav UTF-8 omogoča, da isti znak določite na več načinov, je pravilen le najkrajši. Druge obrazce je treba iz varnostnih razlogov zavrniti.

Vrstni red bajtov

V podatkovnem toku UTF-16 se lahko visoki bajt zapiše bodisi pred nizkim bajtom (eng. UTF-16 big-endian), ali po mlajšem (eng. UTF-16 mali-endian). Podobno obstajata dve različici štiribajtnega kodiranja - UTF-32BE in UTF-32LE.

Za določitev oblike predstavitve Unicode na začetku besedilna datoteka podpis je napisan - znak U+FEFF (neprekinjeni presledek ničelne širine), imenovan tudi oznaka vrstnega reda bajtov(Angleščina) oznaka vrstnega reda bajtov, BOM ). To omogoča razlikovanje med UTF-16LE in UTF-16BE, saj znak U+FFFE ne obstaja. Ta metoda se včasih uporablja tudi za označevanje formata UTF-8, čeprav koncept endiannessa ne velja za to obliko. Datoteke, ki sledijo tej konvenciji, se začnejo s temi zaporedji bajtov:

UTF-8 EF BB BF UTF-16BE FE FF UTF-16LE FF FE UTF-32BE 00 00 FE FF UTF-32LE FF FE 00 00

Na žalost ta metoda ne razlikuje zanesljivo med UTF-16LE in UTF-32LE, saj Unicode dovoljuje znak U+0000 (čeprav se prava besedila redko začnejo z njim).

Datoteke, kodirane UTF-16 in UTF-32, ki ne vsebujejo BOM, morajo biti v bajtnem vrstnem redu big-endian (unicode.org).

Unicode in tradicionalna kodiranja

Uvedba Unicode je povzročila spremembo pristopa k tradicionalnim 8-bitnim kodiranjem. Če je bilo predhodno kodiranje nastavljeno s pisavo, ga zdaj določa korespondenčna tabela med tem kodiranjem in Unicode. Pravzaprav so 8-bitna kodiranja postala oblika predstavitve neke podmnožice Unicode. To je precej olajšalo ustvarjanje programov, ki morajo delati z veliko različnimi kodirji: zdaj, če želite dodati podporo za drugo kodiranje, morate dodati še eno tabelo za pretvorbo Unicode.

Poleg tega vam številni formati podatkov omogočajo, da vstavite kateri koli znak Unicode, tudi če je dokument napisan v starem 8-bitnem kodiranju. Na primer, v HTML-ju lahko uporabite kode ampersand.

Izvedbe

Večina sodobnih operacijskih sistemov do neke mere zagotavlja podporo Unicode.

Družina operacijskih sistemov Windows NT uporablja dvobajtno kodiranje UTF-16LE za interno predstavitev imen datotek in drugih sistemskih nizov. Sistemski klici, ki sprejemajo nizovne parametre, so na voljo v enobajtnih in dvobajtnih različicah. Več preberite v članku