Štandard kódovania Unicode prideľuje každému znaku. Čo je Unicode

Unicode je kódovací systém, ktorý priraďuje jedinečný kód ľubovoľnému znaku, bez ohľadu na platformu, bez ohľadu na program, bez ohľadu na jazyk.

Dokonca aj v samotnom názve tejto poznámky je určitá nepresnosť - alebo skôr rozpor. Faktom je, že stále neexistuje jednomyseľnosť o tom, ako správne hláskovať anglické slovo Unicode v ruských písmenách - Unicode alebo Unicode. Teraz použijeme prvú možnosť pravopisu.

Niekedy, keď namiesto poľských písmen otvoríte dokumenty alebo prezeráte stránky, je tam niekoľko „kríkov“. Tieto chyby môžu byť spôsobené nesprávnym kódovaním znakov. Text, ktorý vidíte na obrazovke, počítač ukladá vo forme núl a jednotiek, ktoré sú zbalené do ôsmich častí. Jedna nula alebo jeden bit; Skupina ôsmich je bajt. Elektronické zariadenia ukladajú informácie v bajtoch vrátane textu.

Dobre, ale ako môžu všetky tieto časti počítača tvoriť históriu? Desať bude vyzerať takto: na písanie čísel nazývame binárne, naučili sme sa používať desatinné čísla. Deje sa tak tak, že každému znaku je priradené číslo. Veta „Alla má mačku“ je súbor čísel.

Unicode nie je len viacbajtové kódovanie na reprezentáciu mnohých znakov, ako si mnohí myslia, aj keď takúto definíciu možno do určitej miery považovať za správnu. Oficiálne je definícia takáto: Unicode je kódovací systém, ktorý priraďuje jedinečný kód ľubovoľnému znaku bez ohľadu na platformu, bez ohľadu na program, bez ohľadu na jazyk.

Všimnite si, že veľké a malé písmená sú pre počítač samostatným znakom a znakom je aj medzera, hoci nie je viditeľná. Okrem toho sa s jednotlivými číslicami zaobchádza rovnakým spôsobom. Napríklad znak 1 nemá priradené číslo 1, ale iba.

Nie, ale odkiaľ počítač vie, ktorá postava je priradená toto číslo? Odpoveďou je kódovanie znakov. Vo všeobecnosti ide o tabuľku so všetkými k nim priradenými symbolmi a číslami. Postupom času toto číslo už nestačí - počítače nadobudli nové možnosti a stali sa obľúbenejšími v iných krajinách so špeciálnymi písmenami.

Unicode štandard je rozdelený na dve časti. Prvým je množina čísel zodpovedajúcich každému znaku v každej podporovanej abecede. Volá sa Universal Character Set, alebo len UCS. Všetky čísla použité v kódovom priestore UCS sú celé čísla a nezáporné. Tieto čísla - kódové pozície - sú označené ako U + 0000, U + 0001, U + 0002 atď. Tým všetkým nie je kódový priestor homogénny, ale je rozdelený do niekoľkých sémantických oblastí. Kódy od U + 0000 do U + 007F sú znaky ASCII, po ktorých nasledujú znaky z rôznych národných abecied, interpunkcia a technické znaky ako návrat vozíka na nový riadok. Druhou časťou štandardu sú v skutočnosti kódovania, ktoré poskytujú bitovú reprezentáciu každého kódu v texte.

Hoci oba majú viac ako dvestopäťdesiat znakov, toto číslo stále nestačí na fungovanie vo všetkých jazykoch, takže každá jazyková rodina má svoju vlastnú verziu týchto kódovaní. Toto sa nazýva kódová stránka. Všetky mali rovnaký pôvod, takže obsahovali interpunkčné znamienka, veľké a malé anglické písmená a čísla. Ostatné znaky sa však líšili od verzie ku kódu.

Ale ani zavedenie kódových stránok nevyriešilo všetky problémy. Prvým je interoperabilita štandardov. Hoci prvých 127 znakov je rovnakých pre všetky štandardy, ostatné znaky sú zoradené podľa vlastného znázornenia. Slovo roh napísaný v tomto prvom rohu sa otvorí po otvorení systému pre druhý štandard.

Všetky znaky unicode sú rozdelené do dvoch typov - rozšírené a bezšírkové (modifikujúce). Rozšírené znaky sú zvyčajné písmená, ktorými sa táto poznámka píše. Modifikujúce sa sú znaky nad písmenami, ako sú akcenty, bodky, „veľké písmená“ atď., atď. Väčšina písmen s podobnými znakmi pre všetky abecedy je prezentovaná ako postupnosť rozšírených a modifikujúcich symbolov. Je pravda, že cyrilické „e“ a „y“ sú prezentované ako samostatné rozšírené symboly.

Ďalším problémom je, že 256 znakov stále nestačí na plynulé písanie dokumentov. Vo väčšine prípadov to stačí, ale problémy nastanú, keď sa potrebujete obrátiť na pána Möllera, Pütza alebo Strassmanna s jeho diplomovou prácou. Vložte azbuku alebo zadajte grécke písmená do zložitého matematického vzorca.

Je potrebná nová metóda kódovania, ktorá bude zahŕňať všetky možné znaky používané vo všetkých jazykoch sveta. Vďaka tomu je menej časté chyby. Nastal však ďalší problém – toľko možných znakov za ne nesmelo zapísať 1 bajt. Jeden bajt pozostáva z ôsmich alebo núl, čo umožňuje ich organizáciu rôznymi spôsobmi. Toľko znakov má kódové stránky. Ak chcete zvýšiť počet znakov podporovaných kódovacím systémom, musíte zvýšiť počet bajtov potrebných na vloženie písmena.

Najbežnejšou praktickou implementáciou Unicode je UTF-8. Tento štandard poskytuje dobrú kompatibilitu so starými textami ASCII vďaka tomu, že znaky anglickej abecedy a iné bežné znaky (tj znaky s kódmi ASCII od 0 do 127) sú zapísané v jednom byte. Ostatné znaky sú napísané vo veľkom počte bajtov – od dvoch do šiestich.

Nedávno sa k znaku Unicode pridal znak tureckej líry. Jemu pridelené číslo je 110 Ak by každé písmeno zaberalo 3 bajty, aj tie od začiatku s jedným by zvýšili priestor potrebný na uloženie súboru na disk.

Vývojári prišli s nápadom, že postavy by nemali mať konštantný počet bajtov. A preto, aby mohli pracovať na počítači, zodpovedajú kódovaniu. Zmeňte kódovanie znakov v každom z týchto troch znakov a skontrolujte, či sú zobrazené všetky písmená. Ak potrebujete svoju stránku zakódovať týmto spôsobom, stiahnite si bezplatný a výkonnejší poznámkový blok.

Unicode a súvisiace štandardy vyvíja Unicode Consortium. Ako je napísané na oficiálnej webovej stránke tejto organizácie, www.unicode.org, „Unicode Consortium je nezisková organizácia založená s cieľom rozvíjať a rozvíjať štandard Unicode definujúci reprezentáciu textových informácií v moderných softvérových produktoch a štandardoch a podporovať jeho široké šírenie a využitie Členské konzorcium je veľké množstvo korporácií a organizácií pôsobiacich v oblasti spracovania informácií a počítačového priemyslu Finančná podpora konzorcia sa uskutočňuje výlučne prostredníctvom členských príspevkov jeho členov Členstvo v Unicode Consortium je otvorená pre každú organizáciu alebo jednotlivca, ktorý podporuje štandard Unicode a chce pomôcť pri jeho šírení a implementácii. Pripoj sa k nám! :)

Popis v tomto článku je založený na verzii Beta 8, ktorá je dostupná len pre malý okruh beta testerov. Keďže beta testovanie sa blíži ku koncu, je veľmi pravdepodobné, že väčšina opísaných funkcií a funkcií sa skutočne objaví v konečnom vydaní. Najvýznamnejším zmenám a novinkám týkajúcim sa aktuálnej verzie 51 sa budeme venovať v každom z tematických blokov.

Práca so súbormi a vzhľad aplikácie

Nová šiesta verzia na tejto organizácii pracovného priestoru nič nemení, no výrazne rozširuje možnosti týchto dvoch okien. Ak sa pýtate ako, odpovede sú „záložkové“. Každé okno môže teraz rýchlo prepínať medzi ľubovoľným priečinkom, ktorý definujeme. Môžete si vytvoriť toľko záložiek, koľko chcete, a môžete rýchlo prepínať medzi rôznymi priečinkami v jednom okne. Môžete pokračovať v práci so záložkami. Každá z kariet sa správa ako samostatný panel súborov, takže s ňou môžeme pracovať po starom.

Norma Unicode alebo ISO / IEC 10646 je výsledkom spolupráce medzi Medzinárodnou organizáciou pre normalizáciu (ISO) a poprednými výrobcami počítačov a softvér... Dôvody uvedené na predchádzajúcej strane ich priviedli k zásadne novej formulácii otázky: prečo vynakladať úsilie na vývoj samostatných kódových tabuliek, ak je možné vytvoriť jednu tabuľku pre všetky národné jazyky? Táto úloha sa zdá byť príliš ambiciózna, ale len na prvý pohľad. Faktom je, že zo 6 700 živých jazykov je asi päťdesiat oficiálnymi jazykmi štátov a používajú asi 25 rôznych písiem: čísla pre náš počítačový vek sú celkom predvídateľné.

Záložky sa zobrazia iba vtedy, ak v okne najmenej dva. Pri kopírovaní veľkého množstva údajov, ktoré pretrvávajú dlhší čas, sa v predchádzajúcich vydaniach môžu použiť kópie na pozadí. Samozrejme, táto obľúbená funkcionalita zostala zachovaná a priniesla niekoľko noviniek v novej verzii.

Ak ju vyberiete, zobrazí sa dialógové okno rozšíreného kopírovania na pozadí, kde môžete pozastaviť kopírovanie a nastaviť maximálnu bitovú rýchlosť, ktorá sa bude kopírovať. Okrem toho je možné do tohto okna priebežne pridávať súbory. Tento režim „rieši“ problémy niektorých používateľov, ktorí sa za behu intenzívne vyrovnávajú s viacerými oknami – môžu nainštalovať maximálna rýchlosť prenášať a triediť súbory postupne vo fronte, aby sa výrazne znížilo celkové zaťaženie disku.

Predbežný odhad ukázal, že 16-bitový rozsah je dostatočný na zakódovanie všetkých týchto skriptov, teda rozsah od 0000 do FFFF. Každému skriptu bol v tomto rozsahu pridelený vlastný blok, ktorý sa postupne napĺňal kódmi znakov tohto skriptu. Dnes možno považovať kódovanie všetkých živých oficiálnych písiem za dokončené.

Teraz môže funkcia vytvárania priečinkov vytvárať aj adresárovú štruktúru. Ďalšie vylepšenia pri práci so súbormi. Synchronizácia adresárov má dve veľké vylepšenia. V hlavnom module premenovania pribudli možnosti ukladania nastavení a nástroje na vytváranie vizuálneho prepisovacieho súboru.

Klient je tiež schopný nepretržite zisťovať prerušené pripojenia a môže ho automaticky znova pripojiť v čase zavádzania. Medzi ďalšie nové funkcie patrí podpora nových typov proxy serverov, automatické nahradenie zakázaných znakov v názvoch predplatného a konfigurácia nových pripojení v dialógovom okne Nastavenia.

Dobre vyvinutá metodológia na analýzu a popis systémov písania umožnila konzorciu Unicode v poslednej dobe prejsť na kódovanie zvyšných pozemských písiem, ktoré sú predmetom záujmu: sú to písma mŕtvych jazykov, čínske hieroglyfy, ktoré vypadli z moderného používania. , umelo vytvorené abecedy atď. Na reprezentáciu všetkého toto bohatstvo 16-bitového kódovania už nestačí a dnes Unicode využíva 21-bitový kódový priestor (000000 - 10FFFF), ktorý je rozdelený do 16 zón nazývaných roviny. Plány Unicode zatiaľ zahŕňajú tieto lietadlá:

S možnosťami vykonanými v starších verziách sa pôvodný konfiguračný dialóg stal nejasným. Nové konfiguračné dialógové okno je rozdelené do čitateľnejších kategórií, pričom každá sekcia je venovaná samostatná stránka dialóg. Väčšinu parametrov nájdete známych z predošlá verzia a mnoho nových možností.

Ide o kódovanie znakov svetovej triedy. Veľká väčšina špeciálnych znakov vo všetkých jazykoch sveta už existuje. Kúzla „regulárnych výrazov“ – veľa ľudí sa bojí. Stačí, ak si pozrie jeho oficiálny úvod. Dvojbajtový znak je viacjazyčný dvojbajtový znakový kód. Väčšina symbolov používaných pri používaní počítačov na celom svete, vrátane technických symbolov a Špeciálne symboly, môžu byť reprezentované ako znaky Unicode ako dvojbajtový znak.

Rovina 0 (kódy 000000 - 00FFFF) - BMP, Basic Multilingual Plane (BMP, Basic Multilingual Plane), zodpovedá pôvodnému rozsahu Unicode.

Rovina 1 (kódy 010000 - 01FFFF) - DMP, Supplementary Multilingual Plane (SMP), určená pre mŕtve skripty.

Rovina 2 (kódy 020000 - 02FFFF) - DIP, dodatočná hieroglyfická rovina (SIP, doplnková ideografická rovina), určená pre hieroglyfy, ktoré neboli zahrnuté v BMP.

Keďže každý dvojbajtový znak je reprezentovaný pevnou 16-bitovou veľkosťou, šírka znaku zjednodušuje programovanie pomocou medzinárodných znakových sád. Šírka znakov zvyčajne zaberá viac miesta v pamäti ako viacbajtové znaky, ale spracovanie je rýchlejšie.

Ak je to obyčajný reťazec, povie, ak je to reťazec Unicode, povie. Po prvé, okno terminálu je zvyčajne nakonfigurované tak, aby zobrazovalo znaky len z obmedzenej množiny jazykov. Ak zadáte príkaz na tlač na reťazci Unicode, nemusí sa v okne terminálu zobraziť správne. Tu musí byť každý znak Unicode zakódovaný ako jeden alebo viac "bajtov" na uloženie v súbore.

Rovina 14 (kódy 0E0000 - 0EFFFF) je drevotriesková doska, prídavná špeciálna rovina (SSP, Supplementary Special-purpose Plane), určená pre špeciálne znaky.

Rovina 15 (kódy 0F0000 - 0FFFFF) - Rovina na súkromné použitie, určená pre symboly umelého písania.

Rovina 16 (kódy 100000 - 10FFFF) - Rovina na súkromné použitie, určená pre symboly umelého písania.

Doteraz sme sa vyhýbali nízkoúrovňovému kódovaniu údajov, ale porozumieť trochu bitom a bajtom vám pomôže zistiť to. Toto je jediná hodnota, obmedzená dvoma možnosťami, ktoré bežne zapisujeme ako 0, alebo počítače ukladajú bity ako elektrické náboje alebo magnetické polarity alebo nejakým iným spôsobom, ktorý nás nemusí trápiť. Postupnosť ôsmich 0-1 bitov sa nazýva bajt.

Existuje veľa možných kódovaní. Jeden znak Unicode je namapovaný na sekvenciu do štyroch bajtov. Môžete to urobiť jedným z dvoch spôsobov. Všetko bude fungovať, kým sa nepokúsite vytlačiť alebo zapísať obsah do súboru. Ak píšete a okno terminálu nie je nakonfigurované tak, aby zobrazovalo tento jazyk, môžete dodávať podivný výstup.

Rozdelenie BMP do blokov je uvedené vo WDH: Unicode Standard. Tu len poznamenávame, že prvých 128 kódov (00000 - 0007F) zodpovedá kódom ASCII a kóduje základný latinský blok. Rozloženie skriptov pre rozsah Unicode bude podrobne popísané v mojom článku "Unicode a skripty sveta." Keďže nás v budúcnosti budú zaujímať len symboly BMP, používam ich 16-bitové kódy v tvare XXXX (najvýznamnejšie bity sú rovné nule a nie sú uvedené).

Ak sa pokúsite zapísať do súboru, môže sa zobraziť chybové hlásenie. To vám umožní písať v jednom dokumente, napríklad v slučke a poľskej abecede. Toto je zďaleka najuniverzálnejší štandard. Samozrejme, všetky používajú rovnaké pole a majú rovnaké možnosti, rozdiel je len v inom spôsobe zápisu. Najväčšou prenosnosťou sú vaše dokumenty Unicode. Každý syntaktický analyzátor ho musí podporovať. Na jeden štandard nemáte záruky.

Ak to použijete, nepotrebujete žiadne informácie o kódovaní. Niektoré informácie o programoch, ktoré vám pomôžu pri kódovaní a konverzii znakov, nájdete v časti „Nástroje“. Tento tutoriál zobrazuje iba kroky, ktoré musíte vykonať, ak chcete pridať písmo, ktoré obsahuje veľké aj malé písmená a diakritiku, ktoré sú špecifické pre rumunský jazyk. Písanie bez diakritiky môže viesť k nejednoznačným výrazom ako „12-ročný tank“, „román narodený v Ríme“.

všeobecný popis

Unicode je založený na koncepte znaku. Symbol je abstraktný pojem, ktorý existuje v konkrétnom písme a je realizovaný prostredníctvom svojich obrazov (grafém). To znamená, že každý znak je daný jedinečný kód a patrí do špecifického bloku Unicode. Napríklad existuje graféma A v anglickej, ruskej a gréckej abecede. V Unicode však zodpovedá trom rôznym znakom „latinské veľké písmeno A“ (kód 0041), „veľké písmeno cyrilice A“ (kód 0410) a „grécke veľké písmeno ALPHA“ (kód 0391). Ak teraz na tieto znaky použijeme prevod na malé písmeno, dostaneme „malé latinské písmeno A“ (kód 0061, graféma a), „malé azbukové písmeno A“ (kód 0430, graféma a) a „grécke malé písmeno ALPHA“ (kód 03B1, graféma α), teda rôzne grafémy.

Diakritika je klobúk - na to - obálka, čiarka a čiarka - jazyk pre Rumunov. Je navrhnutý pre akékoľvek písmeno v akomkoľvek jazyku, na akejkoľvek hardvérovej alebo softvérovej platforme, aby zodpovedal jeho jedinečnému a jednoznačnému číslu. Teraz bude mať tvar a veľkosť glyfu.

Vyberieme si čiarkovú grafiku. Červený obrys glyfu znamená, že je vybraný. Pre ostatné rumunské diakritické písmená sa robia rovnaké úpravy. Zobrazí sa dialógové okno Informácie o písme. Do poľa Priezvisko pridáme názov, aký názov chceme pre písmo.

Môže vyvstať otázka: aký je prevod na malé písmeno? Tu sa dostávame k najzaujímavejšiemu a najdôležitejšiemu bodu štandardu. Ide o to, že Unicode nie je jednoduchý kódová tabuľka... Koncept abstraktného symbolu umožnil tvorcom Unicode vybudovať databázu znakov, v ktorej je každý znak opísaný svojim jedinečným kódom (kľúčom databázy), celým menom a sadou vlastností. Napríklad symbol s kódom 0410 je v tejto databáze opísaný takto:

0410; VELKÉ PÍSMENO CYRILKY A; Lu; 0; L ;;;;; N;;;; 0430;

Poďme dešifrovať tento záznam. To znamená, že kód 0410 je priradený k „azbuke veľké písmenoА "(celý názov symbolu), ktorý má nasledujúce vlastnosti:

Všeobecná kategória	malé písmeno (Lu = písmeno, veľké písmeno)
Kombinovaná trieda	0
Smer výstupu	zľava doprava (L)
Rozklad symbolov	nie
Desatinná číslica	nie
číslo	nie
Číselná hodnota	nie
Symbol zrkadla	chýba (N)
Celé meno v Unicode 1.0	tiež
Komentár	nie
Mapovanie veľkými písmenami	nie
Zobrazenie na malé písmeno	0430
Mapovanie na titulný list	nie

Uvedené vlastnosti sú definované pre každý znak Unicode. To umožnilo jeho vývojárom vytvárať štandardné algoritmy, ktoré na základe vlastností symbolov určujú pravidlá ich vykresľovania, triedenia a prevodu na veľké/malé písmená.

V súhrne môžeme povedať, že štandard Unicode pozostáva z troch vzájomne súvisiacich častí:

databázy symbolov;

základy grafémov (glyfov), ktoré určujú vizuálnu reprezentáciu týchto symbolov;

súbor algoritmov, ktoré určujú pravidlá pre prácu so symbolmi.

Na záver tejto časti uvádzame grafémy cyrilského bloku (kódy 0400 - 04FF). Upozorňujeme, že obsahuje nielen písmená modernej azbuky (ruská, ukrajinská, bieloruská, bulharská, srbská, macedónska atď.), ale aj všetky písmená pôvodnej cyriliky používanej v cirkevnej slovančine.

Transformačné formáty

Ako sme videli, každý znak Unicode má jedinečný 21-bitový kódový bod. Pre praktickú implementáciu je však takéto kódovanie znakov nepohodlné. Faktom je, že operačné systémy a sieťové protokoly tradične zaobchádza s údajmi ako s prúdmi bajtov. To vedie k najmenej dvom problémom:

Poradie bajtov v slove je rôzne pre rôzne procesory. procesory Intel, DEC a ďalšie ukladajú svoj najvýznamnejší bajt do prvého bajtu strojového slova, zatiaľ čo procesory Motorola, Sparc a ďalšie ukladajú jeho najmenej významný bajt. Nazývajú sa little-endian a big-endian (tieto výrazy sú odvodené od Swiftových "hrotov" a "tupých", ktoré sa hádajú o tom, z ktorého konca rozbiť vajcia).

Mnohé systémy a protokoly orientované na bajty povoľujú ako dáta iba bajty zo špecifického rozsahu. Zvyšok bajtov sa považuje za réžiu; najmä je obvyklé používať ako znak konca riadka nulový bajt. Keďže Unicode kóduje znaky v rade, priamy prenos jeho kódov ako bajtových reťazcov môže byť v rozpore s pravidlami protokolu prenosu údajov.

Na prekonanie týchto problémov štandard obsahuje tri transformačné formáty UTF-8, UTF-16 a UTF-32, ktoré definujú pravidlá pre kódovanie znakov Unicode ako bajtové reťazce, 16-bitové páry slov a 32-bitové slová. Výber použitého formátu závisí od architektúry výpočtového systému a štandardov ukladania a prenosu dát. Stručný popis transformačných formátov nájdete vo WDH: Unicode Standard.

Problémy s implementáciou

Myslím, že aj z vyššie uvedeného stručný popis Štandard Unicode je jasné, že má plnú podporu od majora operačné systémy bude znamenať revolúciu v spracovaní textu. Používateľ sediaci pri akomkoľvek webovom termináli si bude môcť vybrať ľubovoľné rozloženie klávesnice, napísať text v akomkoľvek jazyku a preniesť ho do akéhokoľvek počítača, ktorý bude tento text správne zobrazovať. Databázy budú môcť ukladať, správne triediť a zobrazovať v prehľadoch textové informácie opäť v akomkoľvek jazyku. Aby tento raj mohol prísť, je potrebných päť vecí:

Operačné systémy musia podporovať transformačné formáty Unicode na úrovni zadávania, ukladania a zobrazovania textových reťazcov.

Potrebujeme ovládače inteligentnej klávesnice, ktoré nám umožnia zadávať znaky do akéhokoľvek bloku Unicode a odovzdávať im kódy do operačného systému.

Textové editory by mali podporovať zobrazovanie všetkých znakov Unicode a vykonávať s nimi bežnú sadu znakov.

To isté musí správne vykonať DBMS pre textové polia a polia poznámok.

Keďže národné kódovania budú koexistovať s Unicode po dlhú dobu, je potrebné podporovať textové transformácie medzi nimi.

Žiaľ, musíme priznať, že za desať rokov (Unicode 1.0 sa objavil v roku 1991) sa v tomto smere urobilo oveľa menej, ako by sme chceli. Aj Windows, ktorý obsahuje najkonzistentnejšiu podporu Unicode na systémovej úrovni, je plný úplne iracionálnych obmedzení už len vďaka svojmu historickému vývoju. Na Unixe je situácia ešte horšia, keďže podpora Unicode bola prenesená z jadra do konkrétnych aplikácií. Unicode je dnes pravdepodobne najviac podporované v dvoch prostrediach: webové prehliadače a virtuálne stroje Java. To nie je prekvapujúce, pretože obe prostredia boli pôvodne navrhnuté tak, aby boli nezávislé od systému.

Treba tiež poznamenať objektívne ťažkosti pri podpore Unicode. Napríklad sa zameriame len na zobrazovanie grafém, pre ktoré je potrebné do systému nainštalovať príslušné fonty. Problém je v tom, že písmo obsahujúce všetky grafémy Unicode bude mať úplne nepohodlnú veľkosť. Napríklad písmo Arial Unicode MS TrueType, ktoré obsahuje veľkú časť znakov Unicode, „váži“ 24 MB. Keď sa Unicode zaplní novými blokmi, veľkosť takýchto fontov sa priblíži k 100 MB. Východiskom zo situácie je navrhované načítanie symbolov na požiadanie od spoločnosti Microsoft, ktoré je akceptované v ich prehliadači. internet Explorer... Avšak, zatiaľ čo štandardy o pravidlách pre tvorbu Unicode-fontov mlčia.

Spôsoby práce s Unicode znaky a národné kódovania v najdôležitejších prostrediach a programovacích systémoch budú diskutované v nasledujúcich článkoch.

Takáto stránka neexistuje

Možno bola. Raz. skôr. Alebo len v plánoch. Ale teraz je preč.