أجهزة الكمبيوتر شبابيك إنترنت

من رموز يونيكود إلى أحرف. مشكلة التمييز بين الأرقام والحروف المتشابهة خارجيًا.

تحتاج أحيانًا إلى إضافة رمز إلى تصميمك ، ولكن لا ترغب في إدراج صور إضافية أو خط رمز كامل مثل Font Awesome؟ ثم لدينا أخبار سارة لك - هناك مكتبة واسعة من الرموز والرموز المتاحة بالفعل في متصفحك. يطلق عليه Unicode ، وهو معيار يتم تعيينه معرّفات فريدةلعدد متزايد باستمرار (حاليًا أكثر من 110،000) من الرموز والأيقونات.

هذا لا يعني أن لديك مجموعة مختارة من مئات الآلاف من الرموز ، على الرغم من ذلك. يعتمد ذلك على المتصفح الذي يعرضها ، ويستخدم الخطوط المثبتة على النظام للقيام بذلك. في هذه المقالة ، قمنا بتجميع عدد من مجموعات الأحرف المتوفرة على أنظمة التشغيل Windows و Linux و OS X و Android و IOS. يمكنك استخدامها في تصميماتك اليوم!

نصيحة: تشرح كل ما يجب معرفته عن الترميزات و Unicode ، والتي نوصي كل مطور برامج بقراءتها.

كيفية استخدام هذه الرموز

الرموز الموضحة في الجداول أدناه هي رموز شائعة يمكنك نسخها ولصقها كما لو كانت أحرفًا أبجدية. ولكن إذا تم استخدام الترميز لحفظ ملفات HTML / CSS ليس UTF-8لن يتم عرضها. هذا هو السبب في أننا قدمنا ​​كود إلغاء HTML الذي سيعمل دائمًا. إليك ما عليك القيام به لاستخدام هذه الرموز:

  • ابحث عن الأيقونة التي تعجبك. لقد قدمنا ​​معاينات صغيرة وكبيرة.
  • انسخ الكود.
  • الصقه في HTML كنص عادي. في CSS يمكنك استخدامها كقيمة خاصية المحتوى... في JS و PHP ولغات البرمجة الأخرى ، يمكنك استخدامها كنص عادي في السلاسل.
  • يمكنك تخصيص الرموز من خلال تعيين حجم الخط واللون والنص والظلال تمامًا مثل النص العادي.

الأيقونات

اسممعاينةالشفرة
مبتسم
علامة تحذير
الينابيع الساخنة
كرسي متحرك
إعادة التدوير
8 الكرة
الجهد العالي
نجمة بيضاء
نجمة سوداء
قلب أبيض
قلب أسود
قهوة
مطار
الساعة الرملية
ساعة
مقص أسود
مقص أبيض
تاج
مرساة
تعبر
دائرة سوداء وبيضاء
ثمانية ملاحظة
بيميد الملاحظات الثامنة
النجمة بأربع برامق بالونات
نجمة بيضاء محاطة بدائرة
نجمة بيضاء
نجمة بيضاء من أربع نقاط
نجمة سوداء من أربع نقاط
فحص صندوق الاقتراع
علامة الاختيار
علامة تقاطع
قلم
يد الكتابة
أنثى
ذكر
هاتف أسود
تلفون ابيض
مغلف
موقع الهاتف

أسهم يونيكود

اسممعاينةالشفرة
سهم لليسار
سهم لليمين
سهم لأعلى
سهم لأسفل
السهم الأيمن الأيسر
يصل سهم لأسفل
الأسهم اليمنى واليسرى
الأسهم لأعلى ولأسفل
السهم لأسفل اليسار 90 درجة
سهم لأسفل يمين 90 درجة
سهم يصل إلى اليسار بزاوية 90 درجة
أعلى يمين 90 درجة السهم
الشمال الغربي السهم إلى الزاوية
جنوب شرق السهم إلى الزاوية
سهم لليسار إلى بار
سهم لليمين إلى شريط
سهم نصف دائري عكس اتجاه عقارب الساعة
سهم نصف دائري في اتجاه عقارب الساعة
سهم دائري بعكس اتجاه عقارب الساعة
سهم دائري في اتجاه عقارب الساعة
سهم عريض الرأس لليمين
سهم متعرج لأسفل
سهم الشمال الغربي
سهم كثيف للجنوب الشرقي
سهم ثقيل لليمين
سهم كثيف للشمال الشرقي
متقطع سهم لليمين
منقط سهم لليسار
رأس سهم لليمين أسود
سهم أبيض لليسار
سهم أبيض لليمين
علامة اقتباس الزاوية اليسرى « « «
علامة اقتباس الزاوية اليمنى » » »
المؤشر الأسود الأيمن
مؤشر اليسار الأسود
حتى المؤشر الأسود
أسفل المؤشر الأسود
المؤشر الأبيض الأيمن
المؤشر الأبيض الأيسر
مؤشر أبيض
مؤشر أبيض لأسفل
سهم القوس

أحرف خاصة في يونيكود

عملة يونيكود

أيقونات الطقس

اسممعاينةالشفرة
الدرجة العلمية ° ° °
شمس صغيرة
شمس كبيرة
سحاب
مظلة
ندفة الثلج 1
ندفة الثلج 2
ندفة الثلج 3

مؤشرات Unicode

اسممعاينةالشفرة
مؤشر اليسار الأسود
مؤشر حق أسود
المؤشر الأيسر أبيض
المؤشر لأعلى أبيض
المؤشر الأيمن الأبيض
المؤشر لأسفل أبيض

علامات زودياك في يونيكود

اسممعاينةالشفرة
برج الحمل
الثور
توأمان
سرطان
أسد
برج العذراء
مقاييس
برج العقرب
برج القوس
برج الجدي
الدلو
أسماك

أحرف بطاقة Unicode

اسممعاينةالشفرة
نوادي سوداء
هارتس بلاك
الماس الأسود
البستوني الأسود
نوادي بيضاء
قلوب بيضاء
الماس الأبيض
البستوني بيضاء

قطع الشطرنج في يونيكود

اسممعاينةالشفرة
الملك الأبيض
الملكة البيضاء
الرخ الأبيض
أسقف وايت
الفارس الأبيض
البيدق الأبيض
الملك الأسود
الملكة السوداء
الرخ الأسود
أسقف بلاك
الفارس الأسود
البيدق الأسود

لعبة النرد

اسممعاينةالشفرة
لفة النرد واحدة
لفة النرد اثنين
لفة النرد ثلاثة
لفة النرد أربعة
لفة النرد خمسة
لفة النرد ستة

رموز الرياضيات يونيكود

اسممعاينةالشفرة
ما لا نهاية
زائد ناقص ± ± ±
اقل او يساوي
أكثر من أو يساوي
لا يساوي
قسم ÷ ÷ ÷
الضرب x × × ×
الضرب الثقيل x
مرتفع واحد ¹ ¹ ¹
مرتفع اثنان ² ² ²
ثلاثة مرتفع ³ ³ ³
سيركل بلس
الضرب المحاط بدائرة
المنطقية AND
منطقي أو
دلتا
فطيرة
سيجما (SUM)
أوميغا Ω Ω Ω
مجموعة فارغة
زاوية
موازي
عمودي
تقريبا يساوي
مثلث
دائرة
ميدان

الكسور

اسممعاينةالشفرة
ربع واحد (1/4) ¼ ¼ ¼
نصف واحد (1/2) ½ ½ ½
ثلاثة أرباع (3/4) ¾ ¾ ¾
ثلث واحد (1/3)
الثلثين (2/3)
ثمانية واحدة (1/8)
ثلاثة ثمانية (3/8)
خمسة ثمانية (5/8)
سبعة ثمانية (7/8)

الأرقام الرومانية في يونيكود

اسممعاينةالشفرة
رقم روماني واحد
الرقم الروماني الثاني
الرقم الروماني ثلاثة
الرقم الروماني أربعة
الرقم الروماني خمسة
الرقم الروماني ستة
الرقم الروماني سبعة
الرقم الروماني ثمانية
الرقم الروماني التاسع
الأرقام الرومانية عشرة
الرقم الروماني الحادي عشر
الرقم الروماني الثاني عشر

هناك بعض الاختلافات في تقديم هذه الرموز بشكل مختلف أنظمة التشغيلأوه. يحدث هذا بسبب مجموعات الخطوط المختلفة المستخدمة. بالإضافة إلى ذلك ، يستبدل iOS و Android بعض أحرف Unicode بالرموز ، لذا تأكد من التحقق من الأحرف المضافة للتأكد من عدم حدوث ذلك وأن الرموز تظهر على النحو المنشود.

Unicode (في اللغة الإنجليزية Unicode) هو معيار ترميز الأحرف. ببساطة ، هذا جدول مراسلات لأحرف نصية (، حروف ، عناصر الترقيم) الرموز الثنائية... الكمبيوتر يفهم فقط تسلسل الأصفار والآحاد. حتى يعرف بالضبط ما يجب أن يعرضه على الشاشة ، من الضروري تخصيص رقم فريد لكل شخصية. في الثمانينيات ، تم تشفير الأحرف في بايت واحد ، أي في ثماني بتات (كل بتة تساوي 0 أو 1). وبالتالي ، اتضح أن جدولًا واحدًا (يُعرف أيضًا باسم الترميز أو التعيين) يمكن أن يحتوي على 256 حرفًا فقط. قد لا يكون هذا كافيا حتى بالنسبة للغة واحدة. لذلك ، ظهرت العديد من الترميزات المختلفة ، والارتباك الذي أدى في كثير من الأحيان إلى حقيقة أنه بدلاً من النص المقروء ، ظهر بعض krakozyabry غريب على الشاشة. مطلوب معيار واحد ، والذي أصبح Unicode. الترميز الأكثر استخدامًا هو UTF-8 (تنسيق تحويل Unicode) ، والذي يستخدم 1 إلى 4 بايت لعرض حرف.

حرف او رمز

يتم ترقيم الأحرف في جداول Unicode بأرقام سداسية عشرية. على سبيل المثال ، يتم تعيين الحرف السيريلي الكبير M على U + 041C. هذا يعني أنه يقف عند تقاطع السطر 041 والعمود C. ويمكن ببساطة نسخه ثم لصقه في مكان ما. من أجل عدم البحث في قائمة متعددة الكيلومترات ، يجب عليك استخدام البحث. بعد الدخول إلى صفحة الرمز ، سترى رقمه في Unicode وطريقة رسمه في خطوط مختلفة. يمكنك أيضًا دفع العلامة نفسها إلى شريط البحث ، حتى إذا تم رسم مربع بدلاً من ذلك ، على الأقل لمعرفة ما كان عليه. أيضًا ، يوجد في هذا الموقع مجموعات خاصة (و - عشوائية) من نفس النوع من الرموز ، تم جمعها من أقسام مختلفة ، لسهولة الاستخدام.

معيار Unicode هو معيار دولي. يتضمن إشارات من جميع النصوص تقريبًا في العالم. بما في ذلك تلك التي لم تعد مستخدمة. الهيروغليفية المصرية ، والرونية الجرمانية ، وكتابة المايا ، والمسمارية ، والحروف الأبجدية للدول القديمة. قدم وتسمية المقاييس والأوزان ، النوتة الموسيقية ، المفاهيم الرياضية.

اتحاد Unicode نفسه لا يخترع أحرفًا جديدة. تتم إضافة تلك الرموز التي تجد تطبيقاتها في المجتمع إلى الجداول. على سبيل المثال ، تم استخدام علامة الروبل بنشاط لمدة ست سنوات قبل إضافتها إلى Unicode. تم أيضًا استخدام الرسوم التوضيحية للرموز التعبيرية (الرموز) على نطاق واسع لأول مرة في اليابان وقبل تضمينها في الترميز. لكن لم يتم إضافة العلامات التجارية وشعارات الشركة من حيث المبدأ. حتى لو كان شائعًا مثل Apple apple أو علم Windows. اليوم ، في الإصدار 8.0 ، تم ترميز حوالي 120 ألف حرف.

عناصر مساحة الكود التي تمثل الأعداد الصحيحة غير السالبة. تحدد عائلة الترميزات تمثيل الجهاز لسلسلة من أكواد UCS.

رموز Unicode مقسمة إلى عدة مناطق. تحتوي المنطقة ذات الرموز من U + 0000 إلى U + 007F على أحرف ASCII مع الرموز المقابلة. فيما يلي مناطق علامات النصوص المختلفة وعلامات الترقيم والرموز الفنية. بعض الرموز محجوزة للاستخدام في المستقبل. ضمن مجالات الأحرف السيريلية ، يتم تخصيص مناطق الأحرف ذات الرموز من U + 0400 إلى U + 052F ، من U + 2DE0 إلى U + 2DFF ، من U + A640 إلى U + A69F (انظر السيريلية في Unicode).

المتطلبات الأساسية لإنشاء وتطوير Unicode

نظرًا لأنه في عدد من أنظمة الكمبيوتر (على سبيل المثال ، Windows NT) تم استخدام الأحرف ذات 16 بت الثابتة بالفعل كتشفير افتراضي ، فقد تقرر ترميز جميع الأحرف الأكثر أهمية فقط في أول 65.536 موضعًا (ما يسمى باللغة الإنجليزية. طائرة أساسية متعددة اللغات ، BMP). يتم استخدام المساحة المتبقية لـ "أحرف إضافية" (eng. الشخصيات التكميلية): أنظمة كتابة اللغات المنقرضة أو الأحرف الصينية النادرة جدًا والرموز الرياضية والموسيقية.

للتوافق مع أنظمة 16 بت القديمة ، تم اختراع نظام UTF-16 ، حيث يتم عرض أول 65.536 موضعًا ، باستثناء المواضع من الفاصل الزمني U + D800 ... U + DFFF ، مباشرة كأرقام 16 بت ، ويتم تمثيل الباقي على أنهم "أزواج بديلة" (العنصر الأول للزوج من منطقة U + D800… U + DBFF ، والعنصر الثاني للزوج من منطقة U + DC00… U + DFFF). بالنسبة للأزواج البديلة ، تم استخدام جزء من مساحة الشفرة (2048 موضعًا) ، والتي كانت محجوزة مسبقًا لـ "الأحرف للاستخدام الخاص".

نظرًا لأن UTF-16 يمكنه فقط عرض 2 20 + 2 16 −2048 (111064) حرفًا ، فقد تم اختيار هذا الرقم كقيمة نهائية لمساحة رمز Unicode.

على الرغم من أن منطقة رمز Unicode قد تم تمديدها إلى ما بعد 2-16 في وقت مبكر من الإصدار 2.0 ، إلا أن الأحرف الأولى في منطقة "الجزء العلوي" تم وضعها فقط في الإصدار 3.1.

يتزايد دور هذا الترميز في قطاع الويب باستمرار ، في بداية عام 2010 كانت حصة المواقع التي تستخدم Unicode حوالي 50٪.

إصدارات يونيكود

مع تغير جدول أحرف Unicode وتجديده وإصدار إصدارات جديدة من هذا النظام - وهذا العمل مستمر ، نظرًا لأن نظام Unicode الأصلي تضمن المستوى 0 فقط - رموز ثنائية البايت - يتم أيضًا إصدار مستندات ISO جديدة. يوجد نظام Unicode بشكل إجمالي في الإصدارات التالية:

  • 1.1 (يتوافق مع معيار ISO / IEC 10646-1: 1993) ، 1991-1995.
  • 2.0 ، 2.1 (نفس المعيار ISO / IEC 10646-1: 1993 بالإضافة إلى الإضافات: "التعديلات" 1 إلى 7 و "التصويبات الفنية" 1 و 2) ، معيار 1996.
  • 3.0 (معيار ISO / IEC 10646-1: 2000).
  • 3.1 (معايير ISO / IEC 10646-1: 2000 و ISO / IEC 10646-2: 2001) معيار 2001.
  • 3.2 ، 2002 قياسي.
  • 4.0 ، قياسي 2003.
  • 4.01 ، قياسي 2004.
  • 4.1 ، معيار 2005.
  • 5.0 ، قياسي 2006.
  • 5.1 ، قياسي 2008.
  • 5.2 ، معيار 2009.
  • 6.0 ، قياسي 2010.
  • 6.1 ، معيار 2012.
  • 6.2 ، قياسي 2012.

مساحة الرمز

على الرغم من أن نماذج الترميز UTF-8 و UTF-32 تسمح بترميز ما يصل إلى 2،331 (2،147،483،648) نقطة رمز ، فقد تقرر استخدام 1،112،064 فقط للتوافق مع UTF-16. ومع ذلك ، حتى هذا أكثر من كافٍ - اليوم (في الإصدار 6.0) يتم استخدام أقل بقليل من 110.000 نقطة رمز (109242 رسمًا و 273 رمزًا آخر).

يتم تقسيم مساحة الرمز إلى 17 طائرات 2 16 (65536) حرفًا لكل منهما. يسمى المستوى الصفري أساسي، فهو يحتوي على رموز النصوص الأكثر شيوعًا. يتم استخدام المستوى الأول بشكل أساسي للنصوص التاريخية ، بينما يستخدم المستوى الثاني - لأحرف CJK التي نادرًا ما يتم استخدامها ، أما المستوى الثالث فهو مخصص للأحرف الصينية القديمة. الطائرتان 15 و 16 محجوزتان للاستخدام الخاص.

للدلالة أحرف Unicodeتدوين على شكل “U + xxxx"(للرموز 0 ... FFFF) ، أو" U + كسكسكسكسكس"(للرموز 10000 ... FFFFF) ، أو" U + xxxxxx"(بالنسبة للرموز 100000 ... 10FFFF) ، أين xxx- أرقام سداسية عشرية. على سبيل المثال ، الحرف "i" (U + 044F) له الرمز 044F = 1103.

نظام الترميز

نظام الترميز العالمي (Unicode) عبارة عن مجموعة من الرموز الرسومية وطريقة لتشفيرها لمعالجة البيانات النصية بالكمبيوتر.

الرموز الرسومية هي رموز لها صورة مرئية. تعارض الأحرف الرسومية التحكم في الأحرف وتنسيقها.

تشمل الرموز الرسومية المجموعات التالية:

  • الحروف الواردة في واحدة على الأقل من الحروف الهجائية المدعومة ؛
  • أعداد؛
  • علامات الترقيم؛
  • علامات خاصة (رياضية ، تقنية ، إيديوغرام ، إلخ) ؛
  • فواصل.

Unicode هو نظام للتمثيل الخطي للنص. يمكن تمثيل الأحرف التي تحتوي على نصوص مرتفعة أو منخفضة إضافية كسلسلة من الرموز المبنية وفقًا لقواعد معينة (حرف مركب) أو كحرف واحد (نسخة متجانسة ، حرف مكون مسبقًا).

تعديل الأحرف

تمثيل الحرف "Y" (U + 0419) في شكل الحرف الأساسي "I" (U + 0418) والحرف المعدل "" (U + 0306)

تنقسم الأحرف الرسومية في Unicode إلى ممتدة وغير ممتدة (بدون عرض). لا تشغل الأحرف غير الممتدة مساحة في السطر عند عرضها. وتشمل هذه ، على وجه الخصوص ، علامات التشكيل وعلامات التشكيل الأخرى. كل من الأحرف الموسعة وغير الموسعة لها رموز خاصة بها. تسمى الرموز الممتدة بخلاف ذلك الأساسية (eng. الشخصيات الأساسية) ، وغير الموسعة - تعديل (م. الجمع بين الشخصيات) ؛ والأخير لا يمكن أن يجتمع بشكل مستقل. على سبيل المثال ، يمكن تمثيل الحرف "á" كسلسلة من الحرف الأساسي "a" (U + 0061) وحرف المعدل "́" (U + 0301) ، أو كحرف متجانسة "á" (U + 00C1).

نوع خاص من تعديل الأحرف هو محددات النمط (eng. محددات الاختلاف). تنطبق فقط على تلك الرموز التي تم تعريف هذه المتغيرات من أجلها. في الإصدار 5.0 ، تم تحديد خيارات الخط لعدد من الرموز الرياضية ، ورموز الأبجدية المنغولية التقليدية ، ولرموز النص المنغولي المربع.

أشكال التطبيع

حيث يمكن تمثيل نفس الرموز رموز مختلفة، مما يؤدي في بعض الأحيان إلى تعقيد المعالجة ، هناك عمليات تطبيع مصممة لإحضار النص إلى شكل قياسي معين.

يحدد معيار Unicode 4 أشكال من تسوية النص:

  • نموذج التطبيع D (NFD) - التحلل المتعارف عليه. في عملية تحويل النص إلى هذا النموذج ، يتم استبدال جميع الأحرف المركبة بشكل متكرر بعدة أحرف مركبة ، وفقًا لجداول التحليل.
  • نموذج التطبيع C (NFC) هو تحلل أساسي متبوعًا بتكوين أساسي. أولاً ، يتم تقليل النص إلى النموذج D ، وبعد ذلك يتم تنفيذ التكوين الأساسي - تتم معالجة النص من البداية إلى النهاية ويتم اتباع القواعد التالية:
    • رمز S هو مبدئيإذا كان يحتوي على فئة تعديل صفرية في قاعدة أحرف Unicode.
    • في أي تسلسل من الأحرف يبدأ بحرف البداية S ، يتم حظر الحرف C من S إذا وفقط إذا كان هناك أي حرف B بين S و C يكون إما حرف بداية أو له نفس فئة التعديل أو أكبر من C. تنطبق القاعدة فقط على السلاسل التي مرت بالتحلل الكنسي.
    • ابتدائيالمركب هو حرف يحتوي على تحليل متعارف عليه في قاعدة أحرف Unicode (أو تحليل متعارف عليه لـ Hangul ولا يتم تضمينه في قائمة الاستثناءات).
    • يمكن محاذاة رمز X بشكل أساسي مع الرمز Y إذا وفقط إذا كان هناك مركب Z أساسي مكافئ قانونيًا للتسلسل .
    • إذا لم يتم حظر الحرف C التالي بواسطة الحرف الأساسي L الأخير الذي تمت مواجهته ويمكن محاذاته بنجاح أولاً ، فسيتم استبدال L بمركب L-C ، وإزالة C.
  • نموذج التطبيع KD (NFKD) - التحلل المتوافق. عند الإدلاء في هذا النموذج ، يتم استبدال جميع الأحرف المركبة باستخدام كل من خرائط تحليل Unicode المتعارف عليها وخرائط التحلل المتوافقة ، وبعد ذلك يتم وضع النتيجة بترتيب أساسي.
  • نموذج التطبيع KC (NFKC) - تحلل متوافق متبوعًا العنوان الأساسيتكوين.

المصطلحان "تكوين" و "تحلل" يعني ، على التوالي ، اتصال أو تحلل الرموز إلى الأجزاء المكونة لها.

أمثلة على

النص المصدر NFD NFC NFKD NFKC
الفرنسية الفرنك \ u0327ais فران \ xe7ais الفرنك \ u0327ais فران \ xe7ais
أ ، ه ، ص \ u0410 ، \ u0401 ، \ u0419 \ u0410 ، \ u0415 \ u0308 ، \ u0418 \ u0306 \ u0410 ، \ u0401 ، \ u0419
\ u304b \ u3099 \ u304c \ u304b \ u3099 \ u304c
هنري الرابع هنري الرابع هنري الرابع هنري الرابع هنري الرابع
هنري Ⅳ هنري \ u2163 هنري \ u2163 هنري الرابع هنري الرابع

خطاب ثنائي الاتجاه

يدعم معيار Unicode لغات الكتابة في كلا الاتجاهين من اليسار إلى اليمين (eng. من اليسار إلى اليمين ، LTR) ، ومع الكتابة من اليمين إلى اليسار (م. من اليمين إلى اليسار ، من اليمين إلى اليسار ، من اليمين إلى اليسار) - على سبيل المثال ، الحروف العربية والعبرية. في كلتا الحالتين ، يتم تخزين الأحرف بترتيب "طبيعي" ؛ يتم توفير عرضهم ، مع مراعاة الاتجاه المطلوب للرسالة ، من خلال التطبيق.

بالإضافة إلى ذلك ، يدعم Unicode النصوص المدمجة التي تجمع بين الأجزاء ذات الاتجاهات المختلفة للحرف. هذه الميزة تسمى ثنائية الاتجاه(م. نص ثنائي الاتجاه ، ثنائي الاتجاه). بعض معالجات النصوص المبسطة (على سبيل المثال ، بتنسيق هاتف خليوي) يمكن أن يدعم Unicode ، ولكن ليس الدعم ثنائي الاتجاه. يتم تقسيم جميع أحرف Unicode إلى عدة فئات: مكتوبة من اليسار إلى اليمين ، ومكتوبة من اليمين إلى اليسار ، ومكتوبة في أي اتجاه. رموز الفئة الأخيرة (علامات الترقيم بشكل أساسي) ، عند عرضها ، تأخذ اتجاه النص المحيط.

الرموز المميزة

يتضمن Unicode تقريبًا جميع البرامج النصية الحديثة ، بما في ذلك:

آخر.

للأغراض الأكاديمية ، تم إضافة العديد من النصوص التاريخية ، بما في ذلك: الأحرف الرونية ، اليونانية القديمة ، الهيروغليفية المصرية ، المسمارية ، كتابة المايا ، الأبجدية الأترورية.

يوفر Unicode مجموعة كبيرة من الرموز والرسوم التوضيحية الرياضية والموسيقية.

ومع ذلك ، لا يتضمن Unicode بشكل أساسي شعارات الشركة والمنتج ، على الرغم من وجودها في الخطوط (على سبيل المثال ، شعار Apple في ترميز MacRoman (0xF0) أو شعار Windows في خط Wingdings (0xFF)). في خطوط Unicode ، يجب وضع الشعارات في منطقة الأحرف المخصصة فقط.

ISO / IEC 10646

يعمل اتحاد Unicode بشكل وثيق مع فريق العمل ISO / IEC / JTC1 / SC2 / WG2 ، التي تعمل على تطوير المعيار الدولي 10646 (ISO / IEC 10646). تم إنشاء التزامن بين معيار Unicode و ISO / IEC 10646 ، على الرغم من أن كل معيار يستخدم المصطلحات الخاصة به ونظام التوثيق.

تعاون اتحاد يونيكود مع المنظمة الدولية للتوحيد القياسي (م. المنظمة الدولية للتوحيد القياسي ISO ) في عام 1991. في عام 1993 ، أصدرت ISO معيار DIS 10646.1. للمزامنة معه ، وافق الكونسورتيوم على الإصدار 1.1 من معيار Unicode ، والذي أضاف أحرفًا إضافية من DIS 10646.1. نتيجة لذلك ، فإن قيم الأحرف المشفرة في Unicode 1.1 و DIS 10646.1 هي نفسها تمامًا.

في المستقبل ، استمر التعاون بين المنظمتين. في 2000 معيار يونيكودتمت مزامنة الإصدار 3.0 مع ISO / IEC 10646-1: 2000. ستتم مزامنة الإصدار الثالث القادم من ISO / IEC 10646 مع Unicode 4.0. ربما سيتم نشر هذه المواصفات كمعيار واحد.

على غرار تنسيقات UTF-16 و UTF-32 في معيار Unicode ، يحتوي معيار ISO / IEC 10646 أيضًا على شكلين رئيسيين لترميز الأحرف: UCS-2 (2 بايت لكل حرف ، على غرار UTF-16) و UCS-4 (4 بايت لكل حرف ، على غرار UTF-32). يعني UCS عالمي متعدد ثماني بتات(متعدد البايت) مجموعة الأحرف المشفرة(م. مجموعة أحرف عالمية متعددة الثماني بتات ). يمكن اعتبار UCS-2 مجموعة فرعية من UTF-16 (UTF-16 بدون أزواج بديلة) و UCS-4 هو مرادف لـ UTF-32.

طرق العرض

يحتوي Unicode على عدة أشكال من التمثيل (eng. تنسيق تحويل Unicode ، UTF ): UTF-8 و UTF-16 (UTF-16BE و UTF-16LE) و UTF-32 (UTF-32BE و UTF-32LE). تم تطوير نموذج تمثيل UTF-7 أيضًا للإرسال عبر قنوات ذات سبع بتات ، ولكن نظرًا لعدم التوافق مع ASCII ، لم يتم نشره ولم يتم تضمينه في المعيار. في 1 أبريل 2005 ، تم اقتراح تقديمين مرحين: UTF-9 و UTF-18 (RFC 4042).

Unicode UTF-8: 0x00000000 - 0x0000007F: 0xxxxxxx 0x00000080 - 0x000007FF: 110xxxxx 10xxxxxx 0x00000800 - 0x0000FFFF: 1110xxxx 10xxxxxx 10xxxxxx 0x00010000 - 0x001FFFFFF: 11110xxx 10xxxx 10xxxxxxxxx

ممكن نظريًا ، ولكنه غير مدرج أيضًا في المعيار:

0x00200000 - 0x03FFFFFF: 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 0x04000000 - 0x7FFFFFFF: 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

على الرغم من أن UTF-8 يسمح لك بتحديد نفس الحرف بعدة طرق ، إلا أن الأقصر فقط هو الصحيح. يجب رفض باقي الاستمارات لأسباب أمنية.

ترتيب البايت

في دفق بيانات UTF-16 ، يمكن كتابة البايت العالي إما قبل المنخفض (eng. UTF-16 كبير الهند) ، أو بعد الأصغر (م. UTF-16 صغير الهند). وبالمثل ، هناك نوعان مختلفان من التشفير رباعي البايت - UTF-32BE و UTF-32LE.

لتحديد شكل تمثيل Unicode في البداية ملف نصيالتوقيع مكتوب - الحرف U + FEFF (مسافة غير قابلة للكسر بعرض صفري) ، تسمى أيضًا علامة ترتيب البايت(م. علامة ترتيب البايت ، BOM ). هذا يجعل من الممكن التمييز بين UTF-16LE و UTF-16BE نظرًا لعدم وجود حرف U + FFFE. كما يتم استخدامه أحيانًا للإشارة إلى تنسيق UTF-8 ، على الرغم من أن مفهوم ترتيب البايت لا ينطبق على هذا التنسيق. تبدأ الملفات التي تتبع هذا الاصطلاح بتسلسلات البايت هذه:

UTF-8 EF BB BF UTF-16BE FE FF UTF-16LE FF FE UTF-32BE 00 00 FE FF UTF-32LE FF FE 00 00

لسوء الحظ ، لا تميز هذه الطريقة بشكل موثوق بين UTF-16LE و UTF-32LE ، نظرًا لأن Unicode يسمح بالحرف U + 0000 (على الرغم من أن النصوص الحقيقية نادرًا ما تبدأ به).

يجب أن تكون الملفات بترميز UTF-16 و UTF-32 التي لا تحتوي على قائمة مكونات الصنف بترتيب بايت كبير (unicode.org).

Unicode والترميزات التقليدية

أدى إدخال Unicode إلى تغيير النهج المتبع في ترميزات 8 بت التقليدية. إذا تم تحديد الترميز مسبقًا بواسطة الخط ، فسيتم تحديده الآن بواسطة جدول المراسلات بين هذا الترميز و Unicode. في الواقع ، أصبحت ترميزات 8 بت تمثل مجموعة فرعية من Unicode. هذا جعل من السهل جدًا إنشاء البرامج التي تحتاج إلى العمل مع العديد من الترميزات المختلفة: الآن ، لإضافة دعم لترميز آخر ، تحتاج فقط إلى إضافة جدول بحث Unicode آخر.

بالإضافة إلى ذلك ، تسمح العديد من تنسيقات البيانات بإدراج أي أحرف Unicode ، حتى إذا كان المستند مكتوبًا بترميز 8 بت القديم. على سبيل المثال ، يمكنك استخدام رموز العطف في HTML.

تطبيق

توفر معظم أنظمة التشغيل الحديثة درجة معينة من دعم Unicode.

في أنظمة تشغيل عائلة Windows NT ، يتم استخدام ترميز UTF-16LE مزدوج البايت للتمثيل الداخلي لأسماء الملفات وسلاسل النظام الأخرى. مكالمات النظام التي تأخذ معلمات السلسلة متوفرة في متغيرات أحادية البايت ومزدوجة البايت. لمزيد من التفاصيل انظر المقال

إذا كنت تحتاج فقط إلى إدخال القليل شخصيات خاصةأو الأحرف ، يمكنك استخدام جدول الأحرف أو اختصارات لوحة المفاتيح. قائمة أحرف ASCIIانظر الجداول أدناه أو في القسم لإدخال الحروف الهجائية الوطنية باستخدام اختصارات لوحة المفاتيح.

ملحوظات:

إدخال أحرف ASCII

لإدراج حرف ASCII ، اضغط مع الاستمرار على مفتاح ALT ، ثم اكتب رمز الحرف. على سبيل المثال ، لإدخال علامة درجة (º) ، اضغط باستمرار على مفتاح ALT واكتب المفاتيح العدديةكود 0176.

ملحوظة:

إدخال أحرف Unicode

الأهمية:بعض برامج مايكروسوفتلا يمكن لـ Office ، مثل PowerPoint و InfoPath ، تحويل رموز أحرف Unicode. إذا كنت تحتاج إلى رمز Unicode وكنت تستخدم أحد البرامج التي لا تدعم أحرف Unicode ، فاستخدمه لإدخال الأحرف التي قد تحتاجها.

ملحوظات:

    يجب كتابة الأرقام على لوحة المفاتيح الرقمية ، وليس على الأبجدية الرقمية. إذا كنت بحاجة إلى الضغط لإدخال الأرقام على لوحة المفاتيح الرقمية مفتاح NUM LOCK ، تأكد من القيام بذلك.

    إذا كنت تواجه مشكلة في تحويل رمز Unicode إلى حرف ، فاكتب الرمز على لوحة المفاتيح الرقمية ، وحدده ، ثم اضغط على Alt + X.

    الخامس مايكروسوفت ويندوزيتم تثبيت XP والإصدارات الأحدث من Universal Unicode Font تلقائيًا. في Microsoft Windows 2000 ، يجب تثبيت خط Unicode يدويًا.

    في نظام التشغيل Microsoft Windows 2000

    1. قم بإنهاء كافة البرامج.

      انقر نقرًا مزدوجًا فوق الرمز تركيب وإزالة البرامجتشغيل لوحات التحكم.

      إفعل واحدا من ما يلي:

    2. في مربع الحوار تثبيت مايكروسوفت أوفيس 2003حدد اختيارا قم بإضافة أو إزالة المكوناتثم انقر فوق بالإضافة إلى ذلك.

      الرجاء التحديد التخصيص الإضافيالتطبيقاتواضغط على الزر بالإضافة إلى ذلك.

      قم بتوسيع القائمة أدوات المكتب المشتركة.

      قم بتوسيع القائمة دعم متعدد اللغات.

      انقر فوق الرمز خط عالميوحدد خيار التثبيت المطلوب.

باستخدام جدول الرموز

جدول الرموز مضمن في Microsoft برنامج ويندوزالذي يسمح لك بمشاهدة الأحرف المتوفرة في الخط المحدد. باستخدام جدول الرموز ، يمكنك نسخ الرموز الفردية أو مجموعات الرموز إلى الحافظة ثم لصقها في برنامج يدعمها.

انقر فوق الزر يبدأ، ثم حدد البرامج, اساسي, خدمةو جدول الرموز.

لتحديد رمز في جدول الرموز ، انقر فوقه ، انقر فوق يختار، انقر انقر على اليمينالماوس في مكان المستند حيث تريد إضافة الرمز ، وحدد الأمر إدراج.

رموز الأحرف الشائعة

لمزيد من أحرف الأحرف ، راجع المقالة المثبتة على الكمبيوتر أو رموز أحرف ASCII أو مخطط نص برمجي لرمز Unicode.

لافتة

لافتة

رموز العملات

الرموز القانونية

رموز الرياضيات

الكسور

رموز الترقيم واللهجة

رموز النموذج

رموز التشكيل المشتركة

للحصول على قائمة كاملة بالحروف الرسومية ورموز الأحرف المرتبطة بها ، راجع.

لافتة

لافتة

لافتة

لافتة

أحرف تحكم ASCII غير قابلة للطباعة

يتم تخصيص الأرقام من 0 إلى 31 في جدول ASCII للتحكم في الأحرف المستخدمة للتحكم في بعض الأجهزة الطرفية مثل الطابعات. على سبيل المثال ، يمثل الرقم 12 وظيفة ترجمة الصفحة. يأخذ هذا الأمر الطابعة إلى أعلى الصفحة التالية.

جدول أحرف تحكم ASCII غير قابل للطباعة

عدد عشري

لافتة

عدد عشري

لافتة

نقص المعلومات

تغيير قناة البيانات

بداية العنوان

التحكم في الجهاز 1

بداية النص

جهاز التحكم 2

نهاية النص

التحكم في الجهاز 3

نهاية الإرسال

التحكم في الجهاز 4

تأكيد سلبي

التأكيد

إشارة صوتية

نهاية كتلة النقل

مساحة أفقية

نهاية الوسائط

خط تغذية / خط جديد

علامة تبويب عمودية

ترجمة الصفحة / صفحة جديدة

فاصل الملفات

إرجاع

فاصل المجموعة

تحول غير مستمر

فاصل السجل

تحول الحفظ

فاصل المقطع

معلومة اضافية

ملحوظة: إخلاء مسؤولية بخصوص الترجمة الآلية... تمت ترجمة هذه المقالة باستخدام نظام كمبيوتر دون تدخل بشري. تقدم Microsoft هذه الترجمات الآلية لمساعدة المستخدمين غير الإنجليز على التعرف على منتجات Microsoft وخدماتها وتقنياتها. نظرًا لأن المقالة قد تمت ترجمتها باستخدام الترجمة الآلية ، فقد تحتوي على أخطاء معجمية ونحوية ونحوية.

Unicode هو معيار دولي لترميز الأحرف يسمح بعرض النص بشكل متسق على أي جهاز كمبيوتر في العالم ، بغض النظر عن لغة النظام التي يستخدمها.

أساسيات

لفهم الغرض من جدول أحرف Unicode ، دعنا أولاً نفهم آلية عرض النص على شاشة العرض. يقوم الكمبيوتر ، كما نعلم ، بمعالجة جميع المعلومات في شكل رقمي ، ويجب أن يعرضها بيانياً من أجل الإدراك البشري الصحيح. وبالتالي ، لكي نقرأ هذا النص ، من الضروري حل مهمتين على الأقل:

  • رقمنة الأحرف القابلة للطباعة.
  • زود نظام التشغيل بالقدرة على مطابقة النماذج الرقمية بأحرف متجهة ، وبعبارة أخرى ، ابحث عن الأحرف الصحيحة.

الترميزات الأولى

يعتبر ASCII الأمريكي هو سلف جميع الترميزات. وصفت المستخدمة في اللغة الانجليزيةالأبجدية اللاتينية مع علامات الترقيم والأرقام العربية. كانت 128 حرفًا المستخدمة فيه هي التي أصبحت أساسًا للتطورات اللاحقة - حتى أن جدول أحرف Unicode الحديث يستخدمها. منذ ذلك الحين ، احتلت أحرف الأبجدية اللاتينية المراكز الأولى في أي ترميز.

في المجموع ، سمح ASCII بتخزين 256 حرفًا ، ولكن منذ أن احتلت الأبجدية اللاتينية أول 128 حرفًا ، بدأ استخدام الـ 128 المتبقية في جميع أنحاء العالم لإنشاء معايير وطنية. على سبيل المثال ، في روسيا ، تم إنشاء CP866 و KOI8-R على أساسها. كانت تسمى هذه الاختلافات إصدارات ممتدة من ASCII.

صفحات الرموز و "krakozyabry"

أدى التطوير الإضافي للتكنولوجيا وظهور واجهة رسومية إلى إنشاء المعهد الأمريكي للتوحيد القياسي ترميز ANSI... بالنسبة للمستخدمين الروس ، وخاصة من ذوي الخبرة ، فإن نسخته معروفة تحت اسم ويندوز 1251. قدم مفهوم "صفحة الرموز" لأول مرة. بمساعدة صفحات الرموز ، التي تحتوي على رموز أبجدية وطنية غير اللاتينية ، تم تأسيس "التفاهم المتبادل" بين أجهزة الكمبيوتر المستخدمة في بلدان مختلفة.

ومع ذلك ، فإن وجود عدد كبير من الترميزات المختلفة المستخدمة للغة واحدة بدأ يسبب مشاكل. ظهر ما يسمى krakozyabry. لقد نشأت من عدم تطابق بين صفحة الرموز الأصلية ، حيث تم إنشاء أي معلومات ، وصفحة الرموز المستخدمة افتراضيًا على كمبيوتر المستخدم النهائي.


كمثال ، يمكن الاستشهاد بالتشفير السيريلي أعلاه CP866 و KOI8-R. اختلفت الحروف فيها في مواضع الكود ومبادئ التنسيب. في الأول ، تم ترتيبها حسب الترتيب الأبجدي ، والثاني - بترتيب تعسفي. يمكنك أن تتخيل ما كان يحدث أمام أعين المستخدم الذي حاول فتح مثل هذا النص دون أن يكون لديه صفحة التعليمات البرمجية المطلوبة أو عندما أسيء تفسيره بواسطة الكمبيوتر.

إنشاء Unicode

انتشار الإنترنت والتقنيات ذات الصلة مثل بريد الالكتروني، أدى إلى حقيقة أنه في النهاية توقف الوضع مع تشويه النصوص ليناسب الجميع. شكلت شركات تكنولوجيا المعلومات الرائدة اتحاد Unicode. يمكن لجدول الشخصيات الذي قدمه في عام 1991 تحت اسم UTF-32 تخزين أكثر من مليار حرف فريد. كان خطوة حاسمةفي طريقك لفك تشفير النصوص.


ومع ذلك ، لم يتم اعتماد أول جدول يونيكود عالمي لرموز الأحرف ، UTF-32 ، على نطاق واسع. كان السبب الرئيسي هو تكرار المعلومات المخزنة. سرعان ما تم حساب أنه بالنسبة للبلدان التي تستخدم الأبجدية اللاتينية المشفرة بالجدول العالمي الجديد ، سيشغل النص أربعة أضعاف المسافة عند استخدام جدول ASCII الممتد.

تطوير يونيكود

قام جدول أحرف Unicode UTF-16 التالي بإصلاح هذه المشكلة. تم إجراء الترميز فيه في نصف عدد البتات ، ولكن في نفس الوقت انخفض أيضًا عدد المجموعات الممكنة. بدلاً من المليارات من الأحرف ، يخزن فقط 65.536. ومع ذلك ، فقد كان ناجحًا للغاية لدرجة أن الكونسورتيوم قرر أن هذا الرقم هو مساحة التخزين الأساسية لأحرف Unicode.

على الرغم من هذا النجاح ، لم يكن UTF-16 مناسبًا للجميع ، نظرًا لأن حجم ملفات المعلومات المنقولةكان لا يزال يتضاعف. كان الحل الشامل هو UTF-8 ، وهو جدول أحرف Unicode متغير الطول. هذا يمكن أن يسمى اختراق في هذا المجال.


وبالتالي ، مع إدخال آخر معيارين ، حل جدول أحرف Unicode مشكلة مساحة رمز واحد لجميع الخطوط المستخدمة اليوم.

يونيكود للغة الروسية

نظرًا للطول المتغير للرمز المستخدم لعرض الأحرف ، يتم ترميز اللاتينية في Unicode بنفس الطريقة كما في سلفها ASCII ، أي بتة واحدة. بالنسبة للأبجديات الأخرى ، قد تبدو الصورة مختلفة. على سبيل المثال ، تستخدم أحرف الأبجدية الجورجية ثلاثة بايت للترميز ، بينما تستخدم أحرف الأبجدية السيريلية اثنين. كل هذا ممكن في إطار استخدام معيار UTF-8 Unicode (جدول الأحرف). تحتل اللغة الروسية أو الأبجدية السيريلية 448 موقعًا في إجمالي مساحة الشفرة ، مقسمة إلى خمس كتل.


تتضمن هذه الكتل الخمس الأبجدية السيريلية والكنسية السلافية الأساسية ، بالإضافة إلى أحرف إضافية من اللغات الأخرى باستخدام الأبجدية السيريلية. تم تمييز عدد من المواضع لعرض الأشكال القديمة لتمثيل الأحرف السيريلية ، ولا يزال 22 موقعًا من العدد الإجمالي مجانيًا.

الإصدار الحالي من Unicode

مع حل مهمته الأساسية ، وهي توحيد الخطوط وإنشاء مساحة رمز واحدة لها ، لم يتوقف الاتحاد عن عمله. Unicode يتطور ويتوسع باستمرار. تم إصدار الإصدار الأخير من هذا المعيار ، 9.0 ، في عام 2016. تضمنت ستة أبجديات إضافية ووسعت قائمة الرموز التعبيرية الموحدة.

يجب أن أقول أنه من أجل تبسيط البحث ، تتم إضافة حتى ما يسمى باللغات الميتة إلى Unicode. لقد حصلوا على هذا الاسم لأن الأشخاص الذين سيكون من مواطنيهم غير موجودين. تشمل هذه المجموعة أيضًا اللغات التي نشأت في عصرنا فقط في شكل آثار مكتوبة.

من حيث المبدأ ، يمكن لأي شخص التقدم لإضافة أحرف إلى مواصفات Unicode الجديدة. صحيح ، لهذا عليك أن تملأ مبلغًا لائقًا وثائق المصدروتقضي الكثير من الوقت. مثال حي على ذلك هو قصة المبرمج تيرينس إيدن. في عام 2013 ، تقدم بطلب لإدراج الرموز المتعلقة بتعيين أزرار التحكم في طاقة الكمبيوتر في المواصفات. لقد تم استخدامها في التوثيق الفني منذ منتصف السبعينيات من القرن الماضي ، ولكن حتى تقديم مواصفات 9.0 لم تكن جزءًا من Unicode.

جدول الرموز

يستخدم كل جهاز كمبيوتر ، بغض النظر عن نظام التشغيل المستخدم ، جدول أحرف Unicode. كيف تستخدم هذه الجداول ، وأين تجدها ، ولماذا يمكن أن تكون مفيدة للمستخدم العادي؟


في نظام التشغيل طاولة Windowsتوجد الرموز في قسم "الخدمة" من القائمة. في عائلة أنظمة التشغيل Linux ، يمكن العثور عليها عادةً في القسم الفرعي "قياسي" ، وفي تفضيلات لوحة المفاتيح في MacOS. الغرض الرئيسي من هذا الجدول هو الدخول فيه مستندات نصيةالأحرف غير الموجودة على لوحة المفاتيح.

يمكن العثور على تطبيق لهذه الجداول على أوسع نطاق: من إدخال الرموز الفنية وأيقونات الأنظمة النقدية الوطنية إلى كتابة التعليمات للاستخدام العملي لبطاقات التارو.

أخيرا

يستخدم Unicode في كل مكان ودخل حياتنا جنبًا إلى جنب مع تطور الإنترنت و تقنيات المحمول... بفضل استخدامه ، تم تبسيط نظام الاتصالات بين الأعراق بشكل كبير. يمكننا أن نقول أن إدخال Unicode هو دليل إرشادي ، ولكنه غير مرئي تمامًا من المثال الخارجي لاستخدام التكنولوجيا من أجل الصالح العام للبشرية جمعاء.