أجهزة الكمبيوتر شبابيك إنترنت

رموز أحرف Ascii 1251

ناقلات البيانات

البيانات هي مكون ديالكتيكي للمعلومات. أنها تمثل الإشارات المسجلة. في هذه الحالة ، يمكن أن تكون الطريقة الفيزيائية للتسجيل أي: حركة ميكانيكية للأجسام الفيزيائية ، وتغيير في شكلها أو معايير جودة السطح ، وتغيير في الخصائص الكهربائية والمغناطيسية والبصرية والتركيب الكيميائي و (أو) طبيعة الروابط الكيميائية ، والتغيير في حالة النظام الإلكتروني ، وأكثر من ذلك بكثير.

وفقًا لطريقة التسجيل ، يمكن تخزين البيانات ونقلها على أنواع مختلفة من الوسائط. يبدو أن أكثر وسائط التخزين شيوعًا ، على الرغم من أنها ليست الأكثر اقتصادا ، هي الورق. على الورق ، يتم تسجيل البيانات عن طريق تغيير الخصائص البصرية لسطحها. يتم استخدام تغيير الخصائص الضوئية (تغيير معامل انعكاس السطح في نطاق طول موجي معين) أيضًا في الأجهزة التي تسجل بشعاع ليزر على وسائط بلاستيكية بطبقة عاكسة ( قرص مضغوط). يمكن الاستشهاد بالأشرطة والأقراص المغناطيسية كوسائط تستخدم التغيير في الخصائص المغناطيسية. يستخدم تسجيل البيانات عن طريق تغيير التركيب الكيميائي للمواد السطحية للناقل على نطاق واسع في التصوير الفوتوغرافي. على المستوى البيوكيميائي ، يتم تجميع البيانات ونقلها في الطبيعة الحية.

لا تهمنا شركات نقل البيانات في حد ذاتها ، ولكن بقدر ما ترتبط خصائص المعلومات ارتباطًا وثيقًا بخصائص شركات النقل الخاصة بها. يمكن تمييز أي ناقل بواسطة المعلمة الدقة(كمية البيانات المسجلة بوحدة القياس المقبولة للوسائط) و مدى ديناميكي(النسبة اللوغاريتمية لشدة اتساع الحد الأقصى والحد الأدنى من الإشارات المسجلة). غالبًا ما تعتمد خصائص المعلومات مثل الاكتمال والتوافر والموثوقية على خصائص الوسيط هذه. لذلك ، على سبيل المثال ، يمكننا الاعتماد على حقيقة أنه في قاعدة البيانات الموجودة على قرص مضغوط ، من الأسهل ضمان اكتمال المعلومات مقارنة بقاعدة بيانات ذات غرض مشابه ، وتقع على قرص مرن ، لأنه في الحالة الأولى ، كثافة تسجيل البيانات لكل وحدة طول المسارات أعلى بكثير. بالنسبة للمستهلك العادي ، يكون توفر المعلومات في كتاب ما أعلى بشكل ملحوظ من توفر المعلومات نفسها على قرص مضغوط ، حيث لا يمتلك جميع المستهلكين المعدات اللازمة. وأخيرًا ، من المعروف أن التأثير المرئي من عرض شريحة في جهاز عرض أكبر بكثير من عرض رسم توضيحي مشابه مطبوع على الورق ، نظرًا لأن نطاق إشارات النصوع في الضوء المرسل يكون أكبر بمرتين إلى ثلاث مرات مما هو عليه في انعكاس ضوء.

تعتبر مهمة تحويل البيانات من أجل تغيير الوسيط من أهم مهام علوم الكمبيوتر. في هيكل تكلفة أنظمة الحوسبة ، تمثل أجهزة إدخال البيانات وإخراجها ، والعمل مع وسائط التخزين ، ما يصل إلى نصف تكلفة الأجهزة.

^ عمليات البيانات

أثناء عملية المعلومات ، يتم تحويل البيانات من نوع إلى آخر باستخدام الطرق. تتضمن معالجة البيانات العديد من العمليات المختلفة. مع تطور التقدم العلمي والتكنولوجي والتعقيد العام للاتصالات في المجتمع البشري ، تزداد تكاليف العمالة لمعالجة البيانات باطراد. بادئ ذي بدء ، يعود ذلك إلى التعقيد المستمر لظروف إدارة الإنتاج والمجتمع. العامل الثاني ، الذي يتسبب أيضًا في زيادة عامة في حجم البيانات المعالجة ، يرتبط أيضًا بالتقدم العلمي والتكنولوجي ، أي مع الوتيرة السريعة لظهور وتنفيذ ناقلات البيانات الجديدة ، ومرافق تخزين البيانات والتسليم.

في هيكل العمليات المحتملة بالبيانات ، يمكن تمييز العمليات الرئيسية التالية:


  • جمع البيانات -تراكم البيانات من أجل ضمان الاستيفاء الكافي للمعلومات لاتخاذ القرار ؛

  • إضفاء الطابع الرسمي على البيانات -جلب البيانات الواردة من مصادر مختلفة إلى نفس النموذج لجعلها قابلة للمقارنة مع بعضها البعض ، أي لزيادة مستوى إمكانية الوصول إليها ؛

  • تصفية البيانات -تصفية البيانات "غير الضرورية" ، وهي ليست ضرورية لاتخاذ القرارات ؛ وفي الوقت نفسه ، ينبغي أن ينخفض ​​مستوى "الضوضاء" ، كما ينبغي زيادة موثوقية البيانات وكفايتها ؛

  • فرز البيانات -ترتيب البيانات وفقًا لمعيار معين لغرض سهولة الاستخدام ؛ يزيد من توافر المعلومات ؛

  • تجميع البيانات -الجمع بين البيانات على أساس معين من أجل تحسين قابلية الاستخدام ؛ يزيد من توافر المعلومات ؛

  • أرشفة البيانات -تنظيم تخزين البيانات في شكل مناسب يسهل الوصول إليه ؛ يعمل على تقليل التكاليف الاقتصادية لتخزين البيانات ويزيد من الموثوقية الشاملة لعملية المعلومات ككل ؛

  • حماية البيانات -مجموعة من التدابير التي تهدف إلى منع فقدان البيانات واستنساخها وتعديلها ؛

  • نقل البيانات -استقبال وإرسال (تسليم وتسليم) البيانات بين المشاركين عن بعد في عملية المعلومات ؛ في هذه الحالة ، عادةً ما يتم استدعاء مصدر البيانات في المعلوماتية الخادم،والمستهلك - الزبون؛

  • تحويل البيانات -نقل البيانات من نموذج إلى آخر أو من هيكل إلى آخر. غالبًا ما يتضمن تحويل البيانات تغيير نوع الوسائط ، على سبيل المثال ، يمكن تخزين الكتب في شكل ورقي تقليدي ، ولكن يمكن استخدام كل من النموذج الإلكتروني والميكروفيلم لهذا الغرض. تنشأ أيضًا الحاجة إلى عمليات تحويل متعددة للبيانات أثناء نقلها ، خاصةً إذا تم تنفيذها بوسائل غير مخصصة لنقل هذا النوع من البيانات. على سبيل المثال ، يمكننا أن نذكر أنه بالنسبة لنقل تدفقات البيانات الرقمية عبر شبكات الهاتف (التي كانت تركز في البداية فقط على الإرسال الإشارات التناظريةفي نطاق تردد ضيق) ، من الضروري تحويل البيانات الرقمية إلى نوع من إشارات صوتية، وهو ما تفعله الأجهزة الخاصة - أجهزة المودم الهاتفية.
قائمة عمليات البيانات النموذجية الواردة هنا أبعد ما تكون عن الاكتمال. يشارك الملايين من الأشخاص حول العالم في إنشاء البيانات ومعالجتها وتحويلها ونقلها ، ويؤدي كل مكان عمل عملياته الخاصة اللازمة لإدارة العمليات الاجتماعية والاقتصادية والصناعية والعلمية والثقافية. القائمة الكاملةمن المستحيل تجميع العمليات الممكنة ، وهي ليست ضرورية. الآن نحن مهتمون باستنتاج آخر: يمكن أن يكون العمل بالمعلومات كثيف العمالة ، ويجب أن يكون آليًا.

^ تشفير البيانات الثنائية

لأتمتة العمل مع البيانات المتعلقة بـ أنواع مختلفة، من المهم جدًا توحيد نموذج العرض الخاص بهم - لذلك ، يتم استخدام التقنية عادةً الترميزأي التعبير عن بيانات من نوع واحد من خلال بيانات من نوع آخر. الإنسان الطبيعي اللغات -هم ليسوا أكثر من أنظمة تشفير المفاهيم للتعبير عن الأفكار من خلال الكلام. اللغات متقاربة أبجديات(أنظمة لتشفير مكونات اللغة باستخدام الرموز الرسومية). يعرف التاريخ محاولات مثيرة للاهتمام ، وإن كانت غير ناجحة ، لخلق لغات وأبجديات "عالمية". على ما يبدو ، فإن فشل محاولات تقديمهم يرجع إلى حقيقة أن الوطنية و التربية الاجتماعيةنفهم بشكل طبيعي أن التغيير في نظام تشفير البيانات العامة سيؤدي حتمًا إلى تغيير في الأساليب الاجتماعية (أي قواعد القانون والأخلاق) ، وقد يرتبط هذا بالاضطرابات الاجتماعية.

يتم تنفيذ نفس مشكلة أداة التشفير العالمية بنجاح كبير في بعض فروع التكنولوجيا والعلوم والثقافة. تتضمن الأمثلة نظام الكتابة للتعبيرات الرياضية وأبجدية التلغراف وأبجدية العلم البحري ونظام برايل للمكفوفين وغير ذلك الكثير.

أرز. 1.8 أمثلة على أنظمة الترميز المختلفة

النظام موجود أيضًا في الحوسبة - يطلق عليه الترميز الثنائيويستند إلى تمثيل البيانات من خلال تسلسل من حرفين فقط: 0 و 1. يتم استدعاء هذه الأحرف أرقام ثنائيةباللغة الإنجليزية - رقم ثنائي،أو باختصار بت (بت).

يمكن التعبير عن مفهومين بتة واحدة: 0 أو 1 (نعمأو لا أسودأو أبيض ، صحيحأو يكذب أو ملقاهإلخ.). إذا زاد عدد البتات إلى اثنين ، فيمكن بالفعل التعبير عن أربعة مفاهيم مختلفة:

يمكن لثلاث بتات ترميز ثماني قيم مختلفة:

000001010 01l 10010110111

زيادة عدد الخانات في النظام برقم واحد ترميز ثنائي، نضاعف عدد القيم التي يمكن التعبير عنها في هذا النظام.

^ ترميز عدد صحيح وحقيقي

لتشفير الأعداد الصحيحة من 0 إلى 255 ، يكفي أن يكون لديك 8 بتات من الكود الثنائي (8 بت).

0000 0000 = 0

…………………

1111 1110 = 254

1111 1111 = 255

تسمح لك ستة عشر بتًا بترميز الأعداد الصحيحة من 0 إلى 65535 ، و 24 بت بالفعل أكثر من 16.5 مليون قيمة مختلفة.

لترميز الأرقام الحقيقية ، يتم استخدام ترميز 80 بت. في هذه الحالة ، يتم تحويل الرقم مبدئيًا إلى شكل طبيعي:

3,1415926 = 0,31415926 10 1

300 000 = 0,3 10 6

123 456 789 = 0,123456789 10 9

الجزء الأول من الرقم يسمى العشريوالثاني هو صفة مميزة.يتم تخصيص معظم الثمانين بتًا لتخزين الجزء العشري (جنبًا إلى جنب مع العلامة) ويتم تخصيص عدد ثابت معين من البتات لتخزين الخاصية (موقعة أيضًا).

^ ترميز بيانات النص

إذا كان كل حرف من الأحرف الأبجدية مرتبطًا بعدد صحيح معين (على سبيل المثال ، رقم تسلسلي) ، فعندئذٍ باستخدام رمز ثنائي ، يمكنك تشفير المعلومات النصية. ثمانية بتات ثنائية تكفي لترميز 256 شخصيات مختلفة... هذا كافٍ للتعبير عن مجموعات مختلفة من ثمانية بتات عن جميع أحرف الأبجدية الإنجليزية والروسية ، الصغيرة والكبيرة ، بالإضافة إلى علامات الترقيم ورموز العمليات الحسابية الأساسية وبعضها مقبول بشكل عام الرموز الخاصة، على سبيل المثال الحرف "§".

من الناحية الفنية ، يبدو الأمر بسيطًا للغاية ، ولكن كانت هناك دائمًا صعوبات تنظيمية ثقيلة للغاية. في السنوات الأولى من تطوير تكنولوجيا الكمبيوتر ، ارتبطوا بنقص المعايير اللازمة ، والآن سببهم ، على العكس من ذلك ، هو وفرة معايير التشغيل المتزامنة والمتعارضة. لكي يتمكن العالم بأسره من ترميز البيانات النصية بشكل متساوٍ ، هناك حاجة إلى جداول ترميز موحدة ، ولا يزال هذا مستحيلًا بسبب التناقضات بين رموز الأبجديات الوطنية ، فضلاً عن تناقضات الشركات.

ل اللغة الإنجليزية، التي استحوذت على المكانة الواقعية لوسائل الاتصال الدولية ، تمت إزالة التناقضات بالفعل. المعهد الأمريكي للتوحيد القياسي (ANSI - المعهد الوطني الأمريكي للمعايير)وضع نظام ترميز ASCII (الكود القياسي الأمريكي لتبادل المعلومات).في النظام ASCIIثبت جدولا ترميز: أساسيو وسعوا.يعمل الجدول الأساسي على إصلاح قيم الرموز من 0 إلى 127 ، ويشير الجدول الموسع إلى أحرف بأرقام من 128 إلى 255.

يتم إعطاء الرموز 32 الأولى من الجدول الأساسي ، بدءًا من الصفر ، لمصنعي الأجهزة (بشكل أساسي لمصنعي أجهزة الكمبيوتر وأجهزة الطباعة). في هذه المنطقة توجد ما يسمى ب رموز التحكم ،التي لا تتوافق مع أي أحرف للغات ، وبالتالي ، لا يتم عرض هذه الرموز سواء على الشاشة أو على أجهزة الطباعة ، ولكن يمكن التحكم فيها عن طريق كيفية إخراج البيانات الأخرى.

بدءًا من الرمز 32 إلى الكود 127 ، يتم وضع رموز الأحرف الأبجدية الإنجليزية وعلامات الترقيم والأرقام والعمليات الحسابية وبعض الرموز المساعدة. جدول الترميز الأساسي ASCIIيرد في الجدول 1.1.

^ الجدول 1.1. جدول ترميز ASCII الأساسي



تم تطوير أنظمة مماثلة لترميز البيانات النصية في بلدان أخرى. لذلك ، على سبيل المثال ، في اتحاد الجمهوريات الاشتراكية السوفياتية في هذا المجال ، تم تشغيل نظام الترميز KOI-7 (رمز الاتصال ، سبعة أرقام).ومع ذلك ، فإن دعم الشركات المصنعة للأجهزة والبرامج أدى إلى ظهور الكود الأمريكي ASCIIإلى مستوى المعيار الدولي ، وكان على أنظمة الترميز الوطنية أن "تتراجع" إلى الجزء الثاني الممتد من نظام التشفير ، والذي يحدد قيم الرموز من 128 إلى 255. عدم وجود معيار واحد في هذا المجال أدى إلى تعدد ترميزات التشغيل في وقت واحد. فقط في روسيا ، يمكنك تحديد ثلاثة معايير ترميز حالية واثنان آخران عفا عليهما.

لذلك ، على سبيل المثال ، ترميز الأحرف للغة الروسية ، والمعروف باسم الترميز نظام التشغيل Windows-1251 ،تم تقديمه "من الخارج" - بواسطة Microsoft ، ولكن نظرًا للتوزيع الواسع لأنظمة التشغيل وغيرها من منتجات هذه الشركة في روسيا ، فإنها راسخة بعمق وواسعة الانتشار (الجدول 1.2). يستخدم هذا الترميز من قبل معظم أجهزة الكمبيوتر المحليةيعمل على نظام التشغيل Windows. في الواقع ، أصبح معيارًا في القطاع الروسي لشبكة الويب العالمية.

^ الجدول 1.2. ترميز Windows 1251



هناك ترميز شائع آخر يسمى KOI-8 (رمز الاتصال ، ثمانية أرقام) -يعود أصله إلى أوقات مجلس المساعدة الاقتصادية المتبادلة لدول أوروبا الشرقية (الجدول 1.3). على أساس هذا الترميز ، فإن ترميزات KOI8-R (الروسية) و KOI8-U (الأوكرانية) سارية حاليًا. اليوم ، يستخدم ترميز KOI8-R على نطاق واسع في شبكات الكمبيوتر على أراضي روسيا وفي بعض خدمات قطاع الإنترنت الروسي. على وجه الخصوص ، في روسيا ، هو المعيار الفعلي في الرسائل بريد الالكترونيوعقد المؤتمرات عن بعد.

المعيار الدولي ، الذي ينص على ترميز أحرف الأبجدية الروسية ، يسمى ترميز ISO (منظمة المعايير الدولية - المعهد الدولي للتوحيد القياسي).في الممارسة العملية ، نادرًا ما يستخدم هذا الترميز (الجدول 1.4).

^ الجدول 1.3. ترميز KOI-8



الجدول 1.4. ترميز ISO



على أجهزة الكمبيوتر قيد التشغيل أنظمة التشغيل MS-DOS ،يمكن تشغيل ترميزين إضافيين (تشفير غوستوالترميز بديل GOST).تم اعتبار أولهما قديمًا حتى في السنوات الأولى لظهور الحوسبة الشخصية ، لكن الثاني لا يزال مستخدمًا حتى اليوم (انظر الجدول 1.5).

^ الجدول 1.5. ترميز بديل GOST



فيما يتعلق بوفرة أنظمة تشفير البيانات النصية العاملة في روسيا ، تظهر مشكلة تحويل البيانات بين الأنظمة - وهذه إحدى المهام الشائعة لعلوم الكمبيوتر.

^ نظام ترميز بيانات النص العالمي

إذا قمنا بتحليل الصعوبات التنظيمية المرتبطة بإنشاء نظام موحد لتشفير البيانات النصية ، فيمكننا التوصل إلى استنتاج مفاده أنها ناجمة عن مجموعة محدودة من الرموز (256). في الوقت نفسه ، من الواضح أنه إذا تم ، على سبيل المثال ، تشفير الأحرف ليس بأرقام ثنائية ثمانية بت ، ولكن بأرقام بها عدد كبير من الأرقام ، فإن نطاق القيم المحتملة للرموز سيصبح كثيرًا أكبر. يسمى هذا النظام القائم على تشفير الأحرف 16 بت عالمي - UNICODE.ستة عشر رقمًا تسمح لك بتقديمها رموز فريدةلعدد 65536 حرفًا مختلفًا - هذا الحقل كافٍ لاستيعاب معظم لغات الكوكب في جدول مكون من حرف واحد.

على الرغم من الوضوح التافه لهذا النهج ، فقد تم تأخير الانتقال الميكانيكي البسيط إلى هذا النظام لفترة طويلة بسبب عدم كفاية موارد تكنولوجيا الكمبيوتر (في نظام التشفير يونيكوديتم مضاعفة طول جميع المستندات النصية تلقائيًا). في النصف الثاني من التسعينيات الوسائل التقنيةوصلت إلى المستوى المطلوب من توافر الموارد ، واليوم نشهد نقلًا تدريجيًا للوثائق والبرامج إلى نظام تشفير عالمي. بالنسبة للمستخدمين الفرديين ، أضاف هذا المزيد من المخاوف بشأن تنسيق المستندات المنفذة في أنظمة مختلفةالترميز مع بواسطة البرنامج، ولكن يجب فهم ذلك على أنه صعوبات الفترة الانتقالية.

^ ترميز البيانات الرسومية

إذا قمت بفحص صورة رسومية بالأبيض والأسود مطبوعة في صحيفة أو كتاب باستخدام عدسة مكبرة ، فيمكنك أن ترى أنها تتكون من أصغر النقاط التي تشكل نمطًا مميزًا يسمى النقطية(الشكل 1.9).



أرز. 1.9 النقطية هي طريقة لتشفير المعلومات الرسومية تم اعتمادها منذ فترة طويلة في صناعة الطباعة.

نظرًا لأنه يمكن التعبير عن الإحداثيات الخطية والخصائص الفردية لكل نقطة (السطوع) باستخدام الأعداد الصحيحة ، يمكن القول أن تشفير الصورة النقطية يسمح باستخدام رمز ثنائي لتمثيل البيانات الرسومية. من المقبول عمومًا اليوم تمثيل الرسوم التوضيحية بالأبيض والأسود كمزيج من النقاط مع 256 لونًا من الرمادي ، وبالتالي فإن الرقم الثنائي المكون من ثمانية بتات يكون عادةً كافيًا لتشفير سطوع أي نقطة.

لترميز اللون الصور الرسوميةمطبق مبدأ التحللاللون التعسفي في المكونات الرئيسية. يتم استخدام ثلاثة ألوان أساسية على هذا النحو: الأحمر (أحمر ، ص) ،لون أخضر (أخضر ، G)والأزرق (أزرق ، ب).من الناحية العملية ، يُعتقد (على الرغم من أن هذا ليس صحيحًا تمامًا من الناحية النظرية) أنه يمكن الحصول على أي لون مرئي للعين البشرية عن طريق المزج الميكانيكي لهذه الألوان الأساسية الثلاثة. يسمى نظام الترميز هذا النظام RGBبالأحرف الأولى من أسماء الألوان الأساسية.

إذا كنت تريد ترميز سطوع كل من المكونات الرئيسية لاستخدام 256 قيمة (ثمانية بتات ثنائية) ، كما هو معتاد في الصور ذات اللونين الأبيض والأسود الرمادية ، فستكون هناك حاجة إلى 24 بت لتشفير لون نقطة واحدة. في الوقت نفسه ، يوفر نظام الترميز تعريفًا لا لبس فيه لـ 16.5 مليون لون مختلف ، وهو في الواقع قريب من حساسية العين البشرية. يسمى وضع عرض الرسومات الملونة باستخدام 24 بت بالألوان الكاملة (لون حقيقي).

يمكن تخصيص لون تكميلي لكل لون أساسي ، أي اللون الذي يكمل اللون الأساسي إلى الأبيض. من السهل ملاحظة أنه بالنسبة لأي من الألوان الأساسية ، سيكون اللون الإضافي هو مجموع زوج من الألوان الأساسية الأخرى. وعليه فإن الألوان المكملة لها هي: الأزرق (سماوي ، ج) ،نفسجي (أرجواني ، M)والأصفر ( أصفر ، Y). يمكن تطبيق مبدأ تحلل اللون العشوائي إلى مكونات مكونة ليس فقط للألوان الأساسية ، ولكن أيضًا للألوان الإضافية ، أي يمكن تمثيل أي لون كمجموع من المكونات السماوي والأرجواني والأصفر. تم اعتماد طريقة الترميز اللوني هذه في صناعة الطباعة ، لكن الحبر الرابع يستخدم أيضًا في صناعة الطباعة - أسود. (أسود ، ك).لهذا السبب هذا النظاميشار إلى الترميز بأربعة أحرف CMYK(يُشار إلى اللون الأسود بالحرف إلى،لأن الرسالة الخامسمشغول بالفعل باللون الأزرق) ، ولتمثيل الرسومات الملونة في هذا النظام ، يجب أن يكون لديك 32 بت. هذا الوضع يسمى أيضا بالألوان الكاملة (لون حقيقي).

إذا قمت بتقليل عدد البتات المستخدمة لتشفير لون كل نقطة ، يمكنك تقليل كمية البيانات ، لكن نطاق الألوان المشفرة يقل بشكل ملحوظ. يسمى ترميز الرسومات الملونة بأرقام ثنائية 16 بت بالوضع لون عالي.

عندما يتم تشفير معلومات اللون باستخدام ثماني بتات بيانات ، يمكن فقط إرسال 256 لونًا من الظلال. تسمى طريقة الترميز اللوني هذه فهرس.معنى الاسم هو أنه نظرًا لأن 256 قيمة غير كافية تمامًا لنقل مجموعة الألوان الكاملة المتاحة للعين البشرية ، فإن رمز كل نقطة نقطية لا يعبر عن اللون نفسه ، ولكن فقط رقمه (فهرس)في جدول بحث يسمى لوحة.بالطبع ، يجب تطبيق هذه اللوحة على البيانات الرسومية - بدونها ، لا يمكنك استخدام طرق عرض المعلومات على شاشة أو ورقة (أي ، يمكنك بالطبع استخدامها ، ولكن بسبب عدم اكتمال البيانات ، لن تكون المعلومات الواردة كافية: قد تتحول أوراق الشجر إلى اللون الأحمر والسماء خضراء).

^ ترميز الصوت

ظهرت تقنيات وأساليب العمل مع المعلومات الصوتية في الآونة الأخيرة على تكنولوجيا الكمبيوتر. بالإضافة إلى ذلك ، على عكس البيانات الرقمية والنصية والرسومية ، لم يكن للتسجيلات الصوتية تاريخ ترميز طويل وثابت. نتيجة لذلك ، فإن طرق تشفير المعلومات الصوتية بالرمز الثنائي بعيدة كل البعد عن التوحيد. طورت العديد من الشركات الفردية معايير الشركات الخاصة بها.

يواجه منشئ الموقع دائمًا مشكلة: في أي ترميز لإنشاء مشروع. يستخدم الإنترنت الناطق بالروسية ترميزين:

UTF-8(من اللغة الإنجليزية. تنسيق تحويل يونيكود) هو ترميز واسع الانتشار حاليًا يطبق تمثيل Unicode متوافق مع ترميز نصي 8 بت.

نظام التشغيل Windows-1251(أو cp1251) - مجموعة الأحرف والتشفير ، وهو ترميز قياسي 8 بت لجميع الإصدارات الروسية من Microsoft Windows.

UTF-8 واعد أكثر. لكن كل شيء له عيوبه. وقرار استخدام نوع من التشفير لمجرد أنه واعد ، دون مراعاة العديد من العوامل الأخرى ، لا يبدو صحيحًا. سيكون الاختيار هو الأمثل فقط عندما يأخذ في الاعتبار جميع الفروق الدقيقة لمشروع معين. شيء آخر هو أنه ليس من السهل توقع كل الفروق الدقيقة.

نعتقد أن استخدام UTF-8 هو الأفضل ، لكن الأمر متروك لمطور المشروع ليقرر أيهما يختار. ولتسهيل هذا الاختيار ، استخدم الجدول المقارن لميزات كلا الترميزات.

ملكية UTF-8 نظام التشغيل Windows 1251
عام
تعدد اللغات يسمح لك التشفير باستخدام ملفات لغات مختلفةسواء في الجزء العام أو الإداري للموقع.
  • يمكن أن يؤدي تغيير ترميز موقع كبير موجود من Windows-1251 إلى UTF-8 إلى تكاليف عمالة وتكاليف مالية إضافية خطيرة.
  • تعمل الروسية والإنجليزية دون مشاكل مع Windows-1251 ، إذا لم تكن هناك حاجة بالتأكيد للغات أخرى ، فلا حاجة إلى UTF-8.
عدد كبير من الشخصيات. القدرة على استخدام الأحرف الخاصة. هنالك. لكن يجب أن نأخذ في الاعتبار إمكانيات المتصفحات. ليس اعتياديا. من الممكن استبدال الأحرف الخاصة بـ "عكازات" ، على سبيل المثال ، © لـ & copy؛ أو × (علامة الضرب) من خلال & ؛. ومع ذلك ، فإن هذا يزيد من متطلبات مستوى تدريب مدير المحتوى ويخلق مشاكل عند نقل البيانات من قاعدة بيانات أخرى. بالإضافة إلى ذلك ، يحتوي إطار عمل Bitrix على حقول لا يستخدمها المحرر المرئي ، على سبيل المثال ، اسم الصفحة أو اسم عنصر كتلة المعلومات. كما أنه يجعل من الصعب على الموظفين ذوي المهارات المنخفضة دعم المشروع.
سرعة العمل
  • عند تشغيل الموقع ، يتم استبدال جميع وظائف العمل مع السلاسل بـ mb_ *... هذا يعني أنه سيتم إعادة تشفير كل النص في ترميز الموقع.
  • utf strlenيعتمد على طول السلسلة ، على التوالي ، المعتاد سترلينيعمل 3 مرات أسرع من multibyte: 0.0004 مقابل 0.0013 لألف تكرار. وفقًا للقياسات ، يُترجم هذا إلى اختلاف بنسبة 10-15٪ في سرعة الموقع الحقيقي.
تصغير نطاق المشروع. سيكون المشروع في UTF-8 "أثقل" بالتأكيد ، لأن السلاسل في هذا الترميز تشغل ضعف مساحة السلاسل في Windows-1251 أحادي البايت. سيكون حجم الموقع وقاعدة البيانات أكبر من 1.2 إلى 1.5 مرة.
مدعوم من قبل معظم أطر عمل js أيدت دون مشكلة. صعوبات في التنفيذ.
الدعم MS SQL لأسباب فنية ، البيانات الموجودة في MS SQLيجب الاحتفاظ بها والاحتفاظ بها في Windows-1251. التكوين الإضافي مطلوب. لا مشكلة.
استيراد CSV اكسللا تخزن في UTF-8. يلزم إعادة حفظ الملف الذي تم إنشاؤه بهذا الترميز باستخدام محرر آخر. لا مشكلة.
الاستيراد من 1C تعمل المواقع في UTF-8 دون مشاكل عند دمجها عبر صابونمع أنظمة مثل ، على سبيل المثال ، 1C.
Yandex.Metrica Webvisor يسجل مستشار الويب بشكل صحيح تصرفات الزوار. أخطاء التسجيل ممكنة.
متعلق ب إطار عمل Bitrix
القدرة على إنشاء مواقع بترميزات مختلفة للنظام متعدد المواقع. مستحيل. يجب أن تكون جميع المواقع على نفس النواة بنفس التشفير.
دعم على الاستضافة المختلفة عند العمل باستخدام Bitrix Framework ، تحتاج إلى توصيل خيار php mbstring.func_overloadبقيمة أكبر من أو تساوي 2 ... هو - هي . يعمل على اي استضافة.
وضع المنتجات على آلة افتراضية BitrixVM. تقصير. يتطلب خطوات تكوين إضافية.
العرض الصحيح لعناصر قائمة الموقع عند استخدام هذا الترميز ، فإن مثل هذه المشكلة ممكنة. تم حلها عن طريق إعادة حفظ كل ملف بتنسيق UTF-8. (على وجه الدقة ، يوصى بالتحقق من تشفير جميع الملفات ، وليس فقط ملفات القائمة ، وإذا لزم الأمر ، قم بإعادة ترميزها أيضًا.)
استيراد المصادر إلى IDE ، على سبيل المثال ، في كسوف pdt عند التعيين على UTF-8 في إعدادات المشروع ، تكون التعليقات في التعليمات البرمجية الأساسية لـ Bitrix Framework تالفة. لا مشكلة.
أشياء صغيرة مختلفة
تفاعل ووردبريس(عملاء المدونات ، trackback و ping "و) هنالك لا
تحرير الملفات بواسطة بروتوكول نقل الملفاتعير بعيد يدعم FAR فقط UTF منذ الإصدار 2.0. ربما
بدعم من معظم المحررين يتطلب محررًا يدعم ترميز UTF-8 بدون BOM. لا مشكلة.

كيفية ترجمة موقع من ترميز win1251 إلى UTF-8

الإجراء العام:

    1. أعد ترميز قاعدة البيانات بأكملها إلى UTF-8 (على الأرجح سيتعين عليك الاتصال بمسؤول الخادم للحصول على المساعدة).

    2. أعد ترميز جميع ملفات الموقع بتنسيق UTF-8 (يمكنك القيام بذلك بنفسك).

    3. أضف الأسطر إلى الملف /bitrix/php_interface/dbconn.php:

تعريف ("BX_UTF" ، صحيح) ؛

4. أضف الأسطر التالية إلى ملف /.htaccess:

php_value mbstring.func_overload 2 php_value mbstring.internal_encoding UTF-8

يمكنك إعادة ترميز جميع ملفات الموقع إلى UTF-8 (العنصر الثاني) عن طريق تشغيل الأمر عبر SSH في المجلد الجذر للموقع:

تجد. -name "* .php" -type f -exec iconv -fcp1251 -tutf8 -o / tmp / tmp_file () \ ؛ -exec mv / tmp / tmp_file () \ ؛

تم إنشاء ترميز Windows 1251 في أوائل التسعينيات من أجل الترويس منتجات البرمجياتمن إنتاج شركة Microsoft Corporation:

الترميز هو 8 بت ويتضمن أحرفًا من مجموعة اللغات السلافية ، والتي تشمل الروسية والبيلاروسية والأوكرانية والبلغارية والمقدونية والصربية - وهذا يعطي ميزة على الترميزات السيريلية الأخرى ( ISO 8859-5 ، KOI8-R ، CP866). ومع ذلك ، فإن ترميز 1251 له أيضًا عيوب كبيرة:

  • 0xFF (25510) هو رمز محجوز للحرف "i". غالبًا ما تواجه البرامج التي لا تدعم بت 8 بت النقي مشاكل غير متوقعة ؛
  • لا توجد رسومات زائفة موجودة في KOI8 ، CP866.

فيما يلي الرموز من Code Page 1251 أو CP1251 للاختصار ( الأرقام الموجودة أسفل الأحرف هي الرمز السداسي العشري لنفس حرف Unicode):


غالبًا ما يواجه مطورو الويب والمدونون ذوو المؤهلات المختلفة مشكلة في ترميز الصفحة: بدلاً من النص المعد ، تظهر أحرف غير معروفة وغير قابلة للقراءة. للتعامل مع هذه المشكلة ، من الضروري فهم جوهر مصطلح " ترميز الصفحة».

يتم تخزين النص في ذاكرة الكمبيوتر في شكل عدد معين من البايتات ، وليس بالشكل الذي يتم عرضه به محرر النص... كل بايت هو رمز يتوافق مع حرف واحد. لكي يتم عرض النص على الصفحة كما ينبغي ، يجب أن تخبر المتصفح بجدول الكود الذي يجب استخدامه لفك التشفير والعرض.

جدول الترميز ليس عالميًا ، أي لفك تشفير النص ، يجب استخدام الجدول الذي يتوافق مع ترميز الأحرف:


لكي يتم عرض مستند html بشكل صحيح في المستعرض ، يجب عليك تحديد الترميز المستخدم. هكذا يتم فعل هذا:

بين الوسم وتغطيتهابحاجة للتسجيل - بناءً على هذه السلسلة ، سيستخدم المتصفح أحرف الأبجدية الروسية لعرض النص على الصفحة.

ترميز Windows 1251 في PHP

لا يخفى على أحد أن إنشاء الصفحات يتم عن طريق أخذ العينات واستخدام جزء من المعلومات المخزنة في قاعدة البيانات. عند كتابة موقع ويب بلغة PHP ، غالبًا ما يكون هذا هو mysql.

3 أصوات

مرحبا أعزائي القراء في مدونتي. اليوم سنتحدث معك عن الترميز. إذا كنت قد قرأت مقالتي حول كيف تعرف أن أي مستند على الإنترنت لا يتم تخزينه بالشكل الذي اعتدنا على رؤيته فيه. إنه مكتوب باستخدام رموز وعلامات غير مفهومة للإنسان. كل شيء هو نفسه بالضبط مع النص.

هناك العديد من الترميزات ، وبالتالي تظهر أحيانًا أحرفًا غير مفهومة عند فتح كتاب بتنسيق تطبيق الهاتف المحمولأو عن طريق تحميل مقال على الموقع ، عن طريق تغيير بعض القيم في الإعدادات ، سترى الأبجدية مألوفة للعين.


ترميز Windows-1251 - ما هو ، ما هي القيمة التي يمتلكها عند إنشاء موقع ، وما هي الأحرف التي ستتوفر وما إذا كانت كذلك أفضل حلاليوم؟ كل هذا في مقال اليوم. كما هو الحال دائما، لغة بسيطة، بأكبر قدر ممكن ومع حد أدنى من المصطلحات.

قليلا من النظرية

أي مستند موجود على جهاز كمبيوتر أو على الإنترنت ، كما قلت ، يتم تخزينه في شكل رمز ثنائي. على سبيل المثال ، إذا كنت تستخدم ترميز ASCII ، فسيتم كتابة الحرف "K" بالشكل 10001010 ، ويخفي windows 1251 الرمز - Љ تحت هذا الرقم. نتيجة لذلك ، إذا قام مستعرض أو برنامج بالوصول إلى جدول آخر وقراءته بدلاً من ASCII رموز الويندوزفي عام 1251 ، سيرى القارئ رموزًا غير مفهومة تمامًا بالنسبة له.

السؤال منطقي ، ما سبب ابتكار الكثير من الجداول التي تحتوي على أكواد؟ الحقيقة هي أنه بالإضافة إلى الأبجدية الروسية ، هناك أيضًا الإنجليزية والألمانية والصينية. حسب بعض التقديرات ، هناك حوالي 200000 حرف. على الرغم من أنني لا أثق حقًا في هذه الإحصائيات ، إلا أنني أتذكر اللغة اليابانية.

لا تنسَ أنه بالنسبة للأحرف الكبيرة والصغيرة ، يجب عليك وضع رمز خاص بك ، وهناك فواصل وشرطات وما إلى ذلك.

كلما زاد عدد الرموز في الجدول ، زاد طول رمز كل منها ، وبالتالي أصبح وزن المستند أكبر.


تخيل لو كان وزن كتاب واحد 4 جيجا! سيستغرق تحميل كل شيء وقتًا طويلاً جدًا مكان خالعلى الحاسوب. سيكون قرار التنزيل صعبًا.

إذا كنت تفكر في مواقع الويب ، فمن المخيف عمومًا التفكير فيما كان سيحدث. كل صفحة تفتح حتى على الألياف عالية السرعة لأكثر من ساعة! يفكر، الهواتف المحمولةيمكن التخلص منها بأمان. استخدامها في الشارع حتى مع 4G؟ انا اشك.

لهذه الأسباب ، حاول كل مبرمج في وقت واحد ابتكار جدول الرموز الخاص به. بحيث يكون مناسبًا للاستخدام ويحافظ على الوزن الأمثل.

مايكروسوفت ، على سبيل المثال ، أنشأت windows-1251 للجزء الناطق بالروسية. من المؤكد أن لها مزاياها وعيوبها. مثل أي منتج آخر.

الآن ، 2٪ فقط من جميع الصفحات على الإنترنت تمت كتابتها في عام 1251. يستخدم معظم مشرفي المواقع UTF-8. لماذا هذا؟

العيوب والمزايا

UTF-8 ، على عكس الترميز العالمي windows-1251 ، يحتوي على أحرف أبجدية مختلفة. يوجد حتى UTF-128 ، حيث توجد عمومًا جميع اللغات - Teulu و Swahili و Lao و Maltese وما إلى ذلك.


يعتبر UTF-8 أكثر فقرًا ، وتشغل الحروف مساحة أقل بكثير وتشغل بايتًا واحدًا فقط من الذاكرة ، كما في 1251. يحتوي UTP على أحرف نادرة من لغات أخرى أو أحرف خاصة. تزن من 5 إلى 6 بايت ، لكن نادرًا ما يتم استخدامها في المستند.

يعتبر هذا الترميز أكثر تفكيرًا ، وبالتالي يتم استخدامه من قبل معظم التطبيقات افتراضيًا. أي ، إذا لم تخبر البرنامج عن الترميز الذي تستخدمه ، فإن أول شيء سيتحقق منه هو UTF-8.

عندما تقوم بإنشاء مستند html لموقع ما ، فإنك تخبر المستعرضات بالجدول الذي يجب النظر إليه عند فك تشفير السجلات.

للقيام بذلك ، تحتاج إلى إدراج البيانات التالية في علامة الرأس. بعد الأحرف "charset =" يأتي إما UTF أو Windows ، كما في المثال أدناه.

<meta http-equiv = محتوى "نوع المحتوى" = "text / html؛ charset = windows-1251">


إذا كنت تريد في المستقبل تغيير شيء ما وإدخال عبارة باللغة الألبانية باستخدام جدول فك التشفير هذا ، فلن ينجح شيء ، لأن التشفير لا يدعم هذه اللغة. سيتيح لك UTF - 8 القيام بذلك دون أي مشاكل.

إذا كنت مهتمًا بالإنشاء الصحيح للموقع ، فيمكنني أن أوصيك بدورة ميخائيل روساكوف " تطوير مواقع الويب والترويج لها من الألف إلى الياء ».



يحتوي على الكثير - 256 درسًا ، وللمس ، وجافا سكريبت ، و XML. بالإضافة إلى لغات البرمجة ، سوف تكون قادرًا على فهم كيفية تحقيق الدخل من الموقع ، أي الحصول على المزيد من الأرباح بشكل أسرع وأكثر. واحدة من الدورات التدريبية القليلة التي من شأنها أن تشرح كل ما تحتاجه بمثل هذا التفصيل.

أنا نفسي كنت أدرس لمدة عام الآن في مدرسة المدونين الكسندر بوريسوف ... يستغرق الأمر عدة مرات وقتًا أطول ، ولم تظهر النهاية والحافة بعد ، لكنها ليست أقل شمولية وانضباطًا. يحفز على الاستمرار في التطور.

حسنًا ، إذا كانت لديك أسئلة ، فلن تحتاج إلى البحث على الإنترنت. هناك دائما مرشد كفء.



شيء خرجت عن الموضوع. دعنا نعود إلى الترميزات.

قواعد بيانات باث

عندما يتعلق الأمر بـ php ، كل شيء مخيف. لقد تحدثت بالفعل عن قواعد البيانات ، فهي تستخدم لتسريع عمل الموقع. عادة ، لا تتصل بهم ، ولكن عندما تدعو الحاجة إلى نقل الموقع ، يصبح الأمر غير مريح.

تحدث الصعوبات للجميع ، بغض النظر عن نوع الخبرة العملية التي لديك ، ومدة الخدمة ومدة الخدمة. قد تحتوي بعض الصفحات في قاعدة البيانات على جميع الرموز المتاحة لنظام التشغيل Windows-1251 ، والبعض الآخر ، على سبيل المثال ، في قوالب الصفحات ، بترميز مختلف.

إلى أن تكون هناك حاجة إلى النقل ، فإن كل شيء يعمل ويعمل ، وإن لم يكن بشكل صحيح تمامًا. ولكن بعد هذه الخطوة ، تبدأ المشاكل. من الناحية المثالية ، يجب أن تستخدم إما UTF أو Windows-1251 فقط ، ولكن في الواقع ، دائمًا ما يعاني كل شخص من أوجه القصور هذه.

لكي يكون فك التشفير متسقًا ، يجب إدخال رمز mysql_query ("SET NAMES cp1251"). في هذه الحالة ، سيتم إجراء التحويل باستخدام بروتوكول مختلف - cp1251.


هتكس

إذا قررت استخدام 1251 على الموقع بإصرار ، فيجب عليك البحث عن ملف htaccess أو إنشاؤه. إنه مسؤول عن إعدادات التكوين. سيتعين عليك إضافة ثلاثة أسطر أخرى إليه حتى يتناسب كل شيء معًا.

DefaultLanguage ru؛ AddDefaultCharset windows-1251 ؛ php_value default_charset "cp1251"

ما زلت أوصي بشدة أن تفكر في استخدام UTF-8. إنه أكثر شعبية وأبسط وأكثر ثراءً. مهما كانت القرارات التي تتخذها الآن ، فمن المهم أن تتمكن من إصلاح كل شيء لاحقًا. سيكون من الأسهل بكثير إضافة إصدار باللغة الإنجليزية من الموقع باستخدام هذا الترميز. لا شيء يحتاج إلى الإصلاح.

القرار لك. اشترك في النشرة الإخبارية لمعرفة مكان الدراسة في أسرع وقت ممكن ، حتى لا تكرر أخطاء الآخرين ، وكذلك المدونين الذين يحصلون على أكبر عدد من الزوار.

حتى المرة القادمة ونتمنى لك التوفيق في مساعيك.