คอมพิวเตอร์ Windows อินเทอร์เน็ต

รหัสอักขระ ASCII 1251

ผู้ให้บริการข้อมูล

ข้อมูลเป็นองค์ประกอบวิภาษของข้อมูล พวกเขาเป็นตัวแทนของสัญญาณที่บันทึกไว้ ในกรณีนี้ วิธีการลงทะเบียนทางกายภาพอาจเป็นแบบใดก็ได้: การเคลื่อนไหวทางกลของวัตถุทางกายภาพ การเปลี่ยนแปลงรูปร่างหรือพารามิเตอร์คุณภาพพื้นผิว การเปลี่ยนแปลงทางไฟฟ้า แม่เหล็ก ลักษณะทางแสง องค์ประกอบทางเคมี และ (หรือ) ธรรมชาติของพันธะเคมี การเปลี่ยนแปลง ในสถานะของระบบอิเล็กทรอนิกส์และอื่น ๆ อีกมากมาย

ตามวิธีการลงทะเบียน ข้อมูลสามารถจัดเก็บและขนส่งบนสื่อประเภทต่างๆ สื่อเก็บข้อมูลทั่วไป แม้ว่าจะไม่ใช่แบบประหยัดที่สุด แต่ก็เป็นกระดาษ บนกระดาษ ข้อมูลจะถูกบันทึกโดยการเปลี่ยนลักษณะทางแสงของพื้นผิว การเปลี่ยนแปลงคุณสมบัติทางแสง (การเปลี่ยนค่าสัมประสิทธิ์การสะท้อนของพื้นผิวในช่วงความยาวคลื่นที่แน่นอน) ยังใช้ในอุปกรณ์ที่บันทึกด้วยลำแสงเลเซอร์บนสื่อพลาสติกที่มีการเคลือบสะท้อนแสง ( ซีดีรอม). เทปแม่เหล็กและดิสก์สามารถอ้างถึงเป็นสื่อที่ใช้การเปลี่ยนแปลงคุณสมบัติแม่เหล็ก การลงทะเบียนข้อมูลโดยการเปลี่ยนองค์ประกอบทางเคมีของสารพื้นผิวของตัวพาถูกนำมาใช้กันอย่างแพร่หลายในการถ่ายภาพ ในระดับชีวเคมี ข้อมูลจะถูกรวบรวมและส่งต่อในธรรมชาติของสิ่งมีชีวิต

ผู้ให้บริการข้อมูลไม่ได้สนใจเราเพียงคนเดียว แต่ตราบใดที่คุณสมบัติของข้อมูลมีความเกี่ยวข้องอย่างใกล้ชิดกับคุณสมบัติของผู้ให้บริการ ผู้ให้บริการใด ๆ สามารถระบุได้ด้วยพารามิเตอร์ ปณิธาน(ปริมาณข้อมูลที่บันทึกในหน่วยวัดที่ยอมรับสำหรับสื่อ) และ ช่วงไดนามิก(อัตราส่วนลอการิทึมของความเข้มของแอมพลิจูดของสัญญาณสูงสุดและต่ำสุดที่บันทึกไว้) คุณสมบัติของข้อมูลเช่นความครบถ้วน ความพร้อมใช้งาน และความน่าเชื่อถือมักขึ้นอยู่กับคุณสมบัติของสื่อเหล่านี้ ตัวอย่างเช่น เราสามารถวางใจได้ว่าในฐานข้อมูลที่อยู่บนซีดี การตรวจสอบความสมบูรณ์ของข้อมูลได้ง่ายกว่าในฐานข้อมูลวัตถุประสงค์ที่คล้ายกันซึ่งอยู่บนฟลอปปีดิสก์ เนื่องจากในกรณีแรก ความหนาแน่นของ การบันทึกข้อมูลต่อหน่วยความยาว แทร็กจะสูงกว่ามาก สำหรับผู้บริโภคทั่วไป ความพร้อมใช้งานของข้อมูลในหนังสือนั้นสูงกว่าข้อมูลเดียวกันในซีดีอย่างเห็นได้ชัด เนื่องจากผู้บริโภคบางคนไม่มีอุปกรณ์ที่จำเป็น และสุดท้าย เป็นที่ทราบกันดีว่าเอฟเฟกต์ภาพจากการดูสไลด์ในโปรเจ็กเตอร์นั้นยิ่งใหญ่กว่าการดูภาพประกอบที่คล้ายกันซึ่งพิมพ์บนกระดาษอย่างมาก เนื่องจากช่วงของสัญญาณความส่องสว่างในแสงที่ส่องผ่านนั้นมีค่ามากกว่าแสงสะท้อนสองถึงสามเท่า แสงสว่าง.

งานแปลงข้อมูลเพื่อเปลี่ยนสื่อเป็นหนึ่งในงานที่สำคัญที่สุดของวิทยาการคอมพิวเตอร์ ในโครงสร้างต้นทุนของระบบคอมพิวเตอร์ อุปกรณ์สำหรับอินพุตและเอาต์พุตของข้อมูล การทำงานกับสื่อบันทึกข้อมูล คิดเป็นครึ่งหนึ่งของต้นทุนฮาร์ดแวร์

^ การดำเนินการข้อมูล

ในระหว่างกระบวนการข้อมูล ข้อมูลจะถูกแปลงจากประเภทหนึ่งไปอีกประเภทหนึ่งโดยใช้วิธีการ การประมวลผลข้อมูลประกอบด้วยการดำเนินการต่างๆ มากมาย ด้วยการพัฒนาความก้าวหน้าทางวิทยาศาสตร์และเทคโนโลยีและความซับซ้อนทั่วไปของการเชื่อมต่อในสังคมมนุษย์ ต้นทุนแรงงานสำหรับการประมวลผลข้อมูลจึงเพิ่มขึ้นอย่างต่อเนื่อง ประการแรก เกิดจากความซับซ้อนอย่างต่อเนื่องของเงื่อนไขในการจัดการการผลิตและสังคม ปัจจัยที่สอง ซึ่งทำให้ปริมาณข้อมูลที่ประมวลผลเพิ่มขึ้นโดยทั่วไป ยังสัมพันธ์กับความก้าวหน้าทางวิทยาศาสตร์และเทคโนโลยี กล่าวคือ การเกิดขึ้นอย่างรวดเร็วและการดำเนินการของผู้ให้บริการข้อมูลใหม่ การจัดเก็บข้อมูล และการส่งมอบสิ่งอำนวยความสะดวก

ในโครงสร้างของการดำเนินการที่เป็นไปได้กับข้อมูล สามารถแยกแยะสิ่งหลักต่อไปนี้:


  • การเก็บรวบรวมข้อมูล -การรวบรวมข้อมูลเพื่อให้แน่ใจว่าข้อมูลมีความครบถ้วนเพียงพอสำหรับการตัดสินใจ

  • การจัดรูปแบบข้อมูล -การนำข้อมูลที่มาจากแหล่งต่างๆ มาอยู่ในรูปแบบเดียวกันเพื่อให้เปรียบเทียบกันได้ กล่าวคือ เพื่อเพิ่มระดับการเข้าถึง

  • การกรองข้อมูล -คัดกรองข้อมูลที่ "ไม่จำเป็น" ซึ่งไม่จำเป็นสำหรับการตัดสินใจ ในเวลาเดียวกันระดับ "เสียงรบกวน" ควรลดลงและความน่าเชื่อถือและความเพียงพอของข้อมูลควรเพิ่มขึ้น

  • การเรียงลำดับข้อมูล -การเรียงลำดับข้อมูลตามเกณฑ์ที่กำหนดเพื่อความสะดวกในการใช้งาน เพิ่มความพร้อมใช้งานของข้อมูล

  • ข้อมูลการจัดกลุ่ม -การรวมข้อมูลบนพื้นฐานที่กำหนดเพื่อปรับปรุงการใช้งาน เพิ่มความพร้อมใช้งานของข้อมูล

  • การเก็บถาวรข้อมูล -การจัดระเบียบการจัดเก็บข้อมูลในรูปแบบที่สะดวกและเข้าถึงได้ง่าย ทำหน้าที่ลดต้นทุนทางเศรษฐกิจในการจัดเก็บข้อมูลและเพิ่มความน่าเชื่อถือโดยรวมของกระบวนการข้อมูลโดยรวม

  • การป้องกันข้อมูล -ชุดของมาตรการเพื่อป้องกันการสูญหาย การทำซ้ำ และการแก้ไขข้อมูล

  • การถ่ายโอนข้อมูล -การรับและส่งข้อมูล (การส่งมอบและการส่งมอบ) ของข้อมูลระหว่างผู้เข้าร่วมระยะไกลในกระบวนการข้อมูล ในกรณีนี้ แหล่งข้อมูลในวิทยาการคอมพิวเตอร์มักจะเรียกว่า เซิร์ฟเวอร์,และผู้บริโภค - โดยลูกค้า;

  • การแปลงข้อมูล -การถ่ายโอนข้อมูลจากรูปแบบหนึ่งไปยังอีกรูปแบบหนึ่งหรือจากโครงสร้างหนึ่งไปยังอีกโครงสร้างหนึ่ง การแปลงข้อมูลมักเกี่ยวข้องกับการเปลี่ยนประเภทของสื่อ เช่น หนังสือสามารถจัดเก็บในรูปแบบกระดาษทั่วไปได้ แต่ทั้งรูปแบบอิเล็กทรอนิกส์และไมโครฟิล์มก็สามารถใช้ได้ ความจำเป็นในการแปลงข้อมูลหลายครั้งยังเกิดขึ้นระหว่างการขนส่ง โดยเฉพาะอย่างยิ่งหากดำเนินการด้วยวิธีการที่ไม่ได้มีไว้สำหรับการขนส่งข้อมูลประเภทนี้ ตัวอย่างเช่น เราสามารถพูดได้ว่าสำหรับการขนส่งกระแสข้อมูลดิจิทัลผ่านเครือข่ายโทรศัพท์ (ซึ่งในขั้นต้นเน้นเฉพาะการส่ง สัญญาณแอนะล็อกในช่วงความถี่ที่แคบ) จำเป็นต้องแปลงข้อมูลดิจิทัลเป็นประเภท สัญญาณเสียงซึ่งเป็นสิ่งที่อุปกรณ์พิเศษทำ - โมเด็มโทรศัพท์
รายการการดำเนินการข้อมูลทั่วไปที่ให้ไว้ที่นี่ยังไม่สมบูรณ์ ผู้คนหลายล้านคนทั่วโลกมีส่วนร่วมในการสร้าง การประมวลผล การเปลี่ยนแปลง และการขนส่งข้อมูล และสถานที่ทำงานแต่ละแห่งดำเนินการเฉพาะของตนเองที่จำเป็นในการจัดการกระบวนการทางสังคม เศรษฐกิจ อุตสาหกรรม วิทยาศาสตร์ และวัฒนธรรม รายการทั้งหมดเป็นไปไม่ได้ที่จะเขียนการดำเนินการที่เป็นไปได้ และไม่จำเป็น ตอนนี้เราสนใจในข้อสรุปอื่น: การทำงานกับข้อมูลอาจต้องใช้แรงงานมาก และต้องเป็นไปโดยอัตโนมัติ

^ การเข้ารหัสข้อมูลไบนารี

เพื่อทำงานอัตโนมัติกับข้อมูลที่เกี่ยวข้องกับ ประเภทต่างๆเป็นสิ่งสำคัญมากที่จะรวมรูปแบบการนำเสนอของพวกเขา - ด้วยเหตุนี้จึงมักใช้เทคนิค การเข้ารหัสนั่นคือการแสดงออกของข้อมูลประเภทหนึ่งผ่านข้อมูลอีกประเภทหนึ่ง มนุษย์ธรรมชาติ ภาษา -พวกเขาไม่มีอะไรมากไปกว่าระบบการเข้ารหัสแนวคิดสำหรับการแสดงความคิดผ่านคำพูด ภาษาอยู่ติดกัน ABCs(ระบบการเข้ารหัสสำหรับส่วนประกอบภาษาโดยใช้สัญลักษณ์กราฟิก) ประวัติศาสตร์รู้ดีถึงความพยายามที่จะสร้างภาษาและตัวอักษร "สากล" ที่น่าสนใจแม้ว่าจะไม่ประสบความสำเร็จ เห็นได้ชัดว่าความล้มเหลวในการพยายามแนะนำพวกเขานั้นเกิดจากการที่ระดับชาติและ สังคมศึกษาพวกเขาเข้าใจโดยธรรมชาติว่าการเปลี่ยนแปลงในระบบการเข้ารหัสของข้อมูลสาธารณะจะนำไปสู่การเปลี่ยนแปลงวิธีการทางสังคมอย่างหลีกเลี่ยงไม่ได้ (นั่นคือบรรทัดฐานของกฎหมายและศีลธรรม) และอาจเกี่ยวข้องกับการเปลี่ยนแปลงทางสังคม

ปัญหาเดียวกันของเครื่องมือการเข้ารหัสสากลนั้นค่อนข้างประสบความสำเร็จในการใช้งานในสาขาเทคโนโลยี วิทยาศาสตร์ และวัฒนธรรมบางสาขา ตัวอย่าง ได้แก่ ระบบการเขียนนิพจน์ทางคณิตศาสตร์ ตัวอักษรโทรเลข ตัวอักษรธงทะเล ระบบอักษรเบรลล์สำหรับคนตาบอด และอื่นๆ อีกมากมาย

ข้าว. 1.8. ตัวอย่างระบบการเข้ารหัสต่างๆ

ระบบของตัวเองยังมีอยู่ในการคำนวณ - เรียกว่า การเข้ารหัสไบนารีและขึ้นอยู่กับการแสดงข้อมูลโดยลำดับของอักขระเพียงสองตัวเท่านั้น: 0 และ 1 อักขระเหล่านี้เรียกว่า เลขฐานสอง,เป็นภาษาอังกฤษ - เลขฐานสอง,หรือเรียกสั้นๆ ว่า บิต (บิต).

สองแนวคิดสามารถแสดงได้ด้วยหนึ่งบิต: 0 หรือ 1 (ใช่หรือ ไม่ สีดำหรือ ขาวจริงหรือ โกหกเป็นต้น) หากจำนวนบิตเพิ่มขึ้นเป็นสอง แนวคิดที่แตกต่างกันสี่ประการก็สามารถแสดงได้แล้ว:

สามบิตสามารถเข้ารหัสได้แปดค่าที่แตกต่างกัน:

000 001 010 01l 100 101 110 111

โดยเพิ่มจำนวนหลักในระบบขึ้นหนึ่ง การเข้ารหัสไบนารีเราเพิ่มจำนวนค่าที่สามารถแสดงในระบบนี้ได้เป็นสองเท่า

^ การเข้ารหัสจำนวนเต็มและจำนวนจริง

ในการเข้ารหัสจำนวนเต็มตั้งแต่ 0 ถึง 255 ก็เพียงพอแล้วที่จะมีรหัสไบนารี 8 บิต (8 บิต)

0000 0000 = 0

…………………

1111 1110 = 254

1111 1111 = 255

สิบหกบิตช่วยให้คุณสามารถเข้ารหัสจำนวนเต็มตั้งแต่ 0 ถึง 65535 และ 24 บิตมีค่าที่แตกต่างกันมากกว่า 16.5 ล้านแล้ว

ในการเข้ารหัสตัวเลขจริง จะใช้การเข้ารหัสแบบ 80 บิต ในกรณีนี้ ตัวเลขจะถูกแปลงเบื้องต้นเป็น แบบฟอร์มปกติ:

3,1415926 = 0,31415926 10 1

300 000 = 0,3 10 6

123 456 789 = 0,123456789 10 9

ส่วนแรกของหมายเลขเรียกว่า แมนทิสซาและอันที่สองคือ ลักษณะเฉพาะ 80 บิตส่วนใหญ่ได้รับการจัดสรรสำหรับการจัดเก็บ mantissa (พร้อมกับเครื่องหมาย) และจำนวนบิตที่แน่นอนจะถูกจัดสรรสำหรับการจัดเก็บคุณสมบัติ (พร้อมลายเซ็นด้วย)

^ การเข้ารหัสข้อมูลข้อความ

หากอักขระแต่ละตัวของตัวอักษรเชื่อมโยงกับจำนวนเต็มจำนวนหนึ่ง (เช่น หมายเลขซีเรียล) จากนั้นใช้รหัสไบนารี คุณยังสามารถเข้ารหัสข้อมูลข้อความได้อีกด้วย ไบนารีบิตแปดตัวเพียงพอสำหรับการเข้ารหัส 256 ตัว ตัวละครต่างๆ... เท่านี้ก็เพียงพอแล้วที่จะแสดงตัวอักษรภาษาอังกฤษและรัสเซียทั้งหมดแปดบิตผสมกันทั้งตัวพิมพ์เล็กและตัวพิมพ์ใหญ่ตลอดจนเครื่องหมายวรรคตอน สัญลักษณ์ของการคำนวณทางคณิตศาสตร์พื้นฐานและบางส่วนที่เป็นที่ยอมรับโดยทั่วไป สัญลักษณ์พิเศษตัวอย่างเช่น อักขระ "§"

ในทางเทคนิคแล้ว มันดูเรียบง่ายมาก แต่ก็มีปัญหาในองค์กรที่ค่อนข้างหนักอยู่เสมอ ในช่วงปีแรกๆ ของการพัฒนาเทคโนโลยีคอมพิวเตอร์ สิ่งเหล่านี้เกี่ยวข้องกับการขาดมาตรฐานที่จำเป็น และตอนนี้กลับมีสาเหตุมาจากการมีมาตรฐานการปฏิบัติงานและมาตรฐานที่ขัดแย้งกันมากมาย เพื่อให้คนทั้งโลกสามารถเข้ารหัสข้อมูลข้อความได้อย่างเท่าเทียมกัน จำเป็นต้องมีตารางการเข้ารหัสแบบรวมเป็นหนึ่ง ซึ่งยังคงเป็นไปไม่ได้เนื่องจากความขัดแย้งระหว่างสัญลักษณ์ของตัวอักษรประจำชาติและความขัดแย้งขององค์กร

สำหรับ ของภาษาอังกฤษซึ่งจับช่องโดยพฤตินัยของวิธีการสื่อสารระหว่างประเทศ ความขัดแย้งได้ถูกลบออกไปแล้ว สถาบันมาตรฐานแห่งสหรัฐอเมริกา (ANSI - สถาบันมาตรฐานแห่งชาติอเมริกัน)วางระบบการเข้ารหัส ASCII (รหัสอเมริกันสแตนดาร์ดสำหรับการแลกเปลี่ยนข้อมูล)ในระบบ ASCIIแก้ไขตารางการเข้ารหัสสองตาราง: ขั้นพื้นฐานและ ขยาย.ตารางฐานแก้ไขค่ารหัสตั้งแต่ 0 ถึง 127 และตารางขยายหมายถึงอักขระที่มีตัวเลขตั้งแต่ 128 ถึง 255

รหัส 32 ตัวแรกของตารางฐานซึ่งเริ่มต้นด้วยศูนย์จะมอบให้กับผู้ผลิตฮาร์ดแวร์ (โดยหลักแล้วสำหรับผู้ผลิตคอมพิวเตอร์และอุปกรณ์การพิมพ์) ในบริเวณนี้เรียกว่า รหัสควบคุมซึ่งไม่ตรงกับอักขระภาษาใดๆ และด้วยเหตุนี้ รหัสเหล่านี้จึงไม่ปรากฏบนหน้าจอหรือบนอุปกรณ์การพิมพ์ แต่สามารถควบคุมได้ด้วยวิธีการส่งออกข้อมูลอื่น

เริ่มตั้งแต่รหัส 32 ถึงรหัส 127 รหัสอักขระของตัวอักษรภาษาอังกฤษ เครื่องหมายวรรคตอน ตัวเลข การคำนวณและสัญลักษณ์เสริมบางตัว ตารางการเข้ารหัสพื้นฐาน ASCIIแสดงไว้ในตาราง 1.1

^ ตาราง 1.1. ตารางการเข้ารหัส ASCII พื้นฐาน



ระบบที่คล้ายกันสำหรับการเข้ารหัสข้อมูลข้อความได้รับการพัฒนาในประเทศอื่นๆ ตัวอย่างเช่น ในสหภาพโซเวียตในพื้นที่นี้ ระบบการเข้ารหัส KOI-7 ดำเนินการ (รหัสสื่อสารเจ็ดหลัก)อย่างไรก็ตาม การสนับสนุนของผู้ผลิตฮาร์ดแวร์และซอฟต์แวร์ได้นำเอารหัสอเมริกัน ASCIIถึงระดับมาตรฐานสากลและระบบการเข้ารหัสระดับประเทศต้อง "ถอย" ไปที่ส่วนที่สองของระบบการเข้ารหัสซึ่งกำหนดค่าของรหัสจาก 128 เป็น 255 ขาดมาตรฐานเดียวในพื้นที่นี้ นำไปสู่การเข้ารหัสที่ทำงานพร้อมกันจำนวนมาก เฉพาะในรัสเซียเท่านั้น คุณสามารถระบุมาตรฐานการเข้ารหัสปัจจุบันสามมาตรฐานและอีกสองมาตรฐานที่ล้าสมัย

ตัวอย่างเช่น การเข้ารหัสอักขระของภาษารัสเซียที่เรียกว่าการเข้ารหัส วินโดว์-1251,ได้รับการแนะนำ "จากภายนอก" - โดย Microsoft แต่เนื่องจากการจำหน่ายระบบปฏิบัติการและผลิตภัณฑ์อื่น ๆ ของ บริษัท นี้ในรัสเซียอย่างแพร่หลายจึงมีที่มั่นอย่างลึกซึ้งและแพร่หลาย (ตารางที่ 1.2) การเข้ารหัสนี้ใช้โดยส่วนใหญ่ คอมพิวเตอร์ท้องถิ่นทำงานบนแพลตฟอร์ม Windows โดยพฤตินัย มันได้กลายเป็นมาตรฐานในภาครัสเซียของเวิลด์ไวด์เว็บ

^ ตารางที่ 1.2. การเข้ารหัส Windows 1251



การเข้ารหัสทั่วไปอื่นเรียกว่า KOI-8 (รหัสสื่อสารแปดหลัก) -ต้นกำเนิดของมันมีอายุย้อนไปถึงสมัยของสภาเพื่อความช่วยเหลือทางเศรษฐกิจร่วมกันของรัฐในยุโรปตะวันออก (ตาราง 1.3) บนพื้นฐานของการเข้ารหัสนี้ การเข้ารหัส KOI8-R (รัสเซีย) และ KOI8-U (ยูเครน) มีผลบังคับใช้ วันนี้การเข้ารหัส KOI8-R ใช้กันอย่างแพร่หลายในเครือข่ายคอมพิวเตอร์ในอาณาเขตของรัสเซียและในบางบริการของภาคอินเทอร์เน็ตของรัสเซีย โดยเฉพาะในรัสเซีย มันเป็นมาตรฐานโดยพฤตินัยในข้อความ อีเมลและการประชุมทางไกล

มาตรฐานสากลซึ่งจัดให้มีการเข้ารหัสอักขระของตัวอักษรรัสเซียเรียกว่าการเข้ารหัส ISO (องค์การมาตรฐานสากล - สถาบันระหว่างประเทศเพื่อการมาตรฐาน).ในทางปฏิบัติ การเข้ารหัสนี้ไม่ค่อยได้ใช้ (ตารางที่ 1.4)

^ ตาราง 1.3. การเข้ารหัส KOI-8



ตารางที่ 1.4. การเข้ารหัส ISO



บนคอมพิวเตอร์ที่ทำงานอยู่ ระบบปฏิบัติการ เอ็มเอส-ดอส,การเข้ารหัสอีกสองตัวสามารถทำงานได้ (การเข้ารหัส GOSTและการเข้ารหัส GOST-ทางเลือก)ครั้งแรกของพวกเขาถือว่าล้าสมัยแม้ในช่วงปีแรก ๆ ของการเกิดขึ้นของเทคโนโลยีคอมพิวเตอร์ส่วนบุคคล แต่อย่างที่สองยังคงใช้มาจนถึงทุกวันนี้ (ดูตารางที่ 1.5)

^ ตารางที่ 1.5. GOST การเข้ารหัสทางเลือก



ในการเชื่อมต่อกับระบบการเข้ารหัสข้อมูลข้อความจำนวนมากที่ทำงานในรัสเซียปัญหาของการแปลงข้อมูลระหว่างระบบจึงเกิดขึ้น - นี่เป็นหนึ่งในงานทั่วไปที่สุดของสารสนเทศ

^ ระบบเข้ารหัสข้อมูลข้อความสากล

หากเราวิเคราะห์ปัญหาขององค์กรที่เกี่ยวข้องกับการสร้างระบบการเข้ารหัสแบบรวมศูนย์สำหรับข้อมูลข้อความ เราก็สามารถสรุปได้ว่าปัญหาเหล่านี้เกิดจากชุดรหัสที่จำกัด (256) ในเวลาเดียวกัน เป็นที่แน่ชัดว่า ตัวอย่างเช่น หากสัญลักษณ์ถูกเข้ารหัสไม่ใช่เลขฐานสองแปดบิต แต่ด้วยตัวเลขที่มีตัวเลขจำนวนมาก ช่วงของค่าที่เป็นไปได้ของรหัสจะมีมาก ใหญ่กว่า ระบบดังกล่าวที่ใช้การเข้ารหัสอักขระ 16 บิตเรียกว่า สากล - UNICODEตัวเลขสิบหกหลักอนุญาตให้คุณระบุ รหัสเฉพาะสำหรับอักขระที่แตกต่างกัน 65536 ตัว - ฟิลด์นี้เพียงพอที่จะใส่ภาษาส่วนใหญ่ของโลกไว้ในตารางอักขระเดียว

แม้จะมีความชัดเจนเล็กน้อยของแนวทางนี้ แต่การเปลี่ยนแปลงทางกลอย่างง่ายไปยังระบบนี้ถูกระงับเป็นเวลานานเนื่องจากทรัพยากรเทคโนโลยีคอมพิวเตอร์ไม่เพียงพอ (ในระบบการเข้ารหัส UNICODEเอกสารข้อความทั้งหมดจะเพิ่มความยาวเป็นสองเท่าโดยอัตโนมัติ) ในช่วงครึ่งหลังของยุค 90 วิธีการทางเทคนิคมีทรัพยากรถึงระดับที่ต้องการแล้ว และวันนี้เราได้เห็นการถ่ายโอนเอกสารและซอฟต์แวร์อย่างค่อยเป็นค่อยไปไปยังระบบการเข้ารหัสสากล สำหรับผู้ใช้แต่ละราย สิ่งนี้ได้เพิ่มความกังวลเกี่ยวกับการประสานงานของเอกสารที่ดำเนินการใน ระบบต่างๆการเข้ารหัสด้วย โดยซอฟต์แวร์แต่สิ่งนี้ต้องเข้าใจว่าเป็นความยากลำบากของช่วงเปลี่ยนผ่าน

^ การเข้ารหัสข้อมูลกราฟิก

หากคุณตรวจสอบด้วยแว่นขยายกราฟิกขาวดำที่พิมพ์ในหนังสือพิมพ์หรือหนังสือ คุณจะเห็นว่าประกอบด้วยจุดที่เล็กที่สุดที่สร้างรูปแบบลักษณะที่เรียกว่า แรสเตอร์(รูปที่ 1.9).



ข้าว. 1.9. Raster คือวิธีการเข้ารหัสข้อมูลกราฟิกที่ได้รับการยอมรับในอุตสาหกรรมการพิมพ์มาอย่างยาวนาน

เนื่องจากพิกัดเชิงเส้นและคุณสมบัติส่วนบุคคลของแต่ละจุด (ความสว่าง) สามารถแสดงได้โดยใช้จำนวนเต็ม จึงกล่าวได้ว่าการเข้ารหัสบิตแมปช่วยให้สามารถใช้รหัสไบนารีเพื่อแสดงข้อมูลกราฟิกได้ เป็นที่ยอมรับกันโดยทั่วไปในปัจจุบันว่าจะใช้แทนภาพประกอบขาวดำเป็นจุดรวมกันที่มีเฉดสีเทา 256 เฉด ดังนั้นเลขฐานสองแปดบิตจึงมักจะเพียงพอที่จะเข้ารหัสความสว่างของจุดใดๆ

สำหรับการเข้ารหัสสี ภาพกราฟิกสมัครแล้ว หลักการสลายตัวสีโดยพลการในองค์ประกอบหลัก มีการใช้สีหลักสามสีเป็นองค์ประกอบดังกล่าว: สีแดง (แดง, อาร์),เขียว (เขียว จี)และสีฟ้า (ฟ้า,บี).ในทางปฏิบัติ เชื่อกันว่า (แม้ว่าตามทฤษฎีแล้ว สิ่งนี้ไม่เป็นความจริงทั้งหมด) ว่าสีใดๆ ที่มองเห็นได้ด้วยตามนุษย์สามารถหาได้จากการผสมสีหลักทั้งสามนี้ด้วยกลไก ระบบการเข้ารหัสดังกล่าวเรียกว่าระบบ RGBด้วยอักษรตัวแรกของชื่อสีหลัก

หากจะเข้ารหัสความสว่างของแต่ละองค์ประกอบหลักเพื่อใช้ 256 ค่า (ไบนารีแปดบิต) ตามธรรมเนียมสำหรับภาพขาวดำระดับสีเทา ต้องใช้ 24 บิตในการเข้ารหัสสีของจุดเดียว ในเวลาเดียวกัน ระบบการเข้ารหัสให้คำจำกัดความที่ชัดเจนของ 16.5 ล้านสีที่แตกต่างกัน ซึ่งจริง ๆ แล้วใกล้เคียงกับความไวของดวงตามนุษย์ โหมดการแสดงกราฟิกสีโดยใช้ 24 บิตเรียกว่า ครบสี (ทรูคัลเลอร์)

สีหลักแต่ละสีสามารถกำหนดเป็นสีเสริม นั่นคือสีที่เสริมสีหลักให้เป็นสีขาว เป็นเรื่องง่ายที่จะเห็นว่าสำหรับสีหลักใดๆ สีเพิ่มเติมจะเป็นผลรวมของคู่ของสีหลักอื่นๆ ดังนั้นสีเสริมคือ: สีน้ำเงิน (ฟ้า, ค),สีม่วง (ม่วงแดง, เอ็ม)และสีเหลือง ( สีเหลือง Y). หลักการของการสลายตัวของสีตามอำเภอใจในส่วนประกอบส่วนประกอบสามารถใช้ได้ไม่เฉพาะกับสีหลักเท่านั้น แต่สำหรับสีเพิ่มเติมด้วย กล่าวคือ สีใดๆ สามารถแสดงเป็นผลรวมของส่วนประกอบสีฟ้า สีม่วงแดง และสีเหลือง วิธีการเข้ารหัสสีนี้ใช้ในอุตสาหกรรมการพิมพ์ แต่หมึกที่สี่ยังใช้ในอุตสาหกรรมการพิมพ์ - สีดำ (ดำ,เค).นั่นเป็นเหตุผลที่ ระบบนี้การเข้ารหัสระบุด้วยตัวอักษรสี่ตัว CMYK(สีดำเขียนแทนด้วยตัวอักษร ถึง,เพราะจดหมาย วีมีสีน้ำเงินอยู่แล้ว) และเพื่อแสดงกราฟิกสีในระบบนี้ คุณต้องมี 32 บิต โหมดนี้เรียกอีกอย่างว่า ครบสี (ทรูคัลเลอร์)

หากคุณลดจำนวนบิตที่ใช้ในการเข้ารหัสสีของแต่ละจุด คุณสามารถลดปริมาณข้อมูลได้ แต่ช่วงของสีที่เข้ารหัสจะลดลงอย่างมาก การเข้ารหัสกราฟิกสีด้วยเลขฐานสอง 16 บิตเรียกว่าโหมด สีสูง.

เมื่อข้อมูลสีถูกเข้ารหัสโดยใช้ข้อมูลแปดบิต สามารถส่งได้เพียง 256 เฉดสีเท่านั้น วิธีการรหัสสีนี้เรียกว่า ดัชนี.ความหมายของชื่อคือ เนื่องจากค่า 256 ค่าไม่เพียงพอที่จะถ่ายทอดช่วงของสีทั้งหมดที่มีให้ในสายตามนุษย์ได้อย่างสมบูรณ์ รหัสของแต่ละจุดของแรสเตอร์จึงไม่แสดงสีด้วยตัวมันเอง แต่แสดงเพียงตัวเลขเท่านั้น (ดัชนี)ในตารางค้นหาที่เรียกว่า จานสีแน่นอน จานสีนี้จะต้องนำไปใช้กับข้อมูลกราฟิก - หากไม่มีมัน คุณจะไม่สามารถใช้วิธีการทำซ้ำข้อมูลบนหน้าจอหรือกระดาษได้ (นั่นคือ แน่นอน คุณสามารถใช้มันได้ แต่เนื่องจากความไม่สมบูรณ์ของข้อมูล ข้อมูลที่ได้รับไม่เพียงพอ: ใบไม้บนต้นไม้อาจเป็นสีแดง และท้องฟ้าเป็นสีเขียว)

^ การเข้ารหัสเสียง

เทคนิคและวิธีการทำงานกับข้อมูลเสียงมาถึงเทคโนโลยีคอมพิวเตอร์ล่าสุด นอกจากนี้ ไม่เหมือนข้อมูลตัวเลข ข้อความ และกราฟิก การบันทึกเสียงไม่ได้มีประวัติการเข้ารหัสที่ยาวนานและได้รับการพิสูจน์แล้วเท่ากัน เป็นผลให้วิธีการเข้ารหัสข้อมูลเสียงด้วยรหัสไบนารีอยู่ไกลจากมาตรฐาน แต่ละบริษัทได้พัฒนามาตรฐานองค์กรของตนเอง

ผู้สร้างไซต์มักประสบปัญหา: การเข้ารหัสใดเพื่อสร้างโครงการ อินเทอร์เน็ตที่พูดภาษารัสเซียใช้การเข้ารหัสสองแบบ:

UTF-8(จากภาษาอังกฤษ. รูปแบบการแปลง Unicode) เป็นการเข้ารหัสทั่วไปที่ใช้การแสดง Unicode ที่เข้ากันได้กับการเข้ารหัสข้อความ 8 บิต

Windows-1251(หรือ cp1251) - ชุดอักขระและการเข้ารหัส ซึ่งเป็นการเข้ารหัสแบบ 8 บิตมาตรฐานสำหรับ Microsoft Windows เวอร์ชันรัสเซียทั้งหมด

UTF-8 มีแนวโน้มดีกว่า แต่ทุกสิ่งย่อมมีข้อเสียของมัน และการตัดสินใจที่จะใช้การเข้ารหัสบางประเภทเพียงเพราะมีแนวโน้มว่าจะไม่ถูกต้อง โดยไม่คำนึงถึงปัจจัยอื่นๆ อีกมากมาย ทางเลือกจะเหมาะสมที่สุดก็ต่อเมื่อคำนึงถึงความแตกต่างทั้งหมดของโครงการโดยเฉพาะ อีกสิ่งหนึ่งคือมันไม่ง่ายเลยที่จะคาดเดาความแตกต่างทั้งหมด

เราเชื่อว่าการใช้ UTF-8 นั้นดีกว่า แต่ขึ้นอยู่กับผู้พัฒนาโครงการที่จะตัดสินใจว่าจะเลือกอันไหน และเพื่อความสะดวกในการเลือกนี้ ให้ใช้ตารางเปรียบเทียบคุณลักษณะของการเข้ารหัสทั้งสองแบบ

คุณสมบัติ UTF-8 Windows 1251
ทั่วไป
Multilingualism การเข้ารหัสช่วยให้คุณใช้ ภาษาที่แตกต่างกันทั้งในที่สาธารณะและในส่วนการบริหารของไซต์
  • การเปลี่ยนการเข้ารหัสของไซต์ขนาดใหญ่ที่มีอยู่จาก Windows-1251 เป็น UTF-8 อาจทำให้แรงงานและต้นทุนทางการเงินเพิ่มขึ้นอย่างร้ายแรง
  • ภาษารัสเซียและภาษาอังกฤษใช้งานได้โดยไม่มีปัญหากับ Windows-1251 หากไม่จำเป็นต้องใช้ภาษาอื่น แสดงว่าไม่จำเป็นต้องใช้ UTF-8
ตัวอักษรจำนวนมาก ความสามารถในการใช้อักขระพิเศษ มี. แต่เราต้องคำนึงถึงความสามารถของเบราว์เซอร์ด้วย ไม่ปกติ. เป็นไปได้ที่จะแทนที่อักขระพิเศษด้วย "ไม้ค้ำยัน" เช่น © to & copy; หรือ × (เครื่องหมายคูณ) โดย & ครั้ง; อย่างไรก็ตาม สิ่งนี้จะเพิ่มข้อกำหนดสำหรับระดับการฝึกอบรมของระบบจัดการเนื้อหา และสร้างปัญหาเมื่อถ่ายโอนข้อมูลจากฐานข้อมูลอื่น นอกจากนี้ Bitrix Framework ยังมีฟิลด์ที่ไม่ได้ใช้โดยโปรแกรมแก้ไขภาพ เช่น ชื่อเพจ หรือชื่อขององค์ประกอบบล็อกข้อมูล นอกจากนี้ยังทำให้พนักงานที่มีทักษะต่ำไม่สามารถสนับสนุนโครงการได้
ความเร็วในการทำงาน
  • เมื่อไซต์ทำงาน ฟังก์ชันทั้งหมดสำหรับการทำงานกับสตริงจะถูกแทนที่ด้วย mb_ *... ซึ่งหมายความว่าข้อความทั้งหมดจะถูกบันทึกลงในการเข้ารหัสของไซต์
  • utf strlenขึ้นอยู่กับความยาวของสตริงตามลำดับปกติ strlenทำงานได้เร็วกว่ามัลติไบต์ 3 เท่า: 0.0004 เทียบกับ 0.0013 สำหรับการวนซ้ำหนึ่งพันครั้ง จากการวัดพบว่าความเร็วของไซต์จริงมีความแตกต่างกัน 10-15%
การลดปริมาณของโครงการให้น้อยที่สุด โปรเจ็กต์ใน UTF-8 จะ "หนักกว่า" อย่างแน่นอน เนื่องจากสตริงในการเข้ารหัสนี้ใช้พื้นที่เป็นสองเท่าของสตริงใน Windows-1251 แบบไบต์เดียว ขนาดของไซต์และฐานข้อมูลจะใหญ่ขึ้น 1.2 - 1.5 เท่า
รองรับโดย js frameworks ส่วนใหญ่ รองรับโดยไม่มีปัญหา ความยากลำบากในการดำเนินการ
สนับสนุน MS SQL ด้วยเหตุผลทางเทคนิค ข้อมูลใน MS SQLควรเก็บและเก็บไว้ใน Windows-1251 จำเป็นต้องมีการกำหนดค่าเพิ่มเติม ไม่มีปัญหา.
การนำเข้า CSV Excelไม่เก็บใน UTF-8 จำเป็นต้องบันทึกไฟล์ที่สร้างขึ้นใหม่ในการเข้ารหัสนี้โดยใช้ตัวแก้ไขอื่น ไม่มีปัญหา.
นำเข้าจาก 1C ไซต์ใน UTF-8 ทำงานโดยไม่มีปัญหาเมื่อรวมผ่าน สบู่กับระบบต่างๆ เช่น 1C
Yandex.Metrica Webvisor เว็บไวเซอร์บันทึกการกระทำของผู้เยี่ยมชมอย่างถูกต้อง ข้อผิดพลาดในการบันทึกเป็นไปได้
ที่เกี่ยวข้อง Bitrix Framework
ความสามารถในการสร้างไซต์ในการเข้ารหัสที่แตกต่างกันบนระบบหลายไซต์ เป็นไปไม่ได้. ไซต์ทั้งหมดบนคอร์เดียวกันจะต้องอยู่ในการเข้ารหัสเดียวกัน
รองรับโฮสติ้งต่างๆ เมื่อทำงานกับ Bitrix Framework คุณต้องเชื่อมต่อตัวเลือก php mbstring.func_overloadในค่าที่มากกว่าหรือเท่ากับ 2 ... มัน . ทำงานบนโฮสติ้งใดก็ได้
วางสินค้าบน เครื่องเสมือน BitrixVM. ค่าเริ่มต้น. ต้องมีขั้นตอนการกำหนดค่าเพิ่มเติม
แสดงรายการเมนูเว็บไซต์ที่ถูกต้อง เมื่อใช้การเข้ารหัสนี้ ปัญหาดังกล่าวอาจเกิดขึ้นได้ แก้ไขโดยบันทึกแต่ละไฟล์ซ้ำเป็น UTF-8 (เพื่อให้แม่นยำยิ่งขึ้น ขอแนะนำให้ตรวจสอบการเข้ารหัสของไฟล์ทั้งหมด ไม่ใช่เฉพาะไฟล์เมนู และหากจำเป็น ให้เข้ารหัสใหม่ด้วย)
การนำเข้าซอร์สไปยัง IDE เช่น คราส pdt เมื่อตั้งค่าเป็น UTF-8 ในการตั้งค่าโปรเจ็กต์ ความคิดเห็นในโค้ดหลักของ Bitrix Framework จะเสียหาย ไม่มีปัญหา.
สิ่งเล็กน้อยต่างๆ
ปฏิสัมพันธ์ WordPress(ไคลเอนต์บล็อก trackback และ ping "และ) มี เลขที่
การแก้ไขไฟล์โดย FTPข้าม ไกล FAR รองรับเฉพาะ UTF ตั้งแต่เวอร์ชัน 2.0 บางที
สนับสนุนโดยบรรณาธิการส่วนใหญ่ ต้องใช้ตัวแก้ไขที่รองรับการเข้ารหัส UTF-8 โดยไม่มี BOM ไม่มีปัญหา.

วิธีแปลไซต์จากการเข้ารหัส win1251 เป็น UTF-8

ขั้นตอนทั่วไป:

    1. แปลงฐานข้อมูลทั้งหมดเป็น UTF-8 (ส่วนใหญ่คุณจะต้องติดต่อผู้ดูแลระบบเซิร์ฟเวอร์เพื่อขอความช่วยเหลือ)

    2. เข้ารหัสไฟล์ไซต์ทั้งหมดใน UTF-8 (คุณสามารถทำได้ด้วยตัวเอง)

    3. เพิ่มบรรทัดลงในไฟล์ /bitrix/php_interface/dbconn.php:

กำหนด ("BX_UTF", จริง);

4. เพิ่มบรรทัดต่อไปนี้ในไฟล์ /.htaccess:

Php_value mbstring.func_overload 2 php_value mbstring.internal_encoding UTF-8

คุณสามารถเข้ารหัสไฟล์ไซต์ทั้งหมดเป็น UTF-8 (จุดที่สอง) ได้โดยเรียกใช้คำสั่งผ่าน SSH ในโฟลเดอร์รูทของไซต์:

หา. -name "* .php" -type f -exec iconv -fcp1251 -tutf8 -o / tmp / tmp_file () \; -exec mv / tmp / tmp_file () \;

การเข้ารหัส Windows 1251 ถูกสร้างขึ้นในช่วงต้นทศวรรษ 90 สำหรับ Russification ผลิตภัณฑ์ซอฟต์แวร์ผลิตโดย Microsoft Corporation:

การเข้ารหัสเป็นแบบ 8 บิตและรวมถึงอักขระจากกลุ่มภาษาสลาฟ ซึ่งรวมถึงรัสเซีย เบลารุส ยูเครน บัลแกเรีย มาซิโดเนีย เซอร์เบีย - สิ่งนี้ให้ข้อได้เปรียบเหนือการเข้ารหัสซีริลลิกอื่น ๆ ( ISO 8859-5, KOI8-R, CP866). อย่างไรก็ตาม การเข้ารหัส 1251 ยังมีข้อเสียที่สำคัญ:

  • 0xFF (25510) คือรหัสที่สงวนไว้สำหรับอักขระ "i" โปรแกรมที่ไม่รองรับ pure 8th bit มักจะมีปัญหาที่คาดเดาไม่ได้
  • ไม่มีกราฟิกหลอกใน KOI8, CP866

ด้านล่างเป็นสัญลักษณ์จากรหัสหน้า 1251 หรือ CP1251 สั้น ๆ ( ตัวเลขด้านล่างอักขระเป็นรหัสฐานสิบหกของอักขระ Unicode เดียวกัน):


บ่อยครั้ง นักพัฒนาเว็บและบล็อกเกอร์ที่มีคุณสมบัติต่างกันมีปัญหากับการเข้ารหัสหน้า: แทนที่จะเป็นข้อความที่เตรียมไว้ อักขระที่ไม่รู้จักและอ่านไม่ได้ปรากฏขึ้น เพื่อจัดการกับปัญหานี้ คุณต้องเข้าใจสาระสำคัญของคำว่า " การเข้ารหัสหน้า».

ข้อความในหน่วยความจำคอมพิวเตอร์จะถูกจัดเก็บในรูปแบบจำนวนไบต์ที่แน่นอนและไม่ใช่ในรูปแบบที่แสดง โปรแกรมแก้ไขข้อความ... แต่ละไบต์เป็นรหัสที่สอดคล้องกับอักขระหนึ่งตัว เพื่อให้ข้อความบนหน้าแสดงตามที่ควรจะเป็น คุณต้องบอกเบราว์เซอร์ว่าตารางรหัสใดควรใช้สำหรับการถอดรหัสและแสดง

ตารางการเข้ารหัสไม่เป็นสากล กล่าวคือ เพื่อถอดรหัสข้อความ คุณต้องใช้ตารางที่สอดคล้องกับการเข้ารหัสอักขระ:


เพื่อให้เอกสาร html แสดงอย่างถูกต้องในเบราว์เซอร์ คุณต้องระบุการเข้ารหัสที่ใช้ สิ่งนี้ทำได้ดังนี้:

ระหว่างแท็ก และปิดบังไว้ต้องลงทะเบียน - ตามสตริงนี้ เบราว์เซอร์จะใช้อักขระของตัวอักษรรัสเซียเพื่อแสดงข้อความบนหน้า

การเข้ารหัส Windows 1251 ใน PHP

ไม่เป็นความลับสำหรับทุกคนที่การสร้างเพจเกิดขึ้นโดยการดึงและใช้ข้อมูลบางส่วนที่จัดเก็บไว้ในฐานข้อมูล เมื่อเขียนเว็บไซต์ด้วย PHP ส่วนใหญ่มักจะเป็น mysql

3 โหวต

สวัสดีผู้อ่านที่รักของบล็อกของฉัน วันนี้เราจะมาคุยกับคุณเกี่ยวกับการเข้ารหัส หากคุณได้อ่านบทความของฉันเกี่ยวกับวิธีที่คุณรู้ว่าเอกสารใด ๆ บนอินเทอร์เน็ตไม่ได้ถูกจัดเก็บในรูปแบบที่เราคุ้นเคย มันถูกเขียนโดยใช้สัญลักษณ์และสัญญาณที่เข้าใจยากสำหรับบุคคล ทุกอย่างเหมือนกันทุกประการกับข้อความ

มีการเข้ารหัสหลายอย่าง ดังนั้น บางครั้งจึงเห็นอักขระที่เข้าใจยากเมื่อเปิดหนังสือใน แอปพลิเคชั่นมือถือหรือโดยการอัปโหลดบทความไปยังเว็บไซต์โดยการเปลี่ยนค่าบางอย่างในการตั้งค่าคุณจะเห็นตัวอักษรที่คุ้นเคย


การเข้ารหัส Windows-1251 - มันคืออะไร, มีค่าอะไรเมื่อสร้างไซต์, อักขระใดบ้างที่สามารถใช้ได้และไม่ว่าจะเป็น ทางออกที่ดีที่สุดวันนี้? ทั้งหมดนี้อยู่ในบทความของวันนี้ เหมือนเคย, ภาษาง่ายๆให้ชัดเจนที่สุดและมีเงื่อนไขขั้นต่ำ

ทฤษฎีเล็กน้อย

เอกสารใด ๆ บนคอมพิวเตอร์หรือบนอินเทอร์เน็ต อย่างที่ฉันพูด จะถูกเก็บไว้เป็นรหัสไบนารี ตัวอย่างเช่น หากคุณใช้การเข้ารหัส ASCII ตัวอักษร "K" จะถูกเขียนเป็น 10001010 และ windows 1251 จะซ่อนสัญลักษณ์ - Љ ไว้ใต้ตัวเลขนี้ เป็นผลให้หากเบราว์เซอร์หรือโปรแกรมเข้าถึงตารางอื่นและอ่านแทน ASCII รหัส windows 1251 จากนั้นผู้อ่านจะเห็นสัญลักษณ์ที่เข้าใจยากสำหรับเขาอย่างสมบูรณ์

คำถามคือตรรกะ อะไรจะเกิดขึ้นกับตารางจำนวนมากที่มีรหัส? ความจริงก็คือนอกจากอักษรรัสเซียแล้ว ยังมีภาษาอังกฤษ เยอรมัน และจีนอีกด้วย จากการประมาณการบางอย่าง มีประมาณ 200,000 อักขระ แม้ว่าฉันจะไม่เชื่อถือสถิติเหล่านี้จริงๆ แต่จำเกี่ยวกับภาษาญี่ปุ่นได้

อย่าลืมว่าสำหรับอักษรตัวพิมพ์ใหญ่และตัวพิมพ์เล็ก คุณต้องสร้างรหัสของคุณเอง โดยมีเครื่องหมายจุลภาค ขีดกลาง และอื่นๆ

ยิ่งมีสัญลักษณ์ในตารางมาก โค้ดของแต่ละตัวก็จะยิ่งยาวขึ้น และทำให้เอกสารมีน้ำหนักมากขึ้น


ลองนึกภาพว่าหนังสือเล่มหนึ่งมีน้ำหนัก 4 GB! โหลดนานมาก เอาทุกอย่าง ที่ว่างบนคอมพิวเตอร์. การตัดสินใจดาวน์โหลดจะเป็นเรื่องยาก

หากคุณคิดเกี่ยวกับไซต์ โดยทั่วไปแล้ว มันน่ากลัวที่จะคิดว่าจะเกิดอะไรขึ้น แต่ละหน้าเปิดได้แม้กระทั่งบนไฟเบอร์ความเร็วสูงนานกว่าหนึ่งชั่วโมง! คิด, โทรศัพท์มือถือสามารถโยนทิ้งได้อย่างปลอดภัย ใช้พวกเขาบนท้องถนนแม้กับ 4G? ฉันสงสัย.

ด้วยเหตุผลเหล่านี้ โปรแกรมเมอร์แต่ละคนพยายามสร้างตารางสัญลักษณ์ของตัวเองในคราวเดียว เพื่อให้ใช้งานได้สะดวกและรับน้ำหนักได้ดีที่สุด

ตัวอย่างเช่น Microsoft ได้สร้าง windows-1251 สำหรับกลุ่มที่พูดภาษารัสเซีย มันมีข้อดีและข้อเสียของมันอย่างแน่นอน เช่นเดียวกับผลิตภัณฑ์อื่นๆ

ตอนนี้ มีเพียง 2% ของหน้าเว็บทั้งหมดบนอินเทอร์เน็ตที่เขียนในปี 1251 เว็บมาสเตอร์ส่วนใหญ่ใช้ UTF-8 ทำไมถึงเป็นอย่างนั้น?

ข้อเสียและข้อดี

UTF-8 ซึ่งแตกต่างจากการเข้ารหัสสากลของ windows-1251 มีตัวอักษรที่มีตัวอักษรต่างกัน มีแม้กระทั่ง UTF-128 ซึ่งโดยทั่วไปแล้วจะมีทุกภาษา - Teulu, สวาฮิลี, ลาว, มอลตาและอื่น ๆ


UTF-8 นั้นด้อยกว่า ตัวอักษรใช้พื้นที่น้อยกว่ามาก และใช้หน่วยความจำเพียงหนึ่งไบต์ เช่นเดียวกับในปี 1251 UTP มีอักขระหายากจากภาษาอื่นหรืออักขระพิเศษ พวกมันมีน้ำหนัก 5-6 ไบต์ แต่ไม่ค่อยได้ใช้ในเอกสาร

การเข้ารหัสนี้มีความรอบคอบมากกว่า ดังนั้นแอปพลิเคชันส่วนใหญ่จะใช้โดยค่าเริ่มต้น นั่นคือถ้าคุณไม่บอกโปรแกรมว่าคุณกำลังใช้การเข้ารหัสใดอยู่ สิ่งแรกที่โปรแกรมจะตรวจสอบคือ UTF-8

เมื่อคุณสร้างเอกสาร html สำหรับไซต์ คุณต้องบอกเบราว์เซอร์ว่าตารางใดที่จะดูเมื่อถอดรหัสระเบียน

ในการดำเนินการนี้ คุณต้องแทรกข้อมูลต่อไปนี้ลงในแท็ก head หลังจากอักขระ "charset =" มาเป็น UTF หรือ Windows ตามตัวอย่างด้านล่าง

<meta http-equiv = เนื้อหา "ประเภทเนื้อหา" = "ข้อความ / html; ชุดอักขระ = windows-1251">


หากในอนาคตคุณต้องการเปลี่ยนแปลงบางสิ่งและแทรกวลีในภาษาแอลเบเนียโดยใช้ตารางการถอดเสียงนี้ ก็จะไม่มีอะไรทำงาน เนื่องจากการเข้ารหัสไม่รองรับภาษานี้ UTF - 8 จะช่วยให้คุณทำสิ่งนี้ได้โดยไม่มีปัญหาใดๆ

หากคุณสนใจในการสร้างเว็บไซต์ที่ถูกต้อง ฉันสามารถแนะนำหลักสูตรของ Mikhail Rusakov ให้คุณได้ " การพัฒนาและส่งเสริมเว็บไซต์จาก A ถึง Z ».



มันมีจำนวนมาก - 256 บทเรียน, การสัมผัส, JavaScript และ XML นอกจากภาษาโปรแกรมแล้ว คุณจะสามารถเข้าใจวิธีการสร้างรายได้จากเว็บไซต์ กล่าวคือ ทำกำไรได้เร็วและมากขึ้น หนึ่งในไม่กี่หลักสูตรที่จะอธิบายทุกสิ่งที่คุณต้องการอย่างละเอียด

ตัวฉันเองเรียนมาหนึ่งปีแล้ว ที่โรงเรียนบล็อกเกอร์ Alexander Borisov ... ต้องใช้เวลามากขึ้นหลายเท่า ปลายและขอบยังไม่ปรากฏให้เห็น แต่ก็ละเอียดถี่ถ้วนและมีระเบียบวินัยไม่น้อย เป็นกำลังใจให้พัฒนาต่อไป

หากคุณมีคำถามคุณไม่จำเป็นต้องค้นหาทางอินเทอร์เน็ต มีที่ปรึกษาที่มีความสามารถอยู่เสมอ



สิ่งที่ฉันได้ย้ายออกไปจากหัวข้อ กลับไปที่การเข้ารหัส

ฐานข้อมูลบาธ

เมื่อพูดถึง php ทุกอย่างมักจะน่ากลัว ฉันได้พูดคุยเกี่ยวกับฐานข้อมูลแล้ว พวกเขาใช้เพื่อเร่งการทำงานของไซต์ โดยปกติคุณจะไม่ติดต่อพวกเขา แต่เมื่อจำเป็นต้องย้ายไซต์จะไม่สบายใจ

ความยากลำบากเกิดขึ้นได้กับทุกคน ไม่ว่าคุณจะมีประสบการณ์การทำงานแบบใด ระยะเวลาในการให้บริการ และระยะเวลาในการให้บริการ บางหน้าในฐานข้อมูลอาจมีสัญลักษณ์ที่ใช้ได้ทั้งหมดสำหรับ Windows-1251 บางหน้าในฐานข้อมูลอาจมีสัญลักษณ์อื่นๆ เช่น ในเทมเพลตหน้า ในการเข้ารหัสแบบอื่น

จนกว่าการถ่ายโอนจะมีความจำเป็น ทุกอย่างทำงานได้และทำงานได้ แม้ว่าจะไม่ถูกต้องนักก็ตาม แต่หลังจากการย้าย ปัญหาเริ่มต้นขึ้น ตามหลักการแล้ว คุณควรใช้ UTP หรือ Windows-1251 เท่านั้น แต่อันที่จริง ทุกคนมักมีข้อบกพร่องดังกล่าวอยู่เสมอ

เพื่อให้การถอดรหัสสอดคล้องกัน คุณต้องป้อนรหัส mysql_query ("SET NAMES cp1251") ในกรณีนี้ การแปลงจะดำเนินการโดยใช้โปรโตคอลอื่น - cp1251


Htaccess

หากคุณตัดสินใจใช้ 1251 บนไซต์อย่างต่อเนื่อง คุณควรค้นหาหรือสร้างไฟล์ htaccess เขามีหน้าที่รับผิดชอบในการตั้งค่าคอนฟิก คุณจะต้องเพิ่มอีกสามบรรทัดเพื่อให้ทุกอย่างเข้ากัน

DefaultLanguage ru; AddDefaultCharset windows-1251; php_value default_charset "cp1251"

ฉันยังขอแนะนำอย่างยิ่งให้คุณพิจารณาใช้ UTF-8 เป็นที่นิยมมากขึ้น เรียบง่ายขึ้น และสมบูรณ์ยิ่งขึ้น ไม่ว่าคุณจะตัดสินใจอะไรในตอนนี้ สิ่งสำคัญคือคุณจะต้องแก้ไขทุกอย่างในภายหลัง การเพิ่มไซต์เวอร์ชันภาษาอังกฤษโดยใช้การเข้ารหัสนี้จะง่ายกว่ามาก ไม่มีอะไรต้องแก้ไข

การตัดสินใจอยู่ที่คุณ สมัครรับจดหมายข่าวเพื่อค้นหาอย่างรวดเร็วที่สุดว่าจะเรียนที่ไหน เพื่อไม่ให้เกิดข้อผิดพลาดซ้ำของคนอื่น รวมถึงบล็อกเกอร์คนใดที่มีผู้เข้าชมมากที่สุด

จนกว่าจะถึงครั้งต่อไปและขอให้โชคดีในความพยายามของคุณ