คอมพิวเตอร์ Windows อินเทอร์เน็ต

การสร้างคลังข้อมูลองค์กรแบบครบวงจร สร้างแบบจำลองคลังข้อมูลตามแบบจำลองข้อมูลองค์กร โมเดลข้อมูลอุตสาหกรรม

Zaitsev S.L. ปริญญาเอก

กลุ่มซ้ำ

กลุ่มที่เกิดซ้ำคือแอตทริบิวต์ที่อินสแตนซ์เอนทิตีเดียวสามารถมีค่าได้มากกว่าหนึ่งค่า ตัวอย่างเช่น บุคคลอาจมีมากกว่าหนึ่งทักษะ ถ้าในแง่ของความต้องการทางธุรกิจ เราจำเป็นต้องรู้ระดับทักษะสำหรับทุกคน และแต่ละคนสามารถมีทักษะได้เพียงสองทักษะเท่านั้น เราสามารถสร้างเอนทิตีที่แสดงในรูปที่ 1.6. นี่คือเอนทิตี บุคคลหนึ่งด้วยคุณสมบัติสองอย่างในการจัดเก็บทักษะและระดับทักษะสำหรับแต่ละรายการ

ข้าว. 1.6. ตัวอย่างนี้ใช้กลุ่มที่ทำซ้ำ

ปัญหาของการทำซ้ำกลุ่มคือเราไม่สามารถรู้ได้อย่างชัดเจนว่าบุคคลหนึ่งมีทักษะกี่ทักษะ ในชีวิตจริง บางคนมีหนึ่งทักษะ บางคนมีหลายอย่าง และบางคนยังไม่มี รูปที่ 1.7 แสดงแบบจำลองที่ลดลงสู่รูปแบบปกติครั้งแรก สังเกตการเพิ่ม รหัสทักษะ ซึ่งกำหนดแต่ละอย่างไม่ซ้ำกัน ทักษะ.

ข้าว. 1.7. โมเดลลดลงสู่รูปแบบปกติครั้งแรก

ข้อเท็จจริงเดียวในที่เดียว

หากมีแอตทริบิวต์เดียวกันในเอนทิตีมากกว่าหนึ่งรายการและไม่ใช่คีย์ภายนอก จะถือว่าแอตทริบิวต์นั้นซ้ำซ้อน โมเดลเชิงตรรกะไม่ควรมีข้อมูลที่ซ้ำซ้อน

ความซ้ำซ้อนต้องการพื้นที่เพิ่มเติม แต่ในขณะที่ประสิทธิภาพของหน่วยความจำมีความสำคัญ ปัญหาที่แท้จริงอยู่ที่อื่น รับประกันการซิงโครไนซ์ของข้อมูลที่ซ้ำซ้อนมาพร้อมกับค่าใช้จ่าย และคุณมักจะเสี่ยงต่อการที่ค่าที่ขัดแย้งกัน

ในตัวอย่างที่แล้ว ทักษะขึ้นอยู่กับ รหัสประจำตัวและจาก รหัสทักษะซึ่งหมายความว่าคุณจะไม่มี ทักษะจนกว่าจะปรากฏ บุคคลหนึ่ง,มีทักษะนี้ นอกจากนี้ยังทำให้การเปลี่ยนชื่อทักษะทำได้ยากขึ้น คุณต้องค้นหารายการชื่อทักษะแต่ละรายการและเปลี่ยนสำหรับบุคคลที่เป็นเจ้าของทักษะนั้น

รูปที่ 1.8 แสดงแบบจำลองในรูปแบบปกติที่สอง โปรดทราบว่ามีการเพิ่มเอนทิตี ทักษะและแอตทริบิวต์ ชื่อทักษะที่โอนไปยังเอนทิตีนี้ ระดับทักษะยังคงอยู่ตามลำดับที่สี่แยก บุคคลและทักษะ

ข้าว. 1.8. ในรูปแบบปกติที่สอง กลุ่มที่เกิดซ้ำจะถูกย้ายไปยังเอนทิตีอื่น ซึ่งให้ความยืดหยุ่นในการเพิ่มทักษะได้มากเท่าที่จำเป็นและเปลี่ยนชื่อทักษะหรือคำอธิบายทักษะในที่เดียว

แต่ละแอตทริบิวต์ขึ้นอยู่กับคีย์

แต่ละแอตทริบิวต์ของเอนทิตีต้องขึ้นอยู่กับคีย์หลักของเอนทิตีนั้น ในตัวอย่างที่แล้ว ชื่อโรงเรียนและ พื้นที่ทางภูมิศาสตร์อยู่ในตาราง บุคคลหนึ่งแต่อย่าบรรยายถึงบุคคล เพื่อให้บรรลุรูปแบบปกติที่สาม คุณต้องย้ายแอตทริบิวต์ไปยังเอนทิตี ซึ่งจะขึ้นอยู่กับคีย์ รูปที่ 1.9 แสดงแบบจำลองในรูปแบบปกติที่สาม

ข้าว. 1.9. ในรูปแบบปกติที่สาม ชื่อโรงเรียนและ ภูมิภาคทางภูมิศาสตร์ย้ายไปที่เอนทิตีซึ่งค่าของพวกเขาขึ้นอยู่กับคีย์

ความสัมพันธ์แบบกลุ่มต่อกลุ่ม

ความสัมพันธ์ หลายต่อหลายสะท้อนความเป็นจริงของสิ่งแวดล้อม โปรดทราบว่าในรูปที่ 1.9 มีความสัมพันธ์แบบกลุ่มต่อกลุ่มระหว่าง บุคคลและ โรงเรียน. อัตราส่วนสะท้อนให้เห็นถึงความจริงที่ว่า บุคคลหนึ่งสามารถเรียนได้มากมาย โรงเรียนและใน โรงเรียนสามารถเรียนรู้ได้มากมาย บุคคล.เพื่อให้บรรลุรูปแบบปกติที่สี่ มีการสร้างเอนทิตีที่เชื่อมโยงซึ่งขจัดความสัมพันธ์แบบ monogie-to-many โดยสร้างรายการแยกต่างหากสำหรับการผสมผสานที่เป็นเอกลักษณ์ของโรงเรียนและบุคคล รูปที่ 1.10 แสดงแบบจำลองในรูปแบบปกติที่สี่

ข้าว. 1.10. ในรูปแบบปกติที่สี่ ความสัมพันธ์แบบ monogie-to-many ระหว่าง บุคคลและ โรงเรียนแก้ไขโดยการแนะนำเอนทิตีที่เชื่อมโยงซึ่งมีการกำหนดรายการแยกต่างหากสำหรับแต่ละชุดค่าผสมที่ไม่ซ้ำกัน โรงเรียนและ บุคคล

คำจำกัดความที่เป็นทางการของรูปแบบปกติ

คำจำกัดความต่อไปนี้ของรูปแบบปกติอาจดูน่ากลัว คิดง่ายๆ ว่าเป็นสูตรสำหรับการทำให้เป็นมาตรฐาน รูปแบบปกติจะขึ้นอยู่กับพีชคณิตเชิงสัมพันธ์และสามารถตีความได้ว่าเป็นการแปลงทางคณิตศาสตร์ แม้ว่าหนังสือเล่มนี้จะไม่ครอบคลุมการอภิปรายโดยละเอียดเกี่ยวกับรูปแบบปกติ แต่ขอแนะนำให้ผู้ทำแบบจำลองเจาะลึกในหัวข้อนี้

ในความสัมพันธ์ R ที่กำหนด แอตทริบิวต์ Y จะขึ้นอยู่กับฟังก์ชันตามแอตทริบิวต์ X โดยในเชิงสัญลักษณ์ RX -> RY (อ่านว่า "RX กำหนดฟังก์ชัน RY") ได้ก็ต่อเมื่อค่า X แต่ละค่าใน R เชื่อมโยงกับค่า Y เพียงค่าเดียวใน R ( ในเวลาใดก็ได้) คุณลักษณะ X และ Y สามารถนำมาผสมกันได้ (Date K.J. Introduction to Database Systems. 6th edition. Ed. Williams: 1999, 848 pp.)

ความสัมพันธ์ R อยู่ในรูปแบบปกติแรก (1NF) หากโดเมนทั้งหมดมีค่าอะตอมเท่านั้น (Date, ibid.)

ความสัมพันธ์ R อยู่ในรูปแบบปกติที่สอง (2NF) หากอยู่ใน 1NF และแอตทริบิวต์ที่ไม่ใช่คีย์ทั้งหมดจะขึ้นอยู่กับคีย์หลัก (วันที่, ibid.)

ความสัมพันธ์ R อยู่ในรูปแบบปกติที่สาม (3NF) หากอยู่ใน 2NF และแอตทริบิวต์ที่ไม่ใช่คีย์ทั้งหมดจะไม่ขึ้นอยู่กับคีย์หลัก (วันที่, ibid.)

ความสัมพันธ์ R อยู่ในรูปแบบปกติของ Boyce-Codd (BCNF) ต่อเมื่อดีเทอร์มิแนนต์แต่ละตัวเป็นตัวเลือกสำหรับใช้เป็นคีย์

บันทึก ด้านล่างนี้คือคำอธิบายสั้นๆ เกี่ยวกับคำย่อบางตัวที่ใช้ในคำจำกัดความของ Date

MVD (การพึ่งพาหลายค่า) - การพึ่งพาหลายค่า ใช้สำหรับเอนทิตีที่มีแอตทริบิวต์ตั้งแต่สามรายการขึ้นไปเท่านั้น ในการขึ้นต่อกันแบบหลายค่า ค่าของแอตทริบิวต์จะขึ้นอยู่กับเพียงส่วนหนึ่งของคีย์หลักเท่านั้น

FD (การพึ่งพาการทำงาน) - การพึ่งพาการทำงาน ในการพึ่งพาฟังก์ชัน ค่าของแอตทริบิวต์จะขึ้นอยู่กับค่าของแอตทริบิวต์อื่นที่ไม่ใช่ส่วนหนึ่งของคีย์หลัก

JD (เข้าร่วมการพึ่งพา) - เข้าร่วมการพึ่งพา ในการขึ้นต่อกันแบบเข้าร่วม คีย์หลักของเอนทิตีหลักสามารถตรวจสอบย้อนกลับได้ถึงระดับที่สามเป็นอย่างน้อย ในขณะที่ยังคงความสามารถในการใช้ในการเข้าร่วมคีย์ดั้งเดิม

ความสัมพันธ์อยู่ในรูปแบบปกติที่สี่ (4NF) หากมี MVD ใน R เช่น A®®B ในกรณีนี้ คุณลักษณะทั้งหมดของ R จะขึ้นอยู่กับฟังก์ชันของ A กล่าวอีกนัยหนึ่ง ใน R จะมีเฉพาะการพึ่งพา (FD หรือ MVD) ของรูปแบบ K®X (กล่าวคือ การพึ่งพาฟังก์ชันของแอตทริบิวต์ X บนตัวเลือกสำหรับใช้งาน เป็นคีย์ K) ดังนั้น R จะเป็นไปตามข้อกำหนดของ 4NF หากเป็นไปตาม BCNF และ MVD ทั้งหมดเป็น FDs จริง (วันที่, อ้างแล้ว)

สำหรับรูปแบบปกติที่ห้า ความสัมพันธ์ R จะเป็นไปตามความสัมพันธ์ของสหภาพ (JD)*(X, Y, …, Z) ถ้าหาก R เทียบเท่ากับการฉายภาพบน X, Y,..., Z โดยที่ X, Y,. .., Z ชุดย่อยของชุดของแอตทริบิวต์ R.

มีรูปแบบปกติอื่นๆ อีกมากมายสำหรับชนิดข้อมูลที่ซับซ้อนและสถานการณ์เฉพาะที่อยู่นอกเหนือขอบเขตของการสนทนาของเรา ผู้ที่ชื่นชอบการพัฒนาโมเดลทุกคนต้องการค้นหารูปแบบปกติอื่นๆ

แบบฟอร์มธุรกิจปกติ

ในหนังสือของเขา Clive Finklestein (Finklestein Cl. An Introduction to Information Engineering: From Strategic Planning to Information Systems. Reading, Massachusetts: Addison-Wesley, 1989) ได้ใช้แนวทางที่แตกต่างในการทำให้เป็นมาตรฐาน กำหนดรูปแบบธุรกิจปกติในแง่ของการลดรูปแบบเหล่านั้น นักสร้างแบบจำลองหลายคนพบว่าแนวทางนี้ใช้งานง่ายและปฏิบัติได้จริง

First Business Normal Form (1BNF) จะจับคู่กลุ่มที่เกิดซ้ำกับเอนทิตีอื่น เอนทิตีนี้ได้รับชื่อของตัวเองและแอตทริบิวต์คีย์หลัก (คอมโพสิต) จากเอนทิตีดั้งเดิมและกลุ่มที่เกิดซ้ำ

Second Business Normal Form (2BNF) จะจับคู่แอตทริบิวต์ที่บางส่วนขึ้นอยู่กับคีย์หลักไปยังเอนทิตีอื่น คีย์หลัก (คอมโพสิต) ของเอนทิตีนี้คือคีย์หลักของเอนทิตีซึ่งเดิมอาศัยอยู่ พร้อมกับคีย์เพิ่มเติมซึ่งแอตทริบิวต์จะขึ้นอยู่กับทั้งหมด

แบบฟอร์มธุรกิจปกติที่สาม (3BNF) จะย้ายแอตทริบิวต์ที่ไม่ขึ้นอยู่กับคีย์หลักไปยังเอนทิตีอื่น โดยทั้งหมดจะขึ้นอยู่กับคีย์หลักของเอนทิตีนี้

Business Normal Form (4BNF) จับคู่แอตทริบิวต์ที่ขึ้นอยู่กับค่าของคีย์หลักหรือเป็นทางเลือกสำหรับเอนทิตีรอง ซึ่งขึ้นอยู่กับค่าของคีย์หลักทั้งหมด หรือตำแหน่งที่ต้องมี (บังคับ) ในเอนทิตีนั้น .

แบบฟอร์ม Business Normal ที่ห้า (5BNF) จะปรากฏเป็นเอนทิตีที่มีโครงสร้างหากมีการเรียกซ้ำหรือการพึ่งพาอื่น ๆ ระหว่างอินสแตนซ์ของเอนทิตีรอง หรือหากมีการขึ้นต่อกันแบบเรียกซ้ำระหว่างอินสแตนซ์ของเอนทิตีหลัก

โมเดลข้อมูลลอจิกที่เสร็จสมบูรณ์

แบบจำลองทางลอจิคัลที่สมบูรณ์ต้องเป็นไปตามข้อกำหนดของแบบฟอร์มปกติทางธุรกิจที่สาม และรวมถึงเอนทิตี คุณลักษณะ และความสัมพันธ์ทั้งหมดที่จำเป็นในการสนับสนุนข้อกำหนดของข้อมูลและกฎเกณฑ์ทางธุรกิจที่เกี่ยวข้องกับข้อมูล

เอนทิตีทั้งหมดต้องมีชื่อที่อธิบายเนื้อหาและคำอธิบายหรือคำจำกัดความที่ชัดเจน รัดกุม สมบูรณ์ ในเอกสารเผยแพร่ฉบับใดฉบับหนึ่งต่อไปนี้ จะพิจารณาชุดคำแนะนำเบื้องต้นสำหรับการสร้างชื่อและคำอธิบายของหน่วยงานที่ถูกต้อง

เอนทิตีต้องมีชุดแอตทริบิวต์ที่สมบูรณ์ เพื่อให้ทุกข้อเท็จจริงเกี่ยวกับแต่ละเอนทิตีสามารถแสดงด้วยแอตทริบิวต์ได้ แต่ละแอตทริบิวต์ต้องมีชื่อที่สะท้อนถึงค่าของมัน ชนิดข้อมูลบูลีน และคำอธิบายหรือคำจำกัดความที่ชัดเจน สั้น และสมบูรณ์ ในสิ่งพิมพ์ฉบับใดฉบับหนึ่งต่อไปนี้ เราจะพิจารณาชุดคำแนะนำเบื้องต้นสำหรับการสร้างชื่อและคำอธิบายแอตทริบิวต์ที่ถูกต้อง

ความสัมพันธ์ควรรวมถึงการสร้างกริยาที่อธิบายความสัมพันธ์ระหว่างเอนทิตี พร้อมด้วยลักษณะเช่นพหุพจน์ ความจำเป็นในการดำรงอยู่ หรือความเป็นไปได้ของการไม่มีความสัมพันธ์

บันทึก จำนวนมาก ความสัมพันธ์อธิบายจำนวนสูงสุดของอินสแตนซ์เอนทิตีรองที่สามารถเชื่อมโยงกับอินสแตนซ์ของเอนทิตีดั้งเดิมความจำเป็นในการดำรงอยู่ หรือความเป็นไปได้ของการขาดงาน ความสัมพันธ์ใช้เพื่อกำหนดจำนวนขั้นต่ำของอินสแตนซ์ของเอนทิตีรองที่สามารถเชื่อมโยงกับอินสแตนซ์ของเอนทิตีดั้งเดิม

แบบจำลองข้อมูลทางกายภาพ

หลังจากสร้างโมเดลเชิงตรรกะที่สมบูรณ์และเพียงพอแล้ว คุณก็พร้อมที่จะตัดสินใจเกี่ยวกับทางเลือกของแพลตฟอร์มการใช้งาน ทางเลือกของแพลตฟอร์มขึ้นอยู่กับข้อกำหนดสำหรับการใช้ข้อมูลและหลักการเชิงกลยุทธ์ของสถาปัตยกรรมขององค์กร การเลือกแพลตฟอร์มเป็นปัญหาที่ซับซ้อนซึ่งอยู่นอกเหนือขอบเขตของหนังสือเล่มนี้

ใน ERwin แบบจำลองทางกายภาพคือการแสดงกราฟิกของฐานข้อมูลจริง ฐานข้อมูลทางกายภาพจะประกอบด้วยตาราง คอลัมน์ และความสัมพันธ์ โมเดลทางกายภาพขึ้นอยู่กับแพลตฟอร์มที่เลือกสำหรับการใช้งานและข้อกำหนดการใช้ข้อมูล โมเดลทางกายภาพสำหรับ IMS จะแตกต่างจากรุ่นเดียวกันสำหรับ Sybase อย่างมาก โมเดลจริงสำหรับรายงาน OLAP จะดูแตกต่างจากแบบจำลองสำหรับ OLTP (การประมวลผลธุรกรรมออนไลน์)

ตัวสร้างแบบจำลองข้อมูลและผู้ดูแลระบบฐานข้อมูล (DBA) ใช้แบบจำลองเชิงตรรกะ ข้อกำหนดการใช้งาน และหลักการเชิงกลยุทธ์ด้านสถาปัตยกรรมองค์กรเพื่อพัฒนาแบบจำลองข้อมูลทางกายภาพ คุณสามารถลดมาตรฐานของแบบจำลองฟิสิกส์เพื่อปรับปรุงประสิทธิภาพ และสร้างมุมมองเพื่อรองรับข้อกำหนดการใช้งาน ส่วนต่อไปนี้ให้รายละเอียดเกี่ยวกับกระบวนการดีนอร์มัลไลซ์และการสร้างมุมมอง

ส่วนนี้ให้ภาพรวมของกระบวนการสร้างแบบจำลองทางกายภาพ การรวบรวมข้อกำหนดสำหรับการใช้ข้อมูล การกำหนดองค์ประกอบของแบบจำลองทางกายภาพ และวิศวกรรมย้อนกลับ ปัญหาเหล่านี้จะกล่าวถึงในรายละเอียดเพิ่มเติมในสิ่งพิมพ์ในอนาคต

การรวบรวมข้อกำหนดการใช้ข้อมูล

โดยปกติ คุณรวบรวมข้อกำหนดการใช้ข้อมูลตั้งแต่เนิ่นๆ ระหว่างการสัมภาษณ์และช่วงการทำงาน ในขณะเดียวกัน ข้อกำหนดควรกำหนดการใช้ข้อมูลโดยผู้ใช้อย่างครบถ้วนที่สุด ทัศนคติและช่องว่างที่ผิวเผินในแบบจำลองทางกายภาพสามารถนำไปสู่ต้นทุนที่ไม่ได้วางแผนไว้และทำให้โครงการล่าช้า ข้อกำหนดการใช้งานรวมถึง:

    ข้อกำหนดการเข้าถึงและประสิทธิภาพ

    ลักษณะเชิงปริมาตร (ค่าประมาณของปริมาณข้อมูลที่จะจัดเก็บ) ซึ่งช่วยให้ผู้ดูแลระบบสามารถแสดงปริมาณทางกายภาพของฐานข้อมูลได้

    ค่าประมาณของจำนวนผู้ใช้ที่ต้องการเข้าถึงข้อมูลพร้อมกัน ซึ่งช่วยให้คุณออกแบบฐานข้อมูลของคุณให้มีประสิทธิภาพในระดับที่ยอมรับได้

    สรุป สรุป และข้อมูลที่คำนวณหรือได้มาอื่น ๆ ที่อาจพิจารณาว่าเป็นตัวเลือกสำหรับการจัดเก็บในโครงสร้างข้อมูลที่คงทน

    ข้อกำหนดสำหรับการสร้างรายงานและแบบสอบถามมาตรฐานเพื่อช่วยผู้ดูแลระบบฐานข้อมูลสร้างดัชนี

    มุมมอง (ถาวรหรือเสมือน) ที่จะช่วยเหลือผู้ใช้ในการดำเนินการรวมหรือกรองข้อมูล

นอกเหนือจากประธาน เลขานุการ และผู้ใช้แล้ว เซสชันข้อกำหนดการใช้งานควรรวมถึงผู้สร้างแบบจำลอง ผู้ดูแลระบบฐานข้อมูล และสถาปนิกฐานข้อมูล ควรมีการอภิปรายข้อกำหนดของผู้ใช้สำหรับข้อมูลในอดีต ระยะเวลาที่ข้อมูลถูกจัดเก็บมีผลกระทบอย่างมากต่อขนาดของฐานข้อมูล บ่อยครั้ง ข้อมูลที่เก่ากว่าจะถูกจัดเก็บในรูปแบบรวม และข้อมูลอะตอมจะถูกเก็บถาวรหรือลบทิ้ง

ผู้ใช้ควรนำตัวอย่างคำถามและรายงานมาที่เซสชัน รายงานต้องได้รับการกำหนดอย่างเข้มงวดและต้องรวมค่าอะตอมที่ใช้สำหรับฟิลด์สรุปและสรุปใดๆ

ส่วนประกอบของแบบจำลองข้อมูลทางกายภาพ

ส่วนประกอบของแบบจำลองข้อมูลทางกายภาพคือ ตาราง คอลัมน์ และความสัมพันธ์ เอนทิตีในแบบจำลองเชิงตรรกะมักจะกลายเป็นตารางในแบบจำลองทางกายภาพ แอตทริบิวต์บูลีนจะกลายเป็นคอลัมน์ ความสัมพันธ์เชิงตรรกะจะกลายเป็นข้อจำกัดในความสมบูรณ์ของความสัมพันธ์ ความสัมพันธ์เชิงตรรกะบางอย่างไม่สามารถนำไปใช้ในฐานข้อมูลจริงได้

วิศวกรรมย้อนกลับ

เมื่อโลจิคัลโมเดลไม่พร้อมใช้งาน จำเป็นต้องสร้างโมเดลขึ้นใหม่จากฐานข้อมูลที่มีอยู่ ที่ ERwin กระบวนการนี้เรียกว่าวิศวกรรมย้อนกลับ วิศวกรรมย้อนกลับสามารถทำได้หลายวิธี ผู้สร้างโมเดลสามารถสำรวจโครงสร้างข้อมูลในฐานข้อมูล และสร้างตารางขึ้นใหม่ในสภาพแวดล้อมการสร้างแบบจำลองที่มองเห็นได้ คุณสามารถนำเข้า data definition language (DDL) ลงในเครื่องมือที่สนับสนุนวิศวกรรมย้อนกลับ (เช่น Erwin) เครื่องมือขั้นสูง เช่น ERwin มีฟังก์ชันที่ให้การสื่อสาร ODBC กับฐานข้อมูลที่มีอยู่เพื่อสร้างแบบจำลองโดยการอ่านโครงสร้างข้อมูลโดยตรง วิศวกรรมย้อนกลับโดยใช้ ERwin จะได้รับการกล่าวถึงในรายละเอียดในสิ่งพิมพ์ในอนาคต

การใช้ขอบเขตหน้าที่ขององค์กร

เมื่อสร้างโมเดลเชิงตรรกะ ตัวสร้างโมเดลต้องแน่ใจว่าโมเดลใหม่ตรงกับโมเดลองค์กร การใช้ขอบเขตการทำงานขององค์กรหมายถึงการสร้างแบบจำลองข้อมูลตามเงื่อนไขที่ใช้ในองค์กร วิธีการใช้ข้อมูลในบริษัทกำลังเปลี่ยนแปลงเร็วกว่าตัวข้อมูลเอง ในแต่ละโมเดลเชิงตรรกะ ข้อมูลจะต้องแสดงแบบองค์รวม โดยไม่คำนึงถึงโดเมนธุรกิจที่สนับสนุน หน่วยงาน คุณลักษณะ และความสัมพันธ์ควรกำหนดกฎเกณฑ์ทางธุรกิจในระดับองค์กร

บันทึก เพื่อนร่วมงานของฉันบางคนอ้างถึงขอบเขตการทำงานขององค์กรเหล่านี้เป็นแบบจำลองในโลกแห่งความเป็นจริง การสร้างแบบจำลองในโลกแห่งความเป็นจริงส่งเสริมให้ผู้สร้างแบบจำลองดูข้อมูลในแง่ของความสัมพันธ์และความสัมพันธ์ในชีวิตจริง

การใช้ขอบเขตหน้าที่การทำงานขององค์กรสำหรับโมเดลข้อมูลที่สร้างขึ้นอย่างเหมาะสมทำให้เกิดกรอบงานเพื่อสนับสนุนความต้องการด้านข้อมูลของกระบวนการและแอปพลิเคชันจำนวนเท่าใดก็ได้ ทำให้องค์กรสามารถใช้ประโยชน์จากทรัพย์สินหรือข้อมูลที่มีค่าที่สุดชิ้นใดตัวหนึ่งได้อย่างมีประสิทธิภาพมากขึ้น

โมเดลข้อมูลองค์กรคืออะไร?

โมเดลข้อมูลองค์กร (EDM)มีหน่วยงาน คุณลักษณะ และความสัมพันธ์ที่แสดงถึงความต้องการข้อมูลของบริษัท โดยทั่วไปแล้ว EDM จะแบ่งออกเป็นสาขาวิชา ซึ่งเป็นตัวแทนของกลุ่มหน่วยงานที่เกี่ยวข้องกับการสนับสนุนความต้องการทางธุรกิจที่เฉพาะเจาะจง บางสาขาวิชาอาจครอบคลุมถึงหน้าที่ทางธุรกิจเฉพาะ เช่น การจัดการสัญญา ส่วนอื่นๆ อาจจัดกลุ่มหน่วยงานที่อธิบายผลิตภัณฑ์หรือบริการ

โมเดลลอจิคัลแต่ละโมเดลต้องสอดคล้องกับโดเมนโมเดลข้อมูลขององค์กรที่มีอยู่ ถ้าแบบจำลองเชิงตรรกะไม่ตรงตามข้อกำหนดนี้ จะต้องเพิ่มแบบจำลองที่กำหนดหัวเรื่องเข้าไป การเปรียบเทียบนี้ช่วยให้แน่ใจว่ารูปแบบองค์กรได้รับการปรับปรุงหรือปรับเปลี่ยน และความพยายามในการสร้างแบบจำลองเชิงตรรกะทั้งหมดได้รับการประสานงานภายในองค์กร

EDMยังรวมถึงเอนทิตีเฉพาะที่กำหนดขอบเขตของค่าสำหรับแอททริบิวต์หลัก หน่วยงานเหล่านี้ไม่มีผู้ปกครองและถูกกำหนดให้เป็นอิสระ หน่วยงานอิสระมักใช้เพื่อรักษาความสมบูรณ์ของความสัมพันธ์ เอนทิตีเหล่านี้ถูกระบุด้วยชื่อต่างๆ เช่น ตารางโค้ด ตารางลิงก์ ตารางประเภท หรือตารางการจัดประเภท เราจะใช้คำว่า "วัตถุทางธุรกิจขององค์กร" ออบเจ็กต์ธุรกิจขององค์กรคือเอนทิตีที่มีชุดของค่าแอตทริบิวต์ที่ไม่ขึ้นกับเอนทิตีอื่น ควรใช้วัตถุทางธุรกิจขององค์กรภายในองค์กรอย่างสม่ำเสมอ

การสร้างโมเดลข้อมูลองค์กรด้วยการปรับขนาด

มีองค์กรหลายแห่งที่สร้างรูปแบบองค์กรตั้งแต่ต้นจนจบด้วยความพยายามร่วมกันเพียงครั้งเดียว ในทางกลับกัน องค์กรส่วนใหญ่สร้างโมเดลองค์กรที่ค่อนข้างสมบูรณ์โดยการสร้างขึ้นมา

การเติบโตหมายถึงการสร้างบางสิ่งขึ้นทีละชั้น เหมือนกับที่หอยนางรมปลูกไข่มุก แบบจำลองข้อมูลแต่ละแบบที่สร้างขึ้นจะให้ข้อมูลแก่การก่อตัวของ EDM การสร้าง EDM ด้วยวิธีนี้จำเป็นต้องมีขั้นตอนการสร้างแบบจำลองเพิ่มเติมเพื่อเพิ่มโครงสร้างข้อมูลและโดเมนใหม่ หรือขยายโครงสร้างข้อมูลที่มีอยู่ ทำให้สามารถสร้างโมเดลข้อมูลขององค์กรได้โดยการสร้างระดับรายละเอียดและการปรับแต่งซ้ำๆ

แนวคิดของวิธีการสร้างแบบจำลอง

มีหลายวิธีสำหรับการสร้างแบบจำลองข้อมูลด้วยภาพ ERwin รองรับสอง:

    IDEF1X (คำจำกัดความการรวมสำหรับการสร้างแบบจำลองข้อมูล - คำอธิบายแบบบูรณาการของแบบจำลองข้อมูล)

    IE (วิศวกรรมสารสนเทศ - วิศวกรรมสารสนเทศ)

IDEF1X เป็นวิธีการที่ดีและมีการใช้สัญกรณ์อย่างกว้างขวาง

คำอธิบายแบบบูรณาการของแบบจำลองข้อมูล

IDEF1X เป็นวิธีการสร้างแบบจำลองข้อมูลที่มีโครงสร้างสูง ซึ่งขยายวิธีการ IDEF1 ที่นำมาใช้เป็นมาตรฐาน FIPS (มาตรฐานการประมวลผลข้อมูลของรัฐบาลกลาง) IDEF1X ใช้ชุดประเภทการสร้างแบบจำลองที่มีโครงสร้างสูงและส่งผลให้เกิดแบบจำลองข้อมูลที่ต้องการความเข้าใจในธรรมชาติทางกายภาพของข้อมูลก่อนจึงจะสามารถแสดงข้อมูลดังกล่าวได้

โครงสร้างที่เข้มงวดของ IDEF1X บังคับให้ผู้สร้างโมเดลกำหนดคุณลักษณะให้กับเอนทิตีที่อาจไม่สอดคล้องกับความเป็นจริงของโลกรอบตัว ตัวอย่างเช่น IDEF1X กำหนดให้ประเภทย่อยของเอนทิตีทั้งหมดเป็นแบบเอกสิทธิ์เฉพาะบุคคล สิ่งนี้นำไปสู่ความจริงที่ว่าบุคคลไม่สามารถเป็นทั้งลูกค้าและพนักงานได้ ในขณะที่การปฏิบัติจริงบอกเราเป็นอย่างอื่น

วิศวกรรมสารสนเทศ

Clive Finklestein มักเรียกกันว่าบิดาแห่งวิศวกรรมสารสนเทศ แม้ว่า James Martin จะแบ่งปันแนวคิดที่คล้ายกันกับเขา (Martin, James. Managing the Database Environment. Upper Saddle River, New Jersey: Prentice Hall, 1983.) วิศวกรรมข้อมูลใช้แนวทางที่ขับเคลื่อนด้วยธุรกิจเพื่อจัดการข้อมูลและใช้สัญลักษณ์อื่นเพื่อแสดงกฎเกณฑ์ทางธุรกิจ IE ทำหน้าที่เป็นส่วนขยายและพัฒนาของสัญกรณ์และแนวคิดพื้นฐานของระเบียบวิธี ER ที่เสนอโดย Peter Chen

IE จัดเตรียมโครงสร้างพื้นฐานเพื่อรองรับความต้องการข้อมูลโดยบูรณาการการวางแผนเชิงกลยุทธ์ขององค์กรเข้ากับระบบสารสนเทศที่กำลังพัฒนา การบูรณาการดังกล่าวทำให้สามารถเชื่อมโยงการจัดการแหล่งข้อมูลกับโอกาสเชิงกลยุทธ์ระยะยาวของบริษัทได้อย่างใกล้ชิดยิ่งขึ้น แนวทางที่ขับเคลื่อนด้วยธุรกิจนี้ทำให้ผู้สร้างโมเดลหลายคนเลือก IE แทนวิธีการอื่นๆ ที่เน้นไปที่การแก้ปัญหาการพัฒนาในทันทีเป็นหลัก

IE จัดเตรียมเวิร์กโฟลว์ที่นำไปสู่องค์กรในการระบุข้อมูลทั้งหมดที่จำเป็นในการรวบรวมและจัดการข้อมูล และระบุความสัมพันธ์ระหว่างวัตถุข้อมูล ด้วยเหตุนี้ ข้อกำหนดด้านข้อมูลจึงถูกกำหนดขึ้นอย่างชัดเจนตามคำสั่งการจัดการ และสามารถแปลโดยตรงเป็นระบบข้อมูลการจัดการที่จะสนับสนุนความต้องการข้อมูลเชิงกลยุทธ์

บทสรุป

การทำความเข้าใจวิธีใช้เครื่องมือสร้างแบบจำลองข้อมูลอย่าง ERwin เป็นเพียงส่วนหนึ่งของปัญหาเท่านั้น นอกจากนี้ คุณต้องเข้าใจเมื่องานการสร้างแบบจำลองข้อมูลถูกดำเนินการ และข้อกำหนดของข้อมูลและกฎเกณฑ์ทางธุรกิจจะถูกรวบรวมเพื่อแสดงในรูปแบบข้อมูลอย่างไร การดำเนินการเซสชันการทำงานให้เงื่อนไขที่ดีที่สุดสำหรับการเก็บรวบรวมข้อกำหนดข้อมูลในสภาพแวดล้อมที่มีผู้เชี่ยวชาญเฉพาะเรื่อง ผู้ใช้ และผู้เชี่ยวชาญด้านเทคโนโลยีสารสนเทศ

การสร้างแบบจำลองข้อมูลที่ดีต้องมีการวิเคราะห์และวิจัยข้อกำหนดด้านข้อมูลและกฎเกณฑ์ทางธุรกิจที่รวบรวมระหว่างช่วงการทำงานและการสัมภาษณ์ โมเดลข้อมูลที่เป็นผลลัพธ์ควรถูกเปรียบเทียบกับโมเดลองค์กร ถ้าเป็นไปได้ เพื่อให้แน่ใจว่าจะไม่ขัดแย้งกับโมเดลอ็อบเจ็กต์ที่มีอยู่และรวมถึงออบเจ็กต์ที่จำเป็นทั้งหมด

โมเดลข้อมูลประกอบด้วยแบบจำลองทางตรรกะและทางกายภาพที่แสดงถึงข้อกำหนดด้านข้อมูลและกฎเกณฑ์ทางธุรกิจ แบบจำลองเชิงตรรกะต้องถูกลดขนาดให้อยู่ในรูปแบบปกติที่สาม รูปแบบปกติที่สามจำกัด เพิ่ม อัปเดต และลบความผิดปกติของโครงสร้างข้อมูลเพื่อรองรับหลักการ "หนึ่งข้อเท็จจริง ที่เดียว" ควรมีการวิเคราะห์และวิจัยข้อกำหนดของข้อมูลที่เก็บรวบรวมและกฎเกณฑ์ทางธุรกิจ จำเป็นต้องเปรียบเทียบกับโมเดลองค์กรเพื่อให้แน่ใจว่าไม่ขัดแย้งกับโมเดลอ็อบเจ็กต์ที่มีอยู่และรวมออบเจ็กต์ที่จำเป็นทั้งหมด

ใน ERwin ตัวแบบข้อมูลมีทั้งแบบจำลองทางตรรกะและแบบกายภาพ ERwin นำแนวทาง ER ไปใช้ และอนุญาตให้คุณสร้างวัตถุแบบจำลองเชิงตรรกะและทางกายภาพเพื่อแสดงข้อกำหนดของข้อมูลและกฎเกณฑ์ทางธุรกิจ ออบเจ็กต์โมเดลลอจิกประกอบด้วยเอนทิตี คุณลักษณะ และความสัมพันธ์ ออบเจ็กต์แบบจำลองทางกายภาพประกอบด้วยตาราง คอลัมน์ และข้อจำกัดความสมบูรณ์ของความสัมพันธ์

ในเอกสารเผยแพร่ฉบับใดฉบับหนึ่งต่อไปนี้ จะพิจารณาถึงประเด็นในการระบุเอนทิตี การกำหนดประเภทเอนทิตี การเลือกชื่อและคำอธิบายเอนทิตี ตลอดจนเคล็ดลับบางประการเพื่อหลีกเลี่ยงข้อผิดพลาดในการสร้างแบบจำลองที่พบบ่อยที่สุดที่เกี่ยวข้องกับการใช้เอนทิตี

เอนทิตีต้องมีชุดแอตทริบิวต์ที่สมบูรณ์ เพื่อให้ทุกข้อเท็จจริงเกี่ยวกับแต่ละเอนทิตีสามารถแสดงด้วยแอตทริบิวต์ได้ แต่ละแอตทริบิวต์ต้องมีชื่อที่สะท้อนถึงค่าของมัน ชนิดข้อมูลบูลีน และคำอธิบายหรือคำจำกัดความที่ชัดเจน สั้น และสมบูรณ์ ในสิ่งพิมพ์ฉบับใดฉบับหนึ่งต่อไปนี้ เราจะพิจารณาชุดคำแนะนำเบื้องต้นสำหรับการสร้างชื่อและคำอธิบายแอตทริบิวต์ที่ถูกต้อง ความสัมพันธ์ควรรวมถึงการสร้างกริยาที่อธิบายความสัมพันธ์ระหว่างเอนทิตี พร้อมด้วยลักษณะเช่นพหุพจน์ ความจำเป็นในการดำรงอยู่ หรือความเป็นไปได้ของการไม่มีความสัมพันธ์

บันทึก จำนวนมาก ความสัมพันธ์อธิบายจำนวนสูงสุดของอินสแตนซ์เอนทิตีรองที่สามารถเชื่อมโยงกับอินสแตนซ์ของเอนทิตีดั้งเดิมความจำเป็นของการมีอยู่หรือความเป็นไปได้ที่จะขาดหายไป ความสัมพันธ์ใช้เพื่อกำหนดจำนวนขั้นต่ำของอินสแตนซ์ของเอนทิตีรองที่สามารถเชื่อมโยงกับอินสแตนซ์ของต้นฉบับ

ในการขาย คุณต้องเข้าใจสิ่งที่คุณกำลังขาย

มากำหนดคำศัพท์และแนวคิดกัน ( คลังข้อมูล) ไม่ใช่ระบบของตัวบ่งชี้ประสิทธิภาพหลัก (KPI, KPI) นี่ไม่ใช่ฐานข้อมูลขนาดใหญ่ นี่ไม่ใช่การวิเคราะห์ เครื่องมือ OLAPนี่ไม่ใช่ระบบอัจฉริยะที่ให้คุณดึงข้อมูลใหม่และรับการพึ่งพาทางสถิติ นี่ไม่ใช่ระบบของข้อมูลอ้างอิงเดียว - นี่ไม่ใช่คลังข้อมูล ถ้าเราพูดถึงมันในบริบทของรายการเดียว

คลังข้อมูลองค์กรนี่คืออาร์เรย์ข้อมูลที่จัดเป็นพิเศษขององค์กร (องค์กร) ประมวลผลและเก็บไว้ในฮาร์ดแวร์และซอฟต์แวร์เดียวที่ซับซ้อน ซึ่งให้การเข้าถึงอย่างรวดเร็วไปยังข้อมูลการดำเนินงานและประวัติ การวิเคราะห์ข้อมูลหลายมิติ (KPI สำหรับการวัดต่างๆ) รับการคาดการณ์และสถิติใน บริบทของข้อมูลอ้างอิงด้านกฎระเบียบที่ตกลงกันไว้ (NSI)

ผู้มีโอกาสเป็นลูกค้าสำหรับคลังข้อมูลองค์กรและได้อะไร?

จะระบุลูกค้าองค์กรที่มีศักยภาพที่ต้องการคลังข้อมูลได้อย่างไร

  1. ประการแรก ข้อมูลจำนวนมากควรเกิดขึ้นในกิจกรรมประจำวันของบริษัท ซึ่งอาจเป็นการโทรศัพท์ ธุรกรรมทางการเงิน การร้องเรียน/รีวิวจากลูกค้า คำขอจัดส่งของลูกค้า ข้อมูลจากดาวเทียมสอดแนม ฯลฯ โดยหลักการแล้ว อะไรก็ตาม สิ่งสำคัญคือมีข้อมูลจำนวนมาก
  2. ผู้มีโอกาสเป็นลูกค้าควรมีความปรารถนาที่จะเห็นและวิเคราะห์ข้อมูลนี้ ในเวลาเดียวกัน ระยะเวลาของการวิเคราะห์ควรจะค่อนข้างกว้างขวาง ตั้งแต่วันหรือชั่วโมง ไปจนถึงการวิเคราะห์หลายปี
  3. ลูกค้าต้องมีโครงสร้างพื้นฐานที่ใช้งานได้ตามปกติ (ไม่ควรมีเซิร์ฟเวอร์ที่เชื่อมต่อด้วยคู่บิดหรือพอร์ต USB) หากลูกค้าไม่มีโครงสร้างพื้นฐาน เขาต้องขายมัน

ลูกค้าได้รับประโยชน์อะไรบ้างจากการใช้คลังข้อมูลองค์กร

  1. ระบบจัดเก็บข้อมูลแบบครบวงจรสำหรับข้อมูลองค์กรปรากฏขึ้นซึ่งมีการใช้ข้อมูลอ้างอิงเดียว
  2. มีโอกาสที่จะทำการวิเคราะห์ธุรกิจอย่างครอบคลุม ตัวอย่างเช่น ลูกค้ารายใดที่ทำกำไรและทำกำไรได้มากที่สุด บริการใด ลูกค้าเป็นที่ต้องการมากที่สุด ประเภทใดที่เรียกร้องบ่อยที่สุด และในภูมิภาคใด ฯลฯ
  3. เป็นไปได้ที่จะทำการวิเคราะห์โดยใช้ข้อมูลในอดีต บ่อยครั้ง ระบบการทำงาน (อัตโนมัติกระบวนการทางธุรกิจรายวัน) ไม่อนุญาตให้ทำเช่นนี้ พวกเขาไม่มีพื้นที่เพียงพอสำหรับเก็บประวัติและอำนาจในการดำเนินการวิเคราะห์
  4. เป็นไปได้ที่จะเชื่อมต่อและวิเคราะห์ข้อมูลที่จัดเก็บไว้ในระบบข้อมูลต่างๆ ก่อนหน้านี้ ตัวอย่างเช่น ข้อมูลทราฟฟิกของสาขาต่าง ๆ ถูกเก็บไว้ในระบบการเรียกเก็บเงินจากนักพัฒนาที่แตกต่างกัน หลังจากใช้งานคลังข้อมูลแล้ว จะสามารถวิเคราะห์ร่วมกันได้ในรายงานฉบับเดียว
  5. เป็นไปได้ที่จะวิเคราะห์และข้ามข้อมูลประเภทต่างๆ ตัวอย่างเช่น เงินและการจราจร จำนวนพนักงาน และจำนวนการปฏิเสธหรือเรียกร้อง ฯลฯ
  6. มีพื้นฐานสำหรับการคำนวณต้นทุนการบริการที่ดีขึ้น - จากข้อมูลจากคลังข้อมูลขององค์กร เป็นไปได้ที่จะได้รับข้อมูลที่เพียงพอมากขึ้นสำหรับฐานการกระจายตามธรรมชาติ

คลังข้อมูลองค์กรคืออะไร

คลังข้อมูลองค์กรสร้างองค์ประกอบใดบ้างจากมุมมองทางเทคนิค

ส่วนประกอบ คลังข้อมูลองค์กร รัฐวิสาหกิจ

  1. ลูกค้ามีระบบปฏิบัติการอยู่เสมอ - แหล่งข้อมูลสำหรับคลังข้อมูลองค์กร เช่น การบัญชี การเรียกเก็บเงิน การธนาคาร เป็นต้น ระบบต่างๆ
  2. โดยใช้ แอปพลิเคชัน ETL(ซอฟต์แวร์ที่ให้คุณดึง แปลง และโหลดข้อมูล) ข้อมูลจากระบบต้นทางจะเข้าสู่ฐานข้อมูลคลังข้อมูล สามารถใช้เครื่องมือ ETL ต่อไปนี้: Informatica Power Center, IBM DataStage, Oracle Data Integrator, Oracle WareHouse Builder นอกจากนี้ยังมีผลิตภัณฑ์จากผู้ขายรายอื่น แต่แทบจะไม่มีตัวแทนในตลาดรัสเซีย
  3. ตัวเอง ฐานข้อมูลโครงสร้างการจัดเก็บขององค์กรไม่ได้เป็นนามธรรม (ชุดของตาราง เขตข้อมูลในนั้น และความสัมพันธ์ระหว่างตาราง) แต่ถูกสร้างขึ้นบนพื้นฐานของ แบบจำลองข้อมูล. ฐานข้อมูลส่วนใหญ่ใช้ Oracle หรือ Teradata
  4. แบบจำลองข้อมูลเป็นคำอธิบายของเอนทิตีทั้งหมด ออบเจ็กต์ฐานข้อมูลของคลังข้อมูลองค์กร และรวมถึง: แบบจำลองข้อมูลแนวคิด แบบจำลองข้อมูลเชิงตรรกะ และทางกายภาพ โมเดลฐานข้อมูล . ในระดับแบบจำลองแนวคิด เอนทิตีและความสัมพันธ์ระหว่างกันจะถูกกำหนด ในระดับของแบบจำลองเชิงตรรกะ เอนทิตีจะถูกแบ่งออกเป็นส่วนธุรกิจ ให้คำอธิบายโดยละเอียดและครบถ้วน และกำหนดความสัมพันธ์ เมื่อพัฒนาโมเดลฐานข้อมูลทางกายภาพ โครงสร้างฐานข้อมูลทั้งหมดจะถูกกำหนด - จากตารางและฟิลด์ในโมเดล ไปจนถึงพาร์ติชั่นและดัชนี โมเดลข้อมูลIBM, SAP และ Oracle กำลังจัดหาตลาดอยู่ในปัจจุบัน แต่การซื้อโมเดลข้อมูลไม่ได้หมายความถึงการสร้างร้านค้าองค์กรที่เหมาะสมโดยอัตโนมัติแบบจำลองข้อมูลนี่ไม่ใช่ผลิตภัณฑ์ชนิดบรรจุกล่อง จำเป็นต้องปรับเปลี่ยนให้เหมาะสมกับความต้องการของลูกค้าแต่ละราย
  5. นอกจากนี้แล้ว ใช้ข้อมูลจากคลังข้อมูลองค์กร พื้นที่ของการวิเคราะห์ การรายงาน และ ดาต้ามาร์ท. ต่อจากนั้น ผู้ใช้สามารถสร้างการรายงานที่จำเป็นและดำเนินการวิเคราะห์หลายตัวแปรได้อย่างอิสระ Business Objects, Oracle Discoverer, IBM AlphaBlocks และผลิตภัณฑ์อื่นๆ ส่วนใหญ่จะใช้เป็นเครื่องมือวิเคราะห์

ส่วนประกอบของคลังข้อมูลขององค์กรมีลักษณะอย่างไร (โมเดลข้อมูล กระบวนการ ETL ดาต้ามาร์ท)

ให้ตัวอย่างเป็นตัวอย่างของแบบจำลองข้อมูล การนำกระบวนการ ETL ไปใช้ รูปแบบของการสนับสนุนสำหรับข้อมูลอ้างอิงเดียว data marts


โมเดลลอจิกข้อมูล.
กำหนดเอนทิตี คุณลักษณะ และความสัมพันธ์ระหว่างเอนทิตี


กระบวนการ ETLการกำจัดข้อมูลที่ซ้ำกันในแหล่งข้อมูล


แบบฟอร์มการป้อนข้อมูลสำหรับการสร้างไดเร็กทอรีเดียว


ข้อมูลมาร์ทในรูปแบบรายงานตาราง


ข้อมูลมาร์ทด้วยกราฟิกและสี
การส่งออกข้อมูลตามเงื่อนไขที่กำหนด


ข้อมูลมาร์ทกับกำหนดการ

ซอฟต์แวร์และฮาร์ดแวร์ที่เกี่ยวข้อง

อย่างแรกเลย นอกเหนือจากบริการสำหรับการพัฒนาคลังข้อมูลองค์กรแล้ว ใบอนุญาตยังจำหน่ายทั้งซอฟต์แวร์เซิร์ฟเวอร์ (ระบบปฏิบัติการ ฐานข้อมูล แอปพลิเคชันเซิร์ฟเวอร์ ฯลฯ) และไซต์ไคลเอ็นต์ (เครื่องมือป้องกันไวรัสและความปลอดภัย) .

เป็นไปได้ว่าเซิร์ฟเวอร์ที่มีอยู่ของลูกค้าไม่ได้ออกแบบมาสำหรับการปรับใช้คลังข้อมูล จำเป็นต้องนำเสนอข้อกำหนดสำหรับพวกเขาและขายฮาร์ดแวร์ให้กับลูกค้าที่มีศักยภาพ

นอกจากตัวเซิร์ฟเวอร์เองแล้ว ดิสก์อาร์เรย์ยังจำเป็นสำหรับการจัดเก็บข้อมูลจำนวนมาก

ด้วยความตั้งใจที่จะสร้างคลังข้อมูลขององค์กร ผู้มีโอกาสเป็นลูกค้ามักไม่เข้าใจว่าเขาจะให้ความซ้ำซ้อนได้อย่างไร บ่อยครั้งที่ระบบสำรองข้อมูลที่มีอยู่ของลูกค้าไม่สามารถเชื่อมต่อปริมาณข้อมูลจาก 20-30 TB กับข้อมูลสำรองพร้อมกันได้

ตามกฎแล้วผู้เชี่ยวชาญและผู้ใช้ของลูกค้าต้องการหลักสูตรการฝึกอบรม

Kovtun M.V. สิงหาคม 2010

ส่งงานที่ดีของคุณในฐานความรู้เป็นเรื่องง่าย ใช้แบบฟอร์มด้านล่าง

นักศึกษา นักศึกษาระดับบัณฑิตศึกษา นักวิทยาศาสตร์รุ่นเยาว์ที่ใช้ฐานความรู้ในการศึกษาและการทำงานจะขอบคุณอย่างยิ่ง

โพสต์เมื่อ http://www.allbest.ru/

  • 1. โมเดลข้อมูลเชิงสัมพันธ์
    • 1.1 แบบจำลองข้อมูลเชิงสัมพันธ์ คำจำกัดความพื้นฐาน
    • 1.2 การดำเนินงานด้านความสัมพันธ์
  • 2. ระบบสารสนเทศองค์กร
  • บรรณานุกรม

1. โมเดลข้อมูลเชิงสัมพันธ์

1.1 แบบจำลองข้อมูลเชิงสัมพันธ์ คำจำกัดความพื้นฐาน

ในสาขาคณิตศาสตร์ แนวคิดของ "ตาราง" สอดคล้องกับแนวคิดของ "ความสัมพันธ์" (ความสัมพันธ์) ตารางแสดงวัตถุในโลกแห่งความเป็นจริง - เอนทิตี และแต่ละแถวแสดงถึงอินสแตนซ์เฉพาะของเอนทิตี แต่ละคอลัมน์มีชื่อเฉพาะสำหรับตาราง สตริงไม่มีชื่อ ไม่ได้กำหนดลำดับ และหมายเลขไม่ได้จำกัดตามตรรกะ ข้อดีหลักประการหนึ่งของแบบจำลองข้อมูลเชิงสัมพันธ์คือความเป็นเนื้อเดียวกัน (แต่ละแถวของตารางมีรูปแบบเดียว) ผู้ใช้เองตัดสินใจว่าเอนทิตีที่เกี่ยวข้องมีความเป็นเนื้อเดียวกันหรือไม่ ซึ่งจะช่วยแก้ปัญหาความเหมาะสมของแบบจำลอง

แนวคิดพื้นฐาน:

* ความสัมพันธ์คือตารางสองมิติที่มีข้อมูลบางส่วน

* เอนทิตี - วัตถุในลักษณะใด ๆ ข้อมูลที่เก็บไว้ในฐานข้อมูล คุณลักษณะ - คุณสมบัติที่กำหนดลักษณะเอนทิตี (คอลัมน์)

* ระดับความสัมพันธ์ - จำนวนคอลัมน์

* โครงการความสัมพันธ์ - รายการของชื่อแอตทริบิวต์เช่น EMPLOYEE (หมายเลข, ชื่อเต็ม, ปีเกิด, ตำแหน่ง, แผนก)

* โดเมน - ชุดของค่าแอตทริบิวต์ความสัมพันธ์ (ประเภทข้อมูล)

* Tuple - แถวตาราง

* Cardinality (กำลัง) - จำนวนแถวในตาราง

* คีย์หลักคือแอตทริบิวต์ที่ระบุแถวในความสัมพันธ์โดยไม่ซ้ำกัน คีย์หลักที่มีแอตทริบิวต์หลายรายการเรียกว่าคีย์ผสม คีย์หลักต้องไม่ว่างเปล่าทั้งหมดหรือบางส่วน (มีค่าว่าง) คีย์ที่สามารถใช้เป็นคีย์หลักจะเรียกว่าคีย์ตัวเลือกหรือคีย์สำรอง

* Foreign Key คือแอตทริบิวต์ของตารางหนึ่งที่สามารถใช้เป็นคีย์หลักของอีกตารางหนึ่งได้ เป็นการอ้างอิงถึงคีย์หลักของตารางอื่น

Normalization เป็นกระบวนการที่มุ่งลดความซ้ำซ้อนของข้อมูลในฐานข้อมูล นอกจากตัวข้อมูลแล้ว ชื่อต่างๆ ชื่ออ็อบเจ็กต์ และนิพจน์ยังสามารถทำให้เป็นมาตรฐานในฐานข้อมูลได้อีกด้วย

ฐานข้อมูลที่ไม่เป็นไปตามมาตรฐานประกอบด้วยข้อมูลในตารางอย่างน้อยหนึ่งตาราง สิ่งนี้สร้างความประทับใจว่าการรวมข้อมูลในตารางใดตารางหนึ่งไม่ได้เกิดจากสาเหตุที่ชัดเจน สถานการณ์นี้อาจส่งผลกระทบในทางลบต่อความปลอดภัยของข้อมูล การจัดการพื้นที่ดิสก์ ความเร็วในการสืบค้น ประสิทธิภาพการอัปเดตฐานข้อมูล และความสมบูรณ์ของข้อมูลที่เก็บไว้ ที่สำคัญที่สุด ฐานข้อมูลก่อนการทำให้เป็นมาตรฐานเป็นโครงสร้างที่ยังไม่ได้แยกย่อยตามตรรกะเป็นตารางขนาดเล็กที่สามารถจัดการได้มากขึ้น

รูปแบบปกติเป็นตัวบ่งชี้ระดับหรือความลึกของการทำให้ฐานข้อมูลเป็นมาตรฐาน ระดับการทำให้เป็นมาตรฐานของฐานข้อมูลสอดคล้องกับรูปแบบปกติที่อยู่ในนั้น

1.2 การดำเนินงานด้านความสัมพันธ์

ในการแปลงตารางเป็นรูปแบบแรกปกติ (1NF) ต้องปฏิบัติตามกฎสองข้อ:

1. อะตอมมิกหรือการแบ่งแยกไม่ได้ แต่ละคอลัมน์ต้องมีค่าที่แบ่งแยกไม่ได้หนึ่งค่า

2. ตารางไม่ควรมีคอลัมน์หรือกลุ่มข้อมูลที่ซ้ำกัน

ตัวอย่างเช่น หากตารางมีที่อยู่แบบเต็มของบุคคล (ถนน เมือง รหัสไปรษณีย์) ในช่องเดียว ตารางจะไม่เป็นไปตามกฎ 1NF เนื่องจากจะประกอบด้วยค่าที่แตกต่างกันในคอลัมน์เดียว ซึ่งจะ การละเมิดกฎปรมาณู หรือถ้าฐานข้อมูลมีข้อมูลเกี่ยวกับภาพยนตร์และมีคอลัมน์นักแสดง1,นักแสดง2,นักแสดง3ก็จะไม่เป็นไปตามกฎเนื่องจากจะมีการทำซ้ำข้อมูล

การทำให้เป็นมาตรฐานควรเริ่มต้นด้วยการตรวจสอบโครงสร้างฐานข้อมูลว่าเข้ากันได้กับ 1NF คอลัมน์ทั้งหมดที่ไม่ใช่อะตอมจะต้องถูกแบ่งออกเป็นคอลัมน์ที่เป็นส่วนประกอบ หากตารางมีคอลัมน์ที่ซ้ำกัน พวกเขาจะต้องจัดสรรตารางแยกต่างหาก

ในการแปลงตารางเป็นรูปแบบแรกปกติ:

* ค้นหาทุกช่องที่มีข้อมูลหลายส่วน

* ข้อมูลที่สามารถแบ่งออกเป็นชิ้นส่วนต้องอยู่ในฟิลด์แยกต่างหาก

* ย้ายข้อมูลที่ซ้ำกันไปยังตารางแยกต่างหาก

* ตรวจสอบว่าตารางทั้งหมดตรงกับเงื่อนไขของแบบฟอร์มปกติครั้งแรกหรือไม่

ในการแปลงตารางเป็นรูปแบบปกติที่สอง (2NF) ตารางผลลัพธ์จะต้องอยู่ใน 1NF อยู่แล้ว การทำให้เป็นมาตรฐานจะต้องทำตามลำดับ

ตอนนี้ ในรูปแบบปกติที่สอง ต้องเป็นไปตามเงื่อนไข - คอลัมน์ใดๆ ที่ไม่ใช่คีย์ (รวมถึงคีย์อื่น) จะต้องขึ้นอยู่กับคีย์หลัก โดยปกติ คอลัมน์เหล่านี้ซึ่งมีค่าที่ไม่ขึ้นอยู่กับคีย์ จะระบุได้ง่าย หากข้อมูลในคอลัมน์ไม่เกี่ยวข้องกับคีย์ที่อธิบายแถว ก็ควรแยกข้อมูลออกเป็นตารางแยกกัน คีย์หลักต้องถูกส่งกลับไปยังตารางเก่า

ในการแปลงฐานเป็นรูปแบบปกติที่สอง:

* ระบุคอลัมน์ทั้งหมดที่ไม่ขึ้นกับคีย์หลักของตารางนี้โดยตรง

* สร้างฟิลด์ที่จำเป็นในตารางผู้ใช้และฟอรัม เลือกจากฟิลด์ที่มีอยู่หรือสร้างคีย์หลักจากฟิลด์ใหม่

* แต่ละตารางต้องมีคีย์หลักของตัวเอง

* สร้างคีย์ต่างประเทศและแสดงถึงความสัมพันธ์ระหว่างตาราง ขั้นตอนสุดท้ายของการทำให้เป็นมาตรฐานเป็น 2NF คือการจัดสรรคีย์นอกสำหรับการเชื่อมโยงกับตารางที่เกี่ยวข้อง คีย์หลักของตารางหนึ่งต้องเป็นคีย์นอกในอีกตารางหนึ่ง

คำแนะนำ:

อีกวิธีหนึ่งในการสร้างสคีมา 2NF คือการดูความสัมพันธ์ระหว่างตาราง ตัวเลือกที่เหมาะสมที่สุดคือการสร้างความสัมพันธ์แบบหนึ่งต่อกลุ่มทั้งหมด ความสัมพันธ์แบบกลุ่มต่อกลุ่มต้องได้รับการปรับโครงสร้างใหม่

ตารางที่ปรับให้เป็นมาตรฐานอย่างถูกต้องจะไม่มีแถวที่ซ้ำกัน (แถวสองแถวขึ้นไปที่มีค่าไม่ใช่คีย์และมีข้อมูลเดียวกัน)

ฐานข้อมูลจะอยู่ในรูปแบบปกติที่สาม ถ้ามันถูกแปลงเป็นฟอร์มปกติที่สอง และแต่ละคอลัมน์ที่ไม่ใช่คีย์จะเป็นอิสระจากกัน หากปฏิบัติตามกระบวนการทำให้เป็นมาตรฐานอย่างถูกต้องจนถึงจุดนี้ อาจไม่มีปัญหากับการลดลงเป็น 3NF คุณควรทราบว่า 3NF ถูกละเมิดหากการเปลี่ยนแปลงค่าในคอลัมน์หนึ่งต้องมีการเปลี่ยนแปลงในอีกคอลัมน์หนึ่ง

ในการแปลงฐานเป็นรูปแบบปกติที่สาม:

* กำหนดว่าฟิลด์ใดที่ตารางมีการพึ่งพาซึ่งกันและกันเช่น ฟิลด์ที่พึ่งพาซึ่งกันและกันมากกว่าในซีรีส์โดยรวม

* สร้างตารางที่เกี่ยวข้อง หากมีคอลัมน์ที่มีปัญหาในขั้นตอนที่ 1 ให้สร้างตารางแยกกัน

* สร้างหรือจัดสรรคีย์หลัก ทุกตารางต้องมีคีย์หลัก

* สร้างคีย์ต่างประเทศที่จำเป็นซึ่งสร้างความสัมพันธ์ใด ๆ

ในรูปแบบปกติที่สี่ กฎเพิ่มเติมคือการยกเว้นการขึ้นต่อกันที่มีหลายค่า กล่าวอีกนัยหนึ่ง แถวตารางทั้งหมดต้องเป็นอิสระจากกัน การมีอยู่ของแถว X บางแถวไม่ควรหมายความว่าแถว Y นั้นอยู่ที่ไหนสักแห่งในตารางนี้

2. ระบบสารสนเทศองค์กร

ระบบข้อมูลแบบจำลองเชิงสัมพันธ์

ระบบ (จากระบบกรีก - ทั้งหมด, การเชื่อมต่อที่ประกอบด้วยชิ้นส่วน) คือชุดขององค์ประกอบที่มีปฏิสัมพันธ์ซึ่งกันและกัน, ก่อให้เกิดความสมบูรณ์, ความสามัคคี ต่อไปนี้คือแนวคิดบางส่วนที่มักใช้เพื่อกำหนดลักษณะเฉพาะของระบบ

1. องค์ประกอบของระบบ -- ส่วนหนึ่งของระบบที่มีจุดประสงค์ในการใช้งานเฉพาะ องค์ประกอบที่ซับซ้อนของระบบ ในทางกลับกัน ประกอบด้วยองค์ประกอบที่เชื่อมต่อถึงกันที่ง่ายกว่า มักเรียกว่าระบบย่อย

2. การจัดระบบ - ระเบียบภายใน ความสอดคล้องในการโต้ตอบขององค์ประกอบของระบบ ซึ่งแสดงออก โดยเฉพาะอย่างยิ่ง ในการจำกัดความหลากหลายของสถานะขององค์ประกอบภายในระบบ

3. โครงสร้างของระบบ - องค์ประกอบ ลำดับ และหลักการทำงานร่วมกันขององค์ประกอบของระบบ ซึ่งกำหนดคุณสมบัติพื้นฐานของระบบ หากแต่ละองค์ประกอบของระบบแยกจากกันตามระดับที่แตกต่างกัน และการเชื่อมโยงภายในระหว่างองค์ประกอบนั้นถูกจัดระเบียบจากระดับที่สูงกว่าถึงระดับล่างเท่านั้นและในทางกลับกัน สิ่งเหล่านี้จะพูดถึงโครงสร้างแบบลำดับชั้นของระบบ โครงสร้างแบบลำดับชั้นล้วนๆ นั้นหายากในทางปฏิบัติ ดังนั้น การขยายแนวคิดนี้บ้าง โครงสร้างแบบลำดับชั้นมักจะเข้าใจว่าหมายถึงโครงสร้างดังกล่าว ซึ่งการเชื่อมโยงแบบลำดับชั้นมีความสำคัญยิ่ง

4. สถาปัตยกรรมระบบ -- ชุดคุณสมบัติของระบบที่จำเป็นสำหรับผู้ใช้

5. ความสมบูรณ์ของระบบ - ความไม่สามารถลดลงพื้นฐานของคุณสมบัติของระบบกับผลรวมของคุณสมบัติขององค์ประกอบแต่ละอย่าง (การเกิดขึ้นของคุณสมบัติ) และในเวลาเดียวกันการพึ่งพาคุณสมบัติของแต่ละองค์ประกอบบน ตำแหน่งและการทำงานภายในระบบ

ระบบสารสนเทศเป็นชุดของวิธีการ วิธีการ และบุคลากรที่เชื่อมต่อถึงกัน ใช้ในการจัดเก็บ ประมวลผล และเผยแพร่ข้อมูลเพื่อให้บรรลุเป้าหมาย"

กฎหมายของรัฐบาลกลาง "เกี่ยวกับข้อมูล ข้อมูล และการปกป้องข้อมูล" ให้คำจำกัดความดังต่อไปนี้:

"ระบบสารสนเทศคือชุดเอกสารที่จัดโดยองค์กร (อาร์เรย์ของเอกสาร) และเทคโนโลยีสารสนเทศ รวมถึงการใช้เทคโนโลยีคอมพิวเตอร์และเครื่องมือสื่อสารที่ใช้กระบวนการข้อมูล"

การจำแนกมาตราส่วน

ตามขนาด ระบบสารสนเทศแบ่งออกเป็นกลุ่มต่อไปนี้:

* เดี่ยว;

* กลุ่ม;

* องค์กร.

ระบบข้อมูลองค์กรเป็นระบบที่ปรับขนาดได้ซึ่งออกแบบมาสำหรับการทำงานอัตโนมัติที่ซับซ้อนของกิจกรรมทางเศรษฐกิจทุกประเภทขององค์กรขนาดใหญ่และขนาดกลาง รวมถึงองค์กรที่ประกอบด้วยกลุ่มบริษัทที่ต้องการการจัดการแบบรวมศูนย์

ระบบข้อมูลองค์กรถือได้ว่าเป็นระบบอัตโนมัติมากกว่า 80% ของแผนกของบริษัท

เมื่อเร็ว ๆ นี้ในสิ่งพิมพ์จำนวนมากที่อุทิศให้กับการใช้เทคโนโลยีสารสนเทศในการจัดการวัตถุทางเศรษฐกิจ มักใช้คำว่า "ระบบข้อมูลองค์กร" ซึ่งหมายถึงระบบข้อมูลอัตโนมัติที่แท้จริงของวัตถุทางเศรษฐกิจ

ระบบข้อมูลอัตโนมัติ (AIS) คือการรวมกันของการสนับสนุนประเภทต่างๆ รวมถึงผู้เชี่ยวชาญที่ออกแบบมาเพื่อให้การประมวลผลข้อมูลทางบัญชีและการวิเคราะห์เป็นไปโดยอัตโนมัติ ประเภทของการสนับสนุนในแง่ขององค์ประกอบนั้นเป็นเนื้อเดียวกันสำหรับระบบต่าง ๆ ซึ่งทำให้สามารถใช้หลักการของความเข้ากันได้ของระบบในระหว่างการทำงานได้ ในกระบวนการศึกษา AIS เป็นระบบที่ซับซ้อน จำเป็นต้องแยกชิ้นส่วนและองค์ประกอบแต่ละส่วนออก และพิจารณาคุณลักษณะการใช้งานในขั้นตอนของการสร้างและการใช้งาน

ระบบข้อมูลองค์กรเป็นวิวัฒนาการของระบบสำหรับกลุ่มงาน โดยมุ่งเน้นที่บริษัทขนาดใหญ่ และสามารถรองรับโหนดหรือเครือข่ายที่กระจายตัวตามภูมิศาสตร์ โดยพื้นฐานแล้ว พวกมันมีโครงสร้างแบบลำดับชั้นหลายระดับ ระบบดังกล่าวมีลักษณะเฉพาะด้วยสถาปัตยกรรมไคลเอนต์ - เซิร์ฟเวอร์ที่มีความเชี่ยวชาญเฉพาะด้านของเซิร์ฟเวอร์หรือสถาปัตยกรรมหลายระดับ เมื่อพัฒนาระบบดังกล่าว เซิร์ฟเวอร์ฐานข้อมูลเดียวกันก็สามารถใช้เป็นเมื่อพัฒนาระบบข้อมูลกลุ่ม อย่างไรก็ตาม ในระบบข้อมูลขนาดใหญ่ เซิร์ฟเวอร์ที่ใช้กันอย่างแพร่หลายคือ Oracle, DB2 และ Microsoft SQL Server

สำหรับระบบกลุ่มและองค์กร ข้อกำหนดสำหรับความน่าเชื่อถือของการทำงานและความปลอดภัยของข้อมูลจะเพิ่มขึ้นอย่างมาก คุณสมบัติเหล่านี้จัดเตรียมโดยการรักษาความสมบูรณ์ของข้อมูล ลิงก์ และธุรกรรมในเซิร์ฟเวอร์ฐานข้อมูล

จำแนกตามขอบเขต

ตามขอบเขตของระบบสารสนเทศมักจะแบ่งออกเป็นสี่กลุ่ม:

* ระบบประมวลผลธุรกรรม

* ระบบการตัดสินใจ

* ระบบข้อมูลและอ้างอิง;

* ระบบข้อมูลสำนักงาน

บรรณานุกรม

1. Agalsov, V.P. ฐานข้อมูล ใน 2 เล่ม V. 2. ฐานข้อมูลแบบกระจายและระยะไกล: หนังสือเรียน / V.P. อกัลต์ซอฟ - ม.: ID FORUM, SIC INFRA-M, 2556.

2. Golitsyna, O.L. ฐานข้อมูล: ตำรา / O.L. Golitsyna, N.V. มักซิมอฟ, I.I. โปปอฟ - ม.: ฟอรั่ม, 2555.

3. Karpova, I.P. ฐานข้อมูล : หนังสือเรียน / ไอ.พี. คาร์ปอฟ - เซนต์ปีเตอร์สเบิร์ก: ปีเตอร์ 2013.

4. Kirillov, V.V. ฐานข้อมูลเชิงสัมพันธ์เบื้องต้น / ฐานข้อมูลเชิงสัมพันธ์เบื้องต้น / V.V. คิริลลอฟ, จี.ยู. กรอมอฟ - เซนต์ปีเตอร์สเบิร์ก: BHV-Petersburg, 2012.

5. Pirogov, V.Yu. ระบบสารสนเทศและฐานข้อมูล : องค์กรและการออกแบบ : หนังสือเรียน / V.Yu. ปิโรกอฟ - เซนต์ปีเตอร์สเบิร์ก: BHV-Petersburg, 2009.

6. จีเอ็น เฟโดรอฟ ระบบข้อมูล. - ม.: อะคาเดมี่, 2556.

7. เอ.อี. ซาตูนิน่า แอล.เอ. ซีซอฟ การจัดการโครงการระบบข้อมูลองค์กรขององค์กร - ม.: การเงินและสถิติ Infra-M, 2009.

โฮสต์บน Allbest.ru

...

เอกสารที่คล้ายกัน

    สาระสำคัญและลักษณะของแบบจำลองข้อมูล: ลำดับชั้น เครือข่าย และเชิงสัมพันธ์ แนวคิดพื้นฐานของแบบจำลองข้อมูลเชิงสัมพันธ์ แอตทริบิวต์ สคีมาความสัมพันธ์ฐานข้อมูล เงื่อนไขความสมบูรณ์ของข้อมูล ความสัมพันธ์ระหว่างตาราง แนวคิดทั่วไปเกี่ยวกับตัวแบบข้อมูล

    ภาคเรียนที่เพิ่ม 01/29/2554

    ระบบข้อมูลองค์กรและฐานข้อมูล ใช้สำหรับการปรับปรุงและแก้ไขจุดบกพร่องของธุรกิจ การจำแนกประเภทของระบบสารสนเทศองค์กร ระบบสารสนเทศของคลาส OLTP การประมวลผลเชิงวิเคราะห์การปฏิบัติงาน

    ภาคเรียนที่เพิ่ม 01/19/2011

    ฐานข้อมูลที่มีไฟล์สองมิติและระบบจัดการฐานข้อมูลเชิงสัมพันธ์ (DBMS) การสร้างฐานข้อมูลและประมวลผลการสืบค้นข้อมูลโดยใช้ DBMS ประเภทของฐานข้อมูลพื้นฐาน แนวคิดพื้นฐานของฐานข้อมูลเชิงสัมพันธ์ คุณสมบัติพื้นฐานของความสัมพันธ์

    บทคัดย่อ เพิ่มเมื่อ 12/20/2010

    แนวคิดของระบบฐานข้อมูล แบบจำลองเชิงสัมพันธ์และลักษณะของมัน ความสมบูรณ์ในแบบจำลองเชิงสัมพันธ์ พีชคณิตเชิงสัมพันธ์ ปัญหาการออกแบบฐานข้อมูล รูปแบบปกติของความสัมพันธ์ การออกแบบฐานข้อมูลโดยใช้วิธีความสัมพันธ์ระหว่างเอนทิตี แผนภาพ ER ภาษา SQL

    หลักสูตรการบรรยายเพิ่ม 03.10.2008

    โครงสร้างตรรกะเฉพาะของข้อมูลที่จัดเก็บไว้ในฐานข้อมูล แบบจำลองข้อมูลพื้นฐาน องค์ประกอบของแบบจำลองข้อมูลเชิงสัมพันธ์ ตัวอย่างการใช้คีย์ต่างประเทศ ข้อกำหนดหลักสำหรับความสัมพันธ์ของแบบจำลองข้อมูลเชิงสัมพันธ์

    การนำเสนอเพิ่ม 14/14/2556

    ฐานข้อมูลและการใช้งานในการคำนวณ คุณลักษณะและหน่วยโครงสร้างพื้นฐานของแบบจำลองข้อมูลเครือข่าย โมเดลลำดับชั้น ออบเจ็กต์โดเมน แบบจำลองเชิงสัมพันธ์ การมองเห็น การนำเสนอข้อมูลในรูปแบบตาราง

    บทคัดย่อ เพิ่มเมื่อ 12/19/2011

    ประเภทและหน้าที่ของระบบจัดการฐานข้อมูล Microsoft Access ลำดับชั้น เครือข่าย โมเดลเชิงสัมพันธ์ของคำอธิบายฐานข้อมูล แนวคิดพื้นฐานของตารางฐานข้อมูล คุณสมบัติของการสร้างวัตถุฐานข้อมูลรูปแบบพื้นฐาน การเข้าถึงอินเทอร์เน็ตในการเข้าถึง

    ควบคุมงาน เพิ่ม 01/08/2011

    ระบบจัดการฐานข้อมูลสมัยใหม่ (DBMS) การวิเคราะห์แบบจำลองข้อมูลแบบลำดับชั้น แบบจำลองข้อมูลเชิงสัมพันธ์ แบบจำลองข้อมูลหลังความสัมพันธ์เป็นแบบจำลองเชิงสัมพันธ์แบบขยายที่ขจัดข้อจำกัดของการไม่สามารถแบ่งแยกข้อมูลที่จัดเก็บไว้ในระเบียนตารางได้

    งานวิทยาศาสตร์เพิ่ม 06/08/2010

    ตัวแบบข้อมูลในการจัดการฐานข้อมูล แบบจำลองข้อมูลแนวคิด บทบาทของฐานข้อมูลในระบบสารสนเทศ แบบจำลองข้อมูลเชิงสัมพันธ์ คำจำกัดความของสาขาวิชา การสร้างแบบจำลองฐานข้อมูลสำหรับระบบสารสนเทศ "สัตว์เลี้ยง"

    ภาคเรียนที่เพิ่ม 04/19/2011

    แบบจำลองข้อมูลใน Access เป็นการแทนที่แบบง่ายสำหรับวัตถุหรือระบบจริง โครงสร้างพื้นฐานที่กำหนดการจัดองค์กรของข้อมูลและความสัมพันธ์ระหว่างกัน ประเภทสัมพันธ์ของการจัดระเบียบข้อมูล ตัวอย่างฐานข้อมูลด้านภาษีอากร

Zaitsev S.L. ปริญญาเอก

กลุ่มซ้ำ

กลุ่มที่เกิดซ้ำคือแอตทริบิวต์ที่อินสแตนซ์เอนทิตีเดียวสามารถมีค่าได้มากกว่าหนึ่งค่า ตัวอย่างเช่น บุคคลอาจมีมากกว่าหนึ่งทักษะ ถ้าในแง่ของความต้องการทางธุรกิจ เราจำเป็นต้องรู้ระดับทักษะสำหรับทุกคน และแต่ละคนสามารถมีทักษะได้เพียงสองทักษะเท่านั้น เราสามารถสร้างเอนทิตีที่แสดงในรูปที่ 1.6. นี่คือเอนทิตี บุคคลหนึ่งด้วยคุณสมบัติสองอย่างในการจัดเก็บทักษะและระดับทักษะสำหรับแต่ละรายการ

ข้าว. 1.6. ตัวอย่างนี้ใช้กลุ่มที่ทำซ้ำ

ปัญหาของการทำซ้ำกลุ่มคือเราไม่สามารถรู้ได้อย่างชัดเจนว่าบุคคลหนึ่งมีทักษะกี่ทักษะ ในชีวิตจริง บางคนมีหนึ่งทักษะ บางคนมีหลายอย่าง และบางคนยังไม่มี รูปที่ 1.7 แสดงแบบจำลองที่ลดลงสู่รูปแบบปกติครั้งแรก สังเกตการเพิ่ม รหัสทักษะ ซึ่งกำหนดแต่ละอย่างไม่ซ้ำกัน ทักษะ.

ข้าว. 1.7. โมเดลลดลงสู่รูปแบบปกติครั้งแรก

ข้อเท็จจริงเดียวในที่เดียว

หากมีแอตทริบิวต์เดียวกันในเอนทิตีมากกว่าหนึ่งรายการและไม่ใช่คีย์ภายนอก จะถือว่าแอตทริบิวต์นั้นซ้ำซ้อน โมเดลเชิงตรรกะไม่ควรมีข้อมูลที่ซ้ำซ้อน

ความซ้ำซ้อนต้องการพื้นที่เพิ่มเติม แต่ในขณะที่ประสิทธิภาพของหน่วยความจำมีความสำคัญ ปัญหาที่แท้จริงอยู่ที่อื่น รับประกันการซิงโครไนซ์ของข้อมูลที่ซ้ำซ้อนมาพร้อมกับค่าใช้จ่าย และคุณมักจะเสี่ยงต่อการที่ค่าที่ขัดแย้งกัน

ในตัวอย่างที่แล้ว ทักษะขึ้นอยู่กับ รหัสประจำตัวและจาก รหัสทักษะซึ่งหมายความว่าคุณจะไม่มี ทักษะจนกว่าจะปรากฏ บุคคลหนึ่ง,มีทักษะนี้ นอกจากนี้ยังทำให้การเปลี่ยนชื่อทักษะทำได้ยากขึ้น คุณต้องค้นหารายการชื่อทักษะแต่ละรายการและเปลี่ยนสำหรับบุคคลที่เป็นเจ้าของทักษะนั้น

รูปที่ 1.8 แสดงแบบจำลองในรูปแบบปกติที่สอง โปรดทราบว่ามีการเพิ่มเอนทิตี ทักษะและแอตทริบิวต์ ชื่อทักษะที่โอนไปยังเอนทิตีนี้ ระดับทักษะยังคงอยู่ตามลำดับที่สี่แยก บุคคลและทักษะ

ข้าว. 1.8. ในรูปแบบปกติที่สอง กลุ่มที่เกิดซ้ำจะถูกย้ายไปยังเอนทิตีอื่น ซึ่งให้ความยืดหยุ่นในการเพิ่มทักษะได้มากเท่าที่จำเป็นและเปลี่ยนชื่อทักษะหรือคำอธิบายทักษะในที่เดียว

แต่ละแอตทริบิวต์ขึ้นอยู่กับคีย์

แต่ละแอตทริบิวต์ของเอนทิตีต้องขึ้นอยู่กับคีย์หลักของเอนทิตีนั้น ในตัวอย่างที่แล้ว ชื่อโรงเรียนและ พื้นที่ทางภูมิศาสตร์อยู่ในตาราง บุคคลหนึ่งแต่อย่าบรรยายถึงบุคคล เพื่อให้บรรลุรูปแบบปกติที่สาม คุณต้องย้ายแอตทริบิวต์ไปยังเอนทิตี ซึ่งจะขึ้นอยู่กับคีย์ รูปที่ 1.9 แสดงแบบจำลองในรูปแบบปกติที่สาม

ข้าว. 1.9. ในรูปแบบปกติที่สาม ชื่อโรงเรียนและ ภูมิภาคทางภูมิศาสตร์ย้ายไปที่เอนทิตีซึ่งค่าของพวกเขาขึ้นอยู่กับคีย์

ความสัมพันธ์แบบกลุ่มต่อกลุ่ม

ความสัมพันธ์ หลายต่อหลายสะท้อนความเป็นจริงของสิ่งแวดล้อม โปรดทราบว่าในรูปที่ 1.9 มีความสัมพันธ์แบบกลุ่มต่อกลุ่มระหว่าง บุคคลและ โรงเรียน. อัตราส่วนสะท้อนให้เห็นถึงความจริงที่ว่า บุคคลหนึ่งสามารถเรียนได้มากมาย โรงเรียนและใน โรงเรียนสามารถเรียนรู้ได้มากมาย บุคคล.เพื่อให้บรรลุรูปแบบปกติที่สี่ มีการสร้างเอนทิตีที่เชื่อมโยงซึ่งขจัดความสัมพันธ์แบบ monogie-to-many โดยสร้างรายการแยกต่างหากสำหรับการผสมผสานที่เป็นเอกลักษณ์ของโรงเรียนและบุคคล รูปที่ 1.10 แสดงแบบจำลองในรูปแบบปกติที่สี่

ข้าว. 1.10. ในรูปแบบปกติที่สี่ ความสัมพันธ์แบบ monogie-to-many ระหว่าง บุคคลและ โรงเรียนแก้ไขโดยการแนะนำเอนทิตีที่เชื่อมโยงซึ่งมีการกำหนดรายการแยกต่างหากสำหรับแต่ละชุดค่าผสมที่ไม่ซ้ำกัน โรงเรียนและ บุคคล

คำจำกัดความที่เป็นทางการของรูปแบบปกติ

คำจำกัดความต่อไปนี้ของรูปแบบปกติอาจดูน่ากลัว คิดง่ายๆ ว่าเป็นสูตรสำหรับการทำให้เป็นมาตรฐาน รูปแบบปกติจะขึ้นอยู่กับพีชคณิตเชิงสัมพันธ์และสามารถตีความได้ว่าเป็นการแปลงทางคณิตศาสตร์ แม้ว่าหนังสือเล่มนี้จะไม่ครอบคลุมการอภิปรายโดยละเอียดเกี่ยวกับรูปแบบปกติ แต่ขอแนะนำให้ผู้ทำแบบจำลองเจาะลึกในหัวข้อนี้

ในความสัมพันธ์ R ที่กำหนด แอตทริบิวต์ Y จะขึ้นอยู่กับฟังก์ชันตามแอตทริบิวต์ X โดยในเชิงสัญลักษณ์ RX -> RY (อ่านว่า "RX กำหนดฟังก์ชัน RY") ได้ก็ต่อเมื่อค่า X แต่ละค่าใน R เชื่อมโยงกับค่า Y เพียงค่าเดียวใน R ( ในเวลาใดก็ได้) คุณลักษณะ X และ Y สามารถนำมาผสมกันได้ (Date K.J. Introduction to Database Systems. 6th edition. Ed. Williams: 1999, 848 pp.)

ความสัมพันธ์ R อยู่ในรูปแบบปกติแรก (1NF) หากโดเมนทั้งหมดมีค่าอะตอมเท่านั้น (Date, ibid.)

ความสัมพันธ์ R อยู่ในรูปแบบปกติที่สอง (2NF) หากอยู่ใน 1NF และแอตทริบิวต์ที่ไม่ใช่คีย์ทั้งหมดจะขึ้นอยู่กับคีย์หลัก (วันที่, ibid.)

ความสัมพันธ์ R อยู่ในรูปแบบปกติที่สาม (3NF) หากอยู่ใน 2NF และแอตทริบิวต์ที่ไม่ใช่คีย์ทั้งหมดจะไม่ขึ้นอยู่กับคีย์หลัก (วันที่, ibid.)

ความสัมพันธ์ R อยู่ในรูปแบบปกติของ Boyce-Codd (BCNF) ต่อเมื่อดีเทอร์มิแนนต์แต่ละตัวเป็นตัวเลือกสำหรับใช้เป็นคีย์

บันทึก ด้านล่างนี้คือคำอธิบายสั้นๆ เกี่ยวกับคำย่อบางตัวที่ใช้ในคำจำกัดความของ Date

MVD (การพึ่งพาหลายค่า) - การพึ่งพาหลายค่า ใช้สำหรับเอนทิตีที่มีแอตทริบิวต์ตั้งแต่สามรายการขึ้นไปเท่านั้น ในการขึ้นต่อกันแบบหลายค่า ค่าของแอตทริบิวต์จะขึ้นอยู่กับเพียงส่วนหนึ่งของคีย์หลักเท่านั้น

FD (การพึ่งพาการทำงาน) - การพึ่งพาการทำงาน ในการพึ่งพาฟังก์ชัน ค่าของแอตทริบิวต์จะขึ้นอยู่กับค่าของแอตทริบิวต์อื่นที่ไม่ใช่ส่วนหนึ่งของคีย์หลัก

JD (เข้าร่วมการพึ่งพา) - เข้าร่วมการพึ่งพา ในการขึ้นต่อกันแบบเข้าร่วม คีย์หลักของเอนทิตีหลักสามารถตรวจสอบย้อนกลับได้ถึงระดับที่สามเป็นอย่างน้อย ในขณะที่ยังคงความสามารถในการใช้ในการเข้าร่วมคีย์ดั้งเดิม

ความสัมพันธ์อยู่ในรูปแบบปกติที่สี่ (4NF) หากมี MVD ใน R เช่น A®®B ในกรณีนี้ คุณลักษณะทั้งหมดของ R จะขึ้นอยู่กับฟังก์ชันของ A กล่าวอีกนัยหนึ่ง ใน R จะมีเฉพาะการพึ่งพา (FD หรือ MVD) ของรูปแบบ K®X (กล่าวคือ การพึ่งพาฟังก์ชันของแอตทริบิวต์ X บนตัวเลือกสำหรับใช้งาน เป็นคีย์ K) ดังนั้น R จะเป็นไปตามข้อกำหนดของ 4NF หากเป็นไปตาม BCNF และ MVD ทั้งหมดเป็น FDs จริง (วันที่, อ้างแล้ว)

สำหรับรูปแบบปกติที่ห้า ความสัมพันธ์ R จะเป็นไปตามความสัมพันธ์ของสหภาพ (JD)*(X, Y, …, Z) ถ้าหาก R เทียบเท่ากับการฉายภาพบน X, Y,..., Z โดยที่ X, Y,. .., Z ชุดย่อยของชุดของแอตทริบิวต์ R.

มีรูปแบบปกติอื่นๆ อีกมากมายสำหรับชนิดข้อมูลที่ซับซ้อนและสถานการณ์เฉพาะที่อยู่นอกเหนือขอบเขตของการสนทนาของเรา ผู้ที่ชื่นชอบการพัฒนาโมเดลทุกคนต้องการค้นหารูปแบบปกติอื่นๆ

แบบฟอร์มธุรกิจปกติ

ในหนังสือของเขา Clive Finklestein (Finklestein Cl. An Introduction to Information Engineering: From Strategic Planning to Information Systems. Reading, Massachusetts: Addison-Wesley, 1989) ได้ใช้แนวทางที่แตกต่างในการทำให้เป็นมาตรฐาน กำหนดรูปแบบธุรกิจปกติในแง่ของการลดรูปแบบเหล่านั้น นักสร้างแบบจำลองหลายคนพบว่าแนวทางนี้ใช้งานง่ายและปฏิบัติได้จริง

First Business Normal Form (1BNF) จะจับคู่กลุ่มที่เกิดซ้ำกับเอนทิตีอื่น เอนทิตีนี้ได้รับชื่อของตัวเองและแอตทริบิวต์คีย์หลัก (คอมโพสิต) จากเอนทิตีดั้งเดิมและกลุ่มที่เกิดซ้ำ

Second Business Normal Form (2BNF) จะจับคู่แอตทริบิวต์ที่บางส่วนขึ้นอยู่กับคีย์หลักไปยังเอนทิตีอื่น คีย์หลัก (คอมโพสิต) ของเอนทิตีนี้คือคีย์หลักของเอนทิตีซึ่งเดิมอาศัยอยู่ พร้อมกับคีย์เพิ่มเติมซึ่งแอตทริบิวต์จะขึ้นอยู่กับทั้งหมด

แบบฟอร์มธุรกิจปกติที่สาม (3BNF) จะย้ายแอตทริบิวต์ที่ไม่ขึ้นอยู่กับคีย์หลักไปยังเอนทิตีอื่น โดยทั้งหมดจะขึ้นอยู่กับคีย์หลักของเอนทิตีนี้

Business Normal Form (4BNF) จับคู่แอตทริบิวต์ที่ขึ้นอยู่กับค่าของคีย์หลักหรือเป็นทางเลือกสำหรับเอนทิตีรอง ซึ่งขึ้นอยู่กับค่าของคีย์หลักทั้งหมด หรือตำแหน่งที่ต้องมี (บังคับ) ในเอนทิตีนั้น .

แบบฟอร์ม Business Normal ที่ห้า (5BNF) จะปรากฏเป็นเอนทิตีที่มีโครงสร้างหากมีการเรียกซ้ำหรือการพึ่งพาอื่น ๆ ระหว่างอินสแตนซ์ของเอนทิตีรอง หรือหากมีการขึ้นต่อกันแบบเรียกซ้ำระหว่างอินสแตนซ์ของเอนทิตีหลัก

โมเดลข้อมูลลอจิกที่เสร็จสมบูรณ์

แบบจำลองทางลอจิคัลที่สมบูรณ์ต้องเป็นไปตามข้อกำหนดของแบบฟอร์มปกติทางธุรกิจที่สาม และรวมถึงเอนทิตี คุณลักษณะ และความสัมพันธ์ทั้งหมดที่จำเป็นในการสนับสนุนข้อกำหนดของข้อมูลและกฎเกณฑ์ทางธุรกิจที่เกี่ยวข้องกับข้อมูล

เอนทิตีทั้งหมดต้องมีชื่อที่อธิบายเนื้อหาและคำอธิบายหรือคำจำกัดความที่ชัดเจน รัดกุม สมบูรณ์ ในเอกสารเผยแพร่ฉบับใดฉบับหนึ่งต่อไปนี้ จะพิจารณาชุดคำแนะนำเบื้องต้นสำหรับการสร้างชื่อและคำอธิบายของหน่วยงานที่ถูกต้อง

เอนทิตีต้องมีชุดแอตทริบิวต์ที่สมบูรณ์ เพื่อให้ทุกข้อเท็จจริงเกี่ยวกับแต่ละเอนทิตีสามารถแสดงด้วยแอตทริบิวต์ได้ แต่ละแอตทริบิวต์ต้องมีชื่อที่สะท้อนถึงค่าของมัน ชนิดข้อมูลบูลีน และคำอธิบายหรือคำจำกัดความที่ชัดเจน สั้น และสมบูรณ์ ในสิ่งพิมพ์ฉบับใดฉบับหนึ่งต่อไปนี้ เราจะพิจารณาชุดคำแนะนำเบื้องต้นสำหรับการสร้างชื่อและคำอธิบายแอตทริบิวต์ที่ถูกต้อง

ความสัมพันธ์ควรรวมถึงการสร้างกริยาที่อธิบายความสัมพันธ์ระหว่างเอนทิตี พร้อมด้วยลักษณะเช่นพหุพจน์ ความจำเป็นในการดำรงอยู่ หรือความเป็นไปได้ของการไม่มีความสัมพันธ์

บันทึก จำนวนมาก ความสัมพันธ์อธิบายจำนวนสูงสุดของอินสแตนซ์เอนทิตีรองที่สามารถเชื่อมโยงกับอินสแตนซ์ของเอนทิตีดั้งเดิมความจำเป็นในการดำรงอยู่ หรือความเป็นไปได้ของการขาดงาน ความสัมพันธ์ใช้เพื่อกำหนดจำนวนขั้นต่ำของอินสแตนซ์ของเอนทิตีรองที่สามารถเชื่อมโยงกับอินสแตนซ์ของเอนทิตีดั้งเดิม

แบบจำลองข้อมูลทางกายภาพ

หลังจากสร้างโมเดลเชิงตรรกะที่สมบูรณ์และเพียงพอแล้ว คุณก็พร้อมที่จะตัดสินใจเกี่ยวกับทางเลือกของแพลตฟอร์มการใช้งาน ทางเลือกของแพลตฟอร์มขึ้นอยู่กับข้อกำหนดสำหรับการใช้ข้อมูลและหลักการเชิงกลยุทธ์ของสถาปัตยกรรมขององค์กร การเลือกแพลตฟอร์มเป็นปัญหาที่ซับซ้อนซึ่งอยู่นอกเหนือขอบเขตของหนังสือเล่มนี้

ใน ERwin แบบจำลองทางกายภาพคือการแสดงกราฟิกของฐานข้อมูลจริง ฐานข้อมูลทางกายภาพจะประกอบด้วยตาราง คอลัมน์ และความสัมพันธ์ โมเดลทางกายภาพขึ้นอยู่กับแพลตฟอร์มที่เลือกสำหรับการใช้งานและข้อกำหนดการใช้ข้อมูล โมเดลทางกายภาพสำหรับ IMS จะแตกต่างจากรุ่นเดียวกันสำหรับ Sybase อย่างมาก โมเดลจริงสำหรับรายงาน OLAP จะดูแตกต่างจากแบบจำลองสำหรับ OLTP (การประมวลผลธุรกรรมออนไลน์)

ตัวสร้างแบบจำลองข้อมูลและผู้ดูแลระบบฐานข้อมูล (DBA) ใช้แบบจำลองเชิงตรรกะ ข้อกำหนดการใช้งาน และหลักการเชิงกลยุทธ์ด้านสถาปัตยกรรมองค์กรเพื่อพัฒนาแบบจำลองข้อมูลทางกายภาพ คุณสามารถลดมาตรฐานของแบบจำลองฟิสิกส์เพื่อปรับปรุงประสิทธิภาพ และสร้างมุมมองเพื่อรองรับข้อกำหนดการใช้งาน ส่วนต่อไปนี้ให้รายละเอียดเกี่ยวกับกระบวนการดีนอร์มัลไลซ์และการสร้างมุมมอง

ส่วนนี้ให้ภาพรวมของกระบวนการสร้างแบบจำลองทางกายภาพ การรวบรวมข้อกำหนดสำหรับการใช้ข้อมูล การกำหนดองค์ประกอบของแบบจำลองทางกายภาพ และวิศวกรรมย้อนกลับ ปัญหาเหล่านี้จะกล่าวถึงในรายละเอียดเพิ่มเติมในสิ่งพิมพ์ในอนาคต

การรวบรวมข้อกำหนดการใช้ข้อมูล

โดยปกติ คุณรวบรวมข้อกำหนดการใช้ข้อมูลตั้งแต่เนิ่นๆ ระหว่างการสัมภาษณ์และช่วงการทำงาน ในขณะเดียวกัน ข้อกำหนดควรกำหนดการใช้ข้อมูลโดยผู้ใช้อย่างครบถ้วนที่สุด ทัศนคติและช่องว่างที่ผิวเผินในแบบจำลองทางกายภาพสามารถนำไปสู่ต้นทุนที่ไม่ได้วางแผนไว้และทำให้โครงการล่าช้า ข้อกำหนดการใช้งานรวมถึง:

    ข้อกำหนดการเข้าถึงและประสิทธิภาพ

    ลักษณะเชิงปริมาตร (ค่าประมาณของปริมาณข้อมูลที่จะจัดเก็บ) ซึ่งช่วยให้ผู้ดูแลระบบสามารถแสดงปริมาณทางกายภาพของฐานข้อมูลได้

    ค่าประมาณของจำนวนผู้ใช้ที่ต้องการเข้าถึงข้อมูลพร้อมกัน ซึ่งช่วยให้คุณออกแบบฐานข้อมูลของคุณให้มีประสิทธิภาพในระดับที่ยอมรับได้

    สรุป สรุป และข้อมูลที่คำนวณหรือได้มาอื่น ๆ ที่อาจพิจารณาว่าเป็นตัวเลือกสำหรับการจัดเก็บในโครงสร้างข้อมูลที่คงทน

    ข้อกำหนดสำหรับการสร้างรายงานและแบบสอบถามมาตรฐานเพื่อช่วยผู้ดูแลระบบฐานข้อมูลสร้างดัชนี

    มุมมอง (ถาวรหรือเสมือน) ที่จะช่วยเหลือผู้ใช้ในการดำเนินการรวมหรือกรองข้อมูล

นอกเหนือจากประธาน เลขานุการ และผู้ใช้แล้ว เซสชันข้อกำหนดการใช้งานควรรวมถึงผู้สร้างแบบจำลอง ผู้ดูแลระบบฐานข้อมูล และสถาปนิกฐานข้อมูล ควรมีการอภิปรายข้อกำหนดของผู้ใช้สำหรับข้อมูลในอดีต ระยะเวลาที่ข้อมูลถูกจัดเก็บมีผลกระทบอย่างมากต่อขนาดของฐานข้อมูล บ่อยครั้ง ข้อมูลที่เก่ากว่าจะถูกจัดเก็บในรูปแบบรวม และข้อมูลอะตอมจะถูกเก็บถาวรหรือลบทิ้ง

ผู้ใช้ควรนำตัวอย่างคำถามและรายงานมาที่เซสชัน รายงานต้องได้รับการกำหนดอย่างเข้มงวดและต้องรวมค่าอะตอมที่ใช้สำหรับฟิลด์สรุปและสรุปใดๆ

ส่วนประกอบของแบบจำลองข้อมูลทางกายภาพ

ส่วนประกอบของแบบจำลองข้อมูลทางกายภาพคือ ตาราง คอลัมน์ และความสัมพันธ์ เอนทิตีในแบบจำลองเชิงตรรกะมักจะกลายเป็นตารางในแบบจำลองทางกายภาพ แอตทริบิวต์บูลีนจะกลายเป็นคอลัมน์ ความสัมพันธ์เชิงตรรกะจะกลายเป็นข้อจำกัดในความสมบูรณ์ของความสัมพันธ์ ความสัมพันธ์เชิงตรรกะบางอย่างไม่สามารถนำไปใช้ในฐานข้อมูลจริงได้

วิศวกรรมย้อนกลับ

เมื่อโลจิคัลโมเดลไม่พร้อมใช้งาน จำเป็นต้องสร้างโมเดลขึ้นใหม่จากฐานข้อมูลที่มีอยู่ ที่ ERwin กระบวนการนี้เรียกว่าวิศวกรรมย้อนกลับ วิศวกรรมย้อนกลับสามารถทำได้หลายวิธี ผู้สร้างโมเดลสามารถสำรวจโครงสร้างข้อมูลในฐานข้อมูล และสร้างตารางขึ้นใหม่ในสภาพแวดล้อมการสร้างแบบจำลองที่มองเห็นได้ คุณสามารถนำเข้า data definition language (DDL) ลงในเครื่องมือที่สนับสนุนวิศวกรรมย้อนกลับ (เช่น Erwin) เครื่องมือขั้นสูง เช่น ERwin มีฟังก์ชันที่ให้การสื่อสาร ODBC กับฐานข้อมูลที่มีอยู่เพื่อสร้างแบบจำลองโดยการอ่านโครงสร้างข้อมูลโดยตรง วิศวกรรมย้อนกลับโดยใช้ ERwin จะได้รับการกล่าวถึงในรายละเอียดในสิ่งพิมพ์ในอนาคต

การใช้ขอบเขตหน้าที่ขององค์กร

เมื่อสร้างโมเดลเชิงตรรกะ ตัวสร้างโมเดลต้องแน่ใจว่าโมเดลใหม่ตรงกับโมเดลองค์กร การใช้ขอบเขตการทำงานขององค์กรหมายถึงการสร้างแบบจำลองข้อมูลตามเงื่อนไขที่ใช้ในองค์กร วิธีการใช้ข้อมูลในบริษัทกำลังเปลี่ยนแปลงเร็วกว่าตัวข้อมูลเอง ในแต่ละโมเดลเชิงตรรกะ ข้อมูลจะต้องแสดงแบบองค์รวม โดยไม่คำนึงถึงโดเมนธุรกิจที่สนับสนุน หน่วยงาน คุณลักษณะ และความสัมพันธ์ควรกำหนดกฎเกณฑ์ทางธุรกิจในระดับองค์กร

บันทึก เพื่อนร่วมงานของฉันบางคนอ้างถึงขอบเขตการทำงานขององค์กรเหล่านี้เป็นแบบจำลองในโลกแห่งความเป็นจริง การสร้างแบบจำลองในโลกแห่งความเป็นจริงส่งเสริมให้ผู้สร้างแบบจำลองดูข้อมูลในแง่ของความสัมพันธ์และความสัมพันธ์ในชีวิตจริง

การใช้ขอบเขตหน้าที่การทำงานขององค์กรสำหรับโมเดลข้อมูลที่สร้างขึ้นอย่างเหมาะสมทำให้เกิดกรอบงานเพื่อสนับสนุนความต้องการด้านข้อมูลของกระบวนการและแอปพลิเคชันจำนวนเท่าใดก็ได้ ทำให้องค์กรสามารถใช้ประโยชน์จากทรัพย์สินหรือข้อมูลที่มีค่าที่สุดชิ้นใดตัวหนึ่งได้อย่างมีประสิทธิภาพมากขึ้น

โมเดลข้อมูลองค์กรคืออะไร?

โมเดลข้อมูลองค์กร (EDM)มีหน่วยงาน คุณลักษณะ และความสัมพันธ์ที่แสดงถึงความต้องการข้อมูลของบริษัท โดยทั่วไปแล้ว EDM จะแบ่งออกเป็นสาขาวิชา ซึ่งเป็นตัวแทนของกลุ่มหน่วยงานที่เกี่ยวข้องกับการสนับสนุนความต้องการทางธุรกิจที่เฉพาะเจาะจง บางสาขาวิชาอาจครอบคลุมถึงหน้าที่ทางธุรกิจเฉพาะ เช่น การจัดการสัญญา ส่วนอื่นๆ อาจจัดกลุ่มหน่วยงานที่อธิบายผลิตภัณฑ์หรือบริการ

โมเดลลอจิคัลแต่ละโมเดลต้องสอดคล้องกับโดเมนโมเดลข้อมูลขององค์กรที่มีอยู่ ถ้าแบบจำลองเชิงตรรกะไม่ตรงตามข้อกำหนดนี้ จะต้องเพิ่มแบบจำลองที่กำหนดหัวเรื่องเข้าไป การเปรียบเทียบนี้ช่วยให้แน่ใจว่ารูปแบบองค์กรได้รับการปรับปรุงหรือปรับเปลี่ยน และความพยายามในการสร้างแบบจำลองเชิงตรรกะทั้งหมดได้รับการประสานงานภายในองค์กร

EDMยังรวมถึงเอนทิตีเฉพาะที่กำหนดขอบเขตของค่าสำหรับแอททริบิวต์หลัก หน่วยงานเหล่านี้ไม่มีผู้ปกครองและถูกกำหนดให้เป็นอิสระ หน่วยงานอิสระมักใช้เพื่อรักษาความสมบูรณ์ของความสัมพันธ์ เอนทิตีเหล่านี้ถูกระบุด้วยชื่อต่างๆ เช่น ตารางโค้ด ตารางลิงก์ ตารางประเภท หรือตารางการจัดประเภท เราจะใช้คำว่า "วัตถุทางธุรกิจขององค์กร" ออบเจ็กต์ธุรกิจขององค์กรคือเอนทิตีที่มีชุดของค่าแอตทริบิวต์ที่ไม่ขึ้นกับเอนทิตีอื่น ควรใช้วัตถุทางธุรกิจขององค์กรภายในองค์กรอย่างสม่ำเสมอ

การสร้างโมเดลข้อมูลองค์กรด้วยการปรับขนาด

มีองค์กรหลายแห่งที่สร้างรูปแบบองค์กรตั้งแต่ต้นจนจบด้วยความพยายามร่วมกันเพียงครั้งเดียว ในทางกลับกัน องค์กรส่วนใหญ่สร้างโมเดลองค์กรที่ค่อนข้างสมบูรณ์โดยการสร้างขึ้นมา

การเติบโตหมายถึงการสร้างบางสิ่งขึ้นทีละชั้น เหมือนกับที่หอยนางรมปลูกไข่มุก แบบจำลองข้อมูลแต่ละแบบที่สร้างขึ้นจะให้ข้อมูลแก่การก่อตัวของ EDM การสร้าง EDM ด้วยวิธีนี้จำเป็นต้องมีขั้นตอนการสร้างแบบจำลองเพิ่มเติมเพื่อเพิ่มโครงสร้างข้อมูลและโดเมนใหม่ หรือขยายโครงสร้างข้อมูลที่มีอยู่ ทำให้สามารถสร้างโมเดลข้อมูลขององค์กรได้โดยการสร้างระดับรายละเอียดและการปรับแต่งซ้ำๆ

แนวคิดของวิธีการสร้างแบบจำลอง

มีหลายวิธีสำหรับการสร้างแบบจำลองข้อมูลด้วยภาพ ERwin รองรับสอง:

    IDEF1X (คำจำกัดความการรวมสำหรับการสร้างแบบจำลองข้อมูล - คำอธิบายแบบบูรณาการของแบบจำลองข้อมูล)

    IE (วิศวกรรมสารสนเทศ - วิศวกรรมสารสนเทศ)

IDEF1X เป็นวิธีการที่ดีและมีการใช้สัญกรณ์อย่างกว้างขวาง

คำอธิบายแบบบูรณาการของแบบจำลองข้อมูล

IDEF1X เป็นวิธีการสร้างแบบจำลองข้อมูลที่มีโครงสร้างสูง ซึ่งขยายวิธีการ IDEF1 ที่นำมาใช้เป็นมาตรฐาน FIPS (มาตรฐานการประมวลผลข้อมูลของรัฐบาลกลาง) IDEF1X ใช้ชุดประเภทการสร้างแบบจำลองที่มีโครงสร้างสูงและส่งผลให้เกิดแบบจำลองข้อมูลที่ต้องการความเข้าใจในธรรมชาติทางกายภาพของข้อมูลก่อนจึงจะสามารถแสดงข้อมูลดังกล่าวได้

โครงสร้างที่เข้มงวดของ IDEF1X บังคับให้ผู้สร้างโมเดลกำหนดคุณลักษณะให้กับเอนทิตีที่อาจไม่สอดคล้องกับความเป็นจริงของโลกรอบตัว ตัวอย่างเช่น IDEF1X กำหนดให้ประเภทย่อยของเอนทิตีทั้งหมดเป็นแบบเอกสิทธิ์เฉพาะบุคคล สิ่งนี้นำไปสู่ความจริงที่ว่าบุคคลไม่สามารถเป็นทั้งลูกค้าและพนักงานได้ ในขณะที่การปฏิบัติจริงบอกเราเป็นอย่างอื่น

วิศวกรรมสารสนเทศ

Clive Finklestein มักเรียกกันว่าบิดาแห่งวิศวกรรมสารสนเทศ แม้ว่า James Martin จะแบ่งปันแนวคิดที่คล้ายกันกับเขา (Martin, James. Managing the Database Environment. Upper Saddle River, New Jersey: Prentice Hall, 1983.) วิศวกรรมข้อมูลใช้แนวทางที่ขับเคลื่อนด้วยธุรกิจเพื่อจัดการข้อมูลและใช้สัญลักษณ์อื่นเพื่อแสดงกฎเกณฑ์ทางธุรกิจ IE ทำหน้าที่เป็นส่วนขยายและพัฒนาของสัญกรณ์และแนวคิดพื้นฐานของระเบียบวิธี ER ที่เสนอโดย Peter Chen

IE จัดเตรียมโครงสร้างพื้นฐานเพื่อรองรับความต้องการข้อมูลโดยบูรณาการการวางแผนเชิงกลยุทธ์ขององค์กรเข้ากับระบบสารสนเทศที่กำลังพัฒนา การบูรณาการดังกล่าวทำให้สามารถเชื่อมโยงการจัดการแหล่งข้อมูลกับโอกาสเชิงกลยุทธ์ระยะยาวของบริษัทได้อย่างใกล้ชิดยิ่งขึ้น แนวทางที่ขับเคลื่อนด้วยธุรกิจนี้ทำให้ผู้สร้างโมเดลหลายคนเลือก IE แทนวิธีการอื่นๆ ที่เน้นไปที่การแก้ปัญหาการพัฒนาในทันทีเป็นหลัก

IE จัดเตรียมเวิร์กโฟลว์ที่นำไปสู่องค์กรในการระบุข้อมูลทั้งหมดที่จำเป็นในการรวบรวมและจัดการข้อมูล และระบุความสัมพันธ์ระหว่างวัตถุข้อมูล ด้วยเหตุนี้ ข้อกำหนดด้านข้อมูลจึงถูกกำหนดขึ้นอย่างชัดเจนตามคำสั่งการจัดการ และสามารถแปลโดยตรงเป็นระบบข้อมูลการจัดการที่จะสนับสนุนความต้องการข้อมูลเชิงกลยุทธ์

บทสรุป

การทำความเข้าใจวิธีใช้เครื่องมือสร้างแบบจำลองข้อมูลอย่าง ERwin เป็นเพียงส่วนหนึ่งของปัญหาเท่านั้น นอกจากนี้ คุณต้องเข้าใจเมื่องานการสร้างแบบจำลองข้อมูลถูกดำเนินการ และข้อกำหนดของข้อมูลและกฎเกณฑ์ทางธุรกิจจะถูกรวบรวมเพื่อแสดงในรูปแบบข้อมูลอย่างไร การดำเนินการเซสชันการทำงานให้เงื่อนไขที่ดีที่สุดสำหรับการเก็บรวบรวมข้อกำหนดข้อมูลในสภาพแวดล้อมที่มีผู้เชี่ยวชาญเฉพาะเรื่อง ผู้ใช้ และผู้เชี่ยวชาญด้านเทคโนโลยีสารสนเทศ

การสร้างแบบจำลองข้อมูลที่ดีต้องมีการวิเคราะห์และวิจัยข้อกำหนดด้านข้อมูลและกฎเกณฑ์ทางธุรกิจที่รวบรวมระหว่างช่วงการทำงานและการสัมภาษณ์ โมเดลข้อมูลที่เป็นผลลัพธ์ควรถูกเปรียบเทียบกับโมเดลองค์กร ถ้าเป็นไปได้ เพื่อให้แน่ใจว่าจะไม่ขัดแย้งกับโมเดลอ็อบเจ็กต์ที่มีอยู่และรวมถึงออบเจ็กต์ที่จำเป็นทั้งหมด

โมเดลข้อมูลประกอบด้วยแบบจำลองทางตรรกะและทางกายภาพที่แสดงถึงข้อกำหนดด้านข้อมูลและกฎเกณฑ์ทางธุรกิจ แบบจำลองเชิงตรรกะต้องถูกลดขนาดให้อยู่ในรูปแบบปกติที่สาม รูปแบบปกติที่สามจำกัด เพิ่ม อัปเดต และลบความผิดปกติของโครงสร้างข้อมูลเพื่อรองรับหลักการ "หนึ่งข้อเท็จจริง ที่เดียว" ควรมีการวิเคราะห์และวิจัยข้อกำหนดของข้อมูลที่เก็บรวบรวมและกฎเกณฑ์ทางธุรกิจ จำเป็นต้องเปรียบเทียบกับโมเดลองค์กรเพื่อให้แน่ใจว่าไม่ขัดแย้งกับโมเดลอ็อบเจ็กต์ที่มีอยู่และรวมออบเจ็กต์ที่จำเป็นทั้งหมด

ใน ERwin ตัวแบบข้อมูลมีทั้งแบบจำลองทางตรรกะและแบบกายภาพ ERwin นำแนวทาง ER ไปใช้ และอนุญาตให้คุณสร้างวัตถุแบบจำลองเชิงตรรกะและทางกายภาพเพื่อแสดงข้อกำหนดของข้อมูลและกฎเกณฑ์ทางธุรกิจ ออบเจ็กต์โมเดลลอจิกประกอบด้วยเอนทิตี คุณลักษณะ และความสัมพันธ์ ออบเจ็กต์แบบจำลองทางกายภาพประกอบด้วยตาราง คอลัมน์ และข้อจำกัดความสมบูรณ์ของความสัมพันธ์

ในเอกสารเผยแพร่ฉบับใดฉบับหนึ่งต่อไปนี้ จะพิจารณาถึงประเด็นในการระบุเอนทิตี การกำหนดประเภทเอนทิตี การเลือกชื่อและคำอธิบายเอนทิตี ตลอดจนเคล็ดลับบางประการเพื่อหลีกเลี่ยงข้อผิดพลาดในการสร้างแบบจำลองที่พบบ่อยที่สุดที่เกี่ยวข้องกับการใช้เอนทิตี

เอนทิตีต้องมีชุดแอตทริบิวต์ที่สมบูรณ์ เพื่อให้ทุกข้อเท็จจริงเกี่ยวกับแต่ละเอนทิตีสามารถแสดงด้วยแอตทริบิวต์ได้ แต่ละแอตทริบิวต์ต้องมีชื่อที่สะท้อนถึงค่าของมัน ชนิดข้อมูลบูลีน และคำอธิบายหรือคำจำกัดความที่ชัดเจน สั้น และสมบูรณ์ ในสิ่งพิมพ์ฉบับใดฉบับหนึ่งต่อไปนี้ เราจะพิจารณาชุดคำแนะนำเบื้องต้นสำหรับการสร้างชื่อและคำอธิบายแอตทริบิวต์ที่ถูกต้อง ความสัมพันธ์ควรรวมถึงการสร้างกริยาที่อธิบายความสัมพันธ์ระหว่างเอนทิตี พร้อมด้วยลักษณะเช่นพหุพจน์ ความจำเป็นในการดำรงอยู่ หรือความเป็นไปได้ของการไม่มีความสัมพันธ์

บันทึก จำนวนมาก ความสัมพันธ์อธิบายจำนวนสูงสุดของอินสแตนซ์เอนทิตีรองที่สามารถเชื่อมโยงกับอินสแตนซ์ของเอนทิตีดั้งเดิมความจำเป็นของการมีอยู่หรือความเป็นไปได้ที่จะขาดหายไป ความสัมพันธ์ใช้เพื่อกำหนดจำนวนขั้นต่ำของอินสแตนซ์ของเอนทิตีรองที่สามารถเชื่อมโยงกับอินสแตนซ์ของต้นฉบับ

ผู้เชี่ยวชาญด้านไอทีหันมาสนใจโซลูชันการจัดการข้อมูลมากขึ้นเรื่อยๆ โดยอิงจากแบบจำลองข้อมูลมาตรฐานอุตสาหกรรมและเทมเพลตการตัดสินใจทางธุรกิจ โมเดลข้อมูลทางกายภาพที่ซับซ้อนพร้อมโหลดและรายงานข่าวกรองธุรกิจสำหรับพื้นที่เฉพาะของกิจกรรม ช่วยให้คุณสามารถรวมองค์ประกอบข้อมูลขององค์กรและเร่งกระบวนการทางธุรกิจได้อย่างมีนัยสำคัญ เทมเพลตโซลูชันช่วยให้ผู้ให้บริการใช้ประโยชน์จากพลังของข้อมูลที่ไม่ได้มาตรฐานที่ซ่อนอยู่ในระบบที่มีอยู่ ซึ่งจะช่วยลดระยะเวลาของโครงการ ค่าใช้จ่าย และความเสี่ยง ตัวอย่างเช่น โครงการจริงแสดงให้เห็นว่าแบบจำลองข้อมูลและเทมเพลตการตัดสินใจทางธุรกิจสามารถลดความพยายามในการพัฒนาได้ถึง 50%

โมเดลเชิงตรรกะของอุตสาหกรรมคือมุมมองเฉพาะของโดเมน บูรณาการและมีโครงสร้างเชิงตรรกะของข้อมูลทั้งหมดที่ต้องอยู่ในคลังข้อมูลขององค์กรเพื่อตอบคำถามทางธุรกิจทั้งเชิงกลยุทธ์และเชิงกลยุทธ์ วัตถุประสงค์หลักของแบบจำลองคือเพื่ออำนวยความสะดวกในการปฐมนิเทศในพื้นที่ข้อมูลและช่วยในการเน้นรายละเอียดที่สำคัญสำหรับการพัฒนาธุรกิจ ในสภาพแวดล้อมทางธุรกิจในปัจจุบัน จำเป็นต้องมีความเข้าใจที่ชัดเจนเกี่ยวกับความสัมพันธ์ระหว่างองค์ประกอบต่างๆ และความเข้าใจที่ดีในภาพรวมขององค์กร การระบุรายละเอียดและความสัมพันธ์ทั้งหมดโดยใช้แบบจำลองช่วยให้ใช้เวลาและเครื่องมือในการจัดระเบียบงานของบริษัทได้อย่างมีประสิทธิภาพสูงสุด

โมเดลข้อมูลเป็นโมเดลนามธรรมที่อธิบายวิธีการแสดงและเข้าถึงข้อมูล ตัวแบบข้อมูลกำหนดองค์ประกอบข้อมูลและความสัมพันธ์ระหว่างพวกเขาในพื้นที่ที่กำหนด โมเดลข้อมูลเป็นเครื่องมือนำทางสำหรับทั้งนักธุรกิจและผู้เชี่ยวชาญด้าน IT ที่ใช้ชุดสัญลักษณ์และคำเฉพาะเพื่ออธิบายข้อมูลจริงในคลาสนั้นๆ อย่างแม่นยำ สิ่งนี้ช่วยปรับปรุงการสื่อสารภายในองค์กร และสร้างสภาพแวดล้อมแอปพลิเคชันที่ยืดหยุ่นและเสถียรยิ่งขึ้น


ตัวอย่างของ GIS สำหรับหน่วยงานและแบบจำลองการปกครองตนเองในท้องถิ่น

ในปัจจุบัน เป็นสิ่งสำคัญในเชิงกลยุทธ์สำหรับผู้ให้บริการซอฟต์แวร์และผู้ให้บริการเพื่อให้สามารถตอบสนองต่อการเปลี่ยนแปลงในอุตสาหกรรมที่เกี่ยวข้องกับนวัตกรรมทางเทคโนโลยีได้อย่างรวดเร็ว การขจัดข้อจำกัดของรัฐบาล และความซับซ้อนของห่วงโซ่อุปทาน นอกจากการเปลี่ยนแปลงในรูปแบบธุรกิจแล้ว ความซับซ้อนและต้นทุนของเทคโนโลยีสารสนเทศที่จำเป็นต่อการสนับสนุนกิจกรรมของบริษัทก็เติบโตขึ้น การจัดการข้อมูลเป็นเรื่องยากโดยเฉพาะอย่างยิ่งในสภาพแวดล้อมที่ระบบข้อมูลองค์กรและความต้องการด้านการทำงานและทางธุรกิจมีการเปลี่ยนแปลงอยู่ตลอดเวลา

เพื่อช่วยอำนวยความสะดวกและเพิ่มประสิทธิภาพกระบวนการนี้ ในการแปลแนวทางไอทีไปสู่ระดับสมัยใหม่ แบบจำลองข้อมูลอุตสาหกรรมจึงถูกเรียกใช้

แบบจำลองข้อมูลอุตสาหกรรมจากบริษัทเอสรี

โมเดลข้อมูลสำหรับแพลตฟอร์ม Esri ArcGIS เป็นเทมเพลตสำหรับใช้ในโครงการ GIS และสร้างโครงสร้างข้อมูลสำหรับพื้นที่แอปพลิเคชันต่างๆ การสร้างแบบจำลองข้อมูลเกี่ยวข้องกับการสร้างการออกแบบแนวความคิด โครงสร้างเชิงตรรกะ และโครงสร้างทางกายภาพที่สามารถใช้เพื่อสร้างฐานข้อมูลทางภูมิศาสตร์ส่วนบุคคลหรือขององค์กรได้ ArcGIS จัดเตรียมเครื่องมือสำหรับการสร้างและจัดการสคีมาฐานข้อมูล และเทมเพลตโมเดลข้อมูลถูกใช้เพื่อเปิดใช้โครงการ GIS อย่างรวดเร็วในแอพพลิเคชั่นและอุตสาหกรรมที่หลากหลาย Esri ร่วมกับชุมชนผู้ใช้ได้ใช้เวลาเป็นจำนวนมากในการพัฒนาเทมเพลตจำนวนหนึ่งที่สามารถช่วยให้คุณเริ่มออกแบบฐานข้อมูลทางภูมิศาสตร์ขององค์กรได้อย่างรวดเร็ว โครงการเหล่านี้มีการอธิบายและจัดทำเป็นเอกสารที่ support.esri.com/datamodels ด้านล่างนี้ ตามลำดับที่ปรากฏบนไซต์นี้เป็นคำแปลเชิงความหมายของชื่อรูปแบบอุตสาหกรรมของ Esri:

  • ทะเบียนที่อยู่
  • เกษตรกรรม
  • อุตุนิยมวิทยา
  • ข้อมูลเชิงพื้นที่พื้นฐาน
  • ความหลากหลายทางชีวภาพ
  • พื้นที่ภายในอาคาร
  • การบัญชีก๊าซเรือนกระจก
  • การบำรุงรักษาเขตการปกครอง
  • สถานประกอบการทางทหาร หน่วยสืบราชการลับ
  • พลังงาน (รวมถึงโปรโตคอล ArcGIS MultiSpeak ใหม่)
  • อาคารเชิงนิเวศน์
  • กระทรวงสถานการณ์ฉุกเฉิน. ป้องกันไฟ
  • ที่ดินป่า
  • ป่าไม้
  • ธรณีวิทยา
  • GIS ระดับประเทศ (e-gov)
  • น้ำบาดาลและน้ำเสีย
  • ดูแลสุขภาพ
  • โบราณคดีและการคุ้มครองอนุสรณ์สถาน
  • ความมั่นคงของชาติ
  • อุทกวิทยา
  • องค์การอุทกศาสตร์ระหว่างประเทศ (IHO) รูปแบบ S-57 สำหรับ ENC
  • ชลประทาน
  • ทะเบียนที่ดิน
  • เทศบาล
  • การนำทางทางทะเล
  • ที่ดินของรัฐ
  • โครงสร้างน้ำมันและก๊าซ
  • ท่อส่ง
  • ร้านแรสเตอร์
  • Bathymetry ภูมิประเทศก้นทะเล
  • โทรคมนาคม
  • ขนส่ง
  • ประปา ประปา สาธารณูปโภค

โมเดลเหล่านี้มีคุณสมบัติที่จำเป็นทั้งหมดของมาตรฐานอุตสาหกรรม กล่าวคือ:

  • ใช้ได้อย่างอิสระ
  • ไม่ผูกติดอยู่กับเทคโนโลยีของผู้ผลิต "ที่เลือก"
  • สร้างขึ้นจากการดำเนินโครงการจริง
  • สร้างขึ้นด้วยการมีส่วนร่วมของผู้เชี่ยวชาญในอุตสาหกรรม
  • ออกแบบมาเพื่อให้ข้อมูลปฏิสัมพันธ์ระหว่างผลิตภัณฑ์และเทคโนโลยีต่างๆ
  • ไม่ขัดแย้งกับมาตรฐานและเอกสารกำกับดูแลอื่น ๆ
  • ใช้ในโครงการที่ดำเนินการทั่วโลก
  • ได้รับการออกแบบมาเพื่อทำงานกับข้อมูลตลอดวงจรชีวิตของระบบที่ถูกสร้างขึ้น ไม่ใช่ตัวโครงการเอง
  • ขยายได้ตามความต้องการของลูกค้าโดยไม่สูญเสียความเข้ากันได้กับโครงการและ/หรือรุ่นอื่นๆ
  • พร้อมด้วยวัสดุและตัวอย่างเพิ่มเติม
  • ใช้ในแนวทางและวัสดุทางเทคนิคของบริษัทอุตสาหกรรมต่างๆ
  • ชุมชนขนาดใหญ่ของผู้เข้าร่วมในขณะที่ทุกคนสามารถเข้าถึงชุมชนได้
  • มีการอ้างอิงถึงแบบจำลองข้อมูลจำนวนมากในสิ่งตีพิมพ์ในช่วงไม่กี่ปีที่ผ่านมา

Esri เป็นส่วนหนึ่งของกลุ่มผู้เชี่ยวชาญของหน่วยงานอิสระที่แนะนำโมเดลอุตสาหกรรมต่างๆ สำหรับการใช้งาน เช่น PODS (Pipeline Open Data Standards - มาตรฐานเปิดสำหรับอุตสาหกรรมน้ำมันและก๊าซ) ปัจจุบันมีการนำ PODS ไปใช้งานเป็น Esri PODS Esri Spatial 5.1.1 ฐานข้อมูลทางภูมิศาสตร์) หรือฐานข้อมูลทางภูมิศาสตร์ (GDB) จาก ArcGIS สำหรับการบินที่คำนึงถึงคำแนะนำของ ICAO และ FAA รวมถึงมาตรฐานการแลกเปลี่ยนข้อมูลการนำทาง AIXM 5.0 นอกจากนี้ยังมีรุ่นที่แนะนำซึ่งยึดตามมาตรฐานอุตสาหกรรมที่มีอยู่อย่างเคร่งครัด เช่น S-57 และ ArcGIS สำหรับการเดินเรือ (ลักษณะทางทะเลและชายฝั่ง) ตลอดจนแบบจำลองที่สร้างขึ้นจากผลงานของ Esri Professional Services และเป็นมาตรฐาน "โดยพฤตินัย" ในพื้นที่ที่เกี่ยวข้อง ตัวอย่างเช่น GIS for the Nation และ Local Government มีอิทธิพลต่อมาตรฐาน NSDI และ INSPIRE ในขณะที่ Hydro และ Groundwater ถูกใช้อย่างมากในแพ็คเกจระดับมืออาชีพและผลิตภัณฑ์เชิงพาณิชย์ของ ArcHydro ที่มีให้ใช้งานฟรี บริษัทที่สาม ควรสังเกตว่า Esri ยังสนับสนุนมาตรฐาน "โดยพฤตินัย" เช่น NHDI โมเดลข้อมูลที่เสนอทั้งหมดได้รับการจัดทำเป็นเอกสารและพร้อมใช้งานในกระบวนการไอทีขององค์กร วัสดุประกอบสำหรับรุ่น ได้แก่ :

  • ไดอะแกรม UML ของความสัมพันธ์ของเอนทิตี
  • โครงสร้างข้อมูล โดเมน ไดเร็กทอรี
  • เทมเพลตฐานข้อมูลภูมิศาสตร์สำเร็จรูปในรูปแบบ ArcGIS GDB
  • ข้อมูลตัวอย่างและแอปพลิเคชันตัวอย่าง
  • ตัวอย่างสคริปต์การโหลดข้อมูล ตัวอย่างยูทิลิตี้การวิเคราะห์
  • หนังสืออ้างอิงเกี่ยวกับโครงสร้างข้อมูลที่เสนอ

Esri สรุปประสบการณ์ของบริษัทในการสร้างแบบจำลองอุตสาหกรรมในรูปแบบของหนังสือและแปลเอกสารที่ตีพิมพ์เป็นภาษาท้องถิ่น Esri CIS ได้แปลและตีพิมพ์หนังสือต่อไปนี้:

  • สถาปัตยกรรมเชิงบริการเชิงพื้นที่ (SOA);
  • การออกแบบฐานข้อมูลทางภูมิศาสตร์สำหรับการขนส่ง
  • ระบบข้อมูลทางภูมิศาสตร์ขององค์กร
  • GIS: พลังงานใหม่ของผู้ประกอบการไฟฟ้าและก๊าซ
  • น้ำมันและก๊าซบนแผนที่ดิจิทัล
  • การสร้างแบบจำลองโลกของเรา คู่มือการออกแบบฐานข้อมูลภูมิศาสตร์ Esri;
  • คิดถึงจีไอเอส การวางแผน GIS: คู่มือสำหรับผู้จัดการ
  • ระบบสารสนเทศภูมิศาสตร์ พื้นฐาน;
  • GIS สำหรับการบริหารและการจัดการเศรษฐกิจ
  • เว็บจีไอเอส หลักการและการประยุกต์ใช้
  • กลยุทธ์การออกแบบระบบ ครั้งที่ 26;
  • 68 ฉบับของนิตยสาร ArcReview พร้อมสิ่งพิมพ์โดยบริษัทและผู้ใช้ระบบ GIS
  • ... และบันทึกเฉพาะเรื่องและสิ่งพิมพ์อื่น ๆ อีกมากมาย

ตัวอย่างเช่น หนังสือ การสร้างแบบจำลองโลกของเรา..."(การแปล) เป็นคู่มือที่ครอบคลุมและคู่มืออ้างอิงสำหรับการสร้างแบบจำลองข้อมูล GIS โดยทั่วไปและโดยเฉพาะอย่างยิ่งแบบจำลองข้อมูลฐานข้อมูลทางภูมิศาสตร์ หนังสือเล่มนี้แสดงวิธีการตัดสินใจในการสร้างแบบจำลองข้อมูลที่ถูกต้อง การตัดสินใจที่เกี่ยวข้องกับทุกแง่มุมของโครงการ GIS: ตั้งแต่ข้อมูลการออกแบบฐานข้อมูลและการรวบรวมข้อมูลไปจนถึงการวิเคราะห์เชิงพื้นที่และการแสดงภาพ อธิบายรายละเอียดวิธีออกแบบฐานข้อมูลทางภูมิศาสตร์ที่เหมาะสมกับโครงการ ตั้งค่าฟังก์ชันฐานข้อมูลโดยไม่ต้องเขียนโปรแกรม จัดการเวิร์กโฟลว์ในโครงการที่ซับซ้อน สร้างแบบจำลองโครงสร้างเครือข่ายที่หลากหลาย เช่น แม่น้ำ การขนส่ง หรือเครือข่ายไฟฟ้า รวมข้อมูลภาพถ่ายดาวเทียมเข้ากับการวิเคราะห์ทางภูมิศาสตร์และการทำแผนที่ และสร้างแบบจำลองข้อมูล 3D GIS การออกแบบฐานข้อมูลทางภูมิศาสตร์สำหรับการขนส่ง" มีแนวทางระเบียบวิธีที่ได้รับการทดสอบในโครงการจำนวนมากและปฏิบัติตามข้อกำหนดทางกฎหมายของยุโรปและสหรัฐอเมริกาอย่างเต็มที่ตลอดจนมาตรฐานสากล และในหนังสือ " GIS: พลังงานใหม่ของผู้ประกอบการไฟฟ้าและก๊าซการใช้ตัวอย่างในโลกแห่งความเป็นจริง แสดงให้เห็นถึงประโยชน์ที่ GIS ขององค์กรสามารถมอบให้กับซัพพลายเออร์ด้านพลังงาน รวมถึงแง่มุมต่างๆ เช่น การบริการลูกค้า การดำเนินงานเครือข่าย และกระบวนการทางธุรกิจอื่นๆ


หนังสือบางเล่มที่แปลและเป็นต้นฉบับ จัดพิมพ์เป็นภาษารัสเซียโดย Esri CIS และ DATA+ ครอบคลุมทั้งประเด็นแนวคิดที่เกี่ยวข้องกับเทคโนโลยี GIS และแง่มุมต่างๆ ที่ประยุกต์ใช้ในการสร้างแบบจำลองและการนำ GIS ไปใช้ในระดับและวัตถุประสงค์ต่างๆ

เราจะพิจารณาการใช้แบบจำลองอุตสาหกรรมโดยใช้แบบจำลองข้อมูล BISDM (Building Interior Space Data Model) เวอร์ชัน 3.0 เป็นตัวอย่าง BISDM คือการพัฒนาแบบจำลอง BIM ทั่วไป (แบบจำลองข้อมูลอาคาร แบบจำลองข้อมูลอาคาร) และมีไว้สำหรับใช้ในการออกแบบ การก่อสร้าง การดำเนินงาน และการรื้อถอนอาคารและโครงสร้าง ใช้ในซอฟต์แวร์ GIS ช่วยให้คุณสามารถแลกเปลี่ยนข้อมูลทางภูมิศาสตร์กับแพลตฟอร์มอื่น ๆ และโต้ตอบกับพวกเขาได้อย่างมีประสิทธิภาพ หมายถึงกลุ่มงานทั่วไป FM (การจัดการโครงสร้างพื้นฐานขององค์กร) เราแสดงรายการข้อดีหลักของแบบจำลอง BISDM ซึ่งการใช้งานช่วยให้:

  • จัดระเบียบการแลกเปลี่ยนข้อมูลในสภาพแวดล้อมที่แตกต่างกันตามกฎสม่ำเสมอ
  • รับแนวคิด "ทางกายภาพ" ของแนวคิด BIM และกฎที่แนะนำสำหรับการจัดการโครงการก่อสร้าง
  • รักษาพื้นที่เก็บข้อมูลเดียวโดยใช้เครื่องมือ GIS ตลอดวงจรชีวิตทั้งหมดของอาคาร (ตั้งแต่การออกแบบจนถึงการรื้อถอน)
  • ประสานงานงานของผู้เชี่ยวชาญต่าง ๆ ในโครงการ
  • เห็นภาพกำหนดการและขั้นตอนการก่อสร้างที่วางแผนไว้สำหรับผู้เข้าร่วมทั้งหมด
  • ให้ประมาณการเบื้องต้นของต้นทุนและเวลาก่อสร้าง (ข้อมูล 4D และ 5D)
  • ควบคุมความคืบหน้าของโครงการ
  • รับรองการดำเนินงานที่มีคุณภาพของอาคาร รวมทั้งการบำรุงรักษาและการซ่อมแซม
  • เป็นส่วนหนึ่งของระบบบริหารจัดการทรัพย์สิน รวมถึงหน้าที่ในการวิเคราะห์ประสิทธิภาพของการใช้พื้นที่ (การเช่า สถานที่จัดเก็บ การจัดการพนักงาน)
  • คำนวณและจัดการประสิทธิภาพพลังงานของอาคาร
  • จำลองการเคลื่อนไหวของกระแสน้ำของมนุษย์

BISDM กำหนดกฎสำหรับการทำงานกับข้อมูลเชิงพื้นที่ที่ระดับของสถานที่ภายในในอาคาร รวมถึงวัตถุประสงค์และประเภทของการใช้งาน การสื่อสารทั่วไป อุปกรณ์ที่ติดตั้ง การบัญชีสำหรับการซ่อมแซมและบำรุงรักษา การบันทึกเหตุการณ์ ความสัมพันธ์กับทรัพย์สินของบริษัทอื่นๆ โมเดลนี้ช่วยสร้างพื้นที่เก็บข้อมูลแบบรวมของข้อมูลทางภูมิศาสตร์และที่ไม่ใช่ทางภูมิศาสตร์ ประสบการณ์ของบริษัทชั้นนำของโลกถูกนำมาใช้เพื่อแยกหน่วยงานและแบบจำลองในระดับ GDB (ฐานข้อมูลทางภูมิศาสตร์) ความสัมพันธ์เชิงพื้นที่และเชิงตรรกะขององค์ประกอบทางกายภาพทั้งหมดที่สร้างทั้งตัวอาคารและภายในอาคาร การปฏิบัติตามหลักการของ BISDM จะทำให้งานการรวมเข้ากับระบบอื่นๆ ง่ายขึ้นอย่างมาก ในระยะแรก มักจะรวมเข้ากับ CAD จากนั้นในระหว่างการทำงานของอาคาร จะใช้การแลกเปลี่ยนข้อมูลกับระบบ ERP และ EAM (SAP, TRIRIGA, Maximo เป็นต้น)


การแสดงภาพองค์ประกอบโครงสร้าง BISDM โดยใช้ ArcGIS

กรณีใช้ BISDM ลูกค้า / เจ้าของสถานที่จะได้รับการแลกเปลี่ยนข้อมูลจากแนวคิดในการสร้างสิ่งอำนวยความสะดวกในการพัฒนาโครงการที่สมบูรณ์การควบคุมการก่อสร้างด้วยการได้รับสูงสุด -ข้อมูลวันที่ตามเวลาที่สิ่งอำนวยความสะดวกถูกเปิดใช้งาน การควบคุมพารามิเตอร์ระหว่างการทำงาน และแม้กระทั่งระหว่างการสร้างใหม่หรือการรื้อถอนสิ่งอำนวยความสะดวก ตามกระบวนทัศน์ BISDM GIS และ GDB ที่สร้างขึ้นด้วยความช่วยเหลือจะกลายเป็นที่เก็บข้อมูลทั่วไปสำหรับระบบที่เกี่ยวข้อง บ่อยครั้งใน GDB มีข้อมูลที่สร้างและดำเนินการโดยระบบของบุคคลที่สาม สิ่งนี้จะต้องนำมาพิจารณาเมื่อออกแบบสถาปัตยกรรมของระบบที่ถูกสร้างขึ้น

ในบางช่วง "มวลวิกฤต" ของข้อมูลที่สะสมไว้จะช่วยให้คุณสามารถย้ายไปยังระดับคุณภาพใหม่ได้ ตัวอย่างเช่น เมื่อเสร็จสิ้นขั้นตอนการออกแบบของอาคารใหม่ เป็นไปได้ที่จะเห็นภาพแบบจำลองการสำรวจ 3 มิติใน GIS โดยอัตโนมัติ รวบรวมรายการอุปกรณ์ที่จะติดตั้ง คำนวณกิโลเมตรของเครือข่ายวิศวกรรมที่จะวาง ทำการตรวจสอบจำนวนหนึ่ง และแม้กระทั่งให้ประมาณการทางการเงินเบื้องต้นของต้นทุนโครงการ

อีกครั้งเมื่อใช้ BISDM และ ArcGIS ร่วมกัน จะสามารถสร้างแบบจำลอง 3 มิติจากข้อมูลที่สะสมได้โดยอัตโนมัติ เนื่องจาก GDB มีคำอธิบายที่สมบูรณ์ของวัตถุ รวมถึงพิกัด z ของพื้น ประเภทขององค์ประกอบการเชื่อมต่อ อุปกรณ์ วิธีการติดตั้ง วัสดุ เส้นทางที่มีอยู่ การเคลื่อนไหวของบุคลากร วัตถุประสงค์การใช้งานของแต่ละองค์ประกอบ ฯลฯ เป็นต้น ควรสังเกตว่าหลังจากการนำเข้าเริ่มต้นของวัสดุการออกแบบทั้งหมดไปยัง BISDM GDB แล้ว มีความจำเป็นสำหรับเนื้อหาเพิ่มเติมสำหรับ:

  • การจัดวางโมเดล 3 มิติของวัตถุและอุปกรณ์ในสถานที่ที่กำหนด
  • รวบรวมข้อมูลเกี่ยวกับต้นทุนของวัสดุและขั้นตอนสำหรับการวางและการติดตั้ง
  • การควบคุมการแจ้งเตือนตามขนาดของอุปกรณ์ที่ไม่ได้มาตรฐานที่ติดตั้งไว้

ด้วยการใช้ ArcGIS การนำเข้าวัตถุ 3 มิติเพิ่มเติมและหนังสืออ้างอิงจากแหล่งภายนอกจะง่ายขึ้น โมดูล ArcGIS Data Interoperability ช่วยให้คุณสร้างขั้นตอนสำหรับการนำเข้าข้อมูลดังกล่าวและวางไว้อย่างถูกต้องภายในโมเดล รองรับรูปแบบทั้งหมดที่ใช้ในอุตสาหกรรม รวมถึง IFC, AutoCAD Revit, Bentlye Microstation

โมเดลข้อมูลอุตสาหกรรมจาก IBM

IBM จัดเตรียมชุดเครื่องมือและโมเดลการจัดการสตอเรจสำหรับอุตสาหกรรมที่หลากหลาย:

  • IBM Banking and Financial Markets Data Warehouse (การเงิน)
  • IBM Banking Data Warehouse
  • กระบวนการธนาคารของ IBM และโมเดลการบริการ
  • โมเดลข้อมูล IBM Health Plan (สุขภาพ)
  • IBM Insurance Information Warehouse (ประกัน)
  • กระบวนการประกันภัยของ IBM และโมเดลการบริการ
  • IBM Retail Data Warehouse (ขายปลีก)
  • IBM Telecommunications Data Warehouse (โทรคมนาคม)
  • ชุดคลังสินค้า InfoSphere:
    - สำหรับ Customer Insight (เพื่อให้เข้าใจลูกค้า)
    - สำหรับ Market and Campaign Insight (เพื่อให้เข้าใจบริษัทและตลาด)
    - สำหรับ Supply Chain Insight (เพื่อความเข้าใจซัพพลายเออร์)

ตัวอย่างเช่น รุ่น IBMธนาคารและการเงินตลาดข้อมูลคลังสินค้าออกแบบมาเพื่อจัดการกับความท้าทายเฉพาะของอุตสาหกรรมการธนาคารในแง่ของข้อมูลและ IBMธนาคารกระบวนการและบริการโมเดล- ในแง่ของกระบวนการและ SOA (สถาปัตยกรรมเชิงบริการ) แบบจำลองที่นำเสนอสำหรับอุตสาหกรรมโทรคมนาคม IBMข้อมูลกรอบ(ไอเอฟดับบลิว)และ IBMโทรคมนาคมข้อมูลโกดัง (TDW). ช่วยเร่งกระบวนการสร้างระบบวิเคราะห์ได้อย่างมีนัยสำคัญ รวมทั้งลดความเสี่ยงที่เกี่ยวข้องกับการพัฒนาแอปพลิเคชันข่าวกรองธุรกิจ การจัดการข้อมูลองค์กร และการจัดระเบียบคลังข้อมูล โดยคำนึงถึงลักษณะเฉพาะของอุตสาหกรรมโทรคมนาคม ความสามารถของ IBM TDW ครอบคลุมตลาดโทรคมนาคมทั้งหมด ตั้งแต่ผู้ให้บริการอินเทอร์เน็ตและผู้ให้บริการเครือข่ายเคเบิลที่ให้บริการโทรศัพท์แบบมีสายและไร้สาย การส่งข้อมูลและเนื้อหามัลติมีเดีย ไปจนถึงบริษัทข้ามชาติที่ให้บริการโทรศัพท์ ดาวเทียม ทางไกลและการสื่อสารระหว่างประเทศด้วย เป็นองค์กรเครือข่ายทั่วโลก ปัจจุบัน TDW ถูกใช้โดยผู้ให้บริการทั้งแบบมีสายและไร้สายทั้งรายใหญ่และรายเล็กทั่วโลก

เครื่องมือที่เรียกว่า InfoSphere Warehouse Pack สำหรับ Customer Insightเป็นเนื้อหาทางธุรกิจที่มีโครงสร้างและนำไปใช้ได้ง่ายสำหรับโครงการธุรกิจและอุตสาหกรรมที่มีจำนวนเพิ่มขึ้นเรื่อยๆ รวมถึงการธนาคาร ประกันภัย การเงิน โปรแกรมประกันสุขภาพ โทรคมนาคม การค้าปลีกและการจัดจำหน่าย สำหรับผู้ใช้ทางธุรกิจ InfoSphere Warehouse Pack สำหรับการตลาดและข้อมูลเชิงลึกของแคมเปญช่วยให้คุณเพิ่มประสิทธิภาพของข้อมูลการตลาดและแคมเปญการตลาดผ่านการพัฒนาทีละขั้นตอนและกระบวนการเฉพาะธุรกิจ ทาง InfoSphere Warehouse Pack สำหรับซัพพลายเชน Insightองค์กรมีความสามารถในการรับข้อมูลที่เป็นปัจจุบันเกี่ยวกับการดำเนินงานของห่วงโซ่อุปทาน


ตำแหน่งของ Esri ภายในสถาปัตยกรรมโซลูชันของ IBM

สิ่งที่ควรทราบคือแนวทางของ IBM ต่อบริษัทสาธารณูปโภคและสาธารณูปโภค เพื่อตอบสนองความต้องการของผู้บริโภคที่กำลังเติบโต บริษัทสาธารณูปโภคต้องการสถาปัตยกรรมที่ยืดหยุ่นกว่าที่พวกเขาใช้ในปัจจุบัน เช่นเดียวกับโมเดลวัตถุมาตรฐานอุตสาหกรรมที่อำนวยความสะดวกในการแลกเปลี่ยนข้อมูลอย่างเสรี สิ่งนี้จะช่วยเพิ่มความสามารถในการสื่อสารของบริษัทพลังงานโดยทำให้สามารถสื่อสารได้อย่างคุ้มค่ายิ่งขึ้น และจะช่วยให้ระบบใหม่สามารถมองเห็นทรัพยากรที่จำเป็นทั้งหมดได้ดีขึ้น ไม่ว่าพวกเขาจะอยู่ที่ใดภายในองค์กร พื้นฐานสำหรับแนวทางนี้คือ SOA (Service Oriented Architecture) ซึ่งเป็นโมเดลส่วนประกอบที่กำหนดความสอดคล้องระหว่างหน้าที่ของแผนกและบริการของแอปพลิเคชันต่างๆ ที่สามารถนำมาใช้ซ้ำได้ "บริการ" ของส่วนประกอบเหล่านี้สื่อสารผ่านอินเทอร์เฟซโดยไม่ต้องผูกมัด ซ่อนความซับซ้อนของระบบที่อยู่เบื้องหลังผู้ใช้ ในโหมดนี้ องค์กรต่างๆ สามารถเพิ่มแอปพลิเคชันใหม่ได้อย่างง่ายดายโดยไม่คำนึงถึงผู้จำหน่ายซอฟต์แวร์ ระบบปฏิบัติการ ภาษาโปรแกรม หรือคุณลักษณะภายในอื่นๆ ของซอฟต์แวร์ แนวคิดนี้ดำเนินการบนพื้นฐานของSOA ปลอดภัย (สถาปัตยกรรมโซลูชันสำหรับพลังงานช่วยให้อุตสาหกรรมสาธารณูปโภคได้รับมุมมองแบบองค์รวมเกี่ยวกับโครงสร้างพื้นฐานของตนตามมาตรฐาน

Esri ArcGIS® เป็นแพลตฟอร์มซอฟต์แวร์ที่ได้รับการยอมรับทั่วโลกสำหรับระบบข้อมูลทางภูมิศาสตร์ (GIS) ซึ่งให้การสร้างและจัดการสินทรัพย์ดิจิทัลของพลังงานไฟฟ้า การส่งก๊าซ การกระจาย และเครือข่ายโทรคมนาคม ArcGIS ช่วยให้คุณดำเนินการสินค้าคงคลังที่สมบูรณ์ที่สุดของส่วนประกอบของเครือข่ายการจำหน่ายไฟฟ้าโดยคำนึงถึงตำแหน่งเชิงพื้นที่ ArcGIS ขยายสถาปัตยกรรม IBM SAFE อย่างมากด้วยการจัดหาเครื่องมือ แอปพลิเคชัน เวิร์กโฟลว์ การวิเคราะห์ และข้อมูลและการผสานรวมที่จำเป็นในการจัดการสมาร์ทกริด ArcGIS ภายใน IBM SAFE ช่วยให้คุณได้รับข้อมูลจากแหล่งต่างๆ เกี่ยวกับอ็อบเจ็กต์โครงสร้างพื้นฐาน สินทรัพย์ ลูกค้า และพนักงานด้วยข้อมูลที่ถูกต้องเกี่ยวกับตำแหน่งของพวกเขา ตลอดจนสร้าง จัดเก็บ และประมวลผลข้อมูลอ้างอิงทางภูมิศาสตร์เกี่ยวกับสินทรัพย์ขององค์กร (เสาหลัก ไปป์ไลน์ สายไฟ หม้อแปลงไฟฟ้า ท่อร้อยสายไฟ ฯลฯ) ArcGIS ภายในโครงสร้างพื้นฐาน SAFE ช่วยให้คุณสามารถเชื่อมต่อแอปพลิเคชันธุรกิจหลักแบบไดนามิกได้โดยการรวมข้อมูลจาก GIS, SCADA และระบบบริการลูกค้าเข้ากับข้อมูลภายนอก เช่น การจราจร สภาพอากาศ หรือภาพถ่ายดาวเทียม ยูทิลิตี้ใช้ข้อมูลที่รวมกันนี้เพื่อวัตถุประสงค์ที่หลากหลาย จาก C.O.R. (ภาพใหญ่ของสภาพแวดล้อมการทำงาน) เพื่อตรวจสอบไซต์ บำรุงรักษา วิเคราะห์เครือข่ายและวางแผน

ส่วนประกอบข้อมูลขององค์กรพาวเวอร์ซัพพลายสามารถจำลองได้โดยใช้หลายระดับ ซึ่งมีตั้งแต่ระดับต่ำสุด - ทางกายภาพ - ไปจนถึงระดับบนสุดที่ซับซ้อนที่สุดของตรรกะกระบวนการทางธุรกิจ เลเยอร์เหล่านี้สามารถผสานรวมเพื่อให้เป็นไปตามข้อกำหนดทั่วไปของอุตสาหกรรม เช่น การบันทึกการวัดอัตโนมัติและการควบคุมการกำกับดูแลและการควบคุมการรับข้อมูล (SCADA) การสร้างสถาปัตยกรรม SAFE ทำให้บริษัทสาธารณูปโภคต่าง ๆ มีความก้าวหน้าอย่างมากในการพัฒนาโมเดลวัตถุเปิดทั่วทั้งอุตสาหกรรมที่เรียกว่า Common Information Model (CIM) สำหรับพลังงานและสาธารณูปโภค โมเดลนี้จัดเตรียมพื้นฐานที่จำเป็นสำหรับการย้ายองค์กรจำนวนมากไปสู่สถาปัตยกรรมที่เน้นการบริการ เนื่องจากเป็นการสนับสนุนให้ใช้มาตรฐานแบบเปิดสำหรับการจัดโครงสร้างข้อมูลและอ็อบเจ็กต์ การที่ระบบทั้งหมดใช้ออบเจกต์เดียวกัน ความสับสนและความไม่ยืดหยุ่นที่เกี่ยวข้องกับการใช้งานที่แตกต่างกันของออบเจ็กต์เดียวกันจะลดลงเหลือน้อยที่สุด ดังนั้นคำจำกัดความของวัตถุ "ลูกค้า" และวัตถุทางธุรกิจที่สำคัญอื่น ๆ จะรวมเป็นหนึ่งเดียวในทุกระบบของ บริษัท พาวเวอร์ซัพพลาย ด้วย CIM ผู้ให้บริการและผู้ใช้บริการสามารถแชร์โครงสร้างข้อมูลร่วมกันได้ ทำให้ง่ายขึ้นในการเอาท์ซอร์สส่วนประกอบทางธุรกิจที่มีค่าใช้จ่ายสูง เนื่องจาก CIM ได้สร้างฐานร่วมกันในการสร้างการแบ่งปันข้อมูล

บทสรุป

โมเดลข้อมูลอุตสาหกรรมที่ครอบคลุมช่วยให้บริษัทต่างๆ มีมุมมองข้อมูลทางธุรกิจแบบบูรณาการในมุมมองเดียว หลายบริษัทพบว่าเป็นการยากที่จะรวมข้อมูลเข้าด้วยกัน แม้ว่านี่จะเป็นข้อกำหนดเบื้องต้นสำหรับโครงการระดับองค์กรส่วนใหญ่ก็ตาม จากการศึกษาของสถาบัน Data Warehousing Institute (TDWI) พบว่าองค์กรกว่า 69% ที่สำรวจพบว่าการบูรณาการเป็นอุปสรรคสำคัญในการนำแอปพลิเคชันใหม่มาใช้ ในทางตรงกันข้าม การนำข้อมูลมาใช้ร่วมกันจะทำให้บริษัทมีรายได้ที่จับต้องได้และเพิ่มประสิทธิภาพ

โมเดลที่สร้างขึ้นอย่างดีจะกำหนดความหมายของข้อมูลได้อย่างชัดเจน ซึ่งในกรณีนี้คือข้อมูลที่มีโครงสร้าง (ซึ่งต่างจากข้อมูลที่ไม่มีโครงสร้าง เช่น รูปภาพ ไฟล์ไบนารี หรือข้อความ โดยที่ค่าอาจไม่ชัดเจน) โมเดลอุตสาหกรรมที่มีประสิทธิภาพสูงสุดนำเสนอโดยผู้ค้ามืออาชีพ รวมถึง Esri และ IBM ผลตอบแทนสูงจากการใช้แบบจำลองนั้นเกิดจากรายละเอียดและความแม่นยำในระดับที่มีนัยสำคัญ มักจะมีแอตทริบิวต์ข้อมูลจำนวนมาก นอกจากนี้ ผู้เชี่ยวชาญจาก Esri และ IBM ไม่เพียงแต่มีประสบการณ์ในการสร้างแบบจำลองที่กว้างขวางเท่านั้น แต่ยังมีความเชี่ยวชาญในการสร้างแบบจำลองสำหรับอุตสาหกรรมเฉพาะอีกด้วย


สถาปัตยกรรมฐานข้อมูล

สคีมา CMD เป็นคำอธิบายโครงสร้างของแบบจำลองข้อมูลจากมุมมองของผู้ดูแลระบบ

สคีมา AMD เป็นคำอธิบายของโมเดลภายในหรือทางกายภาพ มันเก็บคำอธิบายของตำแหน่งทางกายภาพของข้อมูลบนสื่อ แบบแผนจะจัดเก็บตัวบ่งชี้โดยตรงของตำแหน่งของข้อมูลในหน่วยความจำ (โวลุ่ม, ดิสก์)

สคีมา CMD อธิบายโครงสร้างของข้อมูล เร็กคอร์ด และฟิลด์

DBMS ทั้งหมดรองรับโมเดลข้อมูลหลักสามประเภท:

1. แบบจำลองลำดับชั้น มันถือว่าบางรายการรูท กิ่งก้านมาจากราก

วัตถุทั้งหมดไม่ได้อธิบายไว้อย่างสะดวกในลักษณะนี้ ไม่มีการเชื่อมต่อในลำดับชั้นและข้อมูลมีความซ้ำซ้อนจำนวนมาก

2. โมเดลเครือข่าย ช่วยให้คุณแสดงความซับซ้อนทั้งหมดของความสัมพันธ์ได้อย่างถูกต้อง

แบบจำลองนี้สะดวกสำหรับการแสดงลิงก์กับข้อมูลจากสภาพแวดล้อมภายนอก แต่สะดวกน้อยกว่าสำหรับการอธิบายในฐานข้อมูล ซึ่งนำไปสู่การทำงานเพิ่มเติมสำหรับผู้ใช้ในการศึกษาการนำทางผ่านลิงก์

3. แบบจำลองเชิงสัมพันธ์ มันขึ้นอยู่กับคำศัพท์ทางคณิตศาสตร์ ความสัมพันธ์ - ความสัมพันธ์ แต่ง่ายๆ - ตาราง ตัวอย่างเช่น สี่เหลี่ยมสองมิติ

โครงสร้างข้อมูลเชิงสัมพันธ์ได้รับการพัฒนาในช่วงปลายยุค 60 โดยนักวิจัยจำนวนหนึ่ง ซึ่ง Edgar Codd พนักงานของ IBM ให้การสนับสนุนที่สำคัญที่สุด ด้วยวิธีเชิงสัมพันธ์ ข้อมูลจะถูกนำเสนอในรูปแบบของตารางสองมิติ - ซึ่งเป็นธรรมชาติที่สุดสำหรับบุคคล ในเวลาเดียวกัน สำหรับการประมวลผลข้อมูล Codd แนะนำให้ใช้เครื่องมือของทฤษฎีเซต - ยูเนี่ยน ทางแยก ผลต่าง ผลคูณคาร์ทีเซียน

ประเภทข้อมูล- แนวคิดนี้มีความหมายเดียวกับในภาษาโปรแกรม (เช่น ชนิดข้อมูลกำหนดการแสดงแทนภายในในหน่วยความจำคอมพิวเตอร์และวิธีการจัดเก็บอินสแตนซ์ข้อมูล ตลอดจนชุดของค่าที่อินสแตนซ์ข้อมูลรับได้ และชุดของการดำเนินการข้อมูลที่ถูกต้อง) ฐานข้อมูลสมัยใหม่ที่มีอยู่ทั้งหมดรองรับข้อมูลประเภทพิเศษที่ออกแบบมาเพื่อจัดเก็บข้อมูลประเภทจำนวนเต็ม จุดลอยตัวเศษส่วน อักขระและสตริง วันที่ในปฏิทิน เซิร์ฟเวอร์ฐานข้อมูลจำนวนมากใช้ประเภทอื่น เช่น Interbase มีชนิดข้อมูลพิเศษสำหรับจัดเก็บอาร์เรย์ข้อมูลไบนารีขนาดใหญ่ (BLOB)

โดเมนเป็นชุดค่าที่เป็นไปได้ของประเภทข้อมูลอย่างง่าย ซึ่งคล้ายกับประเภทย่อยของข้อมูลในภาษาโปรแกรมบางภาษา โดเมนถูกกำหนดโดยสององค์ประกอบ - ชนิดข้อมูลและนิพจน์บูลีนที่ใช้กับข้อมูล หากนิพจน์นี้ประเมินว่าเป็นจริง แสดงว่าอินสแตนซ์ข้อมูลเป็นของโดเมน

ทัศนคติเป็นตารางสองมิติชนิดพิเศษประกอบด้วยส่วนหัวและส่วนเนื้อหา

หัวข้อเป็นชุดของแอตทริบิวต์คงที่ ซึ่งแต่ละชุดมีการกำหนดไว้ในบางโดเมน และมีความสอดคล้องกันแบบหนึ่งต่อหนึ่งระหว่างแอตทริบิวต์และการกำหนดโดเมน


แต่ละแอตทริบิวต์ถูกกำหนดในโดเมนของตัวเอง โดเมนเป็นชนิดข้อมูลจำนวนเต็ม และเงื่อนไขบูลีนคือ n>0 หัวเรื่องเป็นอมตะไม่เหมือนกับเนื้อหาที่สัมพันธ์กัน ความสัมพันธ์ของร่างกาย- เป็นคอลเลกชั่น ทูเพิลซึ่งแต่ละคู่เป็นคู่แอตทริบิวต์-ค่า

ด้วยพลังแห่งความสัมพันธ์คือจำนวนของสิ่งอันดับของมัน และ ระดับทัศนคติคือจำนวนคุณลักษณะ

ระดับของอัตราส่วนเป็นค่าคงที่สำหรับอัตราส่วนที่กำหนด ในขณะที่กำลังของอัตราส่วนจะแปรผันตามเวลา กำลังของอัตราส่วนเรียกอีกอย่างว่าเลขคาร์ดินัล

แนวคิดข้างต้นเป็นแนวทฤษฎีและใช้ในการพัฒนาเครื่องมือภาษาและระบบซอฟต์แวร์สำหรับ DBMS เชิงสัมพันธ์ ในการทำงานประจำวัน จะใช้คำที่เทียบเท่ากันอย่างไม่เป็นทางการแทน:

ทัศนคติ - ตาราง;

คุณลักษณะ - คอลัมน์หรือฟิลด์

ทูเพิล - บันทึกหรือบรรทัด

ดังนั้น ระดับของความสัมพันธ์คือจำนวนคอลัมน์ในตาราง และจำนวนคาร์ดินัลคือจำนวนแถว

เนื่องจากความสัมพันธ์คือเซต และในทฤษฎีเซตคลาสสิก ตามคำจำกัดความ เซตไม่สามารถมีองค์ประกอบที่ตรงกันได้ ความสัมพันธ์จึงไม่สามารถมีทูเพิลที่เหมือนกันสองตัวได้ ดังนั้น สำหรับความสัมพันธ์ที่กำหนด จะมีชุดของคุณลักษณะที่ระบุทูเพิลโดยไม่ซ้ำกัน แอตทริบิวต์ชุดนี้เรียกว่า กุญแจ.

คีย์ต้องเป็นไปตามข้อกำหนดต่อไปนี้:

ต้องไม่ซ้ำกัน;

· ต้องมีน้อยที่สุด กล่าวคือ การลบแอตทริบิวต์ใด ๆ ออกจากคีย์จะนำไปสู่การละเมิดเอกลักษณ์

ตามกฎแล้ว จำนวนแอตทริบิวต์ในคีย์จะน้อยกว่าระดับของความสัมพันธ์ อย่างไรก็ตาม ในกรณีร้ายแรง คีย์อาจมีแอตทริบิวต์ทั้งหมด เนื่องจากการรวมกันของแอตทริบิวต์ทั้งหมดจะเป็นไปตามเงื่อนไขเฉพาะ โดยทั่วไป ความสัมพันธ์มีหลายคีย์ จากกุญแจทั้งหมดของความสัมพันธ์ (เรียกอีกอย่างว่า "กุญแจที่เป็นไปได้") หนึ่งปุ่มถูกเลือกเป็น คีย์หลัก. เมื่อเลือก คีย์หลักโดยปกติแล้วจะกำหนดให้กับคีย์ที่มีแอตทริบิวต์จำนวนน้อยที่สุด นอกจากนี้ยังไม่เหมาะสมที่จะใช้คีย์ที่มีค่าสตริงแบบยาว

ในทางปฏิบัติ มักจะใช้แอตทริบิวต์ตัวเลขพิเศษเป็นคีย์หลัก - ศูนย์ที่เพิ่มค่าอัตโนมัติ ซึ่งค่าที่ทริกเกอร์สามารถสร้างได้ (ทริกเกอร์คือขั้นตอนพิเศษที่เรียกว่าเมื่อมีการเปลี่ยนแปลงฐานข้อมูล) หรือ โดยวิธีพิเศษที่กำหนดไว้ในกลไก DBMS

แนวคิดที่อธิบายในบทนี้ไม่ได้เจาะจงสำหรับการนำฐานข้อมูลไปใช้ แต่เป็นเรื่องปกติสำหรับแนวคิดทั้งหมด ดังนั้น แนวความคิดเหล่านี้เป็นพื้นฐานของแบบจำลองทั่วไป ซึ่งเรียกว่าแบบจำลองข้อมูลเชิงสัมพันธ์

ผู้ก่อตั้งแนวทางเชิงสัมพันธ์ Date กำหนดว่าโมเดลเชิงสัมพันธ์ประกอบด้วยสามส่วน:

โครงสร้าง;

· บิดเบือน;

แบบองค์รวม

ความสัมพันธ์ได้รับการแก้ไขในส่วนโครงสร้างของแบบจำลองเนื่องจากเป็นโครงสร้างข้อมูลเดียวที่ใช้ในแบบจำลองเชิงสัมพันธ์

ในส่วนการจัดการ กลไกพื้นฐานสองอย่างสำหรับการจัดการฐานข้อมูลเชิงสัมพันธ์ได้รับการแก้ไขแล้ว - พีชคณิตเชิงสัมพันธ์และแคลคูลัสเชิงสัมพันธ์

ส่วนประกอบสำคัญเป็นที่เข้าใจกันว่าเป็นกลไกบางอย่างในการทำให้ข้อมูลไม่สามารถทำลายได้ ส่วนความสมบูรณ์ประกอบด้วยข้อกำหนดด้านความสมบูรณ์พื้นฐานสองประการสำหรับฐานข้อมูลเชิงสัมพันธ์ - ความสมบูรณ์ของเอนทิตีและความสมบูรณ์ของการอ้างอิง

ความต้องการ ความสมบูรณ์ของนิติบุคคลคือทูเพิลของความสัมพันธ์ใด ๆ จะต้องแตกต่างจากทูเพิลอื่น ๆ ของความสัมพันธ์นี้ กล่าวคือ ความสัมพันธ์ใด ๆ ต้องมีคีย์หลัก ต้องเป็นไปตามข้อกำหนดนี้หากคุณสมบัติพื้นฐานของความสัมพันธ์เป็นไปตามข้อกำหนด

ในภาษาที่ใช้จัดการข้อมูล เช่นเดียวกับในภาษาคิวรี เครื่องมือทางคณิตศาสตร์ที่เรียกว่าพีชคณิตของความสัมพันธ์ถูกดำเนินการ ซึ่งกำหนดการกระทำต่อไปนี้:

1. การดำเนินงานมาตรฐาน: - ทางแยก, - ยูเนี่ยน, \ - ความแตกต่าง, X - ผลิตภัณฑ์คาร์ทีเซียน

2. เฉพาะเจาะจง: การฉายภาพ ข้อจำกัด การเชื่อมต่อ การแบ่งส่วน

ก. สมาคม

SD SHM EI HP

R 1 (รหัสชิ้นส่วน รหัสวัสดุ หน่วยวัด อัตราการบริโภค)

R 2 (SHD, SHM, EI, HP)

ต้องหาให้เจอ

มันควรจะเข้าร่วมชุด R 1 และ R 2 . ในการดำเนินการนี้ ระดับจะถูกคงไว้ และคาร์ดินัลลิตี้ของเซตผลลัพธ์

ข. จุดตัด.

เน้นเส้นที่ตรงกัน

ค. ความแตกต่าง.

ยกเว้นจากสิ่งอันดับ R 1 ที่ตรงกับ R 2

ง. ผลิตภัณฑ์คาร์ทีเซียน

นี่คือที่ที่ทูเพิลต่อกัน

แต่ละแถวของชุดหนึ่งจะต่อกันในแต่ละแถวของอีกชุดหนึ่ง

ให้สองชุด:

ผลิตภัณฑ์คาร์ทีเซียนมีรูปแบบดังต่อไปนี้:

ในกรณีนี้ S-degree คือ a, i.e. คุณจะได้ 12 แถว 5 คอลัมน์

ฐานข้อมูลองค์กรเป็นลิงค์ส่วนกลางของระบบข้อมูลองค์กร และช่วยให้คุณสร้างพื้นที่ข้อมูลองค์กรเพียงแห่งเดียว ฐานข้อมูลองค์กร


แชร์งานบนโซเชียลเน็ตเวิร์ก

หากงานนี้ไม่เหมาะกับคุณ มีรายการงานที่คล้ายกันที่ด้านล่างของหน้า คุณยังสามารถใช้ปุ่มค้นหา

THEME V ฐานข้อมูลองค์กร

วี .หนึ่ง. การจัดระเบียบข้อมูลในระบบองค์กร ฐานข้อมูลองค์กร

วี .2. DBMS และโซลูชันเชิงโครงสร้างในระบบองค์กร

V.3. เทคโนโลยีอินเทอร์เน็ต / อินทราเน็ต และโซลูชั่นการเข้าถึงฐานข้อมูลขององค์กร

วี .หนึ่ง. การจัดระเบียบข้อมูลในระบบองค์กร ฐานข้อมูลองค์กร

ฐานองค์กร data เป็นลิงค์กลางของระบบข้อมูลองค์กร และช่วยให้คุณสร้างพื้นที่ข้อมูลเดียวของบริษัท ฐานข้อมูลองค์กร (รูปที่ 1.1)

มีคำจำกัดความต่างๆ ของฐานข้อมูล

ภายใต้ฐานข้อมูล (DB) เข้าใจชุดข้อมูลที่เกี่ยวข้องอย่างมีเหตุมีผลในลักษณะที่ประกอบเป็นชุดข้อมูลเดียวที่จัดเก็บไว้ในอุปกรณ์จัดเก็บข้อมูลของคอมพิวเตอร์ ชุดนี้ทำหน้าที่เป็นข้อมูลเบื้องต้นของงานที่แก้ไขในกระบวนการการทำงานของระบบควบคุมอัตโนมัติ ระบบประมวลผลข้อมูล ข้อมูลและระบบคอมพิวเตอร์

คุณสามารถกำหนดคำศัพท์ฐานข้อมูลโดยสังเขปเป็นชุดของข้อมูลที่เกี่ยวข้องทางตรรกะซึ่งมีไว้สำหรับการแบ่งปัน

ภายใต้ฐานข้อมูล หมายถึงการรวบรวมข้อมูลที่จัดเก็บไว้พร้อมกับความซ้ำซ้อนน้อยที่สุดเพื่อให้สามารถใช้งานได้อย่างเหมาะสมที่สุดสำหรับหนึ่งแอปพลิเคชันขึ้นไป

วัตถุประสงค์ในการสร้างฐานข้อมูล เป็นรูปแบบการจัดเก็บข้อมูลการสร้างระบบข้อมูลที่ไม่ขึ้นอยู่กับอัลกอริธึม (ซอฟต์แวร์) ที่นำมาใช้ วิธีการทางเทคนิคที่ใช้ ตำแหน่งทางกายภาพของข้อมูลในคอมพิวเตอร์ ฐานข้อมูลมีการใช้งานอเนกประสงค์ (ผู้ใช้หลายคน เอกสารหลายรูปแบบ และแบบสอบถามของผู้ใช้รายเดียว)

ข้อกำหนดฐานข้อมูลพื้นฐาน:

  • ความสมบูรณ์ของการนำเสนอข้อมูล ข้อมูลในฐานข้อมูลควรแสดงข้อมูลทั้งหมดเกี่ยวกับวัตถุอย่างเพียงพอและควรเพียงพอสำหรับ ODS
  • ความสมบูรณ์ของฐานข้อมูล ข้อมูลจะต้องได้รับการเก็บรักษาไว้ในระหว่างการประมวลผล ODS และในสถานการณ์ใด ๆ ที่เกิดขึ้นระหว่างการทำงาน
  • ความยืดหยุ่นของโครงสร้างข้อมูล ฐานข้อมูลควรอนุญาตให้เปลี่ยนแปลงโครงสร้างข้อมูลโดยไม่ละเมิดความสมบูรณ์และความสมบูรณ์เมื่อเงื่อนไขภายนอกเปลี่ยนแปลง
  • ความสมจริง ซึ่งหมายความว่าต้องมีการนำเสนอวัตถุต่างๆ คุณสมบัติและความสัมพันธ์อย่างเป็นรูปธรรม
  • ความพร้อมใช้งาน จำเป็นต้องสร้างความแตกต่างในการเข้าถึงข้อมูล
  • ความซ้ำซ้อน ฐานข้อมูลควรมีความซ้ำซ้อนน้อยที่สุดในการแสดงข้อมูลเกี่ยวกับวัตถุใดๆ

ความรู้คือความเข้าใจ ชุดของข้อเท็จจริง รูปแบบ และกฎฮิวริสติกซึ่งคุณสามารถแก้ปัญหาได้

ฐานความรู้ (KB)  การรวบรวมฐานข้อมูลและกฎเกณฑ์ที่ใช้ ได้รับจากผู้มีอำนาจตัดสินใจ ฐานความรู้เป็นองค์ประกอบของระบบผู้เชี่ยวชาญ

ควรแยกแยะ การนำเสนอข้อมูลในรูปแบบต่างๆ.

ข้อมูลทางกายภาพ - นี่คือข้อมูลที่เก็บไว้ในหน่วยความจำของคอมพิวเตอร์

การแสดงข้อมูลเชิงตรรกะ สอดคล้องกับการแสดงข้อมูลทางกายภาพของผู้ใช้ ความแตกต่างระหว่างการแสดงข้อมูลทางกายภาพและเชิงตรรกะที่สอดคล้องกันก็คือ การแสดงข้อมูลแบบหลังสะท้อนถึงความสัมพันธ์ที่สำคัญบางอย่างระหว่างข้อมูลทางกายภาพ

ภายใต้ฐานข้อมูลองค์กร เข้าใจฐานข้อมูลที่รวมข้อมูลและความรู้ที่จำเป็นทั้งหมดเกี่ยวกับองค์กรอัตโนมัติในรูปแบบใดรูปแบบหนึ่ง ในระบบสารสนเทศขององค์กร เช่น แนวความคิดเช่นฐานข้อมูลแบบบูรณาการ, ซึ่งใช้หลักการของรายการเดียวและการใช้ข้อมูลหลายครั้ง

ข้าว. 1.1. โครงสร้างปฏิสัมพันธ์ของแผนกต่างๆ กับแหล่งข้อมูลของบริษัท

ฐานข้อมูลองค์กรคือ เข้มข้น (รวมศูนย์) และแจกจ่าย

ฐานข้อมูลเข้มข้น (รวมศูนย์) เป็นฐานข้อมูลที่มีข้อมูลถูกเก็บไว้ในอุปกรณ์จัดเก็บข้อมูลของคอมพิวเตอร์เครื่องหนึ่ง ในรูป 1.2 แสดงไดอะแกรมของแอปพลิเคชันเซิร์ฟเวอร์สำหรับเข้าถึงฐานข้อมูลในแพลตฟอร์มต่างๆ

รูปที่ 1.2 ไดอะแกรมของต่างกัน ฐานข้อมูลส่วนกลาง

การรวมศูนย์ของการประมวลผลข้อมูลทำให้สามารถขจัดข้อบกพร่องของระบบไฟล์แบบเดิมได้ เช่น ความไม่ต่อเนื่องกัน ความไม่สอดคล้องกัน และความซ้ำซ้อนของข้อมูล อย่างไรก็ตาม เมื่อฐานข้อมูลเติบโตขึ้น และโดยเฉพาะอย่างยิ่งเมื่อใช้ในองค์กรที่กระจัดกระจายทางภูมิศาสตร์ ปัญหาก็เกิดขึ้น ตัวอย่างเช่น สำหรับฐานข้อมูลแบบเข้มข้นที่อยู่ในโหนดเครือข่ายโทรคมนาคม ซึ่งแผนกต่างๆ ขององค์กรเข้าถึงข้อมูลด้วยปริมาณข้อมูลและจำนวนธุรกรรมที่เพิ่มขึ้น จะเกิดปัญหาดังต่อไปนี้:

  • กระแสการแลกเปลี่ยนข้อมูลขนาดใหญ่
  • ปริมาณการใช้เครือข่ายสูง
  • ความน่าเชื่อถือต่ำ
  • ประสิทธิภาพโดยรวมต่ำ

แม้ว่าการรักษาความปลอดภัย ความสมบูรณ์ และความสอดคล้องของข้อมูลระหว่างการอัปเดตในฐานข้อมูลแบบเข้มข้นจะง่ายกว่า แต่ปัญหาเหล่านี้ทำให้เกิดปัญหาบางอย่าง การกระจายอำนาจของข้อมูลถูกเสนอเป็นวิธีแก้ปัญหาที่เป็นไปได้สำหรับปัญหาเหล่านี้ การกระจายอำนาจบรรลุ:

  • การประมวลผลพร้อมกันในระดับที่สูงขึ้นเนื่องจากการแบ่งปันโหลด
  • ปรับปรุงการใช้ข้อมูลในภาคสนามเมื่อทำการสืบค้นระยะไกล (ระยะไกล)
  • ต้นทุนที่ต่ำกว่า
  • ง่ายต่อการจัดการฐานข้อมูลท้องถิ่น

ค่าใช้จ่ายในการสร้างเครือข่ายที่มีเวิร์กสเตชัน (คอมพิวเตอร์ขนาดเล็ก) อยู่ที่โหนดนั้นต่ำกว่าต้นทุนในการสร้างระบบที่คล้ายกันโดยใช้เมนเฟรมอย่างมาก รูปที่ 1.3 แสดงไดอะแกรมตรรกะของฐานข้อมูลแบบกระจาย

รูปที่ 1.3 ฐานข้อมูลองค์กรแบบกระจาย

เราให้คำจำกัดความต่อไปนี้ของฐานข้อมูลแบบกระจาย

ฐานข้อมูลแบบกระจาย - นี่คือการรวบรวมข้อมูล ไฟล์ (ความสัมพันธ์) ที่เก็บไว้ในโหนดต่างๆ ของเครือข่ายข้อมูล และเชื่อมโยงอย่างมีเหตุผลในลักษณะที่รวมเป็นชุดข้อมูลเดียว (ลิงก์สามารถทำงานได้หรือผ่านสำเนาของไฟล์เดียวกัน) ดังนั้นจึงเป็นชุดของฐานข้อมูลที่เชื่อมต่อถึงกันตามตรรกะ แต่มีอยู่จริงในเครื่องหลายเครื่องที่เป็นส่วนหนึ่งของเครือข่ายคอมพิวเตอร์เครื่องเดียวกัน

ข้อกำหนดที่สำคัญที่สุดสำหรับคุณสมบัติของฐานข้อมูลแบบกระจายมีดังนี้:

  • ความสามารถในการขยาย;
  • ความเข้ากันได้;
  • รองรับโมเดลข้อมูลต่างๆ
  • การพกพา;
  • ความโปร่งใสของตำแหน่ง
  • เอกราชของโหนดฐานข้อมูลแบบกระจาย (Site Autonomy);
  • การประมวลผลคำขอแบบกระจาย
  • การดำเนินการของธุรกรรมแบบกระจาย
  • รองรับระบบความปลอดภัยที่เป็นเนื้อเดียวกัน

ความโปร่งใสของตำแหน่งทำให้ผู้ใช้สามารถทำงานกับฐานข้อมูลได้โดยไม่ต้องรู้อะไรเลยเกี่ยวกับตำแหน่งของพวกเขา ความเป็นอิสระของโหนดฐานข้อมูลแบบกระจายหมายความว่าแต่ละฐานข้อมูลสามารถรักษาได้โดยอิสระจากฐานข้อมูลอื่น แบบสอบถามแบบกระจายคือแบบสอบถาม (คำสั่ง SQL) ในระหว่างที่มีการเข้าถึงวัตถุ (ตารางหรือมุมมอง) ของฐานข้อมูลที่แตกต่างกัน เมื่อดำเนินการธุรกรรมแบบกระจาย การควบคุมการทำงานพร้อมกันจะถูกใช้บนฐานข้อมูลที่เกี่ยวข้องทั้งหมด Oracle7 ใช้เทคโนโลยีการถ่ายโอนข้อมูลแบบสองเฟสเพื่อทำธุรกรรมแบบกระจาย

ฐานข้อมูลที่ประกอบเป็นฐานข้อมูลแบบกระจายไม่จำเป็นต้องเป็นเนื้อเดียวกัน (เช่น เรียกใช้โดย DBMS เดียวกัน) หรือทำงานบนระบบปฏิบัติการเดียวกันและ/หรือบนคอมพิวเตอร์ประเภทเดียวกัน ตัวอย่างเช่น ฐานข้อมูลหนึ่งอาจเป็นฐานข้อมูล Oracle บนคอมพิวเตอร์ SUN ที่ใช้ SUN OS (UNIX) ฐานข้อมูลที่สองสามารถเรียกใช้โดย DB2 DBMS บนเมนเฟรม IBM 3090 ที่ใช้ระบบปฏิบัติการ MVS และฐานข้อมูลที่สามสามารถเรียกใช้โดย SQL/DS DBMS บนเมนเฟรมของ IBM ด้วย แต่มีระบบปฏิบัติการ VM เงื่อนไขบังคับเดียวเท่านั้น - เครื่องทั้งหมดที่มีฐานข้อมูลต้องสามารถเข้าถึงได้ผ่านเครือข่ายที่เป็นส่วนหนึ่งของ

งานหลักของฐานข้อมูลแบบกระจาย – การกระจายข้อมูลผ่านเครือข่ายและให้การเข้าถึง มีวิธีต่อไปนี้ในการแก้ปัญหานี้:

  • แต่ละโหนดจัดเก็บและใช้ชุดข้อมูลของตัวเองที่พร้อมใช้งานสำหรับการสืบค้นระยะไกล การกระจายนี้ถูกแบ่งออก
  • ข้อมูลบางอย่างที่ใช้บ่อยในไซต์ระยะไกลอาจถูกทำซ้ำ การกระจายดังกล่าวเรียกว่าทำซ้ำบางส่วน
  • ข้อมูลทั้งหมดจะถูกทำซ้ำในแต่ละโหนด การกระจายดังกล่าวเรียกว่าซ้ำซ้อนอย่างสมบูรณ์
  • ไฟล์บางไฟล์สามารถแบ่งในแนวนอน (เลือกชุดย่อยของเรคคอร์ด) หรือในแนวตั้ง (เลือกชุดย่อยของฟิลด์แอตทริบิวต์) ในขณะที่ชุดย่อยที่แยกจะถูกจัดเก็บไว้ในโหนดต่างๆ ควบคู่ไปกับข้อมูลที่ไม่ได้แยก การกระจายดังกล่าวเรียกว่าแยกส่วน (แยกส่วน)

เมื่อสร้างฐานข้อมูลแบบกระจายในระดับแนวคิด คุณต้องแก้ไขงานต่อไปนี้:

  • จำเป็นต้องมีโครงร่างแนวคิดเดียวสำหรับเครือข่ายทั้งหมด สิ่งนี้จะมอบความโปร่งใสของข้อมูลเชิงตรรกะให้กับผู้ใช้ อันเป็นผลมาจากการที่เขาจะสามารถร้องขอไปยังฐานข้อมูลทั้งหมดได้ โดยอยู่ที่เทอร์มินัลแยกต่างหาก
  • จำเป็นต้องใช้สคีมาเพื่อค้นหาข้อมูลบนเครือข่าย ซึ่งจะให้ความโปร่งใสในการจัดวางข้อมูลเพื่อให้ผู้ใช้ไม่ต้องระบุตำแหน่งที่จะส่งต่อคำขอเพื่อรับข้อมูลที่ต้องการ
  • จำเป็นต้องแก้ปัญหาความแตกต่างของฐานข้อมูลแบบกระจาย ฐานข้อมูลแบบกระจายสามารถเป็นเนื้อเดียวกันหรือต่างกันในแง่ของฮาร์ดแวร์และซอฟต์แวร์ ปัญหาของ heterogeneity นั้นค่อนข้างง่ายที่จะแก้ไขหากฐานข้อมูลแบบกระจายนั้นต่างกันในแง่ของฮาร์ดแวร์ แต่เป็นเนื้อเดียวกันในแง่ของซอฟต์แวร์ (DBMS เดียวกันในโหนด) หากใช้ DBMS ที่แตกต่างกันในโหนดของระบบแบบกระจาย จำเป็นต้องใช้วิธีการแปลงโครงสร้างข้อมูลและภาษา สิ่งนี้ควรให้ความโปร่งใสของการแปลงในโหนดฐานข้อมูลแบบกระจาย
  • จำเป็นต้องแก้ปัญหาการจัดการพจนานุกรม เพื่อให้เกิดความโปร่งใสในทุกรูปแบบในฐานข้อมูลแบบกระจาย จำเป็นต้องมีโปรแกรมที่จัดการพจนานุกรมและหนังสืออ้างอิงจำนวนมาก
  • จำเป็นต้องกำหนดวิธีการดำเนินการค้นหาในฐานข้อมูลแบบกระจาย วิธีการดำเนินการค้นหาในฐานข้อมูลแบบกระจายนั้นแตกต่างจากวิธีการที่คล้ายกันในฐานข้อมูลแบบรวมศูนย์ เนื่องจากแต่ละส่วนของการสืบค้นจะต้องดำเนินการที่ตำแหน่งของข้อมูลที่เกี่ยวข้องและโอนผลลัพธ์บางส่วนไปยังโหนดอื่น ในเวลาเดียวกัน ควรมีการประสานงานของกระบวนการทั้งหมด
  • จำเป็นต้องแก้ปัญหาการดำเนินการแบบสอบถามแบบคู่ขนาน ในฐานข้อมูลแบบกระจาย จำเป็นต้องมีกลไกที่ซับซ้อนสำหรับการจัดการการประมวลผลพร้อมกัน ซึ่งโดยเฉพาะอย่างยิ่ง ต้องตรวจสอบให้แน่ใจว่ามีการซิงโครไนซ์เมื่อมีการอัพเดตข้อมูล ซึ่งรับประกันความสอดคล้องของข้อมูล
  • ความจำเป็นสำหรับวิธีการที่พัฒนาขึ้นสำหรับการกระจายและการจัดวางข้อมูล รวมถึงการแยก เป็นหนึ่งในข้อกำหนดหลักสำหรับฐานข้อมูลแบบกระจาย

หนึ่งในพื้นที่ใหม่ที่กำลังพัฒนาอย่างแข็งขันของสถาปัตยกรรมระบบคอมพิวเตอร์ซึ่งเป็นเครื่องมือที่มีประสิทธิภาพสำหรับการประมวลผลข้อมูลที่ไม่ใช่ตัวเลขคือ เครื่องฐานข้อมูล. เครื่องฐานข้อมูลใช้เพื่อแก้ไขงานที่ไม่ใช่ตัวเลข เช่น การจัดเก็บ ค้นหา และแปลงเอกสารและข้อเท็จจริง การทำงานกับวัตถุ ตามคำจำกัดความของข้อมูลเป็นข้อมูลดิจิทัลและกราฟิกเกี่ยวกับวัตถุของโลกรอบข้าง เนื้อหาต่างๆ จะถูกฝังอยู่ในแนวคิดของข้อมูลในการประมวลผลตัวเลขและไม่ใช่ตัวเลข การประมวลผลตัวเลขใช้อ็อบเจ็กต์ เช่น ตัวแปร เวกเตอร์ เมทริกซ์ อาร์เรย์หลายมิติ ค่าคงที่ และอื่นๆ ในขณะที่การประมวลผลที่ไม่ใช่ตัวเลขจะใช้อ็อบเจ็กต์ เช่น ไฟล์ เรคคอร์ด ฟิลด์ ลำดับชั้น เครือข่าย ความสัมพันธ์ และอื่นๆ การประมวลผลตัวเลขเกี่ยวข้องโดยตรงกับข้อมูลเกี่ยวกับออบเจกต์ (เช่น พนักงานหรือกลุ่มพนักงานเฉพาะ) ไม่ใช่ไฟล์พนักงานเอง ไม่สร้างดัชนีไฟล์พนักงานเพื่อเลือกบุคคลใดบุคคลหนึ่ง ที่นี่สนใจเนื้อหาของบันทึกที่ต้องการมากขึ้น ข้อมูลจำนวนมากมักจะถูกประมวลผลที่ไม่ใช่ตัวเลข ในแอปพลิเคชันต่างๆ การดำเนินการดังกล่าวสามารถทำได้กับข้อมูลนี้ ตัวอย่างเช่น

  • เพิ่มเงินเดือนของพนักงานทุกคนในบริษัท
  • คำนวณดอกเบี้ยธนาคารในบัญชีของลูกค้าทั้งหมด
  • ทำการเปลี่ยนแปลงรายการสินค้าทั้งหมดในสต็อก
  • ค้นหาบทคัดย่อที่ต้องการจากข้อความทั้งหมดที่จัดเก็บไว้ในห้องสมุดหรือในระบบสืบค้นข้อมูลบรรณานุกรม
  • ค้นหาคำอธิบายของสัญญาที่ต้องการในไฟล์ที่มีเอกสารทางกฎหมาย
  • ดูไฟล์ทั้งหมดที่มีรายละเอียดของสิทธิบัตรและค้นหาสิทธิบัตร (ถ้ามี) ที่คล้ายกับที่เสนออีกครั้ง

เพื่อนำเอ็นจิ้นฐานข้อมูลไปใช้แบบขนานและเชื่อมโยง สถาปัตยกรรมแทนตัวประมวลผลเดียวฟอน นอยมันน์โครงสร้างช่วยให้คุณทำงานกับข้อมูลจำนวนมากในเวลาจริง

กลไกฐานข้อมูลกำลังได้รับความสำคัญที่เกี่ยวข้องกับการสำรวจและการประยุกต์ใช้แนวคิดปัญญาประดิษฐ์ เช่น การแทนค่าความรู้ ระบบผู้เชี่ยวชาญ การอนุมาน การจดจำรูปแบบ เป็นต้น

การจัดเก็บข้อมูล ทุกวันนี้ หลายคนตระหนักดีว่าบริษัทส่วนใหญ่ดำเนินการฐานข้อมูลหลายแห่งอยู่แล้ว และเพื่อให้ทำงานกับข้อมูลได้สำเร็จ ไม่ใช่แค่ฐานข้อมูลประเภทต่างๆ เท่านั้น แต่ยังต้องใช้ DBMS รุ่นต่างๆ ด้วย ตามสถิติ แต่ละองค์กรใช้ DBMS ที่แตกต่างกัน 2.5 โดยเฉลี่ย ความจำเป็นในการ "แยก" ธุรกิจของบริษัทต่างๆ หรือมากกว่านั้น ผู้คนที่เกี่ยวข้องกับธุรกิจนี้ จากคุณลักษณะทางเทคโนโลยีของฐานข้อมูล เพื่อให้ผู้ใช้ได้เห็นข้อมูลองค์กรในมุมมองเดียว ไม่ว่าจะจัดเก็บทางกายภาพไว้ที่ใด . สิ่งนี้กระตุ้นการเกิดขึ้นของเทคโนโลยีคลังข้อมูล (คลังข้อมูล DW).

เป้าหมายหลักของ DW คือ การสร้างการแสดงข้อมูลเชิงตรรกะเดียวที่มีอยู่ในฐานข้อมูลประเภทต่างๆ หรือกล่าวอีกนัยหนึ่งคือ โมเดลข้อมูลองค์กรเดียว

การพัฒนา DW รอบใหม่เกิดขึ้นได้ด้วยการปรับปรุงเทคโนโลยีสารสนเทศโดยทั่วไป โดยเฉพาะอย่างยิ่งการเกิดขึ้นของฐานข้อมูลประเภทใหม่ที่ใช้การประมวลผลแบบสอบถามแบบคู่ขนาน ซึ่งอาศัยความก้าวหน้าในด้านคอมพิวเตอร์คู่ขนาน ถูกสร้างขึ้น ตัวสร้างแบบสอบถามด้วยอินเทอร์เฟซแบบกราฟิกที่ใช้งานง่ายซึ่งทำให้ง่ายต่อการสร้างการสืบค้นฐานข้อมูลที่ซับซ้อน ซอฟต์แวร์เบ็ดเตล็ดมิดเดิลแวร์ให้การสื่อสารระหว่างฐานข้อมูลประเภทต่างๆและในที่สุดก็ลดราคาลงอย่างแรงอุปกรณ์จัดเก็บข้อมูล.

อาจมีธนาคารข้อมูลอยู่ในโครงสร้างของบริษัท

ฐานข้อมูล - องค์ประกอบการทำงานและองค์กรในระบบควบคุมอัตโนมัติ และระบบข้อมูลและการคำนวณ ซึ่งให้การสนับสนุนข้อมูลแบบรวมศูนย์สำหรับกลุ่มผู้ใช้หรือชุดของงานที่แก้ไขในระบบ

ฐานข้อมูล ถือเป็นระบบข้อมูลและอ้างอิง โดยมีจุดประสงค์หลักคือ

  • ในการสะสมและบำรุงรักษาในสภาพการทำงานของชุดข้อมูลที่ประกอบเป็นฐานข้อมูลของระบบอัตโนมัติทั้งหมดหรือชุดของงานบางอย่างที่แก้ไขได้
  • ในการออกข้อมูลที่จำเป็นสำหรับงานหรือผู้ใช้
  • ในการให้การเข้าถึงข้อมูลที่เก็บไว้โดยรวม;
  • เพื่อให้แน่ใจว่าการจัดการที่จำเป็นของการใช้ข้อมูลที่มีอยู่ใน infobase.

ดังนั้น ธนาคารข้อมูลที่ทันสมัยจึงเป็นซอฟต์แวร์และฮาร์ดแวร์ที่ซับซ้อน ซึ่งรวมถึงเครื่องมือทางเทคนิค ระบบและเครือข่าย ฐานข้อมูลและ DBMS ระบบดึงข้อมูลเพื่อวัตถุประสงค์ต่างๆ

วี .2. DBMS และโซลูชันโครงสร้างในระบบองค์กร

ระบบฐานข้อมูลและการจัดการความรู้

องค์ประกอบที่สำคัญของระบบสารสนเทศสมัยใหม่คือระบบจัดการฐานข้อมูล (DBMS)

DBMS - ชุดซอฟต์แวร์และเครื่องมือภาษาที่ออกแบบมาเพื่อสร้าง บำรุงรักษา และใช้ฐานข้อมูล

ระบบการจัดการฐานข้อมูลช่วยให้ระบบประมวลผลข้อมูลสามารถเข้าถึงฐานข้อมูลได้ ดังที่ระบุไว้แล้ว DBMS มีบทบาทสำคัญในการสร้างระบบข้อมูลองค์กรและมีบทบาทสำคัญอย่างยิ่งในการสร้างระบบข้อมูลโดยใช้ทรัพยากรสารสนเทศแบบกระจายตามเทคโนโลยีคอมพิวเตอร์เครือข่ายสมัยใหม่

คุณสมบัติหลักของ DBMS สมัยใหม่คือ DBMS สมัยใหม่รองรับเทคโนโลยีต่างๆ เช่น:

  • เทคโนโลยีไคลเอนต์/เซิร์ฟเวอร์
  • รองรับภาษาฐานข้อมูล นี้สคีมานิยามภาษา DB (SDL - ภาษานิยามสคีมา),ภาษาการจัดการข้อมูล (DML - ภาษาการจัดการข้อมูล) ภาษาแบบบูรณาการ SQL (ภาษาคิวที่มีโครงสร้าง), QDB (แบบสอบถาม - โดย - ตัวอย่าง) และ QMF (สิ่งอำนวยความสะดวกการจัดการแบบสอบถาม ) เป็นเครื่องมือต่อพ่วงขั้นสูงสำหรับข้อกำหนดการสืบค้นและการสร้างรายงานสำหรับ DB 2 เป็นต้น;
  • การจัดการข้อมูลโดยตรงในหน่วยความจำภายนอก
  • การจัดการบัฟเฟอร์หน่วยความจำ
  • การจัดการธุรกรรม เทคโนโลยี OLTP (การประมวลผลธุรกรรมออนไลน์), OLAP -เทคโนโลยี (การประมวลผลการวิเคราะห์ออนไลน์)สำหรับ DW
  • รับรองการปกป้องข้อมูลและความสมบูรณ์ อนุญาตให้ใช้ระบบได้เฉพาะผู้ใช้ที่มีสิทธิ์เข้าถึงข้อมูลเท่านั้น เมื่อผู้ใช้ดำเนินการกับข้อมูล ความสอดคล้องของข้อมูลที่เก็บไว้ (ความสมบูรณ์) จะยังคงอยู่ นี่เป็นสิ่งสำคัญในระบบข้อมูลผู้ใช้หลายคนขององค์กร
  • วารสารศาสตร์

DBMS สมัยใหม่ต้องเป็นไปตามข้อกำหนดของฐานข้อมูลที่ระบุไว้ข้างต้น นอกจากนี้ต้องปฏิบัติตามหลักการดังต่อไปนี้:

  • ความเป็นอิสระของข้อมูล
  • ความเก่งกาจ DBMS ต้องมีการสนับสนุนที่มีประสิทธิภาพสำหรับโมเดลข้อมูลแนวคิดเพื่อแสดงมุมมองตรรกะที่กำหนดเอง
  • ความเข้ากันได้ DBMS จะต้องยังคงใช้งานได้กับการพัฒนาซอฟต์แวร์และฮาร์ดแวร์
  • ความซ้ำซ้อนของข้อมูล ต่างจากระบบไฟล์ ฐานข้อมูลจะต้องเป็นข้อมูลรวมชุดเดียว
  • การป้องกันข้อมูล. DBMS ต้องจัดให้มีการป้องกันการเข้าถึงโดยไม่ได้รับอนุญาต
  • ความสมบูรณ์ของข้อมูล. DBMS ต้องป้องกันผู้ใช้จากการปลอมแปลงฐานข้อมูล
  • การจัดการงานพร้อมกัน DBMS ต้องปกป้องฐานข้อมูลจากความไม่สอดคล้องกันในโหมดการเข้าถึงที่ใช้ร่วมกัน เพื่อให้แน่ใจว่าฐานข้อมูลมีความสอดคล้องกัน คำขอของผู้ใช้ (ธุรกรรม) ทั้งหมดจะต้องดำเนินการในลำดับที่แน่นอน
  • DBMS ต้องเป็นสากล ควรสนับสนุนแบบจำลองข้อมูลที่แตกต่างกันบนพื้นฐานทางตรรกะและทางกายภาพเดียว
  • DBMS ควรสนับสนุนฐานข้อมูลทั้งแบบรวมศูนย์และแบบกระจาย ดังนั้นจึงกลายเป็นลิงค์สำคัญในเครือข่ายคอมพิวเตอร์

เมื่อพิจารณาว่า DBMS เป็นผลิตภัณฑ์ซอฟต์แวร์ประเภทหนึ่งที่เน้นการรักษาฐานข้อมูลในระบบอัตโนมัติ เราสามารถแยกแยะคุณลักษณะที่สำคัญที่สุดสองประการที่กำหนดประเภทของ DBMS ได้ ตามความคิดเห็นเหล่านี้ DBMS สามารถพิจารณาได้จากสองมุมมอง:

  • ความสามารถที่เกี่ยวข้องกับฐานข้อมูลแบบกระจาย (องค์กร)
  • ความสัมพันธ์กับประเภทของแบบจำลองข้อมูลที่นำไปใช้ใน DBMS

ในความสัมพันธ์กับฐานข้อมูลขององค์กร (แบบกระจาย) DBMS ประเภทต่อไปนี้สามารถแยกแยะได้ตามอัตภาพ:

  • DBMS "เดสก์ท็อป" ผลิตภัณฑ์เหล่านี้เน้นการทำงานกับข้อมูลส่วนบุคคลเป็นหลัก (ข้อมูลเดสก์ท็อป) พวกเขามีชุดคำสั่งสำหรับการแชร์ฐานข้อมูลทั่วไป แต่มีขนาดเล็ก (ประเภทสำนักงานขนาดเล็ก) ก่อนอื่นก็คือ DBMS เช่น Access, dBASE, Paradox, ExPro เหตุใด Access, dBASE, Paradox, ExPro จึงเข้าถึงข้อมูลองค์กรได้ไม่ดี ความจริงก็คือไม่มีวิธีง่ายๆ ในการเอาชนะอุปสรรคระหว่างข้อมูลส่วนบุคคลและข้อมูลองค์กร และประเด็นไม่ได้อยู่ที่กลไกของข้อมูลส่วนบุคคล DBMS (หรือสำนักงานขนาดเล็ก) จะเน้นที่การเข้าถึงข้อมูลผ่านเกตเวย์ ผลิตภัณฑ์เกตเวย์ ฯลฯ ปัญหาคือกลไกเหล่านี้มักเกี่ยวข้องกับการถ่ายโอนไฟล์ทั้งหมดและขาดการสนับสนุนดัชนีที่กว้างขวาง ส่งผลให้คิวไปยังเซิร์ฟเวอร์หยุดชะงักในระบบขนาดใหญ่
  • DBMS ผู้ใช้หลายคนที่มีประสิทธิภาพสูงเฉพาะทาง DBMS ดังกล่าวมีลักษณะเฉพาะจากการมีอยู่ของเคอร์เนลระบบที่มีผู้ใช้หลายคน ภาษาสำหรับการจัดการข้อมูล และฟังก์ชันต่อไปนี้ซึ่งเป็นเรื่องปกติสำหรับ DBMS ที่มีผู้ใช้หลายคนที่พัฒนาแล้ว:
  • การจัดบัฟเฟอร์พูล
  • การมีอยู่ของระบบสำหรับการประมวลผลคิวธุรกรรม
  • การปรากฏตัวของกลไกในการบล็อกข้อมูลผู้ใช้หลายคน
  • การบันทึกธุรกรรม
  • ความพร้อมใช้งานของกลไกการควบคุมการเข้าถึง

เหล่านี้คือ DBMS เช่น Oracle, DВ2, SQL/Server, Informix, Sybase, ADBAS, Titanium และอื่นๆ ให้บริการอย่างกว้างขวางสำหรับการประมวลผลฐานข้อมูลขององค์กร

เมื่อทำงานกับฐานข้อมูล กลไกของธุรกรรมจะถูกใช้

ธุรกรรม เป็นหน่วยตรรกะของงาน

ธุรกรรม เป็นลำดับของคำสั่งจัดการข้อมูลที่ดำเนินการหนึ่งเดียว(ทั้งหมดหรือไม่มีเลย) และการแปลฐานข้อมูลจากสถานะปริพันธ์หนึ่งไปสู่สถานะปริพันธ์อีกสถานะหนึ่ง.

ธุรกรรมมีคุณสมบัติที่สำคัญสี่ประการที่เรียกว่าคุณสมบัติ ASID:

  • (A) อะตอมมิก . ธุรกรรมจะดำเนินการเป็นการดำเนินการแบบปรมาณู - ธุรกรรมทั้งหมดถูกดำเนินการ หรือธุรกรรมทั้งหมดจะไม่ถูกดำเนินการ
  • (C) ความสม่ำเสมอ. ธุรกรรมจะย้ายฐานข้อมูลจากสถานะที่สอดคล้องกัน (สม่ำเสมอ) หนึ่งไปยังอีกสถานะหนึ่ง (สอดคล้องกัน) ที่สม่ำเสมอ ภายในธุรกรรม ความสอดคล้องของฐานข้อมูลสามารถถูกทำลายได้
  • (I) ความโดดเดี่ยว . ธุรกรรมของผู้ใช้ที่แตกต่างกันไม่ควรรบกวนซึ่งกันและกัน (เช่น ราวกับว่าพวกเขาถูกดำเนินการอย่างเข้มงวดในทางกลับกัน)
  • (D) ความทนทาน. หากธุรกรรมเสร็จสมบูรณ์ ผลลัพธ์ของงานควรถูกบันทึกไว้ในฐานข้อมูล แม้ว่าระบบจะขัดข้องในช่วงเวลาถัดไป

ธุรกรรมมักจะเริ่มต้นโดยอัตโนมัติตั้งแต่ช่วงเวลาที่ผู้ใช้เข้าร่วม DBMS และดำเนินต่อไปจนกว่าจะมีเหตุการณ์ใดเหตุการณ์หนึ่งต่อไปนี้เกิดขึ้น:

  • มีการออกคำสั่ง COMMIT WORK (เพื่อดำเนินการธุรกรรม)
  • ออกคำสั่ง ROLLBACK WORK
  • ผู้ใช้ยกเลิกการเชื่อมต่อจาก DBMS
  • มีความล้มเหลวของระบบ

สำหรับผู้ใช้ เธอมักจะใส่ อักขระอะตอม. อันที่จริงนี่เป็นกลไกที่ซับซ้อนของการโต้ตอบระหว่างผู้ใช้ (แอปพลิเคชัน) และฐานข้อมูล ซอฟต์แวร์ระบบองค์กรใช้เครื่องมือประมวลผลธุรกรรมตามเวลาจริง (ระบบประมวลผลธุรกรรมออนไลน์ OLTP) โดยเฉพาะโปรแกรมบัญชี ซอฟต์แวร์สำหรับรับและประมวลผลแอปพลิเคชันไคลเอนต์ แอปพลิเคชันทางการเงิน จัดทำข้อมูลจำนวนมาก ระบบเหล่านี้ได้รับการออกแบบ (และปรับให้เหมาะสมอย่างเหมาะสม) สำหรับการประมวลผลข้อมูลจำนวนมาก ธุรกรรมที่ซับซ้อน และการดำเนินการอ่าน/เขียนแบบเข้มข้น

ขออภัย ข้อมูลที่ใส่ในฐานข้อมูลของระบบ OLTP ไม่เหมาะสำหรับการใช้งานโดยผู้ใช้ทั่วไป (เนื่องจากการปรับตารางให้เป็นมาตรฐานระดับสูง รูปแบบการนำเสนอข้อมูลเฉพาะ และปัจจัยอื่นๆ) ดังนั้นข้อมูลจากไปป์ไลน์ข้อมูลต่าง ๆ จึงถูกส่ง (ในแง่ของการคัดลอก) ไปยัง โกดังเก็บของคัดแยกและจัดส่งถึงมือผู้บริโภค เทคโนโลยีสารสนเทศมีบทบาทในคลังสินค้าการจัดเก็บข้อมูล

การส่งข้อมูลไปยังผู้ใช้ปลายทาง - มีส่วนร่วมในระบบการประมวลผลข้อมูลวิเคราะห์แบบเรียลไทม์ (การประมวลผลเชิงวิเคราะห์ออนไลน์ OLAP)ซึ่งช่วยให้เข้าถึงข้อมูลได้ง่ายมากผ่านเครื่องมือที่สะดวกสำหรับการสร้างคำถามและการวิเคราะห์ผลลัพธ์ ในระบบ OLAP มูลค่าของผลิตภัณฑ์ข้อมูลจะเพิ่มขึ้นโดยใช้วิธีการวิเคราะห์และการประมวลผลทางสถิติที่หลากหลาย นอกจากนี้ ระบบเหล่านี้ยังได้รับการปรับให้เหมาะสมในแง่ของความเร็วในการดึงข้อมูล การรวบรวมข้อมูลทั่วไป และมุ่งเน้นไปที่ผู้ใช้ทั่วไป (มีอินเทอร์เฟซที่ใช้งานง่าย) ถ้าระบบ OLTP ให้คำตอบสำหรับคำถามง่ายๆ เช่น "ยอดขายของผลิตภัณฑ์ N ในภูมิภาค M ในเดือนมกราคม 199x อยู่ที่ระดับใด" แล้วระบบ OLAP พร้อมสำหรับคำขอของผู้ใช้ที่ซับซ้อนมากขึ้น เช่น "ให้การวิเคราะห์การขายของผลิตภัณฑ์ N สำหรับทุกภูมิภาคตามแผนสำหรับไตรมาสที่สองเมื่อเทียบกับสองปีที่ผ่านมา"

สถาปัตยกรรมไคลเอนต์/เซิร์ฟเวอร์

ในระบบที่ทันสมัย การประมวลผลข้อมูลแบบกระจายเทคโนโลยีกลายเป็นศูนย์กลางเวทีลูกค้า/เซิร์ฟเวอร์. ในระบบ สถาปัตยกรรมไคลเอนต์ - เซิร์ฟเวอร์การประมวลผลข้อมูลถูกแบ่งระหว่างคอมพิวเตอร์ไคลเอนต์และคอมพิวเตอร์เซิร์ฟเวอร์ การสื่อสารระหว่างกันเกิดขึ้นผ่านเครือข่าย การแยกกระบวนการประมวลผลข้อมูลนี้ขึ้นอยู่กับการจัดกลุ่มฟังก์ชัน โดยทั่วไปแล้ว คอมพิวเตอร์เซิร์ฟเวอร์ฐานข้อมูลจะใช้เพื่อดำเนินการกับฐานข้อมูลโดยเฉพาะ ในขณะที่คอมพิวเตอร์ไคลเอนต์เรียกใช้โปรแกรมแอปพลิเคชัน รูปที่ 2.1 แสดงระบบสถาปัตยกรรมไคลเอนต์ - เซิร์ฟเวอร์อย่างง่ายซึ่งรวมถึงคอมพิวเตอร์ที่ทำหน้าที่เป็นเซิร์ฟเวอร์และคอมพิวเตอร์เครื่องอื่นที่ทำหน้าที่เป็นไคลเอนต์ แต่ละเครื่องทำหน้าที่ต่างกันและมีทรัพยากรของตัวเอง

ฐานข้อมูล

คอมพิวเตอร์เซิร์ฟเวอร์

สุทธิ

พีซีที่เข้ากันได้กับ IBM

พีซีที่เข้ากันได้กับ IBM

พีซีที่เข้ากันได้กับ IBM

แอปพลิเคชั่น

ข้าว. 2.1. ระบบสถาปัตยกรรมไคลเอนต์ - เซิร์ฟเวอร์

หน้าที่หลักของคอมพิวเตอร์ไคลเอนต์คือการเรียกใช้แอปพลิเคชัน (อินเทอร์เฟซผู้ใช้และตรรกะการนำเสนอ) และสื่อสารกับเซิร์ฟเวอร์เมื่อแอปพลิเคชันต้องการ

เซิร์ฟเวอร์ - นี่คือวัตถุ (คอมพิวเตอร์) ที่ให้บริการกับวัตถุอื่นตามคำขอของพวกเขา

ตามความหมาย หน้าที่หลักของคอมพิวเตอร์เซิร์ฟเวอร์คือการตอบสนองความต้องการของลูกค้า คำว่า "เซิร์ฟเวอร์" ใช้เพื่ออ้างถึงกลุ่มฟังก์ชันที่แตกต่างกันสองกลุ่ม: เซิร์ฟเวอร์ไฟล์และเซิร์ฟเวอร์ฐานข้อมูล (ต่อไปนี้ คำศัพท์เหล่านี้หมายถึงซอฟต์แวร์ที่ใช้กลุ่มของฟังก์ชันเหล่านี้ หรือคอมพิวเตอร์ที่มีซอฟต์แวร์นี้ ขึ้นอยู่กับบริบท ). ไฟล์เซิร์ฟเวอร์ไม่ได้ออกแบบมาเพื่อดำเนินการกับฐานข้อมูล หน้าที่หลักของเซิร์ฟเวอร์เหล่านี้คือการแชร์ไฟล์ระหว่างผู้ใช้หลายๆ คน กล่าวคือ ให้ผู้ใช้หลายคนเข้าถึงไฟล์บนคอมพิวเตอร์พร้อมกัน - ไฟล์เซิร์ฟเวอร์ ตัวอย่างของไฟล์เซิร์ฟเวอร์คือระบบปฏิบัติการ NetWare ของ Novell เซิร์ฟเวอร์ฐานข้อมูลสามารถติดตั้งและรันบนคอมพิวเตอร์เซิร์ฟเวอร์ไฟล์ได้ Oracle DBMS ในรูปแบบของ NLM (Network Loadable Module) ทำงานในสภาพแวดล้อม NetWare บนไฟล์เซิร์ฟเวอร์

เซิร์ฟเวอร์เครือข่ายภายในต้องมีทรัพยากรที่สอดคล้องกับวัตถุประสงค์ในการทำงานและความต้องการของเครือข่าย โปรดทราบว่าเนื่องจากการวางแนวไปสู่แนวทางระบบเปิด จึงเป็นการถูกต้องมากกว่าที่จะพูดถึงเซิร์ฟเวอร์แบบลอจิคัล (หมายถึงชุดของทรัพยากรและเครื่องมือซอฟต์แวร์ที่ให้บริการบนทรัพยากรเหล่านี้) ซึ่งไม่จำเป็นต้องอยู่ในคอมพิวเตอร์เครื่องอื่น คุณสมบัติของลอจิคัลเซิร์ฟเวอร์ในระบบเปิดคือ ถ้าด้วยเหตุผลด้านประสิทธิภาพ สมควรที่จะย้ายเซิร์ฟเวอร์ไปยังคอมพิวเตอร์เครื่องอื่น ก็สามารถทำได้โดยไม่จำเป็นต้องดัดแปลงใดๆ ทั้งในตัวของมันเองและของแอพพลิเคชั่น โปรแกรมที่ใช้มัน

ข้อกำหนดของเซิร์ฟเวอร์ที่สำคัญประการหนึ่งคือระบบปฏิบัติการที่เซิร์ฟเวอร์ฐานข้อมูลโฮสต์ต้องเป็นแบบมัลติทาสก์ ตัวอย่างเช่น Oracle DBMS ที่ติดตั้งบนคอมพิวเตอร์ส่วนบุคคลที่มีระบบปฏิบัติการ MS-DOS (หรือ PC-DOS) ที่ไม่ตรงตามข้อกำหนดสำหรับการทำงานหลายอย่างพร้อมกันจะไม่สามารถใช้เป็นเซิร์ฟเวอร์ฐานข้อมูลได้ และ Oracle DBMS เดียวกันที่ติดตั้งบนคอมพิวเตอร์ที่มีระบบปฏิบัติการแบบมัลติทาสก์ (แต่ไม่ใช่ผู้ใช้หลายคน) สามารถเป็นเซิร์ฟเวอร์ฐานข้อมูลได้ UNIX, MVS, VM และระบบปฏิบัติการอื่น ๆ ที่หลากหลายมีทั้งแบบมัลติทาสก์และแบบผู้ใช้หลายคน

คอมพิวเตอร์แบบกระจาย

คำว่า "การคำนวณแบบกระจาย" มักใช้เพื่ออ้างถึงแนวคิดที่แตกต่างกันสองแบบ แม้ว่าจะเป็นส่วนเสริม:

  • ฐานข้อมูลแบบกระจาย;
  • การประมวลผลข้อมูลแบบกระจาย

การใช้แนวคิดเหล่านี้ทำให้สามารถจัดระเบียบการเข้าถึงข้อมูลที่จัดเก็บไว้ในเครื่องหลายเครื่องสำหรับผู้ใช้ปลายทางโดยใช้วิธีการต่างๆ

มีเซิร์ฟเวอร์หลายประเภท:

  • เซิร์ฟเวอร์ฐานข้อมูล
  • เซิร์ฟเวอร์การพิมพ์;
  • เซิร์ฟเวอร์การเข้าถึงระยะไกล;
  • เซิร์ฟเวอร์แฟกซ์
  • เว็บเซิร์ฟเวอร์ เป็นต้น

ที่แกนหลักของเทคโนโลยีไคลเอนต์/เซิร์ฟเวอร์ มีเทคโนโลยีพื้นฐานเช่น:

  • เทคโนโลยีของระบบปฏิบัติการ แนวคิดของการโต้ตอบของระบบเปิด การสร้างสภาพแวดล้อมเชิงวัตถุสำหรับการทำงานของโปรแกรม
  • เทคโนโลยีโทรคมนาคม
  • เทคโนโลยีเครือข่าย
  • เทคโนโลยีส่วนต่อประสานกราฟิกกับผู้ใช้ ( GUI);
  • เป็นต้น

ข้อดีของเทคโนโลยีไคลเอนต์ - เซิร์ฟเวอร์:

  • เทคโนโลยีไคลเอนต์/เซิร์ฟเวอร์อนุญาตให้ใช้คอมพิวเตอร์ในสภาพแวดล้อมการประมวลผลที่แตกต่างกัน ความเป็นอิสระของแพลตฟอร์ม: การเข้าถึงสภาพแวดล้อมเครือข่ายที่ต่างกัน ซึ่งรวมถึงคอมพิวเตอร์ประเภทต่างๆ ที่มีระบบปฏิบัติการต่างกัน
  • ความเป็นอิสระจากแหล่งข้อมูล: การเข้าถึงข้อมูลจากฐานข้อมูลที่ต่างกัน ตัวอย่างของระบบดังกล่าว ได้แก่ DB2, SQL/DS, Oracle, Sybase
  • โหลดบาลานซ์ระหว่างไคลเอนต์และเซิร์ฟเวอร์
  • การคำนวณที่เกิดขึ้นอย่างมีประสิทธิภาพสูงสุด
  • ให้ความสามารถในการปรับขนาดที่มีประสิทธิภาพ
  • การประมวลผลข้ามแพลตฟอร์ม. การคำนวณข้ามแพลตฟอร์มถูกกำหนดอย่างง่าย ๆ ว่าเป็นการนำเทคโนโลยีไปใช้ในสภาพแวดล้อมการคำนวณที่ต่างกัน ควรมีตัวเลือกต่อไปนี้ที่นี่:
  • แอปพลิเคชันต้องทำงานบนหลายแพลตฟอร์ม
  • ในทุกแพลตฟอร์ม ควรมีอินเทอร์เฟซและตรรกะในการทำงานเหมือนกัน
  • แอปพลิเคชันต้องรวมเข้ากับสภาพแวดล้อมการทำงานดั้งเดิม
  • มันควรจะทำงานเหมือนกันในทุกแพลตฟอร์ม
  • ควรมีการสนับสนุนที่เรียบง่ายและสม่ำเสมอ

คอมพิวเตอร์แบบกระจาย การคำนวณแบบกระจายเกี่ยวข้องกับการกระจายงานระหว่างคอมพิวเตอร์หลายเครื่อง (แม้ว่าการคำนวณแบบกระจายจะเป็นแนวคิดที่กว้างขึ้น)

การลดขนาด การลดขนาดคือการถ่ายโอนแอปพลิเคชันเมนเฟรมไปยังแพลตฟอร์มคอมพิวเตอร์ขนาดเล็ก

  • ลดค่าใช้จ่ายด้านโครงสร้างพื้นฐานและฮาร์ดแวร์ ประหยัดต้นทุน: ความพร้อมใช้งานของฮาร์ดแวร์คอมพิวเตอร์ราคาประหยัดและความแพร่หลายที่เพิ่มขึ้นของเครือข่ายท้องถิ่นทำให้เทคโนโลยีไคลเอนต์-เซิร์ฟเวอร์มีประสิทธิภาพด้านต้นทุนมากกว่าเทคโนโลยีการประมวลผลข้อมูลอื่นๆ สามารถอัพเกรดอุปกรณ์ได้ตามต้องการ

ลดเวลาดำเนินการแอปพลิเคชันโดยรวม

ลดการใช้หน่วยความจำไคลเอ็นต์

ลดการรับส่งข้อมูลเครือข่าย

  • ความสามารถในการทำงานกับมัลติมีเดีย: จนถึงปัจจุบัน มีการสร้างโปรแกรมจำนวนมากสำหรับการทำงานกับมัลติมีเดียสำหรับพีซี ไม่มีโปรแกรมดังกล่าวสำหรับการกำหนดค่าเทอร์มินัลโฮสต์หรือมีราคาแพงมาก
  • ความสามารถในการใช้ทรัพยากรการคำนวณมากขึ้นสำหรับการทำงานของฐานข้อมูล: เนื่องจากแอปพลิเคชันทำงานบนคอมพิวเตอร์ไคลเอนต์ ทรัพยากรเพิ่มเติม (เมื่อเทียบกับการกำหนดค่าโฮสต์ของเทอร์มินัล) จะถูกทำให้ว่างบนคอมพิวเตอร์เซิร์ฟเวอร์สำหรับการทำงานของฐานข้อมูล เช่น CPU และทรัพยากรการดำเนินงาน หน่วยความจำ
  • ประสิทธิภาพการทำงานของโปรแกรมเมอร์ที่เพิ่มขึ้น: ประสิทธิภาพการทำงานของโปรแกรมเมอร์เพิ่มขึ้นโดยใช้เครื่องมือต่างๆ เช่น SQL*Forms และ CASE เพื่อพัฒนาแอปพลิเคชันได้เร็วกว่าภาษาโปรแกรม เช่น C, PL1 หรือ COBOL
  • การเพิ่มผลผลิตของผู้ใช้ปลายทาง: ทุกวันนี้ ผู้ใช้ปลายทางจำนวนมากได้นำระบบมาใช้ เช่น Lotus, Paradox, Word Perfect, Harvard Graphics เป็นต้น

อินเตอร์เฟสแบ็คเอนด์ถูกกำหนดและแก้ไขแล้ว ดังนั้นจึงเป็นไปได้ที่จะสร้างส่วนไคลเอนต์ใหม่ของระบบที่มีอยู่ (ตัวอย่างของการทำงานร่วมกันในระดับระบบ)

ข้าว. 2.2. ภาพประกอบของไคลเอ็นต์การเข้าถึงการแชร์เซิร์ฟเวอร์

วิธีใช้เทคโนโลยีไคลเอนต์ - เซิร์ฟเวอร์

การติดตั้งระบบที่ใช้เทคโนโลยีไคลเอนต์-เซิร์ฟเวอร์ และสามารถประมวลผลข้อมูลแบบกระจายได้จะอธิบายไว้ด้านล่าง จำเป็นต้องใช้ฮาร์ดแวร์และซอฟต์แวร์ของคอมพิวเตอร์ต่อไปนี้:

  • คอมพิวเตอร์เซิร์ฟเวอร์ฐานข้อมูล
  • คอมพิวเตอร์ไคลเอนต์
  • เครือข่ายการสื่อสาร
  • ซอฟต์แวร์เครือข่าย
  • ซอฟต์แวร์ประยุกต์

ภาษา SQL . ภาษาแบบสอบถามระดับสูง - SQL (ภาษาคิวรีที่มีโครงสร้าง ) ใช้เพื่อดำเนินการสืบค้นข้อมูลกับฐานข้อมูล เช่น NMD, NDL และ PJD และถูกนำมาใช้เป็นมาตรฐาน ภาษา SQL เดิมถูกนำมาใช้เป็นภาษาข้อมูลของผลิตภัณฑ์ซอฟต์แวร์ของบริษัท IBM และ YMD ของ DBMS เชิงสัมพันธ์ SYSTEM R โดย IBM . ลักษณะสำคัญของภาษา SQL คือภาษาเดียวกันแสดงผ่านอินเทอร์เฟซสองแบบคือ: ผ่านอินเทอร์เฟซแบบโต้ตอบและผ่านอินเทอร์เฟซการเขียนโปรแกรมแอปพลิเคชัน (ไดนามิก SQL). ไดนามิก SQL ประกอบด้วยคุณสมบัติภาษาในตัวมากมาย SQL ซึ่งจัดทำขึ้นโดยเฉพาะสำหรับการสร้างแอปพลิเคชันแบบโต้ตอบ โดยที่แอปพลิเคชันแบบโต้ตอบคือโปรแกรมที่เขียนขึ้นเพื่อรองรับการเข้าถึงฐานข้อมูลโดยผู้ใช้ปลายทางที่ทำงานอยู่บนเทอร์มินัลแบบโต้ตอบ ภาษา SQL จัดเตรียมฟังก์ชันในการกำหนด จัดการ และจัดการข้อมูลฐานข้อมูล และโปร่งใสต่อผู้ใช้จากมุมมองของ DBMS ที่นำไปใช้

ข้าว. 2.3. แบบแผนสำหรับดำเนินการคำขอของผู้ใช้ไปยังฐานข้อมูลแบบกระจาย

โครงสร้างภายในของฐานข้อมูลถูกกำหนดโดยแบบจำลองข้อมูลที่ใช้ โมเดลแนวความคิดมีความสามารถที่เป็นนามธรรมและความหมายที่สมบูรณ์กว่าโมเดลภายนอก โมเดลภายนอกมักถูกเรียกว่า syntax หรือโมเดลปฏิบัติการ ซึ่งหมายถึงลักษณะวากยสัมพันธ์ของการจัดการและแอปพลิเคชันซึ่งเป็นวิธีการโต้ตอบของผู้ใช้กับฐานข้อมูล ในการสร้างแบบจำลองข้อมูล มีระดับนามธรรมที่หลากหลาย ตั้งแต่ระดับของแบบจำลองแนวคิดไปจนถึงระดับของแบบจำลองข้อมูลทางกายภาพ ที่ส่งผลต่อสถาปัตยกรรมของ DBMS

โมเดลข้อมูลประกอบด้วยสามองค์ประกอบ:

  • โครงสร้างข้อมูลที่จะแสดงจากมุมมองของผู้ใช้ในฐานข้อมูล
  • การดำเนินการที่ถูกต้องที่จะดำเนินการในโครงสร้างข้อมูล จำเป็นต้องสามารถทำงานกับโครงสร้างนี้โดยใช้การดำเนินการ DDL และ NML ต่างๆ โครงสร้างที่สมบูรณ์นั้นไร้ค่าหากคุณไม่สามารถจัดการเนื้อหาได้
  • ข้อจำกัดสำหรับการควบคุมความสมบูรณ์ โมเดลข้อมูลต้องมีวิธีการเพื่อรักษาความสมบูรณ์และปกป้องมัน ยกตัวอย่าง ให้พิจารณาข้อจำกัดสองข้อต่อไปนี้:
  • ทรีย่อยแต่ละรายการต้องมีโหนดต้นทาง ฐานข้อมูลแบบลำดับชั้นไม่สามารถเก็บโหนดย่อยได้หากไม่มีโหนดหลัก
  • ในความสัมพันธ์กับฐานข้อมูลเชิงสัมพันธ์ ไม่มีสิ่งอันดับที่เหมือนกัน สำหรับไฟล์ ข้อกำหนดนี้กำหนดให้เร็กคอร์ดทั้งหมดไม่ซ้ำกัน

ลักษณะที่สำคัญที่สุดอย่างหนึ่งของ DBMS คือความสามารถในการเชื่อมโยงออบเจ็กต์

มีการเชื่อมโยงประเภทต่อไปนี้ระหว่างวัตถุ:

  • ตัวต่อตัว (1:1). วัตถุหนึ่งชุดสามารถเชื่อมโยงกับวัตถุหนึ่งของชุดอื่นได้
  • หนึ่งต่อหลายคน (1:M). วัตถุหนึ่งชุดสามารถสัมพันธ์กับวัตถุจำนวนมากของชุดอื่นได้
  • หลายต่อหลายคน (M:N). วัตถุหนึ่งของชุดหนึ่งสามารถเชื่อมโยงกับวัตถุจำนวนมากของชุดอื่น แต่ในเวลาเดียวกัน วัตถุหนึ่งของชุดอื่นสามารถเชื่อมโยงกับวัตถุจำนวนมากของชุดแรกได้
  • แตกแขนง . วัตถุหนึ่งชุดสามารถเชื่อมโยงกับวัตถุหลายชุดได้
  • เรียกซ้ำ . วัตถุหนึ่งของชุดที่กำหนดสามารถเชื่อมโยงกับวัตถุของชุดเดียวกันได้

มีโมเดลข้อมูลหลักดังต่อไปนี้:

  • แบบจำลองข้อมูลเชิงสัมพันธ์
  • แบบจำลองข้อมูลแบบลำดับชั้น
  • โมเดลข้อมูลเครือข่ายไม่สมบูรณ์
  • ตัวแบบข้อมูล CODASYL
  • โมเดลข้อมูลเครือข่ายแบบขยาย

V.3. เทคโนโลยีอินเทอร์เน็ต / อินทราเน็ต และโซลูชันการเข้าถึงฐานข้อมูลขององค์กร

ปัญหาหลักของระบบที่ยึดตามสถาปัตยกรรม "ไคลเอนต์-เซิร์ฟเวอร์" คือ ตามแนวคิดของระบบเปิด พวกเขาจะต้องเคลื่อนที่ในระดับที่กว้างที่สุดของโซลูชันฮาร์ดแวร์และซอฟต์แวร์ระบบเปิด แม้ว่าเราจะจำกัดตัวเองไว้ที่เครือข่ายท้องถิ่นที่ใช้ UNIX แต่เครือข่ายต่างๆ ก็ใช้อุปกรณ์และโปรโตคอลการสื่อสารต่างกัน ความพยายามที่จะสร้างระบบที่รองรับโปรโตคอลที่เป็นไปได้ทั้งหมดจะนำไปสู่การโอเวอร์โหลดด้วยรายละเอียดเครือข่ายโดยเสียค่าใช้จ่ายในการใช้งาน

ประเด็นที่ซับซ้อนยิ่งขึ้นของปัญหานี้เกี่ยวข้องกับความเป็นไปได้ของการใช้การแสดงข้อมูลที่แตกต่างกันในโหนดต่างๆ ของเครือข่ายท้องถิ่นที่ต่างกัน คอมพิวเตอร์แต่ละเครื่องอาจมีที่อยู่ การแสดงตัวเลข การเข้ารหัสอักขระ ฯลฯ ที่แตกต่างกัน นี่เป็นสิ่งสำคัญอย่างยิ่งสำหรับเซิร์ฟเวอร์ระดับสูง: โทรคมนาคม คอมพิวเตอร์ ฐานข้อมูล

วิธีแก้ปัญหาทั่วไปสำหรับปัญหาการเคลื่อนที่ของระบบตามสถาปัตยกรรม "ไคลเอนต์-เซิร์ฟเวอร์" คือการพึ่งพาแพ็คเกจซอฟต์แวร์ที่ใช้โปรโตคอลการเรียกขั้นตอนระยะไกล (RPC - การเรียกขั้นตอนระยะไกล) การใช้เครื่องมือเหล่านี้ การเรียกบริการที่โฮสต์ระยะไกลดูเหมือนเป็นการเรียกขั้นตอนปกติ เครื่องมือ RPC ซึ่งแน่นอนว่ามีข้อมูลทั้งหมดเกี่ยวกับข้อมูลเฉพาะของอุปกรณ์เครือข่ายท้องถิ่นและโปรโตคอลเครือข่าย แปลการโทรเป็นลำดับของการโต้ตอบกับเครือข่าย ดังนั้นข้อมูลจำเพาะของสภาพแวดล้อมเครือข่ายและโปรโตคอลจึงถูกซ่อนจากโปรแกรมเมอร์แอปพลิเคชัน

เมื่อมีการเรียกโพรซีเดอร์ระยะไกล โปรแกรม RPC จะแปลงรูปแบบข้อมูลไคลเอ็นต์เป็นรูปแบบกลางที่ไม่ขึ้นกับเครื่อง แล้วแปลงเป็นรูปแบบข้อมูลเซิร์ฟเวอร์ เมื่อส่งผ่านพารามิเตอร์การตอบสนอง การแปลงที่คล้ายคลึงกันจะถูกดำเนินการ

งานที่เกี่ยวข้องอื่น ๆ ที่อาจสนใจ you.vshm>

6914. แนวคิดฐานข้อมูล 11.56KB
ฐานข้อมูลคือชุดของวัสดุอิสระที่นำเสนอในรูปแบบวัตถุประสงค์ของบทความในการคำนวณการกระทำเชิงบรรทัดฐานของการตัดสินของศาลและวัสดุอื่นที่คล้ายคลึงกันซึ่งจัดระบบในลักษณะที่วัสดุเหล่านี้สามารถพบได้และประมวลผลโดยใช้คอมพิวเตอร์อิเล็กทรอนิกส์ประมวลกฎหมายแพ่งของสหพันธรัฐรัสเซีย ศิลปะ. ฐานข้อมูลที่จัดระเบียบตามกฎเกณฑ์บางอย่างและคงไว้ในหน่วยความจำของคอมพิวเตอร์ ซึ่งเป็นชุดข้อมูลที่ระบุสถานะปัจจุบันของบาง ...
8064. ฐานข้อมูลแบบกระจาย 43.66KB
ฐานข้อมูลแบบกระจาย ฐานข้อมูล RDB แบบกระจายคือชุดของข้อมูลที่ใช้ร่วมกันที่เชื่อมต่อกันทางตรรกะซึ่งมีการกระจายทางกายภาพผ่านโหนดต่างๆ ของเครือข่ายคอมพิวเตอร์ การเข้าถึงข้อมูลไม่ควรขึ้นอยู่กับการมีอยู่หรือไม่มีการจำลองข้อมูล ระบบควรกำหนดวิธีการในการเข้าร่วมข้อมูลโดยอัตโนมัติ ลิงค์เครือข่ายที่สามารถจัดการปริมาณข้อมูลที่ถ่ายโอน และโหนดที่มีพลังการประมวลผลเพียงพอที่จะเข้าร่วมตาราง RDBMS จะต้องสามารถ...
20319. ฐานข้อมูลและการป้องกัน 102.86KB
ฐานข้อมูลออนไลน์ปรากฏขึ้นในช่วงกลางทศวรรษ 1960 การดำเนินการกับฐานข้อมูลการปฏิบัติงานได้รับการประมวลผลแบบโต้ตอบโดยใช้เทอร์มินัล การจัดระเบียบเร็กคอร์ดแบบลำดับดัชนีอย่างง่ายได้พัฒนาอย่างรวดเร็วเป็นโมเดลเรกคอร์ดเชิงเซ็ตที่มีประสิทธิภาพยิ่งขึ้น Charles Bachmann ได้รับรางวัล Turing Prize จากการนำงาน Data Base Task Group (DBTG) ซึ่งพัฒนาภาษามาตรฐานสำหรับการอธิบายข้อมูลและการจัดการข้อมูล
5031. ห้องสมุดพัฒนาฐานข้อมูล 11.72MB
เทคโนโลยีการออกแบบฐานข้อมูล การกำหนดความสัมพันธ์ระหว่างเอนทิตีและการสร้างแบบจำลองข้อมูล แนวความคิดหลักของเทคโนโลยีสารสนเทศสมัยใหม่ตั้งอยู่บนแนวคิดที่ว่าข้อมูลควรจัดเป็นฐานข้อมูล เพื่อให้สอดคล้องกับโลกที่เปลี่ยนแปลงไปจริงอย่างเพียงพอ และตอบสนองความต้องการข้อมูลของผู้ใช้ ฐานข้อมูลเหล่านี้ถูกสร้างขึ้นและดำเนินการภายใต้การควบคุมของระบบซอฟต์แวร์พิเศษที่เรียกว่าระบบจัดการฐานข้อมูล DBMS
13815. โมเดลฐานข้อมูลแบบลำดับชั้น 81.62KB
แนวคิดหลักของเทคโนโลยีสารสนเทศสมัยใหม่ตั้งอยู่บนแนวคิดของฐานข้อมูล ซึ่งพื้นฐานของเทคโนโลยีสารสนเทศคือข้อมูลที่จัดอยู่ในฐานข้อมูลที่สะท้อนถึงสถานะของสาขาวิชาเฉพาะอย่างเพียงพอ และให้ข้อมูลที่เกี่ยวข้องในสาขาวิชานี้แก่ผู้ใช้ ต้องยอมรับว่าข้อมูล...
14095. การพัฒนาฐานข้อมูลห้องสมุด 11.72MB
การเพิ่มขึ้นของปริมาณและความซับซ้อนของโครงสร้างของข้อมูลที่เก็บไว้ การขยายตัวของวงกลมของผู้ใช้ระบบข้อมูลได้นำไปสู่การใช้ DBMS เชิงสัมพันธ์ (ตาราง) ที่สะดวกและค่อนข้างง่ายในการทำความเข้าใจอย่างกว้างขวาง
5061. การสร้างฐานข้อมูลโพลีคลินิก 2.4MB
การพัฒนาเทคโนโลยีคอมพิวเตอร์และเทคโนโลยีสารสนเทศได้เปิดโอกาสให้มีการสร้างและใช้งานระบบสารสนเทศอัตโนมัติ (AIS) อย่างกว้างขวางเพื่อวัตถุประสงค์ต่างๆ ระบบสารสนเทศสำหรับการจัดการสิ่งอำนวยความสะดวกทางเศรษฐกิจและทางเทคนิคกำลังได้รับการพัฒนาและดำเนินการ
13542. ฐานข้อมูลข้อมูลทางธรณีวิทยา 20.73KB
เมื่อเร็ว ๆ นี้ การแนะนำเทคโนโลยีคอมพิวเตอร์และโดยเฉพาะอย่างยิ่ง ฐานข้อมูล ในวงการวิทยาศาสตร์ได้เกิดขึ้นอย่างรวดเร็ว กระบวนการนี้ไม่ได้ข้ามธรณีวิทยาเช่นกัน เนื่องจากเป็นวิทยาศาสตร์ธรรมชาติที่มีความจำเป็นในการจัดเก็บและประมวลผลข้อมูลจำนวนมาก
9100. ฐานข้อมูล แนวคิดพื้นฐาน 26.28KB
ฐานข้อมูลคือการรวบรวมข้อมูลเกี่ยวกับวัตถุเฉพาะของโลกแห่งความเป็นจริงในสาขาวิชาใด ๆ เศรษฐศาสตร์ การจัดการ เคมี ฯลฯ วัตถุประสงค์ของระบบสารสนเทศไม่ใช่แค่เพื่อเก็บข้อมูลเกี่ยวกับวัตถุ แต่ยังเพื่อจัดการกับข้อมูลเหล่านี้ คำนึงถึงความสัมพันธ์ระหว่างวัตถุ แต่ละอ็อบเจ็กต์มีลักษณะเฉพาะด้วยคุณสมบัติข้อมูลบางชุด ซึ่งเรียกว่าแอตทริบิวต์ในฐานข้อมูล
5240. การสร้างฐานข้อมูล "สำนักคณบดีมหาวิทยาลัย" 1.57MB
ฐานข้อมูล (DB) คือชุดของข้อมูลที่เชื่อมโยงกันซึ่งจัดเก็บไว้ด้วยกันบนสื่อจัดเก็บข้อมูลภายนอกของคอมพิวเตอร์ที่มีองค์กรดังกล่าวและมีความซ้ำซ้อนน้อยที่สุด ซึ่งช่วยให้สามารถใช้งานได้อย่างเหมาะสมสำหรับแอปพลิเคชันตั้งแต่หนึ่งรายการขึ้นไป

โมเดลข้อมูลอุตสาหกรรม

วัตถุประสงค์หลักของแบบจำลองคือเพื่ออำนวยความสะดวกในการปฐมนิเทศในพื้นที่ข้อมูลและช่วยในการเน้นรายละเอียดที่สำคัญสำหรับการพัฒนาธุรกิจ ในสภาพแวดล้อมทางธุรกิจในปัจจุบัน จำเป็นต้องมีความเข้าใจที่ชัดเจนเกี่ยวกับความสัมพันธ์ระหว่างองค์ประกอบต่างๆ และความเข้าใจที่ดีในภาพรวมขององค์กร การระบุรายละเอียดและความสัมพันธ์ทั้งหมดโดยใช้แบบจำลองช่วยให้ใช้เวลาและเครื่องมือในการจัดระเบียบงานของบริษัทได้อย่างมีประสิทธิภาพสูงสุด

โมเดลข้อมูลเป็นโมเดลนามธรรมที่อธิบายวิธีการแสดงและเข้าถึงข้อมูล ตัวแบบข้อมูลกำหนดองค์ประกอบข้อมูลและความสัมพันธ์ระหว่างพวกเขาในพื้นที่ที่กำหนด โมเดลข้อมูลเป็นเครื่องมือนำทางสำหรับทั้งนักธุรกิจและผู้เชี่ยวชาญด้าน IT ที่ใช้ชุดสัญลักษณ์และคำเฉพาะเพื่ออธิบายข้อมูลจริงในคลาสนั้นๆ อย่างแม่นยำ สิ่งนี้ช่วยปรับปรุงการสื่อสารภายในองค์กร และสร้างสภาพแวดล้อมแอปพลิเคชันที่ยืดหยุ่นและเสถียรยิ่งขึ้น

โมเดลข้อมูลกำหนดความหมายของข้อมูลได้โดยไม่ซ้ำกัน ซึ่งในกรณีนี้คือข้อมูลที่มีโครงสร้าง (ซึ่งต่างจากข้อมูลที่ไม่มีโครงสร้าง เช่น รูปภาพ ไฟล์ไบนารี หรือข้อความ โดยที่ค่าอาจไม่ชัดเจน)

ตามกฎแล้ว โมเดลของระดับที่สูงกว่า (และเนื้อหาทั่วไปมากกว่า) และระดับที่ต่ำกว่า (ตามลำดับ มีรายละเอียดมากขึ้น) จะมีความแตกต่างกัน ระดับบนของการสร้างแบบจำลองคือสิ่งที่เรียกว่า แบบจำลองข้อมูลแนวคิด(แบบจำลองข้อมูลแนวคิด) ซึ่งให้ภาพทั่วไปที่สุดของการทำงานขององค์กรหรือองค์กร โมเดลแนวคิดประกอบด้วยแนวคิดหลักหรือสาขาวิชาที่มีความสำคัญต่อการทำงานขององค์กร โดยปกติจำนวนของพวกเขาไม่เกิน 12-15 โมเดลดังกล่าวอธิบายถึงคลาสของเอนทิตีที่มีความสำคัญต่อองค์กร (อ็อบเจกต์ทางธุรกิจ) คุณลักษณะ (คุณลักษณะ) และความสัมพันธ์ระหว่างคู่ของคลาสเหล่านี้ (เช่น ความสัมพันธ์) เนื่องจากคำศัพท์ในการสร้างแบบจำลองทางธุรกิจยังไม่ได้รับการตัดสินอย่างสมบูรณ์ ในแหล่งข้อมูลภาษาอังกฤษต่างๆ โมเดลข้อมูลเชิงแนวคิดจึงสามารถเรียกว่าแบบจำลองหัวเรื่อง (ซึ่งสามารถแปลเป็นแบบจำลองสาขาวิชา) หรือแบบจำลองข้อมูลองค์กรตามหัวเรื่อง (แบบจำลองข้อมูลองค์กรตามหัวข้อ) ).

ลำดับชั้นถัดไปคือ แบบจำลองข้อมูลเชิงตรรกะ(แบบจำลองข้อมูลเชิงตรรกะ) นอกจากนี้ยังอาจเรียกว่าโมเดลข้อมูลองค์กรหรือโมเดลธุรกิจ โมเดลเหล่านี้ประกอบด้วยโครงสร้างข้อมูล คุณลักษณะ และกฎเกณฑ์ทางธุรกิจ และแสดงข้อมูลที่ใช้โดยองค์กรจากมุมมองทางธุรกิจ ในรูปแบบดังกล่าว ข้อมูลจะถูกจัดระเบียบในรูปแบบของเอนทิตีและความสัมพันธ์ระหว่างกัน โมเดลเชิงตรรกะแสดงข้อมูลในลักษณะที่ผู้ใช้ทางธุรกิจเข้าใจได้ง่าย ในรูปแบบตรรกะ สามารถจัดสรรพจนานุกรมข้อมูลได้ ซึ่งเป็นรายการของเอนทิตีทั้งหมดที่มีคำจำกัดความที่แน่นอน ซึ่งช่วยให้หมวดหมู่ต่างๆ ของผู้ใช้มีความเข้าใจร่วมกันเกี่ยวกับกระแสข้อมูลขาเข้าและขาออกทั้งหมดของแบบจำลอง ระดับถัดไปที่ต่ำกว่าของการสร้างแบบจำลองนั้นเป็นการใช้งานจริงของแบบจำลองเชิงตรรกะโดยใช้เครื่องมือซอฟต์แวร์และแพลตฟอร์มทางเทคนิคเฉพาะ

โมเดลเชิงตรรกะประกอบด้วยการตัดสินใจทางธุรกิจขององค์กรโดยละเอียด ซึ่งมักจะอยู่ในรูปแบบของแบบจำลองปกติ การทำให้เป็นมาตรฐานคือกระบวนการที่ทำให้แน่ใจว่าแต่ละองค์ประกอบข้อมูลในแบบจำลองมีค่าเพียงค่าเดียวและขึ้นอยู่กับคีย์หลักโดยสมบูรณ์และไม่ซ้ำกัน องค์ประกอบข้อมูลถูกจัดเป็นกลุ่มตามการระบุที่ไม่ซ้ำกัน กฎเกณฑ์ทางธุรกิจที่ควบคุมองค์ประกอบข้อมูลจะต้องรวมอยู่ในโมเดลที่ทำให้เป็นมาตรฐานอย่างสมบูรณ์ด้วยการตรวจสอบความถูกต้องและความถูกต้องเบื้องต้น ตัวอย่างเช่น องค์ประกอบข้อมูล เช่น ชื่อลูกค้า มักจะถูกแบ่งออกเป็นชื่อและนามสกุล และจัดกลุ่มกับองค์ประกอบข้อมูลที่เกี่ยวข้องอื่นๆ ลงในเอนทิตีลูกค้าที่มีคีย์หลักของรหัสลูกค้า

โมเดลข้อมูลเชิงตรรกะไม่ขึ้นกับเทคโนโลยีแอปพลิเคชัน เช่น ฐานข้อมูล เครือข่าย หรือเครื่องมือการรายงาน และการใช้งานจริง องค์กรสามารถมีโมเดลข้อมูลองค์กรได้เพียงโมเดลเดียวเท่านั้น แบบจำลองเชิงตรรกะโดยทั่วไปประกอบด้วยเอนทิตี ความสัมพันธ์ และแอตทริบิวต์นับพันรายการ ตัวอย่างเช่น แบบจำลองข้อมูลสำหรับสถาบันการเงินหรือบริษัทโทรคมนาคมอาจมีแนวคิดอุตสาหกรรมประมาณ 3,000 รายการ

สิ่งสำคัญคือต้องแยกแยะระหว่างแบบจำลองข้อมูลเชิงตรรกะและเชิงความหมาย โมเดลข้อมูลเชิงตรรกะแสดงถึงโซลูชันธุรกิจขององค์กร ในขณะที่แบบจำลองข้อมูลเชิงความหมายแสดงถึงโซลูชันทางธุรกิจที่นำไปใช้ โมเดลข้อมูลเชิงตรรกะขององค์กรเดียวกันสามารถนำไปใช้ได้โดยใช้แบบจำลองเชิงความหมายที่แตกต่างกัน กล่าวคือ แบบจำลองเชิงความหมายถือได้ว่าเป็นระดับถัดไปของการสร้างแบบจำลองที่เข้าใกล้แบบจำลองทางกายภาพ นอกจากนี้ แต่ละโมเดลเหล่านี้จะแสดงถึง "ส่วน" ของโมเดลข้อมูลองค์กรที่แยกจากกันตามข้อกำหนดของแอปพลิเคชันต่างๆ ตัวอย่างเช่น ในรูปแบบข้อมูลเชิงตรรกะขององค์กร ไคลเอ็นต์เอนทิตีจะถูกทำให้เป็นมาตรฐานโดยสมบูรณ์ และในรูปแบบเชิงความหมายสำหรับดาต้ามาร์ท จะสามารถแสดงเป็นโครงสร้างหลายมิติได้

บริษัทสามารถมีได้สองวิธีในการสร้างแบบจำลองข้อมูลเชิงตรรกะขององค์กร: สร้างด้วยตัวเองหรือใช้แบบสำเร็จรูป โมเดลอุตสาหกรรม(แบบจำลองข้อมูลเชิงตรรกะของอุตสาหกรรม) ในกรณีนี้ ความแตกต่างในแง่จะสะท้อนถึงแนวทางที่แตกต่างกันในการสร้างแบบจำลองตรรกะเดียวกันเท่านั้น ในกรณีที่บริษัทพัฒนาและใช้โมเดลข้อมูลเชิงตรรกะของตนเองอย่างอิสระ โมเดลดังกล่าวตามกฎจะเรียกง่ายๆ ว่าโมเดลเชิงตรรกะขององค์กร หากองค์กรตัดสินใจใช้ผลิตภัณฑ์สำเร็จรูปของซัพพลายเออร์มืออาชีพ เราก็สามารถพูดคุยเกี่ยวกับแบบจำลองข้อมูลเชิงตรรกะของอุตสาหกรรมได้ แบบหลังคือแบบจำลองข้อมูลเชิงตรรกะสำเร็จรูปที่สะท้อนถึงการทำงานของอุตสาหกรรมเฉพาะที่มีความแม่นยำสูง โมเดลเชิงตรรกะของอุตสาหกรรมคือมุมมองเฉพาะของโดเมนและแบบบูรณาการของข้อมูลทั้งหมดที่ต้องอยู่ในคลังข้อมูลขององค์กรเพื่อตอบคำถามทางธุรกิจทั้งเชิงกลยุทธ์และเชิงกลยุทธ์ เช่นเดียวกับโมเดลข้อมูลเชิงตรรกะอื่นๆ โมเดลอุตสาหกรรมไม่ได้ขึ้นอยู่กับโซลูชันแอปพลิเคชัน นอกจากนี้ยังไม่รวมข้อมูลที่ได้รับหรือการคำนวณอื่นๆ เพื่อการดึงข้อมูลที่รวดเร็วยิ่งขึ้น ตามกฎแล้ว โครงสร้างเชิงตรรกะส่วนใหญ่ของแบบจำลองดังกล่าวพบรูปแบบที่ดีในการใช้งานทางกายภาพที่มีประสิทธิผล โมเดลดังกล่าวได้รับการพัฒนาโดยผู้ค้าหลายรายในหลากหลายด้าน: การเงิน การผลิต การท่องเที่ยว การดูแลสุขภาพ ประกันภัย ฯลฯ

แบบจำลองข้อมูลเชิงตรรกะของอุตสาหกรรมประกอบด้วยข้อมูลที่เหมือนกันกับอุตสาหกรรม ดังนั้นจึงไม่สามารถเป็นโซลูชันที่สมบูรณ์สำหรับบริษัทได้ บริษัทส่วนใหญ่ต้องเพิ่มแบบจำลองโดยเฉลี่ย 25% โดยการเพิ่มองค์ประกอบข้อมูลและขยายคำจำกัดความ โมเดลสำเร็จรูปประกอบด้วยองค์ประกอบข้อมูลหลักเท่านั้น และองค์ประกอบที่เหลือจะต้องถูกเพิ่มไปยังออบเจ็กต์ทางธุรกิจที่เหมาะสมระหว่างการติดตั้งแบบจำลองในบริษัท

แบบจำลองข้อมูลเชิงตรรกะของอุตสาหกรรมมีจำนวนนามธรรมจำนวนมาก นามธรรมหมายถึงการรวมกันของแนวคิดที่คล้ายกันภายใต้ชื่อสามัญเช่นเหตุการณ์หรือผู้เข้าร่วม สิ่งนี้จะเพิ่มความยืดหยุ่นให้กับโมเดลอุตสาหกรรมและทำให้เป็นอันหนึ่งอันเดียวกันมากขึ้น ดังนั้นแนวคิดของงานจึงใช้ได้กับทุกอุตสาหกรรม

Steve Hoberman ผู้เชี่ยวชาญด้าน Business Intelligence สรุปปัจจัยห้าประการที่ควรพิจารณาเมื่อตัดสินใจซื้อแบบจำลองข้อมูลอุตสาหกรรม ประการแรกคือเวลาและทรัพยากรที่จำเป็นในการสร้างแบบจำลอง หากองค์กรต้องการบรรลุผลอย่างรวดเร็ว โมเดลอุตสาหกรรมก็จะได้เปรียบ การใช้แบบจำลองอุตสาหกรรมอาจไม่ได้ให้ภาพทั้งองค์กรในทันที แต่สามารถช่วยประหยัดเวลาได้มาก แทนที่จะใช้แบบจำลองจริง เวลาจะถูกใช้เพื่อเชื่อมโยงโครงสร้างที่มีอยู่กับแบบจำลองอุตสาหกรรม รวมถึงการพูดคุยถึงวิธีที่ดีที่สุดในการปรับแต่งให้เข้ากับความต้องการขององค์กร (เช่น คำจำกัดความที่ควรเปลี่ยนและองค์ประกอบข้อมูลที่ควรเพิ่ม)

ปัจจัยที่สองคือเวลาและเงินที่จำเป็นเพื่อให้โมเดลทำงานต่อไป หากโมเดลข้อมูลองค์กรไม่ได้เป็นส่วนหนึ่งของระเบียบวิธีที่ช่วยให้ถูกต้องและเป็นปัจจุบัน โมเดลจะล้าสมัยอย่างรวดเร็ว โมเดลข้อมูลอุตสาหกรรมสามารถป้องกันความเสี่ยงนี้ได้ เนื่องจากแหล่งข้อมูลภายนอกจะอัปเดตอยู่เสมอ แน่นอน การเปลี่ยนแปลงที่เกิดขึ้นภายในองค์กรจะต้องสะท้อนให้เห็นในแบบจำลองโดยตัวบริษัทเอง แต่การเปลี่ยนแปลงของอุตสาหกรรมจะถูกทำซ้ำในรูปแบบโดยซัพพลายเออร์

ปัจจัยที่สามคือประสบการณ์ในการประเมินความเสี่ยงและการสร้างแบบจำลอง การสร้างโมเดลข้อมูลองค์กรต้องใช้ทรัพยากรที่มีทักษะจากทั้งธุรกิจและเจ้าหน้าที่ไอที ตามกฎแล้ว ผู้จัดการรู้ดีทั้งงานขององค์กรโดยรวมหรือกิจกรรมของแผนกใดแผนกหนึ่ง มีเพียงไม่กี่คนที่มีความรู้เกี่ยวกับธุรกิจในวงกว้าง (ทั้งบริษัท) และเชิงลึก (ทั้งหน่วย) ผู้จัดการส่วนใหญ่มักจะรู้เพียงด้านเดียวดี ดังนั้นเพื่อให้ได้ภาพรวมทั้งองค์กร จึงจำเป็นต้องมีทรัพยากรทางธุรกิจที่สำคัญ นอกจากนี้ยังเพิ่มข้อกำหนดสำหรับเจ้าหน้าที่ไอที ยิ่งต้องใช้ทรัพยากรทางธุรกิจในการสร้างและทดสอบแบบจำลองมากเท่าใด นักวิเคราะห์ก็จะยิ่งต้องมีประสบการณ์มากขึ้นเท่านั้น พวกเขาต้องไม่เพียงแต่รู้วิธีการรับข้อมูลจากบุคลากรทางธุรกิจเท่านั้น แต่ยังต้องสามารถหาจุดร่วมในพื้นที่ที่มีการโต้เถียงและสามารถนำเสนอข้อมูลทั้งหมดนี้ในลักษณะบูรณาการ คนสร้างแบบจำลอง (ในหลายกรณี ก็เป็นนักวิเคราะห์คนเดียวกัน) ต้องมีทักษะการสร้างแบบจำลองที่ดี การสร้างโมเดลตรรกะขององค์กรจำเป็นต้องมีการสร้างแบบจำลอง "สำหรับอนาคต" และความสามารถในการแปลงธุรกิจที่ซับซ้อนเป็น "สี่เหลี่ยมและเส้น" อย่างแท้จริง

ในทางกลับกัน โมเดลอุตสาหกรรมช่วยให้คุณใช้ประสบการณ์ของผู้เชี่ยวชาญจากภายนอกได้ โมเดลลอจิกเฉพาะอุตสาหกรรมใช้วิธีการสร้างแบบจำลองที่ได้รับการพิสูจน์แล้วและทีมงานมืออาชีพที่มีประสบการณ์ เพื่อหลีกเลี่ยงปัญหาทั่วไปและค่าใช้จ่ายสูงที่อาจเกิดขึ้นได้เมื่อพัฒนาโมเดลข้อมูลองค์กรภายในองค์กร

ปัจจัยที่สี่คือโครงสร้างพื้นฐานของแอปพลิเคชันที่มีอยู่และความสัมพันธ์ของผู้ขาย หากองค์กรใช้เครื่องมือมากมายจากผู้ขายรายเดียวกันและได้สร้างความสัมพันธ์กับพวกเขาแล้ว ก็ควรที่จะสั่งซื้อแบบจำลองอุตสาหกรรมจากพวกเขาเช่นกัน โมเดลดังกล่าวจะสามารถทำงานร่วมกับผลิตภัณฑ์อื่นๆ ของซัพพลายเออร์รายเดียวกันได้อย่างอิสระ

ปัจจัยที่ห้าคือการแลกเปลี่ยนข้อมูลภายในอุตสาหกรรม หากบริษัทต้องการแชร์ข้อมูลกับองค์กรอื่นๆ ที่ทำงานในสาขาเดียวกัน โมเดลอุตสาหกรรมจะมีประโยชน์มากในสถานการณ์นี้ องค์กรในอุตสาหกรรมเดียวกันใช้ส่วนประกอบโครงสร้างและคำศัพท์ที่คล้ายคลึงกัน ทุกวันนี้ ในอุตสาหกรรมส่วนใหญ่ บริษัทต่างๆ ถูกบังคับให้แบ่งปันข้อมูลเพื่อดำเนินธุรกิจให้ประสบความสำเร็จ

โมเดลอุตสาหกรรมที่นำเสนอโดยผู้ขายมืออาชีพนั้นมีประสิทธิภาพสูงสุด ประสิทธิภาพสูงในการใช้งานเกิดจากรายละเอียดและความแม่นยำของโมเดลเหล่านี้ในระดับที่มีนัยสำคัญ มักจะมีแอตทริบิวต์ข้อมูลจำนวนมาก นอกจากนี้ ผู้สร้างแบบจำลองเหล่านี้ไม่เพียงแต่มีประสบการณ์ในการสร้างแบบจำลองที่กว้างขวางเท่านั้น แต่ยังมีความเชี่ยวชาญในการสร้างแบบจำลองสำหรับอุตสาหกรรมเฉพาะอีกด้วย

โมเดลข้อมูลอุตสาหกรรมช่วยให้บริษัทต่างๆ มีมุมมองข้อมูลทางธุรกิจแบบบูรณาการในมุมมองเดียว หลายบริษัทพบว่าเป็นการยากที่จะรวมข้อมูลเข้าด้วยกัน แม้ว่านี่จะเป็นข้อกำหนดเบื้องต้นสำหรับโครงการระดับองค์กรส่วนใหญ่ก็ตาม จากการศึกษาของสถาบัน Data Warehousing Institute (TDWI) พบว่าองค์กรกว่า 69% ที่สำรวจพบว่าการบูรณาการเป็นอุปสรรคสำคัญในการนำแอปพลิเคชันใหม่มาใช้ ในทางกลับกัน การนำข้อมูลมาใช้ร่วมกันจะสร้างรายได้มหาศาลให้กับบริษัท

โมเดลข้อมูลอุตสาหกรรม นอกเหนือจากการเชื่อมโยงกับระบบที่มีอยู่แล้ว ยังให้ประโยชน์ที่ยอดเยี่ยมสำหรับโครงการทั่วทั้งองค์กร เช่น การวางแผนทรัพยากรองค์กร (ERP) การจัดการข้อมูลหลัก ระบบธุรกิจอัจฉริยะ การปรับปรุงคุณภาพข้อมูล และการพัฒนาพนักงาน

ดังนั้น แบบจำลองข้อมูลเชิงตรรกะของอุตสาหกรรมจึงเป็นเครื่องมือที่มีประสิทธิภาพสำหรับการรวมข้อมูลและรับภาพรวมของธุรกิจ การใช้แบบจำลองเชิงตรรกะดูเหมือนจะเป็นขั้นตอนที่จำเป็นต่อการสร้างคลังข้อมูลขององค์กร

สิ่งพิมพ์

  1. สตีฟ โฮเบอร์แมน. ใช้ประโยชน์จากแบบจำลองข้อมูลเชิงตรรกะของอุตสาหกรรมเป็นแบบจำลองข้อมูลองค์กรของคุณ
  2. คลอเดีย อิมฮอฟฟ์. โครงการคลังข้อมูลและระบบธุรกิจอัจฉริยะติดตามอย่างรวดเร็วผ่านการสร้างแบบจำลองข้อมูลอัจฉริยะ

บทความนี้จะเน้นที่สถาปัตยกรรมของคลังข้อมูล สิ่งที่ควรได้รับคำแนะนำเมื่อสร้าง แนวทางใดที่ได้ผล และทำไม

"เทพนิยายเป็นเรื่องโกหก - แต่มีคำใบ้อยู่ในนั้น ... "

ปู่ปลูก...เก็บ. และโกดังก็ใหญ่โต ฉันไม่รู้จริงๆว่ามันทำงานอย่างไร และคุณปู่เริ่มทบทวน คุณปู่เรียกคุณย่า หลานสาว แมวและหนูมาประชุมสภาครอบครัว และเขาพูดในหัวข้อต่อไปนี้: “พื้นที่เก็บข้อมูลของเราเติบโตขึ้น ข้อมูลจากทุกระบบฝูง ตารางสามารถมองเห็นได้และมองไม่เห็น ผู้ใช้เตรียมรายงานของพวกเขา ดูเหมือนว่าทุกอย่างเรียบร้อยดี - อยู่และมีชีวิตอยู่ ใช่ความโศกเศร้าเพียงอย่างเดียว - ไม่มีใครรู้ว่ามันทำงานอย่างไร มันต้องการดิสก์ที่มองไม่เห็น - คุณจะไม่พอ! แล้วมีผู้ใช้มาหาฉันพร้อมข้อร้องเรียนที่แตกต่างกัน: รายงานหยุดทำงานหรือข้อมูลล้าสมัย และบางครั้งก็ค่อนข้างเป็นหายนะ - เรามาพร้อมกับรายงานต่อพ่อของซาร์ แต่ตัวเลขไม่ตรงกัน เวลาไม่เท่ากัน - กษัตริย์จะโกรธ - อย่าทำลายศีรษะของคุณ - ทั้งสำหรับฉันและสำหรับคุณ เลยตัดสินใจรวบรวมคุณมาปรึกษาว่าจะทำอย่างไรดี?

พระองค์ทรงทอดพระเนตรที่ประชุมและตรัสถามว่า
- นี่ไง คุณยาย รู้มั้ยว่าโกดังเราจัดยังไง?
- ไม่ปู่ฉันไม่รู้ และฉันควรรู้ได้อย่างไร? ที่นั่น มีทหารกล้าคนใดกำลังปกป้องเขาอยู่! หนวดบ้าง! อย่าก้าวขึ้น ฉันไปเยี่ยมพวกเขาอย่างใดพายอบ และพวกเขากินพายเช็ดหนวดแล้วพูดว่า:“ คุณมาทำไมคุณยาย? ที่เก็บข้อมูลของคุณคืออะไร? คุณบอกเราว่าคุณต้องการรายงานประเภทใด - เราจะทำเพื่อคุณ! สิ่งสำคัญที่สุดคือคุณต้องนำพายมาบ่อยขึ้น! เจ็บปวด พวกมันมีรสชาติที่อร่อย”
- และคุณหลานสาวสุดที่รักของฉัน คุณรู้ไหมว่าที่เก็บของของเรามีการจัดวางอย่างไร?
- ไม่ปู่ฉันไม่รู้ ให้ฉันเข้าถึงได้บ้าง ฉันเชื่อมต่อฉันดู - และมีตาราง - มองไม่เห็นอย่างเห็นได้ชัด และแผนการต่าง ๆ ที่ซ่อนอยู่ ตาเบิกกว้าง.... ตอนแรกฉันสับสน แล้วฉันก็มองอย่างใกล้ชิด - บางส่วนว่างเปล่าบางส่วนเต็มไปด้วย แต่เพียงครึ่งเดียวเท่านั้น นอกจากนี้ ดูเหมือนว่าข้อมูลจะซ้ำกัน ไม่น่าแปลกใจที่คุณไม่สามารถตุนดิสก์ด้วยความซ้ำซ้อนได้!
- คุณแมว คุณพูดอะไรเกี่ยวกับที่เก็บข้อมูลของเราได้บ้าง มันมีอะไรดีอยู่หรือเปล่า?
- ใช่จะไม่พูดอย่างไรปู่ - ฉันจะพูด ตามคำร้องขอของหลานสาว ฉันพยายามสร้างนักบินนำร่องในรูปแบบแยกต่างหาก - ตู้โชว์ขนาดเล็ก เพื่อให้เข้าใจว่าการค้าประเภทใดที่เป็นประโยชน์ต่อรัฐของเรา - ผลิตภัณฑ์ใดที่ดีสำหรับผู้ค้า พวกเขาจ่ายส่วย - คลังจะเติมเต็ม และอันไหนที่ไม่ดี และฉันเริ่มรับข้อมูลจากที่เก็บนี้ รวบรวมข้อเท็จจริง. และเขาเริ่มพยายามเปรียบเทียบกับผลิตภัณฑ์ แล้วคุณปู่ที่ฉันเห็น - ผลิตภัณฑ์ดูเหมือนจะเหมือนกัน แต่คุณดูป้าย - พวกเขาแตกต่างกัน! จากนั้นฉันก็เริ่มหวีมันด้วยหวีของหลานสาว เขาเกาเกา - และนำไปสู่ความสม่ำเสมอบางอย่างลูบไล้ตา แต่เช้าตรู่ฉันก็ดีใจ - วันรุ่งขึ้นฉันเปิดสคริปต์เพื่ออัปเดตข้อมูลที่ยอดเยี่ยมในหน้าต่าง - และทุกอย่างก็หายไปสำหรับฉัน! “ยังไง?” - ฉันคิดว่า - หลานสาวกำลังจะอารมณ์เสีย - วันนี้จำเป็นต้องแสดงนักบินของเราต่อรัฐมนตรี เราจะดำเนินการอย่างไร - ด้วยข้อมูลดังกล่าว
- ใช่เรื่องเศร้าแมวคุณบอก เจ้าหนูน้อย เจ้าไม่ได้พยายามค้นหาเกี่ยวกับหลุมฝังศพจริงๆ หรือ? คุณเป็นผู้หญิงที่มีชีวิตชีวาว่องไวและเข้ากับคนง่าย! คุณจะบอกอะไรเรา
- ใช่แล้วปู่อย่าพยายาม - แน่นอนฉันเป็นหนูที่เงียบ แต่ว่องไว ยังไงก็ตามหลานสาวของแมวได้ขอแบบจำลองข้อมูลของที่เก็บของรัฐของเราเพื่อให้ได้มา และแมวก็มาหาฉัน - คุณหนูพูดด้วยความหวังทั้งหมด! แล้วสิ่งที่คนดี (และแมว) จะทำไม่ได้คืออะไร? ฉันไปที่ปราสาท ซึ่งหัวหน้าที่เก็บซ่อนโมเดลข้อมูลไว้ในตู้เซฟ และซ่อน ฉันรอให้เขานำโมเดลนั้นออกจากตู้นิรภัย ทันทีที่เขาออกไปดื่มกาแฟ ฉันก็กระโดดขึ้นไปบนโต๊ะ ฉันดูโมเดล - ฉันไม่เข้าใจอะไรเลย! ได้อย่างไร? ฉันไม่รู้จักห้องนิรภัยของเรา! เรามีตารางข้อมูลนับไม่ถ้วน - สตรีมที่ไม่ย่อท้อ! และที่นี่ - ทุกอย่างกลมกลืนและสวยงาม ... เขามองดูโมเดลนี้ - แล้วใส่กลับเข้าไปในตู้เซฟ
- ใช่ ของแปลกมาก คุณบอกเราหนู
คุณปู่คิดหนัก
เราจะทำอย่างไรเพื่อนของฉัน? ท้ายที่สุดคุณจะอยู่ได้ไม่นานกับพื้นที่เก็บข้อมูล ... ผู้ใช้จะสูญเสียความอดทนอย่างสมบูรณ์ในไม่ช้า

ไม่ว่าปู่ของเราจากเทพนิยายจะตัดสินใจอย่างไร - เพื่อสร้างสถานที่จัดเก็บใหม่หรือพยายามฟื้นฟูสถานที่ที่มีอยู่ - เราต้องสรุปข้อสรุปก่อนที่จะ "พับแขนเสื้อของเรา" อีกครั้ง
ละเว้นแง่มุมขององค์กร เช่น อันตรายจากการมุ่งเน้นความเชี่ยวชาญในกลุ่มปิดที่แคบ การขาดกระบวนการควบคุม และการรับรองความโปร่งใสของสถาปัตยกรรมของระบบที่ใช้ในองค์กร เป็นต้น
วันนี้ผมขอเน้นที่การสร้างสถาปัตยกรรมของระบบเฉพาะ (หรือกลุ่มของระบบ) - คลังข้อมูล สิ่งที่ควรให้ความสำคัญเป็นอันดับแรกเมื่อองค์กรเริ่มสร้างระบบที่ซับซ้อนและมีราคาแพงเช่นการจัดเก็บข้อมูล

ซักถาม

พวกเราไม่มีใครที่ทำงานเกี่ยวกับการสร้างและพัฒนาระบบใด ๆ ไม่ต้องการให้เป็น "บ้านชั่วคราว" หรือวิธีแก้ปัญหาที่จะ "เหี่ยวเฉา" ในหนึ่งปีหรือสองปีเพราะ จะไม่สามารถตอบสนองความต้องการและความคาดหวังของลูกค้าและธุรกิจได้ ไม่ว่าการเปลี่ยนแปลงไปสู่ ​​"วิธีการแบบยืดหยุ่น" จะแข็งแกร่งเพียงใดในทุกวันนี้ การที่บุคคลรู้สึกเหมือนเป็น "ผู้เชี่ยวชาญ" ที่ผลิตไวโอลิน ย่อมเป็นเรื่องที่น่ายินดีมากกว่าช่างฝีมือที่แกะสลักไม้สำหรับกลองแบบใช้แล้วทิ้ง
ความตั้งใจของเราฟังดูเป็นธรรมชาติ: เพื่อสร้างระบบที่แข็งแกร่งและมีคุณภาพสูงซึ่งไม่จำเป็นต้องให้เรา "เฝ้ายามกลางคืนด้วยไฟล์" เป็นประจำซึ่งเราจะไม่ละอายใจต่อผู้ใช้ปลายทางและจะดูไม่เหมือน “กล่องดำ” สำหรับผู้ติดตามที่ “ไม่ได้ฝึกหัด” ทุกคน

อันดับแรก มาดูปัญหาทั่วไปที่เราพบเป็นประจำเมื่อทำงานกับพื้นที่จัดเก็บ ลองเขียนสิ่งที่เรามี - จนถึงตอนนี้โดยไม่ต้องพยายามปรับปรุงและทำให้เป็นระเบียบ

  1. โดยหลักการแล้ว เรามีพื้นที่จัดเก็บที่ดี หากคุณไม่แตะต้องมัน ทุกอย่างก็ใช้การได้ จริงอยู่ ทันทีที่จำเป็นต้องเปลี่ยนแปลง “การยุบในเครื่อง” จะเริ่มต้นขึ้น
  2. ข้อมูลถูกโหลดทุกวัน ตามระเบียบ ภายในกระบวนการขนาดใหญ่เดียว ภายใน 8 ชั่วโมง และมันก็เหมาะกับเรา แต่ถ้าเกิดความล้มเหลวกะทันหัน การดำเนินการนี้ต้องมีการแทรกแซงด้วยตนเอง แล้วทุกอย่างก็สามารถทำงานได้อย่างคาดเดาไม่ได้เป็นเวลานานเพราะ จำเป็นต้องมีการมีส่วนร่วมของมนุษย์ในกระบวนการนี้
  3. รีดออก - คาดหวังปัญหา
  4. แหล่งข้อมูลบางแห่งไม่สามารถให้ข้อมูลตรงเวลา - กระบวนการทั้งหมดกำลังรออยู่
  5. ความสมบูรณ์ของข้อมูลถูกควบคุมโดยฐานข้อมูล ดังนั้น กระบวนการของเราจึงหยุดทำงานเมื่อฐานข้อมูลเสียหาย
  6. เรามีพื้นที่เก็บข้อมูลขนาดใหญ่มาก - 2,000 ตารางในสคีมาทั่วไปเดียว และอีก 3,000 รายการในรูปแบบอื่นๆ อีกมากมาย เราไม่รู้อยู่แล้วว่าพวกเขาจัดวางอย่างไรและทำไมจึงปรากฏ ดังนั้นจึงเป็นเรื่องยากที่เราจะนำบางสิ่งกลับมาใช้ใหม่ และปัญหามากมายต้องได้รับการแก้ไขอีกครั้ง เพราะมันง่ายและเร็วกว่า (มากกว่าที่จะเข้าใจ "ในรหัสของคนอื่น") ด้วยเหตุนี้ เราจึงมีความคลาดเคลื่อนและการทำงานซ้ำซ้อน
  7. เราคาดหวังให้แหล่งที่มาให้ข้อมูลที่มีคุณภาพ แต่ปรากฎว่าไม่เป็นเช่นนั้น ด้วยเหตุนี้ เราจึงใช้เวลามากในการกระทบยอดรายงานขั้นสุดท้ายของเรา และพวกเขาประสบความสำเร็จอย่างมาก เรายังมีกระบวนการที่คล่องตัว ทรูมันต้องใช้เวลา แต่ผู้ใช้มักจะ...
  8. ผู้ใช้ไม่เชื่อถือรายงานของเราเสมอไปและต้องการเหตุผลสำหรับตัวเลขเฉพาะ ในบางกรณีเขาถูกและในบางครั้งเขาก็ผิด แต่มันยากมากสำหรับเราที่จะพิสูจน์พวกเขาเพราะ เราไม่ได้จัดเตรียมวิธี "การวิเคราะห์แบบ end-to-end" (หรือสายข้อมูล)
  9. เราสามารถนำนักพัฒนาเพิ่มเติมเข้ามาได้ แต่เรามีปัญหา - เราจะเปลี่ยนพวกเขาให้เป็นงานได้อย่างไร? วิธีที่มีประสิทธิภาพที่สุดในการทำให้งานขนานกันคืออะไร?
  10. จะพัฒนาระบบแบบค่อยเป็นค่อยไปได้อย่างไรโดยไม่ต้องพัฒนา “แกนกลางของระบบ” ทั้งปี?
  11. คลังข้อมูลเชื่อมโยงกับรูปแบบองค์กร แต่เราทราบแน่ชัด (เราเห็นในธนาคาร XYZ) ว่าสามารถสร้างแบบจำลองได้ไม่จำกัด (ในธนาคาร XYZ เราไปรอบๆ และหารือเกี่ยวกับหน่วยงานทางธุรกิจเป็นเวลาหกเดือนโดยไม่มีการเคลื่อนไหวใดๆ) ทำไมเธอถึงเป็นอย่างนั้น? หรืออาจจะดีกว่าถ้าไม่มีเธอ ถ้ามีปัญหามากมายกับเธอ? อาจจะสร้างมันขึ้นมาอย่างใด?
  12. เราตัดสินใจที่จะเป็นผู้นำโมเดล แต่จะพัฒนาโมเดลข้อมูลคลังสินค้าอย่างเป็นระบบได้อย่างไร? เราต้องการ "กฎของเกม" หรือไม่ และมันจะเป็นอย่างไร? มันจะให้อะไรเราบ้าง? ถ้าเราทำผิดพลาดกับรุ่น?
  13. เราควรบันทึกข้อมูลหรือประวัติการเปลี่ยนแปลงหาก "ธุรกิจไม่ต้องการ" หรือไม่? ฉันไม่ต้องการ "เก็บขยะ" และทำให้การใช้ข้อมูลนี้ซับซ้อนสำหรับงานจริง ห้องนิรภัยควรเก็บประวัติไว้หรือไม่? มันเป็นอย่างไร? ที่เก็บข้อมูลทำงานอย่างไรเมื่อเวลาผ่านไป
  14. จำเป็นต้องพยายามรวมข้อมูลในที่เก็บข้อมูลถ้าเรามีระบบการจัดการ NSI หรือไม่? หากมี MDM แสดงว่าปัญหาข้อมูลหลักทั้งหมดได้รับการแก้ไขแล้วใช่หรือไม่
  15. เราคาดว่าจะเปลี่ยนระบบบัญชีหลักในไม่ช้านี้ ที่เก็บข้อมูลควรพร้อมสำหรับการเปลี่ยนแปลงแหล่งที่มาหรือไม่ จะบรรลุเป้าหมายนี้ได้อย่างไร
  16. เราต้องการข้อมูลเมตาหรือไม่ เราจะเข้าใจสิ่งนี้ได้อย่างไร? พวกเขาจะนำไปใช้ที่ไหน? จะนำไปปฏิบัติได้อย่างไร? จำเป็นต้องเก็บไว้ "ในที่เดียว" หรือไม่?
  17. ลูกค้าของเรามีความไม่แน่นอนอย่างยิ่งในความต้องการและความปรารถนาของพวกเขา - มีบางสิ่งเปลี่ยนแปลงตลอดเวลา โดยทั่วไปแล้ว ธุรกิจของเรามีพลวัตอย่างมาก ในขณะที่เรากำลังทำอะไรบางอย่าง มันกลับกลายเป็นสิ่งที่ไม่จำเป็น เราจะแน่ใจได้อย่างไรว่าเราให้ผลลัพธ์ได้เร็วที่สุด - เหมือนเค้กร้อน?
  18. ผู้ใช้ต้องการความเร็ว แต่เราไม่สามารถเรียกใช้กระบวนการบู๊ตหลักของเราได้บ่อยเพราะ สิ่งนี้จะโหลดระบบต้นทาง (มีผลเสียต่อประสิทธิภาพการทำงาน) - ดังนั้นเราจึงวางสายข้อมูลสตรีมเพิ่มเติม - ซึ่งจะใช้ตามจุด - สิ่งที่เราต้องการ จริงปรากฎว่ามีกระแสมากมาย จากนั้นเราจะโยนข้อมูลบางส่วนออกไป นอกจากนี้จะมีปัญหาเรื่องการบรรจบกัน แต่ไม่มีทางอื่น...
เกิดขึ้นมากมายแล้ว แต่นี่ไม่ใช่รายการที่สมบูรณ์ - ง่ายต่อการเสริมและพัฒนา เราจะไม่ซ่อนมันไว้ในตาราง แต่แขวนไว้ในที่ที่เห็นได้ชัดเจน - ทำให้ประเด็นเหล่านี้อยู่ในความสนใจของเราในกระบวนการทำงาน
หน้าที่ของเราคือการพัฒนาโซลูชันที่ครอบคลุม

การต่อต้านความเปราะบาง

เมื่อดูจากรายชื่อแล้ว เราสามารถสรุปได้หนึ่งข้อ ไม่ยากที่จะสร้าง "ฐานข้อมูลสำหรับการรายงาน" บางประเภท โยนข้อมูลไปที่นั่น หรือแม้แต่สร้างกระบวนการอัปเดตข้อมูลตามปกติบางประเภท ระบบเริ่มใช้งานได้อย่างใดผู้ใช้ปรากฏขึ้นและด้วยภาระผูกพันและ SLA ข้อกำหนดใหม่เกิดขึ้นแหล่งข้อมูลเพิ่มเติมเชื่อมโยงการเปลี่ยนแปลงวิธีการ - ทั้งหมดนี้จะต้องนำมาพิจารณาในกระบวนการพัฒนา

หลังจากเวลาผ่านไป ภาพจะเป็นดังนี้:
“นี่คือห้องนิรภัย และใช้งานได้ถ้าคุณไม่สัมผัสมัน ปัญหาเกิดขึ้นเมื่อเราต้องเปลี่ยนแปลงอะไรบางอย่าง”

การเปลี่ยนแปลงมาถึงเราผลกระทบที่เราไม่สามารถประเมินและเข้าใจได้ (เพราะเราไม่ได้ใส่เครื่องมือดังกล่าวลงในระบบในตอนแรก) - และเพื่อไม่ให้เกิดความเสี่ยงเราจะไม่แตะต้องสิ่งที่เป็น แต่ทำขึ้นใหม่ ขยายออกไปด้านข้างและอื่น ๆ อีกมากมาย - เปลี่ยนการตัดสินใจของเราให้กลายเป็นสลัมหรืออย่างที่พวกเขาพูดในละตินอเมริกา "favelas" ซึ่งแม้แต่ตำรวจก็ไม่กล้าไป
มีความรู้สึกสูญเสียการควบคุมระบบของตัวเองคือความโกลาหล ต้องใช้มือมากขึ้นเรื่อยๆ เพื่อรักษากระบวนการที่มีอยู่และแก้ปัญหา และทำการเปลี่ยนแปลงได้ยากขึ้น กล่าวอีกนัยหนึ่ง ระบบไม่เสถียรต่อความเครียด ไม่ปรับตัวต่อการเปลี่ยนแปลง นอกจากนี้ ยังมีการพึ่งพาตัวละครที่ "รู้จักแฟร์เวย์" เป็นอย่างดี เนื่องจากไม่มีใครมี "การ์ด"

คุณสมบัติของวัตถุนี้คือการพังทลายลงภายใต้อิทธิพลของความโกลาหล เหตุการณ์สุ่ม และการเปลี่ยนแปลงครั้งใหญ่ - Nassim Nicholas Taleb เรียก ความเปราะบาง . นอกจากนี้ยังแนะนำแนวคิดที่ตรงกันข้าม: การต่อต้านความเปราะบาง เมื่อวัตถุไม่ถูกทำลายด้วยความเครียดและอุบัติเหตุ แต่ได้รับผลประโยชน์โดยตรงจากมัน. ("ต้านความเปราะบางได้ประโยชน์จากความโกลาหลอย่างไร")
มิเช่นนั้นจะเรียกว่า การปรับตัว หรือ ต่อต้านการเปลี่ยนแปลง .

สิ่งนี้หมายความว่าอย่างไรในบริบทนี้ อะไรคือ "ที่มาของความโกลาหล" สำหรับระบบไอที? และอะไรคือ "ทุนจากความสับสนวุ่นวาย" ในแง่ของสถาปัตยกรรมไอที?
ความคิดแรกที่เข้ามาในหัวคือความเปลี่ยนแปลงที่มาจากภายนอก โลกภายนอกสำหรับระบบคืออะไร? เพื่อการจัดเก็บโดยเฉพาะ แน่นอน ก่อนอื่น - การเปลี่ยนแปลงจากแหล่งข้อมูลสำหรับคลังสินค้า:

  • การเปลี่ยนรูปแบบของข้อมูลขาเข้า
  • การแทนที่ระบบแหล่งข้อมูลบางระบบกับระบบอื่น
  • การเปลี่ยนแปลงกฎ/แพลตฟอร์มสำหรับการรวมระบบ
  • การเปลี่ยนการตีความข้อมูล (บันทึกรูปแบบ, ตรรกะในการทำงานกับการเปลี่ยนแปลงข้อมูล);
  • การเปลี่ยนโมเดลข้อมูล หากการรวมเสร็จสิ้นที่ระดับข้อมูล (การแยกวิเคราะห์ไฟล์บันทึกธุรกรรมของฐานข้อมูล)
  • การเติบโตของปริมาณข้อมูล - ในขณะที่มีข้อมูลเพียงเล็กน้อยในระบบต้นทางและโหลดมีขนาดเล็ก - คุณสามารถรับได้ตลอดเวลาโดยมีคำขอจำนวนมากโดยพลการ ข้อมูลและโหลดเพิ่มขึ้น - ขณะนี้มีข้อ จำกัด ที่เข้มงวด
  • เป็นต้น
ระบบต้นทางเอง องค์ประกอบของข้อมูลและโครงสร้าง ประเภทของปฏิสัมพันธ์แบบบูรณาการ ตลอดจนตรรกะในการทำงานกับข้อมูลสามารถเปลี่ยนแปลงได้ แต่ละระบบใช้แบบจำลองข้อมูลของตนเองและแนวทางในการทำงานกับระบบที่บรรลุเป้าหมายและวัตถุประสงค์ของระบบ และไม่ว่าพวกเขาจะพยายามรวมเอาแบบจำลองอุตสาหกรรมและแนวทางปฏิบัติอ้างอิงไว้เป็นหนึ่งเดียวเพียงใด ความแตกต่างย่อมปรากฏออกมาอย่างหลีกเลี่ยงไม่ได้ (และนอกจากนี้ กระบวนการของการรวมอุตสาหกรรมเอง ด้วยเหตุผลต่างๆ ไม่ได้คืบหน้ามากนัก)
วัฒนธรรมการทำงานกับข้อมูลองค์กร - การมีอยู่และการควบคุมสถาปัตยกรรมข้อมูล แบบจำลองความหมายเดียว ระบบการจัดการข้อมูลหลัก (MDM) ค่อนข้างอำนวยความสะดวกในการรวมข้อมูลในคลังสินค้า แต่ไม่รวมความจำเป็น

ไม่มีการเปลี่ยนแปลงที่สำคัญน้อยกว่าโดยผู้ใช้พื้นที่จัดเก็บข้อมูล (การเปลี่ยนแปลงข้อกำหนด):

  • ก่อนหน้านี้ มีข้อมูลเพียงพอที่จะสร้างรายงาน - ตอนนี้ จำเป็นต้องเชื่อมต่อฟิลด์เพิ่มเติมหรือแหล่งข้อมูลใหม่
  • วิธีการประมวลผลข้อมูลที่ใช้ก่อนหน้านี้ล้าสมัย - อัลกอริธึมและทุกสิ่งที่ได้รับผลกระทบจำเป็นต้องทำใหม่
  • ก่อนหน้านี้ ทุกคนพอใจกับค่าปัจจุบันของแอตทริบิวต์พจนานุกรมบนแผงข้อมูล - ตอนนี้จำเป็นต้องมีค่าที่เกี่ยวข้อง ณ เวลาที่เกิดข้อเท็จจริง / เหตุการณ์ที่วิเคราะห์
  • มีข้อกำหนดสำหรับความลึกของประวัติการจัดเก็บข้อมูลซึ่งไม่เคยมีมาก่อน - เพื่อเก็บข้อมูลไม่ได้เป็นเวลา 2 ปี แต่เป็นเวลา 10 ปี
  • ก่อนหน้านี้ก็เพียงพอแล้วที่จะมีข้อมูล ณ "สิ้นวัน/รอบระยะเวลา" - ตอนนี้คุณต้องการสถานะของข้อมูล "ระหว่างวัน" หรือในช่วงเวลาของเหตุการณ์บางอย่าง (เช่น การตัดสินใจเกี่ยวกับการขอสินเชื่อ - สำหรับ บาเซิล II);
  • ก่อนหน้านี้เราพอใจกับการรายงานข้อมูลของเมื่อวาน (T-1) หรือหลังจากนั้น ตอนนี้เราต้องการ T0
  • เป็นต้น
ทั้งการโต้ตอบแบบบูรณาการกับระบบต้นทางและข้อกำหนดจากผู้บริโภคคลังข้อมูลเป็นปัจจัยภายนอกสำหรับคลังข้อมูล: ระบบต้นทางหนึ่งแทนที่อีกระบบหนึ่ง ปริมาณข้อมูลเพิ่มขึ้น การเปลี่ยนแปลงรูปแบบข้อมูลขาเข้า การเปลี่ยนแปลงข้อกำหนดของผู้ใช้ ฯลฯ และทั้งหมดนี้เป็นการเปลี่ยนแปลงภายนอกโดยทั่วไปซึ่งระบบของเรา - ที่เก็บของเรา - ต้องพร้อม ด้วยสถาปัตยกรรมที่เหมาะสม พวกเขาไม่ควรทำลายระบบ

แต่นั่นไม่ใช่ทั้งหมด
เมื่อพูดถึงความแปรปรวน ก่อนอื่น เรานึกถึงปัจจัยภายนอก ท้ายที่สุดแล้วภายในเราสามารถควบคุมทุกอย่างได้เหมือนเราใช่ไหม? ใช่และไม่. ใช่ ปัจจัยส่วนใหญ่ที่อยู่นอกเขตอิทธิพลนั้นมาจากภายนอก แต่ยังมี "เอนโทรปีภายใน" และเป็นเพราะการมีอยู่ของมันนั่นเอง ซึ่งบางครั้งเราต้องย้อนกลับ “ไปที่จุด 0” เริ่มเกมใหม่
ในชีวิตเรามักจะเริ่มต้นจากศูนย์ ทำไมเรามักจะทำเช่นนี้? แล้วมันแย่ขนาดนั้นเลยเหรอ?
นำไปใช้กับไอที สำหรับตัวระบบเอง - นี่อาจเป็นสิ่งที่ดีมาก - ความสามารถในการพิจารณาการตัดสินใจของแต่ละบุคคลอีกครั้ง โดยเฉพาะอย่างยิ่งเมื่อเราสามารถทำได้ในท้องถิ่น การปรับโครงสร้างใหม่เป็นกระบวนการในการคลี่คลาย "เว็บ" ที่เกิดขึ้นเป็นระยะๆ ในกระบวนการพัฒนาระบบ การกลับ "สู่จุดเริ่มต้น" อาจมีประโยชน์ แต่มันมีราคา
ด้วยการจัดการสถาปัตยกรรมที่เหมาะสม ราคานี้จึงลดลง - และกระบวนการพัฒนาระบบเองก็สามารถควบคุมและโปร่งใสได้มากขึ้น ตัวอย่างง่ายๆ: หากสังเกตหลักการของโมดูลาร์ เป็นไปได้ที่จะเขียนโมดูลแยกใหม่โดยไม่กระทบต่ออินเทอร์เฟซภายนอก และไม่สามารถทำได้ด้วยโครงสร้างเสาหิน

การต้านการแตกร้าวของระบบถูกกำหนดโดยสถาปัตยกรรมของระบบ และมันเป็นคุณสมบัติที่ทำให้ปรับตัวได้
เมื่อเราพูดถึง สถาปัตยกรรมแบบปรับตัว- เราหมายความว่าระบบสามารถปรับให้เข้ากับการเปลี่ยนแปลงได้ และไม่ใช่ว่าเรากำลังเปลี่ยนแปลงสถาปัตยกรรมอยู่ตลอดเวลา ในทางตรงกันข้าม ยิ่งสถาปัตยกรรมมีความเสถียรและเสถียรมากขึ้นเท่าใด ข้อกำหนดที่นำมาสู่การแก้ไขก็จะยิ่งน้อยลง ระบบก็จะยิ่งมีการปรับตัวมากขึ้น

โซลูชันที่ต้องมีการแก้ไขสถาปัตยกรรมทั้งหมดจะมีราคาสูงกว่ามาก และสำหรับการรับเลี้ยงบุตรบุญธรรมคุณต้องมีเหตุผลที่ดีมาก ตัวอย่างเช่น เหตุผลดังกล่าวอาจเป็นข้อกำหนดที่ไม่สามารถดำเนินการได้ภายในสถาปัตยกรรมปัจจุบัน จากนั้นพวกเขากล่าวว่า - มีข้อกำหนดที่ส่งผลต่อสถาปัตยกรรม
ดังนั้น เราจำเป็นต้องรู้ “ขีดจำกัดการต้านการแตกร้าว” ของเราด้วย สถาปัตยกรรมไม่ได้พัฒนา "ในสุญญากาศ" - ขึ้นอยู่กับความต้องการและความคาดหวังในปัจจุบัน และหากสถานการณ์เปลี่ยนแปลงไปโดยพื้นฐาน - เราต้องเข้าใจว่าเราได้ก้าวข้ามสถาปัตยกรรมปัจจุบันแล้ว - และเราต้องแก้ไข พัฒนาโซลูชันที่แตกต่างออกไป - และคิดถึงเส้นทางการเปลี่ยนผ่าน
ตัวอย่างเช่น เราสันนิษฐานว่าเราต้องการข้อมูลในคลังสินค้าเสมอเมื่อสิ้นสุดวัน เราจะรวบรวมข้อมูลทุกวันโดยใช้อินเทอร์เฟซระบบมาตรฐาน (ผ่านชุดมุมมอง) จากนั้น จากแผนกบริหารความเสี่ยง คำขอมาเกี่ยวกับความจำเป็นในการรับข้อมูลไม่ใช่เมื่อสิ้นสุดวัน แต่ในเวลาที่ทำการตัดสินใจเกี่ยวกับการให้กู้ยืม ไม่จำเป็นต้องพยายาม "ยืดเส้นยืดสาย" - คุณเพียงแค่ต้องตระหนักถึงข้อเท็จจริงนี้ - ยิ่งเร็วยิ่งดี และเริ่มทำงานในแนวทางที่จะทำให้เราสามารถแก้ปัญหาได้
มีเส้นแบ่งที่ดีมาก - หากเราพิจารณาเฉพาะ "ความต้องการในขณะนี้" และไม่มองไปข้างหน้าไม่กี่ก้าว (และอีกหลายปีข้างหน้า) เราจะเพิ่มความเสี่ยงที่จะพบกับข้อกำหนดที่ส่งผลต่อสถาปัตยกรรมสายเกินไป - และ ต้นทุนการเปลี่ยนแปลงของเราจะสูงมาก การมองไปข้างหน้าเพียงเล็กน้อย - ภายในขอบเขตของเส้นขอบฟ้าของเรา - ไม่เคยทำอันตรายใครเลย

ตัวอย่างของระบบจาก "เทพนิยายการจัดเก็บ" เป็นเพียงตัวอย่างของระบบที่สั่นคลอนอย่างมากซึ่งสร้างขึ้นจากแนวทางการออกแบบที่เปราะบาง และหากสิ่งนี้เกิดขึ้น การทำลายจะเกิดขึ้นอย่างรวดเร็ว สำหรับระบบคลาสนี้โดยเฉพาะ
ทำไมฉันถึงพูดได้ หัวข้อของการจัดเก็บไม่ใช่เรื่องใหม่ แนวทางและแนวทางปฏิบัติทางวิศวกรรมที่พัฒนาขึ้นในช่วงเวลานี้มุ่งเป้าไปที่สิ่งนี้อย่างแม่นยำ นั่นคือการรักษาความอยู่รอดของระบบ
ในการยกตัวอย่างง่ายๆ หนึ่งในสาเหตุที่พบบ่อยที่สุดที่ทำให้โครงการพื้นที่จัดเก็บที่บินขึ้นล้มเหลวคือการพยายามสร้างที่เก็บข้อมูลบนระบบต้นทางภายใต้การพัฒนาโดยไม่มีอินเทอร์เฟซการรวมที่ตรงกัน - พยายามดึงข้อมูลโดยตรงจากตาราง เป็นผลให้พวกเขาเข้าสู่การพัฒนา - ในช่วงเวลานี้ฐานข้อมูลต้นทางเปลี่ยนไป - และสตรีมดาวน์โหลดในที่เก็บข้อมูลใช้งานไม่ได้ มันสายเกินไปที่จะทำซ้ำบางสิ่ง และถ้าคุณยังไม่ได้สร้างความปลอดภัยให้กับตัวเองด้วยการทำตารางหลายชั้นในที่จัดเก็บ คุณก็ทิ้งทุกอย่างทิ้งและเริ่มต้นใหม่ได้ นี่เป็นเพียงตัวอย่างหนึ่ง และหนึ่งในวิธีที่ง่ายที่สุด

เกณฑ์ของ Taleb สำหรับความเปราะบางและป้องกันการแตกหักนั้นง่าย หัวหน้าผู้พิพากษาคือเวลา หากระบบยืนหยัดอยู่เหนือกาลเวลาและแสดง "ความอยู่รอด" และ "ความไม่สามารถทำลายได้" แสดงว่าระบบมีคุณสมบัติในการต้านทานการแตกหัก
หากเมื่อออกแบบระบบ เราคำนึงถึงการต่อต้านการแตกหักเป็นข้อกำหนด สิ่งนี้จะกระตุ้นให้เราใช้แนวทางดังกล่าวเพื่อสร้างสถาปัตยกรรมที่จะทำให้ระบบปรับตัวเข้ากับทั้ง "ความโกลาหลจากภายนอก" และ "ความโกลาหลจากภายใน" ได้มากขึ้น ” และในที่สุดระบบจะมีอายุการใช้งานยาวนานขึ้น
พวกเราไม่มีใครอยากทำ "ชั่วคราว" และอย่าหลอกตัวเองว่าตอนนี้ไม่มีทางอื่นแล้ว การมองไปข้างหน้าไม่กี่ก้าวเป็นเรื่องปกติสำหรับคนทุกเมื่อ โดยเฉพาะอย่างยิ่งในยามวิกฤต

คลังข้อมูลคืออะไรและทำไมเราถึงสร้างมันขึ้นมา

บทความเกี่ยวกับสถาปัตยกรรมการจัดเก็บถือว่าผู้อ่านไม่เพียงแต่รู้ว่ามันคืออะไร แต่ยังมีประสบการณ์กับระบบดังกล่าวด้วย อย่างไรก็ตาม ฉันคิดว่าจำเป็นต้องทำเช่นนี้ - เพื่อกลับสู่จุดเริ่มต้น สู่จุดเริ่มต้นของเส้นทาง เพราะ ที่นั่นมี "ศูนย์กลาง" ของการพัฒนาตั้งอยู่

ผู้คนสรุปได้อย่างไรว่าคลังข้อมูลมีความจำเป็น? และแตกต่างจากเพียงแค่ "ฐานข้อมูลขนาดใหญ่มาก" อย่างไร?
นานมาแล้ว เมื่อโลกมีเพียง “ระบบประมวลผลข้อมูลทางธุรกิจ” เท่านั้น ไม่มีการแบ่งระบบไอทีออกเป็นคลาสต่างๆ เช่น ระบบ front-end oltp, back-office dss, ระบบประมวลผลข้อมูลข้อความ, คลังข้อมูล ฯลฯ .
นี่เป็นช่วงเวลาที่ Michael Stonebreaker ได้สร้าง DBMS Ingres เชิงสัมพันธ์ขึ้นเป็นครั้งแรก
และนี่คือเวลาที่ยุคของคอมพิวเตอร์ส่วนบุคคลเข้าสู่อุตสาหกรรมคอมพิวเตอร์ราวกับพายุหมุน และได้เปลี่ยนแนวคิดทั้งหมดของชุมชนไอทีในสมัยนั้นไปตลอดกาล

จากนั้นจึงง่ายต่อการค้นหาแอปพลิเคชันระดับองค์กรที่เขียนโดยใช้ DBMS ระดับเดสก์ท็อป เช่น Clipper, dBase และ FoxPro และตลาดสำหรับแอปพลิเคชันไคลเอนต์ - เซิร์ฟเวอร์และ DBMS ก็ได้รับแรงผลักดันเท่านั้น หลังจากนั้นเซิร์ฟเวอร์ฐานข้อมูลก็ปรากฏตัวขึ้นซึ่งจะครอบครองเฉพาะของตนในพื้นที่ไอทีเป็นเวลานาน - Oracle, DB2 เป็นต้น
และคำว่า "แอปพลิเคชันฐานข้อมูล" ก็ถูกเผยแพร่ไปทั่ว แอปพลิเคชันดังกล่าวมีอะไรบ้าง? แบบง่าย - แบบฟอร์มป้อนข้อมูลบางรูปแบบที่ผู้ใช้สามารถป้อนข้อมูลได้พร้อมกัน การคำนวณบางอย่างที่เปิดใช้งาน "บนปุ่ม" หรือ "ตามกำหนดเวลา" รวมถึงรายงานบางรายการที่สามารถเห็นบนหน้าจอหรือบันทึกเป็นไฟล์และส่งเพื่อประทับตรา .
"ไม่มีอะไรพิเศษ แค่แอปพลิเคชันธรรมดาๆ แค่ฐานข้อมูล" หนึ่งในที่ปรึกษารุ่นก่อนๆ ของฉันตั้งข้อสังเกต “ไม่มีอะไรพิเศษเหรอ?” - คิดแล้ว.

หากมองให้ดีก็ยังมีคุณสมบัติอยู่ เมื่อผู้ใช้เติบโตขึ้น ปริมาณของข้อมูลที่เข้ามาจะเพิ่มขึ้น เมื่อภาระในระบบเพิ่มขึ้น นักพัฒนา-นักออกแบบ เพื่อรักษาประสิทธิภาพในระดับที่ยอมรับได้ ให้ไปที่ "ลูกเล่น" บางอย่าง อย่างแรกคือการแบ่ง "ระบบประมวลผลข้อมูลธุรกิจ" แบบเสาหินลงในแอปพลิเคชันการบัญชีที่รองรับการทำงานของผู้ใช้ในโหมดออนไลน์ และแอปพลิเคชันแยกต่างหากสำหรับการประมวลผลและการรายงานข้อมูลแบบกลุ่ม แต่ละแอปพลิเคชันเหล่านี้มีฐานข้อมูลของตัวเองและโฮสต์บนอินสแตนซ์ที่แยกจากกันของเซิร์ฟเวอร์ฐานข้อมูล ด้วยการตั้งค่าที่แตกต่างกันสำหรับปริมาณงานประเภทต่างๆ - OLTP และ DSS และกระแสข้อมูลถูกสร้างขึ้นระหว่างกัน

ทั้งหมด? ดูเหมือนว่าปัญหาจะได้รับการแก้ไข จะเกิดอะไรขึ้นต่อไป?
แล้วบริษัทต่างๆ ก็เติบโตขึ้น ข้อมูลของพวกเขาก็ต้องการทวีคูณ จำนวนปฏิสัมพันธ์กับโลกภายนอกก็เพิ่มขึ้นเช่นกัน และด้วยเหตุนี้ จึงไม่มีแอปพลิเคชันขนาดใหญ่เพียงแอปพลิเคชันเดียวที่ทำให้กระบวนการทั้งหมดเป็นไปโดยอัตโนมัติอย่างสมบูรณ์ แต่มีแอปพลิเคชันที่แตกต่างกันหลายตัวจากผู้ผลิตหลายราย จำนวนระบบที่สร้างข้อมูล-ระบบแหล่งข้อมูลในบริษัทเพิ่มขึ้น และไม่ช้าก็เร็วจะต้องดูและเปรียบเทียบข้อมูลที่ได้รับจากระบบต่างๆ นี่คือลักษณะที่ Data Warhousing ซึ่งเป็นระบบระดับใหม่ปรากฏในบริษัท
คำจำกัดความที่ยอมรับโดยทั่วไปของระบบคลาสนี้มีดังต่อไปนี้

คลังข้อมูล (หรือคลังข้อมูล)- ฐานข้อมูลเฉพาะโดเมนที่ออกแบบและจัดทำขึ้นเป็นพิเศษเพื่อจัดทำรายงานและวิเคราะห์ธุรกิจ เพื่อรองรับการตัดสินใจในองค์กร
ทางนี้, การรวมบัญชีข้อมูลจากระบบต่างๆ ความสามารถในการดูข้อมูลด้วยวิธี "เดียว" (รวมเป็นหนึ่งเดียว) เป็นหนึ่งในคุณสมบัติหลักของระบบคลาสการจัดเก็บข้อมูล นี่คือเหตุผลที่การจัดเก็บข้อมูลเกิดขึ้นในช่วงวิวัฒนาการของระบบไอที

คุณสมบัติที่สำคัญของคลังข้อมูล

ลองมาดูในรายละเอียดเพิ่มเติม คุณสมบัติหลักของระบบเหล่านี้คืออะไร? อะไรทำให้คลังข้อมูลแตกต่างจากระบบไอทีระดับองค์กรอื่นๆ

อย่างแรกคือปริมาณมาก ใหญ่มาก. VLDB - นี่คือวิธีที่ผู้ขายชั้นนำเรียกระบบดังกล่าวเมื่อให้คำแนะนำเกี่ยวกับการใช้ผลิตภัณฑ์ของตน จากระบบทั้งหมดของบริษัท ข้อมูลจะไหลเข้าสู่ฐานข้อมูลขนาดใหญ่นี้และถูกเก็บไว้ที่นั่น "ตลอดไปและไม่เปลี่ยนแปลง" ตามที่กล่าวไว้ในตำราเรียน (ในทางปฏิบัติ ชีวิตกลายเป็นเรื่องที่ซับซ้อนมากขึ้น)

ประการที่สอง เป็นข้อมูลทางประวัติศาสตร์ − "หน่วยความจำองค์กร" - ที่เรียกว่าคลังข้อมูล ในแง่ของการทำงานกับเวลาในการจัดเก็บ ทุกอย่างค่อนข้างน่าสนใจ ในระบบบัญชี ข้อมูลมีความเกี่ยวข้องในขณะนี้ จากนั้นผู้ใช้ดำเนินการบางอย่าง - และข้อมูลจะได้รับการอัปเดต ในเวลาเดียวกัน ประวัติของการเปลี่ยนแปลงอาจไม่ถูกเก็บรักษาไว้ - ขึ้นอยู่กับแนวปฏิบัติทางบัญชี ยกตัวอย่างยอดเงินในบัญชีธนาคาร เราอาจสนใจยอดคงเหลือปัจจุบันที่ "ตอนนี้" ณ สิ้นวันหรือ ณ เวลาของเหตุการณ์บางอย่าง (เช่น ในขณะที่คำนวณคะแนน) หากสองข้อแรกได้รับการแก้ไขอย่างง่าย ๆ อย่างหลังมักจะต้องใช้ความพยายามเป็นพิเศษ เมื่อทำงานกับที่เก็บ ผู้ใช้สามารถเข้าถึงช่วงเวลาที่ผ่านมา เปรียบเทียบกับช่วงเวลาปัจจุบัน และอื่นๆ ความสามารถที่เกี่ยวข้องกับเวลาเหล่านี้ทำให้แยกคลังข้อมูลออกจากระบบบัญชีอย่างมีนัยสำคัญ - การรับสถานะของข้อมูลที่จุดต่างๆ บนแกนเวลา - จนถึงระดับความลึกที่แน่นอนในอดีต

ประการที่สาม นี้ การรวมบัญชี และ การรวมข้อมูล . เพื่อให้การวิเคราะห์ร่วมกันเป็นไปได้จำเป็นต้องนำพวกเขาไปสู่รูปแบบทั่วไป - แบบจำลองข้อมูลแบบครบวงจร เปรียบเทียบข้อเท็จจริงกับหนังสืออ้างอิงแบบรวมศูนย์ อาจมีหลายแง่มุมและความยากลำบากที่นี่ เบื้องต้น - แนวความคิด - ภายใต้เงื่อนไขเดียวกัน ผู้คนจากแผนกต่างๆ สามารถเข้าใจสิ่งต่าง ๆ ได้ และในทางกลับกัน - เพื่อเรียกสิ่งที่แตกต่างออกไปซึ่งโดยพื้นฐานแล้วสิ่งเดียวกัน จะมั่นใจได้อย่างไรว่า "มุมมองเดียว" และในขณะเดียวกันก็รักษาวิสัยทัศน์เฉพาะของกลุ่มผู้ใช้โดยเฉพาะ?

ประการที่สี่ ทำงานกับ คุณภาพของข้อมูล . ในกระบวนการโหลดข้อมูลลงในที่จัดเก็บ ข้อมูลจะถูกล้าง การแปลงทั่วไปและการแปลงจะดำเนินการ การแปลงทั่วไปต้องทำในที่เดียว - จากนั้นใช้เพื่อสร้างรายงานต่างๆ สิ่งนี้จะหลีกเลี่ยงความคลาดเคลื่อนที่ก่อให้เกิดการระคายเคืองอย่างมากสำหรับผู้ใช้ทางธุรกิจ - โดยเฉพาะอย่างยิ่งสำหรับผู้บริหารซึ่งถูกนำมาที่โต๊ะด้วยตัวเลขจากแผนกต่าง ๆ ที่ไม่เห็นด้วย คุณภาพของข้อมูลไม่ดีทำให้เกิดข้อผิดพลาดและความคลาดเคลื่อนในรายงาน ซึ่งส่งผลให้ระดับลดลง ความไว้วางใจของผู้ใช้ กับทั้งระบบ ไปจนถึงบริการวิเคราะห์โดยรวม

แนวความคิดทางสถาปัตยกรรม

ทุกคนที่ได้พบที่เก็บข้อมูลมักจะสังเกตเห็น "โครงสร้างชั้น" บางประเภท - เพราะ มันเป็นกระบวนทัศน์ทางสถาปัตยกรรมที่หยั่งรากลึกสำหรับระบบของคลาสนี้ และไม่ใช่โดยบังเอิญ เลเยอร์การจัดเก็บสามารถรับรู้ได้ว่าเป็นส่วนประกอบที่แยกจากกันของระบบ - ด้วยงานของตัวเอง, พื้นที่รับผิดชอบ, "กฎของเกม"
สถาปัตยกรรมแบบเลเยอร์เป็นวิธีจัดการกับความซับซ้อนของระบบ - แต่ละเลเยอร์ที่ตามมาจะถูกแยกออกจากความซับซ้อนของการใช้งานภายในของเลเยอร์ก่อนหน้า แนวทางนี้ช่วยให้คุณระบุงานประเภทเดียวกันและแก้ปัญหาในลักษณะเดียวกันได้ โดยไม่ต้องสร้าง "จักรยาน" ขึ้นมาใหม่ทุกครั้งตั้งแต่เริ่มต้น
แผนภาพสถาปัตยกรรมแนวความคิดแผนผังแสดงไว้ในรูป นี่เป็นไดอะแกรมแบบง่ายที่สะท้อนถึงแนวคิดหลักเท่านั้น - แนวคิด แต่ไม่มี "รายละเอียดทางกายวิภาค" ที่จะเกิดขึ้นพร้อมกับการศึกษารายละเอียดที่ลึกซึ้งยิ่งขึ้น

ตามที่แสดงในไดอะแกรม ให้เลือกเลเยอร์ต่อไปนี้ตามแนวคิด เลเยอร์หลักสามชั้นที่มีพื้นที่จัดเก็บข้อมูล (ระบุด้วยสี่เหลี่ยมที่เติมสี) และซอฟต์แวร์โหลดข้อมูล (แสดงตามเงื่อนไขด้วยลูกศรที่มีสีเดียวกัน) เช่นเดียวกับชั้นบริการเสริม ซึ่งมีบทบาทเชื่อมโยงที่สำคัญมาก นั่นคือ การจัดการการโหลดข้อมูลและการควบคุมคุณภาพ

ชั้นข้อมูลหลัก - ชั้นข้อมูลหลัก (หรือ จัดฉาก , หรือ ชั้นปฏิบัติการ ) - ได้รับการออกแบบให้โหลดจากระบบต้นทางและบันทึกข้อมูลหลักโดยไม่มีการเปลี่ยนแปลง - ในคุณภาพดั้งเดิมและด้วยการสนับสนุนสำหรับประวัติการเปลี่ยนแปลงทั้งหมด
ภารกิจของเลเยอร์นี้– เพื่อสรุปชั้นการจัดเก็บที่ตามมาจากอุปกรณ์ทางกายภาพของแหล่งข้อมูล วิธีการรวบรวมข้อมูล และวิธีการเน้นส่วนต่างของการเปลี่ยนแปลง

Core Data Layer - หน่วยเก็บข้อมูลหลัก - องค์ประกอบหลักของระบบ ซึ่งแยกความแตกต่างของการจัดเก็บข้อมูลจากเพียงแค่ "แพลตฟอร์มการรวมกลุ่ม" หรือ "การถ่ายโอนข้อมูลขนาดใหญ่" เนื่องจากบทบาทหลักคือ การรวมข้อมูลจากแหล่งต่าง ๆ ลดลงเป็นโครงสร้างสม่ำเสมอ คีย์ เมื่อโหลดเข้าสู่เคอร์เนลจะมีการดำเนินการงานหลักที่มีคุณภาพข้อมูลและการแปลงทั่วไปซึ่งอาจค่อนข้างซับซ้อน
ภารกิจของเลเยอร์นี้- สรุปผู้บริโภคจากลักษณะเฉพาะของโครงสร้างเชิงตรรกะของแหล่งข้อมูลและความจำเป็นในการเปรียบเทียบข้อมูลจากระบบต่างๆ สร้างความมั่นใจในความสมบูรณ์และคุณภาพของข้อมูล

Data Mart Layer - การนำเสนอเชิงวิเคราะห์ - ส่วนประกอบที่มีหน้าที่หลักในการแปลงข้อมูลเป็นโครงสร้างที่สะดวกต่อการวิเคราะห์ (หาก BI ทำงานร่วมกับหน้าร้าน มักจะเป็นโมเดลเชิงมิติ) หรือตามความต้องการของระบบผู้บริโภค
ตามกฎแล้ว data marts จะนำข้อมูลจากแกนหลัก - เป็นแหล่งที่เชื่อถือได้และได้รับการยืนยัน - เช่น ใช้บริการขององค์ประกอบนี้เพื่อนำข้อมูลไปยังรูปแบบเดียว เราจะเรียกหน้าต่างดังกล่าว ปกติ . ในบางกรณี หน้าร้านสามารถรับข้อมูลได้โดยตรงจากการจัดเตรียม - ดำเนินการด้วยข้อมูลหลัก (ในซอร์สคีย์) ตามกฎแล้วแนวทางนี้ใช้สำหรับงานในพื้นที่ซึ่งไม่จำเป็นต้องมีการรวมข้อมูลจากระบบต่างๆ และในกรณีที่ต้องการประสิทธิภาพมากกว่าคุณภาพของข้อมูล การแสดงดังกล่าวเรียกว่า ปฏิบัติการ . ตัวชี้วัดเชิงวิเคราะห์บางตัวอาจมีวิธีการคำนวณที่ซับซ้อนมาก ดังนั้นสำหรับการคำนวณและการแปลงที่ไม่สำคัญเช่นนี้เรียกว่า ตู้โชว์รอง .
งานเลเยอร์หน้าร้าน– การจัดเตรียมข้อมูลตามความต้องการของผู้บริโภคโดยเฉพาะ – แพลตฟอร์ม BI กลุ่มผู้ใช้ หรือระบบภายนอก

เลเยอร์ที่อธิบายข้างต้นประกอบด้วยพื้นที่จัดเก็บข้อมูลถาวร เช่นเดียวกับโมดูลซอฟต์แวร์สำหรับการโหลดและแปลงข้อมูล การแบ่งชั้นและภูมิภาคนี้เป็นตรรกะ การใช้งานจริงของส่วนประกอบเหล่านี้อาจแตกต่างกัน - คุณสามารถใช้แพลตฟอร์มที่แตกต่างกันเพื่อจัดเก็บหรือแปลงข้อมูลในเลเยอร์ต่างๆ ได้ หากวิธีนี้มีประสิทธิภาพมากกว่า
พื้นที่เก็บข้อมูลประกอบด้วยเทคนิค (ตารางบัฟเฟอร์) ที่ใช้ในกระบวนการแปลงข้อมูลและ ตารางเป้าหมายซึ่งเข้าถึงได้โดยองค์ประกอบผู้บริโภค แนวทางปฏิบัติที่ดีในการ "ครอบคลุม" ตารางเป้าหมายด้วยมุมมอง สิ่งนี้อำนวยความสะดวกในการบำรุงรักษาและพัฒนาระบบในภายหลัง ข้อมูลในตารางเป้าหมายของทั้งสามชั้นจะถูกทำเครื่องหมายด้วยฟิลด์ทางเทคนิคพิเศษ (meta-attributes) ซึ่งทำหน้าที่รับรองกระบวนการโหลดข้อมูล เช่นเดียวกับการเปิดใช้งานการตรวจสอบข้อมูลของกระแสข้อมูลในการจัดเก็บ

ส่วนประกอบพิเศษ (หรือชุดของส่วนประกอบ) ก็มีความแตกต่างกัน ซึ่งมีฟังก์ชันการบริการสำหรับทุกชั้น หนึ่งในภารกิจหลัก - ฟังก์ชันการควบคุม - คือการจัดเตรียม "กฎเดียวของเกม" สำหรับทั้งระบบโดยรวม โดยปล่อยให้สิทธิ์ใช้ตัวเลือกต่างๆ สำหรับการใช้งานแต่ละเลเยอร์ที่อธิบายข้างต้น - รวมถึง ใช้เทคโนโลยีที่แตกต่างกันสำหรับการโหลดและประมวลผลข้อมูล แพลตฟอร์มการจัดเก็บข้อมูลที่แตกต่างกัน ฯลฯ เรียกเขาว่า ชั้นบริการ (ชั้นบริการ) . ไม่มีข้อมูลทางธุรกิจ แต่มีโครงสร้างการจัดเก็บของตัวเอง - ประกอบด้วยพื้นที่ข้อมูลเมตาตลอดจนพื้นที่สำหรับการทำงานกับคุณภาพข้อมูล (และอาจมีโครงสร้างอื่น ๆ ขึ้นอยู่กับฟังก์ชันที่ได้รับมอบหมาย)

การแบ่งระบบที่ชัดเจนออกเป็นส่วนประกอบที่แยกจากกันช่วยเพิ่มความสามารถในการควบคุมของการพัฒนาระบบได้อย่างมาก:

  • ความซับซ้อนของงานที่ได้รับมอบหมายให้ผู้พัฒนาฟังก์ชันการทำงานของส่วนประกอบเฉพาะลดลง (เขาไม่ต้องแก้ปัญหาการรวมระบบกับระบบภายนอกพร้อมๆ กัน และคิดทบทวนขั้นตอนการล้างข้อมูล และคิดเกี่ยวกับการนำเสนอข้อมูลที่เหมาะสมที่สุดสำหรับ ผู้บริโภค) - งานนี้ง่ายต่อการย่อยสลายประเมินและดำเนินการจัดส่งขนาดเล็ก
  • คุณสามารถมีส่วนร่วมกับนักแสดงหลายคน (และแม้กระทั่งทีมหรือผู้รับเหมา) ในการทำงาน - เพราะ วิธีนี้ช่วยให้คุณทำงานแบบขนานได้อย่างมีประสิทธิภาพ ลดอิทธิพลซึ่งกันและกันที่มีต่อกัน
  • การมีอยู่ของการจัดเตรียมแบบต่อเนื่องช่วยให้คุณเชื่อมต่อแหล่งข้อมูลได้อย่างรวดเร็วโดยไม่ต้องออกแบบแกนหลักทั้งหมดหรือแสดงสำหรับหัวเรื่องทั้งหมด จากนั้นค่อยสร้างเลเยอร์ที่เหลือตามลำดับความสำคัญ (ยิ่งกว่านั้น ข้อมูลจะอยู่ในที่เก็บอยู่แล้ว - พร้อมใช้งาน สำหรับนักวิเคราะห์ระบบซึ่งจะช่วยอำนวยความสะดวกอย่างมากในการพัฒนาพื้นที่เก็บข้อมูลในภายหลัง)
  • การมีแกนกลางช่วยให้งานทั้งหมดเกี่ยวกับคุณภาพของข้อมูล (รวมถึงข้อผิดพลาดที่อาจเกิดขึ้น) ถูกซ่อนจากหน้าร้านและจากผู้ใช้ปลายทาง และที่สำคัญที่สุด การใช้ส่วนประกอบนี้เป็นแหล่งข้อมูลเดียวสำหรับหน้าร้าน คุณสามารถหลีกเลี่ยงปัญหาได้ ด้วยการบรรจบกันของข้อมูลอันเนื่องมาจากการใช้อัลกอริธึมทั่วไปในที่เดียว
  • การเน้นที่หน้าร้านช่วยให้คุณคำนึงถึงความแตกต่างและลักษณะเฉพาะของการทำความเข้าใจข้อมูลที่ผู้ใช้ในแผนกต่างๆ อาจมี และการออกแบบสำหรับข้อกำหนด BI ไม่เพียงแต่ช่วยให้คุณออกตัวเลขรวมเท่านั้น แต่ยังช่วยให้มั่นใจในความน่าเชื่อถือของข้อมูลโดยให้โอกาสในการเจาะลึก ถึงตัวชี้วัดหลัก
  • การมีอยู่ของชั้นบริการช่วยให้คุณทำการวิเคราะห์ข้อมูลตั้งแต่ต้นทางถึงปลายทาง (สายข้อมูล) ใช้เครื่องมือตรวจสอบข้อมูลแบบรวมศูนย์ วิธีการทั่วไปในการเน้นส่วนต่างของการเปลี่ยนแปลง การทำงานกับคุณภาพข้อมูล การจัดการโหลด การตรวจสอบข้อผิดพลาด และเครื่องมือวินิจฉัย และเร่งการแก้ปัญหา
แนวทางในการสลายตัวนี้ยังทำให้ระบบมีความทนทานต่อการเปลี่ยนแปลงมากขึ้น (เมื่อเทียบกับ "โครงสร้างเสาหิน") - ช่วยให้มั่นใจได้ถึงความสามารถในการต้านการแตกหัก:
  • การเปลี่ยนแปลงจากระบบต้นทางทำงานบน staging - ในเคอร์เนล เฉพาะเธรดที่ได้รับผลกระทบจากตารางการจัดเตรียมเหล่านี้เท่านั้นที่จะถูกแก้ไข ผลกระทบต่อหน้าร้านมีน้อยหรือขาดหายไป
  • การเปลี่ยนแปลงความต้องการของลูกค้าจะได้รับการประมวลผลเป็นส่วนใหญ่ในหน้าร้าน (เว้นแต่จะต้องการข้อมูลเพิ่มเติมที่ยังไม่มีอยู่ในคลังสินค้า)
ต่อไป เราจะพูดถึงแต่ละองค์ประกอบด้านบนและดูรายละเอียดเพิ่มเติมเล็กน้อย

แกนระบบ

มาเริ่มกัน "จากตรงกลาง" - แกนกลางของระบบหรือชั้นกลาง ไม่ได้ระบุว่าเป็น Core Layer แกนกลางทำหน้าที่ในการรวมข้อมูล - ลดโครงสร้างเดียว ไดเร็กทอรี คีย์ ที่นี่งานหลักเกี่ยวกับคุณภาพข้อมูลดำเนินการ - การทำความสะอาด การแปลง การรวม

การมีอยู่ขององค์ประกอบนี้ช่วยให้คุณนำโฟลว์ข้อมูลที่เปลี่ยนข้อมูลหลักที่ได้รับจากระบบต้นทางให้อยู่ในรูปแบบเดียวได้ โดยเป็นไปตามกฎและอัลกอริทึมทั่วไป แทนที่จะใช้ฟังก์ชันการทำงานเดียวกันซ้ำกันสำหรับหน้าร้านแอปพลิเคชันแต่ละแห่ง ซึ่งนอกเหนือไปจาก การใช้ทรัพยากรอย่างไม่มีประสิทธิภาพ อาจนำไปสู่ความคลาดเคลื่อนในข้อมูล
แกนหน่วยเก็บข้อมูลถูกนำไปใช้ในรูปแบบข้อมูล โดยทั่วไป แตกต่างจากแบบจำลองของระบบต้นทางและจากรูปแบบและโครงสร้างของผู้บริโภค

โมเดลเอ็นจิ้นการจัดเก็บและโมเดลข้อมูลองค์กร

งานหลักของชั้นกลางคือความเสถียร นั่นคือเหตุผลที่จุดเน้นหลักที่นี่อยู่ที่ตัวแบบข้อมูล โดยทั่วไปเรียกว่า "โมเดลข้อมูลองค์กร" น่าเสียดายที่รัศมีของตำนานและความไร้สาระบางอย่างได้พัฒนาไปรอบ ๆ ซึ่งบางครั้งนำไปสู่การละทิ้งการก่อสร้างทั้งหมด แต่ก็ไร้ประโยชน์

ตำนานที่ 1 โมเดลข้อมูลองค์กรเป็นโมเดลขนาดใหญ่ที่ประกอบด้วยเอนทิตี (ตาราง) นับพันรายการ
จริงๆแล้ว. ในสาขาวิชาใด ๆ ในโดเมนธุรกิจใด ๆ ในข้อมูลของ บริษัท ใด ๆ แม้แต่สิ่งที่ซับซ้อนที่สุดก็มีเอนทิตีพื้นฐานเพียงเล็กน้อย - 20-30

ตำนานที่ 2 ไม่จำเป็นต้องพัฒนา "แบบจำลองของตัวเอง" ใดๆ - เราซื้อแบบจำลองอ้างอิงอุตสาหกรรม - และทำทุกอย่างตามนั้น เราใช้จ่ายเงิน - แต่เราได้รับผลลัพธ์ที่รับประกัน
จริงๆแล้ว. โมเดลอ้างอิงมีประโยชน์มากเพราะ มีประสบการณ์ในอุตสาหกรรมในการสร้างแบบจำลองพื้นที่นี้ จากสิ่งเหล่านี้ คุณสามารถวาดแนวคิด แนวทาง หลักปฏิบัติในการตั้งชื่อได้ ตรวจสอบ "ความลึกของการครอบคลุม" ของพื้นที่เพื่อไม่ให้พลาดสิ่งที่สำคัญ แต่เราไม่น่าจะใช้แบบจำลองดังกล่าว "นอกกรอบ" อย่างที่มันเป็น นี่เป็นตำนานเดียวกันกับเช่น การซื้อระบบ ERP (หรือ CRM) และใช้งานโดยปราศจาก "การบิดเพื่อตัวคุณเอง" คุณค่าของแบบจำลองดังกล่าวถือกำเนิดขึ้นจากการปรับให้เข้ากับความเป็นจริงของธุรกิจนี้โดยเฉพาะ บริษัทนี้โดยเฉพาะ

ตำนานที่ 3 การพัฒนารูปแบบแกนจัดเก็บข้อมูลอาจใช้เวลาหลายเดือน ในระหว่างนี้ โปรเจ็กต์จะถูกระงับจริง นอกจากนี้ มันต้องมีการประชุมจำนวนมากและการมีส่วนร่วมของคนจำนวนมาก
จริงๆแล้ว. โมเดลพื้นที่เก็บข้อมูลสามารถพัฒนาซ้ำๆ ทีละส่วน พร้อมกับที่เก็บ สำหรับพื้นที่เปิดโล่ง จะวาง "จุดต่อขยาย" หรือ "ต้นขั้ว" - เช่น มีการใช้ "โครงสร้างสากล" บางส่วน ในเวลาเดียวกัน คุณจำเป็นต้องรู้ว่าเมื่อใดควรหยุด เพื่อที่คุณจะไม่ได้รับสิ่งที่เป็นสากลของ 4 ตาราง ซึ่งยากทั้งในการ "ใส่ข้อมูล" และ (ยิ่งยากขึ้นไปอีก) เพื่อให้ได้มา และถือว่าไม่เหมาะสมอย่างยิ่งในแง่ของประสิทธิภาพ

จะใช้เวลาในการพัฒนาโมเดล แต่นี่ไม่ใช่เวลาที่ใช้ไปกับ "การวาดเอนทิตี" - นี่เป็นเวลาที่จำเป็นในการวิเคราะห์หัวข้อ ทำความเข้าใจว่าข้อมูลมีโครงสร้างอย่างไร นั่นคือเหตุผลที่นักวิเคราะห์มีส่วนร่วมอย่างใกล้ชิดในกระบวนการนี้ เช่นเดียวกับผู้เชี่ยวชาญด้านธุรกิจหลายคนที่เกี่ยวข้อง และนี่คือการเลือกทำ และไม่ใช่ด้วยการจัดประชุมกับคนจำนวนมาก การส่งแบบสอบถามจำนวนมาก ฯลฯ
การวิเคราะห์ธุรกิจและระบบที่มีคุณภาพเป็นกุญแจสำคัญในการสร้างแบบจำลองหลักของสตอเรจ คุณต้องเข้าใจหลายสิ่งหลายอย่าง: ข้อมูลถูกสร้างขึ้นที่ใด (ในระบบใด) วิธีจัดเรียงข้อมูลในการประมวลผลทางธุรกิจที่หมุนเวียน ฯลฯ การวิเคราะห์เชิงคุณภาพไม่เคยทำร้ายระบบใดๆ ตรงกันข้าม ปัญหาเกิดขึ้นจาก "จุดว่าง" ในความเข้าใจของเรา

การพัฒนาโมเดลข้อมูลไม่ใช่กระบวนการของการประดิษฐ์และคิดค้นสิ่งใหม่ อันที่จริง โมเดลข้อมูลในบริษัทมีอยู่แล้ว และขั้นตอนการออกแบบก็เหมือนกับ "การขุด" มากกว่า โมเดลนี้ได้รับการเปิดเผยอย่างอ่อนโยนและระมัดระวังจาก "พื้นฐาน" ของข้อมูลองค์กรและอยู่ในรูปแบบที่มีโครงสร้าง

ตำนานที่ 4 ในบริษัทของเรา ธุรกิจมีพลวัตมาก และทุกอย่างกำลังเปลี่ยนแปลงอย่างรวดเร็วจนไม่มีประโยชน์สำหรับเราที่จะสร้างแบบจำลอง - มันจะล้าสมัยก่อนที่เราจะนำส่วนนี้ของระบบไปใช้งานได้
จริงๆแล้ว. จำได้ว่าปัจจัยสำคัญในแกนกลางคือความเสถียร และเหนือสิ่งอื่นใด โทโพโลยีของโมเดล ทำไม? เพราะเป็นองค์ประกอบที่เป็นศูนย์กลางและส่งผลต่อทุกสิ่งทุกอย่าง ความเสถียรยังเป็นข้อกำหนดสำหรับโมเดลเคอร์เนลอีกด้วย หากแบบจำลองล้าสมัยเร็วเกินไป แสดงว่าได้รับการออกแบบอย่างไม่ถูกต้อง สำหรับการพัฒนานั้น ได้เลือกแนวทางที่ผิดและ "กฎของเกม" นอกจากนี้ยังเป็นคำถามของการวิเคราะห์เชิงคุณภาพ หน่วยงานหลักของรูปแบบองค์กรเปลี่ยนแปลงน้อยมาก
แต่ถ้าเป็นความคิดของเราที่จะทำในบริษัทที่ขาย เช่น ร้านขายขนม แทนที่จะสร้างไดเรกทอรี "ผลิตภัณฑ์" ให้สร้าง "ขนม" "เค้ก" และ "พาย" จากนั้นเมื่อพิซซ่าปรากฏในรายการสินค้า - ใช่ คุณจะต้องป้อนตารางใหม่จำนวนมาก และเป็นเพียงเรื่องของแนวทางเท่านั้น

ตำนานที่ 5 การสร้างแบบจำลององค์กรเป็นธุรกิจที่จริงจัง ซับซ้อน และมีความรับผิดชอบ และมันน่ากลัวที่จะทำผิดพลาด
จริงๆแล้ว. โมเดลหลัก แม้ว่าควรจะมีเสถียรภาพ แต่ก็ยังไม่ "หล่อด้วยโลหะ" เช่นเดียวกับการตัดสินใจออกแบบอื่นๆ โครงสร้างสามารถตรวจทานและแก้ไขได้ อย่าลืมเกี่ยวกับคุณสมบัตินี้ของเธอ แต่นี่ไม่ได้หมายความว่าคุณ "หายใจไม่ออก" เลย และนี่ไม่ได้หมายความว่าโซลูชันชั่วคราวและ "ต้นขั้ว" ที่ควรวางแผนสำหรับการประมวลผลนั้นไม่เป็นที่ยอมรับ

ตำนานที่ 6 หากเรามีแหล่งข้อมูล - ตัวอย่างเช่น ระบบ NSI (หรือระบบจัดการข้อมูลหลัก - MDM) ก็ควรสอดคล้องกับรูปแบบองค์กรในทางที่ดี (โดยเฉพาะอย่างยิ่งหากเพิ่งได้รับการออกแบบและไม่มีเวลาที่จะได้รับ "ผลข้างเคียง", "ประเพณี" และอาคารชั่วคราว) ปรากฎว่าสำหรับกรณีนี้ - เราไม่ต้องการโมเดลเคอร์เนล?
จริงๆแล้ว. ใช่ ในกรณีนี้ การสร้างแบบจำลองแกนเก็บข้อมูลนั้นอำนวยความสะดวกอย่างมาก - เพราะ เราปฏิบัติตามโมเดลแนวคิดสำเร็จรูประดับบนสุด แต่มันไม่ได้ยกเว้นเลย ทำไม? เนื่องจากเมื่อสร้างแบบจำลองของระบบบางระบบ กฎบางอย่างจึงมีผลบังคับใช้ เช่น ตารางประเภทใดที่จะใช้ (สำหรับแต่ละเอนทิตี) วิธีกำหนดเวอร์ชันข้อมูล ด้วยความละเอียดระดับใดในการเก็บประวัติ เมตาแอตทริบิวต์ใด (ฟิลด์ทางเทคนิคที่จะใช้) เป็นต้น .

นอกจากนี้ ไม่ว่าระบบ NSI และ MDM ที่เรามีจะยอดเยี่ยมและครอบคลุมเพียงใด ตามกฎแล้ว จะมีความแตกต่างที่เกี่ยวข้องกับการมีอยู่ของไดเรกทอรีท้องถิ่น "ใกล้เคียงกัน" ในระบบบัญชีอื่นๆ และปัญหานี้ ไม่ว่าเราจะชอบหรือไม่ก็ตาม จะต้องได้รับการแก้ไขที่พื้นที่จัดเก็บ เพราะการรายงานและการวิเคราะห์ถูกรวบรวมไว้ที่นี่

ชั้นข้อมูลหลัก (หรือชั้นการจัดเตรียมหรือชั้นปฏิบัติการที่ตรวจสอบประวัติได้)

มันถูกกำหนดให้เป็นชั้นข้อมูลหลัก บทบาทขององค์ประกอบนี้: การผสานรวมกับระบบต้นทาง การโหลดและการจัดเก็บข้อมูลหลัก ตลอดจนการล้างข้อมูลเบื้องต้น - การตรวจสอบการปฏิบัติตามกฎของการควบคุมรูปแบบและตรรกะ แก้ไขใน "ข้อตกลงอินเทอร์เฟซการโต้ตอบ" กับแหล่งที่มา
นอกจากนี้ ส่วนประกอบนี้ยังแก้ปัญหางานที่สำคัญมากสำหรับการจัดเก็บ โดยเน้นที่ "เดลต้าการเปลี่ยนแปลงที่แท้จริง" ไม่ว่าแหล่งที่มาจะอนุญาตให้คุณติดตามการเปลี่ยนแปลงในข้อมูลหรือไม่ และอย่างไร (ตามเกณฑ์ที่สามารถ "จับได้") . ทันทีที่ข้อมูลเข้าสู่การแสดงละคร ปัญหาของการเลือกเดลต้าก็ชัดเจนสำหรับเลเยอร์อื่นๆ ทั้งหมดแล้ว ต้องขอบคุณการทำเครื่องหมายด้วยแอตทริบิวต์เมตา

ข้อมูลในเลเยอร์นี้จัดเก็บไว้ในโครงสร้างที่ใกล้กับระบบต้นทางมากที่สุด - เพื่อให้ข้อมูลหลักใกล้เคียงกับรูปแบบเดิมมากที่สุด อีกชื่อหนึ่งสำหรับคอมโพเนนต์นี้คือ "เลเยอร์ปฏิบัติการ"
ทำไมไม่เพียงแค่ใช้คำว่า "การแสดงละคร" ที่กำหนดไว้? ข้อเท็จจริงคือ ก่อนหน้า "ยุคของข้อมูลขนาดใหญ่และ VLDB" พื้นที่ดิสก์มีราคาแพงมาก และบ่อยครั้งที่ข้อมูลหลักหากจัดเก็บไว้ จะมีระยะเวลาจำกัดเท่านั้น และมักเรียกชื่อ "การแสดงละคร" ทำความสะอาดได้กันชน.
ขณะนี้ เทคโนโลยีได้ก้าวไปข้างหน้า และเราสามารถไม่เพียงแต่จัดเก็บข้อมูลหลักทั้งหมดเท่านั้น แต่ยังสามารถเก็บประวัติข้อมูลเหล่านั้นด้วยระดับความละเอียดที่ทำได้เท่านั้น นี่ไม่ได้หมายความว่าเราไม่ควรควบคุมการเติบโตของข้อมูลและไม่ได้ขจัดความจำเป็นในการจัดการวงจรชีวิตของข้อมูลโดยการปรับต้นทุนการจัดเก็บข้อมูลให้เหมาะสม ขึ้นอยู่กับ "อุณหภูมิ" ของการใช้งาน กล่าวคือ การย้าย "ข้อมูลเย็น" ซึ่งมีความต้องการน้อยกว่าไปยังสื่อและแพลตฟอร์มการจัดเก็บข้อมูลที่ถูกกว่า

อะไรทำให้เรามี "การแสดงละครประวัติศาสตร์":

  • ความเป็นไปได้ของการทำผิดพลาด (ในโครงสร้าง ในอัลกอริธึมการแปลง ในความละเอียดของการเก็บประวัติ) - มีข้อมูลหลักที่สามารถเก็บประวัติได้อย่างสมบูรณ์ในโซนความพร้อมในการจัดเก็บข้อมูล เราสามารถโหลดตารางของเราใหม่ได้ตลอดเวลา
  • โอกาสในการคิด - เราสามารถใช้เวลาของเรากับการพัฒนาส่วนสำคัญของแกนกลางในการทำซ้ำของการพัฒนาพื้นที่เก็บข้อมูลเพราะ ในการแสดงละครของเรา ไม่ว่าในกรณีใด พวกเขาจะเป็นเช่นนั้น และด้วยขอบฟ้าที่สม่ำเสมอ (จะมี "จุดเริ่มต้นของประวัติศาสตร์" หนึ่งจุด)
  • ความเป็นไปได้ของการวิเคราะห์ - เราจะบันทึกแม้กระทั่งข้อมูลที่ไม่อยู่ในแหล่งที่มาอีกต่อไป - อาจถูกเขียนทับที่นั่น ไปที่ไฟล์เก็บถาวร ฯลฯ – กับเรา พวกเขายังคงพร้อมสำหรับการวิเคราะห์
  • ความเป็นไปได้ของการตรวจสอบข้อมูล - ด้วยข้อมูลหลักที่มีรายละเอียดมากที่สุด จากนั้นเราจะสามารถทราบได้ว่าการดาวน์โหลดทำงานให้เราได้อย่างไร ซึ่งในที่สุดเราก็ได้ตัวเลขดังกล่าว (สำหรับสิ่งนี้ คุณต้องทำเครื่องหมายด้วย meta-attributes ด้วย และข้อมูลเมตาที่เกี่ยวข้องซึ่งการดาวน์โหลดใช้งานได้ - พิจารณาจากชั้นบริการ)
ปัญหาที่อาจเกิดขึ้นในการสร้าง "การแสดงละครประวัติศาสตร์":
  • มันจะสะดวกที่จะกำหนดข้อกำหนดสำหรับความสมบูรณ์ของธุรกรรมของเลเยอร์นี้ แต่การปฏิบัติแสดงให้เห็นว่าเป็นเรื่องยากที่จะบรรลุ (ซึ่งหมายความว่าในพื้นที่นี้เราไม่รับประกันความสมบูรณ์ของการอ้างอิงของตารางหลักและรอง) - การจัดตำแหน่งความสมบูรณ์จะเกิดขึ้นในภายหลัง ชั้น;
  • เลเยอร์นี้มีปริมาณมาก (พื้นที่เก็บข้อมูลที่ใหญ่ที่สุดใน - แม้จะมีโครงสร้างการวิเคราะห์ที่ซ้ำซ้อนทั้งหมด) - และคุณต้องสามารถจัดการกับปริมาณดังกล่าว - ทั้งในแง่ของการโหลดและในแง่ของการสืบค้น (มิฉะนั้น คุณสามารถลดระดับลงได้อย่างจริงจัง ประสิทธิภาพของการจัดเก็บทั้งหมด)
สามารถพูดอะไรได้อีกเกี่ยวกับเลเยอร์นี้
ประการแรก หากเราย้ายออกจากกระบวนทัศน์ "กระบวนการโหลดแบบ end-to-end" กฎ "กองคาราวานเคลื่อนที่ด้วยความเร็วของอูฐตัวสุดท้าย" จะไม่ทำงานสำหรับเราอีกต่อไป หรือมากกว่าเราจะละทิ้งหลักการ "คาราวาน" และเปลี่ยนไปใช้หลักการ "สายพานลำเลียง": เรานำข้อมูลจากแหล่งที่มา - ใส่ในเลเยอร์ของคุณ - พร้อมที่จะรับส่วนถัดไป หมายความว่า
1) เราไม่รอให้การประมวลผลเกิดขึ้นในเลเยอร์อื่น
2) เราไม่ขึ้นอยู่กับกำหนดการของการจัดหาข้อมูลโดยระบบอื่น
พูดง่ายๆ ก็คือ เรากำหนดเวลากระบวนการโหลดที่นำข้อมูลจากแหล่งหนึ่งผ่านวิธีการเชื่อมต่อเฉพาะ ตรวจสอบ แยกเดลต้า - และวางข้อมูลลงในตารางเป้าหมายการจัดเตรียม และนั่นคือทั้งหมด

ประการที่สอง เห็นได้ชัดว่ากระบวนการเหล่านี้ถูกจัดเรียงอย่างเรียบง่าย - บางคนอาจพูดอย่างไร้สาระจากมุมมองของตรรกะ และนี่หมายความว่าสามารถเพิ่มประสิทธิภาพและกำหนดพารามิเตอร์ได้เป็นอย่างดี ลดภาระงานในระบบของเรา และเร่งกระบวนการเชื่อมต่อแหล่งที่มา (เวลาในการพัฒนา)
เพื่อให้สิ่งนี้เกิดขึ้น คุณจำเป็นต้องรู้คุณสมบัติทางเทคโนโลยีของแพลตฟอร์มที่ส่วนประกอบนี้ทำงานเป็นอย่างดี - จากนั้นคุณสามารถสร้างเครื่องมือที่มีประสิทธิภาพมากได้

ชั้นของตู้โชว์เชิงวิเคราะห์

ชั้นหน้าร้าน ( Data mart layer) มีหน้าที่ในการจัดเตรียมและให้ข้อมูลแก่ผู้ใช้ปลายทาง - บุคคลหรือระบบ ในระดับนี้ ความต้องการของผู้บริโภคจะถูกนำมาพิจารณาให้ได้มากที่สุด - ทั้งเชิงตรรกะ (แนวคิด) และทางกายภาพ บริการควรให้สิ่งที่จำเป็นอย่างแท้จริง ไม่มาก ไม่น้อย

หากผู้บริโภคเป็นระบบภายนอก ตามกฎแล้ว ระบบจะกำหนดโครงสร้างข้อมูลที่ต้องการและกฎสำหรับการรวบรวมข้อมูล แนวทางที่ดีคือแนวทางที่ผู้บริโภครับผิดชอบในการรวบรวมข้อมูลที่ถูกต้อง คลังข้อมูลที่เตรียมไว้ ตั้งหน้าร้าน ให้ความเป็นไปได้ในการรวบรวมข้อมูลที่เพิ่มขึ้น (ทำเครื่องหมายด้วย meta-attributes สำหรับการเลือกการเปลี่ยนแปลงเดลต้าในภายหลัง) จากนั้นระบบผู้บริโภคจะจัดการและรับผิดชอบวิธีการใช้หน้าร้านนี้ แต่มีลักษณะเฉพาะคือ เมื่อระบบไม่มีองค์ประกอบที่ใช้งานอยู่สำหรับการรวบรวมข้อมูล จำเป็นต้องมีส่วนประกอบภายนอกที่จะทำหน้าที่รวมเข้าด้วยกัน หรือที่เก็บข้อมูลจะทำหน้าที่เป็น "แพลตฟอร์มการรวม" และทำให้แน่ใจว่าการอัปโหลดข้อมูลส่วนเพิ่มที่ถูกต้องถูกต้อง เพิ่มเติม – นอกการจัดเก็บ ความแตกต่างหลายอย่างเกิดขึ้นที่นี่ และกฎของการโต้ตอบอินเทอร์เฟซควรได้รับการพิจารณาและเข้าใจโดยทั้งสองฝ่าย (อย่างไรก็ตาม เมื่อพูดถึงการรวมเข้าด้วยกันเช่นเคย) ตามกฎแล้ว การทำความสะอาด/การเก็บถาวรข้อมูลเป็นประจำจะถูกนำไปใช้กับหน้าร้านดังกล่าว (แทบไม่มีความจำเป็นที่ "ข้อมูลการส่งผ่าน" เหล่านี้จะถูกเก็บไว้เป็นเวลานาน)

สิ่งสำคัญที่สุดในแง่ของงานวิเคราะห์คือการจัดแสดง "สำหรับคน" - แม่นยำยิ่งขึ้นสำหรับเครื่องมือ BI ที่พวกเขาทำงาน
อย่างไรก็ตาม มีหมวดหมู่ของ "ผู้ใช้ขั้นสูงโดยเฉพาะ" - นักวิเคราะห์ นักวิทยาศาสตร์ข้อมูล - ที่ไม่ต้องการเครื่องมือ BI หรือกระบวนการประจำสำหรับการเติมระบบพิเศษภายนอก พวกเขาต้องการ "หน้าร้านทั่วไป" และ "แซนด์บ็อกซ์ของตัวเอง" ซึ่งพวกเขาสามารถสร้างตารางและการแปลงได้ตามดุลยพินิจของพวกเขา ในกรณีนี้ ความรับผิดชอบของพื้นที่เก็บข้อมูลคือต้องตรวจสอบให้แน่ใจว่า data marts ทั่วไปเหล่านี้ได้รับการบรรจุตามระเบียบข้อบังคับ
แยกจากกัน เราสามารถแยกแยะผู้บริโภคเช่นเครื่องมือ Data Mining - การวิเคราะห์ข้อมูลเชิงลึก เครื่องมือเหล่านี้มีข้อกำหนดในการจัดเตรียมข้อมูลและนักวิทยาศาสตร์ด้านข้อมูลยังใช้อีกด้วย สำหรับพื้นที่เก็บข้อมูลงานจะลดลง - อีกครั้งเพื่อรองรับบริการสำหรับการดาวน์โหลดโชว์ผลงานบางรูปแบบที่ตกลงกันไว้

อย่างไรก็ตาม กลับไปที่หน้าร้านการวิเคราะห์กัน พวกเขาเป็นที่สนใจจากมุมมองของนักออกแบบพื้นที่เก็บข้อมูลในชั้นข้อมูลนี้
ในความคิดของฉัน แนวทางการทดสอบเวลาที่ดีที่สุดในการออกแบบ data marts ซึ่งเกือบทุกแพลตฟอร์ม BI ได้รับการ "ลับคม" สำหรับแล้ว นั่นคือแนวทางของ Ralph Kimball เขาเป็นที่รู้จักในชื่อ การสร้างแบบจำลองมิติ – การสร้างแบบจำลองหลายมิติ มีสิ่งพิมพ์มากมายเกี่ยวกับเรื่องนี้ ตัวอย่างเช่น กฎพื้นฐานสามารถพบได้ในสิ่งพิมพ์ และแน่นอน คุณสามารถแนะนำได้จากผู้เชี่ยวชาญด้านการสร้างแบบจำลองหลายตัวแปร แหล่งข้อมูลที่เป็นประโยชน์อีกอย่างหนึ่งคือคำแนะนำของ Kimball
วิธีการหลายมิติในการสร้างหน้าร้านได้รับการอธิบายและทำงานได้ดี - ทั้งโดยผู้เผยแพร่วิธีการและโดยผู้จำหน่ายซอฟต์แวร์ชั้นนำ - ซึ่งไม่สมเหตุสมผลที่จะกล่าวถึงรายละเอียดใด ๆ ที่นี่ - แหล่งข้อมูลดั้งเดิมนั้นดีกว่าเสมอ

ผมขอเน้นแค่อย่างเดียว "การรายงานและการวิเคราะห์" นั้นแตกต่างกัน มี "การรายงานจำนวนมาก" - รายงานการสั่งซื้อล่วงหน้าที่สร้างขึ้นในรูปแบบของไฟล์และส่งไปยังผู้ใช้ผ่านช่องทางการจัดส่งที่ให้ไว้ และมีแผงข้อมูล - แดชบอร์ด BI โดยพื้นฐานแล้วมันเป็นเว็บแอปพลิเคชัน และข้อกำหนดด้านเวลาตอบสนองของแอปพลิเคชันเหล่านี้จะเหมือนกับเว็บแอปพลิเคชันอื่นๆ ซึ่งหมายความว่าเวลารีเฟรชปกติสำหรับแผง BI คือวินาที ไม่ใช่นาที สิ่งสำคัญคือต้องคำนึงถึงสิ่งนี้เมื่อออกแบบโซลูชัน จะบรรลุเป้าหมายนี้ได้อย่างไร วิธีการปรับให้เหมาะสมมาตรฐาน: เราพิจารณาว่าเวลาตอบสนองประกอบด้วยอะไรและอะไรที่เรามีอิทธิพลได้ คุณใช้เวลากับอะไรมากที่สุด? สำหรับการอ่านฐานข้อมูลแบบฟิสิคัล (ดิสก์) สำหรับการถ่ายโอนข้อมูลผ่านเครือข่าย จะลดปริมาณข้อมูลที่อ่านและส่งต่อคำขอได้อย่างไร คำตอบนั้นชัดเจนและเรียบง่าย: คุณต้องรวบรวมข้อมูลหรือใช้ตัวกรองกับตารางข้อเท็จจริงขนาดใหญ่ที่เข้าร่วมในคิวรี และไม่รวมการรวมตารางขนาดใหญ่ (การอ้างอิงถึงตารางข้อเท็จจริงควรผ่านมิติข้อมูลเท่านั้น)

BI คืออะไร? สะดวกยังไง? เหตุใดโมเดลหลายตัวแปรจึงมีประสิทธิภาพ
BI อนุญาตให้ผู้ใช้ดำเนินการที่เรียกว่า "การสืบค้นข้อมูลเฉพาะกิจ" มันหมายความว่าอะไร? ซึ่งหมายความว่าเราไม่ทราบถึงคำขอล่วงหน้าอย่างแน่นอน แต่เรารู้ว่าตัวบ่งชี้ใดในส่วนที่ผู้ใช้สามารถร้องขอได้ ผู้ใช้สร้างแบบสอบถามดังกล่าวโดยการเลือกตัวกรอง BI ที่เหมาะสม และงานของนักพัฒนา BI และผู้ออกแบบตู้โชว์คือเพื่อให้แน่ใจว่าตรรกะการทำงานของแอปพลิเคชันดังกล่าวเพื่อให้ข้อมูลถูกกรองหรือรวมเข้าด้วยกัน หลีกเลี่ยงสถานการณ์ที่มีการร้องขอข้อมูลมากเกินไปและแอปพลิเคชัน "แฮงค์" โดยปกติแล้วจะเริ่มต้นด้วยตัวเลขที่รวบรวมไว้ จากนั้นจึงเจาะลึกข้อมูลที่มีรายละเอียดมากขึ้น แต่ในระหว่างการตั้งค่าตัวกรองที่จำเป็น

ไม่เพียงพอเสมอไปที่จะสร้าง "ดาวที่ถูกต้อง" และรับโครงสร้างที่สะดวกสำหรับ BI บางครั้งคุณจำเป็นต้องปรับใช้ดีนอร์มัลไลเซชันที่ใดที่หนึ่ง (ในขณะที่มองย้อนกลับไปว่าจะส่งผลต่อการโหลดอย่างไร) และบางแห่งเพื่อสร้างหน้าร้านและยอดรวมรอง บางแห่งเพื่อเพิ่มดัชนีหรือประมาณการ (ขึ้นอยู่กับ DBMS)

ดังนั้น ผ่าน "การลองผิดลองถูก" คุณจะได้รับโครงสร้างที่เหมาะสมที่สุดสำหรับ BI ซึ่งจะพิจารณาถึงคุณสมบัติของทั้ง DBMS และแพลตฟอร์ม BI ตลอดจนข้อกำหนดของผู้ใช้สำหรับการนำเสนอข้อมูล
หากเราใช้ข้อมูลจาก "แกนกลาง" การประมวลผลหน้าร้านดังกล่าวจะมีลักษณะในท้องถิ่น โดยไม่กระทบต่อการประมวลผลที่ซับซ้อนของข้อมูลหลักที่ได้รับโดยตรงจากระบบต้นทาง - เราจะ "เปลี่ยน" ข้อมูลเป็นรูปแบบที่สะดวกเท่านั้น สำหรับบีไอ และเราสามารถทำได้หลายครั้ง ในรูปแบบต่างๆ ตามความต้องการที่แตกต่างกัน ทำได้ง่ายกว่าและเร็วกว่ามากโดยอิงจากข้อมูลเคอร์เนลมากกว่าการรวบรวมจาก "หลัก" (โครงสร้างและกฎที่เรารู้สามารถ "ลอย")

ชั้นบริการ

ชั้นบริการ ( - Service Layer) มีหน้าที่ในการใช้งานฟังก์ชันทั่วไป (บริการ) ที่สามารถใช้ในการประมวลผลข้อมูลในชั้นการจัดเก็บต่างๆ - การจัดการโหลด การจัดการคุณภาพข้อมูล การวินิจฉัยปัญหาและเครื่องมือตรวจสอบ ฯลฯ
การมีอยู่ของระดับนี้ให้ความโปร่งใสและการไหลของข้อมูลที่มีโครงสร้างในที่จัดเก็บ

เลเยอร์นี้ประกอบด้วยพื้นที่จัดเก็บข้อมูลสองส่วน:

  • พื้นที่ข้อมูลเมตา - ใช้สำหรับกลไกควบคุมการโหลดข้อมูล
  • พื้นที่คุณภาพข้อมูล - เพื่อดำเนินการตรวจสอบคุณภาพข้อมูลแบบออฟไลน์ (เช่น ที่ไม่ได้สร้างไว้ในกระบวนการ ETL โดยตรง)
คุณสามารถสร้างกระบวนการจัดการโหลดได้หลายวิธี หนึ่งในแนวทางที่เป็นไปได้คือ: เราแบ่งตารางการจัดเก็บข้อมูลทั้งหมดออกเป็นโมดูล สามารถรวมตารางที่มีชั้นเดียวเท่านั้นในโมดูล ตารางที่รวมอยู่ในแต่ละโมดูลจะถูกโหลดโดยเป็นส่วนหนึ่งของกระบวนการที่แยกจากกัน เรียกมันว่า กระบวนการควบคุม . การเปิดตัวกระบวนการควบคุมนั้นเป็นไปตามกำหนดเวลาของตัวเอง กระบวนการควบคุมจะจัดการการเรียกไปยังกระบวนการปรมาณู ซึ่งแต่ละกระบวนการจะโหลดตารางเป้าหมายหนึ่งตาราง และยังมีขั้นตอนทั่วไปบางอย่างอีกด้วย
เห็นได้ชัดว่า แค่แบ่งตารางการจัดเตรียมเป็นโมดูล - ตามระบบต้นทาง หรือมากกว่าจุดเชื่อมต่อ แต่สำหรับเคอร์เนล มันยากกว่าอยู่แล้ว - เพราะ ที่นั่น เราจำเป็นต้องรับรองความถูกต้องของข้อมูล ซึ่งหมายความว่าเราต้องคำนึงถึงการพึ่งพา เหล่านั้น. จะมีความขัดแย้งที่ต้องแก้ไข และมีหลายวิธีในการแก้ไขปัญหาเหล่านี้

จุดสำคัญในการจัดการโหลดคือการพัฒนาแนวทางแบบครบวงจรในการจัดการข้อผิดพลาด ข้อผิดพลาดถูกจำแนกตามระดับวิกฤต เมื่อเกิดข้อผิดพลาดร้ายแรง กระบวนการควรหยุดและโดยเร็วที่สุดเพราะ การเกิดขึ้นบ่งชี้ถึงปัญหาสำคัญที่อาจนำไปสู่ความเสียหายของข้อมูลในการจัดเก็บ ดังนั้น การจัดการโหลดไม่ได้เกี่ยวกับกระบวนการเริ่มต้นเท่านั้น แต่ยังรวมถึงการหยุดทำงาน ตลอดจนป้องกันการเริ่มทำงานอย่างกะทันหัน (โดยไม่ได้ตั้งใจ)

โครงสร้างข้อมูลเมตาพิเศษถูกสร้างขึ้นเพื่อให้ชั้นบริการทำงานได้ พื้นที่นี้จะเก็บข้อมูลเกี่ยวกับกระบวนการโหลด ชุดข้อมูลที่โหลด จุดตรวจสอบที่ใช้เพื่อรักษาส่วนเพิ่ม (ซึ่งกระบวนการได้อ่านถึงจุดใด) และข้อมูลบริการอื่นๆ ที่จำเป็นสำหรับระบบในการทำงาน
สิ่งสำคัญคือต้องสังเกตว่าตารางเป้าหมายทั้งหมดในทุกเลเยอร์จะถูกทำเครื่องหมายด้วยชุด meta-field พิเศษ ซึ่งหนึ่งในนั้นคือ ID ของกระบวนการที่อัปเดตสตริงนี้ สำหรับตารางภายในที่เก็บ การมาร์กกระบวนการนี้ช่วยให้สามารถแยกการเปลี่ยนแปลงเดลต้าได้แบบรวมเป็นหนึ่ง เมื่อโหลดข้อมูลลงในชั้นข้อมูลหลัก สถานการณ์จะซับซ้อนกว่า - อัลกอริทึมสำหรับการแยกเดลต้าสำหรับออบเจ็กต์ที่โหลดต่างกันอาจแตกต่างกัน ในทางกลับกัน ตรรกะของการประมวลผลการเปลี่ยนแปลงที่ยอมรับและการหมุนเวียนไปยังตารางเป้าหมายสำหรับแกนกลางและหน้าร้านนั้นซับซ้อนกว่าสำหรับการแสดงละคร ซึ่งทุกอย่างค่อนข้างไม่สำคัญ - ง่ายต่อการกำหนดพารามิเตอร์และคิดถึงขั้นตอนทั่วไปที่นำกลับมาใช้ใหม่ได้ (ขั้นตอน) ).

ฉันไม่ได้ตั้งค่างานนี้ให้ครอบคลุมหัวข้อนี้ทั้งหมด - องค์กรของการโหลด - ฉันเน้นเฉพาะจุดที่ควรค่าแก่การใส่ใจเท่านั้น
วิธีการข้างต้นเป็นเพียงหนึ่งในตัวเลือก เขาค่อนข้างจะปรับตัวได้ และ "ต้นแบบต้นแบบ" ของเขาคือสายพานลำเลียงของโตโยต้าและระบบ "ทันเวลา" เหล่านั้น. เรากำลังย้ายออกจากกระบวนทัศน์ที่แพร่หลายของ "การโหลดข้อมูลในตอนกลางคืน" โดยเฉพาะ และเรากำลังโหลดในส่วนเล็กๆ ในระหว่างวัน เนื่องจากข้อมูลพร้อมแล้วในแหล่งต่างๆ ที่มาคือข้อมูลที่โหลดแล้ว ในเวลาเดียวกัน เรามีกระบวนการแบบคู่ขนานจำนวนมากที่ทำงานอยู่ และ "หางร้อน" ของข้อมูลใหม่จะ "กะพริบ" อย่างต่อเนื่อง - และแม้กระทั่งหลังจากนั้นครู่หนึ่ง เราต้องคำนึงถึงคุณลักษณะนี้ และหากจำเป็น เพื่อสร้าง "ชิ้น" โชว์ผลงานที่กำหนดเองซึ่งทุกอย่างเป็นส่วนประกอบสำคัญอยู่แล้ว เหล่านั้น. เป็นไปไม่ได้ที่จะบรรลุทั้งประสิทธิภาพและความสม่ำเสมอ (ความซื่อสัตย์) ในเวลาเดียวกัน เราต้องการความสมดุล - ที่ใดที่หนึ่งที่สำคัญ ที่อื่น

เป็นสิ่งสำคัญอย่างยิ่งที่จะต้องจัดเตรียมวิธีการบันทึกและเฝ้าติดตาม แนวปฏิบัติที่ดีคือการใช้เหตุการณ์ที่พิมพ์ ซึ่งคุณสามารถตั้งค่าพารามิเตอร์ต่างๆ และตั้งค่าระบบการแจ้งเตือน - การสมัครรับข้อมูลเหตุการณ์บางอย่างได้ เพราะ เป็นสิ่งสำคัญมากที่เมื่อจำเป็นต้องมีการแทรกแซงของผู้ดูแลระบบ เขาจะทราบเรื่องนี้โดยเร็วที่สุดและรับข้อมูลการวินิจฉัยที่จำเป็นทั้งหมด บันทึกยังสามารถใช้สำหรับการวิเคราะห์ปัญหาหลังข้อเท็จจริง เช่นเดียวกับการตรวจสอบเหตุการณ์ที่ระบบทำงานผิดปกติ คุณภาพของข้อมูล

ออกแบบและบำรุงรักษาโมเดลข้อมูลคลังสินค้า

เหตุใดจึงต้องให้ความสนใจกับการออกแบบแบบจำลองข้อมูลเมื่อพัฒนาระบบที่เกี่ยวข้องกับฐานข้อมูล (และโดยเฉพาะอย่างยิ่งในคลังข้อมูล) ทำไมไม่ลองใส่ชุดตาราง ที่ไหนก็ได้ แม้แต่ในโปรแกรมแก้ไขข้อความล่ะ ทำไมเราต้องการรูปภาพเหล่านี้
น่าแปลกที่แม้แต่นักพัฒนาที่มีประสบการณ์ก็ยังตั้งคำถามแบบนี้
ที่จริงแล้ว ใช่ ไม่มีอะไรขัดขวางไม่ให้คุณร่างตารางและเริ่มใช้งาน ถ้า ... ถ้าในเวลาเดียวกันในหัว (!) ผู้พัฒนามีภาพรวมที่กลมกลืนกันของโครงสร้างที่เขาแกะสลัก เกิดอะไรขึ้นถ้ามีนักพัฒนาหลายคน? แต่ถ้าคนอื่นจะใช้ตารางเหล่านี้ล่ะ แต่ถ้าเวลาผ่านไป - คนออกจากพื้นที่นี้แล้วกลับมาอีกครั้ง?

เป็นไปได้ไหมที่จะคิดออกโดยไม่มีแบบจำลอง? โดยทั่วไปคุณสามารถ และเพื่อคิดออกและ "ประมาณภาพบนแผ่นกระดาษ" และ "กวาด - ชำระ" ข้อมูล แต่มันง่ายกว่า ชัดเจนกว่าและเร็วกว่ามากในการใช้สิ่งประดิษฐ์สำเร็จรูป - แบบจำลองข้อมูล และเพื่อให้เข้าใจถึง "ตรรกะของโครงสร้าง" - นั่นคือ มันคงจะดีถ้ามีกฎเกณฑ์ทั่วไปของเกม

และสิ่งที่สำคัญที่สุดคือไม่ใช่อย่างนั้น สิ่งสำคัญที่สุดคือเมื่อออกแบบแบบจำลอง เราถูกบังคับ (เพียงแค่ไม่มีทางเลือก!) ให้ศึกษาหัวข้ออย่างละเอียดและลึกซึ้งยิ่งขึ้น คุณสมบัติของโครงสร้างข้อมูลและการใช้งานในกรณีธุรกิจต่างๆ และคำถามเหล่านั้นที่เรามักจะ “ผลักไส” ให้ซับซ้อน “พร่ามัว” โดยการโยนป้ายของเราโดยไม่ต้องพยายาม ออกแบบโมเดล - เราจะถูกบังคับให้ตั้งค่าและตัดสินใจในตอนนี้ ระหว่างการวิเคราะห์และการออกแบบ ไม่ใช่ในภายหลัง - เมื่อเราสร้างรายงานและคิดถึง "วิธีลดความเข้ากันไม่ได้" และ "สร้างวงล้อขึ้นใหม่" ทุกครั้ง

แนวทางนี้เป็นหนึ่งในแนวทางปฏิบัติทางวิศวกรรมที่ทำให้สามารถสร้างระบบป้องกันการเปราะบางได้ เนื่องจากมีความชัดเจน โปร่งใส พัฒนาได้ง่าย และมองเห็น "ขอบเขตความเปราะบาง" ได้ในทันที เราจึงสามารถประเมิน "ขนาดของภัยพิบัติ" ได้แม่นยำยิ่งขึ้นเมื่อมีข้อกำหนดใหม่ปรากฏขึ้น และเวลาที่จำเป็นสำหรับการออกแบบใหม่ (หากจำเป็น)
ดังนั้น โมเดลข้อมูลจึงเป็นหนึ่งในสิ่งประดิษฐ์หลักที่ต้องรักษาไว้ในระหว่างการพัฒนาระบบ ในทางที่ดี มันควรจะ "อยู่บนโต๊ะ" สำหรับนักวิเคราะห์ นักพัฒนา ฯลฯ ทุกคน – ผู้ที่เกี่ยวข้องในโครงการพัฒนาระบบทั้งหมด

การออกแบบตัวแบบข้อมูลเป็นหัวข้อที่แยกจากกันและครอบคลุมมาก มีสองวิธีหลักในการออกแบบการจัดเก็บ
แนวทางนี้ดีสำหรับเคอร์เนล "นิติบุคคล-ความสัมพันธ์" - เมื่อสร้างแบบจำลองมาตรฐาน (3NF) บนพื้นฐานของการศึกษาหัวข้อเฉพาะพื้นที่ที่เลือกไว้อย่างแม่นยำยิ่งขึ้น นี่คือ "รูปแบบองค์กร" เดียวกันกับที่กล่าวถึงข้างต้น

เมื่อออกแบบตู้โชว์เชิงวิเคราะห์ให้เหมาะสม แบบจำลองหลายมิติ . แนวทางนี้ช่วยให้เข้าใจผู้ใช้ทางธุรกิจได้เป็นอย่างดี นี่เป็นแบบจำลองที่ง่ายและสะดวกสำหรับการรับรู้ของมนุษย์ - ผู้คนใช้แนวคิดของตัวชี้วัด (ตัวบ่งชี้) ที่เข้าใจและคุ้นเคยและส่วนต่างๆ ที่ใช้วิเคราะห์ และสิ่งนี้ช่วยให้เราสร้างกระบวนการรวบรวมข้อกำหนดได้อย่างง่ายดายและชัดเจน - เราวาดชุด "เมทริกซ์ของการตัดและตัวชี้วัด" เพื่อสื่อสารกับตัวแทนของแผนกต่างๆ จากนั้นเราก็รวมมันไว้ในโครงสร้างเดียว - "แบบจำลองการวิเคราะห์": เราสร้าง "บัสการวัด" และกำหนดข้อเท็จจริงที่กำหนดไว้ในนั้น เรากำลังดำเนินการเกี่ยวกับลำดับชั้นและกฎการรวม

นอกจากนี้ การย้ายไปยังแบบจำลองทางกายภาพนั้นง่ายมาก โดยเพิ่มองค์ประกอบการปรับให้เหมาะสมโดยคำนึงถึงคุณสมบัติของ DBMS ตัวอย่างเช่น สำหรับ Oracle จะเป็นการแบ่งพาร์ติชัน ชุดดัชนี และอื่นๆ สำหรับ Vertica จะใช้เทคนิคอื่นๆ เช่น การคัดแยก การแบ่งส่วน การแบ่งส่วน
อาจจำเป็นต้องมีการดีนอร์มัลไลซ์แบบพิเศษ - เมื่อเราจงใจใส่ความซ้ำซ้อนเข้าไปในข้อมูล ต้องขอบคุณการที่เราปรับปรุงประสิทธิภาพของการสืบค้น แต่ในขณะเดียวกันก็ทำให้การอัปเดตข้อมูลยุ่งยากขึ้น (เพราะจะต้องคำนึงถึงความซ้ำซ้อนและการสนับสนุนในช่วง ขั้นตอนการโหลดข้อมูล) บางที เพื่อปรับปรุงประสิทธิภาพ เราจะต้องสร้างตารางรวมเพิ่มเติม หรือใช้คุณสมบัติ DBMS เพิ่มเติมดังกล่าวเป็นการประมาณการใน Vertica

ดังนั้น เมื่อสร้างแบบจำลองข้อมูลคลังสินค้า เราแก้ปัญหาหลายอย่างได้จริง:

  • ภารกิจคือการสร้างแบบจำลองแนวความคิด (เชิงตรรกะ) ของแกนหลัก - ระบบและการวิเคราะห์ธุรกิจ - ศึกษาหัวข้อ เจาะลึกรายละเอียด และคำนึงถึงความแตกต่างของ "ข้อมูลสด" และการใช้งานในธุรกิจ
  • งานของการสร้างแบบจำลองการวิเคราะห์ - แล้วก็แบบจำลองแนวคิด (เชิงตรรกะ) ของหน้าร้าน
  • งานในการสร้างแบบจำลองทางกายภาพคือการจัดการความซ้ำซ้อนของข้อมูล การเพิ่มประสิทธิภาพโดยคำนึงถึงคุณสมบัติของ DBMS สำหรับการสืบค้นและการโหลดข้อมูล
เมื่อพัฒนาโมเดลแนวคิด เราอาจไม่คำนึงถึงคุณลักษณะของ DBMS เฉพาะที่เรากำลังออกแบบโครงสร้างฐานข้อมูล ยิ่งกว่านั้น เราสามารถใช้โมเดลแนวคิดหนึ่งแบบจำลองเพื่อสร้างแบบจำลองทางกายภาพหลายแบบ - สำหรับ DBMS ที่แตกต่างกัน

มาสรุปกัน

  • โมเดลข้อมูลไม่ใช่ชุดของ "ภาพสวย" และขั้นตอนการออกแบบไม่ใช่กระบวนการวาดภาพ แบบจำลองนี้สะท้อนถึงความเข้าใจของเราในเรื่องนั้นๆ และกระบวนการรวบรวมเป็นกระบวนการศึกษาวิจัย นี่คือเวลาที่เสียไป และไม่ต้อง "วาดและระบายสี" เลย
  • โมเดลข้อมูลคือสิ่งประดิษฐ์การออกแบบ ซึ่งเป็นวิธีการแบ่งปันข้อมูลในรูปแบบที่มีโครงสร้างระหว่างสมาชิกในทีม ในการดำเนินการนี้ ทุกคนจะต้องเข้าใจได้ (มีให้โดยสัญกรณ์และคำอธิบาย) และเข้าถึงได้ (เผยแพร่)
  • โมเดลข้อมูลไม่ได้ถูกสร้างขึ้นเพียงครั้งเดียวและหยุดนิ่ง แต่ถูกสร้างขึ้นและพัฒนาในกระบวนการพัฒนาระบบ เราเองตั้งกฎเกณฑ์สำหรับการพัฒนา และเราสามารถเปลี่ยนแปลงได้หากเราเห็นว่าจะทำให้ดีขึ้น ง่ายขึ้น มีประสิทธิภาพมากขึ้นได้อย่างไร
  • โมเดลข้อมูล (ทางกายภาพ) ช่วยให้คุณสามารถรวมและใช้ชุดแนวทางปฏิบัติที่ดีที่สุดที่มุ่งเป้าไปที่การปรับให้เหมาะสม - เช่น ใช้เทคนิคที่ใช้ได้ผลกับ DBMS นี้แล้ว

คุณสมบัติของโครงการคลังข้อมูล


มาดูคุณสมบัติของโครงการที่บริษัทสร้างและพัฒนาคลังข้อมูลกัน และลองดูจากมุมมองของอิทธิพลของด้านสถาปัตยกรรม เหตุใดจึงสำคัญที่จะสร้างสถาปัตยกรรมสำหรับโครงการดังกล่าวและตั้งแต่ต้น และการมีอยู่ของสถาปัตยกรรมที่คิดมาอย่างดีซึ่งให้ความยืดหยุ่นกับโครงการคลังข้อมูล ช่วยให้คุณกระจายงานระหว่างนักแสดงได้อย่างมีประสิทธิภาพ และยังทำให้คาดการณ์ผลลัพธ์ได้ง่ายขึ้นและทำให้กระบวนการคาดการณ์ได้มากขึ้น

Data Warehouse เป็นซอฟต์แวร์ที่กำหนดเอง

คลังข้อมูลมักเป็น "การพัฒนาแบบกำหนดเอง" ไม่ใช่โซลูชันชนิดบรรจุกล่อง ใช่ มีแอปพลิเคชัน BI เฉพาะอุตสาหกรรมที่มีแบบจำลองข้อมูลอ้างอิง กระบวนการ ETL ที่กำหนดค่าไว้ล่วงหน้าจากแหล่งที่มาทั่วไป (เช่น ระบบ ERP) ชุดแดชบอร์ดและรายงาน BI ทั่วไป แต่ในทางปฏิบัติ ที่เก็บข้อมูลนั้นไม่ค่อยได้ใช้งาน - เป็น "กล่อง" ฉันทำงานกับสตอเรจมาประมาณ 10 ปีแล้วและไม่เคยเห็นเรื่องราวแบบนี้มาก่อน มีความแตกต่างเล็กน้อยที่เกี่ยวข้องกับคุณลักษณะเฉพาะของบริษัท - ทั้งด้านธุรกิจและด้านไอที ดังนั้นจึงค่อนข้างประมาทที่จะหวังว่า "ผู้ขาย" ที่จัดหาโซลูชันนี้จะจัดหาสถาปัตยกรรม สถาปัตยกรรมของระบบดังกล่าวมักจะเติบโตภายในองค์กรเอง หรือเป็นการจัดตั้งโดยผู้เชี่ยวชาญของบริษัทผู้รับเหมาซึ่งเป็นผู้รับเหมาหลักของโครงการ

คลังข้อมูลเป็นโครงการบูรณาการ

คลังข้อมูลโหลดและประมวลผลข้อมูลจากระบบต้นทางจำนวนมาก และเพื่อที่จะรักษา “ความสัมพันธ์ฉันมิตร” กับพวกเขา คุณต้องระมัดระวังอย่างมากกับพวกเขา เหนือสิ่งอื่นใด จำเป็นต้องลดภาระงานบนระบบต้นทางให้น้อยที่สุด โดยคำนึงถึงหน้าต่าง "ความพร้อมใช้งานและการเข้าถึงไม่ได้" เลือกอินเทอร์เฟซการโต้ตอบโดยคำนึงถึงสถาปัตยกรรม ฯลฯ จากนั้นที่เก็บข้อมูลจะสามารถรวบรวมข้อมูลได้เร็วที่สุดและด้วยความถี่ที่ต้องการ มิเช่นนั้นคุณจะถูก "โอน" ไปยังวงจรสำรองซึ่งไม่ได้อัปเดตด้วยความถี่ในการทำงานสูงสุด
นอกจากนี้ต้องคำนึงถึง "ปัจจัยมนุษย์" ด้วย การบูรณาการไม่ได้เป็นเพียงปฏิสัมพันธ์ของเครื่องจักรเท่านั้น ยังเป็นการสื่อสารระหว่างผู้คน

Data Warehouse เป็นโครงการของทีม


ในบริษัทขนาดใหญ่ ระบบดังกล่าวแทบจะไม่สามารถทำได้โดยทีมเดียว ตามกฎแล้ว หลายทีมทำงานที่นี่ ซึ่งแต่ละทีมสามารถแก้ปัญหาเฉพาะได้

สถาปัตยกรรมควรให้ความเป็นไปได้ในการจัดระเบียบงานคู่ขนาน ในขณะที่ยังคงความสมบูรณ์และหลีกเลี่ยงการใช้ฟังก์ชันเดียวกันซ้ำกันในที่ต่างๆ โดยบุคคลที่แตกต่างกัน นอกจากค่าแรงที่ไม่จำเป็นแล้ว การทำซ้ำดังกล่าวอาจนำไปสู่ความคลาดเคลื่อนในข้อมูลในภายหลัง

นอกจากนี้ เมื่อผู้คนและทีมจำนวนมากซึ่งมักจะกระจัดกระจายเข้ามามีส่วนร่วมในกระบวนการพัฒนาระบบ คำถามก็เกิดขึ้นอย่างหลีกเลี่ยงไม่ได้: วิธีสร้างการสื่อสารและปฏิสัมพันธ์ข้อมูลระหว่างพวกเขา ยิ่งใช้วิธีการและวิธีปฏิบัติที่เป็นมาตรฐานและเข้าใจได้มากเท่าไร ก็ยิ่งง่าย สะดวก และมีประสิทธิภาพมากขึ้นเท่านั้นในการจัดวางงานดังกล่าว และควรคำนึงถึงองค์ประกอบของ "สิ่งประดิษฐ์ที่ทำงาน" ซึ่งสำหรับคลังข้อมูลหมายเลข 1 เป็นแบบจำลองข้อมูล (ดูหัวข้อก่อนหน้า)

คลังข้อมูลมีอายุการใช้งานยาวนานกว่าระบบอื่นๆ

ให้ฉันชี้แจง - คำกล่าวนี้เป็นจริงสำหรับ "สด" ที่เก็บข้อมูลการทำงาน บูรณาการกับแหล่งข้อมูลสำคัญ ครอบครองข้อมูลในอดีต และการให้ข้อมูลและบริการวิเคราะห์แก่หน่วยงานต่างๆ ของบริษัท

ฉันมีเหตุผลอะไรที่จะเชื่ออย่างนั้น?
ประการแรก การสร้างสตอเรจเป็นกระบวนการที่ใช้ทรัพยากรมาก นอกเหนือจากต้นทุนจริงของอุปกรณ์ ใบอนุญาตสำหรับซอฟต์แวร์เทคโนโลยีและการพัฒนาที่จำเป็น ระบบและแผนกเกือบทั้งหมดของบริษัทก็มีส่วนเกี่ยวข้องด้วยเช่นกัน การจะทำซ้ำกระบวนการทั้งหมดนี้ตั้งแต่เริ่มต้นใหม่อีกครั้งถือเป็นภารกิจที่กล้าหาญมาก

ประการที่สอง หากการจัดเก็บข้อมูลมีสถาปัตยกรรมที่ถูกต้อง มันก็สามารถอยู่รอดได้อย่างง่ายดายทั้งการเปลี่ยนแปลงของระบบต้นทาง การเกิดขึ้นของข้อกำหนดใหม่จากผู้ใช้ปลายทาง และการเติบโตของปริมาณข้อมูล
หากสถาปัตยกรรมถูกต้อง การไหลของข้อมูลจะโปร่งใส ระบบดังกล่าวสามารถพัฒนาได้เป็นเวลานานโดยไม่เสี่ยงต่อการตกอยู่ในสถานการณ์มึนงงเมื่อทำการเปลี่ยนแปลงเนื่องจากความยากลำบากในการประเมินผลกระทบ

การพัฒนาซ้ำแบบค่อยเป็นค่อยไป

สิ่งสุดท้ายที่ลูกค้าต้องการคือการมีส่วนร่วมในสตอรี่สตอเรจคือการหยุดความต้องการของเขาไว้เป็นเวลาหนึ่งปีหรือสองปี จนกว่าจะมีการออกแบบโมเดลข้อมูลองค์กรแบบเต็ม แหล่งข้อมูลทั้งหมดเชื่อมต่อกันอย่างครบถ้วน ฯลฯ

คลังข้อมูลในสายตาของลูกค้ามักจะดูเหมือนเป็นสัตว์ประหลาด - งาน เป้าหมาย และขอบฟ้าของการพัฒนาระบบนั้นมีมากมายมหาศาล และบ่อยครั้งที่ลูกค้ากลัวว่า "ด้วยค่าใช้จ่ายของงบประมาณ" ฝ่ายไอทีจะแก้ปัญหา "งานของตัวเอง" บางอย่างได้ และอีกครั้ง เรากำลังเผชิญกับปัญหาปฏิสัมพันธ์ระหว่างผู้คนและความสามารถในการระบุจุดยืนและการเจรจาของตนอย่างใจเย็น

แนวทางสถาปัตยกรรมที่มีความสามารถช่วยให้คุณสามารถพัฒนาระบบซ้ำ ๆ ได้ โดยเพิ่มฟังก์ชันการทำงานทีละน้อย โดยไม่ต้อง "พัฒนา" เป็นเวลาหลายปีก่อนที่จะเริ่มให้ผลลัพธ์

แม้ว่าควรสังเกตว่า "ปาฏิหาริย์ไม่เกิดขึ้น" - และ "การเริ่มต้น" ก็ต้องใช้เวลาเช่นกัน สำหรับการจัดเก็บ อาจมีขนาดค่อนข้างใหญ่ เนื่องจากเป็นข้อมูลจำนวนมาก นี่เป็นข้อมูลในอดีต สำหรับช่วงเวลาเก่าที่กฎสำหรับการประมวลผลข้อมูลอาจแตกต่างไปจากปัจจุบัน ดังนั้น จึงต้องใช้เวลาเพียงพอสำหรับการพัฒนาเชิงวิเคราะห์ การโต้ตอบกับระบบต้นทาง และชุดของ "การลองผิดลองถูก" รวมถึงการทดสอบโหลดข้อมูลจริง

คลังข้อมูล - "เรื่องราวหลายโครงการ"

เป็นการยากที่จะแยกแยะลูกค้าธุรกิจรายเดียวสำหรับคลังข้อมูล และเชื่อ (โดยไม่มีเหตุผล) ว่าปัจจัยหลักในความสำเร็จของโครงการจัดเก็บคือการสนับสนุนจากฝ่ายบริหารของบริษัท - บุคคลแรกโดยตรง
ที่เก็บข้อมูลแทบไม่มีการสร้างและพัฒนาภายในโครงการเดียว ตามกฎแล้ว มีความต้องการที่หลากหลายสำหรับการรวมข้อมูลและการวิเคราะห์ เบื้องหลังคือลูกค้าและกลุ่มผู้ใช้ที่แตกต่างกัน ดังนั้น พื้นที่เก็บข้อมูลจึงมักได้รับการพัฒนาภายใต้กรอบงานของโครงการคู่ขนานหลายโครงการ

ความสมดุลของนวัตกรรมและโซลูชั่นที่ได้รับการพิสูจน์แล้ว

แม้ว่าหัวข้อของการจัดเก็บจะ "โบราณ" มาก (หากคำดังกล่าวใช้ได้กับอุตสาหกรรมอายุน้อยเช่น IT) และค่อนข้างอนุรักษ์นิยม อย่างไรก็ตาม ความคืบหน้าไม่หยุดนิ่ง - และข้อจำกัดที่มีอยู่ก่อนหน้านี้เนื่องจากดิสก์ราคาแพงและช้า หน่วยความจำราคาแพง ฯลฯ - ตอนนี้ถูกลบออก และในขณะเดียวกัน ก็ได้เวลาพิจารณาแนวทางสถาปัตยกรรมใหม่อีกครั้ง ยิ่งไปกว่านั้น สิ่งนี้ใช้ได้กับทั้งแพลตฟอร์มเทคโนโลยีและสถาปัตยกรรมของระบบประยุกต์ที่อิงตามแพลตฟอร์มเหล่านี้

สิ่งสำคัญคือต้องสร้างสมดุลที่นี่ - และรักษาแนวทาง "สีเขียว" อย่างเป็นธรรมสำหรับทั้งทรัพยากรและข้อมูลที่เก็บไว้ มิฉะนั้น คุณสามารถเปลี่ยนที่เก็บข้อมูลเป็น "กองขยะ" กึ่งโครงสร้างได้อย่างรวดเร็ว ซึ่งหากสามารถแยกออกได้ จะต้องผ่านความพยายามอย่างมาก
ใช่เรามีโอกาสมากขึ้น แต่ไม่ได้หมายความว่าเราจำเป็นต้องปฏิเสธการปฏิบัติทั้งหมดที่ได้รับการพัฒนาและทดสอบตามเวลาซึ่งชัดเจนว่าจะใช้อย่างไรและทำไมและ "ดื่มด่ำกับความจริงจัง" นำโดยหมอกเท่านั้น ผีของ "นวัตกรรม"
การรักษาสมดุลหมายถึงการใช้วิธีการและแนวทางใหม่ๆ ในการเปิดโอกาสใหม่ๆ แต่ในขณะเดียวกันก็ใช้แนวทางเก่าที่ผ่านการพิสูจน์แล้วในการแก้ปัญหาเร่งด่วนที่ไม่มีใครยกเลิก
เราจะทำอะไรได้บ้างในฐานะนักพัฒนาและนักออกแบบโซลูชันประยุกต์ ก่อนอื่น เพื่อทราบและเข้าใจการเปลี่ยนแปลงทางเทคโนโลยีของแพลตฟอร์มที่เราทำงาน ความสามารถ คุณลักษณะ และข้อจำกัดของแอปพลิเคชัน

มาดูที่ DBMS - เป็นแพลตฟอร์มเทคโนโลยีที่สำคัญและสำคัญที่สุดสำหรับการจัดเก็บข้อมูล
เมื่อเร็ว ๆ นี้ มีฐานข้อมูลเชิงสัมพันธ์ที่ชัดเจนซึ่งเดิมสร้างขึ้นเป็น "สากล" ไปสู่ความเชี่ยวชาญพิเศษ เป็นเวลานานที่ผู้ค้าชั้นนำได้ออกตัวเลือกต่างๆ - สำหรับแอปพลิเคชันของคลาสต่างๆ (OLTP, DSS & DWH) นอกจากนี้ ยังมีโอกาสเพิ่มเติมสำหรับการทำงานกับข้อความ ข้อมูลทางภูมิศาสตร์ ฯลฯ

แต่เรื่องนี้ไม่ได้จำกัดอยู่แค่เพียงเท่านี้ - ผลิตภัณฑ์เริ่มปรากฏให้เห็นซึ่งเน้นไปที่งานบางประเภทในตอนแรก - กล่าวคือ DBMS เฉพาะทาง พวกเขาอาจใช้หรือไม่ใช้แบบจำลองเชิงสัมพันธ์ สิ่งสำคัญคือในตอนแรกพวกเขาจะ "ลับคม" ไม่ใช่แค่สำหรับการจัดเก็บและการประมวลผล "ข้อมูลทางธุรกิจ" โดยทั่วไป แต่สำหรับบางงาน

เห็นได้ชัดว่าการรวมศูนย์และความเชี่ยวชาญเฉพาะทางเป็นแนวโน้มเสริมสองประการที่เข้ามาแทนที่กันเป็นระยะ ทำให้มั่นใจได้ถึงการพัฒนาและความสมดุล เช่นเดียวกับวิวัฒนาการ (ค่อยเป็นค่อยไป) การพัฒนาอย่างค่อยเป็นค่อยไปและการเปลี่ยนแปลงที่สำคัญ ดังนั้น ในช่วงทศวรรษ 90 Michael Stonebreaker เป็นหนึ่งในผู้เขียนแถลงการณ์ฐานข้อมูล Generation III ซึ่งฟังดูชัดเจนว่าโลกไม่ต้องการการปฏิวัติอีกในโลกของฐานข้อมูล อย่างไรก็ตาม 10 ปีต่อมา เขาเผยแพร่ผลงานซึ่งเขาได้ประกาศข้อกำหนดเบื้องต้นสำหรับการเริ่มต้นยุคใหม่ในโลกของ DBMS โดยอิงตามความเชี่ยวชาญเฉพาะทางของพวกเขา
เขามุ่งเน้นไปที่ข้อเท็จจริงที่ว่า DBMS สากลที่แพร่หลายนั้นสร้างขึ้นบนสถาปัตยกรรม "หนึ่งขนาดที่เหมาะกับทุกคน" ที่ไม่คำนึงถึงการเปลี่ยนแปลงในแพลตฟอร์มฮาร์ดแวร์หรือการแบ่งแอปพลิเคชันออกเป็นคลาสต่างๆ ซึ่งคุณสามารถหาวิธีแก้ปัญหาได้ดีกว่า การดำเนินการตามข้อกำหนดสากล
และเขาเริ่มพัฒนาโครงการหลายโครงการตามแนวคิดนี้ หนึ่งในนั้นคือ C-Store ซึ่งเป็น DBMS แนวเสาที่ออกแบบในสถาปัตยกรรม shared nothing (SN) ซึ่งเดิมสร้างขึ้นสำหรับระบบคลาสการจัดเก็บข้อมูลโดยเฉพาะ ผลิตภัณฑ์นี้ได้รับการจำหน่ายในเชิงพาณิชย์เพิ่มเติมในชื่อ HP Vertica

ดูเหมือนว่าตอนนี้หัวข้อของการพัฒนาคลังข้อมูลได้เล็ดลอดเข้าสู่การพัฒนารอบใหม่แล้ว เทคโนโลยี แนวทาง และเครื่องมือใหม่ๆ กำลังเกิดขึ้น การศึกษา การทดสอบ และการใช้งานที่เหมาะสมช่วยให้เราสร้างโซลูชันที่น่าสนใจและมีประโยชน์จริงๆ และนำพวกเขาไปสู่การใช้งานจริง เพลิดเพลินไปกับความจริงที่ว่าการพัฒนาของคุณถูกนำมาใช้ในการทำงานจริงและก่อให้เกิดประโยชน์

บทส่งท้าย

ในการเตรียมบทความนี้ ฉันพยายามเน้นที่สถาปนิก นักวิเคราะห์ และนักพัฒนาที่ทำงานโดยตรงกับคลังข้อมูลเป็นหลัก แต่ปรากฎว่าฉัน "เปิดหัวข้อให้กว้างขึ้นเล็กน้อย" อย่างหลีกเลี่ยงไม่ได้ - และผู้อ่านประเภทอื่น ๆ ก็ตกอยู่ในวิสัยทัศน์ บางประเด็นอาจดูขัดแย้ง บางประเด็นไม่ชัดเจน บางประเด็นชัดเจน ผู้คนต่างกัน - ด้วยประสบการณ์ ภูมิหลัง และตำแหน่งที่แตกต่างกัน
ตัวอย่างเช่น คำถามทั่วไปของผู้จัดการคือ "เมื่อไหร่จะดึงดูดสถาปนิก", "ฉันควรทำงานสถาปัตยกรรมเมื่อใด", "สถาปัตยกรรม - ราคาแพงเกินไปหรือเปล่า" ฟังดูค่อนข้างแปลกสำหรับเรา (นักพัฒนา, นักออกแบบ) เพราะสำหรับเราแล้ว สถาปัตยกรรมของระบบปรากฏขึ้นพร้อมกับการกำเนิดของมัน - ไม่สำคัญว่าเราจะรู้หรือไม่ก็ตาม และถึงแม้ว่าจะไม่มีบทบาทที่เป็นทางการของสถาปนิกในโครงการก็ตาม นักพัฒนาทั่วไปมักจะ "เปิดสถาปนิกภายในของเขา"

ในรูปแบบที่ยิ่งใหญ่ของสิ่งต่าง ๆ ไม่สำคัญว่าใครเป็นสถาปนิก สิ่งที่สำคัญคือมีคนถามคำถามเหล่านี้และสำรวจคำตอบสำหรับพวกเขา หากสถาปนิกแยกแยะได้อย่างชัดเจน ก็หมายความว่าเขามีหน้าที่รับผิดชอบหลักต่อระบบและการพัฒนาระบบเท่านั้น
เหตุใดหัวข้อ "การต่อต้านการแตกร้าว" จึงดูเหมือนเกี่ยวข้องกับฉันในเรื่องนี้

“ความพิเศษของการต่อต้านการแตกหักคือการที่มันช่วยให้เราทำงานกับสิ่งที่ไม่รู้จัก ทำบางสิ่งในสภาพที่เราไม่เข้าใจสิ่งที่เรากำลังทำ - และประสบความสำเร็จ”/นัสซิม น.ตะเลบ/
ดังนั้น วิกฤตและความไม่แน่นอนในระดับสูงจึงไม่ใช่ข้ออ้างสำหรับการขาดสถาปัตยกรรม แต่เป็นปัจจัยที่ตอกย้ำความต้องการ