أجهزة الكمبيوتر شبابيك إنترنت

إنشاء مستودع بيانات موحد للشركة. إنشاء نموذج مستودع بيانات استنادًا إلى نموذج بيانات المؤسسة. نماذج بيانات الصناعة

زايتسيف S.L. ، دكتوراه.

تكرار المجموعات

المجموعات المكررة هي سمات يمكن أن تحتوي مثيل كيان واحد لها على أكثر من قيمة واحدة. على سبيل المثال ، قد يمتلك الشخص أكثر من مهارة. إذا احتجنا ، من حيث متطلبات العمل ، إلى معرفة مستوى المهارة للجميع ، ويمكن لكل شخص امتلاك مهارتين فقط ، فيمكننا إنشاء الكيان الموضح في الشكل. 1.6 هنا الكيان شخصمع سمتين لتخزين المهارات ومستويات المهارة لكل منهما.

أرز. 1.6 يستخدم هذا المثال مجموعات متكررة.

مشكلة تكرار المجموعات هي أننا لا نستطيع أن نعرف بالضبط عدد المهارات التي قد يمتلكها الشخص. في الحياة الواقعية ، يمتلك بعض الأشخاص مهارة واحدة ، والبعض الآخر يمتلك عدة مهارات ، والبعض الآخر لا يمتلك أي مهارة حتى الآن. يوضح الشكل 1.7 النموذج الذي تم تقليله إلى أول شكل عادي. لاحظ المضاف معرف المهارة ، والتي تحدد كل منها بشكل فريد مهارة.

أرز. 1.7 نموذج مخفض إلى أول شكل عادي.

حقيقة واحدة في مكان واحد

إذا كانت السمة نفسها موجودة في أكثر من كيان واحد ولم تكن مفتاحًا خارجيًا ، فإن هذه السمة تعتبر زائدة عن الحاجة. يجب ألا يحتوي النموذج المنطقي على بيانات زائدة عن الحاجة.

يتطلب التكرار مساحة إضافية ، ولكن في حين أن كفاءة الذاكرة مهمة ، فإن المشكلة الحقيقية تكمن في مكان آخر. تأتي المزامنة المضمونة للبيانات الزائدة عن الحاجة مصحوبة بنفقات عامة ، وأنت دائمًا ما تتعرض لخطر القيم المتعارضة.

في المثال السابق مهارةيعتمد على معرف الشخصو من معرف المهارة.هذا يعني أنك لن تمتلك مهارةحتى تظهر شخص،امتلاك هذه المهارة. كما أنه يجعل من الصعب تغيير اسم المهارة. تحتاج إلى العثور على كل إدخال في اسم المهارة وتغييره لكل شخص يمتلك تلك المهارة.

يوضح الشكل 1.8 النموذج في الشكل العادي الثاني. لاحظ أنه تمت إضافة الكيان مهارةو السمة لقبالمهارة المنقولة إلى هذا الكيان. بقي مستوى المهارة ، على التوالي ، عند التقاطع الأشخاص والمهارات.

أرز. 1.8 في الشكل العادي الثاني ، يتم نقل المجموعة المكررة إلى كيان آخر. يوفر هذا المرونة لإضافة العديد من المهارات حسب الحاجة وتغيير اسم المهارة أو وصف المهارة في مكان واحد.

كل سمة تعتمد على مفتاح

يجب أن تعتمد كل سمة من سمات الكيان على المفتاح الأساسي لذلك الكيان. في المثال السابق اسم المدرسةو منطقة جغرافيةموجودة في الجدول شخصلكن لا تصف شخصًا. لتحقيق النموذج العادي الثالث ، تحتاج إلى نقل السمات إلى الكيان ، حيث ستعتمد على المفتاح. الشكل 1.9. يظهر النموذج في الشكل العادي الثالث.

أرز. 1.9 في الشكل العادي الثالث اسم المدرسةو اقليم جوغرافيانتقلت إلى الكيان ، حيث تعتمد قيمها على المفتاح.

علاقات كثير إلى كثير

علاقة الكثير للكثيرينتعكس حقيقة البيئة. لاحظ أنه في الشكل 1.9 توجد علاقة أطراف بأطراف بين شخصو المدرسة. النسبة تعكس بدقة حقيقة أن شخصيمكن أن تدرس في كثير المدارسو في المدرسةيمكن أن تتعلم الكثير شخص.لتحقيق النموذج العادي الرابع ، يتم إنشاء كيان ترابطي يلغي العلاقة الأحادية بأطراف من خلال إنشاء إدخال منفصل لكل مجموعة فريدة من المدرسة والشخص. يوضح الشكل 1.10 النموذج في الشكل الرابع العادي.

أرز. 1.10 في الشكل الرابع العادي ، العلاقة الأحادية بأطراف بين شخصو المدرسةيتم حلها من خلال إدخال كيان ترابط ، حيث يتم تخصيص إدخال منفصل لكل مجموعة فريدة المدارسو الأشخاص.

التعاريف الرسمية للأشكال العادية

قد تبدو التعاريف التالية للأشكال العادية مخيفة. فكر فيهم ببساطة كصيغ لتحقيق التطبيع. تعتمد الأشكال العادية على الجبر العلائقي ويمكن تفسيرها على أنها تحويلات رياضية. على الرغم من أن هذا الكتاب لا يغطي مناقشة تفصيلية للنماذج العادية ، إلا أنه يتم تشجيع واضعي النماذج على التعمق في هذا الموضوع.

في علاقة معينة R ، تعتمد السمة Y وظيفيًا على السمة X. رمزياً ، RX -> RY (يُقرأ على أنه "RX يحدد RY وظيفيًا") إذا وفقط إذا كانت كل قيمة X في R مرتبطة بقيمة Y واحدة بالضبط في R ( في أي وقت). السمتان X و Y يمكن أن تكونا مركبتين (Date KJ مقدمة لأنظمة قواعد البيانات. الطبعة السادسة. Ed. Williams: 1999، 848 pp.).

تكون العلاقة R في الشكل العادي الأول (1NF) فقط إذا وفقط إذا كانت جميع مجالاتها تحتوي على قيم ذرية فقط (التاريخ ، المرجع نفسه).

تكون العلاقة R في الشكل العادي الثاني (2NF) إذا وفقط إذا كانت في 1NF وكل سمة غير رئيسية تعتمد بشكل كامل على المفتاح الأساسي (التاريخ ، المرجع نفسه).

تكون العلاقة R في النموذج العادي الثالث (3NF) إذا وفقط إذا كانت في 2NF وكل سمة غير رئيسية لا تعتمد بشكل انتقالي على المفتاح الأساسي (التاريخ ، المرجع نفسه).

تكون العلاقة R في شكل Boyce-Codd العادي (BCNF) إذا وفقط إذا كان كل محدد مرشحًا للاستخدام كمفتاح.

ملاحظة فيما يلي شرح موجز لبعض الاختصارات المستخدمة في تعريفات التاريخ.

MVD (تبعية متعددة القيم) - تبعية متعددة القيم. يُستخدم فقط للكيانات التي تحتوي على ثلاث سمات أو أكثر. في التبعية متعددة القيم ، تعتمد قيمة السمة على جزء فقط من المفتاح الأساسي.

FD (التبعية الوظيفية) - التبعية الوظيفية. في التبعية الوظيفية ، تعتمد قيمة السمة على قيمة سمة أخرى ليست جزءًا من المفتاح الأساسي.

دينار (تبعية الانضمام) - ضم التبعية. في تبعية الانضمام ، يمكن تتبع المفتاح الأساسي للكيان الأصلي إلى المستوى الثالث على الأقل من التوابع مع الاحتفاظ بإمكانية استخدامها في ارتباط المفتاح الأصلي.

تكون العلاقة في الشكل الرابع العادي (4NF) إذا وفقط إذا كان هناك MVD في R ، مثل A®B. في هذه الحالة ، تعتمد جميع سمات R وظيفيًا على A. وبعبارة أخرى ، لا يوجد في R سوى تبعيات (FD أو MVD) من النموذج K®X (أي الاعتماد الوظيفي للسمة X على المرشح للاستخدام كمفتاح K). وفقًا لذلك ، يلبي R متطلبات 4NF إذا كان يتوافق مع BCNF وجميع MVDs هي في الواقع FDs (التاريخ ، المرجع نفسه).

بالنسبة للصيغة العادية الخامسة ، تفي العلاقة R بعلاقة الاتحاد (JD) * (X ، Y ، ... ، Z) إذا وفقط إذا كانت R مكافئة لإسقاطاتها على X ، Y ، ... ، Z ، حيث X ، Y ، .. ، Z مجموعات فرعية من مجموعة السمات R.

هناك العديد من الأشكال العادية الأخرى لأنواع البيانات المعقدة والمواقف المحددة التي تتجاوز نطاق مناقشتنا. يرغب كل متحمس لتطوير النموذج في استكشاف الأشكال العادية الأخرى.

النماذج العادية للأعمال

في كتابه Clive Finklestein (Finklestein Cl. مقدمة لهندسة المعلومات: من التخطيط الاستراتيجي إلى نظم المعلومات ، القراءة ، ماساتشوستس: أديسون ويسلي ، 1989) اتخذ نهجًا مختلفًا للتطبيع. يحدد أشكال العمل العادية من حيث التخفيضات على تلك الأشكال. يجد العديد من واضعي النماذج أن هذا النهج أكثر سهولة وواقعية.

يعيّن النموذج العادي للأعمال الأول (1BNF) المجموعات المكررة إلى كيان آخر. يحصل هذا الكيان على اسمه الخاص والسمات الأساسية (المركبة) الأساسية من الكيان الأصلي ومجموعة التكرار الخاصة به.

يعيّن النموذج العادي للأعمال الثاني (2BNF) السمات التي تعتمد جزئيًا على مفتاح أساسي لكيان آخر. المفتاح الأساسي (المركب) لهذا الكيان هو المفتاح الأساسي للكيان الذي أقام فيه في الأصل ، إلى جانب المفاتيح الإضافية التي تعتمد عليها السمة بالكامل.

ينقل النموذج العادي للأعمال الثالث (3BNF) السمات التي لا تعتمد على المفتاح الأساسي إلى كيان آخر ، حيث تعتمد بشكل كامل على المفتاح الأساسي لهذا الكيان.

النموذج الرابع للأعمال العادية (4BNF) يعيّن السمات التي تعتمد على قيمة المفتاح الأساسي أو اختيارية لكيان ثانوي ، حيث تعتمد كليًا على قيمة المفتاح الأساسي ، أو حيث يجب أن تكون (إلزاميًا) موجودة في هذا الكيان .

يظهر النموذج العادي للأعمال الخامس (5BNF) ككيان هيكلي إذا كان هناك تبعية تكرارية أو تبعية أخرى بين مثيلات كيان ثانوي ، أو في حالة وجود تبعية متكررة بين مثيلات كيانها الأساسي.

نموذج بيانات منطقي مكتمل

يجب أن يفي النموذج المنطقي المكتمل بمتطلبات نموذج العمل العادي الثالث وأن يشمل جميع الكيانات والسمات والعلاقات اللازمة لدعم متطلبات البيانات وقواعد العمل المرتبطة بالبيانات.

يجب أن يكون لجميع الكيانات أسماء تصف المحتوى ووصفًا أو تعريفًا واضحًا وموجزًا ​​وكاملًا. في أحد المنشورات التالية ، سيتم النظر في مجموعة أولية من التوصيات للتشكيل الصحيح لأسماء وأوصاف الكيانات.

يجب أن يكون للكيانات مجموعة كاملة من السمات ، بحيث يمكن تمثيل كل حقيقة عن كل كيان بسماته. يجب أن يكون لكل سمة اسم يعكس قيمها ، ونوع بيانات منطقي ، ووصف أو تعريف واضح وقصير وكامل. في أحد المنشورات التالية ، سننظر في المجموعة الأولية من التوصيات للتشكيل الصحيح لأسماء وأوصاف السمات.

يجب أن تتضمن العلاقات بناء الفعل الذي يصف العلاقة بين الكيانات ، إلى جانب خصائص مثل التعددية ، والحاجة إلى الوجود ، أو احتمال عدم وجود العلاقة.

ملاحظة تعدد تصف العلاقات الحد الأقصى لعدد مثيلات الكيان الثانوي التي يمكن إقرانها بمثيل الكيان الأصلي.الحاجة للوجود أوإمكانية الغياب تُستخدم العلاقة لتحديد الحد الأدنى لعدد مثيلات الكيان الثانوي التي يمكن إقرانها بمثيل للكيان الأصلي.

نموذج البيانات المادية

بعد إنشاء نموذج منطقي كامل ومناسب ، تكون مستعدًا لاتخاذ قرار بشأن اختيار منصة التنفيذ. يعتمد اختيار النظام الأساسي على متطلبات استخدام البيانات والمبادئ الإستراتيجية لهيكل المنظمة. اختيار المنصة هو قضية معقدة خارج نطاق هذا الكتاب.

في ERwin ، النموذج المادي هو تمثيل رسومي لقاعدة البيانات الفعلية. ستتألف قاعدة البيانات المادية من جداول وأعمدة وعلاقات. يعتمد النموذج المادي على النظام الأساسي المختار للتنفيذ ومتطلبات استخدام البيانات. سيكون النموذج المادي لـ IMS مختلفًا تمامًا عن نفس النموذج لـ Sybase. سيبدو النموذج المادي لتقارير OLAP مختلفًا عن نموذج OLTP (معالجة المعاملات عبر الإنترنت).

يستخدم مصمم البيانات ومسؤول قاعدة البيانات (DBA) النموذج المنطقي ، ومتطلبات الاستخدام ، والمبادئ الإستراتيجية لبنية الشركة لتطوير نموذج البيانات المادية. يمكنك إلغاء تنسيق نموذج الفيزياء لتحسين الأداء وإنشاء طرق عرض لدعم متطلبات الاستخدام. توضح الأقسام التالية بالتفصيل عملية إلغاء التطابق وإنشاء العرض.

يقدم هذا القسم نظرة عامة على عملية بناء نموذج مادي ، وجمع المتطلبات لاستخدام البيانات ، وتحديد مكونات النموذج المادي والهندسة العكسية. سيتم تغطية هذه القضايا بمزيد من التفصيل في المنشورات المستقبلية.

جمع متطلبات استخدام البيانات

عادةً ما تقوم بجمع متطلبات استخدام البيانات مبكرًا أثناء المقابلات وجلسات العمل. في الوقت نفسه ، يجب أن تحدد المتطلبات استخدام البيانات من قبل المستخدم على أكمل وجه ممكن. يمكن أن تؤدي المواقف السطحية والثغرات في النموذج المادي إلى تكاليف غير مخطط لها وتأخير المشروع. تشمل متطلبات الاستخدام ما يلي:

    متطلبات الوصول والأداء

    الخصائص الحجمية (تقدير كمية البيانات المراد تخزينها) ، والتي تسمح للمسؤول بتمثيل الحجم المادي لقاعدة البيانات

    تقدير لعدد المستخدمين الذين يحتاجون إلى الوصول إلى البيانات بشكل متزامن ، مما يساعدك على تصميم قاعدة البيانات الخاصة بك للحصول على مستوى أداء مقبول

    الملخص والملخص والبيانات الأخرى المحسوبة أو المشتقة التي يمكن اعتبارها مرشحة للتخزين في هياكل بيانات دائمة

    متطلبات إنشاء التقارير والاستعلامات القياسية لمساعدة مسؤول قاعدة البيانات في بناء الفهارس

    طرق العرض (الدائمة أو الافتراضية) التي ستساعد المستخدم في إجراء عمليات دمج البيانات أو تصفيتها.

بالإضافة إلى الرئيس والسكرتير والمستخدمين ، يجب أن تتضمن جلسة متطلبات الاستخدام المصمم ومسؤول قاعدة البيانات ومهندس قاعدة البيانات. يجب مناقشة متطلبات المستخدم للبيانات التاريخية. طول الوقت الذي يتم فيه تخزين البيانات له تأثير كبير على حجم قاعدة البيانات. في كثير من الأحيان ، يتم تخزين البيانات القديمة في شكل مجمع ، ويتم أرشفة البيانات الذرية أو حذفها.

يجب على المستخدمين إحضار نماذج من الاستعلامات والتقارير معهم إلى الجلسة. يجب أن تكون التقارير محددة بدقة ويجب أن تتضمن القيم الذرية المستخدمة لأي حقول ملخص أو ملخص.

مكونات نموذج البيانات المادية

مكونات نموذج البيانات الفعلية هي الجداول والأعمدة والعلاقات. من المحتمل أن تصبح الكيانات في النموذج المنطقي جداول في النموذج المادي. سوف تصبح السمات المنطقية أعمدة. ستصبح العلاقات المنطقية قيودًا على سلامة العلاقات. لا يمكن تنفيذ بعض العلاقات المنطقية في قاعدة بيانات فعلية.

الهندسة العكسية

عندما لا يتوفر النموذج المنطقي ، يصبح من الضروري إعادة إنشاء النموذج من قاعدة البيانات الحالية. في ERwin ، تسمى هذه العملية الهندسة العكسية. يمكن إجراء الهندسة العكسية بعدة طرق. يمكن للمصمم استكشاف هياكل البيانات في قاعدة البيانات وإعادة إنشاء الجداول في بيئة النمذجة المرئية. يمكنك استيراد لغة تعريف البيانات (DDL) إلى أداة تدعم الهندسة العكسية (مثل Erwin). تتضمن الأدوات المتقدمة مثل ERwin وظائف توفر اتصال ODBC بقاعدة بيانات موجودة لإنشاء نموذج عن طريق قراءة هياكل البيانات مباشرة. ستتم مناقشة الهندسة العكسية باستخدام ERwin بالتفصيل في منشور مستقبلي.

استخدام الحدود الوظيفية للشركات

عند بناء نموذج منطقي ، من المهم أن يتأكد المصمم من أن النموذج الجديد يطابق نموذج المؤسسة. يعني استخدام الحدود الوظيفية للشركة نمذجة البيانات من حيث المصطلحات المستخدمة داخل الشركة. تتغير طريقة استخدام البيانات في الشركة بشكل أسرع من البيانات نفسها. في كل نموذج منطقي ، يجب تمثيل البيانات بشكل كلي ، بغض النظر عن مجال الأعمال الذي تدعمه. يجب أن تحدد الكيانات والسمات والعلاقات قواعد العمل على مستوى الشركة.

ملاحظة يشير بعض زملائي إلى هذه الحدود الوظيفية للشركات كنمذجة في العالم الحقيقي. تشجع النمذجة الواقعية المصمم على عرض المعلومات من حيث علاقاته وعلاقاته في الحياة الواقعية.

يوفر استخدام الحدود الوظيفية للشركة لنموذج بيانات تم إنشاؤه بشكل صحيح إطارًا لدعم احتياجات المعلومات لأي عدد من العمليات والتطبيقات ، مما يمكّن الشركة من استغلال أحد أصولها الأكثر قيمة ، المعلومات بشكل أكثر فعالية.

ما هو نموذج بيانات المؤسسة؟

نموذج بيانات المؤسسة (EDM)يحتوي على الكيانات والسمات والعلاقات التي تمثل احتياجات المعلومات للشركة. عادة ما يتم تقسيم EDM إلى مجالات موضوعية ، والتي تمثل مجموعات من الكيانات ذات الصلة بدعم احتياجات العمل المحددة. قد تغطي بعض المجالات الموضوعية وظائف عمل محددة مثل إدارة العقود ، وقد يقوم البعض الآخر بتجميع الكيانات التي تصف المنتجات أو الخدمات.

يجب أن يتوافق كل نموذج منطقي مع مجال نموذج بيانات مؤسسي موجود. إذا كان النموذج المنطقي لا يفي بهذا المطلب ، فيجب إضافة نموذج يحدد نطاق الموضوع إليه. تضمن هذه المقارنة تحسين نموذج الشركة أو تعديله وتنسيق جميع جهود النمذجة المنطقية داخل الشركة.

EDMيتضمن أيضًا كيانات محددة تحدد نطاق القيم للسمات الرئيسية. هذه الكيانات ليس لها آباء ويتم تعريفها على أنها مستقلة. غالبًا ما تستخدم الكيانات المستقلة للحفاظ على سلامة العلاقات. يتم تحديد هذه الكيانات بواسطة عدة أسماء مختلفة ، مثل جداول التعليمات البرمجية أو جداول الارتباط أو جداول النوع أو جداول التصنيف. سوف نستخدم مصطلح "كائن أعمال الشركة". كائن أعمال المؤسسة هو كيان يحتوي على مجموعة من قيم السمات المستقلة عن أي كيان آخر. يجب استخدام كائنات أعمال المؤسسة داخل الشركة بشكل متسق.

بناء نموذج بيانات مؤسسي عن طريق القياس

هناك منظمات تم فيها بناء نموذج الشركة من البداية إلى النهاية نتيجة جهد واحد منسق. من ناحية أخرى ، تبني معظم المنظمات نماذج مؤسسة كاملة إلى حد ما من خلال البناء.

النمو يعني بناء شيء ما ، طبقة بعد طبقة ، تمامًا كما ينمو المحار لؤلؤة. يوفر كل نموذج بيانات تم إنشاؤه مدخلات لتشكيل EDM. يتطلب إنشاء EDM بهذه الطريقة خطوات نمذجة إضافية لإضافة هياكل ومجالات بيانات جديدة أو توسيع هياكل البيانات الحالية. هذا يجعل من الممكن بناء نموذج بيانات المؤسسة من خلال البناء ، وإضافة مستويات من التفاصيل والتحسين بشكل متكرر.

مفهوم منهجية النمذجة

هناك عدة منهجيات لنمذجة البيانات المرئية. يدعم ERwin اثنين:

    IDEF1X (تعريف التكامل لنمذجة المعلومات - وصف متكامل لنماذج المعلومات).

    IE (هندسة المعلومات - هندسة المعلومات).

IDEF1X هي منهجية جيدة ويستخدم تدوينها على نطاق واسع

وصف متكامل لنماذج المعلومات

IDEF1X عبارة عن منهجية عالية التنظيم لنمذجة البيانات تعمل على توسيع منهجية IDEF1 المعتمدة كمعيار FIPS (معايير معالجة المعلومات الفيدرالية). يستخدم IDEF1X مجموعة شديدة التنظيم من أنواع إنشاءات النمذجة والنتائج في نموذج بيانات يتطلب فهم الطبيعة المادية للبيانات قبل إتاحة هذه المعلومات.

يجبر الهيكل الصلب لـ IDEF1X المصمم على تعيين خصائص للكيانات التي قد لا تتوافق مع حقائق العالم من حولهم. على سبيل المثال ، يتطلب IDEF1X أن تكون جميع الأنواع الفرعية للكيانات حصرية. هذا يؤدي إلى حقيقة أن الشخص لا يمكن أن يكون عميلًا وموظفًا في نفس الوقت. بينما تخبرنا الممارسة الحقيقية بخلاف ذلك.

هندسة المعلومات

غالبًا ما يُشار إلى كليف فينكلستين على أنه أب هندسة المعلومات ، على الرغم من أن جيمس مارتن شاركه في مفاهيم مماثلة (مارتن ، جيمس. إدارة بيئة قاعدة البيانات. نهر السرج العلوي ، نيو جيرسي: برنتيس هول ، 1983.). تستخدم هندسة المعلومات نهجًا مدفوعًا بالأعمال لإدارة المعلومات وتستخدم ترميزًا مختلفًا لتمثيل قواعد العمل. يعمل IE كامتداد وتطوير للتدوين والمفاهيم الأساسية لمنهجية ER التي اقترحها Peter Chen.

يوفر IE البنية التحتية لدعم متطلبات المعلومات من خلال دمج التخطيط الاستراتيجي المؤسسي مع أنظمة المعلومات التي يتم تطويرها. هذا التكامل يجعل من الممكن ربط إدارة موارد المعلومات بشكل أوثق مع الآفاق الاستراتيجية طويلة الأجل للشركة. يقود هذا النهج القائم على الأعمال العديد من المصممين إلى اختيار IE على المنهجيات الأخرى التي تركز بشكل أساسي على حل مشاكل التطوير الفورية.

يوفر IE سير عمل يقود الشركة إلى تحديد جميع احتياجاتها من المعلومات لجمع البيانات وإدارتها وتحديد العلاقات بين كائنات المعلومات. نتيجة لذلك ، يتم توضيح متطلبات المعلومات بناءً على توجيهات الإدارة ويمكن ترجمتها مباشرة إلى نظام معلومات إدارة يدعم احتياجات المعلومات الاستراتيجية.

استنتاج

إن فهم كيفية استخدام أداة نمذجة البيانات مثل ERwin ليس سوى جزء من المشكلة. بالإضافة إلى ذلك ، يجب أن تفهم متى يتم تنفيذ مهام نمذجة البيانات وكيف يتم تجميع متطلبات المعلومات وقواعد العمل ليتم تمثيلها في نموذج البيانات. يوفر عقد جلسات العمل أفضل الظروف لجمع متطلبات المعلومات في بيئة تضم خبراء متخصصين ومستخدمين ومتخصصين في تكنولوجيا المعلومات.

يتطلب بناء نموذج بيانات جيد تحليل وبحث متطلبات المعلومات وقواعد العمل التي تم جمعها أثناء جلسات العمل والمقابلات. يجب مقارنة نموذج البيانات الناتج بنموذج المؤسسة ، إن أمكن ، للتأكد من أنه لا يتعارض مع نماذج الكائنات الحالية ويتضمن جميع الكائنات المطلوبة.

يتكون نموذج البيانات من نماذج منطقية ومادية تمثل متطلبات المعلومات وقواعد العمل. يجب تقليل النموذج المنطقي إلى النموذج العادي الثالث. يحد النموذج العادي الثالث ويضيف ويحدّث ويزيل الشذوذ في بنية البيانات لدعم مبدأ "حقيقة واحدة ، مكان واحد". يجب تحليل وبحث متطلبات المعلومات التي تم جمعها وقواعد العمل. يجب مقارنتها بنموذج المؤسسة للتأكد من أنها لا تتعارض مع نماذج الكائن الحالية وأنها تشمل جميع الكائنات المطلوبة.

في ERwin ، يتضمن نموذج البيانات كلا من النماذج المنطقية والفيزيائية. يطبق ERwin نهج التقارير الإلكترونية ويسمح لك بإنشاء كائنات نموذج منطقي ومادي لتمثيل متطلبات المعلومات وقواعد العمل. تتضمن كائنات النموذج المنطقي الكيانات والسمات والعلاقات. تتضمن كائنات النموذج المادي الجداول والأعمدة وقيود تكامل العلاقات.

في أحد المنشورات التالية ، سيتم النظر في قضايا تحديد الكيانات ، وتحديد أنواع الكيانات ، واختيار أسماء الكيانات والأوصاف ، بالإضافة إلى بعض الحيل لتجنب أخطاء النمذجة الأكثر شيوعًا المرتبطة باستخدام الكيانات.

يجب أن يكون للكيانات مجموعة كاملة من السمات ، بحيث يمكن تمثيل كل حقيقة عن كل كيان بسماته. يجب أن يكون لكل سمة اسم يعكس قيمها ، ونوع بيانات منطقي ، ووصف أو تعريف واضح وقصير وكامل. في أحد المنشورات التالية ، سننظر في المجموعة الأولية من التوصيات للتشكيل الصحيح لأسماء وأوصاف السمات. يجب أن تتضمن العلاقات بناء الفعل الذي يصف العلاقة بين الكيانات ، إلى جانب خصائص مثل التعددية ، والحاجة إلى الوجود ، أو احتمال عدم وجود العلاقة.

ملاحظة تعدد تصف العلاقات الحد الأقصى لعدد مثيلات الكيان الثانوي التي يمكن إقرانها بمثيل الكيان الأصلي.ضرورة الوجود أو احتمالية الغياب يتم استخدام العلاقة لتحديد الحد الأدنى لعدد مثيلات الكيان الثانوي التي يمكن إقرانها بمثيل من الأصل

للبيع ، عليك أن تفهم ما تبيعه.

دعونا نحدد المصطلحات والمفاهيم. ( مستودع البيانات) ليس نظامًا لمؤشرات الأداء الرئيسية (KPI ، KPI) ، هذه ليست قاعدة بيانات كبيرة ، هذا ليس تحليليًا أداة OLAP، هذا ليس نظامًا ذكيًا يسمح لك باستخراج بيانات جديدة والحصول على تبعيات إحصائية ، هذا ليس نظامًا لبيانات مرجعية واحدة - هذا ليس مستودع بيانات ، إذا تحدثنا عنه في سياق عنصر واحد.

مستودع بيانات المؤسسةهذه مجموعة بيانات منظمة بشكل خاص لمؤسسة (مؤسسة) ، تتم معالجتها وتخزينها في مجمع واحد للأجهزة والبرامج ، مما يوفر وصولاً سريعًا إلى المعلومات التشغيلية والتاريخية ، وتحليل البيانات متعدد الأبعاد (KPI للقياسات المختلفة) ، والحصول على التوقعات والإحصاءات في سياق المعلومات المرجعية التنظيمية المتفق عليها (NSI).

العملاء المحتملون لمخزن بيانات الشركة وما الذي سيحصلون عليه؟

كيفية تحديد عملاء الشركات المحتملين الذين يحتاجون إلى مستودع بيانات؟

  1. بادئ ذي بدء ، يجب أن تظهر الكثير من المعلومات في الأنشطة اليومية للشركة. يمكن أن يكون هذا مكالمات هاتفية ، ومعاملات مالية ، وشكاوى / مراجعات العملاء ، وطلبات شحن العملاء ، ومعلومات من أقمار التجسس الصناعية ، وما إلى ذلك. من حيث المبدأ ، أي شيء ، الشيء الرئيسي هو أن هناك الكثير من البيانات.
  2. يجب أن يكون لدى العميل المحتمل الرغبة في رؤية هذه المعلومات وتحليلها. في الوقت نفسه ، يجب أن تكون فترة التحليل طويلة جدًا - من يوم أو حتى ساعة ، إلى تحليل لعدة سنوات.
  3. يجب أن يكون لدى العميل بنية أساسية تعمل بشكل طبيعي (يجب ألا تكون هناك خوادم متصلة بواسطة زوج مجدول أو منفذ USB). إذا لم يكن لدى العميل بنية تحتية ، فعليه بيعها.

ما الفوائد التي يجنيها العميل من تنفيذ مستودع بيانات المؤسسة؟

  1. يظهر نظام تخزين معلومات موحد لبيانات الشركة ، حيث يتم استخدام معلومات مرجعية واحدة.
  2. هناك فرصة لإجراء تحليل شامل للأعمال. على سبيل المثال: أي العملاء هم الأكثر ربحية وربحية ؛ ما الخدمة ، أي العملاء هم الأكثر طلبًا ، وما نوع المطالبات الأكثر شيوعًا وفي أي مناطق ، وما إلى ذلك.
  3. يصبح من الممكن إجراء تحليل باستخدام البيانات التاريخية. في كثير من الأحيان ، لا تسمح الأنظمة التشغيلية (أتمتة العمليات التجارية اليومية) بذلك ، فهي ببساطة لا تملك مساحة كافية لتخزين التاريخ والقدرة على إجراء التحليل.
  4. يصبح من الممكن توصيل وتحليل المعلومات المخزنة مسبقًا في أنظمة المعلومات المختلفة. على سبيل المثال ، يتم تخزين بيانات حركة المرور الخاصة بالفروع المختلفة في أنظمة الفوترة من مطورين مختلفين. بعد تنفيذ مستودع البيانات ، يصبح من الممكن تحليلها معًا في تقرير واحد.
  5. يصبح من الممكن تحليل وعبور أنواع مختلفة من البيانات. على سبيل المثال ، الأموال وحركة المرور وعدد الموظفين وعدد حالات الرفض أو المطالبات ، إلخ.
  6. هناك أساس لحساب تكلفة الخدمات بشكل أفضل - على أساس المعلومات من مستودع بيانات الشركة ، من الممكن الحصول على بيانات أكثر ملاءمة لقواعد التوزيع الطبيعي.

ما هو مستودع بيانات الشركة

ما المكونات التي يبنيها مستودع بيانات الشركة من وجهة نظر فنية؟

عناصر مستودع بيانات الشركات الشركات

  1. لدى العميل دائمًا أنظمة تشغيل - مصادر البياناتلمستودع بيانات الشركات. هذه ، على سبيل المثال ، المحاسبة والفواتير والخدمات المصرفية وما إلى ذلك. أنظمة.
  2. استخدام تطبيق ETL(برنامج يسمح لك باستخراج البيانات وتحويلها وتحميلها) ، تدخل البيانات من أنظمة المصدر قاعدة بيانات مستودع البيانات. يمكن استخدام ما يلي كأداة ETL: Informatica Power Center و IBM DataStage و Oracle Data Integrator و Oracle WareHouse Builder. هناك أيضًا منتجات من بائعين آخرين ، لكنها غير ممثلة تقريبًا في السوق الروسية.
  3. بحد ذاتها قاعدة البياناتتخزين الشركة ليس مجرّدًا في هيكله (مجموعة من الجداول والحقول الموجودة فيها والعلاقات بين الجداول) ، ولكن يتم إنشاؤه على أساس نماذج البيانات. الغالبية العظمى من قواعد البيانات تستخدم إما Oracle أو Teradata.
  4. نموذج البياناتهو وصف لجميع الكيانات وكائنات قاعدة البيانات لمستودع بيانات الشركة وتشمل: نموذج البيانات المفاهيمي ، نموذج البيانات المنطقي ، والفيزيائي نموذج قاعدة البيانات . على مستوى النموذج المفاهيمي ، يتم تحديد الكيانات والعلاقات فيما بينها. على مستوى النموذج المنطقي ، يتم تقسيم الكيانات إلى مجالات عمل ، ويتم إعطاؤها وصفًا مفصلاً وكاملاً ، ويتم تحديد العلاقات. عند تطوير نموذج قاعدة بيانات فعلية ، يتم تحديد بنية قاعدة البيانات بالكامل - من الجداول والحقول الموجودة فيها ، إلى الأقسام والفهارس. نماذج البياناتتقوم شركة IBM و SAP و Oracle بتزويد السوق اليوم ، لكن شراء نموذج بيانات لا يعني إنشاء متجر المؤسسات المناسب تلقائيًا.نموذج البياناتهذا ليس منتج محاصر. يجب تعديله ليناسب احتياجات عميل معين.
  5. علاوة على ذلك ، تستخدم بالفعل البيانات من مستودع بيانات الشركة ، ومجالات التحليل وإعداد التقارير و سوق البيانات. بعد ذلك ، يمكن للمستخدمين إنشاء التقارير اللازمة بشكل مستقل وإجراء تحليل متعدد المتغيرات. تستخدم Business Objects و Oracle Discoverer و IBM AlphaBlocks وغيرها من المنتجات بشكل أساسي كأدوات تحليل.

كيف تبدو مكونات مستودع بيانات المؤسسة (نموذج البيانات ، عمليات ETL ، مجموعات البيانات)

دعنا نعطي أمثلة توضيحية لنموذج البيانات ، وتنفيذ عملية ETL ، وشكل الدعم لبيانات مرجعية واحدة ، ومجمعات البيانات.


نموذج المنطقالبيانات.
يحدد الكيانات وصفاتها والعلاقات فيما بينها.


عملية ETLإزالة التكرارات في بيانات المصدر


استمارة إدخال البيانات لتشكيل دليل واحد


مارت البياناتفي شكل تقرير جدولي


مارت البياناتمع الرسومات والألوان
إخراج البيانات حسب شرط معين


مارت البياناتمع الجدول الزمني

البرامج والأجهزة ذات الصلة

بادئ ذي بدء ، بالإضافة إلى الخدمات نفسها لتطوير مستودع بيانات الشركة ، تُباع التراخيص أيضًا لكل من برامج الخادم (نظام التشغيل ، وقاعدة البيانات ، وخادم التطبيقات ، وما إلى ذلك) ومواقع العملاء (أدوات الحماية والأمان من الفيروسات) .

من الممكن ألا تكون الخوادم الحالية للعميل مصممة لنشر مستودع البيانات. من الضروري تقديم متطلبات لهم وبيع الأجهزة لعميل محتمل.

بالإضافة إلى الخوادم نفسها ، هناك حاجة إلى مصفوفات القرص لتخزين قدر كبير من المعلومات.

بهدف بناء مستودع بيانات الشركة ، لا يفهم العميل المحتمل دائمًا كيف سيوفر التكرار. في كثير من الأحيان ، لا تستطيع أنظمة النسخ الاحتياطي الحالية للعميل توصيل أحجام البيانات في وقت واحد من 20 إلى 30 تيرابايت بالنسخة الاحتياطية.

كقاعدة عامة ، يحتاج المتخصصون والمستخدمون للعميل إلى دورات تدريبية.

كوفتون م. أغسطس 2010

إرسال عملك الجيد في قاعدة المعرفة أمر بسيط. استخدم النموذج أدناه

سيكون الطلاب وطلاب الدراسات العليا والعلماء الشباب الذين يستخدمون قاعدة المعرفة في دراساتهم وعملهم ممتنين جدًا لك.

نشر على http://www.allbest.ru/

  • 1. نموذج البيانات العلائقية
    • 1.1 نموذج البيانات العلائقية. التعاريف الأساسية
    • 1.2 العمليات على العلاقات
  • 2. نظم معلومات الشركات
  • فهرس

1. نموذج البيانات العلائقية

1.1 نموذج البيانات العلائقية. التعاريف الأساسية

في التخصصات الرياضية ، يتوافق مفهوم "الجدول" مع مفهوم "العلاقة" (العلاقة). يعكس الجدول كائنًا حقيقيًا - كيانًا ، ويعكس كل صف من صفوفه مثيلًا محددًا للكيان. كل عمود له اسم فريد للجدول. السلاسل ليس لها أسماء ، وترتيبها غير محدد ، ورقمها غير محدود منطقيًا. إحدى المزايا الرئيسية لنموذج البيانات العلائقية هي التجانس (كل صف في الجدول له تنسيق واحد). يقرر المستخدم بنفسه ما إذا كانت الكيانات المقابلة لها تجانس. هذا يحل مشكلة ملاءمة النموذج.

مفاهيم أساسية:

* العلاقة هي جدول ثنائي الأبعاد يحتوي على بعض البيانات.

* الكيان - كائن من أي نوع ، يتم تخزين البيانات المتعلقة به في قاعدة البيانات. السمات - الخصائص التي تميز الكيان (الأعمدة).

* درجة العلاقة - عدد الأعمدة.

* مخطط العلاقة - قائمة بأسماء السمات ، على سبيل المثال ، الموظف (الرقم ، الاسم الكامل ، سنة الميلاد ، الوظيفة ، القسم).

* المجال - مجموعة من قيم سمات العلاقة (نوع البيانات).

* Tuple - صف الجدول.

* العلاقة الأساسية (القوة) - عدد الصفوف في الجدول.

* المفتاح الأساسي هو سمة تحدد بشكل فريد الصفوف في العلاقة. يسمى المفتاح الأساسي ذو السمات المتعددة المفتاح المركب. لا يمكن أن يكون المفتاح الأساسي فارغًا كليًا أو جزئيًا (له قيمة فارغة). تسمى المفاتيح التي يمكن استخدامها كمفاتيح أساسية مفاتيح مرشحة أو بديلة.

* المفتاح الخارجي هو سمة (سمات) لجدول ما يمكن أن تكون بمثابة مفتاح أساسي لجدول آخر. هو إشارة إلى المفتاح الأساسي لجدول آخر.

التطبيع هو عملية تهدف إلى تقليل تكرار المعلومات في قاعدة البيانات. بالإضافة إلى البيانات نفسها ، يمكن أيضًا تسوية العديد من الأسماء وأسماء الكائنات والتعبيرات في قاعدة البيانات.

تحتوي قاعدة البيانات غير الطبيعية على معلومات في جدول واحد أو أكثر ؛ هذا يخلق انطباعًا بأن تضمين البيانات في جدول معين لا يرجع إلى أي أسباب واضحة. يمكن أن يكون لهذه الحالة تأثير سلبي على أمان البيانات وإدارة مساحة القرص وسرعة الاستعلام وكفاءة تحديث قاعدة البيانات ، وربما الأهم من ذلك ، سلامة المعلومات المخزنة. قاعدة البيانات قبل التطبيع هي بنية لم يتم تقسيمها منطقيًا إلى جداول أصغر يمكن إدارتها.

النموذج العادي هو نوع من المؤشرات لمستوى أو عمق تسوية قاعدة البيانات. يتوافق مستوى التسوية لقاعدة البيانات مع الشكل العادي الذي توجد به.

1.2 العمليات على العلاقات

لتحويل جدول إلى أول نموذج عادي (1NF) ، يجب مراعاة قاعدتين:

1. الذرية أو عدم القابلية للتجزئة. يجب أن يحتوي كل عمود على قيمة واحدة غير قابلة للتجزئة.

2. يجب ألا يحتوي الجدول على أعمدة أو مجموعات بيانات متكررة.

على سبيل المثال ، إذا كان الجدول يحتوي على العنوان الكامل لشخص (شارع ، مدينة ، رمز بريدي) في حقل واحد ، فلن يتوافق مع قواعد 1NF ، لأنه سيحتوي على قيم مختلفة في عمود واحد ، والذي سيكون انتهاك لقاعدة الذرية. أو إذا كانت قاعدة البيانات تحتوي على بيانات حول الأفلام وتحتوي على أعمدة ممثل 1 ، ممثل 2 ، ممثل 3 ، فلن تتوافق أيضًا مع القواعد ، حيث سيكون هناك تكرار للبيانات.

يجب أن تبدأ التسوية بفحص بنية قاعدة البيانات من أجل التوافق مع 1NF. يجب تقسيم جميع الأعمدة غير الذرية إلى الأعمدة المكونة لها. إذا كان الجدول يحتوي على أعمدة مكررة ، فعليهم تخصيص جدول منفصل.

لتحويل جدول إلى أول نموذج عادي:

* ابحث عن جميع الحقول التي تحتوي على أجزاء متعددة من المعلومات.

* يجب وضع تلك البيانات التي يمكن تقسيمها إلى أجزاء مكونة في حقول منفصلة.

* نقل البيانات المكررة إلى جدول منفصل.

* تحقق مما إذا كانت جميع الجداول تتلاءم مع شروط النموذج العادي الأول.

لتحويل الجداول إلى النموذج العادي الثاني (2NF) ، يجب أن تكون الجداول الناتجة بالفعل في 1NF. يجب أن يتم التطبيع بالترتيب.

الآن ، في النموذج العادي الثاني ، يجب استيفاء الشرط - يجب أن يعتمد أي عمود ليس مفتاحًا (بما في ذلك العناصر الأجنبية) على المفتاح الأساسي. عادةً ما يكون من السهل تحديد هذه الأعمدة ، التي تحتوي على قيم لا تعتمد على المفتاح. إذا كانت البيانات الموجودة في عمود غير مرتبطة بالمفتاح الذي يصف الصف ، فيجب فصلها في جدول منفصل خاص بها. يجب إرجاع المفتاح الأساسي إلى الجدول القديم.

لتحويل القاعدة إلى الشكل العادي الثاني:

* حدد جميع الأعمدة التي لا تعتمد بشكل مباشر على المفتاح الأساسي لهذا الجدول.

* إنشاء الحقول الضرورية في جداول المستخدمين والمنتديات ، أو الاختيار من الحقول الموجودة أو إنشاء مفاتيح أساسية من الحقول الجديدة.

* يحتاج كل جدول إلى مفتاحه الأساسي

* إنشاء مفاتيح خارجية والإشارة إلى علاقاتها بين الجداول. ستكون الخطوة الأخيرة للتطبيع مع 2NF هي تخصيص المفاتيح الخارجية للاقتران بالجداول المرتبطة. يجب أن يكون المفتاح الأساسي لأحد الجداول هو مفتاح خارجي في آخر.

تلميحات:

هناك طريقة أخرى لإنشاء مخطط 2NF وهي النظر إلى العلاقات بين الجداول. الخيار المثالي هو إنشاء جميع العلاقات بين شخص وآخر. يجب إعادة هيكلة علاقات كثير إلى كثير.

لن يحتوي الجدول الذي تم تسويته بشكل صحيح على صفوف مكررة (صفان أو أكثر لا تمثل قيمهما مفاتيح وتحتويان على نفس البيانات).

ستكون قاعدة البيانات في النموذج العادي الثالث إذا تم تحويلها إلى النموذج العادي الثاني وكل عمود ليس به مفتاح مستقل عن الآخر. إذا تم اتباع عملية التطبيع بشكل صحيح حتى هذه النقطة ، فقد لا تكون هناك مشكلات في التخفيض إلى 3NF. يجب أن تدرك أنه يتم انتهاك 3NF إذا تطلب تغيير قيمة في عمود واحد تغييرًا في عمود آخر.

لتحويل القاعدة إلى النموذج العادي الثالث:

* تحديد المجالات التي يوجد فيها ترابط ، أي الحقول التي تعتمد على بعضها البعض أكثر من السلسلة ككل.

* إنشاء الجداول ذات الصلة. إذا كان هناك عمود به مشكلة في الخطوة 1 ، فأنشئ جداول منفصلة له.

* إنشاء أو تخصيص المفاتيح الأساسية. يجب أن يحتوي كل جدول على مفتاح أساسي.

* إنشاء المفاتيح الخارجية اللازمة التي تشكل أي من العلاقات.

في الشكل الرابع العادي ، هناك قاعدة إضافية تتمثل في استبعاد التبعيات متعددة القيم. بمعنى آخر ، يجب أن تكون جميع صفوف الجدول مستقلة عن بعضها البعض. لا ينبغي أن يعني وجود بعض الصفوف X أن الصف Y موجود أيضًا في مكان ما في هذا الجدول.

2. نظم معلومات الشركات

نظام بيانات النموذج العلائقي

النظام (من النظام اليوناني - الكل ، اتصال مكون من أجزاء) هو مجموعة من العناصر التي تتفاعل مع بعضها البعض ، وتشكل تكاملًا ووحدة معينة. فيما يلي بعض المفاهيم التي تُستخدم غالبًا لوصف النظام.

1. عنصر النظام - جزء من النظام له غرض وظيفي محدد. غالبًا ما تسمى العناصر المعقدة للأنظمة ، التي تتكون بدورها من عناصر مترابطة أبسط ، بالنظم الفرعية.

2. تنظيم النظام - النظام الداخلي ، الاتساق في تفاعل عناصر النظام ، والذي يتجلى ، على وجه الخصوص ، في الحد من تنوع حالات العناصر داخل النظام.

3. هيكل النظام - تكوين وترتيب ومبادئ تفاعل عناصر النظام ، والتي تحدد الخصائص الأساسية للنظام. إذا كانت العناصر الفردية للنظام مفصولة بمستويات مختلفة وكانت الروابط الداخلية بين العناصر منظمة فقط من المستويات الأعلى إلى الأدنى والعكس صحيح ، فإنهم يتحدثون عن هيكل هرمي للنظام. الهياكل الهرمية البحتة نادرة عمليًا ، لذلك ، توسيع هذا المفهوم إلى حد ما ، عادة ما يُفهم الهيكل الهرمي على أنه يعني مثل هذه الهياكل التي تكون فيها الروابط الهرمية ذات أهمية قصوى ، من بين الروابط الأخرى.

4. هندسة النظام - مجموعة من خصائص النظام الضرورية للمستخدم.

5. سلامة النظام - عدم الاختزال الأساسي لخصائص النظام إلى مجموع خصائص عناصره الفردية (ظهور الخصائص) ، وفي الوقت نفسه ، اعتماد خصائص كل عنصر على خصائصه. المكان والوظيفة داخل النظام.

نظام المعلومات هو مجموعة مترابطة من الوسائل والأساليب والأفراد المستخدمة لتخزين ومعالجة وإصدار المعلومات من أجل تحقيق الهدف "

ينص القانون الاتحادي "بشأن المعلومات والإعلام وحماية المعلومات" على التعريف التالي:

"نظام المعلومات هو مجموعة مرتبة تنظيميًا من المستندات (صفائف المستندات) وتقنيات المعلومات ، بما في ذلك استخدام تكنولوجيا الكمبيوتر وأدوات الاتصال التي تنفذ عمليات المعلومات"

تصنيف المقياس

حسب المقياس ، تنقسم أنظمة المعلومات إلى المجموعات التالية:

* غير مرتبط؛

* مجموعة؛

* شركة كبرى.

نظام معلومات الشركة هو نظام قابل للتطوير مصمم للأتمتة المعقدة لجميع أنواع الأنشطة الاقتصادية للمؤسسات الكبيرة والمتوسطة الحجم ، بما في ذلك الشركات التي تتكون من مجموعة من الشركات التي تتطلب إدارة موحدة.

يمكن اعتبار نظام معلومات الشركة نظامًا يقوم بأتمتة أكثر من 80٪ من أقسام الشركة.

في الآونة الأخيرة ، في العديد من المنشورات المخصصة لاستخدام تقنيات المعلومات في إدارة الأشياء الاقتصادية ، غالبًا ما يستخدم مصطلح "أنظمة معلومات الشركات" ، والذي يشير إلى أنظمة المعلومات الآلية الفعلية للأشياء الاقتصادية.

نظام المعلومات الآلي (AIS) هو مزيج من أنواع مختلفة من الدعم ، بالإضافة إلى المتخصصين المصممين لأتمتة معالجة المعلومات المحاسبية والتحليلية. تعد أنواع الدعم من حيث التكوين ، كقاعدة عامة ، متجانسة للأنظمة المختلفة ، مما يجعل من الممكن تنفيذ مبدأ توافق الأنظمة أثناء تشغيلها. في عملية دراسة AIS كنظام معقد ، من الضروري تحديد الأجزاء والعناصر الفردية والنظر في ميزات استخدامها في مراحل الإنشاء والتشغيل.

تعد أنظمة معلومات المؤسسة تطورًا لأنظمة مجموعات العمل ، فهي تركز على الشركات الكبيرة ويمكن أن تدعم العقد أو الشبكات المتفرقة جغرافيًا. في الأساس ، لديهم هيكل هرمي من عدة مستويات. تتميز هذه الأنظمة بهندسة العميل والخادم مع التخصص في الخوادم أو بنية متعددة المستويات. عند تطوير مثل هذه الأنظمة ، يمكن استخدام نفس خوادم قواعد البيانات كما هو الحال عند تطوير أنظمة معلومات المجموعة. ومع ذلك ، في أنظمة المعلومات الكبيرة ، فإن الخوادم الأكثر استخدامًا هي Oracle و DB2 و Microsoft SQL Server.

بالنسبة لأنظمة المجموعات والشركات ، يتم زيادة متطلبات موثوقية التشغيل وسلامة البيانات بشكل كبير. يتم توفير هذه الخصائص من خلال الحفاظ على سلامة البيانات والروابط والمعاملات في خوادم قاعدة البيانات.

التصنيف حسب النطاق

حسب نطاق نظم المعلومات تنقسم عادة إلى أربع مجموعات:

* أنظمة تسيير التحويلات؛

* أنظمة صنع القرار.

* نظم المعلومات والمراجع.

* نظم المعلومات المكتبية.

فهرس

1. أغالتسوف ، ف. قاعدة البيانات. في مجلدين V. 2. قواعد البيانات الموزعة والبعيدة: Textbook / V.P. اجالتسوف. - م: ID FORUM، SIC INFRA-M، 2013.

2. Golitsyna، O.L. قواعد البيانات: Textbook / O.L. جوليتسينا ، نيفادا ماكسيموف ، أنا. بوبوف. - م: المنتدى ، 2012.

3. Karpova، I.P. قواعد البيانات: Textbook / I.P. كاربوف. - سانت بطرسبرغ: بيتر ، 2013.

4. كيريلوف ، ف. مقدمة لقواعد البيانات العلائقية مقدمة لقواعد البيانات العلائقية V.V. كيريلوف ، ج. جروموف. - سانت بطرسبرغ: BHV-Petersburg ، 2012.

5. بيروجوف ، ف. نظم المعلومات وقواعد البيانات: التنظيم والتصميم: كتاب مدرسي / V.Yu. بيروجوف. - سانت بطرسبرغ: BHV- بطرسبورغ ، 2009.

6. G.N. فيدوروف. نظم المعلومات. - م: الأكاديمية ، 2013.

7. أ. ساتونينا ، لوس أنجلوس سيسويف. إدارة مشروع نظام معلومات الشركة للمؤسسة. - م: المالية والإحصاء ، Infra-M ، 2009.

استضافت على Allbest.ru

...

وثائق مماثلة

    جوهر وخصائص أنواع نماذج البيانات: الهرمية والشبكية والعلائقية. المفاهيم الأساسية لنموذج البيانات العلائقية. السمات ، مخطط علاقة قاعدة البيانات. شروط سلامة البيانات. العلاقات بين الجداول. أفكار عامة حول نموذج البيانات.

    ورقة المصطلح ، تمت إضافة 01/29/2011

    نظم معلومات الشركات وقواعد البيانات ، واستخدامها لتحسين وتصحيح الأعمال. تصنيف نظم معلومات الشركات. نظم المعلومات من فئة OLTP. المعالجة التحليلية التشغيلية.

    ورقة مصطلح ، تمت الإضافة في 01/19/2011

    قواعد البيانات ذات الملفات ثنائية الأبعاد وأنظمة إدارة قواعد البيانات العلائقية (DBMS). إنشاء قاعدة بيانات ومعالجة الاستعلامات لهم باستخدام نظم إدارة قواعد البيانات. الأنواع الأساسية لقواعد البيانات. المفاهيم الأساسية لقواعد البيانات العلائقية. الخصائص الأساسية للعلاقات.

    الملخص ، تمت الإضافة في 12/20/2010

    مفهوم نظام قاعدة البيانات. النموذج العلائقي وخصائصه. النزاهة في النموذج العلائقي. الجبر العلائقي. قضايا تصميم قاعدة البيانات. الأشكال الطبيعية للعلاقة. تصميم قاعدة بيانات باستخدام طريقة علاقة الكيانات. مخططات ER. لغة SQL.

    دورة محاضرات أضيفت في 03.10.2008

    هيكل منطقي محدد للبيانات المخزنة في قاعدة بيانات. نماذج البيانات الأساسية. عناصر نموذج البيانات العلائقية. مثال على استخدام المفاتيح الخارجية. المتطلبات الرئيسية لعلاقات نموذج البيانات العلائقية.

    عرض تقديمي ، تمت إضافة 10/14/2013

    قواعد البيانات واستخدامها في الحوسبة. الميزات والوحدة الهيكلية الأساسية لنموذج بيانات الشبكة. النموذج الهرمي ، كائنات المجال. النموذج العلائقي ، رؤيته ، عرض البيانات في شكل جدول.

    الملخص ، تمت الإضافة في 12/19/2011

    أنواع ووظائف نظام إدارة قواعد البيانات Microsoft Access. نموذج هرمي ، شبكي ، علائقي لوصف قاعدة البيانات. المفاهيم الأساسية لجدول قاعدة البيانات. ميزات إنشاء كائنات قاعدة البيانات والنماذج الأساسية. الوصول إلى الإنترنت في Access.

    التحكم في العمل ، تمت إضافة 01/08/2011

    نظم إدارة قواعد البيانات الحديثة (DBMS). تحليل نموذج البيانات الهرمي. نموذج البيانات العلائقية. نموذج بيانات ما بعد العلائقية كنموذج علائقي موسع يزيل قيود عدم قابلية البيانات المخزنة في سجلات الجدول للتجزئة.

    عمل علمي ، أضيف بتاريخ 06/08/2010

    نماذج البيانات في إدارة قواعد البيانات. نماذج البيانات المفاهيمية. دور قواعد البيانات في نظم المعلومات. نموذج البيانات العلائقية. تعريف مجال الموضوع. بناء نموذج قاعدة بيانات لنظام المعلومات "الحيوانات الأليفة".

    ورقة مصطلح ، تمت الإضافة بتاريخ 04/19/2011

    نموذج معلومات في Access كبديل مبسط لكائن أو نظام حقيقي. الهياكل الأساسية التي تحدد تنظيم البيانات والعلاقات فيما بينها ؛ النوع العلائقي لتنظيم البيانات. مثال على قاعدة بيانات في الضرائب.

زايتسيف S.L. ، دكتوراه.

تكرار المجموعات

المجموعات المكررة هي سمات يمكن أن تحتوي مثيل كيان واحد لها على أكثر من قيمة واحدة. على سبيل المثال ، قد يمتلك الشخص أكثر من مهارة. إذا احتجنا ، من حيث متطلبات العمل ، إلى معرفة مستوى المهارة للجميع ، ويمكن لكل شخص امتلاك مهارتين فقط ، فيمكننا إنشاء الكيان الموضح في الشكل. 1.6 هنا الكيان شخصمع سمتين لتخزين المهارات ومستويات المهارة لكل منهما.

أرز. 1.6 يستخدم هذا المثال مجموعات متكررة.

مشكلة تكرار المجموعات هي أننا لا نستطيع أن نعرف بالضبط عدد المهارات التي قد يمتلكها الشخص. في الحياة الواقعية ، يمتلك بعض الأشخاص مهارة واحدة ، والبعض الآخر يمتلك عدة مهارات ، والبعض الآخر لا يمتلك أي مهارة حتى الآن. يوضح الشكل 1.7 النموذج الذي تم تقليله إلى أول شكل عادي. لاحظ المضاف معرف المهارة ، والتي تحدد كل منها بشكل فريد مهارة.

أرز. 1.7 نموذج مخفض إلى أول شكل عادي.

حقيقة واحدة في مكان واحد

إذا كانت السمة نفسها موجودة في أكثر من كيان واحد ولم تكن مفتاحًا خارجيًا ، فإن هذه السمة تعتبر زائدة عن الحاجة. يجب ألا يحتوي النموذج المنطقي على بيانات زائدة عن الحاجة.

يتطلب التكرار مساحة إضافية ، ولكن في حين أن كفاءة الذاكرة مهمة ، فإن المشكلة الحقيقية تكمن في مكان آخر. تأتي المزامنة المضمونة للبيانات الزائدة عن الحاجة مصحوبة بنفقات عامة ، وأنت دائمًا ما تتعرض لخطر القيم المتعارضة.

في المثال السابق مهارةيعتمد على معرف الشخصو من معرف المهارة.هذا يعني أنك لن تمتلك مهارةحتى تظهر شخص،امتلاك هذه المهارة. كما أنه يجعل من الصعب تغيير اسم المهارة. تحتاج إلى العثور على كل إدخال في اسم المهارة وتغييره لكل شخص يمتلك تلك المهارة.

يوضح الشكل 1.8 النموذج في الشكل العادي الثاني. لاحظ أنه تمت إضافة الكيان مهارةو السمة لقبالمهارة المنقولة إلى هذا الكيان. بقي مستوى المهارة ، على التوالي ، عند التقاطع الأشخاص والمهارات.

أرز. 1.8 في الشكل العادي الثاني ، يتم نقل المجموعة المكررة إلى كيان آخر. يوفر هذا المرونة لإضافة العديد من المهارات حسب الحاجة وتغيير اسم المهارة أو وصف المهارة في مكان واحد.

كل سمة تعتمد على مفتاح

يجب أن تعتمد كل سمة من سمات الكيان على المفتاح الأساسي لذلك الكيان. في المثال السابق اسم المدرسةو منطقة جغرافيةموجودة في الجدول شخصلكن لا تصف شخصًا. لتحقيق النموذج العادي الثالث ، تحتاج إلى نقل السمات إلى الكيان ، حيث ستعتمد على المفتاح. الشكل 1.9. يظهر النموذج في الشكل العادي الثالث.

أرز. 1.9 في الشكل العادي الثالث اسم المدرسةو اقليم جوغرافيانتقلت إلى الكيان ، حيث تعتمد قيمها على المفتاح.

علاقات كثير إلى كثير

علاقة الكثير للكثيرينتعكس حقيقة البيئة. لاحظ أنه في الشكل 1.9 توجد علاقة أطراف بأطراف بين شخصو المدرسة. النسبة تعكس بدقة حقيقة أن شخصيمكن أن تدرس في كثير المدارسو في المدرسةيمكن أن تتعلم الكثير شخص.لتحقيق النموذج العادي الرابع ، يتم إنشاء كيان ترابطي يلغي العلاقة الأحادية بأطراف من خلال إنشاء إدخال منفصل لكل مجموعة فريدة من المدرسة والشخص. يوضح الشكل 1.10 النموذج في الشكل الرابع العادي.

أرز. 1.10 في الشكل الرابع العادي ، العلاقة الأحادية بأطراف بين شخصو المدرسةيتم حلها من خلال إدخال كيان ترابط ، حيث يتم تخصيص إدخال منفصل لكل مجموعة فريدة المدارسو الأشخاص.

التعاريف الرسمية للأشكال العادية

قد تبدو التعاريف التالية للأشكال العادية مخيفة. فكر فيهم ببساطة كصيغ لتحقيق التطبيع. تعتمد الأشكال العادية على الجبر العلائقي ويمكن تفسيرها على أنها تحويلات رياضية. على الرغم من أن هذا الكتاب لا يغطي مناقشة تفصيلية للنماذج العادية ، إلا أنه يتم تشجيع واضعي النماذج على التعمق في هذا الموضوع.

في علاقة معينة R ، تعتمد السمة Y وظيفيًا على السمة X. رمزياً ، RX -> RY (يُقرأ على أنه "RX يحدد RY وظيفيًا") إذا وفقط إذا كانت كل قيمة X في R مرتبطة بقيمة Y واحدة بالضبط في R ( في أي وقت). السمتان X و Y يمكن أن تكونا مركبتين (Date KJ مقدمة لأنظمة قواعد البيانات. الطبعة السادسة. Ed. Williams: 1999، 848 pp.).

تكون العلاقة R في الشكل العادي الأول (1NF) فقط إذا وفقط إذا كانت جميع مجالاتها تحتوي على قيم ذرية فقط (التاريخ ، المرجع نفسه).

تكون العلاقة R في الشكل العادي الثاني (2NF) إذا وفقط إذا كانت في 1NF وكل سمة غير رئيسية تعتمد بشكل كامل على المفتاح الأساسي (التاريخ ، المرجع نفسه).

تكون العلاقة R في النموذج العادي الثالث (3NF) إذا وفقط إذا كانت في 2NF وكل سمة غير رئيسية لا تعتمد بشكل انتقالي على المفتاح الأساسي (التاريخ ، المرجع نفسه).

تكون العلاقة R في شكل Boyce-Codd العادي (BCNF) إذا وفقط إذا كان كل محدد مرشحًا للاستخدام كمفتاح.

ملاحظة فيما يلي شرح موجز لبعض الاختصارات المستخدمة في تعريفات التاريخ.

MVD (تبعية متعددة القيم) - تبعية متعددة القيم. يُستخدم فقط للكيانات التي تحتوي على ثلاث سمات أو أكثر. في التبعية متعددة القيم ، تعتمد قيمة السمة على جزء فقط من المفتاح الأساسي.

FD (التبعية الوظيفية) - التبعية الوظيفية. في التبعية الوظيفية ، تعتمد قيمة السمة على قيمة سمة أخرى ليست جزءًا من المفتاح الأساسي.

دينار (تبعية الانضمام) - ضم التبعية. في تبعية الانضمام ، يمكن تتبع المفتاح الأساسي للكيان الأصلي إلى المستوى الثالث على الأقل من التوابع مع الاحتفاظ بإمكانية استخدامها في ارتباط المفتاح الأصلي.

تكون العلاقة في الشكل الرابع العادي (4NF) إذا وفقط إذا كان هناك MVD في R ، مثل A®B. في هذه الحالة ، تعتمد جميع سمات R وظيفيًا على A. وبعبارة أخرى ، لا يوجد في R سوى تبعيات (FD أو MVD) من النموذج K®X (أي الاعتماد الوظيفي للسمة X على المرشح للاستخدام كمفتاح K). وفقًا لذلك ، يلبي R متطلبات 4NF إذا كان يتوافق مع BCNF وجميع MVDs هي في الواقع FDs (التاريخ ، المرجع نفسه).

بالنسبة للصيغة العادية الخامسة ، تفي العلاقة R بعلاقة الاتحاد (JD) * (X ، Y ، ... ، Z) إذا وفقط إذا كانت R مكافئة لإسقاطاتها على X ، Y ، ... ، Z ، حيث X ، Y ، .. ، Z مجموعات فرعية من مجموعة السمات R.

هناك العديد من الأشكال العادية الأخرى لأنواع البيانات المعقدة والمواقف المحددة التي تتجاوز نطاق مناقشتنا. يرغب كل متحمس لتطوير النموذج في استكشاف الأشكال العادية الأخرى.

النماذج العادية للأعمال

في كتابه Clive Finklestein (Finklestein Cl. مقدمة لهندسة المعلومات: من التخطيط الاستراتيجي إلى نظم المعلومات ، القراءة ، ماساتشوستس: أديسون ويسلي ، 1989) اتخذ نهجًا مختلفًا للتطبيع. يحدد أشكال العمل العادية من حيث التخفيضات على تلك الأشكال. يجد العديد من واضعي النماذج أن هذا النهج أكثر سهولة وواقعية.

يعيّن النموذج العادي للأعمال الأول (1BNF) المجموعات المكررة إلى كيان آخر. يحصل هذا الكيان على اسمه الخاص والسمات الأساسية (المركبة) الأساسية من الكيان الأصلي ومجموعة التكرار الخاصة به.

يعيّن النموذج العادي للأعمال الثاني (2BNF) السمات التي تعتمد جزئيًا على مفتاح أساسي لكيان آخر. المفتاح الأساسي (المركب) لهذا الكيان هو المفتاح الأساسي للكيان الذي أقام فيه في الأصل ، إلى جانب المفاتيح الإضافية التي تعتمد عليها السمة بالكامل.

ينقل النموذج العادي للأعمال الثالث (3BNF) السمات التي لا تعتمد على المفتاح الأساسي إلى كيان آخر ، حيث تعتمد بشكل كامل على المفتاح الأساسي لهذا الكيان.

النموذج الرابع للأعمال العادية (4BNF) يعيّن السمات التي تعتمد على قيمة المفتاح الأساسي أو اختيارية لكيان ثانوي ، حيث تعتمد كليًا على قيمة المفتاح الأساسي ، أو حيث يجب أن تكون (إلزاميًا) موجودة في هذا الكيان .

يظهر النموذج العادي للأعمال الخامس (5BNF) ككيان هيكلي إذا كان هناك تبعية تكرارية أو تبعية أخرى بين مثيلات كيان ثانوي ، أو في حالة وجود تبعية متكررة بين مثيلات كيانها الأساسي.

نموذج بيانات منطقي مكتمل

يجب أن يفي النموذج المنطقي المكتمل بمتطلبات نموذج العمل العادي الثالث وأن يشمل جميع الكيانات والسمات والعلاقات اللازمة لدعم متطلبات البيانات وقواعد العمل المرتبطة بالبيانات.

يجب أن يكون لجميع الكيانات أسماء تصف المحتوى ووصفًا أو تعريفًا واضحًا وموجزًا ​​وكاملًا. في أحد المنشورات التالية ، سيتم النظر في مجموعة أولية من التوصيات للتشكيل الصحيح لأسماء وأوصاف الكيانات.

يجب أن يكون للكيانات مجموعة كاملة من السمات ، بحيث يمكن تمثيل كل حقيقة عن كل كيان بسماته. يجب أن يكون لكل سمة اسم يعكس قيمها ، ونوع بيانات منطقي ، ووصف أو تعريف واضح وقصير وكامل. في أحد المنشورات التالية ، سننظر في المجموعة الأولية من التوصيات للتشكيل الصحيح لأسماء وأوصاف السمات.

يجب أن تتضمن العلاقات بناء الفعل الذي يصف العلاقة بين الكيانات ، إلى جانب خصائص مثل التعددية ، والحاجة إلى الوجود ، أو احتمال عدم وجود العلاقة.

ملاحظة تعدد تصف العلاقات الحد الأقصى لعدد مثيلات الكيان الثانوي التي يمكن إقرانها بمثيل الكيان الأصلي.الحاجة للوجود أوإمكانية الغياب تُستخدم العلاقة لتحديد الحد الأدنى لعدد مثيلات الكيان الثانوي التي يمكن إقرانها بمثيل للكيان الأصلي.

نموذج البيانات المادية

بعد إنشاء نموذج منطقي كامل ومناسب ، تكون مستعدًا لاتخاذ قرار بشأن اختيار منصة التنفيذ. يعتمد اختيار النظام الأساسي على متطلبات استخدام البيانات والمبادئ الإستراتيجية لهيكل المنظمة. اختيار المنصة هو قضية معقدة خارج نطاق هذا الكتاب.

في ERwin ، النموذج المادي هو تمثيل رسومي لقاعدة البيانات الفعلية. ستتألف قاعدة البيانات المادية من جداول وأعمدة وعلاقات. يعتمد النموذج المادي على النظام الأساسي المختار للتنفيذ ومتطلبات استخدام البيانات. سيكون النموذج المادي لـ IMS مختلفًا تمامًا عن نفس النموذج لـ Sybase. سيبدو النموذج المادي لتقارير OLAP مختلفًا عن نموذج OLTP (معالجة المعاملات عبر الإنترنت).

يستخدم مصمم البيانات ومسؤول قاعدة البيانات (DBA) النموذج المنطقي ، ومتطلبات الاستخدام ، والمبادئ الإستراتيجية لبنية الشركة لتطوير نموذج البيانات المادية. يمكنك إلغاء تنسيق نموذج الفيزياء لتحسين الأداء وإنشاء طرق عرض لدعم متطلبات الاستخدام. توضح الأقسام التالية بالتفصيل عملية إلغاء التطابق وإنشاء العرض.

يقدم هذا القسم نظرة عامة على عملية بناء نموذج مادي ، وجمع المتطلبات لاستخدام البيانات ، وتحديد مكونات النموذج المادي والهندسة العكسية. سيتم تغطية هذه القضايا بمزيد من التفصيل في المنشورات المستقبلية.

جمع متطلبات استخدام البيانات

عادةً ما تقوم بجمع متطلبات استخدام البيانات مبكرًا أثناء المقابلات وجلسات العمل. في الوقت نفسه ، يجب أن تحدد المتطلبات استخدام البيانات من قبل المستخدم على أكمل وجه ممكن. يمكن أن تؤدي المواقف السطحية والثغرات في النموذج المادي إلى تكاليف غير مخطط لها وتأخير المشروع. تشمل متطلبات الاستخدام ما يلي:

    متطلبات الوصول والأداء

    الخصائص الحجمية (تقدير كمية البيانات المراد تخزينها) ، والتي تسمح للمسؤول بتمثيل الحجم المادي لقاعدة البيانات

    تقدير لعدد المستخدمين الذين يحتاجون إلى الوصول إلى البيانات بشكل متزامن ، مما يساعدك على تصميم قاعدة البيانات الخاصة بك للحصول على مستوى أداء مقبول

    الملخص والملخص والبيانات الأخرى المحسوبة أو المشتقة التي يمكن اعتبارها مرشحة للتخزين في هياكل بيانات دائمة

    متطلبات إنشاء التقارير والاستعلامات القياسية لمساعدة مسؤول قاعدة البيانات في بناء الفهارس

    طرق العرض (الدائمة أو الافتراضية) التي ستساعد المستخدم في إجراء عمليات دمج البيانات أو تصفيتها.

بالإضافة إلى الرئيس والسكرتير والمستخدمين ، يجب أن تتضمن جلسة متطلبات الاستخدام المصمم ومسؤول قاعدة البيانات ومهندس قاعدة البيانات. يجب مناقشة متطلبات المستخدم للبيانات التاريخية. طول الوقت الذي يتم فيه تخزين البيانات له تأثير كبير على حجم قاعدة البيانات. في كثير من الأحيان ، يتم تخزين البيانات القديمة في شكل مجمع ، ويتم أرشفة البيانات الذرية أو حذفها.

يجب على المستخدمين إحضار نماذج من الاستعلامات والتقارير معهم إلى الجلسة. يجب أن تكون التقارير محددة بدقة ويجب أن تتضمن القيم الذرية المستخدمة لأي حقول ملخص أو ملخص.

مكونات نموذج البيانات المادية

مكونات نموذج البيانات الفعلية هي الجداول والأعمدة والعلاقات. من المحتمل أن تصبح الكيانات في النموذج المنطقي جداول في النموذج المادي. سوف تصبح السمات المنطقية أعمدة. ستصبح العلاقات المنطقية قيودًا على سلامة العلاقات. لا يمكن تنفيذ بعض العلاقات المنطقية في قاعدة بيانات فعلية.

الهندسة العكسية

عندما لا يتوفر النموذج المنطقي ، يصبح من الضروري إعادة إنشاء النموذج من قاعدة البيانات الحالية. في ERwin ، تسمى هذه العملية الهندسة العكسية. يمكن إجراء الهندسة العكسية بعدة طرق. يمكن للمصمم استكشاف هياكل البيانات في قاعدة البيانات وإعادة إنشاء الجداول في بيئة النمذجة المرئية. يمكنك استيراد لغة تعريف البيانات (DDL) إلى أداة تدعم الهندسة العكسية (مثل Erwin). تتضمن الأدوات المتقدمة مثل ERwin وظائف توفر اتصال ODBC بقاعدة بيانات موجودة لإنشاء نموذج عن طريق قراءة هياكل البيانات مباشرة. ستتم مناقشة الهندسة العكسية باستخدام ERwin بالتفصيل في منشور مستقبلي.

استخدام الحدود الوظيفية للشركات

عند بناء نموذج منطقي ، من المهم أن يتأكد المصمم من أن النموذج الجديد يطابق نموذج المؤسسة. يعني استخدام الحدود الوظيفية للشركة نمذجة البيانات من حيث المصطلحات المستخدمة داخل الشركة. تتغير طريقة استخدام البيانات في الشركة بشكل أسرع من البيانات نفسها. في كل نموذج منطقي ، يجب تمثيل البيانات بشكل كلي ، بغض النظر عن مجال الأعمال الذي تدعمه. يجب أن تحدد الكيانات والسمات والعلاقات قواعد العمل على مستوى الشركة.

ملاحظة يشير بعض زملائي إلى هذه الحدود الوظيفية للشركات كنمذجة في العالم الحقيقي. تشجع النمذجة الواقعية المصمم على عرض المعلومات من حيث علاقاته وعلاقاته في الحياة الواقعية.

يوفر استخدام الحدود الوظيفية للشركة لنموذج بيانات تم إنشاؤه بشكل صحيح إطارًا لدعم احتياجات المعلومات لأي عدد من العمليات والتطبيقات ، مما يمكّن الشركة من استغلال أحد أصولها الأكثر قيمة ، المعلومات بشكل أكثر فعالية.

ما هو نموذج بيانات المؤسسة؟

نموذج بيانات المؤسسة (EDM)يحتوي على الكيانات والسمات والعلاقات التي تمثل احتياجات المعلومات للشركة. عادة ما يتم تقسيم EDM إلى مجالات موضوعية ، والتي تمثل مجموعات من الكيانات ذات الصلة بدعم احتياجات العمل المحددة. قد تغطي بعض المجالات الموضوعية وظائف عمل محددة مثل إدارة العقود ، وقد يقوم البعض الآخر بتجميع الكيانات التي تصف المنتجات أو الخدمات.

يجب أن يتوافق كل نموذج منطقي مع مجال نموذج بيانات مؤسسي موجود. إذا كان النموذج المنطقي لا يفي بهذا المطلب ، فيجب إضافة نموذج يحدد نطاق الموضوع إليه. تضمن هذه المقارنة تحسين نموذج الشركة أو تعديله وتنسيق جميع جهود النمذجة المنطقية داخل الشركة.

EDMيتضمن أيضًا كيانات محددة تحدد نطاق القيم للسمات الرئيسية. هذه الكيانات ليس لها آباء ويتم تعريفها على أنها مستقلة. غالبًا ما تستخدم الكيانات المستقلة للحفاظ على سلامة العلاقات. يتم تحديد هذه الكيانات بواسطة عدة أسماء مختلفة ، مثل جداول التعليمات البرمجية أو جداول الارتباط أو جداول النوع أو جداول التصنيف. سوف نستخدم مصطلح "كائن أعمال الشركة". كائن أعمال المؤسسة هو كيان يحتوي على مجموعة من قيم السمات المستقلة عن أي كيان آخر. يجب استخدام كائنات أعمال المؤسسة داخل الشركة بشكل متسق.

بناء نموذج بيانات مؤسسي عن طريق القياس

هناك منظمات تم فيها بناء نموذج الشركة من البداية إلى النهاية نتيجة جهد واحد منسق. من ناحية أخرى ، تبني معظم المنظمات نماذج مؤسسة كاملة إلى حد ما من خلال البناء.

النمو يعني بناء شيء ما ، طبقة بعد طبقة ، تمامًا كما ينمو المحار لؤلؤة. يوفر كل نموذج بيانات تم إنشاؤه مدخلات لتشكيل EDM. يتطلب إنشاء EDM بهذه الطريقة خطوات نمذجة إضافية لإضافة هياكل ومجالات بيانات جديدة أو توسيع هياكل البيانات الحالية. هذا يجعل من الممكن بناء نموذج بيانات المؤسسة من خلال البناء ، وإضافة مستويات من التفاصيل والتحسين بشكل متكرر.

مفهوم منهجية النمذجة

هناك عدة منهجيات لنمذجة البيانات المرئية. يدعم ERwin اثنين:

    IDEF1X (تعريف التكامل لنمذجة المعلومات - وصف متكامل لنماذج المعلومات).

    IE (هندسة المعلومات - هندسة المعلومات).

IDEF1X هي منهجية جيدة ويستخدم تدوينها على نطاق واسع

وصف متكامل لنماذج المعلومات

IDEF1X عبارة عن منهجية عالية التنظيم لنمذجة البيانات تعمل على توسيع منهجية IDEF1 المعتمدة كمعيار FIPS (معايير معالجة المعلومات الفيدرالية). يستخدم IDEF1X مجموعة شديدة التنظيم من أنواع إنشاءات النمذجة والنتائج في نموذج بيانات يتطلب فهم الطبيعة المادية للبيانات قبل إتاحة هذه المعلومات.

يجبر الهيكل الصلب لـ IDEF1X المصمم على تعيين خصائص للكيانات التي قد لا تتوافق مع حقائق العالم من حولهم. على سبيل المثال ، يتطلب IDEF1X أن تكون جميع الأنواع الفرعية للكيانات حصرية. هذا يؤدي إلى حقيقة أن الشخص لا يمكن أن يكون عميلًا وموظفًا في نفس الوقت. بينما تخبرنا الممارسة الحقيقية بخلاف ذلك.

هندسة المعلومات

غالبًا ما يُشار إلى كليف فينكلستين على أنه أب هندسة المعلومات ، على الرغم من أن جيمس مارتن شاركه في مفاهيم مماثلة (مارتن ، جيمس. إدارة بيئة قاعدة البيانات. نهر السرج العلوي ، نيو جيرسي: برنتيس هول ، 1983.). تستخدم هندسة المعلومات نهجًا مدفوعًا بالأعمال لإدارة المعلومات وتستخدم ترميزًا مختلفًا لتمثيل قواعد العمل. يعمل IE كامتداد وتطوير للتدوين والمفاهيم الأساسية لمنهجية ER التي اقترحها Peter Chen.

يوفر IE البنية التحتية لدعم متطلبات المعلومات من خلال دمج التخطيط الاستراتيجي المؤسسي مع أنظمة المعلومات التي يتم تطويرها. هذا التكامل يجعل من الممكن ربط إدارة موارد المعلومات بشكل أوثق مع الآفاق الاستراتيجية طويلة الأجل للشركة. يقود هذا النهج القائم على الأعمال العديد من المصممين إلى اختيار IE على المنهجيات الأخرى التي تركز بشكل أساسي على حل مشاكل التطوير الفورية.

يوفر IE سير عمل يقود الشركة إلى تحديد جميع احتياجاتها من المعلومات لجمع البيانات وإدارتها وتحديد العلاقات بين كائنات المعلومات. نتيجة لذلك ، يتم توضيح متطلبات المعلومات بناءً على توجيهات الإدارة ويمكن ترجمتها مباشرة إلى نظام معلومات إدارة يدعم احتياجات المعلومات الاستراتيجية.

استنتاج

إن فهم كيفية استخدام أداة نمذجة البيانات مثل ERwin ليس سوى جزء من المشكلة. بالإضافة إلى ذلك ، يجب أن تفهم متى يتم تنفيذ مهام نمذجة البيانات وكيف يتم تجميع متطلبات المعلومات وقواعد العمل ليتم تمثيلها في نموذج البيانات. يوفر عقد جلسات العمل أفضل الظروف لجمع متطلبات المعلومات في بيئة تضم خبراء متخصصين ومستخدمين ومتخصصين في تكنولوجيا المعلومات.

يتطلب بناء نموذج بيانات جيد تحليل وبحث متطلبات المعلومات وقواعد العمل التي تم جمعها أثناء جلسات العمل والمقابلات. يجب مقارنة نموذج البيانات الناتج بنموذج المؤسسة ، إن أمكن ، للتأكد من أنه لا يتعارض مع نماذج الكائنات الحالية ويتضمن جميع الكائنات المطلوبة.

يتكون نموذج البيانات من نماذج منطقية ومادية تمثل متطلبات المعلومات وقواعد العمل. يجب تقليل النموذج المنطقي إلى النموذج العادي الثالث. يحد النموذج العادي الثالث ويضيف ويحدّث ويزيل الشذوذ في بنية البيانات لدعم مبدأ "حقيقة واحدة ، مكان واحد". يجب تحليل وبحث متطلبات المعلومات التي تم جمعها وقواعد العمل. يجب مقارنتها بنموذج المؤسسة للتأكد من أنها لا تتعارض مع نماذج الكائن الحالية وأنها تشمل جميع الكائنات المطلوبة.

في ERwin ، يتضمن نموذج البيانات كلا من النماذج المنطقية والفيزيائية. يطبق ERwin نهج التقارير الإلكترونية ويسمح لك بإنشاء كائنات نموذج منطقي ومادي لتمثيل متطلبات المعلومات وقواعد العمل. تتضمن كائنات النموذج المنطقي الكيانات والسمات والعلاقات. تتضمن كائنات النموذج المادي الجداول والأعمدة وقيود تكامل العلاقات.

في أحد المنشورات التالية ، سيتم النظر في قضايا تحديد الكيانات ، وتحديد أنواع الكيانات ، واختيار أسماء الكيانات والأوصاف ، بالإضافة إلى بعض الحيل لتجنب أخطاء النمذجة الأكثر شيوعًا المرتبطة باستخدام الكيانات.

يجب أن يكون للكيانات مجموعة كاملة من السمات ، بحيث يمكن تمثيل كل حقيقة عن كل كيان بسماته. يجب أن يكون لكل سمة اسم يعكس قيمها ، ونوع بيانات منطقي ، ووصف أو تعريف واضح وقصير وكامل. في أحد المنشورات التالية ، سننظر في المجموعة الأولية من التوصيات للتشكيل الصحيح لأسماء وأوصاف السمات. يجب أن تتضمن العلاقات بناء الفعل الذي يصف العلاقة بين الكيانات ، إلى جانب خصائص مثل التعددية ، والحاجة إلى الوجود ، أو احتمال عدم وجود العلاقة.

ملاحظة تعدد تصف العلاقات الحد الأقصى لعدد مثيلات الكيان الثانوي التي يمكن إقرانها بمثيل الكيان الأصلي.ضرورة الوجود أو احتمالية الغياب يتم استخدام العلاقة لتحديد الحد الأدنى لعدد مثيلات الكيان الثانوي التي يمكن إقرانها بمثيل من الأصل

على نحو متزايد ، يوجه متخصصو تكنولوجيا المعلومات انتباههم إلى حلول إدارة البيانات استنادًا إلى نماذج بيانات الصناعة القياسية وقوالب قرارات الأعمال. تسمح لك نماذج البيانات المادية المعقدة الجاهزة للتحميل وتقارير ذكاء الأعمال لمجالات نشاط معينة بتوحيد عنصر المعلومات للمؤسسة وتسريع عمليات الأعمال بشكل كبير. تسمح قوالب الحلول لمقدمي الخدمات بالاستفادة من قوة المعلومات غير القياسية المخفية في الأنظمة الحالية ، وبالتالي تقليل الجداول الزمنية للمشروع والتكاليف والمخاطر. على سبيل المثال ، تُظهر المشاريع الحقيقية أن نماذج البيانات وقوالب قرارات الأعمال يمكن أن تقلل من جهود التطوير بنسبة 50٪.

النموذج المنطقي للصناعة هو عرض خاص بالمجال ومتكامل ومنظم منطقيًا لجميع المعلومات التي يجب أن تكون في مستودع بيانات الشركة للإجابة على أسئلة العمل الاستراتيجية والتكتيكية. الغرض الرئيسي من النماذج هو تسهيل التوجيه في مساحة البيانات والمساعدة في إبراز التفاصيل المهمة لتطوير الأعمال. في بيئة الأعمال اليوم ، من الضروري للغاية أن يكون لديك فهم واضح للعلاقات بين المكونات المختلفة وفهم جيد للصورة الكبيرة للمؤسسة. يتيح تحديد جميع التفاصيل والعلاقات باستخدام النماذج الاستخدام الأكثر كفاءة للوقت والأدوات لتنظيم عمل الشركة.

نماذج البيانات هي نماذج مجردة تصف كيفية تمثيل البيانات والوصول إليها. تحدد نماذج البيانات عناصر البيانات والعلاقات بينها في منطقة معينة. نموذج البيانات هو أداة ملاحية لكل من محترفي الأعمال وتكنولوجيا المعلومات التي تستخدم مجموعة محددة من الرموز والكلمات لشرح فئة معينة من المعلومات الحقيقية بدقة. هذا يحسن التواصل داخل المنظمة وبالتالي يخلق بيئة تطبيق أكثر مرونة واستقرارًا.


مثال على نظم المعلومات الجغرافية للسلطات ونموذج الحكم الذاتي المحلي.

اليوم ، من المهم استراتيجيًا لمقدمي البرامج والخدمات أن يكونوا قادرين على الاستجابة بسرعة للتغيرات في الصناعة المرتبطة بالابتكارات التكنولوجية ، وإزالة القيود الحكومية وتعقيد سلاسل التوريد. إلى جانب التغييرات في نموذج العمل ، فإن تعقيد وتكلفة تكنولوجيا المعلومات اللازمة لدعم أنشطة الشركة آخذ في الازدياد. تعتبر إدارة البيانات صعبة بشكل خاص في بيئة تتغير فيها أنظمة معلومات الشركات ومتطلباتها الوظيفية والتجارية باستمرار.

للمساعدة في تسهيل هذه العملية وتحسينها ، في ترجمة نهج تكنولوجيا المعلومات إلى المستوى الحديث ، يتم استدعاء نماذج بيانات الصناعة.

نماذج بيانات الصناعة من الشركةEsri

نماذج البيانات لمنصة Esri ArcGIS عبارة عن قوالب عمل لاستخدامها في مشاريع GIS وإنشاء هياكل البيانات لمناطق التطبيق المختلفة. يتضمن بناء نموذج بيانات إنشاء تصميم مفاهيمي وبنية منطقية وهيكل مادي يمكن استخدامه بعد ذلك لبناء قاعدة بيانات جغرافية شخصية أو مؤسسية. يوفر ArcGIS أدوات لإنشاء مخطط قاعدة البيانات وإدارتها ، ويتم استخدام قوالب نماذج البيانات لبدء تشغيل مشروع GIS بسرعة عبر مجموعة متنوعة من التطبيقات والصناعات. لقد أمضت Esri ، جنبًا إلى جنب مع مجتمع المستخدمين ، وقتًا طويلاً في تطوير عدد من القوالب التي يمكن أن تساعدك في البدء بسرعة في تصميم قاعدة بيانات جغرافية للمؤسسة. هذه المشاريع موصوفة وموثقة على support.esri.com/datamodels. أدناه ، بالترتيب الذي تظهر به على هذا الموقع ، هي الترجمات الدلالية لأسماء نماذج صناعة Esri:

  • سجل العنوان
  • الزراعة
  • علم الارصاد الجوية
  • البيانات المكانية الأساسية
  • التنوع البيولوجي
  • المساحة الداخلية للمباني
  • محاسبة غازات الاحتباس الحراري
  • صيانة الحدود الإدارية
  • مؤسسة عسكرية. خدمة ذكية
  • الطاقة (بما في ذلك بروتوكول ArcGIS MultiSpeak الجديد)
  • المباني البيئية
  • وزارة حالات الطوارئ. الحماية من الحرائق
  • السجل المساحي للغابات
  • الحراجة
  • جيولوجيا
  • المستوى الوطني GIS (الحكومة الإلكترونية)
  • المياه الجوفية ومياه الصرف الصحي
  • رعاية صحية
  • علم الآثار وحماية المواقع التذكارية
  • الأمن القومي
  • الهيدرولوجيا
  • المنظمة الهيدروغرافية الدولية (IHO). تنسيق S-57 لـ ENC
  • الري
  • تسجيل الأرض
  • حكومة البلدية
  • الملاحة البحرية
  • السجل العقاري للدولة
  • هياكل النفط والغاز
  • خطوط الأنابيب
  • مخازن نقطية
  • قياس الأعماق ، طبوغرافيا قاع البحر
  • الإتصالات
  • المواصلات
  • السباكة والصرف الصحي والمرافق

تحتوي هذه النماذج على جميع الميزات الضرورية لمعيار الصناعة ، وهي:

  • متاحة مجانًا ؛
  • ليست مرتبطة بتكنولوجيا الشركة المصنعة "المختارة" ؛
  • تم إنشاؤه نتيجة لتنفيذ مشاريع حقيقية ؛
  • تم إنشاؤه بمشاركة خبراء الصناعة ؛
  • مصممة لتوفير تفاعل المعلومات بين مختلف المنتجات والتقنيات ؛
  • لا تتعارض مع المعايير والوثائق التنظيمية الأخرى ؛
  • تستخدم في المشاريع المنفذة في جميع أنحاء العالم ؛
  • مصممة للعمل مع المعلومات طوال دورة حياة النظام الذي يتم إنشاؤه ، وليس المشروع نفسه ؛
  • قابلة للتوسيع لتلبية احتياجات العميل دون فقدان التوافق مع المشاريع و / أو النماذج الأخرى ؛
  • مصحوبة بمواد وأمثلة إضافية ؛
  • تستخدم في المبادئ التوجيهية والمواد التقنية لمختلف الشركات الصناعية ؛
  • مجتمع كبير من المشاركين ، في حين أن الوصول إلى المجتمع مفتوح للجميع ؛
  • عدد كبير من الإشارات إلى نماذج البيانات في المنشورات في السنوات الأخيرة.

تعد Esri جزءًا من مجموعة خبراء من الهيئات المستقلة التي توصي بنماذج صناعية مختلفة للاستخدام ، مثل PODS (معايير البيانات المفتوحة لخط الأنابيب - معيار مفتوح لصناعة النفط والغاز ؛ يوجد حاليًا تطبيق PODS باعتباره Esri PODS Esri Spatial 5.1.1 قاعدة البيانات الجغرافية) أو قاعدة البيانات الجغرافية (GDB) من ArcGIS for Aviation التي تأخذ في الاعتبار توصيات ICAO و FAA ، بالإضافة إلى معيار تبادل بيانات التنقل AIXM 5.0. بالإضافة إلى ذلك ، هناك نماذج موصى بها تلتزم بصرامة بمعايير الصناعة الحالية ، مثل S-57 و ArcGIS for Maritime (الميزات البحرية والساحلية) ، بالإضافة إلى النماذج التي تم إنشاؤها من عمل Esri Professional Services وهي معايير "فعلية" في المجالات ذات الصلة. على سبيل المثال ، أثرت نظم المعلومات الجغرافية للأمة والحكومة المحلية على معايير NSDI و INSPIRE ، بينما يتم استخدام المياه الجوفية والمياه الجوفية بكثافة في حزمة ArcHydro الاحترافية والمنتجات التجارية المتاحة مجانًا. وتجدر الإشارة إلى أن Esri تدعم أيضًا معايير "الأمر الواقع" مثل NHDI. جميع نماذج البيانات المقترحة موثقة وجاهزة للاستخدام في عمليات تكنولوجيا المعلومات في المؤسسة. تشمل المواد المصاحبة للنماذج ما يلي:

  • مخططات UML لعلاقات الكيانات ؛
  • هياكل البيانات والمجالات والأدلة ؛
  • قوالب قاعدة البيانات الجغرافية الجاهزة بتنسيق ArcGIS GDB ؛
  • بيانات العينة وتطبيقات العينة ؛
  • أمثلة على نصوص تحميل البيانات ، أمثلة على أدوات التحليل المساعدة ؛
  • كتب مرجعية حول هيكل البيانات المقترح.

تلخص Esri خبرتها في بناء نماذج الصناعة في شكل كتب وتوطين المواد المنشورة. قامت Esri CIS بترجمة ونشر الكتب التالية:

  • العمارة الموجهة للخدمات الجغرافية المكانية (SOA) ؛
  • تصميم قواعد جغرافية للنقل ؛
  • نظم المعلومات الجغرافية للشركات ؛
  • نظم المعلومات الجغرافية: الطاقة الجديدة لشركات الكهرباء والغاز ؛
  • النفط والغاز على خريطة رقمية ؛
  • نمذجة عالمنا. دليل تصميم قاعدة البيانات الجغرافية Esri ؛
  • التفكير في نظم المعلومات الجغرافية. تخطيط نظم المعلومات الجغرافية: دليل للمديرين ؛
  • نظم المعلومات الجغرافية. الأساسيات
  • نظم المعلومات الجغرافية للإدارة الإدارية والاقتصادية؛
  • نظم المعلومات الجغرافية على شبكة الإنترنت. المبادئ والتطبيق ؛
  • استراتيجيات تصميم النظم ، الطبعة السادسة والعشرون ؛
  • 68 إصدارًا من مجلة ArcReview مع منشورات الشركات ومستخدمي أنظمة GIS ؛
  • ... والعديد من المذكرات والمنشورات الموضوعية الأخرى.

على سبيل المثال ، الكتاب نمذجة عالمنا ..."(الترجمة) هو دليل شامل ودليل مرجعي لنمذجة بيانات GIS بشكل عام ، ونموذج بيانات قاعدة البيانات الجغرافية بشكل خاص. يوضح الكتاب كيفية اتخاذ القرارات الصحيحة لنمذجة البيانات ، والقرارات التي تدخل في كل جانب من جوانب مشروع نظم المعلومات الجغرافية: من بيانات تصميم قاعدة البيانات وجمع البيانات إلى التحليل المكاني والتصور يصف بالتفصيل كيفية تصميم قاعدة بيانات جغرافية مناسبة للمشروع ، وإعداد وظائف قاعدة البيانات بدون برمجة ، وإدارة سير العمل في المشاريع المعقدة ، ونمذجة مجموعة متنوعة من هياكل الشبكات مثل النهر والنقل أو الشبكات الكهربائية ، دمج بيانات صور الأقمار الصناعية في التحليل الجغرافي ورسم الخرائط ، وإنشاء نماذج بيانات GIS ثلاثية الأبعاد. تصميم قواعد جغرافية للنقل"يحتوي على مناهج منهجية تم اختبارها على عدد كبير من المشاريع وتتوافق تمامًا مع المتطلبات التشريعية لأوروبا والولايات المتحدة ، بالإضافة إلى المعايير الدولية. وفي الكتاب" نظم المعلومات الجغرافية: الطاقة الجديدة لشركات الكهرباء والغازباستخدام أمثلة من العالم الواقعي ، فإنه يوضح الفوائد التي يمكن أن توفرها مؤسسة GIS لمورد الطاقة ، بما في ذلك جوانب مثل خدمة العملاء وتشغيل الشبكة والعمليات التجارية الأخرى.


بعض الكتب ، مترجمة وأصلية ، نُشرت باللغة الروسية عن طريق Esri CIS و DATA +. وهي تغطي كلا من القضايا المفاهيمية المتعلقة بتكنولوجيا نظم المعلومات الجغرافية والعديد من الجوانب التطبيقية لنمذجة ونشر نظم المعلومات الجغرافية بمختلف المقاييس والأغراض.

سننظر في استخدام نماذج الصناعة باستخدام نموذج بيانات الإصدار 3.0 من BISDM (بناء نموذج بيانات الفضاء الداخلي) كمثال. BISDM هو تطوير لنموذج BIM أكثر عمومية (نموذج معلومات البناء ، نموذج معلومات البناء) وهو مخصص للاستخدام في التصميم والبناء والتشغيل وإيقاف تشغيل المباني والهياكل. تُستخدم في برامج نظم المعلومات الجغرافية ، تتيح لك تبادل البيانات الجغرافية بشكل فعال مع الأنظمة الأساسية الأخرى والتفاعل معها. يشير إلى مجموعة المهام العامة FM (إدارة البنية التحتية للمؤسسة). ندرج المزايا الرئيسية لنموذج BISDM ، والذي يسمح استخدامه بما يلي:

  • تنظيم تبادل المعلومات في بيئة غير متجانسة وفقًا لقواعد موحدة ؛
  • الحصول على تجسيد "مادي" لمفهوم BIM والقواعد الموصى بها لإدارة مشروع البناء ؛
  • الحفاظ على مستودع واحد باستخدام أدوات نظم المعلومات الجغرافية طوال دورة الحياة الكاملة للمبنى (من التصميم إلى إيقاف التشغيل) ؛
  • تنسيق عمل مختلف المتخصصين في المشروع ؛
  • تصور الجدول الزمني المخطط ومراحل البناء لجميع المشاركين ؛
  • إعطاء تقدير أولي للتكلفة ووقت البناء (بيانات 4D و 5 D) ؛
  • السيطرة على تقدم المشروع.
  • ضمان جودة تشغيل المبنى ، بما في ذلك الصيانة والإصلاحات ؛
  • أن تصبح جزءًا من نظام إدارة الأصول ، بما في ذلك وظائف تحليل كفاءة استخدام المساحة (الإيجار ، ومرافق التخزين ، وإدارة الموظفين) ؛
  • حساب وإدارة كفاءة الطاقة للمبنى ؛
  • محاكاة حركة التدفقات البشرية.

يحدد BISDM قواعد العمل مع البيانات المكانية على مستوى المباني الداخلية في المبنى ، بما في ذلك الغرض وأنواع الاستخدام ، والاتصالات الموضوعة ، والمعدات المثبتة ، والمحاسبة عن الإصلاحات والصيانة ، وحوادث التسجيل ، والعلاقات مع أصول الشركة الأخرى. يساعد النموذج في إنشاء مستودع موحد للبيانات الجغرافية وغير الجغرافية. تم استخدام تجربة الشركات الرائدة في العالم لعزل الكيانات والنمذجة على مستوى GDB (قاعدة البيانات الجغرافية) للعلاقات المكانية والمنطقية لجميع العناصر المادية التي تشكل المبنى نفسه وداخله. يتيح لك اتباع مبادئ BISDM تبسيط مهام التكامل مع الأنظمة الأخرى بشكل كبير. في المرحلة الأولى ، عادة ما يكون هذا هو التكامل مع CAD. ثم ، أثناء تشغيل المبنى ، يتم استخدام تبادل البيانات مع أنظمة ERP و EAM (SAP ، TRIRIGA ، Maximo ، إلخ).


تصور عناصر BISDM الهيكلية باستخدام ArcGIS.

في حالة استخدام BISDM ، يتلقى العميل / مالك المنشأة تبادلًا شاملاً للمعلومات من فكرة إنشاء مرفق إلى تطوير مشروع كامل ، ومراقبة البناء مع الحصول على ما يصل إلى - تاريخ المعلومات في الوقت الذي يتم فيه تشغيل المرفق ، والتحكم في المعلمات أثناء التشغيل ، وحتى أثناء إعادة البناء أو إيقاف تشغيل المنشأة. باتباع نموذج BISDM ، أصبح GIS و GDB الذي تم إنشاؤه بمساعدته مستودعًا مشتركًا للبيانات للأنظمة ذات الصلة. غالبًا ما توجد في GDB بيانات تم إنشاؤها وتشغيلها بواسطة أنظمة جهات خارجية. يجب أن يؤخذ ذلك في الاعتبار عند تصميم بنية النظام الذي يتم إنشاؤه.

في مرحلة معينة ، تسمح لك "الكتلة الحرجة" المتراكمة من المعلومات بالانتقال إلى مستوى نوعي جديد. على سبيل المثال ، عند الانتهاء من مرحلة تصميم مبنى جديد ، من الممكن تصور نماذج المسح ثلاثية الأبعاد تلقائيًا في نظام المعلومات الجغرافية ، وتجميع قائمة بالمعدات التي سيتم تثبيتها ، وحساب الكيلومترات من الشبكات الهندسية التي سيتم وضعها ، وإجراء عدد من عمليات التحقق ، وحتى إعطاء تقدير مالي أولي لتكلفة المشروع.

مرة أخرى ، عند استخدام BISDM و ArcGIS معًا ، يصبح من الممكن إنشاء نماذج ثلاثية الأبعاد تلقائيًا من البيانات المتراكمة ، نظرًا لأن GDB يحتوي على وصف كامل للكائن ، بما في ذلك إحداثيات z ، والانتماء إلى أرضية ، وأنواع اتصالات العناصر ، والمعدات طرق التثبيت ، المواد ، المسارات المتاحة ، حركات الأفراد ، الغرض الوظيفي لكل عنصر ، إلخ. إلخ. وتجدر الإشارة إلى أنه بعد الاستيراد الأولي لجميع مواد التصميم إلى BISDM GDB ، هناك حاجة إلى محتوى إضافي من أجل:

  • وضع نماذج ثلاثية الأبعاد للأشياء والمعدات في أماكن محددة ؛
  • جمع المعلومات حول تكلفة المواد وإجراءات وضعها وتركيبها ؛
  • التحكم في المباح وفقًا لأبعاد المعدات غير القياسية المثبتة.

من خلال استخدام ArcGIS ، يتم تبسيط استيراد كائنات ثلاثية الأبعاد وكتب مرجعية إضافية من مصادر خارجية. تسمح لك وحدة ArcGIS Data Interoperability بإنشاء إجراءات لاستيراد مثل هذه البيانات ووضعها بشكل صحيح داخل النموذج. يتم دعم جميع التنسيقات المستخدمة في الصناعة ، بما في ذلك IFC و AutoCAD Revit و Bentlye Microstation.

نماذج بيانات الصناعة من شركة IBM

توفر شركة IBM مجموعة من أدوات ونماذج إدارة التخزين لمجموعة متنوعة من الصناعات:

  • مستودع بيانات IBM Banking and Financial Markets (المالية)
  • مستودع بيانات IBM Banking
  • نماذج الخدمات والعمليات المصرفية لشركة IBM
  • نموذج بيانات IBM Health Plan (الصحة)
  • مستودع معلومات التأمين لشركة IBM (التأمين)
  • عمليات التأمين ونماذج الخدمة لشركة IBM
  • مستودع بيانات التجزئة لشركة IBM (البيع بالتجزئة)
  • مستودع بيانات اتصالات IBM (اتصالات)
  • حزمة مستودع InfoSphere:
    - من أجل رؤية العميل (لفهم العملاء)
    - رؤى السوق والحملة (لفهم الشركة والسوق)
    - لـ Supply Chain Insight (لفهم الموردين).

على سبيل المثال ، النموذج آي بي إمالخدمات المصرفيةوماليالأسواقالبياناتمستودعمصمم لمواجهة التحديات المحددة التي تواجه الصناعة المصرفية من حيث البيانات ، و آي بي إمالخدمات المصرفيةمعالجةوخدمةعارضات ازياء- من حيث العمليات و SOA (البنية الموجهة للخدمة). نماذج مقدمة لصناعة الاتصالات آي بي إممعلومةإطار العمل(IFW)و آي بي إمالإتصالاتالبياناتمستودع (TDW). إنها تساعد على تسريع عملية إنشاء أنظمة تحليلية بشكل كبير ، فضلاً عن تقليل المخاطر المرتبطة بتطوير تطبيقات ذكاء الأعمال وإدارة بيانات الشركات وتنظيم مستودعات البيانات ، مع مراعاة خصوصيات صناعة الاتصالات. تغطي قدرات IBM TDW النطاق الكامل لسوق الاتصالات السلكية واللاسلكية - بدءًا من مزودي الإنترنت ومشغلي شبكات الكابلات الذين يقدمون خدمات الاتصالات الهاتفية السلكية واللاسلكية ونقل البيانات ومحتوى الوسائط المتعددة ، إلى الشركات متعددة الجنسيات التي تقدم خدمات الهاتف والأقمار الصناعية والاتصالات بعيدة المدى والدولية ، وكذلك كمنظمات شبكات عالمية. اليوم ، يتم استخدام TDW من قبل مزودي الخدمات السلكية واللاسلكية الكبيرة والصغيرة حول العالم.

الأداة تسمى حزمة مستودع InfoSphere لـ Customer Insightهو محتوى أعمال منظم وسهل التنفيذ لعدد متزايد من المشاريع والصناعات التجارية ، بما في ذلك البنوك والتأمين والتمويل وبرامج التأمين الصحي والاتصالات والتجزئة والتوزيع. لمستخدمي الأعمال حزمة مستودع InfoSphere لإحصاءات السوق والحملةيساعدك على زيادة فعالية معلومات السوق والحملات التسويقية من خلال تطوير خطوة بخطوة وعملية خاصة بالعمل. عبر حزمة مستودع InfoSphere لـ Supply Chain Insightالمنظمات لديها القدرة على الحصول على المعلومات الحالية عن عمليات سلسلة التوريد.


موقع Esri داخل بنية حلول IBM.

وتجدر الإشارة بشكل خاص إلى نهج IBM في المرافق وشركات المرافق. لتلبية طلبات المستهلكين المتزايدة ، تحتاج شركات المرافق إلى بنية أكثر مرونة مما تستخدمه اليوم ، بالإضافة إلى نموذج كائن قياسي في الصناعة من شأنه تسهيل التبادل الحر للمعلومات. سيعزز هذا قدرات الاتصال لشركات الطاقة من خلال تمكين اتصالات أكثر فعالية من حيث التكلفة وسيعطي الأنظمة الجديدة رؤية أفضل لجميع الموارد المطلوبة ، بغض النظر عن مكان وجودها داخل المنظمة. أساس هذا النهج هو SOA (الهندسة المعمارية الموجهة للخدمة) ، وهو نموذج مكون ينشئ تطابقًا بين وظائف الإدارات وخدمات التطبيقات المختلفة التي يمكن إعادة استخدامها. تتواصل "خدمات" هذه المكونات من خلال واجهات دون ربط صارم ، مما يخفي عن المستخدم التعقيد الكامل للأنظمة التي تقف وراءها. في هذا الوضع ، يمكن للمؤسسات بسهولة إضافة تطبيقات جديدة بغض النظر عن بائع البرنامج أو نظام التشغيل أو لغة البرمجة أو أي خصائص داخلية أخرى للبرنامج. يتم تنفيذ المفهوم على أساس الخدمية آمنة (هندسة الحلول للطاقة ، تمكن صناعة المرافق من الحصول على نظرة شاملة قائمة على المعايير لبنيتها التحتية.

Esri ArcGIS® هي منصة برمجية معترف بها عالميًا لأنظمة المعلومات الجغرافية (GIS) ، والتي توفر إنشاء وإدارة الأصول الرقمية للطاقة الكهربائية ونقل الغاز والتوزيع وشبكات الاتصالات. يتيح لك ArcGIS إجراء المخزون الأكثر اكتمالاً لمكونات شبكة التوزيع الكهربائي ، مع مراعاة الموقع المكاني. يقوم ArcGIS بتوسيع بنية IBM SAFE بشكل كبير من خلال توفير الأدوات والتطبيقات ومهام سير العمل والتحليلات والمعلومات وإمكانيات التكامل اللازمة لإدارة الشبكة الذكية. يسمح لك ArcGIS داخل IBM SAFE بالحصول على معلومات من مصادر مختلفة حول كائنات البنية التحتية والأصول والعملاء والموظفين ببيانات دقيقة حول مواقعهم ، بالإضافة إلى إنشاء وتخزين ومعالجة المعلومات ذات المرجعية الجغرافية حول أصول المؤسسة (الركائز وخطوط الأنابيب والأسلاك ، المحولات وقنوات الكابلات وما إلى ذلك). يسمح لك ArcGIS داخل بنية أساسية آمنة بتوصيل تطبيقات الأعمال الرئيسية ديناميكيًا من خلال دمج البيانات من أنظمة GIS و SCADA وخدمة العملاء مع المعلومات الخارجية مثل حركة المرور أو ظروف الطقس أو صور القمر الصناعي. تستخدم المرافق هذه المعلومات المجمعة لمجموعة متنوعة من الأغراض ، من C.O.R. (الصورة الكبيرة لبيئة التشغيل) لعمليات التفتيش على الموقع والصيانة وتحليل الشبكة والتخطيط.

يمكن نمذجة مكونات المعلومات لمؤسسة تزويد الطاقة باستخدام عدة مستويات ، والتي تتراوح من المستوى الأدنى - المادي - إلى الأعلى والأكثر تعقيدًا لمنطق العمليات التجارية. يمكن دمج هذه الطبقات لتلبية متطلبات الصناعة النموذجية مثل تسجيل القياس الآلي والتحكم الإشرافي والتحكم في الحصول على البيانات (SCADA). من خلال بناء بنية SAFE ، تخطو شركات المرافق خطوات كبيرة في تطوير نموذج كائن مفتوح على مستوى الصناعة يسمى نموذج المعلومات المشتركة (CIM) للطاقة والمرافق. يوفر هذا النموذج الأساس اللازم لتحريك العديد من المؤسسات نحو بنية موجهة نحو الخدمة ، حيث يشجع على استخدام معايير مفتوحة لهيكلة البيانات والأشياء. من خلال جعل جميع الأنظمة تستخدم نفس الكائنات ، سيتم تقليل الارتباك وعدم المرونة المرتبطين بالتطبيقات المختلفة لنفس الكائنات إلى الحد الأدنى. وبالتالي ، سيتم توحيد تعريف كائن "العميل" وكائنات الأعمال المهمة الأخرى في جميع أنظمة شركة الإمداد بالطاقة. مع CIM ، يمكن لمقدمي الخدمات ومستهلكي الخدمة الآن مشاركة بنية بيانات مشتركة ، مما يسهل الاستعانة بمصادر خارجية لمكونات الأعمال المكلفة حيث ينشئ CIM قاعدة مشتركة لبناء تبادل المعلومات.

استنتاج

توفر نماذج بيانات الصناعة الشاملة للشركات عرضًا واحدًا ومتكاملًا لمعلومات الأعمال الخاصة بهم. تجد العديد من الشركات صعوبة في دمج بياناتها ، على الرغم من أن هذا شرط أساسي لمعظم المشاريع على مستوى المؤسسة. وفقًا لدراسة أجراها معهد تخزين البيانات (TDWI) ، وجدت أكثر من 69٪ من المؤسسات التي شملها الاستطلاع أن التكامل يمثل عائقًا كبيرًا أمام تبني التطبيقات الجديدة. على العكس من ذلك ، فإن تنفيذ تكامل البيانات يجلب للشركة دخلًا ملموسًا ويزيد من الكفاءة.

يحدد النموذج المبني جيدًا بشكل فريد معنى البيانات ، والتي تكون في هذه الحالة بيانات منظمة (على عكس البيانات غير المنظمة مثل صورة أو ملف ثنائي أو نص ، حيث يمكن أن تكون القيمة غامضة). يتم تقديم نماذج الصناعة الأكثر فعالية من قبل البائعين المحترفين ، بما في ذلك Esri و IBM. يتم تحقيق العوائد العالية من استخدام نماذجهم بسبب المستوى الكبير من التفاصيل والدقة. عادة ما تحتوي على العديد من سمات البيانات. بالإضافة إلى ذلك ، لا يتمتع الخبراء من Esri و IBM بخبرة واسعة في النمذجة فحسب ، بل يتمتعون أيضًا بخبرة جيدة في بناء النماذج الخاصة بصناعة معينة.


هندسة قاعدة البيانات

مخطط CMD هو وصف لهيكل نموذج البيانات من وجهة نظر المسؤول.

مخطط AMD هو وصف لنموذج داخلي أو مادي. يخزن وصفًا للموقع المادي للبيانات الموجودة على الوسائط. يخزن النظام المؤشرات المباشرة لموقع البيانات في الذاكرة (وحدات التخزين والأقراص).

يصف مخطط CMD بنية البيانات والسجلات والحقول.

تدعم جميع نظم إدارة قواعد البيانات ثلاثة أنواع رئيسية من نماذج البيانات:

1. نموذج هرمي. يفترض بعض إدخال الجذر. الفروع تأتي من الجذور.

لم يتم وصف جميع الكائنات بشكل ملائم بهذه الطريقة. لا توجد اتصالات في التسلسل الهرمي ، ومن السمات المميزة وجود فائض كبير في المعلومات.

2. نموذج الشبكة. يسمح لك بعرض جميع تعقيدات العلاقات بشكل صحيح.

يعتبر النموذج مناسبًا لتمثيل الارتباطات ببيانات من البيئة الخارجية ، ولكنه أقل ملاءمة لوصفه في قاعدة البيانات ، مما يؤدي إلى عمل إضافي للمستخدم لدراسة التنقل من خلال الروابط.

3. النموذج العلائقي. وهو يقوم على المصطلح الرياضي العلاقة - علاقة ، ولكن ببساطة - جدول. على سبيل المثال ، مستطيل ثنائي الأبعاد.

تم تطوير بنية البيانات العلائقية في أواخر الستينيات من قبل عدد من الباحثين ، وكان من أهم المساهمات التي قدمها إدغار كود ، موظف شركة IBM. مع النهج العلائقي ، يتم تقديم البيانات في شكل جداول ثنائية الأبعاد - الأكثر طبيعية بالنسبة لأي شخص. في الوقت نفسه ، من أجل معالجة البيانات ، اقترح Codd استخدام جهاز نظرية المجموعات - الاتحاد ، التقاطع ، الاختلاف ، المنتج الديكارتي.

نوع البيانات- هذا المفهوم له نفس المعنى كما في لغات البرمجة (على سبيل المثال ، يحدد نوع البيانات التمثيل الداخلي في ذاكرة الكمبيوتر والطريقة التي يتم بها تخزين مثيل البيانات ، بالإضافة إلى مجموعة القيم التي يمكن أن يأخذها مثيل البيانات ومجموعة عمليات البيانات الصحيحة). تدعم جميع قواعد البيانات الحديثة الموجودة أنواعًا خاصة من البيانات المصممة لتخزين بيانات من نوع عدد صحيح ، ونقطة عائمة جزئية ، وأحرف وسلاسل ، وتواريخ تقويم. تطبق العديد من خوادم قواعد البيانات أنواعًا أخرى ، على سبيل المثال ، لدى Interbase نوع بيانات خاص لتخزين مصفوفات المعلومات الثنائية الكبيرة (BLOBs).

اختصاصهي مجموعة محتملة من القيم لنوع بيانات بسيط ، فهي تشبه نوع البيانات الفرعي في بعض لغات البرمجة. يتم تحديد المجال بواسطة عنصرين - نوع البيانات والتعبير المنطقي الذي يتم تطبيقه على البيانات. إذا تم تقييم هذا التعبير إلى صحيح ، فإن مثيل البيانات ينتمي إلى المجال.

سلوكهو جدول ثنائي الأبعاد من نوع خاص ، يتكون من رأس وجسم.

رأسهي مجموعة ثابتة من السمات ، يتم تعريف كل منها في مجال ما ، وهناك تطابق واحد لواحد بين السمات وتحديد المجالات.


يتم تحديد كل سمة على مجالها الخاص. المجال هو نوع بيانات عدد صحيح ، والشرط المنطقي هو n> 0. العنوان خالد ، على عكس جسم العلاقة. هيئة العلاقة- عبارة عن مجموعة مجموعات، كل منها عبارة عن زوج من السمة والقيمة.

من خلال قوة العلاقةهو عدد مجموعاتها و درجة الموقفهو عدد السمات.

درجة النسبة هي قيمة ثابتة لنسبة معينة ، بينما تختلف قوة النسبة مع الوقت. تسمى قوة النسبة أيضًا بالرقم الأساسي.

المفاهيم المذكورة أعلاه نظرية وتستخدم في تطوير أدوات اللغة وأنظمة البرمجيات لنظام إدارة قواعد البيانات العلائقية. في العمل اليومي ، يتم استخدام معادلاتها غير الرسمية بدلاً من ذلك:

سلوك - جدول؛

ينسب - عمود أو حقل ؛

tuple - سجل أو خط.

وبالتالي ، فإن درجة العلاقة هي عدد الأعمدة في الجدول ، والرقم الأساسي هو عدد الصفوف.

نظرًا لأن العلاقة هي مجموعة ، وفي نظرية المجموعة الكلاسيكية ، بحكم التعريف ، لا يمكن أن تحتوي المجموعة على عناصر مطابقة ، لا يمكن أن تحتوي العلاقة على مجموعتين متطابقتين. لذلك ، بالنسبة لعلاقة معينة ، هناك دائمًا مجموعة من السمات التي تحدد بنية tuple بشكل فريد. تسمى هذه المجموعة من السمات مفتاح.

يجب أن يفي المفتاح بالمتطلبات التالية:

يجب أن يكون فريدًا ؛

· يجب أن يكون الحد الأدنى ، أي أن إزالة أي سمة من المفتاح يؤدي إلى انتهاك التفرد.

كقاعدة عامة ، يكون عدد السمات في المفتاح أقل من درجة العلاقة ، ومع ذلك ، في الحالات القصوى ، قد يحتوي المفتاح على جميع السمات ، نظرًا لأن مجموعة جميع السمات تفي بشرط التفرد. عادة ، العلاقة لها مفاتيح متعددة. من بين جميع مفاتيح العلاقة (وتسمى أيضًا "المفاتيح الممكنة") ، يتم اختيار واحد على أنه المفتاح الأساسي. عند الاختيار المفتاح الأساسيعادةً ما يتم إعطاء الأفضلية للمفتاح الذي يحتوي على أقل عدد من السمات. كما أنه من غير المناسب استخدام مفاتيح ذات قيم سلسلة طويلة.

من الناحية العملية ، غالبًا ما يتم استخدام سمة رقمية خاصة كمفتاح أساسي - صفر متزايد تلقائيًا ، يمكن إنشاء قيمته بواسطة المشغل (المشغل هو إجراء خاص يتم استدعاؤه عند إجراء تغييرات على قاعدة البيانات) أو بوسائل خاصة محددة في آلية نظم إدارة قواعد البيانات.

المفاهيم الموصوفة في هذا الفصل ليست خاصة بأي تطبيق معين لقاعدة البيانات ، لكنها مشتركة بينها جميعًا. وبالتالي ، فإن هذه المفاهيم هي أساس نموذج عام معين ، والذي يسمى نموذج البيانات العلائقية.

أسس مؤسس النهج العلائقي ، Date ، أن النموذج العلائقي يتكون من ثلاثة أجزاء:

الهيكلي؛

· متلاعبة

كلي.

يتم إصلاح العلاقات في الجزء الهيكلي من النموذج باعتبارها بنية البيانات الوحيدة المستخدمة في النموذج العلائقي.

في جزء المعالجة ، هناك آليتان أساسيتان لمعالجة قواعد البيانات العلائقية وهما الجبر العلائقي وحساب التفاضل والتكامل.

يُفهم جزء لا يتجزأ على أنه آلية معينة لضمان عدم إتلاف البيانات. يتضمن جزء التكامل اثنين من متطلبات التكامل الأساسية لقواعد البيانات العلائقية - تكامل الكيان والتكامل المرجعي.

متطلبات سلامة الكيانهو أن أي مجموعة لأي علاقة يجب أن تكون مميزة عن أي مجموعة أخرى من هذه العلاقة ، أي بمعنى آخر ، يجب أن يكون لأي علاقة مفتاح أساسي. يجب استيفاء هذا المطلب إذا تم استيفاء الخصائص الأساسية للعلاقة.

في لغة معالجة البيانات ، وكذلك في لغة الاستعلام ، يتم تنفيذ جهاز رياضي يسمى جبر العلاقات ، والذي يتم من أجله تحديد الإجراءات التالية:

1. العمليات القياسية: - التقاطع ، - الاتحاد ، \ - الفرق ، X - المنتج الديكارتي.

2. محددة: الإسقاط ، والقيود ، والاتصال ، والانقسام.

أ. جمعية.

SD SHM EI HP

R 1 (كود الجزء ، كود المادة ، وحدات القياس ، معدل الاستهلاك)

R 2 (SHD ، SHM ، EI ، HP)

تحتاج لتجد

من المفترض أن ينضم إلى المجموعتين R 1 و R 2. في هذه العملية ، يتم الحفاظ على الدرجة ، والأصل للمجموعة الناتجة

ب. تداخل.

قم بتمييز خطوط المطابقة.

ج. اختلاف.

استبعد من المجموعة R 1 التي تطابق R 2.

د. المنتج الديكارتي.

هذا هو المكان الذي يتم فيه تسلسل المجموعات.

كل صف من مجموعة واحدة متسلسل مع كل صف من الآخر.

نظرا لمجموعتين:

المنتج الديكارتي له الشكل التالي:

في هذه الحالة ، فإن الدرجة S هي ، أ ، أي. تحصل على 12 صفًا و 5 أعمدة.

قاعدة بيانات الشركة هي الرابط المركزي لنظام معلومات الشركة وتسمح لك بإنشاء مساحة معلومات واحدة للشركة. قواعد بيانات الشركات


مشاركة العمل على الشبكات الاجتماعية

إذا كان هذا العمل لا يناسبك ، فهناك قائمة بالأعمال المماثلة في أسفل الصفحة. يمكنك أيضًا استخدام زر البحث

الموضوع الخامس قواعد بيانات الشركات

الخامس .واحد. تنظيم البيانات في أنظمة الشركات. قواعد بيانات الشركات.

الخامس .2. نظم إدارة قواعد البيانات والحلول الهيكلية في أنظمة الشركات.

V.3. تقنيات الإنترنت / الإنترانت وحلول الوصول إلى قاعدة بيانات الشركات.

الخامس .واحد. تنظيم البيانات في أنظمة الشركات. قواعد بيانات الشركات

قاعدة الشركات البيانات هي الرابط المركزي لنظام معلومات الشركة وتسمح لك بإنشاء مساحة معلومات واحدة للشركة. قواعد بيانات الشركات (الشكل 1.1).

هناك تعريفات مختلفة لقواعد البيانات.

تحت قاعدة البيانات (DB) فهم مجموعة من المعلومات المرتبطة منطقيًا بطريقة تشكل مجموعة واحدة من البيانات المخزنة في أجهزة تخزين الكمبيوتر. تعمل هذه المجموعة بمثابة البيانات الأولية للمهام التي تم حلها في عملية تشغيل أنظمة التحكم الآلي وأنظمة معالجة البيانات والمعلومات وأنظمة الحوسبة.

يمكنك صياغة مصطلح قاعدة البيانات بإيجاز كمجموعة من البيانات ذات الصلة منطقيًا والمخصصة للمشاركة.

تحت قاعدة البيانات يشير إلى مجموعة من البيانات المخزنة مع الحد الأدنى من التكرار بحيث يمكن استخدامها على النحو الأمثل لتطبيق واحد أو أكثر.

الغرض من إنشاء قواعد البيانات كشكل من أشكال تخزين البياناتبناء نظام بيانات لا يعتمد على الخوارزميات المعتمدة (البرمجيات) والوسائل التقنية المستخدمة والموقع المادي للبيانات في الكمبيوتر. تفترض قاعدة البيانات استخدامًا متعدد الأغراض (عدة مستخدمين ، العديد من أشكال المستندات والاستعلامات لمستخدم واحد).

متطلبات قاعدة البيانات الأساسية:

  • اكتمال عرض البيانات. ينبغي أن تمثل البيانات الموجودة في قاعدة البيانات بشكل كافٍ جميع المعلومات المتعلقة بالشيء وأن تكون كافية لنظام الوثائق الرسمية.
  • تكامل قاعدة البيانات. يجب الحفاظ على البيانات أثناء معالجة المواد المستنفدة للأوزون الخاصة بهم وفي أي حالات قد تنشأ أثناء العمل.
  • مرونة هيكل البيانات. يجب أن تسمح قاعدة البيانات بتغيير هياكل البيانات دون انتهاك سلامتها واكتمالها عندما تتغير الظروف الخارجية.
  • قابلية الإدراك. هذا يعني أنه يجب أن يكون هناك تمثيل موضوعي للكائنات المختلفة وخصائصها وعلاقاتها.
  • التوفر. من الضروري توفير التمايز في الوصول إلى البيانات.
  • وفرة. يجب أن تحتوي قاعدة البيانات على حد أدنى من التكرار في تمثيل البيانات حول أي كائن.

المعرفة مفهومة مجموعة من الحقائق والأنماط والقواعد الإرشادية التي يمكنك من خلالها حل المشكلة.

قاعدة المعرفة (KB)  مجموعة قواعد البيانات والقواعد المستخدمة ، الواردة من صانعي القرار. قاعدة المعرفة هي عنصر من عناصر الأنظمة الخبيرة.

يجب التمييز طرق مختلفة لعرض البيانات.

بيانات فيزيائية - هذه بيانات مخزنة في ذاكرة الكمبيوتر.

التمثيل المنطقي للبيانات يتوافق مع تمثيل المستخدم للبيانات المادية. الفرق بين التمثيل المنطقي المادي والتمثيل المنطقي المقابل للبيانات هو أن الأخير يعكس بعض العلاقات المهمة بين البيانات المادية.

تحت قاعدة بيانات الشركة فهم قاعدة البيانات التي تجمع بشكل أو بآخر جميع البيانات والمعرفة اللازمة حول مؤسسة مؤتمتة. في أنظمة معلومات الشركات ، مثل هذا المفهوم مثلقواعد بيانات متكاملة, حيث يتم تنفيذ مبدأ الإدخال الفردي والاستخدام المتعدد للمعلومات.

أرز. 1.1 هيكل تفاعل الإدارات مع مصادر المعلومات للمؤسسة.

قواعد بيانات الشركات هي تتركز (مركزية) وتوزيعها.

قاعدة بيانات مركزة (مركزية) هي قاعدة بيانات يتم تخزين بياناتها فعليًا في أجهزة التخزين بجهاز كمبيوتر واحد. على التين. يوضح الشكل 1.2 مخططًا لتطبيق الخادم للوصول إلى قواعد البيانات في الأنظمة الأساسية المختلفة.

الشكل 1.2. رسم تخطيطي لمتغير قاعدة بيانات مركزية

جعلت مركزية معالجة المعلومات من الممكن القضاء على أوجه القصور في أنظمة الملفات التقليدية مثل عدم الاتساق وعدم الاتساق وتكرار البيانات. ومع ذلك ، مع نمو قواعد البيانات ، وخاصة عند استخدامها في المنظمات المتفرقة جغرافيا ، تنشأ المشاكل. على سبيل المثال ، بالنسبة لقواعد البيانات المركزة الموجودة في عقدة شبكة الاتصالات السلكية واللاسلكية ، والتي من خلالها تصل الإدارات المختلفة للمؤسسة إلى البيانات ، مع زيادة حجم المعلومات وعدد المعاملات ، تنشأ الصعوبات التالية:

  • تدفق كبير لتبادل البيانات ؛
  • حركة مرور عالية على الشبكة ؛
  • موثوقية منخفضة
  • أداء عام منخفض.

على الرغم من أنه من الأسهل ضمان أمان المعلومات وتكاملها واتساقها أثناء التحديثات في قاعدة بيانات مركزة ، إلا أن هذه المشكلات تخلق بعض الصعوبات. تم اقتراح لامركزية البيانات كحل ممكن لهذه المشاكل. تحقق اللامركزية:

  • درجة أعلى من التزامن في المعالجة بسبب تقاسم الأحمال ؛
  • تحسين استخدام البيانات في الميدان عند إجراء استعلامات عن بُعد (عن بُعد) ؛
  • انخفاض التكاليف
  • سهولة إدارة قواعد البيانات المحلية.

تكاليف إنشاء شبكة مع محطات عمل (أجهزة كمبيوتر صغيرة) في عقدها أقل بكثير من تكاليف إنشاء نظام مشابه باستخدام حاسب مركزي. يوضح الشكل 1.3 مخططًا منطقيًا لقاعدة بيانات موزعة.

الشكل 1.3. قاعدة بيانات الشركة الموزعة.

نقدم التعريف التالي لقاعدة البيانات الموزعة.

قاعدة البيانات الموزعة - هذه مجموعة من المعلومات والملفات (العلاقات) المخزنة في العقد المختلفة لشبكة المعلومات والمرتبطة منطقيًا بطريقة تشكل مجموعة واحدة من البيانات (يمكن أن يكون الارتباط وظيفيًا أو من خلال نسخ من نفس الملف). وبالتالي ، فهي مجموعة من قواعد البيانات المترابطة منطقيًا ، ولكنها موجودة فعليًا على العديد من الأجهزة التي تعد جزءًا من شبكة الكمبيوتر نفسها.

أهم المتطلبات لخصائص قاعدة البيانات الموزعة هي كما يلي:

  • قابلية التوسع؛
  • التوافق
  • دعم نماذج البيانات المختلفة ؛
  • قابلية التنقل؛
  • شفافية الموقع
  • استقلالية عقد قاعدة البيانات الموزعة (استقلالية الموقع) ؛
  • معالجة الطلبات الموزعة ؛
  • تنفيذ المعاملات الموزعة.
  • دعم نظام أمان متجانس.

تتيح شفافية الموقع للمستخدمين العمل مع قواعد البيانات دون معرفة أي شيء عن مواقعهم. تعني استقلالية عقد قاعدة البيانات الموزعة أنه يمكن الحفاظ على كل قاعدة بيانات بشكل مستقل عن الأخرى. الاستعلام الموزع هو استعلام (عبارة SQL) يتم خلاله الوصول إلى كائنات (جداول أو طرق عرض) لقواعد بيانات مختلفة. عند تنفيذ المعاملات الموزعة ، يتم ممارسة التحكم في التزامن على جميع قواعد البيانات المعنية. يستخدم Oracle7 تقنية نقل المعلومات على مرحلتين لإجراء المعاملات الموزعة.

لا يلزم أن تكون قواعد البيانات التي تشكل قاعدة بيانات موزعة متجانسة (أي أن يتم تشغيلها بواسطة نفس نظام إدارة قواعد البيانات) أو تعمل في نفس بيئة نظام التشغيل و / أو على نفس النوع من أجهزة الكمبيوتر. على سبيل المثال ، يمكن أن تكون إحدى قواعد البيانات قاعدة بيانات Oracle على كمبيوتر SUN يعمل بنظام التشغيل SUN OS (UNIX) ، ويمكن تشغيل قاعدة بيانات ثانية بواسطة DB2 DBMS على حاسوب مركزي IBM 3090 يعمل بنظام تشغيل MVS ، ويمكن تشغيل قاعدة بيانات ثالثة بواسطة SQL / DS DBMS أيضًا على حاسوب مركزي IBM ، ولكن مع نظام تشغيل VM. شرط واحد فقط إلزامي - يجب أن تكون جميع الأجهزة التي تحتوي على قواعد بيانات متاحة عبر الشبكة التي هي جزء منها.

المهمة الرئيسية لقاعدة البيانات الموزعة - توزيع البيانات عبر الشبكة وإتاحة الوصول إليها. هناك الطرق التالية لحل هذه المشكلة:

  • تقوم كل عقدة بتخزين مجموعة البيانات الخاصة بها واستخدامها للاستعلامات عن بُعد. هذا التوزيع مقسم.
  • قد يتم تكرار بعض البيانات التي يتم استخدامها بشكل متكرر في المواقع البعيدة. يسمى هذا التوزيع مكرر جزئيًا.
  • يتم تكرار جميع البيانات في كل عقدة. يسمى هذا التوزيع فائض تمامًا.
  • يمكن تقسيم بعض الملفات أفقيًا (يتم تحديد مجموعة فرعية من السجلات) أو رأسياً (يتم تحديد مجموعة فرعية من حقول البيانات الجدولية) ، بينما يتم تخزين المجموعات الفرعية المقسمة في عقد مختلفة مع البيانات غير المنقسمة. يسمى هذا التوزيع انقسام (مجزأ).

عند إنشاء قاعدة بيانات موزعة على المستوى المفاهيمي ، يجب عليك حل المهام التالية:

  • من الضروري أن يكون لديك مخطط مفاهيمي واحد للشبكة بأكملها. سيوفر هذا شفافية البيانات المنطقية للمستخدم ، ونتيجة لذلك سيكون قادرًا على تقديم طلب إلى قاعدة البيانات بأكملها ، في محطة منفصلة (تعمل ، كما كانت ، مع قاعدة بيانات مركزية).
  • هناك حاجة إلى مخطط لتحديد موقع البيانات على الشبكة. سيوفر هذا الشفافية في وضع البيانات بحيث لا يضطر المستخدم إلى تحديد مكان إعادة توجيه الطلب للحصول على البيانات المطلوبة.
  • من الضروري حل مشكلة عدم تجانس قواعد البيانات الموزعة. يمكن أن تكون قواعد البيانات الموزعة متجانسة أو غير متجانسة من حيث الأجهزة والبرامج. من السهل نسبيًا حل مشكلة عدم التجانس إذا كانت قاعدة البيانات الموزعة غير متجانسة من حيث الأجهزة ، ولكنها متجانسة من حيث البرامج (نفس نظام إدارة قواعد البيانات في العقد). إذا تم استخدام DBMS مختلف في عقد النظام الموزع ، فستكون هناك حاجة إلى وسائل تحويل هياكل البيانات واللغات. يجب أن يوفر هذا شفافية التحويل في عقد قاعدة البيانات الموزعة.
  • من الضروري حل مشكلة إدارة القواميس. لتوفير جميع أنواع الشفافية في قاعدة بيانات موزعة ، هناك حاجة إلى برامج تدير العديد من القواميس والكتب المرجعية.
  • من الضروري تحديد طرق تنفيذ الاستعلامات في قاعدة بيانات موزعة. تختلف طرق تنفيذ الاستعلامات في قاعدة البيانات الموزعة عن الطرق المماثلة في قواعد البيانات المركزية ، حيث يجب تنفيذ الأجزاء الفردية من الاستعلامات في موقع البيانات المقابلة ونقل النتائج الجزئية إلى العقد الأخرى ؛ في الوقت نفسه ، يجب ضمان تنسيق جميع العمليات.
  • من الضروري حل مشكلة التنفيذ المتوازي للاستعلامات. في قاعدة البيانات الموزعة ، هناك حاجة إلى آلية معقدة لإدارة المعالجة المتزامنة ، والتي ، على وجه الخصوص ، يجب أن تضمن التزامن عند تحديث المعلومات ، مما يضمن اتساق البيانات.
  • تعد الحاجة إلى منهجية مطورة لتوزيع البيانات ووضعها ، بما في ذلك التقسيم ، أحد المتطلبات الرئيسية لقاعدة البيانات الموزعة.

واحدة من المجالات الجديدة التي يتم تطويرها بنشاط في هندسة أنظمة الكمبيوتر ، والتي تعد أداة قوية لمعالجة المعلومات غير الرقمية ، هي آلات قواعد البيانات. تُستخدم آلات قواعد البيانات لحل المهام غير العددية ، مثل تخزين المستندات والحقائق والبحث فيها وتحويلها ، والعمل مع الكائنات. بعد تعريف البيانات على أنها معلومات رقمية ورسومية حول كائنات العالم المحيط ، يتم تضمين محتوى مختلف في مفهوم البيانات في المعالجة العددية وغير العددية. تستخدم المعالجة الرقمية كائنات مثل المتغيرات والمتجهات والمصفوفات والمصفوفات متعددة الأبعاد والثوابت وما إلى ذلك ، بينما تستخدم المعالجة غير الرقمية كائنات مثل الملفات والسجلات والحقول والتسلسلات الهرمية والشبكات والعلاقات وما إلى ذلك. تهتم المعالجة الرقمية بشكل مباشر بالمعلومات المتعلقة بالكائنات (على سبيل المثال ، موظف معين أو مجموعة من الموظفين) ، وليس ملف الموظف نفسه. لا يقوم بفهرسة ملف الموظف لاختيار شخص معين ؛ هنا يهتم أكثر بمحتوى السجل المطلوب. عادة ما تخضع كميات ضخمة من المعلومات للمعالجة غير العددية. في تطبيقات مختلفة ، يمكن إجراء مثل هذه العمليات على هذه البيانات ، على سبيل المثال:

  • زيادة رواتب جميع موظفي الشركة ؛
  • حساب الفائدة المصرفية على حسابات جميع العملاء ؛
  • إجراء تغييرات على قائمة جميع السلع الموجودة في المخازن ؛
  • العثور على الملخص المطلوب من جميع النصوص المخزنة في المكتبة أو في نظام استرجاع المعلومات الببليوغرافية ؛
  • العثور على وصف العقد المطلوب في ملف يحتوي على وثائق قانونية ؛
  • اعرض جميع الملفات التي تحتوي على أوصاف لبراءات الاختراع وابحث عن براءة اختراع (إن وجدت) مماثلة لتلك المقترحة مرة أخرى.

لتنفيذ محرك قاعدة البيانات المتوازي والرابطي معماريات كبديل للمعالج أحاديفون نيومانهيكل ، مما يسمح لك بالعمل مع كميات كبيرة من المعلومات في الوقت الحقيقي.

تكتسب محركات قواعد البيانات أهمية فيما يتعلق باستكشاف وتطبيق مفاهيم الذكاء الاصطناعي مثل تمثيل المعرفة ، والأنظمة الخبيرة ، والاستدلال ، والتعرف على الأنماط ، وما إلى ذلك.

مخازن المعلومات. اليوم ، يدرك الكثيرون أن معظم الشركات تقوم بالفعل بتشغيل العديد من قواعد البيانات ، ومن أجل العمل بنجاح مع المعلومات ، لا يلزم فقط أنواع مختلفة من قواعد البيانات ، ولكن هناك أجيال مختلفة من نظم إدارة قواعد البيانات. وفقًا للإحصاءات ، تستخدم كل منظمة في المتوسط ​​2.5 DBMS مختلفة. أصبحت الحاجة إلى "عزل" أعمال الشركات ، أو بالأحرى الأشخاص المشاركين في هذا العمل ، من الميزات التكنولوجية لقواعد البيانات ، لتزويد المستخدمين برؤية واحدة لمعلومات الشركة ، بغض النظر عن مكان تخزينها فعليًا ، . حفز هذا ظهور تكنولوجيا تخزين المعلومات (تخزين البيانات ، DW).

الهدف الرئيسي لـ DW هو إنشاء تمثيل منطقي واحد للبيانات الواردة في أنواع مختلفة من قواعد البيانات ، أو بعبارة أخرى ، نموذج بيانات شركة واحد.

أصبحت جولة جديدة من تطوير DW ممكنة بفضل تحسين تكنولوجيا المعلومات بشكل عام ، ولا سيما ظهور أنواع جديدة من قواعد البيانات القائمة على معالجة الاستعلام المتوازي ، والتي اعتمدت بدورها على التقدم في مجال أجهزة الكمبيوتر الموازية. خلقوا بناة الاستعلامبواجهة رسومية سهلة الاستخدام جعلت من السهل إنشاء استعلامات قاعدة بيانات معقدة. برامج متنوعةالوسيطةقدمت الاتصالاتبين أنواع مختلفة من قواعد البيانات، وأخيراً انخفض السعر بشكل حادأجهزة تخزين المعلومات.

قد يكون بنك البيانات موجودًا في هيكل الشركة.

قاعدة البيانات - المكون الوظيفي والتنظيمي في أنظمة التحكم الآلي وأنظمة المعلومات والحوسبة ، والذي يوفر دعمًا للمعلومات المركزية لمجموعة من المستخدمين أو مجموعة من المهام التي تم حلها في النظام.

قاعدة البيانات يعتبر نظامًا للمعلومات والمرجعية ، والغرض الرئيسي منه هو:

  • في التراكم والصيانة في حالة العمل لمجموعة من المعلومات التي تشكل قاعدة المعلومات للنظام الآلي بأكمله أو مجموعة معينة من المهام التي تم حلها فيه ؛
  • في إصدار البيانات التي تتطلبها المهمة أو المستخدم ؛
  • في توفير الوصول الجماعي إلى المعلومات المخزنة ؛
  • في ضمان الإدارة اللازمة لاستخدام المعلومات الواردة في قاعدة المعلومات.

وبالتالي ، فإن بنك البيانات الحديث هو مجمع معقد للبرامج والأجهزة ، والذي يتضمن الأدوات التقنية والنظم والشبكات وقواعد البيانات ونظام إدارة قواعد البيانات وأنظمة استرجاع المعلومات لأغراض مختلفة.

الخامس .2. نظم إدارة قواعد البيانات والحلول الهيكلية في أنظمة الشركات

نظم إدارة قواعد البيانات والمعرفة

من المكونات المهمة لأنظمة المعلومات الحديثة أنظمة إدارة قواعد البيانات (DBMS).

نظم إدارة قواعد البيانات - مجموعة من البرامج وأدوات اللغة المصممة لإنشاء قواعد البيانات وصيانتها واستخدامها.

يوفر نظام إدارة قواعد البيانات أنظمة معالجة البيانات مع الوصول إلى قواعد البيانات. كما لوحظ بالفعل ، يتم اكتساب دور مهم لـ DBMS في إنشاء أنظمة معلومات الشركة ودور مهم بشكل خاص في إنشاء أنظمة المعلومات باستخدام موارد المعلومات الموزعة على أساس تقنيات الكمبيوتر الحديثة للشبكة.

السمة الرئيسية لنظام إدارة قواعد البيانات الحديث هي أن نظم إدارة قواعد البيانات الحديثة تدعم تقنيات مثل:

  • تقنية العميل / الخادم.
  • دعم للغات قاعدة البيانات. هذهلغة تعريف المخطط DB (SDL - لغة تعريف المخطط) ،لغة معالجة البيانات (DML - لغة معالجة البيانات) ، لغات متكاملة SQL (لغة قائمة الانتظار الهيكلية) و QDB (الاستعلام - حسب - مثال) و QMF (تسهيل إدارة الاستعلام ) هي أداة طرفية متقدمة لمواصفات الاستعلام وإنشاء التقارير لـ DB 2 وما إلى ذلك ؛
  • الإدارة المباشرة للبيانات في الذاكرة الخارجية.
  • إدارة ذاكرة التخزين المؤقت.
  • ادارة العمليات التجارية. تقنية OLTP (معالجة المعاملات عبر الإنترنت) ، OLAP -تكنولوجيا (معالجة التحليل عبر الإنترنت)لـ DW.
  • ضمان حماية البيانات وسلامتها. يُسمح باستخدام النظام فقط للمستخدمين الذين لديهم الحق في الوصول إلى البيانات. عندما يقوم المستخدمون بعمليات على البيانات ، يتم الحفاظ على اتساق البيانات المخزنة (تكاملها). هذا مهم في أنظمة معلومات الشركات متعددة المستخدمين.
  • يوميات.

يجب أن يلبي نظام DBMS الحديث متطلبات قاعدة البيانات المذكورة أعلاه. بالإضافة إلى ذلك ، يجب عليهم الامتثال للمبادئ التالية:

  • استقلالية البيانات.
  • براعه. يجب أن يتمتع نظام DBMS بدعم قوي لنموذج البيانات المفاهيمي لعرض طرق العرض المنطقية المخصصة.
  • التوافق. يجب أن يظل نظام DBMS قيد التشغيل مع تطوير البرامج والأجهزة.
  • تكرار البيانات. على عكس أنظمة الملفات ، يجب أن تكون قاعدة البيانات مجموعة واحدة من البيانات المتكاملة.
  • حماية البيانات. يجب أن يوفر نظام DBMS الحماية ضد الوصول غير المصرح به.
  • تكامل البيانات. يجب أن يمنع DBMS المستخدمين من العبث بقاعدة البيانات.
  • إدارة العمل المتزامن. يجب أن يحمي نظام DBMS قاعدة البيانات من التناقضات في وضع الوصول المشترك. لضمان حالة متسقة لقاعدة البيانات ، يجب تنفيذ جميع طلبات المستخدم (المعاملات) بترتيب معين.
  • يجب أن يكون نظام DBMS عالميًا. يجب أن تدعم نماذج البيانات المختلفة على أساس منطقي ومادي واحد.
  • يجب أن يدعم نظام DBMS كلاً من قواعد البيانات المركزية والموزعة وبالتالي يصبح رابطًا مهمًا في شبكات الكمبيوتر.

بالنظر إلى نظام إدارة قواعد البيانات باعتباره فئة من منتجات البرامج التي تركز على الحفاظ على قواعد البيانات في الأنظمة الآلية ، يمكننا التمييز بين اثنين من أهم الميزات التي تحدد أنواع نظم إدارة قواعد البيانات. وفقًا لهم ، يمكن اعتبار نظام DBMS من وجهتي نظر:

  • قدراتهم فيما يتعلق بقواعد البيانات الموزعة (الشركات) ؛
  • علاقتها بنوع نموذج البيانات المطبق في نظام إدارة قواعد البيانات.

فيما يتعلق بقواعد بيانات الشركة (الموزعة) ، يمكن تمييز الأنواع التالية من نظم إدارة قواعد البيانات بشكل تقليدي:

  • DBMS "سطح المكتب". تركز هذه المنتجات بشكل أساسي على العمل مع البيانات الشخصية (بيانات سطح المكتب). لديهم مجموعات أوامر لمشاركة قواعد البيانات المشتركة ، لكنها صغيرة الحجم (نوع مكتب صغير). بادئ ذي بدء ، إنه نظام DBMS مثل Access و dBASE و Paradox و ExPro. لماذا يعاني Access و dBASE و Paradox و ExPro من ضعف الوصول إلى بيانات الشركة. الحقيقة أنه لا توجد طريقة سهلة للتغلب على الحاجز بين البيانات الشخصية وبيانات الشركة. والنقطة ليست حتى أن آلية DBMS للبيانات الشخصية (أو مكتب صغير) تركز على الوصول إلى البيانات من خلال العديد من البوابات ومنتجات البوابة وما إلى ذلك. تكمن المشكلة في أن هذه الآليات تتضمن عادةً عمليات نقل ملفات كاملة ونقصًا في دعم الفهرس الواسع ، مما يؤدي إلى وجود قوائم انتظار إلى الخادم تتوقف عمليًا في الأنظمة الكبيرة.
  • نظم إدارة قواعد البيانات المتخصصة عالية الأداء ومتعددة المستخدمين. تتميز نظم إدارة قواعد البيانات هذه بوجود نواة نظام متعدد المستخدمين ولغة معالجة البيانات والوظائف التالية التي تعتبر نموذجية لنظم إدارة قواعد البيانات المطورة متعددة المستخدمين:
  • تنظيم تجمع عازلة
  • وجود نظام لمعالجة قوائم انتظار المعاملات ؛
  • وجود آليات لحجب بيانات المستخدمين المتعددين ؛
  • تسجيل المعاملات
  • توافر آليات التحكم في الوصول.

هذه أنظمة DBMS مثل Oracle و DВ2 و SQL / Server و Informix و Sybase و ADABAS و Titanium وغيرها توفر خدمة واسعة لمعالجة قواعد بيانات الشركة.

عند العمل مع قواعد البيانات ، يتم استخدام آلية المعاملات.

عملية تجارية هي وحدة منطقية للعمل.

عملية تجارية هي سلسلة من عبارات معالجة البيانات التي يتم تنفيذهاكواحد(الكل أو لا شيء) وترجمة قاعدة البياناتمن دولة متكاملة إلى دولة متكاملة أخرى.

للمعاملة أربع خصائص مهمة ، تُعرف بخصائص ASID:

  • (أ) الذرية . يتم تنفيذ المعاملة كعملية صغيرة - إما أن يتم تنفيذ المعاملة بالكامل ، أو لم يتم تنفيذ المعاملة بالكامل.
  • (ج) الاتساق. تنقل المعاملة قاعدة بيانات من حالة متسقة (متسقة) إلى حالة أخرى متسقة (متسقة). ضمن المعاملة ، يمكن كسر تناسق قاعدة البيانات.
  • (ط) العزلة . يجب ألا تتداخل معاملات المستخدمين المختلفين مع بعضهم البعض (على سبيل المثال ، كما لو تم تنفيذها بشكل صارم).
  • (د) المتانة. إذا اكتملت المعاملة ، فيجب حفظ نتائج عملها في قاعدة البيانات ، حتى لو تعطل النظام في اللحظة التالية.

تبدأ المعاملة عادةً تلقائيًا من لحظة انضمام المستخدم إلى DBMS وتستمر حتى حدوث أحد الأحداث التالية:

  • تم إصدار أمر COMMIT WORK (لتنفيذ معاملة).
  • صدر أمر عمل ROLLBACK.
  • قطع المستخدم اتصاله بنظام إدارة قواعد البيانات.
  • كان هناك فشل في النظام.

بالنسبة للمستخدم ، فهي ترتدي عادة الطابع الذري. في الواقع ، هذه آلية معقدة للتفاعل بين المستخدم (التطبيق) وقاعدة البيانات. يستخدم برنامج أنظمة المؤسسات محرك معالجة المعاملات في الوقت الفعلي (أنظمة معالجة المعاملات عبر الإنترنت ، OLTP) ، ولا سيما برامج المحاسبة ، وبرامج استلام ومعالجة تطبيقات العملاء ، والتطبيقات المالية ، تنتج الكثير من المعلومات. تم تصميم هذه الأنظمة (وتحسينها بشكل مناسب) لمعالجة كميات كبيرة من البيانات والمعاملات المعقدة وعمليات القراءة / الكتابة المكثفة.

لسوء الحظ ، فإن المعلومات الموضوعة في قواعد بيانات أنظمة OLTP ليست مناسبة جدًا للاستخدام من قبل المستخدمين العاديين (نظرًا لارتفاع درجة تطبيع الجدول وتنسيقات عرض البيانات المحددة وعوامل أخرى). لذلك ، يتم إرسال البيانات من خطوط أنابيب المعلومات المختلفة (بمعنى أنها يتم نسخها) إلى مستودع التخزينوالفرز والتسليم اللاحق للمستهلك. في تكنولوجيا المعلومات ، يتم لعب دور المستودعاتمخازن المعلومات.

تسليم المعلومات إلى المستخدم النهائي - تشارك أنظمة معالجة البيانات التحليلية في الوقت الحقيقي (معالجة تحليلية عبر الإنترنت ، OLAP)، والتي توفر وصولاً سهلاً للغاية إلى البيانات من خلال أدوات ملائمة لتوليد الاستعلامات وتحليل النتائج. في أنظمة OLAP ، يتم زيادة قيمة منتج المعلومات من خلال استخدام طرق مختلفة للتحليل والمعالجة الإحصائية. بالإضافة إلى ذلك ، تم تحسين هذه الأنظمة من حيث سرعة استخراج البيانات ، وجمع المعلومات المعممة وتركز على المستخدمين العاديين (لديهم واجهة سهلة الاستخدام). إذانظام OLTP يقدم إجابات لأسئلة بسيطة مثل "ما هو مستوى مبيعات المنتج N في المنطقة M في يناير 199x؟" ، إذنأنظمة OLAP مستعدون لطلبات المستخدمين الأكثر تعقيدًا ، على سبيل المثال: "تقديم تحليل لمبيعات المنتج N لجميع المناطق وفقًا لخطة الربع الثاني مقارنةً بالعامين الماضيين."

هيكل العميل / الخادم

في الأنظمة الحديثة معالجة المعلومات الموزعةتحتل التكنولوجيا مركز الصدارةخدمة الزبائن. في النظام معماريات خادم العميلتنقسم معالجة البيانات بين كمبيوتر عميل وجهاز كمبيوتر خادم ، ويتم الاتصال بينهما عبر الشبكة. يعتمد هذا الفصل لعمليات معالجة البيانات على تجميع الوظائف. عادةً ما يتم تخصيص كمبيوتر خادم قاعدة البيانات لإجراء عمليات قاعدة البيانات ، بينما يقوم الكمبيوتر العميل بتشغيل برامج التطبيقات. يوضح الشكل 2.1 نظامًا بسيطًا لهندسة العميل والخادم يتضمن جهاز كمبيوتر يعمل كخادم وحاسوب آخر يعمل كعميل له. كل آلة تؤدي وظائف مختلفة ولها مواردها الخاصة.

قاعدة البيانات

كمبيوتر الخادم

شبكة

كمبيوتر متوافق مع IBM

كمبيوتر متوافق مع IBM

كمبيوتر متوافق مع IBM

التطبيقات

أرز. 2.1. نظام هندسة العميل والخادم

تتمثل الوظيفة الرئيسية لجهاز الكمبيوتر العميل في تشغيل التطبيق (واجهة المستخدم ومنطق العرض التقديمي) والتواصل مع الخادم عند طلب التطبيق.

الخادم - هذا كائن (كمبيوتر) يوفر خدمات لكائنات أخرى بناءً على طلبها.

كما يوحي المصطلح ، فإن الوظيفة الرئيسية لجهاز كمبيوتر الخادم هي تلبية احتياجات العميل. يُستخدم مصطلح "الخادم" للإشارة إلى مجموعتين مختلفتين من الوظائف: خادم الملفات وخادم قاعدة البيانات (فيما يلي ، تعني هذه المصطلحات ، اعتمادًا على السياق ، إما البرنامج الذي ينفذ هذه المجموعات من الوظائف ، أو أجهزة الكمبيوتر التي تستخدم هذا البرنامج ). خوادم الملفات ليست مصممة لأداء عمليات قاعدة البيانات ، وظيفتها الرئيسية هي مشاركة الملفات بين عدة مستخدمين ، أي توفير الوصول المتزامن للعديد من المستخدمين إلى الملفات الموجودة على جهاز الكمبيوتر - خادم ملفات. مثال على خادم الملفات هو نظام التشغيل NetWare الخاص بشركة Novell. يمكن تثبيت خادم قاعدة البيانات وتشغيله على كمبيوتر خادم الملفات. يتم تشغيل Oracle DBMS في شكل NLM (الوحدة النمطية القابلة للتحميل على الشبكة) في بيئة NetWare على خادم ملفات.

يجب أن يكون لخادم الشبكة المحلية موارد تتوافق مع غرضه الوظيفي واحتياجات الشبكة. لاحظ أنه نظرًا للتوجه نحو نهج الأنظمة المفتوحة ، فمن الأصح التحدث عن الخوادم المنطقية (بمعنى مجموعة من الموارد وأدوات البرامج التي تقدم خدمات عبر هذه الموارد) ، والتي لا توجد بالضرورة على أجهزة كمبيوتر مختلفة. من ميزات الخادم المنطقي في نظام مفتوح أنه إذا كان من المناسب ، لأسباب تتعلق بالكفاءة ، نقل الخادم إلى كمبيوتر منفصل ، فيمكن القيام بذلك دون الحاجة إلى أي تعديل ، سواء من تلقاء نفسه أو للتطبيق البرامج التي تستخدمه.

أحد متطلبات الخادم المهمة هو أن نظام التشغيل الذي يتم فيه استضافة خادم قاعدة البيانات يجب أن يكون متعدد المهام (ويفضل ، ولكن ليس بالضرورة ، متعدد المستخدمين). على سبيل المثال ، لا يمكن استخدام Oracle DBMS المثبت على جهاز كمبيوتر شخصي مع نظام تشغيل MS-DOS (أو PC-DOS) لا يفي بمتطلبات تعدد المهام كخادم قاعدة بيانات. ونفس نظام Oracle DBMS المثبت على جهاز كمبيوتر به نظام تشغيل OS / 2 متعدد المهام (وإن لم يكن متعدد المستخدمين) يمكن أن يكون خادم قاعدة بيانات. العديد من أنواع UNIX و MVS و VM وبعض أنظمة التشغيل الأخرى متعددة المهام ومتعددة المستخدمين.

الحوسبة الموزعة

غالبًا ما يستخدم مصطلح "الحوسبة الموزعة" للإشارة إلى مفهومين مختلفين ، وإن كانا متكاملين:

  • قاعدة بيانات موزعة ؛
  • معالجة البيانات الموزعة.

يتيح تطبيق هذه المفاهيم تنظيم الوصول إلى المعلومات المخزنة على العديد من الأجهزة للمستخدمين النهائيين باستخدام وسائل مختلفة.

هناك أنواع عديدة من الخوادم:

  • خادم قاعدة البيانات؛
  • ملقم الطباعة؛
  • خادم الوصول عن بعد ؛
  • خادم الفاكس
  • خادم الويب ، إلخ.

في صميم تقنية العميل / الخادم هناك تقنيات أساسية مثل:

  • تقنيات أنظمة التشغيل ، مفهوم تفاعل الأنظمة المفتوحة ، إنشاء بيئات موجهة للكائنات لتشغيل البرامج ؛
  • تقنيات الاتصالات؛
  • تقنيات الشبكة؛
  • تقنيات واجهة المستخدم الرسومية (واجهة المستخدم الرسومية) ؛
  • إلخ.

مزايا تقنية خادم العميل:

  • تسمح تقنية العميل / الخادم بالحوسبة في بيئات الحوسبة غير المتجانسة. استقلالية النظام الأساسي: الوصول إلى بيئات الشبكات غير المتجانسة ، والتي تشمل أنواعًا مختلفة من أجهزة الكمبيوتر ذات أنظمة التشغيل المختلفة.
  • الاستقلال عن مصادر البيانات: الوصول إلى المعلومات من قواعد البيانات غير المتجانسة. ومن أمثلة هذه الأنظمة DB2 و SQL / DS و Oracle و Sybase.
  • توازن التحميل بين العميل والخادم.
  • إجراء العمليات الحسابية حيثما يحدث ذلك بأكبر قدر من الكفاءة ؛
  • يوفر قدرة تحجيم فعالة ؛
  • عبر منصة الحوسبة. يتم تعريف الحوسبة عبر الأنظمة الأساسية ببساطة على أنها تنفيذ التقنيات في بيئات الحوسبة غير المتجانسة. يجب توفير الخيارات التالية هنا:
  • يجب أن يعمل التطبيق على منصات متعددة ؛
  • على جميع الأنظمة الأساسية ، يجب أن يكون لها نفس الواجهة ومنطق العمل ؛
  • يجب أن يتكامل التطبيق مع بيئة التشغيل الأصلية ؛
  • يجب أن تتصرف بنفس الطريقة على جميع الأنظمة الأساسية ؛
  • يجب أن يكون لها دعم بسيط ومتسق.

الحوسبة الموزعة. تتضمن الحوسبة الموزعة توزيع العمل بين العديد من أجهزة الكمبيوتر (على الرغم من أن الحوسبة الموزعة هي مفهوم أوسع).

تصغير. تصغير النطاق هو نقل تطبيقات الحاسبات المركزية إلى منصات الكمبيوتر الصغيرة.

  • تقليل تكاليف البنية التحتية والأجهزة. فعالة من حيث التكلفة: إن توافر أجهزة الحوسبة منخفضة التكلفة والانتشار المتزايد لشبكات المنطقة المحلية يجعل تقنية خادم العميل أكثر فعالية من حيث التكلفة من تقنيات معالجة البيانات الأخرى. يمكن ترقية المعدات حسب الحاجة.

تقليل وقت تنفيذ التطبيق الإجمالي ؛

تقليل استخدام ذاكرة العميل ؛

تقليل حركة مرور الشبكة.

  • القدرة على العمل مع الوسائط المتعددة: حتى الآن ، تم إنشاء الكثير من البرامج للعمل مع الوسائط المتعددة لأجهزة الكمبيوتر. إما أنه لا توجد مثل هذه البرامج لتكوين مضيف المحطة ، أو أنها باهظة الثمن.
  • القدرة على استخدام المزيد من موارد الحوسبة لعمليات قاعدة البيانات: منذ تشغيل التطبيقات على أجهزة الكمبيوتر العميلة ، يتم تحرير موارد إضافية (مقارنة بتكوين مضيف المحطة الطرفية) على كمبيوتر الخادم لعمليات قاعدة البيانات ، مثل وحدة المعالجة المركزية والموارد التشغيلية. الذاكرة.
  • زيادة إنتاجية المبرمج: يتم زيادة إنتاجية المبرمج باستخدام أدوات مثل SQL * Forms و CASE لتطوير التطبيقات بشكل أسرع من لغات البرمجة مثل C أو PL1 أو COBOL.
  • زيادة إنتاجية المستخدم النهائي: في الوقت الحاضر ، تبنى العديد من المستخدمين النهائيين أنظمة مثل Lotus و Paradox و Word Perfect و Harvard Graphics ، إلخ.

تعريف الواجهة الخلفية وثابت. لذلك ، من الممكن إنشاء أجزاء جديدة للعميل من نظام موجود (مثال على قابلية التشغيل البيني على مستوى النظام).

أرز. 2.2. رسم توضيحي لوصول العميل إلى مشاركة خادم.

كيفية تنفيذ تقنية خادم العميل

تتم مناقشة تثبيت نظام قائم على تقنية خادم العميل وقادر على معالجة البيانات الموزعة أدناه. أجهزة وبرامج الكمبيوتر التالية مطلوبة:

  • كمبيوتر خادم قاعدة البيانات ؛
  • أجهزة كمبيوتر العميل
  • شبكة اتصال؛
  • برامج الشبكة
  • تطبيق البرمجيات.

لغة SQL . لغة الاستعلام عالية المستوى - SQL (لغة الاستعلام الهيكلية ) لتنفيذ الاستعلامات لقواعد البيانات ، مثل NMD و NDL و PJD ، وقد تم اعتماده كمعيار. لغة SQL تم اعتمادها في الأصل كلغة بيانات لمنتجات برامج الشركةآي بي إم و YMD لنظام إدارة قواعد البيانات العلائقية SYSTEM R من شركة IBM . ميزة مهمة للغة SQL هي أن يتم تمثيل نفس اللغة من خلال واجهتين مختلفتين ، وهما: من خلال واجهة تفاعلية ومن خلال واجهة برمجة التطبيقات (ديناميكية SQL). ديناميكية SQL يتكون من العديد من ميزات اللغة المضمنة SQL ، يتم توفيرها خصيصًا لإنشاء تطبيقات تفاعلية ، حيث يكون التطبيق التفاعلي عبارة عن برنامج تمت كتابته لدعم الوصول إلى قاعدة البيانات من قبل المستخدم النهائي الذي يعمل على المحطة التفاعلية. لغة SQL يوفر وظائف تعريف ومعالجة وإدارة بيانات قاعدة البيانات وهو شفاف للمستخدم من وجهة نظر نظام إدارة قواعد البيانات المنفذ.

أرز. 2.3 مخطط لتنفيذ طلبات المستخدم لقواعد البيانات الموزعة.

يتم تحديد الهيكل الداخلي لقواعد البيانات من خلال نماذج البيانات المستخدمة. يحتوي النموذج المفاهيمي على قدرات تجريدية أكثر ودلالات أكثر ثراءً من النماذج الخارجية. غالبًا ما تسمى النماذج الخارجية بالنماذج النحوية أو التشغيلية ، في إشارة إلى الطبيعة النحوية للإدارة والتطبيق كوسيلة لتفاعل المستخدم مع قاعدة البيانات. في نمذجة المعلومات ، هناك مستويات مختلفة من التجريد ، من مستوى النموذج المفاهيمي إلى مستوى نموذج البيانات المادية ، والتي تؤثر على بنية نظام إدارة قواعد البيانات.

يتكون نموذج البيانات من ثلاثة مكونات:

  • هيكل بيانات يتم تمثيله من منظور المستخدم في قاعدة البيانات.
  • عمليات صالحة ليتم تنفيذها على هيكل البيانات. من الضروري أن تكون قادرًا على العمل مع هذا الهيكل باستخدام عمليات DDL و NML المختلفة. لا قيمة للبنية الغنية إذا لم تستطع التلاعب بمحتواها.
  • قيود مراقبة النزاهة. يجب تزويد نموذج البيانات بوسائل للحفاظ على سلامته وحمايته. كمثال ، ضع في اعتبارك التقيدين التاليين:
  • يجب أن تحتوي كل شجرة فرعية على عقدة مصدر. لا يمكن لقواعد البيانات الهرمية تخزين العقد الفرعية بدون عقدة أصل.
  • فيما يتعلق بقاعدة البيانات العلائقية ، لا يمكن أن تكون هناك مجموعات متطابقة. بالنسبة للملف ، يتطلب هذا المطلب أن تكون جميع السجلات فريدة.

إحدى أهم خصائص نظام إدارة قواعد البيانات (DBMS) هي القدرة على ربط الأشياء.

هناك الأنواع التالية من الروابط بين الكائنات:

  • واحد لواحد (1: 1). يمكن ربط كائن واحد من مجموعة مع كائن واحد من مجموعة أخرى.
  • واحد لأكثر (1: M). يمكن أن يرتبط كائن من مجموعة واحدة بالعديد من كائنات مجموعة أخرى.
  • كثير إلى كثير (M: N). يمكن ربط كائن واحد من مجموعة واحدة بالعديد من كائنات مجموعة أخرى ، ولكن في نفس الوقت ، يمكن ربط كائن واحد من مجموعة أخرى بالعديد من كائنات المجموعة الأولى.
  • متفرعة . يمكن ربط كائن واحد من مجموعة واحدة بأشياء من مجموعات عديدة.
  • العودية . يمكن ربط كائن واحد من مجموعة معينة بكائن من نفس المجموعة.

توجد نماذج البيانات الرئيسية التالية:

  • نموذج البيانات العلائقية.
  • نموذج البيانات الهرمي.
  • نموذج بيانات شبكة غير مكتمل.
  • نموذج بيانات CODASYL.
  • نموذج بيانات الشبكة الموسعة.

V.3. تقنيات الإنترنت / الإنترنت وحلول الوصول إلى قواعد البيانات الخاصة بالشركات

تكمن المشكلة الرئيسية للأنظمة القائمة على بنية "العميل - الخادم" في أنها ، وفقًا لمفهوم الأنظمة المفتوحة ، يجب أن تكون متنقلة في أوسع فئة ممكنة من حلول أجهزة وبرامج الأنظمة المفتوحة. حتى لو قصرنا أنفسنا على شبكات المنطقة المحلية المستندة إلى UNIX ، فإن الشبكات المختلفة تستخدم بروتوكولات اتصال ومعدات مختلفة. تؤدي محاولة إنشاء أنظمة تدعم جميع البروتوكولات الممكنة إلى تحميلها الزائد بتفاصيل الشبكة على حساب الوظيفة.

يرتبط جانب أكثر تعقيدًا من هذه المشكلة بإمكانية استخدام تمثيلات مختلفة للبيانات في عقد مختلفة لشبكة محلية غير متجانسة. قد تحتوي أجهزة الكمبيوتر المختلفة على عناوين مختلفة ، وتمثيل للأرقام ، وترميز الأحرف ، وما إلى ذلك. هذا مهم بشكل خاص للخوادم عالية المستوى: الاتصالات السلكية واللاسلكية والحوسبة وقواعد البيانات.

يتمثل أحد الحلول الشائعة لمشكلة تنقل الأنظمة القائمة على بنية "العميل-الخادم" في الاعتماد على حزم البرامج التي تنفذ بروتوكولات استدعاء الإجراءات عن بُعد (RPC - استدعاء الإجراء البعيد). باستخدام هذه الأدوات ، يبدو استدعاء الخدمة لدى المضيف البعيد وكأنه استدعاء إجراء عادي. تقوم أدوات RPC ، التي تحتوي بالطبع ، على جميع المعلومات حول تفاصيل معدات الشبكة المحلية وبروتوكولات الشبكة ، بترجمة المكالمة إلى سلسلة من تفاعلات الشبكة. وبالتالي ، فإن تفاصيل بيئة الشبكة والبروتوكولات مخفية عن مبرمج التطبيق.

عندما يتم استدعاء إجراء عن بعد ، تقوم برامج RPC بتحويل تنسيقات بيانات العميل إلى تنسيقات وسيطة مستقلة عن الجهاز ثم تحويلها إلى تنسيقات بيانات الخادم. عند تمرير معلمات الاستجابة ، يتم إجراء تحويلات مماثلة.

الأعمال الأخرى ذات الصلة التي قد تهمك. vshm>

6914. مفهوم قاعدة البيانات 11.56 كيلو بايت
قاعدة البيانات عبارة عن مجموعة من المواد المستقلة المقدمة في شكل موضوعي من مقالات حساب الإجراءات المعيارية لقرارات المحكمة وغيرها من المواد المماثلة المنظمة بطريقة يمكن من خلالها العثور على هذه المواد ومعالجتها باستخدام القانون المدني للكمبيوتر الإلكتروني للاتحاد الروسي فن. قاعدة بيانات منظمة وفقًا لقواعد معينة ويتم الاحتفاظ بها في ذاكرة الكمبيوتر ، وهي مجموعة من البيانات التي تميز الوضع الحالي لبعض ...
8064. قواعد البيانات الموزعة 43.66 كيلو بايت
قواعد البيانات الموزعة قاعدة بيانات RDB الموزعة هي مجموعة من البيانات المشتركة المترابطة منطقيًا والتي يتم توزيعها فعليًا عبر عقد مختلفة لشبكة الكمبيوتر. يجب ألا يعتمد الوصول إلى البيانات على وجود أو عدم وجود نسخ متماثلة للبيانات. يجب أن يحدد النظام تلقائيًا طرق إجراء ربط البيانات ، ورابط شبكة قادر على التعامل مع كمية المعلومات التي يتم نقلها والعقدة التي تتمتع بقدرة معالجة كافية للانضمام إلى الجداول. يجب أن يكون نظام RDBMS قادرًا على ...
20319. قواعد البيانات وحمايتها 102.86 كيلو بايت
ظهرت قواعد البيانات على الإنترنت في منتصف الستينيات. تمت معالجة العمليات على قواعد البيانات التشغيلية بشكل تفاعلي باستخدام المحطات. تطورت منظمة السجل التسلسلي البسيط بسرعة إلى نموذج تسجيل أكثر قوة. حصل تشارلز باخمان على جائزة تورينج لقيادته عمل مجموعة مهام قاعدة البيانات (DBTG) ، التي طورت لغة قياسية لوصف البيانات ومعالجة البيانات.
5031. مكتبة تطوير قواعد البيانات 11.72 ميجا بايت
تكنولوجيا تصميم قواعد البيانات. تحديد العلاقات بين الكيانات وإنشاء نموذج بيانات. تستند الأفكار الرئيسية لتكنولوجيا المعلومات الحديثة إلى مفهوم أنه يجب تنظيم البيانات في قواعد بيانات من أجل عكس العالم الحقيقي المتغير بشكل مناسب وتلبية احتياجات المستخدمين من المعلومات. يتم إنشاء قواعد البيانات هذه وتشغيلها تحت سيطرة أنظمة برمجية خاصة تسمى أنظمة إدارة قواعد البيانات DBMS.
13815. نموذج قاعدة البيانات الهرمية 81.62 كيلو بايت
تستند الأفكار الرئيسية لتكنولوجيا المعلومات الحديثة إلى مفهوم قواعد البيانات ، والتي بموجبها أساس تكنولوجيا المعلومات هو البيانات المنظمة في قواعد البيانات التي تعكس بشكل مناسب حالة مجال موضوع معين وتزود المستخدم بالمعلومات ذات الصلة في هذا المجال. يجب الاعتراف بأن البيانات ...
14095. تطوير قاعدة بيانات المكتبة 11.72 ميجا بايت
أدت الزيادة في الحجم والتعقيد الهيكلي للبيانات المخزنة ، واتساع دائرة مستخدمي أنظمة المعلومات إلى انتشار استخدام نظم إدارة قواعد البيانات (DBMS) الأكثر ملاءمة وسهولة نسبيًا في الفهم.
5061. إنشاء قاعدة بيانات للعيادات 2.4 ميجا بايت
لقد أتاح تطوير تكنولوجيا الكمبيوتر وتكنولوجيا المعلومات فرصًا لإنشاء أنظمة المعلومات المؤتمتة (AIS) واستخدامها على نطاق واسع لأغراض مختلفة. يجري تطوير وتنفيذ نظم معلومات لإدارة المرافق الاقتصادية والتقنية
13542. قواعد بيانات المعلومات الجيولوجية 20.73 كيلو بايت
في الآونة الأخيرة ، تم إدخال تقنيات الكمبيوتر ، ولا سيما قواعد البيانات ، في المجال العلمي بوتيرة سريعة. هذه العملية لا تتخطى الجيولوجيا أيضًا ، لأنه في العلوم الطبيعية هناك حاجة لتخزين ومعالجة كميات كبيرة من المعلومات.
9100. قاعدة البيانات. مفاهيم أساسية 26.28 كيلو بايت
قاعدة البيانات هي عبارة عن مجموعة من المعلومات حول كائنات معينة من العالم الحقيقي في أي مجال موضوع ، والاقتصاد ، والإدارة ، والكيمياء ، وما إلى ذلك. الغرض من نظام المعلومات ليس فقط تخزين البيانات حول الكائنات ، ولكن أيضًا لمعالجة هذه البيانات ، مع أخذ في الاعتبار العلاقات بين الأشياء. يتميز كل كائن بمجموعة من خصائص البيانات ، والتي تسمى سمات في قاعدة البيانات.
5240. إنشاء قاعدة البيانات "مكتب عميد الجامعة". 1.57 ميغا بايت
قاعدة البيانات (DB) عبارة عن مجموعة من البيانات المترابطة المخزنة معًا على وسائط تخزين خارجية لجهاز كمبيوتر مع مثل هذه المنظمة والحد الأدنى من التكرار الذي يسمح باستخدامها بالطريقة المثلى لتطبيق واحد أو أكثر.

نماذج بيانات الصناعة

الغرض الرئيسي من النماذج هو تسهيل التوجيه في مساحة البيانات والمساعدة في إبراز التفاصيل المهمة لتطوير الأعمال. في بيئة الأعمال اليوم ، من الضروري للغاية أن يكون لديك فهم واضح للعلاقات بين المكونات المختلفة وفهم جيد للصورة الكبيرة للمؤسسة. يتيح تحديد جميع التفاصيل والعلاقات باستخدام النماذج الاستخدام الأكثر كفاءة للوقت والأدوات لتنظيم عمل الشركة.

نماذج البيانات هي نماذج مجردة تصف كيفية تمثيل البيانات والوصول إليها. تحدد نماذج البيانات عناصر البيانات والعلاقات بينها في منطقة معينة. نموذج البيانات هو أداة ملاحية لكل من محترفي الأعمال وتكنولوجيا المعلومات التي تستخدم مجموعة محددة من الرموز والكلمات لشرح فئة معينة من المعلومات الحقيقية بدقة. هذا يحسن التواصل داخل المنظمة وبالتالي يخلق بيئة تطبيق أكثر مرونة واستقرارًا.

يحدد نموذج البيانات بشكل فريد معنى البيانات ، والتي تكون في هذه الحالة بيانات منظمة (على عكس البيانات غير المنظمة مثل صورة أو ملف ثنائي أو نص ، حيث يمكن أن تكون القيمة غامضة).

كقاعدة عامة ، يتم تمييز النماذج ذات المستوى الأعلى (والأكثر عمومية في المحتوى) والمستوى الأدنى (على التوالي ، الأكثر تفصيلاً). المستوى العلوي من النمذجة هو ما يسمى ب نماذج البيانات المفاهيمية(نماذج البيانات المفاهيمية) ، والتي تعطي الصورة الأكثر عمومية لعمل مؤسسة أو مؤسسة. يتضمن النموذج المفاهيمي المفاهيم الرئيسية أو المجالات الموضوعية التي تعتبر حاسمة لعمل المنظمة ؛ عادة لا يتجاوز عددهم 12-15. يصف هذا النموذج فئات الكيانات المهمة للمؤسسة (كائنات الأعمال) ، وخصائصها (سماتها) والارتباطات بين أزواج من هذه الفئات (أي العلاقات). نظرًا لأن المصطلحات في نمذجة الأعمال لم تتم تسويتها بالكامل بعد ، في مصادر مختلفة باللغة الإنجليزية ، يمكن أيضًا تسمية نماذج البيانات المفاهيمية بنموذج مجال الموضوع (الذي يمكن ترجمته كنماذج مجال الموضوع) أو نموذج بيانات المؤسسة الخاضعة (نماذج بيانات الشركة الخاضعة) ).

المستوى الهرمي التالي هو نماذج البيانات المنطقية(نماذج البيانات المنطقية). قد يشار إليها أيضًا باسم نماذج بيانات المؤسسة أو نماذج الأعمال. تحتوي هذه النماذج على هياكل البيانات وخصائصها وقواعد العمل ، وتمثل المعلومات التي تستخدمها المؤسسة من منظور الأعمال. في مثل هذا النموذج ، يتم تنظيم البيانات في شكل كيانات وعلاقات فيما بينها. يمثل النموذج المنطقي البيانات بطريقة يسهل فهمها من قبل مستخدمي الأعمال. في النموذج المنطقي ، يمكن تخصيص قاموس البيانات - قائمة بجميع الكيانات مع تعريفاتها الدقيقة ، مما يسمح لفئات مختلفة من المستخدمين بالحصول على فهم مشترك لجميع تدفقات مخرجات المدخلات والمعلومات الخاصة بالنموذج. المستوى التالي ، الأدنى من النمذجة هو بالفعل التنفيذ المادي للنموذج المنطقي باستخدام أدوات برمجية محددة ومنصات تقنية.

يحتوي النموذج المنطقي على قرار الأعمال التفصيلي للمؤسسة ، والذي عادة ما يتخذ شكل نموذج معياري. التطبيع هو العملية التي تضمن أن كل عنصر بيانات في النموذج له قيمة واحدة فقط ويعتمد بشكل كامل وفريد ​​على المفتاح الأساسي. يتم تنظيم عناصر البيانات في مجموعات وفقًا لتعريفها الفريد. يجب تضمين قواعد العمل التي تتحكم في عناصر البيانات بشكل كامل في النموذج المعياري مع التحقق الأولي من صحتها وصحتها. على سبيل المثال ، من المرجح أن يتم تقسيم عنصر البيانات مثل اسم العميل إلى الاسم الأول واسم العائلة وتجميعه مع عناصر البيانات الأخرى ذات الصلة في كيان عميل بمفتاح أساسي لمعرف العميل.

نموذج البيانات المنطقية مستقل عن تقنيات التطبيق مثل قواعد البيانات أو الشبكات أو أدوات إعداد التقارير وتنفيذها المادي. يمكن أن يكون للمؤسسة نموذج بيانات مشروع واحد فقط. تتضمن النماذج المنطقية عادةً آلاف الكيانات والعلاقات والسمات. على سبيل المثال ، قد يحتوي نموذج بيانات لمؤسسة مالية أو شركة اتصالات على حوالي 3000 مفهوم صناعي.

من المهم التمييز بين نموذج البيانات المنطقي والدلالي. يمثل نموذج البيانات المنطقي حل الأعمال المشترك ، بينما يمثل نموذج البيانات الدلالية حل الأعمال المطبق. يمكن تنفيذ نفس نموذج البيانات المنطقية للشركة باستخدام نماذج دلالية مختلفة ، أي يمكن اعتبار النماذج الدلالية على أنها المستوى التالي من النمذجة التي تقترب من النماذج المادية. بالإضافة إلى ذلك ، سيمثل كل نموذج من هذه النماذج "شريحة" منفصلة من نموذج بيانات الشركة وفقًا لمتطلبات التطبيقات المختلفة. على سبيل المثال ، في نموذج البيانات المنطقية للشركة ، سيتم تطبيع عميل الكيان تمامًا ، وفي النموذج الدلالي لسوق البيانات ، يمكن تمثيله كهيكل متعدد الأبعاد.

يمكن أن يكون لدى الشركة طريقتان لإنشاء نموذج بيانات منطقي للمؤسسة: بنائه بنفسك أو استخدام نموذج جاهز نموذج الصناعة(نموذج بيانات منطقي للصناعة). في هذه الحالة ، فإن الاختلافات في المصطلحات تعكس فقط مناهج مختلفة لبناء نفس النموذج المنطقي. في حالة قيام شركة ما بشكل مستقل بتطوير وتنفيذ نموذج البيانات المنطقي الخاص بها ، فإن هذا النموذج ، كقاعدة عامة ، يسمى ببساطة النموذج المنطقي للشركة. إذا قررت المنظمة استخدام المنتج النهائي لمورد محترف ، فيمكننا التحدث عن نموذج بيانات منطقي للصناعة. هذا الأخير عبارة عن نموذج بيانات منطقي جاهز يعكس أداء صناعة معينة بدرجة عالية من الدقة. النموذج المنطقي للصناعة هو عرض خاص بالمجال ومتكامل لجميع المعلومات التي يجب أن تكون في مستودع بيانات المؤسسة للإجابة على أسئلة العمل الإستراتيجية والتكتيكية. مثل أي نموذج بيانات منطقي آخر ، لا يعتمد نموذج الصناعة على حلول التطبيق. كما أنه لا يشمل البيانات المشتقة أو غيرها من العمليات الحسابية لاستعادة البيانات بشكل أسرع. كقاعدة عامة ، تجد معظم الهياكل المنطقية لهذا النموذج تجسيدًا جيدًا في تنفيذه المادي الفعال. يتم تطوير هذه النماذج من قبل العديد من البائعين لمجموعة واسعة من المجالات: التمويل والتصنيع والسياحة والرعاية الصحية والتأمين ، إلخ.

يحتوي نموذج البيانات المنطقية للصناعة على معلومات شائعة في الصناعة ، وبالتالي لا يمكن أن يكون حلاً كاملاً للشركة. يتعين على معظم الشركات زيادة النموذج بمعدل 25٪ عن طريق إضافة عناصر البيانات وتوسيع التعريفات. تحتوي النماذج النهائية على عناصر البيانات الأساسية فقط ، ويجب إضافة باقي العناصر إلى كائنات الأعمال المناسبة أثناء تثبيت النموذج في الشركة.

تحتوي نماذج البيانات المنطقية للصناعة على عدد كبير من الأفكار التجريدية. يشير التجريد إلى اتحاد المفاهيم المتشابهة تحت أسماء شائعة مثل حدث أو مشارك. هذا يضيف مرونة لنماذج الصناعة ويجعلها أكثر توحيدًا. وبالتالي ، فإن مفهوم الحدث ينطبق على جميع الصناعات.

يحدد خبير استخبارات الأعمال ستيف هوبرمان خمسة عوامل يجب مراعاتها عند اتخاذ قرار شراء نموذج بيانات الصناعة. الأول هو الوقت والموارد اللازمة لبناء النموذج. إذا احتاجت المنظمة إلى تحقيق النتائج بسرعة ، فسيمنح نموذج الصناعة ميزة. قد لا يوفر استخدام نموذج الصناعة صورة للمؤسسة بأكملها على الفور ، ولكن يمكن أن يوفر قدرًا كبيرًا من الوقت. بدلاً من النمذجة الفعلية ، سيتم إنفاق الوقت في ربط الهياكل الحالية بنموذج الصناعة ، فضلاً عن مناقشة أفضل السبل لتخصيصها لاحتياجات المنظمة (على سبيل المثال ، التعريفات التي يجب تغييرها وعناصر البيانات التي يجب إضافتها).

العامل الثاني هو الوقت والمال اللازمين للحفاظ على عمل النموذج. إذا لم يكن نموذج بيانات المؤسسة جزءًا من منهجية تجعله دقيقًا ومحدثًا ، فسيصبح النموذج قديمًا بسرعة كبيرة. يمكن لنموذج بيانات الصناعة منع هذه المخاطر حيث يتم تحديثها بواسطة الموارد الخارجية. بالطبع ، يجب أن تنعكس التغييرات التي تحدث داخل المنظمة في النموذج من قبل الشركة نفسها ، ولكن سيتم إعادة إنتاج تغييرات الصناعة في النموذج من قبل مورديها.

العامل الثالث هو الخبرة في تقييم المخاطر والنمذجة. يتطلب إنشاء نموذج بيانات للمؤسسة موارد ماهرة من كل من رجال الأعمال وموظفي تكنولوجيا المعلومات. كقاعدة عامة ، يعرف المديرون جيدًا إما عمل المنظمة ككل ، أو أنشطة قسم معين. قلة منهم لديهم معرفة واسعة (على مستوى الشركة) وعميقة (على مستوى الوحدة) بأعمالهم. يعرف معظم المديرين عادةً مجالًا واحدًا جيدًا. لذلك ، من أجل الحصول على صورة على مستوى الشركة ، هناك حاجة إلى موارد عمل كبيرة. هذا أيضا يزيد من متطلبات موظفي تكنولوجيا المعلومات. كلما زادت موارد العمل المطلوبة لإنشاء نموذج واختباره ، زادت خبرة المحللين. يجب ألا يعرفوا فقط كيفية الحصول على المعلومات من رجال الأعمال ، ولكن أيضًا أن يكونوا قادرين على إيجاد أرضية مشتركة في المجالات المثيرة للجدل وأن يكونوا قادرين على تقديم كل هذه المعلومات بطريقة متكاملة. يجب أن يكون لدى الشخص الذي يصنع النموذج (في كثير من الحالات ، هذا هو نفس المحلل) مهارات جيدة في النمذجة. يتطلب إنشاء نماذج منطق الشركة نمذجة "للمستقبل" والقدرة على تحويل الأعمال المعقدة إلى "مربعات وخطوط" حرفيًا.

من ناحية أخرى ، يسمح لك نموذج الصناعة باستخدام خبرة متخصصي الجهات الخارجية. تستخدم النماذج المنطقية الخاصة بالصناعة منهجيات النمذجة المثبتة وفرق من المهنيين ذوي الخبرة لتجنب المشاكل الشائعة والمكلفة التي يمكن أن تنشأ عند تطوير نماذج بيانات المؤسسة داخل المؤسسة.

العامل الرابع هو البنية التحتية للتطبيق الحالي والعلاقات مع البائعين. إذا كانت إحدى المؤسسات تستخدم بالفعل العديد من الأدوات من نفس البائع وأقامت علاقات معهم ، فمن المنطقي طلب نموذج الصناعة منهم أيضًا. سيكون مثل هذا النموذج قادرًا على العمل بحرية مع المنتجات الأخرى لنفس المورد.

العامل الخامس هو تبادل المعلومات داخل الصناعة. إذا احتاجت الشركة إلى مشاركة البيانات مع مؤسسات أخرى تعمل في نفس المجال ، فيمكن أن يكون نموذج الصناعة مفيدًا جدًا في هذه الحالة. تستخدم المنظمات داخل نفس الصناعة مكونات ومصطلحات هيكلية مماثلة. في الوقت الحاضر ، في معظم الصناعات ، تضطر الشركات إلى مشاركة البيانات لإدارة أعمالها بنجاح.

نماذج الصناعة التي يقدمها البائعون المحترفون هي الأكثر فعالية. يتم تحقيق الكفاءة العالية لاستخدامها بسبب المستوى الكبير من التفاصيل والدقة لهذه النماذج. عادة ما تحتوي على العديد من سمات البيانات. بالإضافة إلى ذلك ، لا يتمتع مبتكرو هذه النماذج بخبرة واسعة في النمذجة فحسب ، بل يتمتعون أيضًا بخبرة جيدة في بناء النماذج الخاصة بصناعة معينة.

تزود نماذج بيانات الصناعة الشركات برؤية واحدة متكاملة لمعلومات أعمالها. تجد العديد من الشركات صعوبة في دمج بياناتها ، على الرغم من أن هذا شرط أساسي لمعظم المشاريع على مستوى المؤسسة. وفقًا لدراسة أجراها معهد تخزين البيانات (TDWI) ، وجدت أكثر من 69٪ من المؤسسات التي شملها الاستطلاع أن التكامل يمثل عائقًا كبيرًا أمام تبني التطبيقات الجديدة. على العكس من ذلك ، فإن تنفيذ تكامل البيانات يحقق دخلًا كبيرًا للشركة.

يوفر نموذج بيانات الصناعة ، بالإضافة إلى الارتباط بالأنظمة الحالية ، فوائد عظيمة للمشاريع على مستوى المؤسسة مثل تخطيط موارد المؤسسات (ERP) ، وإدارة البيانات الرئيسية ، وذكاء الأعمال ، وتحسين جودة البيانات ، وتطوير الموظفين.

وبالتالي ، تعد نماذج البيانات المنطقية للصناعة أداة فعالة لدمج البيانات والحصول على صورة شاملة للأعمال. يبدو أن استخدام النماذج المنطقية خطوة ضرورية نحو إنشاء مستودعات بيانات الشركة.

المنشورات

  1. ستيف هوبرمان. الاستفادة من نموذج البيانات المنطقية للصناعة كنموذج بيانات مؤسستك
  2. كلوديا إمهوف. مشاريع تخزين البيانات وذكاء الأعمال سريعة التتبع من خلال نمذجة البيانات الذكية

ستركز هذه المقالة على بنية مستودعات البيانات. ما الذي يجب الاسترشاد به عند بنائه ، ما هي الأساليب التي تعمل - ولماذا.

"الحكاية الخيالية كذبة - لكن هناك تلميح فيها ..."

زرع الجد ... التخزين. ونما المخزن بشكل كبير وكبير. أنا فقط لم أكن أعرف حقًا كيف يعمل. وبدأ الجد في المراجعة. دعا الجد الجدة والحفيدة والقط والفأر لمجلس الأسرة. ويقول الموضوع التالي: "لقد نما التخزين لدينا. البيانات من جميع الأنظمة تتدفق ، والجداول مرئية وغير مرئية. يقوم المستخدمون بإعداد تقاريرهم. يبدو أن كل شيء على ما يرام - للعيش والعيش. نعم ، حزن واحد فقط - لا أحد يعرف كيف يعمل. يتطلب أقراصًا على ما يبدو - بشكل غير مرئي - لن تحصل على ما يكفي! ثم هناك مستخدمون يأتون إلي بشكاوى مختلفة: إما أن التقرير يتجمد ، أو أن البيانات قديمة. وأحيانًا تكون كارثة كبيرة - نأتي بتقارير لأب القيصر ، لكن الأرقام لا تتفق مع بعضها البعض. الساعة ليست متساوية - سيغضب الملك - ثم لا تهدم رأسك - لا لي ولا من أجلك. لذلك قررت أن أجمعكم وأستشاروا: ماذا سنفعل؟

ألقى عينيه على التجمع وسأل:
- ها أنت يا جدتي ، هل تعرفين كيف يتم ترتيب التخزين لدينا؟
- لا يا جدي ، لا أعرف. وكيف لي أن أعرف؟ هناك ، أي شباب شجعان يحرسونه! بعض الشوارب! لا تصعد. ذهبت لزيارتهم بطريقة ما ، فطائر مخبوزة. وأكلوا بعض الفطائر ومسحوا شواربهم وقالوا: لماذا أتيت يا جدتي؟ ما هو التخزين الخاص بك؟ تخبرنا بنوع التقرير الذي تحتاجه - سنفعل ذلك من أجلك! والأهم أنك تجلب الفطائر في كثير من الأحيان! مؤلم ، طعمها لذيذ ".
- وأنت ، حفيدتي الحبيبة ، هل تعرف كيف يتم ترتيب التخزين لدينا؟
- لا يا جدي ، لا أعرف. أعطاني بعض الوصول إليه. لقد اتصلت ، وأبدو - وهناك طاولات - غير مرئية على ما يبدو. ومخططات مختلفة مخفية. اتسعت العيون .... كنت في حيرة من أمري في البداية. ثم نظرت عن كثب - بعضها فارغ ، والبعض الآخر ممتلئ ، لكن نصفه فقط. أيضا ، يبدو أن البيانات تتكرر. لا عجب أنه لا يمكنك تخزين أقراص بهذا التكرار!
- حسنًا ، يا قطة ، ماذا يمكنك أن تقول عن التخزين لدينا؟ هل هناك شيء جيد فيه؟
- نعم ، كيف لا أقول ، يا جدي - سأقول. بناءً على طلب حفيدتي ، حاولت أن أجعل طيارًا تجريبيًا في مخطط منفصل - حقيبة عرض صغيرة. من أجل فهم أي نوع من التجارة مفيد لدولتنا - ما هي المنتجات المفيدة للتجار ، وهم يشيدون - يتم تجديد الخزانة. وأيها سيء. وبدأت في التقاط البيانات من هذا المستودع. حقائق مجمعة. وبدأ يحاول مقارنتها بالمنتجات. وماذا ، يا جدي ، لقد رأيت - يبدو أن المنتجات هي نفسها ، لكنك تنظر إلى العلامات - إنها مختلفة! ثم بدأت في تمشيطهم بمشط حفيدتي. خدش وخدش - وأدى إلى تماثل معين ، مداعبة العين. لكن في وقت مبكر ابتهجت - في اليوم التالي أطلقت نصوصي لتحديث البيانات الرائعة في النافذة - وذهب كل شيء بالنسبة لي! "كيف ذلك؟" - أعتقد ، - الحفيدة ستغضب - اليوم سيكون من الضروري إظهار قائدنا للوزير. كيف نتعامل مع مثل هذه البيانات؟
- نعم ، حكايات حزينة ، قطة ، كما تقول. حسنًا ، أنت أيها الفأر الصغير ، ألم تحاول حقًا التعرف على القبو؟ أنت فتاة مفعمة بالحيوية ، وذكية ، ومؤنسة! ماذا ستقول لنا؟
- نعم ، كيف يا جدي ، لا تحاول - بالطبع ، أنا فأر هادئ ، لكنني رشيق. بطريقة ما طلبت حفيدة القطة من نموذج البيانات الخاص بمستودع الدولة الخاص بنا الحصول عليها. والقط ، بالطبع ، جاء إلي - يقول الفأر عليك ، كل أمل! حسنًا ، ما هو العمل الصالح الذي لا يستطيع الناس الطيبون (والقطط) القيام به؟ ذهبت إلى القلعة ، حيث يخفي رئيس المستودع نموذج البيانات في خزنة. واختبأ. انتظرته ليخرج هذا النموذج من الخزنة. بمجرد أن خرج لتناول القهوة - قفزت على الطاولة. ألقي نظرة على النموذج - لا أستطيع أن أفهم أي شيء! كيف ذلك؟ أنا لا أتعرف على قبونا! لدينا الآلاف من الجداول والبيانات - تدفقات لا تعرف الكلل! وهنا - كل شيء متناغم وجميل ... نظر إلى هذا النموذج - وأعاده إلى الخزنة.
- نعم ، أشياء غريبة جدًا ، أخبرتنا أيها الفأر.
فكر الجد بجد.
ماذا سنفعل يا أصدقائي؟ بعد كل شيء ، لن تعيش طويلًا مع مثل هذا المستودع ... سيفقد المستخدمون صبرهم تمامًا قريبًا.

أيًا كان ما يقرره جدنا من الحكاية الخيالية - لبناء منشأة تخزين جديدة أو محاولة إعادة إحياء المنشأة الحالية - يجب علينا استخلاص النتائج قبل "نشمر عن سواعدنا" مرة أخرى.
دعنا نضع الجوانب التنظيمية جانباً - مثل خطر تركيز الخبرة في مجموعة مغلقة ضيقة ، ونقص عمليات التحكم وضمان الشفافية في بنية الأنظمة المستخدمة في المؤسسة ، وما إلى ذلك.
أود اليوم التركيز على بناء بنية نظام معين (أو مجموعة أنظمة) - مستودعات البيانات. ما يجب التركيز عليه في المقام الأول عندما تبدأ منظمة في بناء نظام معقد ومكلف مثل التخزين.

استخلاص المعلومات

لا أحد منا ، الذي يعمل على إنشاء وتطوير أي نظام ، لا يريد أن يكون "منزلًا مؤقتًا" ، أو حلًا "يذبل" في غضون عام أو عامين ، لأنه. لن تكون قادرة على تلبية متطلبات وتوقعات العملاء والأعمال. بغض النظر عن مدى قوة التحول نحو "المنهجيات المرنة" اليوم ، فمن الممتع أكثر أن يشعر الشخص بأنه "سيد" يصنع الكمان أكثر من الحرفي الذي ينحت العصي للطبول التي تستخدم لمرة واحدة.
تبدو نيتنا طبيعية: صنع أنظمة صلبة وعالية الجودة ، والتي لن تتطلب منا "الوقفات الاحتجاجية الليلية مع ملف" بانتظام ، والتي لن نخجل منها أمام المستخدمين النهائيين ، والتي لن تبدو مثل "الصندوق الأسود" لجميع المتابعين "غير المبتدئين".

أولاً ، دعنا ندرج المشاكل النموذجية التي نواجهها بانتظام عند العمل مع المستودعات. دعنا نكتب فقط ما لدينا - حتى الآن دون محاولة تبسيط وإضفاء الطابع الرسمي.

  1. من حيث المبدأ ، لدينا تخزين جيد: إذا لم تلمسه ، فكل شيء يعمل. صحيح ، بمجرد أن يتطلب التغيير ، تبدأ "الانهيارات المحلية".
  2. يتم تحميل البيانات يوميًا ، وفقًا للوائح ، خلال عملية واحدة كبيرة ، في غضون 8 ساعات. وهو يناسبنا. ولكن في حالة حدوث عطل مفاجئ ، فإن هذا يتطلب تدخلاً يدويًا. وبعد ذلك يمكن أن يعمل كل شيء بشكل غير متوقع لفترة طويلة ، لأنه. المشاركة البشرية مطلوبة في هذه العملية.
  3. إطلاق ملفوف - توقع المشاكل.
  4. تعذر على مصدر واحد تقديم البيانات في الوقت المحدد - كل العمليات في انتظار.
  5. تتحكم قاعدة البيانات في سلامة البيانات - لذلك تتعطل عملياتنا عند تعطلها.
  6. لدينا مساحة تخزين كبيرة جدًا - 2000 جدول في مخطط واحد مشترك. و 3000 أكثر في العديد من المخططات الأخرى. لدينا بالفعل فكرة بسيطة عن كيفية ترتيبها ولأي سبب ظهورها. لذلك ، قد يكون من الصعب علينا إعادة استخدام شيء ما. والعديد من المشاكل يجب أن تحل مرة أخرى. لأنه أسهل وأسرع (من فهم "في كود شخص آخر"). نتيجة لذلك ، لدينا اختلافات ووظائف مكررة.
  7. نتوقع أن يقدم المصدر بيانات جيدة. لكن اتضح أن الأمر ليس كذلك. نتيجة لذلك ، نقضي الكثير من الوقت في التوفيق بين تقاريرنا النهائية. وكانوا ناجحين للغاية في ذلك. لدينا حتى عملية مبسطة. صحيح أن الأمر يستغرق وقتًا. لكن المستخدمين معتادون على ...
  8. لا يثق المستخدم دائمًا في تقاريرنا ويتطلب تبريرًا لرقم معين. في بعض الحالات يكون على حق وفي حالات أخرى يكون على خطأ. لكن من الصعب جدًا علينا إثباتها ، لأن نحن لا نقدم وسائل "التحليل الشامل" (أو نسب البيانات).
  9. يمكننا جلب مطورين إضافيين. لكن لدينا مشكلة - كيف نحولهم إلى عمل؟ ما هي الطريقة الأكثر فعالية لموازاة العمل؟
  10. كيف يتم تطوير النظام تدريجياً دون الدخول في تطوير "جوهر النظام" لمدة عام كامل؟
  11. مستودع البيانات مرتبط بنموذج الشركة. لكننا نعلم على وجه اليقين (رأينا ذلك في بنك XYZ) أنه من الممكن بناء نموذج إلى أجل غير مسمى (في بنك XYZ ، تجولنا وناقشنا الكيانات التجارية لمدة ستة أشهر ، دون أي حركة). لماذا هي على الاطلاق؟ أو ربما يكون من الأفضل بدونها ، إذا كانت هناك مشاكل كثيرة معها؟ ربما تولده بطريقة ما؟
  12. قررنا قيادة النموذج. ولكن كيف يمكن تطوير نموذج بيانات المستودع بشكل منهجي؟ هل نحتاج إلى "قواعد اللعبة" وماذا يمكن أن تكون؟ ماذا ستعطينا؟ ماذا لو أخطأنا في النموذج؟
  13. هل يجب أن نحفظ البيانات ، أو تاريخ التغييرات ، إذا كانت "الشركة لا تحتاج إليها"؟ لا أرغب في "تخزين القمامة" وتعقيد استخدام هذه البيانات في المهام الحقيقية. هل يجب أن يحتفظ القبو بالتاريخ؟ كيف تبدو؟ كيف يعمل التخزين بمرور الوقت؟
  14. هل من الضروري محاولة توحيد البيانات في التخزين إذا كان لدينا نظام إدارة NSI؟ إذا كان هناك MDM ، فهل هذا يعني أنه تم حل مشكلة البيانات الرئيسية بالكامل الآن؟
  15. من المتوقع أن نستبدل أنظمة المحاسبة الرئيسية قريبًا. هل يجب أن يكون مخزن البيانات جاهزًا لتغيير المصدر؟ كيفية تحقيق ذلك؟
  16. هل نحتاج إلى بيانات وصفية؟ ماذا نفهم من هذا؟ أين بالضبط يمكن استخدامها؟ كيف يمكن تنفيذه؟ هل يحتاجون إلى الاحتفاظ بهم "في مكان واحد"؟
  17. عملاؤنا غير مستقرين للغاية في متطلباتهم ورغباتهم - هناك شيء يتغير باستمرار. بشكل عام ، أعمالنا ديناميكية للغاية. أثناء قيامنا بشيء ما ، يصبح بالفعل غير ضروري. كيف يمكننا التأكد من أننا نحقق نتائج في أسرع وقت ممكن - مثل الكعك الساخن؟
  18. يطلب المستخدمون السرعة. لكن لا يمكننا تشغيل عمليات التمهيد الرئيسية لدينا في كثير من الأحيان ، لأن يؤدي هذا إلى تحميل أنظمة المصدر (له تأثير سيء على الأداء) - وبالتالي ، نقوم بإيقاف تدفقات البيانات الإضافية - والتي ستستغرق في الاتجاه الصحيح - ما نحتاج إليه. صحيح ، لقد ظهر الكثير من التدفقات. وبعد ذلك سنطرح بعض البيانات. بالإضافة إلى ذلك ، ستكون هناك مشكلة التقارب. لكن لا توجد طريقة أخرى ...
لقد حدث الكثير بالفعل. لكن هذه ليست قائمة كاملة - من السهل استكمالها وتطويرها. لن نخفيها في الطاولة ، بل نعلقها في مكان واضح - مع إبقاء هذه القضايا في بؤرة اهتمامنا في عملية العمل.
مهمتنا هي تطوير حل شامل نتيجة لذلك.

الهشاشة

بالنظر إلى قائمتنا ، يمكن استخلاص نتيجة واحدة. ليس من الصعب إنشاء نوع من "قاعدة بيانات للإبلاغ" ، أو إلقاء البيانات هناك ، أو حتى إنشاء نوع من عمليات تحديث البيانات الروتينية. يبدأ النظام في العيش بطريقة ما ، ويظهر المستخدمون ، ومعهم الالتزامات واتفاقيات مستوى الخدمة ، تنشأ متطلبات جديدة ، وترتبط مصادر إضافية ، وتتغير المنهجيات - كل هذا يجب أن يؤخذ في الاعتبار في عملية التطوير.

بعد فترة تبدو الصورة كالتالي:
"ها هو القبو. وهو يعمل إذا لم تلمسه. تنشأ المشاكل عندما يتعين علينا تغيير شيء ما ".

يأتي إلينا تغيير ، لا يمكننا تقييم تأثيره وفهمه (لأننا لم نضع مثل هذه الأدوات في النظام في البداية) - ولكي لا نجازف ، فإننا لا نلمس ما هو موجود ، بل نجعل واحدة أخرى على الجانب ، وواحد آخر ، وأكثر - تحويل قرارنا إلى أحياء فقيرة ، أو كما يقولون في أمريكا اللاتينية ، "الأحياء الفقيرة" ، حيث تخشى الشرطة الذهاب.
هناك شعور بفقدان السيطرة على نظام الفرد ، الفوضى. مطلوب المزيد والمزيد من الأيدي للحفاظ على العمليات الحالية وحل المشكلات. ويصبح إجراء التغييرات أكثر صعوبة. بمعنى آخر ، يصبح النظام غير مستقر للضغوط ، وغير قابل للتكيف مع التغييرات. وإلى جانب ذلك ، هناك اعتماد قوي على الشخصيات التي "تعرف المسار الصحيح" ، حيث لا يوجد لدى أي شخص "بطاقة".

خاصية الكائن هي الانهيار تحت تأثير الفوضى والأحداث العشوائية والاضطرابات - نسيم نيكولاس طالب يدعو هشاشة . كما يقدم المفهوم المعاكس: الهشاشة عندما لا يتلف الكائن بفعل الإجهاد والحوادث ، ولكنه يتلقى فائدة مباشرة منه. ("منع الهشاشة. كيفية الاستفادة من الفوضى")
خلاف ذلك يمكن استدعاؤه القدرة على التكيف أو مقاومة التغيير .

ماذا يعني هذا في هذا السياق؟ ما هي "مصادر الفوضى" لأنظمة تكنولوجيا المعلومات؟ وماذا يعني "الاستفادة من الفوضى" فيما يتعلق بهندسة تكنولوجيا المعلومات؟
الفكرة الأولى التي تتبادر إلى الذهن هي التغييرات التي تأتي من الخارج. ما هو العالم الخارجي للنظام؟ للتخزين على وجه الخصوص. بالطبع ، أولاً وقبل كل شيء - التغييرات من مصادر البيانات للمستودع:

  • تغيير تنسيقات البيانات الواردة ؛
  • استبدال بعض أنظمة مصادر البيانات بأخرى ؛
  • تغيير القواعد / الأنظمة الأساسية لتكامل النظام ؛
  • تغيير تفسير البيانات (يتم حفظ الأشكال ، منطق العمل مع تغييرات البيانات) ؛
  • تغيير نموذج البيانات ، إذا تم التكامل على مستوى البيانات (تحليل ملفات سجل معاملات قاعدة البيانات) ؛
  • النمو في أحجام البيانات - بينما كان هناك القليل من البيانات في النظام المصدر ، وكان الحمل صغيرًا - يمكنك أخذها في أي وقت ، مع طلب ثقيل بشكل تعسفي ، نمت البيانات والحمل - الآن هناك قيود صارمة ؛
  • إلخ.
يمكن أن تتغير أنظمة المصدر نفسها ، وتكوين المعلومات وهيكلها ، ونوع تفاعل التكامل ، وكذلك منطق العمل مع البيانات. يطبق كل نظام نموذج البيانات الخاص به وأساليب العمل معهم التي تلبي أهداف وغايات النظام. وبغض النظر عن مدى صعوبة محاولتهم توحيد نماذج الصناعة والممارسات المرجعية ، ستظهر الفروق الدقيقة حتمًا على أي حال. (وإلى جانب ذلك ، فإن عملية توحيد الصناعة نفسها ، لأسباب مختلفة ، لا تمضي قدمًا كثيرًا).
إن ثقافة العمل مع بيانات الشركة - وجود والتحكم في هندسة المعلومات ، ونموذج دلالي واحد ، وأنظمة إدارة البيانات الرئيسية (MDM) تسهل إلى حد ما مهمة دمج البيانات في المستودع ، ولكن لا تستبعد ضرورتها.

لا يتم إجراء تغييرات أقل أهمية من قبل مستهلكي التخزين (تغييرات المتطلبات):

  • في السابق ، كان هناك بيانات كافية لإنشاء تقرير - الآن أصبح من الضروري توصيل حقول إضافية أو مصدر بيانات جديد ؛
  • طرق معالجة البيانات التي تم تنفيذها سابقًا قديمة - يجب إعادة صياغة الخوارزميات وكل ما يؤثر عليها ؛
  • في السابق ، كان الجميع راضين عن القيمة الحالية لسمة القاموس على لوحة المعلومات - والآن يلزم توفر القيمة ذات الصلة وقت حدوث الحقيقة / الحدث الذي تم تحليله ؛
  • كان هناك طلب لعمق تاريخ تخزين البيانات ، والذي لم يكن موجودًا من قبل - لتخزين البيانات ليس لمدة عامين ، ولكن لمدة 10 سنوات ؛
  • في السابق ، كان يكفي الحصول على بيانات اعتبارًا من "نهاية اليوم / الفترة" - أنت الآن بحاجة إلى حالة البيانات "خلال اليوم" ، أو في وقت حدث معين (على سبيل المثال ، اتخاذ قرار بشأن طلب قرض - من أجل بازل الثاني) ؛
  • في وقت سابق كنا راضين عن الإبلاغ عن البيانات الخاصة بالأمس (T-1) أو في وقت لاحق ، نحتاج الآن إلى T0 ؛
  • إلخ.
تعد كل من تفاعلات التكامل مع أنظمة المصدر والمتطلبات من مستهلكي مستودعات البيانات عوامل خارجية لمستودع البيانات: نظام مصدر واحد يحل محل آخر ، وتنمو أحجام البيانات ، وتتغير تنسيقات البيانات الواردة ، وتتغير متطلبات المستخدم ، وما إلى ذلك. وكل هذه تغييرات خارجية نموذجية يجب أن يكون نظامنا - مستودعنا - جاهزًا لها. مع التصميم الصحيح ، لا ينبغي أن يقتلوا النظام.

لكن هذا ليس كل شيء.
عند الحديث عن التباين ، فإننا ، أولاً وقبل كل شيء ، نتذكر العوامل الخارجية. بعد كل شيء ، في الداخل يمكننا التحكم في كل شيء ، يبدو لنا ، أليس كذلك؟ نعم و لا. نعم ، معظم العوامل التي تقع خارج منطقة التأثير خارجية. ولكن هناك أيضًا "إنتروبيا داخلية". وبسبب وجوده بالتحديد ، نحتاج أحيانًا إلى العودة "إلى النقطة 0". ابدأ اللعبة من جديد.
في الحياة ، غالبًا ما نبدأ من الصفر. لماذا نميل إلى القيام بذلك؟ وهل هو بهذا السوء؟
تطبق على تكنولوجيا المعلومات. بالنسبة للنظام نفسه - يمكن أن يكون هذا جيدًا جدًا - القدرة على إعادة النظر في القرارات الفردية. خاصة عندما نتمكن من القيام بذلك محليًا. إعادة البناء هي عملية تفكيك "الويب" التي تظهر بشكل دوري في عملية تطوير النظام. يمكن أن تكون العودة "إلى البداية" مفيدة. لكن لها ثمن.
مع الإدارة المناسبة للهندسة المعمارية ، يتم تخفيض هذا السعر - وتصبح عملية تطوير النظام نفسها أكثر شفافية وقابلية للتحكم. مثال بسيط: إذا تمت مراعاة مبدأ النمطية ، فمن الممكن إعادة كتابة وحدة منفصلة دون التأثير على الواجهات الخارجية. وهذا لا يمكن أن يتم ببنية متجانسة.

يتم تحديد قابلية هشاشة النظام من خلال هندسته المعمارية. وهذه الخاصية هي التي تجعلها قابلة للتكيف.
عندما نتحدث عن العمارة التكيفية- نعني أن النظام قادر على التكيف مع التغييرات ، وليس على الإطلاق أننا نغير الهيكل نفسه باستمرار. على العكس من ذلك ، فكلما كانت البنية أكثر استقرارًا واستقرارًا ، كلما قلت المتطلبات التي تستلزم مراجعتها ، زاد تكيف النظام.

الحلول التي تتطلب مراجعة الهيكل بأكمله سيكون لها سعر أعلى بكثير. ولاعتمادها ، يجب أن تكون لديك أسباب وجيهة للغاية. على سبيل المثال ، يمكن أن يكون هذا السبب مطلبًا لا يمكن تنفيذه داخل الهيكل الحالي. ثم يقولون - كان هناك متطلب يؤثر على العمارة.
وبالتالي ، نحتاج أيضًا إلى معرفة "حدود مقاومة الهشاشة" لدينا. لم يتم تطوير الهندسة المعمارية "في فراغ" - فهي تعتمد على المتطلبات والتوقعات الحالية. وإذا تغير الوضع بشكل جذري - يجب أن نفهم أننا تجاوزنا الهيكل الحالي - ونحتاج إلى مراجعته وتطوير حل مختلف - والتفكير في مسارات الانتقال.
على سبيل المثال ، افترضنا أننا سنحتاج دائمًا إلى البيانات في المستودع في نهاية اليوم ، وسنجمع البيانات يوميًا باستخدام واجهات النظام القياسية (من خلال مجموعة من طرق العرض). بعد ذلك ، جاءت الطلبات من قسم إدارة المخاطر حول الحاجة إلى تلقي البيانات ليس في نهاية اليوم ، ولكن في وقت اتخاذ قرار بشأن الإقراض. لا داعي لمحاولة "إطالة غير الممدود" - تحتاج فقط إلى التعرف على هذه الحقيقة - كلما كان ذلك أفضل بشكل أسرع. وابدأ في العمل على نهج يتيح لنا حل المشكلة.
هناك خط رفيع جدًا هنا - إذا أخذنا في الاعتبار "المتطلبات في الوقت الحالي" فقط ولم ننظر إلى الأمام بضع خطوات (وعدة سنوات قادمة) ، فإننا نزيد من مخاطر مواجهة أحد المتطلبات التي تؤثر على البنية بعد فوات الأوان - و ستكون تكلفة التغيير لدينا عالية جدًا. التطلع إلى الأمام قليلاً - داخل حدود أفقنا - لم يضر أحداً أبدًا.

يعد مثال نظام من "حكاية التخزين الخيالية" مجرد مثال على نظام مهتز للغاية مبني على مناهج التصميم الهشة. وإذا حدث هذا ، فإن التدمير يحدث بسرعة كبيرة لهذه الفئة المعينة من الأنظمة.
لماذا استطيع ان اقول ذلك؟ موضوع التخزين ليس جديدا. كانت الأساليب والممارسات الهندسية التي تم تطويرها خلال هذا الوقت تهدف إلى هذا تحديدًا - الحفاظ على جدوى النظام.
لنأخذ مثالاً بسيطًا ، فإن أحد الأسباب الأكثر شيوعًا لفشل مشاريع تخزين الإقلاع هو محاولة بناء تخزين أعلى أنظمة المصدر قيد التطوير دون مطابقة واجهات التكامل - محاولة سحب البيانات مباشرة من الجداول. ونتيجة لذلك ، فقد دخلوا في التطوير - خلال هذا الوقت تغيرت قاعدة البيانات المصدر - وأصبحت تدفقات التنزيل في التخزين غير قابلة للتشغيل. فات الأوان لإعادة شيء ما. وإذا لم تكن قد قمت بتأمين نفسك عن طريق إنشاء عدة طبقات من الطاولات داخل التخزين ، فيمكنك التخلص من كل شيء والبدء من جديد. هذا مجرد مثال واحد ، وواحد من أبسط الأمثلة.

معيار طالب للهشاشة والمضادة للكسر بسيط. رئيس القضاة حان الوقت. إذا صمد النظام أمام اختبار الزمن وأظهر "قابليته للبقاء" و "عدم قابليته للتدمير" - فإنه يتمتع بخاصية مقاومة الهشاشة.
إذا أخذنا في الاعتبار ، عند تصميم نظام ما ، قابلية الهشاشة كشرط ، فسيشجعنا ذلك على استخدام مثل هذه الأساليب لبناء هيكلها الذي سيجعل النظام أكثر تكيفًا مع كل من "الفوضى من الخارج" و "الفوضى من الداخل" ". وفي النهاية سيكون للنظام عمر أطول.
لا أحد منا يريد عمل "مؤقتات". ولا تخدع نفسك أنه لا توجد طريقة أخرى الآن. يعتبر النظر إلى الأمام بضع خطوات أمرًا طبيعيًا بالنسبة لأي شخص في أي وقت ، خاصة في أوقات الأزمات.

ما هو مستودع البيانات ولماذا نقوم ببنائه

تفترض مقالة بنية التخزين أن القارئ لا يعرف فقط ما هو ، ولكن لديه أيضًا بعض الخبرة في مثل هذه الأنظمة. ومع ذلك ، فقد اعتبرت أنه من الضروري القيام بذلك - للعودة إلى الأصول ، إلى بداية المسار ، لأن. هناك يقع "نقطة ارتكاز" التنمية.

كيف توصل الناس إلى استنتاج مفاده أن مستودعات البيانات مطلوبة؟ وكيف تختلف عن مجرد "قاعدة بيانات كبيرة جدًا"؟
منذ وقت طويل ، عندما كانت هناك ببساطة "أنظمة معالجة بيانات الأعمال" في العالم ، لم يكن هناك تقسيم لأنظمة تكنولوجيا المعلومات إلى فئات مثل أنظمة oltp الأمامية ، و dss للمكتب الخلفي ، وأنظمة معالجة البيانات النصية ، ومستودعات البيانات ، إلخ. .
كان هذا هو الوقت الذي تم فيه إنشاء أول DBMS Ingres بواسطة Michael Stonebreaker.
وكان هذا هو الوقت الذي اقتحم فيه عصر أجهزة الكمبيوتر الشخصية صناعة الكمبيوتر مثل زوبعة وقلب إلى الأبد كل أفكار مجتمع تكنولوجيا المعلومات في ذلك الوقت.

ثم كان من السهل العثور على تطبيقات المؤسسة المكتوبة على أساس نظام إدارة قواعد البيانات (DBMS) من فئة سطح المكتب - مثل Clipper و dBase و FoxPro. وكان سوق تطبيقات الخادم والعميل ونظام إدارة قواعد البيانات يكتسب زخمًا فقط. واحدة تلو الأخرى ، ظهرت خوادم قواعد البيانات التي من شأنها أن تحتل مكانتها في مجال تكنولوجيا المعلومات لفترة طويلة - Oracle ، DB2 ، إلخ.
وتم تعميم مصطلح "تطبيق قاعدة البيانات". ماذا يتضمن هذا التطبيق؟ المبسطة - بعض نماذج الإدخال التي يمكن للمستخدمين من خلالها إدخال المعلومات في وقت واحد ، وبعض العمليات الحسابية التي تم إطلاقها "على زر" أو "وفقًا لجدول زمني" ، بالإضافة إلى بعض التقارير التي يمكن رؤيتها على الشاشة أو حفظها كملفات وإرسالها إلى الختم .
قال أحد المرشدين الأوائل: "لا شيء مميز - مجرد تطبيق بسيط ، مجرد قاعدة بيانات". "هل هو شيء مميز؟" - اعتقدت بعد ذلك.

إذا نظرت عن كثب ، فلا تزال هناك ميزات. مع نمو المستخدمين ، يزداد حجم المعلومات الواردة ، مع زيادة الحمل على النظام ، ينتقل مطوروه ومصمموه ، من أجل الحفاظ على الأداء عند مستوى مقبول ، إلى بعض "الحيل". الأول هو تقسيم "نظام معالجة بيانات الأعمال" المترابط إلى تطبيق محاسبة يدعم عمل المستخدمين في الوضع عبر الإنترنت ، وتطبيق منفصل لمعالجة البيانات المجمعة وإعداد التقارير. يحتوي كل تطبيق من هذه التطبيقات على قاعدة بيانات خاصة به ويتم استضافته حتى على مثيل منفصل لخادم قاعدة البيانات ، مع إعدادات مختلفة لأنواع مختلفة من أحمال العمل - OLTP و DSS. ويتم بناء تدفقات البيانات بينهما.

كل شيء؟ يبدو أن المشكلة قد تم حلها. ماذا حدث بعد ذلك؟
وبعد ذلك تنمو الشركات ، وتتضاعف احتياجاتها من المعلومات. كما أن عدد التفاعلات مع العالم الخارجي آخذ في الازدياد. ونتيجة لذلك ، لا يوجد تطبيق كبير واحد يقوم بأتمتة جميع العمليات بالكامل ، ولكن هناك العديد من التطبيقات المختلفة ، من مختلف الشركات المصنعة. عدد الأنظمة التي تولد المعلومات - أنظمة مصادر البيانات في الشركة آخذ في الازدياد. وعاجلاً أم آجلاً ، ستكون هناك حاجة لرؤية ومقارنة المعلومات الواردة من أنظمة مختلفة. هذه هي الطريقة التي يظهر بها تخزين البيانات ، وهو فئة جديدة من الأنظمة ، في الشركة.
التعريف المقبول عمومًا لهذه الفئة من الأنظمة هو كما يلي.

مستودع البيانات (أو مخزن البيانات)- قاعدة بيانات معلومات خاصة بالمجال ، مصممة ومصممة خصيصًا لإعداد التقارير وتحليل الأعمال من أجل دعم اتخاذ القرار في المنظمة
في هذا الطريق، الدمجالبيانات من أنظمة مختلفة ، والقدرة على النظر إليها بطريقة "واحدة" (موحدة) معينة هي واحدة من الخصائص الرئيسية لأنظمة فئة تخزين البيانات. هذا هو سبب ظهور التخزين أثناء تطور أنظمة تكنولوجيا المعلومات.

الميزات الرئيسية لمخازن البيانات

دعنا نلقي نظرة بمزيد من التفصيل. ما هي السمات الرئيسية لهذه الأنظمة؟ ما الذي يجعل مستودعات البيانات مختلفة عن أنظمة تكنولوجيا المعلومات الأخرى في المؤسسة؟

أولا ، هذه كميات كبيرة. كبير جدا. VLDB - هذه هي الطريقة التي يطلق عليها كبار البائعين مثل هذه الأنظمة عندما يقدمون توصياتهم بشأن استخدام منتجاتهم. من جميع أنظمة الشركة ، تتدفق البيانات إلى قاعدة البيانات الكبيرة هذه ويتم تخزينها هناك "إلى الأبد وغير متغير" ، كما يقولون في الكتب المدرسية (عمليًا ، تصبح الحياة أكثر تعقيدًا).

ثانيًا ، إنها بيانات تاريخية - "ذاكرة الشركة" - ما يسمى بمخازن البيانات. فيما يتعلق بالعمل مع الوقت في التخزين ، كل شيء ممتع للغاية. في أنظمة المحاسبة ، البيانات ذات صلة في الوقت الحالي. ثم يقوم المستخدم ببعض العمليات - ويتم تحديث البيانات. في الوقت نفسه ، قد لا يتم الاحتفاظ بتاريخ التغييرات - فهذا يعتمد على الممارسة المحاسبية. خذ على سبيل المثال رصيد حساب مصرفي. قد نكون مهتمين بالرصيد الحالي في "الآن" ، في نهاية اليوم أو في وقت حدث ما (على سبيل المثال ، في وقت حساب النتيجة). إذا تم حل الأمرين الأولين بكل بساطة ، فمن المرجح أن يتطلب الأمر الأخير جهودًا خاصة. عند العمل مع المستودع ، يمكن للمستخدم الوصول إلى الفترات السابقة ومقارنتها بالمستودع الحالي وما إلى ذلك. هذه القدرات المرتبطة بالوقت هي التي تميز بشكل كبير مستودعات البيانات عن أنظمة المحاسبة - الحصول على حالة البيانات في نقاط مختلفة على المحور الزمني - إلى عمق معين في الماضي.

ثالثا ، هذا الدمج و توحيد البيانات . من أجل جعل تحليلهم المشترك ممكنًا ، من الضروري إحضارهم إلى شكل مشترك - نموذج بيانات موحد ، قارن الحقائق مع الكتب المرجعية الموحدة. يمكن أن يكون هناك العديد من الجوانب والصعوبات هنا. في المقام الأول - المفاهيمي - تحت نفس المصطلح ، يمكن لأشخاص مختلفين من أقسام مختلفة فهم أشياء مختلفة. والعكس صحيح - لاستدعاء شيء مختلف يكون في الأساس نفس الشيء. كيف يمكن ضمان "عرض واحد" ، وفي نفس الوقت الحفاظ على خصوصيات رؤية مجموعة معينة من المستخدمين؟

رابعًا ، إنه يعمل مع جودة البيانات . في عملية تحميل البيانات في التخزين ، يتم تنظيفها وإجراء عمليات التحويل والتحولات العامة. يجب إجراء التحولات العامة في مكان واحد - ثم استخدامها لإنشاء تقارير مختلفة. سيؤدي ذلك إلى تجنب التناقضات التي تسبب الكثير من الانزعاج لمستخدمي الأعمال - خاصة للإدارة ، الذين يتم إحضارهم إلى الطاولة من خلال أرقام من أقسام مختلفة لا تتفق مع بعضها البعض. تؤدي جودة البيانات الرديئة إلى حدوث أخطاء وتباينات في التقارير ، مما يؤدي إلى انخفاض المستوى ثقة المستخدم للنظام بأكمله ، إلى الخدمة التحليلية بأكملها ككل.

المفهوم المعماري

كل من واجه المستودع ، لاحظ على الأرجح نوعًا من "بنية الطبقات" - لأن. هذا هو النموذج المعماري الذي ترسخ في أنظمة هذه الفئة. وليس عن طريق الصدفة. يمكن اعتبار طبقات التخزين على أنها مكونات منفصلة للنظام - بمهامها الخاصة ، ومنطقة مسؤوليتها ، و "قواعد اللعبة".
العمارة متعددة الطبقات هي وسيلة للتعامل مع تعقيد النظام - كل طبقة لاحقة يتم تجريدها من تعقيدات التنفيذ الداخلي للطبقة السابقة. يتيح لك هذا الأسلوب تحديد المهام من نفس النوع وحلها بطريقة موحدة ، دون إعادة اختراع "الدراجة" في كل مرة من نقطة الصفر.
يظهر الرسم التخطيطي المعماري المفاهيمي في الشكل. هذا مخطط مبسط يعكس فقط الفكرة الرئيسية - المفهوم ، ولكن بدون "التفاصيل التشريحية" التي ستظهر مع دراسة أعمق للتفاصيل.

كما هو موضح في الرسم التخطيطي ، حدد الطبقات التالية من الناحية المفاهيمية. ثلاث طبقات رئيسية تحتوي على منطقة تخزين البيانات (المشار إليها بواسطة مستطيل ممتلئ) وبرنامج تحميل البيانات (موضحة بشروط بواسطة أسهم من نفس اللون). بالإضافة إلى طبقة الخدمة المساعدة ، والتي ، مع ذلك ، تلعب دورًا مهمًا للغاية في الاتصال - إدارة تحميل البيانات ومراقبة الجودة.

طبقة البيانات الأولية - طبقة البيانات الأولية (أو انطلاق ، أو طبقة التشغيل ) - مصمم ليتم تحميله من أنظمة المصدر وحفظ المعلومات الأولية ، بدون تحويلات - بجودته الأصلية وبدعم لتاريخ كامل من التغييرات.
مهمة هذه الطبقة- لاستخلاص طبقات التخزين اللاحقة من الجهاز المادي لمصادر البيانات ، وطرق جمع البيانات وطرق إبراز دلتا التغييرات.

طبقة البيانات الأساسية - جوهر التخزين - المكون المركزي للنظام ، الذي يميز التخزين عن مجرد "نظام أساسي لتكامل الدُفعات" ، أو "تفريغ البيانات الضخمة" ، نظرًا لأن دوره الرئيسي هو توحيد البياناتمن مصادر مختلفة ، اختزال إلى هياكل موحدة ، مفاتيح. عند التحميل في النواة ، يتم تنفيذ العمل الرئيسي بجودة البيانات والتحولات العامة ، والتي يمكن أن تكون معقدة للغاية.
مهمة هذه الطبقة- تجريد المستهلكين من خصائص البنية المنطقية لمصادر البيانات والحاجة إلى مقارنة البيانات من الأنظمة المختلفة ، وضمان سلامة البيانات وجودتها.

طبقة مارت البيانات - واجهات عرض تحليلية - مكون تتمثل وظيفته الرئيسية في تحويل البيانات إلى هياكل ملائمة للتحليل (إذا كان BI يعمل مع واجهات المحلات ، فهذا عادة ما يكون نموذجًا للأبعاد) ، أو وفقًا لمتطلبات نظام المستهلك.
كقاعدة عامة ، تأخذ مجموعات البيانات البيانات من الجوهر - كمصدر موثوق وموثوق به - أي استخدام خدمة هذا المكون لجلب البيانات إلى نموذج واحد. سوف نسمي هذه النوافذ عادي . في بعض الحالات ، يمكن أن تأخذ واجهات المحلات البيانات مباشرة من التدريج - التشغيل بالبيانات الأساسية (في مفاتيح المصدر). يستخدم هذا النهج ، كقاعدة عامة ، للمهام المحلية حيث لا يلزم دمج البيانات من أنظمة مختلفة وحيث تكون الكفاءة مطلوبة أكثر من جودة البيانات. تسمى هذه العروض التشغيل . يمكن أن تحتوي بعض المؤشرات التحليلية على طرق حسابية معقدة للغاية. لذلك ، لمثل هذه الحسابات والتحولات غير التافهة ، ما يسمى ب المعارض الثانوية .
مهمة طبقة واجهة المتجر- إعداد البيانات وفقًا لمتطلبات مستهلك معين - منصة BI ، أو مجموعة من المستخدمين ، أو نظام خارجي.

تتكون الطبقات الموضحة أعلاه من منطقة تخزين بيانات دائمة ، بالإضافة إلى وحدة برمجية لتحميل البيانات وتحويلها. هذا التقسيم إلى طبقات ومناطق أمر منطقي. يمكن أن يكون التنفيذ المادي لهذه المكونات مختلفًا - يمكنك حتى استخدام أنظمة أساسية مختلفة لتخزين البيانات أو تحويلها على طبقات مختلفة ، إذا كان ذلك أكثر كفاءة.
تحتوي مناطق التخزين على التقنية (جداول المخزن المؤقت) المستخدمة في عملية تحويل البيانات و الجداول المستهدفة، والتي يتم الوصول إليها بواسطة مكون المستهلك. من الممارسات الجيدة "تغطية" الجداول المستهدفة بالمشاهدات. هذا يسهل الصيانة اللاحقة وتطوير النظام. يتم تمييز البيانات الموجودة في الجداول المستهدفة لجميع الطبقات الثلاث بحقول فنية خاصة (سمات وصفية) ، والتي تعمل على ضمان عمليات تحميل البيانات ، فضلاً عن تمكين التدقيق المعلوماتي لتدفقات البيانات في التخزين.

يتم أيضًا تمييز مكون خاص (أو مجموعة مكونات) ، والذي يوفر وظائف خدمة لجميع الطبقات. تتمثل إحدى مهامها الرئيسية - وظيفة التحكم - في توفير "قواعد واحدة للعبة" للنظام بأكمله ككل ، مع ترك الحق في استخدام خيارات مختلفة لتنفيذ كل طبقة من الطبقات الموضحة أعلاه - بما في ذلك. استخدام تقنيات مختلفة لتحميل البيانات ومعالجتها ومنصات التخزين المختلفة وما إلى ذلك. دعنا نتصل به طبقة الخدمة (طبقة الخدمة) . لا يحتوي على بيانات أعمال ، لكن له هياكل تخزين خاصة به - فهو يحتوي على منطقة بيانات وصفية ، بالإضافة إلى منطقة للعمل بجودة البيانات (وربما هياكل أخرى ، اعتمادًا على الوظائف المخصصة لها).

مثل هذا التقسيم الواضح للنظام إلى مكونات منفصلة يزيد بشكل كبير من إمكانية التحكم في تطوير النظام:

  • يتم تقليل تعقيد المهمة التي تم تعيينها لمطور وظيفة مكون معين (ليس عليه حل مشكلات التكامل مع الأنظمة الخارجية في وقت واحد ، والتفكير في إجراءات تنظيف البيانات ، والتفكير في العرض الأمثل للبيانات من أجل المستهلكين) - المهمة أسهل في التحليل والتقييم وتنفيذ تسليم صغير ؛
  • يمكنك إشراك فنانين مختلفين (وحتى فرق أو مقاولين) في العمل - لأن يسمح لك هذا النهج بموازنة المهام بشكل فعال ، مما يقلل من تأثيرها المتبادل على بعضها البعض ؛
  • يسمح لك وجود التدريج المستمر بالاتصال بسرعة بمصادر البيانات دون تصميم النواة بالكامل أو واجهات العرض لكامل نطاق الموضوع ، ثم بناء بقية الطبقات تدريجيًا وفقًا للأولويات (علاوة على ذلك ، ستكون البيانات موجودة بالفعل في المستودع - متاح لمحللي النظام ، مما يسهل إلى حد كبير مهام التطوير اللاحق للمستودع) ؛
  • يسمح وجود النواة بإخفاء جميع الأعمال المتعلقة بجودة البيانات (بالإضافة إلى الأخطاء المحتملة والأخطاء) من واجهات المتاجر ومن المستخدم النهائي ، والأهم من ذلك ، باستخدام هذا المكون كمصدر بيانات واحد لواجهات المتاجر ، يمكنك تجنب المشاكل مع تقارب البيانات بسبب تنفيذ خوارزميات مشتركة في مكان واحد ؛
  • يتيح لك تسليط الضوء على واجهات المتاجر أن تأخذ في الاعتبار الاختلافات وخصائص فهم البيانات التي قد تكون لدى مستخدمي الأقسام المختلفة ، وتصميمها لمتطلبات ذكاء الأعمال يسمح لك ليس فقط بإصدار أرقام مجمعة ، ولكن أيضًا لضمان موثوقية البيانات من خلال توفير فرص للتنقيب. إلى المؤشرات الأولية ؛
  • يسمح لك وجود طبقة الخدمة بإجراء تحليل شامل للبيانات (تسلسل البيانات) ، واستخدام أدوات تدقيق البيانات الموحدة ، والأساليب الشائعة لتسليط الضوء على دلتا التغييرات ، والعمل مع جودة البيانات ، وإدارة الأحمال ، ومراقبة الأخطاء وأدوات التشخيص ، ويسرع حل المشكلة.
هذا النهج في التحلل يجعل النظام أكثر مقاومة للتغيير (مقارنةً بـ "الهيكل الأحادي") - فهو يضمن قابليته للتكسر:
  • يتم إجراء التغييرات من أنظمة المصدر عند التدريج - في النواة ، يتم تعديل فقط تلك الخيوط المتأثرة بجداول التدريج هذه ، ويكون التأثير على واجهات المتاجر ضئيلًا أو غائبًا ؛
  • تتم معالجة التغييرات التي تطرأ على متطلبات العملاء في الغالب في واجهات المحلات (ما لم تتطلب معلومات إضافية غير موجودة بالفعل في المستودع).
بعد ذلك ، سنتناول كل مكون من المكونات المذكورة أعلاه وننظر إليها بمزيد من التفصيل.

جوهر النظام

لنبدأ "من الوسط" - جوهر النظام أو الطبقة الوسطى. لم يتم تصنيفها على أنها طبقة أساسية. يؤدي المركز دور توحيد البيانات - تقليل الهياكل والأدلة والمفاتيح الفردية. هنا يتم تنفيذ العمل الرئيسي مع جودة البيانات - التنظيف والتحويل والتوحيد.

يسمح لك وجود هذا المكون بإعادة استخدام تدفقات البيانات التي تحول البيانات الأولية الواردة من الأنظمة المصدر إلى تنسيق واحد ، باتباع القواعد والخوارزميات العامة ، بدلاً من تكرار تنفيذ نفس الوظيفة بشكل منفصل لكل واجهة متجر تطبيق ، والتي ، بالإضافة إلى الاستخدام غير الفعال للموارد ، قد يؤدي أيضًا إلى تناقضات في البيانات.
يتم تنفيذ جوهر التخزين في نموذج بيانات ، بشكل عام ، يختلف عن نماذج أنظمة المصدر وعن تنسيقات وهياكل المستهلكين.

نموذج محرك التخزين ونموذج بيانات المؤسسة

المهمة الرئيسية لطبقة التخزين الوسطى هي الاستقرار. لهذا السبب ينصب التركيز الرئيسي هنا على نموذج البيانات. يشار إليه عادة باسم "نموذج بيانات المؤسسة". لسوء الحظ ، تطورت حوله هالة معينة من الأساطير والسخافات ، مما أدى أحيانًا إلى التخلي عن بنائه تمامًا ، ولكن دون جدوى.

الأسطورة 1. نموذج بيانات المؤسسة هو نموذج ضخم يتكون من آلاف الكيانات (الجداول).
فعلا. في أي مجال موضوع ، في أي مجال عمل ، في بيانات أي شركة ، حتى الأكثر تعقيدًا ، هناك عدد قليل من الكيانات الأساسية - 20-30.

الأسطورة 2. ليست هناك حاجة لتطوير أي "نموذج خاص" - نشتري نموذجًا مرجعيًا للصناعة - ونفعل كل شيء وفقًا له. نحن ننفق المال - لكننا نحصل على نتيجة مضمونة.
فعلا. يمكن أن تكون النماذج المرجعية مفيدة جدًا حقًا ، لأن. تحتوي على خبرة صناعية في نمذجة هذا المجال. من بينها يمكنك استخلاص الأفكار والمناهج وممارسات التسمية. تحقق من "عمق التغطية" للمنطقة ، حتى لا يفوتك شيء مهم. لكن من غير المحتمل أن نكون قادرين على استخدام مثل هذا النموذج "خارج الصندوق" - كما هو. هذه هي نفس الأسطورة ، على سبيل المثال ، شراء نظام تخطيط موارد المؤسسات (أو CRM) وتنفيذه دون أي "التواء لنفسك". تولد قيمة هذه النماذج في تكيفها مع حقائق هذا العمل المعين ، هذه الشركة بالذات.

الأسطورة 3. قد يستغرق تطوير نموذج التخزين الأساسي عدة أشهر ، وخلال هذه الفترة سيتم تجميد المشروع فعليًا. بالإضافة إلى ذلك ، يتطلب قدرًا مجنونًا من الاجتماعات ومشاركة العديد من الأشخاص.
فعلا. يمكن تطوير نموذج المستودع بشكل متكرر ، قطعة قطعة ، جنبًا إلى جنب مع المستودع. بالنسبة للمناطق غير المغطاة ، يتم وضع "نقاط الامتداد" أو "الأجزاء الجذعية" - أي يتم تطبيق بعض "الإنشاءات العامة". في الوقت نفسه ، تحتاج إلى معرفة متى تتوقف حتى لا تحصل على شيء فائق العالمية من 4 جداول ، حيث يصعب "وضع البيانات" (بل والأكثر صعوبة) الحصول عليها. وهو أمر غير مثالي للغاية من حيث الأداء.

سوف يستغرق تطوير النموذج بعض الوقت. ولكن ليس هذا هو الوقت المستغرق في "رسم الكيانات" - هذا هو الوقت اللازم لتحليل مجال الموضوع ، وفهم كيفية تنظيم البيانات. هذا هو السبب في أن المحللين يشاركون عن كثب في هذه العملية ، بالإضافة إلى العديد من خبراء الأعمال المشاركين. وهذا يتم بشكل انتقائي. وليس من خلال تنظيم اجتماعات مع عدد مجنون من الناس ، وإرسال استبيانات ضخمة بالبريد ، إلخ.
يعد تحليل الأعمال والنظام عالي الجودة هو المفتاح لبناء نموذج أساسي للتخزين. أنت بحاجة إلى فهم الكثير من الأشياء: أين (في أي أنظمة) يتم إنشاء البيانات ، وكيف يتم ترتيبها ، وما هي العمليات التجارية التي يتم تداولها ، وما إلى ذلك. لم يضر التحليل النوعي بأي نظام أبدًا. بدلا من ذلك ، على العكس من ذلك ، تنشأ المشاكل من "البقع الفارغة" في فهمنا.

إن تطوير نموذج بيانات ليس عملية ابتكار والتوصل إلى شيء جديد. في الواقع ، نموذج البيانات في الشركة موجود بالفعل. وعملية تصميمه أشبه بـ "الحفريات". يتم إبراز النموذج بلطف وحذر من "أرضية" بيانات الشركة ومكسوًا بشكل منظم.

الأسطورة 4. في شركتنا ، يكون العمل ديناميكيًا للغاية ، وكل شيء يتغير بسرعة كبيرة بحيث يصبح من غير المجدي بالنسبة لنا إنشاء نموذج - سيصبح قديمًا قبل أن نضع هذا الجزء من النظام قيد التشغيل.
فعلا. تذكر أن العامل الرئيسي في الجوهر هو الاستقرار. وفوق كل شيء ، طوبولوجيا النموذج. لماذا ا؟ لأن هذا هو المكون الأساسي ويؤثر على كل شيء آخر. الاستقرار هو أيضًا مطلب لنموذج النواة. إذا أصبح النموذج قديمًا بسرعة كبيرة ، فهذا يعني أنه مصمم بشكل غير صحيح. لتطويرها ، تم اختيار الأساليب الخاطئة و "قواعد اللعبة". إنها أيضًا مسألة تحليل نوعي. نادرًا ما تتغير الكيانات الرئيسية لنموذج الشركة.
ولكن إذا خطر ببالنا أن نفعل لشركة تبيع ، على سبيل المثال ، حلويات ، بدلاً من دليل "المنتجات" ، اصنع "حلويات" و "كعكات" و "فطائر". ثم عندما تظهر البيتزا في قائمة السلع - نعم ، ستحتاج إلى إدخال الكثير من الطاولات الجديدة. وهي مجرد مسألة نهج.

الأسطورة 5. إن إنشاء نموذج شركة هو عمل جاد للغاية ومعقد ومسؤول. ومن المخيف ارتكاب خطأ.
فعلا. النموذج الأساسي ، على الرغم من أنه يجب أن يكون مستقرًا ، لا يزال غير "مصبوب في المعدن". مثل أي قرارات تصميم أخرى ، يمكن مراجعة هيكلها وتعديله. فقط لا تنسى هذه الصفة لها. لكن هذا لا يعني على الإطلاق أنك "لا تستطيع أن تتنفس" عليها. وهذا لا يعني أن الحلول المؤقتة و "الدعائم" التي يجب التخطيط لمعالجتها غير مقبولة.

الأسطورة 6. إذا كان لدينا مصدر بيانات - على سبيل المثال ، نظام NSI (أو نظام إدارة بيانات رئيسي - MDM) ، فيجب أن يتوافق بطريقة جيدة مع نموذج الشركة (خاصةً إذا كان قد تم تصميمه مؤخرًا ولم يكن لديه وقت للحصول عليه "الآثار الجانبية" ، "التقاليد" والمباني المؤقتة). اتضح أنه بالنسبة لهذه الحالة - لا نحتاج إلى نموذج النواة؟
فعلا. نعم ، في هذه الحالة ، يتم تسهيل بناء نموذج التخزين الأساسي إلى حد كبير - لأن نحن نتبع نموذجًا مفاهيميًا جاهزًا عالي المستوى. لكنها ليست مستبعدة على الإطلاق. لماذا ا؟ لأنه عند إنشاء نموذج لنظام معين ، يتم تطبيق قواعد معينة - ما هي أنواع الجداول التي يجب استخدامها (لكل كيان) ، وكيفية إصدار البيانات ، وما هي التفاصيل التي يجب الاحتفاظ بها ، وما هي السمات الوصفية (الحقول التقنية التي يجب استخدامها) ، وما إلى ذلك .

بالإضافة إلى ذلك ، بغض النظر عن مدى روعة نظامي NSI و MDM لدينا ، كقاعدة عامة ، ستكون هناك فروق دقيقة مرتبطة بوجود أدلة محلية "تقريبًا" في أنظمة المحاسبة الأخرى. وهذه المشكلة ، سواء أحببنا ذلك أم لا ، سيتعين حلها في المخزن ، لأنه يتم جمع التقارير والتحليلات هنا.

طبقة البيانات الأولية (أو طبقة التشغيل أو التدريج القابل للتأريخ)

تم تعيينه كطبقة بيانات أولية. دور هذا المكون: التكامل مع أنظمة المصدر ، وتحميل البيانات الأولية وتخزينها ، وكذلك التنظيف الأولي للبيانات - التحقق من الامتثال لقواعد التحكم في التنسيق المنطقي ، المحددة في "اتفاقية واجهة التفاعل" مع المصدر.
بالإضافة إلى ذلك ، يحل هذا المكون مهمة مهمة جدًا للتخزين - تسليط الضوء على "دلتا التغيير الحقيقي" - بغض النظر عما إذا كان المصدر يسمح لك بتتبع التغييرات في البيانات أم لا وكيف (بأي معيار يمكن "التقاطها") . بمجرد بدء تشغيل البيانات ، أصبحت مسألة اختيار دلتا واضحة بالفعل لجميع الطبقات الأخرى ، وذلك بفضل تمييز السمات الوصفية.

يتم تخزين البيانات الموجودة في هذه الطبقة في هياكل قريبة قدر الإمكان من النظام المصدر - من أجل الحفاظ على البيانات الأولية أقرب ما يمكن إلى شكلها الأصلي. اسم آخر لهذا المكون هو "الطبقة التشغيلية".
لماذا لا تستخدم المصطلح الراسخ "التدريج"؟ الحقيقة هي أنه في وقت سابق ، قبل "عصر البيانات الضخمة و VLDB" ، كانت مساحة القرص باهظة الثمن - وغالبًا ما كانت البيانات الأولية ، إذا تم تخزينها ، لفترة محدودة فقط. وغالبًا ما يتم استدعاء اسم "التدريج" قابل للتنظيفمتعادل.
الآن ، تقدمت التكنولوجيا إلى الأمام - ويمكننا ليس فقط تخزين جميع البيانات الأولية ، ولكن أيضًا تأريخها بدرجة التفصيل التي لا يمكن تحقيقها إلا. هذا لا يعني أننا لا ينبغي أن نتحكم في نمو البيانات ولا يلغي الحاجة إلى إدارة دورة حياة المعلومات عن طريق تحسين تكلفة تخزين البيانات ، اعتمادًا على "درجة حرارة" الاستخدام - أي نقل "البيانات الباردة" ، وهي أقل طلبًا ، إلى وسائط ومنصات تخزين أرخص.

ما يعطينا وجود "انطلاق تاريخي":

  • إمكانية ارتكاب أخطاء (في الهياكل ، في خوارزميات التحويل ، في دقة حفظ التاريخ) - وجود بيانات أولية يمكن تأريخها بالكامل في منطقة توفر التخزين ، يمكننا دائمًا إعادة تحميل جداولنا ؛
  • فرصة للتفكير - يمكننا أن نأخذ وقتنا في تطوير جزء كبير من النواة في هذا التكرار لتطوير المستودع ، لأن في مرحلة انطلاقنا ، على أي حال ، سيكونون ، ومع أفق زمني متساوٍ (ستكون هناك "نقطة انطلاق واحدة في التاريخ") ؛
  • إمكانية التحليل - سنحفظ حتى تلك البيانات التي لم تعد موجودة في المصدر - يمكن الكتابة فوقها هناك ، والانتقال إلى الأرشيف ، وما إلى ذلك. - معنا ، تظل متاحة للتحليل ؛
  • إمكانية تدقيق المعلومات - بفضل المعلومات الأولية الأكثر تفصيلاً ، سنتمكن بعد ذلك من معرفة كيفية عمل التنزيل بالنسبة لنا ، وأننا حصلنا في النهاية على مثل هذه الأرقام (لهذا ، تحتاج أيضًا إلى وضع علامات بسمات التعريف والبيانات الوصفية المقابلة التي يعمل التنزيل عليها - يتم تحديد ذلك في طبقة الخدمة).
ما هي الصعوبات التي قد تنشأ في بناء "المسرح التاريخي":
  • سيكون من المناسب تحديد متطلبات تكامل المعاملات لهذه الطبقة ، لكن الممارسة توضح أن هذا صعب التحقيق (وهذا يعني أننا في هذا المجال لا نضمن التكامل المرجعي للجداول الأصلية والجداول الفرعية) - تحدث محاذاة التكامل في اللاحق طبقات.
  • تحتوي هذه الطبقة على أحجام كبيرة جدًا (الأكبر في التخزين - على الرغم من كل التكرار في الهياكل التحليلية) - ويجب أن تكون قادرًا على التعامل مع مثل هذه الأحجام - سواء من حيث التحميل أو من حيث الاستعلامات (وإلا ، يمكنك التقليل من قيمة أداء التخزين بالكامل).
ماذا يمكن أن يقال عن هذه الطبقة.
أولاً ، إذا ابتعدنا عن نموذج "عمليات التحميل من طرف إلى طرف" ، فإن قاعدة "تتحرك القافلة بسرعة آخر جمل" لم تعد صالحة لنا ، أو بالأحرى ، نتخلى عن مبدأ "القافلة" وانتقل إلى مبدأ "الناقل": لقد أخذنا البيانات من المصدر - ضعها في طبقتك - جاهزة لأخذ الجزء التالي. هذا يعني انه
1) لا ننتظر حدوث المعالجة على طبقات أخرى ؛
2) نحن لا نعتمد على الجدول الزمني لتوفير البيانات من قبل الأنظمة الأخرى.
ببساطة ، نقوم بجدولة عملية تحميل تأخذ البيانات من مصدر واحد عبر طريقة اتصال محددة إليه ، وتتحقق من دلتا وتستخرجها - وتضع البيانات في جداول هدف مرحلي. و هذا كل شيء.

ثانيًا ، هذه العمليات ، على ما يبدو ، مرتبة ببساطة شديدة - يمكن للمرء أن يقول بشكل تافه ، من وجهة نظر المنطق. وهذا يعني أنه يمكن تحسينها وتخصيصها بشكل جيد للغاية ، مما يقلل الحمل على نظامنا ويسرع عملية توصيل المصادر (وقت التطوير).
لكي يحدث هذا ، يجب أن تعرف جيدًا الميزات التكنولوجية للنظام الأساسي الذي يعمل عليه هذا المكون - وبعد ذلك يمكنك إنشاء أداة فعالة للغاية.

طبقة من العروض التحليلية

طبقة واجهة المتجر (طبقة مارت البيانات) هي المسؤولة عن إعداد البيانات وتوفيرها للمستخدمين النهائيين - الأشخاص أو الأنظمة. في هذا المستوى ، يتم أخذ متطلبات المستهلك في الاعتبار قدر الإمكان - المنطقية (المفاهيمية) والمادية. يجب أن توفر الخدمة ما هو مطلوب بالضبط - لا أكثر ولا أقل.

إذا كان المستهلك نظامًا خارجيًا ، كقاعدة عامة ، فإنه يحدد هياكل البيانات التي يحتاجها وقواعد جمع المعلومات. النهج الجيد هو النهج الذي يكون فيه المستهلك مسؤولاً عن جمع البيانات الصحيحة. تم إعداد مستودع البيانات ، وشكل واجهة المتجر ، ووفرت إمكانية جمع البيانات الإضافية (وضع العلامات بسمات التعريف للاختيار اللاحق لتغييرات دلتا) ، ثم يدير نظام المستهلك ويكون مسؤولاً عن كيفية استخدامه لواجهة المتجر هذه. ولكن هناك خصائص مميزة: عندما لا يحتوي النظام على مكون نشط لجمع البيانات ، فإما أن تكون هناك حاجة إلى مكون خارجي يؤدي وظيفة تكامل ، أو أن التخزين سيكون بمثابة "منصة تكامل" ويضمن التحميل المتزايد الصحيح للبيانات أبعد - خارج التخزين. تظهر العديد من الفروق الدقيقة هنا ، ويجب التفكير في قواعد تفاعل الواجهة وفهمها من قبل الطرفين (ومع ذلك ، كما هو الحال دائمًا ، عندما يتعلق الأمر بالتكامل). كقاعدة عامة ، يتم تطبيق التنظيف / الأرشفة الروتينية للبيانات على واجهات المتاجر هذه (نادرًا ما يكون من الضروري تخزين "بيانات النقل" هذه لفترة طويلة).

من الأهمية بمكان فيما يتعلق بالمهام التحليلية أن تكون واجهات العرض "للأشخاص" - وبشكل أكثر دقة ، لأدوات ذكاء الأعمال التي يعملون بها.
ومع ذلك ، هناك فئة من "المستخدمين المتقدمين بشكل خاص" - المحللون وعلماء البيانات - الذين لا يحتاجون إلى أدوات ذكاء الأعمال أو العمليات الروتينية لملء الأنظمة المتخصصة الخارجية. إنهم بحاجة إلى نوع من "واجهة المتجر المشتركة" و "صندوق الحماية الخاص بهم" ، حيث يمكنهم إنشاء الجداول والتحويلات وفقًا لتقديرهم. في هذه الحالة ، تتمثل مسؤولية المستودع في ضمان ملء مجموعات البيانات المشتركة هذه وفقًا للوائح.
بشكل منفصل ، يمكننا تحديد المستهلكين مثل أدوات التنقيب في البيانات - التحليل العميق للبيانات. هذه الأدوات لها متطلبات إعداد البيانات الخاصة بها ويستخدمها علماء البيانات أيضًا. بالنسبة للمستودع ، يتم تقليل المهمة - مرة أخرى ، لدعم الخدمة لتنزيل بعض واجهات العرض بتنسيق متفق عليه.

ومع ذلك ، دعنا نعود إلى واجهات المحلات التحليلية. إنها تهم من وجهة نظر مصممي التخزين في طبقة البيانات هذه.
في رأيي ، فإن أفضل نهج تم اختباره على مدار الوقت لتصميم مجموعات البيانات ، والذي تم "شحذ" جميع منصات BI تقريبًا من أجله ، هو نهج Ralph Kimball. هو معروف بالاسم النمذجة الأبعاد - النمذجة متعددة الأبعاد. هناك عدد كبير من المنشورات حول هذا الموضوع. على سبيل المثال ، يمكن العثور على القواعد الأساسية في المنشور. وبالطبع ، يمكنك التوصية من معلمو النمذجة متعددة المتغيرات. مورد آخر مفيد هو نصائح Kimball.
تم وصف النهج متعدد الأبعاد لإنشاء واجهات المحلات وعمله جيدًا - سواء من خلال المبشرين بالطريقة أو من خلال بائعي البرامج الرائدين - بحيث لا معنى للتركيز عليه هنا بأي تفاصيل - المصدر الأصلي هو الأفضل دائمًا.

أود أن أركز على تركيز واحد فقط. يختلف "إعداد التقارير والتحليلات". هناك "تقارير مكثفة" - تقارير مطلوبة مسبقًا يتم إنشاؤها في شكل ملفات وتسليمها إلى المستخدمين عبر قنوات التسليم المتوفرة. وهناك لوحات معلومات - لوحات معلومات BI. في الأساس ، هي تطبيقات ويب. ومتطلبات وقت الاستجابة لهذه التطبيقات هي نفسها بالنسبة لأي تطبيق ويب آخر. هذا يعني أن وقت التحديث العادي للوحة BI هو ثوانٍ ، وليس دقائق. من المهم أن تضع ذلك في الاعتبار عند تصميم حل. كيفية تحقيق ذلك؟ طريقة التحسين القياسية: نحن ننظر إلى ما يتكون منه وقت الاستجابة وما يمكننا التأثير فيه. على ماذا تقضي معظم الوقت؟ للقراءة الفعلية (القرص) لقاعدة البيانات ، لنقل البيانات عبر الشبكة. كيف تقلل كمية البيانات المقروءة والمرسلة لكل طلب؟ الإجابة واضحة وبسيطة: تحتاج إما إلى تجميع البيانات ، أو تطبيق عامل تصفية على جداول الحقائق الكبيرة المشاركة في الاستعلام ، واستبعاد ربط الجداول الكبيرة (يجب أن تمر المراجع إلى جداول البيانات الفعلية من خلال الأبعاد فقط).

ما هو ذكاء الأعمال؟ كيف هي مريحة؟ لماذا النموذج متعدد المتغيرات فعال؟
يسمح BI للمستخدم بإجراء ما يسمى "استعلامات مخصصة". ماذا يعني ذلك؟ هذا يعني أننا لا نعرف بالضبط الطلب مقدمًا ، لكننا نعرف المؤشرات في الأقسام التي يمكن للمستخدم طلبها. يقوم المستخدم بإنشاء مثل هذا الاستعلام عن طريق تحديد عوامل تصفية BI المناسبة. وتتمثل مهمة مطور ذكاء الأعمال ومصمم العرض في ضمان مثل هذا منطق تشغيل التطبيق بحيث يتم إما تصفية البيانات أو تجميعها ، وتجنب الموقف الذي يتم فيه طلب الكثير من البيانات و "توقف" التطبيق. عادةً ما يبدأون بأرقام مجمعة ، ثم يتعمقون في بيانات أكثر تفصيلاً ، ولكن على طول الطريق يحددون عوامل التصفية اللازمة.

لا يكفي دائمًا بناء "النجم الصحيح" - والحصول على هيكل مناسب لذكاء الأعمال. تحتاج أحيانًا إلى تطبيق إلغاء التطابق في مكان ما (أثناء النظر إلى الوراء في كيفية تأثير ذلك على الحمل) ، وفي مكان ما لإنشاء واجهات تخزين ومجموعات ثانوية. في مكان ما لإضافة فهارس أو إسقاطات (حسب نظام إدارة قواعد البيانات).

وبالتالي ، من خلال "التجربة والخطأ" ، يمكنك الحصول على بنية مثالية لـ BI - والتي ستأخذ في الاعتبار ميزات كل من DBMS ومنصة BI ، بالإضافة إلى متطلبات المستخدم لعرض البيانات.
إذا أخذنا البيانات من "النواة" ، فستكون معالجة واجهات المتاجر هذه ذات طبيعة محلية ، دون التأثير بأي شكل من الأشكال على المعالجة المعقدة للبيانات الأولية المستلمة مباشرة من أنظمة المصدر - نحن فقط "نحول" البيانات إلى تنسيق مناسب لـ BI. ويمكننا أن نقوم بذلك عدة مرات وبطرق مختلفة ووفقًا لمتطلبات مختلفة. من الأسهل والأسرع القيام بذلك على أساس بيانات النواة بدلاً من التجميع من "الأساسي" (هيكل وقواعد ، كما نعلم ، يمكن أيضًا "تعويم").

طبقة الخدمة

طبقة الخدمة (- طبقة الخدمة) هي المسؤولة عن تنفيذ الوظائف العامة (الخدمة) التي يمكن استخدامها لمعالجة البيانات في طبقات التخزين المختلفة - إدارة الأحمال ، وإدارة جودة البيانات ، وتشخيص المشكلات وأدوات المراقبة ، إلخ.
يوفر وجود هذا المستوى الشفافية وتدفق البيانات المنظمة في التخزين.

تتضمن هذه الطبقة منطقتين لتخزين البيانات:

  • منطقة البيانات الوصفية - تستخدم لآلية التحكم في تحميل البيانات ؛
  • مجال جودة البيانات - لتنفيذ فحوصات جودة البيانات خارج الخط (أي تلك التي لم يتم تضمينها مباشرة في عمليات ETL).
يمكنك بناء عملية إدارة الأحمال بطرق مختلفة. أحد الأساليب الممكنة هو هذا: نقوم بتقسيم المجموعة الكاملة من جداول التخزين إلى وحدات نمطية. يمكن تضمين جداول من طبقة واحدة فقط في الوحدة النمطية. يتم تحميل الجداول المضمنة في كل وحدة كجزء من عملية منفصلة. دعنا نسميها تحكم العملية . يتم وضع بدء عملية التحكم وفقًا لجدولها الزمني الخاص. تقوم عملية التحكم بتنسيق المكالمات إلى العمليات الذرية ، كل منها يقوم بتحميل جدول هدف واحد ، وتحتوي أيضًا على بعض الخطوات الشائعة.
من الواضح أنه يكفي ببساطة تقسيم الجداول المرحلية إلى وحدات - وفقًا لأنظمة المصدر ، أو بالأحرى نقاط الاتصال الخاصة بهم. لكن بالنسبة للنواة ، هذا أصعب بالفعل - لأن. هناك نحتاج إلى ضمان تكامل البيانات ، مما يعني أننا بحاجة إلى مراعاة التبعيات. أولئك. ستكون هناك صراعات تحتاج إلى حل. وهناك طرق مختلفة لحلها.

من النقاط المهمة في إدارة الأحمال تطوير نهج موحد لمعالجة الأخطاء. تصنف الأخطاء حسب مستوى الأهمية. عند حدوث خطأ فادح ، يجب أن تتوقف العملية ، وفي أسرع وقت ممكن ، لأن. يشير حدوثه إلى مشكلة كبيرة يمكن أن تؤدي إلى تلف البيانات في التخزين. وبالتالي ، فإن إدارة الأحمال لا تتعلق فقط ببدء العمليات ، ولكن أيضًا بإيقافها ، فضلاً عن منع البدء غير المناسب (عن طريق الخطأ).

يتم إنشاء هيكل بيانات تعريف خاص لكي تعمل طبقة الخدمة. ستخزن هذه المنطقة معلومات حول عمليات التحميل ومجموعات البيانات المحملة ونقاط التفتيش المستخدمة للحفاظ على الزيادة (التي قرأت العملية حتى أي نقطة) ومعلومات الخدمة الأخرى اللازمة لكي يعمل النظام.
من المهم ملاحظة أن جميع الجداول المستهدفة في جميع الطبقات مميزة بمجموعة خاصة من حقول التعريف ، أحدها هو معرف العملية التي تم تحديث هذه السلسلة. بالنسبة للجداول الموجودة داخل المستودع ، تتيح عملية وضع العلامات هذه طريقة موحدة لاستخراج تغييرات دلتا لاحقًا. عند تحميل البيانات في طبقة البيانات الأولية ، يكون الموقف أكثر تعقيدًا - يمكن أن تكون خوارزمية استخراج دلتا للعديد من الكائنات المحملة مختلفة. من ناحية أخرى ، فإن منطق معالجة التغييرات المقبولة وتدحرجها على الجداول المستهدفة للجوهر وواجهات المحلات أكثر تعقيدًا بكثير من المنطق ، حيث يكون كل شيء تافهًا تمامًا - من السهل تحديد المعايير والتفكير في الخطوات النموذجية القابلة لإعادة الاستخدام (الإجراءات ).

لا أقوم بتعيين المهمة هنا لتغطية هذا الموضوع بالكامل - تنظيم التحميل - أنا فقط أضع اللكنات التي تستحق الاهتمام بها.
النهج أعلاه هو مجرد واحد من الخيارات. إنه قابل للتكيف إلى حد كبير. وكان "النموذج الأولي المفاهيمي" الخاص به هو ناقل Toyota ونظام "just in-time". أولئك. نحن نتحرك بعيدًا عن النموذج واسع الانتشار المتمثل في "التحميل الليلي للبيانات" حصريًا ، ونقوم بتحميل أجزاء صغيرة خلال النهار - حيث أن البيانات جاهزة من مصادر مختلفة: ما حدث هو ما تم تحميله. في الوقت نفسه ، لدينا العديد من العمليات المتوازية قيد التشغيل. وسوف "يومض" "الذيل الساخن" للبيانات الجديدة باستمرار - وحتى بعد فترة. يجب أن نأخذ في الاعتبار هذه الميزة. وإذا لزم الأمر ، لتشكيل "شرائح" عرض مخصصة ، حيث يكون كل شيء بالفعل جزءًا لا يتجزأ. أولئك. من المستحيل تحقيق الكفاءة والاتساق (النزاهة) في نفس الوقت. نحن بحاجة إلى توازن - في مكان ما يكون هناك شيء واحد مهم ، في مكان آخر.

من المهم للغاية توفير وسائل التسجيل والرصد. من الممارسات الجيدة استخدام الأحداث المكتوبة ، حيث يمكنك تعيين معلمات مختلفة وإعداد نظام إعلام - الاشتراك في أحداث معينة. لأن من المهم جدًا أنه عندما يكون تدخل مسؤول النظام مطلوبًا ، فسوف يعرف ذلك في أقرب وقت ممكن ويتلقى جميع المعلومات التشخيصية اللازمة. يمكن أيضًا استخدام السجلات لتحليل مشكلة ما بعد الوقائع ، وكذلك للتحقيق في حوادث أعطال النظام ، بما في ذلك. جودة البيانات.

تصميم نماذج بيانات المستودعات وصيانتها

لماذا من المهم الانتباه إلى تصميم نماذج البيانات عند تطوير أي نظام يتضمن قاعدة بيانات (وخاصة في المستودعات)؟ لماذا لا تكتفي بمجرد طرح مجموعة من الجداول ، في أي مكان - حتى في محرر نصوص؟ لماذا نحتاج هذه الصور؟
من الغريب أن المطورين ذوي الخبرة يطرحون مثل هذه الأسئلة.
في الواقع ، نعم ، لا شيء يمنعك من رسم الجداول - والبدء في استخدامها. إذا ... إذا كان في نفس الوقت في الرأس (!) لدى المطور صورة شاملة متناغمة للهيكل الذي يقوم بنحته. ماذا لو كان هناك عدة مطورين؟ ولكن ماذا لو استخدم شخص آخر هذه الجداول؟ ولكن ماذا لو مر الوقت - غادر الشخص هذه المنطقة ، ثم عاد إليها مرة أخرى؟

هل من الممكن معرفة ذلك بدون نموذج؟ في الأساس ، يمكنك ذلك. ولإيجاد ذلك ، و "تقدير الصور على قطعة من الورق" ، و "مسح - تسوية" البيانات. ولكن من الأسهل والأوضح والأسرع استخدام الأداة الجاهزة - نموذج البيانات. وأيضًا لفهم "منطق هيكلها" - أي سيكون من الجيد وجود قواعد مشتركة للعبة.

والشيء الأكثر أهمية ليس ذلك. الأهم من ذلك ، عند تصميم نموذج ما ، فنحن مضطرون (ببساطة بدون خيارات!) إلى دراسة مجال الموضوع عن كثب وعمق ، وميزات بنية البيانات واستخدامها في حالات العمل المختلفة. وتلك الأسئلة التي "نضعها جانبًا" بسهولة باعتبارها معقدة ، و "غير واضحة" من خلال إلقاء لافتاتنا ، دون محاولة التصميمنموذج - سنضطر إلى التحديد واتخاذ القرار الآن ، أثناء التحليل والتصميم ، وليس لاحقًا - عندما نبني التقارير ونفكر في "كيفية تقليل عدم التوافق" و "إعادة اختراع العجلة" في كل مرة.

هذا النهج هو أحد تلك الممارسات الهندسية التي تجعل من الممكن إنشاء أنظمة مضادة للكسر. نظرًا لأنها مفهومة وشفافة وسهلة التطوير و "حدود هشاشتها" مرئية على الفور ، يمكن للمرء أن يقيم بدقة أكبر "حجم الكارثة" عند ظهور متطلبات جديدة والوقت اللازم لإعادة التصميم (إذا لزم الأمر).
وبالتالي ، فإن نموذج البيانات هو أحد الآثار الرئيسية التي يجب الحفاظ عليها أثناء تطوير النظام. بطريقة جيدة ، يجب أن يكون "على الطاولة" لكل محلل ومطور وما إلى ذلك. - كل المشاركين في مشاريع تطوير النظام.

تصميم نماذج البيانات موضوع منفصل وشامل للغاية. هناك طريقتان رئيسيتان لتصميم التخزين.
النهج جيد للنواة "علاقة الكيان" - عندما يتم بناء نموذج معياري (3NF) على أساس دراسة مجال الموضوع ، وبصورة أدق ، المنطقة المختارة. هنا نفس "نموذج الشركة" الذي نوقش أعلاه المسرحيات.

عند تصميم المعارض التحليلية المناسبة نموذج متعدد الأبعاد . هذا النهج يفسح المجال جيدًا لفهم مستخدمي الأعمال. هذا نموذج بسيط ومناسب للإدراك البشري - يعمل الناس بمفاهيم مفهومة ومألوفة للمقاييس (المؤشرات) والأقسام التي يتم تحليلها من خلالها. وهذا يسمح لنا ببساطة وبشكل واضح ببناء عملية جمع المتطلبات - نرسم مجموعة من "مصفوفات التخفيضات والمؤشرات" ، بالتواصل مع ممثلي مختلف الإدارات. ثم نضعه في هيكل واحد - "نموذج التحليل": نشكل "ناقل القياس" ونحدد الحقائق التي يتم تحديدها عليها. على طول الطريق ، نحن نعمل على قواعد التجميع والتسلسل الهرمي.

علاوة على ذلك ، من السهل جدًا الانتقال إلى النموذج المادي ، مع إضافة عناصر التحسين مع مراعاة ميزات نظام إدارة قواعد البيانات. على سبيل المثال ، بالنسبة إلى Oracle ، سيكون التقسيم ومجموعة من الفهارس وما إلى ذلك. بالنسبة إلى Vertica ، سيتم استخدام تقنيات أخرى - الفرز والتجزئة والتقسيم.
قد تكون هناك حاجة أيضًا إلى إلغاء التطابق الخاص - عندما نقوم بإدخال التكرار عن عمد في البيانات ، وبفضل ذلك نقوم بتحسين أداء الاستعلامات ، ولكن في نفس الوقت يعقد تحديث البيانات (لأن التكرار يجب أن يؤخذ في الاعتبار ودعمه أثناء عملية تحميل البيانات). ربما ، من أجل تحسين الأداء ، سيتعين علينا أيضًا إنشاء جداول مجمعة إضافية ، أو استخدام ميزات DBMS الإضافية مثل الإسقاطات في Vertica.

لذلك ، عند نمذجة بيانات المستودع ، فإننا في الواقع نحل عدة مشاكل:

  • وتتمثل المهمة في بناء نموذج مفاهيمي (منطقي) للجوهر - تحليل النظام والأعمال - دراسة مجال الموضوع ، والتعمق في التفاصيل ومراعاة الفروق الدقيقة في "البيانات الحية" واستخدامها في الأعمال التجارية ؛
  • مهمة بناء نموذج تحليل - ثم نموذج مفاهيمي (منطقي) لواجهات المحلات ؛
  • تتمثل مهمة بناء النماذج المادية في إدارة تكرار البيانات ، والتحسين مع مراعاة ميزات DBMS للاستعلامات وتحميل البيانات.
عند تطوير النماذج المفاهيمية ، قد لا نأخذ في الاعتبار ميزات نظام DBMS معين نقوم بتصميم هيكل قاعدة بيانات من أجله. علاوة على ذلك ، يمكننا استخدام نموذج مفاهيمي واحد لإنشاء العديد من النماذج المادية - لنظام إدارة قواعد البيانات المختلفة.

دعونا نلخص.

  • نموذج البيانات ليس مجموعة من "الصور الجميلة" ، وعملية تصميمه ليست عملية رسمها. يعكس النموذج فهمنا لمجال الموضوع. وعملية تجميعها هي عملية دراستها والبحث. هذا هو المكان الذي يضيع فيه الوقت. وليس على الإطلاق "الرسم والتلوين".
  • نموذج البيانات هو أداة تصميم ، وهي طريقة لمشاركة المعلومات بطريقة منظمة بين أعضاء الفريق. للقيام بذلك ، يجب أن يكون مفهومًا للجميع (يتم توفير ذلك من خلال التدوين والشرح) ويمكن الوصول إليه (منشور).
  • لا يتم إنشاء نموذج البيانات مرة واحدة وتجميده ، ولكن يتم إنشاؤه وتطويره في عملية تطوير النظام. نحن أنفسنا وضعنا قواعد تطورها. ويمكننا تغييرها إذا رأينا كيف نجعلها أفضل وأبسط وأكثر كفاءة.
  • يسمح لك نموذج البيانات (المادي) بتوحيد واستخدام مجموعة من أفضل الممارسات التي تهدف إلى التحسين - أي استخدام التقنيات التي نجحت بالفعل في نظام إدارة قواعد البيانات هذا.

ملامح مشاريع مستودع البيانات


دعنا نتحدث عن ميزات المشاريع التي تقوم الشركة من خلالها ببناء مستودعات البيانات وتطويرها. ودعونا ننظر إليهم من وجهة نظر تأثير الجانب المعماري. لماذا من المهم بناء الهندسة المعمارية لمثل هذه المشاريع ، ومنذ البداية. كما أن وجود بنية مدروسة جيدًا يمنح المرونة لمشروع مستودع البيانات ، ويسمح لك بتوزيع العمل بشكل فعال بين المؤدين ، كما يسهل التنبؤ بالنتيجة ويجعل العملية أكثر قابلية للتنبؤ.

مستودع البيانات هو برنامج مخصص

يعتبر مستودع البيانات دائمًا "تطويرًا مخصصًا" ، وليس حلاً محاصرًا. نعم ، هناك تطبيقات BI خاصة بالصناعة تتضمن نموذج بيانات مرجعي ، وعمليات ETL مُعدة مسبقًا من مصادر شائعة (على سبيل المثال ، أنظمة ERP) ، ومجموعة من تقارير ولوحات معلومات BI النموذجية. لكن من الناحية العملية ، نادرًا ما يتم تنفيذ التخزين - كـ "صندوق". لقد كنت أعمل مع التخزين منذ حوالي 10 سنوات ولم أر مثل هذه القصة من قبل. هناك دائمًا فروق دقيقة مرتبطة بالميزات الفريدة للشركة - سواء في مجال الأعمال أو مجال تكنولوجيا المعلومات. لذلك ، من المتهور إلى حد ما الأمل في أن "البائع" الذي يقدم الحل سيوفر البنية. غالبًا ما تنضج بنية هذه الأنظمة داخل المنظمة نفسها. أو يتم تشكيلها من قبل متخصصين من شركة المقاول وهو المقاول الرئيسي للمشروع.

مستودع البيانات هو مشروع تكامل

يقوم مستودع البيانات بتحميل ومعالجة المعلومات من العديد من أنظمة المصدر. ومن أجل الحفاظ على "علاقات ودية" معهم ، عليك أن تكون حذرًا للغاية معهم. من بين أمور أخرى ، من الضروري تقليل الحمل على أنظمة المصدر ، مع الأخذ في الاعتبار نوافذ "التوافر وعدم إمكانية الوصول" ، واختيار واجهات التفاعل مع مراعاة بنيتها ، وما إلى ذلك. بعد ذلك ، سيكون التخزين قادرًا على جمع البيانات في أقرب وقت ممكن وبالتردد المطلوب. خلاف ذلك ، سيتم "نقلك" إلى دائرة احتياطية ، والتي لم يتم تحديثها بالتردد الأكثر تشغيلاً.
بالإضافة إلى ذلك ، يجب مراعاة "العامل البشري". التكامل ليس فقط تفاعل الآلات. إنه أيضًا اتصال بين الناس.

مستودع البيانات هو مشروع جماعي


في شركة كبيرة ، نادرًا ما يمكن تنفيذ مثل هذا النظام بواسطة فريق واحد فقط. كقاعدة عامة ، تعمل عدة فرق هنا ، كل منها يحل مشكلة معينة.

يجب أن يوفر الهيكل إمكانية تنظيم عملهم الموازي ، مع الحفاظ على سلامته وتجنب تكرار نفس الوظيفة في أماكن مختلفة ، من قبل أشخاص مختلفين. بالإضافة إلى تكاليف العمالة غير الضرورية ، يمكن أن تؤدي هذه الازدواجية إلى تناقضات في البيانات لاحقًا.

بالإضافة إلى ذلك ، عندما يشارك الكثير من الأشخاص والفرق ، غالبًا ما يكونون متناثرين ، في عملية تطوير النظام ، فإن السؤال الذي يطرح نفسه لا محالة: كيفية بناء الاتصالات والتفاعل المعلوماتي بينهم. كلما تم استخدام الأساليب والممارسات القياسية والمفهومة ، أصبح إنشاء مثل هذا العمل أسهل وأكثر ملاءمة وفعالية. ومن الجدير التفكير في تكوين "المصنوعات العملية" ، ومن بينها نماذج البيانات لمخازن البيانات رقم 1 (انظر القسم السابق).

يتمتع مخزن البيانات بعمر أطول مقارنة بالأنظمة الأخرى

اسمحوا لي أن أوضح - البيان صحيح بالنسبة للتخزين "المباشر" ، العامل ، والمتكامل مع المصادر الرئيسية ، وامتلاك البيانات التاريخية وتقديم المعلومات والخدمات التحليلية للعديد من أقسام الشركة.

ما هي الأسس التي لدي للاعتقاد بذلك؟
أولاً ، يعد بناء التخزين عملية كثيفة الاستخدام للموارد: فبالإضافة إلى التكاليف الفعلية للمعدات ، وتراخيص البرامج التكنولوجية الضرورية والتطوير ، تشارك جميع أنظمة وأقسام الشركة تقريبًا في هذا الأمر. إن تكرار هذه العملية برمتها من الصفر مرة أخرى هو تعهد جريء للغاية.

ثانيًا ، إذا كان للتخزين البنية الصحيحة ، فيمكنه بسهولة أن ينجو من كل من تغيير أنظمة المصدر ، وظهور متطلبات جديدة من المستخدمين النهائيين ، ونمو أحجام البيانات.
إذا كانت البنية صحيحة ، وكانت تدفقات المعلومات شفافة ، فيمكن عندئذٍ تطوير مثل هذا النظام لفترة طويلة دون التعرض لخطر الوقوع في حالة ذهول عند إجراء تغييرات بسبب الصعوبات في تقييم التأثير.

التطوير التكراري التدريجي

آخر شيء يرغب فيه العميل ، من خلال المشاركة في القصة مع التخزين ، هو تجميد متطلباته لمدة عام أو عامين ، حتى يتم تصميم نموذج بيانات الشركة الكامل ، ويتم توصيل جميع المصادر بالكامل ، إلخ.

غالبًا ما يبدو مستودع البيانات في نظر العملاء وكأنه وحش مطلق - المهام والأهداف والأفق لتطوير النظام ضخمة جدًا. وغالبًا ما يخشى العميل "على حساب ميزانيته" أن يقوم قسم تكنولوجيا المعلومات بحل بعض "المهام الخاصة". ومرة أخرى ، نواجه مسألة التفاعل بين الناس والقدرة على التعبير بهدوء عن موقف المرء والتفاوض.

تسمح لك الأساليب المعمارية المختصة بتطوير النظام بشكل متكرر ، وزيادة الوظائف تدريجياً ، دون الدخول في "التطوير" لعدة سنوات قبل البدء في إعطاء النتائج.

على الرغم من أنه تجدر الإشارة إلى أن "المعجزات لا تحدث" - و "البداية" تستغرق وقتًا أيضًا. بالنسبة إلى المستودعات ، يمكن أن تكون كبيرة جدًا - نظرًا لأن هذه كميات كبيرة من البيانات ، فهذه بيانات تاريخية - للفترات القديمة التي قد تختلف فيها قواعد معالجة المعلومات عن القواعد الحالية. لذلك ، يتطلب الأمر وقتًا كافيًا للتطوير التحليلي والتفاعل مع أنظمة المصدر وسلسلة من "التجربة والخطأ" ، بما في ذلك اختبارات التحميل على البيانات الحقيقية.

مستودعات البيانات - "قصة متعددة المشاريع"

من الصعب تحديد عميل تجاري واحد لمخزن البيانات. ويعتقد (ليس بدون سبب) أن العامل الرئيسي في نجاح مشروع التخزين هو دعم إدارة الشركة - مباشرة من منظور الشخص الأول.
نادرًا ما يتم إنشاء المستودع وتطويره ضمن مشروع واحد. كقاعدة عامة ، هناك احتياجات مختلفة لتوحيد البيانات والتحليلات ، ورائها عملاء ومجموعات مختلفة من المستخدمين. لذلك ، غالبًا ما يتم تطوير المستودع في إطار العديد من المشاريع الموازية.

توازن الابتكار والحلول المجربة

على الرغم من حقيقة أن موضوع التخزين "قديم" جدًا (إذا كانت هذه الكلمة قابلة للتطبيق في صناعة حديثة مثل تكنولوجيا المعلومات) ومحافظ تمامًا. ومع ذلك ، فإن التقدم لا يزال قائماً - والقيود التي كانت موجودة سابقًا بسبب الأقراص الباهظة الثمن والبطيئة ، والذاكرة باهظة الثمن ، وما إلى ذلك. - تمت إزالتها الآن. وفي الوقت نفسه ، حان الوقت لإعادة النظر في بعض الأساليب المعمارية. علاوة على ذلك ، ينطبق هذا على كل من المنصات التكنولوجية وبنية الأنظمة المطبقة التي تعتمد عليها.

من المهم تحقيق التوازن هنا - والحفاظ على نهج "أخضر" إلى حد ما لكل من الموارد والمعلومات المخزنة. خلاف ذلك ، يمكنك تحويل المستودع بسرعة كبيرة إلى "مكب نفايات" شبه منظم ، والذي ، إذا كان من الممكن تسويته ، سوف يتطلب الكثير من الجهد.
نعم ، لدينا المزيد من الفرص ، لكن هذا لا يعني أننا بحاجة إلى إنكار جميع الممارسات التي تم تطويرها واختبارها بمرور الوقت ، والتي توضح كيفية الاستخدام ولماذا ، و "الانغماس في كل شيء جاد" فقط بقيادة الضباب شبح "الابتكار".
يعني الحفاظ على التوازن استخدام طرق وأساليب جديدة حيث تفتح فرصًا جديدة ، ولكن في نفس الوقت باستخدام الأساليب القديمة التي أثبتت جدواها لحل المشكلات العاجلة التي لم يلغها أحد.
ماذا يمكننا أن نفعل كمطورين ومصممين للحلول التطبيقية؟ بادئ ذي بدء ، معرفة وفهم التغييرات التكنولوجية للمنصات التي نعمل عليها وإمكانياتها وخصائصها وحدود التطبيق.

لنلقِ نظرة على نظام إدارة قواعد البيانات (DBMS) - باعتباره النظام الأساسي التكنولوجي الأكثر أهمية وأهمية للتخزين.
في الآونة الأخيرة ، كان هناك انجراف واضح لقواعد البيانات العلائقية ، التي تم إنشاؤها أصلاً على أنها "عالمية" ، نحو التخصص. لفترة طويلة ، أطلق كبار البائعين خيارات متنوعة - لتطبيقات من فئات مختلفة (OLTP و DSS و DWH). بالإضافة إلى ذلك ، هناك فرص إضافية للعمل مع النصوص والبيانات الجغرافية وما إلى ذلك.

لكن الأمر لم يقتصر على هذا - فقد بدأت تظهر المنتجات التي كانت تركز في البداية على فئة معينة من المهام - أي نظم إدارة قواعد البيانات المتخصصة. قد يستخدمون أو لا يستخدمون النموذج العلائقي. الشيء المهم هو أنه يتم "شحذها" في البداية ليس فقط لتخزين ومعالجة "معلومات العمل" بشكل عام ، ولكن لمهام معينة.

على ما يبدو ، فإن المركزية والتخصص هما اتجاهان متكاملان يحلان بشكل دوري محل بعضهما البعض ، مما يضمن التطور والتوازن. وكذلك التطور التطوري (التدريجي) التدريجي والتغيرات الأساسية. لذلك ، في التسعينيات ، كان مايكل ستونبريكر أحد مؤلفي Generation III Database Manifesto ، والذي بدا بوضوح فكرة أن العالم لا يحتاج إلى ثورة أخرى في عالم قواعد البيانات. ومع ذلك ، بعد 10 سنوات ، نشر أعمالًا أعلن فيها عن المتطلبات الأساسية لبداية حقبة جديدة في عالم نظم إدارة قواعد البيانات (DBMS) - بناءً على تخصصهم تحديدًا.
إنه يركز على حقيقة أن نظم إدارة قواعد البيانات العالمية واسعة الانتشار مبنية على بنية "مقاس واحد يناسب الجميع" لا تأخذ في الاعتبار التغييرات في الأنظمة الأساسية للأجهزة أو تقسيم التطبيقات إلى فئات يمكنك التوصل إلى حل أفضل لها من تنفيذ المتطلبات العالمية.
ويبدأ في تطوير عدد من المشاريع وفق هذه الفكرة. أحدها هو C-Store ، وهو نظام DBMS عمودي مصمم في بنية لا شيء مشترك (SN) ، تم إنشاؤه في الأصل خصيصًا لأنظمة فئة تخزين البيانات. تم تسويق هذا المنتج أيضًا باسم HP Vertica.

يبدو الآن أن موضوع تطوير مستودعات البيانات قد انزلق إلى جولة جديدة من التطوير. تقنيات ونهج وأدوات جديدة آخذة في الظهور. تتيح لنا دراستهم واختبارهم وتطبيقهم المعقول إنشاء حلول ممتعة ومفيدة حقًا. واجلبهم إلى التنفيذ ، واستمتع بحقيقة أن تطويراتك تستخدم في عمل حقيقي وتحقق فوائد.

الخاتمة

أثناء إعداد هذا المقال ، حاولت التركيز بشكل أساسي على المهندسين المعماريين والمحللين والمطورين الذين يعملون مباشرة مع مستودعات البيانات. ولكن اتضح أنني "أخذت الموضوع على نطاق أوسع" - وفئات أخرى من القراء تندرج في مجال الرؤية. ستبدو بعض النقاط مثيرة للجدل ، والبعض الآخر غير واضح ، والبعض الآخر واضح. الناس مختلفون - بخبرات وخلفيات ومواقف مختلفة.
على سبيل المثال ، الأسئلة النموذجية للمديرين هي "متى تجذب المهندسين المعماريين؟" ، "متى يجب أن أفعل الهندسة المعمارية؟" ، "الهندسة المعمارية - ألا تكون باهظة الثمن؟" يبدو الأمر غريبًا بالنسبة لنا (مطورين ، مصممين) ، لأنه بالنسبة لنا تظهر بنية النظام مع نشأته - لا يهم إذا أدركنا ذلك أم لا. وحتى إذا لم يكن هناك دور رسمي للمهندس المعماري في المشروع ، فإن المطور العادي دائمًا "يقوم بتشغيل مهندسه الداخلي".

في المخطط الكبير للأشياء ، لا يهم من هو المهندس ، ما يهم هو أن يسأل شخص ما هذه الأسئلة ويستكشف الإجابات عليها. إذا تم تحديد المهندس المعماري بوضوح ، فهذا يعني فقط أنه مسؤول بشكل أساسي عن النظام وتطويره.
لماذا يبدو موضوع "منع الهشاشة" وثيق الصلة بي فيما يتعلق بهذا الموضوع؟

"إن تفرد نظام منع الهشاشة هو أنه يسمح لنا بالعمل مع المجهول ، والقيام بشيء ما في ظروف لا نفهم فيها بالضبط ما نقوم به - وأن ننجح"/ نسيم ن. طالب /
لذلك ، فإن الأزمة ودرجة عالية من عدم اليقين ليسا عذراً لغياب العمارة ، بل عوامل تعزز حاجتها.