أجهزة الكمبيوتر شبابيك إنترنت

حساب ارتباط كيندال. ارتباط الرتبة ومعامل ارتباط رتبة كيندال. ما الذي يجب أن يكون نقطة البداية عند تحديد موضوع البحث وموضوعه وموضوعه وهدفه وأهدافه وفرضيته

لحساب المعامل ارتباط الترتيبكيندال ص كمن الضروري ترتيب البيانات لإحدى السمات بترتيب تصاعدي وتحديد الرتب المقابلة للسمة الثانية. بعد ذلك ، لكل رتبة من السمة الثانية ، يتم تحديد عدد الرتب اللاحقة الأكبر حجماً من المرتبة المأخوذة ، ويتم العثور على مجموع هذه الأرقام.

يتم تحديد معامل ارتباط رتبة كيندال من خلال الصيغة


أين R أنا- عدد رتب المتغير الثاني ابتداء من أنا+1 ، حجمها أكبر من الحجم أنارتبة هذا المتغير.

توجد جداول بالنقاط المئوية لتوزيع المعامل ص ك، مما يسمح لك باختبار الفرضية حول أهمية معامل الارتباط.

لأحجام العينات الكبيرة ، القيم الحرجة ص كلم يتم جدولة ، ويجب حسابها باستخدام الصيغ التقريبية ، والتي تستند إلى حقيقة أنه بموجب الفرضية الصفرية H 0: ص ك= 0 وكبير نقيمة عشوائية

يتم توزيعها تقريبًا وفقًا للقانون العادي القياسي.

40. العلاقة بين السمات المقاسة بالمقاييس الاسمية أو الترتيبية

غالبًا ما تنشأ مشكلة التحقق من استقلالية ميزتين تم قياسهما على مقياس اسمي أو ترتيبي.

دع بعض الأشياء تقيس ميزتين Xو صمع عدد المستويات صو سعلى التوالى. يتم تقديم نتائج هذه الملاحظات بشكل ملائم في شكل جدول يسمى جدول الطوارئ.

في الطاولة أنت أنا(أنا = 1, ..., ص) و الخامس ي (ي= 1, ..., س) - القيم المأخوذة بالسمات ، القيمة ن ij- عدد العناصر من إجمالي عدد العناصر التي لها السمة Xتولى المعنى أنت أناوالعلامة ص- المعنى الخامس ي

نقدم المتغيرات العشوائية التالية:

أنت أنا


- عدد العناصر التي لها قيمة الخامس ي


بالإضافة إلى ذلك ، هناك مساواة واضحة



المتغيرات العشوائية المنفصلة Xو صمستقل إذا وفقط إذا

لجميع الأزواج أنا, ي

لذلك ، التخمين حول استقلالية المتغيرات العشوائية المنفصلة Xو صيمكن كتابتها على هذا النحو:

كبديل ، كقاعدة عامة ، يستخدمون الفرضية

يجب الحكم على صحة الفرضية H 0 على أساس ترددات العينة ن ijجداول الطوارئ. وفقا لقانون الأعداد الكبيرة في ن→ ∞ ، الترددات النسبية قريبة من الاحتمالات المقابلة:



لاختبار الفرضية H 0 ، يتم استخدام الإحصائيات

والتي ، إذا كانت الفرضية صحيحة ، لها التوزيع χ 2 ثانية روبية − (ص + س- 1) درجات الحرية.

معيار الاستقلال χ 2 يرفض الفرضية H 0 بمستوى الأهمية α إذا:


41. تحليل الانحدار. المفاهيم الأساسية لتحليل الانحدار

للحصول على وصف رياضي للعلاقات الإحصائية بين المتغيرات المدروسة ، يجب حل المشكلات التالية:

ü اختر فئة من الوظائف يكون من المناسب البحث فيها عن أفضل تقريب (بمعنى معين) من تبعية الفائدة ؛

ü إيجاد تقديرات للقيم غير المعروفة للمعلمات المدرجة في معادلات الاعتماد المطلوب ؛

ü لإثبات كفاية المعادلة التي تم الحصول عليها للاعتماد المطلوب ؛

ü لتحديد متغيرات الإدخال الأكثر إفادة.

مجموع المهام المدرجة هو موضوع البحث في تحليل الانحدار.

دالة الانحدار (أو الانحدار) هي اعتماد التوقع الرياضي لمتغير عشوائي واحد على القيمة المأخوذة بواسطة متغير عشوائي آخر ، والذي يشكل نظامًا ثنائي الأبعاد من المتغيرات العشوائية مع الأول.

يجب أن يكون هناك نظام من المتغيرات العشوائية ( X,ص) ، ثم وظيفة الانحدار صتشغيل X

ودالة الانحدار Xتشغيل ص

وظائف الانحدار F(x) و φ (ذ) ليست قابلة للعكس بشكل متبادل إذا كانت العلاقة بينهما فقط Xو صلا يعمل.

متي نمتجه الأبعاد مع الإحداثيات X 1 , X 2 ,…, X نيمكنك مراعاة التوقع الرياضي الشرطي لأي مكون. على سبيل المثال ، ل X 1


يسمى الانحدار X 1 في X 2 ,…, X ن.

للحصول على تعريف كامل لوظيفة الانحدار ، من الضروري معرفة التوزيع الشرطي لمتغير الإخراج للقيم الثابتة لمتغير الإدخال.

نظرًا لعدم توفر مثل هذه المعلومات في الوضع الحقيقي ، فإنها تقتصر عادةً على البحث عن وظيفة تقريبية مناسبة و أ(x) ل F(x) ، بناءً على البيانات الإحصائية للنموذج ( س ط, ذ أنا), أنا = 1,…, ن... هذه البيانات هي النتيجة نملاحظات مستقلة ذ 1 ,…, ذ نمتغير عشوائي صلقيم متغير الإدخال x 1 ,…, x ن، بينما يفترض تحليل الانحدار أن قيم متغير الإدخال محددة بدقة.

مشكلة اختيار أفضل دالة تقريبية و أ(x) ، كونها العنصر الرئيسي في تحليل الانحدار ، وليس لديها إجراءات رسمية لحلها. في بعض الأحيان يتم تحديد الاختيار بناءً على تحليل البيانات التجريبية ، في كثير من الأحيان من الاعتبارات النظرية.

إذا افترض أن دالة الانحدار سلسة بدرجة كافية ، فإن وظيفة التقريب و أ(x) كمجموعة خطية من مجموعة وظائف أساس مستقلة خطيًا ψ ك(x), ك = 0, 1,…, م−1 ، أي في النموذج


أين م- عدد المعلمات غير المعروفة θ ك(في الحالة العامة ، القيمة غير معروفة ، مكررة أثناء بناء النموذج).

هذه الوظيفة خطية في المعلمات ، لذلك ، في الحالة قيد النظر ، نتحدث عن نموذج دالة الانحدار الخطي في المعلمات.

ثم مشكلة إيجاد أفضل تقريب لخط الانحدار F(x) إلى إيجاد قيم المعلمات التي من أجلها و أ(x؛ θ) هو الأكثر ملاءمة للبيانات المتاحة. إحدى طرق حل هذه المشكلة هي طريقة المربعات الصغرى.

42. طريقة المربعات الصغرى

دع مجموعة النقاط ( س ط, ذ أنا), أنا= 1,…, نتقع على متن طائرة بمحاذاة خط مستقيم

ثم ، كدالة و أ(x) تقريب دالة الانحدار F(x) = م [ص|x] من الطبيعي أن تأخذ دالة خطيةجدال x:


أي ، يتم اختيار وظائف الأساس هنا ψ 0 (x) ≡1 و ψ 1 (x)≡x... يسمى هذا الانحدار الانحدار الخطي البسيط.

إذا كانت مجموعة النقاط ( س ط, ذ أنا), أنا= 1,…, نيقع على طول منحنى ، ثم و أ(x) من الطبيعي محاولة اختيار عائلة القطع المكافئ

هذه الوظيفة غير خطية في المعلمات θ 0 و θ 1 ، ومع ذلك ، من خلال التحويل الوظيفي (في هذه الحالة ، اللوغاريتم) يمكن اختزاله إلى وظيفة جديدة و "أ(x) ، خطي في المعلمات:


43. الانحدار الخطي البسيط

أبسط نموذج انحدار بسيط (أحادي البعد ، أحادي الاتجاه ، مقترن) نموذج خطيوالتي لها الشكل التالي:


أين ε ط- المتغيرات العشوائية (الأخطاء) غير المرتبطة ببعضها البعض ، والتي لها توقعات رياضية صفرية ونفس الفروق σ 2 , أو ب- المعاملات الثابتة (المعلمات) التي يجب تقديرها من قيم الاستجابة المقاسة ذ أنا.

للعثور على تقديرات المعلمات أو بالانحدار الخطي ، وتحديد الخط المستقيم الذي يلبي معظم البيانات التجريبية:


يتم تطبيق طريقة المربعات الصغرى.

وفق طريقة المربعات الصغرى تقديرات المعلمة أو بتم العثور عليها من حالة تصغير مجموع مربعات انحرافات القيم ذ أناعموديًا من خط الانحدار "الحقيقي":

دع عشر ملاحظات لمتغير عشوائي قد تم إجراؤها صبقيم ثابتة للمتغير X

لتصغير دنحن نساوي صفرًا فيما يتعلق بالمشتقات الجزئية أو ب:



نتيجة لذلك ، نحصل على نظام المعادلات التالي لإيجاد التقديرات أو ب:


يعطي حل هاتين المعادلتين:



تعبيرات لتقديرات المعلمات أو بيمكن تمثيلها أيضًا على النحو التالي:

ثم المعادلة التجريبية لخط الانحدار صتشغيل Xيمكن كتابتها على النحو التالي:


تقدير التباين غير المتحيز σ 2 ـ انحرافات القيم ذ أنامن خط الانحدار المستقيم المجهز بالتعبير

دعنا نحسب معلمات معادلة الانحدار


وبالتالي ، فإن خط الانحدار هو:


وتقدير تباين انحرافات القيم ذ أنامن خط الانحدار المستقيم المناسب


44. التحقق من أهمية خط الانحدار

تم العثور على تقدير بيمكن أن يكون ≠ 0 تحقيقًا لمتغير عشوائي ، يكون التوقع الرياضي له مساويًا للصفر ، أي أنه قد يتضح أنه لا يوجد في الواقع أي اعتماد على الانحدار.

للتعامل مع هذا الموقف ، يجب اختبار الفرضية H 0: ب= 0 مع فرضية منافسة H 1: ب ≠ 0.

يمكن اختبار أهمية خط الانحدار باستخدام تحليل التباين.

ضع في اعتبارك الهوية التالية:

الكمية ذ أناŷ ط = ε طيسمى الباقي وهو الفرق بين كميتين:

ü انحراف القيمة المرصودة (الاستجابة) عن متوسط ​​الاستجابة الإجمالي ؛

ü انحراف قيمة الاستجابة المتوقعة ŷ طمن نفس المتوسط

يمكن كتابة الهوية المكتوبة بصيغة


من خلال تربيع كلا الجزأين والتلخيص أنا، نحن نحصل:


حيث سميت الكميات:

إجمالي (إجمالي) مجموع مربعات SC n ، والذي يساوي مجموع مربعات انحرافات الملاحظات بالنسبة إلى متوسط ​​قيمة الملاحظات

مجموع المربعات بسبب انحدار SK p ، والذي يساوي مجموع مربعات انحرافات قيم خط الانحدار بالنسبة إلى متوسط ​​الملاحظات.

المجموع المتبقي للمربعات SK 0. وهو ما يساوي مجموع مربعات انحرافات الملاحظات بالنسبة لقيم خط الانحدار

لذا فإن الانتشار صيمكن أن يُعزى -kov بالنسبة إلى متوسطها إلى حد ما إلى حقيقة أنه ليست كل الملاحظات تقع على خط الانحدار. إذا كان هذا هو الحال ، فإن مجموع المربعات بالنسبة للانحدار سيكون صفرًا. ومن ثم يترتب على ذلك أن الانحدار سيكون مهمًا إذا كان مجموع مربعات SC p أكبر من مجموع مربعات SC 0.

يتم إجراء الحسابات لاختبار أهمية الانحدار في الجدول التالي من ANOVA

إذا كانت الأخطاء ε طموزعة وفقًا للقانون العادي ، إذا كانت الفرضية H 0 صحيحة: ب= 0 إحصائيات:


وزعت وفقا لقانون فيشر مع عدد درجات الحرية 1 و ن−2.

سيتم رفض الفرضية الصفرية عند مستوى الأهمية α إذا كانت القيمة المحسوبة للإحصاء Fستكون أكبر من النسبة المئوية α F 1;ن−2 ؛ α لتوزيع فيشر.

45. التحقق من كفاية نموذج الانحدار. طريقة المتبقية

تُفهم كفاية نموذج الانحدار المُنشأ على أنه حقيقة أنه لا يوجد نموذج آخر يعطي تحسنًا كبيرًا في التنبؤ بالاستجابة.

إذا تم الحصول على جميع قيم الاستجابات بقيم مختلفة x، على سبيل المثال ، لا توجد عدة قيم استجابة تم الحصول عليها بنفس الشيء س ط، عندئذٍ فقط يمكن إجراء اختبار محدود لمدى كفاية النموذج الخطي. أساس هذا الفحص هو بقايا الطعام:

الانحرافات عن النمط المعمول به:

بقدر ما X- متغير أحادي البعد ، نقاط ( س ط, د ط) على طائرة على شكل ما يسمى بالمؤامرة المتبقية. مثل هذا التمثيل يجعل من الممكن أحيانًا إيجاد بعض الانتظام في سلوك البقايا. بالإضافة إلى ذلك ، يسمح لك تحليل القيم المتبقية بتحليل الافتراضات المتعلقة بتوزيع الأخطاء.

في حالة توزيع الأخطاء وفقًا للقانون العادي وهناك تقدير مسبق لتباينها σ 2 (تم الحصول على تقدير على أساس القياسات التي تم إجراؤها مسبقًا) ، ومن ثم يمكن إجراء تقييم أكثر دقة لمدى كفاية النموذج.

باستخدام F- يمكن استخدام معيار فيشر للتحقق مما إذا كان التباين المتبقي مهمًا س 0 2 يختلف عن التقدير المسبق. إذا كان أكبر بكثير ، فهناك نقص ويجب مراجعة النموذج.

إذا كان التقدير المسبق σ 2 لا ، ولكن قياسات الاستجابة صكرر مرتين أو أكثر بنفس القيم X، ثم يمكن استخدام هذه الملاحظات المتكررة للحصول على تقدير آخر σ 2 (الأول هو التباين المتبقي). يُقال أن مثل هذا التقدير يمثل خطأ "خالصًا" ، لأنه إذا xهي نفسها لملاحظتين أو أكثر ، فعندئذٍ فقط التغييرات العشوائية يمكن أن تؤثر على النتائج وتخلق تناثرًا بينها.

تبين أن التقدير الناتج هو تقدير أكثر موثوقية للتباين من التقدير الذي تم الحصول عليه بالطرق الأخرى. لهذا السبب ، عند التخطيط للتجارب ، من المنطقي إعداد تجارب مع التكرار.

افترض أن هناك ممعان مختلفة X : x 1 , x 2 , ..., س م... دع كل من هذه القيم س طيوجد ن أناملاحظات الاستجابة ص... يتم الحصول على الملاحظات الإجمالية:

ثم يمكن كتابة نموذج الانحدار الخطي البسيط على النحو التالي:


دعونا نجد تباين الأخطاء "الخالصة". هذا التباين هو التقدير المجمع للتباين σ 2 ، إذا كنا نمثل قيم الردود ذ ijفي x = س طكحجم العينة ن أنا... نتيجة لذلك ، فإن تباين الأخطاء "الخالصة" هو:

هذا التباين بمثابة تقدير σ 2 بغض النظر عما إذا كان النموذج المناسب صحيحًا.

دعنا نظهر أن مجموع مربعات "الأخطاء الصافية" هو جزء من المجموع المتبقي للمربعات (مجموع المربعات المضمنة في التعبير عن التباين المتبقي). المتبقي ل يالملاحظة رقم س طيمكن كتابتها على النحو التالي:

إذا قمنا بترتيب كلا جانبي هذه المساواة ثم قمنا بتلخيصها يوبواسطة أنا، نحن نحصل:

على يسار هذه المساواة يوجد المجموع المتبقي للمربعات. المصطلح الأول على اليمين هو مجموع مربعات الأخطاء "الصافية" ، ويمكن تسمية المصطلح الثاني بمجموع مربعات عدم الكفاية. آخر مبلغ له م− درجتان من الحرية ، إذن ، تباين عدم الكفاية

إحصائيات معيار اختبار الفرضية H 0: النموذج الخطي البسيط مناسب ، مقابل الفرضية H 1: النموذج الخطي البسيط غير ملائم ، والمتغير العشوائي هو

إذا كانت الفرضية الصفرية صحيحة ، فإن القيمة Fلديها توزيع فيشر مع درجات من الحرية م−2 و نم... يجب رفض فرضية الخطية لخط الانحدار بمستوى الدلالة α ، إذا كانت القيمة التي تم الحصول عليها للإحصاء أكبر من نقطة النسبة المئوية لتوزيع فيشر مع عدد درجات الحرية م−2 و نم.

46. التحقق من كفاية نموذج الانحدار (انظر 45). أنوفا

47. التحقق من كفاية نموذج الانحدار (انظر 45). معامل التحديد

في بعض الأحيان ، لتوصيف جودة خط الانحدار ، يتم استخدام معامل تحديد العينة ر 2 ، يوضح الجزء (الكسر) من مجموع المربعات ، بسبب الانحدار ، يكون SK r في المجموع الكلي للمربعات SK n:

الاقرب رمن 2 إلى واحد ، كلما كان الانحدار يقارب البيانات التجريبية بشكل أفضل ، كلما اقتربت الملاحظات من خط الانحدار. لو ر 2 = 0 ، فإن التغييرات في الاستجابة ترجع تمامًا إلى تأثير العوامل غير المحسوبة ، وخط الانحدار موازٍ للمحور x-ov. معامل التحديد في حالة الانحدار الخطي البسيط ر 2 يساوي مربع معامل الارتباط ص 2 .

لا يمكن تحقيق الحد الأقصى للقيمة R 2 = 1 إلا في حالة إجراء الملاحظات بقيم مختلفة لـ x-ov. إذا كانت هناك تجارب متكررة في البيانات ، فلن تصل قيمة R 2 إلى الوحدة ، بغض النظر عن مدى جودة النموذج.

48. فترات الثقة لمعلمات الانحدار الخطي البسيط

تمامًا كما أن متوسط ​​العينة هو تقدير للمتوسط ​​الحقيقي (وسط المجتمع) ، كذلك تكون معلمات العينة لمعادلة الانحدار أو ب- ليس أكثر من تقدير لمعاملات الانحدار الحقيقية. تعطي العينات المختلفة تقديرات مختلفة للمتوسط ​​- تمامًا كما ستعطي العينات المختلفة تقديرات مختلفة لمعاملات الانحدار.

بافتراض أن قانون توزيع الخطأ ε طموصوفة من قبل القانون العادي ، تقدير المعلمة بسيكون لها توزيع طبيعي مع المعلمات:


منذ تقدير المعلمة أهو مزيج خطي من مستقل بشكل طبيعي الكميات الموزعة، سيكون لها أيضًا توزيع طبيعي بمتوسط ​​وتباين:


في هذه الحالة ، فاصل الثقة (1 - α) لتقدير التباين σ 2 مع مراعاة أن النسبة ( ن−2)س 0 2 /σ 2 توزع بموجب القانون χ 2 مع عدد درجات الحرية نسيتم تحديد −2 بالتعبير


49. فترات الثقة لخط الانحدار. فاصل الثقة لقيم المتغيرات التابعة

عادة لا نعرف القيم الحقيقية لمعاملات الانحدار. أو ب... نحن نعرف فقط تقديراتهم. بمعنى آخر ، يمكن أن يرتفع خط الانحدار الحقيقي أو ينخفض ​​، أو يكون أكثر حدة أو سطحية من الخط الذي تم إنشاؤه من بيانات العينة. قمنا بحساب فترات الثقة لمعاملات الانحدار. يمكنك أيضًا حساب منطقة الثقة لخط الانحدار نفسه.

دع الانحدار الخطي البسيط من الضروري بناء (1− α ) فترة الثقة للتوقع الرياضي للاستجابة صفي القيمة NS = NS 0. هذا التوقع الرياضي أ+bx 0 ، والنتيجة

منذ ذلك الحين.

التقدير الذي تم الحصول عليه للتوقع الرياضي هو مزيج خطي من القيم الموزعة بشكل طبيعي غير المرتبطة ، وبالتالي يكون له أيضًا توزيع طبيعي يتمحور حول نقطة القيمة الحقيقية للتوقع والتباين الرياضي الشرطي

لذلك ، فاصل الثقة لخط الانحدار عند كل قيمة xيمكن تمثيل 0 كـ


كما ترى ، يتم الحصول على الحد الأدنى لفترة الثقة عند x 0 يساوي المتوسط ​​ويزيد كـ x 0 "يبتعد" عن الوسط في أي اتجاه.

للحصول على مجموعة من فترات الثقة المشتركة المناسبة لوظيفة الانحدار بأكملها ، بطولها بالكامل ، في التعبير أعلاه بدلاً من ر −2,α يجب استبدال / 2

إن أحد العوامل التي تحد من تطبيق المعايير على أساس افتراض الحالة الطبيعية هو حجم العينة. طالما أن العينة كبيرة بما يكفي (على سبيل المثال ، 100 ملاحظة أو أكثر) ، يمكنك افتراض أن توزيع العينة طبيعي ، حتى إذا لم تكن متأكدًا من أن توزيع المتغير في المجتمع أمر طبيعي. ومع ذلك ، إذا كانت العينة صغيرة ، فلا ينبغي استخدام هذه المعايير إلا إذا كانت هناك ثقة في أن المتغير يتم توزيعه بشكل طبيعي بالفعل. ومع ذلك ، لا توجد طريقة لاختبار هذا الافتراض على عينة صغيرة.

يقتصر استخدام المعايير القائمة على افتراض الحالة الطبيعية أيضًا على مقياس القياسات (انظر الفصل المفاهيم الأساسية لتحليل البيانات). تفترض الطرق الإحصائية مثل اختبار t ، والانحدار ، وما إلى ذلك ، أن البيانات الأصلية مستمرة. ومع ذلك ، هناك حالات يتم فيها ترتيب البيانات ببساطة (يتم قياسها على مقياس ترتيبي) بدلاً من قياسها بدقة.

يتم إعطاء مثال نموذجي من خلال تصنيفات المواقع على الإنترنت: يتم أخذ المركز الأول بواسطة الموقع مع أكبر عدد من الزوار ، ويتم أخذ الموضع الثاني بواسطة الموقع مع الحد الأقصى لعدد الزوار بين المواقع المتبقية (من بين المواقع التي تمت إزالة الموقع الأول منها) ، وما إلى ذلك. بمعرفة التقييمات ، يمكننا القول أن عدد زوار موقع ما أكبر من عدد زوار موقع آخر ، ولكن ما هو أكثر من ذلك من المستحيل تحديده. تخيل أن لديك 5 مواقع: A ، B ، C ، D ، E ، وهي في أعلى 5 أماكن. لنفترض أنه في الشهر الحالي كان لدينا الترتيب التالي: A ، B ، C ، D ، E ، وفي الشهر السابق: D ، E ، A ، B ، C. السؤال هو ، كانت هناك تغييرات كبيرة في تقييمات الموقع أم لا؟ في هذه الحالة ، من الواضح أنه لا يمكننا استخدام اختبار t لمقارنة هاتين المجموعتين من البيانات ، والانتقال إلى منطقة الحسابات الاحتمالية المحددة (وأي معيار إحصائي يحتوي على حساب احتمالي!). نحن نتحدث عن هذا: ما مدى احتمال أن يكون الاختلاف في تخطيطي الموقعين ناتجًا عن أسباب عشوائية بحتة ، أو أن الاختلاف كبير جدًا ولا يمكن تفسيره بالصدفة البحتة. في هذا المنطق ، نستخدم فقط الرتب أو التباديل للمواقع ولا نستخدم بأي شكل من الأشكال شكلًا محددًا لتوزيع عدد الزوار عليها.

لتحليل العينات الصغيرة والبيانات المقاسة على المقاييس الرديئة ، يتم استخدام طرق غير معلمية.

جولة سريعة في الإجراءات اللامعلمية

بشكل أساسي ، لكل معيار حدودي ، يوجد على الأقل بديل واحد غير معلمي.

بشكل عام ، تندرج هذه الإجراءات في إحدى الفئات التالية:

  • معايير التمييز للعينات المستقلة ؛
  • معايير التمييز للعينات التابعة ؛
  • تقييم درجة التبعية بين المتغيرات.

بشكل عام ، يجب أن يكون نهج المعايير الإحصائية في تحليل البيانات عمليًا وألا يكون مثقلًا بالتفكير النظري غير الضروري. مع وجود جهاز كمبيوتر STATISTICA تحت تصرفك ، يمكنك بسهولة تطبيق عدة معايير على بياناتك. بمعرفة بعض عيوب الطرق ، ستختار الحل المناسب من خلال التجريب. يعد تطوير الحبكة أمرًا طبيعيًا: إذا كنت بحاجة إلى مقارنة قيم متغيرين ، فأنت تستخدم اختبار t. ومع ذلك ، يجب أن نتذكر أنه يقوم على افتراض الحالة الطبيعية والمساواة في الفروق في كل مجموعة. يؤدي كسر هذه الافتراضات إلى اختبارات غير معلمية مفيدة بشكل خاص للعينات الصغيرة.

يؤدي تطوير اختبار t إلى تحليل التباين ، والذي يستخدم عندما يكون عدد المجموعات المقارنة أكثر من مجموعتين. يؤدي التطور المقابل للإجراءات اللامعلمية إلى تحليل التباين اللامعلمي ، على الرغم من أنه أضعف بكثير من التحليل الكلاسيكي للتباين.

لتقييم التبعية ، أو بعبارة مبهمة إلى حد ما ، درجة ضيق الاتصال ، يتم حساب معامل ارتباط بيرسون. بالمعنى الدقيق للكلمة ، فإن تطبيقه له قيود مرتبطة ، على سبيل المثال ، بنوع المقياس الذي يتم فيه قياس البيانات وعدم خطية الاعتماد ؛ لذلك ، بدلاً من ذلك ، تُستخدم معاملات الارتباط غير المعلمية ، أو ما يسمى بالرتبة ، أيضًا ، وهي المستخدمة ، على سبيل المثال ، للبيانات المرتبة. إذا تم قياس البيانات على مقياس اسمي ، فمن الطبيعي تقديمها في جداول الطوارئ التي تستخدم اختبار Pearson chi-square مع اختلافات وتصحيحات مختلفة من أجل الدقة.

لذلك ، في الأساس ، لا يوجد سوى عدد قليل من أنواع المعايير والإجراءات التي تحتاج إلى معرفتها والقدرة على استخدامها ، اعتمادًا على تفاصيل البيانات. أنت بحاجة إلى تحديد المعيار الذي ينبغي تطبيقه في حالة معينة.

تعتبر الطرق اللامعلمية هي الأنسب عندما تكون أحجام العينات صغيرة. إذا كان هناك الكثير من البيانات (على سبيل المثال ، n> 100) ، فغالبًا ما لا يكون من المنطقي استخدام الإحصائيات اللامعلمية.

إذا كان حجم العينة صغيرًا جدًا (على سبيل المثال ، n = 10 أو أقل) ، فيمكن اعتبار مستويات الأهمية لتلك الاختبارات اللامعلمية التي تستخدم التقريب الطبيعي فقط بمثابة تقديرات تقريبية.

الاختلافات بين المجموعات المستقلة... إذا كانت هناك عينتان (على سبيل المثال ، رجال ونساء) يجب مقارنتهما فيما يتعلق ببعض القيمة المتوسطة ، على سبيل المثال ، متوسط ​​الضغط أو عدد الكريات البيض في الدم ، فيمكن عندئذٍ استخدام اختبار t كمستقل. عينات.

البدائل اللامعلمية لهذا الاختبار هي اختبار سلسلة Val'da-Wolfowitz ، Mann-Whitney) / n ، حيث x i - قيمة ال، n هو عدد المشاهدات. إذا كان المتغير يحتوي على قيم سالبة أو صفر (0) ، فلا يمكن حساب المتوسط ​​الهندسي.

الوسط التوافقي

يستخدم المتوسط ​​التوافقي أحيانًا لمتوسط ​​الترددات. يتم حساب المتوسط ​​التوافقي بالصيغة: ГС = n / S (1 / х i) حيث ГС هو الوسط التوافقي ، n هو عدد المشاهدات ، х i هي قيمة الملاحظة بالرقم i. إذا كان المتغير يحتوي على صفر (0) ، فلا يمكن حساب المتوسط ​​التوافقي.

التشتت والانحراف المعياري

يعد تباين العينة والانحراف المعياري أكثر المقاييس شيوعًا لتغير البيانات (التباين). يتم حساب التباين على أنه مجموع مربعات انحرافات قيم المتغير عن متوسط ​​العينة ، مقسومًا على n-1 (ولكن ليس على n). يتم حساب الانحراف المعياري باعتباره الجذر التربيعي لتقدير التباين.

تأرجح

نطاق المتغير هو مؤشر على التقلب ، محسوبًا كحد أقصى ناقص الحد الأدنى.

النطاق الرباعي

النطاق ربع السنوي ، حسب التعريف ، هو: الربع الأعلى مطروحًا منه الربع السفلي (75٪ مئوي ناقص 25٪ مئوي). نظرًا لأن النسبة المئوية 75٪ (الربع العلوي) هي القيمة الموجودة على اليسار والتي توجد 75٪ من الحالات فيها ، ونسبة 25٪ (الربع الأدنى) هي القيمة الموجودة على اليسار والتي يقع 25٪ من الحالات فيها ، فإن الربع النطاق هو الفاصل الزمني حول الوسيط. والذي يحتوي على 50٪ من الحالات (قيم متغيرة).

عدم التماثل

عدم التناسق هو سمة من سمات شكل التوزيع. ينحرف التوزيع إلى اليسار إذا كانت قيمة الانحراف سالبة. التوزيع منحرف إلى اليمين إذا كان عدم التماثل موجبًا. انحراف التوزيع الطبيعي القياسي هو 0. يرتبط الانحراف باللحظة الثالثة ويتم تعريفه على النحو التالي: الانحراف = n × M 3 / [(n-1) × (n-2) × s 3] ، حيث M 3 هو: (xi -x يعني x) 3 ، s 3 هو الانحراف المعياري المرفوع إلى القوة الثالثة ، n هو عدد المشاهدات.

إفراط

التفرطح هو سمة من سمات شكل التوزيع ، أي قياس شدة ذروته (بالنسبة للتوزيع الطبيعي ، الذي يساوي التفرطح 0). كقاعدة عامة ، يكون للتوزيعات ذات الذروة الأكثر حدة من المعتاد تفرطح إيجابي ؛ التوزيعات التي تكون ذروتها أقل حدة من ذروة التوزيع الطبيعي لها تفرطح سلبي. يرتبط الفائض باللحظة الرابعة ويتم تحديده بواسطة الصيغة:

التفرطح = / [(n-1) × (n-2) × (n-3) × s 4] ، حيث M j هو: (xx يعني x ، s 4 هو الانحراف المعياري للقوة الرابعة ، n هو عدد المشاهدات ...

تتطلب احتياجات الممارسة الاقتصادية والاجتماعية تطوير طرق للوصف الكمي للعمليات التي تسمح بالتسجيل الدقيق ليس فقط للعوامل الكمية ، ولكن أيضًا العوامل النوعية. شريطة أن يتم ترتيب قيم السمات النوعية ، أو تتراوح حسب درجة انخفاض (زيادة) الميزة ، فمن الممكن تقييم تقارب العلاقة بين السمات النوعية. النوعية تعني ميزة لا يمكن قياسها بدقة ، ولكنها تسمح لك بمقارنة الأشياء ببعضها البعض ، وبالتالي ترتيبها بترتيب تنازلي أو متزايد للجودة. والمحتوى الحقيقي للقياسات في مقاييس الرتب هو الترتيب الذي يتم به ترتيب الكائنات وفقًا لشدة الميزة المقاسة.

لأغراض عملية ، يعد استخدام ارتباط الرتبة مفيدًا جدًا. على سبيل المثال ، إذا تم إنشاء ارتباط عالي المرتبة بين سمتين نوعيين للمنتجات ، فعندئذٍ يكفي التحكم في المنتجات بإحدى الميزات فقط ، مما يجعل التحكم أرخص وأسرع.

كمثال ، يمكننا النظر في وجود علاقة بين توافر المنتجات التجارية لعدد من المؤسسات والتكاليف العامة للمبيعات. في سياق 10 ملاحظات ، تم الحصول على الجدول التالي:

دعونا نرتب قيم X بترتيب تصاعدي ، ونخصص كل قيمة لرقمها الترتيبي (الترتيب):

هكذا،

لنقم ببناء الجدول التالي ، حيث تمت كتابة الأزواج X و Y ، والتي تم الحصول عليها نتيجة الملاحظة مع رتبهم:

للدلالة على الاختلاف في الرتب ، نكتب معادلة حساب معامل ارتباط عينة سبيرمان:

حيث n هو عدد المشاهدات ، فهو أيضًا عدد أزواج الرتب.

معامل سبيرمان له الخصائص التالية:

إذا كانت هناك علاقة مباشرة كاملة بين السمات النوعية X و Y بمعنى أن رتب الكائنات تتطابق مع جميع قيم i ، فإن معامل ارتباط عينة سبيرمان هو 1. في الواقع ، باستبدالها في الصيغة ، نحصل على 1.

إذا كانت هناك علاقة عكسية كاملة بين الخصائص النوعية X و Y بمعنى أن الرتبة تتوافق مع الرتبة ، فإن معامل ارتباط عينة سبيرمان هو -1.

في الواقع ، إذا

باستبدال القيمة في صيغة معامل ارتباط سبيرمان ، نحصل على -1.

إذا لم يكن هناك خط مستقيم كامل ولا كامل استجابة، ثم يكون معامل ارتباط عينة سبيرمان بين -1 و 1 ، وكلما اقتربت قيمته من 0 ، قلت العلاقة بين السمات.

وفقًا للمثال أعلاه ، سنجد قيمة P ، لذلك سنكمل الجدول بالقيم و:

معامل ارتباط عينة كيندال. يمكنك تقييم العلاقة بين سمتين نوعيين باستخدام معامل ارتباط الرتبة في كيندال.

اجعل رتب كائنات العينة ذات الحجم n متساوية:

على أساس X:

على أساس Y :. لنفترض أنه إلى اليمين هناك رتب كبيرة ، إلى اليمين رتب كبيرة ، إلى اليمين رتب كبيرة. دعونا نقدم تدوين مجموع الرتب

وبالمثل ، فإننا نقدم الترميز على أنه مجموع عدد الرتب الكاذبة على اليمين ، ولكن أقل.

تتم كتابة معامل ارتباط عينة كيندال بالصيغة:

حيث n هو حجم العينة.

معامل كيندال له نفس خصائص معامل سبيرمان:

إذا كانت هناك علاقة مباشرة كاملة بين السمات النوعية X و Y بمعنى أن رتب الكائنات تتطابق مع جميع قيم i ، فإن معامل ارتباط عينة كيندال هو 1. في الواقع ، يوجد إلى اليمين n-1 مراتب أكبر ، لذلك ، بنفس الطريقة ، نؤسس ، ماذا. ثم. ومعامل كيندال هو:.

إذا كانت هناك علاقة عكسية كاملة بين السمات النوعية X و Y بمعنى أن الرتبة تتوافق مع الرتبة ، فإن معامل ارتباط عينة كيندال هو -1. إلى اليمين لا توجد رتب كبيرة. بطريقة مماثلة. باستبدال القيمة R + = 0 في صيغة معامل Kendall ، نحصل على -1.

مع حجم عينة كبير بما فيه الكفاية ومع قيم معاملات ارتباط الرتبة التي لا تقترب من 1 ، تحدث مساواة تقريبية:

هل يعطي معامل كيندال تقديرًا أكثر تحفظًا للارتباط من معامل سبيرمان؟ (القيمة الرقمية؟ هي دائمًا أقل من). أثناء حساب المعامل؟ أقل مجهودًا من حساب المعامل ، يكون الأخير أسهل في إعادة الحساب إذا تمت إضافة مصطلح جديد إلى السلسلة.

من المزايا المهمة للمعامل أنه يمكن استخدامه لتحديد معامل ارتباط الرتبة الجزئي ، مما يجعل من الممكن تقييم درجة الترابط "الخالص" لميزتين من الرتب ، مما يلغي تأثير العامل الثالث:

أهمية معاملات ارتباط الرتب. عند تحديد قوة ارتباط الرتبة بناءً على بيانات العينة ، من الضروري النظر في السؤال التالي: إلى أي مدى يمكن الاعتماد على درجة الموثوقية التي يمكن للمرء أن يعتمد على الاستنتاج القائل بوجود ارتباط في عموم السكان ، إذا كان معامل عينة معين لارتباط الرتبة تم الحصول عليها. بمعنى آخر ، يجب التحقق من أهمية ارتباطات الرتب الملحوظة بناءً على الفرضية القائلة بأن التصنيفين قيد الدراسة مستقلان إحصائيًا.

باستخدام حجم عينة كبير نسبيًا n ، يمكن التحقق من أهمية معاملات ارتباط الرتبة باستخدام جدول التوزيع الطبيعي (جدول الملحق 1). لاختبار أهمية معامل سبيرمان؟ (لـ n> 20) احسب القيمة

ولإختبار أهمية معامل كيندال؟ (لـ n> 10) احسب القيمة

حيث S = R + - R- ، n هو حجم العينة.

علاوة على ذلك ، يتم تعيين مستوى الأهمية ، يتم تحديد القيمة الحرجة لـ tcr (؟ ، K) من جدول النقاط الحرجة لتوزيع الطالب والقيمة المحسوبة أو مقارنتها به. يُفترض أن عدد درجات الحرية هو k = n-2. إذا أو> tcr ، فإن القيم أو تعتبر مهمة.

معامل ارتباط فيشنر.

أخيرًا ، يجب أن نذكر معامل Fechner ، الذي يميز الدرجة الأولية لضيق الاتصال ، والذي يُنصح باستخدامه لإثبات حقيقة الاتصال عندما يكون هناك قدر ضئيل من المعلومات الأولية. أساس حسابها هو الأخذ بعين الاعتبار اتجاه الانحرافات عن المتوسط ​​الحسابي لمتغيرات كل سلسلة متغيرة وتحديد اتساق علامات هذه الانحرافات لسلسلتين ، يتم قياس العلاقة بينهما.

يتم تحديد هذا المعامل من خلال الصيغة:

حيث n هو عدد مصادفات علامات انحرافات القيم الفردية عن الوسط الحسابي ؛ ملحوظة - عدد حالات عدم التطابق على التوالي.

يمكن أن يختلف معامل فيشنر بين -1.0<= Кф<= +1,0.

الجوانب التطبيقية لارتباط الرتبة. كما لوحظ بالفعل ، يمكن استخدام معاملات ارتباط الرتبة ليس فقط للتحليل النوعي للعلاقة بين ميزتين من الرتب ، ولكن أيضًا لتحديد قوة العلاقة بين الرتبة والسمات الكمية. في هذه الحالة ، يتم فرز قيم الخاصية الكمية وتخصيص الرتب المقابلة لها.

هناك عدد من المواقف عند حساب معاملات ارتباط الرتبة ينصح به أيضًا عند تحديد قوة العلاقة بين سمتين كميتين. لذلك ، مع وجود انحراف كبير في توزيع أحدهما (أو كليهما) عن التوزيع الطبيعي ، يصبح تحديد مستوى أهمية معامل ارتباط العينة r غير صحيح ، بينما معاملات الترتيب؟ و؟ لا تخضع لمثل هذه القيود عند تحديد مستوى الأهمية.

تنشأ حالة أخرى من هذا النوع عندما تكون العلاقة بين سمتين كميتين غير خطية (ولكنها رتيبة). إذا كان عدد العناصر في العينة صغيرًا أو إذا كانت علامة الاتصال مهمة للباحث ، فعند استخدام نسبة الارتباط؟ قد تكون غير كافية هنا. يسمح لنا حساب معامل ارتباط الرتبة بتجاوز الصعوبات المشار إليها.

الجزء العملي

المهمة 1. تحليل الارتباط والانحدار

بيان وإضفاء الطابع الرسمي على المشكلة:

يتم تقديم عينة تجريبية ، مجمعة على أساس سلسلة من الملاحظات لحالة المعدات (للفشل) وعدد المنتجات المصنعة. يصف النموذج ضمنيًا العلاقة بين كمية المعدات التي فشلت وعدد الأصناف المصنعة. وفقًا لمعنى العينة ، من الواضح أن المنتجات المصنعة يتم إنتاجها على المعدات التي تظل في الخدمة ، نظرًا لأنه كلما زادت النسبة المئوية للمعدات التي تعطلت ، قل عدد المنتجات المصنعة. مطلوب إجراء دراسة للعينة من أجل الاعتماد على الارتباط والانحدار ، أي تحديد شكل الاعتماد ، وتقييم دالة الانحدار (تحليل الانحدار) ، وكذلك تحديد العلاقة بين المتغيرات العشوائية وتقييم مدى ضيقها. (تحليل الارتباط). مهمة إضافية لتحليل الارتباط هي تقدير معادلة الانحدار لمتغير واحد لآخر. بالإضافة إلى ذلك ، من الضروري توقع عدد المنتجات المصنعة بفشل المعدات بنسبة 30٪.

لنقم بإضفاء الطابع الرسمي على العينة المعطاة في الجدول ، مع تحديد البيانات "فشل المعدات ،٪" على أنها X ، وبيانات "عدد المنتجات" على أنها Y:

البيانات الأولية. الجدول 1

وفقًا للمعنى المادي للمشكلة ، يمكن ملاحظة أن عدد المنتجات المصنعة Y يعتمد بشكل مباشر على النسبة المئوية لفشل المعدات ، أي أن هناك اعتمادًا على Y على X. عند إجراء تحليل الانحدار ، يكون ذلك مطلوبًا للعثور على علاقة رياضية (انحدار) تربط قيم X و Y. في هذه الحالة ، تحليل الانحدار ، على عكس الارتباط ، يفترض أن قيمة X تعمل كمتغير مستقل ، أو عامل ، قيمة Y - كدلالة عليه ، أو كعلامة مؤثرة. وبالتالي ، من الضروري تجميع نموذج اقتصادي ورياضي مناسب ، أي تحديد (ابحث عن ، حدد) الوظيفة Y = f (X) ، التي تميز العلاقة بين قيم X و Y ، والتي من خلالها سيكون من الممكن التنبؤ بقيمة Y عند X = 30. يمكن أن تكون هذه المشكلة تم حلها باستخدام تحليل الارتباط والانحدار.

مراجعة موجزة لطرق حل مشاكل الارتباط والانحدار والأساس المنطقي لطريقة الحل المختارة.

تنقسم طرق تحليل الانحدار إلى عامل واحد وعوامل متعددة بناءً على عدد العوامل التي تؤثر على السمة الفعالة. متغير وحيد - عدد العوامل المستقلة = 1 ، أي ص = و (س)

متعدد العوامل - عدد العوامل> 1 ، أي

وفقًا لعدد المتغيرات التابعة التي تم التحقيق فيها (المؤشرات الفعالة) ، يمكن أيضًا تقسيم مهام الانحدار إلى مهام ذات مؤشر واحد أو أكثر من المؤشرات الفعالة. بشكل عام ، يمكن كتابة مهمة بها العديد من الميزات الفعالة:

تتمثل طريقة تحليل الارتباط-الانحدار في إيجاد معلمات الاعتماد التقريبي (التقريبي) للنموذج

نظرًا لظهور متغير مستقل واحد فقط في المشكلة أعلاه ، أي أنه يتم التحقق من الاعتماد على عامل واحد فقط يؤثر على النتيجة ، يجب على المرء تطبيق دراسة عن الاعتماد أحادي الاتجاه ، أو الانحدار الزوجي.

إذا كان هناك عامل واحد فقط ، يتم تعريف التبعية على النحو التالي:

يعتمد شكل كتابة معادلة انحدار محددة على اختيار دالة تعرض العلاقة الإحصائية بين عامل ومؤشر ناتج وتتضمن ما يلي:

الانحدار الخطي معادلة الشكل

قطع مكافئ ، معادلة الشكل

مكعب ، معادلة الشكل

معادلة الشكل القطعي

معادلة الشكل شبه اللوغاريتمية

المعادلة الأسية للصيغة

القوة ، معادلة الشكل.

يتم تقليل العثور على الوظيفة لتحديد معلمات معادلة الانحدار وتقييم موثوقية المعادلة نفسها. لتحديد المعلمات ، يمكنك استخدام طريقة المربعات الصغرى وطريقة المعامل الصغرى.

أولهما هو أن مجموع مربعات انحرافات القيم التجريبية Yi من المتوسط ​​المحسوب Yi هو الحد الأدنى.

طريقة المعامل الأقل هي تقليل مجموع معاملات الفرق بين القيم التجريبية Yi والوسيلة المحسوبة Yi.

لحل المشكلة سنختار طريقة المربعات الصغرى ، فهي أبسط طريقة وتعطي تقديرات جيدة من حيث الخصائص الإحصائية.

تقنية حل مشكلة تحليل الانحدار باستخدام طريقة المربعات الصغرى.

من الممكن تحديد نوع الاعتماد (خطي ، تربيعي ، تكعيبي ، إلخ) بين المتغيرات من خلال تقييم انحراف القيمة الفعلية لـ y عن المتغير المحسوب:

حيث - القيم التجريبية ، - القيم المحسوبة بواسطة دالة التقريب. بتقدير قيم Si للوظائف المختلفة واختيار أصغرها ، نختار دالة تقريبية.

يتم تحديد نوع الوظيفة من خلال إيجاد المعاملات الموجودة لكل دالة كحل لنظام معين من المعادلات:

الانحدار الخطي ، معادلة الشكل ، النظام -

القطع المكافئ ، معادلة الشكل ، النظام -

مكعب ، معادلة الشكل ، نظام -

بعد حل النظام ، نجد ، بمساعدته ، تعبيرًا محددًا عن الوظيفة التحليلية ، الذي نحصل عليه ، نجد القيم المحسوبة. علاوة على ذلك ، هناك جميع البيانات لإيجاد تقدير لقيمة الانحراف S والتحليل للحد الأدنى.

بالنسبة للعلاقة الخطية ، نقدر تقارب العلاقة بين العامل X والمؤشر الفعال Y في شكل معامل الارتباط r:

متوسط ​​قيمة المؤشر ؛

متوسط ​​قيمة العامل

y هي القيمة التجريبية للمؤشر ؛

x هي القيمة التجريبية للعامل ؛

الانحراف المعياري في x ؛

الانحراف المعياري في y.

إذا كان معامل الارتباط r = 0 ، فيُعتبر أن العلاقة بين الميزات غير ذات أهمية أو غائبة ، إذا كانت r = 1 ، فهناك علاقة وظيفية عالية جدًا بين الميزات.

باستخدام جدول Chaddock ، يمكنك تقييم مدى ضيق العلاقة بين العلامات نوعياً:

الجدول تشادوك الجدول 2.

بالنسبة للاعتماد غير الخطي ، يتم تحديد نسبة الارتباط (0 1) ومؤشر الارتباط R ، والتي يتم حسابها من التبعيات التالية.

حيث القيمة هي قيمة المؤشر المحسوبة من خلال تبعية الانحدار.

كتقدير لدقة الحساب ، نستخدم قيمة متوسط ​​خطأ التقريب النسبي

بدقة عالية ، فهي في حدود 0-12٪.

لتقييم اختيار الاعتماد الوظيفي ، نستخدم معامل التحديد

يتم استخدام معامل التحديد كمقياس "معمم" لجودة اختيار نموذج وظيفي ، لأنه يعبر عن النسبة بين التباين العام والتباين الكلي ، أو بالأحرى حصة التباين العامل في الإجمالي.

لتقييم أهمية مؤشر الارتباط R ، يتم استخدام اختبار Fisher's F. يتم تحديد القيمة الفعلية للمعيار بواسطة الصيغة:

حيث m هو عدد معلمات معادلة الانحدار ، n هو عدد المشاهدات. تتم مقارنة القيمة بالقيمة الحرجة ، والتي يتم تحديدها وفقًا لجدول المعيار F ، مع مراعاة المستوى المقبول للأهمية وعدد درجات الحرية و. إذا ، فإن قيمة مؤشر الارتباط R تعتبر مهمة.

بالنسبة لشكل الانحدار المحدد ، يتم حساب معاملات معادلة الانحدار. للراحة ، يتم تضمين نتائج الحساب في جدول الهيكل التالي (بشكل عام ، يتغير عدد الأعمدة ومظهرها حسب نوع الانحدار):

الجدول 3

حل المشكلة.

تم إجراء ملاحظات حول الظاهرة الاقتصادية - اعتماد إطلاق المنتجات على النسبة المئوية لفشل المعدات. يتم الحصول على مجموعة من القيم.

يتم وصف القيم المختارة في الجدول 1.

نبني رسمًا بيانيًا للاعتماد التجريبي للعينة المعينة (الشكل 1)

حسب نوع الرسم البياني ، نحدد أنه يمكن تمثيل الاعتماد التحليلي كدالة خطية:

دعنا نحسب معامل الارتباط الزوجي لتقييم العلاقة بين X و Y:

لنقم ببناء جدول إضافي:

الجدول 4

نحل نظام المعادلات لإيجاد المعاملات و:

من المعادلة الأولى ، استبدال القيمة

في المعادلة الثانية ، نحصل على:

نجد

نحصل على شكل معادلة الانحدار:

9. لتقييم ضيق العلاقة التي تم العثور عليها ، نستخدم معامل الارتباط r:

وفقًا لجدول Chaddock ، نثبت أنه بالنسبة لـ r = 0.90 ، تكون العلاقة بين X و Y عالية جدًا ، وبالتالي ، فإن موثوقية معادلة الانحدار عالية أيضًا. لتقدير دقة الحسابات ، نستخدم قيمة متوسط ​​خطأ التقريب النسبي:

نعتقد أن القيمة توفر درجة عالية من الموثوقية لمعادلة الانحدار.

بالنسبة للعلاقة الخطية بين X و Y ، يكون مؤشر التحديد مساويًا لمربع معامل الارتباط r :. وبالتالي ، فإن 81٪ من التباين الإجمالي يُفسَّر بتغيير في سمة العامل X.

لتقييم أهمية مؤشر الارتباط R ، والذي في حالة الاعتماد الخطي يساوي القيمة المطلقة لمعامل الارتباط r ، يتم استخدام اختبار F Fisher. نحدد القيمة الفعلية باستخدام الصيغة:

حيث m هو عدد معلمات معادلة الانحدار ، n هو عدد المشاهدات. أي ن = 5 ، م = 2.

مع الأخذ في الاعتبار مستوى الأهمية المقبول = 0.05 وعدد درجات الحرية ، نحصل على القيمة الجدولية الحرجة. منذ ذلك الحين ، يتم التعرف على قيمة مؤشر الارتباط R على أنها مهمة.

دعنا نحسب القيمة المتوقعة Y عند X = 30:

لنقم ببناء رسم بياني للدالة التي تم العثور عليها:

11. تحديد خطأ معامل الارتباط بقيمة الانحراف المعياري

ثم نحدد قيمة الانحراف الطبيعي

من النسبة> 2 مع احتمال 95٪ ، يمكننا التحدث عن أهمية معامل الارتباط الذي تم الحصول عليه.

المشكلة 2. التحسين الخطي

الخيار 1.

وتتوخى خطة التنمية الإقليمية تشغيل 3 حقول نفطية بإجمالي حجم إنتاج 9 ملايين طن. في الحقل الأول ، يبلغ حجم الإنتاج 1 مليون طن على الأقل ، في الثانية - 3 ملايين طن ، في الثالث - 5 ملايين طن. لتحقيق هذه الإنتاجية ، من الضروري حفر 125 بئراً على الأقل. لتنفيذ هذه الخطة ، تم تخصيص 25 مليون روبل. الاستثمارات الرأسمالية (المؤشر K) و 80 كم من الأنابيب (المؤشر L).

مطلوب تحديد العدد الأمثل (الأقصى) من الآبار لضمان الإنتاجية المخططة لكل حقل. البيانات الأولية للمهمة معطاة في الجدول.

البيانات الأولية

بيان المشكلة معطى أعلاه.

دعونا نضفى الطابع الرسمي على الشروط والقيود المحددة في المشكلة. الهدف من حل مشكلة التحسين هذه هو إيجاد القيمة القصوى لإنتاج النفط مع العدد الأمثل من الآبار لكل حقل ، مع الأخذ في الاعتبار القيود الموجودة على المشكلة.

ستأخذ الوظيفة الموضوعية ، وفقًا لمتطلبات المهمة ، الشكل:

أين عدد الآبار لكل حقل.

القيود الحالية على المهمة من أجل:

طول الأنابيب:

عدد الآبار في كل مجال:

تكلفة بناء بئر واحد:

يتم حل مشاكل التحسين الخطي ، على سبيل المثال ، بالطرق التالية:

بيانيا

طريقة Simplex

استخدام الطريقة الرسومية مناسب فقط عند حل مشاكل التحسين الخطي بمتغيرين. مع وجود عدد أكبر من المتغيرات ، من الضروري استخدام جهاز جبري. ضع في اعتبارك طريقة عامة لحل مشاكل التحسين الخطية تسمى طريقة simplex.

طريقة simplex هي مثال نموذجي للحسابات التكرارية المستخدمة لحل معظم مشاكل التحسين. يتم النظر في الإجراءات التكرارية من هذا النوع ، والتي تضمن حل المشكلات بمساعدة نماذج بحث العمليات.

لحل مشكلة التحسين باستخدام طريقة simplex ، من الضروري أن يكون عدد المجاهيل Xi أكبر من عدد المعادلات ، أي نظام المعادلات

يرضي العلاقة م

أ = كان يساوي م.

دعونا نشير إلى عمود المصفوفة A على أنه ، وعمود المصطلحات الحرة كـ

الحل الأساسي للنظام (1) هو مجموعة من المجهول التي تمثل حلًا للنظام (1).

باختصار ، يتم وصف خوارزمية طريقة simplex على النحو التالي:

القيد الأصلي مكتوب على هيئة متباينة مثل<= (=>) كمساواة عن طريق إضافة المتغير المتبقي إلى الجانب الأيسر من القيد (طرح المتغير الزائد من الجانب الأيسر).

على سبيل المثال ، إلى يسار القيد الأصلي

يتم إدخال متغير متبقي ، ونتيجة لذلك تتحول عدم المساواة الأصلية إلى مساواة

إذا كان القيد الأصلي يحدد معدل تدفق الأنبوب ، فيجب تفسير المتغير على أنه الباقي ، أو الجزء غير المستخدم من هذا المورد.

إن تعظيم وظيفة الهدف يعادل تقليل نفس الوظيفة إلى الحد الأدنى ، مع الإشارة المعاكسة. هذا هو ، في حالتنا

أي ما يعادل

يتم تجميع جدول بسيط للحل الأساسي للشكل التالي:

يشار في هذا الجدول إلى أنه بعد حل المشكلة ، سيكون الحل الأساسي في هذه الخلايا. - حاصل قسمة عمود على أحد الأعمدة ؛ - مضاعفات إضافية لتصفير القيم في خلايا الجدول المتعلقة بعمود التحليل. - قيمة الحد الأدنى للدالة الموضوعية -Z ، - قيم المعاملات في دالة الهدف ذات المجهول.

تم العثور على أي قيمة موجبة بين المعاني. إذا لم يكن الأمر كذلك ، فسيتم حل المشكلة. يتم تحديد أي عمود من أعمدة الجدول ، ويسمى هذا العمود العمود "المسموح به". إذا لم تكن هناك أرقام موجبة بين عناصر عمود الحل ، فإن المشكلة غير قابلة للحل بسبب عدم محدودية الوظيفة الموضوعية في مجموعة حلولها. إذا كانت الأرقام الموجبة موجودة في عمود الحل ، فانتقل إلى الخطوة 5.

يُملأ العمود بكسور ، في بسطها عناصر العمود ، وفي المقام - العناصر المقابلة لعمود الحل. يتم تحديد أصغر القيم من بين جميع القيم. يُطلق على السطر الذي يحتوي على أصغر نتيجة سطر "التمكين". عند تقاطع خط الحل وعمود التحليل ، يتم العثور على عنصر حل ، والذي يتم تمييزه بطريقة ما ، على سبيل المثال ، مع اللون.

بناءً على الجدول البسيط الأول ، يتم تجميع ما يلي ، حيث:

يستبدل متجه الصف بمتجه العمود

يتم استبدال خط السماح بنفس السطر مقسومًا على عنصر السماح

يتم استبدال كل من الصفوف الأخرى في الجدول بمجموع هذا الصف بالصف الذي يتم حله ، مضروبًا في عامل إضافي محدد خصيصًا للحصول على 0 في خلية عمود الحل.

مع الجدول الجديد ، ننتقل إلى النقطة 4.

حل المشكلة.

بناءً على صياغة المشكلة ، لدينا نظام عدم المساواة التالي:

والوظيفة الموضوعية

نقوم بتحويل نظام عدم المساواة إلى نظام معادلات من خلال إدخال متغيرات إضافية:

دعونا نختزل الوظيفة الموضوعية إلى ما يعادلها:

لنقم ببناء الجدول البسيط الأصلي:

دعونا نختار عمودًا متساهلًا. دعنا نحسب العمود:

ندخل القيم في الجدول. لأصغرهم = 10 ، نحدد خط الحل :. عند تقاطع خط الحل وعمود الحل ، نجد عنصر الحل = 1. نملأ جزء الجدول بعوامل إضافية ، مثل: صف الحل مضروبًا بها ، مضافًا إلى باقي صفوف الجدول ، تشكل 0 في عناصر العمود الحل.

نؤلف الجدول البسيط الثاني:

نأخذ عمود الحل فيه ، ونحسب القيم ، وندخلها في الجدول. بالحد الأدنى ، نحصل على خط الحل. سيكون عنصر الحل هو 1. ابحث عن عوامل إضافية ، واملأ الأعمدة.

نقوم بإنشاء الجدول البسيط التالي:

وبالمثل ، نجد عمود الحل وحل الصف والعنصر = 2. نبني الجدول البسيط التالي:

نظرًا لعدم وجود قيم موجبة في السطر Z- ، فإن هذا الجدول محدود. يعطي العمود الأول القيم المرغوبة للمجهول ، أي الحل الأساسي الأمثل:

في هذه الحالة ، قيمة دالة الهدف هي -Z = -8000 ، وهو ما يعادل Zmax = 8000. تم حل المشكلة.

المهمة 3. تحليل الكتلة

صياغة المشكلة:

تقسيم الكائنات على أساس البيانات الواردة في الجدول. يجب أن يتم اختيار طريقة الحل بشكل مستقل ، لإنشاء رسم بياني لاعتماد البيانات.

الخيار 1.

البيانات الأولية

مراجعة طرق حل هذا النوع من المشاكل. تبرير طريقة الحل.

يتم حل مهام تحليل الكتلة باستخدام الطرق التالية:

يتم استخدام طريقة التجميع أو التجميع الشجري لتشكيل مجموعات من "عدم التشابه" أو "المسافة بين الأشياء". يمكن تحديد هذه المسافات في فضاء أحادي البعد أو متعدد الأبعاد.

يتم استخدام الربط ثنائي الاتجاه (نادرًا نسبيًا) في الظروف التي يتم فيها تفسير البيانات ليس من حيث "الكائنات" و "خصائص الكائنات" ، ولكن من حيث الملاحظات والمتغيرات. من المتوقع أن تساهم كل من الملاحظات والمتغيرات في وقت واحد في اكتشاف مجموعات ذات مغزى.

طريقة K- يعني. يستخدم عندما تكون هناك بالفعل فرضية تتعلق بعدد المجموعات. يمكنك إخبار النظام بأن يشكل بالضبط ، على سبيل المثال ، ثلاث مجموعات بحيث تكون مختلفة قدر الإمكان. بشكل عام ، طريقة K-mean يبني بالضبط K مجموعات مختلفة تقع على أكبر مسافات ممكنة من بعضها البعض.

هناك الطرق التالية لقياس المسافات:

المسافة الإقليدية. هذا هو النوع الأكثر شيوعًا للمسافات. إنها ببساطة المسافة الهندسية في الفضاء متعدد الأبعاد ويتم حسابها على النحو التالي:

لاحظ أن المسافة الإقليدية (ومربعها) محسوبة من البيانات الأصلية غير المعيارية.

المسافة من كتل المدينة (مسافة مانهاتن). هذه المسافة هي ببساطة متوسط ​​اختلافات الإحداثيات. في معظم الحالات ، يؤدي قياس المسافة هذا إلى نفس نتائج المسافة الإقليدية العادية. لاحظ ، مع ذلك ، أنه بالنسبة لهذا المقياس ، فإن تأثير الفروق الفردية الكبيرة (القيم المتطرفة) يتناقص (لأنها ليست مربعة). يتم حساب مسافة مانهاتن باستخدام الصيغة:

مسافة Chebyshev. يمكن أن تكون هذه المسافة مفيدة عندما تريد تعريف كائنين على أنهما "مختلفان" إذا كانا يختلفان في أي إحداثي واحد (أي بُعد واحد). يتم حساب مسافة Chebyshev بالصيغة:

قوة المسافة. في بعض الأحيان ، يرغب المرء في زيادة الوزن بشكل تدريجي أو إنقاصه المرتبط بأبعاد تختلف فيها الكائنات المقابلة اختلافًا كبيرًا. يمكن تحقيق ذلك باستخدام مسافة قانون القوة. يتم حساب مسافة الطاقة بالصيغة:

حيث r و p معلمات معرّفة من قبل المستخدم. يمكن لبعض الأمثلة الحسابية أن توضح كيف "يعمل" هذا المقياس. المعلمة p مسؤولة عن الترجيح التدريجي للاختلافات في الإحداثيات الفردية ، والمعلمة r مسؤولة عن الترجيح التدريجي للمسافات الكبيرة بين الكائنات. إذا كانت كلتا المعلمتين ، r و p ، تساوي اثنين ، فإن هذه المسافة تتزامن مع المسافة الإقليدية.

نسبة الخلاف. يستخدم هذا المقياس عندما تكون البيانات فئوية. يتم حساب هذه المسافة بالصيغة:

لحل المشكلة ، سنختار طريقة التوحيد (التجميع الشجري) كأسلوب يلبي أفضل شروط وصياغة المشكلة (لتقسيم الكائنات). في المقابل ، يمكن لطريقة الاتحاد استخدام عدة أنواع من قواعد الاتصال:

رابط واحد (أقرب طريقة مجاورة). في هذه الطريقة ، يتم تحديد المسافة بين مجموعتين من خلال المسافة بين أقرب كائنين (أقرب جيران) في مجموعات مختلفة. أي أن أي كائنين في مجموعتين أقرب إلى بعضهما البعض من مسافة الارتباط المقابلة. يجب أن تقوم هذه القاعدة ، بمعنى ما ، بترتيب الكائنات معًا لتشكيل مجموعات ، وتميل المجموعات الناتجة إلى أن تكون "سلاسل" طويلة.

التواصل الكامل (طريقة الجيران البعيدين). في هذه الطريقة ، يتم تحديد المسافة بين المجموعات من خلال أكبر مسافة بين أي ميزتين في مجموعات مختلفة (على سبيل المثال ، "أبعد الجيران").

هناك أيضًا العديد من طرق التجميع الأخرى مثل هذه (على سبيل المثال ، الاقتران غير الموزون ، والاقتران الموزون ، وما إلى ذلك).

تقنية طريقة الحل. حساب المؤشرات.

في الخطوة الأولى ، عندما يكون كل كائن كتلة منفصلة ، يتم تحديد المسافات بين هذه الكائنات بواسطة المقياس المحدد.

نظرًا لأن المهمة لا تحدد وحدات القياس للخصائص ، فمن المفترض أنها متطابقة. لذلك ، ليست هناك حاجة لتطبيع البيانات الأولية ، لذلك ننتقل على الفور إلى حساب مصفوفة المسافة.

حل المشكلة.

دعونا ننشئ رسمًا بيانيًا للاعتماد بناءً على البيانات الأولية (الشكل 2)

سنأخذ المسافة الإقليدية المعتادة كمسافة بين الأشياء. ثم حسب الصيغة:

حيث ل - علامات ؛ k هو عدد الميزات ، والمسافة بين الكائنين 1 و 2 تساوي:

نواصل حساب المسافات المتبقية:

لنقم ببناء جدول من القيم التي تم الحصول عليها:

أصغر مسافة. هذا يعني أننا نجمع بين العنصرين 3 و 6 و 5 في مجموعة واحدة. نحصل على الجدول التالي:

أصغر مسافة. يتم دمج العناصر 3 و 6 و 5 و 4 في مجموعة واحدة. نحصل على جدول من مجموعتين:

الحد الأدنى للمسافة بين البندين 3 و 6 هو. هذا يعني أنه يتم دمج العناصر 3 و 6 في مجموعة واحدة. نختار أقصى مسافة بين الكتلة المشكلة حديثًا وبقية العناصر. على سبيل المثال ، المسافة بين المجموعة 1 والمجموعة 3.6 هي أقصى حد (13.34166 ، 13.60147) = 13.34166. لنؤلف الجدول التالي:

في ذلك ، الحد الأدنى للمسافة هو المسافة بين المجموعتين 1 و 2. بدمج 1 و 2 في مجموعة واحدة ، نحصل على:

وهكذا ، باستخدام طريقة "الجار البعيد" ، تم الحصول على مجموعتين: 1،2 و 3،4،5،6 ، والمسافة بينهما 13.60147.

تم حل المشكلة.

التطبيقات. حل المشكلات باستخدام حزم البرامج (MS Excel 7.0)

مشكلة الارتباط وتحليل الانحدار.

ندخل البيانات الأولية في الجدول (الشكل 1)

حدد القائمة "تحليل الخدمة / البيانات". في النافذة التي تظهر ، حدد الخط "الانحدار" (الشكل 2).

في النافذة التالية ، سنقوم بتعيين فترات الإدخال لـ X و Y ، وسيكون مستوى الموثوقية 95٪ ، وسيتم وضع بيانات الإخراج على ورقة منفصلة "ورقة تقرير" (الشكل 3)

بعد الحساب ، نحصل على البيانات النهائية لتحليل الانحدار في ورقة "التقرير":

كما تعرض أيضًا مخططًا نقطيًا لوظيفة التقريب ، أو "رسم التحديد":


يتم عرض القيم والانحرافات المحسوبة في الجدول في عمودي "Y المتوقعة" و "الأرصدة" ، على التوالي.

بناءً على البيانات والانحرافات الأولية ، يتم رسم رسم بياني متبقي:

مهمة التحسين


ندخل البيانات الأولية على النحو التالي:

ندخل المجهول المجهول X1 و X2 و X3 في الخلايا C9 و D9 و E9 على التوالي.

يتم إدخال معاملات الوظيفة الموضوعية لـ X1 و X2 و X3 في C7 و D7 و E7 على التوالي.

أدخل الدالة الهدف في الخلية B11 كصيغة: = C7 * C9 + D7 * D9 + E7 * E9.

قيود المهام الحالية

لطول مد الأنابيب:

نضيف إلى الخلايا C5 و D5 و E5 و F5 و G5

عدد الآبار في كل حقل:

X3 Ј 100 ؛ نضيف إلى الخلايا C8 و D8 و E8.

تكلفة إنشاء بئر واحد:

نضيف إلى الخلايا C6 و D6 و E6 و F6 و G6.

يتم وضع معادلة حساب الطول الإجمالي C5 * C9 + D5 * D9 + E5 * E9 في الخلية B5 ، يتم وضع معادلة حساب التكلفة الإجمالية C6 * C9 + D6 * D9 + E6 * E9 في الخلية B6.


نختار في القائمة "خدمة / بحث عن حل" ، أدخل المعلمات لإيجاد حل وفقًا للبيانات الأولية التي تم إدخالها (الشكل 4):

باستخدام زر "المعلمات" ، قم بتعيين المعلمات التالية لإيجاد حل (الشكل 5):


بعد البحث عن حل ، نحصل على تقرير بالنتائج:

تقرير نتائج Microsoft Excel 8.0e

تم إنشاء التقرير: 11/17/2002 1:28:30 ص

الخلية المستهدفة (الحد الأقصى)

نتيجة

مجموع الغنائم

خلايا قابلة للتعديل

نتيجة

عدد الآبار

عدد الآبار

عدد الآبار

قيود

المعنى

طول

متعلق ب

تكلفة المشروع

غير مرتبط.

عدد الآبار

غير مرتبط.

عدد الآبار

متعلق ب

عدد الآبار

متعلق ب

يوضح الجدول الأول القيمة الأولية والنهائية (المثلى) للخلية المستهدفة ، حيث تم وضع الوظيفة الموضوعية للمشكلة التي يتم حلها. في الجدول الثاني ، نرى القيم الأولية والنهائية للمتغيرات المراد تحسينها ، والموجودة في الخلايا المعدلة. يحتوي الجدول الثالث من تقرير النتائج على معلومات حول القيود. يحتوي عمود "القيمة" على القيم المثلى للموارد المطلوبة والمتغيرات المطلوب تحسينها. يحتوي عمود "الصيغة" على حدود للموارد المستهلكة والمتغيرات المطلوب تحسينها ، مكتوبة في شكل مراجع إلى الخلايا التي تحتوي على هذه البيانات. يحدد العمود "الحالة" ما إذا كانت هذه القيود أو تلك القيود مرتبطة أم غير ذات صلة. هنا "ملزمة" هي القيود المطبقة في الحل الأمثل في شكل مساواة جامدة. يحدد عمود "الفرق" لقيود الموارد بقية الموارد المستخدمة ، أي الفرق بين الكمية المطلوبة من الموارد وتوافرها.

وبالمثل ، بعد تدوين نتيجة البحث عن حل في شكل "تقرير الاستدامة" ، سوف نتلقى الجداول التالية:

تقرير مرونة Microsoft Excel 8.0e

ورقة العمل: [حل مشكلة التحسين.xls] حل مشكلة التحسين

تم إنشاء التقرير: 11/17/2002 1:35:16 ص

خلايا قابلة للتعديل

مسموح

مسموح

المعنى

سعر

معامل في الرياضيات او درجة

يزيد

ينقص

عدد الآبار

عدد الآبار

عدد الآبار

قيود

التقييد

مسموح

مسموح

المعنى

الجزء الأيمن

يزيد

ينقص

طول

تكلفة المشروع

يحتوي تقرير الاستدامة على معلومات حول المتغيرات القابلة للتعديل (الأمثل) وقيود النموذج. ترتبط هذه المعلومات بالطريقة البسيطة المستخدمة في تحسين المشكلات الخطية الموضحة أعلاه من حيث حل المشكلة. يسمح لك بتقدير مدى حساسية الحل الأمثل الذي تم الحصول عليه للتغييرات المحتملة في معلمات النموذج.

يحتوي الجزء الأول من التقرير على معلومات حول الخلايا المعدلة التي تحتوي على قيم حول عدد الآبار في الحقول. يشير عمود "القيمة الناتجة" إلى القيم المثلى للمتغيرات المطلوب تحسينها. يحتوي عمود "المعامل المستهدف" على البيانات الأولية لقيم معاملات دالة الهدف. يوضح العمودان التاليان الزيادة والنقصان المسموح بهما لهذه المعاملات دون تغيير الحل الأمثل الذي تم العثور عليه.

يحتوي الجزء الثاني من تقرير الاستدامة على معلومات حول القيود المفروضة على المتغيرات التي يتم تحسينها. يُظهر العمود الأول متطلبات الموارد للحل الأمثل. والثاني يحتوي على قيم أسعار الظل لأنواع الموارد المستخدمة. يحتوي العمودان الأخيران على بيانات حول الزيادات أو النقصان المحتملة في كمية الموارد المتاحة.

مشكلة التكتل.

تم إعطاء طريقة خطوة بخطوة لحل المشكلة أعلاه. فيما يلي جداول Excel توضح التقدم المحرز في حل المشكلة:

أقرب طريقة الجار

حل مشكلة التحليل العنقودي - "طريقة الجوار القريب"

البيانات الأولية

حيث x1 هو حجم المنتجات ؛

х2 - متوسط ​​التكلفة السنوية الرئيسية

أصول الإنتاج الصناعي

طريقة الجار البعيد

حل مشكلة التحليل العنقودي - "طريقة الجوار البعيد"

البيانات الأولية

حيث x1 هو حجم المنتجات ؛

х2 - متوسط ​​التكلفة السنوية الرئيسية

أصول الإنتاج الصناعي