สัมประสิทธิ์สหสัมพันธ์ของยศ Spearman Kendall Fechner ค่าสัมประสิทธิ์สหสัมพันธ์อันดับของเคนดัลล์ ดูว่า "ค่าสัมประสิทธิ์สหสัมพันธ์อันดับของเคนดัลลา" ในพจนานุกรมอื่นๆ คืออะไร

ในการคำนวณ ค่าสัมประสิทธิ์เคนดัลล์ค่าของแอตทริบิวต์ของปัจจัยมีการจัดลำดับล่วงหน้า กล่าวคือ อันดับโดย X จะถูกบันทึกอย่างเคร่งครัดในลำดับจากน้อยไปมากของค่าเชิงปริมาณ

1) สำหรับแต่ละอันดับใน Y ให้หาจำนวนรวมของอันดับที่ตามมาซึ่งมีค่ามากกว่าอันดับที่กำหนด จำนวนทั้งหมดของกรณีดังกล่าวถูกนำมาพิจารณาด้วยเครื่องหมาย "+" และแสดงโดย P.

2) สำหรับแต่ละอันดับใน Y จะกำหนดจำนวนอันดับที่ตามมาซึ่งมีค่าน้อยกว่าอันดับที่กำหนด จำนวนรวมของคดีดังกล่าวจะถูกนับด้วยเครื่องหมาย “-” และแสดงด้วย Q

3) คำนวณ S = P + Q = 9 + (- 1) = 8

4) ค่าสัมประสิทธิ์เคนดัลล์คำนวณโดยสูตร:

ค่าสัมประสิทธิ์ของเคนดัลล์สามารถรับค่าได้ตั้งแต่ -1 ถึง +1 และยิ่งใกล้ชิดมากเท่าใด การเชื่อมต่อระหว่างคุณลักษณะก็จะยิ่งแข็งแกร่ง

ในบางกรณี เพื่อกำหนดทิศทางของความสัมพันธ์ระหว่างคุณสมบัติทั้งสอง ให้คำนวณ ค่าสัมประสิทธิ์เฟชเนอร์... ค่าสัมประสิทธิ์นี้อิงจากการเปรียบเทียบพฤติกรรมการเบี่ยงเบนของค่าแต่ละค่าของลักษณะแฟกทอเรียลและประสิทธิผลจากค่าเฉลี่ย ค่าสัมประสิทธิ์ Fechner คำนวณโดยสูตร:

; โดยที่ผลรวมของ C คือจำนวนความบังเอิญทั้งหมดของสัญญาณการเบี่ยงเบน ผลรวมของ H คือจำนวนทั้งหมดของสัญญาณการเบี่ยงเบนที่ไม่ตรงกัน

1) คำนวณค่าเฉลี่ยของแอตทริบิวต์ปัจจัย:

2) กำหนดสัญญาณของการเบี่ยงเบนของค่าแต่ละค่าของแอตทริบิวต์ปัจจัยจากค่าเฉลี่ย

3) คำนวณค่าเฉลี่ยของตัวบ่งชี้ที่มีประสิทธิภาพ: .

4) ค้นหาสัญญาณของการเบี่ยงเบนของค่าแต่ละค่าของลักษณะที่มีประสิทธิภาพจากค่าเฉลี่ย:

บทสรุป: การเชื่อมต่อโดยตรง ค่าสัมประสิทธิ์ไม่ได้ระบุความหนาแน่นของการเชื่อมต่อ

เพื่อกำหนดระดับความหนาแน่นของความสัมพันธ์ระหว่างคุณสมบัติสามอันดับ ค่าสัมประสิทธิ์จะถูกคำนวณ ความสอดคล้องคำนวณโดยใช้สูตร:

โดยที่ m คือจำนวนของคุณสมบัติที่จัดอันดับ n คือจำนวนหน่วยสังเกตการณ์ที่มีลำดับชั้น

อุตสาหกรรม	X1	X2	X3	R1	R2	R3
วิศวกรรมไฟฟ้า			7,49
เชื้อเพลิง			12,70
แบล็ค เอ็ม			5,92
Tsvetnaya M.			9,48
วิศวกรรมเครื่องกล			4,18
ผล:

X1- จำนวนพนักงาน (พันคน) X2- ปริมาณการขายภาคอุตสาหกรรม (พันล้านรูเบิล); X3- เงินเดือนเฉลี่ยต่อเดือน.

1) เราจัดอันดับค่าของคุณสมบัติทั้งหมดและกำหนดอันดับอย่างเคร่งครัดในลำดับจากน้อยไปมากของค่าเชิงปริมาณ

2) ผลรวมของอันดับจะถูกกำหนดสำหรับแต่ละบรรทัด คอลัมน์นี้ใช้ในการคำนวณแถวสุดท้าย

3) คำนวณ .

4) สำหรับแต่ละแถว ให้หากำลังสองของการเบี่ยงเบนของผลรวมของอันดับและค่าของ T สำหรับคอลัมน์เดียวกัน เราจะคำนวณแถวสุดท้ายซึ่งเราแทนด้วย S ค่าสัมประสิทธิ์ความสอดคล้องสามารถรับค่าได้ตั้งแต่ 0 ถึง 1 และยิ่งเข้าใกล้ 1 มากเท่าใด ความสัมพันธ์ระหว่างคุณลักษณะก็จะยิ่งแข็งแกร่งขึ้น

เมื่อจัดอันดับ ผู้เชี่ยวชาญต้องจัดเรียงองค์ประกอบที่ประเมินโดยเรียงลำดับจากน้อยไปมาก (ลดลง) ตามความชอบและกำหนดแต่ละองค์ประกอบให้อยู่ในรูปแบบตัวเลขธรรมชาติ ในการจัดอันดับโดยตรง รายการที่ต้องการมากที่สุดคืออันดับ 1 (บางครั้ง 0) และรายการที่ต้องการน้อยที่สุดคืออันดับ m

หากผู้เชี่ยวชาญไม่สามารถจัดอันดับได้อย่างเคร่งครัดเนื่องจากองค์ประกอบบางอย่างมีความคล้ายคลึงกันในความเห็นของเขา ก็ได้รับอนุญาตให้กำหนดอันดับเดียวกันให้กับองค์ประกอบดังกล่าวได้ เพื่อให้แน่ใจว่าผลรวมของอันดับเท่ากับผลรวมของตำแหน่งขององค์ประกอบที่จัดอันดับ จึงใช้อันดับมาตรฐานที่เรียกว่า อันดับมาตรฐานคือค่าเฉลี่ยเลขคณิตของจำนวนองค์ประกอบในแถวที่มีการจัดอันดับที่เหมือนกันในความต้องการ

ตัวอย่าง 2.6.ผู้เชี่ยวชาญสั่งธาตุทั้ง ๖ ตามความชอบ ดังนี้

จากนั้นอันดับมาตรฐานขององค์ประกอบเหล่านี้จะเป็น

ดังนั้นผลรวมของอันดับที่กำหนดให้กับองค์ประกอบจะเท่ากับผลรวมของตัวเลขในชุดธรรมชาติ

ความถูกต้องของการแสดงความชอบโดยการจัดลำดับองค์ประกอบนั้นขึ้นอยู่กับความสำคัญของชุดการนำเสนอ ขั้นตอนการจัดอันดับให้ผลลัพธ์ที่น่าเชื่อถือที่สุด (ในแง่ของความใกล้เคียงของการตั้งค่าที่เปิดเผยและ "จริง") เมื่อจำนวนองค์ประกอบที่ประเมินแล้วไม่เกิน 10 ลำดับการจำกัดของชุดการนำเสนอไม่ควรเกิน 20

การประมวลผลและการวิเคราะห์การจัดอันดับจะดำเนินการเพื่อสร้างความสัมพันธ์การตั้งค่ากลุ่มตามความชอบส่วนบุคคล ในกรณีนี้ สามารถวางงานต่อไปนี้ได้: ก) การกำหนดความหนาแน่นของการเชื่อมต่อระหว่างการจัดอันดับผู้เชี่ยวชาญสองคนเกี่ยวกับองค์ประกอบของชุดการนำเสนอ ข) กำหนดความสัมพันธ์ระหว่างองค์ประกอบทั้งสองตามความคิดเห็นส่วนบุคคลของสมาชิกกลุ่มเกี่ยวกับลักษณะต่าง ๆ ขององค์ประกอบเหล่านี้ ค) การประเมินความสอดคล้องของความคิดเห็นของผู้เชี่ยวชาญในกลุ่มที่มีผู้เชี่ยวชาญมากกว่าสองคน

ในสองกรณีแรกจะใช้ค่าสัมประสิทธิ์เป็นตัววัดความหนาแน่นของการเชื่อมต่อ ความสัมพันธ์ของอันดับ... ค่าสัมประสิทธิ์สหสัมพันธ์ของ Kendall หรือ Spearman ขึ้นอยู่กับว่าจะอนุญาตเฉพาะอันดับที่เข้มงวดหรือหลวม

ค่าสัมประสิทธิ์สหสัมพันธ์อันดับของเคนดัลล์สำหรับปัญหา (a)

ที่ไหน ม- จำนวนองค์ประกอบ r 1 ฉัน -อันดับที่ได้รับมอบหมายจากผู้เชี่ยวชาญคนแรก ผม−องค์ประกอบ; r 2 ฉัน -เช่นเดียวกันโดยผู้เชี่ยวชาญคนที่สอง

สำหรับปัญหา (b) ส่วนประกอบ (2.5) มีความหมายดังต่อไปนี้ m คือจำนวนคุณลักษณะขององค์ประกอบโดยประมาณทั้งสอง; r 1 ฉัน(ร 2 ผม) - อันดับฉันลักษณะในการจัดอันดับองค์ประกอบแรก (ที่สอง) กำหนดโดยกลุ่มผู้เชี่ยวชาญ

การจัดอันดับที่เข้มงวดใช้ค่าสัมประสิทธิ์สหสัมพันธ์อันดับ Rสเปียร์แมน:

ซึ่งส่วนประกอบมีความหมายเดียวกับข้อ (2.5)

ค่าสัมประสิทธิ์สหสัมพันธ์ (2.5), (2.6) มีค่าตั้งแต่ -1 ถึง +1 ถ้าค่าสัมประสิทธิ์สหสัมพันธ์คือ +1 แสดงว่าอันดับเท่ากัน หากเป็น -1 แสดงว่าอยู่ตรงข้าม (อันดับจะผกผันกัน) ความเท่าเทียมกันของสัมประสิทธิ์สหสัมพันธ์เป็นศูนย์หมายความว่าการจัดอันดับมีความเป็นอิสระเชิงเส้น (ไม่สัมพันธ์กัน)

เนื่องจากด้วยวิธีนี้ (ผู้เชี่ยวชาญคือ "มาตรวัด" ที่มีข้อผิดพลาดแบบสุ่ม) การจัดอันดับแต่ละรายการจึงถือเป็นการสุ่ม ปัญหาจึงเกิดขึ้นจากการทดสอบสมมติฐานทางสถิติเกี่ยวกับความสำคัญของค่าสัมประสิทธิ์สหสัมพันธ์ที่ได้รับ ในกรณีนี้จะใช้เกณฑ์นอยมันน์-เพียร์สัน: กำหนดโดยระดับนัยสำคัญของเกณฑ์ α และเมื่อทราบกฎการกระจายของสัมประสิทธิ์สหสัมพันธ์แล้ว ให้กำหนดค่าเกณฑ์ ค αโดยเปรียบเทียบค่าสัมประสิทธิ์สหสัมพันธ์ที่ได้รับ พื้นที่วิกฤตอยู่ทางด้านขวา (ในทางปฏิบัติ ค่าของเกณฑ์มักจะถูกคำนวณก่อน และระดับของนัยสำคัญจะถูกกำหนดจากมัน ซึ่งเปรียบเทียบกับระดับธรณีประตู α ).

ค่าสัมประสิทธิ์สหสัมพันธ์อันดับของ Kendall τ มีสำหรับ m> 10 การแจกแจงใกล้เคียงกับค่าปกติด้วยพารามิเตอร์ต่อไปนี้:

โดยที่ M [τ] - ความคาดหวังทางคณิตศาสตร์ D [τ] - ความแปรปรวน

ในกรณีนี้ จะใช้ตารางของฟังก์ชันการแจกแจงแบบปกติมาตรฐาน:

และขอบเขต τ α ของบริเวณวิกฤตถูกกำหนดให้เป็นรากของสมการ

หากค่าสัมประสิทธิ์ที่คำนวณได้ τ ≥ τ α การจัดอันดับจะถือว่าอยู่ในข้อตกลงที่ดี โดยปกติ ค่าของ α จะถูกเลือกในช่วง 0.01-0.05 สำหรับ t ≤ 10 การแจกแจงของ t แสดงไว้ในตาราง 2.1.

การตรวจสอบความสำคัญของความสอดคล้องของสองอันดับโดยใช้สัมประสิทธิ์สเปียร์แมน ρ ดำเนินการในลำดับเดียวกันโดยใช้ตารางการแจกแจงของนักเรียนสำหรับ m> 10

ในกรณีนี้ ปริมาณ

มีการแจกแจงใกล้เคียงกับการแจกแจงของนักเรียนด้วย ม- 2 องศาอิสระ ที่ ม> 30 การกระจายปริมาณ ρ อยู่ในข้อตกลงที่ดีกับการแจกแจงแบบปกติซึ่งมี M [ρ] = 0 และ D [ρ] =

สำหรับ t ≤ 10 ความสำคัญของ ρ จะถูกตรวจสอบโดยใช้ตาราง 2.2.

ถ้าอันดับไม่เข้มงวดก็ค่าสัมประสิทธิ์สเปียร์แมน

โดยที่ ρ คำนวณโดย (2.6);

โดยที่ k 1, k 2 - จำนวนกลุ่มต่าง ๆ ของอันดับที่ไม่เข้มงวดในอันดับที่หนึ่งและสองตามลำดับ l i คือจำนวนอันดับที่เหมือนกันใน ผมกลุ่ม. ในการใช้งานจริงของสัมประสิทธิ์สหสัมพันธ์อันดับ ρ ของ Spearman และ Kendall ควรระลึกไว้เสมอว่าค่าสัมประสิทธิ์ ρ จะให้ผลลัพธ์ที่แม่นยำยิ่งขึ้นในแง่ของความแปรปรวนขั้นต่ำ

ตาราง 2.1.การกระจายค่าสัมประสิทธิ์สหสัมพันธ์อันดับของเคนดัลล์

ปัจจัยหนึ่งที่จำกัดการใช้เกณฑ์ตามสมมติฐานของภาวะปกติคือขนาดกลุ่มตัวอย่าง ตราบใดที่กลุ่มตัวอย่างมีขนาดใหญ่เพียงพอ (เช่น การสังเกต 100 ครั้งขึ้นไป) คุณสามารถสันนิษฐานได้ว่าการกระจายตัวอย่างเป็นเรื่องปกติ แม้ว่าคุณจะไม่แน่ใจว่าการกระจายของตัวแปรในประชากรเป็นเรื่องปกติ อย่างไรก็ตาม หากกลุ่มตัวอย่างมีขนาดเล็ก เกณฑ์เหล่านี้ควรใช้ก็ต่อเมื่อมีความมั่นใจว่าตัวแปรมีการกระจายตามปกติอย่างแท้จริง อย่างไรก็ตาม ไม่มีวิธีทดสอบสมมติฐานนี้ในตัวอย่างขนาดเล็ก

การใช้เกณฑ์ตามสมมติฐานของภาวะปกติยังจำกัดอยู่ที่มาตราส่วนของการวัด (ดูบท แนวคิดพื้นฐานของการวิเคราะห์ข้อมูล) วิธีการทางสถิติ เช่น t-test การถดถอย ฯลฯ ถือว่าข้อมูลเดิมมีความต่อเนื่อง อย่างไรก็ตาม มีบางสถานการณ์ที่ข้อมูลถูกจัดลำดับอย่างง่าย ๆ (วัดจากมาตราส่วนลำดับ) มากกว่าที่จะวัดได้อย่างแม่นยำ

ตัวอย่างทั่วไปได้รับจากการให้คะแนนของไซต์บนอินเทอร์เน็ต: ตำแหน่งแรกคือไซต์ที่มีจำนวนผู้เข้าชมสูงสุด ตำแหน่งที่สองคือไซต์ที่มีจำนวนผู้เข้าชมสูงสุดในไซต์ที่เหลือ (ระหว่างไซต์ จากที่ไซต์แรกถูกลบออก) ฯลฯ เมื่อรู้การจัดอันดับเราสามารถพูดได้ว่าจำนวนผู้เยี่ยมชมไซต์หนึ่งมากกว่าจำนวนผู้เยี่ยมชมไซต์อื่น แต่จะพูดมากกว่านี้ไม่ได้ ลองนึกภาพคุณมี 5 ไซต์: A, B, C, D, E ซึ่งอยู่ใน 5 อันดับแรก สมมติว่าในเดือนปัจจุบัน เรามีการจัดเรียงดังต่อไปนี้: A, B, C, D, E และในเดือนก่อนหน้า: D, E, A, B, C คำถามคือ มีการเปลี่ยนแปลงที่สำคัญในการจัดอันดับเว็บไซต์ หรือไม่? ในสถานการณ์นี้ เห็นได้ชัดว่าเราไม่สามารถใช้ t-test เพื่อเปรียบเทียบข้อมูลสองกลุ่มนี้ และไปยังพื้นที่ของการคำนวณความน่าจะเป็นเฉพาะ (และเกณฑ์ทางสถิติใด ๆ มีการคำนวณความน่าจะเป็น!) เราให้เหตุผลดังนี้: เป็นไปได้มากน้อยเพียงใดที่ความแตกต่างในเค้าโครงไซต์ทั้งสองนั้นเกิดจากเหตุผลแบบสุ่มล้วนๆ หรือความแตกต่างนั้นมากเกินไปและไม่สามารถอธิบายได้ด้วยโอกาสล้วนๆ ด้วยเหตุผลนี้ เราใช้อันดับหรือการเปลี่ยนแปลงของไซต์เท่านั้น และไม่ใช้รูปแบบเฉพาะของการกระจายจำนวนผู้เข้าชมไซต์

สำหรับการวิเคราะห์ตัวอย่างขนาดเล็กและข้อมูลที่วัดได้ในระดับต่ำ จะใช้วิธีแบบไม่อิงพารามิเตอร์

ทัวร์ชมขั้นตอนที่ไม่ใช่พารามิเตอร์อย่างรวดเร็ว

โดยพื้นฐานแล้ว สำหรับแต่ละเกณฑ์พารามิเตอร์ จะมี อย่างน้อยทางเลือกหนึ่งที่ไม่ใช่พารามิเตอร์

โดยทั่วไป ขั้นตอนเหล่านี้จัดอยู่ในประเภทใดประเภทหนึ่งต่อไปนี้:

เกณฑ์การแยกตัวอย่างอิสระ
เกณฑ์ความแตกต่างสำหรับตัวอย่างที่ขึ้นต่อกัน
การประเมินระดับการพึ่งพาอาศัยกันระหว่างตัวแปร

โดยทั่วไป แนวทางสู่เกณฑ์ทางสถิติในการวิเคราะห์ข้อมูลควรเป็นแนวทางปฏิบัติและไม่ต้องแบกรับภาระในการให้เหตุผลทางทฤษฎีที่ไม่จำเป็น ด้วยคอมพิวเตอร์ของ STATISTICA คุณสามารถใช้เกณฑ์ต่างๆ กับข้อมูลของคุณได้อย่างง่ายดาย เมื่อทราบถึงข้อผิดพลาดบางประการของวิธีการ คุณจะเลือกวิธีแก้ปัญหาที่ถูกต้องผ่านการทดลอง การพัฒนาโครงเรื่องค่อนข้างเป็นธรรมชาติ หากคุณต้องการเปรียบเทียบค่าของตัวแปรสองตัว ให้ใช้ t-test อย่างไรก็ตาม ควรจำไว้ว่ามันอยู่บนพื้นฐานของสมมติฐานของภาวะปกติและความเท่าเทียมกันของความแปรปรวนในแต่ละกลุ่ม การหลุดพ้นจากสมมติฐานเหล่านี้ส่งผลให้มีการทดสอบแบบไม่อิงพารามิเตอร์ซึ่งมีประโยชน์อย่างยิ่งสำหรับตัวอย่างขนาดเล็ก

การพัฒนา t-test นำไปสู่การวิเคราะห์ความแปรปรวน ซึ่งใช้เมื่อจำนวนกลุ่มเปรียบเทียบมากกว่าสองกลุ่ม การพัฒนากระบวนการที่ไม่ใช่พารามิเตอร์ที่สอดคล้องกันนำไปสู่การวิเคราะห์ความแปรปรวนแบบไม่อิงพารามิเตอร์ แม้ว่าจะด้อยกว่าการวิเคราะห์ความแปรปรวนแบบดั้งเดิมอย่างมีนัยสำคัญ

ในการประเมินการพึ่งพาอาศัยกันหรือเพื่อให้ค่อนข้างโอ้อวดระดับความหนาแน่นของการเชื่อมต่อคำนวณค่าสัมประสิทธิ์สหสัมพันธ์แบบเพียร์สัน กล่าวโดยเคร่งครัด แอปพลิเคชันมีข้อจำกัดที่เกี่ยวข้อง เช่น ประเภทของมาตราส่วนที่มีการวัดข้อมูลและความไม่เป็นเชิงเส้นของการพึ่งพาอาศัยกัน ดังนั้น ค่าสัมประสิทธิ์สหสัมพันธ์จึงถูกนำมาใช้แทน ใช้ตัวอย่างเช่นสำหรับข้อมูลที่จัดอันดับ หากข้อมูลถูกวัดในระดับเล็กน้อย เป็นเรื่องปกติที่จะนำเสนอในตารางฉุกเฉินที่ใช้การทดสอบไคสแควร์ของ Pearson พร้อมรูปแบบและการแก้ไขที่หลากหลายเพื่อความแม่นยำ

โดยพื้นฐานแล้ว มีเกณฑ์และขั้นตอนเพียงไม่กี่ประเภทที่คุณต้องรู้และใช้งานได้ ทั้งนี้ขึ้นอยู่กับเฉพาะของข้อมูล คุณต้องพิจารณาว่าควรใช้เกณฑ์ใดในสถานการณ์เฉพาะ

วิธีการที่ไม่ใช่พารามิเตอร์จะเหมาะสมที่สุดเมื่อขนาดตัวอย่างมีขนาดเล็ก หากมีข้อมูลจำนวนมาก (เช่น n> 100) การใช้สถิติที่ไม่ใช่พารามิเตอร์มักไม่สมเหตุสมผล

หากขนาดตัวอย่างมีขนาดเล็กมาก (เช่น n = 10 หรือน้อยกว่า) ระดับนัยสำคัญของการทดสอบแบบไม่อิงพารามิเตอร์ที่ใช้การประมาณปกติจะถือเป็นการประมาณคร่าวๆ เท่านั้น

ความแตกต่างระหว่างกลุ่มอิสระ... หากมีตัวอย่างสองตัวอย่าง (เช่น ชายและหญิง) ที่ต้องเปรียบเทียบโดยเทียบกับค่าเฉลี่ยบางอย่าง เช่น ความดันเฉลี่ยหรือจำนวนเม็ดเลือดขาวในเลือด การทดสอบ t ก็สามารถใช้แยกกัน ตัวอย่าง

ทางเลือกที่ไม่ใช่พารามิเตอร์สำหรับการทดสอบนี้คือการทดสอบ Val'd-Wolfowitz, Mann-Whitney series) / n โดยที่ x i - ค่าที่ i, n คือจำนวนการสังเกต หากตัวแปรมีค่าลบหรือศูนย์ (0) จะไม่สามารถคำนวณค่าเฉลี่ยทางเรขาคณิตได้

ค่าเฉลี่ยฮาร์มอนิก

ค่าเฉลี่ยฮาร์มอนิกบางครั้งใช้กับความถี่เฉลี่ย ค่าเฉลี่ยฮาร์มอนิกคำนวณโดยสูตร: ГС = n / S (1 / x i) โดยที่ ГС คือค่าเฉลี่ยฮาร์มอนิก n คือจำนวนการสังเกต х i คือค่าของการสังเกตด้วยจำนวน i หากตัวแปรมีค่าเป็นศูนย์ (0) จะไม่สามารถคำนวณค่าเฉลี่ยฮาร์มอนิกได้

การกระจายตัวและส่วนเบี่ยงเบนมาตรฐาน

ความแปรปรวนตัวอย่างและค่าเบี่ยงเบนมาตรฐานเป็นการวัดความแปรปรวน (ความแปรปรวน) ของข้อมูลที่ใช้บ่อยที่สุด ความแปรปรวนคำนวณเป็นผลรวมของกำลังสองของการเบี่ยงเบนของค่าของตัวแปรจากค่าเฉลี่ยตัวอย่าง หารด้วย n-1 (แต่ไม่ใช่ n) ค่าเบี่ยงเบนมาตรฐานคำนวณเป็นรากที่สองของการประมาณค่าความแปรปรวน

แกว่ง

ช่วงของตัวแปรเป็นตัวบ่งชี้ความผันผวน โดยคำนวณเป็นค่าสูงสุดลบค่าต่ำสุด

ขอบเขตควอร์ไทล์

ตามคำนิยาม ช่วงรายไตรมาสคือ: ควอไทล์บนลบควอไทล์ล่าง (เปอร์เซ็นต์ไทล์ 75% ลบเปอร์เซ็นต์ไทล์ 25%) เนื่องจากเปอร์เซ็นไทล์ 75% (ควอร์ไทล์บน) เป็นค่าทางด้านซ้ายซึ่งมีเคสอยู่ 75% และเปอร์เซ็นไทล์ 25% (ควอร์ไทล์ล่าง) เป็นค่าทางด้านซ้ายของซึ่ง 25% ของเคสตั้งอยู่ ควอร์ไทล์ range คือช่วงรอบค่ามัธยฐาน ซึ่งประกอบด้วย 50% ของกรณี (ค่าตัวแปร)

ไม่สมมาตร

ความไม่สมมาตรเป็นลักษณะของรูปร่างของการแจกแจง การกระจายจะเบ้ไปทางซ้ายหากค่าความเบ้เป็นลบ การกระจายจะเบ้ไปทางขวาหากความไม่สมมาตรเป็นค่าบวก ความเบ้ของการแจกแจงแบบปกติมาตรฐานคือ 0 ความเบ้เกี่ยวข้องกับช่วงเวลาที่สามและถูกกำหนดเป็น: ความเบ้ = n × M 3 / [(n-1) × (n-2) × s 3] โดยที่ M 3 คือ: (xi -x ค่าเฉลี่ย x) 3, s 3 คือค่าเบี่ยงเบนมาตรฐานที่ยกกำลังสาม n คือจำนวนการสังเกต

ส่วนเกิน

Kurtosis เป็นลักษณะของรูปร่างของการแจกแจง กล่าวคือ การวัดความรุนแรงของจุดสูงสุด (เทียบกับการกระจายแบบปกติ ความโด่งเท่ากับ 0) ตามกฎแล้ว การแจกแจงที่มีจุดสูงสุดที่คมชัดกว่าปกติจะมีความโด่งเป็นบวก การแจกแจงที่มีจุดสูงสุดน้อยกว่าจุดพีคของการแจกแจงแบบปกติจะมีความโด่งเป็นลบ ส่วนเกินนั้นสัมพันธ์กับช่วงเวลาที่สี่และถูกกำหนดโดยสูตร:

ความโด่ง = / [(n-1) × (n-2) × (n-3) × s 4] โดยที่ M j คือ: (xx ค่าเฉลี่ย x, s 4 คือค่าเบี่ยงเบนมาตรฐานของยกกำลังสี่ n คือ จำนวนการสังเกต ...

ทฤษฎีสั้น

ค่าสัมประสิทธิ์สหสัมพันธ์ของเคนดัลล์ถูกใช้เมื่อตัวแปรถูกแทนด้วยสเกลลำดับสองขั้น โดยจะต้องไม่มีอันดับที่เกี่ยวข้องกัน การคำนวณค่าสัมประสิทธิ์ของเคนดัลล์เกี่ยวข้องกับการนับจำนวนการแข่งขันและการผกผัน

ค่าสัมประสิทธิ์นี้จะแตกต่างกันไปและคำนวณโดยสูตร:

สำหรับการคำนวณ หน่วยทั้งหมดจะถูกจัดลำดับตามแอตทริบิวต์ ตามเกณฑ์อื่น ๆ จำนวนอันดับที่ตามมาเกินหนึ่งที่กำหนด (เราแสดงโดย) และจำนวนอันดับที่ตามมาซึ่งต่ำกว่าอันดับที่กำหนด (เราแสดงโดย) สำหรับแต่ละอันดับ

แสดงว่า

และค่าสัมประสิทธิ์สหสัมพันธ์อันดับของ Kendall สามารถเขียนเป็น

เพื่อทดสอบสมมติฐานว่างที่ระดับนัยสำคัญว่าสัมประสิทธิ์สหสัมพันธ์อันดับทั่วไปของเคนดัลล์เท่ากับศูนย์ภายใต้สมมติฐานที่แข่งขันกัน จำเป็นต้องคำนวณจุดวิกฤต:

ขนาดตัวอย่างอยู่ที่ไหน เป็นจุดวิกฤตของภาควิกฤตสองด้าน ซึ่งหาได้จากตารางฟังก์ชันลาปลาซโดยความเท่าเทียมกัน

ถ้า - ไม่มีเหตุผลที่จะปฏิเสธสมมติฐานว่าง ความสัมพันธ์ของอันดับระหว่างคุณสมบัตินั้นไม่มีนัยสำคัญ

ถ้า - สมมติฐานว่างถูกปฏิเสธ มีความสัมพันธ์อันดับที่มีนัยสำคัญระหว่างคุณลักษณะ

ตัวอย่างการแก้ปัญหา

งาน

ในการสรรหาผู้สมัครเจ็ดตำแหน่งสำหรับตำแหน่งว่าง มีการทดสอบสองครั้ง ผลการทดสอบ (เป็นคะแนน) แสดงในตาราง:

ทดสอบ

ผู้สมัคร

คำนวณค่าสัมประสิทธิ์สหสัมพันธ์อันดับของ Kendall ระหว่างผลการทดสอบสำหรับการทดสอบสองครั้ง และประเมินความสำคัญที่ระดับ

ทางออกของปัญหา

คำนวณสัมประสิทธิ์ของเคนดัลล์

อันดับของแอตทริบิวต์ของปัจจัยถูกจัดเรียงอย่างเข้มงวดโดยเรียงลำดับจากน้อยไปมาก และอันดับที่สอดคล้องกันของแอตทริบิวต์ที่มีประสิทธิภาพจะถูกบันทึกแบบคู่ขนานกัน สำหรับแต่ละอันดับจากอันดับที่ตามมา จำนวนอันดับที่สูงกว่าจะถูกคำนวณ (ป้อนในคอลัมน์) และจำนวนอันดับที่ต่ำกว่า (ป้อนในคอลัมน์)

ซำ

ในการคำนวณค่าสัมประสิทธิ์สหสัมพันธ์อันดับของ Kendall r kจำเป็นต้องจัดลำดับข้อมูลสำหรับแอตทริบิวต์ใดคุณลักษณะหนึ่งตามลำดับจากน้อยไปมาก และกำหนดอันดับที่สอดคล้องกันสำหรับแอตทริบิวต์ที่สอง จากนั้น สำหรับแต่ละอันดับของจุดสนใจที่สอง จะกำหนดจำนวนอันดับที่ตามมาซึ่งมีขนาดมากกว่าอันดับที่ได้รับ และหาผลรวมของตัวเลขเหล่านี้

ค่าสัมประสิทธิ์สหสัมพันธ์อันดับของ Kendall ถูกกำหนดโดยสูตร

ที่ไหน อาร์ ไอ- จำนวนอันดับของตัวแปรที่สอง เริ่มจาก ผม+1 ขนาดที่มากกว่าขนาด ผมอันดับของตัวแปรนี้

มีตารางจุดเปอร์เซ็นต์ของการแจกแจงสัมประสิทธิ์ r kซึ่งช่วยให้ทดสอบสมมติฐานเกี่ยวกับความสำคัญของสัมประสิทธิ์สหสัมพันธ์

สำหรับตัวอย่างขนาดใหญ่ ค่าวิกฤต r kไม่ได้จัดทำเป็นตาราง และจะต้องคำนวณโดยใช้สูตรโดยประมาณ ซึ่งอิงตามข้อเท็จจริงที่ว่าภายใต้สมมติฐานว่าง H 0: r k= 0 และใหญ่ น ค่าสุ่ม

กระจายประมาณตามกฎปกติมาตรฐาน

40. ความสัมพันธ์ระหว่างลักษณะที่วัดในมาตราส่วนเล็กน้อยหรือลำดับ

ปัญหามักเกิดขึ้นจากการตรวจสอบความเป็นอิสระของคุณลักษณะสองประการที่วัดในระดับเล็กน้อยหรือลำดับขั้น

ให้วัตถุบางอย่างวัดคุณสมบัติสองอย่าง Xและ Yด้วยจำนวนระดับ rและ สตามลำดับ ผลลัพธ์ของการสังเกตดังกล่าวถูกนำเสนออย่างสะดวกในรูปแบบของตาราง เรียกว่าตารางฉุกเฉิน

ในตาราง คุณ ฉัน(ผม = 1, ..., r) และ วี j (เจ= 1, ..., ส) - ค่าที่ใช้โดยคุณสมบัติ, ค่า น อิจ- จำนวนวัตถุจากจำนวนวัตถุทั้งหมดที่แอตทริบิวต์ Xรับความหมาย คุณ ฉันและเครื่องหมาย Y- ความหมาย วี j

เราแนะนำตัวแปรสุ่มต่อไปนี้:

คุณ ฉัน

- จำนวนวัตถุที่มีค่า วี j

นอกจากนี้ยังมีความเท่าเทียมกันที่ชัดเจน

ตัวแปรสุ่มแบบไม่ต่อเนื่อง Xและ Yเป็นอิสระก็ต่อเมื่อ

สำหรับคู่รักทุกคู่ ผม, เจ

ดังนั้น การคาดเดาเกี่ยวกับความเป็นอิสระของตัวแปรสุ่มแบบไม่ต่อเนื่อง Xและ Yสามารถเขียนได้ดังนี้

ในทางกลับกัน ตามกฎแล้ว พวกเขาใช้สมมติฐาน

ความถูกต้องของสมมติฐาน H 0 ควรตัดสินโดยพิจารณาจากความถี่ตัวอย่าง น อิจตารางฉุกเฉิน ตามกฎหมายจำนวนมากที่ น→ ∞ ความถี่สัมพัทธ์ใกล้เคียงกับความน่าจะเป็นที่สอดคล้องกัน:

เพื่อทดสอบสมมติฐาน H 0 ใช้สถิติ

ซึ่งถ้าสมมุติฐานเป็นจริงก็มีการกระจายตัว χ 2 วินาที rs − (r + ส- 1) องศาของเสรีภาพ

เกณฑ์ความเป็นอิสระ χ 2 ปฏิเสธสมมติฐาน H 0 ที่มีระดับนัยสำคัญ α ถ้า:

41. การวิเคราะห์การถดถอย แนวคิดพื้นฐานของการวิเคราะห์การถดถอย

สำหรับคำอธิบายทางคณิตศาสตร์ของความสัมพันธ์ทางสถิติระหว่างตัวแปรที่ศึกษา ปัญหาต่อไปนี้ควรได้รับการแก้ไข:

ü เลือกคลาสของฟังก์ชันที่แนะนำให้หาสิ่งที่ดีที่สุด (ในแง่หนึ่ง) การประมาณการพึ่งพาความสนใจ

ü ค้นหาค่าประมาณของค่าที่ไม่รู้จักของพารามิเตอร์ที่รวมอยู่ในสมการของการพึ่งพาที่จำเป็น

ü เพื่อสร้างความเพียงพอของสมการที่ได้รับของการพึ่งพาอาศัยที่ต้องการ

ü เพื่อระบุตัวแปรอินพุตที่ให้ข้อมูลมากที่สุด

จำนวนทั้งหมดของงานที่ระบุไว้เป็นเรื่องของการวิจัยในการวิเคราะห์การถดถอย

ฟังก์ชันการถดถอย (หรือการถดถอย) คือการพึ่งพาการคาดหมายทางคณิตศาสตร์ของตัวแปรสุ่มตัวหนึ่งกับค่าที่ตัวแปรสุ่มอีกตัวหนึ่งนำมาซึ่งสร้างระบบสองมิติของตัวแปรสุ่มกับตัวแปรแรก

ให้มีระบบตัวแปรสุ่ม ( X,Y) จากนั้นฟังก์ชันการถดถอย Yบน X

และฟังก์ชันถดถอย Xบน Y

ฟังก์ชันการถดถอย ฉ(x) และ φ (y) ไม่สามารถย้อนกลับกันได้หากมีเพียงความสัมพันธ์ระหว่าง Xและ Yไม่ทำงาน

เมื่อไหร่ น-เวกเตอร์มิติพร้อมพิกัด X 1 , X 2 ,…, X นู๋คุณสามารถพิจารณาการคาดหมายทางคณิตศาสตร์แบบมีเงื่อนไขสำหรับองค์ประกอบใดๆ ตัวอย่างเช่น สำหรับ X 1

เรียกว่า ถดถอย X 1 วัน X 2 ,…, X นู๋.

สำหรับคำจำกัดความที่สมบูรณ์ของฟังก์ชันการถดถอย จำเป็นต้องทราบการกระจายแบบมีเงื่อนไขของตัวแปรเอาต์พุตสำหรับค่าคงที่ของตัวแปรอินพุต

เนื่องจากในสถานการณ์จริงไม่มีข้อมูลดังกล่าว จึงมักถูกจำกัดให้ค้นหาฟังก์ชันการประมาณที่เหมาะสมเท่านั้น ฉ(x) สำหรับ ฉ(x) ตามข้อมูลสถิติของแบบฟอร์ม ( x ฉัน, ฉัน), ผม = 1,…, น... ข้อมูลนี้เป็นผลลัพธ์ นการสังเกตอย่างอิสระ y 1 ,…, y nตัวแปรสุ่ม Yสำหรับค่าของตัวแปรอินพุต x 1 ,…, x นในขณะที่การวิเคราะห์การถดถอยถือว่าค่าของตัวแปรอินพุตถูกระบุอย่างถูกต้อง

ปัญหาของการเลือกฟังก์ชันการประมาณที่ดีที่สุด ฉ(x) เป็นหลักในการวิเคราะห์การถดถอย และไม่มีขั้นตอนที่เป็นทางการสำหรับการแก้ปัญหา บางครั้ง ทางเลือกจะถูกกำหนดโดยการวิเคราะห์ข้อมูลการทดลอง บ่อยครั้งขึ้นจากการพิจารณาทางทฤษฎี

หากถือว่าฟังก์ชันการถดถอยมีความราบรื่นเพียงพอ แสดงว่าฟังก์ชันการประมาณ ฉ(x) สามารถแสดงเป็นชุดค่าผสมเชิงเส้นของชุดฟังก์ชันพื้นฐานอิสระเชิงเส้นได้ ψ k(x), k = 0, 1,…, ม-1 กล่าวคือ ในรูปแบบ

ที่ไหน ม- จำนวนพารามิเตอร์ที่ไม่รู้จัก θ k(ในกรณีทั่วไป ไม่ทราบค่า ปรับปรุงระหว่างการสร้างแบบจำลอง)

ฟังก์ชันดังกล่าวเป็นพารามิเตอร์เชิงเส้น ดังนั้น ในกรณีที่อยู่ระหว่างการพิจารณา เราพูดถึงโมเดลฟังก์ชันการถดถอยที่เป็นพารามิเตอร์เชิงเส้น

แล้วปัญหาการหาค่าประมาณที่ดีที่สุดสำหรับเส้นถดถอย ฉ(x) ลดลงเพื่อค้นหาค่าพารามิเตอร์ดังกล่าวซึ่ง ฉ(x; θ) เพียงพอที่สุดสำหรับข้อมูลที่มีอยู่ วิธีหนึ่งในการแก้ปัญหานี้คือวิธีกำลังสองน้อยที่สุด

42. วิธีกำลังสองน้อยที่สุด

ให้เซตของคะแนน ( x ฉัน, ฉัน), ผม= 1,…, นอยู่บนเครื่องบินตามแนวเส้นตรงบางเส้น

จากนั้นเป็นหน้าที่ ฉ(x) การประมาณฟังก์ชันการถดถอย ฉ(x) = เอ็ม [Y|x] เป็นเรื่องปกติที่จะรับ ฟังก์ชันเชิงเส้นการโต้เถียง x:

นั่นคือเลือกฟังก์ชั่นพื้นฐานที่นี่ ψ 0 (x) ≡1 และ ψ 1 (x)≡x... การถดถอยนี้เรียกว่าการถดถอยเชิงเส้นอย่างง่าย

ถ้าเซตของคะแนน ( x ฉัน, ฉัน), ผม= 1,…, นอยู่ตามโค้งบาง ๆ แล้ว as ฉ(x) เป็นธรรมดาที่จะลองเลือกตระกูลพาราโบลา

ฟังก์ชันนี้ไม่เป็นเชิงเส้นในพารามิเตอร์ θ 0 และ θ 1 อย่างไรก็ตาม โดยการแปลงฟังก์ชัน (ในกรณีนี้ ลอการิทึม) สามารถลดลงเป็น ฟังก์ชั่นใหม่ ฉ'a(x) พารามิเตอร์เชิงเส้น:

43. การถดถอยเชิงเส้นอย่างง่าย

แบบจำลองการถดถอยที่ง่ายที่สุดคือแบบง่าย (หนึ่งมิติ ทางเดียว จับคู่) แบบจำลองเชิงเส้นซึ่งมีรูปแบบดังนี้

ที่ไหน ε ฉัน- ตัวแปรสุ่ม (ข้อผิดพลาด) ไม่สัมพันธ์กัน ไม่มีความคาดหวังทางคณิตศาสตร์และความแปรปรวนเท่ากัน σ 2 , เอและ ข- ค่าสัมประสิทธิ์คงที่ (พารามิเตอร์) ที่ต้องประมาณจากค่าการตอบสนองที่วัดได้ ฉัน.

เพื่อหาค่าประมาณพารามิเตอร์ เอและ ขการถดถอยเชิงเส้น กำหนดเส้นตรงที่ตรงกับข้อมูลการทดลองมากที่สุด:

ใช้วิธีการกำลังสองน้อยที่สุด

ตาม สี่เหลี่ยมน้อยที่สุด การประมาณค่าพารามิเตอร์ เอและ ขหาได้จากเงื่อนไขการลดผลรวมกำลังสองของค่าเบี่ยงเบนของค่าต่างๆ ฉันในแนวตั้งจากเส้นถดถอย "จริง":

ให้มีการสังเกตตัวแปรสุ่มสิบครั้ง Yด้วยค่าคงที่ของตัวแปร X

เพื่อลดขนาด ดีเราเท่ากับศูนย์อนุพันธ์ย่อยในส่วนที่เกี่ยวกับ เอและ ข:

ดังนั้นเราจึงได้ระบบสมการในการหาค่าประมาณดังต่อไปนี้ เอและ ข:

การแก้สมการทั้งสองนี้จะให้:

นิพจน์สำหรับการประมาณค่าพารามิเตอร์ เอและ ขยังสามารถแสดงเป็น:

แล้วสมการเชิงประจักษ์ของเส้นถดถอย Yบน Xสามารถเขียนเป็น:

ค่าประมาณความแปรปรวนที่ไม่เอนเอียง σ 2 ความเบี่ยงเบนของค่า ฉันจากเส้นตรงติดของการถดถอยถูกกำหนดโดยนิพจน์

มาคำนวณค่าพารามิเตอร์ของสมการถดถอยกัน

ดังนั้น เส้นการถดถอยมีลักษณะดังนี้:

และการประมาณค่าความแปรปรวนส่วนเบี่ยงเบนของค่า ฉันจากเส้นตรงติดของการถดถอย

44. การตรวจสอบความสำคัญของเส้นถดถอย

พบค่าประมาณ ข≠ 0 สามารถทำให้เป็นจริงของตัวแปรสุ่มได้ ความคาดหวังทางคณิตศาสตร์ที่เป็นศูนย์ นั่นคือ ปรากฎว่าไม่มีการพึ่งพาการถดถอยจริงๆ

เพื่อจัดการกับสถานการณ์นี้ คุณควรทดสอบสมมติฐาน H 0: ข= 0 ด้วยสมมติฐานที่แข่งขันกัน H 1: ข ≠ 0.

การทดสอบความสำคัญของเส้นการถดถอยสามารถทำได้โดยใช้การวิเคราะห์ความแปรปรวน

พิจารณาเอกลักษณ์ต่อไปนี้:

ขนาด ฉัน− ŷ ฉัน = ε ฉันเรียกว่า ส่วนที่เหลือ และเป็นความแตกต่างระหว่างปริมาณสองปริมาณ:

ü การเบี่ยงเบนของค่าที่สังเกตได้ (การตอบสนอง) จากการตอบสนองเฉลี่ยทั้งหมด

ü การเบี่ยงเบนของค่าการตอบสนองที่คาดการณ์ไว้ ŷ ฉันจากค่าเฉลี่ยเดียวกัน

อัตลักษณ์ที่เป็นลายลักษณ์อักษรสามารถเขียนได้เป็น

เมื่อยกกำลังสองส่วนแล้วสรุปยอด ผม, เราได้รับ:

ที่มีชื่อปริมาณ:

ผลรวมของกำลังสองของ SC n ซึ่งเท่ากับผลรวมของกำลังสองของการเบี่ยงเบนของการสังเกตที่สัมพันธ์กับค่าเฉลี่ยของการสังเกต

ผลรวมของกำลังสองเนื่องจากการถดถอยของ SK p ซึ่งเท่ากับผลรวมของกำลังสองของการเบี่ยงเบนของค่าเส้นการถดถอยที่สัมพันธ์กับค่าเฉลี่ยของการสังเกต

ผลรวมของกำลังสอง SK 0 ซึ่งเท่ากับผลรวมของกำลังสองของส่วนเบี่ยงเบนของการสังเกตที่สัมพันธ์กับค่าของเส้นถดถอย

ดังนั้นการแพร่กระจาย Y-kov ที่สัมพันธ์กับค่าเฉลี่ยสามารถนำมาประกอบกับข้อเท็จจริงที่ว่าการสังเกตทั้งหมดไม่ได้อยู่บนเส้นการถดถอย หากเป็นกรณีนี้ ผลรวมของกำลังสองที่สัมพันธ์กับการถดถอยจะเป็นศูนย์ ตามมาว่าการถดถอยจะมีนัยสำคัญหากผลรวมของกำลังสองของ SC p มากกว่าผลรวมของกำลังสองของ SC 0

การคำนวณการทดสอบนัยสำคัญการถดถอยจะดำเนินการในตาราง ANOVA ต่อไปนี้

หากผิดพลาด ε ฉันกระจายตามกฎปกติแล้วถ้าสมมติฐาน H 0 ถูกต้อง: ข= 0 สถิติ:

เผยแพร่ตามกฎหมายของฟิชเชอร์ด้วยจำนวนองศาอิสระ 1 และ น−2.

สมมติฐานว่างจะถูกปฏิเสธที่ระดับนัยสำคัญ α ถ้าค่าสถิติที่คำนวณได้ Fจะมากกว่าจุดเปอร์เซ็นต์ α ฉ 1;น-2; α ของการกระจายฟิชเชอร์

45. การตรวจสอบความเพียงพอของแบบจำลองการถดถอย วิธีตกค้าง

ความเพียงพอของแบบจำลองการถดถอยที่สร้างขึ้นนั้นเป็นที่เข้าใจกันว่าไม่มีแบบจำลองอื่นใดให้การปรับปรุงอย่างมีนัยสำคัญในการทำนายการตอบสนอง

หากได้ค่าของการตอบสนองทั้งหมดที่มีค่าต่างกัน xนั่นคือไม่มีค่าการตอบสนองหลายอย่างที่ได้รับเหมือนกัน x ฉันจากนั้นจะทำการทดสอบความเพียงพอของตัวแบบเชิงเส้นอย่างจำกัดเท่านั้น พื้นฐานสำหรับเช็คดังกล่าวคือของเหลือ:

ความเบี่ยงเบนจากรูปแบบที่กำหนดไว้:

ตราบเท่าที่ X- ตัวแปรหนึ่งมิติ จุด ( x ฉัน, ฉัน) สามารถพล็อตบนระนาบในรูปแบบของพล็อตที่เหลือที่เรียกว่า การเป็นตัวแทนดังกล่าวบางครั้งทำให้สามารถค้นหาความสม่ำเสมอในพฤติกรรมของสิ่งตกค้าง นอกจากนี้ การวิเคราะห์ส่วนที่เหลือยังช่วยให้คุณวิเคราะห์สมมติฐานเกี่ยวกับการกระจายข้อผิดพลาดได้

ในกรณีที่มีการกระจายข้อผิดพลาดตามกฎปกติและมีค่าประมาณการล่วงหน้าของความแปรปรวน σ 2 (ค่าประมาณที่ได้รับจากการวัดที่ดำเนินการก่อนหน้านี้) จากนั้นจึงทำการประเมินความเพียงพอของแบบจำลองได้แม่นยำยิ่งขึ้น

ทาง F-เกณฑ์ของฟิชเชอร์ใช้ตรวจสอบว่าความแปรปรวนที่เหลือมีนัยสำคัญหรือไม่ ส 0 2 แตกต่างจากการประมาณการเบื้องต้น หากมากกว่านั้นมาก แสดงว่ามีความไม่เพียงพอและควรแก้ไขแบบจำลอง

ถ้าประมาณการล่วงหน้า σ 2 ไม่ใช่ แต่การวัดการตอบสนอง Yทำซ้ำสองครั้งขึ้นไปด้วยค่าเดียวกัน Xจากนั้นการสังเกตซ้ำเหล่านี้สามารถใช้เพื่อรับค่าประมาณอื่นได้ σ 2 (อันแรกคือค่าความแปรปรวนคงเหลือ) การประมาณการดังกล่าวถือเป็นข้อผิดพลาดที่ “บริสุทธิ์” เนื่องจาก if xเหมือนกันสำหรับการสังเกตสองครั้งขึ้นไป จากนั้นเฉพาะการเปลี่ยนแปลงแบบสุ่มเท่านั้นที่สามารถส่งผลต่อผลลัพธ์และสร้างการกระจายระหว่างกัน

ค่าประมาณที่ได้จะกลายเป็นค่าประมาณความแปรปรวนที่เชื่อถือได้มากกว่าค่าประมาณที่ได้จากวิธีอื่น ด้วยเหตุนี้ เมื่อวางแผนการทดลอง คุณควรตั้งค่าการทดลองซ้ำๆ

สมมติว่าเรามี มความหมายต่างกัน X : x 1 , x 2 , ..., x ม... ให้สำหรับแต่ละค่าเหล่านี้ x ฉันมี ฉันการสังเกตการตอบสนอง Y... ได้รับการสังเกตทั้งหมด:

จากนั้นตัวแบบการถดถอยเชิงเส้นอย่างง่ายสามารถเขียนได้ดังนี้:

มาหาความแปรปรวนของข้อผิดพลาด "บริสุทธิ์" ความแปรปรวนนี้เป็นค่าประมาณรวมของความแปรปรวน σ 2 ถ้าเราแทนค่าของการตอบสนอง y ijที่ x = x ฉันเป็นปริมาตรตัวอย่าง ฉัน... ด้วยเหตุนี้ ความแปรปรวนของข้อผิดพลาด "บริสุทธิ์" คือ:

ความแปรปรวนนี้ทำหน้าที่เป็นค่าประมาณ σ 2 ไม่ว่ารุ่นที่ติดตั้งจะถูกต้องหรือไม่

ให้เราแสดงให้เห็นว่าผลรวมของกำลังสองของ "ข้อผิดพลาดล้วนๆ" เป็นส่วนหนึ่งของผลรวมของกำลังสองที่เหลือ (ผลรวมของกำลังสองที่รวมอยู่ในนิพจน์สำหรับความแปรปรวนที่เหลือ) เหลือสำหรับ เจการสังเกตที่ x ฉันสามารถเขียนเป็น:

ถ้าคุณยกกำลังสองข้างของความเสมอภาคนี้แล้วรวมมันเข้าด้วยกัน เจและโดย ผม, เราได้รับ:

ทางด้านซ้ายของความเท่าเทียมกันนี้คือผลรวมของกำลังสองที่เหลือ เทอมแรกทางด้านขวาคือผลรวมของกำลังสองของข้อผิดพลาด "บริสุทธิ์" เทอมที่สองสามารถเรียกได้ว่าเป็นผลรวมของกำลังสองของความไม่เพียงพอ จำนวนเงินสุดท้ายมี ม−2 องศาอิสระ ดังนั้น ความแปรปรวนของความไม่เพียงพอ

สถิติของเกณฑ์การทดสอบสมมติฐาน H 0: ตัวแบบเชิงเส้นอย่างง่ายเพียงพอ เทียบกับสมมติฐาน H 1: ตัวแบบเชิงเส้นอย่างง่ายไม่เพียงพอ ตัวแปรสุ่มคือ

หากสมมติฐานว่างเป็นจริง ค่า Fมีการแจกแจงแบบฟิชเชอร์ด้วยองศาอิสระ ม-2 และ น−ม... สมมติฐานความเป็นเส้นตรงของเส้นการถดถอยควรถูกปฏิเสธด้วยระดับนัยสำคัญ α หากค่าที่ได้รับของสถิติมากกว่าจุดเปอร์เซ็นต์ α ของการแจกแจงแบบฟิชเชอร์ด้วยจำนวนองศาอิสระ ม-2 และ น−ม.

46. การตรวจสอบความเพียงพอของแบบจำลองการถดถอย (ดู 45) ANOVA

47. การตรวจสอบความเพียงพอของแบบจำลองการถดถอย (ดู 45) สัมประสิทธิ์ความมุ่งมั่น

บางครั้ง ในการอธิบายลักษณะคุณภาพของเส้นการถดถอย จะใช้ค่าสัมประสิทธิ์ตัวอย่างของการกำหนด R 2 แสดงว่าส่วนใด (เศษส่วน) ของผลรวมของกำลังสอง เนื่องจากการถดถอย SK p อยู่ในผลรวมของกำลังสองทั้งหมด SK n:

ใกล้ชิด R 2 ต่อ 1 ยิ่งการถดถอยใกล้เคียงกับข้อมูลการทดลองมากเท่าใด การสังเกตก็จะยิ่งอยู่ใกล้เส้นการถดถอยมากขึ้นเท่านั้น ถ้า R 2 = 0 ดังนั้นการเปลี่ยนแปลงในการตอบสนองจะสมบูรณ์เนื่องจากอิทธิพลของปัจจัยที่ไม่ได้นับและเส้นการถดถอยจะขนานกับแกน x-ov. ในกรณีของการถดถอยเชิงเส้นอย่างง่าย สัมประสิทธิ์การกำหนด R 2 เท่ากับกำลังสองของสัมประสิทธิ์สหสัมพันธ์ r 2 .

ค่าสูงสุด R 2 = 1 สามารถทำได้เฉพาะในกรณีที่มีการสังเกตด้วยค่า x-ov ที่แตกต่างกัน หากมีการทดลองซ้ำในข้อมูล ค่าของ R 2 ก็ไม่สามารถเข้าถึงความเป็นเอกภาพได้ ไม่ว่าแบบจำลองจะดีเพียงใด

48. ช่วงความเชื่อมั่นสำหรับพารามิเตอร์การถดถอยเชิงเส้นอย่างง่าย

เฉกเช่นค่าเฉลี่ยตัวอย่างคือค่าประมาณของค่าเฉลี่ยจริง (ค่าเฉลี่ยประชากร) พารามิเตอร์ตัวอย่างของสมการถดถอยก็เช่นกัน เอและ ข- ไม่มีอะไรมากไปกว่าค่าประมาณของสัมประสิทธิ์การถดถอยที่แท้จริง ตัวอย่างที่ต่างกันให้ค่าประมาณของค่าเฉลี่ยต่างกัน - เช่นเดียวกับตัวอย่างที่ต่างกันจะให้ค่าประมาณสัมประสิทธิ์การถดถอยที่ต่างกัน

สมมติว่ากฎหมายการกระจายข้อผิดพลาด ε ฉันอธิบายโดยกฎปกติ การประมาณค่าพารามิเตอร์ ขจะมีการแจกแจงแบบปกติพร้อมพารามิเตอร์:

เนื่องจากค่าประมาณพารามิเตอร์ เอคือผลรวมเชิงเส้นของปริมาณแบบกระจายปกติอิสระ มันจะมีการแจกแจงแบบปกติที่มีค่าเฉลี่ยและความแปรปรวนด้วย:

ในกรณีนี้ ช่วงความเชื่อมั่น (1 - α) สำหรับการประมาณค่าความแปรปรวน σ 2 โดยคำนึงถึงอัตราส่วน ( น−2)ส 0 2 /σ 2 จัดจำหน่ายโดยกฎหมาย χ 2 กับจำนวนองศาอิสระ น-2 จะถูกกำหนดโดยนิพจน์

49. ช่วงความเชื่อมั่นสำหรับเส้นการถดถอย ช่วงความเชื่อมั่นสำหรับค่าตัวแปรตาม

เรามักจะไม่ทราบค่าที่แท้จริงของสัมประสิทธิ์การถดถอย เอและ ข... เรารู้แค่การประมาณการของพวกเขาเท่านั้น กล่าวอีกนัยหนึ่ง เส้นถดถอยที่แท้จริงอาจสูงหรือต่ำกว่า ชันหรือตื้นกว่าเส้นที่สร้างขึ้นจากข้อมูลตัวอย่าง เราคำนวณช่วงความเชื่อมั่นสำหรับสัมประสิทธิ์การถดถอย คุณยังสามารถคำนวณขอบเขตความเชื่อมั่นสำหรับเส้นการถดถอยได้อีกด้วย

ปล่อยให้การถดถอยเชิงเส้นอย่างง่ายจำเป็นต้องสร้าง (1− α ) ช่วงความเชื่อมั่นสำหรับความคาดหวังทางคณิตศาสตร์ของการตอบสนอง Yที่มูลค่า X = X 0. ความคาดหวังทางคณิตศาสตร์นี้คือ เอ+bx 0 และค่าประมาณ

ตั้งแต่นั้นเป็นต้นมา

ค่าประมาณการที่คาดหวังทางคณิตศาสตร์ที่ได้รับคือผลรวมเชิงเส้นของค่าการกระจายแบบปกติที่ไม่สัมพันธ์กัน ดังนั้นจึงมีการแจกแจงแบบปกติที่จุดศูนย์กลางของค่าที่แท้จริงของการคาดหมายทางคณิตศาสตร์แบบมีเงื่อนไขและความแปรปรวน

ดังนั้น ช่วงความเชื่อมั่นของเส้นถดถอยที่แต่ละค่า x 0 สามารถแสดงเป็น

อย่างที่คุณเห็น ช่วงความเชื่อมั่นขั้นต่ำจะได้มาที่ x 0 เท่ากับค่าเฉลี่ยและเพิ่มขึ้นเป็น x 0 “เคลื่อนออก” จากตรงกลางไปในทิศทางใดก็ได้

เพื่อให้ได้ชุดของช่วงความเชื่อมั่นร่วมที่เหมาะสมกับฟังก์ชันการถดถอยทั้งหมดตลอดความยาว ในนิพจน์ข้างต้นแทน t n −2,α / 2 จะต้องถูกแทนที่