ค่าสัมประสิทธิ์สหสัมพันธ์อันดับของเคนดัลล์ ค่าสัมประสิทธิ์สหสัมพันธ์อันดับของเคนดัลล์ ดูว่า "ค่าสัมประสิทธิ์สหสัมพันธ์อันดับของเคนดัลลา" ในพจนานุกรมอื่นๆ คืออะไร
ค่าสัมประสิทธิ์สหสัมพันธ์ของเคนดัลล์ถูกใช้เมื่อตัวแปรถูกแทนด้วยสเกลลำดับสองขั้น โดยจะต้องไม่มีอันดับที่เกี่ยวข้องกัน การคำนวณค่าสัมประสิทธิ์ของเคนดัลล์เกี่ยวข้องกับการนับจำนวนการแข่งขันและการผกผัน ลองพิจารณาขั้นตอนนี้โดยใช้ตัวอย่างของงานก่อนหน้านี้
อัลกอริทึมสำหรับการแก้ปัญหามีดังนี้:
เราลงทะเบียนข้อมูลในตารางอีกครั้ง 8.5 เพื่อให้หนึ่งในแถว (ในกรณีนี้คือแถว x i) กลายเป็นอันดับ กล่าวอีกนัยหนึ่งเราจัดเรียงคู่ใหม่ xและ y ในลำดับที่ถูกต้องและ เราป้อนข้อมูลในคอลัมน์ 1 และ 2 ของตาราง 8.6.
ตาราง 8.6
x ผม |
y ผม | ||
2. กำหนด "ระดับของการจัดอันดับ" ของแถวที่ 2 ( yผม). ขั้นตอนนี้ดำเนินการในลำดับต่อไปนี้:
ก) เราใช้ค่าแรกของแถวที่ไม่ใช่อันดับ "3" การคำนวณจำนวนอันดับ ด้านล่างให้หมายเลขซึ่ง มากกว่ามูลค่าที่จะเปรียบเทียบ มี 9 ค่าดังกล่าว (หมายเลข 6, 7, 4, 9, 5, 11, 8, 12 และ 10) เราป้อนหมายเลข 9 ในคอลัมน์ "การแข่งขัน" จากนั้นเรานับจำนวนค่าที่ น้อยสาม. มี 2 ค่าดังกล่าว (อันดับ 1 และ 2); เพิ่มหมายเลข 2 ลงในคอลัมน์ "ผกผัน"
b) ทิ้งหมายเลข 3 (เราได้ทำงานกับมันแล้ว) และทำซ้ำขั้นตอนสำหรับค่าถัดไป "6": จำนวนการแข่งขันคือ 6 (อันดับ 7, 9, 11, 8, 12 และ 10) จำนวน การผกผันคือ 4 (อันดับ 1, 2, 4 และ 5) เราป้อนหมายเลข 6 ในคอลัมน์ "ความบังเอิญ" และหมายเลข 4 - ในคอลัมน์ "การผกผัน"
c) ในทำนองเดียวกันขั้นตอนจะทำซ้ำจนกระทั่งสิ้นสุดแถว ควรจำไว้ว่าค่าที่ "ได้ผล" แต่ละค่านั้นไม่รวมอยู่ในการพิจารณาเพิ่มเติม (จะนับเฉพาะอันดับที่อยู่ต่ำกว่าตัวเลขนี้เท่านั้น)
บันทึก
เพื่อไม่ให้เกิดข้อผิดพลาดในการคำนวณ ควรระลึกไว้เสมอว่าในแต่ละ "ขั้นตอน" ผลรวมของความบังเอิญและการผกผันจะลดลงทีละหนึ่ง สิ่งนี้สามารถเข้าใจได้หากเราพิจารณาว่าในแต่ละครั้ง ค่าหนึ่งจะถูกแยกออกจากการพิจารณา
3. คำนวณผลรวมของการแข่งขัน (อาร์)และผลรวมของการผกผัน (ถาม); ข้อมูลถูกป้อนลงในหนึ่งและสามสูตรที่เปลี่ยนแทนกันได้สำหรับค่าสัมประสิทธิ์เคนดัลล์ (8.10) การคำนวณที่สอดคล้องกันจะดำเนินการ
t (8.10)
ในกรณีของเรา:
ตาราง ภาคผนวก XIV คือค่าวิกฤตของสัมประสิทธิ์สำหรับตัวอย่างที่กำหนด: τ cr = 0.45; 0.59. ค่าที่ได้จากการทดลองเปรียบเทียบกับค่าแบบตาราง
บทสรุป
τ = 0.55> τ cr. = 0.45. ความสัมพันธ์มีนัยสำคัญทางสถิติสำหรับระดับ 1
บันทึก:
หากจำเป็น (เช่น ในกรณีที่ไม่มีตารางค่าวิกฤต) นัยสำคัญทางสถิติ tเคนดัลล์สามารถกำหนดได้โดยสูตรต่อไปนี้:
(8.11)
ที่ไหน S * = P - Q+1 ถ้า พี< Q , และ S * = P - Q - 1 ถ้า P> Q.
ค่า zสำหรับระดับนัยสำคัญที่สอดคล้องกัน สอดคล้องกับการวัดของเพียร์สัน และพบได้ตามตารางที่สอดคล้องกัน (ไม่รวมอยู่ในภาคผนวก สำหรับระดับนัยสำคัญมาตรฐาน z cr = 1.96 (สำหรับ β 1 = 0.95) และ 2.58 (สำหรับ β 2 = 0.99) ค่าสัมประสิทธิ์สหสัมพันธ์ของเคนดัลล์มีนัยสำคัญทางสถิติ if z > z cr
ในกรณีของเรา S * = P - Q- 1 = 35 และ z= 2.40 นั่นคือ ข้อสรุปเบื้องต้นได้รับการยืนยันแล้ว: ความสัมพันธ์ระหว่างสัญญาณมีนัยสำคัญทางสถิติสำหรับระดับนัยสำคัญระดับที่ 1
เมื่อจัดอันดับ ผู้เชี่ยวชาญต้องจัดเรียงองค์ประกอบที่ประเมินโดยเรียงลำดับจากน้อยไปมาก (ลดลง) ตามความชอบและกำหนดแต่ละองค์ประกอบให้อยู่ในรูปแบบตัวเลขธรรมชาติ ในการจัดอันดับโดยตรง รายการที่ต้องการมากที่สุดคืออันดับ 1 (บางครั้ง 0) และรายการที่ต้องการน้อยที่สุดคืออันดับ m
หากผู้เชี่ยวชาญไม่สามารถจัดลำดับได้อย่างเคร่งครัดเนื่องจากองค์ประกอบบางอย่างมีความคล้ายคลึงกันในความเห็นของเขา ก็ได้รับอนุญาตให้กำหนดอันดับเดียวกันให้กับองค์ประกอบดังกล่าวได้ เพื่อให้แน่ใจว่าผลรวมของอันดับเท่ากับผลรวมของตำแหน่งขององค์ประกอบที่จัดอันดับ จึงใช้อันดับมาตรฐานที่เรียกว่า อันดับมาตรฐานคือค่าเฉลี่ยเลขคณิตของจำนวนองค์ประกอบในแถวที่มีการจัดอันดับที่เหมือนกันในความต้องการ
ตัวอย่าง 2.6.ผู้เชี่ยวชาญสั่งธาตุทั้ง ๖ ตามความชอบ ดังนี้
จากนั้นอันดับมาตรฐานขององค์ประกอบเหล่านี้จะเป็น
ดังนั้นผลรวมของอันดับที่กำหนดให้กับองค์ประกอบจะเท่ากับผลรวมของตัวเลขในชุดธรรมชาติ
ความถูกต้องของการแสดงความชอบโดยการจัดลำดับองค์ประกอบนั้นขึ้นอยู่กับความสำคัญของชุดการนำเสนอ ขั้นตอนการจัดอันดับให้ผลลัพธ์ที่น่าเชื่อถือที่สุด (ในแง่ของความใกล้เคียงของการตั้งค่าที่เปิดเผยและ "จริง") เมื่อจำนวนขององค์ประกอบที่ประเมินแล้วไม่เกิน 10 ความสำคัญของชุดการนำเสนอที่ จำกัด ไม่ควรเกิน 20
การประมวลผลและการวิเคราะห์การจัดอันดับจะดำเนินการเพื่อสร้างความสัมพันธ์การตั้งค่ากลุ่มตามความชอบส่วนบุคคล ในกรณีนี้สามารถตั้งค่างานต่อไปนี้: ก) การกำหนดความหนาแน่นของความสัมพันธ์ระหว่างการจัดอันดับผู้เชี่ยวชาญสองคนเกี่ยวกับองค์ประกอบของชุดการนำเสนอ ข) กำหนดความสัมพันธ์ระหว่างองค์ประกอบทั้งสองตามความคิดเห็นส่วนบุคคลของสมาชิกกลุ่มเกี่ยวกับลักษณะต่าง ๆ ขององค์ประกอบเหล่านี้ ค) การประเมินความสอดคล้องของความคิดเห็นของผู้เชี่ยวชาญในกลุ่มที่มีผู้เชี่ยวชาญมากกว่าสองคน
ในสองกรณีแรกจะใช้ค่าสัมประสิทธิ์เป็นตัววัดความหนาแน่นของการเชื่อมต่อ ความสัมพันธ์ของอันดับ... ค่าสัมประสิทธิ์สหสัมพันธ์ของ Kendall หรือ Spearman ขึ้นอยู่กับว่าจะอนุญาตเฉพาะอันดับที่เข้มงวดหรือหลวม
ค่าสัมประสิทธิ์สหสัมพันธ์อันดับของเคนดัลล์สำหรับปัญหา (a)
ที่ไหน ม- จำนวนองค์ประกอบ r 1 ฉัน -อันดับที่ได้รับมอบหมายจากผู้เชี่ยวชาญคนแรก ผม−องค์ประกอบ; r 2 ฉัน -เช่นเดียวกันโดยผู้เชี่ยวชาญคนที่สอง
สำหรับปัญหา (b) ส่วนประกอบ (2.5) มีความหมายดังต่อไปนี้ m คือจำนวนคุณลักษณะขององค์ประกอบโดยประมาณทั้งสอง; r 1 ฉัน(r 2 i) - อันดับ ลักษณะที่iในการจัดอันดับองค์ประกอบแรก (ที่สอง) ที่กำหนดโดยกลุ่มผู้เชี่ยวชาญ
การจัดอันดับที่เข้มงวดใช้ค่าสัมประสิทธิ์สหสัมพันธ์อันดับ Rสเปียร์แมน:
ซึ่งส่วนประกอบมีความหมายเดียวกับข้อ (2.5)
ค่าสัมประสิทธิ์สหสัมพันธ์ (2.5), (2.6) มีค่าตั้งแต่ -1 ถึง +1 ถ้าค่าสัมประสิทธิ์สหสัมพันธ์คือ +1 แสดงว่าอันดับเท่ากัน หากเป็น -1 แสดงว่าอยู่ตรงข้าม (อันดับจะผกผันกัน) ความเท่าเทียมกันของสัมประสิทธิ์สหสัมพันธ์เป็นศูนย์หมายความว่าการจัดอันดับมีความเป็นอิสระเชิงเส้น (ไม่สัมพันธ์กัน)
เนื่องจากด้วยวิธีนี้ (ผู้เชี่ยวชาญคือ "มาตรวัด" ที่มีข้อผิดพลาดแบบสุ่ม) การจัดอันดับแต่ละรายการจึงถือเป็นการสุ่ม ปัญหาจึงเกิดขึ้นจากการทดสอบสมมติฐานทางสถิติเกี่ยวกับความสำคัญของค่าสัมประสิทธิ์สหสัมพันธ์ที่ได้รับ ในกรณีนี้ ใช้เกณฑ์นอยมันน์-เพียร์สัน: กำหนดโดยระดับนัยสำคัญของเกณฑ์ α และเมื่อทราบกฎการกระจายของสัมประสิทธิ์สหสัมพันธ์แล้ว ให้กำหนดค่าเกณฑ์ ค αโดยเปรียบเทียบค่าสัมประสิทธิ์สหสัมพันธ์ที่ได้รับ พื้นที่วิกฤตอยู่ทางด้านขวา (ในทางปฏิบัติ ค่าของเกณฑ์มักจะถูกคำนวณก่อน และระดับของนัยสำคัญจะถูกกำหนดจากมัน ซึ่งเปรียบเทียบกับระดับธรณีประตู α ).
ค่าสัมประสิทธิ์สหสัมพันธ์อันดับของ Kendall τ มีสำหรับ m> 10 การแจกแจงใกล้เคียงกับค่าปกติด้วยพารามิเตอร์ต่อไปนี้:
โดยที่ M [τ] - ความคาดหวังทางคณิตศาสตร์ D [τ] - ความแปรปรวน
ในกรณีนี้ จะใช้ตารางของฟังก์ชันการแจกแจงแบบปกติมาตรฐาน:
และขอบเขต τ α ของบริเวณวิกฤตถูกกำหนดให้เป็นรากของสมการ
หากค่าสัมประสิทธิ์ที่คำนวณได้ τ ≥ τ α การจัดอันดับจะถือว่าอยู่ในข้อตกลงที่ดี โดยทั่วไป ค่าของ α จะถูกเลือกในช่วง 0.01-0.05 สำหรับ t ≤ 10 การแจกแจงของ t แสดงไว้ในตาราง 2.1.
การตรวจสอบความสำคัญของความสอดคล้องของสองอันดับโดยใช้สัมประสิทธิ์สเปียร์แมน ρ ดำเนินการในลำดับเดียวกันโดยใช้ตารางการแจกแจงของนักเรียนสำหรับ m> 10
ในกรณีนี้ ปริมาณ
มีการแจกแจงใกล้เคียงกับการแจกแจงของนักเรียนด้วย ม- 2 องศาอิสระ ที่ ม> 30 การกระจายปริมาณ ρ อยู่ในข้อตกลงที่ดีกับการแจกแจงแบบปกติซึ่งมี M [ρ] = 0 และ D [ρ] =
สำหรับ t ≤ 10 ความสำคัญของ ρ จะถูกตรวจสอบโดยใช้ตาราง 2.2.
ถ้าอันดับไม่เข้มงวดก็ค่าสัมประสิทธิ์สเปียร์แมน
โดยที่ ρ คำนวณโดย (2.6);
โดยที่ k 1, k 2 - จำนวนกลุ่มต่าง ๆ ของอันดับที่ไม่เข้มงวดในอันดับที่หนึ่งและสองตามลำดับ l i คือจำนวนอันดับที่เหมือนกันใน ผมกลุ่ม. ในการใช้งานจริงของสัมประสิทธิ์สหสัมพันธ์อันดับ ρ ของ Spearman และ Kendall ควรระลึกไว้เสมอว่าค่าสัมประสิทธิ์ ρ จะให้ผลลัพธ์ที่แม่นยำยิ่งขึ้นในแง่ของความแปรปรวนขั้นต่ำ
ตาราง 2.1.การกระจายค่าสัมประสิทธิ์สหสัมพันธ์อันดับของเคนดัลล์
การส่งและประมวลผลก่อนการประเมินของผู้เชี่ยวชาญ
ในทางปฏิบัติ มีการใช้การประเมินหลายประเภท:
- คุณภาพสูง (บ่อยครั้ง, แย่กว่า, ดีกว่า, ใช่-ไม่ใช่),
- ขนาดประมาณการ (ช่วงของค่า 50-75, 76-90, 91-120 เป็นต้น)
คะแนนจากช่วงเวลาที่กำหนด (จาก 2 ถึง 5, 1 -10) เป็นอิสระร่วมกัน
จัดอันดับ (วัตถุจัดเรียงโดยผู้เชี่ยวชาญในลำดับที่แน่นอนและแต่ละรายการจะได้รับหมายเลขซีเรียล - อันดับ)
เปรียบเทียบ ได้จากวิธีเปรียบเทียบวิธีใดวิธีหนึ่ง
วิธีการเปรียบเทียบตามลำดับ
วิธีการเปรียบเทียบปัจจัยแบบคู่
ในขั้นตอนต่อไปของการประมวลผลความคิดเห็นของผู้เชี่ยวชาญ จำเป็นต้องประเมิน ระดับความสอดคล้องของความคิดเห็นเหล่านี้
ค่าประมาณที่ได้รับจากผู้เชี่ยวชาญถือได้ว่าเป็นตัวแปรสุ่ม ซึ่งการแจกแจงจะสะท้อนความคิดเห็นของผู้เชี่ยวชาญเกี่ยวกับความน่าจะเป็นของตัวเลือกเฉพาะของเหตุการณ์ (ปัจจัย) ดังนั้น เพื่อวิเคราะห์การกระจายและความสอดคล้องของการประมาณการของผู้เชี่ยวชาญ จึงใช้ลักษณะทางสถิติทั่วไป - ค่าเฉลี่ยและการวัดการกระจาย:
ค่าเฉลี่ยข้อผิดพลาดกำลังสอง
ช่วงตัวแปร ต่ำสุด - สูงสุด
- ค่าสัมประสิทธิ์การแปรผัน V = ค่าเฉลี่ยส่วนเบี่ยงเบนกำลังสอง / ค่าเฉลี่ยเลขคณิต (เหมาะสำหรับการประเมินทุกประเภท)
วี = σ ผม / x ผม เฉลี่ย
สำหรับอัตรา มาตรการความคล้ายคลึงกันแต่ความเห็น ผู้เชี่ยวชาญแต่ละคู่สามารถใช้ได้หลายวิธี:
สัมประสิทธิ์ความสัมพันธ์โดยคำนึงถึงจำนวนคำตอบที่ตรงกันและไม่ตรงกัน
ค่าสัมประสิทธิ์ความไม่สอดคล้องกันความคิดเห็นของผู้เชี่ยวชาญ
มาตรการทั้งหมดนี้สามารถนำมาใช้เพื่อเปรียบเทียบความคิดเห็นของผู้เชี่ยวชาญสองคน หรือเพื่อวิเคราะห์ความสัมพันธ์ระหว่างชุดของการประเมินในสองเหตุผล
ค่าสัมประสิทธิ์สหสัมพันธ์อันดับคู่ของสเปียร์แมน:
โดยที่ n คือจำนวนผู้เชี่ยวชาญ
c k - ความแตกต่างระหว่างการประมาณค่าของผู้เชี่ยวชาญ i-th และ j-th สำหรับปัจจัย T ทั้งหมด
ค่าสัมประสิทธิ์สหสัมพันธ์อันดับของ Kendall (ค่าสัมประสิทธิ์ความสอดคล้อง) ให้การประเมินโดยรวมของความสอดคล้องของความคิดเห็นของผู้เชี่ยวชาญทั้งหมดในทุกปัจจัย แต่สำหรับกรณีที่มีการใช้การประมาณอันดับเท่านั้น
พิสูจน์แล้วว่าค่าของ S เมื่อผู้เชี่ยวชาญทุกคนประมาณค่าปัจจัยทั้งหมดเท่ากัน มีค่าสูงสุดเท่ากับ
โดยที่ n คือจำนวนปัจจัย
m คือจำนวนผู้เชี่ยวชาญ
สัมประสิทธิ์ความสอดคล้องเท่ากับอัตราส่วน
นอกจากนี้ หาก W ใกล้เคียงกับ 1 ผู้เชี่ยวชาญทั้งหมดได้ให้ค่าประมาณที่สอดคล้องกันเพียงพอ มิฉะนั้นความคิดเห็นของพวกเขาจะไม่ได้รับการตกลง
สูตรการคำนวณ S แสดงไว้ด้านล่าง:
โดยที่ r ij คือค่าประมาณอันดับของปัจจัยที่ i โดยผู้เชี่ยวชาญที่ j
r cf คืออันดับเฉลี่ยของเมทริกซ์ทั้งหมดของการประมาณการและเท่ากับ
ดังนั้นสูตรการคำนวณ S สามารถอยู่ในรูปแบบ:
หากการประเมินของผู้เชี่ยวชาญแต่ละคนเกิดขึ้นพร้อมกัน และถูกทำให้เป็นมาตรฐานในระหว่างการประมวลผล ก็จะใช้สูตรอื่นในการคำนวณค่าสัมประสิทธิ์ความสอดคล้อง:
โดยที่ T j ถูกคำนวณสำหรับผู้เชี่ยวชาญแต่ละคน (ในกรณีที่การประเมินของเขาถูกทำซ้ำสำหรับวัตถุที่แตกต่างกัน) โดยคำนึงถึงการทำซ้ำตามกฎต่อไปนี้:
โดยที่ t j คือจำนวนกลุ่มที่มียศเท่ากันสำหรับผู้เชี่ยวชาญที่ j และ
ชั่วโมง k - จำนวนอันดับที่เท่ากันในกลุ่มที่ k ของอันดับที่เกี่ยวข้องของผู้เชี่ยวชาญที่ j
ตัวอย่าง. ให้ผู้เชี่ยวชาญ 5 คนใน 6 ปัจจัยมาตอบในการจัดอันดับดังตารางที่ 3 :
ตารางที่ 3 - คำตอบของผู้เชี่ยวชาญ
ผู้เชี่ยวชาญ | О1 | О2 | O3 | О4 | O5 | O6 | ผลรวมอันดับโดยผู้เชี่ยวชาญ |
E1 | |||||||
E2 | |||||||
E3 | |||||||
E4 | |||||||
E5 |
เนื่องจากไม่ได้รับการจัดอันดับที่เข้มงวด (การประเมินจากผู้เชี่ยวชาญซ้ำแล้วซ้ำอีกและผลรวมของอันดับไม่เท่ากัน) เราจะเปลี่ยนการประมาณการและรับอันดับที่เกี่ยวข้อง (ตารางที่ 4):
ตารางที่ 4 - อันดับที่เกี่ยวข้องของการประเมินผู้เชี่ยวชาญ
ผู้เชี่ยวชาญ | О1 | О2 | O3 | О4 | O5 | O6 | ผลรวมอันดับโดยผู้เชี่ยวชาญ |
E1 | 2,5 | 2,5 | |||||
E2 | |||||||
E3 | 1,5 | 1,5 | 4,5 | 4,5 | |||
E4 | 2,5 | 2,5 | 4,5 | 4,5 | |||
E5 | 5,5 | 5,5 | |||||
ผลรวมอันดับของวัตถุ | 7,5 | 9,5 | 23,5 | 29,5 |
ทีนี้มาดูระดับความสอดคล้องของความคิดเห็นของผู้เชี่ยวชาญโดยใช้สัมประสิทธิ์ความสอดคล้องกัน เนื่องจากอันดับมีความเกี่ยวข้องกัน เราจะคำนวณ W ด้วยสูตร (**)
จากนั้น r cf = 7 * 5/2 = 17.5
S = 10 2 +8 2 +4.5 2 +4.5 2 +6 2 +12 2 = 384.5
ให้เราดำเนินการคำนวณ W สำหรับสิ่งนี้เราคำนวณค่า T j แยกกัน ในตัวอย่าง การประเมินจะได้รับการคัดเลือกมาเป็นพิเศษเพื่อให้ผู้เชี่ยวชาญแต่ละคนทำการประเมินซ้ำ: การประเมินครั้งแรกมีสองครั้ง ครั้งที่สองมีสาม การที่สามมีสองกลุ่มการให้คะแนนสองกลุ่ม และที่สี่มีการจัดอันดับที่เหมือนกันสองรายการ เพราะฉะนั้น:
T 1 = 2 3 - 2 = 6 T 5 = 6
T 2 = 3 3 - 3 = 24
Т 3 = 2 3 –2+ 2 3 –2 = 12 Т 4 = 12
เราเห็นว่าความเห็นของผู้เชี่ยวชาญมีความตกลงกันค่อนข้างสูงและเราสามารถดำเนินการในขั้นต่อไปของการศึกษาได้ - การพิสูจน์และการยอมรับทางเลือกของการตัดสินใจที่แนะนำโดยผู้เชี่ยวชาญ
มิฉะนั้น คุณต้องกลับไปที่ขั้นตอนที่ 4-8
ปัจจัยหนึ่งที่จำกัดการใช้เกณฑ์ตามสมมติฐานของภาวะปกติคือขนาดกลุ่มตัวอย่าง ตราบใดที่กลุ่มตัวอย่างมีขนาดใหญ่เพียงพอ (เช่น การสังเกต 100 ครั้งขึ้นไป) คุณสามารถสันนิษฐานได้ว่าการกระจายตัวอย่างเป็นเรื่องปกติ แม้ว่าคุณจะไม่แน่ใจว่าการกระจายของตัวแปรในประชากรเป็นเรื่องปกติ อย่างไรก็ตาม หากกลุ่มตัวอย่างมีขนาดเล็ก เกณฑ์เหล่านี้ควรใช้ก็ต่อเมื่อมีความมั่นใจว่าตัวแปรมีการกระจายตามปกติอย่างแท้จริง อย่างไรก็ตาม ไม่มีทางที่จะทดสอบสมมติฐานนี้กับกลุ่มตัวอย่างขนาดเล็กได้
การใช้เกณฑ์ตามสมมติฐานของภาวะปกติยังจำกัดอยู่ที่มาตราส่วนของการวัด (ดูบท แนวคิดพื้นฐานของการวิเคราะห์ข้อมูล) วิธีการทางสถิติ เช่น t-test การถดถอย ฯลฯ ถือว่าข้อมูลเดิมมีความต่อเนื่อง อย่างไรก็ตาม มีบางสถานการณ์ที่ข้อมูลถูกจัดลำดับอย่างง่าย ๆ (วัดจากมาตราส่วนลำดับ) มากกว่าที่จะวัดได้อย่างแม่นยำ
ตัวอย่างทั่วไปได้รับจากการให้คะแนนของไซต์บนอินเทอร์เน็ต: ตำแหน่งแรกคือไซต์ที่มีจำนวนผู้เข้าชมสูงสุด ตำแหน่งที่สองคือไซต์ที่มีจำนวนผู้เข้าชมสูงสุดในไซต์ที่เหลือ (ระหว่างไซต์ จากที่ไซต์แรกถูกลบออก) ฯลฯ เมื่อรู้การจัดอันดับเราสามารถพูดได้ว่าจำนวนผู้เยี่ยมชมไซต์หนึ่งมากกว่าจำนวนผู้เยี่ยมชมไซต์อื่น แต่จะพูดมากกว่านี้ไม่ได้ ลองนึกภาพคุณมี 5 ไซต์: A, B, C, D, E ซึ่งอยู่ใน 5 อันดับแรก สมมติว่าในเดือนปัจจุบัน เรามีการจัดเรียงดังต่อไปนี้: A, B, C, D, E และในเดือนก่อนหน้า: D, E, A, B, C คำถามคือ มีการเปลี่ยนแปลงที่สำคัญในการจัดอันดับเว็บไซต์ หรือไม่? ในสถานการณ์นี้ เห็นได้ชัดว่าเราไม่สามารถใช้ t-test เพื่อเปรียบเทียบข้อมูลสองกลุ่มนี้ และไปยังพื้นที่ของการคำนวณความน่าจะเป็นเฉพาะ (และเกณฑ์ทางสถิติใด ๆ มีการคำนวณความน่าจะเป็น!) เราให้เหตุผลดังนี้: เป็นไปได้มากน้อยเพียงใดที่ความแตกต่างในเค้าโครงไซต์ทั้งสองนั้นเกิดจากเหตุผลแบบสุ่มล้วนๆ หรือความแตกต่างนั้นมากเกินไปและไม่สามารถอธิบายได้ด้วยโอกาสล้วนๆ ด้วยเหตุผลนี้ เราใช้อันดับหรือการเปลี่ยนแปลงของไซต์เท่านั้น และไม่ใช้รูปแบบเฉพาะของการกระจายจำนวนผู้เข้าชมไซต์
สำหรับการวิเคราะห์ตัวอย่างขนาดเล็กและข้อมูลที่วัดได้ในระดับต่ำ จะใช้วิธีแบบไม่อิงพารามิเตอร์
ทัวร์ชมขั้นตอนที่ไม่ใช่พารามิเตอร์อย่างรวดเร็ว
โดยพื้นฐานแล้ว สำหรับแต่ละเกณฑ์พารามิเตอร์ จะมี อย่างน้อยทางเลือกหนึ่งที่ไม่ใช่พารามิเตอร์
โดยทั่วไป ขั้นตอนเหล่านี้จัดอยู่ในประเภทใดประเภทหนึ่งต่อไปนี้:
- เกณฑ์การแยกตัวอย่างอิสระ
- เกณฑ์ความแตกต่างสำหรับตัวอย่างที่ขึ้นต่อกัน
- การประเมินระดับการพึ่งพาอาศัยกันระหว่างตัวแปร
โดยทั่วไป แนวทางสู่เกณฑ์ทางสถิติในการวิเคราะห์ข้อมูลควรเป็นแนวทางปฏิบัติและไม่ต้องแบกรับภาระในการให้เหตุผลทางทฤษฎีที่ไม่จำเป็น ด้วยคอมพิวเตอร์ของ STATISTICA คุณสามารถใช้เกณฑ์ต่างๆ กับข้อมูลของคุณได้อย่างง่ายดาย เมื่อทราบถึงข้อผิดพลาดบางประการของวิธีการ คุณจะเลือกวิธีแก้ปัญหาที่ถูกต้องผ่านการทดลอง การพัฒนาโครงเรื่องค่อนข้างเป็นธรรมชาติ หากคุณต้องการเปรียบเทียบค่าของตัวแปรสองตัว ให้ใช้ t-test อย่างไรก็ตาม ควรจำไว้ว่ามันอยู่บนพื้นฐานของสมมติฐานของภาวะปกติและความเท่าเทียมกันของความแปรปรวนในแต่ละกลุ่ม การหลุดพ้นจากสมมติฐานเหล่านี้ส่งผลให้มีการทดสอบแบบไม่อิงพารามิเตอร์ซึ่งมีประโยชน์อย่างยิ่งสำหรับตัวอย่างขนาดเล็ก
การพัฒนา t-test นำไปสู่การวิเคราะห์ความแปรปรวน ซึ่งใช้เมื่อจำนวนกลุ่มเปรียบเทียบมากกว่าสองกลุ่ม การพัฒนากระบวนการที่ไม่ใช่พารามิเตอร์ที่สอดคล้องกันนำไปสู่การวิเคราะห์ความแปรปรวนแบบไม่อิงพารามิเตอร์ แม้ว่าจะด้อยกว่าการวิเคราะห์ความแปรปรวนแบบดั้งเดิมอย่างมีนัยสำคัญ
ในการประเมินการพึ่งพาอาศัยกันหรือเพื่อให้ค่อนข้างโอ้อวดระดับความหนาแน่นของการเชื่อมต่อคำนวณค่าสัมประสิทธิ์สหสัมพันธ์แบบเพียร์สัน กล่าวโดยเคร่งครัด แอปพลิเคชันมีข้อจำกัดที่เกี่ยวข้อง เช่น ประเภทของมาตราส่วนที่มีการวัดข้อมูลและความไม่เป็นเชิงเส้นของการพึ่งพาอาศัยกัน ดังนั้น ค่าสัมประสิทธิ์สหสัมพันธ์จึงถูกนำมาใช้แทน ใช้ตัวอย่างเช่นสำหรับข้อมูลที่จัดอันดับ หากข้อมูลถูกวัดในระดับเล็กน้อย เป็นเรื่องปกติที่จะนำเสนอในตารางฉุกเฉินที่ใช้การทดสอบไคสแควร์ของ Pearson พร้อมรูปแบบและการแก้ไขที่หลากหลายเพื่อความแม่นยำ
โดยพื้นฐานแล้ว มีเกณฑ์และขั้นตอนเพียงไม่กี่ประเภทที่คุณต้องรู้และใช้งานได้ ทั้งนี้ขึ้นอยู่กับเฉพาะของข้อมูล คุณต้องพิจารณาว่าควรใช้เกณฑ์ใดในสถานการณ์เฉพาะ
วิธีการที่ไม่ใช่พารามิเตอร์จะเหมาะสมที่สุดเมื่อขนาดตัวอย่างมีขนาดเล็ก หากมีข้อมูลจำนวนมาก (เช่น n> 100) การใช้สถิติที่ไม่ใช่พารามิเตอร์มักไม่สมเหตุสมผล
หากขนาดตัวอย่างมีขนาดเล็กมาก (เช่น n = 10 หรือน้อยกว่า) ระดับนัยสำคัญของการทดสอบแบบไม่อิงพารามิเตอร์ที่ใช้การประมาณปกติจะถือเป็นการประมาณคร่าวๆ เท่านั้น
ความแตกต่างระหว่างกลุ่มอิสระ... หากมีตัวอย่างสองตัวอย่าง (เช่น ชายและหญิง) ที่ต้องเปรียบเทียบโดยเทียบกับค่าเฉลี่ยบางอย่าง เช่น ความดันเฉลี่ยหรือจำนวนเม็ดเลือดขาวในเลือด การทดสอบ t ก็สามารถใช้แยกกัน ตัวอย่าง
ทางเลือกที่ไม่ใช่พารามิเตอร์สำหรับการทดสอบนี้คือการทดสอบ Val'd-Wolfowitz, Mann-Whitney series) / n โดยที่ x i - ค่าที่ i, n คือจำนวนการสังเกต หากตัวแปรมีค่าลบหรือศูนย์ (0) จะไม่สามารถคำนวณค่าเฉลี่ยทางเรขาคณิตได้
ค่าเฉลี่ยฮาร์มอนิก
ค่าเฉลี่ยฮาร์มอนิกบางครั้งใช้กับความถี่เฉลี่ย ค่าเฉลี่ยฮาร์มอนิกคำนวณโดยสูตร: ГС = n / S (1 / x i) โดยที่ ГС คือค่าเฉลี่ยฮาร์มอนิก n คือจำนวนการสังเกต х i คือค่าของการสังเกตด้วยจำนวน i หากตัวแปรมีค่าเป็นศูนย์ (0) จะไม่สามารถคำนวณค่าเฉลี่ยฮาร์มอนิกได้
การกระจายตัวและส่วนเบี่ยงเบนมาตรฐาน
ความแปรปรวนตัวอย่างและค่าเบี่ยงเบนมาตรฐานเป็นการวัดความแปรปรวน (ความแปรปรวน) ของข้อมูลที่ใช้บ่อยที่สุด ความแปรปรวนคำนวณเป็นผลรวมของกำลังสองของการเบี่ยงเบนของค่าของตัวแปรจากค่าเฉลี่ยตัวอย่าง หารด้วย n-1 (แต่ไม่ใช่ n) ค่าเบี่ยงเบนมาตรฐานคำนวณเป็นรากที่สองของการประมาณค่าความแปรปรวน
แกว่ง
ช่วงของตัวแปรเป็นตัวบ่งชี้ความผันผวน โดยคำนวณเป็นค่าสูงสุดลบค่าต่ำสุด
ขอบเขตควอร์ไทล์
ตามคำนิยาม ช่วงรายไตรมาสคือ: ควอไทล์บนลบควอไทล์ล่าง (เปอร์เซ็นต์ไทล์ 75% ลบเปอร์เซ็นต์ไทล์ 25%) เนื่องจากเปอร์เซ็นไทล์ 75% (ควอร์ไทล์บน) เป็นค่าทางด้านซ้ายซึ่งมีเคสอยู่ 75% และเปอร์เซ็นไทล์ 25% (ควอร์ไทล์ล่าง) เป็นค่าทางด้านซ้ายของซึ่ง 25% ของเคสตั้งอยู่ ควอร์ไทล์ range คือช่วงรอบค่ามัธยฐาน ซึ่งประกอบด้วย 50% ของกรณี (ค่าตัวแปร)
ไม่สมมาตร
ความไม่สมมาตรเป็นลักษณะของรูปร่างของการแจกแจง การกระจายจะเบ้ไปทางซ้ายหากค่าความเบ้เป็นลบ การกระจายจะเบ้ไปทางขวาหากความไม่สมมาตรเป็นค่าบวก ความเบ้ของการแจกแจงแบบปกติมาตรฐานคือ 0 ความเบ้เกี่ยวข้องกับช่วงเวลาที่สามและถูกกำหนดเป็น: ความเบ้ = n × M 3 / [(n-1) × (n-2) × s 3] โดยที่ M 3 คือ: (xi -x ค่าเฉลี่ย x) 3, s 3 คือค่าเบี่ยงเบนมาตรฐานที่ยกกำลังสาม n คือจำนวนการสังเกต
ส่วนเกิน
Kurtosis เป็นลักษณะของรูปร่างของการแจกแจง กล่าวคือ การวัดความรุนแรงของจุดสูงสุด (เทียบกับการแจกแจงแบบปกติ ซึ่งมีความโด่งเท่ากับ 0) ตามกฎแล้ว การแจกแจงที่มีจุดสูงสุดที่คมชัดกว่าปกติจะมีความโด่งเป็นบวก การแจกแจงที่มีจุดสูงสุดน้อยกว่าจุดพีคของการแจกแจงแบบปกติจะมีความโด่งเป็นลบ ส่วนเกินนั้นสัมพันธ์กับช่วงเวลาที่สี่และถูกกำหนดโดยสูตร:
ความโด่ง = / [(n-1) × (n-2) × (n-3) × s 4] โดยที่ M j คือ: (xx ค่าเฉลี่ย x, s 4 คือค่าเบี่ยงเบนมาตรฐานของยกกำลังสี่ n คือ จำนวนการสังเกต ...
อันดับสัมประสิทธิ์สหสัมพันธ์กำหนดลักษณะทั่วไปของการพึ่งพาอาศัยกันแบบไม่เชิงเส้น: การเพิ่มขึ้นหรือลดลงในลักษณะที่มีประสิทธิภาพพร้อมกับปัจจัยหนึ่งที่เพิ่มขึ้น นี่เป็นตัวบ่งชี้ความหนาแน่นของความสัมพันธ์ที่ไม่เชิงเส้นแบบโมโนโทนิกวัตถุประสงค์ในการให้บริการ... เครื่องคิดเลขออนไลน์นี้คำนวณ ค่าสัมประสิทธิ์สหสัมพันธ์อันดับของเคนดัลล์ตามสูตรพื้นฐานทั้งหมดตลอดจนการประเมินความสำคัญ
คำแนะนำ. ระบุจำนวนข้อมูล (จำนวนบรรทัด) ผลลัพธ์ที่ได้จะถูกบันทึกไว้ในไฟล์ Word
ค่าสัมประสิทธิ์ที่เสนอโดยเคนดัลล์สร้างขึ้นบนพื้นฐานของความสัมพันธ์ของประเภท "มากน้อย" ความถูกต้องซึ่งถูกกำหนดขึ้นเมื่อสร้างตาชั่ง
มาเลือกวัตถุสองสามชิ้นและเปรียบเทียบอันดับของพวกมันในแอตทริบิวต์หนึ่งและในอีกแอตทริบิวต์หนึ่ง หากตามเกณฑ์นี้ อันดับสร้างลำดับโดยตรง (นั่นคือ ลำดับของอนุกรมธรรมชาติ) คู่นั้นจะได้รับ +1 หากเป็นตรงกันข้าม ให้เท่ากับ –1 สำหรับคู่ที่เลือก หน่วยบวก - ลบที่สอดคล้องกัน (ตามแอตทริบิวต์ X และโดยแอตทริบิวต์ Y) จะถูกคูณ ผลลัพธ์ที่ได้คือ +1 อย่างชัดเจน หากอันดับของคู่คุณลักษณะทั้งสองอยู่ในลำดับเดียวกัน และ –1 หากกลับกัน
หากลำดับของอันดับเท่ากันสำหรับคู่ทั้งหมดตามเกณฑ์ทั้งสอง ผลรวมของหน่วยที่กำหนดให้กับคู่ของวัตถุทั้งหมดจะสูงสุดและเท่ากับจำนวนคู่ หากอันดับของทุกคู่กลับกัน ดังนั้น –C 2 N ในกรณีทั่วไป C 2 N = P + Q โดยที่ P คือจำนวนบวกและ Q คือจำนวนค่าลบที่กำหนดให้กับคู่เมื่อเปรียบเทียบอันดับของทั้งสองเกณฑ์
ปริมาณนี้เรียกว่าสัมประสิทธิ์ของเคนดัลล์
จากสูตรจะเห็นได้ว่าสัมประสิทธิ์ τ คือผลต่างระหว่างสัดส่วนของคู่ของวัตถุที่มีลำดับเท่ากันในเกณฑ์ทั้งสอง (เทียบกับจำนวนคู่ทั้งหมด) และสัดส่วนของคู่ของวัตถุที่ คำสั่งไม่เหมือนกัน
ตัวอย่างเช่น ค่าสัมประสิทธิ์ 0.60 หมายความว่า 80% ของคู่มีลำดับของวัตถุเหมือนกัน ในขณะที่ 20% ไม่มี (80% + 20% = 100%; 0.80 - 0.20 = 0.60) เหล่านั้น. τ สามารถตีความได้ว่าเป็นผลต่างระหว่างความน่าจะเป็นของความบังเอิญและการไม่บังเอิญของคำสั่งในสัญญาณทั้งสองสำหรับวัตถุคู่แบบสุ่มที่เลือก
ในกรณีทั่วไป การคำนวณ τ (แม่นยำกว่าคือ P หรือ Q) แม้แต่ N ของลำดับ 10 กลับกลายเป็นเรื่องยุ่งยาก
มาดูวิธีการลดความซับซ้อนของการคำนวณกัน
ตัวอย่าง. ความสัมพันธ์ระหว่างปริมาณการผลิตภาคอุตสาหกรรมและการลงทุนในสินทรัพย์ถาวรใน 10 ภูมิภาคของเขตสหพันธรัฐรัสเซียในปี 2546 มีลักษณะดังนี้:
คำนวณค่าสัมประสิทธิ์สหสัมพันธ์อันดับ Spearman และ Kendal ตรวจสอบความสำคัญที่ α = 0.05 กำหนดข้อสรุปเกี่ยวกับความสัมพันธ์ระหว่างปริมาณการผลิตภาคอุตสาหกรรมกับการลงทุนในสินทรัพย์ถาวรในภูมิภาคของสหพันธรัฐรัสเซียที่กำลังพิจารณา
สารละลาย... มากำหนดอันดับให้กับแอตทริบิวต์ Y และปัจจัย X
ลองเรียงลำดับข้อมูลตาม X
ในแถว Y ทางด้านขวาของ 3 มี 7 อันดับเกิน 3 ดังนั้น 3 จะสร้างเทอม 7 ใน P
ทางด้านขวาของ 1 มี 8 ตำแหน่งที่เกิน 1 (เหล่านี้คือ 2, 4, 6, 9, 5, 10, 7, 8) เช่น 8 จะเข้าสู่ P เป็นต้น เป็นผลให้ Р = 37 และใช้สูตรที่เรามี:
X | Y | อันดับ X, dx | ยศ Y, d y | พี | คิว |
18.4 | 5.57 | 1 | 3 | 7 | 2 |
20.6 | 2.88 | 2 | 1 | 8 | 0 |
21.5 | 4.12 | 3 | 2 | 7 | 0 |
35.7 | 7.24 | 4 | 4 | 6 | 0 |
37.1 | 9.67 | 5 | 6 | 4 | 1 |
39.8 | 10.48 | 6 | 9 | 1 | 3 |
51.1 | 8.58 | 7 | 5 | 3 | 0 |
54.4 | 14.79 | 8 | 10 | 0 | 2 |
64.6 | 10.22 | 9 | 7 | 1 | 0 |
90.6 | 10.45 | 10 | 8 | 0 | 0 |
37 | 8 |
โดยสูตรง่าย ๆ :
โดยที่ n คือขนาดตัวอย่าง z kp เป็นจุดวิกฤตของภูมิภาควิกฤตทวิภาคี ซึ่งพบได้จากตารางฟังก์ชัน Laplace โดยความเท่าเทียมกัน Ф (z kp) = (1-α) / 2
ถ้า | τ |< T kp - нет оснований отвергнуть нулевую гипотезу. Ранговая корреляционная связь между качественными признаками незначима. Если |τ| >T kp - สมมติฐานว่างถูกปฏิเสธ มีความสัมพันธ์อันดับที่มีนัยสำคัญระหว่างคุณลักษณะเชิงคุณภาพ
ค้นหาจุดวิกฤต z kp
Ф (z kp) = (1-α) / 2 = (1 - 0.05) / 2 = 0.475
มาหาจุดวิกฤตกันเถอะ:
ตั้งแต่ τ> T kp - เราปฏิเสธสมมติฐานว่าง อันดับความสัมพันธ์ระหว่างคะแนนในการทดสอบทั้งสองมีนัยสำคัญ
ตัวอย่าง. ตามข้อมูลปริมาณงานก่อสร้างและติดตั้งที่ทำ ได้ด้วยตัวเองและจำนวนพนักงานในบริษัทก่อสร้าง 10 แห่งในเมืองหนึ่งของสหพันธรัฐรัสเซีย กำหนดความสัมพันธ์ระหว่างสัญญาณเหล่านี้โดยใช้สัมประสิทธิ์เคนดัล
สารละลายหาด้วยเครื่องคิดเลข
มากำหนดอันดับให้กับแอตทริบิวต์ Y และปัจจัย X
มาจัดเรียงวัตถุกันเพื่อให้อันดับ X ของพวกมันแทนอนุกรมธรรมชาติกัน เนื่องจากค่าประมาณที่กำหนดให้กับแต่ละคู่ของซีรีส์นี้เป็นค่าบวก ค่า "+1" ที่รวมอยู่ใน P จะถูกสร้างขึ้นโดยคู่ที่มีอันดับใน Y จากลำดับโดยตรงเท่านั้น
คำนวณได้ง่ายโดยการเปรียบเทียบอันดับของแต่ละวัตถุในแถว Y กับวัตถุเหล็กตามลำดับ
ค่าสัมประสิทธิ์เคนดัลล์.
ในกรณีทั่วไป การคำนวณ τ (แม่นยำกว่าคือ P หรือ Q) แม้แต่ N ของลำดับ 10 กลับกลายเป็นเรื่องยุ่งยาก มาดูวิธีการลดความซับซ้อนของการคำนวณกัน
หรือ
สารละลาย.
ลองเรียงลำดับข้อมูลตาม X
ในแถว Y ทางด้านขวาของ 2 มี 8 อันดับเกิน 2 ดังนั้น 2 จะสร้างเทอม 8 ใน P
ทางด้านขวาของ 4 มี 6 อันดับเกิน 4 (เหล่านี้คือ 7, 5, 6, 8, 9, 10) เช่น 6 จะเข้าสู่ P เป็นต้น เป็นผลให้ P = 29 และใช้สูตรที่เรามี:
X | Y | อันดับ X, dx | ยศ Y, d y | พี | คิว |
38 | 292 | 1 | 2 | 8 | 1 |
50 | 302 | 2 | 4 | 6 | 2 |
52 | 366 | 3 | 7 | 3 | 4 |
54 | 312 | 4 | 5 | 4 | 2 |
59 | 359 | 5 | 6 | 3 | 2 |
61 | 398 | 6 | 8 | 2 | 2 |
66 | 401 | 7 | 9 | 1 | 2 |
70 | 298 | 8 | 3 | 1 | 1 |
71 | 283 | 9 | 1 | 1 | 0 |
73 | 413 | 10 | 10 | 0 | 0 |
29 | 16 |
โดยสูตรง่าย ๆ :
เพื่อทดสอบสมมติฐานว่างเกี่ยวกับความเท่าเทียมกันของสัมประสิทธิ์สหสัมพันธ์อันดับทั่วไปของเคนดัลล์เป็นศูนย์ที่ระดับนัยสำคัญ α ด้วยสมมติฐานที่แข่งขันกัน H 1: τ ≠ 0 จำเป็นต้องคำนวณจุดวิกฤต:
โดยที่ n คือขนาดตัวอย่าง z kp เป็นจุดวิกฤตของบริเวณวิกฤตแบบสองด้าน ซึ่งพบได้จากตารางของฟังก์ชัน Laplace โดยความเท่าเทียมกัน Ф (z kp) = (1 - α) / 2
ถ้า | τ | T kp - สมมติฐานว่างถูกปฏิเสธ มีความสัมพันธ์อันดับที่มีนัยสำคัญระหว่างคุณลักษณะเชิงคุณภาพ
ค้นหาจุดวิกฤต z kp
Ф (z kp) = (1 - α) / 2 = (1 - 0.05) / 2 = 0.475
โดยใช้ตาราง Laplace เราพบ z kp = 1.96
มาหาจุดวิกฤตกันเถอะ:
ตั้งแต่ τ