คอมพิวเตอร์ Windows อินเทอร์เน็ต

ค่าสัมประสิทธิ์สหสัมพันธ์อันดับของเคนดัลล์ ค่าสัมประสิทธิ์สหสัมพันธ์อันดับของเคนดัลล์ ดูว่า "ค่าสัมประสิทธิ์สหสัมพันธ์อันดับของเคนดัลลา" ในพจนานุกรมอื่นๆ คืออะไร

ค่าสัมประสิทธิ์สหสัมพันธ์ของเคนดัลล์ถูกใช้เมื่อตัวแปรถูกแทนด้วยสเกลลำดับสองขั้น โดยจะต้องไม่มีอันดับที่เกี่ยวข้องกัน การคำนวณค่าสัมประสิทธิ์ของเคนดัลล์เกี่ยวข้องกับการนับจำนวนการแข่งขันและการผกผัน ลองพิจารณาขั้นตอนนี้โดยใช้ตัวอย่างของงานก่อนหน้านี้

อัลกอริทึมสำหรับการแก้ปัญหามีดังนี้:

    เราลงทะเบียนข้อมูลในตารางอีกครั้ง 8.5 เพื่อให้หนึ่งในแถว (ในกรณีนี้คือแถว x i) กลายเป็นอันดับ กล่าวอีกนัยหนึ่งเราจัดเรียงคู่ใหม่ xและ y ในลำดับที่ถูกต้องและ เราป้อนข้อมูลในคอลัมน์ 1 และ 2 ของตาราง 8.6.

ตาราง 8.6

x ผม

y ผม

2. กำหนด "ระดับของการจัดอันดับ" ของแถวที่ 2 ( yผม). ขั้นตอนนี้ดำเนินการในลำดับต่อไปนี้:

ก) เราใช้ค่าแรกของแถวที่ไม่ใช่อันดับ "3" การคำนวณจำนวนอันดับ ด้านล่างให้หมายเลขซึ่ง มากกว่ามูลค่าที่จะเปรียบเทียบ มี 9 ค่าดังกล่าว (หมายเลข 6, 7, 4, 9, 5, 11, 8, 12 และ 10) เราป้อนหมายเลข 9 ในคอลัมน์ "การแข่งขัน" จากนั้นเรานับจำนวนค่าที่ น้อยสาม. มี 2 ​​ค่าดังกล่าว (อันดับ 1 และ 2); เพิ่มหมายเลข 2 ลงในคอลัมน์ "ผกผัน"

b) ทิ้งหมายเลข 3 (เราได้ทำงานกับมันแล้ว) และทำซ้ำขั้นตอนสำหรับค่าถัดไป "6": จำนวนการแข่งขันคือ 6 (อันดับ 7, 9, 11, 8, 12 และ 10) จำนวน การผกผันคือ 4 (อันดับ 1, 2, 4 และ 5) เราป้อนหมายเลข 6 ในคอลัมน์ "ความบังเอิญ" และหมายเลข 4 - ในคอลัมน์ "การผกผัน"

c) ในทำนองเดียวกันขั้นตอนจะทำซ้ำจนกระทั่งสิ้นสุดแถว ควรจำไว้ว่าค่าที่ "ได้ผล" แต่ละค่านั้นไม่รวมอยู่ในการพิจารณาเพิ่มเติม (จะนับเฉพาะอันดับที่อยู่ต่ำกว่าตัวเลขนี้เท่านั้น)

บันทึก

เพื่อไม่ให้เกิดข้อผิดพลาดในการคำนวณ ควรระลึกไว้เสมอว่าในแต่ละ "ขั้นตอน" ผลรวมของความบังเอิญและการผกผันจะลดลงทีละหนึ่ง สิ่งนี้สามารถเข้าใจได้หากเราพิจารณาว่าในแต่ละครั้ง ค่าหนึ่งจะถูกแยกออกจากการพิจารณา

3. คำนวณผลรวมของการแข่งขัน (อาร์)และผลรวมของการผกผัน (ถาม); ข้อมูลถูกป้อนลงในหนึ่งและสามสูตรที่เปลี่ยนแทนกันได้สำหรับค่าสัมประสิทธิ์เคนดัลล์ (8.10) การคำนวณที่สอดคล้องกันจะดำเนินการ

t (8.10)

ในกรณีของเรา:

ตาราง ภาคผนวก XIV คือค่าวิกฤตของสัมประสิทธิ์สำหรับตัวอย่างที่กำหนด: τ cr = 0.45; 0.59. ค่าที่ได้จากการทดลองเปรียบเทียบกับค่าแบบตาราง

บทสรุป

τ = 0.55> τ cr. = 0.45. ความสัมพันธ์มีนัยสำคัญทางสถิติสำหรับระดับ 1

บันทึก:

หากจำเป็น (เช่น ในกรณีที่ไม่มีตารางค่าวิกฤต) นัยสำคัญทางสถิติ tเคนดัลล์สามารถกำหนดได้โดยสูตรต่อไปนี้:

(8.11)

ที่ไหน S * = P - Q+1 ถ้า พี< Q , และ S * = P - Q - 1 ถ้า P> Q.

ค่า zสำหรับระดับนัยสำคัญที่สอดคล้องกัน สอดคล้องกับการวัดของเพียร์สัน และพบได้ตามตารางที่สอดคล้องกัน (ไม่รวมอยู่ในภาคผนวก สำหรับระดับนัยสำคัญมาตรฐาน z cr = 1.96 (สำหรับ β 1 = 0.95) และ 2.58 (สำหรับ β 2 = 0.99) ค่าสัมประสิทธิ์สหสัมพันธ์ของเคนดัลล์มีนัยสำคัญทางสถิติ if z > z cr

ในกรณีของเรา S * = P - Q- 1 = 35 และ z= 2.40 นั่นคือ ข้อสรุปเบื้องต้นได้รับการยืนยันแล้ว: ความสัมพันธ์ระหว่างสัญญาณมีนัยสำคัญทางสถิติสำหรับระดับนัยสำคัญระดับที่ 1

เมื่อจัดอันดับ ผู้เชี่ยวชาญต้องจัดเรียงองค์ประกอบที่ประเมินโดยเรียงลำดับจากน้อยไปมาก (ลดลง) ตามความชอบและกำหนดแต่ละองค์ประกอบให้อยู่ในรูปแบบตัวเลขธรรมชาติ ในการจัดอันดับโดยตรง รายการที่ต้องการมากที่สุดคืออันดับ 1 (บางครั้ง 0) และรายการที่ต้องการน้อยที่สุดคืออันดับ m

หากผู้เชี่ยวชาญไม่สามารถจัดลำดับได้อย่างเคร่งครัดเนื่องจากองค์ประกอบบางอย่างมีความคล้ายคลึงกันในความเห็นของเขา ก็ได้รับอนุญาตให้กำหนดอันดับเดียวกันให้กับองค์ประกอบดังกล่าวได้ เพื่อให้แน่ใจว่าผลรวมของอันดับเท่ากับผลรวมของตำแหน่งขององค์ประกอบที่จัดอันดับ จึงใช้อันดับมาตรฐานที่เรียกว่า อันดับมาตรฐานคือค่าเฉลี่ยเลขคณิตของจำนวนองค์ประกอบในแถวที่มีการจัดอันดับที่เหมือนกันในความต้องการ

ตัวอย่าง 2.6.ผู้เชี่ยวชาญสั่งธาตุทั้ง ๖ ตามความชอบ ดังนี้

จากนั้นอันดับมาตรฐานขององค์ประกอบเหล่านี้จะเป็น

ดังนั้นผลรวมของอันดับที่กำหนดให้กับองค์ประกอบจะเท่ากับผลรวมของตัวเลขในชุดธรรมชาติ

ความถูกต้องของการแสดงความชอบโดยการจัดลำดับองค์ประกอบนั้นขึ้นอยู่กับความสำคัญของชุดการนำเสนอ ขั้นตอนการจัดอันดับให้ผลลัพธ์ที่น่าเชื่อถือที่สุด (ในแง่ของความใกล้เคียงของการตั้งค่าที่เปิดเผยและ "จริง") เมื่อจำนวนขององค์ประกอบที่ประเมินแล้วไม่เกิน 10 ความสำคัญของชุดการนำเสนอที่ จำกัด ไม่ควรเกิน 20

การประมวลผลและการวิเคราะห์การจัดอันดับจะดำเนินการเพื่อสร้างความสัมพันธ์การตั้งค่ากลุ่มตามความชอบส่วนบุคคล ในกรณีนี้สามารถตั้งค่างานต่อไปนี้: ก) การกำหนดความหนาแน่นของความสัมพันธ์ระหว่างการจัดอันดับผู้เชี่ยวชาญสองคนเกี่ยวกับองค์ประกอบของชุดการนำเสนอ ข) กำหนดความสัมพันธ์ระหว่างองค์ประกอบทั้งสองตามความคิดเห็นส่วนบุคคลของสมาชิกกลุ่มเกี่ยวกับลักษณะต่าง ๆ ขององค์ประกอบเหล่านี้ ค) การประเมินความสอดคล้องของความคิดเห็นของผู้เชี่ยวชาญในกลุ่มที่มีผู้เชี่ยวชาญมากกว่าสองคน

ในสองกรณีแรกจะใช้ค่าสัมประสิทธิ์เป็นตัววัดความหนาแน่นของการเชื่อมต่อ ความสัมพันธ์ของอันดับ... ค่าสัมประสิทธิ์สหสัมพันธ์ของ Kendall หรือ Spearman ขึ้นอยู่กับว่าจะอนุญาตเฉพาะอันดับที่เข้มงวดหรือหลวม

ค่าสัมประสิทธิ์สหสัมพันธ์อันดับของเคนดัลล์สำหรับปัญหา (a)

ที่ไหน - จำนวนองค์ประกอบ r 1 ฉัน -อันดับที่ได้รับมอบหมายจากผู้เชี่ยวชาญคนแรก ผม−องค์ประกอบ; r 2 ฉัน -เช่นเดียวกันโดยผู้เชี่ยวชาญคนที่สอง

สำหรับปัญหา (b) ส่วนประกอบ (2.5) มีความหมายดังต่อไปนี้ m คือจำนวนคุณลักษณะขององค์ประกอบโดยประมาณทั้งสอง; r 1 ฉัน(r 2 i) - อันดับ ลักษณะที่iในการจัดอันดับองค์ประกอบแรก (ที่สอง) ที่กำหนดโดยกลุ่มผู้เชี่ยวชาญ

การจัดอันดับที่เข้มงวดใช้ค่าสัมประสิทธิ์สหสัมพันธ์อันดับ Rสเปียร์แมน:


ซึ่งส่วนประกอบมีความหมายเดียวกับข้อ (2.5)

ค่าสัมประสิทธิ์สหสัมพันธ์ (2.5), (2.6) มีค่าตั้งแต่ -1 ถึง +1 ถ้าค่าสัมประสิทธิ์สหสัมพันธ์คือ +1 แสดงว่าอันดับเท่ากัน หากเป็น -1 แสดงว่าอยู่ตรงข้าม (อันดับจะผกผันกัน) ความเท่าเทียมกันของสัมประสิทธิ์สหสัมพันธ์เป็นศูนย์หมายความว่าการจัดอันดับมีความเป็นอิสระเชิงเส้น (ไม่สัมพันธ์กัน)

เนื่องจากด้วยวิธีนี้ (ผู้เชี่ยวชาญคือ "มาตรวัด" ที่มีข้อผิดพลาดแบบสุ่ม) การจัดอันดับแต่ละรายการจึงถือเป็นการสุ่ม ปัญหาจึงเกิดขึ้นจากการทดสอบสมมติฐานทางสถิติเกี่ยวกับความสำคัญของค่าสัมประสิทธิ์สหสัมพันธ์ที่ได้รับ ในกรณีนี้ ใช้เกณฑ์นอยมันน์-เพียร์สัน: กำหนดโดยระดับนัยสำคัญของเกณฑ์ α และเมื่อทราบกฎการกระจายของสัมประสิทธิ์สหสัมพันธ์แล้ว ให้กำหนดค่าเกณฑ์ ค αโดยเปรียบเทียบค่าสัมประสิทธิ์สหสัมพันธ์ที่ได้รับ พื้นที่วิกฤตอยู่ทางด้านขวา (ในทางปฏิบัติ ค่าของเกณฑ์มักจะถูกคำนวณก่อน และระดับของนัยสำคัญจะถูกกำหนดจากมัน ซึ่งเปรียบเทียบกับระดับธรณีประตู α ).

ค่าสัมประสิทธิ์สหสัมพันธ์อันดับของ Kendall τ มีสำหรับ m> 10 การแจกแจงใกล้เคียงกับค่าปกติด้วยพารามิเตอร์ต่อไปนี้:

โดยที่ M [τ] - ความคาดหวังทางคณิตศาสตร์ D [τ] - ความแปรปรวน

ในกรณีนี้ จะใช้ตารางของฟังก์ชันการแจกแจงแบบปกติมาตรฐาน:

และขอบเขต τ α ของบริเวณวิกฤตถูกกำหนดให้เป็นรากของสมการ

หากค่าสัมประสิทธิ์ที่คำนวณได้ τ ≥ τ α การจัดอันดับจะถือว่าอยู่ในข้อตกลงที่ดี โดยทั่วไป ค่าของ α จะถูกเลือกในช่วง 0.01-0.05 สำหรับ t ≤ 10 การแจกแจงของ t แสดงไว้ในตาราง 2.1.

การตรวจสอบความสำคัญของความสอดคล้องของสองอันดับโดยใช้สัมประสิทธิ์สเปียร์แมน ρ ดำเนินการในลำดับเดียวกันโดยใช้ตารางการแจกแจงของนักเรียนสำหรับ m> 10

ในกรณีนี้ ปริมาณ

มีการแจกแจงใกล้เคียงกับการแจกแจงของนักเรียนด้วย - 2 องศาอิสระ ที่ > 30 การกระจายปริมาณ ρ อยู่ในข้อตกลงที่ดีกับการแจกแจงแบบปกติซึ่งมี M [ρ] = 0 และ D [ρ] =

สำหรับ t ≤ 10 ความสำคัญของ ρ จะถูกตรวจสอบโดยใช้ตาราง 2.2.

ถ้าอันดับไม่เข้มงวดก็ค่าสัมประสิทธิ์สเปียร์แมน

โดยที่ ρ คำนวณโดย (2.6);

โดยที่ k 1, k 2 - จำนวนกลุ่มต่าง ๆ ของอันดับที่ไม่เข้มงวดในอันดับที่หนึ่งและสองตามลำดับ l i คือจำนวนอันดับที่เหมือนกันใน ผมกลุ่ม. ในการใช้งานจริงของสัมประสิทธิ์สหสัมพันธ์อันดับ ρ ของ Spearman และ Kendall ควรระลึกไว้เสมอว่าค่าสัมประสิทธิ์ ρ จะให้ผลลัพธ์ที่แม่นยำยิ่งขึ้นในแง่ของความแปรปรวนขั้นต่ำ

ตาราง 2.1.การกระจายค่าสัมประสิทธิ์สหสัมพันธ์อันดับของเคนดัลล์

การส่งและประมวลผลก่อนการประเมินของผู้เชี่ยวชาญ

ในทางปฏิบัติ มีการใช้การประเมินหลายประเภท:

- คุณภาพสูง (บ่อยครั้ง, แย่กว่า, ดีกว่า, ใช่-ไม่ใช่),

- ขนาดประมาณการ (ช่วงของค่า 50-75, 76-90, 91-120 เป็นต้น)

คะแนนจากช่วงเวลาที่กำหนด (จาก 2 ถึง 5, 1 -10) เป็นอิสระร่วมกัน

จัดอันดับ (วัตถุจัดเรียงโดยผู้เชี่ยวชาญในลำดับที่แน่นอนและแต่ละรายการจะได้รับหมายเลขซีเรียล - อันดับ)

เปรียบเทียบ ได้จากวิธีเปรียบเทียบวิธีใดวิธีหนึ่ง

วิธีการเปรียบเทียบตามลำดับ

วิธีการเปรียบเทียบปัจจัยแบบคู่

ในขั้นตอนต่อไปของการประมวลผลความคิดเห็นของผู้เชี่ยวชาญ จำเป็นต้องประเมิน ระดับความสอดคล้องของความคิดเห็นเหล่านี้

ค่าประมาณที่ได้รับจากผู้เชี่ยวชาญถือได้ว่าเป็นตัวแปรสุ่ม ซึ่งการแจกแจงจะสะท้อนความคิดเห็นของผู้เชี่ยวชาญเกี่ยวกับความน่าจะเป็นของตัวเลือกเฉพาะของเหตุการณ์ (ปัจจัย) ดังนั้น เพื่อวิเคราะห์การกระจายและความสอดคล้องของการประมาณการของผู้เชี่ยวชาญ จึงใช้ลักษณะทางสถิติทั่วไป - ค่าเฉลี่ยและการวัดการกระจาย:

ค่าเฉลี่ยข้อผิดพลาดกำลังสอง

ช่วงตัวแปร ต่ำสุด - สูงสุด

- ค่าสัมประสิทธิ์การแปรผัน V = ค่าเฉลี่ยส่วนเบี่ยงเบนกำลังสอง / ค่าเฉลี่ยเลขคณิต (เหมาะสำหรับการประเมินทุกประเภท)

วี = σ ผม / x ผม เฉลี่ย

สำหรับอัตรา มาตรการความคล้ายคลึงกันแต่ความเห็น ผู้เชี่ยวชาญแต่ละคู่สามารถใช้ได้หลายวิธี:

สัมประสิทธิ์ความสัมพันธ์โดยคำนึงถึงจำนวนคำตอบที่ตรงกันและไม่ตรงกัน

ค่าสัมประสิทธิ์ความไม่สอดคล้องกันความคิดเห็นของผู้เชี่ยวชาญ

มาตรการทั้งหมดนี้สามารถนำมาใช้เพื่อเปรียบเทียบความคิดเห็นของผู้เชี่ยวชาญสองคน หรือเพื่อวิเคราะห์ความสัมพันธ์ระหว่างชุดของการประเมินในสองเหตุผล

ค่าสัมประสิทธิ์สหสัมพันธ์อันดับคู่ของสเปียร์แมน:

โดยที่ n คือจำนวนผู้เชี่ยวชาญ

c k - ความแตกต่างระหว่างการประมาณค่าของผู้เชี่ยวชาญ i-th และ j-th สำหรับปัจจัย T ทั้งหมด

ค่าสัมประสิทธิ์สหสัมพันธ์อันดับของ Kendall (ค่าสัมประสิทธิ์ความสอดคล้อง) ให้การประเมินโดยรวมของความสอดคล้องของความคิดเห็นของผู้เชี่ยวชาญทั้งหมดในทุกปัจจัย แต่สำหรับกรณีที่มีการใช้การประมาณอันดับเท่านั้น

พิสูจน์แล้วว่าค่าของ S เมื่อผู้เชี่ยวชาญทุกคนประมาณค่าปัจจัยทั้งหมดเท่ากัน มีค่าสูงสุดเท่ากับ

โดยที่ n คือจำนวนปัจจัย

m คือจำนวนผู้เชี่ยวชาญ

สัมประสิทธิ์ความสอดคล้องเท่ากับอัตราส่วน

นอกจากนี้ หาก W ใกล้เคียงกับ 1 ผู้เชี่ยวชาญทั้งหมดได้ให้ค่าประมาณที่สอดคล้องกันเพียงพอ มิฉะนั้นความคิดเห็นของพวกเขาจะไม่ได้รับการตกลง

สูตรการคำนวณ S แสดงไว้ด้านล่าง:

โดยที่ r ij คือค่าประมาณอันดับของปัจจัยที่ i โดยผู้เชี่ยวชาญที่ j

r cf คืออันดับเฉลี่ยของเมทริกซ์ทั้งหมดของการประมาณการและเท่ากับ

ดังนั้นสูตรการคำนวณ S สามารถอยู่ในรูปแบบ:

หากการประเมินของผู้เชี่ยวชาญแต่ละคนเกิดขึ้นพร้อมกัน และถูกทำให้เป็นมาตรฐานในระหว่างการประมวลผล ก็จะใช้สูตรอื่นในการคำนวณค่าสัมประสิทธิ์ความสอดคล้อง:



โดยที่ T j ถูกคำนวณสำหรับผู้เชี่ยวชาญแต่ละคน (ในกรณีที่การประเมินของเขาถูกทำซ้ำสำหรับวัตถุที่แตกต่างกัน) โดยคำนึงถึงการทำซ้ำตามกฎต่อไปนี้:

โดยที่ t j คือจำนวนกลุ่มที่มียศเท่ากันสำหรับผู้เชี่ยวชาญที่ j และ

ชั่วโมง k - จำนวนอันดับที่เท่ากันในกลุ่มที่ k ของอันดับที่เกี่ยวข้องของผู้เชี่ยวชาญที่ j

ตัวอย่าง. ให้ผู้เชี่ยวชาญ 5 คนใน 6 ปัจจัยมาตอบในการจัดอันดับดังตารางที่ 3 :

ตารางที่ 3 - คำตอบของผู้เชี่ยวชาญ

ผู้เชี่ยวชาญ О1 О2 O3 О4 O5 O6 ผลรวมอันดับโดยผู้เชี่ยวชาญ
E1
E2
E3
E4
E5

เนื่องจากไม่ได้รับการจัดอันดับที่เข้มงวด (การประเมินจากผู้เชี่ยวชาญซ้ำแล้วซ้ำอีกและผลรวมของอันดับไม่เท่ากัน) เราจะเปลี่ยนการประมาณการและรับอันดับที่เกี่ยวข้อง (ตารางที่ 4):

ตารางที่ 4 - อันดับที่เกี่ยวข้องของการประเมินผู้เชี่ยวชาญ

ผู้เชี่ยวชาญ О1 О2 O3 О4 O5 O6 ผลรวมอันดับโดยผู้เชี่ยวชาญ
E1 2,5 2,5
E2
E3 1,5 1,5 4,5 4,5
E4 2,5 2,5 4,5 4,5
E5 5,5 5,5
ผลรวมอันดับของวัตถุ 7,5 9,5 23,5 29,5

ทีนี้มาดูระดับความสอดคล้องของความคิดเห็นของผู้เชี่ยวชาญโดยใช้สัมประสิทธิ์ความสอดคล้องกัน เนื่องจากอันดับมีความเกี่ยวข้องกัน เราจะคำนวณ W ด้วยสูตร (**)

จากนั้น r cf = 7 * 5/2 = 17.5

S = 10 2 +8 2 +4.5 2 +4.5 2 +6 2 +12 2 = 384.5

ให้เราดำเนินการคำนวณ W สำหรับสิ่งนี้เราคำนวณค่า T j แยกกัน ในตัวอย่าง การประเมินจะได้รับการคัดเลือกมาเป็นพิเศษเพื่อให้ผู้เชี่ยวชาญแต่ละคนทำการประเมินซ้ำ: การประเมินครั้งแรกมีสองครั้ง ครั้งที่สองมีสาม การที่สามมีสองกลุ่มการให้คะแนนสองกลุ่ม และที่สี่มีการจัดอันดับที่เหมือนกันสองรายการ เพราะฉะนั้น:

T 1 = 2 3 - 2 = 6 T 5 = 6

T 2 = 3 3 - 3 = 24

Т 3 = 2 3 –2+ 2 3 –2 = 12 Т 4 = 12

เราเห็นว่าความเห็นของผู้เชี่ยวชาญมีความตกลงกันค่อนข้างสูงและเราสามารถดำเนินการในขั้นต่อไปของการศึกษาได้ - การพิสูจน์และการยอมรับทางเลือกของการตัดสินใจที่แนะนำโดยผู้เชี่ยวชาญ

มิฉะนั้น คุณต้องกลับไปที่ขั้นตอนที่ 4-8

ปัจจัยหนึ่งที่จำกัดการใช้เกณฑ์ตามสมมติฐานของภาวะปกติคือขนาดกลุ่มตัวอย่าง ตราบใดที่กลุ่มตัวอย่างมีขนาดใหญ่เพียงพอ (เช่น การสังเกต 100 ครั้งขึ้นไป) คุณสามารถสันนิษฐานได้ว่าการกระจายตัวอย่างเป็นเรื่องปกติ แม้ว่าคุณจะไม่แน่ใจว่าการกระจายของตัวแปรในประชากรเป็นเรื่องปกติ อย่างไรก็ตาม หากกลุ่มตัวอย่างมีขนาดเล็ก เกณฑ์เหล่านี้ควรใช้ก็ต่อเมื่อมีความมั่นใจว่าตัวแปรมีการกระจายตามปกติอย่างแท้จริง อย่างไรก็ตาม ไม่มีทางที่จะทดสอบสมมติฐานนี้กับกลุ่มตัวอย่างขนาดเล็กได้

การใช้เกณฑ์ตามสมมติฐานของภาวะปกติยังจำกัดอยู่ที่มาตราส่วนของการวัด (ดูบท แนวคิดพื้นฐานของการวิเคราะห์ข้อมูล) วิธีการทางสถิติ เช่น t-test การถดถอย ฯลฯ ถือว่าข้อมูลเดิมมีความต่อเนื่อง อย่างไรก็ตาม มีบางสถานการณ์ที่ข้อมูลถูกจัดลำดับอย่างง่าย ๆ (วัดจากมาตราส่วนลำดับ) มากกว่าที่จะวัดได้อย่างแม่นยำ

ตัวอย่างทั่วไปได้รับจากการให้คะแนนของไซต์บนอินเทอร์เน็ต: ตำแหน่งแรกคือไซต์ที่มีจำนวนผู้เข้าชมสูงสุด ตำแหน่งที่สองคือไซต์ที่มีจำนวนผู้เข้าชมสูงสุดในไซต์ที่เหลือ (ระหว่างไซต์ จากที่ไซต์แรกถูกลบออก) ฯลฯ เมื่อรู้การจัดอันดับเราสามารถพูดได้ว่าจำนวนผู้เยี่ยมชมไซต์หนึ่งมากกว่าจำนวนผู้เยี่ยมชมไซต์อื่น แต่จะพูดมากกว่านี้ไม่ได้ ลองนึกภาพคุณมี 5 ไซต์: A, B, C, D, E ซึ่งอยู่ใน 5 อันดับแรก สมมติว่าในเดือนปัจจุบัน เรามีการจัดเรียงดังต่อไปนี้: A, B, C, D, E และในเดือนก่อนหน้า: D, E, A, B, C คำถามคือ มีการเปลี่ยนแปลงที่สำคัญในการจัดอันดับเว็บไซต์ หรือไม่? ในสถานการณ์นี้ เห็นได้ชัดว่าเราไม่สามารถใช้ t-test เพื่อเปรียบเทียบข้อมูลสองกลุ่มนี้ และไปยังพื้นที่ของการคำนวณความน่าจะเป็นเฉพาะ (และเกณฑ์ทางสถิติใด ๆ มีการคำนวณความน่าจะเป็น!) เราให้เหตุผลดังนี้: เป็นไปได้มากน้อยเพียงใดที่ความแตกต่างในเค้าโครงไซต์ทั้งสองนั้นเกิดจากเหตุผลแบบสุ่มล้วนๆ หรือความแตกต่างนั้นมากเกินไปและไม่สามารถอธิบายได้ด้วยโอกาสล้วนๆ ด้วยเหตุผลนี้ เราใช้อันดับหรือการเปลี่ยนแปลงของไซต์เท่านั้น และไม่ใช้รูปแบบเฉพาะของการกระจายจำนวนผู้เข้าชมไซต์

สำหรับการวิเคราะห์ตัวอย่างขนาดเล็กและข้อมูลที่วัดได้ในระดับต่ำ จะใช้วิธีแบบไม่อิงพารามิเตอร์

ทัวร์ชมขั้นตอนที่ไม่ใช่พารามิเตอร์อย่างรวดเร็ว

โดยพื้นฐานแล้ว สำหรับแต่ละเกณฑ์พารามิเตอร์ จะมี อย่างน้อยทางเลือกหนึ่งที่ไม่ใช่พารามิเตอร์

โดยทั่วไป ขั้นตอนเหล่านี้จัดอยู่ในประเภทใดประเภทหนึ่งต่อไปนี้:

  • เกณฑ์การแยกตัวอย่างอิสระ
  • เกณฑ์ความแตกต่างสำหรับตัวอย่างที่ขึ้นต่อกัน
  • การประเมินระดับการพึ่งพาอาศัยกันระหว่างตัวแปร

โดยทั่วไป แนวทางสู่เกณฑ์ทางสถิติในการวิเคราะห์ข้อมูลควรเป็นแนวทางปฏิบัติและไม่ต้องแบกรับภาระในการให้เหตุผลทางทฤษฎีที่ไม่จำเป็น ด้วยคอมพิวเตอร์ของ STATISTICA คุณสามารถใช้เกณฑ์ต่างๆ กับข้อมูลของคุณได้อย่างง่ายดาย เมื่อทราบถึงข้อผิดพลาดบางประการของวิธีการ คุณจะเลือกวิธีแก้ปัญหาที่ถูกต้องผ่านการทดลอง การพัฒนาโครงเรื่องค่อนข้างเป็นธรรมชาติ หากคุณต้องการเปรียบเทียบค่าของตัวแปรสองตัว ให้ใช้ t-test อย่างไรก็ตาม ควรจำไว้ว่ามันอยู่บนพื้นฐานของสมมติฐานของภาวะปกติและความเท่าเทียมกันของความแปรปรวนในแต่ละกลุ่ม การหลุดพ้นจากสมมติฐานเหล่านี้ส่งผลให้มีการทดสอบแบบไม่อิงพารามิเตอร์ซึ่งมีประโยชน์อย่างยิ่งสำหรับตัวอย่างขนาดเล็ก

การพัฒนา t-test นำไปสู่การวิเคราะห์ความแปรปรวน ซึ่งใช้เมื่อจำนวนกลุ่มเปรียบเทียบมากกว่าสองกลุ่ม การพัฒนากระบวนการที่ไม่ใช่พารามิเตอร์ที่สอดคล้องกันนำไปสู่การวิเคราะห์ความแปรปรวนแบบไม่อิงพารามิเตอร์ แม้ว่าจะด้อยกว่าการวิเคราะห์ความแปรปรวนแบบดั้งเดิมอย่างมีนัยสำคัญ

ในการประเมินการพึ่งพาอาศัยกันหรือเพื่อให้ค่อนข้างโอ้อวดระดับความหนาแน่นของการเชื่อมต่อคำนวณค่าสัมประสิทธิ์สหสัมพันธ์แบบเพียร์สัน กล่าวโดยเคร่งครัด แอปพลิเคชันมีข้อจำกัดที่เกี่ยวข้อง เช่น ประเภทของมาตราส่วนที่มีการวัดข้อมูลและความไม่เป็นเชิงเส้นของการพึ่งพาอาศัยกัน ดังนั้น ค่าสัมประสิทธิ์สหสัมพันธ์จึงถูกนำมาใช้แทน ใช้ตัวอย่างเช่นสำหรับข้อมูลที่จัดอันดับ หากข้อมูลถูกวัดในระดับเล็กน้อย เป็นเรื่องปกติที่จะนำเสนอในตารางฉุกเฉินที่ใช้การทดสอบไคสแควร์ของ Pearson พร้อมรูปแบบและการแก้ไขที่หลากหลายเพื่อความแม่นยำ

โดยพื้นฐานแล้ว มีเกณฑ์และขั้นตอนเพียงไม่กี่ประเภทที่คุณต้องรู้และใช้งานได้ ทั้งนี้ขึ้นอยู่กับเฉพาะของข้อมูล คุณต้องพิจารณาว่าควรใช้เกณฑ์ใดในสถานการณ์เฉพาะ

วิธีการที่ไม่ใช่พารามิเตอร์จะเหมาะสมที่สุดเมื่อขนาดตัวอย่างมีขนาดเล็ก หากมีข้อมูลจำนวนมาก (เช่น n> 100) การใช้สถิติที่ไม่ใช่พารามิเตอร์มักไม่สมเหตุสมผล

หากขนาดตัวอย่างมีขนาดเล็กมาก (เช่น n = 10 หรือน้อยกว่า) ระดับนัยสำคัญของการทดสอบแบบไม่อิงพารามิเตอร์ที่ใช้การประมาณปกติจะถือเป็นการประมาณคร่าวๆ เท่านั้น

ความแตกต่างระหว่างกลุ่มอิสระ... หากมีตัวอย่างสองตัวอย่าง (เช่น ชายและหญิง) ที่ต้องเปรียบเทียบโดยเทียบกับค่าเฉลี่ยบางอย่าง เช่น ความดันเฉลี่ยหรือจำนวนเม็ดเลือดขาวในเลือด การทดสอบ t ก็สามารถใช้แยกกัน ตัวอย่าง

ทางเลือกที่ไม่ใช่พารามิเตอร์สำหรับการทดสอบนี้คือการทดสอบ Val'd-Wolfowitz, Mann-Whitney series) / n โดยที่ x i - ค่าที่ i, n คือจำนวนการสังเกต หากตัวแปรมีค่าลบหรือศูนย์ (0) จะไม่สามารถคำนวณค่าเฉลี่ยทางเรขาคณิตได้

ค่าเฉลี่ยฮาร์มอนิก

ค่าเฉลี่ยฮาร์มอนิกบางครั้งใช้กับความถี่เฉลี่ย ค่าเฉลี่ยฮาร์มอนิกคำนวณโดยสูตร: ГС = n / S (1 / x i) โดยที่ ГС คือค่าเฉลี่ยฮาร์มอนิก n คือจำนวนการสังเกต х i คือค่าของการสังเกตด้วยจำนวน i หากตัวแปรมีค่าเป็นศูนย์ (0) จะไม่สามารถคำนวณค่าเฉลี่ยฮาร์มอนิกได้

การกระจายตัวและส่วนเบี่ยงเบนมาตรฐาน

ความแปรปรวนตัวอย่างและค่าเบี่ยงเบนมาตรฐานเป็นการวัดความแปรปรวน (ความแปรปรวน) ของข้อมูลที่ใช้บ่อยที่สุด ความแปรปรวนคำนวณเป็นผลรวมของกำลังสองของการเบี่ยงเบนของค่าของตัวแปรจากค่าเฉลี่ยตัวอย่าง หารด้วย n-1 (แต่ไม่ใช่ n) ค่าเบี่ยงเบนมาตรฐานคำนวณเป็นรากที่สองของการประมาณค่าความแปรปรวน

แกว่ง

ช่วงของตัวแปรเป็นตัวบ่งชี้ความผันผวน โดยคำนวณเป็นค่าสูงสุดลบค่าต่ำสุด

ขอบเขตควอร์ไทล์

ตามคำนิยาม ช่วงรายไตรมาสคือ: ควอไทล์บนลบควอไทล์ล่าง (เปอร์เซ็นต์ไทล์ 75% ลบเปอร์เซ็นต์ไทล์ 25%) เนื่องจากเปอร์เซ็นไทล์ 75% (ควอร์ไทล์บน) เป็นค่าทางด้านซ้ายซึ่งมีเคสอยู่ 75% และเปอร์เซ็นไทล์ 25% (ควอร์ไทล์ล่าง) เป็นค่าทางด้านซ้ายของซึ่ง 25% ของเคสตั้งอยู่ ควอร์ไทล์ range คือช่วงรอบค่ามัธยฐาน ซึ่งประกอบด้วย 50% ของกรณี (ค่าตัวแปร)

ไม่สมมาตร

ความไม่สมมาตรเป็นลักษณะของรูปร่างของการแจกแจง การกระจายจะเบ้ไปทางซ้ายหากค่าความเบ้เป็นลบ การกระจายจะเบ้ไปทางขวาหากความไม่สมมาตรเป็นค่าบวก ความเบ้ของการแจกแจงแบบปกติมาตรฐานคือ 0 ความเบ้เกี่ยวข้องกับช่วงเวลาที่สามและถูกกำหนดเป็น: ความเบ้ = n × M 3 / [(n-1) × (n-2) × s 3] โดยที่ M 3 คือ: (xi -x ค่าเฉลี่ย x) 3, s 3 คือค่าเบี่ยงเบนมาตรฐานที่ยกกำลังสาม n คือจำนวนการสังเกต

ส่วนเกิน

Kurtosis เป็นลักษณะของรูปร่างของการแจกแจง กล่าวคือ การวัดความรุนแรงของจุดสูงสุด (เทียบกับการแจกแจงแบบปกติ ซึ่งมีความโด่งเท่ากับ 0) ตามกฎแล้ว การแจกแจงที่มีจุดสูงสุดที่คมชัดกว่าปกติจะมีความโด่งเป็นบวก การแจกแจงที่มีจุดสูงสุดน้อยกว่าจุดพีคของการแจกแจงแบบปกติจะมีความโด่งเป็นลบ ส่วนเกินนั้นสัมพันธ์กับช่วงเวลาที่สี่และถูกกำหนดโดยสูตร:

ความโด่ง = / [(n-1) × (n-2) × (n-3) × s 4] โดยที่ M j คือ: (xx ค่าเฉลี่ย x, s 4 คือค่าเบี่ยงเบนมาตรฐานของยกกำลังสี่ n คือ จำนวนการสังเกต ...

อันดับสัมประสิทธิ์สหสัมพันธ์กำหนดลักษณะทั่วไปของการพึ่งพาอาศัยกันแบบไม่เชิงเส้น: การเพิ่มขึ้นหรือลดลงในลักษณะที่มีประสิทธิภาพพร้อมกับปัจจัยหนึ่งที่เพิ่มขึ้น นี่เป็นตัวบ่งชี้ความหนาแน่นของความสัมพันธ์ที่ไม่เชิงเส้นแบบโมโนโทนิก

วัตถุประสงค์ในการให้บริการ... เครื่องคิดเลขออนไลน์นี้คำนวณ ค่าสัมประสิทธิ์สหสัมพันธ์อันดับของเคนดัลล์ตามสูตรพื้นฐานทั้งหมดตลอดจนการประเมินความสำคัญ

คำแนะนำ. ระบุจำนวนข้อมูล (จำนวนบรรทัด) ผลลัพธ์ที่ได้จะถูกบันทึกไว้ในไฟล์ Word

ค่าสัมประสิทธิ์ที่เสนอโดยเคนดัลล์สร้างขึ้นบนพื้นฐานของความสัมพันธ์ของประเภท "มากน้อย" ความถูกต้องซึ่งถูกกำหนดขึ้นเมื่อสร้างตาชั่ง
มาเลือกวัตถุสองสามชิ้นและเปรียบเทียบอันดับของพวกมันในแอตทริบิวต์หนึ่งและในอีกแอตทริบิวต์หนึ่ง หากตามเกณฑ์นี้ อันดับสร้างลำดับโดยตรง (นั่นคือ ลำดับของอนุกรมธรรมชาติ) คู่นั้นจะได้รับ +1 หากเป็นตรงกันข้าม ให้เท่ากับ –1 สำหรับคู่ที่เลือก หน่วยบวก - ลบที่สอดคล้องกัน (ตามแอตทริบิวต์ X และโดยแอตทริบิวต์ Y) จะถูกคูณ ผลลัพธ์ที่ได้คือ +1 อย่างชัดเจน หากอันดับของคู่คุณลักษณะทั้งสองอยู่ในลำดับเดียวกัน และ –1 หากกลับกัน
หากลำดับของอันดับเท่ากันสำหรับคู่ทั้งหมดตามเกณฑ์ทั้งสอง ผลรวมของหน่วยที่กำหนดให้กับคู่ของวัตถุทั้งหมดจะสูงสุดและเท่ากับจำนวนคู่ หากอันดับของทุกคู่กลับกัน ดังนั้น –C 2 N ในกรณีทั่วไป C 2 N = P + Q โดยที่ P คือจำนวนบวกและ Q คือจำนวนค่าลบที่กำหนดให้กับคู่เมื่อเปรียบเทียบอันดับของทั้งสองเกณฑ์
ปริมาณนี้เรียกว่าสัมประสิทธิ์ของเคนดัลล์
จากสูตรจะเห็นได้ว่าสัมประสิทธิ์ τ คือผลต่างระหว่างสัดส่วนของคู่ของวัตถุที่มีลำดับเท่ากันในเกณฑ์ทั้งสอง (เทียบกับจำนวนคู่ทั้งหมด) และสัดส่วนของคู่ของวัตถุที่ คำสั่งไม่เหมือนกัน
ตัวอย่างเช่น ค่าสัมประสิทธิ์ 0.60 หมายความว่า 80% ของคู่มีลำดับของวัตถุเหมือนกัน ในขณะที่ 20% ไม่มี (80% + 20% = 100%; 0.80 - 0.20 = 0.60) เหล่านั้น. τ สามารถตีความได้ว่าเป็นผลต่างระหว่างความน่าจะเป็นของความบังเอิญและการไม่บังเอิญของคำสั่งในสัญญาณทั้งสองสำหรับวัตถุคู่แบบสุ่มที่เลือก
ในกรณีทั่วไป การคำนวณ τ (แม่นยำกว่าคือ P หรือ Q) แม้แต่ N ของลำดับ 10 กลับกลายเป็นเรื่องยุ่งยาก
มาดูวิธีการลดความซับซ้อนของการคำนวณกัน


ตัวอย่าง. ความสัมพันธ์ระหว่างปริมาณการผลิตภาคอุตสาหกรรมและการลงทุนในสินทรัพย์ถาวรใน 10 ภูมิภาคของเขตสหพันธรัฐรัสเซียในปี 2546 มีลักษณะดังนี้:


คำนวณค่าสัมประสิทธิ์สหสัมพันธ์อันดับ Spearman และ Kendal ตรวจสอบความสำคัญที่ α = 0.05 กำหนดข้อสรุปเกี่ยวกับความสัมพันธ์ระหว่างปริมาณการผลิตภาคอุตสาหกรรมกับการลงทุนในสินทรัพย์ถาวรในภูมิภาคของสหพันธรัฐรัสเซียที่กำลังพิจารณา

สารละลาย... มากำหนดอันดับให้กับแอตทริบิวต์ Y และปัจจัย X


ลองเรียงลำดับข้อมูลตาม X
ในแถว Y ทางด้านขวาของ 3 มี 7 อันดับเกิน 3 ดังนั้น 3 จะสร้างเทอม 7 ใน P
ทางด้านขวาของ 1 มี 8 ตำแหน่งที่เกิน 1 (เหล่านี้คือ 2, 4, 6, 9, 5, 10, 7, 8) เช่น 8 จะเข้าสู่ P เป็นต้น เป็นผลให้ Р = 37 และใช้สูตรที่เรามี:

XYอันดับ X, dxยศ Y, d yพีคิว
18.4 5.57 1 3 7 2
20.6 2.88 2 1 8 0
21.5 4.12 3 2 7 0
35.7 7.24 4 4 6 0
37.1 9.67 5 6 4 1
39.8 10.48 6 9 1 3
51.1 8.58 7 5 3 0
54.4 14.79 8 10 0 2
64.6 10.22 9 7 1 0
90.6 10.45 10 8 0 0
37 8


โดยสูตรง่าย ๆ :




โดยที่ n คือขนาดตัวอย่าง z kp เป็นจุดวิกฤตของภูมิภาควิกฤตทวิภาคี ซึ่งพบได้จากตารางฟังก์ชัน Laplace โดยความเท่าเทียมกัน Ф (z kp) = (1-α) / 2
ถ้า | τ |< T kp - нет оснований отвергнуть нулевую гипотезу. Ранговая корреляционная связь между качественными признаками незначима. Если |τ| >T kp - สมมติฐานว่างถูกปฏิเสธ มีความสัมพันธ์อันดับที่มีนัยสำคัญระหว่างคุณลักษณะเชิงคุณภาพ
ค้นหาจุดวิกฤต z kp
Ф (z kp) = (1-α) / 2 = (1 - 0.05) / 2 = 0.475

มาหาจุดวิกฤตกันเถอะ:

ตั้งแต่ τ> T kp - เราปฏิเสธสมมติฐานว่าง อันดับความสัมพันธ์ระหว่างคะแนนในการทดสอบทั้งสองมีนัยสำคัญ

ตัวอย่าง. ตามข้อมูลปริมาณงานก่อสร้างและติดตั้งที่ทำ ได้ด้วยตัวเองและจำนวนพนักงานในบริษัทก่อสร้าง 10 แห่งในเมืองหนึ่งของสหพันธรัฐรัสเซีย กำหนดความสัมพันธ์ระหว่างสัญญาณเหล่านี้โดยใช้สัมประสิทธิ์เคนดัล

สารละลายหาด้วยเครื่องคิดเลข
มากำหนดอันดับให้กับแอตทริบิวต์ Y และปัจจัย X
มาจัดเรียงวัตถุกันเพื่อให้อันดับ X ของพวกมันแทนอนุกรมธรรมชาติกัน เนื่องจากค่าประมาณที่กำหนดให้กับแต่ละคู่ของซีรีส์นี้เป็นค่าบวก ค่า "+1" ที่รวมอยู่ใน P จะถูกสร้างขึ้นโดยคู่ที่มีอันดับใน Y จากลำดับโดยตรงเท่านั้น
คำนวณได้ง่ายโดยการเปรียบเทียบอันดับของแต่ละวัตถุในแถว Y กับวัตถุเหล็กตามลำดับ
ค่าสัมประสิทธิ์เคนดัลล์.

ในกรณีทั่วไป การคำนวณ τ (แม่นยำกว่าคือ P หรือ Q) แม้แต่ N ของลำดับ 10 กลับกลายเป็นเรื่องยุ่งยาก มาดูวิธีการลดความซับซ้อนของการคำนวณกัน

หรือ

สารละลาย.
ลองเรียงลำดับข้อมูลตาม X
ในแถว Y ทางด้านขวาของ 2 มี 8 อันดับเกิน 2 ดังนั้น 2 จะสร้างเทอม 8 ใน P
ทางด้านขวาของ 4 มี 6 อันดับเกิน 4 (เหล่านี้คือ 7, 5, 6, 8, 9, 10) เช่น 6 จะเข้าสู่ P เป็นต้น เป็นผลให้ P = 29 และใช้สูตรที่เรามี:

XYอันดับ X, dxยศ Y, d yพีคิว
38 292 1 2 8 1
50 302 2 4 6 2
52 366 3 7 3 4
54 312 4 5 4 2
59 359 5 6 3 2
61 398 6 8 2 2
66 401 7 9 1 2
70 298 8 3 1 1
71 283 9 1 1 0
73 413 10 10 0 0
29 16


โดยสูตรง่าย ๆ :


เพื่อทดสอบสมมติฐานว่างเกี่ยวกับความเท่าเทียมกันของสัมประสิทธิ์สหสัมพันธ์อันดับทั่วไปของเคนดัลล์เป็นศูนย์ที่ระดับนัยสำคัญ α ด้วยสมมติฐานที่แข่งขันกัน H 1: τ ≠ 0 จำเป็นต้องคำนวณจุดวิกฤต:

โดยที่ n คือขนาดตัวอย่าง z kp เป็นจุดวิกฤตของบริเวณวิกฤตแบบสองด้าน ซึ่งพบได้จากตารางของฟังก์ชัน Laplace โดยความเท่าเทียมกัน Ф (z kp) = (1 - α) / 2
ถ้า | τ | T kp - สมมติฐานว่างถูกปฏิเสธ มีความสัมพันธ์อันดับที่มีนัยสำคัญระหว่างคุณลักษณะเชิงคุณภาพ
ค้นหาจุดวิกฤต z kp
Ф (z kp) = (1 - α) / 2 = (1 - 0.05) / 2 = 0.475
โดยใช้ตาราง Laplace เราพบ z kp = 1.96
มาหาจุดวิกฤตกันเถอะ:

ตั้งแต่ τ