Računalniki Windows internet

Kendall Rank Correlation Coeficient. Kendallov rang korelacijski koeficient. Poglejte, kaj je "Kendall rank korelacijski koeficient" v drugih slovarjih

Kendallov korelacijski koeficient se uporablja, kadar so spremenljivke predstavljene z dvema ordinalnima lestvicama, pod pogojem, da ni povezanih rangov. Izračun Kendallovega koeficienta je povezan s štetjem števila ujemanj in inverzij. Oglejmo si ta postopek na primeru prejšnjega problema.

Algoritem za rešitev problema je naslednji:

    Ponovno formatiramo podatke tabele. 8.5, tako da ena od vrstic (v tem primeru vrstica x i) je bil uvrščen. Z drugimi besedami, zamenjamo pare x in y v pravilnem vrstnem redu in vnesemo podatke v 1. in 2. stolpec tabele. 8.6.

Tabela 8.6

x jaz

y jaz

2. Določite "stopnjo uvrstitve" 2. vrstice ( y jaz). Ta postopek se izvaja v naslednjem zaporedju:

a) vzemite prvo vrednost neuvrščene serije "3". Štetje števila rangov spodaj dano številko, ki več primerjalna vrednost. Obstaja 9 takšnih vrednosti (številke 6, 7, 4, 9, 5, 11, 8, 12 in 10). V stolpec »naključje« vpišemo številko 9. Nato preštejemo število teh vrednosti manj trije. Obstajata 2 takšni vrednosti (uvrsti 1 in 2); v stolpec "inverzija" vnesite številko 2.

b) zavrzite številko 3 (z njo smo že delali) in ponovite postopek za naslednjo vrednost "6": število ujemanj je 6 (vrste 7, 9, 11, 8, 12 in 10), število inverzije je 4 (uvrstitve 1, 2, 4 in 5). V stolpec »naključje« vnesemo številko 6, v stolpec »inverzija« pa številko 4.

c) na podoben način se postopek ponavlja do konca vrste; hkrati pa je treba zapomniti, da je vsaka "izdelana" vrednost izključena iz nadaljnjega obravnavanja (izračunajo se samo uvrstitve, ki so pod to številko).

Opomba

Da ne bi prišlo do napak pri izračunih, je treba upoštevati, da se z vsakim "korakom" vsota naključij in inverzij zmanjša za eno; to je razumljivo, saj je vsakič ena vrednost izključena iz obravnave.

3. Izračuna se vsota tekem (R) in vsota inverzij (Q); podatki se vnesejo v eno in tri zamenljive formule Kendallovega koeficienta (8.10). Izvedejo se ustrezni izračuni.

t (8.10)

v našem primeru:

V tabeli. XIV Aplikacije so kritične vrednosti koeficienta za dani vzorec: τ cr. = 0,45; 0,59. Empirično pridobljeno vrednost primerjamo z vrednostjo tabele.

Izhod

τ = 0,55 > τ kr. = 0,45. Korelacija je statistično pomembna za raven 1.

Opomba:

Po potrebi (na primer, če ni tabele kritičnih vrednosti), statistična pomembnost t Kendalla je mogoče definirati s formulo, kot je ta:

(8.11)

kje S* = P - Q+ 1 če P< Q , In S* = P - Q - 1 če P > Q.

Vrednote z za ustrezno raven pomembnosti ustrezajo Pearsonovi meri in se nahajajo v skladu z ustreznimi tabelami (ni vključene v dodatek. Za standardne ravni pomembnosti z cr = 1,96 (za β 1 ​​= 0,95) in 2,58 (za β 2 = 0,99). Kendallov korelacijski koeficient je statistično pomemben, če z > z kr

V našem primeru S* = P - Q– 1 = 35 in z= 2,40, se pravi začetni sklep je potrjen: korelacija med znaki je statistično pomembna za 1. stopnjo pomembnosti.

Strokovnjak mora pri razvrščanju razvrstiti ocenjene elemente v naraščajočem (padajočem) vrstnem redu po njihovi želji in vsakemu od njih dodeliti uvrstitve v obliki naravnih števil. Pri neposrednem razvrščanju ima najbolj zaželen element rang 1 (včasih 0), najmanj zaželen element pa rang m.

Če strokovnjak ne more izvesti strogega razvrščanja zaradi dejstva, da so po njegovem mnenju nekateri elementi po prednosti enaki, je dovoljeno tem elementom dodeliti enake uvrstitve. Za zagotovitev, da je vsota rangov enaka vsoti mest razvrščenih elementov, se uporabljajo tako imenovane standardizirane uvrstitve. Standardizirani rang je aritmetična sredina števila elementov v razvrščeni seriji, ki so enaki po prednosti.

Primer 2.6. Strokovnjak je šest postavk razvrstil po želji na naslednji način:

Potem bodo standardizirane vrste teh elementov

Tako bo vsota rangov, dodeljenih elementom, enaka vsoti naravnih števil.

Natančnost izražanja preferenc z elementi razvrščanja je bistveno odvisna od kardinalnosti niza predstavitev. Postopek razvrščanja daje najbolj zanesljive rezultate (glede na stopnjo bližine razkrite preference in »resnične«), ko število ovrednotenih elementov ni več kot 10. Omejitvena moč predstavitvenega niza ne sme presegati 20.

Obdelava in analiza uvrstitev se izvajata z namenom, da se na podlagi individualnih preferenc vzpostavi odnos skupinskih preferenc. V tem primeru se lahko zastavijo naslednje naloge: a) ugotavljanje tesnosti povezave med uvrstitvami dveh strokovnjakov na elemente sklopa predstavitev; b) ugotavljanje razmerja med dvema elementoma glede na posamezna mnenja članov skupine glede različnih značilnosti teh elementov; c) ocena konsenza mnenj strokovnjakov v skupini, ki vsebuje več kot dva strokovnjaka.

V prvih dveh primerih se koeficient uporablja kot merilo tesnosti odnosa rang korelacija. Glede na to, ali je dovoljeno samo strogo ali nestrogo razvrščanje, se uporablja Kendallov ali Spearmanov koeficient rangiranja.

Kendallov koeficient korelacije ranga za problem (a)

kje m− število elementov; r 1 i – rang, ki ga dodeli prvi strokovnjak jaz-th element; r 2 i – isti, drugi strokovnjak.

Za problem (b) imajo komponente (2.5) naslednji pomen: m je število značilnosti obeh elementov, ki se ocenjujeta; r 1 i(r 2 i) - rang i-ta značilnost v razvrstitvi prvega (drugega) elementa, ki ga je postavila skupina strokovnjakov.

Strogo razvrščanje uporablja koeficient rangiranja R Spearman:


katerih komponente imajo enak pomen kot v (2.5).

Korelacijski koeficienti (2,5), (2,6) se gibljejo od -1 do +1. Če je korelacijski koeficient +1, potem to pomeni, da so uvrstitve enake; če je enako -1, potem sta − nasprotna (razvrstitve so med seboj inverzne). Enakost korelacijskega koeficienta nič pomeni, da so uvrstitve linearno neodvisne (nekorelirane).

Ker pri tem pristopu (strokovnjak je »merilno orodje« z naključno napako) posamezne uvrstitve obravnavamo kot naključne, se pojavi problem statističnega preverjanja hipoteze o pomembnosti dobljenega korelacijskega koeficienta. V tem primeru se uporablja Neyman-Pearsonov test: nastavljeni so s stopnjo pomembnosti merila α in ob poznavanju zakonitosti porazdelitve korelacijskega koeficienta določijo mejno vrednost , s katerim se primerja dobljena vrednost korelacijskega koeficienta. Kritično območje je desno (v praksi se običajno najprej izračuna vrednost kriterija in iz nje določi stopnja pomembnosti, ki jo primerjamo s mejno vrednostjo α ).

Koeficient korelacije ranga τ Kendall ima za m > 10 porazdelitev blizu normalne z naslednjimi parametri:

kjer je M [τ] matematično pričakovanje; D [τ] je disperzija.

V tem primeru se uporabljajo tabele standardne normalne porazdelitvene funkcije:

in meja τ α kritičnega območja je definirana kot koren enačbe

Če je izračunana vrednost koeficienta τ ≥ τ α , potem se šteje, da se uvrstitve zelo dobro ujemajo. Običajno je vrednost α izbrana v območju 0,01-0,05. Za m ≤ 10 je porazdelitev m podana v tabeli. 2.1.

Preverjanje pomembnosti konsistentnosti dveh razvrstitev z uporabo Spearmanovega koeficienta ρ se izvede v enakem vrstnem redu z uporabo Studentovih distribucijskih tabel za m > 10.

V tem primeru vrednost

ima distribucijo, dobro aproksimirano s študentovo distribucijo s m– 2 stopnji svobode. Pri m> 30, se porazdelitev ρ dobro ujema z normalno, ki ima M [ρ] = 0 in D [ρ] = .

Za m ≤ 10 se pomembnost ρ preveri s tabelo. 2.2.

Če uvrstitve niso stroge, potem Spearmanov koeficient

kjer je ρ izračunan v skladu z (2.6);

kjer je k 1 , k 2 število različnih skupin nestrogih rangov na prvi in ​​drugi lestvici; l i je število enakih rangov v jaz-to skupino. Pri praktični uporabi Spearmanovih rang korelacijskih koeficientov ρ in Kendallovega τ je treba upoštevati, da koeficient ρ zagotavlja natančnejši rezultat v smislu minimalne variance.

Tabela 2.1.Porazdelitev Kendallovega ranga korelacijskega koeficienta

Predstavitev in predobdelava strokovnih ocen

V praksi se uporablja več vrst ocen:

- kakovost (pogosto-redko, slabše-boljše, da-ne),

- ocene na lestvici (razpon vrednosti 50-75, 76-90, 91-120 itd.),

Ocene iz danega intervala (od 2 do 5, 1 -10), medsebojno neodvisne,

Uvrščeni (predmete strokovnjak razvrsti po določenem vrstnem redu, vsakemu pa je dodeljena serijska številka - rang),

Primerjalna, pridobljena z eno od primerjalnih metod

metoda zaporednih primerjav

metoda parne primerjave faktorjev.

V naslednjem koraku pri obdelavi strokovnih mnenj je treba oceniti stopnja soglasja teh pogledov.

Ocene, prejete od strokovnjakov, lahko obravnavamo kot naključno spremenljivko, katere porazdelitev odraža mnenja strokovnjakov o verjetnosti določene izbire dogodka (faktorja). Zato se za analizo razpršenosti in doslednosti strokovnih ocen uporabljajo posplošene statistične značilnosti - povprečja in razpršene mere:

povprečna kvadratna napaka,

Razpon variacije min - max,

- koeficient variacije V \u003d rms. devi./aritm. povprečje. (primerno za vse vrste ocenjevanja)

V i = σ i / x i prim

Za stopnjo meritve podobnosti ampak mnenja vsak par strokovnjakov Uporabite lahko različne metode:

asociacijski koeficienti, ki upoštevajo število ujemajočih se in neujemajočih se odgovorov,

koeficienti neskladnosti strokovna mnenja,

Vse te mere je mogoče uporabiti bodisi za primerjavo mnenj dveh strokovnjakov bodisi za analizo razmerja med nizom ocen po dveh kriterijih.

Spearmanov parni korelacijski koeficient ranga:

kjer je n število strokovnjakov,

c k je razlika med ocenami i-tega in j-tega strokovnjaka za vse T faktorje

Kendallov koeficient rank korelacije (koeficient skladnosti) daje splošno oceno konsistentnosti mnenj vseh strokovnjakov o vseh dejavnikih, vendar le za primere, ko so bile uporabljene ocene ranga.

Dokazano je, da ima vrednost S največjo vrednost, ko vsi strokovnjaki dajo enako oceno vseh faktorjev

kjer je n število faktorjev,

m je število strokovnjakov.

Koeficient skladnosti je enak razmerju

poleg tega, če je W blizu 1, potem so vsi strokovnjaki dali dokaj konsistentne ocene, sicer pa so njihova mnenja nekonsistentna.

Formula za izračun S je podana spodaj:

kjer je r ij - ocene razvrstitve i-tega faktorja s strani j-tega strokovnjaka,

r cf - povprečni rang po celotni matriki ocen in je enak

In zato lahko formula za izračun S ima obliko:

Če so posamezne ocene enega strokovnjaka enake in so bile med obdelavo standardizirane, se za izračun koeficienta skladnosti uporabi druga formula:



kjer se T j izračuna za vsakega strokovnjaka (v primeru, da so bile njegove ocene ponovljene za različne objekte), pri čemer se upoštevajo ponovitve po naslednjih pravilih:

kjer je t j število skupin enakih rangov za j-tega strokovnjaka in

h k - število enakih rangov v k-ti skupini sorodnih činov j-tega strokovnjaka.

PRIMER. Naj se pri razvrščanju odzove 5 strokovnjakov za šest dejavnikov, kot je prikazano v tabeli 3:

Tabela 3 – Odgovori strokovnjakov

Strokovnjaki O1 O2 O3 O4 O5 O6 Seštevek ocen strokovnjakov
E1
E2
E3
E4
E5

Ker je bila pridobljena nestroga razvrstitev (ocene strokovnjakov se ponavljajo, vsote rangov pa niso enake), bomo preoblikovali ocene in pridobili pripadajoče uvrstitve (tabela 4):

Tabela 4 - Sorodne stopnje ocen strokovnjakov

Strokovnjaki O1 O2 O3 O4 O5 O6 Seštevek ocen strokovnjakov
E1 2,5 2,5
E2
E3 1,5 1,5 4,5 4,5
E4 2,5 2,5 4,5 4,5
E5 5,5 5,5
Vsota rangov po predmetu 7,5 9,5 23,5 29,5

Zdaj pa določimo stopnjo soglasja mnenj strokovnjakov s pomočjo koeficienta skladnosti. Ker so rangi povezani, bomo W izračunali po formuli (**).

Potem je r cf = 7 * 5 / 2 = 17,5

S = 10 2 +8 2 +4,5 2 +4,5 2 +6 2 +12 2 = 384,5

Pojdimo na izračun W. Če želite to narediti, ločeno izračunamo vrednosti T j . V primeru so ocene posebej izbrane tako, da ima vsak izvedenec ponavljajoče se ocene: prvi ima dve, drugi tri, tretji dve skupini po dve oceni, četrti in peti imata dve enaki oceni. Od tod:

T 1 = 2 3 - 2 \u003d 6 T 5 \u003d 6

T 2 \u003d 3 3 - 3 \u003d 24

T 3 \u003d 2 3 -2+ 2 3 -2 \u003d 12 T 4 = 12

Vidimo, da je konsenz mnenj strokovnjakov precej visok in je mogoče preiti na naslednjo fazo študije – utemeljitev in sprejetje alternativne rešitve, ki jo priporočajo strokovnjaki.

V nasprotnem primeru se morate vrniti na korake 4-8.

Eden od dejavnikov, ki omejujejo uporabo meril, ki temeljijo na predpostavki normalnosti, je velikost vzorca. Dokler je vzorec dovolj velik (na primer 100 ali več opazovanj), lahko domnevate, da je porazdelitev vzorca normalna, tudi če niste prepričani, da je porazdelitev spremenljivke v populaciji normalna. Če pa je vzorec majhen, je treba te teste uporabiti le, če obstaja prepričanje, da je spremenljivka res normalno porazdeljena. Vendar te domneve ni mogoče preizkusiti na majhnem vzorcu.

Uporaba meril, ki temeljijo na predpostavki normalnosti, je omejena tudi z merilno lestvico (glej poglavje Osnovni pojmi analize podatkov). Statistične metode, kot so t-test, regresija itd., predvidevajo, da so prvotni podatki neprekinjeni. Vendar pa obstajajo situacije, ko so podatki preprosto razvrščeni (merjeni na ordinalni lestvici) in ne natančno izmerjeni.

Tipičen primer so ocene spletnih mest na internetu: prvo mesto zaseda stran z največjim številom obiskovalcev, drugo mesto zaseda stran z največjim številom obiskovalcev med preostalimi stranmi (med spletnimi mesti, s katerih prva stran je bila odstranjena) itd. Ob poznavanju ocen lahko rečemo, da je število obiskovalcev ene strani večje od števila obiskovalcev druge, koliko več, pa je nemogoče reči. Predstavljajte si, da imate 5 mest: A, B, C, D, E, ki se nahajajo na prvih 5 mestih. Recimo, da smo imeli v tekočem mesecu naslednjo ureditev: A, B, C, D, E, v prejšnjem mesecu pa: D, E, A, B, C. Vprašanje je, ali je prišlo do bistvenih sprememb v ocenah strani ali ne? V tej situaciji očitno ne moremo uporabiti t-testa za primerjavo teh dveh nizov podatkov in se premikamo v področje specifičnih verjetnostnih izračunov (in vsak statistični test vsebuje verjetnostni izračun!). Razmišljamo približno takole: kolikšna je verjetnost, da je razlika v obeh ureditvah lokacij posledica čisto naključnih razlogov ali pa je ta razlika prevelika in je ni mogoče razložiti s čisto naključjem. V teh razpravah uporabljamo samo uvrstitve ali permutacije spletnih mest in ne uporabljamo posebne vrste porazdelitve števila obiskovalcev na njih.

Za analizo majhnih vzorcev in za podatke, merjene na slabih lestvicah, se uporabljajo neparametrične metode.

Kratek pregled neparametričnih postopkov

V bistvu za vsako parametrično merilo obstajajo: vsaj, ena neparametrična alternativa.

Na splošno ti postopki spadajo v eno od naslednjih kategorij:

  • merila razlike za neodvisne vzorce;
  • merila razlike za odvisne vzorce;
  • ocena stopnje odvisnosti med spremenljivkami.

Na splošno bi moral biti pristop k statističnim merilom pri analizi podatkov pragmatičen in ne obremenjen z nepotrebnimi teoretičnimi premisleki. Z računalnikom STATISTICA, ki vam je na voljo, lahko preprosto uporabite več kriterijev za svoje podatke. Če poznate nekatere pasti metod, boste z eksperimentiranjem izbrali pravo rešitev. Razvoj grafa je povsem naraven: če morate primerjati vrednosti dveh spremenljivk, uporabite t-test. Vendar je treba spomniti, da temelji na predpostavki normalnosti in enakosti variance v vsaki skupini. Osvoboditev teh predpostavk vodi do neparametričnih testov, ki so še posebej uporabni za majhne vzorce.

Razvoj t-testa vodi v analizo variance, ki se uporablja, ko je število primerjanih skupin večje od dveh. Ustrezen razvoj neparametričnih postopkov vodi do neparametrične analize variance, čeprav je precej slabša od klasične analize variance.

Za oceno odvisnosti ali, če se izrazimo nekoliko veličastno, stopnje tesnosti povezave, se izračuna Pearsonov korelacijski koeficient. Strogo gledano, ima njegova uporaba omejitve, povezane, na primer, z vrsto lestvice, na kateri se merijo podatki, in nelinearnostjo odvisnosti, torej kot alternativni, neparametrični ali tako imenovani rang, korelacijski koeficienti se uporabljajo tudi, ki se uporabljajo na primer za razvrščene podatke. Če se podatki merijo na nominalni lestvici, potem je naravno, da jih predstavimo v kontingenčnih tabelah, ki uporabljajo Pearsonov hi-kvadrat test z različnimi variacijami in prilagoditvami za natančnost.

Torej je v bistvu le nekaj vrst meril in postopkov, ki jih morate poznati in znati uporabljati, odvisno od posebnosti podatkov. Določiti morate, katero merilo je treba uporabiti v določeni situaciji.

Neparametrične metode so najbolj primerne, če je velikost vzorca majhna. Če je podatkov veliko (na primer n > 100), pogosto ni smiselno uporabljati neparametrične statistike.

Če je velikost vzorca zelo majhna (na primer n = 10 ali manj), se lahko ravni pomembnosti za tiste neparametrične teste, ki uporabljajo normalni približek, obravnavajo le kot grobe ocene.

Razlike med neodvisnimi skupinami. Če obstajata dva vzorca (npr. moški in ženske), ki ju je treba primerjati glede na neko srednjo vrednost, kot je povprečni krvni tlak ali število belih krvnih celic, se lahko uporabi neodvisni vzorčni t-test.

Neparametrične alternative temu testu so test serije Wald-Wolfowitz, Mann-Whitney )/n, kjer je x i - i-ta vrednost, n - število opazovanj. Če spremenljivka vsebuje negativne vrednosti ali nič (0), geometrijske sredine ni mogoče izračunati.

Harmonično povprečje

Harmonično sredino se včasih uporablja za povprečje frekvenc. Harmonično povprečje izračunamo po formuli: HS = n/S(1/x i) kjer je HS harmonično povprečje, n število opazovanj, x i vrednost opazovanja s številko i. Če spremenljivka vsebuje nič (0), harmonične sredine ni mogoče izračunati.

Varianca in standardni odklon

Varianca vzorca in standardna deviacija sta najpogosteje uporabljena merila variabilnosti (variacije) podatkov. Varianca se izračuna kot vsota kvadratov odstopanj vrednosti spremenljivke od srednje vrednosti vzorca, deljena z n-1 (ne pa z n). Standardni odklon se izračuna kot kvadratni koren ocene variance.

Obseg

Razpon spremenljivke je merilo nestanovitnosti, izračunano kot maksimum minus minimum.

Kvartilni razpon

Četrtletni razpon je po definiciji: zgornji kvartil minus spodnji kvartil (75 % percentil minus 25 % percentil). Ker je 75 % percentil (zgornji kvartil) vrednost, levo od katere je 75 % opazovanj, in 25 % percentil (spodnji kvartil) vrednost, levo od katere je 25 % opazovanj, je kvartil razpon je interval okoli mediane, ki vsebuje 50 % opazovanj (vrednosti spremenljivke).

Asimetrija

Poševnost je značilnost oblike porazdelitve. Porazdelitev je nagnjena v levo, če je poševnost negativna. Porazdelitev je nagnjena v desno, če je poševnost pozitivna. Poševnost standardne normalne porazdelitve je 0. Poševnost je povezana s tretjim trenutkom in je definirana kot: poševnost = n × M 3 /[(n-1) × (n-2) × s 3 ], kjer je M 3 je: (xi -xmean x) 3 , s 3 - standardni odklon, dvignjen na tretjo potenco, n - število opazovanj.

Presežek

Kurtoza je značilnost oblike porazdelitve, in sicer merilo ostrine njenega vrha (glede na normalno porazdelitev, katere eksces je 0). Na splošno imajo porazdelitve z ostrejšim vrhom kot normalna porazdelitev pozitivno ekscesijo; porazdelitve, katerih vrh je manj oster od vrha normalne porazdelitve, imajo negativno ekscesijo. Kurtoza je povezana s četrtim trenutkom in je določena s formulo:

kurtosis = /[(n-1) × (n-2) × (n-3) × s 4 ], kjer je M j: (xx povprečje x, s 4 je standardni odklon na četrto potenco, n je število opazovanj.

Koeficient rangiranja označuje splošno naravo nelinearne odvisnosti: povečanje ali zmanjšanje rezultantnega predznaka s povečanjem faktorskega. To je pokazatelj tesnosti monotonega nelinearnega razmerja.

Servisna naloga. Ta spletni kalkulator izračuna Kendalov rang korelacijski koeficient za vse osnovne formule, kot tudi oceno njenega pomena.

Navodilo. Določite količino podatkov (število vrstic). Nastala rešitev se shrani v Wordovo datoteko.

Koeficient, ki ga je predlagal Kendall, je zgrajen na podlagi razmerij tipa "več-manj", katerih veljavnost je bila ugotovljena pri konstruiranju lestvic.
Izpostavimo nekaj predmetov in primerjajmo njihove uvrstitve po enem in po drugem atributu. Če rangi tvorijo neposreden vrstni red glede na to lastnost (tj. vrstni red naravnega niza), se paru dodeli +1, če nasprotno, potem -1. Za izbrani par se pomnožijo ustrezne enote plus-minus (s funkcijo X in s funkcijo Y). Rezultat je očitno +1; če so rangi para obeh značilnosti v istem zaporedju, in -1, če so v obratnem vrstnem redu.
Če je vrstni red za obe značilnosti enak za vse pare, je vsota enot, dodeljenih vsem parom objektov, največja in enaka številu parov. Če je vrstni red vseh parov obrnjen, potem –C 2 N . V splošnem primeru je C 2 N = P + Q, kjer je P število pozitivnih in Q negativnih enot, dodeljenih parom, ko primerjamo njihove uvrstitve za obe značilnosti.
Vrednost se imenuje Kendallov koeficient.
Iz formule je razvidno, da je koeficient τ razlika med deležem parov predmetov, ki imajo v obeh lastnostih enak vrstni red (glede na število vseh parov) in deležem parov predmetov, ki nimajo enak vrstni red.
Na primer, vrednost koeficienta 0,60 pomeni, da ima 80 % parov enak vrstni red predmetov, 20 % pa ne (80 % + 20 % = 100 %; 0,80 - 0,20 = 0,60). tiste. τ lahko interpretiramo kot razliko med verjetnostmi naključja in nenaključja vrstnih redov v obeh značilnostih za naključno izbrani par predmetov.
V splošnem primeru se izračun τ (natančneje P ali Q), tudi za N reda 10, izkaže za okoren.
Pokažimo, kako poenostaviti izračune.


Primer. Za razmerje med obsegom industrijske proizvodnje in naložbami v osnovna sredstva v 10 regijah enega od zveznih okrožij Ruske federacije v letu 2003 so značilni naslednji podatki:


Izračunajte koeficienta korelacije ranga Spearman in Kendall. Preverite njihov pomen pri α=0,05. Oblikujte sklep o razmerju med obsegom industrijske proizvodnje in naložbami v osnovna sredstva v obravnavanih regijah Ruske federacije.

Rešitev. Dodeli uvrstitve funkciji Y in faktorju X.


Podatke razvrstimo po X.
V seriji Y, desno od 3, je 7 rangov, večjih od 3, zato bo 3 povzročil izraz 7 v P.
Desno od 1 je 8 rangov, večjih od 1 (to so 2, 4, 6, 9, 5, 10, 7, 8), t.j. P bo vključeval 8 in tako naprej. Kot rezultat, P = 37 in z uporabo formul imamo:

XYrang X, dxrang Y, d yPQ
18.4 5.57 1 3 7 2
20.6 2.88 2 1 8 0
21.5 4.12 3 2 7 0
35.7 7.24 4 4 6 0
37.1 9.67 5 6 4 1
39.8 10.48 6 9 1 3
51.1 8.58 7 5 3 0
54.4 14.79 8 10 0 2
64.6 10.22 9 7 1 0
90.6 10.45 10 8 0 0
37 8


Poenostavljene formule:




kjer je n velikost vzorca; z kp je kritična točka dvostranskega kritičnega območja, ki jo najdemo iz tabele Laplaceove funkcije z enakostjo Ф(z kp)=(1-α)/2.
Če |τ|< T kp - нет оснований отвергнуть нулевую гипотезу. Ранговая корреляционная связь между качественными признаками незначима. Если |τ| >T kp - ničelna hipoteza je zavrnjena. Med kvalitativnimi značilnostmi obstaja pomembna rangirna korelacija.
Poiščimo kritično točko z kp
Ф(z kp) = (1-α)/2 = (1 - 0,05)/2 = 0,475

Poiščimo kritično točko:

Ker je τ > T kp - zavrnemo ničelno hipotezo; rang korelacija med ocenami na obeh testih je pomembna.

Primer. Glede na obseg izvedenih gradbenih in instalacijskih del na svoje, in število zaposlenih v 10 gradbenih podjetjih v enem od mest Ruske federacije, določi razmerje med temi značilnostmi s pomočjo Kendelovega koeficienta.

Rešitev poiščite s kalkulatorjem.
Dodeli uvrstitve funkciji Y in faktorju X.
Razporedimo predmete tako, da njihovi rangi v X predstavljajo naravna števila. Ker so ocene, dodeljene vsakemu paru te serije, pozitivne, bodo vrednosti "+1", vključene v P, ustvarili samo tisti pari, katerih uvrstitve v Y tvorijo neposreden vrstni red.
Preprosto jih je izračunati tako, da zaporedno primerjamo uvrstitve vsakega predmeta v vrstici Y z jeklenimi.
Kendallov koeficient.

V splošnem primeru se izračun τ (natančneje P ali Q), tudi za N reda 10, izkaže za okoren. Pokažimo, kako poenostaviti izračune.

oz

Rešitev.
Podatke razvrstimo po X.
V seriji Y, desno od 2, je 8 rangov, večjih od 2, tako da 2 povzroči izraz 8 v P.
Desno od 4 je 6 rangov, večjih od 4 (to so 7, 5, 6, 8, 9, 10), t.j. P bo vključeval 6 in tako naprej. Kot rezultat, P = 29 in z uporabo formul imamo:

XYrang X, dxrang Y, d yPQ
38 292 1 2 8 1
50 302 2 4 6 2
52 366 3 7 3 4
54 312 4 5 4 2
59 359 5 6 3 2
61 398 6 8 2 2
66 401 7 9 1 2
70 298 8 3 1 1
71 283 9 1 1 0
73 413 10 10 0 0
29 16


Poenostavljene formule:


Da bi preverili ničelno hipotezo na ravni pomembnosti α, da je Kendallov splošni rang korelacijski koeficient enak nič po konkurenčni hipotezi Н 1: τ ≠ 0, je treba izračunati kritično točko:

kjer je n velikost vzorca; z kp je kritična točka dvostranskega kritičnega območja, ki jo najdemo iz tabele Laplaceove funkcije z enakostjo Ф(z kp)=(1 - α)/2.
Če |τ| T kp - ničelna hipoteza je zavrnjena. Med kvalitativnimi značilnostmi obstaja pomembna rangirna korelacija.
Poiščimo kritično točko z kp
Ф(z kp) = (1 - α)/2 = (1 - 0,05)/2 = 0,475
Po Laplaceovi tabeli najdemo z kp = 1,96
Poiščimo kritično točko:

Odkar je t