Računalniki Windows internet

Kendall Fechner Spearman rang korelacijski koeficienti. Kendallov rang korelacijski koeficient. Poglejte, kaj je "Kendall rank korelacijski koeficient" v drugih slovarjih

Za izračun Kendallov koeficient vrednosti atributa faktorja so predhodno razvrščene, to pomeni, da se uvrstitve po X zabeležijo strogo v naraščajočem vrstnem redu kvantitativnih vrednosti.

1) Za vsak rang v Y poiščite skupno število rangov, ki mu sledijo, po vrednosti večje od danega ranga. Skupno število takih primerov je upoštevano z znakom "+" in označeno s P.

2) Za vsak rang v Y se določi število rangov, ki mu sledijo, ki so po vrednosti manjše od danega ranga. Skupno število takšnih primerov se upošteva z znakom "-" in označeno s Q.

3) Izračunajte S=P+Q=9+(-1)=8

4) Kendellov koeficient se izračuna po formuli:

Kendellov koeficient lahko zavzame vrednosti od -1 do +1 in bližje ko je , močnejše je razmerje med značilnostmi.

V nekaterih primerih za določitev smeri razmerja med dvema elementoma izračunajte Fechnerjev koeficient. Ta koeficient temelji na primerjavi obnašanja odstopanj posameznih vrednosti faktoriala in posledičnih značilnosti od njihove povprečne vrednosti. Fechnerjev koeficient se izračuna po formuli:

; kjer je vsota C skupno število naključij znakov odstopanj, vsota H je skupno število neujemanja predznakov odstopanj.

1) Izračunajte povprečno vrednost faktorske lastnosti:

2) Določite znake odstopanj posameznih vrednosti faktorske značilnosti od povprečne vrednosti.

3) Izračunajte povprečno vrednost efektivne lastnosti: .

4) Poiščite znake odstopanj posameznih vrednosti nastalega atributa od povprečne vrednosti:

Izhod: povezava je neposredna, koeficient ne kaže na tesnost povezave.

Za določitev stopnje tesnosti razmerja med tremi razvrščenimi značilnostmi se izračuna koeficient skladnost. Izračuna se po formuli:

, kjer je m število razvrščenih značilnosti; n je število razvrščenih opazovalnih enot.

Industrije X1 X2 X3 R1 R2 R3
Energetska industrija 7,49
Gorivo 12,70
Črna M. 5,92
barva M. 9,48
strojništvo 4,18
Izid:

X1- število zaposlenih (tisoč ljudi); X2- obseg industrijske prodaje (v milijardah rubljev); X3- povprečna mesečna plača.

1) Razvrstimo vrednosti vseh lastnosti in postavimo uvrstitve strogo v naraščajočem vrstnem redu kvantitativnih vrednosti.

2) Za vsako vrstico se določi vsota rangov. Skupna vrstica se izračuna iz tega stolpca.

3) Izračunaj .

4) Za vsako vrstico poiščemo kvadratne deviacije vsote rangov in vrednosti T. Za isti stolpec izračunamo končno vrstico, ki jo označimo s S. Koeficient skladnosti ima lahko vrednosti od 0 do 1 in bližje kot je 1, močnejše je razmerje med značilnostmi.

Strokovnjak mora pri razvrščanju razvrstiti ocenjene elemente v naraščajočem (padajočem) vrstnem redu po njihovi želji in vsakemu od njih dodeliti uvrstitve v obliki naravnih števil. Pri neposrednem razvrščanju ima najbolj zaželen element rang 1 (včasih 0), najmanj zaželen element pa rang m.

Če strokovnjak ne more izvesti strogega razvrščanja zaradi dejstva, da so po njegovem mnenju nekateri elementi po prednosti enaki, je dovoljeno tem elementom dodeliti enake uvrstitve. Za zagotovitev, da je vsota rangov enaka vsoti mest razvrščenih elementov, se uporabljajo tako imenovane standardizirane uvrstitve. Standardizirani rang je aritmetična sredina števila elementov v razvrščeni seriji, ki so enaki po prednosti.

Primer 2.6. Strokovnjak je šest postavk razvrstil po želji na naslednji način:

Potem bodo standardizirane vrste teh elementov

Tako bo vsota rangov, dodeljenih elementom, enaka vsoti naravnih števil.

Natančnost izražanja preferenc z elementi razvrščanja je bistveno odvisna od kardinalnosti niza predstavitev. Postopek razvrščanja daje najbolj zanesljive rezultate (glede na stopnjo bližine razkrite preference in »resnične«), ko število ovrednotenih elementov ni več kot 10. Omejitvena moč predstavitvenega niza ne sme presegati 20.

Obdelava in analiza uvrstitev se izvajata z namenom, da se na podlagi individualnih preferenc vzpostavi odnos skupinskih preferenc. V tem primeru se lahko zastavijo naslednje naloge: a) ugotavljanje tesnosti povezave med uvrstitvami dveh strokovnjakov na elemente sklopa predstavitev; b) ugotavljanje razmerja med dvema elementoma glede na posamezna mnenja članov skupine glede različnih značilnosti teh elementov; c) ocena konsenza mnenj strokovnjakov v skupini, ki vsebuje več kot dva strokovnjaka.

V prvih dveh primerih se koeficient uporablja kot merilo tesnosti odnosa rang korelacija. Glede na to, ali je dovoljeno samo strogo ali nestrogo razvrščanje, se uporablja Kendallov ali Spearmanov koeficient rangiranja.

Kendallov koeficient korelacije ranga za problem (a)

kje m− število elementov; r 1 i – rang, ki ga dodeli prvi strokovnjak jaz-th element; r 2 i – isti, drugi strokovnjak.

Za problem (b) imajo komponente (2.5) naslednji pomen: m je število značilnosti obeh elementov, ki se ocenjujeta; r 1 i(r 2 i) - rang i značilnosti v razvrstitvi prvega (drugega) elementa, ki ga je pripravila skupina strokovnjakov.

Strogo razvrščanje uporablja koeficient rangiranja R Spearman:


katerih komponente imajo enak pomen kot v (2.5).

Korelacijski koeficienti (2,5), (2,6) se gibljejo od -1 do +1. Če je korelacijski koeficient +1, potem to pomeni, da so uvrstitve enake; če je enako -1, potem sta − nasprotna (razvrstitve so med seboj inverzne). Enakost korelacijskega koeficienta nič pomeni, da so uvrstitve linearno neodvisne (nekorelirane).

Ker pri tem pristopu (strokovnjak je »merilno orodje« z naključno napako) posamezne uvrstitve obravnavamo kot naključne, se pojavi problem statističnega preverjanja hipoteze o pomembnosti dobljenega korelacijskega koeficienta. V tem primeru se uporablja Neyman-Pearsonov test: nastavljeni so s stopnjo pomembnosti merila α in ob poznavanju zakonitosti porazdelitve korelacijskega koeficienta določijo mejno vrednost , s katerim se primerja dobljena vrednost korelacijskega koeficienta. Kritično območje je desno (v praksi se običajno najprej izračuna vrednost kriterija in iz nje določi raven pomembnosti, ki jo primerjamo s mejno vrednostjo α ).

Koeficient korelacije ranga τ Kendall ima za m > 10 porazdelitev blizu normalne z naslednjimi parametri:

kjer je M [τ] matematično pričakovanje; D [τ] je disperzija.

V tem primeru se uporabljajo tabele standardne normalne porazdelitvene funkcije:

in meja τ α kritičnega območja je definirana kot koren enačbe

Če je izračunana vrednost koeficienta τ ≥ τ α , potem se šteje, da se uvrstitve zelo dobro ujemajo. Običajno je vrednost α izbrana v območju 0,01-0,05. Za m ≤ 10 je porazdelitev m podana v tabeli. 2.1.

Preverjanje pomembnosti konsistentnosti dveh razvrstitev z uporabo Spearmanovega koeficienta ρ se izvede v enakem vrstnem redu z uporabo Studentovih distribucijskih tabel za m > 10.

V tem primeru vrednost

ima distribucijo, dobro aproksimirano s študentovo distribucijo s m– 2 stopnji svobode. Pri m> 30, se porazdelitev ρ dobro ujema z normalno, ki ima M [ρ] = 0 in D [ρ] = .

Za m ≤ 10 se pomembnost ρ preveri s tabelo. 2.2.

Če uvrstitve niso stroge, potem Spearmanov koeficient

kjer je ρ izračunan v skladu z (2.6);

kjer je k 1 , k 2 število različnih skupin nestrogih rangov na prvi in ​​drugi lestvici; l i je število enakih rangov v jaz-to skupino. Pri praktični uporabi Spearmanovih rang korelacijskih koeficientov ρ in Kendallovega τ je treba upoštevati, da koeficient ρ zagotavlja natančnejši rezultat v smislu minimalne variance.

Tabela 2.1.Porazdelitev Kendallovega ranga korelacijskega koeficienta

Eden od dejavnikov, ki omejujejo uporabo meril, ki temeljijo na predpostavki normalnosti, je velikost vzorca. Dokler je vzorec dovolj velik (na primer 100 ali več opazovanj), lahko domnevate, da je porazdelitev vzorca normalna, tudi če niste prepričani, da je porazdelitev spremenljivke v populaciji normalna. Če pa je vzorec majhen, je treba te teste uporabiti le, če obstaja prepričanje, da je spremenljivka res normalno porazdeljena. Vendar te domneve ni mogoče preizkusiti na majhnem vzorcu.

Uporaba meril, ki temeljijo na predpostavki normalnosti, je omejena tudi z merilno lestvico (glej poglavje Osnovni pojmi analize podatkov). Statistične metode, kot so t-test, regresija itd., predvidevajo, da so prvotni podatki neprekinjeni. Vendar pa obstajajo situacije, ko so podatki preprosto razvrščeni (merjeni na ordinalni lestvici) in ne natančno izmerjeni.

Tipičen primer so ocene spletnih mest na internetu: prvo mesto zaseda stran z največjim številom obiskovalcev, drugo mesto zaseda stran z največjim številom obiskovalcev med preostalimi stranmi (med spletnimi mesti, s katerih prva stran je bila odstranjena) itd. Ob poznavanju ocen lahko rečemo, da je število obiskovalcev ene strani večje od števila obiskovalcev druge, koliko več, pa je nemogoče reči. Predstavljajte si, da imate 5 mest: A, B, C, D, E, ki se nahajajo na prvih 5 mestih. Recimo, da smo imeli v tekočem mesecu naslednjo ureditev: A, B, C, D, E, v prejšnjem mesecu pa: D, E, A, B, C. Vprašanje je, ali je prišlo do bistvenih sprememb v ocenah strani ali ne? V tej situaciji očitno ne moremo uporabiti t-testa za primerjavo teh dveh nizov podatkov in se pomikamo v področje specifičnih verjetnostnih izračunov (in vsak statistični test vsebuje verjetnostni izračun!). Razmišljamo približno takole: kolikšna je verjetnost, da je razlika v obeh ureditvah lokacij posledica čisto naključnih razlogov ali pa je ta razlika prevelika in je ni mogoče razložiti s čisto naključjem. V teh razpravah uporabljamo samo uvrstitve ali permutacije spletnih mest in ne uporabljamo posebne vrste porazdelitve števila obiskovalcev na njih.

Za analizo majhnih vzorcev in za podatke, merjene na slabih lestvicah, se uporabljajo neparametrične metode.

Kratek pregled neparametričnih postopkov

V bistvu za vsako parametrično merilo obstajajo: vsaj, ena neparametrična alternativa.

Na splošno ti postopki spadajo v eno od naslednjih kategorij:

  • merila razlike za neodvisne vzorce;
  • merila razlike za odvisne vzorce;
  • ocena stopnje odvisnosti med spremenljivkami.

Na splošno bi moral biti pristop k statističnim merilom pri analizi podatkov pragmatičen in ne obremenjen z nepotrebnimi teoretičnimi premisleki. Z računalnikom STATISTICA, ki vam je na voljo, lahko preprosto uporabite več kriterijev za svoje podatke. Če poznate nekatere pasti metod, boste z eksperimentiranjem izbrali pravo rešitev. Razvoj grafa je povsem naraven: če morate primerjati vrednosti dveh spremenljivk, uporabite t-test. Vendar je treba spomniti, da temelji na predpostavki normalnosti in enakosti variance v vsaki skupini. Osvoboditev teh predpostavk vodi do neparametričnih testov, ki so še posebej uporabni za majhne vzorce.

Razvoj t-testa vodi v analizo variance, ki se uporablja, ko je število primerjanih skupin večje od dveh. Ustrezen razvoj neparametričnih postopkov vodi do neparametrične analize variance, čeprav je precej slabša od klasične analize variance.

Za oceno odvisnosti ali, če se izrazimo nekoliko veličastno, stopnje tesnosti povezave, se izračuna Pearsonov korelacijski koeficient. Strogo gledano, ima njegova uporaba omejitve, povezane, na primer, z vrsto lestvice, na kateri se merijo podatki, in nelinearnostjo odvisnosti, torej kot alternativni, neparametrični ali tako imenovani rang, korelacijski koeficienti se uporabljajo tudi, ki se uporabljajo na primer za razvrščene podatke. Če se podatki merijo na nominalni lestvici, potem je naravno, da jih predstavimo v kontingenčnih tabelah, ki uporabljajo Pearsonov hi-kvadrat test z različnimi variacijami in prilagoditvami za natančnost.

Torej je v bistvu le nekaj vrst meril in postopkov, ki jih morate poznati in znati uporabljati, odvisno od posebnosti podatkov. Določiti morate, katero merilo je treba uporabiti v določeni situaciji.

Neparametrične metode so najbolj primerne, če je velikost vzorca majhna. Če je podatkov veliko (na primer n > 100), pogosto ni smiselno uporabljati neparametrične statistike.

Če je velikost vzorca zelo majhna (na primer n = 10 ali manj), se lahko ravni pomembnosti za tiste neparametrične teste, ki uporabljajo normalni približek, obravnavajo le kot grobe ocene.

Razlike med neodvisnimi skupinami. Če obstajata dva vzorca (npr. moški in ženske), ki ju je treba primerjati glede na neko srednjo vrednost, kot je povprečni krvni tlak ali število belih krvnih celic, se lahko uporabi neodvisni vzorčni t-test.

Neparametrične alternative temu testu so test serije Wald-Wolfowitz, Mann-Whitney )/n, kjer je x i - i-ta vrednost, n - število opazovanj. Če spremenljivka vsebuje negativne vrednosti ali nič (0), geometrijske sredine ni mogoče izračunati.

Harmonično povprečje

Harmonično sredino se včasih uporablja za povprečje frekvenc. Harmonično povprečje izračunamo po formuli: HS = n/S(1/x i) kjer je HS harmonično povprečje, n število opazovanj, x i vrednost opazovanja s številko i. Če spremenljivka vsebuje nič (0), harmonične sredine ni mogoče izračunati.

Varianca in standardni odklon

Varianca vzorca in standardna deviacija sta najpogosteje uporabljena merila variabilnosti (variacije) podatkov. Varianca se izračuna kot vsota kvadratov odstopanj vrednosti spremenljivke od srednje vrednosti vzorca, deljena z n-1 (ne pa z n). Standardni odklon se izračuna kot kvadratni koren ocene variance.

Obseg

Razpon spremenljivke je merilo nestanovitnosti, izračunano kot maksimum minus minimum.

Kvartilni razpon

Četrtletni razpon je po definiciji: zgornji kvartil minus spodnji kvartil (75 % percentil minus 25 % percentil). Ker je 75 % percentil (zgornji kvartil) vrednost, levo od katere je 75 % opazovanj, in 25 % percentil (spodnji kvartil) vrednost, levo od katere je 25 % opazovanj, je kvartil razpon je interval okoli mediane, ki vsebuje 50 % opazovanj (vrednosti spremenljivke).

Asimetrija

Poševnost je značilnost oblike porazdelitve. Porazdelitev je nagnjena v levo, če je poševnost negativna. Porazdelitev je nagnjena v desno, če je poševnost pozitivna. Poševnost standardne normalne porazdelitve je 0. Poševnost je povezana s tretjim trenutkom in je definirana kot: poševnost = n × M 3 /[(n-1) × (n-2) × s 3 ], kjer je M 3 je: (xi -xmean x) 3 , s 3 - standardni odklon, dvignjen na tretjo potenco, n - število opazovanj.

Presežek

Kurtoza je značilnost oblike porazdelitve, in sicer merilo ostrine njenega vrha (glede na normalno porazdelitev, katere eksces je 0). Na splošno imajo porazdelitve z ostrejšim vrhom kot normalna porazdelitev pozitivno ekscesijo; porazdelitve, katerih vrh je manj oster od vrha normalne porazdelitve, imajo negativno ekscesijo. Kurtoza je povezana s četrtim trenutkom in je določena s formulo:

kurtosis = /[(n-1) × (n-2) × (n-3) × s 4 ], kjer je M j: (xx povprečje x, s 4 je standardni odklon na četrto potenco, n je število opazovanj.

Kratka teorija

Kendallov korelacijski koeficient se uporablja, kadar so spremenljivke predstavljene z dvema ordinalnima lestvicama, pod pogojem, da ni povezanih rangov. Izračun Kendallovega koeficienta je povezan s štetjem števila ujemanj in inverzij.

Ta koeficient se razlikuje znotraj in se izračuna po formuli:

Za izračun so vse enote razvrščene glede na atribut; za številne druge značilnosti se za vsak rang izračuna število naslednjih rangov, ki presegajo dano (označujemo jih z ), in število naslednjih rangov pod danim (označujemo jih z ).

To se lahko pokaže

in Kendallov rang korelacijski koeficient lahko zapišemo kot

Da bi preizkusili ničelno hipotezo o enakosti Kendallovega splošnega koeficienta korelacije ranga nič pod konkurenčno hipotezo na ravni pomembnosti , je treba izračunati kritično točko:

kjer je velikost vzorca; - kritična točka dvostranskega kritičnega območja, ki jo najdemo iz tabele Laplaceove funkcije z enakostjo

Če ni razloga za zavrnitev ničelne hipoteze. Korelacija ranga med značilnostmi je nepomembna.

Če je ničelna hipoteza zavrnjena. Med znaki obstaja pomembna rangirna korelacija.

Primer rešitve problema

Naloga

Ob zaposlitvi sedmih kandidatov na prosta delovna mesta sta bila ponujena dva preizkusa. Rezultati testa (v točkah) so prikazani v tabeli:

Test Kandidat 1 2 3 4 5 6 7 1 31 82 25 26 53 30 29 2 21 55 8 27 32 42 26

Izračunajte Kendallov rank korelacijski koeficient med rezultati testa za dva testa in ocenite njegov pomen na ravni.

Rešitev problema

Izračunajte Kendallov koeficient

Uvrstitve atributa faktorja so razvrščene strogo v naraščajočem vrstnem redu in ustrezne range efektivnega atributa so zapisane vzporedno. Za vsak rang se od števila rangov, ki mu sledijo, šteje število rangov, ki je večje od njega (vključeno v stolpec ) in število rangov, ki so manjše vrednosti (vključeno v stolpec ).

1 1 6 0 2 4 3 2 3 3 3 1 4 6 1 2 5 2 2 0 6 5 1 0 7 7 0 0 vsota 16 5

Za izračun Kendallovega ranga korelacijskega koeficienta rk Podatke je treba razvrstiti po eni od značilnosti v naraščajočem vrstnem redu in določiti ustrezne uvrstitve po drugi značilnosti. Nato se za vsak rang drugega elementa določi število naslednjih rangov, ki je večje od prevzetega ranga, in najde se vsota teh številk.

Kendallov rang korelacijski koeficient je podan z


kje R i je število rangov druge spremenljivke, začenši z jaz+1, katerega magnituda je večja od magnitude jaz rang te spremenljivke.

Obstajajo tabele odstotnih točk porazdelitve koeficientov rk, kar omogoča preizkus hipoteze o pomembnosti korelacijskega koeficienta.

Za velike velikosti vzorcev kritične vrednosti rk niso v tabeli in jih je treba izračunati z uporabo približnih formul, ki temeljijo na dejstvu, da je pod ničelno hipotezo H 0: rk=0 in velika n naključna vrednost

porazdeljeno približno v skladu s standardnim normalnim zakonom.

40. Razmerje med značilnostmi, merjeno v nazivnih ali rednih lestvicah

Pogosto se pojavi težava pri preverjanju neodvisnosti dveh lastnosti, merjenih na nominalni ali redni lestvici.

Za nekatere predmete naj se izmerita dve značilnosti X in Y s številom stopenj r in s oz. Rezultate takšnih opazovanj je priročno predstaviti v obliki tabele, ki se imenuje tabela kontingentnosti značilnosti.

Tabela u i(jaz = 1, ..., r) In vj (j= 1, ..., s) so vrednosti, ki jih vzamejo lastnosti, vrednost nij je število predmetov od skupnega števila objektov, ki imajo atribut X dobil pomen u i, in znak Y- pomen vj

Predstavljamo naslednje naključne spremenljivke:

u i


- število predmetov, ki imajo vrednost vj


Poleg tega obstajajo očitne enakosti



Diskretne naključne spremenljivke X in Y neodvisen, če in samo če

za vse pare jaz, j

Zato hipoteza o neodvisnosti diskretnih naključnih spremenljivk X in Y se lahko zapiše takole:

Kot alternativo praviloma uporabite hipotezo

Veljavnost hipoteze H 0 je treba presojati na podlagi vzorčnih frekvenc nij tabele izrednih razmer. Po zakonu velikih števil n→∞ so relativne frekvence blizu ustreznih verjetnosti:



Za preverjanje hipoteze H 0 se uporablja statistika

ki ima po veljavnosti hipoteze porazdelitev χ 2 s rs − (r + s− 1) svobodne stopnje.

Kriterij neodvisnosti χ 2 zavrne hipotezo H 0 s stopnjo pomembnosti α, če:


41. Regresijska analiza. Osnovni koncepti regresijske analize

Za matematični opis statističnih razmerij med preučevanimi spremenljivkami je treba rešiti naslednje naloge:

ü izbrati razred funkcij, v katerem je priporočljivo iskati najboljši (v določenem smislu) približek odvisnosti zanimanja;

ü najti ocene neznanih vrednosti parametrov, vključenih v enačbe želene odvisnosti;

ü ugotoviti ustreznost dobljene enačbe želene odvisnosti;

ü opredeliti najbolj informativne vhodne spremenljivke.

Celota teh nalog je predmet raziskave regresijske analize.

Regresijska funkcija (ali regresija) je odvisnost matematičnega pričakovanja ene naključne spremenljivke od vrednosti, ki jo vzame druga naključna spremenljivka, ki s prvo tvori dvodimenzionalni sistem naključnih spremenljivk.

Naj obstaja sistem naključnih spremenljivk ( X,Y), nato regresijska funkcija Y na X

In regresijska funkcija X na Y

Regresijske funkcije f(x) In φ (y), niso medsebojno reverzibilni, razen če je razmerje med X in Y ni funkcionalen.

Kdaj n-dimenzionalni vektor s koordinatami X 1 , X 2 ,…, X n mogoče je upoštevati pogojno matematično pričakovanje za katero koli komponento. Na primer, za X 1


imenujemo regresija X 1 na X 2 ,…, X n.

Za popolno opredelitev regresijske funkcije je potrebno poznati pogojno porazdelitev izhodne spremenljivke za fiksne vrednosti vhodne spremenljivke.

Ker v realni situaciji takšne informacije niso na voljo, se običajno omejijo na iskanje ustrezne aproksimacijske funkcije f a(x) za f(x), ki temelji na statističnih podatkih obrazca ( x i, y i), jaz = 1,…, n. Ti podatki so rezultat n neodvisna opazovanja y 1 ,…, y n naključna spremenljivka Y pri vrednostih vhodne spremenljivke x 1 ,…, x n, medtem ko se pri regresijski analizi predpostavlja, da so vrednosti vhodne spremenljivke natančno določene.

Problem izbire najboljše aproksimacijske funkcije f a(x), ki je glavni v regresijski analizi in nima formaliziranih postopkov za njeno reševanje. Včasih je izbira določena na podlagi analize eksperimentalnih podatkov, pogosteje iz teoretičnih premislekov.

Če se domneva, da je regresijska funkcija dovolj gladka, potem funkcija, ki jo aproksimira f a(x) lahko predstavimo kot linearno kombinacijo nekega niza linearno neodvisnih baznih funkcij ψ k(x), k = 0, 1,…, m−1, torej v obliki


kje m je število neznanih parametrov θ k(v splošnem primeru je vrednost neznana, dodelana pri izdelavi modela).

Takšna funkcija je po parametrih linearna, zato v obravnavanem primeru govorimo o modelu regresijske funkcije, linearnem po parametrih.

Potem je problem iskanja najboljšega približka za regresijsko črto f(x) se zmanjša na iskanje takšnih vrednosti parametrov, za katere f a(x;θ) najbolj ustreza razpoložljivim podatkom. Ena od metod za rešitev tega problema je metoda najmanjših kvadratov.

42. Metoda najmanjšega kvadrata

Naj nabor točk ( x i, y i), jaz= 1,…, n ki se nahaja na ravnini vzdolž neke ravne črte

Nato kot funkcija f a(x) približuje regresijsko funkcijo f(x) = M [Y|x] naravno vzemite linearna funkcija prepir x:


To pomeni, da smo tukaj izbrali kot osnovne funkcije ψ 0 (x)≡1 in ψ 1 (x)≡x. Ta regresija se imenuje preprosta linearna regresija.

Če je nabor točk ( x i, y i), jaz= 1,…, n ki se nahaja vzdolž neke krivulje, nato pa kot f a(x) naravno je, da poskušamo izbrati družino parabol

Ta funkcija je nelinearna v parametrih θ 0 in θ 1 pa ga lahko s funkcionalno transformacijo (v tem primeru logaritem) zmanjšamo na nova funkcija f'a(x), linearno v parametrih:


43. Enostavna linearna regresija

Najenostavnejši regresijski model je preprost (univariaten, enofaktorski, seznanjen) linearni model, ki ima naslednjo obliko:


kje ε i- nekorelirane naključne spremenljivke (napake) z ničelnimi matematičnimi pričakovanji in enakimi variancami σ 2 , a in b so konstantni koeficienti (parametri), ki jih je treba oceniti iz izmerjenih vrednosti odziva y i.

Za iskanje ocen parametrov a in b linearna regresija, ki določa ravno črto, ki najbolje zadovoljuje eksperimentalne podatke:


uporablja se metoda najmanjših kvadratov.

Po navedbah najmanjši kvadrati ocene parametrov a in b najdemo iz pogoja minimiziranja vsote kvadratov odstopanj vrednosti y i navpično od "prave" regresijske črte:

Naj bo deset opazovanj naključne spremenljivke Y za fiksne vrednosti spremenljivke X

Za zmanjšanje D enaka nič delnih izpeljank glede na a in b:



Kot rezultat dobimo naslednji sistem enačb za iskanje ocen a in b:


Rešitev teh dveh enačb daje:



Izrazi za ocene parametrov a in b je lahko predstavljen tudi kot:

Nato empirična enačba regresijske črte Y na X lahko zapišemo kot:


Nepristranski ocenjevalec variance σ 2 odstopanja vrednosti y i iz opremljene regresijske ravne črte je podana z

Izračunajte parametre regresijske enačbe


Tako je neposredna regresija videti takole:


In ocena disperzije odstopanj vrednosti y i od nameščene ravne regresijske črte


44. Preverjanje pomembnosti regresijske črte

Najden rezultat b≠ 0 je lahko realizacija naključne spremenljivke, katere matematično pričakovanje je enako nič, torej se lahko izkaže, da regresijske odvisnosti dejansko ni.

Če želite rešiti to situacijo, morate preizkusiti hipotezo H 0: b= 0 po konkurenčni hipotezi H 1: b ≠ 0.

Pomen regresijske črte je mogoče preizkusiti z analizo variance.

Razmislite o naslednji identiteti:

vrednost y iŷi = ε i se imenuje ostanek in je razlika med obema količinama:

ü odstopanje opazovane vrednosti (odgovora) od splošnega povprečja odgovorov;

ü odstopanje predvidene vrednosti odziva ŷi iz istega povprečja

Zgornjo identiteto lahko zapišemo kot


S kvadriranjem obeh strani in seštevanjem jaz, dobimo:


Kje so količine poimenovane:

polna (skupna) vsota kvadratov SC n, ki je enaka vsoti kvadratov odstopanj opazovanj glede na srednjo vrednost opazovanj

vsota kvadratov zaradi regresije SC p, ki je enaka vsoti kvadratov odstopanj vrednosti regresijske črte glede na povprečje opazovanj.

preostala vsota kvadratov SC 0 . ki je enaka vsoti kvadratov odstopanj opazovanj glede na vrednosti regresijske črte

Tako širjenje Y-kov glede na njihovo povprečje je mogoče do neke mere pripisati dejstvu, da vsa opazovanja ne ležijo na regresijski črti. Če bi bilo tako, bi bila vsota kvadratov glede na regresijo nič. Iz tega sledi, da bo regresija pomembna, če je vsota kvadratov SC p večja od vsote kvadratov SC 0 .

Izračuni za preverjanje pomembnosti regresije so izvedeni v naslednji analizi tabele variance

Če napake ε i porazdeljeno po normalnem zakonu, če je hipoteza H 0 resnična: b= 0 statistika:


porazdeljeno po Fisherjevem zakonu s številom stopenj svobode 1 in n−2.

Ničelna hipoteza bo zavrnjena na ravni pomembnosti α, če je izračunana vrednost statistike F bo večja od α-odstotne točke f 1;n−2;α Fisherjeve porazdelitve.

45. Preverjanje ustreznosti regresijskega modela. Preostala metoda

Ustreznost konstruiranega regresijskega modela se razume kot dejstvo, da noben drug model ne daje bistvenega izboljšanja pri napovedovanju odziva.

Če so vse vrednosti odziva pridobljene pri različnih vrednostih x, kar pomeni, da ni več vrednosti odziva, pridobljenih za isto x i, potem je mogoče izvesti le omejen preizkus ustreznosti linearnega modela. Osnova za takšno preverjanje so ostanki:

Odstopanja od uveljavljenega vzorca:

V kolikor X je enodimenzionalna spremenljivka, točke ( x i, d i) lahko upodobimo na ravnini v obliki tako imenovane rezidualne ploskve. Takšna predstavitev včasih omogoča odkrivanje določene pravilnosti v obnašanju ostankov. Poleg tega nam analiza ostankov omogoča analizo predpostavke glede zakona porazdelitve napak.

V primeru, ko so napake razporejene po običajnem zakonu in obstaja a priori ocena njihove variance σ 2 (ocena, pridobljena na podlagi predhodno izvedenih meritev), potem je možna natančnejša ocena ustreznosti modela.

Preko F-Fischerjev test, lahko preverite, ali je preostala varianca pomembna s 0 2 se razlikuje od a priori ocene. Če je bistveno večja, potem obstaja neustreznost in je treba model revidirati.

Če je a priori ocena σ 2 ne, ampak meritve odziva Y dvakrat ali večkrat pri enakih vrednostih X, potem je mogoče ta ponavljajoča se opažanja uporabiti za pridobitev druge ocene σ 2 (prva je preostala varianca). Takšna ocena naj bi predstavljala »čisto« napako, ker če naredimo x enako za dve ali več opazovanj, potem lahko le naključne spremembe vplivajo na rezultate in ustvarijo razpršenost med njimi.

Dobljena ocena se izkaže za bolj zanesljivo oceno variance kot ocena, pridobljena z drugimi metodami. Zaradi tega je pri načrtovanju poskusov smiselno postaviti poskuse s ponovitvami.

Predpostavimo, da obstaja m različne pomene X : x 1 , x 2 , ..., x m. Naj za vsako od teh vrednosti x i na voljo n i opazovanja odziva Y. Skupno število opazovanj je:

Potem lahko preprost linearni regresijski model zapišemo kot:


Poiščimo varianco »čistih« napak. Ta varianca je kombinirana ocena variance σ 2, če predstavimo vrednosti odziva yij pri x = x i kot obseg vzorčenja n i. Posledično je varianca "čistih" napak enaka:

Ta odstopanje služi kot ocena σ 2 ne glede na to, ali je vgrajeni model pravilen.

Pokažimo, da je vsota kvadratov »čistih napak« del preostale vsote kvadratov (vsota kvadratov, vključenih v izraz za preostalo varianco). Preostanek za j th opazovanje pri x i lahko zapišemo kot:

Če kvadriramo obe strani te enačbe in ju nato seštejemo j in po jaz, potem dobimo:

Na levi strani te enačbe je preostala vsota kvadratov. Prvi člen na desni strani je vsota kvadratov "čistih" napak, drugi člen lahko imenujemo vsota kvadratov neustreznosti. Zadnji znesek ima m−2 svobodni stopnji, od tod tudi varianca neustreznosti

Testna statistika za testiranje hipoteze H 0: preprost linearni model je ustrezen, v nasprotju s hipotezo H 1: preprost linearni model je neustrezen, je naključna spremenljivka

Če je ničelna hipoteza resnična, vrednost F ima Fisherjevo porazdelitev s stopnjami svobode m−2 in nm. Hipotezo o linearnosti regresijske črte je treba zavrniti s stopnjo pomembnosti α, če je nastala statistična vrednost večja od α-odstotne točke Fisherjeve porazdelitve s številom stopenj svobode m−2 in nm.

46. Preverjanje ustreznosti regresijskega modela (glej 45). Analiza variance

47. Preverjanje ustreznosti regresijskega modela (glej 45). Koeficient določitve

Včasih se za karakterizacijo kakovosti regresijske črte uporablja vzorčni koeficient določanja. R 2 , ki prikazuje, kolikšen del (delež) vsote kvadratov zaradi regresije je SC p v skupni vsoti kvadratov SC n:

Bližje R 2 proti ena, bolje ko se regresija približa eksperimentalnim podatkom, bližje so opazovanja ob regresijski črti. Če R 2 = 0, potem so spremembe odziva v celoti posledica vpliva neupoštevanih dejavnikov, regresijska črta pa je vzporedna z osjo x-ov. V primeru preproste linearne regresije koeficient določitve R 2 je enak kvadratu korelacijskega koeficienta r 2 .

Največjo vrednost R 2 =1 je mogoče doseči le v primeru, ko so bila opazovanja opravljena pri različnih vrednostih x-s. Če se v podatkih ponavljajo izkušnje, potem vrednost R 2 ne more doseči enote, ne glede na to, kako dober je model.

48. Intervali zaupanja za preproste parametre linearne regresije

Tako kot je vzorčno povprečje ocena resničnega povprečja (povprečje populacije), so tudi vzorčni parametri regresijske enačbe a in b- nič drugega kot ocene resničnih regresijskih koeficientov. Različni vzorci dajejo različne ocene povprečja, tako kot bodo različni vzorci dali različne ocene regresijskih koeficientov.

Ob predpostavki, da je zakon porazdelitve napak ε i so opisani z normalnim zakonom, ocena parametra b bo imela normalno porazdelitev s parametri:


Od ocene parametrov a je linearna kombinacija neodvisnih normalno porazdeljenih spremenljivk, bo imela tudi normalno porazdelitev s povprečjem in varianco:


V tem primeru je interval zaupanja (1 − α) za oceno variance σ 2, ob upoštevanju, da je razmerje ( n−2)s 0 2 /σ 2 razdeljena po zakonu χ 2 s številom stopenj svobode n−2 bo določen z izrazom


49. Intervali zaupanja za regresijsko črto. Interval zaupanja za vrednosti odvisnih spremenljivk

Običajno ne poznamo pravih vrednosti regresijskih koeficientov ampak in b. Poznamo le njihove ocene. Z drugimi besedami, prava regresijska črta je lahko višja ali nižja, je bolj strma ali ravna od tiste, ki je zgrajena na vzorčnih podatkih. Za regresijske koeficiente smo izračunali intervale zaupanja. Izračunate lahko tudi območje zaupanja za samo regresijsko črto.

Naj za preprosto linearno regresijo je potrebno konstruirati (1− α ) interval zaupanja za matematično pričakovanje odgovora Y z vrednostjo X = X 0 . To matematično pričakovanje je a+bx 0 in njena ocena

Ker potem.

Dobljena ocena matematičnega pričakovanja je linearna kombinacija nekoreliranih normalno porazdeljenih veličin in ima zato tudi normalno porazdelitev s središčem na točki prave vrednosti pogojnega matematičnega pričakovanja in variance

Zato interval zaupanja za regresijsko črto pri vsaki vrednosti x 0 je mogoče predstaviti kot


Kot lahko vidite, je minimalni interval zaupanja dosežen, ko x 0 enako povprečni vrednosti in se povečuje kot x 0 se "odmakne" od povprečja v katero koli smer.

V zgornjem izrazu namesto t n −2,α /2 je treba nadomestiti