Računalniki Windows internet

Kendallov korelacijski izračun. Korelacija ranga in Kendallov koeficient rank korelacije. Kaj naj bo izhodišče pri opredelitvi teme, predmeta, predmeta, cilja, ciljev in hipoteze raziskave

Za izračun koeficienta rang korelacija Kendall r k je treba podatke za enega od atributov razvrstiti v naraščajočem vrstnem redu in določiti ustrezne uvrstitve za drugi atribut. Nato se za vsak rang druge značilnosti določi število naslednjih rangov, ki so po velikosti večje od prevzetega ranga, in najdemo vsoto teh številk.

Kendallov koeficient korelacije ranga je določen s formulo


kje R i- število rangov druge spremenljivke, začenši z jaz+1, katerega velikost je večja od magnitude jaz rang te spremenljivke.

Obstajajo tabele odstotnih točk porazdelitve koeficienta r k, kar omogoča preizkus hipoteze o pomembnosti korelacijskega koeficienta.

Za velike velikosti vzorcev kritične vrednosti r k niso v tabeli in jih je treba izračunati s približnimi formulami, ki temeljijo na dejstvu, da pod ničelno hipotezo H 0: r k= 0 in veliko n naključna vrednost

porazdeljeno približno v skladu s standardnim normalnim zakonom.

40. Razmerje med lastnostmi, merjeno v nazivnih ali rednih lestvicah

Težava se pogosto pojavi pri preverjanju neodvisnosti dveh lastnosti, merjenih na nazivni ali ordinalni lestvici.

Naj nekateri predmeti merijo dve značilnosti X in Y s številom stopenj r in s oz. Rezultati takšnih opazovanj so priročno predstavljeni v obliki tabele, imenovane kontingenčna tabela.

V tabeli u i(jaz = 1, ..., r) in v j (j= 1, ..., s) - vrednosti, ki jih vzamejo lastnosti, vrednost n ij- število objektov od skupnega števila objektov, za katere je atribut X dobil pomen u i, in znak Y- pomen v j

Predstavljamo naslednje naključne spremenljivke:

u i


- število predmetov, ki imajo vrednost v j


Poleg tega obstajajo očitne enakosti



Diskretne naključne spremenljivke X in Y neodvisen, če in samo če

za vse pare jaz, j

Zato domneva o neodvisnosti diskretnih naključnih spremenljivk X in Y se lahko zapiše takole:

Kot alternativo praviloma uporabljajo hipotezo

Veljavnost hipoteze H 0 je treba presojati na podlagi vzorčnih frekvenc n ij tabele izrednih razmer. V skladu z zakonom velikih števil pri n→ ∞, so relativne frekvence blizu ustreznih verjetnosti:



Za preverjanje hipoteze H 0 se uporablja statistika

ki ima, če je hipoteza resnična, porazdelitev χ 2 sek rs − (r + s- 1) stopnje svobode.

Kriterij neodvisnosti χ 2 zavrne hipotezo H 0 s stopnjo pomembnosti α, če:


41. Regresijska analiza. Osnovni koncepti regresijske analize

Za matematični opis statističnih razmerij med preučevanimi spremenljivkami je treba rešiti naslednje probleme:

ü izbrati razred funkcij, pri katerem je priporočljivo iskati najboljši (v določenem smislu) približek odvisnosti zanimanja;

ü najti ocene neznanih vrednosti parametrov, vključenih v enačbe zahtevane odvisnosti;

ü ugotoviti ustreznost dobljene enačbe zahtevane odvisnosti;

ü za prepoznavanje najbolj informativnih vhodnih spremenljivk.

Celota naštetih nalog je predmet raziskovanja v regresijski analizi.

Regresijska funkcija (ali regresija) je odvisnost matematičnega pričakovanja ene naključne spremenljivke od vrednosti, ki jo vzame druga naključna spremenljivka, ki s prvo tvori dvodimenzionalni sistem naključnih spremenljivk.

Naj obstaja sistem naključnih spremenljivk ( X,Y), nato regresijska funkcija Y na X

In regresijska funkcija X na Y

Regresijske funkcije f(x) in φ (y) niso medsebojno reverzibilni, če je le razmerje med X in Y ni funkcionalen.

Kdaj n-dimenzionalni vektor s koordinatami X 1 , X 2 ,…, X n lahko upoštevate pogojno matematično pričakovanje za katero koli komponento. Na primer, za X 1


imenujemo regresija X 1 na X 2 ,…, X n.

Za popolno definicijo regresijske funkcije je potrebno poznati pogojno porazdelitev izhodne spremenljivke za fiksne vrednosti vhodne spremenljivke.

Ker v realni situaciji takšne informacije niso na voljo, so običajno omejene na iskanje ustrezne aproksimacijske funkcije f a(x) za f(x), na podlagi statističnih podatkov obrazca ( x i, y i), jaz = 1,…, n... Ti podatki so rezultat n neodvisna opazovanja y 1 ,…, y n naključna spremenljivka Y za vrednosti vhodne spremenljivke x 1 ,…, x n, medtem ko regresijska analiza predpostavlja, da so vrednosti vhodne spremenljivke natančno določene.

Problem izbire najboljše aproksimacijske funkcije f a(x), ki je glavni v regresijski analizi in nima formaliziranih postopkov za njeno reševanje. Včasih je izbira določena na podlagi analize eksperimentalnih podatkov, pogosteje iz teoretičnih premislekov.

Če se domneva, da je regresijska funkcija dovolj gladka, potem aproksimacijska funkcija f a(x) lahko predstavimo kot linearno kombinacijo niza linearno neodvisnih baznih funkcij ψ k(x), k = 0, 1,…, m−1, torej v obliki


kje m- število neznanih parametrov θ k(v splošnem primeru je vrednost neznana, dodelana pri izdelavi modela).

Takšna funkcija je po parametrih linearna, zato v obravnavanem primeru govorimo o modelu regresijske funkcije, ki je po parametrih linearen.

Potem je problem iskanja najboljšega približka za regresijsko črto f(x) se zmanjša na iskanje takšnih vrednosti parametrov, za katere f a(x; θ) najbolj ustreza razpoložljivim podatkom. Ena od metod za rešitev tega problema je metoda najmanjših kvadratov.

42. Metoda najmanjšega kvadrata

Naj nabor točk ( x i, y i), jaz= 1,…, n ki se nahaja na ravnini vzdolž neke ravne črte

Potem, kot funkcija f a(x) približuje regresijsko funkcijo f(x) = M [Y|x] je naravno vzeti linearna funkcija prepir x:


To pomeni, da so tukaj izbrane osnovne funkcije ψ 0 (x) ≡1 in ψ 1 (x)≡x... Ta regresija se imenuje preprosta linearna regresija.

Če je nabor točk ( x i, y i), jaz= 1,…, n se nahaja vzdolž neke krivulje, nato pa kot f a(x) naravno je, da poskušamo izbrati družino parabol

Ta funkcija je nelinearna v parametrih θ 0 in θ 1 pa ga lahko s funkcionalno transformacijo (v tem primeru z logaritmom) zmanjšamo na nova funkcija f 'a(x), linearno v parametrih:


43. Enostavna linearna regresija

Najenostavnejši regresijski model je preprost (enodimenzionalni, enosmerni, seznanjeni) linearni model, ki ima naslednjo obliko:


kje ε i- naključne spremenljivke (napake), ki niso v korelaciji med seboj, imajo nič matematičnih pričakovanj in enake variance σ 2 , a in b- konstantni koeficienti (parametri), ki jih je treba oceniti iz izmerjenih odzivnih vrednosti y i.

Če želite poiskati ocene parametrov a in b linearna regresija, ki določa ravno črto, ki najbolj ustreza eksperimentalnim podatkom:


uporablja se metoda najmanjših kvadratov.

Po navedbah najmanjši kvadrati ocene parametrov a in b najdemo iz pogoja minimiziranja vsote kvadratov odstopanj vrednosti y i navpično od "prave" regresijske črte:

Naj bo deset opazovanj naključne spremenljivke Y s fiksnimi vrednostmi spremenljivke X

Za zmanjšanje D izenačimo na nič delne izpeljanke glede na a in b:



Kot rezultat dobimo naslednji sistem enačb za iskanje ocen a in b:


Rešitev teh dveh enačb daje:



Izrazi za ocene parametrov a in b je lahko predstavljen tudi kot:

Nato empirična enačba regresijske črte Y na X lahko zapišemo kot:


Nepristranska ocena variance σ 2 odstopanja vrednosti y i iz vgrajene ravne regresije je podan izraz

Izračunajmo parametre regresijske enačbe


Tako je regresijska črta videti takole:


In ocena variance odstopanj vrednosti y i od nameščene ravne regresijske črte


44. Preverjanje pomembnosti regresijske črte

Najdena ocena b≠ 0 je lahko realizacija naključne spremenljivke, katere matematično pričakovanje je enako nič, torej se lahko izkaže, da regresijske odvisnosti dejansko ni.

Če želite rešiti to situacijo, morate preizkusiti hipotezo H 0: b= 0 s konkurenčno hipotezo H 1: b ≠ 0.

Preizkus pomembnosti regresijske črte se lahko izvede z analizo variance.

Razmislite o naslednji identiteti:

Velikost y iŷ i = ε i imenujemo preostanek in je razlika med dvema količinama:

ü odstopanje opazovane vrednosti (odziva) od skupnega povprečnega odziva;

ü odstopanje predvidene vrednosti odziva ŷ i iz istega povprečja

Pisna identiteta se lahko zapiše kot


Ko smo oba dela kvadrirali in sešteli jaz, dobimo:


Kje so količine poimenovane:

skupna (skupna) vsota kvadratov SC n, ki je enaka vsoti kvadratov odstopanj opazovanj glede na srednjo vrednost opazovanj

vsota kvadratov zaradi regresije SK p, ki je enaka vsoti kvadratov odstopanj vrednosti regresijske črte glede na povprečje opazovanj.

preostala vsota kvadratov SK 0. ki je enaka vsoti kvadratov odstopanj opazovanj glede na vrednosti regresijske črte

Torej namaz Y-kov glede na njihovo povprečje je mogoče do neke mere pripisati dejstvu, da vsa opazovanja ne ležijo na regresijski črti. Če bi bilo tako, bi bila vsota kvadratov glede na regresijo nič. Iz tega sledi, da bo regresija pomembna, če je vsota kvadratov SC p večja od vsote kvadratov SC 0.

Izračuni testa regresijske pomembnosti so izvedeni v naslednji tabeli ANOVA.

Če napake ε i porazdeljeno po normalnem zakonu, če je hipoteza H 0 veljavna: b= 0 statistika:


porazdeljeno po Fisherjevem zakonu s številom stopenj svobode 1 in n−2.

Ničelna hipoteza bo zavrnjena na ravni pomembnosti α, če je izračunana statistična vrednost F bo večja od odstotne točke α f 1;n−2; α Fisherjeve porazdelitve.

45. Preverjanje ustreznosti regresijskega modela. Preostala metoda

Ustreznost konstruiranega regresijskega modela se razume kot dejstvo, da noben drug model ne daje bistvenega izboljšanja pri napovedovanju odziva.

Če so vse vrednosti odgovorov pridobljene pri različnih vrednostih x, torej ni več vrednosti odziva, pridobljenih z isto x i, potem je mogoče izvesti le omejen preizkus ustreznosti linearnega modela. Osnova za takšno preverjanje so ostanki:

Odstopanja od uveljavljenega vzorca:

V kolikor X- enodimenzionalna spremenljivka, točke ( x i, d i) lahko narišemo na ravnino v obliki tako imenovane rezidualne ploskve. Takšna predstavitev včasih omogoča, da najdemo nekaj pravilnosti v obnašanju ostankov. Poleg tega vam analiza ostankov omogoča analizo predpostavke glede porazdelitve napak.

V primeru, ko so napake razporejene po običajnem zakonu in obstaja a priori ocena njihove variance σ 2 (ocena, pridobljena na podlagi predhodno izvedenih meritev), potem je možna natančnejša ocena ustreznosti modela.

Preko F-Fisherjev kriterij se lahko uporabi za preverjanje, ali je preostala varianca pomembna s 0 2 se razlikuje od a priori ocene. Če je bistveno večja, potem gre za neustreznost in model je treba revidirati.

Če je predhodna ocena σ 2 ne, ampak meritve odziva Y dvakrat ali večkrat z enakimi vrednostmi X, potem je mogoče ta ponavljajoča se opažanja uporabiti za pridobitev druge ocene σ 2 (prva je preostala varianca). Takšna ocena naj bi predstavljala »čisto« napako, saj če x so enaki za dve ali več opazovanj, potem lahko le naključne spremembe vplivajo na rezultate in ustvarijo razpršenost med njimi.

Dobljena ocena se izkaže za bolj zanesljivo oceno variance kot ocena, pridobljena z drugimi metodami. Zaradi tega je pri načrtovanju poskusov smiselno postaviti poskuse s ponovitvami.

Recimo, da imamo m različne pomene X : x 1 , x 2 , ..., x m... Naj za vsako od teh vrednosti x i tukaj je n i opazovanja odziva Y... Skupna opažanja so pridobljena:

Potem lahko preprost linearni regresijski model zapišemo kot:


Poiščimo varianco »čistih« napak. Ta varianca je skupna ocena variance σ 2, če predstavljamo vrednosti odgovorov y ij pri x = x i kot volumen vzorca n i... Posledično je varianca »čistih« napak:

Ta odstopanje služi kot ocena σ 2 ne glede na to, ali je vgrajeni model pravilen.

Pokažimo, da je vsota kvadratov »čistih napak« del preostale vsote kvadratov (vsota kvadratov, vključenih v izraz za preostalo varianco). Preostanek za j th opazovanje pri x i lahko zapišemo kot:

Če kvadriraš obe strani te enakosti in ju nato sešteješ j in po jaz, dobimo:

Na levi strani te enakosti je preostala vsota kvadratov. Prvi člen na desni je vsota kvadratov "čistih" napak, drugi člen lahko imenujemo vsota kvadratov neustreznosti. Zadnji znesek ima m−2 svobodni stopnji, torej varianca neustreznosti

Statistika merila za preverjanje hipoteze H 0: preprost linearni model je ustrezen, proti hipotezi H 1: preprost linearni model je neustrezen, naključna spremenljivka je

Če je ničelna hipoteza resnična, vrednost F ima Fisherjevo porazdelitev s stopnjami svobode m−2 in nm... Hipotezo o linearnosti regresijske črte je treba zavrniti s stopnjo pomembnosti α, če je dobljena vrednost statistike večja od α-odstotne točke Fisherjeve porazdelitve s številom stopenj svobode m−2 in nm.

46. Preverjanje ustreznosti regresijskega modela (glej 45). ANOVA

47. Preverjanje ustreznosti regresijskega modela (glej 45). Koeficient določitve

Včasih se za karakterizacijo kakovosti regresijske črte uporablja vzorčni koeficient določanja R 2, ki prikazuje, kolikšen del (ulomek) vsote kvadratov je zaradi regresije SK p v skupni vsoti kvadratov SK n:

Bližje R 2 proti ena, bolje ko se regresija približa eksperimentalnim podatkom, bližje so opazovanja ob regresijski črti. Če R 2 = 0, potem so spremembe v odzivu v celoti posledica vpliva neupoštevanih dejavnikov, regresijska črta pa je vzporedna z osjo x-ov. V primeru preproste linearne regresije je koeficient determinacije R 2 je enak kvadratu korelacijskega koeficienta r 2 .

Največjo vrednost R 2 = 1 je mogoče doseči le v primeru, ko so bila opazovanja izvedena pri različnih vrednostih x-ov. Če se v podatkih ponavljajo poskusi, potem vrednost R 2 ne more doseči enote, ne glede na to, kako dober je model.

48. Intervali zaupanja za parametre preproste linearne regresije

Tako kot je vzorčno povprečje ocena resničnega povprečja (povprečje populacije), so tudi vzorčni parametri regresijske enačbe a in b- nič drugega kot ocena dejanskih regresijskih koeficientov. Različni vzorci dajejo različne ocene povprečja – tako kot bodo različni vzorci dali različne ocene regresijskih koeficientov.

Ob predpostavki, da je zakon porazdelitve napak ε i so opisani z normalnim zakonom, oceno parametra b bo imela normalno porazdelitev s parametri:


Od ocene parametrov a je linearna kombinacija neodvisnih normalno porazdeljenih veličin, bo imela tudi normalno porazdelitev s povprečjem in varianco:


V tem primeru je interval zaupanja (1 - α) za oceno variance σ 2 ob upoštevanju, da je razmerje ( n−2)s 0 2 /σ 2 razdeljena po zakonu χ 2 s številom stopenj svobode n−2 bo določen z izrazom


49. Intervali zaupanja za regresijsko črto. Interval zaupanja za vrednosti odvisnih spremenljivk

Običajno ne poznamo pravih vrednosti regresijskih koeficientov. a in b... Poznamo le njihove ocene. Z drugimi besedami, prava regresijska črta je lahko višja ali nižja, je strmejša ali plitva od tiste, ki je sestavljena iz vzorčnih podatkov. Za regresijske koeficiente smo izračunali intervale zaupanja. Izračunate lahko tudi območje zaupanja za samo regresijsko črto.

Za preprosto linearno regresijo je potrebno konstruirati (1− α ) interval zaupanja za matematično pričakovanje odgovora Y po vrednosti X = X 0. To matematično pričakovanje je a+bx 0 in njena ocena

Od takrat.

Dobljena ocena matematičnega pričakovanja je linearna kombinacija nekoreliranih normalno porazdeljenih vrednosti in ima zato tudi normalno porazdelitev s središčem na točki prave vrednosti pogojnega matematičnega pričakovanja in variance

Zato interval zaupanja za regresijsko črto pri vsaki vrednosti x 0 je mogoče predstaviti kot


Kot lahko vidite, je minimalni interval zaupanja dosežen pri x 0 enako povprečju in narašča kot x 0 se "odmakne" od sredine v katero koli smer.

Če želite dobiti niz skupnih intervalov zaupanja, primernih za celotno regresijsko funkcijo, vzdolž njene celotne dolžine, v zgornjem izrazu namesto t n −2,α / 2 je treba zamenjati

Eden od dejavnikov, ki omejujejo uporabo meril, ki temeljijo na predpostavki normalnosti, je velikost vzorca. Dokler je vzorec dovolj velik (na primer 100 ali več opazovanj), lahko domnevate, da je porazdelitev vzorca normalna, tudi če niste prepričani, da je porazdelitev spremenljivke v populaciji normalna. Če pa je vzorec majhen, je treba ta merila uporabiti le, če obstaja zaupanje, da je spremenljivka res normalno porazdeljena. Vendar te domneve ni mogoče preizkusiti na majhnem vzorcu.

Tudi uporaba meril, ki temeljijo na predpostavki normalnosti, je omejena na lestvico meritev (glej poglavje Osnovni pojmi analize podatkov). Statistične metode, kot so t-test, regresija itd., predvidevajo, da so prvotni podatki neprekinjeni. Vendar pa obstajajo situacije, ko so podatki preprosto razvrščeni (merjeni na ordinalni lestvici) in ne natančno izmerjeni.

Tipičen primer so ocene spletnih mest na internetu: prvo mesto zaseda stran z največjim številom obiskovalcev, drugo mesto z največjim številom obiskovalcev med preostalimi stranmi (med spletnimi mesti s katerega je bila prva stran odstranjena) itd. Ob poznavanju ocen lahko rečemo, da je število obiskovalcev ene strani večje od števila obiskovalcev druge, koliko več pa je nemogoče reči. Predstavljajte si, da imate 5 mest: A, B, C, D, E, ki so na prvih 5 mestih. Recimo, da smo v tekočem mesecu imeli naslednjo ureditev: A, B, C, D, E, v prejšnjem mesecu pa: D, E, A, B, C. Vprašanje je, ali je prišlo do bistvenih sprememb v ocenah strani ali ne? V tej situaciji očitno ne moremo uporabiti t-testa za primerjavo teh dveh skupin podatkov in preiti na področje specifičnih verjetnostnih izračunov (in kateri koli statistični kriterij vsebuje verjetnostni izračun!). Razmišljamo takole: kako verjetno je, da je razlika v obeh postavitvah spletnega mesta posledica povsem naključnih razlogov ali da je razlika prevelika in je ni mogoče razložiti s čistim naključjem. V tem sklepanju uporabljamo samo uvrstitve ali permutacije spletnih mest in nikakor ne uporabljamo posebne oblike distribucije števila obiskovalcev na njih.

Za analizo majhnih vzorcev in za podatke, merjene na slabih lestvicah, se uporabljajo neparametrične metode.

Hiter ogled neparametričnih postopkov

V bistvu za vsako parametrično merilo obstaja vsaj, ena neparametrična alternativa.

Na splošno ti postopki spadajo v eno od naslednjih kategorij:

  • merila za razlikovanje za neodvisne vzorce;
  • merila za razlikovanje za odvisne vzorce;
  • ocena stopnje odvisnosti med spremenljivkami.

Na splošno bi moral biti pristop k statističnim merilom pri analizi podatkov pragmatičen in ne obremenjen z nepotrebnim teoretičnim sklepanjem. Z računalnikom STATISTICA, ki vam je na voljo, lahko preprosto uporabite več kriterijev za svoje podatke. Če poznate nekatere pasti metod, boste z eksperimentiranjem izbrali pravo rešitev. Razvoj grafa je povsem naraven: če morate primerjati vrednosti dveh spremenljivk, uporabite t-test. Vendar je treba spomniti, da temelji na predpostavki normalnosti in enakosti variance v vsaki skupini. Osvoboditev teh predpostavk povzroči neparametrične teste, ki so še posebej uporabni za majhne vzorce.

Razvoj t-testa vodi v analizo variance, ki se uporablja, kadar je število primerjanih skupin več kot dve. Ustrezen razvoj neparametričnih postopkov vodi do neparametrične analize variance, čeprav je bistveno slabša od klasične analize variance.

Za oceno odvisnosti ali, povedano nekoliko pompozno, stopnje tesnosti povezave, se izračuna Pearsonov korelacijski koeficient. Strogo gledano, ima njegova uporaba omejitve, povezane na primer z vrsto lestvice, v kateri se merijo podatki, in nelinearnostjo odvisnosti, zato se alternativno uporabljajo tudi neparametrični ali tako imenovani korelacijski koeficienti ranga, ki so uporablja se na primer za razvrščene podatke. Če se podatki merijo na nominalni lestvici, potem je naravno, da jih predstavimo v kontingenčnih tabelah, ki uporabljajo Pearsonov hi-kvadrat test z različnimi variacijami in popravki za natančnost.

Torej je v bistvu le nekaj vrst meril in postopkov, ki jih morate poznati in znati uporabljati, odvisno od posebnosti podatkov. Določiti morate, katero merilo je treba uporabiti v določeni situaciji.

Neparametrične metode so najbolj primerne, če so velikosti vzorcev majhne. Če je podatkov veliko (na primer n> 100), pogosto ni smiselno uporabljati neparametrične statistike.

Če je velikost vzorca zelo majhna (na primer n = 10 ali manj), se lahko ravni pomembnosti za tiste neparametrične teste, ki uporabljajo normalni približek, obravnavajo le kot grobe ocene.

Razlike med neodvisnimi skupinami... Če obstajata dva vzorca (na primer moški in ženske), ki ju je treba primerjati glede na neko povprečno vrednost, na primer srednji tlak ali število levkocitov v krvi, se lahko t-test uporabi za neodvisno vzorcev.

Neparametrične alternative temu testu so Val'd-Wolfowitz, Mann-Whitneyjev niz test) / n, kjer je x i - i-ta vrednost, n je število opazovanj. Če spremenljivka vsebuje negativne vrednosti ali nič (0), geometrijske sredine ni mogoče izračunati.

Harmonično povprečje

Harmonično povprečje se včasih uporablja za povprečje frekvenc. Harmonično povprečje izračunamo po formuli: ГС = n / S (1 / x i) kjer je ГС harmonično povprečje, n število opazovanj, х i vrednost opazovanja s številko i. Če spremenljivka vsebuje nič (0), harmonične sredine ni mogoče izračunati.

Disperzija in standardni odklon

Varianca vzorca in standardna deviacija sta najpogosteje uporabljena merila variabilnosti (variacije) podatkov. Varianca se izračuna kot vsota kvadratov odstopanj vrednosti spremenljivke od srednje vrednosti vzorca, deljenih z n-1 (ne pa z n). Standardni odklon se izračuna kot kvadratni koren ocene variance.

Gugalnica

Razpon spremenljivke je indikator nestanovitnosti, izračunan kot maksimum minus minimum.

Kvartilni obseg

Četrtletni razpon je po definiciji: zgornji kvartil minus spodnji kvartil (75 % percentil minus 25 % percentil). Ker je 75 % percentil (zgornji kvartil) vrednost, levo od katere se nahaja 75 % primerov, in 25 % percentil (spodnji kvartil) vrednost, levo od katere se nahaja 25 % primerov, je kvartil razpon je interval okoli mediane, ki vsebuje 50 % primerov (vrednosti spremenljivk).

Asimetrija

Asimetrija je značilnost oblike porazdelitve. Porazdelitev je nagnjena v levo, če je vrednost poševnosti negativna. Porazdelitev je nagnjena v desno, če je asimetrija pozitivna. Poševnost standardne normalne porazdelitve je 0. Poševnost je povezana s tretjim trenutkom in je definirana kot: poševnost = n × M 3 / [(n-1) × (n-2) × s 3], kjer je M 3 je: (xi -x povprečje x) 3, s 3 je standardni odklon, dvignjen na tretjo potenco, n je število opazovanj.

Presežek

Kurtoza je značilnost oblike porazdelitve, in sicer merilo resnosti njenega vrha (glede na normalno porazdelitev, katere eksces je enak 0). Praviloma imajo porazdelitve z ostrejšim vrhom kot običajno pozitivno ekscesijo; porazdelitve, katerih vrh je manj akuten od vrha normalne porazdelitve, imajo negativno ekscesijo. Presežek je povezan s četrtim trenutkom in je določen s formulo:

kurtosis = / [(n-1) × (n-2) × (n-3) × s 4], kjer je M j: (xx povprečje x, s 4 je standardni odklon na četrto potenco, n je število opazovanj...

Potrebe gospodarske in družbene prakse zahtevajo razvoj metod za kvantitativni opis procesov, ki omogočajo natančno registracijo ne le kvantitativnih, temveč tudi kvalitativnih dejavnikov. Pod pogojem, da se vrednosti kvalitativnih značilnosti lahko razvrstijo ali razporedijo po stopnji zmanjšanja (povečanja) lastnosti, je mogoče oceniti tesnost razmerja med kvalitativnimi značilnostmi. Kvalitativno pomeni lastnost, ki je ni mogoče natančno izmeriti, vendar vam omogoča, da predmete primerjate med seboj in jih zato razporedite po padajočem ali naraščajočem vrstnem redu kakovosti. Prava vsebina meritev na lestvicah je vrstni red, v katerem so predmeti razvrščeni glede na resnost merjene značilnosti.

Za praktične namene je uporaba rangovne korelacije zelo uporabna. Na primer, če je med dvema kvalitativnima lastnostma izdelkov vzpostavljena korelacija visokega ranga, potem je dovolj, da izdelke nadzorujemo samo po eni od lastnosti, zaradi česar je kontrola cenejša in hitrejša.

Kot primer lahko upoštevamo obstoj povezave med razpoložljivostjo komercialnih izdelkov številnih podjetij in režijskimi stroški za prodajo. Med 10 opazovanji smo dobili naslednjo tabelo:

Razporedimo vrednosti X v naraščajočem vrstnem redu, pri čemer vsaki vrednosti dodeli svojo redno številko (rang) vsaki vrednosti:

V to smer,

Sestavimo naslednjo tabelo, kjer sta zapisana para X in Y, pridobljena kot rezultat opazovanja z njihovimi rangi:

Če označimo razliko v rangih kot, zapišemo formulo za izračun korelacijskega koeficienta Spearmanovega vzorca:

kjer je n število opazovanj, je tudi število parov rangov.

Spearmanov koeficient ima naslednje lastnosti:

Če obstaja popolna neposredna povezava med kvalitativnima značilnostma X in Y v smislu, da se rangi predmetov ujemajo za vse vrednosti i, potem je Spearmanov vzorčni koeficient korelacije 1. Dejansko, če ga nadomestimo v formulo, dobimo 1.

Če obstaja popolna inverzna povezava med kvalitativnima značilnostma X in Y v smislu, da rang ustreza rangu, potem je Spearmanov vzorčni korelacijski koeficient -1.

Pravzaprav, če

Če nadomestimo vrednost v formuli Spearmanovega korelacijskega koeficienta, dobimo -1.

Če ni niti popolne ravne niti popolne povratne informacije, potem je Spearmanov vzorčni korelacijski koeficient med -1 in 1, in bližje 0 je njegova vrednost, manjše je razmerje med značilnostmi.

V skladu z zgornjim primerom bomo našli vrednost P, za to bomo izpolnili tabelo z vrednostmi in:

Kendallov koeficient korelacije vzorca. Razmerje med dvema kvalitativnima značilnostma lahko ocenite s pomočjo Kendallovega koeficienta korelacijskega ranga.

Naj bodo rangi predmetov vzorca velikosti n enaki:

na podlagi X:

na podlagi Y:. Predpostavimo, da so na desni strani rangi, veliki, na desni so rangi, veliki, na desni so rangi, veliki. Uvedemo zapis za vsoto rangov

Podobno uvedemo zapis kot vsoto števila rangov, ki ležijo na desni, vendar manj.

Kendallov vzorčni korelacijski koeficient je zapisan s formulo:

Kjer je n velikost vzorca.

Kendallov koeficient ima enake lastnosti kot Spearmanov koeficient:

Če obstaja popolna neposredna povezava med kvalitativnima značilnostima X in Y v smislu, da se rangi predmetov ujemajo za vse vrednosti i, potem je Kendallov koeficient korelacije vzorca 1. Dejansko je na desni strani n-1 činovi, veliki, torej na enak način ugotavljamo, kaj. Potem. In Kendallov koeficient je:.

Če obstaja popolna inverzna povezava med kvalitativnima značilnostma X in Y v smislu, da rang ustreza rangu, potem je Kendallov vzorčni korelacijski koeficient -1. Na desni ni činov, torej velikih. Prav tako. Če v formulo Kendallovega koeficienta nadomestimo vrednost R + = 0, dobimo -1.

Z dovolj veliko velikostjo vzorca in z vrednostmi koeficientov rangirane korelacije, ki niso blizu 1, pride do približne enakosti:

Ali Kendallov koeficient daje bolj konzervativno oceno korelacije kot Spearmanov koeficient? (številčna vrednost? je vedno manjša od). Med izračunom koeficienta? manj naporno kot pri izračunu koeficienta, je slednje lažje preračunati, če v niz dodamo nov člen.

Pomembna prednost koeficienta je, da ga je mogoče uporabiti za določanje koeficienta delne korelacije ranga, ki omogoča oceno stopnje "čiste" medsebojne povezanosti dveh značilnosti ranga, pri čemer se odpravlja vpliv tretjega:

Pomen koeficientov rangiranja. Pri določanju jakosti rangovne korelacije na podlagi vzorčnih podatkov je treba upoštevati naslednje vprašanje: s kakšno stopnjo zanesljivosti se lahko zanesemo na ugotovitev, da v splošni populaciji obstaja korelacija, če je določen koeficient vzorčne korelacije ranga pridobljeno. Z drugimi besedami, pomembnost opazovanih rang korelacije je treba preveriti na podlagi hipoteze, da sta obravnavani uvrstitvi statistično neodvisni.

Pri razmeroma velikem vzorcu n lahko pomembnost rangovnih korelacijskih koeficientov preverimo z uporabo tabele normalne porazdelitve (Tabela 1 v prilogi). Da bi preizkusili pomen Spearmanovega koeficienta? (za n> 20) izračunaj vrednost

in preizkusiti pomen Kendallovega koeficienta? (za n> 10) izračunaj vrednost

kjer je S = R + - R-, n je velikost vzorca.

Nadalje se nastavi raven pomembnosti?, kritična vrednost tcr (?, K) se določi iz tabele kritičnih točk Študentove distribucije in izračunane vrednosti ali se primerja z njo. Število stopenj svobode je predpostavljeno k = n-2. Če ali> tcr, se vrednosti ali štejejo za pomembne.

Fechnerjev korelacijski koeficient.

Na koncu naj omenimo Fechnerjev koeficient, ki označuje osnovno stopnjo tesnosti povezave, ki ga je priporočljivo uporabiti za ugotavljanje dejstva povezave, ko je začetnih informacij majhna. Osnova za njen izračun je upoštevanje smeri odstopanj od aritmetične sredine variant posamezne variacijske serije in določanje konsistentnosti predznakov teh odstopanj za dve seriji, med katerima se meri razmerje.

Ta koeficient je določen s formulo:

kjer je na število naključij znakov odstopanj posameznih vrednosti od njihove aritmetične sredine; nb - število neusklajenosti.

Fechnerjev koeficient se lahko giblje med -1,0<= Кф<= +1,0.

Uporabni vidiki korelacije rangov. Kot smo že omenili, se koeficienti rangove korelacije lahko uporabijo ne le za kvalitativno analizo razmerja med dvema značilnostima ranga, ampak tudi pri določanju moči razmerja med rangom in kvantitativnimi značilnostmi. V tem primeru se vrednosti kvantitativne značilnosti razvrstijo in jim dodelijo ustrezne uvrstitve.

Obstajajo številne situacije, ko je izračun koeficientov rangirane korelacije priporočljiv tudi pri določanju moči razmerja med dvema kvantitativnima značilnostma. Torej, s pomembnim odstopanjem porazdelitve ene od njih (ali obeh) od normalne porazdelitve, postane določitev stopnje pomembnosti korelacijskega koeficienta vzorca r napačna, medtem ko rang koeficienti? in? zanje ne veljajo takšne omejitve pri določanju stopnje pomembnosti.

Druga tovrstna situacija se pojavi, ko je razmerje med dvema kvantitativnima značilnostma nelinearno (vendar monotono). Če je število predmetov v vzorcu majhno ali če je za raziskovalca pomemben predznak povezave, potem uporaba korelacijskega razmerja? tukaj je morda neustrezno. Izračun rangovnega korelacijskega koeficienta omogoča, da zaobidemo navedene težave.

Praktični del

Naloga 1. Korelacijsko-regresijska analiza

Postavitev in formalizacija problema:

Podan je empirični vzorec, sestavljen na podlagi serije opazovanj stanja opreme (za okvaro) in števila izdelanih izdelkov. Vzorec implicitno označuje razmerje med količino opreme, ki je odpovedala, in številom izdelanih artiklov. Glede na pomen vzorca je jasno, da se izdelani izdelki proizvajajo na opremi, ki ostaja v uporabi, saj več % opreme, ki je odpovedala, manj je izdelanih izdelkov. Potrebno je izvesti študijo vzorca za korelacijsko-regresijsko odvisnost, to je ugotoviti obliko odvisnosti, oceniti regresijsko funkcijo (regresijska analiza), pa tudi ugotoviti razmerje med naključnimi spremenljivkami in oceniti njegovo tesnost. (korelacijske analize). Dodatna naloga korelacijske analize je oceniti regresijsko enačbo ene spremenljivke za drugo. Poleg tega je treba predvideti število proizvedenih izdelkov s 30-odstotno okvaro opreme.

Formalizirajmo podani vzorec v tabeli, tako da označimo podatke "Okvara opreme,%" kot X, podatke "Število izdelkov" kot Y:

Začetni podatki. Tabela 1

Glede na fizični pomen problema je razvidno, da je število izdelanih izdelkov Y neposredno odvisno od % okvare opreme, torej je odvisnost Y od X. Pri izvajanju regresijske analize je potrebno poiščite matematično razmerje (regresijo), ki povezuje vrednosti X in Y. V tem primeru regresijska analiza v Za razliko od korelacije predpostavlja, da vrednost X deluje kot neodvisna spremenljivka ali faktor, vrednost Y - kot odvisno od nje ali učinkovit znak. Tako je treba sintetizirati ustrezen ekonomsko-matematični model, tj. določi (najdi, izberi) funkcijo Y = f (X), ki označuje razmerje med vrednostma X in Y, s pomočjo katere bo mogoče napovedati vrednost Y pri X = 30. Ta problem je mogoče rešili s korelacijsko-regresijsko analizo.

Kratek pregled metod za reševanje korelacijsko-regresijskih problemov in utemeljitev izbrane metode rešitve.

Metode regresijske analize so razdeljene na enofaktorske in večfaktorske glede na število dejavnikov, ki vplivajo na učinkovito lastnost. Univariatno - število neodvisnih faktorjev = 1, t.j. Y = F (X)

multifaktorski - število faktorjev> 1, t.j.

Glede na število raziskanih odvisnih spremenljivk (učinkovitih kazalnikov) lahko regresijske probleme razdelimo tudi na naloge z enim ali več učinkovitimi kazalniki. Na splošno lahko zapišemo nalogo s številnimi učinkovitimi funkcijami:

Metoda korelacijsko-regresijske analize je sestavljena iz iskanja parametrov aproksimacijske (približne) odvisnosti oblike

Ker se v danem problemu pojavlja samo ena neodvisna spremenljivka, torej raziskuje se odvisnost samo od enega dejavnika, ki vpliva na rezultat, je treba uporabiti študijo enosmerne odvisnosti oziroma regresije parov.

Če obstaja samo en faktor, je odvisnost opredeljena kot:

Oblika zapisa določene regresijske enačbe je odvisna od izbire funkcije, ki prikazuje statistično razmerje med faktorjem in efektivnim kazalnikom in vključuje naslednje:

linearna regresija, enačba oblike,

parabolična, enačba oblike

kubična, enačba oblike

hiperbolična, enačba oblike

semilogaritemska, enačba oblike

eksponentno, enačba oblike

potenčni zakon, enačba oblike.

Iskanje funkcije se zmanjša na določanje parametrov regresijske enačbe in ocenjevanje zanesljivosti same enačbe. Za določitev parametrov lahko uporabite metodo najmanjših kvadratov in metodo najmanjšega modula.

Prvi od njih je, da je vsota kvadratov odstopanj empiričnih vrednosti Yi od izračunanih srednjih vrednosti Yi minimalna.

Metoda najmanjšega modula sestoji iz zmanjšanja vsote modulov razlike med empiričnimi vrednostmi Yi in izračunano srednjo vrednostjo Yi.

Za rešitev problema bomo izbrali metodo najmanjših kvadratov, saj je najpreprostejša in daje dobre ocene glede na statistične lastnosti.

Tehnologija reševanja problema regresijske analize z metodo najmanjših kvadratov.

Vrsta odvisnosti (linearna, kvadratna, kubična itd.) med spremenljivkami je mogoče določiti tako, da ocenimo odstopanje dejanske vrednosti y od izračunane:

kjer je - empirične vrednosti, - izračunane vrednosti s pomočjo aproksimacijske funkcije. Ko ocenimo vrednosti Si za različne funkcije in izberemo najmanjšo od njih, izberemo aproksimacijsko funkcijo.

Vrsta funkcije se določi z iskanjem koeficientov, ki jih najdemo za vsako funkcijo kot rešitev določenega sistema enačb:

linearna regresija, enačba oblike, sistem -

parabolični, enačba oblike, sistem -

kubična, enačba oblike, sistem -

Ko rešimo sistem, najdemo, s pomočjo katerega pridemo do specifičnega izraza analitične funkcije, s katero najdemo izračunane vrednosti. Nadalje so na voljo vsi podatki za iskanje ocene vrednosti odstopanja S in analizo za minimum.

Za linearno razmerje ocenimo tesnost razmerja med faktorjem X in efektivnim indikatorjem Y v obliki korelacijskega koeficienta r:

Povprečna vrednost kazalnika;

Povprečna vrednost faktorja;

y je eksperimentalna vrednost indikatorja;

x je eksperimentalna vrednost faktorja;

Standardni odklon v x;

Standardna deviacija v y.

Če je korelacijski koeficient r = 0, potem velja, da je razmerje med značilnostmi nepomembno ali odsotno, če je r = 1, potem obstaja zelo visoka funkcionalna povezava med značilnostmi.

S pomočjo Chaddockove tabele lahko kvalitativno ocenite tesnost korelacije med znaki:

Tabela chaddock tabela 2.

Za nelinearno odvisnost se določita korelacijsko razmerje (0 1) in korelacijski indeks R, ki se izračunata iz naslednjih odvisnosti.

kjer je vrednost vrednost kazalnika, izračunana z odvisnostjo od regresije.

Kot oceno natančnosti izračuna uporabimo vrednost povprečne relativne napake približevanja

Z visoko natančnostjo je v območju 0-12%.

Za oceno izbora funkcionalne odvisnosti uporabljamo koeficient determinacije

Koeficient determinacije se uporablja kot »posplošeno« merilo kakovosti izbora funkcionalnega modela, saj izraža razmerje med faktorsko in skupno varianco oziroma delež faktorske variance v skupni vrednosti.

Za oceno pomembnosti korelacijskega indeksa R se uporablja Fisherjev F test. Dejanska vrednost merila je določena s formulo:

kjer je m število parametrov regresijske enačbe, n število opazovanj. Vrednost se primerja s kritično vrednostjo, ki se določi po tabeli F-kriterij, ob upoštevanju sprejete stopnje pomembnosti in števila svoboščin in. Če, potem se vrednost korelacijskega indeksa R šteje za pomembno.

Za izbrano obliko regresije se izračunajo koeficienti regresijske enačbe. Zaradi udobja so rezultati izračuna vključeni v tabelo naslednje strukture (na splošno se število stolpcev in njihov videz spreminjata glede na vrsto regresije):

Tabela 3

Rešitev problema.

Opravljena so opažanja ekonomskega pojava – odvisnosti sproščanja izdelkov od odstotka okvare opreme. Dobljen je niz vrednosti.

Izbrane vrednosti so opisane v tabeli 1.

Za dani vzorec zgradimo graf empirične odvisnosti (slika 1)

Po vrsti grafa ugotovimo, da lahko analitično odvisnost predstavimo kot linearno funkcijo:

Izračunajmo parni korelacijski koeficient za oceno razmerja med X in Y:

Sestavimo pomožno mizo:

Tabela 4

Rešimo sistem enačb, da najdemo koeficiente in:

iz prve enačbe, ki nadomesti vrednost

v drugo enačbo dobimo:

Najdemo

Dobimo obliko regresijske enačbe:

9. Za oceno tesnosti najdenega razmerja uporabimo korelacijski koeficient r:

Po Chaddockovi tabeli ugotavljamo, da je pri r = 0,90 razmerje med X in Y zelo visoko, zato je tudi zanesljivost regresijske enačbe visoka. Za oceno natančnosti izračunov uporabimo vrednost povprečne relativne napake približevanja:

Menimo, da vrednost zagotavlja visoko stopnjo zanesljivosti regresijske enačbe.

Za linearno razmerje med X in Y je indeks določitve enak kvadratu korelacijskega koeficienta r:. Posledično je 81 % celotne variacije razloženo s spremembo faktorske značilnosti X.

Za oceno pomembnosti korelacijskega indeksa R, ki je v primeru linearne zveze po absolutni vrednosti enak korelacijskemu koeficientu r, se uporablja Fisherjev F-test. Dejansko vrednost določimo s formulo:

kjer je m število parametrov regresijske enačbe, n število opazovanj. To pomeni, da je n = 5, m = 2.

Ob upoštevanju sprejete stopnje pomembnosti = 0,05 in števila svoboščin dobimo kritično tabelarno vrednost. Ker je vrednost korelacijskega indeksa R priznana kot pomembna.

Izračunajmo predvideno vrednost Y pri X = 30:

Sestavimo graf najdene funkcije:

11. Z vrednostjo standardnega odklona določimo napako korelacijskega koeficienta

nato pa določimo vrednost normaliziranega odklona

Iz razmerja> 2 z verjetnostjo 95 % lahko govorimo o pomembnosti dobljenega korelacijskega koeficienta.

Problem 2. Linearna optimizacija

1. možnost.

Z razvojnim načrtom regije naj bi začeli obratovati 3 naftna polja s skupnim obsegom proizvodnje 9 milijonov ton. Na prvem polju je obseg proizvodnje najmanj 1 milijon ton, na drugem - 3 milijone ton, na tretjem - 5 milijonov ton. Za dosego te produktivnosti je potrebno izvrtati najmanj 125 vrtin. Za izvajanje tega načrta je bilo dodeljenih 25 milijonov rubljev. kapitalske naložbe (kazalnik K) in 80 km cevi (kazalnik L).

Za zagotovitev načrtovane produktivnosti posameznega polja je potrebno določiti optimalno (maksimalno) število vrtin. Začetni podatki o nalogi so podani v tabeli.

Začetni podatki

Izjava o problemu je navedena zgoraj.

Formalizirajmo pogoje in omejitve, določene v problemu. Cilj reševanja tega optimizacijskega problema je poiskati največjo vrednost proizvodnje nafte z optimalnim številom vrtin za vsako polje ob upoštevanju obstoječih omejitev problema.

Ciljna funkcija bo v skladu z zahtevami naloge imela obliko:

kjer je število vrtin za vsako polje.

Obstoječe omejitve naloge za:

dolžina polaganja cevi:

število vrtin na vsakem polju:

stroški gradnje 1 vrtine:

Problemi linearne optimizacije se rešujejo na primer z naslednjimi metodami:

grafično

Simpleksna metoda

Uporaba grafične metode je priročna le pri reševanju problemov linearne optimizacije z dvema spremenljivkama. Pri večjem številu spremenljivk je nujna uporaba algebraičnega aparata. Razmislite o splošni metodi za reševanje problemov linearne optimizacije, imenovani simpleksna metoda.

Simpleksna metoda je tipičen primer iterativnih izračunov, ki se uporabljajo za reševanje večine optimizacijskih problemov. Obravnavani so tovrstni iterativni postopki, ki zagotavljajo reševanje problemov s pomočjo modelov operativnih raziskav.

Za rešitev optimizacijskega problema s simpleksno metodo je potrebno, da je število neznank Xi večje od števila enačb, t.j. sistem enačb

izpolnjuje razmerje m

A = je bilo enako m.

Označimo stolpec matrike A kot, stolpec prostih členov pa kot

Osnovna rešitev sistema (1) je niz m neznank, ki so rešitev sistema (1).

Na kratko je algoritem simpleksne metode opisan takole:

Prvotna omejitev zapisana kot neenakost kot<= (=>) lahko predstavimo kot enakost z dodajanjem preostale spremenljivke na levo stran omejitve (odštevanje redundantne spremenljivke od leve strani).

Na primer levo od prvotne omejitve

uvede se preostala spremenljivka, zaradi česar se prvotna neenakost spremeni v enakost

Če prvotna omejitev določa pretok cevi, je treba spremenljivko razlagati kot preostanek ali neuporabljeni del tega vira.

Maksimiranje ciljne funkcije je enako minimiziranju iste funkcije, vzete z nasprotnim predznakom. Se pravi v našem primeru

enakovreden

Simpleksna tabela je sestavljena za osnovno rešitev naslednje oblike:

V tej tabeli je navedeno, da bo po rešitvi problema v teh celicah osnovna rešitev. - količniki iz deljenja stolpca z enim od stolpcev; - dodatni množitelji za ničelne vrednosti v celicah tabele, ki so povezane z ločevalnim stolpcem. - minimalna vrednost ciljne funkcije -Z, - vrednosti koeficientov v ciljni funkciji z neznankami.

Vsako pozitivno vrednost najdemo med pomeni. Če temu ni tako, se šteje, da je problem rešen. Izbran je kateri koli stolpec tabele, ki je v njej, ta stolpec se imenuje stolpec "dopusten". Če med elementi ločljivega stolpca ni pozitivnih števil, potem je problem nerešljiv zaradi neomejenosti ciljne funkcije na množici njenih rešitev. Če so v stolpcu za reševanje prisotna pozitivna števila, pojdite na 5.

Stolpec je napolnjen z ulomki, v števcu katerih so elementi stolpca, v imenovalcu pa ustrezni elementi ločljivega stolpca. Izbere se najmanjša od vseh vrednosti. Vrstica z najmanjšim rezultatom se imenuje vrstica "omogoči". Na presečišču ločljive črte in ločljivega stolpca se najde ločljivi element, ki je na nek način poudarjen, na primer z barvo.

Na podlagi prve simpleksne tabele je sestavljeno naslednje, v katerem:

Zamenja vektor vrstice z vektorjem stolpca

permisivna črta se nadomesti z isto črto, deljeno s permisivnim elementom

vsaka od drugih vrstic tabele se nadomesti z vsoto te vrstice z ločevalno, pomnoženo s posebej izbranim dodatnim faktorjem, da dobimo 0 v celici ločljivega stolpca.

Z novo tabelo se obrnemo na točko 4.

Rešitev problema.

Na podlagi izjave problema imamo naslednji sistem neenakosti:

in ciljno funkcijo

Sistem neenakosti pretvorimo v sistem enačb z uvedbo dodatnih spremenljivk:

Zmanjšajmo ciljno funkcijo na njen ekvivalent:

Sestavimo originalno tabelo simpleksa:

Izberimo permisivni stolpec. Izračunajmo stolpec:

Vrednosti vnesemo v tabelo. Za najmanjšo od njih = 10 določimo ločljivo črto:. Na presečišču ločevalne vrstice in ločljivega stolpca najdemo ločevalni element = 1. Del tabele zapolnimo z dodatnimi faktorji, tako da: z njimi pomnoženo ločevalno vrstico, dodamo preostalim vrsticam tabele, tvori 0 v elementih ločljivega stolpca.

Sestavimo drugo tabelo simpleksa:

V njem vzamemo ločevalni stolpec, izračunamo vrednosti, jih vnesemo v tabelo. Najmanj dobimo ločevalno črto. Rešilni element bo 1. Poiščite dodatne faktorje, izpolnite stolpce.

Ustvarimo naslednjo tabelo simpleksa:

Podobno najdemo stolpec za reševanje, razreševalno vrstico in ločljivi element = 2. Sestavimo naslednjo tabelo simpleksa:

Ker v vrstici -Z ni pozitivnih vrednosti, je ta tabela končna. V prvem stolpcu so podane želene vrednosti neznank, t.j. optimalna osnovna rešitev:

V tem primeru je vrednost ciljne funkcije -Z = -8000, kar je enako Zmax = 8000. Problem je rešen.

Naloga 3. Grozdna analiza

Formulacija problema:

Razdelite predmete na podlagi podatkov, navedenih v tabeli. Izbira metode rešitve je treba izvesti neodvisno, za sestavljanje grafa odvisnosti podatkov.

1. možnost.

Začetni podatki

Pregled metod za reševanje tovrstnih težav. Utemeljitev metode rešitve.

Naloge analize grozdov se rešujejo z naslednjimi metodami:

Metoda združevanja ali združevanja dreves se uporablja za oblikovanje grozdov "različnosti" ali "razdalje med predmeti". Te razdalje je mogoče definirati v enodimenzionalnem ali večdimenzionalnem prostoru.

Dvosmerno kombiniranje se uporablja (relativno redko) v okoliščinah, ko se podatki interpretirajo ne z vidika »predmetov« in »lastnosti predmetov«, temveč z vidika opazovanj in spremenljivk. Pričakuje se, da bodo opazovanja in spremenljivke hkrati prispevale k odkrivanju smiselnih grozdov.

Metoda K-sredstev. Uporablja se, ko že obstaja hipoteza o številu grozdov. Sistemu lahko poveste, naj tvori natančno tri grozde, tako da so čim bolj različni. Na splošno metoda K-means gradi točno K različnih grozdov, ki se nahajajo na največji možni razdalji drug od drugega.

Obstajajo naslednji načini za merjenje razdalje:

Evklidska razdalja. To je najpogostejša vrsta razdalje. To je preprosto geometrijska razdalja v večdimenzionalnem prostoru in se izračuna na naslednji način:

Upoštevajte, da je evklidska razdalja (in njen kvadrat) izračunana iz izvirnih, ne standardiziranih podatkov.

Razdalja mestnih blokov (razdalja Manhattan). Ta razdalja je preprosto povprečje koordinatnih razlik. V večini primerov ta mera razdalje vodi do enakih rezultatov kot pri navadni evklidski razdalji. Upoštevajte pa, da se pri tem merilu vpliv posameznih velikih razlik (izločev) zmanjša (saj niso na kvadrat). Razdalja Manhattan se izračuna po formuli:

Čebiševa razdalja. Ta razdalja je lahko uporabna, če želite dva predmeta definirati kot "različna", če se razlikujeta v kateri koli koordinati (po kateri koli eni dimenziji). Razdalja Chebyshev se izračuna po formuli:

Razdalja moči. Včasih želimo postopoma povečati ali zmanjšati težo, povezano z dimenzijo, za katero so ustrezni predmeti zelo različni. To je mogoče doseči z uporabo razdalje po potehnem zakonu. Potencijska razdalja se izračuna po formuli:

kjer sta r in p uporabniško definirana parametra. Nekaj ​​primerov izračuna lahko pokaže, kako ta ukrep "deluje". Parameter p je odgovoren za postopno uteževanje razlik v posameznih koordinatah, parameter r je odgovoren za progresivno uteževanje velikih razdalj med objekti. Če sta oba parametra - r in p, enaka dvema, potem ta razdalja sovpada z evklidsko razdaljo.

Odstotek nestrinjanja. Ta ukrep se uporablja, kadar so podatki kategorični. Ta razdalja se izračuna po formuli:

Za rešitev problema bomo izbrali metodo poenotenja (drevesno združevanje v gruče) kot tisto, ki najbolje ustreza pogojem in formulaciji problema (za razdelitev objektov). Po drugi strani lahko sindikalna metoda uporablja več različic komunikacijskih pravil:

Enotna povezava (metoda najbližjega soseda). Pri tej metodi je razdalja med dvema skupinama določena z razdaljo med dvema najbližjema objektoma (najbližjim sosedoma) v različnih grozdih. To pomeni, da sta katera koli dva predmeta v dveh skupinah bližje drug drugemu od ustrezne razdalje povezave. To pravilo bi moralo v nekem smislu združiti predmete, da tvorijo grozde, nastali grozdi pa so ponavadi dolge "verige".

Popolna komunikacija (metoda najbolj oddaljenih sosedov). Pri tej metodi je razdalja med gručami določena z največjo razdaljo med katerima koli elementoma v različnih skupinah (tj. "najdaljši sosedje").

Obstaja tudi veliko drugih metod združevanja v gruče, kot so te (npr. neuteženo seznanjanje, uteženo združevanje itd.).

Tehnologija metode rešitve. Izračun kazalnikov.

V prvem koraku, ko je vsak predmet ločena gruča, so razdalje med temi objekti določene z izbrano mero.

Ker v nalogi niso določene merske enote za značilnosti, se predpostavlja, da so enake. Zato začetnih podatkov ni treba normalizirati, zato takoj nadaljujemo z izračunom matrike razdalje.

Rešitev problema.

Gradimo graf odvisnosti glede na začetne podatke (slika 2)

Kot razdaljo med predmeti bomo vzeli običajno evklidsko razdaljo. Nato po formuli:

kjer je l - znaki; k je število značilnosti, razdalja med objektoma 1 in 2 je enaka:

Nadaljujemo z izračunom preostalih razdalj:

Iz dobljenih vrednosti sestavimo tabelo:

Najmanjša razdalja. To pomeni, da elemente 3, 6 in 5 združimo v eno skupino. Dobimo naslednjo tabelo:

Najmanjša razdalja. Elementi 3, 6, 5 in 4 so združeni v en grozd. Dobimo tabelo dveh grozdov:

Najmanjša razdalja med točkama 3 in 6 je. To pomeni, da sta elementa 3 in 6 združena v eno skupino. Izberemo največjo razdaljo med novo nastalo gručo in ostalimi elementi. Na primer, razdalja med gručo 1 in gručo 3.6 je največja (13,34166, 13,60147) = 13,34166. Sestavimo naslednjo tabelo:

V njej je najmanjša razdalja razdalja med grozdoma 1 in 2. Če združimo 1 in 2 v en grozd, dobimo:

Tako smo z uporabo metode "daljnega soseda" dobili dva grozda: 1,2 in 3,4,5,6, razdalja med katerima je 13,60147.

Problem je rešen.

Aplikacije. Reševanje težav s programskimi paketi (MS Excel 7.0)

Problem korelacijske in regresijske analize.

Začetne podatke vnesemo v tabelo (slika 1)

Izberite meni "Storitev / Analiza podatkov". V oknu, ki se prikaže, izberite vrstico "Regresija" (slika 2).

V naslednjem oknu nastavimo vnosne intervale za X in Y, stopnja zanesljivosti bo 95 %, izhodni podatki pa bodo postavljeni na ločen list "Report Sheet" (slika 3).

Po opravljenem izračunu dobimo končne podatke regresijske analize na listu "Report Sheet":

Prikaže tudi točkovni prikaz aproksimacijske funkcije ali "Izbirni graf":


Izračunane vrednosti in odstopanja so prikazane v tabeli v stolpcih »Predvideno Y« oziroma »Stanja«.

Na podlagi začetnih podatkov in odstopanj se izriše rezidualni graf:

Naloga optimizacije


Začetne podatke vnesemo na naslednji način:

Neznane neznane X1, X2, X3 se vnesejo v celice C9, D9, E9.

Koeficienti ciljne funkcije za X1, X2, X3 se vnesejo v C7, D7, E7.

V celico B11 vnesite ciljno funkcijo kot formulo: = C7 * C9 + D7 * D9 + E7 * E9.

Obstoječe omejitve opravil

Za dolžino polaganja cevi:

dodamo celicam C5, D5, E5, F5, G5

Število vrtin na vsakem polju:

X3 £ 100; dodamo celicam C8, D8, E8.

Cena gradnje 1 vrtine:

dodamo celicam C6, D6, E6, F6, G6.

Formula za izračun skupne dolžine C5 * C9 + D5 * D9 + E5 * E9 je postavljena v celico B5, formula za izračun skupnih stroškov C6 * C9 + D6 * D9 + E6 * E9 je postavljena v celico B6.


Izberemo v meniju "Storitev / Iskanje rešitve", vnesemo parametre za iskanje rešitve v skladu z začetnimi podatki (slika 4):

Z gumbom "Parametri" nastavite naslednje parametre za iskanje rešitve (slika 5):


Po iskanju rešitve dobimo poročilo o rezultatih:

Poročilo o rezultatih programa Microsoft Excel 8.0e

Poročilo ustvarjeno: 17.11.2002 1:28:30

Ciljna celica (največ)

Rezultat

Celoten plen

Spremenljive celice

Rezultat

Število vrtin

Število vrtin

Število vrtin

Omejitve

Pomen

Dolžina

Povezano

Stroški projekta

ni povezano.

Število vrtin

ni povezano.

Število vrtin

Povezano

Število vrtin

Povezano

Prva tabela prikazuje začetno in končno (optimalno) vrednost ciljne celice, kamor je bila postavljena ciljna funkcija problema, ki ga rešujemo. V drugi tabeli vidimo začetne in končne vrednosti spremenljivk, ki jih je treba optimizirati, ki so vsebovane v spremenjenih celicah. Tretja tabela v poročilu o rezultatih vsebuje informacije o omejitvah. Stolpec "Vrednost" vsebuje optimalne vrednosti zahtevanih virov in spremenljivk, ki jih je treba optimizirati. Stolpec »Formula« vsebuje omejitve porabljenih virov in spremenljivk, ki jih je treba optimizirati, zapisane v obliki sklicevanj na celice, ki vsebujejo te podatke. Stolpec »Stanje« določa, ali so te ali one omejitve povezane ali nepovezane. Tu so "vezane" omejitve, ki se izvajajo v optimalni rešitvi v obliki togih enakosti. Stolpec »Razlika« za omejitve virov določa preostanek porabljenih virov, t.j. razlika med zahtevano količino sredstev in njihovo razpoložljivostjo.

Podobno, ko bomo rezultat iskanja rešitve zapisali v obrazec "Trajnostno poročilo", bomo prejeli naslednje tabele:

Poročilo o odpornosti Microsoft Excel 8.0e

Delovni list: [Rešitev optimizacijskega problema.xls] Rešitev optimizacijskega problema

Poročilo ustvarjeno: 17.11.2002 1:35:16

Spremenljive celice

Dovoljeno

Dovoljeno

pomen

cena

koeficient

Porast

Zmanjšaj

Število vrtin

Število vrtin

Število vrtin

Omejitve

Omejitev

Dovoljeno

Dovoljeno

pomen

Desni del

Porast

Zmanjšaj

Dolžina

Stroški projekta

Trajnostno poročilo vsebuje informacije o spremenljivih (optimiziranih) spremenljivkah in omejitvah modela. Te informacije so povezane s simpleksno metodo, ki se uporablja pri optimizaciji linearnih problemov, opisano zgoraj v smislu reševanja problema. Omogoča vam, da ocenite, kako občutljiva je dobljena optimalna rešitev na morebitne spremembe parametrov modela.

Prvi del poročila vsebuje informacije o spremenjenih celicah, ki vsebujejo vrednosti o številu vrtin na poljih. Stolpec "Rezultantna vrednost" označuje optimalne vrednosti spremenljivk, ki jih je treba optimizirati. Stolpec "Ciljni koeficient" vsebuje začetne podatke o vrednostih koeficientov ciljne funkcije. Naslednja dva stolpca prikazujeta dovoljeno povečanje in zmanjšanje teh koeficientov brez spreminjanja najdene optimalne rešitve.

Drugi del trajnostnega poročila vsebuje informacije o omejitvah, naloženih spremenljivkam, ki se optimizirajo. Prvi stolpec prikazuje potrebe po virih za optimalno rešitev. Drugi vsebuje vrednosti senčnih cen za vrste uporabljenih virov. Zadnja dva stolpca vsebujeta podatke o morebitnem povečanju ali zmanjšanju količine razpoložljivih virov.

Težava z gručenjem.

Metoda po korakih za reševanje problema je navedena zgoraj. Tu so Excelove tabele, ki prikazujejo napredek pri reševanju težave:

Metoda najbližjega soseda

Reševanje problema grozdne analize - "METODA NAJBLIŽJEGA SOSEDA"

Začetni podatki

kjer je x1 količina izdelkov;

х2 - povprečni letni stroški glavnega

Sredstva industrijske proizvodnje

Metoda daljnega soseda

Rešitev problema gručaste analize - "METODA SOSEDA ODDALJENOSTI"

Začetni podatki

kjer je x1 količina izdelkov;

х2 - povprečni letni stroški glavnega

Sredstva industrijske proizvodnje