Počítače Windows internet

Výpočet Kendallovej korelácie. Poradová korelácia a Kendallov koeficient poradovej korelácie. Čo by malo byť východiskom pri definovaní témy, objektu, predmetu, cieľa, cieľov a hypotézy výskumu

Na výpočet koeficientu poradová korelácia Kendall r k je potrebné zoradiť údaje pre jeden z atribútov vzostupne a určiť zodpovedajúce poradia pre druhý atribút. Potom sa pre každú hodnosť druhého znaku určí počet nasledujúcich hodností, ktorých veľkosť je väčšia ako prijatá hodnosť, a nájde sa súčet týchto čísel.

Kendallov koeficient poradovej korelácie je určený vzorcom


kde RI- počet úrovní druhej premennej, počnúc od i+1, ktorého veľkosť je väčšia ako veľkosť i poradie tejto premennej.

Existujú tabuľky percentuálnych bodov rozdelenia koeficientu r k, čo umožňuje testovať hypotézu o významnosti korelačného koeficientu.

Pre veľké veľkosti vzoriek kritické hodnoty r k nie sú tabuľkové a musia sa vypočítať pomocou približných vzorcov, ktoré sú založené na skutočnosti, že podľa nulovej hypotézy H 0: r k= 0 a veľké n náhodná hodnota

rozdelené približne podľa štandardného normálneho zákona.

40. Vzťah medzi znakmi meranými v nominálnych alebo ordinálnych mierkach

Problém často vzniká pri kontrole nezávislosti dvoch znakov meraných na nominálnej alebo ordinálnej stupnici.

Nech niektoré predmety merajú dve vlastnosti X a Y s počtom úrovní r a s resp. Výsledky takýchto pozorovaní sú pohodlne prezentované vo forme tabuľky nazývanej kontingenčná tabuľka.

V tabulke u i(i = 1, ..., r) a v j (j= 1, ..., s) - hodnoty prijaté funkciami, hodnota n ij- počet objektov z celkového počtu objektov, pre ktoré je atribút X nadobudol význam u i a znamenie Y- význam v j

Zavádzame nasledujúce náhodné premenné:

u i


- počet predmetov, ktoré majú hodnotu v j


Okrem toho existujú zjavné rovnosti



Diskrétne náhodné premenné X a Y nezávislý vtedy a len vtedy

pre všetky páry i, j

Preto dohady o nezávislosti diskrétnych náhodných premenných X a Y dá sa napísať takto:

Ako alternatívu spravidla používajú hypotézu

Platnosť hypotézy H 0 by sa mala posudzovať na základe vzorových frekvencií n ij kontingenčné tabuľky. V súlade so zákonom veľkého počtu at n→ ∞, relatívne frekvencie sú blízke zodpovedajúcim pravdepodobnostiam:



Na testovanie hypotézy H 0 sa používa štatistika

ktorý, ak je hypotéza pravdivá, má rozdelenie χ 2 sek rs − (r + s- 1) stupne voľnosti.

Kritérium nezávislosti χ 2 zamieta hypotézu H 0 s hladinou významnosti α, ak:


41. Regresná analýza. Základné pojmy regresnej analýzy

Pre matematický popis štatistických vzťahov medzi študovanými premennými je potrebné vyriešiť nasledujúce problémy:

ü zvoliť triedu funkcií, v ktorej je vhodné hľadať najlepšiu (v určitom zmysle) aproximáciu závislosti záujmu;

ü nájsť odhady neznámych hodnôt parametrov zahrnutých v rovniciach požadovanej závislosti;

ü stanoviť primeranosť získanej rovnice požadovanej závislosti;

ü identifikovať najinformatívnejšie vstupné premenné.

Súhrn uvedených úloh je predmetom výskumu v regresnej analýze.

Regresná funkcia (alebo regresia) je závislosť matematického očakávania jednej náhodnej premennej od hodnoty inej náhodnej premennej, ktorá s prvou tvorí dvojrozmerný systém náhodných premenných.

Nech existuje systém náhodných premenných ( X,Y), potom regresná funkcia Y na X

A regresná funkcia X na Y

Regresné funkcie f(X) a φ (r) nie sú vzájomne reverzibilné, ak len vzťah medzi X a Y nie je funkčný.

Kedy n-rozmerný vektor so súradnicami X 1 , X 2 ,…, X n môžete zvážiť podmienené matematické očakávanie pre ktorýkoľvek komponent. Napríklad pre X 1


nazývaná regresia X 1 na X 2 ,…, X n.

Pre úplnú definíciu regresnej funkcie je potrebné poznať podmienené rozdelenie výstupnej premennej pre pevné hodnoty vstupnej premennej.

Keďže v reálnej situácii takéto informácie nie sú dostupné, obmedzujú sa väčšinou na hľadanie vhodnej aproximačnej funkcie f a(X) pre f(X), na základe štatistických údajov formulára ( x i, y i), i = 1,…, n... Tieto údaje sú výsledkom n nezávislé pozorovania r 1 ,…, y n náhodná premenná Y pre hodnoty vstupnej premennej X 1 ,…, x n, zatiaľ čo regresná analýza predpokladá, že hodnoty vstupnej premennej sú špecifikované presne.

Problém výberu najlepšej aproximačnej funkcie f a(X), ktorá je hlavnou v regresnej analýze a nemá formalizované postupy na jej riešenie. Niekedy sa výber určuje na základe analýzy experimentálnych údajov, častejšie z teoretických úvah.

Ak sa predpokladá, že regresná funkcia je dostatočne hladká, potom aproximačná funkcia f a(X) možno reprezentovať ako lineárnu kombináciu množiny lineárne nezávislých bázových funkcií ψ k(X), k = 0, 1,…, m−1, teda vo forme


kde m- počet neznámych parametrov θ k(vo všeobecnom prípade je hodnota neznáma, spresňuje sa počas konštrukcie modelu).

Takáto funkcia je v parametroch lineárna, preto v posudzovanom prípade hovoríme o modeli regresnej funkcie, ktorý je v parametroch lineárny.

Potom problém nájsť najlepšiu aproximáciu pre regresnú priamku f(X) sa redukuje na nájdenie takých hodnôt parametrov, pre ktoré f a(X; θ) je z dostupných údajov najvhodnejšia. Jednou z metód riešenia tohto problému je metóda najmenších štvorcov.

42. Metóda najmenších štvorcov

Nechajte množinu bodov ( x i, y i), i= 1,…, n umiestnené v rovine pozdĺž nejakej priamky

Potom ako funkcia f a(X) aproximácia regresnej funkcie f(X) = M [Y|X] je prirodzené brať lineárna funkcia argument X:


To znamená, že ako základné funkcie sme tu zvolili ψ 0 (X) ≡1 a ψ 1 (X)≡X... Táto regresia sa nazýva jednoduchá lineárna regresia.

Ak súbor bodov ( x i, y i), i= 1,…, n sa nachádza pozdĺž nejakej krivky, potom ako f a(X) je prirodzené pokúsiť sa vybrať rodinu parabol

Táto funkcia je v parametroch nelineárna θ 0 a θ 1, ale funkčnou transformáciou (v tomto prípade logaritmom) sa dá zredukovať na nová funkcia f 'a(X), lineárne v parametroch:


43. Jednoduchá lineárna regresia

Najjednoduchší regresný model je jednoduchý (jednorozmerný, jednosmerný, párový) lineárny model, ktorý má nasledujúci tvar:


kde ε i- náhodné premenné (chyby) navzájom nekorelované, majúce nulové matematické očakávania a rovnaké rozptyly σ 2 , a a b- konštantné koeficienty (parametre), ktoré je potrebné odhadnúť z nameraných hodnôt odozvy y i.

Ak chcete nájsť odhady parametrov a a b lineárna regresia, ktorá určuje priamku, ktorá najviac vyhovuje experimentálnym údajom:


používa sa metóda najmenších štvorcov.

Podľa najmenších štvorcov odhady parametrov a a b sa zisťujú z podmienky minimalizácie súčtu štvorcov odchýlok hodnôt y i vertikálne od „skutočnej“ regresnej priamky:

Nech existuje desať pozorovaní náhodnej premennej Y s pevnými hodnotami premennej X

Na minimalizáciu D parciálne derivácie vzhľadom na a a b:



V dôsledku toho získame nasledujúci systém rovníc na nájdenie odhadov a a b:


Riešenie týchto dvoch rovníc dáva:



Výrazy pre odhady parametrov a a b môže byť tiež reprezentovaný ako:

Potom empirická rovnica regresnej priamky Y na X možno napísať ako:


Nestranný odhad rozptylu σ 2 odchýlky hodnôt y i z preloženej priamky regresie je daný výrazom

Vypočítajme parametre regresnej rovnice


Regresná čiara teda vyzerá takto:


A odhad rozptylu odchýlok hodnôt y i z prispôsobenej priamky regresie


44. Kontrola významnosti regresnej čiary

Nájdený odhad b≠ 0 môže byť realizáciou náhodnej premennej, ktorej matematické očakávanie sa rovná nule, to znamená, že sa môže ukázať, že v skutočnosti neexistuje žiadna regresná závislosť.

Na zvládnutie tejto situácie by ste mali otestovať hypotézu H 0: b= 0 s konkurenčnou hypotézou H1: b ≠ 0.

Významnosť regresnej priamky možno testovať pomocou analýzy rozptylu.

Zvážte nasledujúcu identitu:

Množstvo y iŷ i = ε i nazývaný zvyšok a je rozdielom medzi dvoma veličinami:

ü odchýlka pozorovanej hodnoty (odozvy) od celkovej priemernej odozvy;

ü odchýlka predpokladanej hodnoty odozvy ŷ i z rovnakého priemeru

Písomná identita môže byť napísaná ako


Po umocnení oboch jeho častí a sčítaní i, dostaneme:


Kde sú uvedené množstvá:

celkový (celkový) súčet druhých mocnín SC n, ktorý sa rovná súčtu druhých mocnín odchýlok pozorovaní vo vzťahu k strednej hodnote pozorovaní

súčet druhých mocnín v dôsledku regresie SK p, ktorý sa rovná súčtu druhých mocnín odchýlok hodnôt regresnej čiary vo vzťahu k priemeru pozorovaní.

zostatkový súčet štvorcov SK 0. čo sa rovná súčtu štvorcov odchýlok pozorovaní vo vzťahu k hodnotám regresnej čiary

Takže nátierka Y-kov vo vzťahu k ich priemeru možno do určitej miery pripísať skutočnosti, že nie všetky pozorovania ležia na regresnej priamke. Ak by to tak bolo, súčet štvorcov vo vzťahu k regresii by bol nula. Z toho vyplýva, že regresia bude významná, ak súčet druhých mocnín SK r je väčší ako súčet druhých mocnín SK 0.

Výpočty na testovanie významnosti regresie sú uskutočnené v nasledujúcej tabuľke ANOVA

Ak chyby ε i rozdelené podľa normálneho zákona, potom ak platí hypotéza H 0: b= 0 štatistiky:


rozdelené podľa Fisherovho zákona s počtom stupňov voľnosti 1 a n−2.

Nulová hypotéza bude zamietnutá na hladine významnosti α, ak je vypočítaná hodnota štatistiky F bude väčší ako percentuálny bod α f 1;n−2, α Fisherovho rozdelenia.

45. Kontrola primeranosti regresného modelu. Reziduálna metóda

Adekvátnosť skonštruovaného regresného modelu sa chápe ako skutočnosť, že žiadny iný model neposkytuje výrazné zlepšenie v predpovedaní odozvy.

Ak sú všetky hodnoty odpovedí získané pri rôznych hodnotách X, t.j. neexistuje niekoľko hodnôt odozvy získaných s rovnakým x i, potom je možné vykonať len obmedzený test primeranosti lineárneho modelu. Základom takejto kontroly sú zvyšky:

Odchýlky od zavedeného vzoru:

Pokiaľ ide o X- jednorozmerná premenná, body ( x i, d i) je možné vykresliť na rovinu vo forme takzvanej zvyškovej parcely. Takéto znázornenie niekedy umožňuje nájsť určitú pravidelnosť v správaní zvyškov. Okrem toho vám analýza zvyškov umožňuje analyzovať predpoklady týkajúce sa rozdelenia chýb.

V prípade, keď sú chyby rozdelené podľa bežného zákona a existuje apriórny odhad ich rozptylu σ 2 (odhad získaný na základe predtým vykonaných meraní), potom je možné presnejšie posúdenie primeranosti modelu.

Používaním F-Fisherovo kritérium možno použiť na kontrolu, či je zvyškový rozptyl významný s 0 2 sa líši od apriórneho odhadu. Ak je výrazne väčšia, potom ide o nedostatočnosť a model by sa mal revidovať.

Ak predchádzajúci odhad σ 2 nie, ale merania odozvy Y opakovať dva alebo viackrát s rovnakými hodnotami X, potom sa tieto opakované pozorovania môžu použiť na získanie ďalšieho odhadu σ 2 (prvý je reziduálny rozptyl). Takýto odhad predstavuje „čistú“ chybu, pretože ak X sú rovnaké pre dve alebo viac pozorovaní, potom len náhodné zmeny môžu ovplyvniť výsledky a vytvoriť medzi nimi rozptyl.

Výsledný odhad sa ukazuje ako spoľahlivejší odhad rozptylu ako odhad získaný inými metódami. Z tohto dôvodu má pri plánovaní experimentov zmysel nastaviť experimenty s opakovaniami.

Predpokladajme, že máme m rôzne významy X : X 1 , X 2 , ..., x m... Nech pre každú z týchto hodnôt x i existuje n i pozorovania odozvy Y... Celkové pozorovania sa získajú:

Jednoduchý lineárny regresný model potom možno napísať ako:


Poďme nájsť rozptyl „čistých“ chýb. Tento rozptyl je kombinovaným odhadom rozptylu σ 2, ak reprezentujeme hodnoty odpovedí y ij pri X = x i ako objem vzorky n i... V dôsledku toho je rozptyl „čistých“ chýb:

Tento rozptyl slúži ako odhad σ 2 bez ohľadu na to, či je osadený model správny.

Ukážme, že súčet druhých mocnín „čistých chýb“ je súčasťou zvyškového súčtu druhých mocnín (súčet druhých mocnín zahrnutých vo výraze pre zvyškový rozptyl). Zvyšok pre j pozorovanie v x i možno napísať ako:

Ak odmocníme obe strany tejto rovnosti a potom ich spočítame j a podľa i, dostaneme:

Naľavo od tejto rovnosti je zvyškový súčet štvorcov. Prvý člen na pravej strane je súčet štvorcov „čistých“ chýb, druhý člen možno nazvať súčtom druhých mocnín nedostatočnosti. Posledná suma má m−2 stupne voľnosti, teda rozptyl neadekvátnosti

Štatistika kritéria na testovanie hypotézy H 0: jednoduchý lineárny model je primeraný, oproti hypotéze H 1: jednoduchý lineárny model je neadekvátny, náhodná veličina je

Ak je nulová hypotéza pravdivá, hodnota F má Fisherovo rozdelenie so stupňami voľnosti m−2 a nm... Hypotézu linearity regresnej priamky treba zamietnuť s hladinou významnosti α, ak je získaná hodnota štatistiky väčšia ako α-percentuálny bod Fisherovho rozdelenia s počtom stupňov voľnosti. m−2 a nm.

46. Kontrola primeranosti regresného modelu (pozri 45). ANOVA

47. Kontrola primeranosti regresného modelu (pozri 45). Koeficient determinácie

Niekedy sa na charakterizáciu kvality regresnej priamky používa výberový koeficient determinácie R 2, ktorý ukazuje, aká časť (zlomok) súčtu druhých mocnín v dôsledku regresie je SK p v celkovom súčte druhých mocnín SK n:

Bližšie R 2 k jednej, čím lepšie sa regresia približuje experimentálnym údajom, tým bližšie sú pozorovania k regresnej priamke. Ak R 2 = 0, potom sú zmeny v odozve úplne spôsobené vplyvom nezapočítaných faktorov a regresná čiara je rovnobežná s osou X-ov. V prípade jednoduchej lineárnej regresie koeficient determinácie R 2 sa rovná druhej mocnine korelačného koeficientu r 2 .

Maximálnu hodnotu R 2 = 1 je možné dosiahnuť iba v prípade, keď boli pozorovania uskutočnené pri rôznych hodnotách x-ov. Ak sú v údajoch opakované experimenty, potom hodnota R2 nemôže dosiahnuť jednotu, bez ohľadu na to, aký dobrý je model.

48. Intervaly spoľahlivosti pre parametre jednoduchej lineárnej regresie

Tak ako je priemer vzorky odhadom skutočného priemeru (priemer populácie), tak sú aj parametre vzorky regresnej rovnice a a b- nič viac ako odhad skutočných regresných koeficientov. Rôzne vzorky poskytujú rôzne odhady priemeru – rovnako ako rôzne vzorky dávajú rôzne odhady regresných koeficientov.

Za predpokladu, že zákon o rozdelení chýb ε i sú opísané normálnym zákonom, odhadom parametra b bude mať normálne rozdelenie s parametrami:


Od odhadu parametrov a je lineárna kombinácia nezávislých normálne distribuované množstvá, bude mať tiež normálne rozdelenie so strednou hodnotou a rozptylom:


V tomto prípade (1 - α) interval spoľahlivosti pre odhad rozptylu σ 2 berúc do úvahy, že pomer ( n−2)s 0 2 /σ 2 distribuované zo zákona χ 2 s počtom stupňov voľnosti n−2 bude určené výrazom


49. Intervaly spoľahlivosti pre regresnú priamku. Interval spoľahlivosti pre hodnoty závisle premenných

Zvyčajne nepoznáme skutočné hodnoty regresných koeficientov. a a b... Poznáme len ich odhady. Inými slovami, skutočná regresná čiara môže ísť vyššie alebo nižšie, byť strmšia alebo plytšia ako tá, ktorá bola vytvorená zo vzorových údajov. Vypočítali sme intervaly spoľahlivosti pre regresné koeficienty. Môžete tiež vypočítať oblasť spoľahlivosti pre samotnú regresnú čiaru.

Pre jednoduchú lineárnu regresiu je potrebné zostrojiť (1− α ) interval spoľahlivosti pre matematické očakávanie odpovede Y v hodnote NS = NS 0. Toto matematické očakávanie je a+bx 0 a jej odhad

Odvtedy.

Získaný odhad matematického očakávania je lineárnou kombináciou nekorelovaných normálne rozdelených hodnôt, a preto má tiež normálne rozdelenie sústredené v bode skutočnej hodnoty podmieneného matematického očakávania a rozptylu.

Preto interval spoľahlivosti pre regresnú čiaru pri každej hodnote X 0 môže byť reprezentovaná ako


Ako vidíte, minimálny interval spoľahlivosti sa získa pri X 0 sa rovná priemeru a zvyšuje sa ako X 0 sa „pohybuje“ od stredu v ľubovoľnom smere.

Získať súbor spoločných intervalov spoľahlivosti vhodných pre celú regresnú funkciu po celej jej dĺžke vo vyššie uvedenom výraze namiesto t n −2,α / 2 musia byť nahradené

Jedným z faktorov obmedzujúcich uplatňovanie kritérií založených na predpoklade normality je veľkosť vzorky. Pokiaľ je vzorka dostatočne veľká (napríklad 100 alebo viac pozorovaní), môžete predpokladať, že rozdelenie vzorky je normálne, aj keď si nie ste istí, že rozdelenie premennej v populácii je normálne. Ak je však vzorka malá, tieto kritériá by sa mali použiť len vtedy, ak existuje istota, že premenná je skutočne normálne rozložená. Neexistuje však spôsob, ako otestovať tento predpoklad na malej vzorke.

Použitie kritérií založených na predpoklade normality je tiež obmedzené na rozsah meraní (pozri kapitolu Základné pojmy analýzy údajov). Štatistické metódy ako t-test, regresia atď. predpokladajú, že pôvodné dáta sú spojité. Existujú však situácie, keď sú údaje jednoducho zoradené (merané na ordinálnej stupnici), a nie presne merané.

Typickým príkladom sú hodnotenia stránok na internete: prvé miesto obsadila stránka s maximálnym počtom návštevníkov, druhé miesto obsadila stránka s maximálnym počtom návštevníkov spomedzi ostatných stránok (medzi stránkami z ktorých bola odstránená prvá stránka) atď. Keď poznáme hodnotenia, môžeme povedať, že počet návštevníkov jednej stránky je väčší ako počet návštevníkov inej stránky, ale o koľko viac, sa nedá povedať. Predstavte si, že máte 5 stránok: A, B, C, D, E, ktoré sú na prvých 5 miestach. Predpokladajme, že v aktuálnom mesiaci sme mali nasledovné usporiadanie: A, B, C, D, E a v predchádzajúcom mesiaci: D, E, A, B, C. Otázkou je, či došlo k výrazným zmenám v hodnotení stránok alebo nie? V tejto situácii samozrejme nemôžeme použiť t-test na porovnanie týchto dvoch skupín údajov a prejsť do oblasti špecifických pravdepodobnostných výpočtov (a každé štatistické kritérium obsahuje pravdepodobnostný výpočet!). Uvažujeme takto: aká je pravdepodobnosť, že rozdiel v rozložení dvoch stránok je spôsobený čisto náhodnými dôvodmi alebo že rozdiel je príliš veľký a nedá sa vysvetliť čistou náhodou. V tejto úvahe používame iba poradie alebo permutácie stránok a v žiadnom prípade nepoužívame špecifickú formu rozdelenia počtu návštevníkov na nich.

Na analýzu malých vzoriek a na údaje namerané na slabých mierkach sa používajú neparametrické metódy.

Rýchla prehliadka neparametrických postupov

V podstate pre každé parametrické kritérium existuje aspoň jedna neparametrická alternatíva.

Vo všeobecnosti tieto postupy patria do jednej z nasledujúcich kategórií:

  • rozlišovacie kritériá pre nezávislé vzorky;
  • rozlišovacie kritériá pre závislé vzorky;
  • posúdenie miery závislosti medzi premennými.

Vo všeobecnosti by mal byť prístup k štatistickým kritériám pri analýze údajov pragmatický a nemal by byť zaťažený zbytočnými teoretickými úvahami. S počítačom STATISTICA, ktorý máte k dispozícii, môžete na svoje údaje jednoducho aplikovať niekoľko kritérií. Keď viete o niektorých úskaliach metód, pomocou experimentovania si vyberiete správne riešenie. Vývoj grafu je celkom prirodzený: ak potrebujete porovnať hodnoty dvoch premenných, potom použijete t-test. Treba však pripomenúť, že vychádza z predpokladu normality a rovnosti rozptylov v každej skupine. Porušenie týchto predpokladov vedie k neparametrickým testom, ktoré sú obzvlášť užitočné pre malé vzorky.

Vývoj t-testu vedie k analýze rozptylu, ktorý sa používa pri počte porovnávaných skupín viac ako dve. Zodpovedajúci vývoj neparametrických postupov vedie k neparametrickej analýze rozptylu, hoci je výrazne horšia ako klasická analýza rozptylu.

Na posúdenie závislosti alebo, trochu pompézne povedané, stupňa tesnosti spojenia sa vypočíta Pearsonov korelačný koeficient. Presnejšie povedané, jeho aplikácia má obmedzenia spojené napríklad s typom škály, v ktorej sa údaje merajú, a nelinearitou závislosti, preto sa alternatívne používajú aj neparametrické, alebo takzvané poradové, korelačné koeficienty, ktoré sú používa sa napríklad pre hodnotené údaje. Ak sú údaje merané v nominálnej mierke, potom je prirodzené prezentovať ich v kontingenčných tabuľkách, ktoré využívajú Pearsonov chí-kvadrát test s rôznymi variáciami a korekciami pre presnosť.

V podstate teda existuje len niekoľko typov kritérií a postupov, ktoré musíte poznať a vedieť ich používať, v závislosti od špecifík údajov. Musíte určiť, ktoré kritérium by sa malo použiť v konkrétnej situácii.

Neparametrické metódy sú najvhodnejšie, keď sú vzorky malé. Ak existuje veľa údajov (napríklad n> 100), často nemá zmysel používať neparametrické štatistiky.

Ak je veľkosť vzorky veľmi malá (napríklad n = 10 alebo menej), potom hladiny významnosti pre tie neparametrické testy, ktoré používajú normálnu aproximáciu, možno považovať len za hrubé odhady.

Rozdiely medzi nezávislými skupinami... Ak existujú dve vzorky (napríklad muži a ženy), ktoré je potrebné porovnať s ohľadom na nejakú priemernú hodnotu, napríklad priemerný tlak alebo počet leukocytov v krvi, potom sa t-test môže použiť na nezávislé vzorky.

Neparametrické alternatívy k tomuto testu sú Val'd-Wolfowitz, Mann-Whitney séria test) / n, kde x i - i-tá hodnota, n je počet pozorovaní. Ak premenná obsahuje záporné hodnoty alebo nulu (0), geometrický priemer nemožno vypočítať.

Harmonický priemer

Harmonický priemer sa niekedy používa na spriemerovanie frekvencií. Harmonický priemer sa vypočíta podľa vzorca: ГС = n / S (1 / x i) kde ГС je harmonický priemer, n je počet pozorovaní, х i je hodnota pozorovania s číslom i. Ak premenná obsahuje nulu (0), harmonický priemer sa nedá vypočítať.

Rozptyl a štandardná odchýlka

Vzorový rozptyl a smerodajná odchýlka sú najčastejšie používané miery variability údajov (variácie). Rozptyl sa vypočíta ako súčet druhých mocnín odchýlok hodnôt premennej od priemeru vzorky vydelený n-1 (ale nie n). Smerodajná odchýlka sa vypočíta ako druhá odmocnina odhadu rozptylu.

Hojdačka

Rozsah premennej je indikátorom volatility, vypočítaný ako maximum mínus minimum.

Kvartilový rozsah

Štvrťročný rozsah podľa definície je: horný kvartil mínus dolný kvartil (75 % percentil mínus 25 % percentil). Keďže percentil 75 % (horný kvartil) je hodnota naľavo, od ktorej sa nachádza 75 % prípadov, a percentil 25 % (dolný kvartil) je hodnota, od ktorej sa nachádza vľavo 25 % prípadov, kvartil rozsah je interval okolo mediánu, ktorý obsahuje 50 % prípadov (premenné hodnoty).

Asymetria

Asymetria je charakteristická pre tvar distribúcie. Distribúcia je skosená doľava, ak je hodnota skosenia záporná. Distribúcia je skosená doprava, ak je asymetria pozitívna. Šikmosť štandardného normálneho rozdelenia je 0. Šikmosť je spojená s tretím momentom a je definovaná ako: šikmosť = n × M 3 / [(n-1) × (n-2) × s 3], kde M 3 je: (xi -x priemer x) 3, s 3 je štandardná odchýlka zvýšená na tretiu mocninu, n je počet pozorovaní.

Prebytok

Kurtóza je charakteristika tvaru rozdelenia, konkrétne miera závažnosti jeho vrcholu (vo vzťahu k normálnemu rozdeleniu, ktorého špičatosť sa rovná 0). Distribúcie s ostrejším vrcholom ako normálne majú spravidla kladnú špičatosť; distribúcie, ktorých vrchol je menej ostrý ako vrchol normálneho rozdelenia, majú negatívnu špičatosť. Prebytok je spojený so štvrtým momentom a je určený vzorcom:

špičatosť = / [(n-1) × (n-2) × (n-3) × s 4], kde M j je: (xx priemer x, s 4 je štandardná odchýlka od štvrtej mocniny, n je počet pozorovaní...

Potreby hospodárskej a spoločenskej praxe si vyžadujú vývoj metód kvantitatívneho popisu procesov, ktoré umožňujú presnú registráciu nielen kvantitatívnych, ale aj kvalitatívnych faktorov. Za predpokladu, že hodnoty kvalitatívnych znakov možno zoradiť, prípadne rozmedziť podľa stupňa poklesu (zvýšenia) znaku, je možné posúdiť tesnosť vzťahu medzi kvalitatívnymi znakmi. Kvalitatívny znamená vlastnosť, ktorá sa nedá presne zmerať, ale umožňuje porovnávať objekty navzájom, a preto ich usporiadať v klesajúcom alebo rastúcom poradí podľa kvality. A skutočným obsahom meraní v hodnotových škálach je poradie, v ktorom sú objekty usporiadané podľa závažnosti meraného znaku.

Pre praktické účely je použitie korelácie hodnosti veľmi užitočné. Napríklad, ak je medzi dvoma kvalitatívnymi znakmi produktov zistená vysoká hodnotová korelácia, potom stačí produkty kontrolovať len podľa jednej z vlastností, čím je kontrola lacnejšia a rýchlejšia.

Ako príklad môžeme uvažovať existenciu vzťahu medzi dostupnosťou komerčných produktov viacerých podnikov a režijnými nákladmi na predaj. V priebehu 10 pozorovaní sme získali nasledujúcu tabuľku:

Zoraďme hodnoty X vo vzostupnom poradí a priraďme každej hodnote jej poradové číslo (poradie):

teda

Zostavme si nasledujúcu tabuľku, kde sú napísané dvojice X a Y, získané ako výsledok pozorovania s ich hodnosťami:

Označením rozdielu v poradí ako zapíšeme vzorec na výpočet Spearmanovho vzorového korelačného koeficientu:

kde n je počet pozorovaní, je to aj počet párov hodností.

Spearmanov koeficient má tieto vlastnosti:

Ak existuje úplný priamy vzťah medzi kvalitatívnymi znakmi X a Y v tom zmysle, že poradie objektov sa zhoduje pre všetky hodnoty i, potom Spearmanov vzorový korelačný koeficient je 1. Ak ho dosadíme do vzorca, dostaneme 1.

Ak existuje úplný inverzný vzťah medzi kvalitatívnymi charakteristikami X a Y v tom zmysle, že poradie zodpovedá poradiu, potom Spearmanov výberový korelačný koeficient je -1.

Skutočne, ak

Dosadením hodnoty do vzorca Spearmanovho korelačného koeficientu dostaneme -1.

Ak neexistuje ani úplná priamka, ani úplná spätná väzba, potom je Spearmanov korelačný koeficient vzorky medzi -1 a 1 a čím je jeho hodnota bližšia k 0, tým je vzťah medzi znakmi menší.

Podľa vyššie uvedeného príkladu nájdeme hodnotu P, preto doplníme tabuľku o hodnoty a:

Kendallov výberový korelačný koeficient. Vzťah medzi dvoma kvalitatívnymi znakmi môžete posúdiť pomocou Kendallovho koeficientu korelácie hodnotenia.

Nech sú rady objektov vzorky veľkosti n rovnaké:

na základe X:

na základe Y:. Predpokladajme, že vpravo sú hodnosti, veľké, vpravo hodnosti, veľké, vpravo sú hodnosti, veľké. Uveďme si zápis súčtu hodností

Podobne zavedieme zápis ako súčet počtu hodností ležiacich vpravo, ale menej.

Kendallov vzorový korelačný koeficient je zapísaný vzorcom:

Kde n je veľkosť vzorky.

Kendallov koeficient má rovnaké vlastnosti ako Spearmanov koeficient:

Ak existuje úplný priamy vzťah medzi kvalitatívnymi znakmi X a Y v tom zmysle, že poradie objektov sa zhoduje pre všetky hodnoty i, potom Kendallov korelačný koeficient vzorky je 1. Skutočne, vpravo je n-1 hodnosti väčšie, preto rovnakým spôsobom ustanovíme, čo. Potom. A Kendallov koeficient je:.

Ak existuje úplný inverzný vzťah medzi kvalitatívnymi znakmi X a Y v tom zmysle, že poradie zodpovedá poradiu, potom Kendallov korelačný koeficient vzorky je -1. Napravo nie sú žiadne rady, teda veľké. Podobne. Dosadením hodnoty R + = 0 do vzorca Kendallovho koeficientu dostaneme -1.

Pri dostatočne veľkej veľkosti vzorky a pri hodnotách koeficientov poradovej korelácie nie blízkym 1 nastáva približná rovnosť:

Poskytuje Kendallov koeficient konzervatívnejší odhad korelácie ako Spearmanov koeficient? (číselná hodnota? je vždy menšia ako). Pri výpočte koeficientu? menej prácne ako výpočet koeficientu, ten sa ľahšie prepočíta, ak sa do radu pridá nový člen.

Dôležitou výhodou koeficientu je, že ho možno použiť na určenie koeficientu parciálnej poradovej korelácie, čo umožňuje posúdiť stupeň „čistého“ prepojenia dvoch radových prvkov, čím sa eliminuje vplyv tretieho:

Význam koeficientov poradovej korelácie. Pri určovaní sily poradovej korelácie na základe výberových údajov je potrebné zvážiť nasledujúcu otázku: s akou mierou spoľahlivosti sa možno spoľahnúť na záver, že existuje korelácia vo všeobecnej populácii, ak určitý výberový koeficient poradovej korelácie je získané. Inými slovami, významnosť pozorovaných korelácií poradia by sa mala kontrolovať na základe hypotézy, že dve posudzované poradia sú štatisticky nezávislé.

Pri relatívne veľkej veľkosti vzorky n je možné skontrolovať významnosť koeficientov poradovej korelácie pomocou tabuľky normálneho rozdelenia (tabuľka 1 v prílohe). Testovať význam Spearmanovho koeficientu? (pre n> 20) vypočítajte hodnotu

a testovať význam Kendallovho koeficientu? (pre n> 10) vypočítajte hodnotu

kde S = R + - R-, n je veľkosť vzorky.

Ďalej sa nastaví hladina významnosti, kritická hodnota tcr (?, K) sa určí z tabuľky kritických bodov Studentovho rozdelenia a vypočítanej hodnoty alebo sa s ňou porovná. Predpokladá sa, že počet stupňov voľnosti je k = n-2. Ak alebo> tcr, potom sa hodnoty alebo považujú za významné.

Fechnerov korelačný koeficient.

Nakoniec treba spomenúť Fechnerov koeficient, ktorý charakterizuje elementárny stupeň tesnosti spojenia, ktorý je vhodné použiť na zistenie faktu spojenia pri malom množstve počiatočných informácií. Základom pre jeho výpočet je zohľadnenie smeru odchýlok od aritmetického priemeru variantov každého variačného radu a určenie konzistencie znamienok týchto odchýlok pre dva rady, medzi ktorými sa meria vzťah.

Tento koeficient je určený vzorcom:

kde na je počet zhôd znakov odchýlok jednotlivých hodnôt od ich aritmetického priemeru; nb - respektíve počet nezhôd.

Fechnerov koeficient sa môže pohybovať medzi -1,0<= Кф<= +1,0.

Aplikované aspekty rank korelácie. Ako už bolo uvedené, koeficienty poradovej korelácie možno použiť nielen na kvalitatívnu analýzu vzťahu medzi dvoma znakmi poradia, ale aj na určenie sily vzťahu medzi poradovými a kvantitatívnymi znakmi. V tomto prípade sa hodnoty kvantitatívnej charakteristiky zoradia a priradia sa im zodpovedajúce hodnosti.

Existuje množstvo situácií, kedy sa pri určovaní sily vzťahu medzi dvoma kvantitatívnymi znakmi odporúča aj výpočet koeficientov poradovej korelácie. Takže pri výraznej odchýlke rozdelenia jedného z nich (alebo oboch) od normálneho rozdelenia sa určenie hladiny významnosti výberového korelačného koeficientu r stáva nesprávnym, pričom poradové koeficienty? a? nepodliehajú takýmto obmedzeniam pri určovaní hladiny významnosti.

Iná situácia tohto druhu nastáva, keď je vzťah medzi dvoma kvantitatívnymi znakmi nelineárny (ale monotónny). Ak je počet objektov vo vzorke malý alebo ak je pre výskumníka dôležitý znak súvislosti, potom použitie korelačného pomeru? tu môže byť nedostatočné. Výpočet koeficientu poradovej korelácie nám umožňuje obísť naznačené ťažkosti.

Praktická časť

Úloha 1. Korelačno-regresná analýza

Vyjadrenie a formalizácia problému:

Je uvedená empirická vzorka zostavená na základe série pozorovaní stavu zariadenia (na poruchu) a počtu vyrobených výrobkov. Vzorka implicitne charakterizuje vzťah medzi množstvom zariadení, ktoré zlyhalo, a počtom vyrobených položiek. Podľa významu vzorky je zrejmé, že vyrobené výrobky sa vyrábajú na zariadení, ktoré zostáva v prevádzke, pretože čím viac % zariadení zlyhalo, tým menej vyrobených výrobkov. Je potrebné vykonať štúdiu vzorky na korelačno-regresnú závislosť, to znamená stanoviť formu závislosti, vyhodnotiť regresnú funkciu (regresná analýza), ako aj identifikovať vzťah medzi náhodnými premennými a posúdiť jej tesnosť. (korelačná analýza). Ďalšou úlohou korelačnej analýzy je odhadnúť regresnú rovnicu jednej premennej pre druhú. Okrem toho je potrebné predpovedať počet vyrobených výrobkov s 30% poruchou zariadenia.

Danú vzorku formalizujme do tabuľky, pričom údaj „Porucha zariadenia, %“ označíme ako X, údaj „Počet výrobkov“ ako Y:

Počiatočné údaje. stôl 1

Podľa fyzikálneho významu problému je možné vidieť, že počet vyrobených produktov Y priamo závisí od % zlyhania zariadenia, to znamená, že existuje závislosť Y od X. Pri vykonávaní regresnej analýzy je potrebné nájsť matematický vzťah (regresiu) spájajúci hodnoty X a Y. V tomto prípade regresná analýza na rozdiel od korelácie predpokladá, že hodnota X pôsobí ako nezávislá premenná alebo faktor, hodnota Y - ako na ňom závislý, alebo účinný znak. Vyžaduje sa teda syntetizácia adekvátneho ekonomického a matematického modelu, t.j. určiť (nájsť, vybrať) funkciu Y = f (X), ktorá charakterizuje vzťah medzi hodnotami X a Y, pomocou ktorej bude možné predpovedať hodnotu Y pri X = 30. Tento problém môže byť riešené pomocou korelačnej-regresnej analýzy.

Stručný prehľad metód riešenia korelačno-regresných problémov a zdôvodnenie zvolenej metódy riešenia.

Metódy regresnej analýzy sú rozdelené na jedno- a viacfaktorové na základe počtu faktorov ovplyvňujúcich efektívnu vlastnosť. Univariantné - počet nezávislých faktorov = 1, t.j. Y = F (X)

multifaktoriálny - počet faktorov> 1, t.j.

Podľa počtu skúmaných závislých premenných (efektívnych ukazovateľov) možno regresné úlohy rozdeliť aj na úlohy s jedným alebo viacerými efektívnymi ukazovateľmi. Vo všeobecnosti možno napísať úlohu s mnohými efektívnymi funkciami:

Metóda korelačno-regresnej analýzy spočíva v hľadaní parametrov aproximačnej (aproximačnej) závislosti tvaru

Keďže vo vyššie uvedenom probléme sa objavuje iba jedna nezávislá premenná, t. j. skúma sa závislosť len od jedného faktora ovplyvňujúceho výsledok, treba použiť štúdiu pre jednosmernú závislosť alebo párovú regresiu.

Ak existuje iba jeden faktor, závislosť je definovaná ako:

Forma zápisu špecifickej regresnej rovnice závisí od výberu funkcie, ktorá zobrazuje štatistický vzťah medzi faktorom a výsledným ukazovateľom a zahŕňa nasledovné:

lineárna regresia, rovnica tvaru,

parabolická, rovnica tvaru

kubická, rovnica tvaru

hyperbolický, rovnica tvaru

semilogaritmická, rovnica tvaru

exponenciálna, rovnica tvaru

mocnina, rovnica tvaru.

Hľadanie funkcie sa redukuje na určenie parametrov regresnej rovnice a posúdenie spoľahlivosti samotnej rovnice. Na určenie parametrov môžete použiť metódu najmenších štvorcov aj metódu najmenšieho modulu.

Prvým z nich je, že súčet štvorcov odchýlok empirických hodnôt Yi od vypočítaného priemeru Yi je minimálny.

Metóda najmenšieho modulu je minimalizovať súčet modulov rozdielu medzi empirickými hodnotami Yi a vypočítaným priemerom Yi.

Na vyriešenie problému zvolíme metódu najmenších štvorcov, pretože je najjednoduchšia a poskytuje dobré odhady z hľadiska štatistických vlastností.

Technológia riešenia problému regresnej analýzy metódou najmenších štvorcov.

Medzi premennými je možné určiť typ závislosti (lineárna, kvadratická, kubická atď.) vyhodnotením odchýlky skutočnej hodnoty y od vypočítanej:

kde - empirické hodnoty, - vypočítané hodnoty pomocou aproximačnej funkcie. Odhadnutím hodnôt Si pre rôzne funkcie a výberom najmenšej z nich vyberieme aproximatívnu funkciu.

Typ funkcie je určený nájdením koeficientov, ktoré sa nachádzajú pre každú funkciu ako riešenie určitého systému rovníc:

lineárna regresia, rovnica tvaru, systém -

parabolická rovnica tvaru, sústava -

kubický, rovnica tvaru, sústava -

Po vyriešení systému nájdeme, pomocou ktorého sa dostaneme ku konkrétnemu vyjadreniu analytickej funkcie, s ktorou nájdeme vypočítané hodnoty. Ďalej sú tu všetky údaje pre nájdenie odhadu hodnoty odchýlky S a analýzu pre minimum.

Pre lineárny vzťah odhadujeme tesnosť vzťahu medzi faktorom X a efektívnym ukazovateľom Y vo forme korelačného koeficientu r:

Priemerná hodnota ukazovateľa;

Priemerná hodnota faktora;

y je experimentálna hodnota ukazovateľa;

x je experimentálna hodnota faktora;

Smerodajná odchýlka v x;

Smerodajná odchýlka v r.

Ak je korelačný koeficient r = 0, potom sa usudzuje, že vzťah medzi znakmi je nevýznamný alebo chýba, ak r = 1, potom je medzi znakmi veľmi vysoký funkčný vzťah.

Pomocou tabuľky Chaddock môžete kvalitatívne posúdiť tesnosť korelácie medzi znakmi:

Chaddockový stôl Tabuľka 2.

Pre nelineárnu závislosť sa určí korelačný pomer (0 1) a korelačný index R, ktoré sa vypočítajú z nasledujúcich závislostí.

kde hodnota je hodnota ukazovateľa vypočítaná regresnou závislosťou.

Ako odhad presnosti výpočtu používame hodnotu priemernej relatívnej chyby aproximácie

S vysokou presnosťou sa pohybuje v rozmedzí 0-12%.

Na posúdenie výberu funkčnej závislosti používame koeficient determinácie

Koeficient determinácie sa používa ako „zovšeobecnené“ meradlo kvality výberu funkčného modelu, pretože vyjadruje pomer medzi faktoriálom a celkovým rozptylom, resp. podiel faktoriálneho rozptylu na celku.

Na posúdenie významnosti korelačného indexu R sa používa Fisherov F-test. Skutočná hodnota kritéria je určená vzorcom:

kde m je počet parametrov regresnej rovnice, n je počet pozorovaní. Hodnota sa porovnáva s kritickou hodnotou, ktorá sa určuje podľa tabuľky F-kritérií, pričom sa berie do úvahy akceptovaná hladina významnosti a počet stupňov voľnosti a. Ak, potom sa hodnota korelačného indexu R považuje za významnú.

Pre zvolenú formu regresie sa vypočítajú koeficienty regresnej rovnice. Pre pohodlie sú výsledky výpočtu zahrnuté v tabuľke nasledujúcej štruktúry (vo všeobecnosti sa počet stĺpcov a ich vzhľad mení v závislosti od typu regresie):

Tabuľka 3

Riešenie problému.

Boli vykonané pozorovania ekonomického javu - závislosti uvoľňovania produktov od percenta zlyhania zariadenia. Získa sa súbor hodnôt.

Vybrané hodnoty sú popísané v tabuľke 1.

Zostavíme graf empirickej závislosti pre danú vzorku (obr. 1)

Podľa typu grafu určíme, že analytická závislosť môže byť reprezentovaná ako lineárna funkcia:

Vypočítajme párový korelačný koeficient na posúdenie vzťahu medzi X a Y:

Zostavme pomocnú tabuľku:

Tabuľka 4

Riešime systém rovníc, aby sme našli koeficienty a:

z prvej rovnice dosadením hodnoty

do druhej rovnice dostaneme:

nachádzame

Dostaneme tvar regresnej rovnice:

9. Na posúdenie tesnosti zisteného vzťahu použijeme korelačný koeficient r:

Podľa Chaddockovej tabuľky sme zistili, že pre r = 0,90 je vzťah medzi X a Y veľmi vysoký, a preto je spoľahlivosť regresnej rovnice tiež vysoká. Na odhad presnosti výpočtov používame hodnotu priemernej relatívnej chyby aproximácie:

Sme presvedčení, že hodnota poskytuje vysoký stupeň spoľahlivosti regresnej rovnice.

Pre lineárny vzťah medzi X a Y sa determinačný index rovná štvorcu korelačného koeficientu r:. V dôsledku toho sa 81 % celkovej variácie vysvetľuje zmenou faktora X.

Na posúdenie významnosti korelačného indexu R, ktorý sa v prípade lineárnej závislosti v absolútnej hodnote rovná korelačnému koeficientu r, sa používa Fisherov F-test. Skutočnú hodnotu určíme pomocou vzorca:

kde m je počet parametrov regresnej rovnice, n je počet pozorovaní. To znamená, že n = 5, m = 2.

Ak vezmeme do úvahy akceptovanú hladinu významnosti = 0,05 a počet stupňov voľnosti, získame kritickú tabuľkovú hodnotu. Keďže hodnota korelačného indexu R sa považuje za významnú.

Vypočítajme predpokladanú hodnotu Y pri X = 30:

Zostavme graf nájdenej funkcie:

11. Určte chybu korelačného koeficientu hodnotou smerodajnej odchýlky

a potom určíme hodnotu normalizovanej odchýlky

Z pomeru> 2 s pravdepodobnosťou 95 % môžeme hovoriť o významnosti získaného korelačného koeficientu.

Úloha 2. Lineárna optimalizácia

Možnosť 1.

Plán regionálneho rozvoja počíta s uvedením 3 ropných polí do prevádzky s celkovým objemom produkcie 9 miliónov ton. V prvom poli je objem výroby najmenej 1 milión ton, v druhom - 3 milióny ton, v treťom - 5 miliónov ton. Na dosiahnutie tejto produktivity je potrebné vyvŕtať najmenej 125 vrtov. Na realizáciu tohto plánu bolo pridelených 25 miliónov rubľov. kapitálové investície (ukazovateľ K) a 80 km potrubí (ukazovateľ L).

Je potrebné určiť optimálny (maximálny) počet vrtov, aby sa zabezpečila plánovaná produktivita každého poľa. Počiatočné údaje o úlohe sú uvedené v tabuľke.

Počiatočné údaje

Vyhlásenie o probléme je uvedené vyššie.

Formalizujme podmienky a obmedzenia špecifikované v probléme. Cieľom riešenia tohto optimalizačného problému je nájsť maximálnu hodnotu ťažby ropy s optimálnym počtom vrtov pre každé pole, berúc do úvahy existujúce obmedzenia problému.

Cieľová funkcia v súlade s požiadavkami úlohy bude mať formu:

kde je počet jamiek pre každé pole.

Existujúce obmedzenia úlohy pre:

dĺžka uloženia potrubia:

počet jamiek v každom poli:

náklady na výstavbu 1 studne:

Problémy lineárnej optimalizácie sa riešia napríklad nasledujúcimi metódami:

Graficky

Simplexná metóda

Použitie grafickej metódy je vhodné len pri riešení lineárnych optimalizačných úloh s dvoma premennými. Pri väčšom počte premenných je potrebné použiť algebraický aparát. Zvážte všeobecnú metódu na riešenie problémov lineárnej optimalizácie nazývanú simplexná metóda.

Simplexová metóda je typickým príkladom iteračných výpočtov používaných na riešenie väčšiny optimalizačných problémov. Uvažujú sa o iteračných postupoch tohto druhu, ktoré zabezpečujú riešenie problémov pomocou modelov operačného výskumu.

Na riešenie optimalizačnej úlohy simplexovou metódou je potrebné, aby počet neznámych Xi bol väčší ako počet rovníc, t.j. sústava rovníc

spĺňa vzťah m

A = sa rovnalo m.

Označme stĺpec matice A ako a stĺpec voľných členov ako

Základné riešenie sústavy (1) je množina m neznámych, ktoré sú riešením sústavy (1).

Stručne, algoritmus simplexovej metódy je opísaný takto:

Pôvodné obmedzenie zapísané ako nerovnosť<= (=>) možno reprezentovať ako rovnosť pridaním reziduálnej premennej na ľavú stranu obmedzenia (odčítaním redundantnej premennej od ľavej strany).

Napríklad naľavo od pôvodného obmedzenia

zavádza sa zvyšková premenná, v dôsledku ktorej sa pôvodná nerovnosť zmení na rovnosť

Ak pôvodné obmedzenie určuje prietok potrubia, potom by sa mala premenná interpretovať ako zvyšok alebo nevyužitá časť tohto zdroja.

Maximalizácia účelovej funkcie je ekvivalentná minimalizácii tej istej funkcie s opačným znamienkom. Teda v našom prípade

ekvivalentné k

Pre základné riešenie je zostavená simplexná tabuľka v nasledujúcom tvare:

V tejto tabuľke je uvedené, že po vyriešení úlohy bude základné riešenie v týchto bunkách. - podiely z delenia stĺpca jedným zo stĺpcov; - dodatočné multiplikátory na nulovanie hodnôt v bunkách tabuľky súvisiacich s rozlišovacím stĺpcom. - minimálna hodnota účelovej funkcie -Z, - hodnoty koeficientov v účelovej funkcii s neznámymi.

Medzi významami sa nachádza akákoľvek pozitívna hodnota. Ak tomu tak nie je, potom sa problém považuje za vyriešený. Vyberie sa ľubovoľný stĺpec tabuľky, ktorý sa v nej nachádza, tento stĺpec sa nazýva „povolený“ stĺpec. Ak medzi prvkami rozlišovacieho stĺpca nie sú kladné čísla, potom je problém neriešiteľný z dôvodu neohraničenosti cieľovej funkcie na množine jeho riešení. Ak sa v stĺpci rozlišovania nachádzajú kladné čísla, prejdite na krok 5.

Stĺpec je naplnený zlomkami, v čitateli ktorých sú prvky stĺpca a v menovateli - zodpovedajúce prvky rozlišovacieho stĺpca. Vyberie sa najmenšia zo všetkých hodnôt. Riadok s najmenším výsledkom sa nazýva "povoliť" riadok. Na priesečníku rozlišovacej čiary a rozlišovacieho stĺpca sa nachádza rozlišovací prvok, ktorý je nejakým spôsobom zvýraznený, napríklad farbou.

Na základe prvej simplexnej tabuľky je zostavená nasledujúca, v ktorej:

Nahradí riadkový vektor stĺpcovým vektorom

povoľovacia čiara je nahradená rovnakou čiarou predelenou povoľovacím prvkom

každý z ostatných riadkov tabuľky sa nahradí súčtom tohto riadka s rozlišovacím, vynásobeným špeciálne vybraným dodatočným faktorom, aby sa v bunke rozlišovacieho stĺpca získala 0.

S novou tabuľkou prejdeme k bodu 4.

Riešenie problému.

Na základe formulácie problému máme nasledujúci systém nerovností:

a objektívna funkcia

Systém nerovníc transformujeme na systém rovníc zavedením ďalších premenných:

Zredukujme účelovú funkciu na jej ekvivalent:

Zostavme pôvodnú simplexnú tabuľku:

Vyberme si permisívny stĺpec. Vypočítajme stĺpec:

Hodnoty zadáme do tabuľky. Pre najmenšiu z nich = 10 určíme rozlišovaciu čiaru:. Na priesečníku rozlišovacej čiary a rozlišovacieho stĺpca nájdeme rozlišovací prvok = 1. Časť tabuľky naplníme ďalšími faktormi, a to tak, že: nimi vynásobený rozlišovací riadok, pripočítaný k ostatným riadkom tabuľky, tvorí 0 v prvkoch rozlišovacieho stĺpca.

Zostavíme druhú simplexnú tabuľku:

Vezmeme v ňom rozlišovací stĺpec, vypočítame hodnoty a zadáme ich do tabuľky. Minimálne dostaneme rozlišovaciu čiaru. Rozlišovacím prvkom bude 1. Nájdite ďalšie faktory, vyplňte stĺpce.

Vytvoríme nasledujúcu simplexnú tabuľku:

Podobne nájdeme rozlišovací stĺpec, rozlišovací riadok a rozlišovací prvok = 2. Zostavíme nasledujúcu simplexnú tabuľku:

Keďže v riadku -Z nie sú žiadne kladné hodnoty, táto tabuľka je konečná. Prvý stĺpec udáva požadované hodnoty neznámych, t.j. optimálne základné riešenie:

V tomto prípade je hodnota účelovej funkcie -Z = -8000, čo je ekvivalentné Zmax = 8000. Úloha je vyriešená.

Úloha 3. Zhluková analýza

Formulácia problému:

Rozdeľte objekty na základe údajov uvedených v tabuľke. Výber metódy riešenia sa má vykonať nezávisle, aby sa vytvoril graf závislosti údajov.

Možnosť 1.

Počiatočné údaje

Prehľad metód riešenia tohto typu problémov. Zdôvodnenie spôsobu riešenia.

Úlohy klastrovej analýzy sa riešia pomocou nasledujúcich metód:

Metóda zväzku alebo stromového zhlukovania sa používa na vytváranie zhlukov „odlišnosti“ alebo „vzdialenosti medzi objektmi“. Tieto vzdialenosti môžu byť definované v jednorozmernom alebo viacrozmernom priestore.

Obojsmerné spojenie sa používa (pomerne zriedkavo) za okolností, keď sa údaje interpretujú nie z hľadiska „objektov“ a „vlastností objektov“, ale z hľadiska pozorovaní a premenných. Očakáva sa, že pozorovania aj premenné budú súčasne prispievať k detekcii zmysluplných zhlukov.

Metóda K-means. Používa sa, keď už existuje hypotéza týkajúca sa počtu zhlukov. Systému môžete prikázať, aby vytvoril presne napríklad tri zhluky tak, aby boli čo najrôznejšie. Vo všeobecnosti metóda K-means vytvára presne K rôznych zhlukov umiestnených v najväčších možných vzdialenostiach od seba.

Existujú nasledujúce spôsoby merania vzdialeností:

Euklidovská vzdialenosť. Toto je najbežnejší typ vzdialenosti. Je to jednoducho geometrická vzdialenosť vo viacrozmernom priestore a vypočíta sa takto:

Všimnite si, že euklidovská vzdialenosť (a jej druhá mocnina) sa vypočítava z pôvodných, nie štandardizovaných údajov.

Vzdialenosť mestských blokov (vzdialenosť Manhattan). Táto vzdialenosť je jednoducho priemerom súradnicových rozdielov. Vo väčšine prípadov táto miera vzdialenosti vedie k rovnakým výsledkom ako pre obyčajnú euklidovskú vzdialenosť. Všimnite si však, že pre toto opatrenie sa účinok jednotlivých veľkých rozdielov (odľahlých hodnôt) znižuje (keďže nie sú na druhú mocninu). Vzdialenosť Manhattan sa vypočíta podľa vzorca:

Čebyševova vzdialenosť. Táto vzdialenosť môže byť užitočná, keď chcete definovať dva objekty ako "odlišné", ak sa líšia v ktorejkoľvek jednej súradnici (akejkoľvek jednej dimenzii). Čebyševova vzdialenosť sa vypočíta podľa vzorca:

Výkonová vzdialenosť. Niekedy sa chce postupne zvyšovať alebo znižovať hmotnosť týkajúcu sa rozmeru, pre ktorý sú zodpovedajúce predmety veľmi odlišné. To sa dá dosiahnuť pomocou mocninnej vzdialenosti. Výkonová vzdialenosť sa vypočíta podľa vzorca:

kde r a p sú užívateľom definované parametre. Niekoľko príkladov výpočtov môže ukázať, ako toto opatrenie „funguje“. Parameter p je zodpovedný za postupné váženie rozdielov v jednotlivých súradniciach, parameter r je zodpovedný za postupné váženie veľkých vzdialeností medzi objektmi. Ak sa oba parametre r a p rovnajú dvom, potom sa táto vzdialenosť zhoduje s euklidovskou vzdialenosťou.

Percento nesúhlasu. Toto opatrenie sa používa, keď sú údaje kategorické. Táto vzdialenosť sa vypočíta podľa vzorca:

Na vyriešenie problému zvolíme metódu zjednotenia (stromové zhlukovanie), ktorá najlepšie vyhovuje podmienkam a formulácii problému (rozdelenie objektov). Metóda únie zase môže používať niekoľko variantov pravidiel komunikácie:

Jediný odkaz (metóda najbližšieho suseda). V tejto metóde je vzdialenosť medzi dvoma zhlukami určená vzdialenosťou medzi dvoma najbližšími objektmi (najbližšími susedmi) v rôznych zhlukoch. To znamená, že akékoľvek dva objekty v dvoch zhlukoch sú k sebe bližšie, než je príslušná vzdialenosť spojenia. Toto pravidlo by malo v istom zmysle spájať objekty do zhlukov a výsledné zhluky majú tendenciu byť dlhými „reťazcami“.

Plná komunikácia (metóda najvzdialenejších susedov). V tejto metóde je vzdialenosť medzi klastrami určená najväčšou vzdialenosťou medzi akýmikoľvek dvoma prvkami v rôznych klastroch (tj "najvzdialenejší susedia").

Existuje aj mnoho ďalších podobných metód zhlukovania (napr. nevážené párovanie, vážené párovanie atď.).

Technológia metódy riešenia. Výpočet ukazovateľov.

V prvom kroku, keď je každý objekt samostatným zhlukom, sú vzdialenosti medzi týmito objektmi určené vybranou mierou.

Keďže úloha nešpecifikuje merné jednotky pre charakteristiky, predpokladá sa, že sú rovnaké. Preto nie je potrebné normalizovať počiatočné údaje, takže okamžite pristúpime k výpočtu matice vzdialenosti.

Riešenie problému.

Zostrojme graf závislosti na základe počiatočných údajov (obr. 2)

Ako vzdialenosť medzi objektmi budeme brať obvyklú euklidovskú vzdialenosť. Potom podľa vzorca:

kde l - znaky; k je počet prvkov, vzdialenosť medzi objektmi 1 a 2 sa rovná:

Pokračujeme vo výpočte zostávajúcich vzdialeností:

Zo získaných hodnôt zostavíme tabuľku:

Najmenšia vzdialenosť. To znamená, že spojíme prvky 3,6 a 5 do jedného zhluku. Dostaneme nasledujúcu tabuľku:

Najmenšia vzdialenosť. Do jedného zhluku sú spojené prvky 3, 6, 5 a 4. Dostaneme tabuľku dvoch zhlukov:

Minimálna vzdialenosť medzi položkami 3 a 6 je. To znamená, že prvky 3 a 6 sú spojené do jedného zhluku. Zvolíme maximálnu vzdialenosť medzi novovytvoreným zhlukom a zvyškom prvkov. Napríklad vzdialenosť medzi klastrom 1 a klastrom 3,6 je max (13,34166, 13,60147) = 13,34166. Zostavme si nasledujúcu tabuľku:

V ňom je minimálna vzdialenosť vzdialenosť medzi klastrami 1 a 2. Spojením 1 a 2 do jedného zhluku dostaneme:

Pomocou metódy „ďalekého suseda“ sa teda získali dva zhluky: 1,2 a 3,4,5,6, pričom vzdialenosť medzi nimi sa rovná 13,60147.

Problém bol vyriešený.

Aplikácie. Riešenie problémov pomocou softvérových balíkov (MS Excel 7.0)

Problém korelačnej a regresnej analýzy.

Do tabuľky zadáme počiatočné údaje (obr. 1)

Vyberte menu "Servis / Analýza dát". V zobrazenom okne vyberte riadok „Regresia“ (obr. 2).

V ďalšom okne nastavíme vstupné intervaly pre X a Y, úroveň spoľahlivosti bude 95% a výstupné údaje budú umiestnené na samostatnom hárku "Hárok výkazu" (obr. 3).

Po výpočte získame konečné údaje regresnej analýzy na hárku "Report Sheet":

Zobrazuje tiež bodový graf aproximačnej funkcie alebo „graf výberu“:


Vypočítané hodnoty a odchýlky sú zobrazené v tabuľke v stĺpcoch „Predpokladané Y“ a „Zostatky“.

Na základe počiatočných údajov a odchýlok sa vykreslí zvyškový graf:

Optimalizačná úloha


Počiatočné údaje zadáme takto:

Neznáme neznáme X1, X2, X3 zadávame do buniek C9, D9, E9, resp.

Koeficienty účelovej funkcie pre X1, X2, X3 sa vkladajú do C7, D7, E7.

Zadajte cieľovú funkciu do bunky B11 ako vzorec: = C7 * C9 + D7 * D9 + E7 * E9.

Existujúce obmedzenia úloh

Pre dĺžku kladenia potrubia:

pridáme do buniek C5, D5, E5, F5, G5

Počet jamiek v každom poli:

X3 C 100; pridáme do buniek C8, D8, E8.

Náklady na výstavbu 1 studne:

pridáme do buniek C6, D6, E6, F6, G6.

Vzorec na výpočet celkovej dĺžky C5 * C9 + D5 * D9 + E5 * E9 sa umiestni do bunky B5, vzorec na výpočet celkových nákladov C6 * C9 + D6 * D9 + E6 * E9 sa umiestni do bunky B6.


Vyberieme v menu „Servis / Vyhľadať riešenie“, zadáme parametre pre nájdenie riešenia v súlade s počiatočnými zadanými údajmi (obr. 4):

Pomocou tlačidla "Parametre" nastavte nasledujúce parametre pre hľadanie riešenia (obr. 5):


Po hľadaní riešenia dostaneme správu o výsledkoch:

Správa o výsledkoch programu Microsoft Excel 8.0e

Správa vytvorená: 17.11.2002 1:28:30

Cieľová bunka (maximálne)

Výsledok

Celková korisť

Modifikovateľné bunky

Výsledok

Počet studní

Počet studní

Počet studní

Obmedzenia

Význam

Dĺžka

Súvisiace

Náklady na projekt

Nesúvisiace.

Počet studní

Nesúvisiace.

Počet studní

Súvisiace

Počet studní

Súvisiace

V prvej tabuľke je uvedená počiatočná a konečná (optimálna) hodnota cieľovej bunky, kde bola umiestnená objektívna funkcia riešeného problému. V druhej tabuľke vidíme počiatočné a konečné hodnoty premenných, ktoré sa majú optimalizovať a ktoré sú obsiahnuté v upravených bunkách. Tretia tabuľka výsledkovej správy obsahuje informácie o obmedzeniach. Stĺpec "Hodnota" obsahuje optimálne hodnoty požadovaných zdrojov a premenných, ktoré sa majú optimalizovať. Stĺpec "Vzorec" obsahuje limity na spotrebované zdroje a premenné, ktoré sa majú optimalizovať, zapísané vo forme odkazov na bunky obsahujúce tieto údaje. Stĺpec „State“ určuje, či tieto alebo tieto obmedzenia súvisia alebo nesúvisia. Tu sú „viazané“ obmedzenia implementované v optimálnom riešení vo forme rigidných rovnosti. Stĺpec "Rozdiel" pre obmedzenia zdrojov definuje zvyšok použitých zdrojov, t.j. rozdiel medzi požadovaným množstvom zdrojov a ich dostupnosťou.

Podobne po zapísaní výsledku hľadania riešenia vo forme „Správy o udržateľnosti“ dostaneme nasledujúce tabuľky:

Správa o odolnosti programu Microsoft Excel 8.0e

Pracovný list: [Riešenie optimalizačného problému.xls] Riešenie optimalizačného problému

Správa vytvorená: 17.11.2002 1:35:16

Modifikovateľné bunky

Prípustné

Prípustné

význam

cena

Koeficient

Zvýšiť

Znížiť

Počet studní

Počet studní

Počet studní

Obmedzenia

Obmedzenie

Prípustné

Prípustné

význam

Pravá časť

Zvýšiť

Znížiť

Dĺžka

Náklady na projekt

Správa o udržateľnosti obsahuje informácie o modifikovateľných (optimalizovaných) premenných a modelových obmedzeniach. Tieto informácie sú spojené s simplexnou metódou používanou pri optimalizácii lineárnych úloh, opísanou vyššie z hľadiska riešenia úlohy. Umožňuje odhadnúť, ako citlivé je získané optimálne riešenie na možné zmeny parametrov modelu.

Prvá časť správy obsahuje informácie o upravených bunkách obsahujúcich hodnoty o počte jamiek v poliach. Stĺpec „Výsledná hodnota“ označuje optimálne hodnoty premenných, ktoré sa majú optimalizovať. Stĺpec "Cieľový koeficient" obsahuje počiatočné údaje hodnôt koeficientov cieľovej funkcie. Nasledujúce dva stĺpce ilustrujú prípustné zvýšenie a zníženie týchto koeficientov bez zmeny nájdeného optimálneho riešenia.

Druhá časť správy o udržateľnosti obsahuje informácie o obmedzeniach kladených na optimalizované premenné. Prvý stĺpec zobrazuje požiadavky na zdroje pre optimálne riešenie. Druhá obsahuje hodnoty tieňových cien pre typy použitých zdrojov. Posledné dva stĺpce obsahujú údaje o možnom zvýšení alebo znížení množstva dostupných zdrojov.

Problém klastrovania.

Postup riešenia problému krok za krokom je uvedený vyššie. Tu sú tabuľky programu Excel znázorňujúce postup riešenia problému:

Metóda najbližšieho suseda

Riešenie problému klastrovej analýzy - "METÓDA BLÍZKEHO SUSEDU"

Počiatočné údaje

kde x1 je objem produktov;

х2 - priemerné ročné náklady na hlavnú

Aktíva priemyselnej výroby

Metóda vzdialeného suseda

Riešenie problému klastrovej analýzy - "METÓDA VZDIALENEJ SUSEDY"

Počiatočné údaje

kde x1 je objem produktov;

х2 - priemerné ročné náklady na hlavnú

Aktíva priemyselnej výroby