Počítače Okna Internet

Výpočet Kendallovy korelace. Ranková korelace a Kendallův hodnostní korelační koeficient. Co je třeba vzít v úvahu při stanovení tématu, předmětu, předmětu, cíle, cílů a hypotézy studie

Pro výpočet koeficientu hodnostní korelace Kendall rk je nutné seřadit data podle jednoho z prvků ve vzestupném pořadí a určit odpovídající pořadí podle druhého prvku. Potom se pro každou hodnost druhého prvku určí počet následných hodností větších než přijatá hodnost a zjistí se součet těchto čísel.

Kendallův hodnostní korelační koeficient je dán


kde R i je počet úrovní druhé proměnné počínaje i+1, jehož velikost je větší než velikost i pořadí této proměnné.

Existují tabulky rozdělení koeficientů v procentech rk, což umožňuje testovat hypotézu o významnosti korelačního koeficientu.

Pro velké velikosti vzorků kritické hodnoty rk nejsou tabelovány a je třeba je vypočítat pomocí přibližných vzorců na základě skutečnosti, že podle nulové hypotézy H 0: rk=0 a velké n náhodná hodnota

rozděleno přibližně podle standardního normálního zákona.

40. Vztah mezi rysy měřenými v nominálních nebo ordinálních měřítcích

Často se vyskytuje problém kontroly nezávislosti dvou znaků měřených na nominální nebo ordinální stupnici.

Nechť jsou u některých objektů změřeny dva rysy X a Y s počtem úrovní r a s resp. Je vhodné prezentovat výsledky takových pozorování ve formě tabulky zvané kontingenční tabulka prvků.

Stůl u i(i = 1, ..., r) a vj (j= 1, ..., s) jsou hodnoty převzaté funkcemi, hodnotou nij je počet objektů z celkového počtu objektů, které mají atribut X nabralo význam u i a znamení Y- význam vj

Zavádíme následující náhodné proměnné:

u i


- počet objektů, které mají hodnotu vj


Kromě toho existují zjevné rovnosti



Diskrétní náhodné proměnné X a Y nezávislý tehdy a jen tehdy

pro všechny páry i, j

Proto hypotéza o nezávislosti diskrétních náhodných veličin X a Y lze napsat takto:

Jako alternativu zpravidla použijte hypotézu

Platnost hypotézy H 0 by měla být posouzena na základě vzorových četností nij kontingenční tabulky. Podle zákona velkých čísel, n→∞ relativní četnosti jsou blízké odpovídajícím pravděpodobnostem:



K testování hypotézy H 0 se používá statistika

který při platnosti hypotézy má rozdělení χ 2 s rs − (r + s− 1) stupně volnosti.

Kritérium nezávislosti χ 2 zamítá hypotézu H 0 s hladinou významnosti α, pokud:


41. Regresní analýza. Základní pojmy regresní analýzy

Pro matematický popis statistických vztahů mezi studovanými proměnnými by měly být vyřešeny následující úlohy:

ü zvolit třídu funkcí, ve které je vhodné hledat nejlepší (v určitém smyslu) aproximaci závislosti zájmu;

ü najít odhady neznámých hodnot parametrů zahrnutých v rovnicích požadované závislosti;

ü stanovit adekvátnost získané rovnice požadované závislosti;

ü identifikovat nejinformativnější vstupní proměnné.

Souhrn těchto úloh je předmětem výzkumu regresní analýzy.

Regresní funkce (neboli regrese) je závislost matematického očekávání jedné náhodné veličiny na hodnotě jiné náhodné veličiny, která s první tvoří dvourozměrný systém náhodných veličin.

Nechť existuje systém náhodných proměnných ( X,Y), pak regresní funkce Y na X

A regresní funkce X na Y

Regresní funkce F(X) a φ (y), nejsou vzájemně vratné, ledaže by vztah mezi X a Y není funkční.

Když n-rozměrný vektor se souřadnicemi X 1 , X 2 ,…, X n je možné uvažovat o podmíněném matematickém očekávání pro jakoukoli složku. Například pro X 1


tzv. regrese X 1 na X 2 ,…, X n.

Pro plnou definici regresní funkce je nutné znát podmíněné rozdělení výstupní proměnné pro pevné hodnoty vstupní proměnné.

Protože v reálné situaci takové informace nejsou k dispozici, omezí se většinou na hledání vhodné aproximační funkce f a(X) pro F(X), na základě statistických údajů formuláře ( x i, y i), i = 1,…, n. Tato data jsou výsledkem n nezávislá pozorování y 1 ,…, y n náhodná proměnná Y na hodnotách vstupní proměnné X 1 ,…, x n, zatímco v regresní analýze se předpokládá, že hodnoty vstupní proměnné jsou přesně specifikovány.

Problém výběru nejlepší aproximační funkce f a(X), která je hlavní v regresní analýze a nemá formalizované postupy pro její řešení. Někdy je výběr určen na základě analýzy experimentálních dat, častěji z teoretických úvah.

Pokud se předpokládá, že regresní funkce je dostatečně hladká, pak funkce, která ji aproximuje f a(X) lze reprezentovat jako lineární kombinaci nějaké množiny lineárně nezávislých bázových funkcí ψ k(X), k = 0, 1,…, m−1, tedy ve tvaru


kde m je počet neznámých parametrů θ k(obecně je hodnota neznámá, upřesňuje se při konstrukci modelu).

Taková funkce je v parametrech lineární, proto se v posuzovaném případě hovoří o modelu regresní funkce lineárně v parametrech.

Pak problém najít nejlepší aproximaci pro regresní přímku F(X) se redukuje na nalezení takových hodnot parametrů, pro které f a(X;θ) je vzhledem k dostupným údajům nejpřiměřenější. Jednou z metod řešení tohoto problému je metoda nejmenších čtverců.

42. Metoda nejmenších čtverců

Nechte množinu bodů ( x i, y i), i= 1,…, n umístěný v rovině podél nějaké přímky

Pak jako funkce f a(X) aproximující regresní funkci F(X) = M [Y|X] přirozeně brát lineární funkce argument X:


To znamená, že jsme zde zvolili základní funkce ψ 0 (X)≡1 a ψ 1 (X)≡X. Tato regrese se nazývá jednoduchá lineární regrese.

Pokud soubor bodů ( x i, y i), i= 1,…, n umístěné podél nějaké křivky, pak jako f a(X) je přirozené pokusit se vybrat rodinu parabol

Tato funkce je v parametrech nelineární θ 0 a θ 1, nicméně funkční transformací (v tomto případě logaritmováním) jej lze redukovat na nová vlastnost f'a(X), lineární v parametrech:


43. Jednoduchá lineární regrese

Nejjednodušší regresní model je jednoduchý (jednorozměrný, jednofaktorový, párový) lineární model, který má následující podobu:


kde ε i- nekorelované náhodné veličiny (chyby) s nulovými matematickými očekáváními a stejnými rozptyly σ 2 , A a b jsou konstantní koeficienty (parametry), které je potřeba odhadnout z naměřených hodnot odezvy y i.

Chcete-li najít odhady parametrů A a b lineární regrese, která určuje přímku, která nejlépe vyhovuje experimentálním datům:


používá se metoda nejmenších čtverců.

Podle nejmenší čtverce odhady parametrů A a b se zjistí z podmínky minimalizace součtu kvadrátů odchylek hodnot y i svisle od „skutečné“ regresní přímky:

Nechť existuje deset pozorování náhodné veličiny Y pro pevné hodnoty proměnné X

Chcete-li minimalizovat D rovnají se nule parciální derivace s ohledem na A a b:



Ve výsledku získáme následující soustavu rovnic pro nalezení odhadů A a b:


Řešení těchto dvou rovnic dává:



Výrazy pro odhady parametrů A a b může být také reprezentován jako:

Potom empirická rovnice regresní přímky Y na X lze napsat jako:


Nestranný odhad rozptylu σ 2 odchylky hodnot y i z proložené regresní přímky je dána

Vypočítejte parametry regresní rovnice


Přímá regrese tedy vypadá takto:


A odhad rozptylu odchylek hodnot y i z proložené přímé regresní přímky


44. Kontrola významnosti regresní linie

Nalezený odhad b≠ 0 může být realizace náhodné veličiny, jejíž matematické očekávání se rovná nule, tj. může se ukázat, že ve skutečnosti neexistuje žádná regresní závislost.

Abyste se s touto situací vypořádali, měli byste otestovat hypotézu H 0: b= 0 podle konkurenční hypotézy H 1: b ≠ 0.

Významnost regresní přímky lze testovat pomocí analýzy rozptylu.

Zvažte následující identitu:

Hodnota y iŷ i = ε i se nazývá zbytek a je to rozdíl mezi těmito dvěma veličinami:

ü odchylka pozorované hodnoty (odpovědi) od obecného průměru odpovědí;

ü odchylka předpokládané hodnoty odezvy ŷ i ze stejného průměru

Výše uvedená identita může být zapsána jako


Umocněním obou stran a sečtením i, dostaneme:


Kde jsou pojmenována množství:

úplný (celkový) součet čtverců SC n, který se rovná součtu čtverců odchylek pozorování ve vztahu ke střední hodnotě pozorování

součet čtverců v důsledku regrese SC p, který se rovná součtu čtverců odchylek hodnot regresní přímky vzhledem k průměru pozorování.

zbytkový součet čtverců SC 0 . což se rovná součtu čtverců odchylek pozorování vzhledem k hodnotám regresní přímky

Tedy šíření Y-kov vzhledem k jejich průměru lze do určité míry přičíst skutečnosti, že ne všechna pozorování leží na regresní přímce. Pokud by tomu tak bylo, pak by součet čtverců vzhledem k regresi byl nulový. Z toho vyplývá, že regrese bude významná, pokud součet čtverců SC p je větší než součet druhých mocnin SC 0 .

Výpočty pro testování významnosti regrese se provádějí v následující analýze tabulky rozptylů

Pokud chyby ε i rozdělené podle normálního zákona, pak je-li hypotéza H 0 pravdivá: b= 0 statistika:


rozdělené podle Fisherova zákona s počtem stupňů volnosti 1 a n−2.

Nulová hypotéza bude zamítnuta na hladině významnosti α, pokud je vypočtená hodnota statistiky F bude větší než α-procentní bod F 1;n−2;α Fisherova rozdělení.

45. Kontrola adekvátnosti regresního modelu. Zbytková metoda

Adekvátnost konstruovaného regresního modelu je chápána jako skutečnost, že žádný jiný model neposkytuje významné zlepšení v predikci odezvy.

Pokud jsou všechny hodnoty odezvy získány při různých hodnotách X, tj. pro totéž není získáno několik hodnot odezvy x i, pak lze provést pouze omezený test přiměřenosti lineárního modelu. Základem pro takovou kontrolu jsou zbytky:

Odchylky od zavedeného vzoru:

Pokud X je jednorozměrná proměnná, body ( x i, d i) lze znázornit na rovině ve formě tzv. zbytkového pozemku. Taková reprezentace někdy umožňuje detekovat určitou pravidelnost v chování zbytků. Kromě toho nám analýza reziduí umožňuje analyzovat předpoklad týkající se zákona rozdělení chyb.

V případě, kdy jsou chyby rozděleny podle normálního zákona a existuje apriorní odhad jejich rozptylu σ 2 (odhad získaný na základě dříve provedených měření), pak je možné přesnější posouzení přiměřenosti modelu.

Přes F-Fischerův test, můžete zkontrolovat, zda je zbytkový rozptyl významný s 0 2 se liší od apriorního odhadu. Je-li výrazně větší, jedná se o nedostatečnost a model by měl být revidován.

Pokud apriorní odhad σ 2 ne, ale měření odezvy Y opakovat dvakrát nebo vícekrát se stejnými hodnotami X, pak lze tato opakovaná pozorování použít k získání dalšího odhadu σ 2 (první je zbytkový rozptyl). O takovém odhadu se říká, že představuje „čistou“ chybu, protože pokud uděláme X stejné pro dvě nebo více pozorování, pak pouze náhodné změny mohou ovlivnit výsledky a vytvořit mezi nimi rozptyl.

Výsledný odhad se ukazuje jako spolehlivější odhad rozptylu než odhad získaný jinými metodami. Z tohoto důvodu má při plánování experimentů smysl nastavit experimenty s opakováním.

Předpokládejme, že existuje m různé významy X : X 1 , X 2 , ..., x m. Nechť pro každou z těchto hodnot x i k dispozici n i pozorování odezvy Y. Celkový počet pozorování je:

Pak lze jednoduchý lineární regresní model zapsat jako:


Pojďme najít rozptyl „čistých“ chyb. Tento rozptyl je odhad kombinovaného rozptylu σ 2, pokud uvedeme hodnoty odezvy yij v X = x i jako vzorkovací objem n i. V důsledku toho se rozptyl „čistých“ chyb rovná:

Tento rozptyl slouží jako odhad σ 2 bez ohledu na to, zda je osazený model správný.

Ukažme, že součet čtverců „čistých chyb“ je součástí zbytkového součtu čtverců (součet čtverců zahrnutých ve výrazu pro zbytkový rozptyl). Zbývá pro j pozorování v x i lze napsat jako:

Pokud odmocníme obě strany této rovnice a pak je sečteme j a podle i, pak dostaneme:

Na levé straně této rovnice je zbytkový součet čtverců. První člen na pravé straně je součtem druhých mocnin „čistých“ chyb, druhý člen lze nazvat součtem druhých mocnin neadekvátnosti. Poslední částka má m−2 stupně volnosti, tedy rozptyl nepřiměřenosti

Testovací statistika pro testování hypotézy H 0: jednoduchý lineární model je adekvátní, proti hypotéze H 1: jednoduchý lineární model je nedostatečný, je náhodná veličina

Pokud je nulová hypotéza pravdivá, hodnota F má Fisherovo rozdělení se stupni volnosti m−2 a nm. Hypotéza linearity regresní přímky by měla být zamítnuta s hladinou významnosti α, pokud je výsledná statistická hodnota větší než α-procentní bod Fisherova rozdělení s počtem stupňů volnosti. m−2 a nm.

46. Kontrola adekvátnosti regresního modelu (viz 45). Analýza rozptylu

47. Kontrola adekvátnosti regresního modelu (viz 45). Koeficient determinace

Někdy se pro charakterizaci kvality regresní přímky používá výběrový koeficient determinace. R 2, ukazující, jaká část (podíl) součtu čtverců v důsledku regrese, SC p je v celkovém součtu čtverců SC n:

Blíže R 2 ku jedné, čím lépe se regrese blíží experimentálním datům, tím blíže jsou pozorování k regresní přímce. Pokud R 2 = 0, pak změny odezvy jsou zcela způsobeny vlivem nezapočtených faktorů a regresní přímka je rovnoběžná s osou X-ov. V případě jednoduché lineární regrese koeficient determinace R 2 se rovná druhé mocnině korelačního koeficientu r 2 .

Maximální hodnoty R 2 =1 lze dosáhnout pouze v případě, kdy byla pozorování provedena při různých hodnotách x-s. Pokud jsou v datech opakované zkušenosti, pak hodnota R 2 nemůže dosáhnout jednoty, bez ohledu na to, jak dobrý je model.

48. Intervaly spolehlivosti pro jednoduché lineární regresní parametry

Stejně jako je výběrový průměr odhadem skutečného průměru (střední hodnota populace), tak jsou i výběrové parametry regresní rovnice A a b- nic víc než odhady skutečných regresních koeficientů. Různé vzorky poskytují různé odhady střední hodnoty, stejně jako různé vzorky poskytují různé odhady regresních koeficientů.

Za předpokladu, že zákon o rozdělení chyb ε i jsou popsány normálním zákonem, odhadem parametru b bude mít normální rozdělení s parametry:


Od odhadu parametru A je lineární kombinací nezávislých normálně rozdělených proměnných, bude mít také normální rozdělení se střední hodnotou a rozptylem:


V tomto případě (1 − α) interval spolehlivosti pro odhad rozptylu σ 2, s přihlédnutím k tomu, že poměr ( n−2)s 0 2 /σ 2 distribuované ze zákona χ 2 s počtem stupňů volnosti n−2 bude určeno výrazem


49. Intervaly spolehlivosti pro regresní přímku. Interval spolehlivosti pro hodnoty závislé proměnné

Obvykle neznáme skutečné hodnoty regresních koeficientů A a b. Známe pouze jejich odhady. Jinými slovy, skutečná regresní přímka může jít výše nebo níže, být strmější nebo plošší než ta, která je postavena na vzorových datech. Vypočítali jsme intervaly spolehlivosti pro regresní koeficienty. Můžete také vypočítat oblast spolehlivosti pro samotnou regresní přímku.

Nechť pro jednoduchou lineární regresi je nutné sestrojit (1− α ) interval spolehlivosti pro matematické očekávání odezvy Y s hodnotou X = X 0 Toto matematické očekávání je A+bx 0 a její odhad

Protože tedy.

Získaný odhad matematického očekávání je lineární kombinací nekorelovaných normálně rozdělených veličin, a proto má také normální rozdělení se středem v bodě skutečné hodnoty podmíněného matematického očekávání a rozptylu.

Proto interval spolehlivosti pro regresní přímku u každé hodnoty X 0 může být reprezentováno jako


Jak vidíte, minimální interval spolehlivosti se získá, když X 0 se rovná průměrné hodnotě a zvyšuje se jako X 0 se „vzdálí“ od střední hodnoty v libovolném směru.

Chcete-li získat sadu společných intervalů spolehlivosti vhodných pro celou regresní funkci, po celé její délce, ve výše uvedeném výrazu, namísto t n −2,α /2 musí být nahrazeno

Jedním z faktorů omezujících použití kritérií založených na předpokladu normality je velikost vzorku. Pokud je vzorek dostatečně velký (například 100 nebo více pozorování), můžete předpokládat, že rozložení vzorku je normální, i když si nejste jisti, že rozložení proměnné v populaci je normální. Pokud je však vzorek malý, měly by být tyto testy použity pouze v případě, že existuje jistota, že proměnná je skutečně normálně distribuována. Neexistuje však způsob, jak tento předpoklad otestovat na malém vzorku.

Použití kritérií vycházejících z předpokladu normality je také omezeno měřítkem měření (viz kapitola Základní pojmy analýzy dat). Statistické metody jako t-test, regrese atd. předpokládají, že původní data jsou spojitá. Existují však situace, kdy jsou data jednoduše řazena (měřena na ordinální stupnici), spíše než přesně měřena.

Typickým příkladem je hodnocení stránek na internetu: na první pozici je stránka s maximálním počtem návštěvníků, na druhé pozici je stránka s maximální návštěvností mezi zbývajícími stránkami (mezi stránkami, ze kterých první stránka byla odstraněna) atd. Se znalostí hodnocení můžeme říci, že návštěvnost jedné stránky je větší než návštěvnost jiné stránky, ale o kolik více, nelze říci. Představte si, že máte 5 webů: A, B, C, D, E, které se nacházejí na prvních 5 místech. Předpokládejme, že v aktuálním měsíci jsme měli toto uspořádání: A, B, C, D, E a v předchozím měsíci: D, E, A, B, C. Otázkou je, zda došlo k výrazným změnám v hodnocení stránek nebo ne? V této situaci samozřejmě nemůžeme použít t-test k porovnání těchto dvou souborů dat a přesouváme se do oblasti konkrétních pravděpodobnostních výpočtů (a každý statistický test obsahuje pravděpodobnostní výpočet!). Uvažujeme přibližně takto: jak pravděpodobné je, že rozdíl v uspořádání dvou míst je způsoben čistě náhodnými důvody, nebo je tento rozdíl příliš velký a nelze jej vysvětlit čirou náhodou. V těchto diskuzích používáme pouze hodnocení nebo permutace stránek a nepoužíváme konkrétní typ rozložení počtu návštěvníků na nich.

Pro analýzu malých vzorků a pro data naměřená na špatných měřítcích se používají neparametrické metody.

Stručný přehled neparametrických postupů

V podstatě pro každé parametrické kritérium existují alespoň, jedna neparametrická alternativa.

Obecně tyto postupy spadají do jedné z následujících kategorií:

  • rozdílová kritéria pro nezávislé vzorky;
  • rozdílová kritéria pro závislé vzorky;
  • posouzení míry závislosti mezi proměnnými.

Obecně by měl být přístup ke statistickým kritériím při analýze dat pragmatický a nezatížený zbytečnými teoretickými úvahami. S počítačem STATISTICA, který máte k dispozici, můžete na svá data snadno aplikovat několik kritérií. S vědomím některých úskalí metod si vyberete správné řešení pomocí experimentování. Vývoj grafu je zcela přirozený: pokud potřebujete porovnat hodnoty dvou proměnných, použijte t-test. Je však třeba připomenout, že je založen na předpokladu normality a rovnosti rozptylů v každé skupině. Osvobození od těchto předpokladů vede k neparametrickým testům, které jsou užitečné zejména pro malé vzorky.

Vývoj t-testu vede k analýze rozptylu, která se používá, když je počet porovnávaných skupin větší než dvě. Odpovídající rozvoj neparametrických postupů vede k neparametrické analýze rozptylu, i když je mnohem horší než klasická analýza rozptylu.

Pro posouzení závislosti, nebo, poněkud velkolepě řečeno, míry těsnosti souvislosti se počítá Pearsonův korelační koeficient. Přísně vzato má jeho použití omezení spojená např. s typem škály, ve které jsou data měřena a nelinearitou závislosti, proto jako alternativa neparametrické, nebo tzv. hodnostní, korelační koeficienty. se také používají, které se používají například pro řazená data. Pokud jsou data měřena v nominálním měřítku, pak je přirozené je prezentovat v kontingenčních tabulkách, které využívají Pearsonův chí-kvadrát test s různými variacemi a korekcemi přesnosti.

V podstatě tedy existuje jen několik typů kritérií a postupů, které musíte znát a umět je používat, v závislosti na specifikách dat. Musíte určit, jaké kritérium by se mělo v konkrétní situaci použít.

Neparametrické metody jsou nejvhodnější, pokud je velikost vzorku malá. Pokud existuje mnoho dat (například n > 100), často nemá smysl používat neparametrické statistiky.

Pokud je velikost vzorku velmi malá (například n = 10 nebo méně), lze hladiny významnosti pro ty neparametrické testy, které používají normální aproximaci, považovat pouze za hrubé odhady.

Rozdíly mezi nezávislými skupinami. Pokud existují dva vzorky (např. muži a ženy), které je třeba porovnat s ohledem na nějakou střední hodnotu, jako je průměrný krevní tlak nebo počet bílých krvinek, pak lze použít nezávislý vzorkový t-test.

Neparametrické alternativy k tomuto testu jsou Wald-Wolfowitz, Mann-Whitney )/n série test, kde x i - i-tá hodnota, n - počet pozorování. Pokud proměnná obsahuje záporné hodnoty nebo nulu (0), geometrický průměr nelze vypočítat.

Harmonický průměr

Harmonický průměr se někdy používá k průměrování frekvencí. Harmonický průměr se vypočítá podle vzorce: HS = n/S(1/x i) kde HS je harmonický průměr, n je počet pozorování, x i je hodnota pozorování s číslem i. Pokud proměnná obsahuje nulu (0), nelze harmonický průměr vypočítat.

Rozptyl a směrodatná odchylka

Výběrový rozptyl a směrodatná odchylka jsou nejčastěji používanými měřítky variability (variací) v datech. Rozptyl se vypočítá jako součet čtverců odchylek hodnot proměnné od výběrového průměru dělený n-1 (ale ne n). Směrodatná odchylka se vypočítá jako druhá odmocnina odhadu rozptylu.

rozsah

Rozsah proměnné je mírou volatility, počítá se jako maximum mínus minimum.

Kvartilový rozsah

Čtvrtletní rozmezí podle definice je: horní kvartil mínus spodní kvartil (75% percentil mínus 25% percentil). Protože percentil 75 % (horní kvartil) je hodnota nalevo, od níž je 75 % pozorování, a percentil 25 % (dolní kvartil) je hodnota nalevo od níž je 25 % pozorování, kvartil rozsah je interval kolem mediánu, který obsahuje 50 % pozorování (hodnot proměnné).

Asymetrie

Šikmost je charakteristická pro tvar distribuce. Distribuce je zkosená doleva, pokud je zešikmení záporné. Distribuce je zkosená doprava, pokud je šikmost kladná. Šikmost standardního normálního rozdělení je 0. Šikmost se vztahuje ke třetímu momentu a je definována jako: šikmost = n × M 3 /[(n-1) × (n-2) × s 3 ], kde M 3 je: (x i -xstřední x) 3, s 3 - standardní odchylka zvýšená na třetí mocninu, n - počet pozorování.

Přebytek

Kurtóza je charakteristika tvaru rozdělení, konkrétně míra ostrosti jeho vrcholu (ve vztahu k normálnímu rozdělení, jehož špičatost je 0). Obecně platí, že distribuce s ostřejším vrcholem než normální distribuce mají kladnou špičatost; rozdělení, jejichž vrchol je méně ostrý než vrchol normálního rozdělení, mají zápornou špičatost. Kurtóza je spojena se čtvrtým momentem a je určena vzorcem:

kurtosis = /[(n-1) × (n-2) × (n-3) × s 4 ], kde M j je: (x-x průměr x, s 4 je standardní odchylka od čtvrté mocniny, n je počet pozorování.

Potřeby hospodářské a společenské praxe vyžadují rozvoj metod kvantitativního popisu procesů, které umožňují přesně registrovat nejen kvantitativní, ale i kvalitativní faktory. Za předpokladu, že hodnoty kvalitativních znaků lze seřadit nebo seřadit podle míry poklesu (zvýšení) znaku, lze posoudit blízkost vztahu mezi kvalitativními znaky. Kvalitativní je znak, který nelze přesně změřit, ale umožňuje porovnávat objekty mezi sebou, a proto je seřadit v sestupném nebo rostoucím pořadí kvality. A skutečným obsahem měření v žebříčkových škálách je pořadí, ve kterém jsou objekty uspořádány podle závažnosti měřeného znaku.

Pro praktické účely je velmi užitečné použití hodnostní korelace. Pokud je například stanovena vysoká korelace pořadí mezi dvěma kvalitativními atributy produktů, pak stačí kontrolovat produkty pouze pro jeden z atributů, což snižuje náklady a urychluje kontrolu.

Jako příklad můžeme uvažovat existenci vztahu mezi dostupností obchodovatelných produktů pro řadu podniků a režijními náklady na prodej. V průběhu 10 pozorování byla získána následující tabulka:

Seřaďme hodnoty X ve vzestupném pořadí, přičemž každé hodnotě bude přiřazeno její pořadové číslo (hodnost):

Tím pádem,

Sestavme si následující tabulku, kde jsou zaznamenány dvojice X a Y, získané jako výsledek pozorování s jejich hodnostmi:

Označením rozdílu v pořadí jako napíšeme vzorec pro výpočet Spearmanova výběrového korelačního koeficientu:

kde n je počet pozorování, což je také počet dvojic hodností.

Spearmanův koeficient má následující vlastnosti:

Pokud existuje úplný přímý vztah mezi kvalitativními znaky X a Y v tom smyslu, že řady objektů jsou stejné pro všechny hodnoty i, pak Spearmanův korelační koeficient je 1. Dosadíme-li do vzorce, získat 1.

Pokud existuje úplný inverzní vztah mezi kvalitativními znaky X a Y v tom smyslu, že pořadí odpovídá pořadí, pak Spearmanův výběrový korelační koeficient je -1.

Opravdu, kdyby

Dosazením hodnoty do vzorce Spearmanův korelační koeficient dostaneme -1.

Pokud neexistuje ani úplná přímka, ani úplná zpětná vazba, pak je Spearmanův výběrový korelační koeficient mezi -1 a 1, a čím blíže je jeho hodnota k 0, tím menší je vztah mezi znaky.

Podle výše uvedeného příkladu najdeme hodnotu P, za tímto účelem doplníme tabulku o hodnoty a:

Vzorový korelační koeficient Kendall. Vztah mezi dvěma kvalitativními znaky můžete vyhodnotit pomocí Kendallova koeficientu korelace pořadí.

Nechť řady objektů ve vzorku velikosti n jsou:

podle znamení X:

na základě Y: . Předpokládejme, že vpravo jsou řady, velké, vpravo jsou řady, velké, vpravo jsou řady, velké. Zaveďme zápis pro součet hodností

Podobně zavedeme zápis jako součet počtu hodností ležících vpravo, ale menší.

Kendallův korelační koeficient vzorku je zapsán jako:

Kde n je velikost vzorku.

Kendallův koeficient má stejné vlastnosti jako Spearmanův koeficient:

Pokud existuje úplný přímý vztah mezi kvalitativními rysy X a Y v tom smyslu, že řady objektů jsou stejné pro všechny hodnoty i, pak Kendallův korelační koeficient je 1. Opravdu, vpravo jsou n-1 ranků, které jsou velké, proto stejným způsobem nastavujeme co. Pak. A Kendallův koeficient je: .

Pokud existuje úplný inverzní vztah mezi znaky X a Y v tom smyslu, že pořadí odpovídá pořadí, pak Kendallův korelační koeficient vzorku je -1. Napravo nejsou žádné řady, tedy velké. Rovněž. Dosazením hodnoty R+=0 do vzorce Kendallova koeficientu dostaneme -1.

S dostatečně velkou velikostí vzorku a s hodnotami korelačních koeficientů blízkých 1 dochází k přibližné rovnosti:

Poskytuje Kendallův koeficient konzervativnější odhad korelace než Spearmanův koeficient? (číselná hodnota? je vždy menší než). I když výpočet koeficientu? méně časově náročné než výpočet koeficientu, ten se snáze přepočítá, pokud je do řady přidán nový člen.

Důležitou výhodou koeficientu je, že jej lze použít k určení dílčího hodnostního korelačního koeficientu, což umožňuje posoudit míru „čistého“ vztahu mezi dvěma hodnostními znaky, přičemž se eliminuje vliv třetího:

Význam pořadových korelačních koeficientů. Při určování síly pořadové korelace na základě výběrových dat je nutné zvážit následující otázku: s jakou mírou spolehlivosti lze spoléhat na závěr, že existuje korelace v obecné populaci, pokud je získán určitý korelační koeficient výběrového pořadí. . Jinými slovy, významnost pozorovaných korelací pořadí by měla být testována na základě hypotézy statistické nezávislosti dvou uvažovaných hodnocení.

Při relativně velkém vzorku n lze významnost koeficientů pořadové korelace ověřit pomocí tabulky normálního rozdělení (tabulka 1 v příloze). Testovat význam Spearmanova koeficientu? (pro n>20) vypočítat hodnotu

a otestovat význam Kendallova koeficientu? (pro n>10) vypočítat hodnotu

kde S=R+- R-, n je velikost vzorku.

Dále se nastaví hladina významnosti y, kritická hodnota tcr (a, k) se určí z tabulky kritických bodů Studentova rozdělení a vypočtená hodnota se s ní porovná. Předpokládá se, že počet stupňů volnosti je k = n-2. Pokud nebo > tcr, pak jsou hodnoty nebo považovány za významné.

Fechnerův korelační koeficient.

Na závěr je třeba zmínit Fechnerův koeficient, který charakterizuje elementární stupeň těsnosti souvislosti, který je vhodné použít pro zjištění skutečnosti existence souvislosti při malém množství výchozích informací. Základem jeho výpočtu je zohlednění směru odchylek od aritmetického průměru každé variační řady a stanovení konzistence znamének těchto odchylek pro dvě řady, mezi nimiž se měří vztah.

Tento koeficient je určen vzorcem:

kde na je počet shod znamének odchylek jednotlivých hodnot od jejich aritmetického průměru; nb - respektive počet neshod.

Fechnerův koeficient se může pohybovat v rozmezí -1,0<= Кф<= +1,0.

Aplikované aspekty hodnostní korelace. Jak již bylo uvedeno, hodnostní korelační koeficienty lze použít nejen pro kvalitativní analýzu vztahu mezi dvěma hodnostními rysy, ale také pro stanovení síly vztahu mezi hodnostními a kvantitativními rysy. V tomto případě jsou hodnoty kvantitativního atributu seřazeny a jsou jim přiřazeny odpovídající úrovně.

Existuje řada situací, kdy je při určování síly spojení mezi dvěma kvantitativními charakteristikami také vhodný výpočet koeficientů pořadové korelace. Takže při výrazné odchylce rozdělení jednoho z nich (nebo obou) od normálního rozdělení se stanovení hladiny významnosti výběrového korelačního koeficientu r stává nesprávným, přičemž hodnostní koeficienty? a? nejsou spojena s takovými omezeními při určování úrovně významnosti.

Jiná situace tohoto druhu nastává, když je vztah mezi dvěma kvantitativními znaky nelineární (ale monotónní). Pokud je počet objektů ve vzorku malý, nebo je-li znak vztahu pro výzkumníka významný, pak použití korelačního vztahu? zde může být nevhodné. Výpočet hodnotového korelačního koeficientu umožňuje tyto obtíže obejít.

Praktická část

Úkol 1. Korelační a regresní analýza

Vyjádření a formalizace problému:

Je uveden empirický vzorek sestavený na základě řady pozorování stavu zařízení (na poruchu) a počtu vyrobených položek. Vzorek implicitně charakterizuje vztah mezi objemem vadných zařízení a počtem vyrobených položek. Podle významu vzorku je zřejmé, že vyrobené výrobky jsou vyráběny na zařízení, které zůstalo v provozu, neboť čím více % zařízení selhalo, tím méně vyrobených výrobků. Je třeba zkoumat vzorek na korelační-regresní závislost, tedy stanovit formu závislosti, vyhodnotit regresní funkci (regresní analýza) a také identifikovat vztah mezi náhodnými veličinami a vyhodnotit její těsnost (korelační analýza). Dalším úkolem korelační analýzy je vyhodnotit regresní rovnici jedné proměnné vzhledem k jiné. Kromě toho je nutné predikovat počet vyrobených produktů s 30% poruchou zařízení.

Výše uvedený vzorek formalizujeme v tabulce, přičemž údaj „Selhání zařízení, %“ označíme jako X, údaj „Počet produktů“ jako Y:

Počáteční údaje. stůl 1

Podle fyzikálního významu problému je vidět, že počet vyrobených výrobků Y přímo závisí na procentu selhání zařízení, to znamená, že existuje závislost Y na X. Na rozdíl od korelace předpokládá, že hodnota X působí jako nezávislá proměnná nebo faktor, hodnota Y - jako na ní závislá, nebo efektivní prvek. Je tedy potřeba syntetizovat adekvátní ekonomický a matematický model, tzn. určit (najít, vybrat) funkci Y = f(X), která charakterizuje vztah mezi hodnotami X a Y, pomocí které bude možné předpovědět hodnotu Y při X = 30. Řešení tohoto problém lze provést pomocí korelační-regresní analýzy.

Stručný přehled metod řešení korelačně-regresních problémů a zdůvodnění zvolené metody řešení.

Metody regresní analýzy podle počtu faktorů ovlivňujících efektivní atribut se dělí na jednoduché a multifaktoriální. Jednofaktor - počet nezávislých faktorů = 1, tzn. Y = F(X)

multifaktoriální - počet faktorů > 1, tzn.

Podle počtu studovaných závislých proměnných (výsledkových znaků) lze regresní úlohy rozdělit také na úlohy s jedním a mnoha produktivními znaky. Obecně lze úlohu s mnoha účinnými funkcemi napsat jako:

Metoda korelačně-regresní analýzy spočívá ve zjištění parametrů aproximační (aproximační) závislosti tvaru

Protože se ve výše uvedené úloze objevuje pouze jedna nezávislá proměnná, tj. zkoumá se závislost pouze na jednom faktoru, který ovlivňuje výsledek, je třeba použít studii jednofaktorové závislosti neboli párové regrese.

V přítomnosti pouze jednoho faktoru je závislost definována jako:

Forma zápisu konkrétní regresní rovnice závisí na volbě funkce, která zobrazuje statistický vztah mezi faktorem a výsledným prvkem a zahrnuje následující:

lineární regrese, rovnice tvaru,

parabolická, rovnice tvaru

kubická, rovnice tvaru

hyperbolický, rovnice tvaru

semilogaritmická, rovnice tvaru

exponenciála, rovnice tvaru

mocnina, rovnice tvaru.

Hledání funkce se redukuje na stanovení parametrů regresní rovnice a posouzení spolehlivosti rovnice samotné. Pro stanovení parametrů lze použít jak metodu nejmenších čtverců, tak metodu nejmenších modulů.

První z nich je, že součet čtverců odchylek empirických hodnot Yi od vypočteného průměru Yi by měl být minimální.

Metoda nejmenších modulů spočívá v minimalizaci součtu modulů rozdílu mezi empirickými hodnotami Yi a vypočtenými průměry Yi.

K vyřešení problému volíme metodu nejmenších čtverců, jako nejjednodušší a poskytující dobré odhady z hlediska statistických vlastností.

Technologie řešení problému regresní analýzy metodou nejmenších čtverců.

Typ závislosti (lineární, kvadratická, kubická atd.) mezi proměnnými můžete určit odhadem odchylky skutečné hodnoty y od vypočítané:

kde - empirické hodnoty, - vypočtené hodnoty pro aproximační funkci. Odhadem hodnot Si pro různé funkce a výběrem nejmenší z nich vybereme aproximační funkci.

Typ funkce je určen nalezením koeficientů, které se nacházejí pro každou funkci jako řešení určitého systému rovnic:

lineární regrese, typová rovnice, systém -

parabolická, rovnice tvaru, soustava -

kubická, typová rovnice, soustava -

Po vyřešení systému najdeme, pomocí kterého dospějeme ke konkrétnímu vyjádření analytické funkce, se kterou najdeme vypočítané hodnoty. Dále jsou zde všechna data pro nalezení odhadu odchylky S a rozbor pro minimum.

Pro lineární závislost odhadneme blízkost vztahu mezi faktorem X a efektivním znakem Y ve formě korelačního koeficientu r:

Průměrná hodnota ukazatele;

Průměrná hodnota faktoru;

y - experimentální hodnota indikátoru;

x - experimentální hodnota faktoru;

směrodatná odchylka x;

Směrodatná odchylka v y.

Je-li korelační koeficient r = 0, pak se má za to, že vztah mezi znaky je nevýznamný nebo chybí, je-li r = 1, pak je mezi znaky velmi vysoký funkční vztah.

Pomocí Chaddockovy tabulky je možné provést kvalitativní posouzení těsnosti korelace mezi znaky:

Chaddock stůl Tabulka 2.

Pro nelineární závislost se určí korelační poměr (0 1) a korelační index R, které se vypočítají z následujících závislostí.

kde hodnota je hodnota ukazatele vypočtená z regresní závislosti.

Jako odhad přesnosti výpočtů používáme hodnotu průměrné relativní aproximační chyby

Při vysoké přesnosti leží v rozmezí 0-12%.

Pro posouzení výběru funkční závislosti používáme koeficient determinace

Koeficient determinace se používá jako "zobecněné" měřítko kvality výběru funkčního modelu, protože vyjadřuje poměr mezi faktoriálem a celkovým rozptylem, přesněji řečeno podíl faktorového rozptylu na celku.

K posouzení významnosti korelačního indexu R se používá Fisherův F-test. Skutečná hodnota kritéria je určena vzorcem:

kde m je počet parametrů regresní rovnice, n je počet pozorování. Hodnota je porovnána s kritickou hodnotou, která je určena z tabulky F-kritérií s přihlédnutím k přijaté hladině významnosti a počtu stupňů volnosti u. Pokud, pak je hodnota korelačního indexu R uznána jako významná.

Pro zvolenou formu regrese jsou vypočteny koeficienty regresní rovnice. Pro usnadnění jsou výsledky výpočtu zahrnuty v tabulce s následující strukturou (obecně se počet sloupců a jejich vzhled liší v závislosti na typu regrese):

Tabulka 3

Řešení problému.

Byla provedena pozorování ekonomického jevu – závislosti výkonu produktů na procentu selhání zařízení. Byla přijata sada hodnot.

Vybrané hodnoty jsou popsány v tabulce 1.

Sestavíme graf empirické závislosti na daném vzorku (obr. 1)

Podle tvaru grafu určíme, že analytickou závislost lze reprezentovat jako lineární funkci:

Vypočítejte párový korelační koeficient pro posouzení vztahu mezi X a Y:

Vytvoříme pomocnou tabulku:

Tabulka 4

Řešíme soustavu rovnic, abychom našli koeficienty a:

z první rovnice dosazením hodnoty

do druhé rovnice dostaneme:

Shledáváme

Dostaneme tvar regresní rovnice:

9. K odhadu těsnosti nalezeného vztahu použijeme korelační koeficient r:

Podle Chaddockovy tabulky zjistíme, že pro r = 0,90 je vztah mezi X a Y velmi vysoký, a proto je také vysoká spolehlivost regresní rovnice. Pro posouzení přesnosti výpočtů používáme hodnotu průměrné relativní aproximační chyby:

Věříme, že hodnota poskytuje vysoký stupeň spolehlivosti regresní rovnice.

Pro lineární vztah mezi X a Y je determinační index roven druhé mocnině korelačního koeficientu r:. Proto je 81 % celkové variace vysvětleno změnou faktoru X.

Pro posouzení významnosti korelačního indexu R, který se v případě přímé závislosti v absolutní hodnotě rovná korelačnímu koeficientu r, je použit Fisherův F-test. Skutečnou hodnotu určíme podle vzorce:

kde m je počet parametrů regresní rovnice, n je počet pozorování. To znamená, že n = 5, m = 2.

Vezmeme-li v úvahu přijatou hladinu významnosti = 0,05 a počet stupňů volnosti, získáme kritickou tabulkovou hodnotu. Protože je hodnota korelačního indexu R považována za významnou.

Vypočítejme předpokládanou hodnotu Y při X = 30:

Sestavme graf nalezené funkce:

11. Určete chybu korelačního koeficientu hodnotou směrodatné odchylky

a poté určit hodnotu normalizované odchylky

Z poměru > 2 s pravděpodobností 95 % lze hovořit o významnosti získaného korelačního koeficientu.

Úkol 2. Lineární optimalizace

Možnost 1.

Plán rozvoje regionu předpokládá zprovoznění 3 ropných polí o celkovém objemu těžby 9 milionů tun. Na prvním poli je objem výroby nejméně 1 milion tun, na druhém - 3 miliony tun, na třetím - 5 milionů tun. K dosažení této produktivity musí být vyvrtáno alespoň 125 vrtů. Na realizaci tohoto plánu bylo přiděleno 25 milionů rublů. kapitálové investice (ukazatel K) a 80 km potrubí (ukazatel L).

Je nutné stanovit optimální (maximální) počet vrtů, aby byla zajištěna plánovaná produktivita každého pole. Počáteční údaje o úloze jsou uvedeny v tabulce.

Počáteční údaje

Prohlášení o problému je uvedeno výše.

Formalizujeme podmínky a omezení uvedené v problému. Účelem řešení tohoto optimalizačního problému je najít maximální hodnotu těžby ropy s optimálním počtem vrtů pro každé pole, s přihlédnutím ke stávajícím omezením problému.

Cílová funkce v souladu s požadavky problému bude mít podobu:

kde je počet jamek pro každé pole.

Stávající omezení úkolu pro:

délka potrubí:

počet vrtů v každém poli:

náklady na stavbu 1 studny:

Problémy lineární optimalizace se řeší například následujícími metodami:

Graficky

Simplexní metoda

Použití grafické metody je vhodné pouze při řešení lineárních optimalizačních úloh se dvěma proměnnými. Při větším počtu proměnných je nutné použití algebraického aparátu. Zvažte obecnou metodu pro řešení lineárních optimalizačních problémů nazývanou simplexní metoda.

Metoda Simlex je typickým příkladem iterativních výpočtů používaných při řešení většiny optimalizačních problémů. Uvažují se o iteračních postupech tohoto druhu, které poskytují řešení problémů pomocí modelů operačního výzkumu.

Pro řešení optimalizační úlohy simplexovou metodou je nutné, aby počet neznámých Xi byl větší než počet rovnic, tzn. soustava rovnic

spokojený vztah m

A = bylo rovno m.

Označte sloupec matice A jako a sloupec volných členů jako

Základním řešením soustavy (1) je množina m neznámých, které jsou řešením soustavy (1).

Stručně, algoritmus simplexové metody je popsán takto:

Původní omezení, zapsané jako nerovnost typu<= (=>), lze reprezentovat jako rovnost přidáním zbytkové proměnné k levé straně omezení (odečtením redundantní proměnné od levé strany).

Například na levou stranu původní vazby

je zavedena zbytková proměnná, v důsledku čehož se původní nerovnost změní v rovnost

Pokud původní omezení určuje spotřebu potrubí, měla by být proměnná interpretována jako zbytek nebo nevyužitá část tohoto zdroje.

Maximalizace účelové funkce je ekvivalentní minimalizaci stejné funkce s opačným znaménkem. Tedy v našem případě

je ekvivalentní

Pro základní řešení je sestavena simplexní tabulka v následujícím tvaru:

Tato tabulka ukazuje, že po vyřešení problému v těchto buňkách bude existovat základní řešení. - private z dělení sloupce jedním ze sloupců; - další nulovací násobiče pro hodnoty v buňkách tabulky související se sloupcem povolení. - minimální hodnota účelové funkce -Z, - hodnoty koeficientů v účelové funkci pro neznámé.

Mezi hodnotami najděte nějaké pozitivní. Pokud tomu tak není, je problém považován za vyřešený. Vyberte libovolný sloupec tabulky, který jej obsahuje, tento sloupec se nazývá „povolený“ sloupec. Pokud mezi prvky rozlišovacího sloupce nejsou kladná čísla, pak je problém neřešitelný kvůli neohraničenosti účelové funkce na množině jejích řešení. Pokud jsou ve sloupci rozlišení kladná čísla, přejděte ke kroku 5.

Sloupec je vyplněn zlomky, v jejichž čitateli jsou prvky sloupce a ve jmenovateli - odpovídající prvky rozlišovacího sloupce. Ze všech hodnot je vybrána ta nejmenší. Řádek, ve kterém je nejmenší výsledek, se nazývá "permisivní" řádek. Na průsečíku permisivní čáry a permisivního sloupce je nalezen permisivní prvek, který je nějakým způsobem zvýrazněn např. barvou.

Na základě první simplexní tabulky je sestavena následující tabulka, ve které:

Řádkový vektor byl nahrazen sloupcovým vektorem

permisivní řetězec je nahrazen stejným řetězcem rozděleným permisivním prvkem

každý z ostatních řádků tabulky je nahrazen součtem tohoto řádku s rozlišením, vynásobeným speciálně vybraným dodatečným faktorem, aby se v buňce sloupce rozlišení získalo 0.

S novou tabulkou se vrátíme k bodu 4.

Řešení problému.

Na základě prohlášení o problému máme následující systém nerovností:

a objektivní funkce

Systém nerovnic transformujeme na systém rovnic zavedením dalších proměnných:

Redukujme účelovou funkci na její ekvivalent:

Vytvořme počáteční simplexní tabulku:

Vyberme sloupec oprávnění. Pojďme vypočítat sloupec:

Hodnoty zadáme do tabulky. Podle nejmenšího z nich = 10 určíme povolovací řetězec: . Na průsečíku rozlišovacího řádku a rozlišovacího sloupce najdeme rozlišovací prvek = 1. Část tabulky doplníme dalšími faktory, a to tak, že: jimi vynásobený rozlišovací řetězec, přičtený ke zbývajícím řádkům tabulky, tvoří 0 v prvcích rozlišovacího sloupce.

Sestavíme druhou simplexní tabulku:

V něm vezmeme rozlišovací sloupec, vypočítáme hodnoty, dáme je do tabulky. Minimálně získáme permisivní řetězec. Rozlišovacím prvkem bude 1. Najdeme další faktory, vyplníme sloupce.

Sestavíme následující simplexní tabulku:

Podobně najdeme rozlišovací sloupec, rozlišovací řádek a rozlišovací prvek = 2. Sestavíme následující simplexní tabulku:

Protože v řádku -Z nejsou žádné kladné hodnoty, je tato tabulka konečná. První sloupec udává požadované hodnoty neznámých, tj. optimální základní řešení:

V tomto případě je hodnota účelové funkce -Z = -8000, což je ekvivalentní Zmax = 8000. Problém je vyřešen.

Úkol 3. Shluková analýza

Formulace problému:

Proveďte rozdělení objektů na základě údajů uvedených v tabulce. Volbu metody řešení je třeba provést nezávisle, vytvořit graf závislosti dat.

Možnost 1.

Počáteční údaje

Přehled metod řešení zadaného typu problémů. Zdůvodnění způsobu řešení.

Úlohy shlukové analýzy jsou řešeny pomocí následujících metod:

Metoda sjednocení nebo stromového shlukování se používá při vytváření shluků „nepodobnosti“ nebo „vzdálenosti mezi objekty“. Tyto vzdálenosti lze definovat v jednorozměrném nebo vícerozměrném prostoru.

Obousměrné spojení se používá (relativně zřídka) za okolností, kdy data nejsou interpretována z hlediska „objektů“ a „vlastností objektů“, ale z hlediska pozorování a proměnných. Očekává se, že jak pozorování, tak proměnné budou současně přispívat k objevu smysluplných shluků.

Metoda K-means. Používá se, když již existuje hypotéza týkající se počtu shluků. Systému můžete říci, aby vytvořil přesně například tři shluky tak, aby byly co nejvíce odlišné. V obecném případě metoda K-means staví přesně K různých shluků umístěných co nejdále od sebe.

Existují následující způsoby měření vzdáleností:

Euklidovská vzdálenost. Toto je nejběžnější typ vzdálenosti. Je to jednoduše geometrická vzdálenost ve vícerozměrném prostoru a počítá se takto:

Všimněte si, že euklidovská vzdálenost (a její druhá mocnina) se počítá z původních dat, nikoli ze standardizovaných dat.

Vzdálenost městských bloků (vzdálenost Manhattan). Tato vzdálenost je jednoduše průměrem rozdílů v souřadnicích. Ve většině případů vede tato míra vzdálenosti ke stejným výsledkům jako u obvyklé Euklidovy vzdálenosti. Všimněte si však, že u tohoto měření se vliv jednotlivých velkých rozdílů (odlehlých hodnot) snižuje (protože nejsou na druhou). Vzdálenost Manhattanu se vypočítá podle vzorce:

Čebyševova vzdálenost. Tato vzdálenost může být užitečná, když si přejete definovat dva objekty jako "odlišné", pokud se liší v jakékoli jedné souřadnici (jakémkoli jednom rozměru). Čebyševova vzdálenost se vypočítá podle vzorce:

Výkonová vzdálenost. Někdy je žádoucí postupně zvyšovat nebo snižovat hmotnost vztahující se k rozměru, pro který jsou odpovídající předměty velmi odlišné. Toho lze dosáhnout pomocí mocninné vzdálenosti. Výkonová vzdálenost se vypočítá podle vzorce:

kde r a p jsou uživatelem definované parametry. Pár příkladů výpočtů může ukázat, jak toto opatření „funguje“. Parametr p je zodpovědný za postupné vážení rozdílů v jednotlivých souřadnicích, parametr r je zodpovědný za postupné vážení velkých vzdáleností mezi objekty. Pokud jsou oba parametry - r a p, rovny dvěma, pak se tato vzdálenost shoduje s euklidovskou vzdáleností.

Procento nesouhlasu. Tato míra se používá, když jsou data kategorická. Tato vzdálenost se vypočítá podle vzorce:

Pro vyřešení problému zvolíme metodu asociace (stromové shlukování) jako nejvhodnější pro podmínky a zadání problému (provedení rozdělení objektů). Metoda spojení může zase používat několik variant pravidel propojení:

Jednoduché připojení (metoda nejbližšího souseda). V této metodě je vzdálenost mezi dvěma shluky určena vzdáleností mezi dvěma nejbližšími objekty (nejbližšími sousedy) v různých shlucích. To znamená, že jakékoli dva objekty ve dvou shlucích jsou k sobě blíže, než je odpovídající vzdálenost spojení. Toto pravidlo musí v jistém smyslu spojovat objekty dohromady, aby vytvořily shluky, a výsledné shluky bývají reprezentovány dlouhými „řetězci“.

Plné připojení (metoda nejvzdálenějších sousedů). V této metodě jsou vzdálenosti mezi shluky definovány největší vzdáleností mezi libovolnými dvěma objekty v různých shlucích (tj. „nejvzdálenějšími sousedy“).

Existuje také mnoho dalších podobných metod spojení klastrů (např. nevážené párování, vážené párování atd.).

Technologie metody řešení. Výpočet ukazatelů.

V prvním kroku, kdy je každý objekt samostatným shlukem, jsou vzdálenosti mezi těmito objekty určeny zvolenou mírou.

Protože měrné jednotky vlastností nejsou v problému specifikovány, předpokládá se, že se shodují. Počáteční data tedy není potřeba normalizovat, takže ihned přistoupíme k výpočtu matice vzdálenosti.

Řešení problému.

Na základě počátečních dat sestavíme graf závislosti (obr. 2)

Vezměme obvyklou euklidovskou vzdálenost jako vzdálenost mezi objekty. Pak podle vzorce:

kde l - znaky; k - počet prvků, vzdálenost mezi objekty 1 a 2 je:

Pokračujeme ve výpočtu zbývajících vzdáleností:

Ze získaných hodnot sestavíme tabulku:

Nejmenší vzdálenost. To znamená, že prvky 3, 6 a 5 jsou spojeny do jednoho shluku. Dostaneme následující tabulku:

Nejmenší vzdálenost. Do jednoho shluku jsou sloučeny prvky 3, 6, 5 a 4. Získáme tabulku ze dvou shluků:

Minimální vzdálenost mezi prvky 3 a 6 je stejná. To znamená, že prvky 3 a 6 jsou spojeny do jednoho shluku. Volíme maximální vzdálenost mezi nově vytvořeným shlukem a zbytkem prvků. Například vzdálenost mezi shlukem 1 a shlukem 3,6 je max(13,34166, 13,60147)= 13,34166. Udělejme následující tabulku:

V něm je minimální vzdálenost vzdálenost mezi shluky 1 a 2. Spojením 1 a 2 do jednoho shluku dostaneme:

Pomocí metody "dalekého souseda" byly získány dva shluky: 1.2 a 3.4.5.6, jejichž vzdálenost je 13,60147.

Problém je vyřešen.

Aplikace. Řešení problémů pomocí aplikačních balíčků (MS Excel 7.0)

Problém korelační-regresní analýzy.

Počáteční údaje zadáme do tabulky (obr. 1)

Vyberte nabídku „Servis / Analýza dat“. V okně, které se objeví, vyberte řádek "Regrese" (obr. 2).

V dalším okně nastavíme vstupní intervaly pro X a Y, úroveň spolehlivosti ponecháme na 95 % a výstupní data umístíme na samostatný list „Report Sheet“ (obr. 3).

Po výpočtu získáme konečná data regresní analýzy na listu „Report Sheet“:

Zobrazuje také bodový graf aproximační funkce nebo "Výběrový graf":


Vypočtené hodnoty a odchylky jsou zobrazeny v tabulce ve sloupcích „Předpokládané Y“ a „Zbytky“.

Na základě počátečních dat a odchylek se sestaví graf reziduí:

Problém s optimalizací


Počáteční údaje zadáme takto:

Požadované neznámé X1, X2, X3 se zadávají do buněk C9, D9, E9.

Koeficienty účelové funkce na X1, X2, X3 se zadávají do C7, D7, E7, resp.

Cílová funkce se zadává do buňky B11 jako vzorec: =C7*C9+D7*D9+E7*E9.

Stávající omezení úkolu

Pro délku potrubí:

zadejte do buněk C5, D5, E5, F5, G5

Počet jamek v každém poli:

X3 100 GBP; zadáme do buněk C8, D8, E8.

Cena výstavby 1 studny:

zadáme do buněk C6, D6, E6, F6, G6.

Vzorec pro výpočet celkové délky C5*C9+D5*D9+E5*E9 se umístí do buňky B5, vzorec pro výpočet celkových nákladů C6*C9+D6*D9+E6*E9 se umístí do buňky B6.


Vybereme v menu "Nástroje / Hledat řešení", zadáme parametry pro nalezení řešení v souladu se zadanými výchozími údaji (obr. 4):

Kliknutím na tlačítko "Parametry" nastavíme následující parametry pro hledání řešení (obr. 5):


Po vyhledání řešení dostaneme zprávu o výsledcích:

Zpráva o výsledcích aplikace Microsoft Excel 8.0e

Zpráva vytvořena: 17.11.2002 1:28:30

Cílová buňka (maximální)

Výsledek

Celková produkce

Vyměnitelné buňky

Výsledek

Počet studní

Počet studní

Počet studní

Omezení

Význam

Délka

Příbuzný

Náklady na projekt

Nepřipojený.

Počet studní

Nepřipojený.

Počet studní

Příbuzný

Počet studní

Příbuzný

V první tabulce je uvedena počáteční a konečná (optimální) hodnota cílové buňky, ve které je umístěna objektivní funkce řešeného problému. Ve druhé tabulce vidíme počáteční a konečné hodnoty proměnných k optimalizaci, které jsou obsaženy v buňkách, které mají být změněny. Třetí tabulka výsledkové zprávy obsahuje informace o omezeních. Sloupec "Hodnota" obsahuje optimální hodnoty požadovaných zdrojů a optimalizovaných proměnných. Sloupec "Vzorec" obsahuje limity spotřebovaných zdrojů a optimalizované proměnné, zapsané ve formě odkazů na buňky obsahující tato data. Sloupec Stav určuje, zda jsou tato omezení vázána nebo nevázána. Zde jsou „svázány“ omezení implementovaná v optimálním řešení ve formě rigidních rovnosti. Sloupec "Rozdíl" pro limity zdrojů určuje zůstatek použitých zdrojů, tzn. rozdíl mezi požadovaným množstvím zdrojů a jejich dostupností.

Obdobně zápisem výsledku hledání řešení ve formě „Zprávy o udržitelnosti“ získáme následující tabulky:

Zpráva o udržitelnosti aplikace Microsoft Excel 8.0e

Pracovní list: [Optimization problem solution.xls] Řešení problému optimalizace výroby

Zpráva vytvořena: 17. 11. 2002 1:35:16

Vyměnitelné buňky

Dovolený

Dovolený

význam

cena

Součinitel

Zvýšit

Pokles

Počet studní

Počet studní

Počet studní

Omezení

Omezení

Dovolený

Dovolený

význam

Pravá část

Zvýšit

Pokles

Délka

Náklady na projekt

Zpráva o stabilitě obsahuje informace o proměnných (optimalizovaných) proměnných a modelových omezeních. Tyto informace se vztahují k simplexní metodě používané při optimalizaci lineárních úloh, popsané výše z hlediska řešení úlohy. Umožňuje vyhodnotit, jak citlivé je výsledné optimální řešení na případné změny parametrů modelu.

První část sestavy obsahuje informace o proměnných buňkách obsahujících hodnoty o počtu jamek v polích. Sloupec "Výsledná hodnota" označuje optimální hodnoty proměnných, které mají být optimalizovány. Sloupec "Cílový koeficient" obsahuje počáteční data hodnot koeficientů cílové funkce. Následující dva sloupce ilustrují povolené zvýšení a snížení těchto koeficientů beze změny nalezeného optimálního řešení.

Druhá část zprávy o stabilitě obsahuje informace o omezeních kladených na optimalizované proměnné. První sloupec uvádí požadavky na zdroje pro optimální řešení. Druhý obsahuje hodnoty stínových cen pro typy použitých zdrojů. Poslední dva sloupce obsahují údaje o možném zvýšení nebo snížení množství dostupných zdrojů.

problém shlukování.

Postup řešení problému krok za krokem je uveden výše. Zde jsou tabulky Excelu ilustrující postup řešení problému:

"metoda nejbližšího souseda"

Řešení problému shlukové analýzy - "METODA NEJBLIŽŠÍHO SOUSE"

Počáteční údaje

kde x1 je objem výstupu;

x2 - průměrné roční náklady na hlavní

Fondy průmyslové výroby

"metoda vzdáleného souseda"

Řešení problému shlukové analýzy - "METODA FAR NEIGHBOR"

Počáteční údaje

kde x1 je objem výstupu;

x2 - průměrné roční náklady na hlavní

Fondy průmyslové výroby