Beta distribuce. Aproximace zákona rozdělení součtu náhodných veličin rozdělených podle zákona beta Generování náhodných čísel a odhad parametrů

Zvažte rozdělení beta, vypočítejte jeho matematické očekávání, rozptyl a režim. Pomocí funkce MS EXCEL BETA.DIST () vyneseme grafy distribuční funkce a hustoty pravděpodobnosti. Pojďme vygenerovat pole náhodná čísla a odhadnout distribuční parametry.

Beta distribuceBeta- rozdělení) závisí na 2 parametrech: α ( alfa) > 0(určuje tvar rozvodu) a b (beta)> 0(určuje měřítko).

Na rozdíl od mnoha jiných spojitých distribucí, rozsah variace náhodné proměnné má Beta distribuce, je omezena segmentem. Mimo tento segment hustota distribuce rovná se 0. Hranice tohoto segmentu jsou stanoveny výzkumníkem v závislosti na problému. Pokud A = 0 a B = 1, pak takové Beta distribuce nazývaný standardní.

Beta distribuce má označení Beta(alfa; beta).

Poznámka: Pokud parametry alfa a beta= 1, tedy Beta distribuce promění v, tzn. Beta (1; 1; A; B) = U (A; B).

Obecně distribuční funkce nelze vyjádřit v elementárních funkcích, proto se počítá numerickými metodami např. pomocí funkce MS EXCEL BETA.DIST ().

Poznámka: Pro usnadnění zápisu vzorců do vzorového souboru pro distribuční parametry alfa a beta odpovídající.

Vzorový soubor obsahuje také grafy hustota pravděpodobnosti a distribuční funkce s vyznačenými hodnotami střední, a .

Generování náhodných čísel a odhad parametrů

Použitím inverzní distribuční funkce(nebo kvantilové hodnoty ( p- kvantil), viz) můžete generovat hodnoty náhodné proměnné Beta distribuce... Chcete-li to provést, musíte použít vzorec:

BETA.OBR (RAND (); alfa; beta; A; B)

RADA: Protože náhodná čísla jsou generována pomocí funkce RAND () a poté stisknutím klávesy F9 je možné získat pokaždé nový vzorek a tím i nový odhad parametrů.

Funkce RAND () generuje od 0 do 1, což přesně odpovídá rozsahu variace pravděpodobnosti (viz. příklad generování listu souboru).

Nyní máme pole náhodných čísel vygenerovaných s danými distribučními parametry alfa a beta(ať je jich 200), odhadněme distribuční parametry.

Odhad parametrů alfa a beta lze vyřídit s metoda momentů(předpokládá se, že parametry A a B jsou známé):

Jaká je myšlenka pravděpodobnostního uvažování?

První, nejpřirozenější krok v pravděpodobnostním uvažování je následující: pokud máte proměnnou, která nabývá hodnot náhodně, pak byste rádi věděli, s jakou pravděpodobnostmi tato proměnná nabývá určitých hodnot. Kombinace těchto pravděpodobností je přesně to, co určuje rozdělení pravděpodobnosti. Například s kostkou můžete a priori předpokládat, že se stejnou pravděpodobností 1/6 dopadne na jakoukoli hranu. A to se děje za podmínky, že kost je symetrická. Pokud je kost asymetrická, pak je možné na základě experimentálních dat určit vysoké pravděpodobnosti pro ty tváře, které vypadávají častěji, a nižší pravděpodobnost pro ty tváře, které vypadávají méně často. Pokud nějaká hrana vůbec nevypadne, pak jí lze přiřadit pravděpodobnost 0. Toto je nejjednodušší zákon pravděpodobnosti, kterým lze popsat výsledky hodu kostkou. Jde samozřejmě o extrémně jednoduchý příklad, ale podobné problémy nastávají například u pojistně-matematických výpočtů, kdy se reálné riziko počítá na základě reálných dat při vystavení pojistky.

V této kapitole se podíváme na nejčastější pravděpodobnostní zákony v praxi.

Tato rozdělení lze snadno vykreslit ve STATISTICE.

Normální distribuce

Normální rozdělení pravděpodobnosti se zvláště běžně používá ve statistice. Normální rozdělení poskytuje dobrý model pro jevy v reálném světě, ve kterých:

1) existuje silná tendence k shlukování dat kolem středu;

2) kladné a záporné odchylky od středu jsou stejně pravděpodobné;

3) frekvence odchylek rychle klesá, když jsou odchylky od středu velké.

Mechanismus normálního rozdělení, vysvětlený pomocí takzvaného centrálního limitního teorému, lze obrazně popsat následovně. Představte si, že máte částice pylu, které jste náhodně vhodili do sklenice s vodou. Při pohledu na jednotlivou částici pod mikroskopem uvidíte úžasný jev – částice se pohybuje. To se samozřejmě děje proto, že se molekuly vody pohybují a přenášejí svůj pohyb na částice suspendovaného pylu.

Ale jak přesně pohyb probíhá? Zde je zajímavější otázka. A tento pohyb je velmi bizarní!

Na jednotlivé částice pylu existuje nekonečné množství nezávislých vlivů v podobě dopadů molekul vody, které způsobí, že se částice pohybuje po velmi podivné trajektorii. Pod mikroskopem tento pohyb připomíná opakovaně a chaoticky přerušovanou čáru. Tyto zlomy nelze předvídat, není v nich žádná pravidelnost, která přesně odpovídá chaotickým srážkám molekul na částici. Suspendovaná částice, která v náhodném časovém okamžiku zažila dopad molekuly vody, změní svůj směr pohybu, pak se nějakou dobu pohybuje setrvačností, pak znovu spadne pod dopad další molekuly a tak dále. Ve sklenici vody je úžasný kulečníkový stůl!

Protože pohyb molekul má náhodný směr a rychlost, velikost a směr zlomů v trajektorii jsou také zcela náhodné a nepředvídatelné. Tento úžasný jev, nazývaný Brownův pohyb, objevený v 19. století, nás nutí přemýšlet o mnoha věcech.

Pokud zavedeme vhodný systém a označíme souřadnice částice v některých okamžicích, pak dostaneme normální zákon. Přesněji řečeno, posuny pylové částice vznikající při dopadu molekul se budou řídit normálním zákonem.

Poprvé byl pohybový zákon takové částice, nazývaný Brownian, popsán na fyzické úrovni přísnosti A. Einsteinem. Pak Lenjevan vyvinul jednodušší a intuitivnější přístup.

Matematici 20. století se této teorii věnovali nejlepší stránky, a první krok byl učiněn před 300 lety, kdy byla objevena nejjednodušší verze centrální limitní věty.

V teorii pravděpodobnosti centrální limitní věta, původně známá ve formulaci Moivreho a Laplacea již v 17. století jako rozvinutí slavného zákona velkých čísel od J. Bernoulliho (1654-1705) (viz J. Bernoulli (1713). ), Ars Conjectandi), je nyní extrémně rozvinutá a dosáhla svých vrcholů. v moderním principu invariance, na jehož vzniku sehrála podstatnou roli ruská matematická škola. Právě v tomto principu nachází pohyb Brownovy částice své přesné matematické vysvětlení.

Myšlenka je taková, že sečtením velkého počtu nezávislých veličin (dopadů molekul na částice pylu) za určitých rozumných podmínek se získají právě ty normálně rozložené veličiny. A to se děje nezávisle, tedy invariantně, na rozložení počátečních hodnot. Jinými slovy, pokud je proměnná ovlivněna mnoha faktory, tyto vlivy jsou nezávislé, relativně malé a vzájemně se sčítají, pak má výsledná hodnota normální rozdělení.

Například o hmotnosti člověka rozhoduje téměř nekonečné množství faktorů (tisíce genů, predispozice, nemoci atd.). Lze tedy očekávat normální rozložení hmotnosti v populaci všech lidí.

Pokud jste finančník a hrajete na burze, pak samozřejmě znáte případy, kdy se ceny akcií chovají jako Brownovy částice a zažívají chaotické dopady mnoha faktorů.

Formálně je hustota normálního rozdělení zapsána takto:

kde a a x 2 jsou parametry zákona interpretované jako střední hodnota a rozptyl dané náhodné veličiny (vzhledem ke speciální úloze normálního rozdělení použijeme pro označení její hustotní funkce a rozdělení speciální označení funkce). Vizuálně je graf normální hustoty slavná křivka ve tvaru zvonu.

Odpovídající distribuční funkce normální náhodné veličiny (a, x 2) se značí Ф (x; a, x 2) a je dána vztahem:

Normální zákon s parametry a = 0 a x 2 = 1 se nazývá standardní.

Inverzní standardní funkce normálního rozdělení aplikovaná na z, 0

K výpočtu z z x a naopak použijte pravděpodobnostní kalkulačku STATISTICA.

Základní charakteristiky normálního zákona:

Průměr, modus, medián: E = x mod = x med = a;

Disperze: D = х 2;

Asymetrie:

Přebytek:

Ze vzorců je vidět, že normální rozdělení je popsáno dvěma parametry:

a - průměr - průměr;

õ - standardní odchylka - standardní odchylka, čti: "sigma".

Někdy s směrodatná odchylka se nazývá směrodatná odchylka, ale to je již zastaralá terminologie.

Zde jsou některá užitečná fakta o normálním rozdělení.

Průměr určuje míru distribuce hustoty. Normální hustota distribuce je symetrická ke střední hodnotě. Střední hodnota normálního rozdělení se shoduje s mediánem a modusem (viz grafy).

Hustota normálního rozdělení s rozptylem 1 a průměrem 1

Hustota normálního rozdělení se střední hodnotou 0 a rozptylem 0,01

Hustota normálního rozdělení se střední hodnotou 0 a rozptylem 4

S nárůstem rozptylu se hustota normální distribuce šíří nebo šíří podél osy OX, s poklesem rozptylu se naopak smršťuje a soustředí se kolem jednoho bodu - bodu maximální hodnoty, který se shoduje se střední hodnotou. hodnota. V limitujícím případě nulového rozptylu náhodná hodnota degeneruje a nabývá jediné hodnoty rovné průměru.

Je užitečné znát 2- a 3-sigma nebo 2- a 3- standardní odchylky, pravidla, která jsou spojena s normálním rozdělením a používají se v různých aplikacích. Význam těchto pravidel je velmi jednoduchý.

Pokud jsou dvě a tři směrodatné odchylky (2- a 3-sigma) nastaveny doprava a doleva od středního bodu nebo, což je stejné, od bodu maximální hustoty normálního rozdělení, pak plocha pod graf normální hustoty vypočítaný přes tento interval bude roven 95,45 % a 99,73 % celé plochy pod grafem (zkontrolujte na pravděpodobnostním kalkulátoru STATISTICA!).

Jinými slovy, lze to vyjádřit takto: 95,45 % a 99,73 % všech nezávislých pozorování od normální populace, například velikost dílu nebo cena akcie, leží v pásmu 2- a 3- standardních odchylek. od průměru.

Rovnoměrná distribuce

Jednotné rozdělení je užitečné při popisu proměnných, ve kterých je každá hodnota stejně pravděpodobná, jinými slovy, hodnoty proměnné jsou v určité oblasti rovnoměrně rozloženy.

Níže jsou uvedeny vzorce hustoty a distribuční funkce jednotné náhodné proměnné nabývající hodnot na intervalu [a, b].

Z těchto vzorců je snadné pochopit, že pravděpodobnost, že jednotná náhodná proměnná bude nabývat hodnot z množiny [c, d] [a, b] se rovná (d - c) / (b - a).

Vložili jsme a = 0, b = 1. Níže je uveden graf jednotné hustoty pravděpodobnosti se středem na segment.

Číselné charakteristiky jednotného zákona:

Exponenciální rozdělení

Existují události, které lze v běžném jazyce označit za vzácné. Jestliže T je doba mezi začátkem vzácných událostí vyskytujících se v průměru s intenzitou X, pak hodnota
T má exponenciální rozdělení s parametrem (lambda). Exponenciální rozdělení se často používá k popisu intervalu mezi po sobě jdoucími náhodnými událostmi, jako je interval mezi návštěvami neoblíbeného webu, protože tyto návštěvy jsou vzácné.

Tato distribuce má velmi zajímavou vlastnost absence následného účinku, nebo, jak se říká, Markovova vlastnost, na počest slavného ruského matematika A.A. Markova, což lze vysvětlit následovně. Pokud je rozložení mezi okamžiky výskytu některých událostí orientační, pak se rozložení počítá od libovolného okamžiku t až do další události má také exponenciální rozdělení (se stejným parametrem).

Jinými slovy, u proudu vzácných událostí je doba čekání na dalšího návštěvníka vždy rozložena exponenciálně, bez ohledu na to, jak dlouho na něj již čekáte.

Exponenciální rozdělení je spojeno s Poissonovým rozdělením: v jednotkovém časovém intervalu má počet událostí, mezi kterými jsou intervaly nezávislé a exponenciálně rozdělené, Poissonovo rozdělení. Pokud mají intervaly mezi návštěvami stránek exponenciální rozložení, pak se počet návštěv, například během hodiny, rozdělí podle Poissonova zákona.

Exponenciální rozdělení je speciální případ Weibullova rozdělení.

Pokud čas není spojitý, ale diskrétní, pak analogem exponenciálního rozdělení je geometrické rozdělení.

Hustota exponenciálního rozdělení je popsána vzorcem:

Toto rozdělení má pouze jeden parametr, který určuje jeho vlastnosti.

Graf exponenciální distribuce hustoty má tvar:

Základní číselné charakteristiky exponenciálního rozdělení:

Erlangova distribuce

Tato spojitá distribuce je soustředěna na (0,1) a má hustotu:

Matematické očekávání a rozptyl jsou stejné

Distribuce Erlang je pojmenována po A. Erlangovi, který ji poprvé aplikoval na problémy v teorii front a telefonování.

Erlangovo rozdělení s parametry µ a n je rozdělení součtu n nezávislých, identicky rozdělených náhodných veličin, z nichž každá má exponenciální rozdělení s parametrem nµ

Na Erlangovo rozdělení n = 1 je stejné jako exponenciální nebo exponenciální rozdělení.

Laplaceova distribuce

Funkce hustoty Laplaceova rozdělení, nebo, jak se také nazývá, dvojitá exponenciála, se používá například k popisu rozdělení chyb v regresních modelech. Když se podíváte na graf tohoto rozdělení, uvidíte, že se skládá ze dvou exponenciálních rozdělení, symetrických podle osy OY.

Pokud je parametr pozice 0, pak má Laplaceova funkce hustoty rozložení tvar:

Hlavní numerické charakteristiky tohoto distribučního zákona, za předpokladu, že parametr pozice je nulový, jsou následující:

V obecném případě má Laplaceova distribuční hustota tvar:

a je střední hodnota rozdělení; b je parametr měřítka; e je Eulerovo číslo (2,71 ...).

Gamma distribuce

Hustota exponenciálního rozdělení má mód v bodě 0, což je někdy pro praktické aplikace nepohodlné. V mnoha příkladech je předem známo, že režim uvažované náhodné veličiny není roven 0, například intervaly mezi nakupujícími přicházejícími do e-shopu nebo návštěvou stránky mají výrazný režim. K simulaci takových událostí se používá gama distribuce.

Hustota gama distribuce je následující:

kde Γ je Eulerova Γ-funkce, a> 0 je parametr "tvaru" a b> 0 je parametr měřítka.

V konkrétním případě máme Erlangovo rozdělení a exponenciální rozdělení.

Hlavní charakteristiky gama distribuce:

Níže jsou uvedeny dva grafy hustoty gama s parametrem měřítka 1 a parametry tvaru 3 a 5.

Užitečná vlastnost gama distribuce: součet libovolného počtu nezávislých gama distribuovaných náhodných proměnných (se stejným měřítkovým parametrem b)

(a l, b) + (a 2, b) + --- + (a n, b) se také řídí gama rozdělením, ale s parametry a 1 + a 2 + + a n a b.

Lognormální rozdělení

Náhodná veličina h se nazývá logaritmicko-normální nebo logaritmicky normální, pokud její přirozený logaritmus (lnh) odpovídá zákonu normálního rozdělení.

Lognormální rozdělení se využívá například při modelování proměnných jako je příjem, věk novomanželů nebo tolerance z normy na škodlivé látky v potravinách.

Pokud tedy množství x má normální rozdělení, pak množství y = e x má lognormální rozdělení.

Pokud do exponenciální mocniny dosadíte normální hodnotu, snadno pochopíte, že lognormální hodnota je získána jako výsledek vícenásobného násobení nezávislých proměnných, stejně jako normální náhodná veličina je výsledkem vícenásobného součtu.

Hustota lognormálního rozdělení je:

Hlavní charakteristiky lognormálního rozdělení jsou:

Chi-kvadrát distribuce

Součet čtverců m nezávislých normálních hodnot se střední hodnotou 0 a rozptylem 1 má rozdělení chí-kvadrát s m stupni volnosti. Toto rozdělení se nejčastěji používá při analýze dat.

Formálně má hustota dobře čtvercového rozdělení s m stupni volnosti tvar:

S negativním hustota x se změní na 0.

Hlavní numerické charakteristiky rozdělení chí-kvadrát jsou:

Graf hustoty je znázorněn na obrázku níže:

Binomické rozdělení

Binomické rozdělení je nejdůležitější diskrétní rozdělení, které je soustředěno pouze v několika bodech. Binomické rozdělení přiřazuje těmto bodům kladné pravděpodobnosti. Tím se binomické rozdělení liší od spojitých rozdělení (normální, chí-kvadrát atd.), která přiřazují samostatně vybraným bodům nulové pravděpodobnosti a nazývají se spojitá.

Binomické rozdělení můžete lépe pochopit, když se podíváte na následující hru.

Představte si, že si hodíte mincí. Pravděpodobnost vypadnutí z erbu budiž p a pravděpodobnost získání ocasů je q = 1 - p (za nejobecnější považujeme případ, kdy je mince asymetrická, má např. posunuté těžiště - do mince se udělá díra).

Pád erbu se považuje za úspěch a pád ocasu za neúspěch. Potom má počet shozených erbů (nebo ocasů) binomické rozdělení.

Všimněte si, že zvažování asymetrických mincí nebo nepravidelných kostek je praktické. Jak poznamenal J. Neumann ve své elegantní knize Introductory Course in Probability Theory and Mathematical Statistics, lidé již dlouho tušili, že frekvence padajících bodů na kostce závisí na vlastnostech této kostky samotné a lze ji uměle měnit. Archeologové našli ve faraonově hrobce dva páry kostí: „poctivé“ – se stejnou pravděpodobností vypadnutí všech stran, a falešné – se záměrným posunutím těžiště, což zvýšilo pravděpodobnost vypadnutí šestek.

Parametry binomického rozdělení jsou pravděpodobnost úspěchu p (q = 1 - p) a počet testů n.

Binomické rozdělení je užitečné pro popis rozdělení binomických událostí, jako je počet mužů a žen v náhodně vybraných společnostech. Zvláště důležité je použití binomického rozdělení v herních úlohách.

Přesný vzorec pro pravděpodobnost t úspěchů v n testů se píše takto:

p-pravděpodobnost úspěchu

q se rovná 1-p, q> = 0, p + q == 1

n- počet testů, m = 0,1 ... m

Hlavní charakteristiky binomického rozdělení:

Graf tohoto rozdělení pro různý počet pokusů n a pravděpodobnosti úspěchu p má tvar:

Binomické rozdělení souvisí s normálním rozdělením a Poissonovým rozdělením (viz níže); při určitých hodnotách parametrů s velkým počtem testů přechází do těchto distribucí. To lze snadno demonstrovat pomocí STATISTICA.

Například uvážíme-li graf binomického rozdělení s parametry p = 0,7, n = 100 (viz obrázek), použili jsme STATISTICA BASIC - můžete si všimnout, že graf je velmi podobný hustotě normálního rozdělení (opravdu je!).

Graf binomického rozdělení s parametry p = 0,05, n = 100 je velmi podobný grafu Poissonova rozdělení.

Jak již bylo zmíněno, binomické rozdělení vzešlo z pozorování nejjednodušší hazardní hry – házení správné mince. V mnoha situacích tento model slouží jako dobrá první aproximace pro složitější hry a náhodné procesy, které vznikají při hraní na burze. Je pozoruhodné, že základní rysy mnoha složitých procesů lze pochopit z jednoduchého binomického modelu.

Zvažte například následující situaci.

Označme pád erbu 1 a pád ocasu - mínus 1 a shrneme zisky a ztráty v po sobě jdoucích okamžicích. Grafy ukazují typické trajektorie takové hry s 1 000 hody, 5 000 hody a 10 000 hody. Věnujte pozornost tomu, jak dlouho je trajektorie nad nebo pod nulou, jinými slovy, doba, po kterou jeden z hráčů vyhrává v naprosto férové hře, je velmi dlouhá a přechody z výhry do prohry jsou poměrně vzácné, a to je těžko zapadnout.v nepřipravené mysli, pro kterou zní výraz „naprosto férová hra“ jako kouzelné zaklínadlo. Takže ačkoli je hra za daných podmínek spravedlivá, chování typické trajektorie není vůbec spravedlivé a nevykazuje rovnováhu!

Empiricky je tato skutečnost samozřejmě známa všem hráčům, je s ní spojena strategie, kdy hráč nesmí odejít s výhrou, ale je nucen hrát dále.

Zvažte počet hodů, během kterých jeden hráč vyhraje (dráha nad 0) a druhý prohraje (dráha pod 0). Na první pohled se zdá, že počet takových hodů je přibližně stejný. Nicméně (viz vzrušující kniha: Feller V. „Úvod do teorie pravděpodobnosti a její aplikace.“ Moskva: Mir, 1984, s. 106) s 10 000 hody ideální mincí (tj. p = q = 0,5, n = 10 000) pravděpodobnost, že jedna ze stran povede více než 9 930 pokusů a druhá - méně než 70, přesahuje 0,1.

Překvapivě, ve hře 10 000 hodů správnou mincí je pravděpodobnost, že se vedení nezmění více než 8krát, větší než 0,14 a pravděpodobnost více než 78 změn vedení je přibližně 0,12.

Máme tedy paradoxní situaci: v Bernoulliho symetrické chůzi mohou být „vlny“ na grafu mezi po sobě jdoucími nulovými výnosy (viz grafy) překvapivě dlouhé. S tím souvisí další okolnost, totiž že pro T n / n (část času, kdy je graf nad osou úsečky), nejméně pravděpodobné hodnoty jsou blízké 1/2.

Matematici objevili takzvaný arcsinusový zákon, podle kterého pro každou 0< а <1 вероятность неравенства , где Т n - число шагов, в течение которых первый игрок находится в выигрыше, стремится к

Distribuce arksinus

Tato spojitá distribuce je soustředěna na interval (0, 1) a má hustotu:

Inverzní sinusové rozložení je spojeno s náhodnou procházkou. Toto je rozložení podílu času, během kterého první hráč vyhrává, když hází symetrickou mincí, tedy mincí, která má stejnou pravděpodobnost S padá na erb a ocasy. Jiným způsobem lze na takovou hru nahlížet jako na náhodnou procházku částice, která počínaje nulou provádí skoky jednotek doprava nebo doleva se stejnou pravděpodobností. Vzhledem k tomu, že skoky částice - vzhled erbu nebo ocasu - jsou stejně pravděpodobné, je taková chůze často nazývána symetrická. Pokud by se pravděpodobnosti lišily, pak bychom měli asymetrickou chůzi.

Graf hustoty distribuce arcsinusu je znázorněn na následujícím obrázku:

Nejzajímavější je kvalitní interpretace grafu, ze které lze vyvodit úžasné závěry o sérii výher a sérii proher ve férové hře. Při pohledu na graf můžete vidět, že v bodě je minimum hustoty 1/2. "Tak co?!" - ptáš se. Pokud se ale nad tímto postřehem zamyslíte, pak se vašemu překvapení meze nekladou! Ukazuje se, že když je hra definována jako férová, ve skutečnosti není tak férová, jak by se na první pohled mohlo zdát.

Trajektorie symetrické náhodné, ve které částice stráví stejný čas jak na kladné, tak na záporné poloose, tedy vpravo nebo vlevo od nuly, jsou právě nejméně pravděpodobné. Když přejdeme k řeči hráčů, můžeme říci, že při házení symetrické mince jsou nejméně pravděpodobné hry, ve kterých mají hráči stejný čas na výhru i prohru.

Naopak nejpravděpodobnější jsou hry, ve kterých jeden hráč výrazně častěji vyhraje, respektive druhý prohraje. Úžasný paradox!

Vypočítat pravděpodobnost, že zlomek času t, během kterého první hráč vyhraje, leží v rozmezí od t1 to t2, je nutné z hodnoty distribuční funkce F (t2) odečtěte hodnotu distribuční funkce F (t1).

Formálně dostáváme:

P (t1

Na základě této skutečnosti je možné pomocí STATISTICA vypočítat, že při 10 000 krocích zůstává částice na kladné straně více než 9930 časových okamžiků s pravděpodobností 0,1, tedy zhruba řečeno, taková situace bude pozorována minimálně v jeden případ z deseti. (i když se to na první pohled zdá absurdní; viz pozoruhodně jasná poznámka Yu. V. Prochorova „Bernoulliho procházka“ v encyklopedii „Pravděpodobnost a matematická statistika“, str. 42-43, Moskva: Velká ruská encyklopedie, 1999) ...

Negativní binomické rozdělení

Jedná se o diskrétní rozdělení, které se přiřazuje k celým bodům k = 0,1,2, ... pravděpodobnosti:

p k = P (X = k) = C k r + k-1 p r (l-p) k ", kde 0<р<1,r>0.

Záporné binomické rozdělení se nachází v mnoha aplikacích.

Obecně r> 0 záporné binomické rozdělení je interpretováno jako rozdělení doby čekání na r-tý „úspěch“ v Bernoulliho testovacím schématu s pravděpodobností „úspěchu“ p, například počet hodů, které mají být provedeny před odhozením druhého erbu, v takovém případě se někdy nazývá Pascalovo rozdělení a je diskrétní obdobou rozdělení gama.

Na r = 1 záporné binomické rozdělení se shoduje s geometrickým rozdělením.

Pokud Y je náhodná proměnná s Poissonovým rozdělením s náhodným parametrem, který má zase gama rozdělení s hustotou

Pak bude mít Ub záporné binomické rozdělení s parametry;

Poissonovo rozdělení

Poissonova distribuce je někdy označována jako distribuce vzácných událostí. Příklady proměnných rozdělených podle Poissonova zákona jsou: počet nehod, počet vad ve výrobním procesu atd. Poissonovo rozdělení je určeno vzorcem:

Hlavní charakteristiky Poissonovy náhodné veličiny:

Poissonovo rozdělení souvisí s exponenciálním rozdělením a Bernoulliho rozdělením.

Pokud má počet událostí Poissonovo rozdělení, pak intervaly mezi událostmi mají exponenciální nebo exponenciální rozdělení.

Poissonův distribuční graf:

Porovnejte graf Poissonova rozdělení s parametrem 5 s grafem Bernoulliho rozdělení při p = q = 0,5, n = 100.

Uvidíte, že grafy jsou si velmi podobné. V obecném případě existuje následující vzorec (viz např. vynikající kniha: Shiryaev AN „Pravděpodobnost.“ Moskva: Nauka, str. 76): jestliže v Bernoulliho testech n nabývá velkých hodnot a pravděpodobnost úspěchu / ? je relativně malý, takže průměrný počet úspěchů (součin a bp) není malý ani velký, pak lze Bernoulliho rozdělení s parametry n, p nahradit Poissonovým rozdělením s parametrem = np.

Poissonovo rozdělení je v praxi hojně využíváno např. v grafech kontroly kvality jako rozdělení vzácných událostí.

Jako další příklad uvažujme následující problém týkající se telefonních linek a převzatý z praxe (viz: Feller V. Úvod do teorie pravděpodobnosti a jejích aplikací. Moskva: Mir, 1984, s. 205, a také Molina E. S. (1935) Pravděpodobnost ve strojírenství, Elektrotechnika, 54, str. 423-427, Bell Telephone System Technical Publications Monografie B-854). Tento úkol lze snadno přeložit do moderního jazyka, například do jazyka mobilních komunikací, k čemuž jsou vyzýváni čtenáři, kteří mají zájem.

Problém je formulován následovně. Nechť jsou dvě telefonní ústředny - A a B.

Telefonní stanice A musí zajistit komunikaci 2000 účastníků se stanicí B. Kvalita komunikace musí být taková, aby pouze 1 hovor ze 100 čekal na uvolnění linky.

Otázka zní: kolik telefonních linek je potřeba položit, aby byla zajištěna daná kvalita komunikace? Je zřejmé, že je hloupost vytvořit 2000 řádků, protože mnoho z nich bude na dlouhou dobu zdarma. Z intuitivních úvah je zřejmé, že zjevně existuje nějaký optimální počet řádků N. Jak toto číslo vypočítat?

Začněme realistickým modelem, který popisuje intenzitu přístupu účastníka k síti, přičemž si uvědomme, že přesnost modelu lze samozřejmě kontrolovat pomocí standardních statistických kritérií.

Předpokládejme tedy, že každý účastník používá linku v průměru 2 minuty za hodinu a účastnická připojení jsou nezávislá (avšak, jak správně poznamenává Feller, k tomu druhému dochází, pokud nenastanou žádné události, které by postihly všechny účastníky, například válka nebo hurikán).

Máme pak 2000 Bernoulliho pokusů (hození mincí) nebo síťových připojení s úspěšností p = 2/60 = 1/30.

Takové N musíte najít, když pravděpodobnost, že více než N uživatelů je současně připojeno k síti, nepřekročí 0,01. Tyto výpočty lze jednoduše řešit v systému STATISTICA.

Řešení problému na STATISTICE.

Krok 1. Otevřete modul Základní statistiky... Vytvořte soubor binoml.sta obsahující 110 pozorování. Pojmenujte první proměnnou BINOMICKÝ, druhá proměnná je JED.

Krok 2. BINOMICKÝ, Otevřete okno Proměnná 1(viz obr.). Zadejte vzorec do okna, jak je znázorněno na obrázku. Klepněte na tlačítko OK.

Krok 3 Dvojitým kliknutím na nadpis JED, Otevřete okno Proměnná 2(viz obr.)

Zadejte vzorec do okna, jak je znázorněno na obrázku. Všimněte si, že pomocí vzorce počítáme parametr Poissonova rozdělení = n × p. Tedy = 2000 × 1/30. Klepněte na tlačítko OK.

STATISTICA spočítá pravděpodobnosti a zapíše je do vygenerovaného souboru.

Krok 4 Procházejte vytvořenou tabulkou k případům očíslovaným 86. Uvidíte, že pravděpodobnost, že 86 nebo více z 2000 uživatelů sítě pracuje současně po dobu jedné hodiny, je 0,01347, pokud se použije binomické rozdělení.

Pravděpodobnost, že 86 nebo více lidí z 2 000 uživatelů sítě pracuje současně hodinu, je 0,01293 při použití Poissonovy aproximace pro binomické rozdělení.

Protože potřebujeme pravděpodobnost ne větší než 0,01, bude k zajištění požadované kvality komunikace stačit 87 řádků.

Podobné výsledky lze získat použitím normální aproximace pro binomické rozdělení (ověřte si to!).

Všimněte si, že V. Feller neměl k dispozici systém STATISTICA a používal tabulky pro binomické a normální rozdělení.

Za použití stejné úvahy lze vyřešit následující problém, o kterém hovořil W. Feller. Při rozdělení do 2 skupin po 1000 lidech je nutné prověřit, zda bude ke spolehlivé obsluze uživatelů potřeba více či méně linek.

Ukazuje se, že rozdělení uživatelů do skupin bude vyžadovat dalších 10 řádků, aby bylo dosaženo stejné úrovně kvality.

Zohlednit můžete i změnu intenzity připojení k síti během dne.

Geometrické rozložení

Pokud se provádějí nezávislé Bernoulliho testy a počet testů se počítá až do dalšího „úspěchu“, pak má toto číslo geometrické rozdělení. Pokud tedy hodíte mincí, počet hodů, které musíte provést, než vypadne další erb, se řídí geometrickým zákonem.

Geometrické rozdělení je určeno vzorcem:

F (x) = p (1-p) x-1

p je pravděpodobnost úspěchu, x = 1, 2,3 ...

Název distribuce je spojen s geometrickou progresí.

Geometrické rozdělení tedy nastavuje pravděpodobnost, že úspěch přišel v určitém kroku.

Geometrické rozdělení je diskrétní analogií exponenciálního rozdělení. Pokud se čas mění v kvantech, pak pravděpodobnost úspěchu v každém časovém okamžiku popisuje geometrický zákon. Pokud je čas spojitý, pak je pravděpodobnost popsána exponenciálním nebo exponenciálním zákonem.

Hypergeometrické rozložení

Toto je diskrétní rozdělení pravděpodobnosti náhodné proměnné X nabývající celočíselných hodnot m = 0, 1,2, ..., n s pravděpodobnostmi:

kde N, M a n jsou nezáporná celá čísla a M< N, n < N.

Hypergeometrické rozdělení je obvykle spojeno s volbou bez recidivy a určuje např. pravděpodobnost nalezení přesně m černých kuliček v náhodném vzorku velikosti n z obecné populace obsahující N kuliček, včetně M černých a N - M bílých (viz. , například encyklopedie „Pravděpodobnost a matematická statistika“, Moskva: Velká ruská encyklopedie, str. 144).

Matematické očekávání hypergeometrického rozdělení nezávisí na N a shoduje se s matematickým očekáváním µ = np odpovídajícího binomického rozdělení.

Disperze hypergeometrického rozdělení nepřesahuje rozptyl binomického rozdělení npq. Pro momenty libovolného řádu má hypergeometrické rozdělení tendenci k odpovídajícím hodnotám momentů binomického rozdělení.

Tato distribuce je extrémně běžná v úlohách kontroly kvality.

Polynomiální rozdělení

Polynomiální nebo vícečlenné rozdělení přirozeně zobecňuje rozdělení. Pokud k binomickému rozdělení dojde, když se hází mincí se dvěma výsledky (mřížka nebo erb), pak k polynomickému rozdělení dojde při hodu kostkou a jsou více než dva možné výsledky. Formálně se jedná o společné rozdělení pravděpodobnosti náhodných proměnných X 1, ..., X k, nabývající celočíselných nezáporných hodnot n 1, ..., nk, splňujících podmínku n 1 + ... + nk = n, s pravděpodobnostmi:

Název "rozdělení polynomů" se vysvětluje tím, že mnohočlenné pravděpodobnosti vznikají při expanzi polynomu (p 1 + ... + p k) n

Beta distribuce

Distribuce beta má hustotu tvaru:

Standardní distribuce beta je soustředěna v rozsahu od 0 do 1. Aplikací lineárních transformací lze hodnotu beta transformovat tak, že bude nabývat hodnot v jakémkoli rozsahu.

Hlavní číselné charakteristiky veličiny s beta rozdělením:

Rozdělení extrémních hodnot

Rozložení extrémních hodnot (typ I) má hustotu tvaru:

Toto rozdělení je někdy také označováno jako extrémní rozdělení.

Distribuce extrémních hodnot se používá k modelování extrémních událostí, jako jsou úrovně povodní, rychlosti vírů, maximum indexů akciového trhu pro daný rok atd.

Toto rozdělení se používá v teorii spolehlivosti například k popisu doby selhání elektrických obvodů a také v pojistně matematických výpočtech.

Rayleighova distribuce

Rayleighovo rozdělení má hustotu tvaru:

kde b je parametr měřítka.

Rayleighovo rozdělení je soustředěno v rozsahu od 0 do nekonečna. Místo 0 vám STATISTICA umožňuje zadat jinou hodnotu prahového parametru, která bude odečtena od původních dat před přizpůsobením Rayleighova rozdělení. Hodnota prahového parametru by proto měla být menší než všechny pozorované hodnoty.

Pokud jsou dvě proměnné y 1 a y 2 na sobě nezávislé a jsou normálně rozděleny se stejným rozptylem, pak proměnná bude mít distribuci Rayleigh.

Rayleighovo rozdělení se používá např. v teorii střelby.

Weibullova distribuce

Weibullova distribuce je pojmenována po švédském výzkumníkovi Waloddi Weibullovi, který tuto distribuci použil k popisu různých typů poruchových dob v teorii spolehlivosti.

Formálně je hustota Weibullova rozdělení zapsána ve tvaru:

Někdy je hustota Weibullova rozdělení také zapsána ve tvaru:

B je parametr měřítka;

С - parametr tvaru;

E je Eulerova konstanta (2,718 ...).

Parametr pozice. Typicky je Weibullova distribuce vystředěna na semiose od 0 do nekonečna. Pokud místo hranice 0 zavedeme v praxi často nutný parametr a, pak vzniká tzv. tříparametrové Weibullovo rozdělení.

Weibullova distribuce je široce používána v teorii spolehlivosti a pojištění.

Jak je popsáno výše, exponenciální rozdělení se často používá jako model pro odhad MTBF za předpokladu, že pravděpodobnost selhání zařízení je konstantní. Pokud se pravděpodobnost poruchy v čase mění, použije se Weibullovo rozdělení.

Na c = 1 nebo v jiné parametrizaci at se Weibullovo rozdělení, jak je snadno patrné ze vzorců, transformuje na exponenciální rozdělení a at na Rayleighovo rozdělení.

Pro odhad parametrů Weibullova rozdělení byly vyvinuty speciální metody (viz např. kniha: Lawless (1982) Statistické modely a metody pro celoživotní data, Belmont, CA: Lifetime Learning, která popisuje metody odhadu, stejně jako např. problémy, které vznikají při odhadu parametru polohy pro tříparametrové rozdělení Weibull).

Při provádění analýzy spolehlivosti je často nutné zvážit pravděpodobnost poruchy v krátkém časovém intervalu po určitém časovém okamžiku. t za předpokladu, že až do této chvíle t nedošlo k žádné poruše.

Taková funkce se nazývá riziková funkce nebo funkce poruchovosti a je formálně definována takto:

H (t) - funkce poruchovosti nebo funkce rizika v čase t;

f (t) - hustota rozložení dob selhání;

F (t) - distribuční funkce dob porušení (integrál hustoty za interval).

Obecně je funkce poruchovosti zapsána následovně:

Když je riziková funkce rovna konstantě, která odpovídá běžnému provozu zařízení (viz vzorce).

Při, funkce rizika klesá, což odpovídá záběhu zařízení.

Při, funkce rizika klesá, což odpovídá stárnutí zařízení. Typické rizikové funkce jsou znázorněny v grafu.

Weibullovy grafy hustoty s různými parametry jsou uvedeny níže. Je třeba věnovat pozornost třem rozsahům hodnot parametru a:

V první oblasti riziková funkce klesá (období ladění), ve druhé oblasti je riziková funkce rovna konstantě, ve třetí oblasti se riziková funkce zvyšuje.

Snadno pochopíte, co bylo řečeno na příkladu nákupu nového vozu: nejprve je období adaptace vozu, poté dlouhé období běžného provozu, poté se autodíly opotřebují a riziko jeho selhání prudce stoupá. .

Je důležité, aby všechna období provozu mohla být popsána stejnou distribuční rodinou. To je myšlenka distribuce Weibull.

Zde jsou hlavní číselné charakteristiky Weibullova rozdělení.

Paretova distribuce

V různých problémech aplikované statistiky se často setkáváme s tzv. zkrácenými distribucemi.

Toto rozdělení se například používá v pojišťovnictví nebo ve zdanění, když jsou úroky z příjmu, které přesahují určitou hodnotu c 0

Hlavní číselné charakteristiky Paretova rozdělení:

Logistická distribuce

Logistická distribuce má funkci hustoty:

A - parametr polohy;

B je parametr měřítka;

E je Eulerovo číslo (2,71 ...).

Hotelling T 2 -distribuce

Tato spojitá distribuce, soustředěná na interval (0, T), má hustotu:

kde jsou parametry n a k, n> _k> _1, se nazývají stupně volnosti.

Na Hotellingovo k = 1, P-rozdělení se redukuje na Studentovo rozdělení a pro libovolné k> 1 lze považovat za zobecnění Studentova rozdělení na vícerozměrný případ.

Hotellingovo rozdělení je založeno na normálním rozdělení.

Nechť k-rozměrný náhodný vektor Y má normální rozdělení s nulovým středním vektorem a kovarianční maticí.

Zvažte hodnotu

kde náhodné vektory Zi jsou nezávislé na sobě a Y a jsou distribuovány stejným způsobem jako Y.

Pak náhodná veličina T 2 = Y T S -1 Y má T 2-Hotellingovo rozdělení s n stupni volnosti (Y je sloupcový vektor, T je transpoziční operátor).

kde náhodná proměnná t n má Studentovo rozdělení s n stupni volnosti (viz „Pravděpodobnost a matematická statistika“, Encyklopedie, str. 792).

Pokud má Y normální rozdělení s nenulovým průměrem, pak se nazývá odpovídající rozdělení mimo střed Hotelling T 2 -rozdělení s n stupni volnosti a parametrem necentrality v.

Hotellingovo T 2 -rozdělení se používá v matematické statistice ve stejné situaci jako Studentovo t-rozdělení, ale pouze ve vícerozměrném případě. Pokud jsou výsledky pozorování X 1, ..., X n nezávislé, normálně distribuované náhodné vektory se středním vektorem µ a nedegenerovanou kovarianční maticí, pak statistika

má distribuci Hotelling T 2 s n - 1 stupně volnosti. Tato skutečnost tvoří základ Hotellingova kritéria.

Ve STATISTICE je kritérium Hotelling dostupné např. v modulu Základní statistiky a tabulky (viz dialogové okno níže).

Maxwellova distribuce

Maxwellovo rozdělení vzniklo ve fyzice při popisu rozložení rychlostí molekul ideálního plynu.

Toto spojité rozdělení je vystředěno na (0,) a má hustotu:

Distribuční funkce má tvar:

kde Ф (x) je standardní normální distribuční funkce. Maxwellovo rozdělení má kladný koeficient šikmosti a jediný mód v bodě (tj. rozdělení je unimodální).

Maxwellovo rozdělení má konečné momenty libovolného řádu; matematické očekávání a rozptyl jsou stejné, resp

Maxwellovo rozdělení přirozeně souvisí s normálním rozdělením.

Pokud jsou X 1, X 2, X 3 nezávislé náhodné veličiny s normálním rozdělením s parametry 0 a х 2, pak náhodná veličina má distribuci Maxwell. Maxwellovo rozdělení lze tedy považovat za rozdělení délky náhodného vektoru, jehož souřadnice v kartézském souřadnicovém systému v trojrozměrném prostoru jsou nezávislé a normálně rozložené se střední hodnotou 0 a rozptylem x 2.

Cauchyho distribuce

Toto úžasné rozdělení někdy nemá průměrnou hodnotu, protože jeho hustota velmi pomalu inklinuje k nule s rostoucím x v absolutní hodnotě. Takové distribuce se nazývají distribuce s těžkým koncem. Pokud potřebujete přijít s distribucí, která nemá žádný prostředek, pak okamžitě zavolejte Cauchyho distribuci.

Cauchyho distribuce je unimodální a symetrická vzhledem k modu, který je současně mediánem a má funkci hustoty tvaru:

kde c> 0 je parametr měřítka a a je středový parametr, který současně určuje hodnoty režimu a mediánu.

Integrál hustoty, tedy distribuční funkce, je dán poměrem:

Studentova t distribuce

Anglický statistik V. Gosset, známý pod pseudonymem „Student“ a který svou kariéru zahájil statistickou studií kvality anglického piva, obdržel v roce 1908 následující výsledek. Nech být x 0, x 1, .., x m - nezávislé, (0, s 2) - normálně rozdělené náhodné veličiny:

Tato distribuce, nyní známá jako Studentova t distribuce (zkráceně jako t (m) -distribuce, kde m je počet stupňů volnosti), je základem slavného t-testu určeného k porovnání průměrů dvou populací.

Funkce hustoty f t (x) nezávisí na rozptylu х 2 náhodných veličin a navíc je unimodální a symetrický vzhledem k bodu х = 0.

Základní číselné charakteristiky Studentova rozdělení:

T-rozdělení je důležité, když se berou v úvahu odhady průměru a výběrový rozptyl není znám. V tomto případě se použije výběrový rozptyl a t-rozdělení.

Při velkých stupních volnosti (větší než 30) se t-rozdělení prakticky shoduje se standardním normálním rozdělením.

Graf funkce hustoty t-rozdělení se s rostoucím počtem stupňů volnosti deformuje následovně: vrchol se zvětšuje, konce jdou strměji k 0 a zdá se, jako by grafy funkce hustoty t-rozdělení jsou stlačeny bočně.

F-rozdělení

Zvážit m 1 + m 2 nezávislé a (0, s 2) normálně rozložené veličiny

a dát

Je zřejmé, že stejnou náhodnou proměnnou lze definovat jako poměr dvou nezávislých a vhodně normalizovaných chí-kvadrát distribuovaných veličin, tj.

Slavný anglický statistik R. Fisher v roce 1924 ukázal, že hustota pravděpodobnosti náhodné veličiny F (m 1, m 2) je dána funkcí:

kde Γ (y) je hodnota Eulerovy gama funkce v. směřovat y a samotný zákon se nazývá F-rozdělení s počty stupňů volnosti v čitateli a jmenovateli rovným m, 1 a m7.

Základní číselné charakteristiky F-rozdělení:

K F-distribuci dochází v diskriminační, regresní a rozptylové analýze a dalších typech vícerozměrné analýzy dat.

Podstatné jméno., Počet synonym: 1 distribuce (62) Slovník synonym ASIS. V.N. Trishin. 2013... Slovník synonym

beta distribuce- 1,45. beta rozdělení Pravděpodobnostní rozdělení spojité náhodné veličiny X, která může nabývat libovolných hodnot od 0 do 1 včetně hranic a jejíž hustota rozdělení je při 0 £ x £ 1 a parametry m1> 0, m2> 0, kde Г .. .... Slovník-příručka termínů normativní a technické dokumentace

beta distribuce- rozdělení pravděpodobnosti spojité náhodné veličiny nabývající hodnot na segmentu, jehož hustota je dána vzorcem, kde a, b> 0 a je funkce gama. Poznámka. Jeho speciální pouzdra jsou široce používána ... ... Slovník sociologické statistiky

Viz plán... Slovník synonym

V teorii pravděpodobnosti a matematické statistice je Dirichletovo rozdělení (pojmenované po Johannu Peteru Gustave Lejeune Dirichletovi) často označované Dir (α) rodinou spojitých vícerozměrných rozdělení pravděpodobnosti parametrizovaných vektorem α ... ... Wikipedia

Beta: Wikislovník má položku „beta“ Beta (písmeno) (β) je druhé písmeno řecké abecedy. Beta testování Koeficient beta Funkce beta (matematika) Rozdělení beta (teorie pravděpodobnosti ... Wikipedie

Hustota pravděpodobnosti ... Wikipedie

Rozdělení pravděpodobností je zákon, který popisuje rozsah hodnot náhodné veličiny a pravděpodobnost jejich přijetí. Obsah 1 Definice 2 Způsoby definování distribucí ... Wikipedie

Rozdělení. Pearsonovo rozdělení Hustota pravděpodobnosti ... Wikipedie

knihy

Srovnání přijetí do vzdělávacích programů na vysoké škole na základě výsledků olympiád a USE skóre, O. V. Poldin. V článku se pro srovnání kvality přijetí na vysoké školy pro různé vzdělávací programy navrhuje použít upravené křivky poptávky získané z výsledků VYUŽITÍ zapsaných do ...

Správný odkaz na tento článek:

Oleinikova S.A. - Aproximace zákona o rozdělení součtu náhodných veličin rozdělených podle zákona beta // Kybernetika a programování. - 2015. - Č. 6. - S. 35 - 54. DOI: 10.7256 / 2306-4196.2015.6.17225 URL: https://nbpublish.com/library_read_article.php?id=17225

Aproximace zákona o rozdělení součtu náhodných veličin rozdělených podle zákona beta

Oleiniková Světlana Alexandrovna

Doktor technických věd

Docent, Voroněžská státní technická univerzita

394026, Rusko, Voroněž, Moskovskij prospekt, 14

Oleiniková Světlana Aleksandrovna

Doktor technických věd

Docent, Katedra automatizovaných a výpočetních systémů, Voroněžská státní technická univerzita

394026, Rusko, g. Voroněž, Moskovskij prospekt, 14

Datum odeslání článku do redakce:

14-12-2015

Datum recenze článku:

15-12-2015

Anotace.

Předmětem zkoumání v této práci je hustota rozdělení náhodné veličiny, která je součtem konečného počtu hodnot beta, z nichž každá je rozložena ve vlastním intervalu s vlastními parametry. Tento zákon je rozšířený v teorii pravděpodobnosti a matematické statistice, protože jej lze použít k popisu dostatečně velkého počtu náhodných jevů, pokud jsou hodnoty odpovídající spojité náhodné proměnné soustředěny v určitém intervalu. Protože hledaný součet hodnot beta nelze vyjádřit žádným ze známých zákonů, vzniká problém odhadnout hustotu jeho distribuce. Cílem této práce je najít takovou aproximaci pro hustotu rozdělení součtu hodnot beta, která by se lišila v nejmenší chybě. K dosažení tohoto cíle byl proveden výpočtový experiment, v jehož důsledku byla pro daný počet hodnot beta porovnána číselná hodnota hustoty distribuce s aproximací požadované hustoty. Jako aproximace byly použity normální a beta distribuce. Jako výsledek experimentální analýzy byly získány výsledky, které naznačují, že je vhodné aproximovat hledaný distribuční zákon zákonem beta. Jako jedna z oblastí aplikace získaných výsledků je uvažována problematika projektového řízení s náhodnou délkou trvání, kde klíčovou roli hraje odhad doby realizace projektu, který vzhledem ke specifikům předmětné oblasti, resp. lze popsat pomocí součtu hodnot beta.

klíčová slova: náhodná veličina, beta rozdělení, hustota rozdělení, zákon normálního rozdělení, součet náhodných veličin, výpočtový experiment, rekurzivní algoritmus, aproximace, chyba, PERT

10.7256/2306-4196.2015.6.17225

Datum zveřejnění:

19-01-2016

Abstraktní.

Předmětem výzkumu v tomto příspěvku je funkce hustoty pravděpodobnosti (PDF) náhodné veličiny, která je součtem konečného počtu hodnot beta. Tento zákon je rozšířen v teorii pravděpodobnosti a matematické statistice, protože jeho použití lze popsat dostatečně velkým počtem náhodných událostí, pokud se hodnota odpovídající spojité náhodné veličiny soustředí v určitém rozmezí. Vzhledem k tomu, že požadovaný součet hodnot beta nelze vyjádřit žádným ze známých zákonů, vzniká problém odhadnout rozložení jeho hustoty. Cílem je najít pro PDF takovou aproximaci součtu beta-hodnot, která by měla nejmenší chybu. K dosažení tohoto cíle byl proveden výpočetní experiment, ve kterém se pro daný počet beta hodnot porovnávala číselná hodnota PDF s aproximací požadované hustoty. Jako aproximace bylo použito normální a beta rozdělení. Závěrem experimentální analýzy byly získány výsledky indikující vhodnost aproximace požadovaného zákona pomocí beta rozdělení. Jako jedna z oblastí aplikace výsledků je zvažován problém projektového řízení s náhodným trváním prací. Zde je klíčovou otázkou vyhodnocení doby realizace projektu, kterou lze vzhledem ke specifické tematické oblasti popsat součtem hodnot beta.

klíčová slova:

Náhodná hodnota, beta rozdělení, funkce hustoty, normální rozdělení, součet náhodných veličin, výpočtový experiment, rekurzivní algoritmus, aproximace, chyba, PERT

Úvod

Zvažuje se problém odhadu distribučního zákona součtu beta-hodnot. Toto je univerzální zákon, který lze použít k popisu většiny náhodných jevů se zákonem spojitého rozdělení. Zejména v drtivé většině případů zkoumání náhodných jevů, které lze popsat jednovidovými spojitými náhodnými veličinami ležícími v určitém rozsahu hodnot, lze takovou hodnotu aproximovat zákonem beta. V tomto ohledu je problém nalezení distribučního zákona pro součet beta-hodnot nejen vědecké povahy, ale také určitého praktického zájmu. Navíc, na rozdíl od většiny distribučních zákonů, zákon beta nemá jedinečné vlastnosti, které umožňují analytický popis požadovaného množství. Specifičnost tohoto zákona je navíc taková, že je extrémně obtížné extrahovat násobný určitý integrál nutný pro určení hustoty součtu náhodných proměnných a výsledkem je poněkud těžkopádný výraz i pro n = 2 a s nárůstem v počtu termínů se složitost výsledného výrazu mnohonásobně zvyšuje. V tomto ohledu vyvstává problém aproximace hustoty distribuce součtu hodnot beta s minimální chybou.

Tento článek představuje přístup k nalezení aproximace požadovaného zákona pomocí výpočetního experimentu, který umožňuje pro každý konkrétní případ porovnat chybu získanou odhadem hustoty zájmu pomocí nejvhodnějších zákonů: normálního a beta. V důsledku toho se dospělo k závěru, že je vhodné odhadnout součet hodnot beta pomocí distribuce beta.

1. Stanovení problému a jeho vlastnosti

Obecně platí, že zákon beta je určen hustotou specifikovanou v intervalu takto:

`f_ (xi_ (i)) (x) = ((0,; t<0), ((t^(p_(i)-1)(1-t)^(q_(i)-1))/(B(p_(i),q_(i))(b_(i)-a_(i))^(p_(i)+q_(i)-1)), ; 0<=t<=1;),(0, ; t>1):} (1)`

Prakticky zajímavé jsou však hodnoty beta zpravidla stanovené v libovolném intervalu. Je to dáno především tím, že škála praktických problémů je v tomto případě mnohem širší, a za druhé při hledání řešení pro obecnější případ nebude možné získat výsledek pro konkrétní případ, který být určen náhodnou veličinou (1) nepředstavuje žádné potíže. Proto v následujícím budeme uvažovat náhodné proměnné definované na libovolném intervalu. V tomto případě lze problém formulovat následovně.

Zvažujeme problém odhadu distribučního zákona náhodné veličiny, která je součtem náhodných veličin `xi_ (i),` i = 1, ..., n, z nichž každý je rozdělen podle zákona beta v intervalu s parametry p i a q i. Hustota distribuce jednotlivých členů bude určena vzorcem:

Problém nalezení zákona součtu hodnot beta byl částečně vyřešen dříve. Konkrétně byly získány vzorce pro odhad součtu dvou hodnot beta, z nichž každá je určena pomocí (1). V navrhovaném přístupu k hledání součtu dvou náhodných veličin s distribučním zákonem (2).

V obecném případě však původní problém nebyl vyřešen. Důvodem je především specifičnost vzorce (2), která neumožňuje získat kompaktní a pohodlné vzorce pro zjištění hustoty ze součtu náhodných veličin. Vlastně na dvě množství`xi_1` a` xi_2` požadovaná hustota se určí takto:

`f_ (eta) (z) = int_-prop ^ propf_ (xi_1) (x) f_ (xi_2) (z-x) dx (3)`

V případě sečtení n náhodných veličin získáme násobný integrál. Zároveň s tímto problémem existují potíže spojené se specifiky beta distribuce. Zejména i pro n = 2 vede použití vzorce (3) k poněkud těžkopádnému výsledku, který je definován z hlediska hypergeometrických funkcí. Převzetí integrálu získané hustoty, které je nutné provést již při n = 3 a vyšší, je extrémně obtížné. Zároveň nejsou vyloučeny chyby, které při zaokrouhlování a výpočtu takto složitého výrazu nevyhnutelně vzniknou. V tomto ohledu je nutné hledat aproximaci pro vzorec (3), který umožňuje aplikovat známé vzorce s minimální chybou.

2. Výpočtový experiment k přiblížení hustoty součtu hodnot beta

Pro analýzu specifik požadované hustoty distribuce byl proveden experiment, který umožňuje sběr statistických informací o náhodné veličině, která je součtem předem určeného počtu náhodných veličin s beta rozdělením s danými parametry. Experimentální uspořádání bylo podrobněji popsáno v. Změnou parametrů jednotlivých hodnot beta, jakož i jejich počtu, jsme v důsledku velkého počtu provedených experimentů došli k následujícím závěrům.

1. Pokud jednotlivé náhodné veličiny zahrnuté v součtu mají symetrické hustoty, pak má histogram konečného rozdělení tvar blízký normálu. Blíží se jim také normální zákon vyhodnocování číselných charakteristik výsledné hodnoty (matematické očekávání, rozptyl, asymetrie a špičatost).

2. Pokud jsou jednotlivé náhodné veličiny asymetrické (s kladnou i zápornou asymetrií), ale celková asymetrie je 0, pak z hlediska grafického znázornění a numerických charakteristik je získaný distribuční zákon také blízký normálu.

3. V ostatních případech se hledaný zákon vizuálně blíží zákonu beta. Konkrétně součet pěti asymetrických náhodných proměnných je znázorněn na obrázku 1.

Obrázek 1 - Součet pěti stejně asymetrických náhodných proměnných

Na základě provedeného experimentu je tedy možné předložit hypotézu o možné aproximaci hustoty součtu hodnot beta normálním nebo beta rozdělením.

Abychom tuto hypotézu potvrdili a zvolili jediný zákon pro aproximaci, provedeme následující experiment. Po zadání počtu náhodných veličin s beta rozdělením a jejich parametrů zjistíme číselnou hodnotu požadované hustoty a porovnáme ji s hustotou odpovídajícího normálního nebo beta rozdělení. To bude vyžadovat:

1) vyvinout algoritmus, který vám umožní numericky odhadnout hustotu součtu hodnot beta;

2) s danými parametry a počtem počátečních hodnot určit parametry konečného rozdělení za předpokladu normálního nebo beta rozdělení;

3) určete chybu aproximace normálním rozdělením nebo beta rozdělením.

Podívejme se na tyto úkoly podrobněji. Numerický algoritmus pro zjištění hustoty součtu hodnot beta je založen na rekurzi. Součet n libovolných náhodných proměnných lze určit takto:

„eta_ (n) = xi_ (1) + ... + xi_ (n) = eta_ (n-1) + xi_ (n)“ , (4)

`eta_ (n-1) = xi_ (1) + ... + xi_ (n-1)` . (5)

Podobně můžete popsat hustotu distribuce náhodné proměnné `eta_ (n-1)`:

„eta_ (n-1) = xi_ (1) + ... + xi_ (n-1) = eta_ (n-2) + xi_ (n-1)“ , (6)

Pokud budeme pokračovat v podobné úvaze a použijeme vzorec (3), dostaneme:

`f_ (eta_ (n)) (x) = int_-prop ^ prop (f_ (xi_ (n-1)) (x-x_ (n-1)) * int_-prop ^ prop (f_ (xi_ (n-) 2)) (x_ (n-1) -x_ (n-2)) ... int_-prop ^ propf_ (xi_ (2)) (x_ (2) -x_ (1)) dx_ (1) ... ) dx_ (n-2)) dx_ (n-1). (7) "

Tyto úvahy, stejně jako specifika stanovení hustoty pro veličiny s beta rozdělením, jsou podrobněji uvedeny v.

Parametry konečného distribučního zákona jsou určeny na základě předpokladu nezávislosti náhodných veličin. V tomto případě bude matematické očekávání a rozptyl jejich součtu určen pomocí vzorců:

"Meta_ (n) = Mxi_ (1) + ... + Mxi_ (n), (8)"

Pro normální zákon budou parametry a a `sigma` přímo určeny vzorci (8) a (9). Pro beta distribuci musíte nejprve vypočítat dolní a horní hranici. Mohou být definovány následovně:` `

`a = součet_ (i = 1) ^ na_ (i)`; (deset)

,,, b = součet_ (i = 1) ^ nb_ (i) `. (jedenáct)

Zde a i a b i jsou hranice intervalů jednotlivých členů. Dále sestavíme systém rovnic, který bude obsahovat vzorce pro matematické očekávání a rozptyl hodnoty beta:

`((Mxi = a + (ba) p / (p + q)), (Dxi = (ba) ^ (2) (pq) / ((p + q) ^ 2 (p + q + 1))) :) (12) "

Zde je `xi` náhodná proměnná popisující požadovaný součet. Jeho matematické očekávání a rozptyl jsou určeny vzorci (8) a (9); parametry aab jsou dány vzorci (10) a (11). Po vyřešení systému (12) s ohledem na parametry p a q budeme mít:

`p = ((b-Mxi) (Mxi-a) ^ 2-Dxi (Mxi-a)) / (Dxi (b-a))“ . (13)

`q = ((b-Mxi) ^ 2 (Mxi-a) -Dxi (b-Mxi)) / (Dxi (b-a))“ . (14)

`E = int_a ^ b | hatf (x) -f_ (eta) (x) | dx. (15) "

Zde `hatf (x)` je aproximací součtu hodnot beta; `f_ (eta) (x)` - distribuční zákon součtu hodnot beta.

Pro odhad chyb budeme postupně měnit parametry jednotlivých beta hodnot. Zejména budou zajímavé následující otázky:

1) jak rychle součet hodnot beta konverguje k normálnímu rozdělení a je možné odhadnout součet podle jiného zákona, který bude mít minimální chybu vzhledem ke skutečnému zákonu o rozdělení součtu hodnot beta;

2) jak moc se chyba zvětšuje s nárůstem asymetrie beta-hodnot;

3) jak se chyba změní, pokud se změní distribuční intervaly hodnot beta.

Obecné schéma experimentálního algoritmu pro každou jednotlivou hodnotu beta-hodnot lze znázornit následovně (obrázek 2).

Obrázek 2 - Obecné schéma experimentálního algoritmu

PogBeta - chyba vyplývající z aproximace konečného zákona pomocí beta rozdělení v intervalu;

PogNorm - chyba vyplývající z aproximace konečného zákona normálním rozdělením v intervalu;

ItogBeta - konečná hodnota chyby vyplývající z aproximace konečného rozdělení zákonem beta;

ItogNorm - celková hodnota chyby vyplývající z aproximace konečného rozdělení normálním zákonem.

3. Experimentální výsledky

Pojďme analyzovat výsledky experimentu popsaného výše.

Dynamika poklesu chyb s nárůstem počtu členů je znázorněna na obrázku 3. Na vodorovné ose je počet členů a na svislé ose velikost chyby. Dále řada "Norm" ukazuje změnu chyby normálním rozdělením, řada "Beta" - rozdělení beta.

Obrázek 3 - Redukce chyb se snížením počtu termínů

Jak je vidět z tohoto obrázku, pro dva členy je chyba aproximace zákonem beta přibližně 4krát nižší než chyba aproximace zákonem normálního rozdělení. Je zřejmé, že jak se členy zvyšují, aproximační chyba normálního zákona klesá mnohem rychleji než zákon beta. Lze také předpokládat, že pro velmi velký počet členů bude mít aproximace normálním zákonem menší chybu než aproximace beta rozdělení. S přihlédnutím k velikosti chyby v tomto případě však lze usoudit, že z hlediska počtu termínů je výhodnější beta rozdělení.

Obrázek 4 ukazuje dynamiku změn chyb s nárůstem asymetrie náhodných veličin. Bez ztráty obecnosti byl parametr p všech počátečních hodnot beta fixován na hodnotu 2 a dynamika změny parametru q + 1 je zobrazena na ose x. Ordinátní osa v grafech ukazuje chybu aproximace. Výsledky experimentu s jinými hodnotami parametrů jsou obecně podobné.

V tomto případě je také zřejmé, že je vhodnější aproximovat součet beta hodnot pomocí beta distribuce.

Obrázek 4 - Změna aproximačních chyb s rostoucí asymetrií veličin

Dále jsme analyzovali změnu chyb při změně rozsahu počátečních hodnot beta. Obrázek 5 ukazuje výsledky měření chyby pro součet čtyř hodnot beta, z nichž tři jsou rozloženy v intervalu a rozsah čtvrté se postupně zvyšuje (je vyneseno na úsečce).

Obrázek 5 - Změna chyb při změně intervalů rozdělení náhodných veličin

Na základě grafických ilustrací na obrázcích 3-5 a také s přihlédnutím k údajům získaným jako výsledek experimentu lze dojít k závěru, že je vhodné použít rozdělení beta k přiblížení součtu hodnot beta.

Jak ukazují získané výsledky, v 98 % případů bude chyba při aproximaci zkoumané hodnoty zákonem beta nižší než při aproximaci normálního rozdělení. Průměrná hodnota chyby aproximace beta bude záviset především na šířce intervalů, ve kterých je každý člen rozložen. V tomto případě tento odhad (na rozdíl od normálního zákona) velmi málo závisí na symetrii náhodných veličin a také na počtu členů.

4. Aplikace

Jednou z oblastí uplatnění získaných výsledků je úkol projektového řízení. Projekt je sada vzájemně závislých sériově-paralelních úloh s náhodným trváním služby. V tomto případě bude doba trvání projektu náhodná hodnota. Je zřejmé, že posouzení distribučního zákona této veličiny je zajímavé nejen ve fázích plánování, ale také při analýze možných situací spojených s předčasným dokončením všech prací. Vezmeme-li v úvahu skutečnost, že zpoždění projektu může vést k celé řadě nepříznivých situací, včetně pokut, jeví se odhad distribučního zákona náhodné veličiny popisující dobu trvání projektu jako mimořádně důležitý praktický úkol.

V současné době se pro toto hodnocení používá metoda PERT. Podle jeho předpokladů je trvání projektu normálně rozdělená náhodná veličina `eta` s parametry:

`a = součet_ (i = 1) ^ k Meta_ (i)`, (16)

`sigma = sqrt (součet_ (i = 1) ^ k D eta_ (i))` . (17)

Zde k je počet úloh na kritické cestě projektu; `eta_ (1)`, ..., `eta_ (k)` - doba trvání těchto prací.

Zvažme korekci metody PERT s přihlédnutím k získaným výsledkům. V tomto případě budeme předpokládat, že doba trvání projektu je rozložena podle zákona beta s parametry (13) a (14).

Pojďme si získané výsledky vyzkoušet v praxi. Zvažte projekt definovaný síťovým diagramem znázorněným na obrázku 6.

Obrázek 6 - Příklad síťového diagramu

Okraje grafu zde označují úlohy, váhy hran udávají počty zakázek; vrcholy ve čtvercích - události, které znamenají začátek nebo konec práce. Nechť jsou práce dány trváními uvedenými v tabulce 1.

Stůl 1 - Časová charakteristika projektových prací

Práce č.	min	max	Rohož. pohotovostní
1	5	10	9
2	3	6	4
3	6	8	7
4	4	7	6
5	4	7	7
6	2	5	3
7	4	8	6
8	4	6	5
9	6	8	7
10	2	6	4
11	9	13	12
12	2	6	3
13	5	7	6

Ve výše uvedené tabulce je min nejkratší doba, za kterou lze tuto práci dokončit; max - nejdelší čas; Rohož. pohotovostní je matematické očekávání distribuce beta, které ukazuje očekávaný čas dokončení dané úlohy.

Proces realizace projektu budeme simulovat pomocí speciálně vyvinutého simulačního modelovacího systému. Podrobněji je to popsáno v. Jako výstup musíte získat:

Histogramy projektů;

Vyhodnocení pravděpodobností realizace projektu v daném intervalu na základě statistických dat simulačního systému;

Odhad pravděpodobností pomocí normálního a beta rozdělení.

Během 10 000x simulace realizace projektu byl získán vzorek doby trvání služby, jehož histogram je na obrázku 7.

Obrázek 7 - Histogram doby trvání projektu

Je zřejmé, že vzhled histogramu na obrázku 7 se liší od grafu hustoty zákona normálního rozdělení.

K nalezení konečného matematického očekávání a rozptylu použijeme vzorce (8) a (9). Dostaneme:

'Meta = 27; Deta = 1,3889

Pravděpodobnost dosažení daného intervalu se vypočítá pomocí známého vzorce:

`P (l (18)

kde „f_ (eta) (x)“ je distribuční zákon náhodné proměnné „eta“, l a r- hranice zájmového intervalu.

Pojďme si spočítat parametry pro finální beta distribuci. K tomu použijeme vzorce (13) a (14). Dostaneme:

p = 13,83; q = 4,61.

Hranice distribuce beta jsou určeny vzorci (10) a (11). Budu mít:

Výsledky studie jsou uvedeny v tabulce 2. Bez ztráty na obecnosti zvolme počet běhů modelu rovný 10000. Ve sloupci "Statistika" je vypočtena pravděpodobnost získaná na základě statistických dat. Sloupec "Normální" ukazuje pravděpodobnost vypočtenou podle zákona o normálním rozdělení, který se nyní používá k řešení úlohy. Sloupec Beta obsahuje hodnotu pravděpodobnosti vypočítanou z rozdělení beta.

Tabulka 2 - Výsledky pravděpodobnostních odhadů

Na základě výsledků uvedených v tabulce 2, jakož i obdobných výsledků získaných v průběhu modelování procesu realizace jiných projektů, lze usuzovat, že získané odhady aproximace součtu náhodných veličin (2) pomocí beta distribuce umožňují získat řešení tohoto problému s větší přesností ve srovnání se stávajícími protějšky.

Cílem této práce bylo najít takovou aproximaci zákona o rozdělení součtu hodnot beta, která by se lišila co nejmenší chybou ve srovnání s jinými analogy. Byly získány následující výsledky.

1. Experimentálně byla předložena hypotéza o možnosti aproximace součtu hodnot beta pomocí rozdělení beta.

2. Byl vyvinut softwarový nástroj, který umožňuje získat číselnou hodnotu chyby, ke které dochází, když je požadovaná hustota aproximována zákonem normálního rozdělení a zákonem beta. Tento program je založen na rekurzivním algoritmu, který vám umožňuje numericky určit hustotu součtu hodnot beta s danou hustotou, která je podrobněji popsána v.

3. Byl vytvořen výpočtový experiment, jehož účelem bylo určit nejlepší aproximaci srovnávací analýzou chyb v různých podmínkách. Experimentální výsledky ukázaly proveditelnost použití beta distribuce jako nejlepší aproximace hustoty distribuce součtu hodnot beta.

4. Je uveden příklad, ve kterém mají získané výsledky praktický význam. Jedná se o úlohy projektového řízení s náhodnými časy provádění pro jednotlivé zakázky. Důležitým problémem pro takové úkoly je posouzení rizik spojených s pozdním dokončením projektu. Získané výsledky umožňují získat přesnější odhady požadovaných pravděpodobností a v důsledku toho snížit pravděpodobnost chyb v plánování.

Bibliografie