Beta distribuce. Aproximace zákona rozdělení součtu náhodných veličin rozdělených podle zákona beta Generování náhodných čísel a odhad parametrů
Zvažte rozdělení beta, vypočítejte jeho matematické očekávání, rozptyl a režim. Pomocí funkce MS EXCEL BETA.DIST () vyneseme grafy distribuční funkce a hustoty pravděpodobnosti. Pojďme vygenerovat pole náhodná čísla a odhadnout distribuční parametry.
Beta distribuceBeta- rozdělení) závisí na 2 parametrech: α ( alfa) > 0(určuje tvar rozvodu) a b (beta)> 0(určuje měřítko).
Na rozdíl od mnoha jiných spojitých distribucí, rozsah variace náhodné proměnné má Beta distribuce, je omezena segmentem. Mimo tento segment hustota distribuce rovná se 0. Hranice tohoto segmentu jsou stanoveny výzkumníkem v závislosti na problému. Pokud A = 0 a B = 1, pak takové Beta distribuce nazývaný standardní.
Beta distribuce má označení Beta(alfa; beta).
Poznámka: Pokud parametry alfa a beta= 1, tedy Beta distribuce promění v, tzn. Beta (1; 1; A; B) = U (A; B).
Obecně distribuční funkce nelze vyjádřit v elementárních funkcích, proto se počítá numerickými metodami např. pomocí funkce MS EXCEL BETA.DIST ().
Poznámka: Pro usnadnění zápisu vzorců do vzorového souboru pro distribuční parametry alfa a beta odpovídající.
Vzorový soubor obsahuje také grafy hustota pravděpodobnosti a distribuční funkce s vyznačenými hodnotami střední, a .
Generování náhodných čísel a odhad parametrů
Použitím inverzní distribuční funkce(nebo kvantilové hodnoty ( p- kvantil), viz) můžete generovat hodnoty náhodné proměnné Beta distribuce... Chcete-li to provést, musíte použít vzorec:
BETA.OBR (RAND (); alfa; beta; A; B)
RADA: Protože náhodná čísla jsou generována pomocí funkce RAND () a poté stisknutím klávesy F9 je možné získat pokaždé nový vzorek a tím i nový odhad parametrů.
Funkce RAND () generuje od 0 do 1, což přesně odpovídá rozsahu variace pravděpodobnosti (viz. příklad generování listu souboru).
Nyní máme pole náhodných čísel vygenerovaných s danými distribučními parametry alfa a beta(ať je jich 200), odhadněme distribuční parametry.
Odhad parametrů alfa a beta lze vyřídit s metoda momentů(předpokládá se, že parametry A a B jsou známé):
První, nejpřirozenější krok v pravděpodobnostním uvažování je následující: pokud máte proměnnou, která nabývá hodnot náhodně, pak byste rádi věděli, s jakou pravděpodobnostmi tato proměnná nabývá určitých hodnot. Kombinace těchto pravděpodobností je přesně to, co určuje rozdělení pravděpodobnosti. Například s kostkou můžete a priori předpokládat, že se stejnou pravděpodobností 1/6 dopadne na jakoukoli hranu. A to se děje za podmínky, že kost je symetrická. Pokud je kost asymetrická, pak je možné na základě experimentálních dat určit vysoké pravděpodobnosti pro ty tváře, které vypadávají častěji, a nižší pravděpodobnost pro ty tváře, které vypadávají méně často. Pokud nějaká hrana vůbec nevypadne, pak jí lze přiřadit pravděpodobnost 0. Toto je nejjednodušší zákon pravděpodobnosti, kterým lze popsat výsledky hodu kostkou. Jde samozřejmě o extrémně jednoduchý příklad, ale podobné problémy nastávají například u pojistně-matematických výpočtů, kdy se reálné riziko počítá na základě reálných dat při vystavení pojistky.
V této kapitole se podíváme na nejčastější pravděpodobnostní zákony v praxi.
Tato rozdělení lze snadno vykreslit ve STATISTICE.
Normální distribuce
Normální rozdělení pravděpodobnosti se zvláště běžně používá ve statistice. Normální rozdělení poskytuje dobrý model pro jevy v reálném světě, ve kterých:
1) existuje silná tendence k shlukování dat kolem středu;
2) kladné a záporné odchylky od středu jsou stejně pravděpodobné;
3) frekvence odchylek rychle klesá, když jsou odchylky od středu velké.
Mechanismus normálního rozdělení, vysvětlený pomocí takzvaného centrálního limitního teorému, lze obrazně popsat následovně. Představte si, že máte částice pylu, které jste náhodně vhodili do sklenice s vodou. Při pohledu na jednotlivou částici pod mikroskopem uvidíte úžasný jev – částice se pohybuje. To se samozřejmě děje proto, že se molekuly vody pohybují a přenášejí svůj pohyb na částice suspendovaného pylu.
Ale jak přesně pohyb probíhá? Zde je zajímavější otázka. A tento pohyb je velmi bizarní!
Na jednotlivé částice pylu existuje nekonečné množství nezávislých vlivů v podobě dopadů molekul vody, které způsobí, že se částice pohybuje po velmi podivné trajektorii. Pod mikroskopem tento pohyb připomíná opakovaně a chaoticky přerušovanou čáru. Tyto zlomy nelze předvídat, není v nich žádná pravidelnost, která přesně odpovídá chaotickým srážkám molekul na částici. Suspendovaná částice, která v náhodném časovém okamžiku zažila dopad molekuly vody, změní svůj směr pohybu, pak se nějakou dobu pohybuje setrvačností, pak znovu spadne pod dopad další molekuly a tak dále. Ve sklenici vody je úžasný kulečníkový stůl!
Protože pohyb molekul má náhodný směr a rychlost, velikost a směr zlomů v trajektorii jsou také zcela náhodné a nepředvídatelné. Tento úžasný jev, nazývaný Brownův pohyb, objevený v 19. století, nás nutí přemýšlet o mnoha věcech.
Pokud zavedeme vhodný systém a označíme souřadnice částice v některých okamžicích, pak dostaneme normální zákon. Přesněji řečeno, posuny pylové částice vznikající při dopadu molekul se budou řídit normálním zákonem.
Poprvé byl pohybový zákon takové částice, nazývaný Brownian, popsán na fyzické úrovni přísnosti A. Einsteinem. Pak Lenjevan vyvinul jednodušší a intuitivnější přístup.
Matematici 20. století se této teorii věnovali nejlepší stránky, a první krok byl učiněn před 300 lety, kdy byla objevena nejjednodušší verze centrální limitní věty.
V teorii pravděpodobnosti centrální limitní věta, původně známá ve formulaci Moivreho a Laplacea již v 17. století jako rozvinutí slavného zákona velkých čísel od J. Bernoulliho (1654-1705) (viz J. Bernoulli (1713). ), Ars Conjectandi), je nyní extrémně rozvinutá a dosáhla svých vrcholů. v moderním principu invariance, na jehož vzniku sehrála podstatnou roli ruská matematická škola. Právě v tomto principu nachází pohyb Brownovy částice své přesné matematické vysvětlení.
Myšlenka je taková, že sečtením velkého počtu nezávislých veličin (dopadů molekul na částice pylu) za určitých rozumných podmínek se získají právě ty normálně rozložené veličiny. A to se děje nezávisle, tedy invariantně, na rozložení počátečních hodnot. Jinými slovy, pokud je proměnná ovlivněna mnoha faktory, tyto vlivy jsou nezávislé, relativně malé a vzájemně se sčítají, pak má výsledná hodnota normální rozdělení.
Například o hmotnosti člověka rozhoduje téměř nekonečné množství faktorů (tisíce genů, predispozice, nemoci atd.). Lze tedy očekávat normální rozložení hmotnosti v populaci všech lidí.
Pokud jste finančník a hrajete na burze, pak samozřejmě znáte případy, kdy se ceny akcií chovají jako Brownovy částice a zažívají chaotické dopady mnoha faktorů.
Formálně je hustota normálního rozdělení zapsána takto:
kde a a x 2 jsou parametry zákona interpretované jako střední hodnota a rozptyl dané náhodné veličiny (vzhledem ke speciální úloze normálního rozdělení použijeme pro označení její hustotní funkce a rozdělení speciální označení funkce). Vizuálně je graf normální hustoty slavná křivka ve tvaru zvonu.
Odpovídající distribuční funkce normální náhodné veličiny (a, x 2) se značí Ф (x; a, x 2) a je dána vztahem:
Normální zákon s parametry a = 0 a x 2 = 1 se nazývá standardní.
Inverzní standardní funkce normálního rozdělení aplikovaná na z, 0 K výpočtu z z x a naopak použijte pravděpodobnostní kalkulačku STATISTICA. Základní charakteristiky normálního zákona: Průměr, modus, medián: E = x mod = x med = a; Disperze: D = х 2; Asymetrie: Přebytek: Ze vzorců je vidět, že normální rozdělení je popsáno dvěma parametry: a - průměr - průměr; õ - standardní odchylka - standardní odchylka, čti: "sigma". Někdy s směrodatná odchylka se nazývá směrodatná odchylka, ale to je již zastaralá terminologie. Zde jsou některá užitečná fakta o normálním rozdělení. Průměr určuje míru distribuce hustoty. Normální hustota distribuce je symetrická ke střední hodnotě. Střední hodnota normálního rozdělení se shoduje s mediánem a modusem (viz grafy). Hustota normálního rozdělení s rozptylem 1 a průměrem 1 Hustota normálního rozdělení se střední hodnotou 0 a rozptylem 0,01 Hustota normálního rozdělení se střední hodnotou 0 a rozptylem 4 S nárůstem rozptylu se hustota normální distribuce šíří nebo šíří podél osy OX, s poklesem rozptylu se naopak smršťuje a soustředí se kolem jednoho bodu - bodu maximální hodnoty, který se shoduje se střední hodnotou. hodnota. V limitujícím případě nulového rozptylu náhodná hodnota degeneruje a nabývá jediné hodnoty rovné průměru. Je užitečné znát 2- a 3-sigma nebo 2- a 3- standardní odchylky, pravidla, která jsou spojena s normálním rozdělením a používají se v různých aplikacích. Význam těchto pravidel je velmi jednoduchý. Pokud jsou dvě a tři směrodatné odchylky (2- a 3-sigma) nastaveny doprava a doleva od středního bodu nebo, což je stejné, od bodu maximální hustoty normálního rozdělení, pak plocha pod graf normální hustoty vypočítaný přes tento interval bude roven 95,45 % a 99,73 % celé plochy pod grafem (zkontrolujte na pravděpodobnostním kalkulátoru STATISTICA!). Jinými slovy, lze to vyjádřit takto: 95,45 % a 99,73 % všech nezávislých pozorování od normální populace, například velikost dílu nebo cena akcie, leží v pásmu 2- a 3- standardních odchylek. od průměru. Rovnoměrná distribuce Jednotné rozdělení je užitečné při popisu proměnných, ve kterých je každá hodnota stejně pravděpodobná, jinými slovy, hodnoty proměnné jsou v určité oblasti rovnoměrně rozloženy. Níže jsou uvedeny vzorce hustoty a distribuční funkce jednotné náhodné proměnné nabývající hodnot na intervalu [a, b]. Z těchto vzorců je snadné pochopit, že pravděpodobnost, že jednotná náhodná proměnná bude nabývat hodnot z množiny [c, d] [a, b] se rovná (d - c) / (b - a). Vložili jsme a = 0, b = 1. Níže je uveden graf jednotné hustoty pravděpodobnosti se středem na segment. Číselné charakteristiky jednotného zákona: Exponenciální rozdělení Existují události, které lze v běžném jazyce označit za vzácné. Jestliže T je doba mezi začátkem vzácných událostí vyskytujících se v průměru s intenzitou X, pak hodnota Tato distribuce má velmi zajímavou vlastnost absence následného účinku, nebo, jak se říká, Markovova vlastnost, na počest slavného ruského matematika A.A. Markova, což lze vysvětlit následovně. Pokud je rozložení mezi okamžiky výskytu některých událostí orientační, pak se rozložení počítá od libovolného okamžiku t až do další události má také exponenciální rozdělení (se stejným parametrem). Jinými slovy, u proudu vzácných událostí je doba čekání na dalšího návštěvníka vždy rozložena exponenciálně, bez ohledu na to, jak dlouho na něj již čekáte. Exponenciální rozdělení je spojeno s Poissonovým rozdělením: v jednotkovém časovém intervalu má počet událostí, mezi kterými jsou intervaly nezávislé a exponenciálně rozdělené, Poissonovo rozdělení. Pokud mají intervaly mezi návštěvami stránek exponenciální rozložení, pak se počet návštěv, například během hodiny, rozdělí podle Poissonova zákona. Exponenciální rozdělení je speciální případ Weibullova rozdělení. Pokud čas není spojitý, ale diskrétní, pak analogem exponenciálního rozdělení je geometrické rozdělení. Hustota exponenciálního rozdělení je popsána vzorcem: Toto rozdělení má pouze jeden parametr, který určuje jeho vlastnosti. Graf exponenciální distribuce hustoty má tvar: Základní číselné charakteristiky exponenciálního rozdělení: Erlangova distribuce Tato spojitá distribuce je soustředěna na (0,1) a má hustotu: Matematické očekávání a rozptyl jsou stejné Distribuce Erlang je pojmenována po A. Erlangovi, který ji poprvé aplikoval na problémy v teorii front a telefonování. Erlangovo rozdělení s parametry µ a n je rozdělení součtu n nezávislých, identicky rozdělených náhodných veličin, z nichž každá má exponenciální rozdělení s parametrem nµ Na Erlangovo rozdělení n = 1 je stejné jako exponenciální nebo exponenciální rozdělení. Laplaceova distribuce Funkce hustoty Laplaceova rozdělení, nebo, jak se také nazývá, dvojitá exponenciála, se používá například k popisu rozdělení chyb v regresních modelech. Když se podíváte na graf tohoto rozdělení, uvidíte, že se skládá ze dvou exponenciálních rozdělení, symetrických podle osy OY. Pokud je parametr pozice 0, pak má Laplaceova funkce hustoty rozložení tvar: Hlavní numerické charakteristiky tohoto distribučního zákona, za předpokladu, že parametr pozice je nulový, jsou následující: V obecném případě má Laplaceova distribuční hustota tvar: a je střední hodnota rozdělení; b je parametr měřítka; e je Eulerovo číslo (2,71 ...). Gamma distribuce Hustota exponenciálního rozdělení má mód v bodě 0, což je někdy pro praktické aplikace nepohodlné. V mnoha příkladech je předem známo, že režim uvažované náhodné veličiny není roven 0, například intervaly mezi nakupujícími přicházejícími do e-shopu nebo návštěvou stránky mají výrazný režim. K simulaci takových událostí se používá gama distribuce. Hustota gama distribuce je následující: kde Γ je Eulerova Γ-funkce, a> 0 je parametr "tvaru" a b> 0 je parametr měřítka. V konkrétním případě máme Erlangovo rozdělení a exponenciální rozdělení. Hlavní charakteristiky gama distribuce: Níže jsou uvedeny dva grafy hustoty gama s parametrem měřítka 1 a parametry tvaru 3 a 5. Užitečná vlastnost gama distribuce: součet libovolného počtu nezávislých gama distribuovaných náhodných proměnných (se stejným měřítkovým parametrem b) (a l, b) + (a 2, b) + --- + (a n, b) se také řídí gama rozdělením, ale s parametry a 1 + a 2 + + a n a b. Lognormální rozdělení Náhodná veličina h se nazývá logaritmicko-normální nebo logaritmicky normální, pokud její přirozený logaritmus (lnh) odpovídá zákonu normálního rozdělení. Lognormální rozdělení se využívá například při modelování proměnných jako je příjem, věk novomanželů nebo tolerance z normy na škodlivé látky v potravinách. Pokud tedy množství x má normální rozdělení, pak množství y = e x má lognormální rozdělení. Pokud do exponenciální mocniny dosadíte normální hodnotu, snadno pochopíte, že lognormální hodnota je získána jako výsledek vícenásobného násobení nezávislých proměnných, stejně jako normální náhodná veličina je výsledkem vícenásobného součtu. Hustota lognormálního rozdělení je: Hlavní charakteristiky lognormálního rozdělení jsou: Chi-kvadrát distribuce Součet čtverců m nezávislých normálních hodnot se střední hodnotou 0 a rozptylem 1 má rozdělení chí-kvadrát s m stupni volnosti. Toto rozdělení se nejčastěji používá při analýze dat. Formálně má hustota dobře čtvercového rozdělení s m stupni volnosti tvar: S negativním hustota x se změní na 0. Hlavní numerické charakteristiky rozdělení chí-kvadrát jsou: Graf hustoty je znázorněn na obrázku níže: Binomické rozdělení Binomické rozdělení je nejdůležitější diskrétní rozdělení, které je soustředěno pouze v několika bodech. Binomické rozdělení přiřazuje těmto bodům kladné pravděpodobnosti. Tím se binomické rozdělení liší od spojitých rozdělení (normální, chí-kvadrát atd.), která přiřazují samostatně vybraným bodům nulové pravděpodobnosti a nazývají se spojitá. Binomické rozdělení můžete lépe pochopit, když se podíváte na následující hru. Představte si, že si hodíte mincí. Pravděpodobnost vypadnutí z erbu budiž p a pravděpodobnost získání ocasů je q = 1 - p (za nejobecnější považujeme případ, kdy je mince asymetrická, má např. posunuté těžiště - do mince se udělá díra). Pád erbu se považuje za úspěch a pád ocasu za neúspěch. Potom má počet shozených erbů (nebo ocasů) binomické rozdělení. Všimněte si, že zvažování asymetrických mincí nebo nepravidelných kostek je praktické. Jak poznamenal J. Neumann ve své elegantní knize Introductory Course in Probability Theory and Mathematical Statistics, lidé již dlouho tušili, že frekvence padajících bodů na kostce závisí na vlastnostech této kostky samotné a lze ji uměle měnit. Archeologové našli ve faraonově hrobce dva páry kostí: „poctivé“ – se stejnou pravděpodobností vypadnutí všech stran, a falešné – se záměrným posunutím těžiště, což zvýšilo pravděpodobnost vypadnutí šestek. Parametry binomického rozdělení jsou pravděpodobnost úspěchu p (q = 1 - p) a počet testů n. Binomické rozdělení je užitečné pro popis rozdělení binomických událostí, jako je počet mužů a žen v náhodně vybraných společnostech. Zvláště důležité je použití binomického rozdělení v herních úlohách. Přesný vzorec pro pravděpodobnost t úspěchů v n testů se píše takto: p-pravděpodobnost úspěchu q se rovná 1-p, q> = 0, p + q == 1 n- počet testů, m = 0,1 ... m Hlavní charakteristiky binomického rozdělení: Graf tohoto rozdělení pro různý počet pokusů n a pravděpodobnosti úspěchu p má tvar: Binomické rozdělení souvisí s normálním rozdělením a Poissonovým rozdělením (viz níže); při určitých hodnotách parametrů s velkým počtem testů přechází do těchto distribucí. To lze snadno demonstrovat pomocí STATISTICA. Například uvážíme-li graf binomického rozdělení s parametry p = 0,7, n = 100 (viz obrázek), použili jsme STATISTICA BASIC - můžete si všimnout, že graf je velmi podobný hustotě normálního rozdělení (opravdu je!). Graf binomického rozdělení s parametry p = 0,05, n = 100 je velmi podobný grafu Poissonova rozdělení. Jak již bylo zmíněno, binomické rozdělení vzešlo z pozorování nejjednodušší hazardní hry – házení správné mince. V mnoha situacích tento model slouží jako dobrá první aproximace pro složitější hry a náhodné procesy, které vznikají při hraní na burze. Je pozoruhodné, že základní rysy mnoha složitých procesů lze pochopit z jednoduchého binomického modelu. Zvažte například následující situaci. Označme pád erbu 1 a pád ocasu - mínus 1 a shrneme zisky a ztráty v po sobě jdoucích okamžicích. Grafy ukazují typické trajektorie takové hry s 1 000 hody, 5 000 hody a 10 000 hody. Věnujte pozornost tomu, jak dlouho je trajektorie nad nebo pod nulou, jinými slovy, doba, po kterou jeden z hráčů vyhrává v naprosto férové hře, je velmi dlouhá a přechody z výhry do prohry jsou poměrně vzácné, a to je těžko zapadnout.v nepřipravené mysli, pro kterou zní výraz „naprosto férová hra“ jako kouzelné zaklínadlo. Takže ačkoli je hra za daných podmínek spravedlivá, chování typické trajektorie není vůbec spravedlivé a nevykazuje rovnováhu! Empiricky je tato skutečnost samozřejmě známa všem hráčům, je s ní spojena strategie, kdy hráč nesmí odejít s výhrou, ale je nucen hrát dále. Zvažte počet hodů, během kterých jeden hráč vyhraje (dráha nad 0) a druhý prohraje (dráha pod 0). Na první pohled se zdá, že počet takových hodů je přibližně stejný. Nicméně (viz vzrušující kniha: Feller V. „Úvod do teorie pravděpodobnosti a její aplikace.“ Moskva: Mir, 1984, s. 106) s 10 000 hody ideální mincí (tj. p = q = 0,5, n = 10 000) pravděpodobnost, že jedna ze stran povede více než 9 930 pokusů a druhá - méně než 70, přesahuje 0,1. Překvapivě, ve hře 10 000 hodů správnou mincí je pravděpodobnost, že se vedení nezmění více než 8krát, větší než 0,14 a pravděpodobnost více než 78 změn vedení je přibližně 0,12. Máme tedy paradoxní situaci: v Bernoulliho symetrické chůzi mohou být „vlny“ na grafu mezi po sobě jdoucími nulovými výnosy (viz grafy) překvapivě dlouhé. S tím souvisí další okolnost, totiž že pro T n / n (část času, kdy je graf nad osou úsečky), nejméně pravděpodobné hodnoty jsou blízké 1/2. Matematici objevili takzvaný arcsinusový zákon, podle kterého pro každou 0< а <1 вероятность неравенства
, где Т n - число шагов, в течение которых первый игрок находится в выигрыше, стремится к Distribuce arksinus Tato spojitá distribuce je soustředěna na interval (0, 1) a má hustotu: Inverzní sinusové rozložení je spojeno s náhodnou procházkou. Toto je rozložení podílu času, během kterého první hráč vyhrává, když hází symetrickou mincí, tedy mincí, která má stejnou pravděpodobnost S padá na erb a ocasy. Jiným způsobem lze na takovou hru nahlížet jako na náhodnou procházku částice, která počínaje nulou provádí skoky jednotek doprava nebo doleva se stejnou pravděpodobností. Vzhledem k tomu, že skoky částice - vzhled erbu nebo ocasu - jsou stejně pravděpodobné, je taková chůze často nazývána symetrická. Pokud by se pravděpodobnosti lišily, pak bychom měli asymetrickou chůzi. Graf hustoty distribuce arcsinusu je znázorněn na následujícím obrázku: Nejzajímavější je kvalitní interpretace grafu, ze které lze vyvodit úžasné závěry o sérii výher a sérii proher ve férové hře. Při pohledu na graf můžete vidět, že v bodě je minimum hustoty 1/2. "Tak co?!" - ptáš se. Pokud se ale nad tímto postřehem zamyslíte, pak se vašemu překvapení meze nekladou! Ukazuje se, že když je hra definována jako férová, ve skutečnosti není tak férová, jak by se na první pohled mohlo zdát. Trajektorie symetrické náhodné, ve které částice stráví stejný čas jak na kladné, tak na záporné poloose, tedy vpravo nebo vlevo od nuly, jsou právě nejméně pravděpodobné. Když přejdeme k řeči hráčů, můžeme říci, že při házení symetrické mince jsou nejméně pravděpodobné hry, ve kterých mají hráči stejný čas na výhru i prohru. Naopak nejpravděpodobnější jsou hry, ve kterých jeden hráč výrazně častěji vyhraje, respektive druhý prohraje. Úžasný paradox! Vypočítat pravděpodobnost, že zlomek času t, během kterého první hráč vyhraje, leží v rozmezí od t1 to t2, je nutné z hodnoty distribuční funkce F (t2) odečtěte hodnotu distribuční funkce F (t1). Formálně dostáváme: P (t1 Na základě této skutečnosti je možné pomocí STATISTICA vypočítat, že při 10 000 krocích zůstává částice na kladné straně více než 9930 časových okamžiků s pravděpodobností 0,1, tedy zhruba řečeno, taková situace bude pozorována minimálně v jeden případ z deseti. (i když se to na první pohled zdá absurdní; viz pozoruhodně jasná poznámka Yu. V. Prochorova „Bernoulliho procházka“ v encyklopedii „Pravděpodobnost a matematická statistika“, str. 42-43, Moskva: Velká ruská encyklopedie, 1999) ... Negativní binomické rozdělení Jedná se o diskrétní rozdělení, které se přiřazuje k celým bodům k = 0,1,2, ... pravděpodobnosti: p k = P (X = k) = C k r + k-1 p r (l-p) k ", kde 0<р<1,r>0.
Záporné binomické rozdělení se nachází v mnoha aplikacích. Obecně r> 0 záporné binomické rozdělení je interpretováno jako rozdělení doby čekání na r-tý „úspěch“ v Bernoulliho testovacím schématu s pravděpodobností „úspěchu“ p, například počet hodů, které mají být provedeny před odhozením druhého erbu, v takovém případě se někdy nazývá Pascalovo rozdělení a je diskrétní obdobou rozdělení gama. Na r = 1 záporné binomické rozdělení se shoduje s geometrickým rozdělením. Pokud Y je náhodná proměnná s Poissonovým rozdělením s náhodným parametrem, který má zase gama rozdělení s hustotou Pak bude mít Ub záporné binomické rozdělení s parametry; Poissonovo rozdělení Poissonova distribuce je někdy označována jako distribuce vzácných událostí. Příklady proměnných rozdělených podle Poissonova zákona jsou: počet nehod, počet vad ve výrobním procesu atd. Poissonovo rozdělení je určeno vzorcem: Hlavní charakteristiky Poissonovy náhodné veličiny: Poissonovo rozdělení souvisí s exponenciálním rozdělením a Bernoulliho rozdělením. Pokud má počet událostí Poissonovo rozdělení, pak intervaly mezi událostmi mají exponenciální nebo exponenciální rozdělení. Poissonův distribuční graf: Porovnejte graf Poissonova rozdělení s parametrem 5 s grafem Bernoulliho rozdělení při p = q = 0,5, n = 100. Uvidíte, že grafy jsou si velmi podobné. V obecném případě existuje následující vzorec (viz např. vynikající kniha: Shiryaev AN „Pravděpodobnost.“ Moskva: Nauka, str. 76): jestliže v Bernoulliho testech n nabývá velkých hodnot a pravděpodobnost úspěchu / ? je relativně malý, takže průměrný počet úspěchů (součin a bp) není malý ani velký, pak lze Bernoulliho rozdělení s parametry n, p nahradit Poissonovým rozdělením s parametrem = np. Poissonovo rozdělení je v praxi hojně využíváno např. v grafech kontroly kvality jako rozdělení vzácných událostí. Jako další příklad uvažujme následující problém týkající se telefonních linek a převzatý z praxe (viz: Feller V. Úvod do teorie pravděpodobnosti a jejích aplikací. Moskva: Mir, 1984, s. 205, a také Molina E. S. (1935) Pravděpodobnost ve strojírenství, Elektrotechnika, 54, str. 423-427, Bell Telephone System Technical Publications Monografie B-854). Tento úkol lze snadno přeložit do moderního jazyka, například do jazyka mobilních komunikací, k čemuž jsou vyzýváni čtenáři, kteří mají zájem. Problém je formulován následovně. Nechť jsou dvě telefonní ústředny - A a B. Telefonní stanice A musí zajistit komunikaci 2000 účastníků se stanicí B. Kvalita komunikace musí být taková, aby pouze 1 hovor ze 100 čekal na uvolnění linky. Otázka zní: kolik telefonních linek je potřeba položit, aby byla zajištěna daná kvalita komunikace? Je zřejmé, že je hloupost vytvořit 2000 řádků, protože mnoho z nich bude na dlouhou dobu zdarma. Z intuitivních úvah je zřejmé, že zjevně existuje nějaký optimální počet řádků N. Jak toto číslo vypočítat? Začněme realistickým modelem, který popisuje intenzitu přístupu účastníka k síti, přičemž si uvědomme, že přesnost modelu lze samozřejmě kontrolovat pomocí standardních statistických kritérií. Předpokládejme tedy, že každý účastník používá linku v průměru 2 minuty za hodinu a účastnická připojení jsou nezávislá (avšak, jak správně poznamenává Feller, k tomu druhému dochází, pokud nenastanou žádné události, které by postihly všechny účastníky, například válka nebo hurikán). Máme pak 2000 Bernoulliho pokusů (hození mincí) nebo síťových připojení s úspěšností p = 2/60 = 1/30. Takové N musíte najít, když pravděpodobnost, že více než N uživatelů je současně připojeno k síti, nepřekročí 0,01. Tyto výpočty lze jednoduše řešit v systému STATISTICA. Řešení problému na STATISTICE. Krok 1. Otevřete modul Základní statistiky... Vytvořte soubor binoml.sta obsahující 110 pozorování. Pojmenujte první proměnnou BINOMICKÝ, druhá proměnná je JED. Krok 2. BINOMICKÝ, Otevřete okno Proměnná 1(viz obr.). Zadejte vzorec do okna, jak je znázorněno na obrázku. Klepněte na tlačítko OK. Krok 3 Dvojitým kliknutím na nadpis JED, Otevřete okno Proměnná 2(viz obr.) Zadejte vzorec do okna, jak je znázorněno na obrázku. Všimněte si, že pomocí vzorce počítáme parametr Poissonova rozdělení = n × p. Tedy = 2000 × 1/30. Klepněte na tlačítko OK.
STATISTICA spočítá pravděpodobnosti a zapíše je do vygenerovaného souboru. Krok 4 Procházejte vytvořenou tabulkou k případům očíslovaným 86. Uvidíte, že pravděpodobnost, že 86 nebo více z 2000 uživatelů sítě pracuje současně po dobu jedné hodiny, je 0,01347, pokud se použije binomické rozdělení. Pravděpodobnost, že 86 nebo více lidí z 2 000 uživatelů sítě pracuje současně hodinu, je 0,01293 při použití Poissonovy aproximace pro binomické rozdělení. Protože potřebujeme pravděpodobnost ne větší než 0,01, bude k zajištění požadované kvality komunikace stačit 87 řádků. Podobné výsledky lze získat použitím normální aproximace pro binomické rozdělení (ověřte si to!). Všimněte si, že V. Feller neměl k dispozici systém STATISTICA a používal tabulky pro binomické a normální rozdělení. Za použití stejné úvahy lze vyřešit následující problém, o kterém hovořil W. Feller. Při rozdělení do 2 skupin po 1000 lidech je nutné prověřit, zda bude ke spolehlivé obsluze uživatelů potřeba více či méně linek. Ukazuje se, že rozdělení uživatelů do skupin bude vyžadovat dalších 10 řádků, aby bylo dosaženo stejné úrovně kvality. Zohlednit můžete i změnu intenzity připojení k síti během dne. Geometrické rozložení Pokud se provádějí nezávislé Bernoulliho testy a počet testů se počítá až do dalšího „úspěchu“, pak má toto číslo geometrické rozdělení. Pokud tedy hodíte mincí, počet hodů, které musíte provést, než vypadne další erb, se řídí geometrickým zákonem. Geometrické rozdělení je určeno vzorcem: F (x) = p (1-p) x-1 p je pravděpodobnost úspěchu, x = 1, 2,3 ... Název distribuce je spojen s geometrickou progresí. Geometrické rozdělení tedy nastavuje pravděpodobnost, že úspěch přišel v určitém kroku. Geometrické rozdělení je diskrétní analogií exponenciálního rozdělení. Pokud se čas mění v kvantech, pak pravděpodobnost úspěchu v každém časovém okamžiku popisuje geometrický zákon. Pokud je čas spojitý, pak je pravděpodobnost popsána exponenciálním nebo exponenciálním zákonem. Hypergeometrické rozložení Toto je diskrétní rozdělení pravděpodobnosti náhodné proměnné X nabývající celočíselných hodnot m = 0, 1,2, ..., n s pravděpodobnostmi: kde N, M a n jsou nezáporná celá čísla a M<
N, n < N. Hypergeometrické rozdělení je obvykle spojeno s volbou bez recidivy a určuje např. pravděpodobnost nalezení přesně m černých kuliček v náhodném vzorku velikosti n z obecné populace obsahující N kuliček, včetně M černých a N - M bílých (viz. , například encyklopedie „Pravděpodobnost a matematická statistika“, Moskva: Velká ruská encyklopedie, str. 144). Matematické očekávání hypergeometrického rozdělení nezávisí na N a shoduje se s matematickým očekáváním µ = np odpovídajícího binomického rozdělení. Disperze hypergeometrického rozdělení nepřesahuje rozptyl binomického rozdělení npq. Pro momenty libovolného řádu má hypergeometrické rozdělení tendenci k odpovídajícím hodnotám momentů binomického rozdělení. Tato distribuce je extrémně běžná v úlohách kontroly kvality. Polynomiální rozdělení Polynomiální nebo vícečlenné rozdělení přirozeně zobecňuje rozdělení. Pokud k binomickému rozdělení dojde, když se hází mincí se dvěma výsledky (mřížka nebo erb), pak k polynomickému rozdělení dojde při hodu kostkou a jsou více než dva možné výsledky. Formálně se jedná o společné rozdělení pravděpodobnosti náhodných proměnných X 1, ..., X k, nabývající celočíselných nezáporných hodnot n 1, ..., nk, splňujících podmínku n 1 + ... + nk = n, s pravděpodobnostmi: Název "rozdělení polynomů" se vysvětluje tím, že mnohočlenné pravděpodobnosti vznikají při expanzi polynomu (p 1 + ... + p k) n Beta distribuce Distribuce beta má hustotu tvaru: Standardní distribuce beta je soustředěna v rozsahu od 0 do 1. Aplikací lineárních transformací lze hodnotu beta transformovat tak, že bude nabývat hodnot v jakémkoli rozsahu. Hlavní číselné charakteristiky veličiny s beta rozdělením: Rozdělení extrémních hodnot Rozložení extrémních hodnot (typ I) má hustotu tvaru: Toto rozdělení je někdy také označováno jako extrémní rozdělení. Distribuce extrémních hodnot se používá k modelování extrémních událostí, jako jsou úrovně povodní, rychlosti vírů, maximum indexů akciového trhu pro daný rok atd. Toto rozdělení se používá v teorii spolehlivosti například k popisu doby selhání elektrických obvodů a také v pojistně matematických výpočtech. Rayleighova distribuce Rayleighovo rozdělení má hustotu tvaru: kde b je parametr měřítka. Rayleighovo rozdělení je soustředěno v rozsahu od 0 do nekonečna. Místo 0 vám STATISTICA umožňuje zadat jinou hodnotu prahového parametru, která bude odečtena od původních dat před přizpůsobením Rayleighova rozdělení. Hodnota prahového parametru by proto měla být menší než všechny pozorované hodnoty. Pokud jsou dvě proměnné y 1 a y 2 na sobě nezávislé a jsou normálně rozděleny se stejným rozptylem, pak proměnná bude mít distribuci Rayleigh. Rayleighovo rozdělení se používá např. v teorii střelby. Weibullova distribuce Weibullova distribuce je pojmenována po švédském výzkumníkovi Waloddi Weibullovi, který tuto distribuci použil k popisu různých typů poruchových dob v teorii spolehlivosti. Formálně je hustota Weibullova rozdělení zapsána ve tvaru: Někdy je hustota Weibullova rozdělení také zapsána ve tvaru: B je parametr měřítka; С - parametr tvaru; E je Eulerova konstanta (2,718 ...). Parametr pozice. Typicky je Weibullova distribuce vystředěna na semiose od 0 do nekonečna. Pokud místo hranice 0 zavedeme v praxi často nutný parametr a, pak vzniká tzv. tříparametrové Weibullovo rozdělení. Weibullova distribuce je široce používána v teorii spolehlivosti a pojištění. Jak je popsáno výše, exponenciální rozdělení se často používá jako model pro odhad MTBF za předpokladu, že pravděpodobnost selhání zařízení je konstantní. Pokud se pravděpodobnost poruchy v čase mění, použije se Weibullovo rozdělení. Na c = 1 nebo v jiné parametrizaci at se Weibullovo rozdělení, jak je snadno patrné ze vzorců, transformuje na exponenciální rozdělení a at na Rayleighovo rozdělení. Pro odhad parametrů Weibullova rozdělení byly vyvinuty speciální metody (viz např. kniha: Lawless (1982) Statistické modely a metody pro celoživotní data, Belmont, CA: Lifetime Learning, která popisuje metody odhadu, stejně jako např. problémy, které vznikají při odhadu parametru polohy pro tříparametrové rozdělení Weibull). Při provádění analýzy spolehlivosti je často nutné zvážit pravděpodobnost poruchy v krátkém časovém intervalu po určitém časovém okamžiku. t za předpokladu, že až do této chvíle t nedošlo k žádné poruše. Taková funkce se nazývá riziková funkce nebo funkce poruchovosti a je formálně definována takto: H (t) - funkce poruchovosti nebo funkce rizika v čase t; f (t) - hustota rozložení dob selhání; F (t) - distribuční funkce dob porušení (integrál hustoty za interval). Obecně je funkce poruchovosti zapsána následovně: Když je riziková funkce rovna konstantě, která odpovídá běžnému provozu zařízení (viz vzorce). Při, funkce rizika klesá, což odpovídá záběhu zařízení. Při, funkce rizika klesá, což odpovídá stárnutí zařízení. Typické rizikové funkce jsou znázorněny v grafu. Weibullovy grafy hustoty s různými parametry jsou uvedeny níže. Je třeba věnovat pozornost třem rozsahům hodnot parametru a: V první oblasti riziková funkce klesá (období ladění), ve druhé oblasti je riziková funkce rovna konstantě, ve třetí oblasti se riziková funkce zvyšuje. Snadno pochopíte, co bylo řečeno na příkladu nákupu nového vozu: nejprve je období adaptace vozu, poté dlouhé období běžného provozu, poté se autodíly opotřebují a riziko jeho selhání prudce stoupá. . Je důležité, aby všechna období provozu mohla být popsána stejnou distribuční rodinou. To je myšlenka distribuce Weibull. Zde jsou hlavní číselné charakteristiky Weibullova rozdělení. Paretova distribuce V různých problémech aplikované statistiky se často setkáváme s tzv. zkrácenými distribucemi. Toto rozdělení se například používá v pojišťovnictví nebo ve zdanění, když jsou úroky z příjmu, které přesahují určitou hodnotu c 0 Hlavní číselné charakteristiky Paretova rozdělení: Logistická distribuce Logistická distribuce má funkci hustoty: A - parametr polohy; B je parametr měřítka; E je Eulerovo číslo (2,71 ...). Hotelling T 2 -distribuce Tato spojitá distribuce, soustředěná na interval (0, T), má hustotu: kde jsou parametry n a k, n> _k> _1, se nazývají stupně volnosti. Na Hotellingovo k = 1, P-rozdělení se redukuje na Studentovo rozdělení a pro libovolné k> 1 lze považovat za zobecnění Studentova rozdělení na vícerozměrný případ. Hotellingovo rozdělení je založeno na normálním rozdělení. Nechť k-rozměrný náhodný vektor Y má normální rozdělení s nulovým středním vektorem a kovarianční maticí. Zvažte hodnotu kde náhodné vektory Zi jsou nezávislé na sobě a Y a jsou distribuovány stejným způsobem jako Y. Pak náhodná veličina T 2 = Y T S -1 Y má T 2-Hotellingovo rozdělení s n stupni volnosti (Y je sloupcový vektor, T je transpoziční operátor). kde náhodná proměnná t n má Studentovo rozdělení s n stupni volnosti (viz „Pravděpodobnost a matematická statistika“, Encyklopedie, str. 792). Pokud má Y normální rozdělení s nenulovým průměrem, pak se nazývá odpovídající rozdělení mimo střed Hotelling T 2 -rozdělení s n stupni volnosti a parametrem necentrality v. Hotellingovo T 2 -rozdělení se používá v matematické statistice ve stejné situaci jako Studentovo t-rozdělení, ale pouze ve vícerozměrném případě. Pokud jsou výsledky pozorování X 1, ..., X n nezávislé, normálně distribuované náhodné vektory se středním vektorem µ a nedegenerovanou kovarianční maticí, pak statistika má distribuci Hotelling T 2 s n - 1 stupně volnosti. Tato skutečnost tvoří základ Hotellingova kritéria. Ve STATISTICE je kritérium Hotelling dostupné např. v modulu Základní statistiky a tabulky (viz dialogové okno níže). Maxwellova distribuce Maxwellovo rozdělení vzniklo ve fyzice při popisu rozložení rychlostí molekul ideálního plynu. Toto spojité rozdělení je vystředěno na (0,) a má hustotu: Distribuční funkce má tvar: kde Ф (x) je standardní normální distribuční funkce. Maxwellovo rozdělení má kladný koeficient šikmosti a jediný mód v bodě (tj. rozdělení je unimodální). Maxwellovo rozdělení má konečné momenty libovolného řádu; matematické očekávání a rozptyl jsou stejné, resp Maxwellovo rozdělení přirozeně souvisí s normálním rozdělením. Pokud jsou X 1, X 2, X 3 nezávislé náhodné veličiny s normálním rozdělením s parametry 0 a х 2, pak náhodná veličina má distribuci Maxwell. Maxwellovo rozdělení lze tedy považovat za rozdělení délky náhodného vektoru, jehož souřadnice v kartézském souřadnicovém systému v trojrozměrném prostoru jsou nezávislé a normálně rozložené se střední hodnotou 0 a rozptylem x 2. Cauchyho distribuce Toto úžasné rozdělení někdy nemá průměrnou hodnotu, protože jeho hustota velmi pomalu inklinuje k nule s rostoucím x v absolutní hodnotě. Takové distribuce se nazývají distribuce s těžkým koncem. Pokud potřebujete přijít s distribucí, která nemá žádný prostředek, pak okamžitě zavolejte Cauchyho distribuci. Cauchyho distribuce je unimodální a symetrická vzhledem k modu, který je současně mediánem a má funkci hustoty tvaru: kde c> 0 je parametr měřítka a a je středový parametr, který současně určuje hodnoty režimu a mediánu. Integrál hustoty, tedy distribuční funkce, je dán poměrem: Studentova t distribuce Anglický statistik V. Gosset, známý pod pseudonymem „Student“ a který svou kariéru zahájil statistickou studií kvality anglického piva, obdržel v roce 1908 následující výsledek. Nech být x 0, x 1, .., x m - nezávislé, (0, s 2) - normálně rozdělené náhodné veličiny: Tato distribuce, nyní známá jako Studentova t distribuce (zkráceně jako t (m) -distribuce, kde m je počet stupňů volnosti), je základem slavného t-testu určeného k porovnání průměrů dvou populací. Funkce hustoty f t (x) nezávisí na rozptylu х 2 náhodných veličin a navíc je unimodální a symetrický vzhledem k bodu х = 0. Základní číselné charakteristiky Studentova rozdělení: T-rozdělení je důležité, když se berou v úvahu odhady průměru a výběrový rozptyl není znám. V tomto případě se použije výběrový rozptyl a t-rozdělení. Při velkých stupních volnosti (větší než 30) se t-rozdělení prakticky shoduje se standardním normálním rozdělením. Graf funkce hustoty t-rozdělení se s rostoucím počtem stupňů volnosti deformuje následovně: vrchol se zvětšuje, konce jdou strměji k 0 a zdá se, jako by grafy funkce hustoty t-rozdělení jsou stlačeny bočně. F-rozdělení Zvážit m 1 + m 2 nezávislé a (0, s 2) normálně rozložené veličiny a dát Je zřejmé, že stejnou náhodnou proměnnou lze definovat jako poměr dvou nezávislých a vhodně normalizovaných chí-kvadrát distribuovaných veličin, tj. Slavný anglický statistik R. Fisher v roce 1924 ukázal, že hustota pravděpodobnosti náhodné veličiny F (m 1, m 2) je dána funkcí: kde Γ (y) je hodnota Eulerovy gama funkce v. směřovat y a samotný zákon se nazývá F-rozdělení s počty stupňů volnosti v čitateli a jmenovateli rovným m, 1 a m7. Základní číselné charakteristiky F-rozdělení: K F-distribuci dochází v diskriminační, regresní a rozptylové analýze a dalších typech vícerozměrné analýzy dat. Podstatné jméno., Počet synonym: 1 distribuce (62) Slovník synonym ASIS. V.N. Trishin. 2013... Slovník synonym beta distribuce- 1,45. beta rozdělení Pravděpodobnostní rozdělení spojité náhodné veličiny X, která může nabývat libovolných hodnot od 0 do 1 včetně hranic a jejíž hustota rozdělení je při 0 £ x £ 1 a parametry m1> 0, m2> 0, kde Г .. .... Slovník-příručka termínů normativní a technické dokumentace beta distribuce- rozdělení pravděpodobnosti spojité náhodné veličiny nabývající hodnot na segmentu, jehož hustota je dána vzorcem, kde a, b> 0 a je funkce gama. Poznámka. Jeho speciální pouzdra jsou široce používána ... ... Slovník sociologické statistiky Viz plán... Slovník synonym V teorii pravděpodobnosti a matematické statistice je Dirichletovo rozdělení (pojmenované po Johannu Peteru Gustave Lejeune Dirichletovi) často označované Dir (α) rodinou spojitých vícerozměrných rozdělení pravděpodobnosti parametrizovaných vektorem α ... ... Wikipedia Beta: Wikislovník má položku „beta“ Beta (písmeno) (β) je druhé písmeno řecké abecedy. Beta testování Koeficient beta Funkce beta (matematika) Rozdělení beta (teorie pravděpodobnosti ... Wikipedie Hustota pravděpodobnosti ... Wikipedie Rozdělení pravděpodobností je zákon, který popisuje rozsah hodnot náhodné veličiny a pravděpodobnost jejich přijetí. Obsah 1 Definice 2 Způsoby definování distribucí ... Wikipedie Rozdělení. Pearsonovo rozdělení Hustota pravděpodobnosti ... Wikipedie
T má exponenciální rozdělení s parametrem (lambda). Exponenciální rozdělení se často používá k popisu intervalu mezi po sobě jdoucími náhodnými událostmi, jako je interval mezi návštěvami neoblíbeného webu, protože tyto návštěvy jsou vzácné.
knihy