Računala Windows Internet

Izračun Kendallove korelacije. Korelacija ranga i Kendall -ov koeficijent korelacije ranga. Što bi trebalo biti polazište pri definiranju teme, objekta, predmeta, cilja, ciljeva i hipoteze istraživanja

Za izračun koeficijenta korelacija ranga Kendall r k potrebno je rangirati podatke za jedan od atributa uzlaznim redoslijedom i odrediti odgovarajuće rangove za drugi atribut. Zatim se za svaki rang drugog obilježja određuje broj sljedećih rangova koji je veći po veličini od uzetog ranga i nalazi se zbroj tih brojeva.

Kendallov koeficijent korelacije ranga određen je formulom


gdje R i- broj činova druge varijable, počevši od i+1, čija je veličina veća od magnitude i rang ove varijable.

Postoje tablice postotnih bodova raspodjele koeficijenta r k, omogućujući vam da testirate hipotezu o značaju koeficijenta korelacije.

Za velike veličine uzoraka, kritične vrijednosti r k nisu tabelarno prikazane i moraju se izračunati pomoću približnih formula koje se temelje na činjenici da prema nultoj hipotezi H 0: r k= 0 i velika n slučajna vrijednost

distribuirani približno prema standardnom normalnom zakonu.

40. Odnos između svojstava mjerenih u nominalnoj ili ordinalnoj ljestvici

Često se javlja problem provjere neovisnosti dviju značajki mjerenih na nominalnoj ili ordinalnoj ljestvici.

Neka neki objekti mjere dvije značajke x i Y s brojem razina r i s odnosno. Rezultati takvih opažanja prikladno su predstavljeni u obliku tablice, koja se naziva tablica nepredviđenih situacija.

U stolu u i(i = 1, ..., r) i v j (j= 1, ..., s) - vrijednosti uzete po značajkama, vrijednost n ij- broj objekata od ukupnog broja objekata za koje je atribut x poprimio značenje u i, i znak Y- značenje v j

Uvodimo sljedeće slučajne varijable:

u i


- broj objekata koji imaju vrijednost v j


Osim toga, postoje očite jednakosti



Diskretne slučajne varijable x i Y neovisni ako i samo ako

za sve parove i, j

Stoga je nagađanje o neovisnosti diskretnih slučajnih varijabli x i Y može se napisati ovako:

Kao alternativu, u pravilu, koriste hipotezu

Valjanost hipoteze H 0 treba prosuditi na temelju frekvencija uzorka n ij tablice nepredviđenih situacija. U skladu sa zakonom velikih brojeva pri n→ ∞, relativne frekvencije bliske su odgovarajućim vjerojatnostima:



Za provjeru hipoteze H 0 koriste se statistike

koja, ako je hipoteza točna, ima raspodjelu χ 2 sek rs − (r + s- 1) stupnjevi slobode.

Kriterij neovisnosti χ 2 odbacuje hipotezu H 0 s razinom značajnosti α ako:


41. Regresijska analiza. Osnovni pojmovi regresijske analize

Za matematički opis statističkih odnosa između proučavanih varijabli potrebno je riješiti sljedeće zadatke:

ü odabrati klasu funkcija u kojoj je svrsishodno tražiti najbolju (u određenom smislu) aproksimaciju ovisnosti interesa;

ü pronaći procjene nepoznatih vrijednosti parametara uključenih u jednadžbe željene ovisnosti;

ü utvrditi primjerenost dobivene jednadžbe potrebne ovisnosti;

ü za identifikaciju najinformativnijih ulaznih varijabli.

Ukupnost navedenih zadataka predmet je istraživanja u regresijskoj analizi.

Regresijska funkcija (ili regresija) ovisnost je matematičkog očekivanja jedne slučajne varijable o vrijednosti koju uzima druga slučajna varijabla, koja s prvom čini dvodimenzionalni sustav slučajnih varijabli.

Neka postoji sustav slučajnih varijabli ( x,Y), zatim funkciju regresije Y na x

I funkcija regresije x na Y

Regresijske funkcije f(x) i φ (y) nisu međusobno reverzibilni samo ako je odnos između x i Y nije funkcionalan.

Kada n-dimenzionalni vektor s koordinatama x 1 , x 2 ,…, X n možete uzeti u obzir uvjetna matematička očekivanja za bilo koju komponentu. Na primjer, za x 1


naziva se regresija x 1 uključeno x 2 ,…, X n.

Za potpunu definiciju regresijske funkcije potrebno je poznavati uvjetnu raspodjelu izlazne varijable za fiksne vrijednosti ulazne varijable.

Budući da u stvarnoj situaciji takve informacije nisu dostupne, obično su ograničene na traženje odgovarajuće aproksimacijske funkcije f a(x) za f(x), na temelju statističkih podataka oblika ( x i, y i), i = 1,…, n... Ovi podaci su rezultat n neovisna opažanja y 1 ,…, y n nasumična varijabla Y za vrijednosti ulazne varijable x 1 ,…, x n, dok regresijska analiza pretpostavlja da su vrijednosti ulazne varijable točno određene.

Problem odabira najbolje aproksimativne funkcije f a(x), koji je glavni u regresijskoj analizi i nema formalizirane postupke za njegovo rješavanje. Ponekad se izbor određuje na temelju analize eksperimentalnih podataka, češće iz teorijskih razmatranja.

Ako se pretpostavi da je funkcija regresije dovoljno glatka, tada je funkcija aproksimacije f a(x) može se predstaviti kao linearna kombinacija skupa linearno neovisnih baznih funkcija ψ k(x), k = 0, 1,…, m−1, tj. U obliku


gdje m- broj nepoznatih parametara θ k(u općem slučaju vrijednost je nepoznata, dorađena tijekom izgradnje modela).

Takva je funkcija linearna u parametrima, stoga u razmatranom slučaju govorimo o modelu regresijske funkcije koji je linearno u parametrima.

Zatim problem pronalaženja najbolje aproksimacije za liniju regresije f(x) svodi se na pronalaženje takvih vrijednosti parametara za koje f a(x; θ) je najadekvatniji dostupnim podacima. Jedna od metoda za rješavanje ovog problema je metoda najmanjih kvadrata.

42. Metoda najmanjeg kvadrata

Neka je skup točaka ( x i, y i), i= 1,…, n smješten u ravnini uz neku ravnu liniju

Zatim, kao funkcija f a(x) aproksimacija regresijske funkcije f(x) = M [Y|x] prirodno je uzeti linearna funkcija argument x:


Odnosno, ovdje se biraju osnovne funkcije ψ 0 (x) ≡1 i ψ 1 (x)≡x... Ta se regresija naziva jednostavna linearna regresija.

Ako je skup bodova ( x i, y i), i= 1,…, n nalazi se uz neku krivulju, zatim kao f a(x) prirodno je pokušati odabrati obitelj parabola

Ova je funkcija nelinearna u parametrima θ 0 i θ 1, međutim, funkcionalnom transformacijom (u ovom slučaju logaritmom) može se svesti na nova funkcija f ’a(x), linearnih parametara:


43. Jednostavna linearna regresija

Najjednostavniji regresijski model je jednostavan (jednodimenzionalni, jednosmjerni, upareni) linearni model, koji ima sljedeći oblik:


gdje ε i- slučajne varijable (pogreške) međusobno nepovezane, s nula matematičkih očekivanja i istim odstupanjima σ 2 , a i b- konstantni koeficijenti (parametri) koje je potrebno procijeniti iz izmjerenih vrijednosti odziva y i.

Da biste pronašli procjene parametara a i b linearna regresija, koja određuje ravnu liniju koja najviše zadovoljava eksperimentalne podatke:


primjenjuje se metoda najmanjih kvadrata.

Prema najmanje kvadrate procjene parametara a i b nalaze se iz uvjeta minimiziranja zbroja kvadrata odstupanja vrijednosti y i okomito od "prave" regresijske linije:

Neka postoji deset opažanja slučajne varijable Y s fiksnim vrijednostima varijable x

Za minimiziranje D izjednačujemo nuli parcijalne izvedenice s obzirom na a i b:



Kao rezultat toga dobivamo sljedeći sustav jednadžbi za pronalaženje procjena a i b:


Rješavanje ove dvije jednadžbe daje:



Izrazi za procjene parametara a i b mogu se predstaviti i kao:

Zatim empirijska jednadžba regresijske crte Y na x može se napisati kao:


Nepristrana procjena varijance σ 2 odstupanja vrijednosti y i iz uklopljene ravne linije regresije dat je izrazom

Izračunajmo parametre regresijske jednadžbe


Dakle, linija regresije izgleda ovako:


I procjena varijance odstupanja vrijednosti y i od uklopljene ravne linije regresije


44. Provjera značenja regresijske crte

Pronađena procjena b≠ 0 može biti ostvarenje slučajne varijable, čije je matematičko očekivanje jednako nuli, odnosno može se pokazati da zapravo nema regresijske ovisnosti.

Da biste se nosili s ovom situacijom, trebali biste testirati hipotezu H 0: b= 0 s konkurentnom hipotezom H 1: b ≠ 0.

Značaj regresijske linije može se ispitati analizom varijance.

Uzmite u obzir sljedeći identitet:

Količina y iŷ i = ε i naziva se ostatak i razlika je između dvije veličine:

ü odstupanje promatrane vrijednosti (odziva) od ukupnog prosječnog odziva;

ü odstupanje predviđene vrijednosti odziva ŷ i od istog prosjeka

Pisani identitet može se napisati kao


Kvadriranjem oba njegova dijela i zbrajanjem i, dobivamo:


Gdje se imenuju količine:

ukupni (ukupni) zbroj kvadrata SC n, koji je jednak zbroju kvadrata odstupanja opažanja u odnosu na srednju vrijednost opažanja

zbroj kvadrata zbog regresije SK p, koji je jednak zbroju kvadrata odstupanja vrijednosti regresijske crte u odnosu na srednju vrijednost opažanja.

zaostali zbroj kvadrata SK 0. koji je jednak zbroju kvadrata odstupanja opažanja u odnosu na vrijednosti regresijske crte

Dakle, širenje Y-kov u odnosu na njihovu srednju vrijednost može se donekle pripisati činjenici da sva opažanja ne leže na liniji regresije. Da je to slučaj, tada bi zbroj kvadrata u odnosu na regresiju bio nula. Stoga slijedi da će regresija biti značajna ako je zbroj kvadrata SC p veći od zbroja kvadrata SC 0.

Izračuni za provjeru značaja regresije provedeni su u sljedećoj tablici ANOVA -e

Ako greške ε i raspodijeljen prema normalnom zakonu, tada ako je hipoteza H 0 valjana: b= 0 statistika:


distribuirani prema Fisherovom zakonu s brojem stupnjeva slobode 1 i n−2.

Nulta hipoteza bit će odbačena na razini značajnosti α ako je izračunata vrijednost statistike Ž bit će veći od α postotnog boda f 1;n−2; α Fisherove distribucije.

45. Provjera adekvatnosti regresijskog modela. Preostala metoda

Adekvatnost izgrađenog regresijskog modela shvaća se kao činjenica da niti jedan drugi model ne daje značajno poboljšanje u predviđanju odgovora.

Ako su sve vrijednosti odgovora dobivene na različitim vrijednostima x, tj. Ne postoji nekoliko vrijednosti odgovora dobivenih s istim x i, tada se može provesti samo ograničeno ispitivanje prikladnosti linearnog modela. Temelj za takvu provjeru su ostaci:

Odstupanja od utvrđenog obrasca:

Ukoliko x- jednodimenzionalna varijabla, točke ( x i, d i) mogu se iscrtati na ravnini u obliku takozvane zaostale plohe. Takav prikaz ponekad omogućuje pronalaženje neke pravilnosti u ponašanju reziduala. Osim toga, analiza reziduala omogućuje vam analizu pretpostavki o distribuciji pogrešaka.

U slučaju kada su pogreške raspoređene prema normalnom zakonu i postoji apriorna procjena njihove varijance σ 2 (procjena dobivena na temelju prethodno provedenih mjerenja), tada je moguća točnija procjena adekvatnosti modela.

Pomoću Ž-Fisherov kriterij se može koristiti za provjeru je li preostala varijansa značajna s 0 2 razlikuje se od apriorne procjene. Ako je znatno veći, onda postoji neadekvatnost i model treba revidirati.

Ako prethodna procjena σ 2 ne, ali mjerenje odziva Y ponavljaju dva ili više puta s istim vrijednostima x, tada se ta ponovljena opažanja mogu koristiti za dobivanje druge procjene σ 2 (prva je zaostala varijansa). Za takvu procjenu se kaže da predstavlja "čistu" pogrešku, budući da ako x su jednaki za dva ili više opažanja, tada samo slučajne promjene mogu utjecati na rezultate i stvoriti rasipanje među njima.

Rezultirajuća procjena pokazuje se pouzdanijom procjenom varijance od procjene dobivene drugim metodama. Iz tog razloga, pri planiranju pokusa ima smisla postaviti eksperimente s ponavljanjima.

Pretpostavimo da postoji m različita značenja x : x 1 , x 2 , ..., x m... Neka za svaku od ovih vrijednosti x i tamo je n i zapažanja odgovora Y... Ukupna zapažanja su:

Tada se jednostavni linearni regresijski model može zapisati kao:


Pronađimo varijaciju "čistih" pogrešaka. Ova je varijansa kombinirana procjena varijance σ 2, ako predstavljamo vrijednosti odgovora y ij na x = x i kao volumen uzorka n i... Kao rezultat toga, varijacija "čistih" pogrešaka je:

Ova varijansa služi kao procjena σ 2 bez obzira na to je li ugrađeni model ispravan.

Pokažimo da je zbroj kvadrata "čistih pogrešaka" dio zaostalog zbroja kvadrata (zbroj kvadrata uključenih u izraz za preostalu varijansu). Ostatak za j th promatranje u x i može se napisati kao:

Ako kvadriramo obje strane ove jednakosti i zatim ih zbrojimo j i po i, dobivamo:

S lijeve strane ove jednakosti nalazi se zaostali zbroj kvadrata. Prvi izraz na desnoj strani je zbroj kvadrata "čistih" pogrešaka, drugi se može nazvati zbrojem kvadrata nedostatnosti. Zadnji iznos ima m−2 stupnja slobode, dakle, varijacija nedostatnosti

Statistika kriterija za provjeru hipoteze H 0: jednostavan linearni model je adekvatan, nasuprot hipotezi H 1: jednostavan linearni model je neadekvatan, slučajna varijabla je

Ako je nulta hipoteza točna, vrijednost Ž ima Fisherovu distribuciju sa stupnjevima slobode m−2 i nm... Hipotezu linearnosti regresijske crte treba odbaciti s razinom značajnosti α, ako je dobivena vrijednost statistike veća od α-postotne točke Fisherove raspodjele s brojem stupnjeva slobode m−2 i nm.

46. Provjera adekvatnosti regresijskog modela (vidi 45). ANOVA

47. Provjera adekvatnosti regresijskog modela (vidi 45). Koeficijent determinacije

Ponekad se za karakteriziranje kvalitete regresijske linije koristi uzorak koeficijenta determinacije R 2, koji prikazuje koji dio (ulomak) zbroja kvadrata, zbog regresije, SK p je u ukupnom zbroju kvadrata SK n:

Bliže R 2 prema jedan, što se regresija bolje približava eksperimentalnim podacima, to su opažanja bliže liniji regresije. Ako R 2 = 0, tada su promjene u odgovoru u potpunosti posljedica utjecaja neobračunatih čimbenika, a linija regresije paralelna je s osi x-ov. U slučaju jednostavne linearne regresije, koeficijent determinacije R 2 jednak je kvadratu koeficijenta korelacije r 2 .

Maksimalna vrijednost R 2 = 1 može se postići samo u slučaju kada su promatranja provedena pri različitim vrijednostima x-ov. Ako postoje ponovljeni pokusi u podacima, tada vrijednost R 2 ne može doseći jedinicu, bez obzira na to koliko je model dobar.

48. Intervali povjerenja za parametre jednostavne linearne regresije

Kao što je srednja vrijednost uzorka procjena prave prosječne vrijednosti (prosječna populacija), tako su i parametri uzorka regresijske jednadžbe a i b- ništa drugo do procjena pravih regresijskih koeficijenata. Različiti uzorci daju različite procjene srednje vrijednosti - baš kao što će različiti uzorci dati različite procjene koeficijenata regresije.

Pod pretpostavkom da je zakon o distribuciji pogrešaka ε i su opisani normalnim zakonom, procjenom parametara b imat će normalnu distribuciju s parametrima:


Budući da je procjena parametra a je linearna kombinacija nezavisnih normalno distribuirane količine, također će imati normalnu distribuciju sa srednjom vrijednošću i varijacijom:


U ovom slučaju, interval pouzdanosti (1 - α) za procjenu varijance σ 2 uzimajući u obzir da omjer ( n−2)s 0 2 /σ 2 distribuirane po zakonu χ 2 s brojem stupnjeva slobode n−2 bit će određeno izrazom


49. Intervali povjerenja za liniju regresije. Interval povjerenja za vrijednosti ovisnih varijabli

Obično ne znamo prave vrijednosti regresijskih koeficijenata. a i b... Znamo samo njihove procjene. Drugim riječima, prava linija regresije može ići više ili niže, biti strmija ili plića od one izgrađene na temelju podataka uzorka. Izračunali smo intervale pouzdanosti za regresijske koeficijente. Također možete izračunati područje pouzdanosti za samu regresijsku liniju.

Neka je za jednostavnu linearnu regresiju potrebno konstruirati (1− α ) interval pouzdanosti za matematičko očekivanje odgovora Y po vrijednosti NS = NS 0. Ovo matematičko očekivanje je a+bx 0 i njegov rezultat

Od tad.

Dobivena procjena matematičkog očekivanja linearna je kombinacija nekoreliranih normalno raspodijeljenih veličina i stoga također ima normalnu raspodjelu centriranu u točki prave vrijednosti uvjetnog matematičkog očekivanja i varijance

Stoga je interval pouzdanosti za regresijsku liniju pri svakoj vrijednosti x 0 se može predstaviti kao


Kao što vidite, minimalni interval pouzdanosti postiže se pri x 0 jednako srednjoj vrijednosti i povećava se kao x 0 se "odmiče" od sredine u bilo kojem smjeru.

Za dobivanje skupa zajedničkih intervala povjerenja prikladnih za cijelu regresijsku funkciju, po cijeloj njezinoj dužini, u gornjem izrazu umjesto t n −2,α / 2 moraju se zamijeniti

Jedan od čimbenika koji ograničava primjenu kriterija na temelju pretpostavke normalnosti je veličina uzorka. Sve dok je uzorak dovoljno velik (na primjer, 100 ili više opažanja), možete pretpostaviti da je distribucija uzorka normalna, čak i ako niste sigurni da je raspodjela varijable u populaciji normalna. Međutim, ako je uzorak mali, ti se kriteriji trebaju koristiti samo ako postoji uvjerenje da je varijabla doista normalno raspoređena. Međutim, ne postoji način da se ova pretpostavka provjeri na malom uzorku.

Korištenje kriterija temeljenih na pretpostavci normalnosti također je ograničeno na skalu mjerenja (vidi poglavlje Osnovni pojmovi analize podataka). Statističke metode poput t-testa, regresije itd. Pretpostavljaju da su izvorni podaci kontinuirani. Međutim, postoje situacije u kojima se podaci jednostavno rangiraju (mjere na ordinalnoj ljestvici), a ne točno mjere.

Tipičan primjer daju ocjene web stranica na Internetu: prvo mjesto zauzima web mjesto s najvećim brojem posjetitelja, drugo mjesto zauzima web mjesto s najvećim brojem posjetitelja među preostalim web stranicama (među web lokacijama s kojih je prvo mjesto uklonjeno) itd. Poznavajući ocjene, možemo reći da je broj posjetitelja jedne stranice veći od broja posjetitelja druge, ali koliko je više nemoguće reći. Zamislite da imate 5 web mjesta: A, B, C, D, E, koja su na prvih 5 mjesta. Pretpostavimo da smo u tekućem mjesecu imali sljedeći aranžman: A, B, C, D, E, a u prethodnom mjesecu: D, E, A, B, C. Pitanje je da je došlo do značajnih promjena u ocjenama web lokacija ili ne? U ovoj situaciji, očito, ne možemo koristiti t-test za usporedbu ove dvije skupine podataka i prijeći na područje specifičnih vjerojatnih izračuna (a svaki statistički kriterij sadrži vjerojatni izračun!). Razmišljamo ovako: koliko je vjerojatno da je razlika u dva izgleda web stranica posljedica čisto slučajnih razloga, ili da je razlika prevelika i da se ne može objasniti čistom slučajnošću. U tim razmatranjima koristimo samo redove ili permutacije web stranica i ni na koji način ne koristimo poseban oblik raspodjele broja posjetitelja.

Za analizu malih uzoraka i za podatke mjerene na lošim mjerilima koriste se neparametarske metode.

Kratak pregled neparametarskih postupaka

U biti, za svaki parametarski kriterij postoji barem jedna neparametarska alternativa.

Općenito, ti postupci spadaju u jednu od sljedećih kategorija:

  • kriteriji razlikovanja za neovisne uzorke;
  • kriteriji razlikovanja za ovisne uzorke;
  • procjena stupnja ovisnosti između varijabli.

Općenito, pristup statističkim kriterijima u analizi podataka trebao bi biti pragmatičan i ne opterećen nepotrebnim teorijskim obrazloženjem. S računalom STATISTICA na raspolaganju možete jednostavno primijeniti nekoliko kriterija na svoje podatke. Poznavajući neke od zamki metoda, eksperimentiranjem ćete odabrati pravo rješenje. Razvoj radnje je sasvim prirodan: ako trebate usporediti vrijednosti dviju varijabli, tada koristite t-test. Međutim, treba imati na umu da se temelji na pretpostavci normalnosti i jednakosti varijance u svakoj skupini. Oslobađanje od ovih pretpostavki rezultira neparametarskim ispitivanjima koja su posebno korisna za male uzorke.

Razvoj t-testa dovodi do analize varijance koja se koristi kada je broj uspoređenih skupina veći od dvije. Odgovarajući razvoj neparametarskih postupaka dovodi do neparametarske analize varijance, iako je znatno siromašnija od klasične analize varijance.

Za procjenu ovisnosti ili, pomalo pompozno rečeno, stupnja nepropusnosti veze izračunava se Pearsonov koeficijent korelacije. Strogo govoreći, njegova primjena ima ograničenja povezana, na primjer, s vrstom ljestvice u kojoj se mjere podaci i nelinearnošću ovisnosti; stoga se alternativno koriste i neparametrijski ili takozvani rang koeficijenti korelacije, koji su koristi se, na primjer, za rangirane podatke. Ako se podaci mjere na nominalnoj ljestvici, onda ih je prirodno prikazati u tablicama nepredviđenih situacija koje koriste Pearsonov hi-kvadrat test s različitim varijacijama i ispravcima za točnost.

Dakle, u biti postoji samo nekoliko vrsta kriterija i postupaka koje morate znati i moći koristiti, ovisno o specifičnostima podataka. Morate odrediti koji se kriterij treba primijeniti u određenoj situaciji.

Neparametarske metode najprikladnije su kad su veličine uzorka male. Ako ima puno podataka (na primjer, n> 100), često nema smisla koristiti neparametrijske statistike.

Ako je veličina uzorka vrlo mala (na primjer, n = 10 ili manje), tada se razine značajnosti za one neparametarske testove koji koriste normalnu aproksimaciju mogu smatrati samo grubim procjenama.

Razlike između neovisnih skupina... Ako postoje dva uzorka (na primjer, muškarci i žene) koje je potrebno usporediti s obzirom na neku prosječnu vrijednost, na primjer, srednji tlak ili broj leukocita u krvi, tada se t-test može koristiti za neovisno uzorci.

Neparametarske alternative ovom testu su Val'da-Wolfowitz, test serije Mann-Whitney) / n, gdje je x i- i-ta vrijednost, n je broj opažanja. Ako varijabla sadrži negativne vrijednosti ili nulu (0), geometrijska sredina se ne može izračunati.

Harmonijska sredina

Harmonijski prosjek ponekad se koristi za prosječne frekvencije. Harmonijska sredina izračunava se formulom: GS = n / S (1 / h i) gdje je GS harmonička sredina, n je broj opažanja, h i je vrijednost promatranja s brojem i. Ako varijabla sadrži nulu (0), harmonijska sredina se ne može izračunati.

Disperzija i standardna devijacija

Varijanta uzorka i standardna devijacija najčešće su korištene mjere varijabilnosti podataka (varijacije). Varijansa se izračunava kao zbroj kvadrata odstupanja vrijednosti varijable od srednje vrijednosti uzorka, podijeljen s n-1 (ali ne i s n). Standardna devijacija izračunava se kao kvadratni korijen procjene varijance.

Ljuljanje

Raspon varijable je pokazatelj nestabilnosti, izračunat kao maksimum minus minimum.

Opseg kvartila

Kvartalni raspon, po definiciji, je: gornji kvartil minus donji kvartil (75% percentila minus 25% percentila). Budući da je 75% percentila (gornji kvartil) vrijednost lijevo od koje se nalazi 75% slučajeva, a 25% percentil (donji kvartil) vrijednost lijevo od koje se nalazi 25% slučajeva, kvartil raspon je interval oko medijane koji sadrži 50% slučajeva (varijabilne vrijednosti).

Asimetrija

Asimetrija je karakteristika oblika raspodjele. Raspodjela je nagnuta ulijevo ako je vrijednost iskrivljenosti negativna. Raspodjela je iskrivljena udesno ako je asimetrija pozitivna. Iskrivljenost standardne normalne raspodjele iznosi 0. Iskrivljenost je povezana s trećim momentom i definirana je kao: iskrivljenost = n × M 3 / [(n-1) × (n-2) × s 3], gdje je M 3 je: (xi -x srednja vrijednost x) 3, s 3 je standardna devijacija podignuta na treću stepenicu, n je broj opažanja.

Višak

Kurtoza je karakteristika oblika distribucije, naime, mjera ozbiljnosti njezina vrha (u odnosu na normalnu raspodjelu, čija je kurtoza jednaka 0). U pravilu, distribucije s oštrijim vrhom od normalnog imaju pozitivnu kurtozu; distribucije čiji je vrh manje oštar od vrha normalne distribucije imaju negativnu kurtozu. Višak je povezan s četvrtim trenutkom i određen je formulom:

kurtosis = / [(n-1) × (n-2) × (n-3) × s 4], gdje je M j: (xx srednja vrijednost x, s 4 je standardna devijacija u četvrtom stepenu, n je broj zapažanja ...

Potrebe ekonomske i društvene prakse zahtijevaju razvoj metoda za kvantitativni opis procesa koje omogućuju točno registriranje ne samo kvantitativnih, već i kvalitativnih čimbenika. Pod uvjetom da se vrijednosti kvalitativnih obilježja mogu poredati ili rangirati prema stupnju smanjenja (povećanja) obilježja, moguće je procijeniti bliskost odnosa između kvalitativnih obilježja. Kvalitativno znači značajku koja se ne može točno izmjeriti, ali vam omogućuje da međusobno uspoređujete objekte i stoga ih rasporedite prema padajućem ili rastućem kvalitetu. A stvarni sadržaj mjerenja na ljestvicama rangova redoslijed je kojim su objekti raspoređeni prema ozbiljnosti mjerene značajke.

U praktične svrhe, upotreba korelacije ranga vrlo je korisna. Na primjer, ako se uspostavi korelacija visokog ranga između dvije kvalitativne značajke proizvoda, onda je dovoljno kontrolirati proizvode samo jednom od značajki, što kontrolu čini jeftinijom i bržom.

Kao primjer možemo uzeti u obzir postojanje veze između dostupnosti komercijalnih proizvoda brojnih poduzeća i režijskih troškova prodaje. Tijekom 10 promatranja dobivena je sljedeća tablica:

Posložimo vrijednosti X u rastućem redoslijedu, pri čemu svaka vrijednost dodjeljuje svoj redni broj (rang) svakoj vrijednosti:

Tako,

Izgradimo sljedeću tablicu u kojoj su zapisani parovi X i Y, dobiveni kao rezultat promatranja s vlastitim redovima:

Označavajući razliku u činovima kao, zapisujemo formulu za izračun Spearmanovog koeficijenta korelacije uzorka:

gdje je n broj opažanja, to je i broj parova činova.

Spearmanov koeficijent ima sljedeća svojstva:

Ako postoji potpuna izravna veza između kvalitativnih obilježja X i Y u smislu da se redovi objekata podudaraju za sve vrijednosti i, tada je Spearmanov koeficijent korelacije uzorka 1. Doista, zamjenjujući ga u formulu, dobivamo 1.

Ako postoji potpuna inverzna veza između kvalitativnih obilježja X i Y u smislu da rang odgovara rangu, tada je Spearmanov koeficijent korelacije uzorka -1.

Doista, ako

Zamjenom vrijednosti u formuli koeficijenta korelacije Spearmana dobivamo -1.

Ako ne postoji niti potpuna ravna linija niti potpuna Povratne informacije, tada je Spearmanov koeficijent korelacije uzorka između -1 i 1, a što je bliža 0 njezina vrijednost, to je manji odnos između značajki.

Prema gornjem primjeru, pronaći ćemo vrijednost P, za to ćemo ispuniti tablicu s vrijednostima i:

Kendallov koeficijent korelacije uzorka. Odnos između dviju kvalitativnih značajki možete procijeniti pomoću Kendallovog koeficijenta korelacije ranga.

Neka su redovi objekata uzorka veličine n jednaki:

na temelju X:

na temelju Y :. Pretpostavimo da se s desne strane nalaze činovi, veliki, s desne strane činovi, veliki, s desne strane činovi, veliki. Uvedimo oznaku za zbroj činova

Slično, oznaku uvodimo kao zbroj broja činova s ​​desne strane, ali manji.

Kendallov koeficijent korelacije uzorka zapisan je formulom:

Gdje je n veličina uzorka.

Kendallov koeficijent ima ista svojstva kao i Spearmanov koeficijent:

Ako postoji potpuna izravna veza između kvalitativnih obilježja X i Y u smislu da se redovi objekata podudaraju za sve vrijednosti i, tada je Kendallov koeficijent korelacije uzorka 1. Doista, s desne strane nalazi se n-1 redovi koji su veliki, stoga na isti način utvrđujemo što. Zatim. A Kendallov koeficijent je :.

Ako postoji potpuna inverzna veza između kvalitativnih karakteristika X i Y u smislu da rang odgovara rangu, tada je Kendallov koeficijent korelacije uzorka -1. S desne strane nema redova, dakle velikih. Također. Zamjenom vrijednosti R + = 0 u formuli Kendall koeficijenta dobivamo -1.

S dovoljno velikom veličinom uzorka i s vrijednostima koeficijenata korelacije ranga koji nisu blizu 1, dolazi do približne jednakosti:

Daje li Kendallov koeficijent konzervativniju procjenu korelacije od Spearmanovog koeficijenta? (numerička vrijednost? uvijek je manja od). Prilikom izračunavanja koeficijenta? manje naporan od izračunavanja koeficijenta, potonji je lakše ponovno izračunati ako se nizu doda novi pojam.

Važna prednost koeficijenta je ta što se može koristiti za određivanje koeficijenta korelacije privatnog ranga, što omogućuje procjenu stupnja "čistog" odnosa između dva obilježja ranga, eliminirajući utjecaj trećeg:

Značaj koeficijenata korelacije ranga. Prilikom određivanja jačine korelacije ranga na temelju podataka iz uzorka potrebno je razmotriti sljedeće pitanje: s kojim se stupnjem pouzdanosti može osloniti na zaključak da postoji korelacija u općoj populaciji ako je određeni koeficijent uzorka rang korelacije dobiveno. Drugim riječima, značaj promatranih korelacija ranga treba provjeriti na temelju hipoteze da su dva rangiranja koja se razmatraju statistički neovisna.

S relativno velikom veličinom uzorka n, značaj koeficijenata korelacije ranga može se provjeriti pomoću tablice normalne distribucije (Dodatak Tablica 1). Ispitati značaj Spearmanovog koeficijenta? (za n> 20) izračunajte vrijednost

i ispitati značaj Kendall koeficijenta? (za n> 10) izračunajte vrijednost

gdje je S = R + - R-, n veličina uzorka.

Nadalje, postavljena je razina značajnosti, kritična vrijednost tcr (?, K) određena je iz tablice kritičnih točaka Studentove distribucije i izračunate vrijednosti ili se uspoređuje s njom. Pretpostavlja se da je broj stupnjeva slobode k = n-2. Ako ili> tcr, tada se vrijednosti ili smatraju značajnima.

Fechnerov koeficijent korelacije.

Na kraju treba spomenuti i Fechnerov koeficijent koji karakterizira elementarni stupanj nepropusnosti veze, koji se preporučuje upotrijebiti za utvrđivanje činjenice veze kada postoji mala količina početnih informacija. Temelj za njegov izračun uzima u obzir smjer odstupanja od aritmetičke sredine varijanti svakog varijacijskog niza i određivanje konzistentnosti znakova tih odstupanja za dvije serije, čiji se odnos mjeri.

Ovaj koeficijent je određen formulom:

gdje je na broj podudarnosti znakova odstupanja pojedinih vrijednosti od njihove aritmetičke sredine; nb - broj neusklađenosti.

Fechnerov koeficijent može varirati između -1,0<= Кф<= +1,0.

Primijenjeni aspekti korelacije ranga. Kao što je već napomenuto, koeficijenti korelacije ranga mogu se koristiti ne samo za kvalitativnu analizu odnosa između dva obilježja ranga, već i za određivanje jačine odnosa između ranga i kvantitativnih značajki. U tom se slučaju vrijednosti kvantitativne karakteristike sortiraju i dodjeljuju im se odgovarajući redovi.

Postoji niz situacija kada je izračunavanje koeficijenata korelacije ranga također preporučljivo pri određivanju jačine odnosa između dvaju kvantitativnih značajki. Dakle, uz značajno odstupanje raspodjele jednog od njih (ili oba) od normalne raspodjele, određivanje razine značajnosti koeficijenta korelacije uzorka r postaje netočno, dok koeficijenti ranga? i? ne podliježu takvim ograničenjima pri određivanju razine značaja.

Druga situacija ove vrste nastaje kada je odnos između dva kvantitativna obilježja nelinearan (ali monoton). Ako je broj objekata u uzorku mali ili ako je znak veze važan za istraživača, tada se koristi omjer korelacije? ovdje može biti neadekvatno. Izračun koeficijenta korelacije ranga omogućuje nam da zaobiđemo navedene poteškoće.

Praktični dio

Zadatak 1. Korelacijsko-regresijska analiza

Izjava i formalizacija problema:

Daje se empirijski uzorak sastavljen na temelju niza promatranja stanja opreme (u slučaju kvara) i broja proizvedenih proizvoda. Uzorak implicitno karakterizira odnos između količine opreme koja je otkazala i broja proizvedenih predmeta. Prema značenju uzorka, jasno je da se proizvedeni proizvodi proizvode na opremi koja ostaje u uporabi, jer što je više% opreme koja je otkazala, to je manje proizvedenih proizvoda. Potrebno je provesti istraživanje uzorka za korelacijsko-regresijsku ovisnost, odnosno utvrditi oblik ovisnosti, procijeniti regresijsku funkciju (regresijska analiza), kao i identificirati odnos između slučajnih varijabli i procijeniti njegovu nepropusnost (korelacijska analiza). Dodatni zadatak korelacijske analize je procijeniti regresijsku jednadžbu jedne varijable za drugu. Osim toga, potrebno je predvidjeti broj proizvoda proizvedenih s otkazom opreme od 30%.

Formaliziramo dati uzorak u tablici, označavajući podatke "Kvar opreme,%" kao X, podatke "Broj proizvoda" kao Y:

Početni podaci. stol 1

Prema fizičkom značenju problema može se vidjeti da broj proizvedenih proizvoda Y izravno ovisi o% kvara opreme, odnosno postoji ovisnost Y o X. Prilikom provođenja regresijske analize potrebno je kako bi se pronašao matematički odnos (regresija) koji povezuje vrijednosti X i Y. U ovom slučaju, regresijska analiza u, Za razliku od korelacije, pretpostavlja da vrijednost X djeluje kao neovisna varijabla ili faktor, vrijednost Y - kao ovisna o njoj ili djelotvoran znak. Dakle, potrebno je sintetizirati odgovarajući ekonomski i matematički model, tj. odrediti (pronaći, odabrati) funkciju Y = f (X), koja karakterizira odnos između vrijednosti X i Y, pomoću koje će biti moguće predvidjeti vrijednost Y pri X = 30. Ovaj problem može biti riješeno korištenjem korelacijsko-regresijske analize.

Kratak pregled metoda za rješavanje korelacijsko-regresijskih problema i obrazloženje odabrane metode rješenja.

Metode regresijske analize podijeljene su na jednofaktorske i višefaktorske na temelju broja čimbenika koji utječu na učinkovito svojstvo. Univarijantan - broj neovisnih čimbenika = 1, tj. Y = F (X)

višefaktorijalni - broj faktora> 1, tj.

Prema broju istraživanih ovisnih varijabli (učinkovitih pokazatelja), regresijske probleme također možemo podijeliti na zadatke s jednim ili više učinkovitih pokazatelja. Općenito, zadatak s mnogim učinkovitim značajkama može se napisati:

Metoda korelacijsko-regresijske analize sastoji se u pronalaženju parametara aproksimativne (aproksimirajuće) ovisnosti oblika

Budući da se u gornjem problemu pojavljuje samo jedna neovisna varijabla, tj. Istražuje se ovisnost samo o jednom faktoru koji utječe na rezultat, treba primijeniti studiju za jednosmjernu ovisnost ili regresiju parova.

Ako postoji samo jedan faktor, ovisnost se definira kao:

Način pisanja određene regresijske jednadžbe ovisi o izboru funkcije koja prikazuje statistički odnos između faktora i rezultirajućeg pokazatelja i uključuje sljedeće:

linearna regresija, jednadžba oblika,

parabolična, jednadžba oblika

kubična, jednadžba oblika

hiperbolička, jednadžba oblika

polulogaritamska, jednadžba oblika

eksponencijalna, jednadžba oblika

snaga, jednadžba oblika.

Pronalaženje funkcije svodi se na određivanje parametara regresijske jednadžbe i procjenu pouzdanosti same jednadžbe. Za određivanje parametara možete koristiti i metodu najmanjih kvadrata i metodu najmanjih modula.

Prvi od njih je da je zbroj kvadrata odstupanja empirijskih vrijednosti Yi od izračunatih sredina Yi minimalan.

Metoda najmanjeg modula je minimiziranje zbroja modula razlike između empirijskih vrijednosti Yi i izračunatih sredina Yi.

Za rješavanje problema odabrat ćemo metodu najmanjih kvadrata, jer je najjednostavnija i daje dobre procjene u smislu statističkih svojstava.

Tehnologija rješavanja problema regresijske analize metodom najmanjih kvadrata.

Moguće je odrediti vrstu ovisnosti (linearnu, kvadratnu, kubičnu itd.) Između varijabli procjenom odstupanja stvarne vrijednosti y od izračunate:

gdje - empirijske vrijednosti, - izračunate vrijednosti pomoću aproksimacijske funkcije. Procjenjujući vrijednosti Si za različite funkcije i odabirom najmanje od njih, odabiremo aproksimacijsku funkciju.

Vrsta funkcije određuje se pronalaženjem koeficijenata koji se nalaze za svaku funkciju kao rješenje određenog sustava jednadžbi:

linearna regresija, jednadžba oblika, sustav -

parabolična, jednadžba oblika, sustav -

kubni, jednadžba oblika, sustav -

Nakon što smo riješili sustav, nalazimo, uz pomoć kojih dolazimo do specifičnog izraza analitičke funkcije, čija vrijednost, nalazimo izračunate vrijednosti. Nadalje, postoje svi podaci za pronalaženje procjene vrijednosti odstupanja S i analizu za minimum.

Za linearni odnos procjenjujemo bliskost odnosa između faktora X i efektivnog pokazatelja Y u obliku koeficijenta korelacije r:

Prosječna vrijednost pokazatelja;

Prosječna vrijednost faktora;

y je eksperimentalna vrijednost pokazatelja;

x je eksperimentalna vrijednost faktora;

Standardna devijacija u x;

Standardna devijacija u y.

Ako je koeficijent korelacije r = 0, tada se smatra da je odnos između obilježja beznačajan ili odsutan, ako je r = 1, tada postoji vrlo visok funkcionalni odnos među obilježjima.

Pomoću Chaddock tablice možete kvalitativno procijeniti čvrstoću korelacije između znakova:

Chaddock stol Tablica 2.

Za nelinearnu ovisnost određuje se omjer korelacije (0 1) i indeks korelacije R, koji se izračunavaju iz sljedećih ovisnosti.

gdje je vrijednost vrijednost pokazatelja izračunata na temelju regresijske ovisnosti.

Kao procjenu točnosti izračuna koristimo vrijednost prosječne relativne pogreške aproksimacije

S velikom točnošću nalazi se u rasponu od 0-12%.

Za procjenu odabira funkcionalne ovisnosti koristimo koeficijent determinacije

Koeficijent determinacije koristi se kao “generalizirana” mjera kvalitete odabira funkcionalnog modela, jer izražava omjer faktorske i ukupne varijance, odnosno udjela faktorske varijance u ukupnoj.

Za procjenu značajnosti korelacijskog indeksa R koristi se Fisherov F-test. Stvarna vrijednost kriterija određena je formulom:

gdje je m broj parametara regresijske jednadžbe, n je broj opažanja. Vrijednost se uspoređuje s kritičnom vrijednošću, koja se određuje prema tablici F-kriterija, uzimajući u obzir prihvaćenu razinu značajnosti i broj stupnjeva slobode i. Ako, tada se vrijednost indeksa korelacije R smatra značajnom.

Za odabrani oblik regresije izračunavaju se koeficijenti regresijske jednadžbe. Radi praktičnosti, rezultati izračuna uključeni su u tablicu sljedeće strukture (općenito, broj stupaca i njihov izgled mijenjaju se ovisno o vrsti regresije):

Tablica 3

Rješenje problema.

Promatrana su ekonomska pojava - ovisnost puštanja proizvoda o postotku kvara opreme. Dobiva se skup vrijednosti.

Odabrane vrijednosti opisane su u tablici 1.

Za dati uzorak gradimo grafikon empirijske ovisnosti (slika 1)

Vrstom grafikona određujemo da se analitička ovisnost može predstaviti kao linearna funkcija:

Izračunajmo koeficijent korelacije u paru kako bismo procijenili odnos između X i Y:

Izgradimo pomoćnu tablicu:

Tablica 4

Rješavamo sustav jednadžbi kako bismo pronašli koeficijente i:

iz prve jednadžbe, zamjenjujući vrijednost

u drugu jednadžbu dobivamo:

Pronašli smo

Dobivamo oblik regresijske jednadžbe:

9. Za procjenu nepropusnosti pronađenog odnosa koristimo koeficijent korelacije r:

Prema Chaddockovoj tablici utvrđujemo da je za r = 0,90 odnos između X i Y vrlo visok, stoga je i pouzdanost regresijske jednadžbe velika. Za procjenu točnosti izračuna koristimo vrijednost prosječne relativne pogreške aproksimacije:

Vjerujemo da vrijednost osigurava visok stupanj pouzdanosti regresijske jednadžbe.

Za linearni odnos između X i Y, indeks determinacije jednak je kvadratu koeficijenta korelacije r :. Slijedom toga, 81% ukupne varijacije objašnjava se promjenom atributa faktora X.

Za procjenu značajnosti korelacijskog indeksa R, koji je u slučaju linearne ovisnosti po apsolutnoj vrijednosti jednak koeficijentu korelacije r, koristi se Fisherov F-test. Stvarnu vrijednost određujemo formulom:

gdje je m broj parametara regresijske jednadžbe, n je broj opažanja. To jest, n = 5, m = 2.

Uzimajući u obzir prihvaćenu razinu značajnosti = 0,05 i broj stupnjeva slobode, dobivamo kritičnu tabličnu vrijednost. Budući da se vrijednost indeksa korelacije R prepoznaje kao značajna.

Izračunajmo predviđenu vrijednost Y pri X = 30:

Izgradimo graf pronađene funkcije:

11. Odredite pogrešku koeficijenta korelacije prema vrijednosti standardne devijacije

a zatim određujemo vrijednost normaliziranog odstupanja

Iz omjera> 2 s vjerojatnošću od 95%možemo govoriti o značajnosti dobivenog koeficijenta korelacije.

Problem 2. Linearna optimizacija

Opcija 1.

Razvojni plan regije trebao bi staviti u funkciju 3 naftna polja ukupnog obujma proizvodnje od 9 milijuna tona. Na prvom polju, obujam proizvodnje je najmanje 1 milijun tona, na drugom - 3 milijuna tona, na trećem - 5 milijuna tona. Za postizanje ove produktivnosti potrebno je izbušiti najmanje 125 bušotina. Za provedbu ovog plana izdvojeno je 25 milijuna rubalja. kapitalna ulaganja (pokazatelj K) i 80 km cijevi (pokazatelj L).

Potrebno je odrediti optimalan (najveći) broj bušotina kako bi se osigurala planirana produktivnost svakog polja. Početni podaci o zadatku dati su u tablici.

Početni podaci

Izjava o problemu data je gore.

Formalizirajmo uvjete i ograničenja navedena u problemu. Cilj rješavanja ovog optimizacijskog problema je pronaći maksimalnu vrijednost proizvodnje nafte s optimalnim brojem bušotina za svako polje, uzimajući u obzir postojeća ograničenja problema.

Objektivna funkcija, u skladu sa zahtjevima zadatka, imat će oblik:

gdje je broj jažica za svako polje.

Postojeća ograničenja zadatka za:

duljina polaganja cijevi:

broj bušotina na svakom polju:

cijena izgradnje 1 bušotine:

Problemi linearne optimizacije rješavaju se, na primjer, sljedećim metodama:

Grafički

Simplex metoda

Korištenje grafičke metode prikladno je samo pri rješavanju problema linearne optimizacije s dvije varijable. Za veći broj varijabli potrebno je koristiti algebarski aparat. Razmotrimo opću metodu rješavanja problema linearne optimizacije koja se naziva simpleks metoda.

Simplex metoda tipičan je primjer iterativnih izračuna koji se koriste za rješavanje većine optimizacijskih problema. Razmatraju se ponavljajući postupci ove vrste koji osiguravaju rješavanje problema uz pomoć modela istraživanja rada.

Za rješavanje optimizacijskog problema pomoću simpleks metode potrebno je da broj nepoznanica Xi bude veći od broja jednadžbi, tj. sustav jednadžbi

zadovoljava odnos m

A = bilo je jednako m.

Označimo stupac matrice A kao, a stupac slobodnih pojmova kao

Osnovno rješenje sustava (1) je skup od m nepoznanica koje su rješenje sustava (1).

Ukratko, algoritam simpleks metode opisan je na sljedeći način:

Izvorno ograničenje napisano kao nejednakost poput<= (=>) može se predstaviti kao jednakost dodavanjem zaostale varijable na lijevu stranu ograničenja (oduzimanjem suvišne varijable s lijeve strane).

Na primjer, lijevo od izvornog ograničenja

uvodi se zaostala varijabla, uslijed čega se izvorna nejednakost pretvara u jednakost

Ako izvorno ograničenje određuje brzinu protoka cijevi, tada bi se varijabla trebala tumačiti kao ostatak ili neiskorišteni dio ovog resursa.

Maksimiziranje funkcije cilja ekvivalentno je minimiziranju iste funkcije uzete sa suprotnim predznakom. Odnosno, u našem slučaju

ekvivalentno

Simplex tablica sastavlja se za osnovno rješenje sljedećeg oblika:

U ovoj tablici naznačeno je da će nakon rješavanja problema osnovno rješenje biti u tim ćelijama. - količnici dijeljenja stupca jednim od stupaca; - dodatni množitelji za nuliranje vrijednosti u ćelijama tablice koje se odnose na rješavajući stupac. - min vrijednost funkcije cilja -Z, - vrijednosti koeficijenata u funkciji cilja s nepoznatim.

Bilo koja pozitivna vrijednost nalazi se među značenjima. Ako to nije slučaj, smatra se da je problem riješen. Odabran je bilo koji stupac tablice koji se u njemu nalazi, a taj stupac naziva se "dopuštajući" stupac. Ako među elementima stupca za rješavanje nema pozitivnih brojeva, problem je nerješiv zbog neograničenosti funkcije cilja na skupu njezinih rješenja. Ako su pozitivni brojevi prisutni u stupcu za rješavanje, idite na korak 5.

Stupac je ispunjen razlomacima, u čijem se brojniku nalaze elementi stupca, a u nazivniku - odgovarajući elementi rješavajućeg stupca. Odabrana je najmanja od svih vrijednosti. Linija s najmanjim rezultatom naziva se linija "omogući". Na sjecištu razlučive crte i rješavajućeg stupca nalazi se rješavajući element koji je na neki način istaknut, na primjer, bojom.

Na temelju prve simpleks tablice sastavlja se sljedeće, u kojem:

Zamjenjuje vektor reda s vektorom stupca

linija dopuštenja zamjenjuje se istom linijom podijeljenom elementom dopuštenja

svaki drugi redak tablice zamjenjuje se zbrojem ovog retka s razriješivim, pomnožen s posebno odabranim dodatnim faktorom kako bi se dobilo 0 u ćeliji razlučivog stupca.

S novom tablicom prelazimo na točku 4.

Rješenje problema.

Na temelju formulacije problema imamo sljedeći sustav nejednakosti:

i ciljnu funkciju

Sustav nejednakosti pretvaramo u sustav jednadžbi uvođenjem dodatnih varijabli:

Smanjimo funkciju cilja na njezin ekvivalent:

Izgradimo izvornu simpleks tablicu:

Odaberemo dopušteni stupac. Izračunajmo stupac:

Unosimo vrijednosti u tablicu. Za najmanju od njih = 10, određujemo razriješivu liniju :. Na sjecištu razriješive crte i stupca za rješavanje nalazimo rješavajući element = 1. Dio tablice popunjavamo dodatnim faktorima, tako da: razriješivi red pomnožen s njima, dodan ostatku redaka tablice, tvori 0 u elementima rješavajućeg stupca.

Sastavljamo drugu simpleks tablicu:

U njega uzimamo rješavajući stupac, izračunavamo vrijednosti, unosimo ih u tablicu. Minimalno dobivamo liniju razrješenja. Riješujući element bit će 1. Pronađite dodatne čimbenike, ispunite stupce.

Izrađujemo sljedeću simpleks tablicu:

Slično tome nalazimo rješavajući stupac, rješavajući red i rješavajući element = 2. Izrađujemo sljedeću simpleks tablicu:

Budući da u liniji -Z nema pozitivnih vrijednosti, ova je tablica konačna. Prvi stupac daje željene vrijednosti nepoznanica, tj. optimalno osnovno rješenje:

U ovom slučaju vrijednost ciljne funkcije je -Z = -8000, što je ekvivalentno Zmax = 8000. Problem je riješen.

Zadatak 3. Klaster analiza

Formulacija problema:

Podijelite objekte na temelju podataka navedenih u tablici. Izbor metode rješenja treba provesti neovisno, kako bi se izgradio grafikon ovisnosti podataka.

Opcija 1.

Početni podaci

Pregled metoda rješavanja ove vrste problema. Opravdanje metode rješenja.

Zadaci analize klastera rješavaju se sljedećim metodama:

Metoda združivanja ili grupiranja u stabla koristi se za stvaranje skupina "različitosti" ili "udaljenosti između objekata". Te se udaljenosti mogu definirati u jednodimenzionalnom ili višedimenzionalnom prostoru.

Dvosmjerno spajanje koristi se (relativno rijetko) u okolnostima u kojima se podaci ne tumače u smislu "objekata" i "svojstava objekata", već u smislu opažanja i varijabli. Očekuje se da će opažanja i varijable istodobno pridonijeti otkrivanju značajnih klastera.

K-znači metoda. Koristi se kada već postoji hipoteza o broju klastera. Možete reći sustavu da formira točno, na primjer, tri klastera kako bi bili što različitiji. Općenito, metoda K-znači gradi točno K različitih skupina koje se nalaze na najvećoj mogućoj udaljenosti jedna od druge.

Postoje sljedeći načini mjerenja udaljenosti:

Euklidska udaljenost. Ovo je najčešći tip udaljenosti. To je jednostavno geometrijska udaljenost u višedimenzionalnom prostoru i izračunava se na sljedeći način:

Imajte na umu da se euklidska udaljenost (i njezin kvadrat) izračunava iz izvornih, a ne standardiziranih podataka.

Udaljenost gradskih blokova (udaljenost Manhattana). Ta je udaljenost jednostavno prosjek koordinatnih razlika. U većini slučajeva ova mjera udaljenosti dovodi do istih rezultata kao i za običnu euklidsku udaljenost. Međutim, imajte na umu da se za ovu mjeru smanjuje učinak pojedinačnih velikih razlika (ispadanja) (budući da nisu na kvadrat). Udaljenost Manhattana izračunava se prema formuli:

Čebiševa udaljenost. Ova udaljenost može biti korisna kada želite definirati dva objekta kao "različite" ako se razlikuju u bilo kojoj koordinati (bilo kojoj dimenziji). Čebiševska udaljenost izračunava se po formuli:

Udaljenost snage. Ponekad se želi postupno povećavati ili smanjivati ​​težina povezana s dimenzijom za koju se odgovarajući objekti jako razlikuju. To se može postići primjenom udaljenosti po zakonu moći. Udaljenost se izračunava formulom:

gdje su r i p korisnički definirani parametri. Nekoliko primjera izračuna može pokazati kako ta mjera "radi". Parametar p odgovoran je za postupno ponderiranje razlika u pojedinim koordinatama, parametar r je odgovoran za progresivno ponderiranje velikih udaljenosti između objekata. Ako su oba parametra - r i p, jednaka dva, tada se ta udaljenost podudara s euklidskom udaljenošću.

Postotak neslaganja. Ova se mjera koristi kada su podaci kategorični. Ova udaljenost se izračunava prema formuli:

Za rješavanje problema odabrat ćemo metodu unifikacije (klasteriranje nalik stablu) kao onu koja najbolje zadovoljava uvjete i formulaciju problema (za podjelu objekata). S druge strane, sindikalna metoda može koristiti nekoliko varijanti komunikacijskih pravila:

Pojedinačna veza (metoda najbližeg susjeda). U ovoj metodi udaljenost između dva jata određena je udaljenošću između dva najbliža objekta (najbliži susjedi) u različitim skupinama. To jest, bilo koja dva objekta u dva jata bliža su jedan drugom od odgovarajuće udaljenosti veze. Ovo pravilo bi, u određenom smislu, trebalo nizati objekte zajedno kako bi formirali klastere, a rezultirajući klasteri imaju tendenciju biti dugi "lanci".

Potpuna komunikacija (metoda najudaljenijih susjeda). U ovoj metodi udaljenost između klastera određena je najvećom udaljenošću između bilo koje dvije značajke u različitim skupinama (tj. "Najudaljenijim susjedima").

Postoje i mnoge druge metode grupiranja poput ovih (npr. Neponderirano uparivanje, ponderirano uparivanje itd.).

Tehnologija metode rješenja. Izračun pokazatelja.

U prvom koraku, kada je svaki objekt zasebna skupina, udaljenosti između tih objekata određuju se odabranom mjerom.

Budući da u zadatku nisu navedene mjerne jedinice za karakteristike, pretpostavlja se da su iste. Stoga nema potrebe za normalizacijom početnih podataka, pa odmah prelazimo na izračun matrice udaljenosti.

Rješenje problema.

Izgradimo graf ovisnosti prema početnim podacima (slika 2)

Kao udaljenost između objekata uzeti ćemo uobičajenu euklidsku udaljenost. Zatim prema formuli:

gdje l - znakovi; k je broj značajki, udaljenost između objekata 1 i 2 jednaka je:

Nastavljamo s izračunavanjem preostalih udaljenosti:

Napravimo tablicu od dobivenih vrijednosti:

Najmanja udaljenost. To znači da kombiniramo elemente 3,6 i 5 u jednu skupinu. Dobivamo sljedeću tablicu:

Najmanja udaljenost. Elementi 3, 6, 5 i 4. kombiniraju se u jednu skupinu. Dobivamo tablicu od dvije skupine:

Minimalna udaljenost između točaka 3 i 6 je. To znači da su elementi 3 i 6 kombinirani u jednu skupinu. Odabiremo najveću udaljenost između novonastale skupine i ostalih elemenata. Na primjer, udaljenost između skupine 1 i skupine 3,6 je max (13,34166, 13,60147) = 13,34166. Sastavimo sljedeću tablicu:

U njemu je minimalna udaljenost udaljenost između skupina 1 i 2. Kombinirajući 1 i 2 u jednu skupinu, dobivamo:

Tako su metodom “dalekog susjeda” dobivena dva klastera: 1,2 i 3,4,5,6, udaljenost između kojih je 13,60147.

Problem je riješen.

Prijave. Rješavanje problema pomoću programskih paketa (MS Excel 7.0)

Problem korelacijske i regresijske analize.

U tablicu unosimo početne podatke (slika 1)

Odaberite izbornik "Servis / Analiza podataka". U prozoru koji se pojavi odaberite redak "Regresija" (slika 2).

U sljedećem prozoru postavit ćemo ulazne intervale za X i Y, razina pouzdanosti bit će 95%, a izlazni podaci bit će smješteni na zasebnom listu "Izvještaj" (slika 3)

Nakon izračuna dobivamo konačne podatke regresijske analize na listu "Izvještaj":

Također prikazuje grafikon točaka približne funkcije ili "Grafikon odabira":


Izračunate vrijednosti i odstupanja prikazane su u tablici u stupcima "Predviđeno Y" i "Stanje".

Na temelju početnih podataka i odstupanja ucrtava se zaostali graf:

Zadatak optimizacije


Početne podatke unosimo na sljedeći način:

Nepoznate nepoznanice X1, X2, X3 unosimo u ćelije C9, D9, E9.

Koeficijenti ciljne funkcije za X1, X2, X3 unose se u C7, D7, E7.

Unesite funkciju cilja u ćeliju B11 kao formulu: = C7 * C9 + D7 * D9 + E7 * E9.

Postojeća ograničenja zadataka

Za duljinu polaganja cijevi:

dodamo ćelijama C5, D5, E5, F5, G5

Broj bušotina u svakom polju:

X3 Ј 100; dodamo ćelijama C8, D8, E8.

Cijena izgradnje 1 bušotine:

dodamo ćelijama C6, D6, E6, F6, G6.

Formula za izračunavanje ukupne duljine C5 * C9 + D5 * D9 + E5 * E9 smještena je u ćeliju B5, formula za izračunavanje ukupnih troškova C6 * C9 + D6 * D9 + E6 * E9 smještena je u ćeliju B6.


U izborniku "Usluga / traženje rješenja" odabiremo, unosimo parametre za pronalaženje rješenja u skladu s unesenim početnim podacima (slika 4):

Pomoću gumba "Parametri" postavite sljedeće parametre za pronalaženje rješenja (slika 5):


Nakon traženja rješenja dobivamo izvješće o rezultatima:

Izvješće o rezultatima programa Microsoft Excel 8.0e

Izvješće stvoreno: 17.11.2002. 01:28:30

Ciljna ćelija (maksimum)

Proizlaziti

Totalni plijen

Mijenjajuće stanice

Proizlaziti

Broj bušotina

Broj bušotina

Broj bušotina

Ograničenja

Značenje

Duljina

Povezano

Cijena projekta

nevezano.

Broj bušotina

nevezano.

Broj bušotina

Povezano

Broj bušotina

Povezano

Prva tablica prikazuje početne i konačne (optimalne) vrijednosti ciljne ćelije, u koju je stavljena ciljna funkcija problema koji se rješava. U drugoj tablici vidimo početne i konačne vrijednosti varijabli koje treba optimizirati, a koje su sadržane u izmijenjenim ćelijama. Treća tablica izvješća o rezultatima sadrži informacije o ograničenjima. Stupac "Vrijednost" sadrži optimalne vrijednosti potrebnih resursa i varijable koje treba optimizirati. Stupac "Formula" sadrži ograničenja potrošnje resursa i varijable koje treba optimizirati, napisane u obliku referenci na ćelije koje sadrže te podatke. Stupac "Stanje" određuje jesu li ta ili ona ograničenja povezana ili nepovezana. Ovdje su "vezana" ograničenja implementirana u optimalnom rješenju u obliku krutih jednakosti. Stupac "Razlika" za ograničenja resursa definira ostatak korištenih resursa, tj. razlika između potrebne količine resursa i njihove dostupnosti.

Slično, nakon što smo rezultat pretraživanja rješenja zapisali u obrazac "Izvješće o održivosti", dobit ćemo sljedeće tablice:

Izvješće o otpornosti programa Microsoft Excel 8.0e

Radni list: [Rješenje optimizacijskog problema.xls] Rješenje optimizacijskog problema

Izvješće stvoreno: 17.11.2002. 01:35:16

Mijenjajuće stanice

Dopušteno

Dopušteno

značenje

cijena

Koeficijent

Povećati

Smanjenje

Broj bušotina

Broj bušotina

Broj bušotina

Ograničenja

Ograničenje

Dopušteno

Dopušteno

značenje

Desni dio

Povećati

Smanjenje

Duljina

Cijena projekta

Izvješće o održivosti sadrži informacije o promjenjivim (optimiziranim) varijablama i ograničenjima modela. Ove su informacije povezane s simpleks metodom koja se koristi u optimizaciji linearnih problema, gore opisanom u smislu rješavanja problema. Omogućuje vam procjenu koliko je dobiveno optimalno rješenje osjetljivo na moguće promjene parametara modela.

Prvi dio izvješća sadrži podatke o izmijenjenim ćelijama koje sadrže vrijednosti o broju jažica na poljima. Stupac "Rezultirajuća vrijednost" označava optimalne vrijednosti varijabli koje treba optimizirati. Stupac "Ciljni koeficijent" sadrži početne podatke o vrijednostima koeficijenata funkcije cilja. Sljedeća dva stupca ilustriraju dopušteno povećanje i smanjenje ovih koeficijenata bez promjene nađenog optimalnog rješenja.

Drugi dio izvješća o održivosti sadrži informacije o ograničenjima koja se nameću varijablama koje se optimiziraju. Prvi stupac prikazuje zahtjeve resursa za optimalno rješenje. Drugi sadrži vrijednosti sjenovitih cijena za vrste korištenih resursa. Zadnja dva stupca sadrže podatke o mogućem povećanju ili smanjenju količine raspoloživih resursa.

Problem grupiranja.

Metoda korak po korak za rješavanje problema navedena je gore. Evo Excel tablica koje ilustriraju napredak rješavanja problema:

Metoda najbližeg susjeda

Rješenje problema klaster analize - "METODA U BLIZINI SUSJEDA"

Početni podaci

gdje je x1 obujam proizvoda;

h2 - prosječni godišnji trošak glavnog

Sredstva industrijske proizvodnje

Metoda dalekog susjeda

Rješenje problema klaster analize - "DALJINSKA SUSJEDNA METODA"

Početni podaci

gdje je x1 obujam proizvoda;

h2 - prosječni godišnji trošak glavnog

Sredstva industrijske proizvodnje