Analiza podatkov in modeliranje razmerij v R. R-analiza ali sprejemljivost pristopov na podlagi kriterijev Analiza podatkov v okolju R

Danes bom nekaj govoril o reševanju problema klasifikacije z uporabo programskega paketa R in njegovih razširitev. Problem klasifikacije je morda eden najpogostejših pri analizi podatkov. Obstaja veliko metod za reševanje z različnimi matematičnimi tehnikami, toda vi in jaz, kot apologeti R, se ne moremo, ampak veselimo, da vam hkrati ni treba programirati ničesar od začetka - vse je tam (in daleč od tega, da bi bili v ena kopija) v sistemu paketov R.

Klasifikacijska naloga

Klasifikacijska naloga je tipičen primer »nadzorovanega učenja«. Praviloma imamo podatke v obliki tabele, kjer so v stolpcih zapisane vrednosti naborov lastnosti za posamezen primer. Poleg tega so vse vrstice vnaprej označene tako, da eden od stolpcev (predvidevamo, da zadnji) označuje razred, ki mu dana vrstica pripada. kako dober primer Možno je prenesti nalogo razvrščanja e-poštnih sporočil na neželeno in neželeno pošto. Če želite uporabljati algoritme strojnega učenja, morate najprej imeti označene podatke – podatke, za katere je znana vrednost razreda skupaj z drugimi funkcijami. Poleg tega mora biti nabor podatkov pomemben, zlasti če je število funkcij veliko.

Če imamo dovolj podatkov, lahko začnemo učiti model. Splošna strategija s klasifikatorji ni zelo odvisna od modela in vključuje naslednje korake:

izbira vadbenih in testnih sklopov;
usposabljanje modela na učnem setu;
preverjanje modela na testnem nizu;
navzkrižna validacija;
izboljšanje modela.

Natančnost in popolnost

Kako ocenimo, kako dobro deluje naš klasifikator? Težko vprašanje. Dejstvo je, da so možni različni scenariji, tudi če imamo samo dva razreda. Recimo, da rešujemo težavo s filtriranjem neželene pošte. Po preverjanju modela na testnem nizu bomo dobili štiri vrednosti:

TP (true positive) – koliko sporočil je bilo pravilno razvrščenih kot vsiljena pošta,
TN (true negative) – koliko sporočil je bilo pravilno razvrščenih kot nezaželena pošta,
FP (lažno pozitivno) - koliko sporočil je bilo nepravilno razvrščenih kot neželena pošta (to pomeni, da sporočila niso bila neželena pošta, vendar je model ta sporočila uvrstil med neželeno pošto),
FN (false negative) - koliko sporočil je bilo nepravilno razvrščenih kot neželena pošta, v resnici pa je še vedno American English Center.

Nadaljevanje na voljo samo članom

Možnost 1. Pridružite se skupnosti »site«, da preberete vsa gradiva na spletnem mestu

Članstvo v skupnosti v določenem obdobju vam bo omogočilo dostop do VSEH hekerskih gradiv, povečalo vaš osebni kumulativni popust in vam omogočilo, da si naberete profesionalno oceno Xakep Score!

Tarča vodenje usposabljanja "Analiza podatkov in modeliranje razmerij v paketu R" - naučite se osnovnih funkcij programa R - prosti jezik programiranja za statistične izračune ter se naučijo organizirati vnos podatkov in jih upravljati, izvajati primarno statistično analizo podatkov, jih predstaviti v grafični obliki in znati poiskati povezave v podatkih. Usposabljanje je namenjeno študentom brez izkušenj z R ali z osnovnim znanjem o paketu.

Zaželeno je, da imajo slušatelji znanje programiranja in poznavanje osnov statistične analize.

Po diplomi boste program R lahko uporabljali za:

Pravilno oblikujte vzorec podatkov za analizo
Organizirajte vnos podatkov in upravljajte podatke
Izvedite deskriptivno statistično analizo
Raziščite razmerja v križnih tabelah
Preizkusite statistične hipoteze o enakosti sredstev
Uporabite grafične funkcije
Izvedite korelacijsko analizo
Izvedite regresijsko analizo
Izvedite analizo variance

Trajanje usposabljanja: 32 ak.h. ali 4 dni.

Program usposabljanja:

Tema 1. Osnovni koncepti statistične analize podatkov - 2 ak. pog.

Statistična študija
Načini pridobivanja podatkov
Razlika med opazovanjem in poskusom
Splošna populacija in vzorec
Podatkovne zahteve za vzorčenje
Koncept točkovne in intervalne statistične ocene
Funkcije in spremenljivke
Spremenljive lestvice
Navodila za analizo statističnih podatkov
Opisna in analitična statistika
Izbira metod statistične analize v odvisnosti od merilnih lestvic spremenljivk
Statistična hipoteza
Vrste statističnih napak
Načela za testiranje statističnih hipotez
Izbira stopnje pomembnosti za testiranje hipotez

Tema 2. Uvod v delo v okolju R - 2 ak.h.

Značilnosti dela z R
Namestitev programa
Zagon programa
R okolje
Vmesnik ukazna vrstica in pogovorna okna
Pravila ukaza
Ustvarjanje delovnega imenika
Paketi
Grafični vmesniki
R kot kalkulator
referenčni sistem

Tema 3. Osnove programiranja v R - 2 ac.

Vrste predmetov v R
Vektor
Seznami
matrice
Dejavniki
podatkovne tabele
Izrazi
Operaterji dostopa do podatkov
Funkcije in argumenti
Cikli in pogojne izjave
Upravljanje baze podatkov v R
Vektorizacija delovanja
Odpravljanje napak
Objektno usmerjeno programiranje

Tema 4. Vnos in urejanje podatkov v R - 2 ak.h.

Načini prenosa podatkov
Direkten vnos podatkov
Vnos podatkov v tabelo
Uvoz podatkov iz MS Excel
Uvoz podatkov iz drugih statističnih paketov in baz podatkov
Shranjevanje rezultatov analize
Določanje podatkov o količini
Določanje ordinalnih in imenskih podatkov
Določanje manjkajočih vrednosti v podatkih
Identifikacija izstopajočih vrednosti in napak
Principi transformacije podatkov

Tema 5. Grafične lastnosti R - 2 ak.h.

Grafične funkcije
Grafične naprave
Možnosti grafike
interaktivna grafika
Sestavljene slike
Izhodne naprave

Tema 6. Deskriptivna statistična analiza v R – 4 ak.

Centralna statistika trendov
Aritmetična sredina
modalni pomen
Srednja vrednost
Statistika razpršenosti
Varianca in standardni odklon
Koeficient variacije
Percentili
Histogrami
Boxplots
Z-transformacija
Normalni porazdelitveni zakon
Asimetrija in kurtoza
Preverjanje normalnosti porazdelitve
Nekateri zakoni porazdelitve
Binomska porazdelitev
Poissonova porazdelitev
Enakomerna porazdelitev
Eksponentna porazdelitev
lognormalna porazdelitev
Standardna napaka in interval za srednjo vrednost

Tema 7. Oblikovanje podatkov za analizo s selektivno metodo - 2 ak.pog.

Splošna in vzorčna populacija
Značilnosti vzorca
Značilnosti vzorčne metode raziskovanja
Klasifikacija vzorcev
Vrste in metode verjetnostne selekcije
Metode vzorčenja
Enostavna naključna izbira
Sistematična naključna izbira
izbor grozda
Enostopenjski izbor gruče
Večstopenjska izbira gruče
Algoritem za izvedbo vzorčnih raziskav
Določitev zahtevane velikosti vzorca

Tema 8. Statistični testi za odkrivanje razlik v vzorcih v R - 4 ac.ch.

Hipoteze o primerjanju sredstev
Z-test za primerjavo povprečij
Z-ocena za primerjavo delnic
T-test enega vzorca
T-test za neodvisne vzorce
T-test za odvisne vzorce
Pogoji za uporabo neparametričnih kriterijev
Enovzorčni Wilcoxonov podpisani rangni test
Mann-Whitneyjev test
Test znaka za povezane vzorce
Wilcoxonov predznakovni test za sorodne vzorce
Kruskal-Wallisova neparametrična ANOVA
Friedmanov kriterij za odvisne vzorce

Tema 9. Vrednotenje razmerja med spremenljivkami v R - 4 ak.pog.

Analiza razmerja med kategoričnimi spremenljivkami
Kontingenčne tabele
Pričakovane frekvence in ostanki v tabelah nepredvidljivih dogodkov
Hi-kvadrat test
Kriteriji dobrote
Klasifikacija tipov razmerij med kvantitativnimi spremenljivkami
Razpršitve
Predpogoji in pogoji za izvedbo korelacijske analize
Pearsonov korelacijski koeficient
Koeficienti ranga korelacije
Spearmanov korelacijski koeficient
Preverjanje pomembnosti odnosa
Intervalne ocene korelacijskih koeficientov
Parcialni korelacijski koeficienti

Tema 10. Modeliranje oblike komunikacije z uporabo regresijske analize v R- 4 ak.pog.

Osnovni koncepti regresijske analize
Par in več linearni model regresija
Ozadje linearne regresijske analize
Ocena regresijskih koeficientov
Preverjanje veljavnosti regresijskega modela
Pomen regresijske enačbe
Pomen regresijskih koeficientov
Izbor spremenljivk v regresijski analizi
Ocenjevanje točnosti regresijske enačbe
Ocena statistične stabilnosti regresijske enačbe
Točkovna in intervalna ocena odvisne spremenljivke
Nelinearni regresijski modeli
Kategorične razlagalne spremenljivke v regresijskem modelu

Tema 11. Modeliranje razmerij z analizo variance v R-4 ac.ch.

ANOVA modeli
Predpogoji za uporabo analize variance
Preizkušanje hipoteze o enakosti varianc
Enosmerni model ANOVA
Tabela enosmerne ANOVA
Ocena stopnje vpliva dejavnika
Post hoc testi za parne primerjave
Analiza variance z dvema ali več faktorji
Dvosmerna tabela ANOVA z interakcijo
Grafična interpretacija interakcije dejavnikov
Analiza multivariatnega modela

Recimo, da imate velik nabor izjav (na primer »oseba se sliši ponosno«, »vsi ljudje smo sestre«, »slab svet je boljši od dobrega prepira« itd.), anketiranci so svoj odnos do njih ocenili glede na na isto predlogo (na primer ., "strinjam se / ne vem / se ne strinjam"). Seveda lahko podate znake za vsako postavko v članku, lahko pa poskusite najti nekaj, kar združuje en del elementov v bolj splošno kategorijo, drugega v drugo kategorijo (seveda se lahko izkaže, da vaš izjave nimajo nič skupnega). Faktorska analiza je eno od orodij, ki vam omogoča, da najdete to skupno, če seveda obstaja.

Strožje gledano, če rezultati dveh ali več predmetov med seboj korelirajo, potem je logično domnevati, da ta korelacija kaže na nek skupni dejavnik (na primer, visoke ocene pri algebri in visoke ocene pri geometriji se bodo najverjetneje pojavile hkrati in nakazovale dobro abstraktno mišljenje in razvita logika). Faktorska analiza vam pomaga najti ta razmerja v vašem naboru podatkov.

To je hkrati moč in slabost. Močna, ker je velika količina podatkov poenostavljena in lažja za analizo. In šibka, ker močna korelacija, kot veste, ne kaže na vzročnost in resnične povezave – računalnik vam bo nekaj pokazal, kaj pa to pomeni, kako razumna in verjetna je ugotovitev, presodite sami. Kot piše v eni pametni knjigi "razlagati faktorje, kar je bolj podobno vuduju kot znanosti".

Vendar pa pojdimo k primeru.

Tako je leta 2013 Center za socialno ekspertizo, ki ga je naročila Vseukrajinska javna organizacija "Gay Alliance of Ukraine", anketiral običajne ljudi (800 ljudi) na temo homofobije (poročilo). Vprašalnik je med drugim vseboval postavke, ki niso bile neposredno povezane s homofobijo, npr. o zaupanju v različne politične in družbene institucije. Vprašanje je bilo: »Kakšna je vaša stopnja zaupanja v naslednje družbene institucije? (Navedite en najboljši odgovor za vsako vrstico)" z možnostmi odgovora "5. Sploh ne zaupam - 4. Raje ne zaupam - 3. Težko rečem, ali zaupam ali ne - 2. Raje zaupam - 1. Popolnoma zaupam. Seznam institucij, do katerih je respondent izrazil svoj odnos, je naslednji:

1. Družina in sorodniki
2. Sosedje
3. Kolegi
4. Cerkve in duhovščina
5. Astrologi
6. Množični mediji (televizija, radio, časopisi)
7. Politične stranke
8. Davčni urad
9. Policija
10. Tožilstvo
11. Sodišča
12. Predsednik
13. Verkhovna Rada
14. Vlada
15. Lokalne oblasti
16. Banke
17. Zavarovalnice
18. Dobrodelne ustanove, javne organizacije

Kako narediti faktorsko analizo teh podatkov? (predpostavimo, da se list z odgovori imenuje dovira)
Pripenjanje matrike:

>priloži(dovira)

Najprej se morate prepričati, da v naloženi matriki ni vrzeli ali napak pri vnosu:

>ki(je.na(dovira)==T)
celo število (0)
>povzetek(dovira)
p1
Min. :1.000
1. kv.: 2.000
Mediana: 2.000
Srednja vrednost: 2,711
3. kv.: 4.000
maks. :5.000 ... ... ...

Kot lahko vidite, je vse v redu (da ne bi navlažili predstavitve, je v zaključku ostalo samo prvo vprašanje).
Ukaz, ki izvaja faktorsko analizo, je vključen v nabor privzeto nameščenih paketov. Je zelo preprosto:

>factanal(dovira,6)
klic:
factanal(x = dovira, faktorji = 6)

Edinstvenosti:

1	2	3	4	5	6	7	8	9	10	11	12	13	14	15	16	17	18
0.431	0.195	0.379	0.614	0.047	0.672	0.506	0.285	0.174	0.106	0.186	0.215	0.112	0.082	0.464	0.288	0.204	Faktor1	faktor2	Faktor3	Faktor4	faktor5	Faktor6
1	-0.407	-0.324	0.489	-0.106	-0.213
2			0.879	0.131		-0.112
3			0.784
4		-0.128	0.540	-0.170		0.193
5	0.125	0.171		0.133	0.943
6	0.265	0.122	0.252		0.393	0.139
7	0.522	0.382		0.148	0.151	0.175
8	0.395	0.673	-0.119	0.204	0.182	0.131
9	0.329	0.817		0.181
10	0.297	0.865	-0.113	0.145	0.122
11	0.353	0.769	-0.104	0.277
12	0.805	0.320				0.111
13	0.853	0.318	-0.144	0.151	0.121
14	0.902	0.250			0.125
15	0.582	0.230		0.181		0.325
16	0.196	0.414		0.667	0.139	0.184
17	0.243	0.351		0.694	0.160	0.317
18	0.162	0.109		0.228		0.608

	Faktor1	faktor2	Faktor3	Faktor4	faktor5	3.662	3.399	2.079	0.324	1.275	0.765
ProportionVar	0.203	0.189	0.116	0.074	0.071	0.043
CumulativeVar	0.203	0.392	0.508	0.581	0.652	0.695

Preizkus hipoteze, da zadostuje 6 faktorjev.
Statistika hi kvadrat je 257,27 pri 60 prostostnih stopinjah.
P-vrednost je 2,95e-26

Poglejmo rezultate.

Najprej se v izpisu ponovi ukaz, ki ga je dal stroju, nato sledi tabela »unikatnosti«, to je deležev skupne variance, ki jih prispeva vsaka spremenljivka posebej. Nato vidimo tabelo obremenitev, v kateri stolpci ustrezajo korelacijskim koeficientom posameznih spremenljivk z izbranimi faktorji. Končno, tretja tabela je delež skupne variance, razložen z vsakim posebnim dejavnikom, in kopičenje teh variance. Informacija o testiranju hipoteze "izbrano število faktorjev zadostuje za opis niza" dopolnjuje rezultat.

Najpomembnejše so tabele obremenitev in deležev razložene variance.

Iz slednjega je razvidno, da v seštevku 6 izbranih faktorjev pojasni 70 % razpršenosti podatkov, medtem ko je prvi faktor odgovoren za petino celotne variance, drugi 19 %, tretji 12 % itd. .
Nakladalna tabela kaže, da je v prvem faktorju združenih 7, 12, 13, 14 in 15 institucij (korelacijski koeficienti so večji od 0,5), v drugem - 8, 9, 10, 11, v tretjem - 2, 3. , 4 itd.

Poskusimo interpretirati rezultate.

Faktor 1 združuje zaupanje v politične stranke, predsednika, Verkhovna Rada, vlado in lokalne oblasti. Z drugimi besedami, to zaupanje v politično sfero na splošno.
Faktor 2 združuje zaupanje v davčno inšpekcijo, policijo, tožilstvo in sodišča. Z drugimi besedami, to zaupanje v davčne organe in organe pregona.
Faktor 3 združuje zaupanje v sosede, sodelavce in nepričakovano v cerkev in duhovščino. Te institucije lahko povzamemo na naslednji način − zaupanje v ljudi, s katerimi se anketiranci srečajo iz oči v oči. Temu pritrjuje tudi korelacija s stopnjo zaupanja v svojce (je le malo nižja od poljubno izbranega praga korelacijskega koeficienta 0,5).
Faktor 4 je zaupanje v banke in zavarovalnice, tj. finančnim ustanovam.
Faktor 5 stoji sam - zaupanje astrologom(brez drugih opaznih korelacije).
Faktor 6 tako kot prejšnji korelira samo s stopnjo zaupanja v samo eno institucijo - dobrodelne ustanove in javne organizacije.
Le ena institucija ni bila vključena v te dejavnike - množični mediji (televizija, radio, časopisi). Zaupanje vanj je približno enako »razmazano« z izbranimi dejavniki.

Kaj nam dajejo ti rezultati?

Če povprečimo stopnjo zaupanja v družbene institucije po faktorjih (tj. za vsakega anketiranca seštejemo ocene institucij, vključenih v faktor, in delimo s številom teh institucij, ki jih faktor združuje), dobimo sliko razpoloženja Ukrajincev glede posameznih elementov države in družbe:

Iz tega je razvidno, da anketiranci najbolj zaupajo ljudem, s katerimi se srečajo iz oči v oči. Najmanj zaupanja pa je v davčne organe in organe pregona ter v finančne ustanove.

Zadnji vidik, ki ne more mimo porajati vprašanj: kako vemo, da je treba ločiti točno 6 dejavnikov, morda najbolj natančen odgovor bi bil – nikjer. Vsakič morate eksperimentirati in se zanašati na zdrav razum. Prvič, število faktorjev ne more biti večje od števila spremenljivk. Drugič, lahko se osredotočite na celotno pojasnjeno varianco, ker nima smisla govoriti o faktorjih, če skupaj ne opisujejo vsaj polovice (in pametni ljudje priporočajo, da poskusite vsaj 70 %). Tretjič, osredotočiti se je treba na sposobnost izbire razumne razlage za pridobljene dejavnike.

V tem eseju se na primer nismo dotaknili številnih pomembnih vidikov faktorske analize. kot so metode rotacije. Naš cilj je bil na najsplošnejši način pokazati, zakaj je ta metoda potrebna in kako jo uporabiti. Globlje poznavanje pa seveda zahteva samostojno delo s priročniki in podatki.

Literatura

Teetor P. R kuharska knjiga. - O'Reilly, 2011

Uvod

Najprej se pogovorimo o terminologiji. Govorimo o področju, ki se v zahodni literaturi imenuje Data Mining in se v ruščino pogosto prevaja kot »analiza podatkov«. Izraz ni povsem uspešen, saj je beseda "analiza" v matematiki precej znana, ima ustaljen pomen in je vključena v ime številnih klasičnih oddelkov: matematična analiza, funkcionalna analiza, konveksna analiza, nestandardna analiza, multivariatni kompleks analiza, diskretna analiza, stohastična analiza, kvantna analiza itd. Na vseh teh področjih znanosti se proučuje matematični aparat, ki temelji na nekaterih temeljnih rezultatih in omogoča reševanje problemov s teh področij. Pri analizi podatkov je situacija veliko bolj zapletena. To je najprej uporabna znanost, v kateri ni matematičnega aparata, v smislu, da ni končnega nabora osnovnih dejstev, iz katerih bi sledilo, kako reševati probleme. Mnogi problemi so "individualni", zdaj pa se pojavlja vedno več novih razredov problemov, za katere je potrebno razviti matematični aparat. Pri tem ima še toliko večjo vlogo dejstvo, da je analiza podatkov relativno nova smer v znanosti.

Nato je treba pojasniti, kaj je "analiza podatkov". Imenoval sem ga "območje", ampak območje česa? Tu se začne zabava, saj to ni le področje znanosti. Pravi analitik rešuje predvsem uporabne probleme in je usmerjen v prakso. Poleg tega je treba analizirati podatke v ekonomiji, biologiji, sociologiji, psihologiji itd. rešitev

nove naloge, kot rečeno, zahteva izum novih tehnik (to niso vedno teorije, ampak tudi tehnike, metode itd.), zato nekateri pravijo, da je tudi analiza podatkov umetnost in obrt.

IN področja uporabe, najpomembnejša je praksa! Nemogoče si je predstavljati kirurga, ki ni opravil niti ene operacije. Pravzaprav to sploh ni kirurg. Tudi podatkovni analitik ne more brez reševanja realnih aplikativnih problemov. Več takšnih nalog boste rešili sami, bolj usposobljeni strokovnjaki boste postali.

Prvič, analiza podatkov je praksa, praksa in še več prakse. Reševati je treba realne probleme, številne, z različnih področij. Ker sta na primer klasifikacija signalov in besedil dve popolnoma različni področji. Strokovnjaki, ki zlahka sestavijo algoritem za diagnostiko motorja na podlagi senzorskih signalov, morda ne bodo mogli izdelati preprostega filtra neželene pošte za e-poštna sporočila. Vendar je zelo zaželeno pridobiti osnovne veščine pri delu z različnimi predmeti: signali, besedila, slike, grafi, opisi funkcij itd. Poleg tega vam bo omogočil, da izberete naloge po svojih željah.

Drugič, pomembno je izbrati prave tečaje usposabljanja in mentorje.

IN V bistvu se vsega lahko naučiš sam. Navsezadnje se ne ukvarjamo s področjem, kjer je nekatere skrivnosti so se prenašale od ust do ust. Nasprotno, veliko je pismenih tečaji, izvorne kode programov in podatkov. Poleg tega je zelo uporabno, ko isto težavo rešuje več ljudi vzporedno. Dejstvo je, da je treba pri reševanju tovrstnih problemov opraviti z zelo specifičnim programiranjem. Recimo vaš algoritem

dal 89 % pravilnih odgovorov. Vprašanje: ali je to veliko ali malo? Če ne dovolj, kaj je potem: ali ste algoritem napačno programirali, izbrali napačne parametre algoritma ali je sam algoritem slab in ni primeren za rešitev te težave? Če se delo podvaja, je mogoče hitro najti napake v programu in nepravilne parametre. In če ga podvoji specialist, se hitro rešijo tudi vprašanja ocenjevanja rezultata in sprejemljivosti modela.

Tretjič, koristno je vedeti, da je za rešitev problema analize podatkov potrebno veliko časa.

Statistika

Analiza podatkov v R

1. Spremenljivke

IN R, tako kot vsi drugi programski jeziki, ima spremenljivke. Kaj je spremenljivka? Pravzaprav je to naslov, s katerim lahko najdemo nekaj podatkov, ki jih shranimo v pomnilnik.

Spremenljivke so sestavljene iz levega in desnega dela, ločenih z operatorjem dodelitve. V R je operator dodelitve "<-”, если название переменной находится слева, а значение, которое сохраняется в памяти - справа, и она аналогична “=” в других языках программирования. В отличии от других языков программирования, хранимое значение может находиться слева от оператора присваивания, а имя переменной - справа. В таком случае, как можно догадаться, оператор присваивания примет конструкцию следующего вида: “->”.

IN odvisno od shranjenih podatkov so lahko spremenljivke različne vrste: celo število, realno, niz. Na primer:

moj.var1<- 42 my.var2 <- 35.25

V tem primeru bo spremenljivka my.var1 celoštevilskega tipa, my.var2 pa realnega tipa.

Tako kot v drugih programskih jezikih lahko tudi s spremenljivkami izvajate različne aritmetične operacije.

my.var1 + my.var2 - 12

moj.var3<- my.var1^2 + my.var2^2

Poleg aritmetičnih operacij lahko izvajate logične operacije, to je primerjalne operacije.

my.var3 > 200 my.var3 > 3009 my.var1 == my.var2 my.var1 != my.var2 my.var3 >= 200 my.var3<= 200

Rezultat logične operacije bo pravilna (TRUE) ali napačna (FALSE) izjava. Izvajate lahko tudi logične operacije ne samo med spremenljivko z določeno vrednostjo, ampak tudi z drugo spremenljivko.

moja.nova.var<- my.var1 == my.var2