Seuraava artikkeli auttaa sinua: 5 todellista Markovin ketjujen käyttötapausta
Markovin ketjut ovat stokastinen malli, joka edustaa todennäköisten tapahtumien peräkkäisyyttä, ja seuraavan tilan ennusteet tai todennäköisyydet perustuvat puhtaasti aikaisempaan tapahtuman tilaan aikaisempien tilojen sijaan. Markovin ketjuja käytetään monissa tilanteissa, koska ne voidaan suunnitella mallintamaan monia reaalimaailman prosesseja. Nämä alueet vaihtelevat eläinpopulaatioiden kartoittamisesta hakukonealgoritmeihin, musiikin säveltämiseen ja puheentunnistukseen. Tässä artikkelissa keskustelemme muutamista Markov-ketjun tosielämän sovelluksista. Seuraavassa on käsiteltävät aiheet.
Sisällysluettelo
- “Muistiton” Markov-ketju
- Ketjun toimivuus
- Tosielämän sovelluksia
- Googlen käyttämä “Pagerank”.
- Markkinatrendien ennustaminen
- Subreddit Simulaatio
- Seuraavan sanan ennustus
- Vaaliäänestyksiä
Aloitetaan ymmärtämällä Markovin ketju ja miksi sitä kutsutaan “muistittomaksi” ketjuksi.
“Muistiton” Markov-ketju
Markovin ketjut ovat stokastisten järjestelmien olennainen osa. Niitä käytetään usein monilla eri aloilla. Markovin ketju on stokastinen prosessi, joka kohtaa Markovin ominaisuuden, joka sanoo, että vaikka nykyisyys tunnetaan, menneisyys ja tulevaisuus ovat riippumattomia. Tämä viittaa siihen, että jos prosessin nykytila tiedetään, ei tarvita lisätietoa sen aikaisemmista tiloista parhaan mahdollisen ennusteen saamiseksi sen tulevaisuudesta. Se on “muistiton” tämän Markov-ketjun ominaisuuden vuoksi.
Tämä yksinkertaisuus voi merkittävästi vähentää parametrien määrää tutkittaessa tällaista prosessia. Markovin ketjuja käytetään tapahtuman todennäköisyyden laskemiseen katsomalla sitä tilana, joka siirtyy toiseen tilaan tai tilana, joka siirtyy samaan tilaan kuin ennen.
Etsitkö täydellistä arkistoa tietotieteessä käytettävistä Python-kirjastoista, katso tästä.
Ketjun toimivuus
Todennäköisyysmekanismi on Markovin ketju. Markovin ketjun siirtymämatriisia käytetään yleisesti kuvaamaan tilasiirtymien todennäköisyysjakaumaa. Jos Markov-ketju sisältää N tilaa, matriisi on N x N, jolloin merkintä (I, J) edustaa mahdollisuutta siirtyä tilasta I tilaan J.
Tämän formalisoimiseksi haluamme laskea todennäköisyyden siirtyä tilasta I tilaan J M askeleen yli. Markovin ketjumalli perustuu kahteen tärkeään tietoon.
- Siirtymämatriisi (lyhennetty P) heijastaa tilan siirtymien todennäköisyysjakaumaa. Todennäköisyyksien yhteismäärä matriisin kullakin rivillä on yksi, mikä osoittaa, että kyseessä on stokastinen matriisi.
- Alkutilavektori (lyhennetty S) heijastaa käynnistymisen todennäköisyysjakaumaa missä tahansa N:stä mahdollisesta tilasta. Jokainen vektorin merkintä osoittaa alkamisen todennäköisyyden kyseisessä tilanteessa.
Kun otetaan huomioon nämä kaksi riippuvuutta, Markov-ketjun aloitustila voidaan laskea ottamalla P x I tulo. Ennakoidaksesi tulevien tilojen todennäköisyyttä, nosta siirtymämatriisi P Mth potenssiin.
Kuvan lähde
Yllä oleva esitys on kaavio kaksitilaisesta Markov-prosessista, jonka tilat on merkitty E ja A. Jokainen numero osoittaa todennäköisyyden, että Markov-prosessi siirtyy tilasta toiseen, nuolen osoittaessa suunnan. Esimerkiksi jos Markov-prosessi on tilassa A, todennäköisyys, että se siirtyy tilaan E, on 0,4, kun taas todennäköisyys, että se jatkuu tilassa A, on 0,6.
Tosielämän sovelluksia
Selityksen jälkeen tarkastellaan joitain varsinaisia sovelluksia, joissa niistä on hyötyä. Tulet hämmästymään, kuinka kauan olet käyttänyt Markov-ketjuja tietämättäsi.
Page ja Brin loivat algoritmin, joka sai nimen “PageRank” Larry Pagen mukaan. PageRank on yksi Googlen käyttämistä strategioista arvioidakseen sivun osuvuutta tai arvoa. Käyttääksemme PageRank-algoritmia oletamme verkon olevan suunnattu graafi, jossa verkkosivut toimivat solmuina ja hyperlinkit reunoina. PageRank antaa sivulle arvon riippuen siihen viittaavien käänteisten linkkien määrästä. Sivu, joka on yhdistetty moniin muihin sivuihin, saa korkean sijoituksen.
Sivupisteiden laskemiseksi muista, että selaaja voi valita minkä tahansa sivun. He eivät kuitenkaan aina valitse sivuja samassa järjestyksessä. Suurimman osan ajasta surffaaja seuraa sivun linkkejä peräkkäin, esimerkiksi sivulta “A”, se seuraa lähteviä yhteyksiä ja siirtyy sitten johonkin sivun “A” naapurista. Näin ei kuitenkaan aina ole.
Pienemmän mutta merkittävän osan ajasta surffaaja hylkää nykyisen sivun ja valitsee satunnaisen sivun verkosta “teleportoitavaksi”. Selvittääkseen tällaisen skenaarion Page ja Brin kehittivät vaimennustekijän, joka kvantifioi todennäköisyyden, että surffaaja hylkää nykyisen sivun ja “teleporttaa” uudelle. Koska käyttäjä voi teleportoida mille tahansa verkkosivulle, jokainen sivu voi tulla n:nnen sivun valitsemaan.

Markkinatrendien ennustaminen
Osakemarkkinat ovat epävakaa järjestelmä, jossa on suuri arvaamattomuus. Markovin ketjujen ja niihin liittyvien kaavioiden avulla voidaan arvioida eri rahoitusmarkkinoiden ilmasto-olosuhteiden todennäköisyyttä ja siten ennustaa tulevien markkinaolosuhteiden todennäköisyyttä. Voimme nähdä, että tämä järjestelmä vaihtaa tietyn määrän tilaa satunnaisesti. Tila-avaruudella tarkoitetaan kaikkia näiden tilojen ajateltavissa olevia yhdistelmiä. Meidän tilanteessamme voimme nähdä, että osakemarkkinaliike voi olla vain kolme muotoa.
- Sonni markkinat ovat aikoja, jolloin hinnat nousevat normaalisti toimijoiden positiivisten tulevaisuudennäkymien seurauksena.
- Karhu markkinat ovat aikoja, jolloin hinnat tyypillisesti laskevat toimijoiden negatiivisten tulevaisuudennäkymien seurauksena.
- Pysähtynyt markkinat ovat niitä, joilla kokonaishinnat eivät laske tai nouse.
Reilut markkinat uskovat, että markkinatieto jakautuu tasaisesti osallistujien kesken ja hinnat vaihtelevat satunnaisesti. Tämä osoittaa, että kaikilla toimijoilla on tasavertainen pääsy tietoon, joten kenelläkään toimijalla ei ole etua sisäpiiritiedon vuoksi. Tietyt kuviot sekä niiden arvioitu todennäköisyys voidaan havaita historiallisen tiedon teknisellä tarkastelulla.
Harkitse seuraavia kaavoja historiallisista tiedoista hypoteettisilla markkinoilla, joilla on Markovin ominaisuuksia. On 90 % mahdollisuus, että toinen nouseva viikko seuraa härkämarkkinoiden trendin määrittelemää viikkoa. Lisäksi on 7,5 % mahdollisuus, että nousuviikkoa seuraa negatiivinen ja 2,5 % todennäköisyys, että se pysyy staattisena. Laskevan viikon jälkeen on 80 % todennäköisyydellä, että myös seuraava viikko on laskeva ja niin edelleen.

Subreddit Simulaatio
Redditissä on botti, joka tuottaa satunnaisia ja merkityksellisiä tekstiviestejä. Se käyttää GTP3:a ja Markov-ketjua tekstin luomiseen ja satunnaiseen tekstiin, mutta sillä on silti taipumus olla merkityksellinen.
Yksinkertaisesti sanottuna Subreddit Simulator kerää merkittävän osan KAIKISTA kommenteista ja otsikoista, jotka on julkaistu Redditin monissa yhteisöissä, ja analysoi sitten kunkin lausunnon sana sanalta rakenteen. Näiden tietojen avulla se tuottaa sanasta sanaan todennäköisyyksiä ja käyttää niitä sitten otsikoiden ja kommenttien rakentamiseen tyhjästä.

Kuvan lähde
Yllä olevassa esimerkissä eri Reddit-botit keskustelevat keskenään GPT3- ja Markov-ketjun avulla.
Seuraavan sanan ennustus
Markovin ketju auttaa rakentamaan järjestelmän, jossa epätäydellinen lause annetaan, järjestelmä yrittää ennustaa lauseen seuraavan sanan. Koska jokaisella sanalla on tila ja se ennustaa seuraavan sanan edellisen tilan perusteella.
Ymmärtääksemme sen, otetaan yksinkertainen esimerkki. Harkitse kolmea yksinkertaista lausetta.
- Pidän fysiikasta
- Rakastan Pyöräilyä
- Pidän Kirjoista
Kaikki edellisten lauseiden ainutlaatuiset sanat, nimittäin ‘minä’, ‘pidän’, ‘rakkaus’, ‘fysiikka’, ‘pyöräily’ ja ‘kirjat’, voivat muodostaa eri tilat. Todennäköisyysjakauman tarkoituksena on arvioida todennäköisyyttä siirtyä tilasta toiseen, meidän tapauksessamme sanasta toiseen. Edelliset esimerkit osoittavat, että ensimmäinen sana meidän tilanteessamme alkaa aina sanalla “minä”.
Tämän seurauksena on 100 %:n todennäköisyys, että lauseen ensimmäinen sana on “minä”. Meidän on valittava toisen tilan termien “pidäminen” ja “rakkaus” välillä. Todennäköisyysjakauman tarkoituksena on nyt laskea todennäköisyys, että seuraava sana on ‘kuin’ tai ‘rakkaus’, jos edellinen sana on ‘minä’.
Esimerkissämme sana “tykkää” tulee kahdessa kolmesta lauseesta sanan “minä” jälkeen, mutta sana “rakkaus” esiintyy vain kerran. Tämän seurauksena on 67 % todennäköisyydellä, että ‘tykkää’ tulee hallitsemaan sanan ‘minä’ jälkeen, ja 33 % (1/3) todennäköisyys, että ‘rakkaus’ onnistuu ‘minän’ jälkeen. Samoin on 50 %:n todennäköisyys, että “fysiikka” ja “kirjat” menestyisivät “tykkäänä”. Ja sanaa “rakkaus” seuraa aina sana “pyöräily”.

Vaaliäänestyksiä
Jokaisen poliittisen puolueen ensisijainen tavoite on suunnitella suunnitelmia vaalien, erityisesti presidentinvaalien, voittamiseksi. Tästä ovat erityisen kiinnostuneita politiikan asiantuntijat ja media, koska he haluavat keskustella ja vertailla eri puolueiden kampanjamenetelmiä. Markovin ketjuja käytettiin ennustamaan Ghanan vaalituloksia vuonna 2016.
Ghanan vaaleja voidaan luonnehtia satunnaiseksi prosessiksi, ja tietoa aikaisempien vaalien tuloksista voidaan käyttää tulevien vaalien ennustamiseen samalla tavalla kuin inkrementaalista lähestymistapaa.
Ghanan neljännen tasavallan parlamenttivaalit näyttävät usein “flip-flopilta” kahden kauden jälkeen (eli National Democratic Congress (NDC) -ehdokas voittaa kaksi kautta ja National Patriotic Party (NPP) -ehdokas voittaa seuraavat kaksi kautta).
Tämän seurauksena MC:iden pitäisi olla arvokas työkalu vaalitulosten ennustamisessa. Bootstrap-prosenttipisteitä käytetään näiden ennusteiden luottamusvälien laskemiseen.
Päättäviä ajatuksia
Markov-ketjulla voidaan yksinkertaistaa huomattavasti Markovin ominaisuutta tyydyttäviä prosesseja, prosessin aikaisemman historian tunteminen ei paranna tulevaisuuden ennusteita, mikä tietysti vähentää merkittävästi huomioitavan tiedon määrää. Sillä on valtavia käyttötapauksia tieteen, matematiikan, pelaamisen ja informaatioteorian alalla. Tämän artikkelin avulla voimme ymmärtää joukon tosielämän käyttötapauksia eri elämänalueilta.