Seuraava artikkeli auttaa sinua: Mikä on Poisson-prosessi ja miten sitä käytetään datatieteessä?
Matematiikalla ja datatieteellä on katkeamaton yhteys ja datatieteen toiminnassa käytetään erilaisia matemaattisia funktioita. Todennäköisyysteoria on tärkeä osa matematiikkaa ja se ei auta vain mallien mittaamisessa, vaan myös tietojen mallintamisessa. Poisson-prosessi on myös osa matemaattista ja todennäköisyysteoriaa, jolla on monia tärkeitä sovelluksia. Datatieteessä on erilaisia Poisson-prosessien käyttötapauksia. Tässä artikkelissa aiomme keskustella Poisson-prosessin käyttötapauksista datatieteessä. Tärkeimmät artikkelissa käsiteltävät kohdat on lueteltu alla.
Sisällysluettelo
- Mikä on Poissonin paradigma
- Mikä on Poisson-jakauma
- Poisson-jakauman toteutus
- Poisson-prosessin käyttötapaukset datatieteessä
Keskustellaan ensin Poissonin paradigmasta.
Mikä on Poissonin paradigma?
Todennäköisyysteoria ja tilastot ovat matematiikan osia ja Poissonin paradigmaa voidaan pitää osana todennäköisyysteoriaa ja tilastoja. Erilaisten todennäköisyysteorioiden avulla voimme laskea ja tulkita satunnaisesti valittujen muuttujien jakautumista. Poisson-prosessia ja -jakaumaa käytetään pääasiassa silloin, kun tulevia tapahtumia on paljon ja niiden esiintymistodennäköisyys on hyvin pieni.
Matemaattisesti muunnetaan tämä skenaario tapahtumien lukumääräksi n, jolla on taipumus mennä äärettömyyteen, ja todennäköisyys on p, joka pyrkii menemään kohti nollaa. Voimme myös pitää tätä paradigmaa binomiaalisen paradigman päivitettynä versiona, mikä tarkoittaa, että binomijakauman approksimaatio on Poisson-jakauma.
Tässä paradigmassa oletetaan, että tapahtumilla on itsenäisiä piirteitä tai ne ovat riippuvaisia aikavälillä, kuten kuukausiriippuvaisia. Itsenäinen sana tarkoittaa, että mikään tapahtuneista ei anna mitään tietoa mistään tulevasta tapahtumasta; kumpikaan ei korreloi. Joissakin tapauksissa pidämme tätä paradigmaa myös binomiaalin approksimaationa Poisson-jakaumaan. Mennään syvemmälle tähän konseptiin.
Etsitkö täydellistä arkistoa tietotieteessä käytettävistä Python-kirjastoista, katso tästä.
Mikä on Poisson-prosessi?
Poisson-prosessia voidaan pitää laskentaprosessina, jossa koko prosessi antaa tulokset tietyn tapahtuman tapahtumien laskentana, jolla on satunnainen rakenne ja jolla on todennäköisyys tapahtua tietyllä nopeudella. Voimme ymmärtää tämän ottamalla esimerkin maanjäristyksistä tietyllä alueella, jossa maanjäristysten esiintymistiheys on 3 kertaa vuodessa, mutta maanjäristysten ajoitukset ovat täysin satunnaisia. Tällaisissa tilanteissa Poisson-prosessi voi olla meille paremmin sopiva malli.
Voimme soveltaa Poisson-prosessia, jos tilanne täyttää seuraavat kriteerit
- Kaikki tilanteen tai skenaarion eri tapahtumat ovat toisistaan riippumattomia.
- Esiintymisnopeus on vakio, mikä tarkoittaa, että aikavälillä tapahtuvien tapahtumien lukumäärän tulee olla vakio.
- Kahden tapahtuman ei pitäisi tapahtua samanaikaisesti.
Yksi tärkeimmistä huomioista tässä on, että tapahtumia voidaan verrata Bernoullin kokeisiin, mikä tarkoittaa, että ne ovat asynkronisia tai diskreettejä, eli tapahtumat ovat joko onnistumisia tai epäonnistumisia. Yllä annetussa esimerkissä valitsemamme aikaväli on 1 vuosi, mutta osaväli on aika, jolloin maanjäristys aktivoituu tai deaktivoituu. Voimme visualisoida Poisson-prosessin seuraavalla tavalla.
Kuvan lähde
Yllä olevassa kuvassa voimme nähdä, että Poisson-prosessi alkaa 0:sta ja jotkut lisäykset tapahtuvat jatkuvasti, mutta itsenäisesti ja nopeus on λ.
Mikä on Poisson-jakauma?
Edellä on nähty, että Poisson-prosessi on malli, jolla voidaan kuvata satunnaisten tapahtumien esiintymistä, ja tämä malli toimii pääasiassa Poisson-jakauman teorian pohjalta. Joten meidän on välttämätöntä ymmärtää Poisson-jakauma. Matemaattisesti puhuttaessa voimme pitää tätä jakaumaa diskreettinä todennäköisyysjakaumana, joka auttaa kuvaamaan tapahtumien todennäköisyyttä kiinteällä aikaetäisyydellä, alueella tai tilavuusvälillä, jossa esiintymisnopeus on vakio ja muista tapahtumista riippumaton.
Tämän jakauman todennäköisyysmassafunktio voidaan antaa seuraavasti:

Whare,
- X = satunnaismuuttujat, joilla on Poisson-jakauma
- k = esiintymien lukumäärä
- e = Eulerin vakio
- 👍 = satunnaismuuttujan odotusarvo tai satunnaismuuttujan varianssi
= E(X) = Muutt(X)
Jos tapahtuman esiintymien vakioarvoa ei ole annettu, voimme mukauttaa seuraavan yhtälön

Missä r on tapahtumien keskimääräinen esiintymistiheys. Alla oleva kuva on esitys Poisson-jakauman todennäköisyysmassafunktiosta.

Kuvan lähde
Kuvassa k edustaa esiintymien lukumäärää ja P(x = k) on k esiintymän todennäköisyys, kun 𝜆:n arvo on annettu. Voimme käyttää Poisson-jakaumaa mallintamaan seuraavat esimerkkitapahtumat.
- Tietyllä alueella vuoden aikana tapahtuvien maanjäristysten määrä.
- Puhelinkeskukseen tietyn ajan kuluessa saapuvien puheluiden määrä.
- Linja-autojen määrä, joka saapuu asemalle tietyn ajan kuluessa.
Täällä voimme nyt ymmärtää, mitä tilanteita voidaan mallintaa Poisson-prosessilla. Katsotaan kuinka voimme toteuttaa Poisson-jakauman python-kielellä.
Poisson-jakauman toteutus
Poisson-jakauman toteuttamiseen voimme hyödyntää scipy-kirjaston toimintoja. Katsotaan kuinka voimme tehdä sen
osoitteesta scipy.stats import poisson tuonti matplotlib.pyplot muodossa plt fig, ax = plt.subplots(1, 1) mu = 0,6 keskiarvo, var, vino, kurt = poisson.stats(mu, moments=”mvsk”) x = np .arange(poisson.ppf(0.01, mu), poisson.ppf(0.99, mu)) ax.plot(x, poisson.pmf(x, mu), ‘bo’, ms=8, label=”poisson pmf” ) ax.vlines(x, 0, poisson.pmf(x, mu), värit=”b”, lw=5, alfa=0,5) rv = poisson(mu) ax.vlines(x, 0, rv.pmf( x), värit=”k”, linestyles=”-“, lw=1, label=”frozen pmf”) ax.legend(loc=”paras”, frameon=False) plt.show()
Lähtö:

Yllä olevassa esimerkissä olemme luoneet 100 satunnaisesti generoitua näytettä, ja sitten mu-muuttujan avulla olemme piirtäneet kuvaajaan Poisson PMF:n. Toteutuksen jälkeen katsotaan mihin voimme tarvita tätä teoriaa datatieteen matkalla.
Poisson-prosessi käyttää tapauksia datatieteessä
Poisson-prosessille löytyy erilaisia käyttötapauksia datatieteen alalta. Jotkut niistä ovat seuraavat:
- Ymmärrämme helposti, että tämä matematiikan osa on erittäin tärkeä tietotieteen alalla b, koska se liittyy todennäköisyysteoriaan ja tällaista matematiikkaa löytyy tilastooperaatioista, kuten parametrien estimointi, luottamusvälien löytäminen ja Bayesin päättely.
- Voimme löytää sen käyttöä myös negatiivisessa binomiaaliregressiossa, koska tapahtumien esiintymisen osaväliä Poissonissa voidaan verrata Bernoullin kokeisiin.
- Sitä käytetään myös erilaisissa todennäköisyysmalleissa, esimerkiksi lineaarisissa malleissa käytetään Poisson-prosessia kohdemuuttujan jakauman mallintamiseen.
- Koneoppimisessa on erilaisia vastemuuttujaan liittyviä ongelmia ja useimmiten vastemuuttuja on laskentamuuttuja ja se voidaan mallintaa Poisson-prosessilla.
- Voimme käyttää tätä jakaumaa aikasarjamallinnuksen mallintamiseen aikasarjojen poikkeavuuksia.
Täällä olemme nähneet intohimoprosessin käyttötapauksia tosielämän ongelmissa, kuten onko havaittavissa, puheluiden määrä puhelimessa, kuinka monta kertaa puhelinta tai kannettavaa käytetään jne.
Viimeiset sanat
Tässä artikkelissa olemme ymmärtäneet Poisson-prosessin, jossa olemme keskustelleet intohimoprosessin paradigmasta ja jakautumisesta. Samalla olemme nähneet, kuinka voimme toteuttaa ja käyttää sitä eri tapauksissa.