Seuraava artikkeli auttaa sinua: Aloittelijan opas Bayesin lisäaineregressiopuihin
BART (Bayesian Additive Regression Tree) on ensemble-tekniikka, joka perustuu Bayesin lauseeseen, jota käytetään posteriorin todennäköisyyden laskemiseen. Tämän mallin sovitus ja päättely suoritetaan iteratiivisen Bayesin backfitting Monte Claron ja Markovin ketjualgoritmin avulla, joka luo näytteitä takaosasta. Lähtö/ennusteet luodaan ennakkoon ja todennäköisyyteen perustuen. Täysi posteriorinen johtopäätös voidaan suorittaa käyttämällä tätä lähestymistapaa, mukaan lukien tuntemattoman regressiofunktion piste- ja intervalliestimaatit sekä mahdollisten ennustajien marginaalivaikutukset. Tässä artikkelissa meillä on yksityiskohtainen johdatus BART:eihin ja niiden toimintamekanismiin. Seuraavassa on kohdat ja juonet, joita tämä artikkeli käsittelee.
Sisällysluettelo
- Posteriorinen todennäköisyys
- Mikä on BART?
- Kuinka paljon puita rakennetaan?
- Miksi ennakkomaksut laillistetaan?
- Takaa istuva MCMC-algoritmi
- Kuinka käyttää BARTia luokitteluun?
Ensemble-tekniikoista on tullut suosittuja sekä regressio- että luokitteluongelmissa. Ymmärtääksesi BARTin, sinun on ensin ymmärrettävä Bayesin tilastojen posterioritodennäköisyys.
Posteriorinen todennäköisyys
Todennäköisyys, että tapahtuma tapahtuu ennen uuden tiedon keräämistä, tunnetaan posteriorina todennäköisyydeksi. Tämän todennäköisyyden jakauma määrittelee uuden datan aiemman todennäköisyyden ja todennäköisyyden. Posteriori todennäköisyys on tapahtuman A todennäköisyys, kun tapahtuma B on tapahtunut, ja aritmeettisesti se ilmaistaan seuraavasti:
PA|B=P(A)P(B|A)P(B)
missä,
P(A) = A:n esiintymistodennäköisyys
P(A|B)= A:n ehdollinen todennäköisyys, kun B tapahtuu
P(B|A) = B:n ehdollinen todennäköisyys, jos A tapahtuu
P(B) = B:n esiintymisen todennäköisyys
Etsitkö täydellistä arkistoa tietotieteessä käytettävistä Python-kirjastoista, katso tästä.
Mikä on BART?
BART on lyhenne sanoista Bayesian Additive Regression Trees. Se on Bayesin lähestymistapa ei-parametriseen funktion estimointiin käyttämällä regressiopuita. Regressiopuut luottavat ennustajaavaruuden rekursiiviseen binääriosioimiseen joukoksi hypersuorakulmiot approksimoimaan jotain tuntematonta funktiota.
- Hyperreaktangit ovat suurikokoisia suorakaiteen muotoisia alueita. Yksinkertaisella kielellä se on kuutio. Se on parempi kuin tavallisten puiden käyttämät 2d-suorakulmiot, koska nyt, kolmannella ulottuvuudella, se voi luokitella tiedot tarkasti.
Puiden summaus on pohjimmiltaan monimuuttuja additiivinen malli. Nämä moniulotteiset komponentit pystyvät helpommin sisällyttämään vuorovaikutusvaikutuksia kuin yleistetyt additiiviset mallit, jotka perustuvat pieniulotteisten tasoittimien summiin. Ja verrattuna yksittäiseen puumalliin, puiden summa voi helpommin sisällyttää lisävaikutuksia.
Pitämällä yksittäiset puuefektit pieninä voimme tasata sovituksen asettamalla priorin puiden summamalliin. BART:sta saadut päätelmät perustuvat takaisinsovitusalgoritmin peräkkäisiin iteraatioihin, jotka ovat käytännössä MCMC-näyte indusoidusta posteriorisesta todennäköisyydestä puiden summamalliavaruudessa. Puiden summan rakentaminen ja priorin laillistaminen ovat kaksi pääasiaa, jotka määrittelevät BART-mallin.
Kuinka paljon puita rakennetaan?
Katsotaanpa, mikä on BART-singlen luomisen taustalla oleva matematiikka, joka sitten lasketaan yhteen useisiin puihin. Oletetaan, että joukko binääripuita, joka koostuu joukosta pääsolmuja, joissa on pääsolmuja, ja joukosta pääsolmuja, jotka on merkitty T:llä, päätesolmut on merkitty b:llä ja M merkitsee joukkoa parametriarvoja, jotka liittyvät kuhunkin päätelaitteeseen. binääripuun solmut.
Pääsolmu on ennustusavaruuden binäärijaot, joissa A on kuhunkin päätesolmuun (x) liittyvien jatkuvien komponenttien alajoukko, joka on merkitty muodossa {x ∈ A} vs {x /∈ A}. Kun yhdistäminen on tehty, jokaiselle assosiaatiolle annetaan arvo, jota edustaa μ.
μ=g(x;T,M)
Y = μ + ε
missä,
μ = kaikelle yhteydelle annettu arvo,
ε ~ N(0,σ2) datan jakauma keskiarvolla 0 ja varianssilla laskettuna (likimäärin normaalijakauma).
Näin ollen yksi puu muodostetaan nyt lisäämällä kaikki puut, muodostuu puiden summa.
Y = j = 1 mμj + ε
μj=g(xj;Tj,Mj)
missä,
μj = kaikille j:nnen puun assosiaatioille annettu arvo
ε = j:nnen puun tietojen jakauma (suunnilleen normaalijakauma)
Yllä oleva kaavio esittää binääripuuta, jossa on juurisolmu, kaksinkertainen pääsolmu, joka on erotettu juurisolmusta, emosolmu on edelleen jaettu kahdeksi päätesolmuksi, yhdeksi lehtisolmuksi ja yhdeksi terminaaliksi.
Miksi ennakkomaksut laillistetaan?
Suuret puukomponentit ylittäisivät puiden rikkaan rakenteen, mikä rajoittaisi additiivisen esityksen etuja sekä funktion approksimaatiossa että laskennassa. Voit voittaa tämän tehokkaasti säätelemällä sopivuutta pitämällä yksittäisten puun vaikutusten kohtuuttoman vaikuttavia. Prioriteettien laillistamisessa on viisi päätavoitetta:
- Jokaisen puun päätesolmun parametrien tulee olla riippumattomia.
- Puiden välillä ei pitäisi olla korrelaatiota
- Varianssin pitäisi olla erilainen
- Likimääräinen normaalijakauma
- Päättää puiden lukumäärän
Kaikki nämä on säännelty niin, että backfitting MCMC -algoritmi voisi toimia parhaalla mahdollisella tavalla. Ymmärretään MCMC:n takasovitusalgoritmi.
Takaistuva MCMC-algoritmi?
MCMC-algoritmi koostuu kahdesta todennäköisyystekniikasta: Monte Carlo simulaatiotekniikka ja Markovin ketju tekniikka. Ymmärretään nämä kaksi hienoa otantatodennäköisyyksien tekniikkaa.
- Monte Carlo toimii satunnaisuuden periaatteella ratkaistakseen minkä tahansa ongelman, jolla on todennäköisyyspohjainen tulkinta, joka on ominaisuudessa deterministinen. Matemaattisesti tämä tekniikka voidaan selittää satunnaismuuttujan X keskiarvon likiarvona, joka on yhtä suuri kuin tuosta populaatiosta (näytteet) satunnaisesti valitun datan summa (Σ-merkki) jaettuna otoksen koolla.
Keskiarvo(X)=1Nn=1Nxn
missä,
N = näytteen koko
xn = n:s data
Kun todennäköisyysjakauma on parametrinen, tätä satunnaisuustekniikkaa ei voida käyttää, joten Markovin näytteenottoketju tulee peliin.
- Markovin ketju toteaa, että todennäköisyys siirtyä mihin tahansa tiettyyn tilaan määräytyy yksinomaan nykyisen tilan ja kuluneen ajan perusteella. Se käyttää Markovin ominaisuutta johtamaan tämän johtopäätöksen, jonka väitetään riittävän tuntemaan edellisen tilan todennäköisyysjakauma määrittääkseen nykyisen tilan todennäköisyysjakauman. Markovin ominaisuus voidaan ilmaista matemaattisesti seuraavasti:
missä,
P(Xn+1|Xn) = Aikaisempiin tietoihin perustuvien tietojen tulevan esiintymisen todennäköisyys
Kun algoritmi alustaa ketjun tietyllä määrällä yksinkertaisia yksisolmupuita, ja sitten iteraatioita toistetaan, kunnes saavutetaan tyydyttävä konvergenssi. Jokaisessa iteraatiossa kukin puu voi lisätä tai vähentää päätesolmujen määrää yhdellä tai muuttaa yhtä tai kahta päätössääntöä. Jokainen µ (katso yllä olevaa puurakennuksen yhtälöä) muuttuu (tai lakkaa olemasta tai syntyy), ja σ (varianssi) muuttuu.
Ei ole harvinaista, että puu kasvaa suureksi ja romahtaa sitten takaisin yhdeksi solmuksi algoritmin toistuessa. Puiden summa -malli, jossa on runsaasti tuntemattomia parametreja, mahdollistaa “sovituksen” vapaan siirtämisen puusta toiseen. Koska jokainen liike tekee vain pieniä vähitellen muutoksia istuvuuteen. Kuvittele vain veistoksen veistämistä lisäämällä ja vähentämällä pieniä savea, sama asia tapahtuu täällä.
Lopulta MCMC-algoritmi käyttää näitä kahta tekniikkaa johtamaan posterioriset todennäköisyydet ja käyttämään näitä todennäköisyyksiä tuloksen ennustamiseen.
Kuinka käyttää BARTia luokitukseen?
BART on valmis käytettäväksi regressioongelmaan, jossa tulos on jatkuvassa muodossa. Kuitenkin binääriongelmassa, jossa tulos on kategorinen muuttuja (= 0 tai 1), sitä on muutettava luokituksen saavuttamiseksi. Tätä BART-laajennusta varten meidän on määrättävä regularisointi ennen μ:ää (katso yllä olevat yhtälöt) Bayesin backfitting-algoritmin toteuttamiseksi jälkilaskennassa. Pienentämällä μ:tä voimme tasata arvon ja backfitting MCMC -algoritmia voidaan edelleen käyttää binääridatan luokittelemiseen.
Lopullinen tuomio
BART:n olennaiset komponentit ovat puiden summamalli, regularisointipriori ja backfitting MCMC-algoritmi. Tämä saavutetaan säännöllistyksellä, joka kutistaa puuvaikutuksia kohti yksinkertaisempaa sovitusta.
Viitteet