Gekissimo.net - Opi ansaitsemaan rahaa webilläsi Internetissä!

Parhaat vahvistusoppimisalgoritmit

Seuraava artikkeli auttaa sinua: Parhaat vahvistusoppimisalgoritmit

Yksi suurimmista liikkeellepanevista voimista tekoälyn viimeaikaisessa kehityksessä on ollut vahvistusoppiminen (RL). Yksinkertainen vahvistusoppimisen määritelmä on kouluttaa kone toimimaan mahdollisimman hyvin antamalla sille palautetta toiminnastaan, mikä tarkoittaa, että etsitään politiikka, joka maksimoi odotetun tuoton. RL-algoritmit omaksuvat hieman erilaisia ​​lähestymistapoja agentin kouluttamiseen sen toimiin. Kuitenkin löytääkseen optimaalisen käytännön ja arvon useimmat RL-algoritmit noudattavat samanlaista mallia joko mallivapaalla tai mallipohjaisella lähestymistavalla sekä on-policy- tai off-policy-lähestymistavalla.

Kaikilla RL-algoritmeilla on yhteisiä termejä, jotka on ymmärrettävä ennen kuin sukeltaa algoritmeihin.

  1. Toiminta (A): Agentin tekemät liikkeet.
  2. Osavaltio (S): Nykytilanne ympäristössä.
  3. Palkinto (R): Tilasta palautettu palautus viimeisen toiminnon arvioimiseksi.
  4. Käytäntö: Strategia, jota agentti käyttää toiminnan määrittämiseen nykytilan perusteella.
  5. Q-arvo: Usein kutsutaan toiminnan arvose määrittelee arvion siitä, kuinka hyvä agentin suorittama toimenpide on tilassa.

Varsinkin OpenAI otti RL-lähestymistavan tekoälyyn eteenpäin, kun se otti käyttöön ihmispalautteen avulla tapahtuvan vahvistusoppimisen (RLHF), joka johti ChatGPT:n syntymiseen. OpenAI toimitti RLHF:n Proximal Policy Optimization (PPO) -algoritmilla, jonka he julkaisivat vuonna 2017 perustason arkistona.

Q-oppiminen

Alkaen Q-Learningistä, joka on malliton ja politiikan ulkopuolinen RL-algoritmi, joka perustuu Bellmanin yhtälöön. Algoritmi käyttää Q-taulukkoa, joka on hakutaulukko, joka tallentaa agentin arvioidun hyödyn tai “laadun” tietyn toiminnon suorittamisesta tietyssä tilassa. Agentti päivittää Q-arvot maksimoidakseen ne taulukossa yrityksen ja erehdyksen avulla, ja lopulta se konvergoi optimaaliseen käytäntöön.

Koska Q-Learning on mallivapaa algoritmi, se ei tarvitse tilaa kaikkien toimintojen ja tilojen yhdistelmien tallentamiseen. Lisäksi, koska tämä algoritmi ei noudata yhtä käytäntöä, kuten SARSA (käsitelty alla), se voi valita parhaan seuraajan toiminnon, jonka määrittää toinen käytäntö. Tämä mahdollistaa myös lisävaikutusten sisällyttämisen.

Q(s,a) ← Q(s, a) + α(r + γ maxₐ’ (s’, a’) — Q(s, a))

🔥 Empfohlen:  Käytännön opetusohjelma Customer Lifetime Value (CLTV) -ennusteesta

Q(t, a) on tämänhetkinen arvio toimenpiteiden hyödyllisyydestäa’tilassa’s’.
α on oppimisnopeus, arvo välillä 0 ja 1, joka määrittää nykyisen arvion ja uuden tiedon suhteellisen painon.
r on palkkio, joka on saatu toiminnon “a” suorittamisen jälkeen tilassa “s”.
γ on diskonttokerroin, arvo välillä 0 ja 1, joka määrittää tulevien palkkioiden tärkeyden.
s’ on seuraava tila tilassa ‘s’ olevan toiminnon ‘a’ jälkeen.
a’ on tilassa valittu toiminto s’.

SARSA

SARSA eli State Action Reward State Action on samanlainen kuin Q-Learning, mutta tärkein ero on, että se on politiikkaan perustuva algoritmi, ja sitä kutsutaan usein “politiikkaan perustuvaksi Q-learningiksi”. Tämä tarkoittaa, että tämän algoritmin avulla Q-arvo johdetaan nykyisen käytännön suorittamasta toiminnasta, mikä on toisin kuin Q-oppimisalgoritmi, jolla ei ole rajoituksia seuraavalle toiminnolle.

Lyhennetty nimi, SARSA, tarkoittaa sekvenssiä, jossa algoritmi alkaa tilassa (S), suorittaa toiminnon (A) ja sitten palkkio luodaan (R). Tämä päivittää Q-funktion (arvon).

Q(s,a) ← Q(s, a) + α(r + γ Q(s’, a’) — Q(s, a))

Nyt nämä saadut Q-arvot tallennetaan taulukkoon ja politiikka valitsee sen, jolla on korkeimmat arvot tarkkailemalla sen nykyistä tilaa, mikä johtaa uuteen tilaan ja jatkaa seuraaviin tiloihin. Q-arvot päivittyvät jatkuvasti, kunnes löydämme hyvän käytännön. Mutta sitä rajoittaa yksi politiikka, joten Q-learning tarjoaa enemmän mahdollisuuksia arvon valinnalle.

Sekä Q-learning että SARSA ovat taulukkomuotoisia menetelmiä, eivätkä ne skaalaudu hyvin suuriin tila- ja toimintatiloihin suuren muistin kulutuksen ja kyvyttömyyden vuoksi käydä kaikissa tiloissa ja toimissa harjoituksen aikana. Tässä hermoverkot tulevat sisään.

Deep Q Network (DQN)

DQN on Q-Learningin laajennus, joka hyödyntää hermoverkkoja Q-arvofunktion arvioinnissa. Tämä mahdollistaa sen siirtymisen Q-oppimisen rajoitusten ulkopuolelle, sillä se ei voi arvioida näkymättömien tilojen arvoa. Vuonna 2013 DeepMind jopa sovelsi DQN:ää Atari-peliin.

🔥 Empfohlen:  Kuinka löytää parhaat Pinterest-ryhmätaulut

Neuraaliverkkoa koulutetaan Q-learning-päivitysyhtälön perusteella:

Q_θ(s, a) ← Q_θ(s, a) + α((r + γ maxₐ’ Qₜₐᵣ(s’, a’)) — Q_θ(s, a))

Standardi Q-learning-tekniikka löytää optimaaliset arvot, jotka ovat korkeimmat palkkiot, ja sitten kehittäjät päättävät optimaalisen toiminnon. DQN mahdollistaa optimaalisen arvon suoran approksimoinnin käyttämällä kahta olennaista tekniikkaa:

  1. Kokemusviesti: Korkean korrelaation ja alhaisemman datatehokkuuden ongelman ratkaisemiseksi kokemusvälitys sallii näytesiirtymien (siirtymien tilasta toiseen toimintojen mukaan) tallentamisen. Tämä mahdollistaa trendien havaitsemisen, jotka sitten valitaan satunnaisesti poolista tiedon päivittämiseksi.
  2. Kohdeverkostot: Nämä auttavat määrittämään, eikö tulospalkkio ole jo paras. Tämä saavutetaan palaamalla viimeksi päivitettyyn lähtöön ja pitämällä Q-arvot tavoitteena.

Deep deterministic Policy Gradient (DDPG)

Tähän mennessä käytetyt menetelmät kattavat erilliset toimintatilat, joissa on kiinteä määrä toimintoja. Mutta kun toimintatila on jatkuva, taulukko- ja hermoverkkopohjaiset Q-oppimisalgoritmit eivät toimi, koska korkeimpaan palkkioon johtavan toiminnan löytäminen on haastavaa, ellei mahdotonta. DDPG:tä pidetään sitten läpimurtona.

DDPG on toimijakriittinen algoritmi, joka käyttää myös hermoverkkoa likimääräiseen käytäntöön ja arvofunktioon. Se sopii erityisen hyvin jatkuvaan toimintaan. DDPG lainaa myös ideat kohdeverkostosta ja kokemustoistosta DQN:ltä.

Q_θ(s, a) ← Q_θ(s, a) + α((r + γ Qₜₐᵣ(s’, μₜₐᵣ(s’))) — Q_θ(s,a))

Sen sijaan, että etsittäisiin manuaalisesti paras tila-toiminta-pari ja Q-arvo, otetaan käyttöön toinen hermoverkko, joka oppii likimääräisen maksimoijan ja laskee kohteen. Tässä μₜₐᵣ määrittää parhaan toiminnon, joka käyttää verkon hieman vanhempaa versiota.

TRPO ja PPO

Luota aluepolitiikan optimointiin (TRPO) ja Proksimaalisen käytännön optimointi (PPO) ovat molemmat käytäntöön perustuvia algoritmeja, jotka käyttävät hermoverkkoa käytännön lähentämiseen. TRPO käyttää luottamusalueen menetelmää varmistaakseen, että käytäntöpäivitys on “konservatiivinen”, kun taas PPO käyttää “leikattua” tavoitefunktiota varmistaakseen, että päivitys ei ole liian kaukana nykyisestä käytännöstä. Molemmat algoritmit pystyvät käsittelemään suuria, korkeadimensionaalisia tila-avaruuksia ja jatkuvia toimintaavaruuksia.

🔥 Empfohlen:  Kuinka kirjoittaa mahtavia artikkeliotsikoita: Todistettuja vinkkejä, 7 suosittua otsikkoa & Lisää

TRPO saavuttaa erinomaisen ja tasaisen korkean suorituskyvyn, mutta algoritmin laskenta ja toteutus on yhä monimutkaisempaa. OpenAI julkaisi PPO:n vuonna 2017, ja siitä lähtien siitä on tullut heidän oletusarvonsa, koska se pääsi eroon rajoitetun optimoinnin aiheuttamista laskentaongelmista ehdottamalla leikattua korvikeobjektifunktiota.

Table of Contents