Seuraava artikkeli auttaa sinua: Parhaat resurssit vahvistusoppimisen oppimiseen vuonna 2022
Vahvistusoppiminen on ML-harjoitusmenetelmä, joka perustuu haluttujen käytösten palkitsemiseen ja ei-toivottujen rankaisemiseen. Vahvistusoppimisagentti voi havaita ja tulkita ympäristöään, toimia ja oppia yrityksen ja erehdyksen kautta. Vahvistusoppimista käytetään laajalti autonomisessa ajamisessa, konesalien automatisoidussa jäähdytyksessä, suositusmoottoreissa, personoiduissa chatboteissa, osakekaupassa jne.
Tässä tarkastellaan parhaita resursseja vahvistusoppimisen oppimiseen vuonna 2022:
David Silverin RL-kurssi
DeepMind-tutkimuksen johtama David Silverin University College Londonissa opetettu vahvistusoppimiskurssi on kuvattu kymmenellä YouTube-videolla. Videot kattavat Johdatus vahvistusoppimiseen, Markovin päätöksentekoprosessit, suunnittelu dynaamisen ohjelmoinnin avulla, malliton ennuste, mallivapaa ohjaus, arvofunktioiden lähentäminen, politiikan gradienttimenetelmät, oppimisen ja suunnittelun yhdistäminen, tutkiminen ja hyödyntäminen, tapaustutkimus: RL Classicissa Pelit. Linkistä pääset käsiksi dioihin, tehtäviin ja kokeisiin.
Johdatus vahvistavaan oppimiseen toimintojen lähentämisellä
Rich S. Sutton, DeepMindin tutkija ja tietojenkäsittelytieteen professori Albertan yliopistossa, selittää tässä taustalla olevia muodollisia ongelmia, kuten Markovin päätösprosesseja, ydinratkaisumenetelmiä, dynaamista ohjelmointia, Monte Carlo -menetelmiä ja ajallisen eron oppimista. – syvällinen opetusohjelma.
Vahvistusoppimisen historia
Professori AG Barto, Massachusettsin yliopiston Amherstin tietojenkäsittelytieteen emeritusprofessori, tarjoaa yksityiskohtaisen luennon. Luvut sisältävät “hedonistisen hermosolun” hypoteesia, ohjattua oppimista, vahvistusta oppimista, RL:n ainutlaatuista ominaisuutta, Edward L Thorndikea, vaikutuslakia, RL = haku + muisti, ensimmäinen yllätyksemme, vaikka poikkeuksiakin oli, varhainen artikkeli Rich Suttonin kanssa , assosiatiiviset muistiverkot, yhdistävä hakuverkosto ja monet muut.
NTPEL-kurssi
Kurssi sisältää luentosarjan Prof Balaraman Ravindran, Computer Science and Engineering ja Robert Bosch Center for Data Science and AI, IIT-Madras on Enforcement Learning. Kurssi esittelee vahvistusoppimisen matemaattiset perusperusteet ja tuo esiin joitain hänen viimeaikaisia tutkimussuuntiaan. 12 viikon luento sisältää valmistavaa materiaalia, johdannon RL:ään ja välittömään RL:ään, Bandit-algoritmit, politiikan gradienttimenetelmät ja johdannon Full RL:ään, MDP-formulaatioon, Bellman-yhtälöihin ja optimaalisuustodisteisiin, dynaamiseen ohjelmointiin ja Monte Carlo -menetelmiin, Monte Carloon ja aikaeromenetelmiin, Kelpoisuusjäljet, funktioiden lähentäminen, DQN, sovitetut Q & Policy Gradient -lähestymistavat, hierarkkinen vahvistusoppiminen, hierarkkinen RL: MAXQ ja POMDP.
Tekoäly: Vahvistusoppiminen Pythonissa
Tekoäly: Pythonin vahvistusoppiminen on täydellinen opas vahvistusoppimiseen osakekaupan ja verkkomainonnan sovelluksilla. 14,5 tunnin kurssi on saatavilla on-demand-videona Udemyssä. Oppaassa opetetaan soveltamaan gradienttipohjaisia ohjattuja koneoppimismenetelmiä vahvistusoppimiseen, ymmärtämään vahvistusoppimista teknisellä tasolla, ymmärtämään vahvistusoppimisen ja psykologian välistä suhdetta sekä toteuttamaan 17 erilaista vahvistusoppimisalgoritmia.
Vahvistusoppiminen yhtenäisyydessä
Opiskelijat voivat oppia luomaan vahvistusoppimista Unity3D:ssä ja vapauttamaan pelimoottoreiden ja tekoälyn yhdistämisen voiman harjoittelemalla sitä laatan tasapainottamiseksi pientä palloa. Yksityiskohdat löytyvät osoitteesta https://github.com/Unity-Technologies
https://unity.com/
Johdatus vahvistusoppimiseen
Käytännön vahvistusoppiminen
Courseran käytännön vahvistusoppiminen kattaa RL-menetelmien perusteet: arvo/politiikan iteraatio, q-oppiminen, politiikan gradientti jne.; syvien hermoverkkojen käyttö RL-tehtäviin; huippuluokan RL-algoritmi; ja opettaa neuroverkkoja pelaamaan pelejä.
Syvävahvistusoppiminen
GitHubin kurssi sisältää sarjan artikkeleita ja videoita, jotka auttavat sinua hallitsemaan taidot ja arkkitehtuurit tullaksesi syvän vahvistavan oppimisen asiantuntijaksi. Kurssi auttaa rakentamaan vahvan ammatillisen portfolion ottamalla käyttöön agentteja Tensorflow- ja PyTorchin avulla, jotka oppivat pelaamaan Space Invadersia, Minecraft, Starcraft, Sonic the Hedgehog ja paljon muuta.