Gekissimo.net - Opi ansaitsemaan rahaa webilläsi Internetissä!

Parhaat resurssit vahvistusoppimisen oppimiseen vuonna 2023

Seuraava artikkeli auttaa sinua: Parhaat resurssit vahvistusoppimisen oppimiseen vuonna 2022

Vahvistusoppiminen on ML-harjoitusmenetelmä, joka perustuu haluttujen käytösten palkitsemiseen ja ei-toivottujen rankaisemiseen. Vahvistusoppimisagentti voi havaita ja tulkita ympäristöään, toimia ja oppia yrityksen ja erehdyksen kautta. Vahvistusoppimista käytetään laajalti autonomisessa ajamisessa, konesalien automatisoidussa jäähdytyksessä, suositusmoottoreissa, personoiduissa chatboteissa, osakekaupassa jne.

Tässä tarkastellaan parhaita resursseja vahvistusoppimisen oppimiseen vuonna 2022:

David Silverin RL-kurssi

Johdatus vahvistavaan oppimiseen toimintojen lähentämisellä

Rich S. Sutton, DeepMindin tutkija ja tietojenkäsittelytieteen professori Albertan yliopistossa, selittää tässä taustalla olevia muodollisia ongelmia, kuten Markovin päätösprosesseja, ydinratkaisumenetelmiä, dynaamista ohjelmointia, Monte Carlo -menetelmiä ja ajallisen eron oppimista. – syvällinen opetusohjelma.

Vahvistusoppimisen historia

Professori AG Barto, Massachusettsin yliopiston Amherstin tietojenkäsittelytieteen emeritusprofessori, tarjoaa yksityiskohtaisen luennon. Luvut sisältävät “hedonistisen hermosolun” hypoteesia, ohjattua oppimista, vahvistusta oppimista, RL:n ainutlaatuista ominaisuutta, Edward L Thorndikea, vaikutuslakia, RL = haku + muisti, ensimmäinen yllätyksemme, vaikka poikkeuksiakin oli, varhainen artikkeli Rich Suttonin kanssa , assosiatiiviset muistiverkot, yhdistävä hakuverkosto ja monet muut.

NTPEL-kurssi

Kurssi sisältää luentosarjan Prof Balaraman Ravindran, Computer Science and Engineering ja Robert Bosch Center for Data Science and AI, IIT-Madras on Enforcement Learning. Kurssi esittelee vahvistusoppimisen matemaattiset perusperusteet ja tuo esiin joitain hänen viimeaikaisia ​​tutkimussuuntiaan. 12 viikon luento sisältää valmistavaa materiaalia, johdannon RL:ään ja välittömään RL:ään, Bandit-algoritmit, politiikan gradienttimenetelmät ja johdannon Full RL:ään, MDP-formulaatioon, Bellman-yhtälöihin ja optimaalisuustodisteisiin, dynaamiseen ohjelmointiin ja Monte Carlo -menetelmiin, Monte Carloon ja aikaeromenetelmiin, Kelpoisuusjäljet, funktioiden lähentäminen, DQN, sovitetut Q & Policy Gradient -lähestymistavat, hierarkkinen vahvistusoppiminen, hierarkkinen RL: MAXQ ja POMDP.

🔥 Empfohlen:  Sähköpostikampanjoiden A/B-testaaminen: vaiheet, vinkit ja Temppuja

Tekoäly: Vahvistusoppiminen Pythonissa

Tekoäly: Pythonin vahvistusoppiminen on täydellinen opas vahvistusoppimiseen osakekaupan ja verkkomainonnan sovelluksilla. 14,5 tunnin kurssi on saatavilla on-demand-videona Udemyssä. Oppaassa opetetaan soveltamaan gradienttipohjaisia ​​ohjattuja koneoppimismenetelmiä vahvistusoppimiseen, ymmärtämään vahvistusoppimista teknisellä tasolla, ymmärtämään vahvistusoppimisen ja psykologian välistä suhdetta sekä toteuttamaan 17 erilaista vahvistusoppimisalgoritmia.

Vahvistusoppiminen yhtenäisyydessä

Opiskelijat voivat oppia luomaan vahvistusoppimista Unity3D:ssä ja vapauttamaan pelimoottoreiden ja tekoälyn yhdistämisen voiman harjoittelemalla sitä laatan tasapainottamiseksi pientä palloa. Yksityiskohdat löytyvät osoitteesta https://github.com/Unity-Technologies

https://unity.com/

Johdatus vahvistusoppimiseen

Hado Van Hasselt, tutkija, DeepMindin vanhempi tutkija, UCL:n kunniaprofessori, on jakanut johdannon vahvistusoppimiseen osana Advanced Deep Learning & Reforcement Learning Lectures -luentoja tässä YouTube-videossa. Hänen esityksensä vahvistusoppimisesta löytyy täältä.

Käytännön vahvistusoppiminen

Courseran käytännön vahvistusoppiminen kattaa RL-menetelmien perusteet: arvo/politiikan iteraatio, q-oppiminen, politiikan gradientti jne.; syvien hermoverkkojen käyttö RL-tehtäviin; huippuluokan RL-algoritmi; ja opettaa neuroverkkoja pelaamaan pelejä.

Syvävahvistusoppiminen

GitHubin kurssi sisältää sarjan artikkeleita ja videoita, jotka auttavat sinua hallitsemaan taidot ja arkkitehtuurit tullaksesi syvän vahvistavan oppimisen asiantuntijaksi. Kurssi auttaa rakentamaan vahvan ammatillisen portfolion ottamalla käyttöön agentteja Tensorflow- ja PyTorchin avulla, jotka oppivat pelaamaan Space Invadersia, Minecraft, Starcraft, Sonic the Hedgehog ja paljon muuta.