Gekissimo.net - Opi ansaitsemaan rahaa webilläsi Internetissä!

Tarvitsetko todella vahvistusoppimista (RL) RLHF:ssä? Uusi Stanfordin tutkimus ehdottaa DPO:ta (Direct Preference Optimization): yksinkertainen koulutusparadigma koulutukseen…

Seuraava artikkeli auttaa sinua: Tarvitsetko todella vahvistusoppimista (RL) RLHF:ssä? Uusi Stanfordin tutkimus ehdottaa DPO:ta (Direct Preference Optimization): yksinkertainen koulutusparadigma koulutukseen…

Kun valtavia tietojoukkoja koulutetaan, valtavat valvomattomat LM:t saavat voimia, jotka yllättävät jopa niiden luojat. Nämä mallit ovat kuitenkin koulutettuja tietoja, joita ovat tuottaneet ihmiset, joilla on erilaisia ​​motivaatioita, tavoitteita ja kykyjä. Kaikkia näitä tavoitteita ja kykyjä ei voida jäljitellä. On tärkeää valita huolellisesti mallin halutut vastaukset ja käyttäytyminen sen laajasta tieto- ja taitovarastosta luotettavien, tehokkaiden ja hallittavien järjestelmien luomiseksi.

Stanfordin yliopiston ja CZ:n tutkijat osoittavat, kuinka kielimalli voidaan optimoida vastaamaan ihmisen makua, käyttämättä nimenomaista palkitsemismallinnusta tai oppimisen vahvistamista. Heidän työnsä osoittaa, että nykyisten lähestymistapojen käyttämä RL-pohjainen tavoite voidaan optimoida täsmälleen yksinkertaisella binäärisellä ristientropiatavoitteella, mikä virtaviivaistaa huomattavasti preferenssioppimisprosessia ja osoittaa, kuinka tämä voidaan tehdä käytännössä.

He ehdottavat Direct Preference Optimization (DPO). Tämä uusi algoritmi saavuttaa implisiittisesti saman tavoitteen kuin olemassa olevat RLHF-algoritmit (palkitsemisen maksimointi KL-divergenssin rajoituksella), mutta se on helpompi rakentaa ja kouluttaa. Vaikka DPO-päivitys lisää intuitiivisesti suositeltujen ja ei-toivottujen vastausten lokisuhdetta, se sisältää myös dynaamisen, esimerkkikohtaisen merkityspainon, joka estää mallia heikentymästä.

Kuten muutkin algoritmit, DPO arvioi palkitsemisfunktion johdonmukaisuuden empiirisen preferenssidatan kanssa käyttämällä teoreettista preferenssimallia. Vaikka perinteiset lähestymistavat määrittelevät preferenssimallin avulla etuusmallin palkkiomallin kouluttamiseen, DPO sen sijaan kouluttaa politiikan, joka maksimoi opitun palkkiomallin muuttuvan kytkimen avulla. Siksi DPO voi optimoida käytännön yksinkertaisella binäärisellä ristientropiatavoitteella, kun otetaan huomioon ihmisten mieltymykset mallivastauksiin nähden ilman, että hän nimenomaisesti oppii palkitsemisfunktiota tai ota näytteenottoa käytännöstä koulutuksen aikana.

Työn tulokset osoittavat, että DPO on yhtä tehokas kuin nykyaikaiset lähestymistavat, kuten PPO-pohjainen RLHF, mieltymyksiin perustuvassa oppimisessa erilaisissa tehtävissä, mukaan lukien tunteiden modulaatio, yhteenveto ja dialogi, kielimalleilla, jotka sisältävät jopa 6B parametrit. 58 % ihmisistä pitää parempana DPO-yhteenvedot kuin PPO-yhteenvedot (ihmisarvioinnit), ja 61 % mieluummin DPO-yhteenvedot kuin ihmisten arvioinnit testisarjassa. Anthropic HH:ssa 60 % ajasta DPO:n yhden kierroksen vastaukset ovat parempia kuin valikoiva täydennys.

🔥 Empfohlen:  Sosiaalisen median strategian maksimointi tekoälyllä: Mitä tuotemerkkien on tiedettävä

Tiimi toteaa, että DPO:lla on monia käyttömahdollisuuksia ihmisten mieltymyksiin perustuvien kielimallien koulutuksen lisäksi. Se voi esimerkiksi kouluttaa generatiivisia malleja erilaisissa modaliteeteissa.

Ehdotetut mallien arvioinnit ulottuvat jopa 6B-parametriin, mutta tiimi uskoo, että lisätyössä pitäisi tutkia DPO:n skaalaamista huippuluokan malleihin, joissa on suuruusluokkaa enemmän dataa. Tutkijat havaitsivat myös, että kehote vaikuttaa GPT -4:n laskettuihin voittomääriin. Jatkossa he suunnittelevat tutkivansa tehokkaimpia keinoja saada koneista asiantuntijalausunnot.