▷ Tutustu QLORAan: Tehokas hienosäätömenetelmä, joka vähentää muistin käyttöä tarpeeksi hienosäätääksesi 65B-parametrimallin yhdellä 48 Gt:n grafiikkasuorittimella säilyttäen...

Seuraava artikkeli auttaa sinua: Tutustu QLORAan: Tehokas hienosäätömenetelmä, joka vähentää muistin käyttöä tarpeeksi hienosäätääksesi 65B-parametrimallin yhdellä 48 Gt:n grafiikkasuorittimella säilyttäen…

Suuria kielimalleja (LLM) voidaan parantaa hienosäädöllä, mikä mahdollistaa myös haluttujen käyttäytymismallien lisäämisen tai poistamisen. Suurten mallien hienosäätö on kuitenkin kohtuuttoman kallista; esimerkiksi LLaMA 65B -parametrimalli kuluttaa yli 780 Gt GPU RAM-muistia, kun sitä hienosäädetään tavallisessa 16-bittisessä tilassa. Vaikka nykyiset kvantisointimenetelmät voivat vähentää LLM:ien muistijalanjälkeä, nämä menetelmät toimivat vain päätelmien tekemiseen ja epäonnistuvat harjoituksen aikana. Washingtonin yliopiston tutkijat kehittivät QLORA:n, joka kvantisoi esikoulutetun mallin käyttämällä huippuluokan, erittäin tarkkaa algoritmia 4-bittiseen resoluutioon ennen kuin lisäävät harvan joukon oppimiskelpoisia Low-rank-sovittimen painoja, joita on muunnettu takaisin etenemällä gradienteilla kvantisoitujen seurausten kautta. . Ne osoittavat ensimmäistä kertaa, että kvantisoitua 4-bittistä mallia voidaan säätää suorituskykyyn vaikuttamatta.

Verrattuna 16-bittiseen täysin hienosäädettyyn perustilaan, QLORA vähentää 65 B:n parametrimallin hienosäädön keskimääräistä muistin tarvetta >780 Gt:sta GPU RAM -muistista 48 Gt:iin tinkimättä ajonajasta tai ennakoivasta suorituskyvystä. Tähän mennessä suurimmat julkisesti saatavilla olevat mallit ovat nyt hienosäädettävissä yhdellä GPU:lla, mikä edustaa valtavaa muutosta LLM-hienosäädön saavutettavuudessa. He kouluttavat Guanaco-malliperheen QLORAa käyttämällä, ja heidän suurin mallinsa saavuttaa 99,3 % yhdellä ammattimaisella grafiikkasuorittimella 24 tunnin aikana, mikä vähentää tehokkaasti eroa ChatGPT:hen Vicuna-vertailussa. Toiseksi paras malli saavuttaa 97,8 % ChatGPT:n suorituskykytasosta Vicuna-benchmarkissa, ja se on koulutettavissa alle 12 tunnissa yhdellä kuluttajan GPU:lla.

Seuraavat QLORAn tekniikat on tarkoitettu vähentämään muistin käyttöä suorituskyvystä tinkimättä: (1) 4-bittinen NormalFloat, kvantisointitietotyyppi normaalisti jakautuneelle tiedolle, joka on informaatioteoreettisesti optimaalinen ja tuottaa parempia empiirisiä tuloksia kuin 4-bittiset kokonaisluvut ja 4- bitti Kelluu. (2) Double Quantization, joka säästää keskimäärin 0,37 bittiä parametria kohden (tai noin 3 Gt 65B-mallissa), kvantisoi kvantisointivakiot. (3) Sivut-optimoijat käyttävät NVIDIA-yhdistettyä muistia estämään gradientin tarkistuspisteiden aiheuttamat muistipiikit, kun käsitellään mini-erää, jossa on pitkä sarja. Käytettynä pienin Guanaco-malli (7B-parametrit) käyttää alle 5 Gt muistia, mutta ylittää Vicuna-testissä yli 20 prosenttiyksiköllä 26 Gt:n Alpaca-mallin.

🔥 Empfohlen: BharatPe Liiketoimintamalli | Kuinka BharatPe ansaitsee rahaa

Ne sisällyttävät nämä panokset hienostuneemmalle LoRA-strategialle, joka sisältää sovittimet jokaiselle verkkotasolle, ja siksi lähes eliminoi aikaisemmassa työssä havaitut tarkkuuteen liittyvät kompromissit. QLORAn tehokkuuden ansiosta voimme analysoida ohjeiden hienosäätöä ja chatbotin suorituskykyä mallikooilla yksityiskohtaisemmin kuin olisimme voineet tehdä perinteisellä hienosäädöllä muistikustannusten vuoksi. Tämän seurauksena he kouluttavat yli tuhat mallia käyttämällä erilaisia käskyn viritystietojoukkoja, mallitopologioita ja parametriarvoja, jotka vaihtelevat välillä 80M–65B. He osoittavat, että QLORA palauttaa 16-bittisen suorituskyvyn, kouluttaa Guanacoa, kehittynyttä chatbotia, ja tutkii kuvioita opituissa malleissa.

Ensinnäkin, vaikka molempien on tarkoitus antaa ohjeita yleistyksen jälkeen, he huomaavat, että tietojen laatu on huomattavasti tärkeämpää kuin tietojoukon koko, sillä 9 000 näyteaineisto (OASST1) on parempi kuin 450 000 näyteaineisto (FLAN v2, osaotos) chatbotin suorituskyvyssä. Toiseksi ne osoittavat, että hyvä Massive Multitask Language Understanding (MMLU) -benchmark-suorituskyky vain toisinaan kääntyy erinomaiseksi Vicuna-chatbotin vertailuarvoksi ja päinvastoin. Toisin sanoen tietojoukon asianmukaisuus on tärkeämpää kuin mittakaava tietylle tehtävälle. Ne tarjoavat myös perusteellisen arvion chatbotin suorituskyvystä käyttämällä ihmisen arvioijia ja GPT-4:ää.

Mallit kilpailevat toisiaan vastaan otteluissa käyttämällä turnaustyyppistä vertailua määrittääkseen parhaan vastauksen tiettyyn ärsykkeeseen. GPT-4 tai ihmisen annotaattorit päättävät, kumpi pelaaja voittaa pelin. Elo-pisteitä, jotka syntyvät yhdistämällä turnauksen tulokset, käytetään chatbotin suorituskyvyn luokitteluun. Turnausten mallisuorituksen arvosta he huomaavat, että GPT-4 ja ihmisten arviot ovat enimmäkseen samaa mieltä, mutta on myös joitain jyrkästi eroavia alueita. Tämän seurauksena he kiinnittävät huomiota siihen, että mallipohjaiseen arviointiin liittyy epävarmuustekijöitä, vaikka se on halvempi vaihtoehto kuin ihmisen tekeminen.

He lisäävät Guanaco-mallien kvalitatiivisen analyysin chatbotin vertailutuloksiinsa. Heidän tutkimuksensa tunnistaa onnistumisen ja epäonnistumisen tapaukset, joita kvantitatiiviset standardit eivät huomioineet. He julkaisevat kaikki mallisukupolvet GPT-4:llä ja ihmisten kommentilla tulevan tutkimuksen avuksi. He yhdistävät tekniikkansa Hugging Face -muuntajapinoon, käyttävät avoimen lähdekoodin ohjelmistoja ja CUDA-ytimiä ja tekevät niistä laajalti saatavilla. Ne tarjoavat 32 erilliselle avoimen lähdekoodin, parannetun mallin kokoelman sovittimia kokoisille 7/13/33/65B malleille, jotka on koulutettu kahdeksalla eri ohjeella seuraavaa tietojoukkoa. Koodivarasto julkaistaan yhdessä demon kanssa, jota voidaan isännöidä Colabissa.

🔥 Empfohlen: Kuinka joukkolähde voi olla tehokas SEO-ase (tai mahdollisesti vahingoittaa brändisi mainetta)