Seuraava artikkeli auttaa sinua: Uusi Googlen tekoälytutkimus ehdottaa, että LLM-yritysten taakkaa vähennetään merkittävästi käyttämällä uutta tekniikkaa, jota kutsutaan pareittain ranking-kehotukseksi (PRP)
Verrattuna valvottuihin kollegoihinsa, joita voidaan kouluttaa miljoonien merkittyjen esimerkkien avulla, suuret kielimallit (LLM), kuten GPT-3 ja PaLM, ovat osoittaneet vaikuttavaa suorituskykyä erilaisissa luonnollisen kielen tehtävissä jopa nolla-asetuksella. LLM:ien käyttäminen tekstin perusjärjestyksen ratkaisemiseen on kuitenkin tuottanut ristiriitaisia tuloksia. Olemassa olevat löydökset toimivat usein huomattavasti huonommin kuin koulutetut perusarvostelijat. Ainoa poikkeus on uusi strategia, joka perustuu massiiviseen, mustaan laatikkoon ja kaupalliseen GPT-4-järjestelmään.
He väittävät, että tällaisten mustien laatikoiden järjestelmiin luottaminen ei ole ihanteellinen akateemisille tutkijoille merkittävien kustannusrajoitusten ja näiden järjestelmien käyttörajoitusten vuoksi. He kuitenkin tunnustavat tällaisten tutkimusten arvon osoittaessaan LLM:ien kyvyn arvostella tehtäviä. Sijoitusmittarit voivat pudota yli 50 %, kun syöttöasiakirjan järjestys muuttuu. Tässä tutkimuksessa he ensin selittävät, miksi LLM:t kamppailevat ranking-ongelmien kanssa käyttäessään nykyisten lähestymistapojen point-wise ja listwise muotoiluja. Koska vain sukupolven LLM API:t (kuten GPT-4) eivät mahdollista tätä, pistekohtaisten tekniikoiden luokittelu edellyttää, että LLM:t tuottavat kalibroidut ennustetodennäköisyydet ennen lajittelua, mikä tiedetään olevan äärimmäisen haastavaa.
LLM:t tarjoavat usein epäjohdonmukaisia tai hyödyttömiä tuloksia, vaikka ne näyttävät ihmisille äärimmäisen ilmeisiltä listwise-tekniikoille. Empiirisesti he huomaavat, että aikaisemman työn listakohtaiset sijoittelukehotteet tarjoavat keskikokoisille LLM:ille tuloksia, jotka ovat täysin merkityksettömiä. Nämä havainnot osoittavat, että nykyisten, laajalti käytettyjen LLM:ien on ymmärrettävä sijoitustehtävät, mahdollisesti johtuen heidän esikoulutus- ja hienosäätötekniikoistaan puutteellisesta sijoituksesta. Google Researchin tutkijat ehdottavat pairwise ranking prompting (PRP) -paradigmaa, joka käyttää kyselyä ja asiakirjaparia luokitustehtävien kehotteena vähentääkseen huomattavasti LLM:n tehtävien monimutkaisuutta ja ratkaistakseen kalibrointiongelman. PRP perustuu suoraviivaiseen pika-arkkitehtuuriin ja tarjoaa oletuksena sekä LLM:ien luonti- että pisteytyssovellusliittymiä.
He keskustelevat useista PRP-muunnelmista vastatakseen tehokkuutta koskeviin huolenaiheisiin. PRP-tulokset ovat kirjallisuudessa ensimmäisiä, joissa käytetään keskikokoisia, avoimen lähdekoodin LLM:itä perinteisissä vertailutietosarjoissa huippuluokan sijoitussuorituskyvyn saavuttamiseksi. TREC-DL2020:ssa 20B-parametrin FLAN-UL2-malliin perustuva PRP ylittää kirjallisuuden aiemman parhaan menetelmän, joka perustuu mustaan laatikkoon kaupalliseen GPT-4:ään, jonka mallikoko on (arvioitu) 50X, NDCG:ssä yli 5 %. @1. TREC-DL2019:ssä PRP voi päihittää nykyiset ratkaisut, kuten InstructGPT, jolla on 175B-parametrit, yli 10 % käytännössä kaikissa rankingmittauksissa, mutta se toimii vain huonommin kuin GPT-4-ratkaisu NDCG@5- ja NDCG@10-malleissa. mittareita. Lisäksi he esittävät kilpailutuloksia käyttämällä FLAN-T5-malleja 3B- ja 13B-parametreilla havainnollistamaan PRP:n tehokkuutta ja soveltuvuutta.
He myös tarkastelevat PRP:n lisäetuja, kuten sen tuen LLM-sovellusliittymille pisteytystä ja luomista varten ja sen herkkyyttä syöttötilauksille. Yhteenvetona voidaan todeta, että tämä työ sisältää kolme panosta:
• Ne osoittavat, että pareittainen luokittelukehote toimii hyvin nollapisteen luokittelussa, kun LLM:itä käytetään ensimmäistä kertaa. Heidän havainnot perustuvat keskikokoisiin, avoimen lähdekoodin LLM:ihin verrattuna olemassa oleviin järjestelmiin, jotka käyttävät mustaa laatikkoa, kaupallisia ja huomattavasti suurempia malleja.
• Se voi tuottaa huippuluokan sijoitussuorituskykyä yksinkertaisten kehotus- ja pisteytysmekanismeiden avulla. Löytö tekee tämän alueen tulevista tutkimuksista helpommin saatavilla.
• Samalla kun saavutetaan lineaarinen monimutkaisuus, ne tutkivat useita tehokkuuden parannuksia ja osoittavat hyvää empiiristä suorituskykyä.