Gekissimo.net - Opi ansaitsemaan rahaa webilläsi Internetissä!

Tietojen luonnostelun silmiinpistävä merkitys LLM:issä

Seuraava artikkeli auttaa sinua: Tietojen luonnostelun silmiinpistävä merkitys LLM:issä

Data Engineering Summit (DES) 2023 -tapahtumassa, joka esitti puheen Todennäköisyyspohjaisten tietorakenteiden voiman vapauttamisesta: Tallennuksen ja suorituskyvyn optimointi Big Datalle, Zeotapin tietotekniikan johtaja Sudarshan Pakrashi puhui tilastollisista algoritmeista, jotka on suunniteltu optimoimaan muistin käyttöä tallentamisessa. ja kyselee suuria tietojoukkoja. Yhdessä esitetyissä kysymyksissä hän puhui siitä, voidaanko tietojen luonnostelua käyttää nykyisissä generatiivisissa tekoälymalleissa, kuten LLM:issä.

Tähän Pakrashi vastasi, että se on mahdollista tehdä niin ja se on itse asiassa “suuri analogia”. Hän selitti, kuinka jokaisessa kielimallissa on sanaassosiaatioita, jotka on säilytettävä, kun sanoja on valtava määrä. “Kuvittele permutaatioita ja yhdistelmiä, joita haluat saada, ja luonnoksia käytetään itse asiassa niiden ylläpitämiseen, koska silloin mallisi todella kyselee näiden yhdistelmien taajuuksia”, hän selitti.

Tietojen luonnostelu on tapa tehdä yhteenveto suurista tietojoukoista käyttämällä kompakteja tietorakenteita, jotka voivat antaa likimääräisiä vastauksia dataa koskeviin kyselyihin.. LLM:ien yhteydessä datan luonnostelulla voidaan tehdä yhteenveto mallin koulutuksessa käytetystä tekstikorpuksesta, mikä voi auttaa vähentämään mallin muistivaatimuksia ja parantamaan sen koulutustehokkuutta.

Miksi tarvitsemme tietojen luonnostelua LLM:issä?

“Tuntuuko sinusta koskaan jatkuvan tiedon virran valtaamana?” – lukee paperin ensimmäinen rivi – ‘Mitä on datan luonnosteleminen, ja miksi minun pitäisi välittää’, kirjoittanut Graham Cormode vuonna 2017. Kun alat suodattaa tietoja vaaditun perusteella, se on täsmälleen samanlaista kuin tietojen luonnostelu pohjimmiltaan on. Ja tästä voi olla paljon hyötyä LLM:ien koulutuksessa.

Tietojen luonnostelu voi auttaa parantamaan generatiivisten mallien tehokkuutta ja skaalautuvuutta seuraavilla tavoilla:

  • Tietojen pakkaus: Kun suurista tietojoukoista tehdään yhteenveto luonnostelutekniikoilla, LLM:t voidaan kouluttaa alkuperäistä pienempiin esityksiin, mikä vähentää käyttöönoton ja koulutuksen edellyttämiä muistivaatimuksia ja laskentaresursseja. Tämä voi olla erityisen hyödyllistä, kun käsitellään rajallisia resursseja tai suuria tietojoukkoja.
  • Nopeampi koulutus: Nopeuta LLM:ien koulutusprosessia vähentämällä heidän käsiteltävän datan määrää. Datan luonnos, pienentämällä olennaisesti datan kokoa, voi johtaa nopeampaan konvergenssiin ja lyhyempiin opetusaikoihin ilman, että tuotettujen näytteiden laatu merkittävästi vaarantuu.
  • Reaaliaikainen data: Luonnosten avulla LLM:t voivat käsitellä tietovirtoja ja oppia niistä tehokkaasti ja päivittää sisäiset esitykset automaattisesti lennossa luomalla uusia näytteitä uusimpien tietojen perusteella.
  • Anomalian havaitseminen: Harjoitustiedon poikkeavuuksien tai poikkeavuuksien tunnistamiseen voidaan käyttää luonnos- ja näytteenottotekniikoita LLM-tulosteiden laadun parantamiseksi. Tunnistamalla ja mahdollisesti poistamalla poikkeavia datapisteitä LLM:t voivat keskittyä tietojen taustalla olevan rakenteen ja mallien oppimiseen, mikä johtaa paremmin luotuihin näytteisiin.
  • Tietojen tutkiminen: Kun haluat tutkia suuria tietojoukkoja saadakseen käsityksen niiden rakenteesta ja ominaisuuksista, luonnostelu voi tarjota oivalluksia, joita voidaan käyttää ohjaamaan LLM:ien suunnittelua ja konfigurointia, kuten sopivien arkkitehtuurien, hyperparametrien tai häviöfunktioiden valitsemiseen.
🔥 Empfohlen:  Gray Hat SEO määritelmä & Merkitys

Data Sketching Techniques LLM:issä

Vaikka tietojen luonnostelua on käytetty aiemmin luonnollisen kielen prosessointitehtävissä (NLP), viimeaikainen LLM:ien, kuten GPT-3:n, nousu, jotka vaativat valtavasti laskentaa, datan luonnostelu voi ja on itse asiassa lisännyt tekoälymallien tehokasta koulutusta ja käyttöönottoa.

Yksi yleisesti käytetty tietojen luonnostelutekniikka LLM:issä on Bloom-suodatin, joka on todennäköisyyspohjainen tietorakenne, joka voi tehokkaasti testata, onko kohde joukossa. Bloom-suodattimia voidaan käyttää kuvaamaan mallin harjoittamiseen käytetyn tekstikorpuksen sanastoa, jolloin malli voi tallentaa sanaston paljon pienemmällä muistitilalla.

Toinen LLM:issä käytetty tekniikka tietojen luonnostelemiseen on Count-min luonnokset. Tämä on toisen tyyppinen todennäköisyyspohjainen tietorakenne, joka voi tehokkaasti estimoida joukon kohteiden tiheyden. Count-min luonnoksilla voidaan arvioida sanojen esiintymistiheyttä tekstikorpuksessa, jonka avulla voidaan optimoida mallin koulutusta.

Samanlaisia ​​tekniikoita ovat mm HyperLogLogjoka on toinen todennäköisyyspohjainen algoritmi, jota käytetään arvioimaan erillisten elementtien lukumäärää suuressa tietojoukossa.

Lisäksi, Quantiles luonnokset on toinen tekniikka, joka tarjoaa likimääräisiä vastauksia prosenttipisteitä, mediaaneja tai muita tietojoukon järjestystilastoja koskeviin kyselyihin. Tämä on samanlainen kuin otanta, joka tarkoittaa datan osajoukon valitsemista koko tietojoukon esittämiseksi.

Table of Contents