Seuraava artikkeli auttaa sinua: 4 avaintekniikkaa koneoppimismallien pakkaamiseen
Erittäin tarkat koneoppimismallit voivat olla raskaita, vaativat paljon laskentatehoa ja vähentävät siten päättelyaikaa. Näiden mallien päättelyajan nopeuttaminen pakkaamalla ne pienempiin malleihin on laajalti käytetty tekniikka. Pienentämällä tai vähentämällä parametreja tekniikan perusteella mallit voidaan saada käyttämään vähemmän RAM-muistia. Tämä voi myös yksinkertaistaa mallia vähentäen latenssia alkuperäiseen malliin verrattuna, mikä lisää päättelynopeutta.
Koneoppimismallien pakkaamiseen on neljä hyvin tutkittua tekniikkaa –
- Kvantisointi
- Leikkaaminen
- Tiedon tislaus
- Matala-arvoinen tensorihajotelma
Kvantisointi
Yksi yleisimmin käytetyistä mallien pakkausmenetelmistä, kvantisointi, sisältää painojen koon pienentämisen tehokkuuden parantamiseksi. Mallin painojen pienemmät esitykset pienentämällä ne pienempiin kokoihin pienentävät mallin kokoa ja lisäävät sen käsittelyn ja päättelyn nopeutta.
Lähde
Yksinkertaisesti sanottuna tekniikkaan liittyy arvojen kartoittaminen suuremmasta joukosta pienempään joukkoon, mikä johtaa siihen, että tulos koostuu pienemmästä arvoalueesta kuin tulojoukko, ihanteellisesti menettäen mahdollisimman vähän tietoa. Esimerkiksi kuvien pienentäminen 32-bittisistä 8-bittisiksi saattaa johtaa tietojen menetykseen, mutta voi saavuttaa tavoitteen vähentää koneoppimismallin kokoa, mikä lisää tehokkuutta.
Tämän tekniikan tavoitteena on pienentää verkon kokoa ja tarkkuutta vähentämättä havaittavissa olevaa tehokkuuden eroa.
Voit lukea lisää neuroverkkojen kvantisointitekniikoista täältä.
Leikkaaminen
Toisin kuin kvantisointi, joka vähentää painojen painoja, karsimiseen liittyy painojen määrän vähentäminen poistamalla yhteys kanavien, suodattimien ja neuronien välillä. Karsiminen otettiin käyttöön, koska usein verkot voivat olla yliparametreja, mikä johtaa useisiin solmuihin, jotka koodaavat samaa tietoa.

Lähde
Yksinkertaisesti sanottuna prosessissa on kyse solmujen poistamisesta parametrien määrän vähentämiseksi. Tehtävästä riippuen karsimisessa on kaksi luokitusta:
Strukturoimaton karsiminen on kyse yksittäisten hermosolujen tai painojen poistamisesta. Tämä prosessi poistaa hermosolut ja yhteydet nollien kanssa painomatriisista, mikä lisää verkon harvalukuisuutta, joka on nollan ja nollasta poikkeavien painojen suhde.
Strukturoitu karsiminen sisältää täydellisten suodattimien ja kanavien poistamisen. Koska kyseessä on painolohkojen poistaminen matriiseista, sitä ei tapahdu matriiseissa, joissa on harvat yhteyskuvion ongelmat.
Lue lisää karsimisesta täältä.
Tiedon tislaus
Cornellin yliopiston tutkijat selvittivät, että koulutusmalli on yleensä suurempi kuin päättelymalli, koska heitä koulutetaan ilman rajoituksia laskennallisiin resursseihin. Koulutetun mallin tarkoitus on poimia tietojoukosta mahdollisimman paljon tietoa ja rakennetta. Mutta päätelmämallit kohtaavat viiveen ja resurssien kulutuksen, koska ne on otettava käyttöön tulosten saamiseksi, joten niiden pakkaaminen on vaatimus.

Lähde
Tutkijat ehdottivat, että kaikki suuren harjoitusmallin keräämä tieto voidaan siirtää pienempään malliin kouluttamalla se kopioimaan tai matkimaan suurempaa mallia, joka myöhemmin nimettiin tislaamiseksi.
Tämä tekniikka toimii siten, että koulutettua mallia kutsutaan “opettajaksi” ja pienempää mallia “opiskelijaksi”. Opiskelijaa opetetaan minimoimaan häviöfunktiota opettajan harjoittelemalla pohjatotuuksia ja leimattuja totuuksia verkossa luokkatodennäköisyyksien jakauman ja softmax-funktion perusteella.
Napsauta tästä lukeaksesi tutkimuspaperin tiedon tislaamisesta.
Matala-arvoinen tensorihajotelma
Yliparametrisointi on yksi tunnetuista syvien hermoverkkojen ongelmista. Harjoittelun aikana eri kerrosten välillä voi tapahtua paljon toistuvia, samanlaisia ja redundantteja tuloksia, erityisesti konvoluutiohermoverkoissa tietokonenäkötehtäviä varten. Tämä tekniikka vähentää toistuvien kuvien määrää lähentämällä useita kerroksia, mikä vähentää verkon muistijalanjälkeä, mikä johtaa erittäin tehokkaisiin järjestelmiin.

Lähde
Tämä tekniikka, joka tunnetaan myös nimellä low-rank factorisation, osoittaa olevansa tehokas tapa saavuttaa merkittävä koko ja vähentää latenssia parametrien pakkauskoon avulla. Suurin etu tämän tekniikan käyttämisestä pakkaamiseen on, että se ei vaadi erikoislaitteistoa, koska se koskee vain parametrien määrän vähentämistä.
Napsauta tätä lukeaksesi lisää matala-arvoisesta tekijöistä.