Seuraava artikkeli auttaa sinua: Aloittelijan opas video- ja kielivalmennusmalleihin (VL-PTM)
Tekoälyssä esiharjoittelulla tarkoitetaan mallin kouluttamista yhteen tehtävään ja algoritmin oppimia parametreja voitaisiin käyttää jossain muussa tehtävässä. Tähän konseptiin perustuvat mallit tunnetaan esikoulutusmalleina. Videotekstiin liittyvien myöhempien tehtävien parantamiseksi kehitetään asteittain videolingvistisiä esikoulutustöitä, jotka perustuvat NLP:n ja kuvakielitehtävien esikoulutustekniikan viimeaikaiseen menestykseen. Tässä artikkelissa selitetään Unified Video and Language -esikoulutusmalli. Seuraavat kohdat ja juonet, joita tämä artikkeli käsittelee.
Sisällysluettelo
- Mitä on itseohjattu oppiminen?
- Yksittäinen ja multimodaalinen esikoulutus
- Mikä on BERT-malli?
- Miten BERTiä käytetään VLPT:hen?
Itseohjatun oppimisen viimeaikaisten edistysten myötä esikoulutustekniikoilla on tärkeä rooli visuaalisen ja kielen esityksen oppimisessa. Yhtenäinen video- ja kielivalmennusmalli perustuu itseohjautuvaan oppimiseen. Aloitetaan puhumalla itseohjatusta oppimisesta.
Mitä on itseohjattu oppiminen?
Itseohjattu oppiminen on sekoitus sekä ohjattua että ohjaamatonta oppimismenetelmiä. Se on valvomaton oppimisalgoritmi, joka käyttää valvottuja oppimismenetelmiä jäsentämättömälle datalle.
Itseohjatussa oppimisessa tavoitteena on oppia tietojen esitykset strukturoimattoman datan poolista käyttämällä ensin itsevalvontaa ja sitten hienosäätää esitykset muutamalla tunnisteella jatkokäsittelyä varten.
Loppuvaiheen tehtävästä riippuen se voi olla joko niin yksinkertaista kuin kuvan luokittelu, tai se voi olla monimutkaista, kuten semanttinen segmentointi, objektien tunnistus jne. Se on siis periaatteessa “Opi itsestäsi”.
Etsitkö täydellistä arkistoa tietotieteessä käytettävistä Python-kirjastoista, katso tästä.
Yksittäinen ja multimodaalinen esikoulutus
Yksi modaalinen esikoulutus
Tässä malli on esiopetettu joko tekstillä tai videolla, sitä ei voi kouluttaa molempiin. Kielen esikoulutusmallit, kuten BERT ja BART ovat saavuttaneet suurta menestystä NLP:n alalla.
- BERT on melua vaimentava automaattinen enkooderiverkko, joka käyttää Transformeria MLM:llä (masked language model) ja NSP:llä (seuraavan lauseen ennustus) esikoulutustehtävinä.
- BART tutkii jatkuvasti yhtenäistä esikoulutusmallia sekä ymmärtämis- että generointitehtäviin.
Videoesityksen oppiminen keskittyy enimmäkseen videosekvenssin rekonstruointiin tai tulevien ruutujen ennustamiseen esikoulutustehtävinä.
Multimodaalinen esikoulutus
Tämän tyyppisessä esikoulutuksessa mallia koulutetaan sekä video- että kielidatan perusteella. Multimodaalista esikoulutusta varten on erilaisia paradigmoja, jotka on lueteltu.
- Jakotyyppi on yksittäinen stream-syöttö, jossa teksti- ja visiosekvenssit yhdistetään yhden jaetun Transformer-enkooderin syötteeksi
- Cross-type on kaksivirtainen syöttö, jossa se voi mukauttaa kunkin modaliteetin erilaiset käsittelytarpeet ja olla vuorovaikutuksessa eri esityssyvyyksillä.
- Joint-type on kaksivirtainen syöttö, jossa se käyttää yhtä crossmodaalista kooderia kahden virran väliseen täydelliseen vuorovaikutukseen.
Mikä on BERT-malli?
BERT (Bidirectional Encoder Representations from Transformers) on avoimen lähdekoodin koneoppimiskehys luonnolliselle kielelle. BERT:n tavoitteena on “naamioitu kielimalli”. Yksinkertaisesti ymmärrettynä se soveltaa Transformerin kaksisuuntaista koulutusta kielen mallintamiseen.
Jokainen lähtöelementti on kytketty jokaiseen tuloelementtiin ja niiden väliset painotukset lasketaan dynaamisesti niiden kytkentöjen perusteella. NLP:ssä (Natural Language Processing) tämä prosessi tunnetaan huomiona. Muuntajakooderi lukee syöttötekstin molemmilta puolilta. On tärkeää lukea molemmilta puolilta ymmärtääksesi sanan todellisen merkityksen. Esimerkiksi,
Arkkitehtuuri
BERT valmistetaan pinoamalla enkooderikerroksia. On olemassa kaksi versiota: BERT-pohja ja BERT iso:
- BERT-pohjassa on 12 muuntajakooderia, 12 huomiopäätä ja 110 miljoonaa parametria.
- BERT largessa on 24 muuntajakooderia, 16 huomiopäätä ja 340 miljoonaa parametria.
Yllä oleva kaavio on BERT-pohjan arkkitehtuuri, jossa on kolme eri osaa. Ensimmäisessä osiossa voitiin nähdä kaksi termiä:
on erotustunnus, jota käytetään erottamaan jokaisen lauseen, ja -tunnus tarjoaa erotteluun perustuvan luokituksen. -tunnus on erityinen luokitustunnus, jota käytetään lauseiden segmentointiin upottamalla ne numeroilla (koodaus). Esimerkiksi ensimmäinen lause annetaan 0:na ja toinen 1.
Seuraavassa osiossa ovat BERT-kooderit, jotka kaappaavat nämä lauseet kaksisuuntaisesti. Viimeisessä osassa on piilotettuja tasoja; BERT-pohjassa on yhteensä 768 piilotettua tasoa. Piilotettuun on tallennettu kaikki koodatut sanat ja myös
Miten BERTiä käytetään VL-PT:hen?
Jotta BERT voitaisiin laajentaa videoon tavalla, joka hyödyntää valmiita kielimalleja ja skaalattavia toteutuksia päätelmien ja oppimisen kannalta, meidän oli muutettava visuaalinen raakadata erilliseksi merkkijonoksi. Joten tämä muunnos luo “visuaalisten sanojen” sekvenssin soveltamalla hierarkkista vektorikvantisointia videosta johdettuihin piirteisiin käyttämällä esiopetettua mallia.
Lisäksi tämä lähestymistapa rohkaisee mallia keskittymään videon korkean tason semantiikkaan ja pitkän kantaman ajalliseen dynamiikkaan. Kielellisen lauseen (johdettu videosta ASR:n avulla) yhdistäminen visuaaliseen lauseeseen voi tuottaa tämäntyyppistä dataa:
[CLS] oranssi kanan kanssa [MASK] kastike [>] v01 [MASK] v08 v72 [SEP],
missä,
- v01 ja v08 ovat visuaalisia tunnuksia
- [>] on erityinen tunnus, joka on otettu käyttöön tekstin ja videolauseiden yhdistämiseen
Joten nyt meillä on tokenisoitu ja segmentoitu visuaalinen ja kielellinen teksti, jota voitaisiin käyttää edelleen soveltamalla sitä seuraavassa lauseen ennustamisessa, mutta sitä ennen se vaati sekä visuaalisen tekstin että kielellisen tekstin kohdistamista. Kielellis-visuaalinen kohdistustehtävä, jossa lopullinen piilotettu tila [CLS] merkkiä käytetään ennustamaan, onko kielellinen lause ajallisesti linjassa visuaalisen lauseen kanssa. Huomaa, että tämä on meluisa ilmaisin semanttinen sukulaisuus.
- Semanttisen sukulaisuuden/samankaltaisuuden käsite määritellään asiakirjojen tai termien joukossa, jossa kohteiden välinen etäisyys perustuu niiden merkityksen samanlaisuuteen. Esimerkiksi opetusvideoissa puhuja voi viitata johonkin, joka ei näy visuaalisesti.
Tämän ratkaisemiseksi ketjuta ensin satunnaisesti viereiset lauseet yhdeksi pitkäksi lauseeksi, jotta malli voi oppia semanttisen vastaavuuden, vaikka nämä kaksi eivät olisi ajallisesti hyvin kohdistettuja. Toiseksi, koska jopa saman toiminnon tilasiirtymien nopeus voi vaihdella suuresti eri videoiden välillä, valitse videotunnuksille satunnaisesti 1–5 askeleen alinäytteenottotaajuus.
Tämä ei ainoastaan auta mallia olemaan kestävämpi videonopeuksien vaihteluille, vaan mahdollistaa myös sen, että malli voi vangita ajallisen dynamiikan pidemmän ajanjakson aikana ja oppia pidemmän aikavälin tilasiirtymiä.
Kaikkien näiden prosessien jälkeen luodaan kolme koulutusohjelmaa, jotka vastaavat erilaisia syöttödatamodaliteetteja: vain teksti, vain video ja videoteksti. Vain tekstiä ja vain videota varten mallin koulutuksessa käytetään tavallisia maskin täydennystavoitteita. Teksti-videossa käytetään kieli-visuaalista kohdistusluokitusta, jonka tavoite on edellä kuvattu. Harjoittelun yleinen tavoite on yksittäisten tavoitteiden painotettu summa. Tekstitavoite pakottaa BERTin pärjäämään kielen mallintamisessa.
- Videon tavoite pakottaa sen oppimaan “videon kielimallin”, jota voidaan käyttää dynamiikan oppimiseen ja ennustamiseen; ja
- Teksti-video -tavoite pakottaa sen oppimaan vastaavuuden näiden kahden alueen välillä. Kun mallia on koulutettu, sitä voidaan käyttää useisiin loppupään tehtäviin.
Lopullinen tuomio
Tämä artikkeli keskittyy tehokkaan itseohjautuvaan oppimiseen perustuvan BERT-mallin hyödyntämiseen kieli- ja videomallien yhteisessä esikoulutuksessa ennusteiden tekemiseen.