Gekissimo.net - Opi ansaitsemaan rahaa webilläsi Internetissä!

Tehtäväkohtaisen sopeutuksen parantaminen Video Foundation -malleissa: Videosovittimen esittely todennäköisyyspohjaisena kehyksenä tekstistä videoksi -mallien mukauttamiseen

Seuraava artikkeli auttaa sinua: Tehtäväkohtaisen sopeutuksen parantaminen Video Foundation -malleissa: Videosovittimen esittely todennäköisyyspohjaisena kehyksenä tekstistä videoksi -mallien mukauttamiseen

Internetin mittakaavan dataan opetetut suuret tekstistä videoksi -mallit ovat osoittaneet poikkeuksellisia kykyjä luoda korkealaatuisia elokuvia mielivaltaisesti kirjoitetuista kuvauksista. Esiopetetun valtavan mallin hienosäätö saattaa kuitenkin olla kohtuuttoman kallista, mikä vaikeuttaa näiden mallien mukauttamista sovelluksiin, joissa on rajoitettua verkkotunnuskohtaista dataa, kuten animaatioita tai robotiikkavideoita. Google DeepMindin, UC Berkeleyn, MIT:n ja Albertan yliopiston tutkijat tutkivat, kuinka laajaa esiopetettua tekstistä videoksi -mallia voidaan mukauttaa useisiin loppupään verkkotunnuksiin ja tehtäviin ilman hienosäätöä inspiraationa siitä, kuinka pieni muokattava komponentti ( kuten kehotteet, etuliitteen viritys) voivat mahdollistaa suuren kielimallin suorittamisen uusia tehtäviä ilman mallin painojen käyttöä. Tämän ratkaisemiseksi he esittelevät Video Adapterin, menetelmän tehtäväkohtaisten pienten videomallien luomiseksi käyttämällä suuren esiopetetun videon diffuusiomallin pisteytysfunktiota edeltävänä todennäköisyyslaskennana. Kokeet osoittavat, että videosovittimet voivat käyttää vain 1,25 prosenttia esikoulutetun mallin parametreista sisällyttääkseen suuren esiopetetun videomallin laajan tiedon ja ylläpitääkseen korkean tarkkuuden tehtäväkohtaisessa pienessä videomallissa. Videosovittimilla voidaan luoda korkealaatuisia, tehtäväkohtaisia ​​elokuvia erilaisiin käyttötarkoituksiin, mukaan lukien mutta ei rajoittuen animaatioon, itsekeskeiseen mallinnukseen sekä simuloidun ja todellisen robotiikkadatan mallintamiseen.

Tutkijat testaavat Video Adapteria erilaisissa videonluontitöissä. Vaikealla Ego4D-datalla ja robottisiltadatalla Video Adapter luo videoita paremmilla FVD- ja aloituspisteillä kuin korkealaatuinen esiopetettu iso videomalli ja käyttää jopa 80x vähemmän parametreja. Tutkijat osoittavat laadullisesti, että Video Adapter mahdollistaa lajikohtaisten videoiden, kuten tieteiskirjallisuuden ja animaatioiden, tuotannon. Lisäksi tutkimuksen tekijät osoittavat, kuinka Video Adapter voi tasoittaa tietä robotiikan surullisen sim-to-real-kuilun kuromiseen mallintamalla sekä oikeita että simuloituja robottielokuvia ja mahdollistamalla tietojen lisäämisen todellisissa robottivideoissa yksilöllisen tyylin avulla.

Avainominaisuudet

  • Korkealaatuisen mutta monipuolisen videosynteesin saavuttamiseksi ilman, että esiopetetussa mallissa tarvitaan gradienttipäivityksiä, Videosovitin yhdistää esiopetetun tekstistä videoksi -mallin pisteet verkkotunnuskohtaisen pienen mallin pisteisiin (1 % parametreillä) näytteenotossa. aika.
  • Esiopetetut videomallit voidaan helposti mukauttaa Videosovittimen avulla ihmiselokuviin ja robottitietoihin.
  • Samalla TPU-tuntimäärällä Videosovitin saa korkeammat FVD-, FID- ja aloituspisteet kuin esikoulutetut ja tehtäväkohtaiset mallit.
  • Videosovittimien käyttömahdollisuudet vaihtelevat animetuotannosta verkkotunnuksen satunnaistukseen robotiikan simulaation ja todellisuuden välisen kuilun kaventamiseksi.
  • Toisin kuin valtava Internet-tiedoista esiopetettu videomalli, Video Adapter vaatii pienen verkkoaluekohtaisen tekstistä videoksi -mallin harjoittamisen, jossa on suuruusluokkaa vähemmän parametreja. Video Adapter saavuttaa korkealaatuisen ja mukautuvan videosynteesin muodostamalla esikoulutetut ja aluekohtaiset videomallipisteet näytteenoton aikana.
  • Videosovittimen avulla voit antaa videolle ainutlaatuisen ulkoasun käyttämällä mallia, joka on alttiina vain yhdentyyppiselle animaatiolle.
  • Videosovitinta käyttämällä huomattavan kokoinen esikoulutettu malli voi ottaa paljon pienemmän animaatiomallin visuaaliset ominaisuudet.
  • Videosovittimen avulla massiivinen esikoulutettu malli voi ottaa pienen sci-fi-animaatiomallin visuaalisen esteettisen.
  • Videosovittimet voivat tuottaa erilaisia ​​elokuvia eri genreissä ja tyyleissä, mukaan lukien videot, joissa on manipulointiin ja navigointiin perustuvia itsekeskeisiä liikkeitä, videoita, joissa on yksilöllisiä genrejä, kuten animaatiota ja tieteiskirjallisuutta, sekä videoita, joissa on simuloituja ja aitoja robottiliikkeitä.
🔥 Empfohlen:  Magento 2 Facebook Chat – Meetanshi-laajennuksen selitys

Rajoitukset

Pieni videomalli on vielä koulutettava verkkotunnuskohtaisiin tietoihin. siksi, vaikka Video Adapter voi tehokkaasti mukauttaa suuria esiopetettuja teksti-video-malleja, se ei ole harjoitteluvapaa. Toinen ero Videosovittimen ja muiden tekstistä kuvaksi ja tekstistä videoksi -sovellusliittymien välillä on, että se vaatii tuloksen tulostamisen tuloksena olevan videon rinnalla. Videosovitin tekee tekstistä videoksi -tutkimuksen entistä helpommin saavutettavissa pienille teollisille ja akateemisille oppilaitoksille korjaamalla mallipainojen ja laskentatehokkuuden vapaan pääsyn puutteen.

Tehdä yhteenveto

On selvää, että kun tekstistä videoon perustuvien mallien koko kasvaa, ne on mukautettava tehokkaasti tehtäväkohtaiseen käyttöön. Tutkijat ovat kehittäneet Video Adapterin, tehokkaan menetelmän toimialue- ja tehtäväkohtaisten elokuvien luomiseen käyttämällä valtavia esiopetettuja tekstistä videoon -malleja todennäköisyyslaskentaan. Videosovittimet voivat syntetisoida korkealaatuisia videoita erikoisaloilla tai halutulla estetiikalla ilman, että massiivisen esikoulutetun mallin hienosäätöä tarvitaan.