Gekissimo.net - Opi ansaitsemaan rahaa webilläsi Internetissä!

Diffuusiomallit: Taiteesta huipputekniikkaan

Seuraava artikkeli auttaa sinua: Diffuusiomallit: Taiteesta huipputekniikkaan

Diffuusiomallit ovat kasvattaneet suosiotaan muutaman viime kuukauden aikana. Nämä generatiiviset mallit ovat pystyneet päihittämään GAN:t kuvasynteesissä äskettäin julkaistuilla työkaluilla, kuten OpenAI:n DALL.E2 tai StabilityAI:n Stable Diffusion and Midjourney.

DALL-E esitteli äskettäin Outpaintingin, uuden ominaisuuden, jonka avulla käyttäjät voivat laajentaa kuvan alkuperäisiä reunoja ja lisätä samalla tyylillä visuaalisia elementtejä luonnollisen kielen kuvauskehotteilla.

Pohjimmiltaan diffuusiomenetelmällä toimivat sukupolvimallit voivat tuottaa kuvia satunnaistamalla ensin harjoitustiedot lisäämällä Gaussin kohinaa ja sitten palauttamalla tiedot kääntämällä kohinaprosessia. Diffuusiotodennäköisyysmalli (diffuusiomalli) on parametroitu Markov-ketju, joka on koulutettu käyttämällä erilaisia ​​päätelmiä tuottamaan kuvia, jotka vastaavat tietoja tietyn ajan kuluttua.

Genesis

Kuvasynteesi syntyi vuonna 2015, kun Google Research julkisti Super Resolution diffuusiomallin (SR3), joka voi ottaa matalaresoluutioisia syöttökuvia ja käyttää diffuusiomallia korkearesoluutioisten tulosteiden luomiseen menettämättä mitään tietoja. Tämä onnistui lisäämällä asteittain puhdasta kohinaa korkearesoluutioiseen kuvaan ja poistamalla sen sitten asteittain matalan resoluution kuvan ohjauksella.

Class-Conditional Diffusion Model (CDM) on koulutettu ImageNet-tietojen avulla luomaan korkearesoluutioisia kuvia. Nämä mallit muodostavat nyt perustan tekstistä kuvaksi diffuusiomalleille korkealaatuisten kuvien tuottamiseksi.

Tekstistä kuvaksi -mallien nousu

Vuonna 2021 lanseerattu DALL.E2 kehitettiin zero-shot-oppimisen ajatuksella. Tässä menetelmässä tekstistä kuvaksi -mallia harjoitellaan vastaan ​​miljardeja kuvia vastaan ​​niiden upotetulla kuvatekstillä. Vaikka koodia ei ole vielä auki, DALL.E2 julkistettiin samanaikaisesti CLIP:n (Contrastive Language-Image Pre-training) kanssa, joka opetettiin 400 miljoonalle tekstiä sisältävälle kuvalle, joka kaavittiin suoraan Internetistä.

Samana vuonna OpenAI toi markkinoille GLIDEn, joka tuottaa fotorealistisia kuvia tekstiohjatuilla diffuusiomalleilla. DALL.E2:n CLIP-ohjaustekniikka voi tuottaa erilaisia ​​kuvia, mutta vaakalaudalla korkean tarkkuuden. Fotorealismin saavuttamiseksi GLIDE käyttää luokittelematonta ohjausta, joka lisää muokkausmahdollisuuden nollakuvan luomisen lisäksi.

GLIDE on tekstin ehdollisen diffuusiomenetelmien harjoittelun jälkeen hienosäädetty ehdottomaan kuvan luomiseen korvaamalla harjoitustekstitunniste tyhjillä sarjoilla. Näin malli pystyy säilyttämään kykynsä luoda kuvia ehdoitta tekstiriippuvaisten tulosteiden kanssa.

🔥 Empfohlen:  11 esimerkkiä hätärahastoista, jotka sinun TÄYTYY tietää

Toisaalta Googlen Imagen laajentaa suurta muuntajakielimallia (LM) ja ymmärtää tekstiä yhdistääkseen sen korkean tarkkuuden diffuusiomalleihin, kuten GLIDE, kohinaa poistaviin diffuusioprobabilistisiin menetelmiin ja kaskadoituihin diffuusiomalleihin. Tämä johtaa sitten fotorealististen kuvien tuottamiseen syvällä kielen ymmärtämisessä tekstistä kuvaksi -synteesissä.

Google laajensi äskettäin Imageniä DreamBoothilla, joka ei ole vain tekstistä kuvaksi -generaattori, vaan mahdollistaa kuvien lataamisen kontekstin muuttamiseksi. Tämä työkalu analysoi syöttökuvan aiheen, erottaa sen kontekstista tai ympäristöstä ja syntetisoi sen uuteen haluttuun kontekstiin erittäin tarkasti.

Stable Diffusionin käyttämät piilevät diffuusiomallit käyttävät samanlaista menetelmää kuin CLIP-upotus kuvien luomiseen, mutta ne voivat myös poimia tietoa syötekuvasta. Esimerkiksi alkuperäinen kuva koodataan jo ennestään informaatiotiheään tilaan, jota kutsutaan piileväksi tilaksi. Kuten GAN, tämä tila poimii oleellista tietoa tilasta ja pienentää sen kokoa säilyttäen samalla mahdollisimman paljon tietoa.

Kun nyt ehdolla, kun syötät kontekstin, joka voi olla joko tekstiä tai kuvia, ja yhdistät ne piilevään tilaan syötetyn kuvan kanssa, mekanismi ymmärtää parhaan tavan muokata kuva kontekstisyöttöön ja valmistelee alkukohinaa. diffuusioprosessi. Kuten Imagen, nyt prosessi sisältää luodun kohinakartan dekoodauksen lopullisen korkearesoluutioisen kuvan muodostamiseksi.

Tulevaisuuden täydellinen (kuvat)

Tietojen koulutus, näytteenotto ja arviointi on mahdollistanut diffuusiomallien johdonmukaisuuden ja joustavuuden. Vaikka diffuusiomalleilla on suuria parannuksia kuvan luomiseen verrattuna GAN-, VAE- ja virtauspohjaisiin malleihin, ne luottavat näytteiden luomiseen Markovin ketjuun, mikä hidastaa sitä.

Samalla kun OpenAI on pyrkinyt kohti täydellistä kuvanluontityökalua, on tapahtunut valtava harppaus useiden diffuusiomallien tekemisessä, jossa ne käyttävät erilaisia ​​menetelmiä parantaakseen lähdön laatua, lisäämällä tarkkuutta ja vähentäen samalla renderöintiaikaa. . Tämä sisältää Googlen Imagenin, Metan “Make-A-Scene”, Stable Diffusionin, Midjourneyn jne.

Lisäksi diffuusiomallit ovat hyödyllisiä tiedon pakkaamisessa, koska ne vähentävät korkearesoluutioisia kuvia maailmanlaajuisessa Internetissä ja mahdollistavat laajemman yleisön saatavuuden. Kaikki tämä johtaa lopulta siihen, että diffuusiomalleista tulee elinkelpoisia luovaan käyttöön taiteessa, valokuvauksessa ja musiikissa.