Seuraava artikkeli auttaa sinua: GANs, Diffusion Ride Dragon in AI Image Generation
Heti kun avaamme minkä tahansa sosiaalisen median alusta näinä päivinä, törmäsimme tekoälyn luomiin kuviin julkkiksista, kaupungeista tai Midjourneyn uudesta ominaisuudesta, mikä lisää sen ominaisuuksia kaikissa pysty- ja vaakasuuntauksissa. Nämä diffuusiomalleihin perustuvat kuvageneraattorit olivat ensimmäisiä esityksiä generatiivisen tekoälyn ominaisuuksista sen jälkeen, kun ne julkaistiin viime vuonna DALL-E:n kanssa.
Nyt diffuusiomallien ominaisuudet ovat ylittäneet kaikkien odotukset. Tutustu DragonDiffusion-malliin, jonka avulla objektien muotoa ja suuntaa voidaan muuttaa kuvan sisällä vetämällä. Tämä mahdollistaa kuvien ja niissä olevien esineiden saumattoman käsittelyn ilman olemassa olevien mallien hienosäätöä – Photoshop-käyttäjien unelmien täyttymys.
Kuinka se toimii?
DragonDiffusionin perusideana on rakentaa luokitinohjausjärjestelmä, joka hyödyntää diffuusiomallin väliominaisuuksien vastaavuutta. Tämä ohjausjärjestelmä muuntaa muokkaussignaalit gradienteiksi käyttämällä ominaisuuden vastaavuushäviötä, mikä mahdollistaa modifikaatiot diffuusiomallin väliesitykseen.
Harkitsemalla sekä semanttista että geometrista kohdistusta monimittaisen ohjaustavan avulla, DragonDiffusion helpottaa erilaisia muokkaustiloja sekä luotuille että todellisille kuville. Näitä tiloja ovat kohteen siirtäminen, objektin koon muuttaminen, objektin ulkoasun vaihtaminen ja sisällön vetäminen.
Varmistaakseen johdonmukaisuuden alkuperäisen kuvan ja muokkaustuloksen välillä, DragonDiffusion sisältää haarojen välisen itsehuomiomekanismin. Tämä mekanismi ylläpitää kuvan yleistä yhtenäisyyttä koko muokkausprosessin ajan ja varmistaa, että muokattu sisältö integroituu saumattomasti alkuperäiseen.
Lukea: Diffuusiomallit: Taiteesta huipputekniikkaan
DragonDiffusionin suorituskyvyn arvioimiseksi on tehty laajoja kokeita, ja tulokset ovat merkittäviä. Se osoittaa kyvyn suorittaa monenlaisia kuvankäsittelysovelluksia, mukaan lukien objektien siirtäminen, koon muuttaminen, ulkoasun vaihtaminen ja sisällön vetäminen. DragonDiffusion tarjoaa tehokkaan ja käyttäjäystävällisen käyttöliittymän diffuusiomallien vuorovaikutukseen ja niiden luovan potentiaalin hyödyntämiseen.

DragonDiffusionin menestyksen voidaan katsoa johtuvan diffuusiomallien luontaisista ominaisuuksista, jotka osoittavat vahvat vastaavuussuhteet niiden väliominaisuuksien sisällä. Kun aikaisemmat lähestymistavat, kuten GAN, keskittyivät ensisijaisesti tekstin ja kuvan ominaisuuksien vastaavuuteen, DragonDiffusion hyödyntää vakaata ja hienorakeista vastaavuutta kuvan ja kuvan ominaisuuksien välillä. Tämä hienorakeinen kuvankäsittelyjärjestelmä avaa uusia mahdollisuuksia tarkkaan ja intuitiiviseen käsittelyyn diffuusiomalleissa.
Odota… olemmeko nähneet tämän ennenkin?
Ihmiset alkoivat kyseenalaistaa GAN:ien merkitystä diffuusiomallien aikakaudella. Mutta aivan kuten tämä ajatus saattoi muotoutua, tutkijat tekivät valtavan läpimurron DragGANilla, jolloin editorit voivat vetää ja muuttaa objektien suuntauksia ja muotoja reaaliajassa. Ironista kyllä, tämä kehitys sai ihmiset kyseenalaistamaan diffuusiomallipohjaisten kuvageneraattoreiden kyvyt.
Lukea: GANit diffuusiomallien aikakaudella
Kuten DragonDiffusion, tämä GAN-pohjainen menetelmä hyödyntää valmiiksi koulutettua GAN:ia syntetisoimaan kuvia, jotka eivät ainoastaan seuraa tarkasti käyttäjän syötteitä, vaan pysyvät myös realististen kuvien joukossa.
Tutkijat ovat ottaneet käyttöön uudenlaisen lähestymistavan, joka erottuu aikaisemmista menetelmistä tarjoamalla yleisen viitekehyksen, joka ei perustu toimialuekohtaiseen mallinnukseen tai apuverkkoihin. Tämä uraauurtava tekniikka sisältää piilevien koodien optimoinnin useiden kahvapisteiden asteittaiseksi siirtämiseksi haluttuun paikkaan. Lisäksi pisteenseurantamenettelyä käytetään näiden kahvapisteiden liikeradan tarkkaan jäljittämiseen.
Hyödyntämällä GAN:n välivaiheen piirrekarttojen erottavia ominaisuuksia, tämän lähestymistavan molemmat komponentit mahdollistavat tarkat pikselitason kuvan muodonmuutokset säilyttäen samalla interaktiivisen suorituskyvyn.
Tutkijat ovat vakuuttaneet, että heidän lähestymistapansa ylittää nykyisen GAN-pohjaisen manipuloinnin huipputason, mikä on merkittävä edistysaskel kuvankäsittelyn alalla käyttämällä generatiivisia priorisointeja. Lisäksi he ovat ilmaisseet aikomuksensa laajentaa tätä pistepohjaista muokkaustekniikkaa 3D-generatiivisiin malleihin lähitulevaisuudessa.
On kulunut 7 viikkoa DragGANin julkistamisesta ja viikko virallisen toteutuksen julkaisusta. Tällä viikolla meillä on DragonDiffusion. Pohjimmiltaan DragGAN-vastine, mutta diffuusiomalleille.https://t.co/ZyPklGVUNJ pic.twitter.com/dSXpMEgxqV
— Dreaming Tulpa 🥓👑 (@dreamingtulpa) 9.7.2023
Kuvan luominen aivan uudelle tasolle
Uskottiin, että diffuusioprosessin monimutkaisuuden vuoksi olisi vaikeaa infusoida vetotekniikoita niihin. Nyt DragonDiffusionin avulla diffuusiomallitutkimus on palannut raiteilleen. Toisaalta on ratkaisevan tärkeää tunnustaa, että myös GANit ovat osoittautumassa yhtä kyvykkäiksi ekosysteemissä.
Diffuusiomallien kasvava suosio johtuu niiden ainutlaatuisista vahvuuksista ja eduista erilaisissa kuvasynteesiskenaarioissa. On kuitenkin tärkeää tunnustaa GAN-mallien pysyvä merkitys ja vaikutus, sillä ne ovat osoittaneet tehokkuutensa visuaalisesti houkuttelevien tulosten tuottamisessa.
Nykyinen maisema todistaa näiden kahden lähestymistavan välistä dynaamista vuorovaikutusta, kun diffuusiomallit nousevat uudelleen pintaan ja ottavat takaisin asemansa osoittaen niiden kykyä parantaa ja täydentää kuvan luontialuetta GAN-verkkojen ohella.