Gekissimo.net - Opi ansaitsemaan rahaa webilläsi Internetissä!

Google CVPR 2023:ssa esitelty 9 parasta paperia

Seuraava artikkeli auttaa sinua: Google CVPR 2023:ssa esitelty 9 parasta paperia

Vuoden 2023 painos CVPR, arvostettu vuotuinen tietokonenäön ja hahmontunnistuksen konferenssi, järjestetään 19.-22. kesäkuuta Vancouverissa, Kanadassa. Google Research on yksi suurimmista sponsoreista, ja se esittää 90 artikkelia erilaisista aiheista, kuten kuvantunnistuksesta, 3D-näöstä ja koneoppimisesta. Googlen lisäksi useat muut johtavat instituutit, kuten MIT ja UCLA, ovat tällä kertaa mukana. CVPR:lle saapui 9 155 hakemusta, joista vain 2 360 eli 25,78 % hyväksyttiin. Katsotaanpa tällä kertaa esiteltyjä papereita.

MobileNeRF: Polygonin rasterointiputkiston hyödyntäminen tehokkaan hermokentän renderöimiseen mobiiliarkkitehtuureissa

Google Researchin, Simon Fraser -yliopiston ja Toronton yliopiston tutkijaryhmän kirjoittama paperi esittelee uuden NeRF-esityksen, jossa käytetään kuvioituja polygoneja tehokkaaseen kuvasynteesiin. Perinteiset renderöintitekniikat yhdistettynä näkymästä riippuvaiseen MLP:hen käsittelevät z-puskurin kautta saadut polygoniominaisuudet, mikä johtaa nopeaan renderöintiin eri alustoilla, mukaan lukien matkapuhelimissa.

DynIBaR: Neural Dynamic Image-Based Rendering

Artikkelissa esitellään uusi menetelmä realististen näkemysten luomiseksi dynaamisten kohtausten monokulaarisista videoista. Nykyiset dynaamisiin hermosäteilykenttiin (Neural Radiance Fields, NeRF) perustuvat tekniikat kamppailevat pitkien videoiden ja monimutkaisten kameran liikkeiden kanssa, mikä johtaa epätarkkoihin tai epätarkkoihin tulosteisiin. Cornell Techin ja Google Researchin kehittämä uusi lähestymistapa voittaa nämä rajoitukset käyttämällä tilavuuskuvapohjaista renderöintikehystä, joka sisältää lähellä olevat näkymät ja liiketiedot. Järjestelmä saavuttaa erinomaisia ​​tuloksia dynaamisissa kohtaustietosarjoissa ja loistaa todellisissa skenaarioissa kameran ja objektin haastavalla liikkeellä, jossa aiemmat menetelmät eivät ole riittäviä.

Lue lisää: Neo4j:n rooli luovan tekoälyn ruokkimisessa grafiikkatekniikalla

DreamBooth: Tekstistä kuvaksi -hajautusmallien hienosäätö aihelähtöistä sukupolvea varten

Suurilla tekstistä kuvaksi -malleilla on rajoituksia aiheiden matkimisessa vertailujoukosta ja erilaisten esitysten luomisessa. Tämän ratkaisemiseksi Google Research ja Boston University esittävät yksilöllisen lähestymistavan. Hienosäätämällä mallia muutamalla aihekuvalla se oppii yhdistämään yksilöllisen tunnisteen kohteeseen, mikä mahdollistaa fotorealististen kuvien synteesin eri yhteyksissä. Tekniikka säilyttää keskeiset ominaisuudet tutkiessaan tehtäviä, kuten kontekstualisointia, näkymän synteesiä ja taiteellista renderöintiä. Kohdelähtöistä sukupolvea varten tarjotaan uusi tietojoukko ja arviointiprotokolla. Tutustu heidän GitHub-tietovarastoonsa täällä.

🔥 Empfohlen:  Osta Facebookin kommentteja, vastauksia ja tykkäyksiä: 10 parasta sivustoa

MaskSketch: Pariton rakenne-ohjattu peitetyn kuvan luominen

Mielenkiintoisten innovaatioiden listalle on lisätty uusi kuvanmuodostusmenetelmä nimeltä MaskSketch, joka mahdollistaa sukupolven tuloksen spatiaalisen ehdottelun ohjaavan luonnoksen avulla lisäsignaalina. MaskSketch hyödyntää valmiiksi koulutettua naamioitua generatiivista muuntajaa ja toimii eri abstraktiotasojen luonnosten kanssa.

Hyödyntämällä keskitason itsetarkkailukarttoja, MaskSketch koodaa tärkeitä rakenteellisia tietoja ja mahdollistaa rakenneohjatun generoinnin. Menetelmä saavuttaa korkean kuvan realistisuuden ja tarkkuuden, ylittäen huippuluokan menetelmät luonnoksista kuvaksi -kääntämiseen ja parittomia kuvasta kuvaksi -kääntämislähestymistapoja vertailutietosarjoissa.

MAGVIT: Masked Generative Video Transformer

Carnegie Mellon University, Google Research ja Georgia Institute of Technology esittelivät MAGVITin, yhden mallin, joka on suunniteltu käsittelemään erilaisia ​​videosynteesitehtäviä. Se käyttää 3D-tunnistetta videoiden muuntamiseen spatiaalis-ajallisiksi visuaalisiksi tunnuksiksi ja käyttää naamioitua videotunnusmallinnusta tehokkaaseen monitehtävään oppimiseen. Tulokset osoittavat, että MAGVIT ylittää huippuluokan lähestymistavat ja saavuttaa parhaiten julkaistun FVD:n kolmella videon sukupolven vertailuarvolla, mukaan lukien Kinetics-600. Se ylittää myös olemassa olevat menetelmät päättelyajassa merkittävällä marginaalilla ja tukee kymmentä erilaista sukupolvitehtävää yleistäen samalla eri visuaalisia alueita.

Imagen Editor ja EditBench: Tekstiohjatun kuvanmaalauksen edistäminen ja arviointi

Google esitteli Imagen Editorin, kaskadihajotusmallin, joka vastaa tekstiohjatun kuvankäsittelyn haasteeseen. Hienosäätämällä Imagenia tekstiohjatussa kuvanmaalauksessa ja käyttämällä objektintunnistimia maalausmaskien ehdottamiseen, se varmistaa, että muokkaukset ovat tekstikehotteiden mukaisia. Se säilyttää myös hienot yksityiskohdat muokkaamalla korkearesoluutioista kuvaa.

Arviointi käyttämällä EditBenchiä, joka on tekstiohjatun kuvanmaalauksen vertailukohta, osoittaa, että harjoituksen aikana tapahtuva objektien peittäminen parantaa tekstin ja kuvan kohdistusta. Imagen Editor päihittää DALL-E 2:n ja Stable Diffusionin ja loistaa objektien renderöinnissä ja materiaali/väri/koko-attribuuttien suhteen.

RUST: Piileviä hermokohtausten esityksiä posittamattomista kuvista

Toinen Google-tiimin esittelemä artikkeli esittelee RUST-tekniikan (Really Unposed Scene Representation Transformer), posettoman lähestymistavan, jossa käytetään vain RGB-kuvia. Kouluttamalla asentokooderin ja -dekooderin RUST mahdollistaa uudenlaisen näkymän synteesin mielekkäillä kameramuunnoksilla ja tarkoilla asentolukemilla. Yllättäen RUST saavuttaa samanlaisen laadun kuin menetelmät täydellisellä kameraasennolla, mikä mahdollistaa hermokohtausten laajamittaisen harjoittamisen.

🔥 Empfohlen:  Live ilmaiseksi: Kuinka aloittaa talon hakkerointi

REVEAL: Haulla täydennetty visuaalinen-kielinen esikoulutus multimodaalisen tietomuistin avulla

Paperi esittelee REVEAL, end-to-end Retrieval-Augmented Visual Language Model. REVEAL koodaa maailmantiedon laajamittaiseen muistiin ja hakee siitä vastatakseen tietointensiivisiin kyselyihin. Se koostuu muistista, kooderista, noutajasta ja generaattorista. Muisti koodaa erilaisia ​​multimodaalisia tietolähteitä, ja noutaja löytää asiaankuuluvat merkinnät.

Generaattori yhdistää haetun tiedon syöttökyselyihin tuottaakseen tuotoksia. REVEAL saavuttaa huippuluokan suorituskyvyn visuaalisissa kysymyksiin vastaamisessa ja kuvien tekstityksessä hyödyntäen erilaisia ​​multimodaalisia tietolähteitä. Paperin ovat lähettäneet jäsenet Kalifornian yliopistosta Los Angelesista ja Google Researchista.

Ohjattujen diffuusiomallien tislauksesta

Luokittelemattomat ohjatut diffuusiomallit, joita käytetään laajasti kuvan luomisessa, kärsivät laskennallisesta tehottomuudesta. Google, Stability AI ja LMU München ehdottavat näiden mallien tislaamista nopeampiin näytteenottomalleihin. Tislattu malli vastaa yhdistettyjen ehdollisten ja ehdottomien mallien tuotoksia, mikä saavuttaa vertailukelpoisen kuvanlaadun vähemmällä näytteenottovaiheella. Lähestymistapa on jopa 256 kertaa nopeampi pikseliavaruusmalleissa ja vähintään 10 kertaa nopeampi piilevän avaruuden malleissa. Se osoittautuu tehokkaaksi myös tekstiohjatussa kuvankäsittelyssä ja maalaamisessa, mikä vaatii vain 2-4 vaimennusvaihetta korkealaatuisten tulosten saavuttamiseksi.

Lue lisää: Mitä maailma voi oppia Ranskan tekoäly-ekosysteemistä