Seuraava artikkeli auttaa sinua: “fuusioituneiden” ihmisten erottaminen tietokonenäössä
Singaporen Hyundai Motor Groupin innovaatiokeskuksen uusi paperi tarjoaa menetelmän “fuusioituneiden” ihmisten erottamiseen tietokonenäössä – niissä tapauksissa, joissa kohteen tunnistuskehys on löytänyt ihmisen, joka on jollain tavalla “liian lähellä” toista ihmistä (esim. “halaamisena” tai “takana seisomisena”), eikä se pysty erottamaan kahta edustettua henkilöä, mikä sekoittaa heidät yhteen henkilöön tai kokonaisuuteen.
Lähde: https://arxiv.org/pdf/2210.03686.pdf
Tämä on merkittävä ongelma, joka on saanut viime vuosina paljon huomiota tutkimusyhteisössä. Ratkaisemalla se ilman ilmeisiä, mutta yleensä kohtuuttomia hypermittakaavallisia kustannuksia, ihmisvetoinen mukautettu merkintä voisi lopulta mahdollistaa ihmisten yksilöllistymisen parannuksia tekstistä kuvaksi -järjestelmissä, kuten Stable Diffusion, joka usein “sulattaa” ihmiset yhteen, kun kehotettu asento vaatii useita henkilöitä. olla lähellä toisiaan.
Vaikka generatiiviset mallit, kuten DALL-E 2 ja Stable Diffusion, eivät (kenenkään parhaan tietämyksen mukaan, suljetun lähdekoodin DALL-E 2:n tapauksessa) tällä hetkellä käytä semanttista segmentointia tai objektien tunnistusta, nämä groteskit ihmisportmaat eivät voi Tällä hetkellä parantua soveltamalla tällaisia alkupään menetelmiä – koska uusimmat objektintunnistuskirjastot ja -resurssit eivät ole paljon parempia erottamaan ihmisiä toisistaan kuin piilevien diffuusiomallien CLIP-pohjaiset työnkulut.
Tämän ongelman ratkaisemiseksi uudessa artikkelissa, jonka otsikko on, mukautetaan ja parannetaan äskettäistä “leikkaa ja liitä” -lähestymistapaa puolisynteettisiin tietoihin, jotta saavutetaan uusi SOTA-johtoasema tehtävässä jopa haastavinta lähdemateriaalia vastaan:
Leikkaa se pois!
Muutettu menetelmä – nimeltään – on johdettu Google Researchin johtamasta vuoden 2021 julkaisusta, jossa ehdotettiin, että poimittujen esineiden ja ihmisten asettaminen päällekkäin eri lähteiden opetuskuvien joukkoon voisi parantaa kuvantunnistusjärjestelmän kykyä erottaa jokainen kuvasta löydetty esiintymä:
Lähde: https://arxiv.org/pdf/2012.07177.pdf
Uusi versio lisää rajoituksia ja parametreja tähän automatisoituun ja algoritmiseen “uudelleenliittämiseen”, analogistaen prosessin kuvien “koriin”, joka on täynnä mahdollisia ehdokkaita “siirrettäväksi” muihin kuviin useiden avaintekijöiden perusteella.
Elementtien hallinta
Näitä rajoittavia tekijöitä ovat esimerkiksi leikkaamisen ja liittämisen esiintyminen, mikä varmistaa, että prosessi ei vain tapahdu koko ajan, mikä saattaisi aikaan “kyllästävän” vaikutuksen, joka heikentäisi tietojen lisäämistä; se, joka korissa on kerrallaan, jolloin suurempi määrä “segmenttejä” voi parantaa tapausten valikoimaa, mutta pidentää esikäsittelyaikaa; ja , joka määrittää “isäntä”-kuvaan liitettyjen kuvien määrän.
Lehti toteaa jälkimmäisen osalta
Kaksi muuta OC&P:n innovaatiota ovat ja .
Kohdennettu liittäminen varmistaa, että sopiva kuva osuu kohdekuvassa olevan esiintymän lähelle. Aiemmassa lähestymistavassa, aikaisemmasta työstä, uusi elementti oli vain rajoitettu kuvan rajojen sisällä ilman kontekstia.
Lisätty ilmentymien liittäminen puolestaan varmistaa, että liitetyissä ilmentymissä ei esiinny “erottelevaa ulkoasua”, joka saattaa päätyä järjestelmän luokittelemaan jollakin tavalla, mikä voisi johtaa poissulkemiseen tai “erityiskohteluun”, joka voi haitata yleistämistä ja sovellettavuutta. . Lisätty liittäminen moduloi visuaalisia tekijöitä, kuten kirkkautta ja terävyyttä, skaalausta ja kiertoa sekä kylläisyyttä – muiden tekijöiden ohella.
Lähde: https://arxiv.org/src/2210.03686v1/anc/OcclusionCopyPaste_Supplementary.pdf
Lisäksi OC&P säätelee minkä tahansa liimatun esiintymän a. Voi esimerkiksi olla mahdollista poimia massiivisesta ihmisjoukkokuvasta kuva yhdestä ihmisestä, joka voidaan liittää toiseen kuvaan – mutta siinä tapauksessa pieni pikselien määrä ei todennäköisesti auta tunnistusta. Tästä syystä järjestelmä käyttää minimimittakaavaa, joka perustuu kohdekuvan tasaisen sivun pituuden suhteeseen.
Lisäksi OC&P ottaa käyttöön mittakaavatietoisen liittämisen, jossa sen lisäksi, että se etsii samanlaisia aiheita kuin liimattava aihe, se ottaa huomioon kohdekuvan rajoitusruutujen koon. Tämä ei kuitenkaan johda yhdistelmäkuviin, joita ihmiset pitävät uskottavina tai realistisina (katso kuva alla), vaan pikemminkin kokoaa semanttisesti sopivia elementtejä lähelle toisiaan tavoilla, joista on hyötyä harjoituksen aikana.
Todellisuus puree
Sekä edellinen työ, johon OC&P perustuu, että nykyinen toteutus asettavat alhaisen arvon aitoudelle tai lopullisen “montaatun” kuvan “valokuvatodellisuudelle”. Vaikka on tärkeää, että lopullinen kokoonpano ei laskeudu kokonaan dadaismiin (muuten koulutettujen järjestelmien todelliset käyttöönotot eivät koskaan voi toivoa kohdataan elementtejä sellaisissa kohtauksissa, joihin ne koulutettiin), molemmissa aloitteissa on havaittu, että visuaalinen uskottavuus” ei ainoastaan lisää esikäsittelyaikaa, vaan että tällaiset “realismiparannukset” ovat todennäköisesti itse asiassa kielteisiä.
Tiedot ja testit
Testausvaihetta varten järjestelmä koulutettiin MS COCO -tietojoukon luokkaan, joka sisälsi 262 465 esimerkkiä ihmisistä 64 115 kuvassa. Kuitenkin MS COCO:ta parempilaatuisten maskien saamiseksi kuvat saivat myös LVIS-maskimerkinnät.
Lähde: https://arxiv.org/pdf/1908.03195.pdf
Arvioidakseen, kuinka hyvin lisätty järjestelmä voisi vastustaa suurta määrää tukkeutuneita ihmiskuvia, tutkijat asettivat OC&P:n OCHuman (Occluded Human) -vertailuarvoon.
Lähde: https://github.com/liruilong940607/OCHumanApi
Koska OCHuman-vertailuarvoa ei ole merkitty tyhjentävästi, uuden paperin tutkijat loivat alajoukon vain niistä esimerkeistä, jotka oli täysin merkitty, nimeltä OCHumanFL. Tämä vähensi esiintymien lukumäärän 2 240:een 1 113 validointikuvassa ja 1 923 ilmentymään 951 testaukseen käytetyn kuvan välillä. Sekä alkuperäinen että äskettäin kuratoitu sarja testattiin käyttämällä keskimääräistä tarkkuutta (mAP) ydinmittarina.
Johdonmukaisuuden vuoksi arkkitehtuuri muodostettiin Mask R-CNN:stä, jossa oli ResNet-50-runko ja ominaisuuspyramidiverkko, joista jälkimmäinen tarjoaa hyväksyttävän kompromissin tarkkuuden ja harjoitusnopeuden välillä.
Kun tutkijat huomasivat ylävirran ImageNet-vaikutuksen haitallisen vaikutuksen samanlaisissa tilanteissa, koko järjestelmää koulutettiin alusta alkaen 4 NVIDIA V100 -grafiikkasuorittimella 75 ajanjakson ajan Facebookin vuoden 2021 julkaisun Detectron 2:n alustusparametrien mukaisesti.
Tulokset
Yllä mainittujen tulosten lisäksi testien MMDtectionia (ja siihen liittyviä kolmea mallia) vastaan saadut lähtötilanteen tulokset osoittivat selkeän johdon OC&P:lle sen kyvyssä erottaa ihmiset kieroutuneista asennoista.
Sen lisäksi, että PoSegin ja Pose2Segin suorituskyky on parempi, ehkä yksi paperin merkittävimmistä saavutuksista on se, että järjestelmää voidaan soveltaa melko yleisellä tasolla olemassa oleviin kehyksiin, mukaan lukien ne, jotka vastustettiin sitä vastaan kokeissa (katso ensimmäisten tulosten laatikon kanssa / ilman vertailut, lähellä artikkelin alkua).
Lehti päättää:
Mahdollisuus parantaa tekstistä kuvaksi -synteesiä
Pääkirjailija Evan Ling huomautti meille lähettämässään sähköpostissa*, että OC&P:n tärkein etu on se, että se voi säilyttää alkuperäiset maskitarrat ja saada niistä uutta arvoa “ilmaiseksi” uudessa kontekstissa – eli kuvissa, joita ne on käytetty. liimattu sisään.
Vaikka ihmisten semanttinen segmentointi näyttää liittyvän läheisesti vaikeuksiin, joita Stable Diffusionin kaltaisilla malleilla on yksilöidä ihmisiä (sen sijaan, että ne “sekoittaisivat heidät yhteen”, kuten niin usein tapahtuu), mikä tahansa vaikutus, joka semanttisella leimauskulttuurilla voi olla painajaismaiseen ihmiseen. tekee siitä, että SD- ja DALL-E 2 -lähtö on usein hyvin, hyvin kaukana ylävirtaan.
Miljardit LAION 5B -alajoukon kuvat, jotka täyttävät Stable Diffusionin tuottovoiman, eivät sisällä objektitason tunnisteita, kuten rajauslaatikoita ja ilmentymän maskeja, vaikka CLIP-arkkitehtuuri, joka muodostaa renderöinnit kuvista ja tietokantasisällöstä, olisi jossain vaiheessa hyötynyt sellaisista. instantiation; pikemminkin LAION-kuvat on merkitty ilmaisiksi, koska niiden otsikot on johdettu metatiedoista ja ympäristöteksteistä jne., jotka yhdistettiin kuviin, kun ne kaavittiin verkosta tietojoukkoon.
“Mutta syrjään”, Ling kertoi meille. “Jontain OC&P:n kaltaista lisäystä voidaan käyttää tekstistä kuvaksi generatiivisen mallikoulutuksen aikana. Mutta luulisin, että lisätyn harjoituskuvan realistisuus saattaa muodostua ongelmaksi.
“Työssämme osoitamme, että “täydellistä” realismia ei yleensä vaadita valvotun ilmentymän segmentoinnissa, mutta en ole liian varma, voidaanko samaa johtopäätöstä tehdä tekstistä kuvaksi generatiivisen mallin koulutuksesta (etenkin niiden tulosteissa). odotetaan olevan erittäin realistisia). Tässä tapauksessa voi olla tarpeen tehdä enemmän työtä lisättyjen kuvien “täydellisen” realismin parantamiseksi.
CLIP:iä käytetään jo mahdollisena multimodaalisena työkaluna semanttiseen segmentointiin, mikä viittaa siihen, että parannetut henkilöiden tunnistus- ja yksilöintijärjestelmät, kuten OC&P, voitaisiin viime kädessä kehittää järjestelmän sisäisiksi suodattimiksi tai luokittelijoiksi, jotka hylkäävät mielivaltaisesti “sulautuneet” ja vääristyneet ihmisesitykset – tehtävä. jota on vaikea saavuttaa tällä hetkellä Stable Diffusionilla, koska sillä on rajallinen kyky ymmärtää missä se erehtyi (jos sillä olisi sellainen kyky, se ei luultavasti olisi tehnyt virhettä alun perin).
Lähde: https://openaccess.thecvf.com/content/CVPR2022/papers/Wang_CRIS_CLIP-Driven_Referring_Image_Segmentation_CVPR_2022_paper.pdf
“Toinen kysymys olisi”, Ling ehdottaa. “Tuleeko yksinkertaisesti syöttämällä näitä generatiivisia malleja kuvia tukkeutuneista ihmisistä harjoitustyön aikana ilman täydentävää malliarkkitehtuurin suunnittelua “ihmisfuusion”-ongelman lieventämiseksi? Tämä on luultavasti kysymys, johon on vaikea vastata suoraan. On varmasti mielenkiintoista nähdä, kuinka voimme antaa jonkinlaisen ilmentymätason opastuksen (instanssitason nimikkeiden, kuten ilmentymämaskin kautta) tekstistä kuvaksi generatiivisen mallin koulutuksen aikana.’