Gekissimo.net - Opi ansaitsemaan rahaa webilläsi Internetissä!

Kuinka kuvien segmentointi tehdään kuvatason valvonnan avulla?

Seuraava artikkeli auttaa sinua: Kuinka kuvien segmentointi tehdään kuvatason valvonnan avulla?

Paremman suorituskyvyn saavuttamiseksi syvä hermoverkkopohjainen semanttinen segmentointi vaatii tyypillisesti laajamittaisia ​​kustannuslaajuisia huomautuksia koulutukseen. Jotkut tutkijat ovat viime aikoina yrittäneet käyttää objektitason tarroja (esim. rajauslaatikoita) tai kuvatason tarroja välttääkseen pikselikohtaisia ​​segmentointimerkintöjä, joita vaaditaan useimmissa menetelmissä (esim. kuvaluokat). Joten tässä artikkelissa puhumme siitä, kuinka kuvat segmentoidaan kuvatasolla käyttämällä kuvatason valvontaa. Alla on tärkeimmät kohdat, joista keskustellaan tässä artikkelissa.

Sisällysluettelo

  1. Semanttinen segmentointi
  2. Mitä on ilmentymien segmentointi?
  3. Segmentoinnin valvonnan tyypit
  4. Työtavat

Aloitetaan keskustelu ymmärtämällä semanttinen segmentointi.

Semanttinen segmentointi

Semanttinen kuvan segmentointi on ongelma, joka liittyy kuvan pikselien osoittamiseen ennalta määrättyyn nimiösarjaan sen semanttisen rakenteen perusteella, johon pikseli kuuluu. Todennäköisyysjakauman laskemiseksi kunkin pikselin luokkiin, menestyneimmät semanttisen kuvan segmentoinnin mallit käyttävät yleensä CNN:n muunnelmaa.

Päättelyn aikana nämä jakaumat syötetään unaarisina potentiaalina täysin kytkettyihin ehdollisiin satunnaiskenttiin (CRF), joissa on Gaussin reunapotentiaali. CRF:ää käytetään päättelemään kuvan pikselien yhteiset merkinnät. Ehdolliset satunnaiskentät (CRF) ovat tilastollinen mallinnustyökalu, jota käytetään strukturoituun ennustamiseen hahmontunnistuksessa ja kuvankäsittelyssä.

Onnistunut semanttinen kuvien segmentointi edellyttää pääsyä suureen määrään tiheästi merkittyjä kuvia. Kuvien tiheä merkitseminen on sen sijaan kallis ja aikaa vievä prosessi. Tämän seurauksena saatavilla olevien tiheästi merkittyjen kuvien määrä on tyypillisesti mitätön osuus kuvien kokonaismäärästä. Tämän seurauksena mallien, jotka perustuvat pelkästään tiheästi merkittyihin kuviin, soveltamisala on rajoitettu. Jatkossa näitä malleja kutsutaan täysin valvotuiksi malleiksi.

Täysin valvottujen mallien rajoitusten vuoksi on kehitetty malleja, jotka voivat sisältää heikosti merkittyjä kuvia harjoittelua varten. Näitä ovat mallit, joissa käytetään rajoitusruutua ennen, pieni määrä pisteitä luokkaa kohti ja kuvatason tarroja. Mallit, jotka luottavat pelkästään kuvatason tarroihin, ovat erityisen kiinnostavia, koska verkko tarjoaa lähes rajattoman määrän huonosti merkittyjä kuvia.

🔥 Empfohlen:  Kuinka voittaa haasteet aloittaessasi omaa käynnistystä?

Seuraavassa osiossa tarkastellaan jotakin äskettäin ehdotettua mallia, joka oppii luomaan segmentointimaskeja pelkästään kuvatason tarroista ilman lokalisointivihjeiden tai näkyvyysmaskien apua. Sitä ennen käydään läpi ilmentymien segmentointi ja erityyppiset segmentoinnin valvonta, koska ne ovat molemmat merkityksellisiä.

Mitä on ilmentymien segmentointi?

Yksi tietokonenäön vaikeimmista tehtävistä on ilmentymien segmentointi. Useimpien esiintymien segmentointimenetelmien edellyttämien pikselikohtaisten tarrojen hankkiminen on kuitenkin aikaa vievää ja kallista. Nykyiset lähestymistavat tämän ongelman ratkaisemiseksi perustuvat heikompiin nimikkeisiin (kuten kuvatason tarroihin) ja pseudotunnisteisiin, jotka on saatu objektiehdotusmenetelmillä.

Vaikka suurin osa näistä menetelmistä on tarkoitettu objektien havaitsemiseen ja semanttiseen segmentointiin, tehtävänä on luokitella jokainen objektipikseli ja erottaa objektiinstanssit. Uusimmat menetelmät perustuvat syviin verkkoihin ja toimivat kahdessa vaiheessa: ensin havaitaan objektit ja sitten segmentoidaan ne. Esimerkiksi Mask-RCNN käyttää Faster-RCNN:ää havaitsemiseen ja FCN-verkkoa segmentointiin.

Segmentoinnin valvonnan tyypit

Heikko valvonta

Koska pikselikohtaisten tarrojen hankkiminen on aikaa vievää, on syntynyt monia heikosti valvottuja menetelmiä, jotka voivat käyttää tarroja, jotka ovat paljon halvempia hankkia. Rajauslaatikot, kirjoitukset, pisteet ja kuvatason huomautukset ovat kaikki esimerkkejä tarroista. Toisaalta heikosti valvotun asetuksen tietojoukko koostuu kuvista ja niihin liittyvistä huomautuksista, jotka on suhteellisen helppo saada, kuten kuvassa olevien objektien tunnisteet/tarrat.

Kuvatason tarrat heikkona valvonnana

Alhaisten kustannustensa vuoksi kuvatason tarrojen hankkiminen on houkutteleva merkintätapa. Annotaattorin tarvitsee vain sanoa, esiintyykö jokin tietty objektiluokka kuvassa, ei niiden lukumäärää. Vaikka tämäntyyppinen huomautus on saamassa suosiota akateemisessa maailmassa, suurin osa ehdotetuista menetelmistä on tarkoitettu semanttiseen segmentointiin.

Vasta äskettäin tehtiin muutamia töitä tälle ongelma-asetuspinnalle. Luokkaaktivointikartan (CAM) avulla pystyimme tunnistamaan lämpökartan, joka edustaa karkeasti kohteiden sijaintialueita, mutta myös lämpökartan huippuja, jotka edustavat eri kohteiden sijaintia.

Työtavat

Tässä osiossa kuvataan lyhyesti kahta kuvatason valvontaan perustuvaa kuvan segmentointimallia.

🔥 Empfohlen:  Kuinka myydä äänitiedostoja ja äänitehosteita verkossa

Segmentointi pseudotunnisteilla

Tätä menetelmää ovat ehdottaneet Issam H. Laradji et al., joka voi tehokkaasti harjoitella kuvatason tarroilla, jotka ovat paljon halvempia hankkia.

Pohjimmiltaan Weakly-supervised Instance SEgmentation -menetelmä (WISE) perustuu PRM-menetelmään (Probabilistic roadmap method) harjoittamalla täysin valvottua menetelmää, Mask R-CNN, sen pseudo-maskeilla. Koska Mask R-CNN on potentiaalisesti kestävä meluisille pseudo-maskeille ja näiden maskien sisällä olevat meluiset merkinnät voidaan jättää huomiotta harjoituksen aikana, koska ne eivät mahdollisesti ole korreloivia, tämä toimenpide on tehokas.

Alla on tämän menetelmän arkkitehtuuri, kun sitä opetetaan.

Lähde

Ensimmäinen komponentti (näkyy sinisellä yllä) oppii luokittelemaan tietojoukon kuvat. Luokitin luo ensin luokan aktivointikartan (CAM) ja käyttää sitten huippustimulaatiokerrosta (PSL) saadakseen CAM:n paikalliset maksimit. Luokitteluhäviö lasketaan käyttämällä näiden paikallisten maksimien keskiarvoa luokittelijan kouluttamiseen.

Koska CAM-huiput edustavat sijaitsevia objekteja, se valitsee ehdotuksen kullekin näistä objekteista pseudomaskien luomiseksi. Toinen komponentti (näkyy vihreällä) käyttää näitä pseudomaskejä maskin R-CNN:n kouluttamiseen.

Yhteenvetona voidaan todeta, että tämä lähestymistapa ilmentymien segmentointiin kuvatason valvonnalla koostuu kahdesta päävaiheesta: (1) hankitaan pseudo-maskit harjoituskuville perustuen niiden totuudenmukaisiin kuvatason nimikkeisiin; ja (2) kouluttaa täysin valvottu ilmentymien segmentointimenetelmä näille pseudomaskeille (näkyy yllä olevassa kuvassa).

Tämä kehys on rakennettu kahden komponentin ympärille: verkko, joka luo pseudomaskeja kouluttamalla PRM:n kuvatason nimikkeisiin ja hyödyntämällä objektiehdotusmenetelmiä, ja Mask R-CNN on täysin valvottu ilmentymien segmentointimenetelmä.

Segmentointi Pixel-tunnisteestimaattorilla

Gaurav Pandey et al on ehdottanut tätä mallia, joka oppii luomaan segmentointimaskeja pelkästään kuvatason tarroista ilman lokalisointivihjeitä tai näkyvyysmaskeja. CNN:n ulostulossa käytämme pikselitunnisteen häviötä sekä naapuruston häviötä. Koska todellisia pikselitunnisteita ei ole saatavilla, CNN-lähtö kartoitetaan apupikselitunnisteisiin likimääräisen segmentointimaskin saamiseksi.

Naapuruushäviö pakottaa ehdollisen satunnaiskentän asettamat rajoitukset CNN-ulostulolle, pakottaen sen luomaan selkeitä segmentointimaskeja, jotka ovat kohdakkain kohteen rajan kanssa.

🔥 Empfohlen:  Kuinka mitata Web Vitals -arvot tarkasti

Alla on tämän mallin arkkitehtuuri.

Lähde

Kuten yllä on esitetty, täysin konvoluutioverkkoa käytetään generoimaan jakauman ylisegmentointimaskit p(z|x) syöttökuvasta. Luodakseen qaux(z|x) pikselitunnisteestimaattori sisällyttää kuvatunnisteen tiedot jakaumaan.

Se pakottaa segmentointiverkon tuotoksen olemaan lähellä tätä päivitettyä jakelua. Samalla naapuruushäviö pakottaa segmentointiverkon tuotoksen olemaan lähellä naapureista laskettua jakelua.

Menettelyä voidaan tarkentaa. Segmentointiverkkoon syötetään kuva, ja tulos on jakauma kunkin pikselipaikan p(z|x) nimikkeiden yli. Tämä jakauma tunnetaan ennustetuksi jakaumana, koska se on ainoa, jota tarvitaan päättelyn aikana. Sen varmistamiseksi, että ennustettu jakauma on kelvollinen segmentointimaski syöttökuvalle.

Tämän seurauksena se aiheuttaa useita tappioita ennustetulle jakautumiselle. Erityisesti pikselitunnisteestimaattori sisällyttää kuva-merkintäinformaation ennustettuun jakaumaan jakauman muodostamiseksi pikselitason nimikkeiden qaux yli.

Koska todellisia pikselitason tunnisteita ei ole saatavilla, tätä jakaumaa voidaan pitää apupohjaisena totuutena. Apumaan totuutta käytetään segmentointiverkon kouluttamiseen. Seuraavaksi naapuriestimaattori laskee tasaisen version tuotosjakaumasta laskemalla naapureiden tulosten keskiarvon jokaiselle sijainnille.

Viimeiset sanat

Tämän postauksen kautta olemme keskustelleet kuvien segmentoinnista, jonka alla olemme nähneet mitä on semanttinen segmentointi, ilmentymien segmentointi ja tärkeimmät valvonnan tyypit, joita käytetään segmentointitehtävissä. Lopuksi keskustelimme kahdesta kuvan segmentointimenetelmästä, jotka perustuvat kuvatason valvontaan.

Ensimmäinen menetelmä käyttää kaksivaiheista liukuhihnaa kuvatason tarrakoulutukseen. Se käyttää luokan aktivointikarttoja, joissa on huippustimulaatiokerros ensimmäisessä vaiheessa. Toisessa vaiheessa Mask R-CNN:n avulla harjoitellaan pseudomaskeillä täysin valvotulla tavalla. Toinen malli perustuu kuvatason tarroihin ja heikosti valvottuun semanttiseen kuvan segmentointiin.

Viitteet