Gekissimo.net - Opi ansaitsemaan rahaa webilläsi Internetissä!

Deepmind-tutkijat avoimen lähdekoodin TAPIR: Uusi tekoälymalli minkä tahansa pisteen seuraamiseen (TAP), joka seuraa tehokkaasti kyselypistettä videosekvenssissä

Seuraava artikkeli auttaa sinua: Deepmind-tutkijat avoimen lähdekoodin TAPIR: Uusi tekoälymalli minkä tahansa pisteen seuraamiseen (TAP), joka seuraa tehokkaasti kyselypistettä videosekvenssissä

Tietokonenäkö on yksi suosituimmista tekoälyn aloista. Tietokonenäön avulla kehitetyillä malleilla pystytään johtamaan mielekästä tietoa erityyppisistä medioista, olipa kyse sitten digitaalisista kuvista, videoista tai muista visuaalisista syötteistä. Se opettaa koneita havaitsemaan ja ymmärtämään visuaalista tietoa ja sitten toimimaan yksityiskohtien mukaan. Tietokonenäkö on ottanut merkittävän harppauksen eteenpäin ottamalla käyttöön uuden mallin nimeltä Tracking Any Point with frame Initialization and Temporal Refinement (TAPIR). TAPIR on suunniteltu seuraamaan tehokkaasti tiettyä kiinnostavaa kohdetta videojaksossa.

Google DeepMindin, VGG:n, Engineering Sciencen laitoksen ja Oxfordin yliopiston tutkijoiden kehittämä TAPIR-mallin takana oleva algoritmi koostuu kahdesta vaiheesta – sovitusvaiheesta ja tarkennusvaiheesta. Sovitusvaiheessa TAPIR-malli analysoi jokaisen videosekvenssikehyksen erikseen löytääkseen sopivan ehdokaspisteen vastaavuuden kyselypisteelle. Tämä vaihe pyrkii tunnistamaan kyselypisteen todennäköisimmän liittyvän pisteen kussakin kehyksessä, ja sen varmistamiseksi, että TAPIR-malli voi seurata kyselypisteen liikettä videon poikki, tämä toimenpide suoritetaan kehys kuvalta.

Sovitusvaihetta, jossa ehdokaspisteiden ottelut tunnistetaan, seuraa tarkennusvaiheen käyttö. Tässä vaiheessa TAPIR-malli päivittää sekä liikeradan, joka on kyselypisteen seuraama polku, että kyselyn ominaisuuksia paikallisten korrelaatioiden perusteella ja ottaa siten huomioon kunkin kehyksen ympäröivän tiedon parantaakseen kyselyn seurannan tarkkuutta ja tarkkuutta. kyselypiste. Jalostusvaihe parantaa mallin kykyä seurata tarkasti kyselypisteen liikettä ja mukautua videosekvenssin vaihteluihin integroimalla paikallisia korrelaatioita.

TAPIR-mallin arvioinnissa tiimi on käyttänyt TAP-Vid benchmarkia, joka on standardoitu videoseurantatehtävien arviointitietojoukko. Tulokset osoittivat, että TAPIR-malli toimii huomattavasti paremmin kuin perustekniikat. Suorituskyvyn parannusta on mitattu Average Jaccard (AJ) -nimisellä mittarilla, jonka perusteella TAPIR-malli on osoittanut saavuttavan noin 20 % absoluuttisen parannuksen AJ:ssa verrattuna muihin DAVIS (Densely Annotated Video Segmentation) -benchmarkin menetelmiin.

🔥 Empfohlen:  Kuinka Covid-19 voi vaikuttaa CoWorking-teollisuuteen Intiassa

Malli on suunniteltu helpottamaan pitkien videojaksojen nopeaa rinnakkaispäättelyä, eli se pystyy käsittelemään useita kehyksiä samanaikaisesti, mikä parantaa seurantatehtävien tehokkuutta. Tiimi on maininnut, että mallia voidaan soveltaa livenä, jolloin se voi käsitellä ja seurata pisteitä, kun uusia videoruutuja lisätään. Se voi seurata 256 pistettä 256 × 256 -videossa nopeudella noin 40 kuvaa sekunnissa (fps), ja sitä voidaan myös laajentaa käsittelemään korkeamman resoluution elokuvia, mikä antaa sille joustavuutta erikokoisten ja -laatuisten videoiden käsittelyssä.

Tiimi on toimittanut kaksi Google Colab -verkkodemoa, jotta käyttäjät voivat kokeilla TAPIRia ​​ilman asennusta. Ensimmäisen Colab-demon avulla käyttäjät voivat käyttää mallia omissa videoissaan, mikä tarjoaa interaktiivisen kokemuksen mallin suorituskyvyn testaamiseen ja tarkkailuun. Toinen demo keskittyy TAPIRin käyttämiseen verkossa. Lisäksi käyttäjät voivat käyttää TAPIR-ohjelmaa livenä seuraamalla pisteitä omissa web-kameroissaan modernilla GPU:lla kloonaamalla toimitetun koodikannan.