Seuraava artikkeli auttaa sinua: Meta AI esittelee vallankumouksellisen I-JEPAn: uraauurtavan harppauksen tietokonenäössä, joka jäljittelee ihmisten ja eläinten oppimista ja päättelyä
Ihminen poimii valtavan määrän taustatietoa maailmasta pelkästään katsomalla sitä. Meta-tiimi on viime vuodesta lähtien työskennellyt sellaisten tietokoneiden kehittämisessä, jotka voivat oppia sisäisiä malleja maailman toiminnasta, jotta ne voivat oppia paljon nopeammin, suunnitella kuinka tehdä haastavia töitä ja sopeutua nopeasti uusiin olosuhteisiin. Jotta järjestelmä olisi tehokas, nämä esitykset on opittava suoraan merkitsemättömästä syötteestä, kuten kuvista tai äänistä, eikä manuaalisesti koottujen merkittyjen tietojoukkojen perusteella. Tämä oppimisprosessi tunnetaan itseohjautuvana oppimisena.
Generatiivisia arkkitehtuureja koulutetaan peittämällä tai poistamalla osia mallin harjoittamiseen käytetystä tiedosta. Tämä voidaan tehdä kuvalla tai tekstillä. Sitten he tekevät valistuneita arvauksia siitä, mitkä pikselit tai sanat puuttuvat tai ovat vääristyneitä. Generatiivisten lähestymistapojen suuri haittapuoli on kuitenkin se, että malli yrittää täyttää tiedon aukot todellisen maailman luontaisesta epävarmuudesta huolimatta.
Metan tutkijat ovat juuri julkistaneet ensimmäisen tekoälymallinsa. Vertaamalla kuvien abstrakteja esityksiä (pikseleiden itsensä sijaan), niiden Image Joint Embedding Predictive Architecture (I-JEPA) voi oppia ja kehittyä ajan myötä.
Tutkijoiden mukaan JEPA on vapaa vääristymistä ja ongelmista, jotka vaivaavat invarianssipohjaista esikoulutusta, koska se ei sisällä useiden kuvan näkymien/lisäysten esittämien esitysten romahtamista yhteen pisteeseen.
I-JEPAn tavoitteena on täyttää tiedon puutteita käyttämällä esitystä, joka on lähempänä yksilöiden ajattelua. Ehdotettu usean lohkon maskausmenetelmä on toinen tärkeä suunnitteluvaihtoehto, joka auttaa ohjaamaan I-JEPAa kehittämään semanttisia esityksiä.
I-JEPAn ennustajaa voidaan pitää rajallisena primitiivisenä maailmanmallina, joka pystyy kuvaamaan tilaepävarmuutta still-kuvassa rajoitetun kontekstuaalisen tiedon perusteella. Lisäksi tämän maailmanmallin semanttinen luonne mahdollistaa sen, että se voi tehdä päätelmiä aiemmin tuntemattomista kuvan osista sen sijaan, että luottaisi pelkästään pikselitason tietoihin.
Nähdäkseen mallin tulokset, kun niitä pyydettiin ennustamaan sinisen laatikon sisällä, tutkijat kouluttivat stokastisen dekooderin, joka siirtää I-JEPAn ennustetut esitykset takaisin pikseliavaruuteen. Tämä laadullinen analyysi osoittaa, että malli voi oppia visuaalisten objektien globaaleja esityksiä menettämättä jälkeä siitä, missä kyseiset objektit ovat kehyksessä.
I-JEPAn esikoulutus kuluttaa vähän laskentaresursseja. Se ei vaadi monimutkaisempien tietojen lisäysten soveltamista erilaisten näkökulmien tarjoamiseen. Tulokset viittaavat siihen, että I-JEPA voi oppia vankat, valmiiksi rakennettuja semanttisia esityksiä ilman mukautettuja näkymän parannuksia. Lineaarinen luotaus ja puolivalvottu arviointi ImageNet-1K:ssa päihittää myös pikseli- ja token-rekonstruktiotekniikat.
Verrattuna muihin semanttisten tehtävien esikoulutusmenetelmiin, I-JEPA pitää paikkansa huolimatta siitä, että se luottaa manuaalisesti tuotettuihin tiedon lisäyksiin. I-JEPA ylittää nämä lähestymistavat perusnäön tehtävissä, kuten esineiden laskennassa ja syvyyden ennustamisessa. I-JEPA on mukautettavissa useampaan skenaarioon, koska se käyttää vähemmän monimutkaista mallia joustavammalla induktiivisella biasilla.
Tiimi uskoo, että JEPA-malleilla on potentiaalia käyttää luovasti sellaisilla aloilla, kuten videotulkinta on varsin lupaavaa. Tällaisten itseohjattujen lähestymistapojen käyttö ja laajentaminen laajan maailmanmallin kehittämiseen on valtava edistysaskel.