Seuraava artikkeli auttaa sinua: Idiootin opas vastakkaisiin hyökkäyksiin koneoppimisessa
Haitallinen koneoppiminen käyttää saatavilla olevia mallitietoja haitallisten hyökkäysten käynnistämiseen. Tällaiset vastakkaiset hyökkäykset yrittävät haitata luokittimien suorituskykyä tietyissä tehtävissä antamalla malleille vääriä tietoja.
Tällaisten hyökkäysten perimmäisenä tavoitteena on huijata malli antamaan arkaluontoisia tietoja, tekemään vääriä ennusteita tai korruptoimaan niitä.
Suurin osa kontradiktorista koneoppimista koskevaa tutkimusta on tehty kuvantunnistuksen alalla, jossa kuvia kaavoidaan tavalla, joka saa luokittelijan tekemään vääriä ennusteita.
Vastuulliset hyökkäykset tuottavat vääriä tietoja luokittajien pettämiseksi. Tällaiset syötteet on tarkoituksella suunniteltu aiheuttamaan ML-mallien virheitä. Ne ovat vioittuneita versioita kelvollisista tiedoista, jotka toimivat optisina illuusioina koneille.
Kun hyökkääjällä on pääsy kohdemalliin ja hän tietää sen arkkitehtuurin ja parametrit, sitä kutsutaan whitebox-hyökkäykseksi.
Vaihtoehtoisesti, kun hyökkääjällä ei ole pääsyä kohdemalliin ja hän voi toimia vain tarkkailemalla sen tuloksia, sitä kutsutaan blackbox-hyökkäykseksi.
Erityyppiset vastakkaiset hyökkäykset
Myrkytyskohtauksia esiintyy ML-järjestelmien harjoitteluvaiheessa. Ne “saastavat” tai “myrkyttävät” ML-mallien harjoitustiedot manipuloimalla olemassa olevaa dataa tai lyömällä vääriä tarroja. Tällaiset hakkerit toimivat todennäköisesti malleissa, joita koulutetaan jatkuvasti uudelleen. Esimerkiksi vahvistusoppimismalleja voidaan kouluttaa päivittäin tai kahdesti viikossa, jolloin hakkeri voi lisätä harhaanjohtavaa dataa harjoitustietoihin.
Väistämishyökkäykset ovat yleisimpiä (ja tutkituimpia) vihollisia hyökkäyksiä, ja ne tapahtuvat sen jälkeen, kun mallit on jo koulutettu. Hyökkäykset ovat yleensä käytännöllisempiä, koska ne suoritetaan käyttöönottovaiheessa. Niihin liittyy huomaamattomasti mallien ennusteiden tekemiseen käyttämien tietojen (ei harjoitustietojen) muuttaminen siten, että se näyttää oikeutetulta, mutta tekee vääriä ennusteita. Hyökkäykset käynnistetään usein yrityksen ja erehdyksen pohjalta, koska hyökkääjät eivät tiedä etukäteen, mikä tiedonkäsittely lopulta rikkoo ML-järjestelmän.
Evasiohyökkäykset liittyvät usein tietokonenäköön. Hyökkääjät voivat muokata kuvia ja huijata mallia tekemään vääriä ennusteita. Tämä toimii, koska kuvantunnistusmallit on koulutettu korreloimaan tietyn tyyppisiä pikseleitä aiottujen muuttujien kanssa: Jos pikselit räätälöidään tietyllä tavalla (kuten lisäämällä huomaamaton kohinakerros), se saa mallin muuttamaan ennustus. Tämä on uhka lääketieteellisille kuvantamisjärjestelmille, koska niitä voidaan huijata luokittelemaan hyvänlaatuinen myyrä pahanlaatuiseksi.
Mallivarastohyökkäykset on suunnattu jo koulutettuihin malleihin. Hyökkääjä tutkii mustan laatikon konejärjestelmän rakennetta ja koulutustietoja, joita voidaan sitten käyttää mallin rekonstruoimiseen tai mahdollisesti luottamuksellisten tietojen poimimiseen mallin koulutuksen saamiseen. Tällaisten hyökkäysten taustalla on yleensä taloudellinen hyöty.
Kuinka estää vastakkaiset hyökkäykset
Mahdollinen tapa vastustaa vastakkaisia hyökkäyksiä on kouluttaa ML-järjestelmiä oppimaan, miltä vastakkainen hyökkäys voi näyttää etukäteen, sisällyttämällä vastustavia esimerkkejä heidän koulutusprosessiinsa.
Toinen tapa on muokata säännöllisesti algoritmeja, joita ML-mallit käyttävät tietojen luokittelemiseen, jolloin luodaan “liikkuva kohde” algoritmien salaisuuden säilyttämiseksi.
ML-järjestelmien kehittäjien tulee olla tietoisia niihin liittyvistä riskeistä ja ottaa käyttöön turvatoimia tietojen ristiintarkistamista ja todentamista varten. Lisäksi sudenkuoppien välttämiseksi ennaltaehkäisevästi heidän tulisi yrittää usein korruptoida mallejaan havaitakseen mahdollisimman monet puutteet etukäteen.