Gekissimo.net - Opi ansaitsemaan rahaa webilläsi Internetissä!

Mikä on bias-varianssihajotelma ja milloin sitä käytetään?

Seuraava artikkeli auttaa sinua: Mikä on bias-varianssihajotelma ja milloin sitä käytetään?

Bias-varianssihajotelma on hyödyllinen teoreettinen työkalu oppimisalgoritmin suorituskykyominaisuuksien ymmärtämiseen. Tietyillä algoritmeilla on suuri poikkeama ja pieni varianssi suunnittelun mukaan ja päinvastoin. Bias-varianssi on vähennettävä virhe, tässä artikkelissa ymmärrämme käsitteen tapoilla hajottaa keskimääräinen neliövirhe. Seuraavassa on käsiteltävät aiheet.

Sisällysluettelo

  1. Mikä on Bias-Variance Decomposition?
  2. Milloin Bias-Variance Decomposition käytetään?
  3. Miten tämä Bias-Variance-hajotelma toimii?

Kuten nimestä voi päätellä, on otettava huomioon kaksi tärkeää tekijää: harha ja varianssi. Ymmärretään niitä.

Mikä on Bias-Variance Decomposition?

Bias määritellään erona ML-mallin arvojen ennusteen ja oikean arvon välillä. Painottaminen aiheuttaa huomattavan epätarkkuuden sekä koulutus- että testausdatassa. Aliasovitusongelman estämiseksi on suositeltavaa, että algoritmi on aina vähän biasoitunut.

Etsitkö täydellistä arkistoa tietotieteessä käytettävistä Python-kirjastoista, katso tästä.

Suurella harhalla ennustettu data on suoraviivaisessa muodossa, mikä ei sovi tietojoukon dataan riittävästi. Tietojen alisovitus on termi, jota käytetään kuvaamaan tämäntyyppistä sovitusta. Tämä tapahtuu, kun teoria on muodoltaan liian yksinkertaistettu tai lineaarinen.

Mallin varianssi on mallin ennusteen vaihtelu tietylle datapisteelle, joka kertoo meille datan hajoamisesta. Suuren varianssin mallilla on erittäin monimutkainen sovitus harjoitustietoihin, joten se ei pysty sovittamaan oikein uuteen dataan.

Tämän seurauksena, vaikka tällaiset mallit toimivat hyvin harjoitustiedoissa, niillä on suuria virheprosentteja testitiedoissa. Kun mallissa on suuri varianssi, tätä kutsutaan tietojen ylisovitukseksi. Vaihtelu tulisi vähentää minimiin tietomallin opetuksen aikana.

Bias ja varianssi liittyvät negatiivisesti toisiinsa, joten on olennaisen vaikeaa saada ML-mallia, jossa on sekä pieni poikkeama että pieni varianssi. Kun muutamme ML-menetelmää vastaamaan paremmin tiettyä tietojoukkoa, se vähentää harhaa, mutta lisää varianssia. Tällä tavalla malli sopii tietojoukkoon samalla kun se lisää virheellisten ennusteiden todennäköisyyttä.

🔥 Empfohlen:  Jasper vs Copy AI – Kumpi on parempi sijoittuvan tekoälysisällön luomiseen?

Sama pätee kehitettäessä pienen varianssin mallia, jossa on suurempi harha. Malli ei täysin sovi tietojoukkoon, vaikka se pienentää virheellisten ennusteiden todennäköisyyttä. Seurauksena on herkkä tasapaino harhojen ja varianssien välillä.

Milloin bias-varianssihajotelmaa käytetään?

Koska harha ja varianssi liittyvät ali- ja ylisovitukseen, häviön hajottaminen harhaan ja varianssiin auttaa meitä ymmärtämään oppimisalgoritmeja. Ymmärretään tiettyjä ominaisuuksia.

  • Matala bias: On taipumus ehdottaa vähemmän vaikutuksia kohdefunktion muotoon.
  • Korkea bias: Ehdottaa lisäoletuksia kohdefunktion muodosta.
  • Pieni varianssi: Ehdottaa pieniä muutoksia tavoitefunktion arvioon, kun harjoitustietojoukko muuttuu.
  • Suuri varianssi: Ehdottaa, että muutokset harjoitustietojoukossa aiheuttavat huomattavia vaihteluita tavoitefunktion arviossa.

Teoriassa mallin biasin ja varianssin tulisi olla alhainen, mutta tätä on mahdotonta saavuttaa. Optimaalinen poikkeama ja varianssi ovat siis hyväksyttäviä. Lineaarisilla malleilla on pieni varianssi, mutta suuri bias ja epälineaarisilla malleilla on pieni bias mutta suuri varianssi.

Miten tämä toimii?

Koneoppimisalgoritmin kokonaisvirheessä on kolme komponenttia: bias, varianssi ja kohina. Joten hajoaminen on kokonaisvirheen johtamisprosessi, tässä tapauksessa otamme Mean Squared Error (MSE) -virheen.

Kokonaisvirhe = Bias2 + Varianssi + Kohina

Oletetaan, että meillä on regressioongelma, jossa otamme vektoreita ja yritämme tehdä ennusteita yhdestä arvosta. Oletetaan tällä hetkellä, että tiedämme absoluuttisen oikean vastauksen riippumattomaan satunnaiskohinaan asti. Kohinan tulee olla riippumaton mistä tahansa vektorille ominaisesta satunnaisuudesta ja sen keskiarvon tulee olla nolla, jotta funktio on paras mahdollinen arvaus.

Yllä olevassa funktiossa “R(h)”, joka on algoritmin kustannusfunktio, joka tunnetaan myös riskifunktiona. Kun riskifunktio on tappio, se on neliövirhe. Odotettu funktio, jota edustaa “E” yllä olevassa yhtälössä, sisältää satunnaismuuttujat. Laske hypoteesin ”h” todennäköisyysjakaumien keskiarvo.

Tiedot x ja y johdetaan todennäköisyysjakaumasta, jolla oppijaa koulutetaan. Koska painot valitaan harjoitustietojen perusteella, myös h:n määrittävät painot saadaan todennäköisyysjakaumasta. Tämän jakauman määrittäminen voi olla vaikeaa, mutta se on olemassa. Odotusfunktio konsolidoi kaikkien mahdollisten painoarvojen häviöt.

🔥 Empfohlen:  Mikä on Cost per Lead (CPL) ja miksi sinun pitäisi seurata sitä?

Kuvan lähde

Yllä olevassa kuvassa kaiken matemaattisen johtamisen jälkeen voimme havaita, että viimeinkin kolme komponenttia ovat johdettu bias, varianssi ja redusoitumaton virhe tai kohina.

Ymmärretään tämä esimerkin avulla.

Tässä esimerkissä yritämme sovittaa siniaaltoa viivoilla, jotka eivät selvästikään ole realistisia. Vasemmalla tuotimme 50 erillistä riviä. Punainen viiva oikeassa yläkulmassa edustaa odotettua hypoteesia, joka on äärettömän monien mahdollisuuksien keskiarvo. Musta käyrä kuvaa testipaikat yhdessä todellisen funktion kanssa.

Koska viivat eivät täsmää hyvin siniaalloille, huomaamme, että useimmissa testipisteissä on huomattava poikkeama. Tässä harha on mustan ja punaisen käyrän välinen erotus.

Joissakin testipaikoissa on kuitenkin pieni poikkeama, jossa siniaalto ylittää punaisen viivan. Keskellä oleva varianssi edustaa satunnaisen mustan viivan ja punaisen viivan ennustettua neliöeroa. Pelkistymätön virhe on satunnaisen testipisteen ja siniaallon välinen ennustettu neliöero.

Johtopäätös

Emme voi laskea todellista harha- ja varianssivirhetermejä, koska emme tiedä taustalla olevaa kohdefunktiota. Siitä huolimatta harha ja varianssi antavat paradigmana työkalut koneoppimisalgoritmien käyttäytymisen ymmärtämiseen niiden pyrkiessä ennustamaan suorituskykyä. Tämän artikkelin avulla olemme oppineet harhan ja varianssin hajoamisen teoreettisen puolen mallin suorituskyvyn oppimiseksi.

Viitteet