Seuraava artikkeli auttaa sinua: 10 koneoppimismallien arviointimetriikkaa
Koneoppimismallin rakentaminen ei ole yksittäistapaus. Et ehkä tiedä, toimiiko rakennettu malli edes, tai jos toimii, toimiiko se odotetusti. Tällaisten mallien rakentaminen toimii periaatteella, että saadaan palautetta mittarista, toteutetaan oikeat parannukset ja rakennetaan uudelleen täydellisen halutun tarkkuuden saavuttamiseksi.
Oikean mittarin valitseminen mallin suorituskyvyn ja tarkkuuden arvioimiseksi on kuitenkin tehtävä sinänsä. Joten kun olet valmis ennustamaan, luokitteluun tai regressiomalliisi, tässä on luettelo arviointimittareista, jotka voivat auttaa sinua testaamaan mallin tarkkuutta ja konkreettisuutta.
Hämmennysmatriisi
Yksinkertaisesti se on 2 × 2 -kokoinen matriisi binääriluokitukseen, jossa yksi akseli koostuu todellisista arvoista ja toinen ennustearvoista. Matriisin koko voi kasvaa riippuen ennustettavien luokkien määrästä.
Muutoin “virhematriisina” tunnettu taulukkomuotoinen visuaalinen esitys mallin ennusteista pohjatotuusmerkintöjä vastaan.
Tosi positiivista on mallin oikea positiivinen ennuste.
Todellinen negatiivinen on mallin oikea negatiivinen ennuste.
Väärä positiivinen on mallin väärä ennuste positiivisesta.
Väärä negatiivinen on mallin väärä negatiivinen ennuste.
Näillä arvoilla voimme laskea kunkin ennusteluokan nopeuden yksinkertaisella yhtälöllä.

Luokituksen tarkkuus
Yksinkertaisin mittari, se lasketaan jakamalla oikeiden ennusteiden lukumäärä ennusteiden kokonaismäärällä, kerrottuna 100:lla.

Tarkkuus / spesifisyys
Jos luokkajakauma on epätasapainoinen, luokittelutarkkuus ei ole paras mallin suorituskyvyn indikaattori. Luokkakohtaisen ongelman ratkaisemiseksi tarvitsemme tarkkuusmittarin, joka lasketaan Todelliset positiiviset jaettuna todellisten positiivisten ja väärien positiivisten summalla.

Muistutus/herkkyys
Recall on osa yhden luokan näytteitä, jotka malli ennustaa oikein. Sen laskee Todelliset positiiviset jaettuna todellisten positiivisten ja väärien negatiivisten summalla.

Napsauta tätä lukeaksesi lisää luokitteluongelmien arviointimittareista.
F1-pisteet
Nyt kun tiedämme, mitä tarkkuus ja muistaminen ovat luokitteluongelmissa, laskea molemmat samanaikaisesti – F1, molempien harmoninen keskiarvo, joka toimii myös hyvin epätasapainotietojoukossa.

Kuten yllä olevasta yhtälöstä näkyy, F1-pisteet antavat molemmille saman tärkeyden – muistamisen ja tarkkuuden. Jos haluamme antaa enemmän painoarvoa jollekin niistä, F1-pisteet voidaan laskea liittämällä arvo joko takaisinkutsuun tai tarkkuuteen sen mukaan, kuinka monta kertaa arvo on tärkeä. Alla olevassa yhtälössä β on painotus.

AUC – ROC
Käyrän alla oleva pinta-ala (AUC) on riippumaton vastaajien osuuden muutoksista. Kun saamme sekavuusmatriisin, joka tuottaa eri arvon jokaiselle todennäköisyysmallissa olevalle metriikalle eli kun jokaiselle palautukselle (herkkyydelle), saamme erilaisen tarkkuuden (spesifisyys) – voimme piirtää vastaanottimen toimintakäyrän (ROC) ja etsi käyrän alla oleva alue alla olevan kuvan mukaisesti.

Koska pinta-ala lasketaan akselin väliltä, se on aina välillä 0 ja 1. Mitä lähempänä arvoa 1, sitä parempi malli on.
Root Mean Square Error (RMSE)
Yksi suosituimmista regressioongelmissa käytetyistä mittareista, RMSE olettaa, että esiintyvät virheet ovat puolueettomia ja noudattavat normaalijakaumaa. Mitä suurempi näytteiden määrä on, sitä luotettavampi on virhejakauman rekonstruointi RMSE:n kautta. Mittarin yhtälö saadaan seuraavasti:

Napsauta tätä saadaksesi tarkemman selityksen erilaisista arviointimittareista.
Cross-entropy Loss
Muutoin nimellä ‘logihäviö’ tunnettu Cross-entropy loss on kuuluisa syvien hermoverkoissa, koska se voittaa katoavat gradienttiongelmat. Se lasketaan summaamalla väärin luokiteltujen datapisteiden ennusteen todennäköisyysjakauman logaritminen arvo.

Gini-kerroin
Luokitteluongelmiin käytetty Gini-kerroin on johdettu AUC – ROC-numerosta. Se on ROC-käyrän ja diagonaaliviivan välinen suhde. Jos Gini-kerroin on yli 60%, mallia pidetään hyvänä. Tähän käytetyt kaavat ovat:
Gini = 2*AUC – 1
Jaccard Pisteet
Jaccard-pisteet ovat kahden tietojoukon samankaltaisuusindeksin mitta. Pisteet lasketaan välillä 0 ja 1, jolloin 1 on paras. Jaccard-pisteen laskemiseksi etsimme molempien sarjojen havaintojen kokonaismäärän ja jaamme ne kummankin joukon havaintojen kokonaismäärällä.
J(A, B) = |A∩B| / |A∪B|
Tässä on käytännön opas koneoppimismallien arviointimittareihin.