Seuraava artikkeli auttaa sinua: Kuinka visualisoida ML-mallin suorituskyky Scikit-Plotilla?
Koneoppimismenetelmissä visualisointi on tärkeä askel, joka auttaa datatieteilijöitä ymmärtämään ja ymmärtämään, miten prosessi etenee. EDA:sta puhuttaessa löydämme erilaisia kirjastoja ja työkaluja, jotka auttavat ymmärtämään dataa, mutta mallin tulosten ja suorituskyvyn visualisoinnissa saatamme joutua käyttämään pitkiä koodeja ja joskus se on vaikeaa. Scikit-plot on kirjasto, joka on suunniteltu kuvaamaan mallin tuloksia ja suorituskykyä. Tässä artikkelissa aiomme keskustella Scikit-plot-kirjastosta. Tärkeimmät artikkelissa käsiteltävät kohdat on lueteltu alla.
Sisällysluettelo
- Mikä on Scikit-juoni?
- Scikit-Plotin eri moduulit
- Mittarimoduuli
- Arviointimoduuli
- Klusteri moduuli
- Hajotusmoduuli
Aloitetaan ymmärtämällä, mikä Scikit-juoni on.
Mikä on Scikit-juoni?
Kuten nimestä voi päätellä, Scikit-plot on paketti, joka auttaa meitä visualisointiprosessissa. Koska visualisoinnilla on ratkaiseva rooli datatieteen prosessien elämässä, tarvitsemme aina joitain kirjastoja, jotka voivat auttaa meitä tekemään mielekkäitä visualisointeja. visualisointi ei ole tarkoitettu vain datatieteen prosessiin, vaan sitä voidaan hyödyntää kaikilla dataan liittyvillä aloilla. Tämän kirjaston avulla voimme piirtää mallimme erittäin nopeasti ja kauniisti.
Syy, miksi pidän tätä kirjastoa hyödyllisenä, on se, että voimme helposti piirtää mallien suorituskyvyn järjestelmällisesti. Tästä kirjastosta löytyy pääasiassa neljän tyyppisiä moduuleja:
- Mittarimoduulit – nämä moduulit auttavat piirtämään koneoppimisen arviointimittareita, kuten sekavuusmatriisi, siluettipisteet jne.
- Estimaattorimoduulit – nämä moduulit auttavat piirtämään scikit-learn estimaattoriinstanssia, esimerkiksi satunnaisia metsä- ja tukivektorikoneita.
- Klusterimoduuli – näiden moduulien avulla voimme piirtää klusteriinstanssit esimerkiksi scikit-learn -keinoista.
- Dekompositiomoduuli – nämä moduulit on suunniteltu piirtämään scikit learningin estimaattorit, jotka auttavat dimensioitumisen vähentämisessä.
Voimme asentaa scikit-plot ympäristöömme käyttämällä seuraavia koodirivejä.
!pip install scikit-plot
Etsitkö täydellistä arkistoa tietotieteessä käytettävistä Python-kirjastoista, katso tästä.
Scikit-Plotin eri moduulit
Asennuksen jälkeen olemme valmiita käyttämään tätä kirjastoa. Tässä artikkelissa näemme esimerkin jokaisesta kirjaston moduuliluokasta.
Aloitetaan mittausmoduuleista.
Mittarimoduuli
Tässä osiossa yritämme tehdä kaavion mallin tuloksista käyttämällä kumulatiivista vahvistusta. Tätä varten meidän on määritettävä malli ja sovitettava se joihinkin tietoihin. Alla olevan koodin avulla voimme suorittaa tämän.
from sklearn.ensemble import RandomForestClassifier osoitteesta sklearn.datasets import load_breast_cancer from sklearn.datasets import load_iris X, y = load_breast_cancer(return_X_y=True) rf = RandomForestClassifier() X,y)t
Lähtö:
Ennustetaan mallin avulla
probas = rf.predict_proba(X)
Nyt olemme valmiita käyttämään scikit-plottia kumulatiivisen vahvistuksen kuvaamiseen metriikan avulla. Kumulatiivinen voitto auttaa mittaamaan sijoituksen laatua. Piirretään se mallillemme.
tuonti matplotlib.pyplot muodossa plt tuo scikitplot muodossa skplt skplt.metrics.plot_cumulative_gain(y_true=y, y_probas=probas) plt.show()
Lähtö:
Tässä voimme nähdä, että meidän on lisättävä vain yksi tai kaksi riviä koodeja vakiokoodeihin visualisoidaksemme mallin tulokset.
Arviointimoduuli
Nämä moduulit ovat pohjimmiltaan arvioimaan mallin tuloksia. Voimme esimerkiksi tarkastella ominaisuuden tärkeyttä tietojoukosta tai piirtää oppimiskäyrän, jotta tiedämme, kuinka malli on parantunut tietojen avulla.
Yllä annetulle mallille voimme piirtää oppimiskäyrän käyttämällä seuraavaa koodiriviä.
import scikitplot.estimators nimellä esti tuonti matplotlib.pyplot nimellä plt esti.plot_learning_curve(rf, X, y) plt.show()
Lähtö:

Löydämme lisää tämän moduulin toimintoja täältä.
Klusteri moduuli
Nämä moduulit auttavat visualisoimaan scikit-oppimisklusterimallien tulokset. Voimme käyttää klusterimalleja myös ulkopuolelta, mutta näissä moduuleissa on tiettyjä toimintoja scikit-learn-malleille. Tässä osiossa tarkastellaan, kuinka voimme piirtää kyynärkäyrät scikit-learnin K-means-klusterin määrittelemille klusteille iiristietojoukossa. Määritellään malli.
sklearn.clusterista tuonti KMeans kohteesta sklearn.datasets tuonti load_iris muodossa load_data X, y = load_data(return_X_y=True) kmeans = KMeans(random_state=1)
Piirretään kyynärpääkäyrä
tuo scikitplot muodossa skplt tuonti matplotlib.pyplot muodossa plt %pylab inline pylab.rcParams[‘figure.figsize’] = (14, 14) skplt.cluster.plot_elbow_curve(kmmeans, X, cluster_ranges=range(1, 11)) plt.show()
Lähtö:

Tässä näemme kyynärkäyrän K-keskiarvojen klusteroinnille iirisdatalle, jossa se on luonut dataan 10 klusteria. Lisätietoja sen sisällä olevista moduuleista ja toiminnoista löytyy täältä.
Hajotusmoduuli
Näissä moduuleissa on toimintoja mittojen pienentämiseen käytettyjen mallien piirtämiseen. Katsotaanpa, kuinka voimme piirtää PCA:n komponenttivarianssin käyrän iiristietojoukolle.
PCA-mallin teko
from sklearn.decomposition import PCA pca = PCA(random_state=1) pca.fit(X)
PCA-komponentin varianssin piirtäminen.
skplt.decomposition.plot_pca_component_variance(pca) plt.show()
Lähtö:

Tässä näemme kuinka voimme käyttää näitä moduuleja PCA:n komponenttivarianssin piirtämiseen. Voimme myös piirtää datapisteet 2D-projektiossa tällä moduulilla. Lisätietoja moduulista löytyy täältä.
Viimeiset sanat
Tässä artikkelissa olemme keskustelleet scikit-plot-kirjastosta, joka on suunniteltu piirtämään mallin tulokset. Tämän ohella olemme tarkastelleet joitain esimerkkejä, joita voidaan hyödyntää mallin tulosten selittämisessä.