Gekissimo.net - Opi ansaitsemaan rahaa webilläsi Internetissä!

Miten suurimman todennäköisyyden arviointia käytetään koneoppimisessa?

Seuraava artikkeli auttaa sinua: Miten suurimman todennäköisyyden arviointia käytetään koneoppimisessa?

Maximum Likelihood Estimation (MLE) on todennäköisyyspohjainen lähestymistapa mallin parametrien arvojen määrittämiseen. Parametrit voidaan määritellä mallin suunnitelmiksi, koska niiden perusteella algoritmi toimii. MLE on laajalti käytetty tekniikka koneoppimisessa, aikasarjoissa, paneelidatassa ja diskreetissä datassa. MLE:n motiivi on maksimoida parametrin arvojen todennäköisyys saada halutut tulokset. Seuraavassa on käsiteltävät aiheet.

Sisällysluettelo

  1. Mikä on todennäköisyys?
  2. Maksimitodennäköisyyden arviointi
  3. Maksimitodennäköisyysarvio koneoppimisessa

Ymmärtääksesi maksimaalisen todennäköisyyden arvioinnin (MLE) käsitteen sinun on ensin ymmärrettävä todennäköisyyden käsite ja miten se liittyy todennäköisyyteen.

Mikä on todennäköisyys?

Todennäköisyysfunktio mittaa, missä määrin data tukee parametrin eri arvoja. Se osoittaa, kuinka todennäköistä on, että tietty populaatio tuottaa näytteen. Jos esimerkiksi vertaamme todennäköisyysfunktiota kahden parametrin pisteissä ja huomaamme, että ensimmäisen parametrin todennäköisyys on suurempi kuin toisen, se voidaan tulkita ensimmäisen parametrin olevan oppijalle uskottavampi arvo kuin toinen parametri. Todennäköisemmin voitaisiin sanoa, että se käyttää hypoteesia tuloksen päättämiseen. Sekä säännöllisissä että bayesilaisissa analyyseissä otetaan huomioon todennäköisyysfunktio. Todennäköisyysfunktio eroaa todennäköisyystiheysfunktiosta.

Ero todennäköisyys- ja todennäköisyystiheysfunktion välillä

Todennäköisyys kuvaa, kuinka löytää tiedosta paras mahdollinen datan jakautuminen jollekin ominaisuudelle tai tietylle tilanteelle tiedosta tietyn ominaisuuden tai tilanteen tietyllä arvolla, kun taas todennäköisyys kuvaa, kuinka löytää mahdollisuus jollekin datan näytejakaumalla. Ymmärretään esimerkin avulla ero todennäköisyys- ja todennäköisyystiheysfunktion välillä.

Harkitse tietojoukkoa, joka sisältää asiakkaiden painon. Oletetaan, että tietojen keskiarvo on 70 ja keskihajonta 2,5.

Kun todennäköisyys on laskettava jollekin tilanteelle tätä tietojoukkoa käyttäen, tietojoukon keskiarvo ja keskihajonna ovat vakioita. Oletetaan, että aineiston satunnaiselle tietueelle on laskettava painon > 70 kg todennäköisyys, jolloin yhtälö sisältää painon, keskiarvon ja keskihajonnan. Samaa tietojoukkoa silmällä pitäen, jos nyt täytyy laskea painon todennäköisyys > 100 kg, niin vain yhtälön korkeusosa muutetaan ja loput pysyisivät ennallaan.

🔥 Empfohlen:  Miten Gaotu Techedun osakkeen arvo putosi – yritys, joka teki kiinalaisesta opettajasta miljardöörin?

Mutta Likelihoodin tapauksessa ehdollisen todennäköisyyden yhtälö kääntyy verrattuna todennäköisyyslaskelman yhtälöön eli aineiston keskiarvoon ja keskihajontaan muutetaan niin, että saadaan maksimitodennäköisyys painolle > 70 kg.

Etsitkö täydellistä arkistoa tietotieteessä käytettävistä Python-kirjastoista, katso tästä.

Maksimitodennäköisyyden arviointi

Todennäköisyysarvioinnin maksimointi on MLE:n päätavoite. Ymmärretään tämä esimerkin avulla. Oletetaan, että on olemassa binääriluokitusongelma, jossa meidän on luokiteltava tiedot kahteen luokkaan joko 0 tai 1 “palkka”-nimisen ominaisuuden perusteella.

Joten MLE laskee mahdollisuuden jokaiselle palkan tietopisteelle ja käyttää sitten tätä mahdollisuutta, se laskee näiden tietopisteiden todennäköisyyden luokitella ne joko 0:ksi tai 1:ksi. Se toistaa tämän todennäköisyysprosessin, kunnes oppijan rivi on paras. asennettu. Tämä prosessi tunnetaan todennäköisyyden maksimoimisena.

Yllä oleva selittää skenaarion, kuten näemme, kynnys on 0,5, joten jos mahdollisuus osoittautuu sitä suuremmiksi, se merkitään 1:ksi, muuten 0. Katsotaan kuinka MLE:tä voitaisiin käyttää luokitukseen.

Maksimitodennäköisyysarvio koneoppimisessa

MLE on perusta monille ohjatuille oppimismalleille, joista yksi on logistinen regressio. Logistisen regression maksimitodennäköisyyden tekniikka tietojen luokittelemiseksi. Katsotaanpa kuinka logistinen regressio käyttää MLE:tä. Tietyillä MLE-menettelyillä on se etu, että ne voivat hyödyntää estimointiongelman ominaisuuksia paremman tehokkuuden ja numeerisen vakauden aikaansaamiseksi. Näillä menetelmillä voidaan usein laskea eksplisiittiset luottamusvälit. Logistisen regression parametria “ratkaisija” käytetään erilaisten ratkaisustrategioiden valitsemiseen luokittelua varten paremman MLE-formuloinnin saavuttamiseksi.

Tuo kirjasto:

import numpy as np tuonti pandat pd:nä tuonti seaborn as sns from sklearn.linear_model import LogisticRegression from sklearn.model_selection import train_test_split from sklearn import preprocessing

Lue tiedot:

df=pd.read_csv(“Social_Network_Ads.csv”) df.head()

Tiedot liittyvät sosiaalisen verkoston mainoksiin, joissa on kyseisen sosiaalisen verkoston käyttäjien sukupuoli, ikä ja arvioitu palkka. Sukupuoli on kategorinen sarake, joka on merkittävä koodatuksi ennen tietojen syöttämistä oppijalle.

Tietojen koodaus:

le = esikäsittely.LabelEncoder() df[‘gender’]=le.fit_transform(df[‘Gender’])

Koodatut tulokset tallennetaan uuteen ominaisuuteen nimeltä “sukupuoli”, jotta alkuperäinen säilyy muuttumattomana. Jaa tiedot koulutukseen ja testaamaan oppijan koulutusta ja validointia.

🔥 Empfohlen:  Kuinka tienata 1000 dollaria 24 tunnissa

Tietojen jakaminen:

X=df.drop([‘Purchased’,’Gender’],akseli=1) y=df[‘Purchased’]
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0,30, random_state=42)

Tämä on jaettu suhteeseen 70:30 vakiosääntöjen mukaisesti.

Datan sovittaminen oppijaan:

lr=Logistinen regressio(max_iter=100,ratkaisu=”lbfgs”) lr.fit(X_train,y_train) lr_pred=lr.predict(X_test) df_pred=pd.merge(X_test,pd.DataFrame(lrn_s=colum)[‘predicted’]),left_index=True,right_index=True)

Ennustetut tulokset lisätään testitietojoukkoon ‘ennustettu’ -ominaisuuden alle.

Piirrä oppijan viiva:

sns.regplot(x=”Ikä”, y=’ennustettu’,data=df_pred ,logistic=True, ci=Ei mitään)

Yllä olevassa kaaviossa, joka on piirteen iän ja ennusteen välissä, oppijaviiva muodostetaan käyttämällä maksimitodennäköisyyden estimoinnin periaatetta, mikä auttoi logistista regressiomallia luokittelemaan tulokset. Joten taustaalgoritmi valitsee iän mukaan skaalatun todennäköisyyden havainnointiin “1” ja käyttää tätä laskeakseen “0”:n havainnoinnin todennäköisyyden. Tämä koskee kaikkia datapisteitä ja lopulta se moninkertaistaa kaikki rivillä annettujen tietojen todennäköisyydet. Tätä kertolaskuprosessia jatketaan, kunnes suurinta todennäköisyyttä ei löydy tai parasta sopivaa viivaa ei löydy.

Viimeiset sanat

Suurimman todennäköisyyden lähestymistapa tarjoaa jatkuvan lähestymistavan parametrien estimointiin sekä matemaattisia ja optimoitavia ominaisuuksia. Kun käytämme tätä käsitettä tässä artikkelissa, voimme ymmärtää, kuinka suurimman todennäköisyyden arviointi toimii ja kuinka sitä käytetään luokittelun logistisen regression selkärankana.

Viitteet