Gekissimo.net - Opi ansaitsemaan rahaa webilläsi Internetissä!

Opas päästä päähän poikkeamien havaitsemiseen PyFBAD:n avulla

Seuraava artikkeli auttaa sinua: Opas päästä päähän poikkeamien havaitsemiseen PyFBAD:n avulla

Pohjimmiltaan poikkeamien havaitsemisessa etsimme havaintoja, jotka poikkeavat normista, jotka joko ylittävät tai seuraavat sen, mitä olemme havainneet tai määritellyt normaaliksi. Poikkeamien havaitseminen tarjoaa siis etuja sekä liiketoiminnasta että teknisestä näkökulmasta. Anomalian suorittamiseksi on turvauduttava työkaluihin, kuten SciKit Learn. Kuitenkin, kun kyse on päästä päähän -tehtävien suorittamiseen, vaihtoehtoja on vain muutama, kuten PyFBAD, Python-pohjainen paketti. Alusta alkaen voimme ladata tietoja eri hajautetuilta palvelimilta suorittaaksemme SOTA-algoritmeja poikkeamien havaitsemiseksi. Puhumme näistä työkaluista tässä artikkelissa, mutta ensin käydään läpi joitakin alla lueteltuja tärkeitä kohtia.

Sisällysluettelo

  1. Mikä on poikkeamien havaitseminen?
  2. Anomalian havaitsemistekniikat
  3. Algoritmit poikkeamien havaitsemiseen
  4. Miten PyFBAD käsittelee poikkeavuuksia?

Aloitetaan keskustelu ymmärtämällä poikkeamien havaitseminen.

Mikä on poikkeamien havaitseminen?

Poikkeamat ovat tietojoukon tietopisteitä, jotka erottuvat muista ja ovat ristiriidassa datan odotetun käyttäytymisen kanssa. Nämä datapisteet tai havainnot eroavat tietojoukon tyypillisistä käyttäytymismalleista. Poikkeamien havaitseminen on tekniikka, jolla voidaan havaita poikkeavuuksia tietojoukossa, joka perustuu valvomattomaan tietojenkäsittelyyn. Poikkeamat voidaan luokitella useisiin luokkiin, mukaan lukien poikkeamat, poikkeavuudet, poikkeamat, poikkeamat, poikkeamat, poikkeamat ja poikkeamat Anomaliamallit, jotka esiintyvät tiedonkeruussa ad hoc – tai ei-systeemisesti. Ajelehtia, Pitkäaikainen tiedonmuutos, joka on hidasta ja epäsymmetristä.

Poikkeamien havaitseminen on hyödyllistä vilpillisten tapahtumien havaitsemisessa, sairauksien havaitsemisessa ja tapaustutkimusten käsittelyssä, joissa on korkeatasoinen epätasapaino. Voidaan rakentaa datatieteen malleja, joissa on vankempi poikkeamien havaitsemistekniikka.

Outlier-analyysi (tunnetaan myös nimellä poikkeamien havaitseminen) on tiedon louhintavaihe, joka havaitsee datapisteet, tapahtumat ja/tai havainnot, jotka poikkeavat tietojoukon normaalista käytöksestä. Epätavallisen suuri määrä tietoa voi paljastaa olennaisia ​​tapahtumia, kuten teknisiä vikoja, tai mahdollisia mahdollisuuksia, kuten muutosta kuluttajakäyttäytymisessä. Poikkeavuuksia havaitaan yhä enemmän koneoppimisen avulla.

Anomalian havaitsemistekniikat

Valvomattomat, puolivalvotut ja valvotut poikkeamien havaitsemistekniikat ovat kolme tyyppiä. Paras poikkeamien havaitsemismenetelmä määräytyy olennaisesti tietojoukon tarrojen perusteella. Valvotut poikkeamien havaitsemistekniikat vaativat tietojoukon, jossa on täydellinen sarja “normaalia” ja “epänormaalia” -merkintöjä, jotta luokitusalgoritmi toimisi. Myös luokittelija on koulutettava osana tätä menetelmää.

🔥 Empfohlen:  Zvoxin ensimmäiset langattomat nappikuulokkeet selventävät dialogia ja ääniä

Outlier-tunnistus on samanlainen kuin perinteinen hahmontunnistus, paitsi että poikkeamien havaitseminen luo luonnollisen vahvan epätasapainon luokkien välille. Koska poikkeamien havaitseminen on luonnostaan ​​epätasapainoista, se ei sovellu hyvin kaikkiin tilastollisiin luokitusalgoritmeihin.

Puolivalvotut poikkeamien havaitsemistekniikat rakentavat mallin, joka edustaa normaalia käyttäytymistä käyttämällä normaalia, merkittyä harjoitustietojoukkoa. Sitten he käyttävät tätä mallia havaitakseen poikkeavuuksia määrittämällä, kuinka todennäköistä on, että malli luo jonkin tietyn esiintymän.

Valvomattomat poikkeamien havaitsemismenetelmät havaitsevat poikkeamat merkitsemättömässä testidatajoukossa yksinomaan tietojen luontaisten ominaisuuksien perusteella. Työoletuksena on, että suurin osa tietojoukon esiintymistä on normaaleja, kuten useimmissa tapauksissa. Poikkeamien havaitsemisalgoritmi etsii sitten tapauksia, jotka eivät näytä sopivan yhteen muun tietojoukon kanssa.

Algoritmit poikkeamien havaitsemiseen

Eristysmetsä

Isolation Forest -algoritmi havaitsee poikkeamat käyttämällä puupohjaista lähestymistapaa. Se perustuu normaalin datan mallintamiseen, jotta voidaan eristää poikkeavuuksia, joita on sekä vähän että erottuvia piirreavaruudessa. Algoritmi toteuttaa tämän olennaisesti, koska se luo satunnaisen metsän, jossa päätöspuita kasvatetaan satunnaisesti: jokaisessa solmussa valitaan satunnaiset ominaisuudet ja satunnainen kynnysarvo valitaan jakamaan tietojoukon kahtia.

Se katkaisee tietojoukon, kunnes kaikki esiintymät on eristetty toisistaan. Koska poikkeama on yleensä kaukana muista ilmentymistä, se eristetään harvemmassa vaiheessa kuin normaalit esiintymät keskimäärin (kaikissa päätöspuissa).

Tiheyteen perustuvat algoritmit

Yleisiä tiheyteen perustuvia tekniikoita ovat K-lähin naapuri (KNN), Local Outlier Factor (LOF) ja muut. Regressio- ja luokitusjärjestelmät voivat molemmat hyötyä näistä tekniikoista.

Seuraamalla korkeimman datapistetiheyden viivaa kukin näistä algoritmeista luo odotetun käyttäytymisen. Kaikki pisteet, jotka jäävät näiden tiheiden vyöhykkeiden ulkopuolelle tilastollisesti merkitsevästi, merkitään poikkeavuuksiksi. Koska useimmat näistä tekniikoista perustuvat pisteiden väliseen etäisyyteen, on tärkeää skaalata tietojoukko ja normalisoida yksiköt tarkkojen tulosten varmistamiseksi.

SVM-pohjainen lähestymistapa

Valvottu oppimismalli, joka tuottaa vankan ennustemallin, on tukivektorikone (one-class SVM) -tekniikka. Sitä käytetään ensisijaisesti luokittelussa. Tekniikka käyttää sarjaa koulutusesimerkkejä, joista jokainen on merkitty kuuluvaksi johonkin kahdesta ryhmästä.

🔥 Empfohlen:  Google-arvostelut: täydellinen opas yrityksille

Järjestelmä tuottaa sitten kriteerit lisätapausten luokittelua varten. Kahden luokan välisen eron maksimoimiseksi algoritmi kääntää esimerkit pisteiksi avaruudessa.

Järjestelmä tunnistaa arvon poikkeavaksi, jos se on liian kaukana jommankumman luokan alueen ulkopuolella. Jos sinulla ei ole merkittyjä tietoja, voit käyttää valvomatonta oppimisstrategiaa luokkien luomiseen etsimällä tapausten ryhmittelyä.

Miten PyFBAD käsittelee poikkeavuuksia?

PyFBAD-kirjasto on valvomaton poikkeamien havaitsemispaketti, joka toimii alusta loppuun. Kaikilla ml-virtausvaiheilla on lähdekoodit tässä paketissa. Lukuisten PyFBAD-pakettien avulla tietoja voidaan lukea tiedostoista, kuten CSV, tietokannoista, kuten MongoDB tai MySQL. Esikäsittelymenetelmiä voidaan käyttää mallin luetun datan valmistelemiseen.

Mallin kouluttamiseen voidaan käyttää erilaisia ​​koneoppimismalleja, kuten Prophet tai Isolation Forest. Poikkeamien havaitsemisen tulokset voidaan lähettää sähköpostitse tai slackilla. Toisin sanoen koko projektisykli voidaan suorittaa käyttämällä vain PyFBAD:n tarjoamia lähdekoodeja eikä muita kirjastoja.

Aloitetaan tästä paketista ensin asennamme paketin pip:llä ja tuomme kaikki riippuvuudet, myös tässä toteutuksessa Plotly dashia käytetään interaktiiviseen piirtämiseen.

tuonti plotly.express muodossa px tuonti plotly.graph_objects as go from pyfbad.data tuonti tietokanta db from pyfbad.models tuo mallit md muodossa pyfbad.features tuo create_feature as cf

Mainitsemme tämän työkalun päästä päähän -alustana, joten voimme hyödyntää tietojamme kehittyneistä tietokannoista; tämä voidaan tehdä tietokantaobjektin avulla. Täällä lataamme tavallisen CSV-tiedoston, joka sisältää Microsoftin varastotiedot ja joka voidaan ladata

# alusta yhteysyhteys = db.File() data = connection.read_from_csv(‘/content/Microsoft_Stock.csv’) data.head()

Aikasarjapoikkeamaennusteita varten meidän on luotava ominaisuusjoukko, joka sisältää päivämäärän_aika ja tiedot, joista haluamme havaita poikkeaman. Tässä meidän tapauksessamme se on osakkeiden määrä.

Features = cf.Features() features_set = features.get_model_data(df=data, time_column_name=”Date”, value_column_name=”Volume”) features_set

Seuraavaksi käyttämällä tätä yllä luotua ominaisuusjoukkoa PyFBAD tarjoaa malliobjektin, jonka avulla voimme havaita siinä olevat poikkeamat. Tähän mennessä siinä on Prophet ja Isolation Forest algoritmeina työstettävänä.

🔥 Empfohlen:  Twitterin avulla voit nyt laittaa GIF-tiedostoja, kuvia ja videoita yhteen twiittiin

# alusta algoritmin mallit = md.Model_Prophet() # kouluta ominaisuuksien algoritmi trained_features = models.train_model(features_set) # hanki poikkeamat forward_anomaly = models.train_forecast(train_features)

Nyt olemme havainneet joukon poikkeavuuksia tietojoukostamme, visualisoidaan ne käyttämällä Plotly Dash -viivaa kuten alla. Alla oleva ensimmäinen kaavio näyttää pääsarjan, jota seuraa yksi, joka näyttää mallin havaitseman poikkeavuuspisteen.

Viimeiset sanat

Tämän artikkelin kautta keskustelimme poikkeavuudesta ja siitä, kuinka tärkeää on havaita ja käsitellä se asianmukaisesti, jotta saadaan oikeat liiketoimintaratkaisut. Olemme keskustelleet lyhyesti perustekniikoista ja -algoritmeista, joita käytetään sen käsittelemiseen. Lopuksi tietojoukossa olevan poikkeaman havaitsemiseksi olemme käyttäneet Python-pohjaista työkalupakkia PyFBAD.

Viitteet

Table of Contents