Seuraava artikkeli auttaa sinua: Haastavimman kryptoennustushaasteen voittaminen: Voittajien lähestymistapa
Rocket Capital Investment (RCI) sai yhdessä MachineHackin kanssa menestyksekkäästi päätökseen pisimmän lohkoketjuturnauksen 5.9.2022. Tavoitteena oli kannustaa rahoituksen koneoppimissovellusten parhaita.
Singaporessa pääkonttoriaan pitävä lisensoitu rahoituslaitos RCI yhdistää rahoitusosaamisensa ulkoisiin koneoppimisennusteisiin rahoitusmarkkinoilla järjestettävässä blockchain-turnauksessa. Tämän kilpailun kautta RCI pyrki käyttämään hajautettua alustaa parhaiden koneoppimissovellusten hankkimiseen ja kannustamiseen rahoitusalalle.
Monista saaduista ehdotuksista vain erän parhaat pääsivät kärkeen. Analytics India Magazine puhui parhaiden tekijöiden kanssa ymmärtääkseen heidän datatieteiden matkaansa, voittaneen lähestymistavan ja yleistä kokemusta MachineHackista.
Katsotaanpa niitä, jotka tekivät tuomareihin vaikutuksen datataidoillaan.
Manish Pathak – vanhempi datatieteilijä
Pathak on BITS Pilanista valmistunut, joka aloitti tietotieteen tutkimisen viimeistä edeltävänä vuonna. Kaiken yliopiston aikana opitun monimutkaisen matematiikan ja Big Datan laajamittaisen käsittelyn kokemuksen ansiosta hän oli luonnollisesti taipuvainen osallistumaan datatiedeyhteisöön.
Voittava lähestymistapa
Joka viikko harjoitustietojoukko oli numeerista strukturoitua dataa, jossa oli yli 2000 ominaisuutta ja noin miljoona havaintoa. Tavoite oli jatkuva. Koko kilpailukauden ajan Pathak koulutti erilaisia regressoreita tietojoukosta Spearman-korrelaatiolla mittarina. Hänen kouluttamat regressorit olivat pääasiassa puupohjaisia tehostavia regressoreita, kuten XGBoost, CatBoost ja LightGBM. Hän myös koulutti Random Forest and Neural Networks -toimintoja muutaman viikon haasteissa.
Koska tietojoukko oli valtava, LightGBM ja XGBoost olivat suhteellisen nopeampia kuin CatBoost. Hän viritti hyperparametrit Bayesin optimointimenetelmillä ilman k-taitto CV:tä, koska aika oli rajoitus.
Koska tietojoukko oli aikaperusteinen, hän käytti viimeisimpiä tietoja (noin 10 %) validointijoukonaan. Seuraavaksi Pathak käytti eri regressoreiden ennusteiden painotettua keskiarvoa optimoidakseen Spearmanin korrelaation ja tarkisti ennusteiden järjestyksen lajittelemalla.
Saurabh Sawhney – Datatieteen konsultti
Tietotiede kiehtoi Sawhneya jo ennen kuin hän kuuli termin. Monien vuosien silmäkirurgin harjoittelun jälkeen hän päätti käyttää näppäimistöä. Hänen nykyisen kiinnostuksen kohteensa ovat Computer Vision -sovellukset. Sen lisäksi, että hän kokeilee käsiään erilaisissa hackathoneissa, hän mentoroi AI/ML-opiskelijoita viikonloppuisin.
Voittava lähestymistapa
Sawhney aloitti arvioimalla ominaisuuksien tärkeyden ja testaamalla erilaisia malleja eri määrillä ominaisuuksia. Hän havaitsi, että 160–200 suosituimman ominaisuuden käyttäminen oli riittävää sisältämien tietojen tallentamiseen.
Hän arvioi eri malleja ennen kuin päätti lopulta Random Forestin ja XGBoostin kokoonpanon. Koska kohdemuuttuja on olennaisesti peräkkäinen, hän kokeili myös erilaisia aikasarjamalleja, mutta näiden kokeiden tulokset eivät olleet tyydyttäviä.
Selvittääkseen jonkinlaisen vaikutuksen kolikon edellisen viikon sijainnista hän laski tämän arvon kaikille kolikoille mahdollisuuksien mukaan. Sitten hän yhdisti sen ensemble-ennusteeseen käyttämällä painotettua keskiarvoa määrittääkseen 4 % painotuksen viimeiselle kolikon arvolle ja 96 % painotuksen kokonaisuuden ennusteelle.
Andrey Bessalov – Tietotieteilijä
Suoritettuaan matematiikan opinnot kymmenen vuotta sitten Bessalov aloitti työskentelyn datatieteilijänä. Hän on osallistunut ML-hackathoneihin alustoilla kahden vuoden ajan ja oppinut paljon näistä kilpailuista. Hänen ikimuistoisimmat kilpailunsa ovat: Renew Power, Dare in Reality Hackathon 2021 ja Rocket Capital Crypto Forecasting.
Voittava lähestymistapa
1) Tietojen valmistelu:
● Bessalov käytti arviointisarjaan viimeiset kolme kuukautta;
● Harjoittelusarjassa hän otti kaikki muut jaksot 1 kuukauden erolla (holdout) validointisarjaan. Voit esimerkiksi valita: 2022-06-01 – 2022-09-01 validointisarjalle, ensimmäinen käytettävissä oleva kuukausi 2022-05-01 koulutussarjalle ja niin edelleen.
2) Ominaisuudet:
Kun Bessalov koulutti lopullista mallia, hän käytti kaikkia numeerisia ominaisuuksia – yhteensä 2010.
3) Malli:
Hän koulutti Xgboost-mallin validointijoukon varhaisella pysäytyksellä ja seuraavilla parametreilla:
‘objective’: ‘reg:squarederror’,
‘eta’: 0,05,
‘max_depth’: 6, # -1 tarkoittaa, että ei ole rajaa
‘subsample’: 0,7, # Harjoitteluinstanssin osanäytesuhde.
‘colsample_bytree’: 0,7, # Sarakkeiden aliotossuhde kutakin puuta rakennettaessa.
‘reg_alpha’: 0, # L1-regulointitermi painoille
‘reg_lambda’: 0, # L2-regulointitermi painoille
Testatut lähestymistavat:
● Hän korjasi validointijoukon ja yritti löytää harjoitusjoukon (kuukausien lukumäärä validointisarjaan), joka antaa parhaan Spearman-korrelaatiopisteen.
● Hän tutki ominaisuuksia laskemalla vakausindeksin ja yritti sitten poistaa epävakaat (eri kriteerit) piirteet mallista.
● Hän yritti kouluttaa erilaisia malleja ja pinoa ne sitten lineaarisesti (otti kaikki mahdolliset lineaariset yhdistelmät 0,01 askeleella):
○ Xgboost
○ Random Forest
○ Lineaariset mallit
Valmiit ratkaisut, korkea taitotaso esillä.
CryptoPrediction Challenge -haasteessa osallistujat toivat pöytään valmiita ratkaisuja heille esitetyn innovatiivisen ongelman ratkaisemiseksi. Näin korkea taitotaso CryptoPrediction Challengessa teki siitä varmasti valtavan menestyksen.