Seuraava artikkeli auttaa sinua: Tapaa Dare In Reality -hackathonin voittajat
Genpact, yhteistyössä Formula E -tiimin Envision Racingin ja MachineHackin kanssa, suoritti onnistuneesti Dare in Reality -hackathonin datatieteilijöille ja koneoppimisen ammattilaisille 22. marraskuuta. Maali? Auttaakseen kilpajoukkuetta parantamaan suorituskykyään täyssähköisissä kansainvälisissä yksipaikkaisissa maailmanmestaruuskilpailuissa. Hackathon toivotti tervetulleeksi yli 5 200 osallistujaa ja yli 10 000 palautetta vain kahdessa viikossa.
“Ajatus Dare in Reality -hackathonin järjestämiseen oli antaa tietotieteen ammattilaisille, koneoppimisinsinööreille, tekoälyn harjoittajille ja muille tekniikan harrastajille työskennellä todellisen ongelman selvittämiseksi”, sanoi Krishna Rastogi, MachineHackin tuotepäällikkö ja tekninen arkkitehti. . “Hackathonilla on ollut yksi suurimmista osallistujamääristä ja osallistujista MachineHackissa, jossa sijoitukset perustuivat RMSLE-mittariin, joka ennustaa kuljettajien kierrosaikoja karsintakierroksilla ennen kilpailua. Osallistujamme ovat ratkaisseet ongelman monilla innovatiivisilla tavoilla.”
Katsotaanpa voittajia, jotka tekivät tuomareihin vaikutuksen datataidoillaan ja veivät kotiin erittäin haluttuja rahapalkintoja ja herkkuja.
Sijoitus 01: Igor Maleev
Maleev kruunattiin Dare in Reality -hackathonin voittajaksi. Maleev kiinnostui datatieteestä opiskellessaan matematiikan ja tilastotieteen tohtoriksi. Hänellä on kokemusta työskentelystä datatieteilijänä mainonnan ja kaupan alalla, ja hän on tällä hetkellä datatieteen konsultti.
Voittava lähestymistapa
Kuva 1: Vapaiden harjoitusten ja kelpoisuusryhmien tietojen jakautuminen
Maleev kertoo, että pääidea, joka auttoi häntä voittamaan, oli mallin harjoitteleminen kuvan 1 vihreällä segmentillä. Harjoiteltuaan ja testattuaan näitä tietoja hän pääsi hyvin lähelle tulostaulukon tulosta kilpailun aikana. Loput olivat erittäin teknisiä ja koostuivat ominaisuussuunnittelusta, puhdistustiedoista sekä mallin koulutuksesta ja virittämisestä.
Katso koodi täältä.
Sijoitus 02: Mahesh Yadav ja Vakada Naveen
Yadav kiinnostui koneoppimisesta nähdessään älykkäitä virtuaaliassistentteja, mutta hänen täysi paljastuksensa tuli sen jälkeen, kun hän pääsi IIT Madrasiin tutkijana syyskuussa 2020.
Naveenia on aina kiehtonut kuvaus siitä, kuinka tekoäly voi tehdä ihmeitä futuristisissa elokuvissa, kuten I, Robot. Jopa hänen viimeisen vuoden B Tech -projektinsa koneoppimisesta keskittyi tähän alueeseen. Hän on varmistanut paikan MS-tutkinnon suorittamiseen IIT Madrasissa visio- ja kielimuuntajien tutkimuksella.
Voittava lähestymistapa
Yadav ja Naveen noudattivat kolmivaiheista lähestymistapaa, joka sisälsi:
- Tietojen esikäsittely
- Mallirakennus
- Yhdistelmämenetelmät
Tietojen esikäsittely
Ryhmä esikäsitteli aikasarakkeet korvaamalla ne kelluvilla arvoilla, jotka sitten erotettiin kategorisiksi ja numeerisiksi sarakkeiksi. Joukkue normalisoi vääristyneet ominaisuudet. Kun on käytetty one-hot-koodausta kategoristen sarakkeiden käsittelyyn, ja aineiston normalisointi suoritetaan MinMaxScalerilla. Tietojoukolle suoritettiin pääkomponenttianalyysi (PCA) ulottuvuuden vähentämiseksi.
Mallirakennus
Yadav ja Naveen kokeilivat erilaisia malleja, kuten hermoverkkoja erilaisilla arkkitehtuureilla, valogradientin tehostamista, Xgboostia, tukivektoriregressiota, gradientin tehostusta ja satunnaisia metsiä. Neuroverkot toimivat parhaiten muihin malleihin verrattuna. He kokeilivat hermoverkkojen hyperparametriviritystä ja löysivät joitain parhaista arkkitehtuureista, joita voidaan käyttää kokoonpanoon.
Kokoonpanomenetelmät
Yadav ja Naveen käyttivät erilaisia hermoverkkoarkkitehtuureja, ottivat näytteitä joka kerta erilaisista koulutustietosarjoista ja pitivät kirjaa parhaista malleista. Ensemble-lähestymistapoja, joita he kokeilivat, ovat pinoaminen neuroverkkojen kanssa metaoppijoina, pinoaminen koneoppimismallien kanssa metaoppijoina, yksinkertainen keskiarvo ja painotettu keskiarvo. He sanoivat, että heidän lähettämänsä paras malli oli parhaiden hermoverkkomallien ennusteiden yksinkertaisesta keskiarvosta.
Katso koodi täältä.
Sijoitus 03: Sylas John Rathinaraj
Aluksi Rathinaraj oli SAS-kehittäjä ja kiinnostui ennakoivasta analytiikasta vuonna 2017. Hän keskittyi Courseran ja Udemyn tilastojen, tutkivan data-analyysin (EDA), koneoppimisen, datatieteen ja syväoppimisen kursseihin. Tämä on ensimmäinen kerta, kun hän sijoittuu viiden parhaan joukkoon hackathonissa.
Voittava lähestymistapa
Täällä Rathinaraj muutti koko ajan kaapatun tiedon sekunneiksi ja etikettiin koodattiin kaikki kategorisat ominaisuudet. Kohdemuuttuja logaritmimuunnettiin jakauman vinouden vähentämiseksi. Sen jälkeen ylimääräiset ominaisuudet poistettiin yhdessä erittäin korreloivan ominaisuuden kanssa.
Sen myötä luotiin uusi ominaisuus, joka on kaikkien kolmen sektorin aika, josta on vähennetty PIT-aika. Hän loi lisäominaisuuksia, jotka osoittavat parannusta, joka tapahtui kaikilla aloilla. Sen lisäksi Rathinaraj loi myös muuttujan “tapahtuma”-sarakkeen tiedoista, ottamalla vain Free Practice and Qualifying Group -ryhmän ja poisti kaikki numeeriset jälkiliitteet. Sitten hän loi yhden lisäominaisuuden taajuuskoodatuiksi arvoiksi jokaiselle kategoriselle muuttujalle.
Mallirakennus
Tässä vaiheessa suoritettiin ominaisuuksien poistaminen, lisääminen ja valinta ylisovittamisen välttämiseksi, koska testitiedot sisältävät pelkästään paikan 6, 7, 8 karsintaryhmän kierroksen. Hän arvioi LightGBM-, CatBoost- ja XGboost-mallit, mutta lopullista ennustetta varten, ja käytti CatBoost-mallia viisinkertaisella ristiinvalidaatiolla.
Rathinaraj kertoi kokemuksestaan: “On kulunut jonkin aikaa siitä, kun aloin osallistua säännöllisesti MachineHack-hackathoneihin. Se on ollut erittäin jännittävä matka minulle ja todella hyödyllinen oppimiseni kannalta”, Rathinaraj sanoi.
Katso koodi täältä.
Sijoitus 04: Praveen Kumar Bandla
Bandla törmäsi termiin “datatiede”, kun hän osallistui liiketoiminnan tiedon louhintakurssille opiskellessaan MBA-tutkintoaan IIM Calcuttassa. Hän jäi heti koukkuun tapaan, jolla matematiikkaa ja ohjelmointia voidaan käyttää monimutkaisten liiketoimintaongelmien ratkaisemiseen. EXL:llä työskennellessään hän sai mahdollisuuden työskennellä yhdysvaltalaisen vakuutusasiakkaan kanssa heidän analytiikkatiiminsä kanssa. Hän jatkoi PGP-tutkintoa datatieteessä, jonka Simplilearn tarjosi yhdessä Purduen yliopiston ja IBM:n kanssa. Siitä lähtien hän on osallistunut ML-hackathoneihin ja oppinut näistä kilpailuista paljon.
Voittava lähestymistapa
Aluksi Bandla pyrki ymmärtämään tietojoukon ja tarjotut ominaisuudet. Hän tutki ongelman ilmaisun kontekstia saadakseen paremman käsityksen tehtävästä. Tämän jälkeen hän suoritti EDA:n tutkiakseen ominaisuuksien jakautumista ja niiden suhdetta kohdemuuttujaan. Kun hän keksi, mitä ominaisuuksia hän halusi käyttää, hän koulutti perusmalleja saadakseen käsityksen siitä, missä hän oli tulostaulukossa.
Hän sanoi: ”Sitten kokeilisin ominaisuuksien muuntamista, ominaisuussuunnittelua, mallin viritystä, tehostamista, pinoamista ja niin edelleen. Tämä antaisi minulle käsityksen siitä, kuinka monimutkaiset mallit toimivat annetulla tietojoukolla verrattuna yksinkertaisempiin. Tässä kilpailussa huomasin, että yksinkertaisemmat mallit toimivat paremmin kuin monimutkaiset mallit.
Katso koodi täältä.
Sijoitus 05: Mahima Arora
Arora on suorittanut matematiikan kandidaatin tutkinnon ja toiminnantutkimuksen maisterin tutkinnon. Arora aloitti työssään vasta vuosi, mutta kokemus on avannut hänelle erilaisia konsepteja, erilaisia työkaluja ja laajan mahdollisuuden tutkia ja oppia lisää.
Voittava lähestymistapa
Tietojen tutkimisen jälkeen Arora aloitti tietojen puhdistuksen, johon kuului eri muuttujien muotojen korjaaminen ja niiden muuntaminen käyttökelpoiseen muotoon. Sitten Arora suoritti yksi- ja kaksimuuttuja-analyysin ymmärtääkseen tietoja paremmin. Seuraavassa vaiheessa hän yhdisti säätiedot alkuperäiseen tietojoukkoon ja kokosi ne sijainnin, tapahtuman ja tietolähteen yhdistelmällä. Tämän avulla hän laski kunkin sarakkeen keskiarvon ja yhdisti sen alkuperäiseen tietojoukkoon. Imputointi suoritettiin sarakkeilla, joista puuttui 60-70 % tiedoista.
Tämän jälkeen Arora muunsi kategoriset muuttujat valemuuttujiksi ja poisti merkityksettömät sarakkeet. Hän jakoi tiedot junaan ja validointiin ja alkoi rakentaa mallia käyttämällä XGBoost-regressoria, satunnaisia metsä- ja gradienttitehostusalgoritmeja. Hän käytti k-kertaista ristiinvalidointia malliensa virittämiseen ja hienosäätää XGBoost Regressoria “Mean Squared Log Error” -objektiivifunktiona, mikä antoi parhaan suorituskyvyn hänen validointitiedoissaan.
Aroran kokemus MachineHackista on ollut rikastuttavaa ja täyttävää. Hän totesi: “Tietojen puhdistamisesta ja eri algoritmien soveltamisesta hienosäätöön, malli on lisännyt yleistä ymmärrystäni tästä alueesta. Nämä hackathonit tarjoavat loistavan alustan oppimiseen ja kilpailemiseen terveellisessä ympäristössä parantaaksesi ja parantaaksesi olemassa olevaa osaamistasi.
Katso koodi täältä.
Valmiit ratkaisut, korkea taitotaso esillä
Dare in Reality -hackathonissa osallistujat toivat pöytään valmiita ratkaisuja heille esitetyn innovatiivisen ongelman ratkaisemiseksi. Näin korkea taitotaso Dare in Reality -hackathonissa teki siitä varmasti valtavan menestyksen.
“Olimme hämmästyneitä siitä, kuinka monta huolellisesti harkittua ratkaisua hackathon sai haasteeseemme”, sanoi Envision Racing -tiimi. “Datatiedeyhteisön osoittaessa näin korkeaa innovaatiotasoa, viiden voittajan pitäisi olla erityisen ylpeitä menestyksestään. Tutkimme jo, kuinka voimme mukauttaa heidän ideoitaan auttaaksemme joukkuetta saavuttamaan etumatkan karsinnassa.