Seuraava artikkeli auttaa sinua: Data Science Skills Survey 2022 – AIM ja Great Learning
Data Science Skills -tutkimus on kyselyyn perustuva raportti, joka tuo esiin erilaisia taitoja, joita alan ammattilaiset pitävät erittäin kysyttynä. Raportissa selvitetään erilaisia työkaluja, teknologioita tai taitoja eri luokista, jotka ovat tällä hetkellä käytössä tai jotka on välttämätöntä tietää/oppia, jos haluaa tehdä uran datatieteessä. Raportissa tunnistetaan lisäksi eri taitojen soveltuvuus vuosien kokemuksen ja toimialojen mukaan. Se pohtii myös aikaa, jonka harjoittavat ja ei-harjoittelevat datatieteen ammattilaiset käyttävät näiden taitojen oppimiseen eri muodoissa.
Datatiede ja sen sovellukset yleistyvät nopeasti digitalisoituvassa maailmassa. Tämän seurauksena monet opiskelijat/ammattilaiset eri tieteenaloista etsivät lähteitä, jotka voivat auttaa heitä ymmärtämään keskeisiä taitoja, joita tarvitaan datatieteiden uran käynnistämiseen/pysymiseen. Rekrytoijien tai alan ammattilaisten on myös arvioitava, mitkä työkalut ovat kysyttyjä ja miksi. Tämä raportti tarjoaa kattavan näkemyksen kaikille sidosryhmille – opiskelijoille, ammattilaisille, rekrytoijille ja muille – erilaisista keskeisistä datatieteen työkaluista tai taitokokonaisuuksista, joita tarvitaan uran aloittamiseen tai etenemiseen datatieteen alalla.
Raportti on kehitetty tiukan primaaritutkimuksen jälkeen datatieteilijöille ja johtaville tekoälyn/ML:n harjoittajille jaetussa kyselyssä. Tätä täydennettiin suorilla keskusteluilla työnhakijoiden kanssa, jotta he ymmärtäisivät ja mittasivat heidän näkemyksiään tämän alan kysytyistä taidoista.
Kaikki aiemmat raportit:
2020 | 2019 | 2018
Avaimet takeawayt
- 84,4 % ammattilaisista mainitsi, että rekrytoijat pitävät koneoppimista tärkeimpänä taitona palkkaamishetkellä, minkä jälkeen tilastot 78,9 %.
- Enemmän kuin yksi kahdesta (55,7 %) ammattilaiset käyttävät viikoittain aikaansa taitojen parantamiseen.
- 61,7 % Tietotekniikan ammattilaiset opettelevat pilvitekniikoita parantaakseen taitojaan.
- Melkein yhdeksän kymmenestä (87,8 %) Datatieteen ammattilaiset mainitsivat, että ohjelmointikielten (R, Python, SAS) tuntemus on yksi perustaidoista tietotieteen uran käynnistämiseen.
- Yli yhdeksän kymmenestä (90,6 %) ammattilaiset käyttävät Pythonia ohjelmointikielenä tilastolliseen mallinnukseen.
- MS Excel (63,3 %)Tableau (56,7 %)ja MS Power BI (43,9 %) ovat kolme eniten käytettyä työkalua tietojen visualisointiin.
- Enemmän kuin kolme neljästä (77,8 %) ammattilaiset käyttävät perinteisiä ML-malleja, kuten regressio, logistinen regressio, päätöspuu, SVM, naiivi Bayes jne.
Rekrytoijat tarkastelevat yhteisiä taitoja

84,4 %
84,4 % ammattilaisista mainitsi, että rekrytoijat pitävät koneoppimista tärkeimpänä taitona palkkaamisen aikana
2/3
Melkein kaksi kolmesta alle kolmen vuoden kokemuksen omaavasta ammattilaisesta sanoi, että rekrytoijat pitävät datan visualisointia välttämättömänä taitona palkattaessa – tämä määrä pienenee vastaajilla, joilla on enemmän vuosia kokemusta.
9/10
Yhdeksän kymmenestä BFSI:n ja Pharma & Healthcare -sektorin ammattilaisista sanoi, että rekrytoijat pitävät tilastoja yhdeksi keskeisistä taidoista palkkaamisen aikana.
Mukaan 84,3 % vastaajia (4/5), rekrytoijat pitävät koneoppimista ehdokkaiden huipputaitona palkkaaessaan datatieteilijöitä. Tätä seuraa tilastotiede (78,9 %) ja viestintä (72,8 %). Jotkut rekrytoijat pitävät kommunikointitaitoja tärkeämpänä kuin ohjelmointitietoa (70,0 %). 62,2 % vastaajat (3 viidestä) ilmoittivat, että rekrytoijat etsivät datan riitautumisen ja esikäsittelyn taitoja, kun taas 55,6 % (1/2) rekrytoijat etsivät Data Visualisointia osaamiskokonaisuutena.
92,3 % (9/10) ammattilaisia, joilla on yli 10 vuoden kokemus, ajattelevat, että koneoppiminen on rekrytoijien yleinen taito verrattuna 81,9 % vastaajia, joilla on alle 3 vuoden kokemus. Yli 10 vuoden kokemuksen omaavien ammattilaisten osuus oli yhtä mieltä siitä, että viestintä- ja Big Data -taitoja vaaditaan 1.4 ja 1.2 kertaa korkeampi kuin niillä, joilla on alle 3 vuoden kokemus.
Neljä viidestä IT-ammattilaista sanoi, että rekrytoijat priorisoivat kriittisiä taitoja, kuten koneoppimista (84,3 %)Tilastot (81,4 %), Viestintä (81,4 %) ja ohjelmointiosaaminen (81,4 %). Samoin 9/10 (90,0 %) BFSI ja Pharma & Healthcaren ammattilaiset sanoivat, että tilastot ovat yksi keskeisistä taidoista, joita rekrytoijat hakevat. Samat BFSI-sektorin vastaajat olivat samaa mieltä siitä, että koneoppiminen on yksi halutuimmista taidoista.
Suurin osa alan osaamisesta oli samaa mieltä ammattilaisista (60,0 %) Pharma & Healthcaressa. Esittämistaitoja pidettiin Pharma & Healthcaressa huomattavasti tärkeämpänä (70,0 %) ja vähittäiskauppa, CPG ja sähköinen kaupankäynti (73,7 %) verrattuna muihin toimialoihin.
Tarvitaan osaamisen lisäämistä

Datatieteen ammattilaiset ovat kriittisiä yrityksen kehitykselle, innovaatioille ja päätöksentekoprosesseille, ja heidän on kyettävä sopeutumaan jatkuvasti muuttuvaan digitaaliseen maailmaan.
Siksi osaamisen parantaminen auttaa ammattilaisia laajentamaan tulevaisuuden työllistymisen, mahdollisuuksien ja menestymisen edellyttämiä kykyjä ja tietoja. Tätä tukee 98,6 % vastaajista, jotka ovat samaa mieltä alan jatkuvan osaamisen kehittämisen tarpeesta.
Aika, joka on sijoitettu osaamisen kehittämiseen


1/2
Joka toinen datatieteen ammattilainen viettää aikaa itsensä kehittämiseen viikoittain
2/3
Lähes kaksi kolmesta tietotieteen ammattilaisista vähittäiskaupan, CPG:n ja verkkokaupan alalla lisää taitoja viikoittain
3/4
Kolme neljästä tietotieteen ammattilaisista, joilla on alle 3 vuoden työkokemus, harjoittaa osaamisen parantamista viikoittain, kun taas yli puolet 3–6 vuoden työkokemuksen ammattilaisista täydentää taitoja viikoittain
Kyselyvastausten mukaan mm. 55,7 % ammattilaiset viettävät aikaa ammattitaidon parantamiseen viikoittain. Noin 22,8 % viettää aikaa joka kuukausi, kun 11,9 % tee se neljännesvuosittain. Vähäinen 5,9 % tee se vuosittain ja 3,7 % ei koskaan lisää taitoja.
Alle 3 vuoden kokemuksella ammattilaiset ovat aktiivisimpia itsensä kehittämisessä. 72,2 % (3/4) Datatieteen ammattilaiset, joilla on alle 3 vuoden kokemus, täydentävät taitoja viikoittain. 56,6 % 3-6 vuoden kokemuksella omaavia ammattilaisia täydentävät myös viikoittain, mutta merkittävä osa näistä ammattilaisista (28,3 %) täydentää taitoja kuukausittain. Samalla lailla, 31,0 % (1/3) ammattilaiset, joilla on 6-10 vuoden kokemus, haluavat päivittää taitojaan neljännesvuosittain.
Alle 3 vuoden kokemuksella ammattilaiset ovat aktiivisimpia itsensä kehittämisessä
63,6 % Vähittäiskaupan, CPG:n ja verkkokaupan alan ammattilaiset ovat aktiivisimmin päivittämässä taitojaan viikoittain. Toisaalta, 35,1 % Datatieteen ammattilaiset BFSI-sektorilta parantavat taitoja kuukausittain.
Datatutkijat oppivat uusia taitoja


3/5
Kolme viidestä datatieteen ammattilaisesta oppii pilviteknologioita parantamaan taitojaan
70,0 %
70 % BFSI:ssä työskentelevistä ammattilaisista ilmoitti, että he ovat kehittyneet MLOps:issa
Top 3
Pilviteknologiat, MLO:t ja Advanced Deep Learning -mallit, kuten Transformers, ovat kolme parasta uutta taitoa, joita datatieteilijät/analyytikot yrittävät oppia tai täydentää
Datatieteen ammattilaiset päivittävät jatkuvasti taitojaan, jotta ne vastaisivat alan nykyisiä tarpeita. Tehdyn kyselyn mukaan yli 61,7 % (3/5) ammattilaista ilmoitti päivittävänsä taitojaan pilviteknologioissa (Azure, AWS, GCP). Sitä seuraten, 56,1 % ammattilaiset oppivat MLOps ja 55,0 % oppivat Transformers.
Yli 10 vuoden kokemuksen omaavien ammattilaisten suosituin hankittava taito on MLOps, jolla on lähes 73,1 % (3/4) ammattilaiset opettelevat tekniikoita ML-mallien mittakaavassa – yksi alan kiireellisimmistä huolenaiheista. Tätä seuraa vahvistusoppiminen (57,7 %)Cloud Technologies (57,7 %) Muuntajat (57,7 %) ja muut. Ammattilaiset, joilla on 3-6 vuoden kokemus, ovat taipuvaisempia hankkimaan pilviteknologioita (71,7 %) Uuden ydintaidona, jota seuraa MLOps (62,3 %)Transformers (60,4 %) ja muut.
Vähittäiskaupan, CPG:n ja verkkokaupan alalla työskentelevät ammattilaiset ovat taipuvaisempia oppimaan pilviteknologioita (73,7 %) uutena taitona. Toisaalta BFSI-alan ammattilaiset oppivat todennäköisemmin MLOps (70,0 %) uutena osaamisena. Samoin Pharma & Healthcare -alan ammattilaiset ovat kiinnostuneita Transofrmersin oppimisesta (70,0 %) ja Computer Vision (60,0 %) ydintaitoina.
Data-analyysin pilvipalvelulla on suuri kysyntä, mikä näkyy tekniikan osaamisen lisäämisenä ammattilaisten suurena osuudessa.
Datatieteen uran edellyttämät perustaidot


9/10
Yhdeksän kymmenestä tietotieteen ammattilaisesta mainitsi ohjelmointikielten (R, Python, SAS) tuntemuksen olevan perustaito tietotieteen uran aloittamiseen.
4/5
Neljä viidestä ammattilaisesta sanoi, että tilastotiede on tärkeä perustaito tietotieteen uran aloittamisessa
Top 3
Ohjelmointi (R, Python, SAS), tilastot ja koneoppimisen perustiedot ovat tietotieteen uran kolme parasta perustaitoa.
Kyselyn mukaan mm. 87,8 % (9/10) vastaajista sanoi, että ohjelmointikielten, kuten Pythonin, R:n tai SQL:n, tuntemus on perustaito tietotieteen/analytiikan uran käynnistämiseen. Tätä seuraa tilastotieto (80,6 %) ja ML:n perusymmärrys, kuten 75,6 % vastaajista väitti.
Kaikki (100,0 %) vastaajia yli 10 vuoden kokemus sanoi, että kyky koodata tilastollisilla ohjelmointikielillä on pakollinen taito aloittaaksesi uran datatieteessä. Tätä seuraa tilastojen tuntemus ja koneoppimisen peruskäsitteet, molemmat osoitteessa 80,8 %. Samoin viisi kuudesta (83,3 %) Tietotiede Alle 3 vuoden kokemuksen omaavat ammattilaiset pitävät tilastotietoa välttämättömänä. Huomattavasti suurempi osuus ammattilaisista (77,4 %) 3-6 vuoden kokemuksella sanoi, että tiedonvälitys- ja esikäsittelytaidot ovat tärkeitä verrattuna muiden kokemusryhmien ammattilaisiin.
Toimialojen kannalta 94,7 % (9/10) Retail-, CPG- ja E-Commerce-alan kyselyyn vastanneista sanoi, että ML-käsitteiden tuntemus on perustaito tietotieteen uran aloittamiseen. Tilastojen kysyntä (86,7 %) on korkein BFSI-ammattilaisten joukossa, ja datan visualisointitaitojen kysyntä on suurin Pharma & Healthcaressa (70,0 %). Yleisesti ottaen kaikkien toimialojen kesken sovittiin, että ohjelmointikielen osaaminen on tärkein taito tietotieteen uran aloittamiseen.
Yli kolme neljästä ammattilaisesta, joka väittää, että ML:n perusymmärrys on pakollinen taito tietotieteen uralla, on osoitus alan kypsymisestä.
Tilastolliseen mallinnukseen käytetyt kielet


9/10
Yhdeksän kymmenestä ammattilaisesta käyttää Pythonia tilastolliseen mallinnukseen
Top 3
Python, SQL ja R ovat tietotutkijoiden kolme suosituinta kieltä
3.3
Tietotieteen ammattilaiset, joilla on yli 10 vuoden kokemus, käyttävät 3,3 kertaa todennäköisemmin SAS:ää kuin ne, joilla on alle 3 vuoden kokemus
Python on datatieteen suosituin ohjelmointikieli, yhdeksän kymmenestä (90,6 %) Datatieteen ammattilaiset sanovat käyttävänsä sitä tilastolliseen mallintamiseen. Sen jälkeen SQL ja R pitivät parempana 52,8 % ja 38,3 % osallistujista.
Vuosien kokemuksella on merkittävä rooli joissakin datatieteen ammattilaisten käyttämissä kielissä. Esimerkiksi datatieteilijät, joilla on yli 10 vuoden kokemus 3,3 kertaa käyttävät todennäköisemmin SAS:ää kuin ne, joilla on alle 3 vuoden kokemus. Vastaavasti R:n käyttö lisääntyy 1,8 kertaa.
Python on edelleen eniten käytetty ohjelmointikieli kaikilla sektoreilla, ja vähintään kahdeksan kymmenestä ammattilaisesta jokaisella tutkimukseen osallistuneella alalla sanoo käyttävänsä sitä. Sen lisäksi SQL:n käyttö (68,4 %) on korkein vähittäiskaupassa, CPG:ssä ja verkkokaupassa, jota seuraa IT 62,9 %. R on Pharma & Healthcare -sektorin yleisimmin käytetty ohjelmointikieli, kolme viidestä (60,0 %) ammattilaiset väittävät käyttävänsä sitä tilastolliseen mallintamiseen.
Yritykset suosivat Pythonin ja R:n kaltaisia kieliä SAS:n sijaan, ei vain kustannustekijän vaan myös tekniikoiden vuoksi julkaistaan usein ensimmäisenä avoimessa lähdekoodissa.
Kustannustekijästä huolimatta Pharma & Healthcare (20,0 %) ja BFSI (23,3 %) käyttävät myös laajasti SAS:ää, koska se on useimpien suosima työkalu kliinisten tutkimusten tietojen analysointiin ja myös siksi, että se tarjoaa paremman suojan.
Tietojen visualisointityökalut


1
MS Excel on yleisimmin käytetty visualisointityökalu, jota käyttää kaksi kolmesta analytiikkaammattilaisesta
Top 3
MS Excel, Tableau ja MS Power BI ovat kolme eniten käytettyä työkalua tietojen visualisointiin
84,6 %
MS Exceliä käyttää 84,6 % ammattilaisista, joilla on yli 10 vuoden kokemus
Kaikista tietotekniikan teknologisista edistysaskeleista huolimatta MS Excelin käyttö on edelleen korkeaa, varsinkin datavisualisointeja rakennettaessa. 63,3 % (2/3) analytiikan ammattilaisista kaksi kolmesta analytiikkaammattilaisista sanoi käyttävänsä MS Exceliä. Tätä seuraa Tableau (56,7 %)Power BI (43,9 %)ja QlikView (12,2 %).
MS Excelin käyttö (84,6 %) on erityisen korkea ihmisillä, joilla on yli 10 vuoden kokemus. Toisaalta Tableau on suosituin valinta 3-6-vuotiaille ammattilaisille (50,9 %)jota seuraa MS Excel (45,3 %) ja Power BI (34,0 %). Samoin datatieteen ammattilaiset, joilla on 6-10 vuoden kokemus, suosivat myös Tableauta.
Ihmiset, joilla on 3–10 vuoden kokemus, ovat käytännönläheisempiä ja käyttävät kojelaudoissa verrattain monimutkaisempia työkaluja, kuten Tableau, kuin pelkkä MS Excel.
Sektoreittain Tableau on Pharma & Healthcaren suosituin työkalu neljän viidestä mukaan (80,0 %) ammattilaisia, jotka sanoivat käyttävänsä sitä tietojen visualisointiin. Samalla lailla, 65,7 % IT-vastaajista sanoi käyttävänsä Tableauta verrattuna 61,4 % jotka käyttävät Power BI:tä ja 58,6 % jotka käyttävät Exceliä. Toisaalta MS Excel on edelleen eniten käytetty työkalu tietojen visualisointiin kaikilla muilla tutkituilla sektoreilla.
Datatieteen mallit


3/4
Kolme neljästä tietotieteen ammattilaisesta käyttää perinteisiä koneoppimismalleja säännöllisesti
2/5
Kaksi viidestä datatieteen ammattilaisesta käyttää Convolution Neural Networks -verkkoja
5/6
Viisi kuudesta ammattilaisesta, joilla on yli 10 vuoden kokemus, sanoi, että heillä on RNN
Perinteiset koneoppimismallit, kuten lineaarinen regressio, logistinen regressio, päätöspuu, SVM, naiivi Bayes jne., ovat tietotieteen ammattilaisten eniten käytettyjä ML-tekniikoita – enemmän kuin kolme neljästä (77,8 %) vastaajat sanoivat käyttävänsä sitä säännöllisesti. Tätä seuraa CNN klo 40,0 %LSTM klo 31,7 %ja RNN klo 28,3 %.
Tietotieteen ammattilaiset, jotka ovat uransa alkuvaiheessa, käyttävät mieluummin perinteisiä koneoppimismalleja, koska he ovat vasta aloittamassa. 61,1 % (3/5) vastaajista, joilla on alle 3 vuoden kokemus, käyttää perinteisiä koneoppimismalleja. Kuitenkin, kun on enemmän kokemusta, datatieteilijät uskaltavat monimutkaisiin malleihin. Voit havaita hermoverkkojen ja syväoppimismallien lisääntyneen käytön ammattilaisten keskuudessa, joilla on 3-6 vuoden kokemus. Noin 77,4 % heistä käyttää CNN:tä, 47,2 % käytä RNN:tä ja 47,2 % käytä LSTM:ää. 6-10 vuoden kokemuksella näitä malleja käytetään vähemmän. Käyttöaste nousee kuitenkin jälleen yli 10 vuoden kokemuksen omaaville ammattilaisille, koska heidän on pysyttävä ajan tasalla uusimpien teknologioiden kanssa ja kokeiltava tutkimuksen huippuluokan/monimutkaisia malleja.
Perinteiset koneoppimismallit ovat ammattilaisten suosima valinta eri aloilla. Tämän jälkeen tietyt teollisuudenalat suosivat tiettyjä malleja. Esimerkiksi CNN on laajalti käytössä IT:ssä (44,3 %) ja BFSI-sektorit (43,3 %) koska molemmilla toimialoilla on laaja valikoima sovelluksia segmentoinnissa tai luokittelussa.
Samoin LSTM (60,0 %) tai RNN (50,0 %) malleja käytetään laajalti Pharma & Healthcare -alalla. 15,8 % (1/6) vähittäiskaupan, CPG:n ja verkkokaupan parissa työskentelevät datatieteilijät käyttävät monikerroksisia perceptroneja (MLP) ja 13,3 % (1/8) BFSI-sektorilla työskentelevistä ammattilaisista käyttää Genrative Adversarial Networks (GAN) -verkkoja.
Tuoreet aloittavat perinteisillä ML-malleilla, mutta pian he kokeilevat monimutkaisia syväoppimismalleja tai hermoverkkoja, kun he saavat työkokemusta.