Seuraava artikkeli auttaa sinua: Torcharrow: PyTorch-kehys CPU-pohjaiseen suuren tiedonkäsittelyyn
Pytorch 1.12:n uuden version julkaisun myötä Pytorch on kehittänyt uuden DataFrame-kirjaston tietojen visualisointia tai esikäsittelyä varten nimeltä Torcharrow. Torcharrow on Pytorch-kirjasto tietojen käsittelyyn ja visualisointiin, joka tukee taulukkotietojen käsittelyä ja sopii paremmin syvälle oppimisdatalle. Torcharrow on keksinyt mahdollisuuden nopeampaan tietojen käsittelyyn prosessointiyksikön kevyemmällä käytöllä. Tässä artikkelissa saamme lyhyen yleiskatsauksen Pytorch 1.12:n uusimmasta esikäsittelykirjastosta nimeltä Torcharrow.
Sisällysluettelo
- Yleiskatsaus Torcharrow’sta
- Torcharrow’n edut
- Tietojen käsittely Torcharrow’n avulla
- Yhteenveto
Yleiskatsaus Torcharrow’sta
Pytorchia, avoimen lähdekoodin koneoppimis- ja syväoppimiskehystä, joka perustuu taskulamppukirjastoon, käytetään erilaisissa sovelluksissa, kuten tietokonenäössä ja luonnollisen kielen käsittelyssä. PyTorch julkaisi uuden version Pytorch 1.12 28. kesäkuuta 2022. Uuden version julkaisun myötä Pytorch on luonut uuden API:n nopeampaan ja tehokkaampaan tietojenkäsittelykirjastoon nimeltä Torcharrow, joka on vielä beta-vaiheessa. lisää ominaisuuksia. Torcharrow on tietojenkäsittelykirjasto, joka pyrkii käsittelemään ja prosessoimaan tietoja mahdollisimman vähän resursseja ja vähemmän painoa keskusyksikköön.
Etsitkö täydellistä arkistoa tietotieteessä käytettävistä Python-kirjastoista, katso tästä.
Torcharrow noudattaa samaa hierarkiaa ja toimintaominaisuuksia kuin Pandas-kirjasto, jolla on samanlainen tietojenkäsittelykyky. Beta-vaiheessa oleva Torcharrow tarjoaa tietojenkäsittelyn erilaisilla näkökohdilla, kuten tietojen lisäämisellä, tietojen käsittelyllä, tilastollisella tietojen analysoinnilla sekä tietojen kyselyllä SQL-kyselyihin liittyen. Kun vakaa versio on toivottavasti julkaistu, Torcharrow tukee kaikkia tarvittavia käsittelyvaiheita.
Torcharrow’n edut
Tietojenkäsittelyn Torcharrow-kirjastolla on useita etuja tehokkaassa tietojenkäsittelyssä ja käsittelyssä. He ovat:
- Torcharrow tukee datan eri ulottuvuuksia yksittäisistä saraketiedoista monisarakkeisiin tietoihin, kuten datakehykseen.
- Torcharrow tukee erityyppisiä tietoja, kuten numeroita, merkkijonoja ja luetteloita.
- Torcharrow pyrkii tukemaan monimutkaisia taskulampputietoja minimaalisilla resursseilla ja toimimaan moitteettomasti laitteilla, jotka käyttävät vain prosessoria.
- Helppo integrointi ja kirjaus Pytorch DataLoaderin ja Datapipen suhteen.
Täydellinen katsaus tietojenkäsittelyyn Torcharrow’n avulla
Asennataan ensin Torcharrow-kirjasto työympäristöön.
!pip install –user torcharrow tuonti torcharrow as ta import torcharrow.dtypes as dt tuonti torcharrow.expression muodossa exp tuonti varoitukset warnings.filterwarnings(‘ohita’)
Nyt torcharrow-kirjasto on asennettu ja ladattu työympäristöön. Aloitetaan Torcharrowin tukemien yksiulotteisten tietojen tutkiminen.
Yksiulotteinen tietojenkäsittely Torcharrow’n avulla
Panda-sarjan tapaan Torcharrow tukee yksiulotteista tietojenkäsittelyä Column-toiminnon avulla. Katsotaanpa kuinka käsitellä tietoja Torcharrow’n Column-toiminnolla.
Sarakkeen luominen
col1=ta.Column([1,2,3,4,5,None]) sarake1
Torcharrow’n sarakefunktio on luotava käyttämällä Torcharrow-instanssia ja Torcharrow-sarake pitää arvoa kokonaislukuina, mikä vähentää muistin varausta, ja Torcharrow-sarakefunktiolla on kyky noutaa tulosteen nolla-arvojen määrä pituuden kanssa. sarakkeen ja sarakkeen tietotyypin.
Yleiset saraketoiminnot
Torcharrow’n beta-versiossa Column-toiminnot tukevat kahta toimintoa, ja ne ovat alla esitetyn mukaisia.
Pituuden laskeminen
Sarakkeen pituus voidaan laskea “len”-funktiolla, joka antaa tietoa tietokehyksen rivien lukumäärästä.
col2=ta.Column([1.1,2.2,3.3,4.4,5.5,None]) len(col2) ## Tiedon pituuden hakeminen

Joten tässä Torcharrow’n saraketietotyypissä on 6 riviä.
Nolla-arvojen määrän laskeminen
Tietokehyksen nolla-arvojen määrä voidaan laskea käyttämällä Torcharrow-kirjaston null_count-funktiota alla esitetyllä tavalla.
col2=ta.Column([1.1,2.2,3.3,4.4,5.5,None]) col2.null_count ## Nolla-arvojen lukumäärän saamiseksi sarakkeessa

Tässä sarakkeen tietotyypissä “Ei mitään” pidetään nolla-arvona.
Torcharrow-sarakkeen luominen muuttuvalla merkkijonopituudella
Torcharrow tukee vaihtelevan pituisia merkkijonoja, jotka voidaan välittää Column-tietotyyppiin.
str_col1=ta.Column([[‘Torcharrow’,’Column’],[‘Torcharrow’,’is’,’still’,’in’,’beta-stage’]]) str_col1

Sarake-tietotyyppiin välitetyt merkkijonot katsotaan oletusarvoisesti luettelotietotyypeiksi. Luodun muuttuvapituisen merkkijonon tyyppi voidaan myös hakea type-funktiolla.
tyyppi (str_col1)

Yhden arvon lisääminen saraketietokehykseen
Uusien arvojen lisääminen voidaan tehdä Torcharrow’n Column-tietokehyksen append-toiminnolla, jossa sekä yksittäisiä arvoja että useita arvoja voidaan liittää samanaikaisesti.
str_col1=ta.Column([[‘Torcharrow’,’Column’],[‘Torcharrow’,’is’,’still’,’in’,’beta-stage’]])
Yllä luodun Column-tietotyypin osalta katsotaanpa ensin, kuinka yksittäinen arvo lisätään.
str_col1=str_col1.append([[‘Torcharrow’,’is’,’faster’,’and’,’efficient’]]) str_col1

Useiden arvojen liittäminen sarakkeen tietokehykseen
Samalla tavalla useita arvoja voidaan liittää käyttämällä erilaisia luettelo-esiintymiä yksittäisessä lisäystoiminnossa alla esitetyllä tavalla.
str_col1=str_col1.append([[‘My’,’name’,’is’,’ABC’],[‘I’,’reside’,’at’,’XYZ’]]) str_col1

Työskentely Torcharrow Dataframen kanssa
Torcharrow-tietokehykset ovat samanlaisia kuin panda-tietokehykset, mutta koska Torcharrow on vielä beta-vaiheessa ja Torcharrow-tietokehys ei vieläkään pysty lukemaan eri muotoisia tietoja, kuten CSV-, teksti- ja HTML-tiedostoja. Katsotaanpa, mitä kaikkea prosessointia voidaan tehdä käyttämällä torcharrow-tietokehyksen beta-vaihetta.
Torcharrow-tietokehyksen luominen
Torcharrow-tietokehys voidaan luoda käyttämällä Torcharrow’n sisäänrakennettua toimintoa alla olevan kuvan mukaisesti.
df = ta.DataFrame({“Sarake1”: lista(alue(10,10+10)), “Sarake2”: lista(käänteinen(väli(20,20+10))), “Sarake3”: lista(alue( 30,30+10))}) df

Haetaan Torcharrow-tietokehyksen sarakkeita
Torcharrow-tietokehyksen sarakkeet voidaan hakea sarakkeet-toiminnolla.
df.columns

Tietojen haku tietokehyksestä
Torcharrow-tietokehys helpottaa head and tail -toimintoa, jossa datakehyksen ensimmäinen ja viimeinen merkintä voidaan hakea vastaavasti.
df.head(3) ## Haetaan torcharrow-tietokehyksen 3 ensimmäistä merkintää

df.tail(3) ## Haetaan torcharrow-tietokehyksen 3 viimeistä merkintää

Joten käyttämällä head and tail -toimintoa voidaan hakea datakehyksen ensimmäinen ja viimeinen merkintä.
Uuden sarakkeen lisääminen Torcharrow-tietokehykseen
Pandas-moduulin tapaan Torcharrow-tietokehykseen voidaan lisätä uusi sarake, jossa uudessa lisättävässä sarakkeessa määritetään nimi sekä lisättävät arvot.
df[‘Col4’]=ta.Sarake(list(alue(41,41+10))) df

Joten tässä voimme nähdä, että uusi sarake lisätään alkuperäiseen tietokehykseen
Rivien lisääminen Torcharrow-tietokehykseen
Rivejä voidaan lisätä Torcharrow-tietokehykseen käyttämällä liitetoimintoa alla kuvatulla tavalla.
df=df.append([(10,100,101,102),(11,110,111,112)]) df

Datakehyksen arvojen manipulointi
Tietokehyksen arvoja voidaan manipuloida käyttämällä mitä tahansa matemaattista operaattoria tai mitä tahansa funktiota. Katsotaanpa, kuinka datakehyksen arvoa muokataan summaustoiminnolla.
df[‘Col1’]=df[‘Col1’]+50 df

Tässä näemme, että jokainen sarakkeen 1 50 arvo lisätään.
Valintatoiminnot
Torcharrow tukee sekä merkkijono- että kokonaislukupohjaisia valintoja sekä viipalointia. Katsotaan kuinka Torcharrow’ta voidaan käyttää erilaisiin valintatoimintoihin.
Merkkijonopohjainen valinta
Vaadittu sarakkeen nimi on mainittava hakasulkeissa merkkijonopohjaisessa valinnassa.
df[‘Col1’]

Viipalointi: merkkijonopohjainen valinta
Samalla tavalla leikkaamalla voidaan hakea tarvittavat sarakkeet.
df[‘Col1′:’Col3’]

Kokonaislukupohjainen valinta
Kokonaislukupohjaista valintaa varten on määritettävä noutoon vaadittavat rivit.
df[1]

Viipalointi: Kokonaislukupohjainen valinta
Tarvittavat rivit voidaan määrittää hakasulkeissa, joissa viimeinen arvo on poissulkeva.
df[1:5]

Olosuhteisiin perustuva valinta
Ehtoon perustuvaa valintaa varten on määritettävä vaadittu sarake, joka tarkistetaan yhdessä tarkistettavan ehdon kanssa, mikä palauttaa loogisen lähtöarvon.
df[‘Col1’]>65 ## palauttaa loogisen lähtöarvon

Jos ehdon arvot on haettava, dataframe-objektia on käytettävä ehdon kanssa.
df[df[‘Col1’]>65]## Dataframe-arvot määritetylle ehdolle noudetaan

Puuttuvien arvojen käsittely
Torcharrow-tietokehyksen avulla puuttuvat arvot voidaan imputoida vaaditulla arvolla tai puuttuva arvo voidaan jättää pois.
Katsotaanpa, kuinka puuttuva arvo lasketaan vaaditulla arvolla.
s=ta.Column([1,2,3,None,5]) s=s.fill_null(4) s

Samalla tavalla voidaan poistaa koko rivi, jossa on puuttuva arvo.
s.drop_null()

Tapauksen muunnostoiminnot
Koko merkkijono voidaan muuntaa isoiksi käyttämällä yläfunktiota.
str_col=ta.Column([‘Welcome to Torcharrow’,’Today is a beautiful day’]) str_col.str.upper()

Sama merkkijono voidaan myös muuntaa pieniksi kirjaimilla käyttämällä pienempiä toimintoa.
str_col.str.lower()

Merkkien korvaaminen
Merkkijonomerkit voidaan korvata Torcharrow-kirjastossa korvaustoiminnolla.
str_col.str.replace(‘W’,’A’)

Hahmojen jakaminen
Valtavat merkkijonomerkit voidaan jakaa pienemmiksi merkkijonoiksi split-toiminnolla.
split_str=str_col.str.split(sep=’ ‘) split_str

Käyttämällä yhtä sisäänrakennetuista toiminnoista
Käytämme sisäänrakennettua vähennystoimintoa, jota Torcharrow tukee, pienentääksemme numerosarjan yhdeksi arvoksi.
tuontioperaattori ta.Column([5,6,7,8]).reduce(operator.mul)

Kyselyt Torcharrow-tietokehyksestä, joka on samanlainen kuin SQL Query
Luodaan Torcharrow-tietokehys ja kysellään datakehystä where-lauseella.
sel_df = ta.DataFrame({‘A’: [‘a’, ‘b’, ‘a’, ‘b’],’B’: [1, 2, 3, 4],’C’: [10,11,12,13]}) sel_df.where(sel_df[‘C’]>11)

Yhteenveto
Torcharrow on yksi Pytorch 1.12 -version beta-vaiheen kirjastoista, jossa on Python-pohjaiseen lähestymistapaan liittyen tarvittavaa käsittelyä, kuten tietojen haku, tietojen lisääminen ja käsittely. Beta-vaiheessa on myös perusSQL-kysely. Torcharrow on suunniteltu tehokkaammaksi muistia ja keskittynyt käsittelemään valtavia tietoja keskusyksikössä. Kirjaston vakaan julkaisun odotetaan siis tukevan eri muotojen tietojen lukemista, tietojen lisäämistä ja käsittelyä eri tavoilla sekä tukevan myös erilaisia SQL-lausekkeita.