Gekissimo.net - Opi ansaitsemaan rahaa webilläsi Internetissä!

Torcharrow: PyTorch-kehys CPU-pohjaiseen suuren tiedonkäsittelyyn

Seuraava artikkeli auttaa sinua: Torcharrow: PyTorch-kehys CPU-pohjaiseen suuren tiedonkäsittelyyn

Pytorch 1.12:n uuden version julkaisun myötä Pytorch on kehittänyt uuden DataFrame-kirjaston tietojen visualisointia tai esikäsittelyä varten nimeltä Torcharrow. Torcharrow on Pytorch-kirjasto tietojen käsittelyyn ja visualisointiin, joka tukee taulukkotietojen käsittelyä ja sopii paremmin syvälle oppimisdatalle. Torcharrow on keksinyt mahdollisuuden nopeampaan tietojen käsittelyyn prosessointiyksikön kevyemmällä käytöllä. Tässä artikkelissa saamme lyhyen yleiskatsauksen Pytorch 1.12:n uusimmasta esikäsittelykirjastosta nimeltä Torcharrow.

Sisällysluettelo

  1. Yleiskatsaus Torcharrow’sta
  2. Torcharrow’n edut
  3. Tietojen käsittely Torcharrow’n avulla
  4. Yhteenveto

Yleiskatsaus Torcharrow’sta

Pytorchia, avoimen lähdekoodin koneoppimis- ja syväoppimiskehystä, joka perustuu taskulamppukirjastoon, käytetään erilaisissa sovelluksissa, kuten tietokonenäössä ja luonnollisen kielen käsittelyssä. PyTorch julkaisi uuden version Pytorch 1.12 28. kesäkuuta 2022. Uuden version julkaisun myötä Pytorch on luonut uuden API:n nopeampaan ja tehokkaampaan tietojenkäsittelykirjastoon nimeltä Torcharrow, joka on vielä beta-vaiheessa. lisää ominaisuuksia. Torcharrow on tietojenkäsittelykirjasto, joka pyrkii käsittelemään ja prosessoimaan tietoja mahdollisimman vähän resursseja ja vähemmän painoa keskusyksikköön.

Etsitkö täydellistä arkistoa tietotieteessä käytettävistä Python-kirjastoista, katso tästä.

Torcharrow noudattaa samaa hierarkiaa ja toimintaominaisuuksia kuin Pandas-kirjasto, jolla on samanlainen tietojenkäsittelykyky. Beta-vaiheessa oleva Torcharrow tarjoaa tietojenkäsittelyn erilaisilla näkökohdilla, kuten tietojen lisäämisellä, tietojen käsittelyllä, tilastollisella tietojen analysoinnilla sekä tietojen kyselyllä SQL-kyselyihin liittyen. Kun vakaa versio on toivottavasti julkaistu, Torcharrow tukee kaikkia tarvittavia käsittelyvaiheita.

Torcharrow’n edut

Tietojenkäsittelyn Torcharrow-kirjastolla on useita etuja tehokkaassa tietojenkäsittelyssä ja käsittelyssä. He ovat:

  • Torcharrow tukee datan eri ulottuvuuksia yksittäisistä saraketiedoista monisarakkeisiin tietoihin, kuten datakehykseen.
  • Torcharrow tukee erityyppisiä tietoja, kuten numeroita, merkkijonoja ja luetteloita.
  • Torcharrow pyrkii tukemaan monimutkaisia ​​taskulampputietoja minimaalisilla resursseilla ja toimimaan moitteettomasti laitteilla, jotka käyttävät vain prosessoria.
  • Helppo integrointi ja kirjaus Pytorch DataLoaderin ja Datapipen suhteen.

Täydellinen katsaus tietojenkäsittelyyn Torcharrow’n avulla

Asennataan ensin Torcharrow-kirjasto työympäristöön.

!pip install –user torcharrow tuonti torcharrow as ta import torcharrow.dtypes as dt tuonti torcharrow.expression muodossa exp tuonti varoitukset warnings.filterwarnings(‘ohita’)

🔥 Empfohlen:  Apple Watchisi saattaa saada yllättävän suuren päivityksen tänä vuonna

Nyt torcharrow-kirjasto on asennettu ja ladattu työympäristöön. Aloitetaan Torcharrowin tukemien yksiulotteisten tietojen tutkiminen.

Yksiulotteinen tietojenkäsittely Torcharrow’n avulla

Panda-sarjan tapaan Torcharrow tukee yksiulotteista tietojenkäsittelyä Column-toiminnon avulla. Katsotaanpa kuinka käsitellä tietoja Torcharrow’n Column-toiminnolla.

Sarakkeen luominen

col1=ta.Column([1,2,3,4,5,None]) sarake1

Torcharrow’n sarakefunktio on luotava käyttämällä Torcharrow-instanssia ja Torcharrow-sarake pitää arvoa kokonaislukuina, mikä vähentää muistin varausta, ja Torcharrow-sarakefunktiolla on kyky noutaa tulosteen nolla-arvojen määrä pituuden kanssa. sarakkeen ja sarakkeen tietotyypin.

Yleiset saraketoiminnot

Torcharrow’n beta-versiossa Column-toiminnot tukevat kahta toimintoa, ja ne ovat alla esitetyn mukaisia.

Pituuden laskeminen

Sarakkeen pituus voidaan laskea “len”-funktiolla, joka antaa tietoa tietokehyksen rivien lukumäärästä.

col2=ta.Column([1.1,2.2,3.3,4.4,5.5,None]) len(col2) ## Tiedon pituuden hakeminen

Joten tässä Torcharrow’n saraketietotyypissä on 6 riviä.

Nolla-arvojen määrän laskeminen

Tietokehyksen nolla-arvojen määrä voidaan laskea käyttämällä Torcharrow-kirjaston null_count-funktiota alla esitetyllä tavalla.

col2=ta.Column([1.1,2.2,3.3,4.4,5.5,None]) col2.null_count ## Nolla-arvojen lukumäärän saamiseksi sarakkeessa

Tässä sarakkeen tietotyypissä “Ei mitään” pidetään nolla-arvona.

Torcharrow-sarakkeen luominen muuttuvalla merkkijonopituudella

Torcharrow tukee vaihtelevan pituisia merkkijonoja, jotka voidaan välittää Column-tietotyyppiin.

str_col1=ta.Column([[‘Torcharrow’,’Column’],[‘Torcharrow’,’is’,’still’,’in’,’beta-stage’]]) str_col1

Sarake-tietotyyppiin välitetyt merkkijonot katsotaan oletusarvoisesti luettelotietotyypeiksi. Luodun muuttuvapituisen merkkijonon tyyppi voidaan myös hakea type-funktiolla.

tyyppi (str_col1)

Yhden arvon lisääminen saraketietokehykseen

Uusien arvojen lisääminen voidaan tehdä Torcharrow’n Column-tietokehyksen append-toiminnolla, jossa sekä yksittäisiä arvoja että useita arvoja voidaan liittää samanaikaisesti.

str_col1=ta.Column([[‘Torcharrow’,’Column’],[‘Torcharrow’,’is’,’still’,’in’,’beta-stage’]])

Yllä luodun Column-tietotyypin osalta katsotaanpa ensin, kuinka yksittäinen arvo lisätään.

str_col1=str_col1.append([[‘Torcharrow’,’is’,’faster’,’and’,’efficient’]]) str_col1

Useiden arvojen liittäminen sarakkeen tietokehykseen

Samalla tavalla useita arvoja voidaan liittää käyttämällä erilaisia ​​luettelo-esiintymiä yksittäisessä lisäystoiminnossa alla esitetyllä tavalla.

str_col1=str_col1.append([[‘My’,’name’,’is’,’ABC’],[‘I’,’reside’,’at’,’XYZ’]]) str_col1

Työskentely Torcharrow Dataframen kanssa

Torcharrow-tietokehykset ovat samanlaisia ​​kuin panda-tietokehykset, mutta koska Torcharrow on vielä beta-vaiheessa ja Torcharrow-tietokehys ei vieläkään pysty lukemaan eri muotoisia tietoja, kuten CSV-, teksti- ja HTML-tiedostoja. Katsotaanpa, mitä kaikkea prosessointia voidaan tehdä käyttämällä torcharrow-tietokehyksen beta-vaihetta.

Torcharrow-tietokehyksen luominen

Torcharrow-tietokehys voidaan luoda käyttämällä Torcharrow’n sisäänrakennettua toimintoa alla olevan kuvan mukaisesti.

🔥 Empfohlen:  Spotify saa ensimmäisen suuren uudistuksen 10 vuoteen TikTok-kaltaisella rullauksella

df = ta.DataFrame({“Sarake1”: lista(alue(10,10+10)), “Sarake2”: lista(käänteinen(väli(20,20+10))), “Sarake3”: lista(alue( 30,30+10))}) df

Haetaan Torcharrow-tietokehyksen sarakkeita

Torcharrow-tietokehyksen sarakkeet voidaan hakea sarakkeet-toiminnolla.

df.columns

Tietojen haku tietokehyksestä

Torcharrow-tietokehys helpottaa head and tail -toimintoa, jossa datakehyksen ensimmäinen ja viimeinen merkintä voidaan hakea vastaavasti.

df.head(3) ## Haetaan torcharrow-tietokehyksen 3 ensimmäistä merkintää

df.tail(3) ## Haetaan torcharrow-tietokehyksen 3 viimeistä merkintää

Joten käyttämällä head and tail -toimintoa voidaan hakea datakehyksen ensimmäinen ja viimeinen merkintä.

Uuden sarakkeen lisääminen Torcharrow-tietokehykseen

Pandas-moduulin tapaan Torcharrow-tietokehykseen voidaan lisätä uusi sarake, jossa uudessa lisättävässä sarakkeessa määritetään nimi sekä lisättävät arvot.

df[‘Col4’]=ta.Sarake(list(alue(41,41+10))) df

Joten tässä voimme nähdä, että uusi sarake lisätään alkuperäiseen tietokehykseen

Rivien lisääminen Torcharrow-tietokehykseen

Rivejä voidaan lisätä Torcharrow-tietokehykseen käyttämällä liitetoimintoa alla kuvatulla tavalla.

df=df.append([(10,100,101,102),(11,110,111,112)]) df

Datakehyksen arvojen manipulointi

Tietokehyksen arvoja voidaan manipuloida käyttämällä mitä tahansa matemaattista operaattoria tai mitä tahansa funktiota. Katsotaanpa, kuinka datakehyksen arvoa muokataan summaustoiminnolla.

df[‘Col1’]=df[‘Col1’]+50 df

Tässä näemme, että jokainen sarakkeen 1 50 arvo lisätään.

Valintatoiminnot

Torcharrow tukee sekä merkkijono- että kokonaislukupohjaisia ​​valintoja sekä viipalointia. Katsotaan kuinka Torcharrow’ta voidaan käyttää erilaisiin valintatoimintoihin.

Merkkijonopohjainen valinta

Vaadittu sarakkeen nimi on mainittava hakasulkeissa merkkijonopohjaisessa valinnassa.

df[‘Col1’]

Viipalointi: merkkijonopohjainen valinta

Samalla tavalla leikkaamalla voidaan hakea tarvittavat sarakkeet.

df[‘Col1′:’Col3’]

Kokonaislukupohjainen valinta

Kokonaislukupohjaista valintaa varten on määritettävä noutoon vaadittavat rivit.

df[1]

Viipalointi: Kokonaislukupohjainen valinta

Tarvittavat rivit voidaan määrittää hakasulkeissa, joissa viimeinen arvo on poissulkeva.

df[1:5]

Olosuhteisiin perustuva valinta

Ehtoon perustuvaa valintaa varten on määritettävä vaadittu sarake, joka tarkistetaan yhdessä tarkistettavan ehdon kanssa, mikä palauttaa loogisen lähtöarvon.

df[‘Col1’]>65 ## palauttaa loogisen lähtöarvon

Jos ehdon arvot on haettava, dataframe-objektia on käytettävä ehdon kanssa.

df[df[‘Col1’]>65]## Dataframe-arvot määritetylle ehdolle noudetaan

Puuttuvien arvojen käsittely

Torcharrow-tietokehyksen avulla puuttuvat arvot voidaan imputoida vaaditulla arvolla tai puuttuva arvo voidaan jättää pois.

Katsotaanpa, kuinka puuttuva arvo lasketaan vaaditulla arvolla.

🔥 Empfohlen:  39 parasta rahaa tienaavaa sovellusta suuren rahan saamiseksi!

s=ta.Column([1,2,3,None,5]) s=s.fill_null(4) s

Samalla tavalla voidaan poistaa koko rivi, jossa on puuttuva arvo.

s.drop_null()

Tapauksen muunnostoiminnot

Koko merkkijono voidaan muuntaa isoiksi käyttämällä yläfunktiota.

str_col=ta.Column([‘Welcome to Torcharrow’,’Today is a beautiful day’]) str_col.str.upper()

Sama merkkijono voidaan myös muuntaa pieniksi kirjaimilla käyttämällä pienempiä toimintoa.

str_col.str.lower()

Merkkien korvaaminen

Merkkijonomerkit voidaan korvata Torcharrow-kirjastossa korvaustoiminnolla.

str_col.str.replace(‘W’,’A’)

Hahmojen jakaminen

Valtavat merkkijonomerkit voidaan jakaa pienemmiksi merkkijonoiksi split-toiminnolla.

split_str=str_col.str.split(sep=’ ‘) split_str

Käyttämällä yhtä sisäänrakennetuista toiminnoista

Käytämme sisäänrakennettua vähennystoimintoa, jota Torcharrow tukee, pienentääksemme numerosarjan yhdeksi arvoksi.

tuontioperaattori ta.Column([5,6,7,8]).reduce(operator.mul)

Kyselyt Torcharrow-tietokehyksestä, joka on samanlainen kuin SQL Query

Luodaan Torcharrow-tietokehys ja kysellään datakehystä where-lauseella.

sel_df = ta.DataFrame({‘A’: [‘a’, ‘b’, ‘a’, ‘b’],’B’: [1, 2, 3, 4],’C’: [10,11,12,13]}) sel_df.where(sel_df[‘C’]>11)

Yhteenveto

Torcharrow on yksi Pytorch 1.12 -version beta-vaiheen kirjastoista, jossa on Python-pohjaiseen lähestymistapaan liittyen tarvittavaa käsittelyä, kuten tietojen haku, tietojen lisääminen ja käsittely. Beta-vaiheessa on myös perusSQL-kysely. Torcharrow on suunniteltu tehokkaammaksi muistia ja keskittynyt käsittelemään valtavia tietoja keskusyksikössä. Kirjaston vakaan julkaisun odotetaan siis tukevan eri muotojen tietojen lukemista, tietojen lisäämistä ja käsittelyä eri tavoilla sekä tukevan myös erilaisia ​​SQL-lausekkeita.

Viitteet