Seuraava artikkeli auttaa sinua: Kuinka saada Pandas Dataframe gzip-tiedostosta?
Nykyään dataa on saatavilla useissa eri muodoissa ja ne on enimmäkseen pakattu muistin monimutkaisuuden vuoksi ja tiedon siirtämiseksi minkä tahansa alustan kautta. Tietojen pakkaamiseen liittyy yleensä tietojen pakkaaminen ilman tietojen menetystä, ja alkuperäiset tiedot voidaan kehystää uudelleen eri alustoilla purkamalla tiedot vastaavissa muodoissa. Joten gzip on yksi muodoista, joissa suuret tiedostot pakataan pienempiin tiedostomuotoihin ja ne voidaan purkaa helposti, mikä löytää pääasiallisen käyttötarkoituksensa tiedonsiirrossa pilvissä ja palvelimissa ja jota käytetään pääasiassa erilaisissa ETL-työkaluissa. Joten tässä artikkelissa katsotaan, kuinka gzip-tiedosto puretaan yksinkertaiseen pandas-tietokehykseen.
Sisällysluettelo
- Mikä on gzip-tiedosto?
- Gzip-tiedoston edut?
- Toteutus panda-tietokehyksen hankkimiseksi gzip-tiedostosta
- Yhteenveto
Mikä on gzip-tiedosto?
Eri tiedostomuotojen joukossa gzip on myös yksi sellainen tiedostopakkausmuoto, jossa suuremmat tiedostot pakataan pienempiin tiedostomuotoihin enimmäkseen megatavuina (MB). Kaikki gzip-tiedostot päättyvät tiedostomuodon määritteeseen (gz). Tämä zip-tiedostomuoto luotiin pääosin vuonna 1992, ja siitä tehtiin avoimen lähdekoodin tiedostomuoto, jossa ja se oli tarkoitettu käytettäväksi “pakkaus”-nimisen ohjelmointiparadigman yli, ja nyt gzip-tiedostomuotoja käytetään laajalti tiedonsiirron ja ETL-työkalujen helpottamiseen.
Etsitkö täydellistä arkistoa tietotieteessä käytettävistä Python-kirjastoista, katso tästä.
Gzip-tiedoston edut?
- Helppo pakata ja purkaa tiedostomuotoja eri alustoilla
- Vähentää tiedonsiirtoaikaa pilvialustoilla.
- Dynaaminen kyky pakata kaiken tyyppistä dataa suoraan kuvista tekstiksi.
- Nopeampi laskenta verkkopalvelimilla ja 75 % verkkopalvelimista käyttää tätä muotoa.
Toteutus panda-tietokehyksen hankkimiseksi gzip-tiedostosta
Koska gzip tukee eri tietomuotojen pakkausta, gzip-tiedostomuotojen latausaika eri alustoilla vaihtelee resurssien ja alustan mukaan. Jos gzip-tiedostot ladataan pilvipohjaisille tai palvelinpohjaisille alustoille, gzip-tiedostot voivat purkaa nopeasti verrattuna gzip-tiedoston purkamiseen paikallisella laitteistolla.
Joten tässä artikkelissa käytetään tavallista gzip-tiedostoa ja näytetään täydellinen toteutus gzip-tiedoston purkamisesta tavallisessa pandas-tietokehyksessä.
Tuodaan joitain peruskirjastoja, joita tarvittaisiin tietokehyksen lataamiseen
tuonti numpy as np tuonti pandat pd
Tässä pythonin aliprosessimoduulia käytetään käyttöjärjestelmämoduulin sijaan gzip-tiedoston pakkaamiseen helposti, gzip-tiedoston purkamiseen alustasta riippumatta. Check_output -kirjastoa hyödynnetään ja sopivat tiedot puretaan verkkopalvelimen zip-tiedostoista.
aliprosessista tuonti check_output print(check_output([“ls”, “../input”]).decode(“utf8”)
Tässä käytetään periaatteessa kahta gzip-tiedostoa erikokoisilla muistivarauksilla, joissa yhden tiedoston muistin koko on lähellä 400 Mt ja yhden gzip-tiedoston muistia enintään 3 Mt.
Katsotaan, onko aikaeroa pienemmän gzip-tiedoston ja suuremman gzip-tiedoston lataamisen välillä samassa työympäristössä.
Ladataan pienempää gzip-tiedostoa

Tässä näemme, että yritämme purkaa 2,26 Mt:n gzip-tiedoston työympäristössä.
gzip_df_small = pd.read_csv(‘../input/dot_traffic_stations_2015.txt.gz’, compression=’gzip’, header=0, sep=’,’, quotechar=”””) gzip_df_small.head(10)

Ladataan isompaa gzip-tiedostoa

Tässä näemme, että käytämme 465,12 Mt:n gzip-tiedostoa sen purkamiseen työympäristössä.
gzip_df_big = pd.read_csv(‘../input/dot_traffic_2015.txt.gz’, compression=’gzip’, header=0, sep=’,’, quotechar=”””) gzip_df_big.head(10)

Gzip-tiedostojen purkamisen tärkeimmät tulokset
- Gzip-tiedoston koosta ja työympäristöstä riippuen zip-tiedostojen purkaminen voi vaihdella hieman sekuntien murto-osalla minuutteihin.
- Pakkauksen purkamisen aika vaihtelee huomattavasti eri alustoilla, koska gzip renderöi purettuja tiedostoja huomattavalla aikavälillä.
- Jokaisen tietoyksikön tallennuksen ja erottelun tuntemus on tunnettava, jotta voidaan käyttää vaadittuja erotin- ja lainausmerkkejä mahdollisiin erikoismerkkiin.
Yhteenveto
Valtavan datan siirtäminen alun perin eri alustoilla on aikaa vievää, eikä se ole muistitehokasta, eikä tietojen renderöiminen sovelluksille ole mahdollista joidenkin rajoitusten vuoksi. Pakatuilla tiedostomuodoilla on tässä keskeinen rooli tehokkaassa tiedonsiirrossa, ja gzip on yksi sellaisista zip-tiedostomuodoista, jossa sitä käytetään pääasiallisesti tiedonsiirrossa verkkopalvelimien ja ETL-työkalujen kautta tiedon keveyden ja nopeamman purkamisen ansiosta alustasta ja alustasta riippumatta. jos tiedot puretaan pandas-muodossa, niitä voidaan helposti muokata käyttäjän tai tietojenkäsittelijöiden vaatimalla tavalla.