Seuraava artikkeli auttaa sinua: Semanttinen avainsanaklusterointi yli 10 000 avainsanalle [With Script]
Semanttinen avainsanaklusterointi voi auttaa viemään avainsanatutkimuksesi uudelle tasolle.
Tässä artikkelissa opit käyttämään Google Colaboratory -taulukkoa, joka on jaettu yksinomaan Search Engine Journalin lukijoille.
Tämä artikkeli opastaa sinua käyttämään Google Colab -taulukkoa, korkean tason näkymää konepellin toiminnasta ja opastaa sinua tarpeidesi mukaisten säätöjen tekemiseen.
Mutta ensinnäkin, miksi avainsanoja klusteroidaan?
Avainsanojen klusteroinnin yleisiä käyttötapauksia
Tässä on muutamia käyttötapauksia avainsanojen ryhmittelyyn.
Nopeampi avainsanatutkimus:
- Suodata tuotemerkkiavainsanat tai avainsanat, joilla ei ole kaupallista arvoa.
- Ryhmittele aiheeseen liittyvät avainsanat yhteen luodaksesi perusteellisempia artikkeleita.
- Ryhmittele aiheeseen liittyvät kysymykset ja vastaukset yhteen UKK:n luomista varten.
Maksulliset hakukampanjat:
- Luo negatiivisten avainsanojen luetteloita mainoksille nopeammin suuria tietojoukkoja käyttämällä – älä tuhlaa rahaa roskaisiin avainsanoihin!
- Ryhmittele samankaltaisia avainsanoja kampanjaideoiksi mainoksia varten.
Tässä on esimerkki käsikirjoituksesta, joka ryhmittelee samankaltaisia kysymyksiä yhteen, mikä sopii täydellisesti perusteelliseen artikkeliin!
Tämän työkalun aiempien versioiden ongelmat
Jos olet seurannut työtäni Twitterissä, tiedät, että olen kokeillut avainsanaklusterointia jo jonkin aikaa.
Tämän käsikirjoituksen aikaisemmat versiot perustuivat erinomaiseen PolyFuzz-kirjasto käyttämällä TF-IDF yhteensopivuus.
Samalla kun se sai työn valmiiksi, siellä oli aina päätä raapivia klustereita, joissa mielestäni alkuperäistä tulosta voisi parantaa.
Sanat, joilla on samanlainen kirjainkuvio, ryhmitettäisiin, vaikka ne eivät liittyisi semanttisesti.
Se ei esimerkiksi pystynyt yhdistämään sanoja, kuten “pyörä” ja “polkupyörä”.
Käsikirjoituksen aikaisemmissa versioissa oli myös muita ongelmia:
- Se ei toiminut hyvin muilla kielillä kuin englanniksi.
- Se loi suuren määrän ryhmiä, joita ei voitu ryhmitellä.
- Klusterien luomiseen ei ollut paljon hallintaa.
- Käsikirjoitus oli rajoitettu noin 10 000 riviin ennen kuin se aikakatkaistiin resurssien puutteen vuoksi.
Semanttinen avainsanojen klusterointi Deep Learning Natural Language Processing (NLP) -käsittelyllä
Kelaa neljä kuukautta eteenpäin viimeisimpään julkaisuun, joka on kirjoitettu kokonaan uudelleen hyödyntämään huippuluokan, syvän oppimisen lauseiden upotuksia.
Tutustu joihinkin näistä mahtavista semanttisista klustereista!
Huomaatko, että lämmitetty, lämpö ja lämmin sisältyvät samaan avainsanaryhmään?
Tai entä tukku- ja irtotavaramyynti?
Koira ja mäyräkoira, joulu ja joulu?
Se voi jopa ryhmitellä avainsanoja yli sadalla eri kielellä!
Uuden skriptin ominaisuudet vs. aikaisemmat iteraatiot
Semanttisen avainsanojen ryhmittelyn lisäksi seuraavat parannukset on lisätty tämän skriptin uusimpaan versioon.
- Tuki yli 10 000 avainsanan klusterointiin kerralla.
- Vähennetty ei klusteriryhmiä.
- Mahdollisuus valita erilaisia esikoulutettuja malleja (vaikka oletusmalli toimii hyvin!).
- Kyky valita, kuinka läheisesti sukua klusterien tulee olla.
- Valitaan avainsanojen vähimmäismäärä klusteria kohden.
- Automaattinen merkkikoodauksen ja CSV-erottimien tunnistus.
- Monikielinen klusterointi.
- Toimii monien yleisten avainsanojen viennin kanssa. (Search Console Data, AdWords tai kolmannen osapuolen avainsanatyökalut, kuten Ahrefs ja Semrush).
- Toimii minkä tahansa CSV-tiedoston kanssa, jonka sarake on “Avainsana”.
- Yksinkertainen käyttää (Skripti toimii lisäämällä uuden sarakkeen nimeltä Cluster Name mihin tahansa ladattujen avainsanaluetteloon).
Skriptin käyttäminen viidessä vaiheessa (pika aloitus)
Päästäksesi alkuun, sinun on tehtävä klikkaa tätä linkkiäja valitse sitten vaihtoehto Avaa Colabissa alla olevan kuvan mukaisesti.
Muuta suoritusajan tyypiksi GPU valitsemalla > .
Valitse > kaikki Google Colaboratoryn ylänavigointivalikosta (tai paina Ctrl+F9).
Lähetä pyydettäessä .csv-tiedosto, joka sisältää sarakkeen nimeltä “Keyword”.
Klusterin pitäisi olla melko nopeaa, mutta viime kädessä se riippuu avainsanojen määrästä ja käytetystä mallista.
Yleisesti ottaen sinun pitäisi olla hyvä 50 000 avainsanalle.
Jos näet Cuda-muisti loppumassa -virheen, yrität ryhmitellä liian monta avainsanaa samanaikaisesti!
(On syytä huomata, että tämä skripti voidaan helposti sovittaa toimimaan paikallisella koneella ilman Google Colaboratoryn rajoituksia.)
Script-tulostus
Komentosarja suoritetaan ja liittää klusterit alkuperäiseen tiedostoosi uuteen sarakkeeseen nimeltä Cluster Name.
Klusterien nimet määritetään käyttämällä klusterin lyhimmän pituuden avainsanaa.
Esimerkiksi seuraavan avainsanaryhmän klusterin nimeksi on asetettu “alpakkasukat”, koska se on klusterin lyhin avainsana.
Kun klusterointi on valmis, uusi tiedosto tallennetaan automaattisesti, ja klusterit lisätään uuteen sarakkeeseen alkuperäiseen tiedostoon.
Kuinka Key Clustering Tool toimii
Tämä käsikirjoitus perustuu Nopea klusterointialgoritmi ja käyttää malleja, jotka on esikoulutettu mittakaavassa suurille tietomäärille.
Tämä helpottaa avainsanojen välisten semanttisten suhteiden laskemista valmiiden mallien avulla.
(Sinun ei tarvitse olla datatieteilijä käyttääkseen sitä!)
Itse asiassa, vaikka olen tehnyt siitä muokattavissa niille, jotka haluavat puuhailla ja kokeilla, olen valinnut joitain tasapainotettuja oletusasetuksia, joiden pitäisi olla kohtuullisia useimpien ihmisten käyttötapauksissa.
Eri malleja voidaan vaihtaa skriptiin ja siitä pois vaatimuksista riippuen (nopeampi klusterointi, parempi monikielinen tuki, parempi semanttinen suorituskyky ja niin edelleen).
Pitkän testauksen jälkeen löysin täydellisen tasapainon nopeuden ja tarkkuuden välillä käyttämällä all-MiniLM-L6-v2-muuntajaa, joka tarjosi loistavan tasapainon nopeuden ja tarkkuuden välillä.
Jos haluat käyttää omaasi, voit vain kokeilla, voit korvata olemassa olevan esikoulutetun mallin millä tahansa luetelluista malleista tässä tai päällä Halaava Face Model Hub.
Vaihto valmiiksi koulutettuihin malleihin
Mallien vaihtaminen on yhtä helppoa kuin muuttujan korvaaminen haluamasi muuntajan nimellä.
Voit esimerkiksi muuttaa oletusmallin all-miniLM-L6-v2 muotoon all-mpnet-base-v2 muokkaamalla:
muuntaja = ‘all-miniLM-L6-v2’
to
muuntaja =’all-mpnet-base-v2‘
Tässä voit muokata sitä Google Colaboratory -taulukossa.
Kompromissi klusterin tarkkuuden ja ei klusteriryhmien välillä
Yleinen valitus tämän skriptin aikaisemmista iteraatioista on, että se johti suureen määrään klusteroimattomia tuloksia.
Valitettavasti se on aina tasapainotus klusterin tarkkuuden ja klustereiden määrän välillä.
Suurempi klusterin tarkkuusasetus johtaa suurempaan määrään klusteroimattomia tuloksia.
On olemassa kaksi muuttujaa, jotka voivat suoraan vaikuttaa kaikkien klustereiden kokoon ja tarkkuuteen:
min_klusterin_koko
ja
klusterin tarkkuus
Olen asettanut oletusarvoksi 85 (/100) klusterin tarkkuudelle ja klusterin vähimmäiskooksi 2.
Testauksessa huomasin tämän olevan suloinen paikka, mutta kokeile rohkeasti!
Tässä on paikka, jossa nämä muuttujat asetetaan komentosarjassa.
Se siitä! Toivon, että tästä avainsanaklusterointiohjelmasta on hyötyä työssäsi.
Lisää resursseja: