Seuraava artikkeli auttaa sinua: 6 yleistä Robots.txt-ongelmaa ja niiden korjaaminen
Robots.txt on hyödyllinen ja suhteellisen tehokas työkalu ohjeistamaan hakukoneiden indeksointirobotteja, kuinka haluat heidän indeksoivan verkkosivustoasi.
Se ei ole kaikkivoipa (in Googlen omat sanat“se ei ole mekanismi web-sivun pitämiseen poissa Googlesta”), mutta se voi auttaa estämään sivustosi tai palvelimesi ylikuormituksen indeksointipyyntöjen takia.
Jos sinulla on tämä indeksointiesto käytössä sivustossasi, sinun on varmistettava, että sitä käytetään oikein.
Tämä on erityisen tärkeää, jos käytät dynaamisia URL-osoitteita tai muita menetelmiä, jotka luovat teoreettisesti äärettömän määrän sivuja.
Tässä oppaassa tarkastellaan joitain yleisimmistä robots.txt-tiedostoon liittyvistä ongelmista, niiden mahdollisista vaikutuksista verkkosivustoosi ja haussa olemiseen sekä näiden ongelmien korjaamiseen, jos epäilet niitä ilmenneen.
Mutta ensin tarkastellaan nopeasti robots.txt-tiedostoa ja sen vaihtoehtoja.
Mikä on Robots.txt?
Robots.txt käyttää pelkkää tekstiä sisältävää tiedostomuotoa ja se sijoitetaan verkkosivustosi juurihakemistoon.
Sen on oltava sivustosi ylimmässä hakemistossa. jos sijoitat sen alihakemistoon, hakukoneet yksinkertaisesti jättävät sen huomiotta.
Suuresta tehostaan huolimatta robots.txt on usein suhteellisen yksinkertainen dokumentti, ja robots.txt-perustiedosto voidaan luoda muutamassa sekunnissa esimerkiksi muokkausohjelmalla. Muistilehtiö.
On olemassa muita tapoja saavuttaa joitakin samoja tavoitteita, joihin robots.txt-tiedostoa yleensä käytetään.
Yksittäiset sivut voivat sisältää robots-sisällönkuvauskentän itse sivun koodissa.
Voit myös käyttää X-Robots-Tag HTTP-otsikkoa vaikuttaaksesi siihen, miten (ja näkyykö) sisältö hakutuloksissa.
Mitä Robots.txt voi tehdä?
Robots.txt voi saavuttaa erilaisia tuloksia useissa eri sisältötyypeissä:
Web-sivujen indeksointi voidaan estää.
Ne saattavat silti näkyä hakutuloksissa, mutta niissä ei ole tekstikuvausta. Sivun muuta kuin HTML-sisältöä ei myöskään indeksoida.
Mediatiedostot voidaan estää näkymästä Googlen hakutuloksissa.
Tämä sisältää kuvia, videoita ja äänitiedostoja.
Jos tiedosto on julkinen, se on edelleen “olemassa” verkossa ja sitä voidaan tarkastella ja linkittää, mutta tämä yksityinen sisältö ei näy Google-hauissa.
Resurssitiedostot, kuten merkityksettömät ulkoiset skriptit, voidaan estää.
Mutta tämä tarkoittaa, että jos Google indeksoi sivun, joka vaatii kyseisen resurssin latautumista, Googlebot-robotti “näkee” sivun version ikään kuin kyseistä resurssia ei olisi olemassa, mikä voi vaikuttaa indeksointiin.
Et voi käyttää robots.txt-tiedostoa kokonaan estämään verkkosivua näkymästä Googlen hakutuloksissa.
Tämän saavuttamiseksi sinun on käytettävä vaihtoehtoista menetelmää, kuten lisäämällä noindex-sisällönkuvauskenttä sivun yläosaan.
Kuinka vaarallisia ovat Robots.txt-virheet?
Virhe robots.txt-tiedostossa voi aiheuttaa tahattomia seurauksia, mutta se ei useinkaan ole maailmanloppu.
Hyvä uutinen on, että korjaamalla robots.txt-tiedoston voit toipua kaikista virheistä nopeasti ja (yleensä) kokonaan.
Googlen opastus verkkokehittäjille sanoo tämän robots.txt-virheistä:
“Indeksointirobotit ovat yleensä erittäin joustavia, eivätkä ne yleensä häiritse robots.txt-tiedoston pienet virheet. Yleensä pahin, mitä voi tapahtua, on se, että se on väärin [or] ei-tuetut käskyt ohitetaan.
Muista kuitenkin, että Google ei voi lukea ajatuksia tulkitessaan robots.txt-tiedostoa. meidän on tulkittava hakemamme robots.txt-tiedosto. Jos olet kuitenkin tietoinen robots.txt-tiedostossasi olevista ongelmista, ne on yleensä helppo korjata.”
6 yleistä Robots.txt-virhettä
- Robots.txt ei ole juurihakemistossa.
- Jokerimerkkien huono käyttö.
- Noindex Robots.txt-tiedostossa.
- Estetyt skriptit ja tyylitaulukot.
- Ei sivustokartan URL-osoitetta.
- Pääsy kehityssivustoille.
Jos verkkosivustosi käyttäytyy oudosti hakutuloksissa, robots.txt-tiedostosi on hyvä paikka etsiä virheitä, syntaksivirheitä ja ylimitoitettuja sääntöjä.
Katsotaanpa kutakin yllä olevista virheistä yksityiskohtaisemmin ja katsotaan, kuinka voit varmistaa, että sinulla on kelvollinen robots.txt-tiedosto.
1. Robots.txt ei ole juurihakemistossa
Hakurobotit voivat löytää tiedoston vain, jos se on juurikansiossasi.
Tästä syystä sivustosi .com-osoitteen (tai vastaavan verkkotunnuksen) ja robots.txt-tiedostonimen välillä tulee olla vain vinoviiva robots.txt-tiedoston URL-osoitteessa.
Jos siinä on alikansio, robots.txt-tiedostosi ei todennäköisesti näy hakuroboteille, ja verkkosivustosi käyttäytyy luultavasti kuin robots.txt-tiedostoa ei olisi ollenkaan.
Korjaa tämä ongelma siirtämällä robots.txt-tiedosto juurihakemistoosi.
On syytä huomata, että tämä edellyttää, että sinulla on pääkäyttäjän oikeudet palvelimellesi.
Jotkut sisällönhallintajärjestelmät lataavat tiedostoja media-alihakemistoon (tai johonkin vastaavaan) oletuksena, joten sinun on ehkä vältettävä tämä, jotta robots.txt-tiedostosi tulee oikeaan paikkaan.
2. Jokerimerkkien huono käyttö
Robots.txt tukee kahta yleismerkkiä:
- tähti* joka edustaa mitä tahansa kelvollisen hahmon esiintymiä, kuten Jokeria korttipakassa.
- Dollarin merkki $ joka ilmaisee URL-osoitteen loppua, jolloin voit soveltaa sääntöjä vain URL-osoitteen viimeiseen osaan, kuten tiedostotyyppitunnisteeseen.
On järkevää omaksua minimalistinen lähestymistapa jokerimerkkien käyttöön, koska ne voivat asettaa rajoituksia paljon laajempaan verkkosivustosi osaan.
On myös suhteellisen helppoa päätyä estämään robotin pääsy koko sivustoltasi huonosti sijoitetulla tähdellä.
Voit korjata jokerimerkkiongelman etsimällä väärän jokerimerkin ja siirtämällä tai poistamalla sen, jotta robots.txt-tiedostosi toimii tarkoitetulla tavalla.
3. Noindex tiedostossa Robots.txt
Tämä on yleisempää sivustoilla, jotka ovat yli muutaman vuoden vanhoja.
Google on lopettanut noindex-sääntöjen noudattamisen robots.txt-tiedostoissa 1. syyskuuta 2019 alkaen.
Jos robots.txt-tiedostosi on luotu ennen kyseistä päivämäärää tai se sisältää noindex-ohjeita, näet todennäköisesti kyseiset sivut indeksoituna Googlen hakutuloksissa.
Ratkaisu tähän ongelmaan on toteuttaa vaihtoehtoinen “noindex” menetelmä.
Yksi vaihtoehto on robots-sisällönkuvauskenttä, jonka voit lisätä minkä tahansa verkkosivun päähän, jonka haluat estää Googlea indeksoimasta.
4. Estetyt skriptit ja tyylitaulukot
Saattaa tuntua loogiselta estää indeksointirobottien pääsy ulkoisiin JavaScript-koodeihin ja CSS-tyylitaulukkoihin.
Muista kuitenkin, että Googlebot tarvitsee pääsyn CSS- ja JS-tiedostoihin voidakseen “nähdä” HTML- ja PHP-sivusi oikein.
Jos sivusi käyttäytyvät oudosti Googlen tuloksissa tai näyttää siltä, että Google ei näe niitä oikein, tarkista, estätkö indeksointirobotin pääsyn tarvittaviin ulkoisiin tiedostoihin.
Yksinkertainen ratkaisu tähän on poistaa robots.txt-tiedostosta rivi, joka estää pääsyn.
Tai jos sinulla on joitain tiedostoja, jotka sinun on estettävä, lisää poikkeus, joka palauttaa pääsyn tarvittaviin CSS- ja JavaScript-koodeihin.
5. Ei sivustokartan URL-osoitetta
Tämä koskee enemmän SEO:ta kuin mitään muuta.
Voit sisällyttää sivustokarttasi URL-osoitteen robots.txt-tiedostoosi.
Koska tämä on ensimmäinen paikka, johon Googlebot etsii, kun se indeksoi verkkosivustoasi, tämä antaa indeksointirobotille etumatkan sivustosi rakenteen ja pääsivujen tuntemiseen.
Vaikka tämä ei ole varsinaisesti virhe, sillä sivustokartan pois jättämisen ei pitäisi vaikuttaa negatiivisesti verkkosivustosi todellisiin ydintoimintoihin ja ulkoasuun hakutuloksissa, kannattaa silti lisätä sivustokarttasi URL-osoite robots.txt-tiedostoon, jos haluat antaa hakukoneoptimoinnille tehostaa.
6. Pääsy kehityssivustoille
Indeksointirobottien estäminen live-verkkosivustoltasi on ei-ei, mutta myös niiden salliminen indeksoida sivusi, jotka ovat vielä kehitteillä.
Paras käytäntö on lisätä esto-ohje rakenteilla olevan verkkosivuston robots.txt-tiedostoon, jotta suuri yleisö ei näe sitä ennen kuin se on valmis.
Samoin on ratkaisevan tärkeää poistaa esto-ohje, kun käynnistät valmiin verkkosivuston.
Tämän rivin unohtaminen robots.txt-tiedostosta on yksi verkkokehittäjien yleisimmistä virheistä, ja se voi estää koko verkkosivustoasi indeksoinnin oikein.
Jos kehityssivustosi näyttää saavan todellista liikennettä tai äskettäin julkaistu verkkosivustosi ei toimi ollenkaan hyvin haussa, etsi robots.txt-tiedostostasi yleinen käyttäjäagentin estosääntö:
Käyttäjä agentti: *
Estä: /
Jos näet tämän, kun sinun ei pitäisi (tai et näe sitä silloin, kun sinun pitäisi), tee tarvittavat muutokset robots.txt-tiedostoosi ja tarkista, että verkkosivustosi hakuulkoasu päivittyy vastaavasti.
Robots.txt-virheestä palautuminen
Jos robots.txt-tiedoston virheellä on ei-toivottuja vaikutuksia verkkosivustosi hakuulkonäköön, tärkein ensimmäinen askel on korjata robots.txt-tiedosto ja varmistaa, että uusilla säännöillä on haluttu vaikutus.
Jotkut SEO-indeksointityökalut voivat auttaa tässä, joten sinun ei tarvitse odottaa, että hakukoneet indeksoivat sivustosi seuraavan kerran.
Kun olet varma, että robots.txt toimii halutulla tavalla, voit yrittää saada sivustosi indeksoitua uudelleen mahdollisimman pian.
Alustat kuten Google Search Console ja Bing Webmaster Tools voi auttaa.
Lähetä päivitetty sivustokartta ja pyydä epäasianmukaisesti poistettujen sivujen uudelleenindeksointia.
Valitettavasti olet Googlebotin mielijohteessa – ei ole takeita siitä, kuinka kauan saattaa kestää, ennen kuin puuttuvat sivut ilmestyvät uudelleen Google-hakuhakemistoon.
Ainoa mitä voit tehdä, on ryhtyä oikeisiin toimiin minimoidaksesi tämän ajan mahdollisimman paljon ja jatkaa tarkistamista, kunnes Googlebot on ottanut korjatun robots.txt-tiedoston käyttöön.
Lopulliset ajatukset
Robots.txt-virheiden osalta ennaltaehkäisy on ehdottomasti parempi kuin hoito.
Suurella tuloja tuottavalla verkkosivustolla hajamerkki, joka poistaa koko verkkosivustosi Googlesta, voi vaikuttaa välittömästi tuloihin.
Kokeneiden kehittäjien tulee tehdä robots.txt-tiedoston muokkaukset huolellisesti, ne on tarkistettava ja tarvittaessa saatava toinen lausunto.
Jos mahdollista, testaa hiekkalaatikkoeditorissa ennen kuin julkaiset livenä todellisessa palvelimessasi varmistaaksesi, että et aiheuta vahingossa saatavuusongelmia.
Muista, että kun pahin tapahtuu, on tärkeää olla panikoimatta.
Diagnosoi ongelma, tee tarvittavat korjaukset robots.txt-tiedostoon ja lähetä sivustokarttasi uudelleen uutta indeksointia varten.
Paikkasi haku rankingissa toivottavasti palautetaan muutamassa päivässä.
Lisää resursseja: