robots.txt: mitä se tekee ja miten sitä käytetään SEO:ssa
Internet on täynnä automaattisia vierailijoita. Hakukoneiden botit, joita kutsutaan myös nimellä crawlers tai spiders, käyvät jatkuvasti läpi verkkosivuja kerätäkseen tietoa hakutuloksia varten. robots.txt on yksinkertainen mutta tärkeä tiedosto, joka kertoo näille boteille, mitä sivuja ne saavat indeksoida ja mitä niiden tulisi välttää.
robots.txt on osa teknistä hakukoneoptimointia. Se sijaitsee verkkosivuston juurihakemistossa ja toimii ohjeena hakukoneille. Tiedoston avulla voidaan ohjata hakukoneiden toimintaa ja estää niiden pääsy tiettyihin sivuston osiin.
Esimerkiksi robots.txt löytyy yleensä osoitteesta:
example.com/robots.txt
Kun hakukoneen botti vierailee sivustolla, se tarkistaa ensin robots.txt-tiedoston ja noudattaa siinä annettuja ohjeita ennen sivuston indeksointia.
Miksi robots.txt on tärkeä
Tiedosto auttaa hallitsemaan sitä, mitä sisältöä hakukoneet näkevät. Kaikkia sivuja ei ole tarkoitettu hakutuloksiin, ja tiedosto voi estää hakukoneita indeksoimasta näitä sivuja.
Tällaisia sivuja voivat olla esimerkiksi:
-
hallintapaneelit
-
kirjautumissivut
-
testisivut
-
väliaikaiset sivut
Kun tiedosto on oikein määritetty, hakukoneet keskittyvät sivuston tärkeimpään sisältöön. Tämä voi auttaa hakukoneita indeksoimaan sivuston tehokkaammin ja parantaa sivuston teknistä rakennetta SEO:n näkökulmasta.
robots.txt perusrakenne
Tiedosto on tekstitiedosto, joka sisältää yksinkertaisia komentoja. Yleisimmin käytetyt komennot ovat:
User-agent
Disallow
Allow
Sitemap
User-agent kertoo, mille hakukonebotille ohje koskee. Disallow määrittää sivut tai hakemistot, joita botti ei saa indeksoida.
Yksinkertainen esimerkki robots.txt-tiedostosta näyttää tältä:
User-agent: *
Disallow: /wp-admin/
Tämä tarkoittaa, että kaikki botit (merkitty tähdellä *) eivät saa indeksoida WordPressin hallintapaneelia.
Esimerkki WordPress robots.txt -tiedostosta
WordPress-sivustoilla tiedosto sisältää usein ohjeita, jotka estävät teknisten tiedostojen indeksoinnin.
Tyypillinen esimerkki voisi olla:
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Sitemap: https://example.com/sitemap.xml
Tässä tapauksessa hakukoneita estetään indeksoimasta hallintapaneelia, mutta admin-ajax.php-tiedosto sallitaan. Lisäksi sivukartan osoite ilmoitetaan hakukoneille.
Sivukartan lisääminen tiedostoon auttaa hakukoneita löytämään XML-sivukartan nopeasti.
Milloin robots.txt kannattaa käyttää
robots.txt on hyödyllinen silloin, kun halutaan estää hakukoneita indeksoimasta tiettyjä sivuston osia.
Sitä voidaan käyttää esimerkiksi seuraaviin tarkoituksiin:
-
teknisten kansioiden estäminen
-
testisivujen piilottaminen
-
turhan sisällön rajaaminen indeksoinnista
On kuitenkin tärkeää ymmärtää, että robots.txt ei ole turvallisuustyökalu. Se vain antaa ohjeen boteille, mutta ei estä ihmisiä tai haitallisia botteja pääsemästä sivulle.
Jos sivu halutaan oikeasti estää hakukoneilta, kannattaa käyttää myös noindex-meta-tagia.
Yleiset virheet robots.txt-tiedostossa
Tiedosto on yksinkertainen tiedosto, mutta pienet virheet voivat vaikuttaa merkittävästi hakukonenäkyvyyteen.
Yksi yleisimmistä virheistä on vahingossa estää koko sivusto indeksoinnilta.
Esimerkiksi tämä rivi estää kaikki sivut:
User-agent: *
Disallow: /
Tämä tarkoittaa, että mikään sivu ei ole hakukoneiden indeksoitavissa. Tällainen asetus on joskus käytössä kehitysvaiheessa, mutta se tulee poistaa ennen sivuston julkaisemista.
Toinen virhe on estää tärkeät sivut tai resurssit, kuten CSS- ja JavaScript-tiedostot. Hakukoneet tarvitsevat nämä tiedostot ymmärtääkseen sivuston rakenteen oikein.
Tiedsto ja Google Search Console
Google tarjoaa työkaluja tiedoston testaamiseen. Google Search Console sisältää ominaisuuksia, joiden avulla voidaan tarkistaa, estääkö robots.txt tiettyjen sivujen indeksoinnin.
Testaaminen on tärkeää erityisesti silloin, kun sivustolle tehdään teknisiä muutoksia. Pienikin virhe robots.txt-tiedostossa voi vaikuttaa koko sivuston hakukonenäkyvyyteen.
Search Console auttaa myös tunnistamaan indeksointiongelmia ja varmistamaan, että hakukoneet pääsevät tärkeimpiin sivuihin.
robots.txt osana teknistä SEO:ta
robots.txt on vain yksi osa teknistä hakukoneoptimointia. Parhaat tulokset saavutetaan, kun se toimii yhdessä muiden optimointitekijöiden kanssa.
Näitä ovat esimerkiksi:
-
XML-sivukartta
-
sisäinen linkitys
-
sivuston nopeus
-
mobiiliystävällisyys
Kun robots.txt on oikein määritetty, hakukoneet voivat keskittyä sivuston tärkeimpään sisältöön. Tämä tekee indeksoinnista tehokkaampaa ja voi parantaa sivuston näkyvyyttä hakutuloksissa.
Yhteenveto
robots.txt on yksinkertainen mutta erittäin tärkeä tiedosto verkkosivuston teknisessä SEO:ssa. Sen avulla voidaan ohjata hakukoneiden botteja ja hallita sitä, mitä sivuja indeksoidaan.
Oikein käytettynä robots.txt auttaa hakukoneita keskittymään sivuston tärkeimpiin sivuihin ja estää turhan sisällön indeksoinnin. WordPress-sivustoilla robots.txt voidaan helposti luoda ja hallita joko manuaalisesti tai SEO-lisäosien avulla.
Kun robots.txt toimii yhdessä XML-sivukartan ja hyvän sivustorakenteen kanssa, hakukoneet voivat indeksoida sivuston tehokkaammin ja parantaa mahdollisuuksia näkyä hakutuloksissa.
