Miten toimia hakurobottien kanssa?

Viime kerralla käsittelin sisällön merkitystä hakukoneoptimoinnin näkökulmasta. Tämä voi tuntua aika kuivalta ja tekniseltä puolelta hakukonemeiningissä, mutta tälläkin on tärkeä rooli sivuston kokonaisuudessa.

Hakukoneiden raakatyön tekevät hakurobotit tai crawlerit, jotka automaattisesti kiertävät internetin sivustoilla keräten ja indeksoiden tietoja. Kun teet uudet sivut tai muutoksia olemassaoleville sivuille, käytännössä muutokset tulevat hakukoneiden tietoon vasta, kun nämä botit ovat kiertäneet sivusi ja tallentaneet muutokset hakukoneen omaan tietokantaan. Botit hoitavat hommansa automaattisesti, mutta on muutama asia, jotka on hyvä tiedostaa hakuroboteista ja niiden toiminnasta.

Hakurobottien esto

On olemassa sivuja, joilla et välttämättä halua crawlereiden toimivan. Tällaisia ovat esimerkiksi kaikki ne sivut, joita et halua nähtäville hakukoneiden tuloksissa, kuten alasivut, jotka eivät tule olemaan hyödyllisiä käyttäjän hakeman tiedon kannalta. Yleissääntönä haluat käyttäjän löytävän ensimmäisenä etusivusi tai erityisen saapumissivun. Voit estää robottien toiminnan tietyillä sivuilla luomalla robots.txt-tiedoston ja lisäämällä sen sivustosi pääkansioon, esim. robots.txt-tiedoston osoite olisi: www.esimerkkisivu.fi/robots.txt.

Esimerkki robots.txt:n sisällöstä:

User-agent: *
Disallow: /kuvat/
Disallow: /haku

Tässä user-agent on hakurobotti, *:lla kaikki hakurobotit valitaan estettäviksi, ja Disallow: komento-estää pääsyn sisältöön. /kuvat/ tarkoittaa, että hakurobotit halutaan estää tarkastelemasta kuvat-kansion tiedostoja, ja /haku esittää, että botteja ei päästetä millekään sivulle, joka löytyy verkko-osoitteen www.esimerkkisivu.fi/haku alapuolelta. Koko sivuston eston voi toteuttaa komennolla Disallow: /.

Tavallisille käyttäjille on suositeltavaa  käyttää hyväksi valmiita työkaluja robots.txt-tiedoston luomisessa, kuten esimerkiksi Googlen Webmaster Toolsia.

On myös huomioitava, että kaikki internetin hakurobotit eivät ole laillisia eivätkä noudata hakurobottien esto-komentoja. Tämän takia on tärkeää suojata kaikki henkilökohtaiset tai luottamuksellisia tietoja sisältävät sivut salasanan taakse, sillä robots.txt ei riitä näiden suojaukseen.

Roskapostirobotit, eli spambotit

Toiset botit, jotka voivat ottaa sivustosi kohteeksi, ovat haitalliset spambotit. Näiden tarkoitus on ottaa kohteekseen sivustojen kommentointimahdollisuus, jonka kautta ne lisäävät automaattisesti lisättyjä kommentteja ja linkkejä, jotka johtavat haitallisille sivuille. Olet luultavasti täyttänyt elämäsi aikana useamman kuvavarmennuksen tai CAPTHCAn kuin pystyt muistamaan, ja näillä kiusataan ihmisiä nimenomaan roskapostibottien takia.

Miten roskapostikommentit sitten vahingoittavat sivua? Hakukoneet kiinnittävät erityisesti huomiota sivustosi linkkeihin: niihin jotka johtavat sivullesi ja sivultasi ulospäin. Haitallisiksi merkattuihin sivuihin johtavat linkit vahingoittavat sivustosi ”mainetta” ja voivat johtaa sivustosi lyttäämiseen hakukoneiden tuloksissa. Tämän voi estää useammalla tavalla.

Jos sivustollasi on linkkejä, joiden et halua tulevan hakukonerobottien huomioon, voit estää niiden huomioinnin koodirivillä ”nofollow”. Lisää linkin HTML-koodiin rel="nofollow" -elementti, seuraavan esimerkin mukaan:

<a href=”http://www.roskasivusto.com/” rel=”nofollow”>Tämä on linkin teksti</a>

Tämä estää linkkien vaikutuksen oman sivustosi asemaan.

Mikäli sivustollasi on osioita, joissa kommentointi on mahdollista (blogit, vieraskirja, foorumit, jne.), voit lisätä CAPTCHAn osaksi kommentti-ikkunaa: tämä varmistaa, että julkaisuja voivat tehdä vain oikeat käyttäjät. Näin estät roskapostikommentit, mutta CAPTCHAn lisääminen ei ole aina tarpeellista, mikäli julkaisualustasi automaattisesti tunnistaa ja estää roskapostin. Useimmat nykyaikaiset julkaisualustat, kuten Blogger ja WordPress, automaattisesti tunnistavat ja suodattavat roskapostikommentit: esim. WordPress asentaa sivustoilleen automaattisesti Akismet-roskapostisuodattimen.

Lue lisää:

Vastaa

Sähköpostiosoitettasi ei julkaista. Pakolliset kentät on merkitty *