Kako lahko nadziram določene spletne bote (BOTS) in pajke (SPIDERS, CRAWLERS)?

Razni spletni boti (bots) in pajki (spiders, crawlers), kateri redno obiskujejo dinamične spletne strani, lahko povzročijo tudi prekomerno porabo virov (CPU, pomnilnik, …). To lahko privede do povečanja obremenitve dotičnega računa za spletno gostovanje in posledično do upočasnitve gostujočega spletna mesta (vseh gostujočih domen).

Kako upočasnim določene bote in pajke?

V datoteki robots.txt (v korenu vašega spletnega mesta) uporabite lahko naslednji direktivi za upočasnitev nekaterih, vendar ne vseh botov in pajkov:

User-agent: *
Crawl-Delay: 10

User-agent: *

Velja za vse uporabniške agente.

Crawl-delay

Uporabniškim agentom pove, da mora med vsako zahtevo do vsebine spletne strani na strežniku počakati 10 sekund.

Navedeno velja zgolj in samo, če dotični spletni bot ali pajek dotično direktivo upošteva. Točno informacijo pridobite pri dotičnem botu ali pajku.

GOOGLE SEARCH CONSOLE

Za Google Bot (nabor IPjev 66.249.66.0/24) se prijavite v Google Search Console (dostop do spletne strani) in v izogib morebitnim zapletom s preobremenitvijo dotičnega računa za spletno gostovanje, naj bo nastavljena Googlova privzeta priporočena nastavitev:

Pogostost iskanja s pajkom: Naj Google optimizira za moje spletno mesto (priporočena možnost)

Crawl rate: Let Google optimize for my site (recommended)

google search console robots.txt

Kako začasno onemogočim Google Bot-u dostop?

V kolikor Google Bot prekomerno in agresivno daljše časovno obdobje pregleduje vašo spletno stan, lahko začasno v .htaccess datoteko dodate direktivo za blokado:

Order allow,deny
allow from all
deny from 66.249.66.
Ko zaplet z njim rešite, zapise za blokado odstranite.

Search Console – Nastavitve spletnega mesta (Site Settings)

V primeru nadaljnjih zapletov z Google Bot-om, nato opravite test z nastavitvijo po meri:

Pogostost iskanja s pajkom: Omeji največjo hitrost iskanja po vsebini

Crawl rate: Limit Google’s maximum crawl rate

Predlog nastavitve po meri:

  • število zahtev na sekundo pod 0 (npr.: do največ 0.2)
  • sekund med zahtevami nad 5 (npr.: če je možno vsaj 10 ali več)
S klikom na Shrani se nato tudi izpiše, do kdaj bo navedena nastavitev po meri v veljavi (je časovno omejena).

robots.txt

Več o Robots exclusion standard (dostop do spletne strani).