Kako lahko nadziram določene spletne bote (BOTS) in pajke (SPIDERS, CRAWLERS)?
Razni spletni boti (bots) in pajki (spiders, crawlers), kateri redno obiskujejo dinamične spletne strani, lahko povzročijo tudi prekomerno porabo virov (CPU, pomnilnik, …). To lahko privede do povečanja obremenitve dotičnega računa za spletno gostovanje in posledično do upočasnitve gostujočega spletna mesta (vseh gostujočih domen).
Kako upočasnim določene bote in pajke?
V datoteki robots.txt (v korenu vašega spletnega mesta) uporabite lahko naslednji direktivi za upočasnitev nekaterih, vendar ne vseh botov in pajkov:
Crawl-Delay: 10
User-agent: *
Velja za vse uporabniške agente.
Crawl-delay
Uporabniškim agentom pove, da mora med vsako zahtevo do vsebine spletne strani na strežniku počakati 10 sekund.
Navedeno velja zgolj in samo, če dotični spletni bot ali pajek dotično direktivo upošteva. Točno informacijo pridobite pri dotičnem botu ali pajku.
GOOGLE SEARCH CONSOLE
Za Google Bot (nabor IPjev 66.249.66.0/24) se prijavite v Google Search Console (dostop do spletne strani) in v izogib morebitnim zapletom s preobremenitvijo dotičnega računa za spletno gostovanje, naj bo nastavljena Googlova privzeta priporočena nastavitev:
Pogostost iskanja s pajkom: Naj Google optimizira za moje spletno mesto (priporočena možnost)
Crawl rate: Let Google optimize for my site (recommended)
Kako začasno onemogočim Google Bot-u dostop?
V kolikor Google Bot prekomerno in agresivno daljše časovno obdobje pregleduje vašo spletno stan, lahko začasno v .htaccess datoteko dodate direktivo za blokado:
allow from all
deny from 66.249.66.
Search Console – Nastavitve spletnega mesta (Site Settings)
V primeru nadaljnjih zapletov z Google Bot-om, nato opravite test z nastavitvijo po meri:
Pogostost iskanja s pajkom: Omeji največjo hitrost iskanja po vsebini
Crawl rate: Limit Google’s maximum crawl rate
Predlog nastavitve po meri:
- število zahtev na sekundo pod 0 (npr.: do največ 0.2)
- sekund med zahtevami nad 5 (npr.: če je možno vsaj 10 ali več)
Več o Robots exclusion standard (dostop do spletne strani).