Ronsen

Ronald Nababan

Tech, Indonesia, and randomness

Kerja bot web crawler kadang bikin kesal. Gimana nggak, sepertinya setiap saat selalu mengakses situs web tanpa henti. Maksud gua di sini, bahkan laman-laman yang terbit dari entah kapan. Paham sih, mungkin ngecek apakah masih ada atau nggak. Jadinya, traffic hampir lebih banyak datang dari bot ketimbang pengunjung beneran.

Setelah pake layanan Claudflare, akses dari bot-bot ini jadi gampang diminimalisasi. Sebelumnya gua susah payah harus ngatur nginx dan juga bikin semacam middleware buat ngecek dari mana akses yang datang. Misalnya kalo datang dari bot, gua arahin ke laman yang kerjanya minim atau tinggal tampilin cache kalo tersedia. By the way, gua gak membatasi akses ke RSS feed atau sitemap ke bot apupun. Silakan crawling sepeuasnya kalo itu.

Di era artificial intelligence ini, banyak banget bot-bot baru bermunculan. Sekali lagi, untung ada Cloudflare. Gak ada ceritanya dikasih akses gratis kecuali dari Google dan Facebook karena traffic pengunjung banyak berasal dari sana. Gua pun baru-baru ini mencoba membatasi bot dari Bing karena jujur aja, siapa yang pake Bing buat nyari artikel berita.

Anehnya, setelah blokir Bing, load CPU server gua menurun drastis.