使用.htaccess阻止某些机器人爬虫访问网站
作者:admin 时间:2021-3-13 0:22:25 浏览:一些爬虫不断的访问网站,占用网站带宽,对网站运行产生不利的影响。为此,我们可以屏蔽某些陌生的爬虫访问网站,杜绝其抓取网站内容,从而节省带宽,减轻服务器压力。为达到这个目的,我们可以使用.htaccess文件来实现。
使用.htaccess阻止某些机器人爬虫抓取网站
下面代码检查用户代理字符串(即是UA),如果包含UptimeRobot关键词,则返回403的禁止访问提示。
#get rid of the bad bot
RewriteEngine on
RewriteCond %{HTTP_USER_AGENT} ^.*UptimeRobot.* [NC]
RewriteRule .* - [F]
上述代码中,#号开头表示这行是注释行,[NC]是忽略字符大小写的意思,[F]是Forbidden的首字母,即是禁止的意思。
如果要阻止多个机器人,则使用以下代码:
#get rid of the bad bot
RewriteEngine on
RewriteCond %{HTTP_USER_AGENT} ^.*Robot1.* [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*Robot2.* [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*Robot3.* [NC,OR]
RewriteRule .* - [F]
这将阻止3个不同的机器人,即“ Robot1”,“ Robot2”,“ Robot3”。用你要屏蔽的Robot UA关键词替换它们,不要从列表中删除“ [OR]”,它告诉服务器列表中还有更多。
本文介绍了如何使用.htaccess阻止某些机器人爬虫访问网站,如果想要阻止某IP(段)访问网站,则可以看看此文使用.htaccess禁止某IP地址(段)访问网站。
标签: htaccess
- 站长推荐