使用.htaccess阻止某些机器人爬虫访问网站

技术频道 - 网站运营

使用.htaccess阻止某些机器人爬虫访问网站

作者:admin 时间:2021-3-13 0:22:25 浏览:

一些爬虫不断的访问网站，占用网站带宽，对网站运行产生不利的影响。为此，我们可以屏蔽某些陌生的爬虫访问网站，杜绝其抓取网站内容，从而节省带宽，减轻服务器压力。为达到这个目的，我们可以使用.htaccess文件来实现。

使用.htaccess阻止某些机器人爬虫抓取网站

下面代码检查用户代理字符串（即是UA），如果包含UptimeRobot关键词，则返回403的禁止访问提示。

#get rid of the bad bot
RewriteEngine on
RewriteCond %{HTTP_USER_AGENT} ^.*UptimeRobot.* [NC]
RewriteRule .* - [F]

上述代码中，＃号开头表示这行是注释行，[NC]是忽略字符大小写的意思，[F]是Forbidden的首字母，即是禁止的意思。

如果要阻止多个机器人，则使用以下代码：

#get rid of the bad bot
RewriteEngine on
RewriteCond %{HTTP_USER_AGENT} ^.*Robot1.* [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*Robot2.* [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*Robot3.* [NC,OR]
RewriteRule .* - [F]

这将阻止3个不同的机器人，即“ Robot1”，“ Robot2”，“ Robot3”。用你要屏蔽的Robot UA关键词替换它们，不要从列表中删除“ [OR]”，它告诉服务器列表中还有更多。

本文介绍了如何使用.htaccess阻止某些机器人爬虫访问网站，如果想要阻止某IP（段）访问网站，则可以看看此文使用.htaccess禁止某IP地址(段)访问网站。

标签: htaccess

※ 网站速度慢？试试网站自动优化工具 ※

使用.htaccess禁止某IP地址(段)访问网站

卡卡网

赞助商

分类目录

赞助商

最新文章

搜索

技术频道 - 网站运营

使用.htaccess阻止某些机器人爬虫访问网站

标签: htaccess