要阻止某些网页被搜索引擎抓取收录,大家首先想到的方法应该是使用 robots.txt 吧。没错,几乎每个网站都有一个 robots.txt 文件,目的是禁止某些目录被搜索引擎抓取收录并加入都搜索结果索引中。不过,如果想禁止搜索引擎抓取某些网页,使用 robots.txt 是不够的。
robots.txt
请不要将 robots.txt 用作隐藏网页的方法
robots.txt 文件位于网站的根目录下,用于表明你不希望搜索引擎抓取工具访问你网站上的哪些内容。此文件使用的是漫游器排除标准,该标准是一种内含一小组命令的协议,可依照网站各部分和特定的网页抓取工具类型(例如移动版抓取工具与桌面版抓取工具),表明可访问的网站内容。
◆非图片文件
对于非图片文件(即网页),您应仅将 robots.txt 用于控制抓取流量,因为通常情况下你不会希望搜索引擎抓取工具造成你的服务器超负荷,或是将抓取预算浪费在抓取你网站上不重要或相似的网页上。如果你不想让自己的网页显示在搜索引擎搜索结果中,请不要将 robots.txt 用作隐藏网页的方法。 这是因为其他网页可能会指向你的网页,导致你的网页被编入索引,而让 robots.txt 文件失去效用。如果你想从搜索结果中屏蔽自己的网页,请使用其他方法,例如密码保护或 noindex 标记或指令。
◆图片文件
robots.txt 可以阻止图片文件出现在搜索引擎搜索结果中(不过它不会阻止其他网页或用户链接到你的图片)。
◆资源文件
如果你认为加载网页时跳过不重要的图片、脚本或样式文件等资源并不会造成太大影响,那么你可以使用 robots.txt 来屏蔽这些资源文件。不过,如果缺少这些资源会增加抓取工具在分析网页方面的难度,则建议你不要屏蔽这些资源,否则搜索引擎将无法正确分析需要依赖这些资源的网页。
了解 robots.txt 的限制
在创建 robots.txt 之前,你应该了解这种网址屏蔽方法的潜在风险。有时候,你可能需要考虑采用其他机制来确保搜索引擎无法在网络上找到你的网址。
◆Robots.txt 命令仅仅只是指令
robots.txt 文件中的命令并不能强制抓取工具对你的网站采取具体的操作;对于访问你网站的抓取工具来说,这些命令仅作为指令。正规的网页抓取工具都会遵循 robots.txt 文件中的命令,但其他抓取工具未必也会如此。因此,如果你想确保自己网站上的特定信息不会被网页抓取工具抓取,建议你采用其他屏蔽方法(如为您服务器上的隐私文件提供密码保护)。
◆不同的抓取工具对语法的解析各不相同
虽然正规的网页抓取工具会遵循 robots.txt 文件中的指令,但这些抓取工具可能会以不同的方式来解析这些指令。你应该好好了解一下适用于不同网页抓取工具的正确语法,因为有些抓取工具可能会无法理解某些命令。
◆如果其他网站上有链接指向被 robots.txt 文件屏蔽的网页,则此网页仍可能会被编入索引
尽管搜索引擎不会抓取被 robots.txt 屏蔽的内容或将其编入索引,但如果网络上的其他位置有链接指向被禁止访问的网址,搜索引擎仍可能会找到该网址并将其编入索引。因此,相关网址和其他公开显示的信息(如相关页面链接中的定位文字)仍可能会出现在搜索结果中。要想正确阻止你的网址出现在搜索结果中,你应该为你服务器上的文件提供密码保护或使用 noindex 元标记或响应标头(或者彻底移除相关网页)。
您可能对以下文章也感兴趣
robots.txt Disallow和Allow上下级目录或文件的写法
robots.txt 语法详解:*、$、?等字符的含义及用法
◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。