今天登陆百度资源平台看看,发现在“抓取异常”那里有一些错误,显示是“响应代码”522。
“响应代码”522
522是什么意思?看解释,这是“服务器错误”的响应代码。
我试试点击链接,都能正常打开。
我想,这是某一时刻,百度爬虫抓取网页时,失败了,可能原因是当时服务器资源耗尽,到了瓶颈的地步,这个时候,任何外部访问,都会返回“服务器错误”,响应代码常见的是500。而百度的解释是,5XX都代表是“服务器错误”。
5XX都代表是“服务器错误”
抓取异常对网站有哪些影响
百度认为:
对于大量内容无法正常抓取的网站,搜索引擎会认为网站存在用户体验上的缺陷,并降低对网站的评价,在抓取、索引、权重上都会受到一定程度的负面影响,最终影响到网站从百度获取的流量。
如果,对于有几千几万张网页的网站来说,百度一天抓几千次,一天只有几条抓取异常,我想那应该不受影响的,毕竟比例太低。
但是,如果正如百度说的若有“大量内容”无法正常抓取,则很大原因是服务器或机房网络线路真的出问题了,那种情况就要及时处理了,不然持续下去,很快网站就被百度降低权重,没有排名了。
知识扩展
什么是抓取异常
Baiduspider无法正常抓取,就是抓取异常。
抓取异常的原因有哪些
一、网站异常
1、dns异常
当Baiduspider无法解析您网站的IP时,会出现DNS异常。可能是您的网站IP地址错误,或者域名服务商把Baiduspider封禁。请使用WHOIS或者host查询自己网站IP地址是否正确且可解析,如果不正确或无法解析,请与域名注册商联系,更新您的IP地址。
2、连接超时
抓取请求连接超时,可能原因服务器过载,网络不稳定
3、抓取超时
抓取请求连接建立后,下载页面速度过慢,导致超时,可能原因服务器过载,带宽不足
4、连接错误
无法连接或者连接建立后对方服务器拒绝
二、链接异常
1、访问被拒绝
爬虫发起抓取,httpcode返回码是403
2、找不到页面
爬虫发起抓取,httpcode返回码是404
3、服务器错误
爬虫发起抓取,httpcode返回码是5XX
4、其他错误
爬虫发起抓取,httpcode返回码是4XX,不包括403和404
☉【茶猫云】香港云主机 CN2/GIA 35元/月 支持windows (2020-10-22 14:16:27)
☉#钜惠# 香港100M独服仅100元/月 CT/CN2 三网直入中国内地 (2019-3-1 14:12:26)
☉购买外国域名主机慎防被自动续费扣款 (2018-12-5 22:0:1)
☉如何检测服务器或主机空间的稳定性和连通性 (2017-6-12 10:10:48)
☉利用IP盒子将本地电脑打造成为外网可访问的Web服务器 (2017-5-22 21:2:22)
☉教你怎样辨别你买的是真云主机还是假云主机(VPS) (2015-6-25 10:53:57)
☉网站速度慢?看看主机带宽多少 (2015-5-27 21:10:17)
☉从响应时间测试服务器主机速度和性能 (2015-4-22 17:18:16)
☉测试网站速度你需要关注的几个指标 (2015-4-17 9:19:48)
☉怎样测试网站服务器/vps/云主机最大带宽是多少 (2014-9-8 5:5:17)
◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。