前段时间发现流量有点异常,于是查看了访问明细,发现某些IP段有异常,例如出现很多123.125.71.*这种IP,而这种IP有个共同的特点,就是都是直接访问网页,并且只访问一页,地点都是北京市。
访问明细(点击上图放大)
通过日志检查访问异常
我后来打开日志检查,发现一个比较奇怪的现象,那就是日志里这样的每个IP只有访问网页文件的记录,而没有访问css、js和图片等其他文件的记录,这完全不同正常的访客打开一张网页的日志。
异常的访问日志(点击上图放大)
123.125.71.106这个IP只访问了default.html这个文件。
正常的访客访问网页时,日志里不但记录了网页的访问记录,还记录了网页里关联的图片、js、css等文件的访问记录。
正常的访问日志(点击上图放大)
218.22.69.142这个IP不但访问了default.html这个文件,还访问了css、js和图片文件。
我再看看异常的日志记录,发现了“Baiduspider”的字样,这显然是百度蜘蛛抓取网页的记录。
百度蜘蛛访问记录(点击上图放大)
我再查询这个IP的地址,确实显示是百度蜘蛛的IP。
IP地址查询
至此,就明白为什么流量异常了,原来是CNZZ把百度蜘蛛的抓取也算入了流量。
网站流量需要减去百度蜘蛛的访问量
通过跟踪,发现百度蜘蛛使用的浏览器是火狐浏览器。
百度蜘蛛使用的浏览器是火狐浏览器(点击图片放大)
所以,可以在“终端详情”-“浏览器”那里减去一部分火狐浏览器的访问量(只能是大概),从而知道网站的真正访问量。
火狐浏览器的访问量
CNZZ统计可以过滤百度蜘蛛IP
针对此问题,据官方的意见,是叫用户在CNZZ设置里过滤百度的蜘蛛IP,这样就不会把百度蜘蛛的访问量也统计进来了。不过,百度蜘蛛IP有哪些呢?我想很多人都不知道吧,这个方法貌似不太可行。为此,我搜查了百度的一些蜘蛛IP,以下是常见的百度蜘蛛IP(来自互联网,仅供参考):
123.125.68.*这个蜘蛛经常来,别的来的少,表示网站可能要进入沙盒了,或被者降权。
220.181.68.*每天这个IP 段只增不减很有可能进沙盒或K站。
220.181.7.*、123.125.66.* 代表百度蜘蛛IP造访,准备抓取你东西。
121.14.89.*这个ip段作为度过新站考察期。
203.208.60.*这个ip段出现在新站及站点有不正常现象后。
210.72.225.*这个ip段不间断巡逻各站。
125.90.88.* 广东茂名市电信也属于百度蜘蛛IP 主要造成成分,是新上线站较多,还有使用过站长工具,或SEO综合检测造成的。
220.181.108.95这个是百度抓取首页的专用IP,如是220.181.108段的话,基本来说你的网站会天天隔夜快照,绝对错不了的,我保证。
220.181.108.92 同上98%抓取首页,可能还会抓取其他 (不是指内页)220.181段属于权重IP段此段爬过的文章或首页基本24小时放出来。
123.125.71.106 抓取内页收录的,权重较低,爬过此段的内页文章不会很快放出来,因不是原创或采集文章。
220.181.108.91属于综合的,主要抓取首页和内页或其他,属于权重IP 段,爬过的文章或首页基本24小时放出来。
220.181.108.75重点抓取更新文章的内页达到90%,8%抓取首页,2%其他。权重IP 段,爬过的文章或首页基本24小时放出来。
220.181.108.86专用抓取首页IP 权重段,一般返回代码是304 0 0 代表未更新。
123.125.71.95 抓取内页收录的,权重较低,爬过此段的内页文章不会很快放出来,因不是原创或采集文章。
123.125.71.97 抓取内页收录的,权重较低,爬过此段的内页文章不会很快放出来,因不是原创或采集文章。
220.181.108.89专用抓取首页IP 权重段,一般返回代码是304 0 0 代表未更新。
220.181.108.94专用抓取首页IP 权重段,一般返回代码是304 0 0 代表未更新。
220.181.108.97专用抓取首页IP 权重段,一般返回代码是304 0 0 代表未更新。
220.181.108.80专用抓取首页IP 权重段,一般返回代码是304 0 0 代表未更新。
220.181.108.77 专用抓首页IP 权重段,一般返回代码是304 0 0 代表未更新。
123.125.71.117 抓取内页收录的,权重较低,爬过此段的内页文章不会很快放出来,因不是原创或采集文章。
220.181.108.83专用抓取首页IP 权重段,一般返回代码是304 0 0 代表未更新。
据网友介绍,以上IP尾数还有很多,但段位一样的123.125.71.*段IP 代表抓取内页收录的权重比较低,可能由于你采集文章或拼文章暂时被收录但不放出来(意思也就是说待定)。
220.181.108.*段IP主要是抓取首页占80%,内页占30%,这此爬过的文章或首页,24小时内放出来和隔夜快照的。
一般成功抓取返回代码都是 200 0 0返回304 0 0代表网站没更新,蜘蛛来过,如果是 200 0 64别担心这不是K站,可能是网站是动态的,所以返回就是这个代码。
您可能对如下文章也感兴趣
☉分享:获得IP地址详细信息的接口(来自taobao网) (2015-2-7 8:54:37)
☉判断网页是真静态还是伪静态的方法:查看网页最后更新时间 (2014-9-23 15:34:1)
☉【案例分析】一步一步找出网站速度慢的原因 (2014-4-2 17:56:19)
☉远程更改3389端口添加防火墙后自动断开的注意问题 (2014-3-29 12:7:15)
☉可以查询IP所属机房线路的在线IP查询工具【收藏】 (2013-11-7 21:30:1)
☉收藏:QQ强制聊天工具 忽视要求添加好友窗口(附代码) (2013-9-24 11:26:2)
☉CNZZ新版功能强大 但访问明细用户体验仍不及51la (2013-8-28 10:41:40)
☉由dos命令远程重启VPS服务器想到防范ipc$入侵 (2013-8-19 8:1:52)
☉【惊爆了】网页里引用优酷视频 竟然可以去掉广告 (2013-8-7 14:17:22)
☉【解决】QQ2012和QQ2013不能完全阻止群内消息的问题 (2013-5-3 12:45:15)
☉QQ旋风绿色破解版+Cheat Engine修改器 90秒加速试用变无限时 (2013-4-18 5:56:43)
☉屏蔽优酷广告出现浏览器有兼容性问题黑屏【已解决】 (2013-4-2 19:1:36)
☉在线检测网页在各种浏览器的打开效果 (2012-11-26 22:4:39)
☉如何用Adblock Plus插件屏蔽网页广告包括弹窗的实例 (2012-10-26 15:20:24)
☉网站日访问量3000 包月广告价格3000多? (2012-7-10 0:19:37)
◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。