今天早上进入Feedsky管理后台,从实时统计里,惊讶的发现有个“Larbin爬虫”!
从地区显示来看,这个少见的爬虫来自中国Shunyi(顺义)。
我从来没看到过有Larbin爬虫的记录,今天还是第一次遇到。为了解除疑问,我查了下有关Larbin爬虫的资料。
Larbin的简介
Larbin是一种开源的网络爬虫/网络蜘蛛,由法国的年轻人Sébastien Ailleret 独立开发。Larbin目的是能够跟踪页面的url进行扩展的抓取,最后为搜索引擎提供广泛的数据来源。
Larbin只是一个爬虫,也就是说Larbin只抓取网页,至于如何parse的事情则由用户自己完成。另外,如何存储到数据库以及建立索引的事情 Larbin也不提供。
Larbin的作用
1. Larbin获取单个、确定网站的所有联结,甚至可以镜像一个网站。
2. Larbin建立url 列表群,例如针对所有的网页进行url retrive后,进行xml的联结的获取 。
3. Larbin定制后可以作为搜索引擎的信息的来源(例如可以将抓取下来的网页每2000一组存放在一系列的目录结构里面)。
后记
终于大致了解了Larbin爬虫,原来Larbin爬虫是网站管理员安装的,并不是某个搜索引擎放出来的蜘蛛。Larbin爬虫爬到的网页可以放在一个特定的文件夹中,这个文件夹里还可以创建子文件夹,每个子文件夹存放N个网页,并且文件夹里边有index索引文件,记录了爬过的url序列。这样一来,确实是可以作为搜索引擎的信息来源,是一个非常实用的SEO武器。
Larbin爬虫目前没有支持windows版本,只能在Linux下使用,但它是一个用C++编写的开源的工具。有兴趣的人可以研究下,根据自身情况制定自己的Larbin爬虫。
Larbin官方地址:http://larbin.sourceforge.net/index-eng.html
☉hao123在作弊伪造虚假来路? (2010-5-22 23:48:10)
☉为网站子目录绑定二级域名 (2010-4-15 0:17:56)
☉月光到底有多少个网站? (2010-4-13 15:17:46)
☉cnzz的直接输入来路统计不太准确 (2010-4-12 1:8:42)
☉免费发送手机短信的网站—讯网? (2010-3-28 23:43:32)
☉网页不能保存到本地的原因及解决方法 (2010-3-11 13:52:39)
☉太强了!没有下载文件的下载网站 (2010-2-27 23:19:29)
☉站长如何对付服务器突然断网? (2010-1-27 22:18:36)
☉检测网页的几种方式 (2010-1-11 18:36:58)
☉W3C是什么?什么是W3C标准? (2010-1-9 2:34:0)
☉在抽屉网推广网站,日IP增百 (2009-12-17 0:31:14)
☉博客留言的技巧 (2009-11-8 22:32:33)
☉网站怎样从0个用户迅速发展到100万用户的9个方法 (2009-10-16 18:51:36)
☉学会使用博客搜索来查找资料 (2009-9-13 22:27:55)
☉决定网站成败的几大要素 (2009-9-10 11:8:21)
yellow涛 的最新文章:写给各位关心本站的人们。
xux 的最新文章:有效防止FTP登陆信息被暴ju-hua
◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。