Larbin爬虫惊现Feedsky

作者:Kaka 时间:2010-5-29 21:10:15 浏览: 评论:6

今天早上进入Feedsky管理后台，从实时统计里，惊讶的发现有个“Larbin爬虫”！

从地区显示来看，这个少见的爬虫来自中国Shunyi（顺义）。

我从来没看到过有Larbin爬虫的记录，今天还是第一次遇到。为了解除疑问，我查了下有关Larbin爬虫的资料。

Larbin的简介

Larbin是一种开源的网络爬虫/网络蜘蛛，由法国的年轻人Sébastien Ailleret 独立开发。Larbin目的是能够跟踪页面的url进行扩展的抓取，最后为搜索引擎提供广泛的数据来源。

Larbin只是一个爬虫，也就是说Larbin只抓取网页，至于如何parse的事情则由用户自己完成。另外，如何存储到数据库以及建立索引的事情 Larbin也不提供。

Larbin的作用

      1. Larbin获取单个、确定网站的所有联结，甚至可以镜像一个网站。
      2. Larbin建立url 列表群，例如针对所有的网页进行url retrive后，进行xml的联结的获取。
      3. Larbin定制后可以作为搜索引擎的信息的来源（例如可以将抓取下来的网页每2000一组存放在一系列的目录结构里面）。

后记

终于大致了解了Larbin爬虫，原来Larbin爬虫是网站管理员安装的，并不是某个搜索引擎放出来的蜘蛛。Larbin爬虫爬到的网页可以放在一个特定的文件夹中，这个文件夹里还可以创建子文件夹，每个子文件夹存放N个网页，并且文件夹里边有index索引文件，记录了爬过的url序列。这样一来，确实是可以作为搜索引擎的信息来源，是一个非常实用的SEO武器。

Larbin爬虫目前没有支持windows版本，只能在Linux下使用，但它是一个用C++编写的开源的工具。有兴趣的人可以研究下，根据自身情况制定自己的Larbin爬虫。

Larbin官方地址：http://larbin.sourceforge.net/index-eng.html