茁壮成长的弱智Baiduspider

以前因为流量问题不得不更换服务器,从hhalloyy.de迁徙成了voiov.de。现在的空间是收费的,而且也不用像dreamhost一样考虑cpu占用问题。所以好长一段时间我仅是用普通的统计工具查看下来访人数,Referer和搜索关键字什么的,只知道每天的流量大概在700M。

可前两天从苟世录那里得知普通wordpress网站的流量并没有多大,一天也就200多M。用了Webalizer分析了服务器的日志文件,我傻了,现在已经每天流量都超过1G了,而且5月1号那天竟然1.59G多。赶紧查看是哪出了问题,结果发现了这么一个ip:61.135.145.204。网上一查原来它就是Baiduspider!!!(附图为06年5月份的前三天统计数据,点击放大)may

惊叹之余做了下06年的日志数据分析发现:
1月,Baiduspider爬走的流量有756M,占了总体流量的17.44%。
jan
2月,2.2G,占了总体的31.13%。
feb
3月,13.6G,占了总体的69.5%。
mar
4月,15.6G,占了总体的77.26%。
apr
如此可见百度的蜘蛛在以几何级的速度茁壮地成长着。从4月份的数据统计来看,它的大小为Google蜘蛛的77倍左右。我只知道美国的人均国防开支是中国的77倍,却没想到我们中国的搜索巨人是他们小“谷歌”Google的77倍。

那么我们看看,百度蜘蛛吃的是粮食,吐的是不是丝呢?用百度搜索“voivo.de”(注意要带引号表示绝对包括,不可分割)字符串有2,960个条目,而用Google搜索有12,700个。这说明的只能是一个问题:别人的蜘蛛吐的是丝,可百度的弱智蜘蛛吐的却是大便。

虽然每天给我带来的ip访问量(非蜘蛛抓取页面)有80%是来自搜索引擎的关键字索引,而百度占了40%,但我还是决定把百度的弱智大蜘蛛屏蔽掉,一天一个多G,天知道这个蠢货在怎么爬。因为我使用的服务器不允许自建.htaccess,阻止ip访问肯定是不行了。所以只好在网站根目录加入了robots.txt,昨天一早加上了,可从昨天5月3号的统计看,仍旧是1.5G,说明根本没起作用。

在网上搜索下,发现刚好Keso五一那天收录的网摘中有一篇:闲谈二头猪:Googlebot和BaiduSpider,里面细述了这个弱智蜘蛛的流氓行径。concorde在评论中说,使用robots.txt只能保证你的网站不被收录,但不能保证Baiduspider不爬你。这好比你家未丢失过任何东西,但却有个流氓每天都来把你所有的东西翻个遍。从网上查到据百度的员工说,其蜘蛛名称有区分大小写,所以baiduspider这个字串的组合有2的10次方之多,也就是1024种,我倒!!!

做人要厚道,做蜘蛛呢?

  • 2006.05.04 17:03, sorama said:

    呵呵

    [Reply]

  • 2006.05.04 17:05, sorama said:

    “这说明的只能是一个问题:别人的蜘蛛吐的是丝,可百度的弱智蜘蛛吐的却是大便。”
    这话可真有意思,嘿嘿

    [Reply]

  • 2006.05.04 20:26, hhalloyy said:

    这蜘蛛不爬你家么?

    [Reply]

  • 2006.05.05 17:51, linxco said:

    能直接拒IP么?

    [Reply]

  • 2006.05.05 20:32, hhalloyy said:

    可以使用.htaccess来拒绝ip访问,但我的服务器不能自己添加它。

    [Reply]

  • 2006.05.06 03:58, mAX1m said:

    你可小看baidu了,它的IP可不是一两个,封了一个又会有第二个第三个甚至第100个,不信你试试。

    [Reply]

  • 2006.05.06 09:36, 百度是大便 said:

    别人的蜘蛛吐的是丝,可百度的弱智蜘蛛吐的却是大便。

    [Reply]

  • 2006.05.06 11:01, Ninstein said:

    “其蜘蛛名称有区分大小写,所以baiduspider这个字串的组合有2的10次方之多,也就是1024种”
    笑死我了 哈哈哈哈

    [Reply]

  • 2006.05.06 11:03, Ninstein said:

    “其蜘蛛名称有区分大小写,所以baiduspider这个字串的组合有2的10次方之多,也就是1024种”
    不对 应该是有1^11=2048种
    再笑一个

    [Reply]

  • 2006.05.06 11:05, Ninstein said:

    呵呵 2^11

    TO LZ 那你用global.asa 撒 Session_OnStart立即过滤IP

    [Reply]

  • 2006.05.06 11:10, Ninstein said:

    哦 PHP不支持那玩意

    [Reply]

  • 2006.05.06 17:09, xba said:

    #用百度搜索“voivo.de”(注意要带引号表示绝
    #对包括,不可分割)字符串有2,960个条目,而用
    #Google搜索有12,700个

    这个并不说明你要说的问题,用“voivo.de”搜出
    的很多是包含你的LINK等其他站的网页,和对你BLOG
    的抓取无关。

    可以比较的是SITE:voivo.de。百度约63,400篇,
    GOOGle:voivo.de 上约有 675 项符合的查询结果

    当然我们知道百度的数字是有很大水分的,但估计收录
    上应该还是比GOOGLE多的。

    呼唤百度FANS,再这样下去我就成百度FANS了。

    [Reply]

  • 2006.05.07 00:07, hhalloyy said:

    对哦,你说的有道理。

    搜索voivo.de,它检索的包含了一大部分其它网站的收录voivo.de的情况。但其实很少,因为我使用Technorati,它只收录了191 links from 103 sites。

    还有请想一下:不管它收录我的,还是收录谁的,在我这里它能每天吃1G多流量,而Google每天才10几M,有这样白吃(白痴)的么??

    [Reply]

  • 2006.05.07 03:07, sexblog said:

    搞不大清楚,为什么有很多在戏谑百度啊?

    毕竟是搜索这块做的最不错的公司,虽然时有作恶嫌疑,但比起国内其他一些大的互联网公司已经好很多!

    [Reply]

  • […] 百度蜘蛛(Baiduspider)很可爱,我的一个人气暴低的技术站点,它常常都来爬.寂寞的时候,看看在线统计,常常能够发现它,可谓”人生得一知己足矣”. 可是在baidu上一搜索,怎么得到的结果这么少,而且很多都没更新?莫非这个蜘蛛只故着自己好玩,而忘记自己应有的职责了? 可爱而奇怪的百度蜘蛛. 另外看到一个”不怀好意”的帖子:http://voivo.de/blog/531.html 还有一个”恶毒”的攻击方案:http://bbs.chinaunix.net/viewthread.php?tid=746320 想’采死百度蜘蛛’吗?^_^,我反对! […]

    [Reply]

  • 2006.05.07 05:10, hhh said:

    同意

    [Reply]

  • 2006.05.07 11:57, SeoVista said:

    >>所以只好在网站根目录加入了robots.txt,昨天一早加上了,可从昨天5月3号的统计看,仍旧是1.5G,说明根本没起作用。

    依据百度的帮助,在robots里禁止BaiduSpider 的抓取,不会在几天之内就表现出来的。这需要一定的时间,你可以再观察一个阶段。

    中文网站不到万不得已,最好不要禁止Baidu的蜘蛛,百度的流量很不错。

    [Reply]

  • 2006.05.07 15:10, hhalloyy said:

    我是有一大部分的ip来访通过了baidu,但它一天1G多抓取,我无法忍受。

    [Reply]

  • 2006.05.08 06:14, puNk!d said:

    哇…被你这么一提,我也查了一下我的统计数据,有10来个不明IP居然在5月份这短短几天内占用了80G的流量…太恐怖了…

    有什么办法根据这些IP查下他们的出处和他们到底是干嘛的吗?

    [Reply]

  • 2006.05.08 06:31, crawler engineer said:

    I also worked on a crawler. We spent a lot of mind on politeness issue and otherwise we might got sued. seem baidu crawler has some design issue.
    very hard to work around politness with elegant design.

    [Reply]

  • 2006.05.08 10:59, hhalloyy said:

    to puNK!d,查ip用whois啊,但baiduspider这个ip,用google就能搜出一大堆了….

    [Reply]

  • 2006.05.08 12:31, zdpress said:

    应该这样搜

    site:(voivo.de)语法
    百度一下,找到相关网页约63,400篇,用时0.001秒

    [Reply]

  • 2006.05.08 19:05, hammer_shi said:

    呵呵,可以尝试在头文件中使用重定向。将重定向地址指向我网站 ;-) 或者baidu都行。我以前PC机做服务器时就是这样处理。注意不要根据IP判断,根据head内容,包含baiduspider的字符串就据

    [Reply]

  • 2006.05.08 20:00, hhalloyy said:

    to hammer_shi, 你说的应该是在.htaccess文件中增加301重定向指令吧?我的服务器不允许自己写.htaccess的。

    [Reply]

  • 2006.05.08 20:55, Superddr said:

    baidu其实不错的,每天带来的流量是google的十倍以上。它收录快,更新快,而且排名是根据相关度的,而不是什么sb pr,另外还忽略链接上面的关键字,不像google个白痴,居然搜出来个链接的文字,内容不给出来。挺好的内容,在baidu上可以排第一页的,在google居然排第9页最后一个(这是我追踪网站访问记录发现的,这个用户真是执着啊。。。)

    [Reply]

  • 2006.05.08 22:24, hhalloyy said:

    to Superddr:的确baidu给我带来的流量是很多,多得比直接来访还要大1倍,但比google只多了2倍多,没有夸张到10倍,可能是我的blog不是纯中文的吧。

    搜索排名我不知道它是根据的什么,但我试了搜索tab pane,一个我在1月份写的使用教程日志,在google和yahoo中我写的都排第二,而baidu,我没数,虽然它给我放在了第一页,但仅比一个根据我的教程4月30号才写出的几行文字的日志排名提前了2位,我倒!!!而且它搜索出的东西竟然把tab 和pane拆开来写的搜索结果排在了前面…..

    不是我贬低biadu,而是我们不应该纵容它这么无耻,它凭什么不让网站阻止它的弱智蜘蛛?我想是ZF的关系了,因为ZF需要利用它来搜索所有网页内容,来检查,来过滤,来封锁…..

    再打个比方:
    有一个企业(搜索引擎),它利用走私,利用偷税漏税,利用了非法的手段获得了丰厚的利润(抓取网站的流量),而且它因为发展需要,所以雇佣了无数的员工(网站),让这些本来收入低微的员工同样也拿到了不小的利润(网站靠搜索引擎获得访问量)。你是个员工,可能你和别人比起来,感觉自己凭借它给你的利润,认为自己很富有,很满足,这时你便忘记了它的罪恶,甚至认为它的非法手段是正确的。

    (本来想拿贪官来做比喻,但怕对号入座的人太多,自己招骂,哈哈!!!!)

    [Reply]

  • […] 茁壮成长的弱智Baiduspider […]

    [Reply]

  • 2006.05.09 08:23, gsx said:

    我记得以前也有人提过类似问题,抓的流量太多了,baidu spider的确有很多需要改进的地方。这个例子已经被baidu分析并提出改进策略,你可以几个月后再开放robots试试。

    [Reply]

  • 2006.05.09 09:20, Superddr said:

    哦,我的站是纯中文站,而且还没推广,嘿嘿。听说baidu有根据链接文字来做关键字的。就是说某个链接指向你的网页,那个链接里面的字眼将成为你的这个网页的关键字。只是听说,不是很确定。另外我觉得baidu应该不会真的非要来抓内容的,大概哪里有误会吧。

    [Reply]

  • 2006.05.09 09:55, hhalloyy said:

    to gsx:我加的robots.txt根本就没起作用,昨天的流量已经超了2G。

    [Reply]

  • 2006.05.09 10:01, hhalloyy said:

    to Superddr:搜索引擎都会抓内容啊,不然怎么做网页快照?只不过baidu太勤奋了,别人一天照一下,它一天可能要多照几百下。

    [Reply]

  • 2006.05.12 05:24, dowei said:

    建议楼主数下自己的文件数,63,400?总觉得有疑问。

    [Reply]

  • 2006.05.12 09:25, hhalloyy said:

    什么文件数??

    [Reply]

  • 2006.06.23 10:25, airosp said:

    在Google Groups上发现一个很有趣的支持百度的帖子…
    http://groups.google.com/group/fans/browse_thread/thread/dacabdb667d2f6ff

    [Reply]

  • 2006.10.11 15:51, C.Lazz said:

    非常有见地;)

    [Reply]

  • 2006.11.05 11:40, Jason said:

    现在还是免费空间?
    哪有这么好的免费空间啊…
    介绍介绍 :P

    [Reply]

  • 2006.11.05 14:05, hhalloyy said:

    to Jason,
    早就换成收费的了,呵呵。

    [Reply]

  • 2007.02.06 09:07, vacuity said:

    robots.txt?不可以么?

    [Reply]

    • 2007.02.06 09:13, hhalloyy said:

      曾经可以,也曾经不可以。

      [Reply]

  • […] 百度的蜘蛛成精了。 […]

    [Reply]

  • 2008.05.16 08:57, mini storage said:

    事在人為嘛. 不過, 大環境實在變得太快. 今天的標準可以是明日黃花!

    [Reply]




*You must say some Chinese, or just copy 你好! as begin.


This blog uses the CommentLuv plugin which will try and parse your sites feed and display a link to your last post, please be patient while it tries to find it for you.
2006-05-04
Home Loans