茁壮成长的弱智Baiduspider
以前因为流量问题不得不更换服务器,从hhalloyy.de迁徙成了voiov.de。现在的空间是收费的,而且也不用像dreamhost一样考虑cpu占用问题。所以好长一段时间我仅是用普通的统计工具查看下来访人数,Referer和搜索关键字什么的,只知道每天的流量大概在700M。
可前两天从苟世录那里得知普通wordpress网站的流量并没有多大,一天也就200多M。用了Webalizer分析了服务器的日志文件,我傻了,现在已经每天流量都超过1G了,而且5月1号那天竟然1.59G多。赶紧查看是哪出了问题,结果发现了这么一个ip:61.135.145.204。网上一查原来它就是Baiduspider!!!(附图为06年5月份的前三天统计数据,点击放大)
惊叹之余做了下06年的日志数据分析发现:
1月,Baiduspider爬走的流量有756M,占了总体流量的17.44%。

2月,2.2G,占了总体的31.13%。
![]()
3月,13.6G,占了总体的69.5%。
![]()
4月,15.6G,占了总体的77.26%。
![]()
如此可见百度的蜘蛛在以几何级的速度茁壮地成长着。从4月份的数据统计来看,它的大小为Google蜘蛛的77倍左右。我只知道美国的人均国防开支是中国的77倍,却没想到我们中国的搜索巨人是他们小“谷歌”Google的77倍。
那么我们看看,百度蜘蛛吃的是粮食,吐的是不是丝呢?用百度搜索“voivo.de”(注意要带引号表示绝对包括,不可分割)字符串有2,960个条目,而用Google搜索有12,700个。这说明的只能是一个问题:别人的蜘蛛吐的是丝,可百度的弱智蜘蛛吐的却是大便。
虽然每天给我带来的ip访问量(非蜘蛛抓取页面)有80%是来自搜索引擎的关键字索引,而百度占了40%,但我还是决定把百度的弱智大蜘蛛屏蔽掉,一天一个多G,天知道这个蠢货在怎么爬。因为我使用的服务器不允许自建.htaccess,阻止ip访问肯定是不行了。所以只好在网站根目录加入了robots.txt,昨天一早加上了,可从昨天5月3号的统计看,仍旧是1.5G,说明根本没起作用。
在网上搜索下,发现刚好Keso五一那天收录的网摘中有一篇:闲谈二头猪:Googlebot和BaiduSpider,里面细述了这个弱智蜘蛛的流氓行径。concorde在评论中说,使用robots.txt只能保证你的网站不被收录,但不能保证Baiduspider不爬你。这好比你家未丢失过任何东西,但却有个流氓每天都来把你所有的东西翻个遍。从网上查到据百度的员工说,其蜘蛛名称有区分大小写,所以baiduspider这个字串的组合有2的10次方之多,也就是1024种,我倒!!!
做人要厚道,做蜘蛛呢?




呵呵
[Reply]
“这说明的只能是一个问题:别人的蜘蛛吐的是丝,可百度的弱智蜘蛛吐的却是大便。”
这话可真有意思,嘿嘿
[Reply]
这蜘蛛不爬你家么?
[Reply]
能直接拒IP么?
[Reply]
可以使用.htaccess来拒绝ip访问,但我的服务器不能自己添加它。
[Reply]
你可小看baidu了,它的IP可不是一两个,封了一个又会有第二个第三个甚至第100个,不信你试试。
[Reply]
别人的蜘蛛吐的是丝,可百度的弱智蜘蛛吐的却是大便。
[Reply]
“其蜘蛛名称有区分大小写,所以baiduspider这个字串的组合有2的10次方之多,也就是1024种”
笑死我了 哈哈哈哈
[Reply]
“其蜘蛛名称有区分大小写,所以baiduspider这个字串的组合有2的10次方之多,也就是1024种”
不对 应该是有1^11=2048种
再笑一个
[Reply]
呵呵 2^11
TO LZ 那你用global.asa 撒 Session_OnStart立即过滤IP
[Reply]
哦 PHP不支持那玩意
[Reply]
#用百度搜索“voivo.de”(注意要带引号表示绝
#对包括,不可分割)字符串有2,960个条目,而用
#Google搜索有12,700个
这个并不说明你要说的问题,用“voivo.de”搜出
的很多是包含你的LINK等其他站的网页,和对你BLOG
的抓取无关。
可以比较的是SITE:voivo.de。百度约63,400篇,
GOOGle:voivo.de 上约有 675 项符合的查询结果
当然我们知道百度的数字是有很大水分的,但估计收录
上应该还是比GOOGLE多的。
呼唤百度FANS,再这样下去我就成百度FANS了。
[Reply]
对哦,你说的有道理。
搜索voivo.de,它检索的包含了一大部分其它网站的收录voivo.de的情况。但其实很少,因为我使用Technorati,它只收录了191 links from 103 sites。
还有请想一下:不管它收录我的,还是收录谁的,在我这里它能每天吃1G多流量,而Google每天才10几M,有这样白吃(白痴)的么??
[Reply]
搞不大清楚,为什么有很多在戏谑百度啊?
毕竟是搜索这块做的最不错的公司,虽然时有作恶嫌疑,但比起国内其他一些大的互联网公司已经好很多!
[Reply]
[…] 百度蜘蛛(Baiduspider)很可爱,我的一个人气暴低的技术站点,它常常都来爬.寂寞的时候,看看在线统计,常常能够发现它,可谓”人生得一知己足矣”. 可是在baidu上一搜索,怎么得到的结果这么少,而且很多都没更新?莫非这个蜘蛛只故着自己好玩,而忘记自己应有的职责了? 可爱而奇怪的百度蜘蛛. 另外看到一个”不怀好意”的帖子:http://voivo.de/blog/531.html 还有一个”恶毒”的攻击方案:http://bbs.chinaunix.net/viewthread.php?tid=746320 想’采死百度蜘蛛’吗?^_^,我反对! […]
[Reply]
同意
[Reply]
>>所以只好在网站根目录加入了robots.txt,昨天一早加上了,可从昨天5月3号的统计看,仍旧是1.5G,说明根本没起作用。
依据百度的帮助,在robots里禁止BaiduSpider 的抓取,不会在几天之内就表现出来的。这需要一定的时间,你可以再观察一个阶段。
中文网站不到万不得已,最好不要禁止Baidu的蜘蛛,百度的流量很不错。
[Reply]
我是有一大部分的ip来访通过了baidu,但它一天1G多抓取,我无法忍受。
[Reply]
哇…被你这么一提,我也查了一下我的统计数据,有10来个不明IP居然在5月份这短短几天内占用了80G的流量…太恐怖了…
有什么办法根据这些IP查下他们的出处和他们到底是干嘛的吗?
[Reply]
I also worked on a crawler. We spent a lot of mind on politeness issue and otherwise we might got sued. seem baidu crawler has some design issue.
very hard to work around politness with elegant design.
[Reply]
to puNK!d,查ip用whois啊,但baiduspider这个ip,用google就能搜出一大堆了….
[Reply]
应该这样搜
用site:(voivo.de)语法
百度一下,找到相关网页约63,400篇,用时0.001秒
[Reply]
呵呵,可以尝试在头文件中使用重定向。将重定向地址指向我网站 ;-) 或者baidu都行。我以前PC机做服务器时就是这样处理。注意不要根据IP判断,根据head内容,包含baiduspider的字符串就据
[Reply]
to hammer_shi, 你说的应该是在.htaccess文件中增加301重定向指令吧?我的服务器不允许自己写.htaccess的。
[Reply]
baidu其实不错的,每天带来的流量是google的十倍以上。它收录快,更新快,而且排名是根据相关度的,而不是什么sb pr,另外还忽略链接上面的关键字,不像google个白痴,居然搜出来个链接的文字,内容不给出来。挺好的内容,在baidu上可以排第一页的,在google居然排第9页最后一个(这是我追踪网站访问记录发现的,这个用户真是执着啊。。。)
[Reply]
to Superddr:的确baidu给我带来的流量是很多,多得比直接来访还要大1倍,但比google只多了2倍多,没有夸张到10倍,可能是我的blog不是纯中文的吧。
搜索排名我不知道它是根据的什么,但我试了搜索tab pane,一个我在1月份写的使用教程日志,在google和yahoo中我写的都排第二,而baidu,我没数,虽然它给我放在了第一页,但仅比一个根据我的教程4月30号才写出的几行文字的日志排名提前了2位,我倒!!!而且它搜索出的东西竟然把tab 和pane拆开来写的搜索结果排在了前面…..
不是我贬低biadu,而是我们不应该纵容它这么无耻,它凭什么不让网站阻止它的弱智蜘蛛?我想是ZF的关系了,因为ZF需要利用它来搜索所有网页内容,来检查,来过滤,来封锁…..
再打个比方:
有一个企业(搜索引擎),它利用走私,利用偷税漏税,利用了非法的手段获得了丰厚的利润(抓取网站的流量),而且它因为发展需要,所以雇佣了无数的员工(网站),让这些本来收入低微的员工同样也拿到了不小的利润(网站靠搜索引擎获得访问量)。你是个员工,可能你和别人比起来,感觉自己凭借它给你的利润,认为自己很富有,很满足,这时你便忘记了它的罪恶,甚至认为它的非法手段是正确的。
(本来想拿贪官来做比喻,但怕对号入座的人太多,自己招骂,哈哈!!!!)
[Reply]
[…] 茁壮成长的弱智Baiduspider […]
[Reply]
我记得以前也有人提过类似问题,抓的流量太多了,baidu spider的确有很多需要改进的地方。这个例子已经被baidu分析并提出改进策略,你可以几个月后再开放robots试试。
[Reply]
哦,我的站是纯中文站,而且还没推广,嘿嘿。听说baidu有根据链接文字来做关键字的。就是说某个链接指向你的网页,那个链接里面的字眼将成为你的这个网页的关键字。只是听说,不是很确定。另外我觉得baidu应该不会真的非要来抓内容的,大概哪里有误会吧。
[Reply]
to gsx:我加的robots.txt根本就没起作用,昨天的流量已经超了2G。
[Reply]
to Superddr:搜索引擎都会抓内容啊,不然怎么做网页快照?只不过baidu太勤奋了,别人一天照一下,它一天可能要多照几百下。
[Reply]
建议楼主数下自己的文件数,63,400?总觉得有疑问。
[Reply]
什么文件数??
[Reply]
在Google Groups上发现一个很有趣的支持百度的帖子…
http://groups.google.com/group/fans/browse_thread/thread/dacabdb667d2f6ff
[Reply]
非常有见地;)
[Reply]
现在还是免费空间?
哪有这么好的免费空间啊…
介绍介绍 :P
[Reply]
to Jason,
早就换成收费的了,呵呵。
[Reply]
robots.txt?不可以么?
[Reply]
曾经可以,也曾经不可以。
[Reply]
[…] 百度的蜘蛛成精了。 […]
[Reply]
事在人為嘛. 不過, 大環境實在變得太快. 今天的標準可以是明日黃花!
[Reply]