Posted in
WordPress 2007-06-18

baidu,
google,
search,
WordPress
看到一篇日志Wordpress Duplicate Content Issues & Solutions,文中提到 了在WordPress的Blog中会有很多内容重复的页面,而这些重复内容不利于搜索引擎的索引。
比如单篇日志和分类或者是时间存档页面的内容重复,网站链接域名前是否有www的页面重复,链接结尾是否有“/”时搜索引擎的不同对待,单篇日志链接加/feed/后的内容重复等等。并且其提供了一些处理方法,比如修改robots.txt,使用www强制插件,链接重定向的插件,或者是使用避免搜索引擎抓取重复内容(分类,时间存档等)的插件等等。
像我使用Tag,便会有相当多的内容重复在tag存档页面中,而且如果一篇日志添加多个Tag,则重复得更厉害。此外,还有像/page/数字,/作者/,这种分页同样更是N多内容重复。
所以我挺困惑,难道真的需要把所有这种存档页面内容都做到让搜索引擎忽视,而只保留单篇日志来让其索引么?工程不小,但有必要么?而且像sitemap插件,还特意生成了存档和Tag等的索引,这不是冲突么?
我以”site:e-spacy.com“查了下,在baidu里,展示的几乎全是单篇日志的搜索结果,很理想。而在Google中则先是些Page,然后便全是关键字的Tag存档页面,相当不理想,不过也充分体现了google对关键字的重视。
但想想,google挺弱,至少相同的关键字在baidu中我的日志能排第一时,而在google下要翻几页。
Posted in
Webtools 2007-04-27

baidu,
google
Google还真照顾百度,五个广告位置,只显示它一个。。。。

Posted in
网事如风 2006-12-07

baidu,
blogsearchengine
百度博客搜索上线,测试了一下,结果和IceBin一样,真让人“失望”(这年头说失望都要小心),有过希望当然我就能失望,爱咋咋的。
还真如凡人弄所言,横竖都搜索不到我的Blog,试用过的关键词有e-space, voivo, hhalloyy, space还有一些日志中的字眼,统统没有。这比起搜索个“space”都能把我的blog排第二的网页搜索真是有天壤之别。
我觉得百度真应该进军日本,百度海外第一站李彦宏欲先占日本市场10%,然后开展“女优”搜索定会“相当”实用!
ps: 子曾经曰过:“莫装B, 装B遭雷劈”!
Posted in
网事如风 2006-05-09

baidu
Keso写的东拉西扯:超链分析和PageRank的专利问题,还真捅了马蜂窝,一大堆人在回复中说什么的都有,还上升到了爱国的高度,至于嘛??
我觉得作为一个中国人,一个炎黄子孙,应该没有不爱国的,但我们爱的是一个有悠久历史,灿烂文化的伟大祖国,是一个有着勤劳,勇敢等传统美德的中华民族,而绝非一个government。
的确,中文网站利用baidu获得了巨大的访问量,但在这访问量的背后是什么?我这么一个小blog网站,它就能每天抓取1个多G(现在已经直逼2G),难道它还真每天1个多G地在我这里收录着我的每个关键字,来更新它的索引么?1个多G啊!1个多G啊!我写一辈子blog也写不出这么多文字来吧?
其实也难怪为什么会有人来偏袒baidu,来纵容它的流氓行径,因为他们在享受着baidu给的小恩小惠。打个牵强的比方:有一个企业(搜索引擎),它利用走私,利用偷税漏税,利用了非法的手段获得了丰厚的利润(抓取网站的流量),而且它因为发展需要,所以雇佣了无数的员工 (网站),让这些本来收入低微的员工同样也拿到了不小的利润(网站靠搜索引擎获得访问量)。你是个员工,可能你和别人比起来,感觉自己凭借它给你的利润, 认为自己很富有,很满足,这时你便忘记了它的罪恶,甚至认为它的非法手段是正确的。(本来想拿贪官来做比喻,但怕对号入座的人太多,自己招骂)
我不管到底是谁的专利,但再白痴的人做这么大也应该不弱智了,也就是并非算法问题而非要吃这么多流量。那么它每天这样不辞辛劳地在爬什么呢?而且baidu为什么流氓地不让人们使用robots.txt来拒绝它的蜘蛛呢?
因为它要替我们的government做事,要为它来抓取所有出现的网页内容,来检查,来过滤,来禁止,来封锁…..(此处略去实例,大家心知肚名)
而Google,Yahoo不用考虑此事,它根本不管你的内容是什么。给小Bush画成拉登,随你啊!画成你儿子都行!让小Bush和布莱尔搞《断臂山》之恋,随你啊!加上小泉搞3P都行!可着您高兴来,爱写什么写什么,它只会抓取关键字做成索引。
而baidu呢?它们能仅仅抓取点关键字么?不行,它们要肩负起第二道防火长城的重任!!它们要每天反反复复地光顾你的网站,检查你的每个链接所指向的内容,从这些内容中精挑细选地寻找着非法字段。您说,作为baidu的蜘蛛,能不累嘛???
因为我们的government清楚的知道,像给MSN Space加上非法字段过滤根本阻止了什么,靠个什么ICP备案也没用,因为你不知道他什么时候写了什么。这个时候需要的是什么?baidu,baiduspinder!
baidu再流氓,再无耻,我们无可奈何!
Posted in
Webtools 2006-05-04

baidu,
google
以前因为流量问题不得不更换服务器,从hhalloyy.de迁徙成了voiov.de。现在的空间是收费的,而且也不用像dreamhost一样考虑cpu占用问题。所以好长一段时间我仅是用普通的统计工具查看下来访人数,Referer和搜索关键字什么的,只知道每天的流量大概在700M。
可前两天从苟世录那里得知普通wordpress网站的流量并没有多大,一天也就200多M。用了Webalizer分析了服务器的日志文件,我傻了,现在已经每天流量都超过1G了,而且5月1号那天竟然1.59G多。赶紧查看是哪出了问题,结果发现了这么一个ip:61.135.145.204。网上一查原来它就是Baiduspider!!!(附图为06年5月份的前三天统计数据,点击放大)
惊叹之余做了下06年的日志数据分析发现:
1月,Baiduspider爬走的流量有756M,占了总体流量的17.44%。

2月,2.2G,占了总体的31.13%。

3月,13.6G,占了总体的69.5%。

4月,15.6G,占了总体的77.26%。

如此可见百度的蜘蛛在以几何级的速度茁壮地成长着。从4月份的数据统计来看,它的大小为Google蜘蛛的77倍左右。我只知道美国的人均国防开支是中国的77倍,却没想到我们中国的搜索巨人是他们小“谷歌”Google的77倍。
那么我们看看,百度蜘蛛吃的是粮食,吐的是不是丝呢?用百度搜索“voivo.de”(注意要带引号表示绝对包括,不可分割)字符串有2,960个条目,而用Google搜索有12,700个。这说明的只能是一个问题:别人的蜘蛛吐的是丝,可百度的弱智蜘蛛吐的却是大便。
虽然每天给我带来的ip访问量(非蜘蛛抓取页面)有80%是来自搜索引擎的关键字索引,而百度占了40%,但我还是决定把百度的弱智大蜘蛛屏蔽掉,一天一个多G,天知道这个蠢货在怎么爬。因为我使用的服务器不允许自建.htaccess,阻止ip访问肯定是不行了。所以只好在网站根目录加入了robots.txt,昨天一早加上了,可从昨天5月3号的统计看,仍旧是1.5G,说明根本没起作用。
在网上搜索下,发现刚好Keso五一那天收录的网摘中有一篇:闲谈二头猪:Googlebot和BaiduSpider,里面细述了这个弱智蜘蛛的流氓行径。concorde在评论中说,使用robots.txt只能保证你的网站不被收录,但不能保证Baiduspider不爬你。这好比你家未丢失过任何东西,但却有个流氓每天都来把你所有的东西翻个遍。从网上查到据百度的员工说,其蜘蛛名称有区分大小写,所以baiduspider这个字串的组合有2的10次方之多,也就是1024种,我倒!!!
做人要厚道,做蜘蛛呢?