晒一晒百度抓取网页摘要的落后搜索技术

凤凰财智Seoer 2010-01-22 10:08 作者:小欧 点击:

昨天晚上,小欧无意从百度发现了这么一个奇怪的现象,那就是百度不识别Description了,所有的Description百度都拒之门外。

要知道,这可是很重要的问题呀!我们都知道搜索引擎检索出来的结果一般都是一个有序的条目列表,并且每个条目上都有三个最基本的元素供搜索者参考:1,标题;2,摘要;3,网址。现在的Description也就是摘要出了问题,这样,搜索者看到的结果都是一个样,怎能不影响用户的搜索体验?

通常,搜索引擎会以两种方式来生成一张网页的摘要。1,静态;2,动态。采取静态的方式应该会减轻网站很大的负荷,因为它已经独立于查询,而是按照自己的某套规则进行抓取,比如:只抓取网页正文开头的512个字节(百度就是这么抓取的),或者将每一个段落的第一句拼合起来(中国雅虎就是这么抓取的,注意:是中国雅虎!)等等。这样形成的摘要缓存在自己的数据库或查询系统中,一旦相关字词被提交查询与之匹配,就将这些摘要信息返回给搜索者。

显然,搜索引擎采用静态抓取摘要的方式对自己来说是最轻松的,但这种方式的最大缺点就是摘要和查询无关,一点儿关系都没有。一张网页被传到了网上,很可能有不同的查询结果来搜索到它。比如:检索“网络推手”和“凤凰财智”,我们公司的主页“http://www.cnprnet.com”都应该作为结果返回给搜索者,但就在这个时候出了问题,我们今天说的也正是这个问题。

说真的,真的不相信百度搜索技术至今还是采用这种静态抓取网页摘要的方式,但事实证明,百度的搜索技术原来还是这么差。请看百度截图:


图片1

同样的内容,同样的Site,小欧在谷歌上的截图如下:


图片2

当然,有的朋友会说,小欧的Description都是自动生成的,百度抓取的也就跟着你的生成走了。错!每个标签,每个摘要都是手工填写的。为了说明百度这种技术的落后,小欧特意Site了一下我们SEO界的前辈ZAC的网站(http://www.chinamyhosting.com),给出的结果也正是意料中的那样,再看截图:

 


图片3

不能说静态抓取摘要的方式不对,只能讲它已经太落后了,已经严重影响各个网站的暴光率了。为什么?因为通常搜索引擎只返回给搜索者10个列表结果,而对于一般的搜索者而言,他不是搜索不完不罢休,而是搜到为止,也没有耐心往后看那么多,平均的翻页数小于2。而搜索用户搜索某个词,他是希望在相应的摘要和标题里面出现跟他检索相关的字词句,而我们上面说到百度的这种静态抓取摘要的方式恰恰不能满足搜索用户的这种需求,因此,很多优秀的网站也就失去了自己相应的潜在用户。

更可悲的是,百度的市场份额要比谷歌一倍还多,而百度却恰恰是这样很落后的搜索技术在运作。其实,何止搜索技术落后呀,百度还有更见不得光的技术(或叫作黑匣子技术),也就是人为操纵搜索排名的结果。注意!这话可是行内的大人物亲口说出来的,下次小欧跟各位分享百度的这个“见不得光的黑匣子技术”。

全文完!

作者:凤凰财智{Www.CnprNet.Com}

原载:晒一晒百度抓取网页摘要的落后搜索技术

来源:http://www.cnprnet.com/html/sousuoyinqingyingxiao/20100122/Baidu_Zhaiyao.html

声明:凤凰财智公司版权所有。转载时务必以链接形式注明作者 和原始出处及本声明。

下一篇:三问百度
Powered by ©2009 北京网络炒作凤凰财智公司版权所有 北京市朝阳区光华路旺座中心(央视新址对面)东塔8层
公司总机:010-6502 0114/0040/0041 传真:总机 转8008 QQ:1092223717 手机:13552098484 Email:huang@cnprnet.com