2009年12月18日 星期五

看搜索引擎如何查找

搜索引擎并非门户,本身不提供信息,用户需要在搜索引擎的搜索框键入关键词进行查询才能获取所需要的信息。作为SEOer,适当了解搜索引擎查询运算这一幕后工作对自己的SEO技术提升是有很大帮助的。
我们在提交关键词查询的时候,中文搜索引擎需要进行查询处理与分词,这是一个必不可少的步骤。这篇文章,独孤天骄主要讲解下查询处理的过程,下一篇文章我们再来更加详细地讲解下分词技术。
第一种情况:搜索引擎根据分隔符或分词词典进行切分。 用户在键入关键词入行查询之后,搜索引擎首先要做的是如果有分隔符就根据诸如空格、标点符号等将查询的关键词组再次分解成更小单位的关键字,如果没有分隔符则按照自己的分词字典进行切分。
举个例子,比如我们百度搜索引擎上查询了"独孤天骄seo"这个词,点击排名第一的"SEO研究院"的百度快照,搜索引擎对我们所查询的关键词入行不同的颜色标注,每种颜色就是搜索引擎切分的一个关键词,如下图所示:

本 例的查询就被分解成了"独孤天骄"和"seo"两个关键词,也就是说,通过"独孤天骄 seo"或者"独孤天骄,seo"这样的形式进行查询,都将会得到同样的结果。注意一下,关键词查询的时候中间的","是英文的半角符号,这也是为什么我 建议在标题写作的时候,如果有多个关键词,需要用半角英文逗号隔开的原因,因为这样就不需要搜索引擎进行二次解析。
不过这是个非常简单的例子,由于中文信息检索存在的自身特点,比如中文语词之间没有空格,中文的语法分析和语义理解与英语相比更为困难,以及用户查询习惯的不同,所以搜索引擎的信息索引和查询不像我们想象中的这么简单。
第二种情况:查询关键词有重复内容的情况。
假设提交的查询有重复内容,搜索引擎怎么处理呢?
我 们举例子来说明,在百度查询"独孤天骄 seo seo",得到什么结果?从这个结果我们知道,百度对此的处理是将重复的关键词进行消重直接忽视,因为百度搜索返往返的页面结果数量是一样的,并且首页返 回结果排序也完全不变。大家在Google查询下这个词组,不仅返回的查询结果数量变了,首页的排序结果也起了变化,说明Google似乎对重复的关键词 加强了权重进行处理。
在百度再次查询"seo 独孤天骄 seo",发现结果跟上例仍然一致,得出百度对用户所查询的关键词出现的先后顺序也是直接忽视的,但是在Google进行查询,结果却是不一样的,说明Google会对用户所查询的关键词顺序进行考量。
第三种情况:查询关键词包含英文单词的情况。
如果关键词包含英文字符的,这个英文字符会被当做一个词来进行切分,以这个英文字符为界,前后再细分为次级的关键词。
举个例子,比如我们搜索"微软xbox价格",就会被搜索引擎切分成"微软,xbox,价格",这个英文词语会被当作一整个关键词单独保留,不管这个词语在英文语法里面是否真正存在。
我 们不妨再次查询下"微软xboxlala价格"试试。如果查询里面包含数字,也是如此处理,如"微软xbox360价格"。注意,这个英语词语不管是一个 还是两个,只要没有隔开,都会被当做单个词组,比如查询"独孤天骄seoseo",大家观下百度快照,"seoseo"虽然我们在语义分析知道是两个词, 但是百度还是将它当做一个词语来处理的。
总结一下,我们以百度搜索引擎为例,它首先根据分隔符号将查询分开,然后查看是否有重复的关键词,如果有的话,就忽略或删除重复的关键词,接着判断是否有英文或者数字,如果有的话,就将英文或数字当作一个整体保留并把前后的中文切开。
百度的分词字典真的很强大!
第四种情况:查询扩展处理以提高信息检索的召往返率。
搜 索引擎还会根据同义词典和潜在语义进行拓展查询检索项。比如,搜索引擎会将"公安"和"警察","计算机"和"电脑","人民"和"百姓"当做同一个概念 进行处理。另外,搜索引擎在查询的时候,还会根据主题来进行归类,比如当我们查询"SEO"的时候,系统会自动将"网络营销"、"搜索引擎优化"、"网站 优化"之类的都归为一个主题来处理。
当用户在搜索引擎进行查询的时候,如果用户在搜索框输渗透一个关键词,当索引中有这样一个完全匹配的结果 的时候,就会显示出来。对于英文来说,相对就比较简单了些,只要对英文的单复数,时态、词根、组合词等入行分析即可。不过对于中文,则一定要进行分词。然 后对关键词入行向量计算,得出哪个网站的哪个关键词的权重比较高,就显示在索引中。
( http://www.dugutianjiao.com/post/guanjianci-jiansu o.html||http://www.tencentqq.cn/show/15928.html)

沒有留言:

張貼留言