哈尔滨网站优化经过文字提取、分词、消噪、去重后,搜索引擎得到的就是独特的、能反映页面主体内容的、 以词为单位的内容。接下来搜索引擎索引程序就可以提取关键词,按照分词程序划分好的词, 把页面转换为一个关键词组成的集合,同时记录每一个关键词在页面上的出现频率、出现次数、 格式(如出现在标题标签、黑体、H标签、锚文字等)、位置(如页面第一段文字等)。这样, 每一个页面都可以记录为一串关键词集合,其中每个关键词的词频、格式、位置等权重信息也 都记录在案。
经过搜索引擎蜘蛛抓取页面,索引程序计算得到倒排索引后,哈尔滨网站优化搜索引擎就准备好可以随时处理 用户搜索了。用户在搜索框填入关键词后,排名程序调用索引库数据,计算排名显示给用户, 排名过程是与用户直接互动的。
搜索词处理
搜索引擎接收到用户输入的搜索词后,需要对搜索词做一些处理,才能进入排名过程。搜索词 处理包括几方面:
哈尔滨网站优化中文分词
与页面索引时一样,搜索词也必须进行中文分词,将查询字符串转换为以词为基础的关键词组 合。分词原理与页面分词相同。
去停止词
和索引时一样,哈尔滨网站优化搜索引擎也需要把搜索词中的停止词去掉,最大限度地提高排名相关性及效率。
|