去停止词
别并消除这些噪声,排名时不使用噪声内容。消噪的基本方法是根据HTML标 签对页面分块,区分出页头、导航、正文、页脚、广告等区域,在网站上大量重复出现的区块 往往属于噪声。对页面进行消噪后,剩下的才是页面主体内容。
同一篇文章经常会重复出现在不同网站以及同一个网站的不同网址上,搜索引擎并不喜欢这种
查询词完成分词后哈尔滨网站优化搜索引擎的缺省处理方式是在关键词之间使用“与”逻辑。也就是说用户 搜索“减肥方法”时,程序分词为“减肥”和“方法”两个词,搜索引擎排序时缺省认为,用 户寻找的是既包含“减肥”,也包含“方法”的页面。只包含“减肥”不包含“方法”,或者
百度一下
图26输入的错拼、错字矫正
整合搜索触发
哈尔滨网站优化某些搜索词会触发整合搜索,比如明星姓名就经常触发图片和视频内容,当前的热门话题又容 易触发资讯内容。哪些词触发哪些整合搜索,也需要在搜索词处理阶段计算。
文件匹配
搜索词经过处理后,哈尔滨网站优化搜索引擎得到的是以词为基础的关键词集合。文件匹配阶段就是找出含有 所有关键词的文件。在索引部分提到的倒排索引使得文件匹配能够快速完成。
|