无论英文中文,页面内容中都会有一些出现频率很高,却对内容没有任何影响的词,如“哈尔滨网站优化的”, “地”,“得”之类的助词,“啊”,“哈”,“呀”之类的感叹词,“从而”,“以”, “却”之类的介词。这些词被称为停止词,因为它们对页面主要意思没什么影响。英文中的常 见停止词如the,a,an,to,of等。
搜索引擎在索引页面之前会去掉这些停止词,使索引数据主题更为突出,减少无谓的计算量。
哈尔滨网站优化消除噪声
绝大部分页面上还有一部分内容对页面主题也没有什么贡献,比如版权声明文字、导航条、广 告等。以常见的博客导航为例,几乎每个博客页面上都会出现文章分类、历史存档等导航内容, 但是这些页面本身与“分类”、“历史”这些词都没有任何关系。用户搜索“历史”,“分 类”这些关键词时仅仅因为页面上有这些词出现而返回博客帖子是毫无意义的,完全不相关。 所以这些区块都属于噪声,对页面主题只能起到分散作用。
哈尔滨网站优化搜索引擎需要识
|