搜索引擎索引程序将页面及关键词形成词表结构存储进索引库。简化的索引词表形式如下表所
每个文件都对应一个文件ID,文件内容被表示为一串关键词的集合。实际上在搜索引擎索引库 中,关键词也已经转换为关键词ID。这样的数据结构就称为正向索引。
倒排索引
正向索引还不能直接用于排名。假设用户搜索关键词2,如果只存在正向索引的话,排名程序 需要扫描所有索引库中的文件,找出包含关键词2的文件,再进行相关性计算。这样的计算量 无法满足实时返回排名结果的要求。
哈尔滨SEO所以搜索引擎会将正向索引数据库重新构造为倒排索引,把文件对应到关键词的映射转换为关 键词到文件的映射。如下表所示:
在倒排索引中关键词是主键,每个关键词都对应着一系列文件,这些文件中都出现了这个关键 词。这样当用户搜索某个关键词时,排序程序在倒排索引中定位到这个关键词,就可以马上找 出所有包含这个关键词的文件。
哈尔滨SEO链接关系计算
链接关系计算也是预处理中很重要的一部分。哈尔滨SEO现在所有的主流搜索引擎排名因素中都包含网页 之间的链接流动信息。搜索引擎在抓取页面内容后,必须事前计算出页面上有哪些链接指向哪 些其他页面?每个页面有哪些导入链接?链接使用了什么锚文字?这些复杂的链接指向关系形 成了网站和页面的链接权重。
|