假设用户搜索“关键词2关键词7”,排名程序只要在倒排索引中找到“关键词2”和“关键词 7”这两个词,就能找到分别含有这两个词的所有页面。经过简单计算就能找出既包含“关键词 2”,也包含“关键词7”的所有页面-文件1和文件。
找到包含所有关键词的匹配文件后,还不能进行相关性计算,哈尔滨网站优化因为找到的文件经常会有几十万 几百万,甚至上千万个。要对这么多文件实时进行相关性计算,需要的时间还是比较长。
哈尔滨网站优化实际上用户并不需要知道所有匹配的几十万几百万个页面,绝大部分用户只会查看前两页,也 就是前二十个结果。搜索引擎也并不需要计算这么多页面的相关性,而只要计算最重要的一部 分页面就可以了。常用搜索引擎的人都会注意到,搜索结果页面通常最多只显示一百个。用户 点击搜索结果页面底部的“下一页”链接,最多也只能看到第一百页,也就是一千个搜索结果。
哈尔滨网站优化所以搜索引擎只需要计算前一千个结果的相关性,就能满足要求。
但问题在于,还没有计算相关性时,搜索引擎又怎么知道哪一千个文件是最相关的?所以用于 最后相关性计算的初始页面子集的选择,必须依靠其他特征而不是相关性,其中最主要的就是 页面权重。由于所有匹配文件都已经具备了最基本的相关性(这些文件都包含所有查询关键 词),搜索引擎通常会用非相关性的页面特征选出一个初始子集。初始子集的数目是多少?几 万个?或许更多,外人并不知道。不过可以肯定的是,当匹配页面数目巨大时,搜索引擎不会 对这么多页面进行计算,而必须选出页面权重较高的一个子集,哈尔滨网站优化再对子集中的页面进行相关性 计算。
|