大部分主流搜索引擎都提供一个表格,让站长提交网址。不过这些提交来的网址都只是存入地 址库而已,是否收录还要看页面重要性如何。搜索引擎所收录的绝大部分页面是蜘蛛自己跟踪 链接得到的。可以说提交页面基本上是毫无用处的,搜索引擎更喜欢自己沿着链接发现新页面。
文件存储
哈尔滨网站优化搜索引擎蜘蛛抓取的数据存入原始页面数据库。其中的页面数据与用户浏览器得到的HTML是 完全一样的。每个URL都有一个独特的文件编号。
哈尔滨网站优化爬行时的复制内容检测
检测并删除复制内容通常是在下面介绍的预处理过程中进行,哈尔滨网站优化但现在的蜘蛛在爬行和抓取文件 时也会进行一定程度的复制内容检测。遇到权重很低的网站上大量转载或抄袭内容时,很可能 不再继续爬行。这也就是为什么有的站长在日志文件中发现了蜘蛛,哈尔滨网站优化但页面从来没有被真正收录过。
|