为了避免重复爬行和抓取网址,搜索引擎会建立一个地址库,记录已经被发现还没有抓取的页
面,以及已经被抓取的页面。
哈尔滨网站优化地址库中的URL有几个来源。
1.一哈尔滨网站优化是人工录入的种子网站。
2.二是蜘蛛抓取页面后,从HTML中解析出新的链接URL,与地址库中的数据对比,如果 是地址库中没有的网址,就存入待访问地址库。
3.三是哈尔滨网站优化站长通过搜索引擎网页提交表格提交进来的网址。
蜘蛛按重要性从待访问地址库中提取URL,访问并抓取页面,然后把这个URL从待访问地址库中删除,哈尔滨网站优化放进已访问地址库中。