一些大型网站一个网站就有百万千万页面,可以想象网上所有网站的页面加起来是一个什么数 据量。搜索引擎蜘蛛抓取页面后,还必须有效存储这些数据,数据结构必须合理,具备极高的 扩展性,写入及访问速度要求也很高。
除了页面数据,搜索引擎还需要存储页面之间的链接关系以及大量历史数据,这样的数据量是 我们用户无法想象的。据说Google有几十个数据中心,上百万台服务器。这样大规模的数据存 储和访问必然存在很多技术挑战。
我们经常在搜索结果中看到,排名会没有明显原因地上下波动,甚至可能刷新一下页面,就看 到不同的排名,有的时候网站数据也可能丢失。这些都可能与大规模数据存储的技术难题有关。
|