google拥有庞大的数据库

   搜索结果排序是Google改善最多的领域，但那只是搜索的一个要素而已——除非搜索引擎的其余部分运作得很有效率，否则

它一无可取。实务上，这表示必须搜集编辑一份广泛周延和最新的网页索引，而网络上的网页，一直不断变动。"Page Rank"

是在Google力量极其强大、效率极高的搜索基础设施上面运作。

   这个基础设施，是从现在大多巳被遗忘的其他搜索引擎学到的教训。Google将无数电脑连接起来，快速提供答案，而不是

只用少数几部服务器，以免在尖峰负载期间系统崩溃。

   利用Google搜索的时候,其实你并不是在网络上搜索，而是搜索储存在Google服务器中的网络复本索引。无数只数码机器

“蜘蛛”爬过整个网络；搜集网页；从每个网页抽取所有的链接；把它们放入一张清单；按照优先顺序，整理排序清单上的这些

链接（因而收到平衡广度和深度的效果)；然后搜集清单上的下一个网页。

   索引就是靠那些蜘蛛回报的所有网页编成的。Google在加州和弗吉尼亚州等地设有四座数据中心，大量的互联网信息，存

成完整的拷贝，放在这些中心的服务器里面。

   用户查询时，Google是在索引里面查搜索词汇（利用各式各样的技术，把这件工作分配给上万台电脑去做)，接着查询结

果从另一组文件服务器传回’广告也从另一组服务器一并传回。

   在“Page Rank”协助下，所有相关的信息片段组合成搜索结果网页。Google用现成的便宜零件组装电脑，并将这些硬件

串连起来，再加上聪明且强大的软件，能在转瞬之间，以十分低廉的成本做到这件事。它那些数量庞大的机器，共同组成一

部巨大的超级电脑，经最佳化调整，将一件事——寻找、排序和抽取网络信息——做得非常之好。

   Google在网络上抓取资料的服务器超过一万台，是世界上以Linux为操作系统的最大“聚落”。它已将接近43亿页5的网

页编成索引，而且搜索结果不受广告赞助商的干预。以人力浏览43亿网页，5800年都看不完，而利用Google搜索，不到一

秒钟，搜索结果就跳出来。

   佩奇和布林是在斯坦福大学的电脑系统上做出Google的雏型。但是他们怀有远大的梦想，十分清楚地想到未来，而且从

一开始，对于搜索和建立一套服务器系统，能够处理现在每天流经Google的2亿次查询，持有相当坚实的构想。

   由于他们对于建构服务器架构的构想是那么清楚，所以很容易将梦幻研究项目转化为一家企业。叫人惊讶的事情发生了，

Google成了人们日常生活的一部分。

注:本文由深圳谷歌推广编辑，转载请注明来源http://www.google-guge.com/blog