搜索结果排序是Google改善最多的领域,但那只是搜索的一个要素而已——除非搜索引擎的其余部分运作得很有效率,否则
它一无可取。实务上,这表示必须搜集编辑一份广泛周延和最新的网页索引,而网络上的网页,一直不断变动。"Page Rank"
是在Google力量极其强大、效率极高的搜索基础设施上面运作。 这个基础设施,是从现在大多巳被遗忘的其他搜索引擎学到的教训。Google将无数电脑连接起来,快速提供答案,而不是
只用少数几部服务器,以免在尖峰负载期间系统崩溃。
利用Google搜索的时候,其实你并不是在网络上搜索,而是搜索储存在Google服务器中的网络复本索引。无数只数码机器
“蜘蛛”爬过整个网络;搜集网页;从每个网页抽取所有的链接;把它们放入一张清单;按照优先顺序,整理排序清单上的这些
链接(因而收到平衡广度和深度的效果);然后搜集清单上的下一个网页。 索引就是靠那些蜘蛛回报的所有网页编成的。Google在加州和弗吉尼亚州等地设有四座数据中心,大量的互联网信息,存
成完整的拷贝,放在这些中心的服务器里面。 用户查询时,Google是在索引里面查搜索词汇(利用各式各样的技术,把这件工作分配给上万台电脑去做),接着查询结
果从另一组文件服务器传回’广告也从另一组服务器一并传回。 在“Page Rank”协助下,所有相关的信息片段组合成搜索结果网页。Google用现成的便宜零件组装电脑,并将这些硬件
串连起来,再加上聪明且强大的软件,能在转瞬之间,以十分低廉的成本做到这件事。它那些数量庞大的机器,共同组成一
部巨大的超级电脑,经最佳化调整,将一件事——寻找、排序和抽取网络信息——做得非常之好。 Google在网络上抓取资料的服务器超过一万台,是世界上以Linux为操作系统的最大“聚落”。它已将接近43亿页5的网
页编成索引,而且搜索结果不受广告赞助商的干预。以人力浏览43亿网页,5800年都看不完,而利用Google搜索,不到一
秒钟,搜索结果就跳出来。
佩奇和布林是在斯坦福大学的电脑系统上做出Google的雏型。但是他们怀有远大的梦想,十分清楚地想到未来,而且从
一开始,对于搜索和建立一套服务器系统,能够处理现在每天流经Google的2亿次查询,持有相当坚实的构想。 由于他们对于建构服务器架构的构想是那么清楚,所以很容易将梦幻研究项目转化为一家企业。叫人惊讶的事情发生了,
Google成了人们日常生活的一部分。
注:本文由深圳谷歌推广编辑,转载请注明来源http://www.google-guge.com/blog