网络实验室

 找回密码
 注册账户
查看: 26582|回复: 1

神奇的分布世界

[复制链接]
无心的棋子 发表于 2007-7-13 14:17:30 | 显示全部楼层 |阅读模式
奇的分布世界

作者:何伟平 工程师

很多朋友,尤其是一些保持着好奇心的朋友,会问我,像雅虎搜索这样搜索引擎会面临什么问题,有什么样的麻烦事?

我通常都会说,对于任何一个严肃的搜索引擎,它要面对的最大的挑战就是海量的信息……互联网实在是太庞大了,内容实在是太多了,林林总总,良莠不齐。而做为一个搜索引擎,必须能对这么庞大的数据进行快速、准确、高效的检索。


对于搜索引擎来说,不管你再智能、再聪明,首先都要把这由几百上千万台主机承载的互联网加以消化和整理,然后提供给用户检索。虽然这个数目庞大的互联网主机里头有很大一部分并非容量巨大,但也绝非是少量硬件就可以将之包容下来并且提供搜索服务的。就目前的硬件体系来说,几乎不可能用少数几台机器来实现互联网所有信息的检索,即使有,这样的系统的价格也会高的吓走所有地球人。

还好,人类的聪明才智让人类克服了无数的困难,这其中也包括互联网搜索。对付互联网搜索,我们想出来的办法是:分布的集群。

所谓分布,就是用某种手段将整个互联网化整为零,就如我们制造几十万吨的油轮一样,只不过是反过来,先将油轮想办法分解成一块块的钢板。

所谓集群,就是用通讯协作的手段,将经过分解,零碎的信息再次整理,集中起来,再次还原出一个互联网给使用的用户;其过程类似从钢板拼成仓段,然后从仓段拼成一条油轮。

雅虎搜索正是这样一个分布集群的经典表现。可以毫不夸张地说,这是当今世界上正在运行的最大的也是最先进的分布集群之一。

这里有成千上万的机器,他们在一起,平时相互喊着劳动的号子,把互联网抓取下来,分解,切片、切块儿,然后对每个小块编制索引,完成化整为零的工作,让我们现有的硬件可以咀嚼,可以有效地进行索引,因为只有索引过之后的数据,才能提供快速、高效的检索。

化整为零之后,便是化零为整,把每个小块儿放在一台机器上,许多这样的机器组成一个大大的集群,同样是相互协作,吹着哨子,喊着“一二三”,将小块儿组合成一个经过索引的、有序的互联网。当用户查询的时候,相互协调、合作,从还原出来的有序的互联网中,把用户需要的相关信息检索出来。同时,还要做到既高效,且内容丰富。这里需要考虑的事情还真不少,经过长期的开发与研究,所有这些困难都已经是“天堑变通途”。

从概念到应用,需要的是具体的一堆软件让这些机器相互合作:从网络到应用,从硬件到系统,一堆的大大小小形形色色的软件,整个集群想一部严密运行的机器,在这里,所有的软件都必须考虑效率,都必须考虑协作;每一台机器,都只能算是系统中的一个零件!整个分布系统运转起来的时候相当壮观,身处其中,像小泽面对着爱乐乐队;也像Neo面对着整个Matrix;有时候,作为建设、管理人员一员的自己,会很有Jack在船头的感觉:I'm the king of the world!

分布集群是一个古老而又时髦的概念,在今天的雅虎搜索里,它得到了灵活又充分的使用,目的就是为了能提供更多的内容,更快的速度和更好的结果。在未来,成千上万机器会组合起来,好像一台机器,给我们提供更简单,更快捷,更准确的检索。那个时候的搜索,就好像我们在自己的计算机里面找一些东西那样。

古老的分工与合作在现代计算机技术里摇身一变,成为了分布的集群,一样的简单,一样的令人着迷。
您需要登录后才可以回帖 登录 | 注册账户

本版积分规则

黑屋|存档|手机|网络实验室 本站服务器由美国合租以及IDCLayer国际数据提供!!!

GMT+8, 2024-4-26 05:36 , Processed in 0.102904 second(s), 9 queries , Gzip On, Redis On.

Powered by Discuz! X3.4

Copyright © 2001-2021, Tencent Cloud.

快速回复 返回顶部 返回列表