如果你想拥有上帝的地位,那么,要同时肩负上帝的责任。--- 克里斯托弗.埃克尔斯通在 《上帝之子耶稣基督》剧中台词。
Google的界面是我有生以来见过的最简单的网站用户界面,也是我所认为的最美的界面。它很好的诠释了一句哲学的老话:简单就是美。你在这个界面上唯一所要做的事情,就是想想你现在想干什么,你想知道什么。然后就是,用最恰当的词句来描绘你的想法,把它输入到Google唯一的入口,一个输入框,回车。就那么简单。
在大约几秒钟之后,你将看到许多和你的想法极其相关的内容出现。然后你点击相应的链接,进入你想进入的某个地方。或许是某个卖特殊商品的网站,或者是某个数字图书馆,总之无论是什么地方,八九不离十的那些都是你确实想去的地方。很神奇吧,这就是为什么现在Google会很火的原因。Google让你在简单的行为中获得你预期的东西。
然而,Google简单的背后却不那么简单,让我们跟随本文一步步地去看看那逐渐消失的地平线后发生了什么?是那遥远的香格里拉吗?:)
技术背后的思想
当你在Google的输入框敲入某个词句后回车并获得你想要的相关信息列表时,是斯坦福大学博士研究生佩奇发明的一个名叫PageRank的算法在帮你做出判断,算出某些网页就是你所需要的信息。同时它还对这些信息按某种算法所认为的重要性来给你排序,帮你完成它所认为的最优的信息检索。
如果让人来猜猜这算法背后究竟发生了些什么?很多人会下意识地首先地想到关键词算法搜索。其实不然,更进一步,假如真是用关键词搜索。那么对于一些具有相同数量关键词的网页的优先级如何确定呢?更重要的是对那些被虚假的关键词淹没了的虚假的内容龌龊的网页该怎么办呢?
在Google出现之前,早已经有些比较有名的搜索引擎了。它们是Yahoo、Excite、Infoseek和Lycos等,它们的共同之处就是当时都是用关键词搜索算法来进行网页的搜索。使用这种算法来进行搜索的弊病就是搜索的结果往往不准确。不准确的原因多种多样,但最主要的是那些想依靠搜索引擎为自己谋利而且很容易达到目的的人的一种简单做法。他们是怎么做的呢?对于这些聪明的作弊者来说,他们只要在自己想要宣传的网页里放上很多的读者看不到(白色背景白色字)却确实存在于网页里的网络上常用的关键词,这样的结果可想而知。这就是为什么1998年的时候,Lycos提供的同“汽车”对应的搜索结果大多都是色情网站。
当你输入汽车、阅读和论文,然而大部分的搜索结果却是色情网站时,你的心态会是怎样的糟糕呢?你会丧失对这些搜索引擎最起码的耐心,同时也就是说这些搜索引擎对你失去了可信度。而信任是任何人类持续相互交流的最根本的基础。
PageRank算法很好的处理了上述所说的问题。当然不可能完全解决搜索结果的欺骗问题,因为算法是死的,而人脑是活的。只要有利用搜索结果获利的机会存在,比如SEO(搜索引擎优化)产业,就会有作弊与反作弊的争斗。而本文所要讲述的是技术背后的思想,所以我们不会对这个问题进行长篇累牍的讨论。
PageRank算法的处理机制主要是,对URL(因特网链接)里的文本进行搜索,接着对搜索到的结果,数量巨大的网页进行评级。PageRank算法的核心部分就是它的评级机制。它的思想主要来自于学术界的文献计量学里以引文为基础的权威性计量方式。也就是说你引用他人研究成果的行为,反映了这些作品对你的研究而言所代表的等级和权威性。用类比推理的转换,我们很自然的发现这样的权威性计量方式也适用于因特网上网页的计量和评级。
以一个网页为例,它会对它所关切的内容有相应数量的链接,与此同时会有某些网页会对该网页有链接,只要它们觉得该网页对它们的内容有用。从某种角度来说,网页的引用往往是相互的,其复杂度要大过学术界里论文的引用。不过从逻辑联系的强度来说,网页引用的严密性又要大大小于学术界的论文引用,但这对于普通意义上的使用强度来说,已经足够了。毕竟Google不是帮人写论文作研究,而只是帮助人找到相关的信息或者说内容,至于它们之间的逻辑关系有赖于使用者来定义和界定,否则世界万物都可以由Google来完成了。
PageRank算法的使用还间接的给出了一个不容易看出的事实。即通过它的排序和输出以及分流那些潜在的点击流量,它反映了当前社会上的时尚和流行趋势,当然这里的时尚是广义的定义,既可以是流行时装也可以是某门学科或者知识。换句话说,Google可以通过记录使用者的点击来构成它自己的点击流数据库,从中可以发现人们的渴望、需求、向往和偏好等。
对PageRank算法的分析以及Google被使用的程度我们可以看到,真正使Google成为一个著名的搜索引擎不是别的什么东西,而是Google搜索引擎本身内在的逻辑比较真实或者接近的反映了使用搜索引擎的使用者在使用Google过程中的逻辑,因此Google的用户和Google的关系是建立在可以重复多次的持续的信任基础上的。更深刻一点的分析,我们可以发现一个能普遍流行的事物总是有着和存在着的或者说潜在的流行思想相吻合的共通之处。
在后续的系列文章中以及在本文的后续篇幅中我们仍将继续讨论可信度这个问题。从某种程度上我们可以说Google的奇迹就是建立在这三个字的基础之上的。
注:本篇文章的部分的内容要么完全要么大部分出自约翰. 巴特利先生的著作《The Search》。
(第三媒体 2006-07-24)