提到最早的目录式的搜索,自然不能忘记最大的中文门户网站新浪网。1993年12月18日成立的四通利方信息技术有限公司是新浪网的前身,四通利方国际网络部于1996年4月29日正式成立SRS Net.com中文网站。1998年12月1日,四通利方宣布并购了最大的华人网站公司“华渊资讯”,正式成立了全球最大的华人网站“新浪网”。真正的新浪网的搜索应该追溯到1999年初。1999年2月2日,新浪网开始推出新一代中文搜索引擎“新浪搜索”(Sina Search)测试版,并于1999年10月9日推出了高级搜索。新浪网的搜索引擎是面向全球华人的网上资源,它提供网站、网页、新闻、软件、游戏等查询服务。网站收录资源丰富,分类目录规范细致,遵循中文用户习惯,其有16大类目录,一万多个细目和二十余万个网站,是当时互联网上最大规模的中文搜索目录之一。2000年3月29日,新浪网正式申请在美国纳斯达克上市,并于2000年4月13日在纳斯达克开始公开发行股票。
1.3.2改进的搜索
随着网络信息的飞速增长,单纯依靠人工分类整理的目录式搜索已经远远不能满足人们查找信息的需要。当时,单单一家综合网站的数据库里相关的信息,就可能储藏着近一亿的网页,对于如此庞大的网页数量,人工根本无法处理。另外,随着人们对网络信息的利用越来越多,对查找信息工具的要求也越来越高,人们不再满足于在某一个专题网站上被动接受网站提供的信息,需要把整个网络对自己有用的信息做一个有效的搜集与整理,这就导致了第二代搜索引擎的产生。
这类搜索引擎的代表我们都比较熟悉,在国外是Google,而在中文搜索领域是百度。虽然它们属于最成功的搜索引擎,但并不是最早出现的,更早期出现的搜索引擎则是前面提到过的Inktomi、AltaVista和Overture等。
Inktomi在印第安语中是“蜘蛛”的意思。Inktomi成立于1996年,其核心搜索技术基于美国伯克利大学的一项搜索研究方案,这项方案利用的是一种被称为“平行计算法”的搜索技术,采用“蜘蛛”方式采集数据。当时,甚至今天,Inktomi一直是通过一些顶级的门户网站和目标站点向全世界半数以上的互联网用户提供最新、最相关的搜索结果,目前为雅虎的子公司。
Alta Vista被公认为搜索技术的先驱。它基于58项技术专利而建,在避免双重搜索、抵御垃圾等技术上不断革新,发展了聚类方法,改进了搜索结果的相关性。2003年Alta Vista被Overture收购,目前为雅虎的子公司。
Ask Jeeves搜索引擎是1996年6月由David Warthen和Garrett Gruener创建的,他们致力于将互联网人性化,使其更加方便,直观地为人们找到所需的信息、产品和服务,并协助公司企业更好地获得并保持最大化在线交易值。Ask Jeeves的网站与门户网站、信息港、分类网站、目的网站结成技术联合,协助企业公司通过网络搜索增加电子商务及广告收入。
Overture最早是GoTo.com网站,是1997年9月由Bill Gross’Idealab建立的。最值得互联网界重视的是它的收费推广模式,1998年6月,Overture公司开始了付费推广搜索服务,使广告商们通过对指定关键词竞价,得到不同的搜索结果排名。2003年2月,Overture与Alta Vista公司达成最后协议,Overture收购Alta Vista的所有业务。随后,Overture完成对FAST站点的收购,2003年6月Alta Vista成为世界最大的多媒体索引数据库。2003年10月7日,Overture在完成了纳斯达克的最后一笔交易后,被雅虎正式收购,成为雅虎的子公司。
1.3.3新搜索之争
在中国(至少在中国),最出名的两家搜索引擎公司是:Google和百度。从全世界来讲,Google是最出名的。雅虎,正像一只虎,声势浩大地闯入新搜索领域,它正在不断招兵买马、增强实力,不可小视。而搜狐、网易、新浪这些公司也不肯拱手把搜索市场让出去,都积极发展独立的搜索引擎。网易已经秘密研发了“有道”搜索,未来会怎样?从下面的叙述中可以预知一二。
(1)Google的崛起
Google是一家成立非常晚的搜索引擎公司,但它被公认为是做得最成功的。
Google是由美国斯坦福大学的两位博士生Larry Page和SergeyBrin于1998年创立的。
1999年6月才通过自己的公共站点开始向互联网用户提供直接的搜索服务,并且也为信息内容供应商(综合性或专业性网站)提供联合品牌的网络搜索解决方案。
Google现在的索引量已达30亿URL,成为互联网上最大的搜索引擎。通过对30多亿网页进行整理,可为世界各地的用户提供适合的搜索结果,而且搜索时间通常不到半秒。
Google并非只使用关键词或代理的搜索技术,它将自身建立在高级的网页级别技术基础之上。这项技术可以将最重要的搜索结果先呈现给用户。网页级别可对网页的重要性进行客观的分析。用于计算网页级别的公式包含5亿个变量和20多亿个项。网页级别利用巨大的网络链接结构对网页进行组织整理。当从网页A链到网页B时,Google就认为“网页A投了网页B一票”。此外,Google还对投票的网页进行分析,根据网页的得票数评定其重要性。然而,除了考虑网页得票数(即链接)的纯数量之外,Google还要分析投票的网页。“重要”的网页所投出的票就会有更高的权重,并且有助于提高其他网页的“重要性”。重要的、高质量的网页会获得较高的网页级别。Google在排列其搜索结果时,会考虑每个网页的级别。Google将网页级别与完善的文本匹配技术结合在一起,力图找到最重要、最有用的网页。Google所关注的远不只是关键词在网页上出现的次数,它还对网页的内容进行全面检查,从而确定该网页是否满足查询要求。
在使用界面方面,Google也有自己的优势,用户不必特意访问Google主页也可以获得所有这些信息。使用Google工具栏可以从网上任何一个位置进行Google搜索。如果身边没有计算机,也可以通过WAP和i-mode手机等无线平台使用Google搜索。
Google的实用性及便利性赢得了众多用户的青睐,它几乎完全是在用户的交口称颂下成为全球最知名品牌的。作为一个企业,Google通过提供广告服务来获取收入,使广告客户能够刊登与特定网页内容相关的、重要而有经济实效的在线广告。
Google当然不会拱手让出中国市场,所以在中文化方面做了大量的努力。在策略上通过收购百度的部分股份,开始进军中国搜索市场。随后又专门为使用简体中文的用户推出了五种新的快捷搜索功能,加强对中文搜索的投入力度。2000年9月12日,Google开始启用中文搜寻服务。2004年6月21日,Google推出新的快捷搜索方式,它能方便中文用户访问更多信息。2004年9月9日,Google推出简体中文新闻搜索服务。2005年3月7日,Google推出桌面搜索中文版。2005年5月25日,Google推出桌面搜索1.0中文版,所有这些步骤都充分体现了Google中文本地化的决心和信心。
(2)百度:中文搜索之王
中文搜索之王?也许是暂时的,但至少今天还是(2007-5-11)。
从第二代搜索引擎开始,特别是技术成熟的后期,人们逐渐对搜索引擎的本地化和人性化的应用进行了深入的讲究。搜索引擎是个非常复杂的事情,互联网的用户需求也相当复杂。
随着网络信息对普通人生活的影响,人们越来越需要它,它的搜索速度、搜索内容、文件类型、准确性等都超出了单纯技术的范围,搜索引擎的“本土化”和“生活化”越来越受到关注和重视。
其实,搜索引擎的进化过程,就是一个时时满足海量信息时代人们对有效信息需求的过程。将来搜索引擎的发展方向,一定是向着更人性化的方向发展。在中国,人们利用搜索引擎的水平还不高,他们迫切需要这样的一个工具:简单实用、不需要学习如何使用就可以用得不错。哪个公司能够尽快地开发出这个工具,它就可能迅速走向成功。在这方面百度公司是一个成功的案例。
百度于1999年底在美国硅谷成立,它的创建者是资深信息检索技术专家,超链分析专利的唯一持有人——百度总裁李彦宏及其好友——在硅谷有多年商界成功经验的徐勇博士。
2000年,百度回国发展超链分析技术,这是新一代搜索引擎的关键技术,已为世界各大搜索引擎普遍采用。2003年11月17日,百度推出全新搜索功能,此次升级后的搜索引擎具备开放共享的功能。2003年6月8日在《中国电脑教育报》举办的万人公开评测中,百度战胜Google,成为中文搜索市场上的第一。2005年8月6日百度赴美上市成功。百度以亿计的中文网页、全球独有的“超链分析”技术、亚秒级的迅捷速度和庞大的服务器群接受来自全球各个国家的中文搜索请求。
目前百度是全球最优秀的中文信息检索与传递技术供应商。此外,百度市场推广的成功也值得借鉴,在2002年,中国所有提供搜索引擎的门户网站中,80%以上都由百度提供搜索引擎技术支持,当时的客户包括新浪、腾讯、263、21cn、上海热线、广州视窗、新华网等。
此外,在技术方面,百度也是很有特点的。百度搜索引擎由四部分组成:蜘蛛程序、监控程序、索引数据库和检索程序。门户网站只需将用户查询内容和一些相关参数传递到百度搜索引擎服务器上,后台程序就会自动工作并将最终结果返回给网站。
百度搜索引擎使用了高性能的网络蜘蛛程序自动地在互联网中搜索信息。可定制、高扩展性的调度算法使得搜索器能在极短的时间内收集到最大数量的互联网信息。百度在中国各地和美国均设有服务器,搜索范围涵盖了几乎所有的华语地区及北美、欧洲的部分站点,因此,百度搜索引擎拥有目前世界上最大的中文信息库。
此外,百度深刻理解中文用户搜索习惯,开发出关键词自动提示:用户输入拼音,就能获得中文关键词正确提示。百度还开发出中文搜索自动纠错,如果用户误输入错别字,可以自动给出正确关键词提示。百度快照是另一个广受用户欢迎的特色功能,解决了用户上网访问经常遇到死链接的问题:百度搜索引擎已先预览各网站,拍下网页的快照,为用户储存大量应急网页。即使用户不能链接上所需网站,百度为用户暂存的网页也可救急。而且通过百度快照寻找资料往往要比常规方法的速度快得多。
此外,百度还有其他多项体贴普通用户的功能,包括相关搜索、中文人名识别、简繁体中文自动转换、网页预览等。百度已增加了专业的MP3搜索、Flash搜索、新闻搜索、信息快递搜索,并正在快速发展用户喜欢的搜索功能。
(3)雅虎:江东之虎
雅虎在用户和资金方面优势明显,它在收购和OEM合作策略上特别下工夫。它通过收购或间接收购Inktomi、Overture、Alta Vista等大的搜索引擎技术公司,不仅获得了全方面的技术优势,同时也获得了更多的用户群。而且通过OEM合作伙伴的选择,控制上游技术竞争对手的发展。因此,当雅虎推出它的新的搜索技术后,没有人对它未来的光明前途产生怀疑。
据了解,在互联网重新回到“技术为王”的今天,搜索技术将是改变传统互联网浏览和商务习惯最重要的力量。
YST是雅虎在收购Inktomi、Overture、Alta Vista和Fast四家国际知名搜索服务厂商之后,经过数百名工程师一年的开发打磨,于2004年2月正式推出的国际领先的搜索引擎平台。
推出不足两月,YST就已经成为在全球范围内使用量最大的二家搜索引擎之一。
2004年6月21日,雅虎在中国也推出全新的独立搜索门户——“一搜”,它是一个基于雅虎最新技术YST精心打造的搜索门户,它向业界展示了雅虎大举进军搜索领域的行动与决心。雅虎在中国发布独立的搜索门户不仅令整个业界为之侧目,同时也引发整个互联网搜索市场的重新洗牌。在此之前,雅虎以1.2亿美元收购了中文搜索领域的另一个巨头3721网络公司,这是雅虎进军中国搜索市场的最大举措,也表明了雅虎对中国市场的高度重视。
2004年10月21日“一搜”全国首推WAP搜索。而在前一周,雅虎在美国已经推出了比Google更为先进的移动搜索服务,也引起业内的广泛关注。2004年12月13日,“一搜”对MP3搜索引擎进行全球升级,正式推出了可检索全球1500万MP3音乐文档的搜索引擎,用户登录“一搜”网站即可使用。