Wisenut由韩裔Yeogirl Yun创立,2001年春季发布Beta版,2001年9月5日发布正式版,2002年4月被分类目录提供商looksmart收购。Wisenut也有两个新颖的功能:包含类似自动分类和相关检索词的智能向导;预览搜索结果的一瞥(Sneak-a-Peek)。
Gigablast由前Infoseek工程师Matt Wells创立,2002年3月展示Pre-beta版,2002年7月21日发布Beta版。Gigablast的数据库偏小,但也提供网页快照,一个特色功能是即时索引网页,网页一提交它就能搜索。
Openfind创立于1998年1月,其技术源自台湾中正大学吴升教授所领导的GAIS实验室。Openfind起先只做中文搜索引擎,曾经是最好的中文搜索引擎,但2000年后市场逐渐被百度和Google瓜分。2002年6月,Openfind重新发布基于GAIS30项目的Openfind搜索引擎Beta版,推出多元排序,宣布累计抓取了35亿网页,开始进入英文搜索领域,此后技术升级明显加快。
北大天网是中国国家“九五”重点科技攻关项目“中文编码和分布式中英文信息发现”的研究成果,由北大计算机系网络与分布式系统研究室开发,于1997年10月29日正式在CERNET上提供服务。2000年初成立天网搜索引擎新课题组,由国家973重点基础研究发展规划项目基金资助开发,收录网页约6000万个,利用教育网优势,具有强大的FTP搜索功能。
2000年1月,超链分析专利发明人、前Infoseek资深工程师李彦宏与好友徐勇(加州伯克利分校博士)在北京中关村创立了百度(Baidu)公司。2001年8月发布Baidu.com搜索引擎Beta版(此前Baidu只为其他门户网站提供搜索引擎),2001年10月22日正式发布百度搜索引擎。百度虽然只提供中文搜索,但它是最大的中文数据库。百度搜索引擎的其他特色包括:网页快照、网页预览/预览全部网页、相关搜索词、错别字纠正提示、新闻搜索、Flash搜索、信息快递搜索。在2002年3月闪电计划(Blitzen Project)开始后,其技术升级明显加快。
1.2.2搜索引擎的分类
1.按工作方式分类
搜索引擎按其工作方式主要可分为三种:全文搜索引擎(Full Text Search Engine)、目录索引类搜索引擎(Search Index/Directory)和元搜索引擎(Meta Search Engine)。
(1)全文搜索引擎
全文搜索引擎是名副其实的搜索引擎,国外具代表性的有Google、Fast、AltaVista、Inktomi、Teoma、WiseNut等,国内着名的有百度。它们都是从互联网上提取的各个网站的信息(以网页文字为主)存入数据库中,然后检索与用户查询条件匹配的相关记录,按一定的排列顺序将结果返回给用户,因此它们是真正的搜索引擎。
从搜索结果来源的角度,全文搜索引擎又可细分为两种,一种是拥有自己的检索程序(Indexer),俗称“蜘蛛”(Spider)程序或“机器人”(Robot)程序,并自建网页数据库,搜索结果直接从自身的数据库中调用,如上面提到的7家引擎;另一种则是租用其他引擎的数据库,并按自定的格式排列搜索结果,如Lycos引擎。
(2)目录索引
目录索引虽然有搜索功能,但在严格来讲算不上是真正的搜索引擎,只是按目录分类的网站链接列表而已。用户完全可以不用进行关键词(Keywords)查询,仅靠分类目录也可找到需要的信息。目录索引中最具代表性的莫过于大名鼎鼎的雅虎。其他着名的目录索引还有Look Smart、About等。
(3)元搜索引擎
元搜索引擎在接受用户查询请求时,同时在其多个引擎上进行搜索,并将结果返回给用户。着名的元搜索引擎有Info Space、Dogpile、Vivisimo等,中文元搜索引擎中具代表性的有搜星搜索引擎。在搜索结果排列方面,有的直接按来源引擎排列搜索结果,如Dogpile,有的则按自定的规则将结果重新排列组合,如Vivisimo。
2.非主流形式的搜索引擎
除上述三大类引擎外,还有以下几种非主流形式。
(1)集合式搜索引擎
如HotBot在2002年底推出的引擎。该引擎类似META搜索引擎,但区别在于,不是同时调用多个引擎进行搜索,而是由用户从提供的4个引擎当中选择,因此称它“集合式”搜索引擎更确切些。
(2)门户搜索引擎
如AOL Search、MSN Search等。虽然提供搜索服务,但自身既没有分类目录也没有网页数据库,其搜索结果完全来自其他引擎。
(3)免费链接列表(Free ForAll Links,FFA)
这类网站一般只简单地滚动排列链接条目,少部分有简单的分类目录,不过规模比起雅虎等目录索引来要小得多。
6做自己的搜索引擎——搜索引擎精解案例教程3.按发展状况分类
搜索引擎按其发展状况来分类主要可分为三种。
(1)第一代搜索引擎
依靠人工分拣的分类目录搜索,以雅虎为标志。
(2)第二代搜索引擎
依靠及其抓取,并建立在超级链接分析技术基础之上的网页搜索,以Google为代表,信息量大、更新及时,返回信息多。
(3)第三代搜索引擎
把“智能化”、“人机交互”等功能融入了主流。将自动分类技术、多语言内容分析技术及区域识别技术应用到了大型搜索引擎中,除了在信息检索速度、更新频率等基本技术指标方面处于领先地位之外,它的网页相关检索、拼音纠错、模糊查询、语音查询等技术也具有很高的水准。此外,还兼备了新闻、MP3、图片、Flash搜索功能。
1.2.3搜索引擎的基本工作原理
了解搜索引擎的工作原理对我们日常的搜索应用和网站推广都会有很大帮助,本节只从概念上去说明搜索引擎的基本原理,具体的实现方法和相关技术标准将在第2章讲解。
(1)全文搜索引擎的基本工作原理
前面提到过全文搜索引擎从网站提取信息建立网页数据库的概念。搜索引擎的自动信息搜集功能分两种。一种是定期搜索,即每隔一段时间(比如Google一般是28天),搜索引擎主动派出“蜘蛛”程序,对一定IP地址范围内的互联网站进行检索,一旦发现新的网站,它会自动提取网站的信息和网址加入自己的数据库。
另一种是提交网站搜索,即网站拥有者主动向搜索引擎提交网址,它在一定时间内(2天到数月不等)专门向网站派出“蜘蛛”程序,扫描网站并将有关信息存入数据库,以备用户查询。
由于近年来搜索引擎索引规则发生了很大变化,主动提交网址并不能保证用户的网站进入搜索引擎数据库,因此目前最好的办法是多获得一些外部链接,让搜索引擎有更多机会找到网站并自动将网站收录。
当用户以关键词查找信息时,搜索引擎会在数据库中进行搜寻,如果找到与用户要求内容相符的网站,便采用特殊的算法——通常根据网页中关键词的匹配程度,出现的位置/频次,链接质量等——计算出各网页的相关度及排名等级,然后根据关联度高低,按顺序将这些网页链接返回给用户。
(2)目录索引的基本工作原理
与全文搜索引擎相比,目录索引的基本工作原理有许多不同之处。
首先,全文搜索引擎属于自动网站检索,而目录索引则完全依赖手工操作。用户提交网站后,目录编辑人员会亲自浏览网站,然后根据一套自定的评判标准甚至编辑人员的主观印象,决定是否接纳网站。
其次,全文搜索引擎收录网站时,只要网站本身没有违反有关的规则,一般都能登录成功。
而目录索引对网站的要求则高得多,有时即使登录多次也不一定成功。尤其像雅虎这样的超级索引,登录更是困难。
此外,在登录全文搜索引擎时,用户一般不用考虑网站的分类问题,而登录目录索引时则必须将网站放在一个最合适的目录。
最后,全文搜索引擎中各网站的有关信息都是从用户网页中自动提取的,所以从用户的角度看,用户拥有更多的自主权;而目录索引则要求必须手工填写网站信息,而且还有各种各样的限制。更有甚者,如果工作人员认为提交的网站的目录、网站信息不合适,他可以随时自行对其进行调整。
目录索引,顾名思义就是将网站分门别类地存放在相应的目录中,因此用户在查询信息时,可选择关键词搜索,也可按分类目录逐层查找。如果以关键词搜索,返回的结果跟搜索引擎一样,是根据信息关联程度排列网站,只不过其中人为因素要多一些。如果按分层目录查找,某一目录中网站的排名则是由标题字母的先后顺序决定(也有例外)。
目前,全文搜索引擎与目录索引有相互融合渗透的趋势。原来一些纯粹的全文搜索引擎现在也提供目录搜索,如Google就借用Open Directory目录提供分类查询。而像雅虎这些老牌目录索引则也开始全文搜索引擎技术的研发和推广。
1.3搜索引擎业的竞争
搜索引擎,是一门技术。搜索引擎服务,则不单是一个技术层面的事情。互联网经济是自由经济,它的形式是有史以来最为开放的,它为很多人提供了饭碗。
最早涉足互联网行业的几大公司有的已经成为过去了,有的壮大了,地位巩固了。新生的力量也不断加入,使这个行业越来越繁荣,竞争也越来越加剧。
这里简单地介绍中外的主要互联网服务商在搜索领域的竞争情况,如果有意投入到夺取互联网的“第四桶金”的商战中,下面这些文字会比较有用。
1.3.1最初的商业搜索——目录式搜索
目录式搜索是第一代搜索引擎,实事求是地讲它的技术含量很低,目录式搜索的本质就是人工分类,与老式图书馆里的工作是一样的。但由于它有用户、有需求、有市场,所以就有人做。目录式搜索的盛行在1995年。
最着名的目录式搜索是雅虎。
雅虎网站的创始人是大卫·费罗(David Filo)和杨致远(Jerry Yang),他们是美国斯坦福大学电机工程系的博士生。他们最早于1994年4月建立了自己的网络指南信息库。同年,为了解决他们自己编写的列表太长不便处理的问题,他们将“信息库”变成了一个可定制的数据库,旨在满足成千上万的、刚刚开始通过互联网社区使用网络服务的用户的需要。用户可以轻松检索到政治、经济、文化、科技、房地产、教育、艺术、娱乐、体育等各方面的信息。随后,他们又开发了可定制的软件,帮助互联网用户更有效地查找、识别和编辑互联网上存储的资料。这种搜索方式不能提供给用户任何搜索结果,而且相关的链接还要人工方式加入目录。但是在当时只有几千个有效网站的状况下,这种方式还是非常实用和方便的。
后来阿里巴巴收购了雅虎中国,专心去做搜索,提出了“雅虎就是搜索,搜索就是雅虎”的口号,还搞了个“YST”。
中文目录方式的搜索最早可以追溯到1996年8月正式注册的爱特信电子技术公司(北京)有限公司,它是搜狐公司的前身。1998年2月推出中国人自己的搜索引擎——搜狐,当初张朝阳提出的口号就是要做中国的雅虎。凭借着在分类搜索方面的基础和优势,搜狐迅速发展成为综合性网络门户,并且推出了丰富的特色频道,开始提供多种网络服务。而后进一步得到包括美国英特尔公司、道·琼斯公司、晨兴公司、IDG公司、盈科动力、联想等世界着名公司的风险投资。2000年7月12日,搜狐公司在美国纳斯达克股票市场挂牌上市,从一个国内知名企业发展成为一个国际品牌。
与搜狐时间接近,网易也是最早开展中文搜索的主要网站之一。网易于1997年6月创立,从成立开始,它推出中文搜索引擎服务。但网易并不是以这类服务为主,邮件和社区互动是它当时在互联网上的优势。正因为这些特点,2000月6月,网易在美国纳斯达克股票市场挂牌交易。直到2001年9月20日,网易才宣布完成对其搜索引擎的全面升级,但是这种搜索是与世界领先的搜索引擎技术商Google合作的,采用的是Google的技术。