登陆注册
7538600000003

第3章 搜索引擎概论(2)

Wisenut由韩裔Yeogirl Yun创立,2001年春季发布Beta版,2001年9月5日发布正式版,2002年4月被分类目录提供商looksmart收购。Wisenut也有两个新颖的功能:包含类似自动分类和相关检索词的智能向导;预览搜索结果的一瞥(Sneak-a-Peek)。

Gigablast由前Infoseek工程师Matt Wells创立,2002年3月展示Pre-beta版,2002年7月21日发布Beta版。Gigablast的数据库偏小,但也提供网页快照,一个特色功能是即时索引网页,网页一提交它就能搜索。

Openfind创立于1998年1月,其技术源自台湾中正大学吴升教授所领导的GAIS实验室。Openfind起先只做中文搜索引擎,曾经是最好的中文搜索引擎,但2000年后市场逐渐被百度和Google瓜分。2002年6月,Openfind重新发布基于GAIS30项目的Openfind搜索引擎Beta版,推出多元排序,宣布累计抓取了35亿网页,开始进入英文搜索领域,此后技术升级明显加快。

北大天网是中国国家“九五”重点科技攻关项目“中文编码和分布式中英文信息发现”的研究成果,由北大计算机系网络与分布式系统研究室开发,于1997年10月29日正式在CERNET上提供服务。2000年初成立天网搜索引擎新课题组,由国家973重点基础研究发展规划项目基金资助开发,收录网页约6000万个,利用教育网优势,具有强大的FTP搜索功能。

2000年1月,超链分析专利发明人、前Infoseek资深工程师李彦宏与好友徐勇(加州伯克利分校博士)在北京中关村创立了百度(Baidu)公司。2001年8月发布Baidu.com搜索引擎Beta版(此前Baidu只为其他门户网站提供搜索引擎),2001年10月22日正式发布百度搜索引擎。百度虽然只提供中文搜索,但它是最大的中文数据库。百度搜索引擎的其他特色包括:网页快照、网页预览/预览全部网页、相关搜索词、错别字纠正提示、新闻搜索、Flash搜索、信息快递搜索。在2002年3月闪电计划(Blitzen Project)开始后,其技术升级明显加快。

1.2.2搜索引擎的分类

1.按工作方式分类

搜索引擎按其工作方式主要可分为三种:全文搜索引擎(Full Text Search Engine)、目录索引类搜索引擎(Search Index/Directory)和元搜索引擎(Meta Search Engine)。

(1)全文搜索引擎

全文搜索引擎是名副其实的搜索引擎,国外具代表性的有Google、Fast、AltaVista、Inktomi、Teoma、WiseNut等,国内着名的有百度。它们都是从互联网上提取的各个网站的信息(以网页文字为主)存入数据库中,然后检索与用户查询条件匹配的相关记录,按一定的排列顺序将结果返回给用户,因此它们是真正的搜索引擎。

从搜索结果来源的角度,全文搜索引擎又可细分为两种,一种是拥有自己的检索程序(Indexer),俗称“蜘蛛”(Spider)程序或“机器人”(Robot)程序,并自建网页数据库,搜索结果直接从自身的数据库中调用,如上面提到的7家引擎;另一种则是租用其他引擎的数据库,并按自定的格式排列搜索结果,如Lycos引擎。

(2)目录索引

目录索引虽然有搜索功能,但在严格来讲算不上是真正的搜索引擎,只是按目录分类的网站链接列表而已。用户完全可以不用进行关键词(Keywords)查询,仅靠分类目录也可找到需要的信息。目录索引中最具代表性的莫过于大名鼎鼎的雅虎。其他着名的目录索引还有Look Smart、About等。

(3)元搜索引擎

元搜索引擎在接受用户查询请求时,同时在其多个引擎上进行搜索,并将结果返回给用户。着名的元搜索引擎有Info Space、Dogpile、Vivisimo等,中文元搜索引擎中具代表性的有搜星搜索引擎。在搜索结果排列方面,有的直接按来源引擎排列搜索结果,如Dogpile,有的则按自定的规则将结果重新排列组合,如Vivisimo。

2.非主流形式的搜索引擎

除上述三大类引擎外,还有以下几种非主流形式。

(1)集合式搜索引擎

如HotBot在2002年底推出的引擎。该引擎类似META搜索引擎,但区别在于,不是同时调用多个引擎进行搜索,而是由用户从提供的4个引擎当中选择,因此称它“集合式”搜索引擎更确切些。

(2)门户搜索引擎

如AOL Search、MSN Search等。虽然提供搜索服务,但自身既没有分类目录也没有网页数据库,其搜索结果完全来自其他引擎。

(3)免费链接列表(Free ForAll Links,FFA)

这类网站一般只简单地滚动排列链接条目,少部分有简单的分类目录,不过规模比起雅虎等目录索引来要小得多。

6做自己的搜索引擎——搜索引擎精解案例教程3.按发展状况分类

搜索引擎按其发展状况来分类主要可分为三种。

(1)第一代搜索引擎

依靠人工分拣的分类目录搜索,以雅虎为标志。

(2)第二代搜索引擎

依靠及其抓取,并建立在超级链接分析技术基础之上的网页搜索,以Google为代表,信息量大、更新及时,返回信息多。

(3)第三代搜索引擎

把“智能化”、“人机交互”等功能融入了主流。将自动分类技术、多语言内容分析技术及区域识别技术应用到了大型搜索引擎中,除了在信息检索速度、更新频率等基本技术指标方面处于领先地位之外,它的网页相关检索、拼音纠错、模糊查询、语音查询等技术也具有很高的水准。此外,还兼备了新闻、MP3、图片、Flash搜索功能。

1.2.3搜索引擎的基本工作原理

了解搜索引擎的工作原理对我们日常的搜索应用和网站推广都会有很大帮助,本节只从概念上去说明搜索引擎的基本原理,具体的实现方法和相关技术标准将在第2章讲解。

(1)全文搜索引擎的基本工作原理

前面提到过全文搜索引擎从网站提取信息建立网页数据库的概念。搜索引擎的自动信息搜集功能分两种。一种是定期搜索,即每隔一段时间(比如Google一般是28天),搜索引擎主动派出“蜘蛛”程序,对一定IP地址范围内的互联网站进行检索,一旦发现新的网站,它会自动提取网站的信息和网址加入自己的数据库。

另一种是提交网站搜索,即网站拥有者主动向搜索引擎提交网址,它在一定时间内(2天到数月不等)专门向网站派出“蜘蛛”程序,扫描网站并将有关信息存入数据库,以备用户查询。

由于近年来搜索引擎索引规则发生了很大变化,主动提交网址并不能保证用户的网站进入搜索引擎数据库,因此目前最好的办法是多获得一些外部链接,让搜索引擎有更多机会找到网站并自动将网站收录。

当用户以关键词查找信息时,搜索引擎会在数据库中进行搜寻,如果找到与用户要求内容相符的网站,便采用特殊的算法——通常根据网页中关键词的匹配程度,出现的位置/频次,链接质量等——计算出各网页的相关度及排名等级,然后根据关联度高低,按顺序将这些网页链接返回给用户。

(2)目录索引的基本工作原理

与全文搜索引擎相比,目录索引的基本工作原理有许多不同之处。

首先,全文搜索引擎属于自动网站检索,而目录索引则完全依赖手工操作。用户提交网站后,目录编辑人员会亲自浏览网站,然后根据一套自定的评判标准甚至编辑人员的主观印象,决定是否接纳网站。

其次,全文搜索引擎收录网站时,只要网站本身没有违反有关的规则,一般都能登录成功。

而目录索引对网站的要求则高得多,有时即使登录多次也不一定成功。尤其像雅虎这样的超级索引,登录更是困难。

此外,在登录全文搜索引擎时,用户一般不用考虑网站的分类问题,而登录目录索引时则必须将网站放在一个最合适的目录。

最后,全文搜索引擎中各网站的有关信息都是从用户网页中自动提取的,所以从用户的角度看,用户拥有更多的自主权;而目录索引则要求必须手工填写网站信息,而且还有各种各样的限制。更有甚者,如果工作人员认为提交的网站的目录、网站信息不合适,他可以随时自行对其进行调整。

目录索引,顾名思义就是将网站分门别类地存放在相应的目录中,因此用户在查询信息时,可选择关键词搜索,也可按分类目录逐层查找。如果以关键词搜索,返回的结果跟搜索引擎一样,是根据信息关联程度排列网站,只不过其中人为因素要多一些。如果按分层目录查找,某一目录中网站的排名则是由标题字母的先后顺序决定(也有例外)。

目前,全文搜索引擎与目录索引有相互融合渗透的趋势。原来一些纯粹的全文搜索引擎现在也提供目录搜索,如Google就借用Open Directory目录提供分类查询。而像雅虎这些老牌目录索引则也开始全文搜索引擎技术的研发和推广。

1.3搜索引擎业的竞争

搜索引擎,是一门技术。搜索引擎服务,则不单是一个技术层面的事情。互联网经济是自由经济,它的形式是有史以来最为开放的,它为很多人提供了饭碗。

最早涉足互联网行业的几大公司有的已经成为过去了,有的壮大了,地位巩固了。新生的力量也不断加入,使这个行业越来越繁荣,竞争也越来越加剧。

这里简单地介绍中外的主要互联网服务商在搜索领域的竞争情况,如果有意投入到夺取互联网的“第四桶金”的商战中,下面这些文字会比较有用。

1.3.1最初的商业搜索——目录式搜索

目录式搜索是第一代搜索引擎,实事求是地讲它的技术含量很低,目录式搜索的本质就是人工分类,与老式图书馆里的工作是一样的。但由于它有用户、有需求、有市场,所以就有人做。目录式搜索的盛行在1995年。

最着名的目录式搜索是雅虎。

雅虎网站的创始人是大卫·费罗(David Filo)和杨致远(Jerry Yang),他们是美国斯坦福大学电机工程系的博士生。他们最早于1994年4月建立了自己的网络指南信息库。同年,为了解决他们自己编写的列表太长不便处理的问题,他们将“信息库”变成了一个可定制的数据库,旨在满足成千上万的、刚刚开始通过互联网社区使用网络服务的用户的需要。用户可以轻松检索到政治、经济、文化、科技、房地产、教育、艺术、娱乐、体育等各方面的信息。随后,他们又开发了可定制的软件,帮助互联网用户更有效地查找、识别和编辑互联网上存储的资料。这种搜索方式不能提供给用户任何搜索结果,而且相关的链接还要人工方式加入目录。但是在当时只有几千个有效网站的状况下,这种方式还是非常实用和方便的。

后来阿里巴巴收购了雅虎中国,专心去做搜索,提出了“雅虎就是搜索,搜索就是雅虎”的口号,还搞了个“YST”。

中文目录方式的搜索最早可以追溯到1996年8月正式注册的爱特信电子技术公司(北京)有限公司,它是搜狐公司的前身。1998年2月推出中国人自己的搜索引擎——搜狐,当初张朝阳提出的口号就是要做中国的雅虎。凭借着在分类搜索方面的基础和优势,搜狐迅速发展成为综合性网络门户,并且推出了丰富的特色频道,开始提供多种网络服务。而后进一步得到包括美国英特尔公司、道·琼斯公司、晨兴公司、IDG公司、盈科动力、联想等世界着名公司的风险投资。2000年7月12日,搜狐公司在美国纳斯达克股票市场挂牌上市,从一个国内知名企业发展成为一个国际品牌。

与搜狐时间接近,网易也是最早开展中文搜索的主要网站之一。网易于1997年6月创立,从成立开始,它推出中文搜索引擎服务。但网易并不是以这类服务为主,邮件和社区互动是它当时在互联网上的优势。正因为这些特点,2000月6月,网易在美国纳斯达克股票市场挂牌交易。直到2001年9月20日,网易才宣布完成对其搜索引擎的全面升级,但是这种搜索是与世界领先的搜索引擎技术商Google合作的,采用的是Google的技术。

同类推荐
热门推荐
  • 她成了他的眉间心上

    她成了他的眉间心上

    终于抱得“美人”归的岑故,在高中两班的同学聚会上,撒便了狗粮。当年隔壁班的老刘看着岑故和陈彦寒浑身散发着恋爱的酸臭味,啧啧叹道:没想到啊,居然是隔壁班的小岑委员抱得美男归,我还以为会是高中那会儿小岑委员班总来问寒哥那个娇滴滴的文艺委员会是众女中的赢家呢。岑故似是想到什么,看着陈彦寒的眼中带着一股意味深长。领会其意的某人,伏在她耳旁低语,低沉撩人:这世间万种风情,而我情之所在。
  • 侗人心弦

    侗人心弦

    侗族大歌传承人石娘从初识到喜爱,最后穷其一生去传承民族文化的故事
  • 我与她的星辰之恋

    我与她的星辰之恋

    小时候星辰下的约定,长大后的再次相遇,他们会认识彼此吗?他们会遵守小时候的约定吗?叶俊杰一直思念的她却不熟她的面貌,命运会将他俩人在一起吗?...
  • 冰火上神

    冰火上神

    天地初,阴阳始,炼玄躯,初凝元,乾坤引,苍穹开,至阴阳,九转渡,出阴阳,神道始,神劫过,转轮回,得不朽,铸传奇,夺赤洪,灭八荒,入圣道,神至尊。修炼一途漫漫,意志坚者得之。
  • 韩枫顾长安

    韩枫顾长安

    由于表姐的精心算计,误以为心爱的他背叛了他们的爱情,对一切一无所知的长安选择落荒而逃,一别三年,再相见,得知真相,她们……
  • EXO.BTS.原来你还在这里

    EXO.BTS.原来你还在这里

    “为什么地球一直在转。”“因为几亿年前它吃炫迈的时候被别人扇了一巴掌。”“为什么地球是圆的。”“因为它想让失散的人再次相遇。”无论这世间多纷扰,你依旧把单纯拥抱。我不要全世界都心疼我,我只要一个人舍不得我.望着天空爱是否还活在童年里头,小王子说有些事流浪过才会懂。那些曾经迫切想得到的东西现在一一俱全,可缺少的仍然缺少。关于我内心深处的伤痕,是时间给的,我不需要爱情,我不屑任何生活。.十字路口,我们分着走。你走我的泪,我走你的恨。我无法反击,因为你不知道我爱你。你出谋划策想要攻破我的心,我竭尽全力来防御。.
  • 腻宠娇妻:王妃很强势

    腻宠娇妻:王妃很强势

    穆琼,c国第一经济集团继承人,绝世容颜,无双智慧,被业界成为“创造黄金的美丽女人”。在一场商战的追杀当中,重重背叛使她葬身荒野,一身商场上的强势荣光化为灰烬,却因祸得福地穿越成为异世界的太子妃顾遗光。既然大难不死,必然就有她的后福!ok,王妃就王妃,凭着一手铁血手腕,同样可以在这一个男尊女卑的皇朝当中一展华光!拼得一片天下!步步为营,机关算尽,从王府到皇宫,从后庭到前朝,美人一出,天下英豪臣服裙下!可是偏偏在她的升值道路上,蹦出这么一只妖孽,信誓旦旦对她说:“我会为你夺来所有你要的、想要的,但求你回眸一眼……”波云诡谲的朝堂后宫,但看一代奇妃惊破天下!
  • 吞天魔经

    吞天魔经

    魔修者:引天地之气入体,凝练魔元,超脱天地之束缚,一掌据有破灭天地之威。体修者:一滴血肉重约万万斤,可踏空而行,扶摇直上九万万里,一吼可碎星辰,一跺脚方圆亿万里地动山摇。元魄者:锻神炼魄,心念一动,万千生灵身死魂灭,魂游天外,超脱天地法则,不死不灭。境界划分:凝气境、聚元境、化丹境、涅槃境、御空境、碎虚境、通天境、反璞境、生死双境、轮回九劫、永生之境、无上之境。
  • 万劫武尊

    万劫武尊

    叶凡,一个受尽冷嘲热讽的少年。五年后,他带着神秘古玉踏天崛起。洗经伐髓,逆天转运。败尽圣地天才,打趴古族翘楚。逆天而行。一指崩山河,一拳灭星辰,一念碎苍穹,一剑破万法万劫加身,天地之间,唯我独尊。
  • 快穿之宿主又中二了

    快穿之宿主又中二了

    首先声明,女主:叶锦男主:安晏本书讲述的是现代超级天才,获奖无数,但却有中二病(叶锦的中二病就是及其富有正义感!)的叶锦,为了拯救世界和平,和886逆袭系统一起穿梭在大千世界,维护原本世界的秩序,从此走上人生巅峰,迎娶白富美(就是我们可爱的男主大人啦!)白小小的话:这是人家第一次写书啦,没有经验,请多多指教。如果有什么不对的地方,请立即指出来,我会改的。不用在乎我的玻璃心,(但是不准骂我)因为我的面子已经离家出走了,不回来的那种,还有我的皮肤保养的特别好,子弹射不透的那种,谢谢,各位小可爱们。【害羞】