登陆注册
34749100000018

第18章 2 搜索引擎

3.2.1搜索引擎的系统结构与原理

搜索引擎的检索系统由以下几个部分组成:

1)搜索器

互联网每时每刻都在增加新的内容,为了及时反映信息源的情况,人们开发出一种名为“网络蜘蛛”或“机器人”的网页搜索软件,负责访问网络上的各个站点,搜集网上不断更新的网页信息并带回搜索系统。搜索器的主要功能就是在互联网中漫游、发现和搜集信息。它常常是一个遵循一定协议的计算机程序,即蜘蛛程序。她日夜不停地运转,要尽可能多、尽可能快地抓取网页搜集各类信息。同时,由于互联网上的信息更新非常快,所以还要定期更新已经搜集过的旧信息,以避免死链接和无效链接,保证检索结果的质量。

2)分析器

分析程序通过一些特殊算法,从蜘蛛程序抓回的网页源文件中抽取主题词,并对其赋予不同的权值,以表明这些主题词同网页内容的相关程度,以判断网页内容。分析程序的目的是从一个URL到相应网页的主题词建立起的一种关联,并通过对主题词的提取和分析,判断该网页所描述的信息。

3)索引器

信息进行分类整理,建立各种索引并更新搜索引擎数据库。索引器中将生成从关键词到URL的关系索引表。索引表一般使用某种形式的倒排表,即由索引项查找相应的URL,并以特定的数据结构存在索引数据库中。

倒排表是一个索引结构,包括两个索引表:文档表和术语表。

文档表由文档记录组成。每一条记录包括两个字段,一个是“文档标号”(DOC_ID),另一个是“张贴表”(POSTING_LIST),张贴表是一组出现在文档之中的术语的列表(或术语存储的地址表),它们按某种相关度量排序。

术语表则由一组术语记录组成,每一条记录中包含两个字段:一个是术语标号(TERM_ID),另一个也是“张贴表”,此表中记录了含有此术语的文档标号。

由此种结构可以很容易地完成诸如“请返回所有与一个(组)关键词相关的文档”或“请返回与给定的一个或几个文档中术语相关的所有术语”这样的请求。

例如,用户输入了3个关键词,则可在术语表中先查到三个术语的标号,取这三个标号对应记录中的所有文档标号的交集(公共部分),作为检索的返回结果。它们是同时含有三个关键词的所有文档的标号集,由此标号集对应为这些文档的链接地址,由此可链接并查到所有文档。

4)检索器

检索器的主要功能是根据用户输入的关键词在索引器形成的倒排表中进行查询,同时完成页面与查询之间的相关度评价,对将要输出的结果进行排序,并实现某种用户相关性反馈机制。

5)用户接口

用户接口的作用是输入用户查询、显示查询结果、提供用户相关性反馈机制。主要的目的是方便用户使用搜索引擎、高效率、多方式地从搜索引擎中得到有效、及时的信息。

通过WEB服务器软件,为用户提供浏览器界面下的信息查询。每个搜索引擎都提供了一个良好的界面,并具有帮助功能。用户只要把想要查找的关键字或短语输入查询栏中,点击“查询”按钮,搜索引擎就会根据用户输入的提问,在索引中查找相应的检索词语,进行必要的逻辑运算,最后给出查询的命中结果(均为超文本链形式)。用户点击搜索引擎提供的链接点,马上就可以访问到相关网页。有些搜索引擎将搜索的范围进行了分类,如“网站”、“中文网页”、“新闻”等,在指定的类别中进行检索可以提高查询效率,搜索结果的“命中率”较高。

3.2.2搜索引擎的分类

1)按照信息搜集方法的不同分

(1)目录式搜索引擎(DIRECTORYSEARCHENGINE)。通过人工方式来搜集信息并对信息进行归类。首先,编辑人员通过查看相关网页,根据网页的内容提炼出主题词和网页摘要,并将该网页的链接归入事先确定好的分类目录中。这种做法与图书馆的分类人员所进行的工作类似。由于此类搜索引擎主要是由人工进行分类的,所以信息准确度高,能够比较好地满足查询者的需要。但是由于需要人工介入,因此目录创建的工作量大,收集的信息量有限,信息更新不及时。这类搜索引擎的代表是:YAHOO!。

(2)机器人搜索引擎(CRAWLER_BASEDSEARCHENGINE)。由蜘蛛人程序按照某种规则自动在互联网上搜集信息,并进行归类。具体内容参见上一节的介绍。这类搜索引擎的代表是:GOOGLE。

(3)元搜索引擎(METASEARCHENGINE)。元搜索引擎和一般搜索引擎的区别在于:元搜索引擎没有自己的数据库,它是将用户的查询请求同时向多个搜索引擎递交,将返回的结果进行重复排除、重新排序等处理后,作为自己的结果返回给用户。这类搜索引擎的优点是返回结果的信息量大,缺点是不能够充分使用元搜索引擎的功能,用户需要做更多的筛选。网上的一些元搜索引擎地址如下:

HTTP://WWW。MAMMA。COM

HTTP://DOGPILE。COM

由于目录式和机器人式的搜索引擎各有优点,因此目前,各门户网站上的搜索引擎通常是将两者结合起来使用。例如,新浪在使用人工分类的同时,也使用了机器人搜索引擎。用户在进行查询时,可以同时得到两种不同的搜索引擎所反馈的结果。

2)按照检索软件分类

按照检索软件的不同,搜索引擎可分为三大类:全文数据库检索、非全文数据库检索、主题指南类检索。

(1)全文数据库检索。能够提供完整的文献和信息检索,查全率很高。但由于信息量非常大,检索起来比较困难,对检索技术的要求很高。

(2)非全文数据库检索。仅提供部分全文检索,有时需要二次检索,感到不太方便。但具有速度快、使用简便、索引量大的特点。

(3)主题指南类检索。是目前网络检索中最常用的检索软件。这种软件查准率高、速度快、使用方便。现大部分网站都具备主题指南类检索功能。

3.2.3搜索引擎注册

1)商业化注册及原因

在利用搜索引擎进行注册时,由两种途径。一种途径是分别到各个搜索引擎去注册;另一种途径是通过专业网站或软件进行一次性多个搜索引擎注册。

前者适合少量注册,后者涉及商业化的注册服务。在企业营销中,常用的是商业化注册。原因有以下几点:

(1)跟踪和了解搜索引擎站点资源是一件困难的事情

搜索引擎站点的数目很多,要掌握这些站点,并了解每个站点的特点,是一件十分困难的事情。用户如果逐一根据搜索引擎提供的站点注册入口进行注册,非常耗用时间。

(2)搜索引擎注册已经成为网络空间的一种技术

为了在搜索引擎结果中取得排名靠前,需要采用许多复杂的注册技术。搜索引擎排列结果所依赖的因素各不相同,而且搜索引擎本身也在不断变化,因此要想在众多搜索引擎中都取得靠前的排名,就必须针对不同的搜索引擎进行页面的优化。也就是说,要为每个搜索引擎定制不同的META和其他页面元素。

2)蜘蛛式搜索引擎的注册技巧

根据蜘蛛式搜索引擎的工作原理,可以采用如下一些方法使自己的网站排名尽量靠前。

(1)确定恰当的网页标题。网页标题是出现在WEB浏览器顶端名称栏的内容,即是网页文件源代码中<TITLE>标记符与</TITLE>标记符之间的那段文字。有些搜索引擎通过对网页标题的判断来确定网页主题内容是最重要的因素。所以,标题与主题的相关程度对决定页面的级别是非常重要的,在设计标题的时候应该紧扣页面的主题。

(2)META标记。<META>具有多种功能,具体的功能由它的两个参数指定。

其一,HTTP-EQUIV参数:具有多种功能,具体的功能由它的内容指定。HTTP-EQUIV=CONTENT-TYPE用来指定浏览器所使用的编码种类。

其二,CONTENT参数:具有多种功能,具体的功能由它的内容指定。CONTENT=“TEXT/HTML;CHARSET=GB2312"由来指定浏览器只使用GB编码汉字。

注意,这行语句的内容与格式基本上是固定的,不必深究它的细节,只要将它添加到网页首部即可。加入这行语句后,不管浏览器目前处于哪种编码状态下,“网上音像店”总是自动显示GB编码汉字。

此外,<META>标签能使搜索引擎更容易找到你的位置。在你的网页中<HEAD>标签和</HEAD>标签之间加上<META>标签,当然别忘了把你自己的信息填入引号之内。

<METANAME=“KEYWORDS"CONTENT=“ONLINEMARKETING,ONLINE,MARKETING,HIGHTECHNOLOGY,WEB,INTERNET,DUMMIES,GEN-IUSES,VEEBLEFETZER">

<METANAME=DESCRIPTIONCONTENT=“在互联网上订购、销售中外音像制品">:该行为搜索引擎提供简介信息;

<METANAME=KEYWORDSCONTENT=“音像">:该行为搜索引擎提供关键词信息。

注意:某些公司在他们的META标签内容上走了极端。他们使用了与之竞争的公司及其产品的名字作为关键字,以使访问者浏览自己的网站。这种行为不仅不道德,而且还会招致法律责任。

(3)拟定准确的头行和主体的内容。除了页面的标题之外,页面文件主体内容靠近主标题的正文部分的内容非常重要,通常也对搜索引擎判定页面的内容有较大的影响。并且有的搜索引擎,比如EXCIT就不支持META,它的“蜘蛛”软件自动将正文的前20行视为描述文字,并将其中重复次数最多的单词视为关键字。

(4)制作站点的通道页。多数搜索引擎拒绝对所递交的URL的第二级或第三级以下层次网页的索引。解决的方法就是做一个“通道页”(HALLWAYPAGE)。“通道页”中放置网站的所有链接。注意,某些搜索引擎限制接受同一域名下的网页数,所以建议在“通道页”中按网页的重要程度排序链接,而且每个“通道页”中的链接数应当控制在50个以内。

(5)优质的页面

其一,避免死链接。检查链接是否正确,避免死链接。

其二,蜘蛛软件对包含在图像中的超链接是不能识别的,也就是说,蜘蛛软件是不能沿着图像中的超链接过渡到下一个页面的。因此,除了图像链接之外还要包括文本链接。

其三,避免提交含有帧的页面。许多搜索引擎软件是不认识帧的。因此最好将主页设计成无帧的页面。

其四,经常更新。为了鼓励网页更新,搜索引擎将清除长期没有更新的网页。

3)目录查询站点的注册技巧

(1)提供良好的网页。由于网页经过人工的判断来决定是否纳入分类目录,所以设计良好的网页会增加进入搜索引擎的可能性。在YAHOO网站中,就明确指出了这一点。

(2)优秀的内容。根据搜索引擎的统计结果来看,尽管人们可以采取许多提升排名的方法,但是优秀的内容仍然是保证排名在搜索结果前列的保证。

(3)选好适合的目录。企业应当对自己的网站有一个准确的定位。企业需要研究搜索引擎的分类目录,看看企业的产品或服务最适合于哪个分类目录。登录到合适的网站目录对于企业的成功是非常重要的。

3.2.4搜索引擎流程图

在上网搜索之前,需要先定好计划,给出了一个搜索计划的例子,它以流程图的方式去搜寻关于“数据采掘”的学术文档。

3.2.5智能代理

1)概念

计算智能(COMPUTATIONALINTELLIGENCE)指用计算手段实现机器智能的方法,包括用符号运算和逻辑推理实现智能的传统人工智能和智能技术的新进展——神经网络(NEURALNETWORKS)、模糊逻辑(FUZZYLOGIC)、进化计算(EVOLUTIONARYCOMPUTATION)、混沌(CHA-OS)和粗集(ROUGHSETS)理论,强调依赖于数值数据的智能。

智能代理技术是计算智能的一种应用,它的硬件基础可以是互联网(INTERNET)或单片系统(SYSTEMONACHIP)。若使用互联网,智能代理可表现为在互联网上漫游的电子机器人群体,它们可用于完成各种各样的任务,例如,信息收集、网络控制等。若使用单片系统,它是单片系统中一种会学习的软件,该单片系统需嵌入在其他设备中使用,智能代理则以嵌入系统(EMBEDDEDSYSTEM)形式出现,这构成了智能设备。以嵌入系统为代表的嵌入计算正在成为信息技术后PC时代除互联网络外又一个国际研究热点。

2)应用

智能代理在许多方面有着重要的应用意义。

其一,信息服务。信息服务是最广大的用户群接触网络环境的首要渠道。对于信息内容已经相当丰富的英语文化圈来说,进一步提高信息服务的质量,改变目前信息服务中存在的“信息过载”和“资源迷向”的状况,是信息服务业面临的最紧迫的任务。智能代理正好可以适应这方面的需要。具体地说,用于信息服务的智能代理主要完成以下功能:①导航,即告诉用户所需要的资源在哪里;②解惑,即根据网上资源回答用户关于特定主题的问题;③过滤,即按照用户指定的条件,从流向用户的大量信息中筛选符合条件的信息,并以不同级别(全文、详细摘要、简单摘要、标题)呈现给用户;④整理,即为用户把已经下载的资源进行分门别类的组织;⑤发现,即从大量的公共原始数据(比如股票行情等)中筛选和提炼有价值的信息,向有关用户发布。这些都是使信息服务走向个性化主动服务不可缺少的功能。目前在此方面已经有了一些能够使用的系统,但智能化的程度还远远不够,且主动有余、过滤不足已经造成了一些负面的影响,亟待尽快发展更先进的人工智能技术予以解决。

其二,电子商务。越来越多的人看好INTERNET上的商业机会。网上的商品越多,在网上寻找商品就越是买方的一大负担;同时,卖方商品的推销也有一个对客户实行因人而异的主动服务问题。因此,采用智能AGENT系统,代表买方去网上查看“广告牌”、逛“商店”寻找商品甚至讨价还价,代表卖方分析不同用户的消费倾向,并据此向特定的潜在用户群主动推销特定的商品,都是非常有诱惑力的。

现在已经出现了几种在网络上运行的智能代理软件(比如WWW。SHOPFIND。COM,WWW。ROBOSHOPPER。COM),尽管人们对智能代理软件的期望很高,但是由于技术方面的限制,智能代理软件的功能仅限于完成某些特殊的功能,还不能尽如人意。

同类推荐
  • 张瑞敏谈商录

    张瑞敏谈商录

    "张瑞敏无疑是中国现代管理的大师,他的许多思想所闪现出来的光芒几乎超越了这个时代的智慧。中国有许多管理者可以称为企业家,但真正可以称作管理大师的惟有张瑞敏。张瑞敏先生的管理思想是中国现代管理学上有着极其重要的地位,传播他的管理哲学,学习他的管理思维,对于每一个从事具体管理工作的人来说意义非凡。本书的主体部分为张瑞敏先生在中央广播电视大学音像出版版出版的《管理创新与企业发展》VCD光盘的文字内容。为传播张瑞敏先生的管理哲学,北京国人规范管理推广中心授权我们独家出版张现在敏先生讲座的文字内容,并且配备VCD光盘。
  • 马云内部讲话Ⅱ

    马云内部讲话Ⅱ

    书中收录了最近三年马云的19场未被公开讲话,10封内部紧要信件。2010年至2013年,正是互联网江湖风生水起之时。阿里巴巴集团和马云也历经了诚信风波,人事变局,淘宝分拆,隐退转型等等考验,终于成长为中国乃至世界的顶级互联网企业。
  • 日本最了不起的公司:永续经营的闪光之魂

    日本最了不起的公司:永续经营的闪光之魂

    《日本最了不起的公司:永续经营的闪光之魂》分为两部分。第一部分“公司为谁而存在?”是一种全新的企业理念。经营公司不仅是为了盈利,更是为了履行“对五个人的使命与责任”。这样的公司能够成为不靠业绩而能永续经营的公司,这是最长远的经营之道。而业绩与成长不过是为了实现永续经营的手段。企业的员工也并不只是追求利益,他们寻求的是工作中的幸福感与尊严。当企业尊重了员工的需求,他们就会自发地努力工作,为公司忠诚效力。第二部分介绍了“日本最了不起的五家企业”。这五家日本中小企业,它们的名声无法与丰田索尼相比,但它们高度人性化的企业文化却让大企业汗颜。
  • 组织工作感与悟

    组织工作感与悟

    实行集体领导和个人分工负责相结合,是民主集中制在党的组织工作和领导活动中的具体运用和体现。集体领导做出的决策是个人分工负责的方向、目标,个人分工负责的具体实施是实现集体领导意志的必然途径。
  • 工商管理案例集

    工商管理案例集

    这是一本关于工商管理案例的教材,书中案例内容涵盖企业文化、管理创新、会计审计、财务管理、市场营销、人力资源管理、公共关系、证券投资、经济法、旅游管理等方面,在总结多年来的教学、科研和一线实践经验的基础上,按学以致用的原则编写而成。书中列举了多家公司典型案例,帮助读者更快、更好地掌握相关内容。此书可作为工商管理类相关专业相应课程的案例教材。
热门推荐
  • 九国夜雪·花与月

    九国夜雪·花与月

    白寒露是封魂师、雪狼妖,也是白清明的师兄,在瑶仙岛开了个叫做醉梦轩的店,做的是妖怪的生意。传统是往家里捡人,醉梦轩长住的各位都是他捡的。白寒露身边都是些好玩的人物:长溪擅长毒舌,幽昙擅长卖萌,竹仙擅吐槽的,就连跟班小游儿也是只傲娇狐狸。前日落大雨忘记关窗湿了一卷竹简。他每接一个生意都会事无巨细地记录,因为新墨还未干透,字迹淋得模糊,是风麒麟杜蘅和帝女星将离的事,故事由此开篇……
  • 这个女人是个宝

    这个女人是个宝

    被甩的霸道总裁隐瞒身份反被女友甩,同名平民女孩成为他的下一个目标,接下来的相处中,女孩的善良让总裁欲罢不能…
  • 三国之山河依旧

    三国之山河依旧

    名将后人,遇奇人降世,得天书,明利害。遂寻仙问道,待学有所成,再卖与帝王家!怎奈内有中枢腐朽,天子昏聩。外有胡虏扣边,天降灾祸。满目疮痍。为大汉虽死而无悔!看一代天骄如何在混乱的三国时代砥砺前行,闯出一个不一样的人生!
  • Notes on Life and Letters

    Notes on Life and Letters

    本书为公版书,为不受著作权法限制的作家、艺术家及其它人士发布的作品,供广大读者阅读交流。
  • 来到星际的女帝

    来到星际的女帝

    她是魔域无量帝,可看人过往,通人将来,大陆之战,她以血肉化灵救天下苍生。再次醒来,她是垃圾星身世成谜的孤儿,在这个强者与智者为尊的时代,且看她如何搅得这风云再起
  • 女权世界男保姆

    女权世界男保姆

    新书《女权王朝韦小宝》以上传,欢迎书友们收藏点评。高天是个从农村走出来小伙子,刚毕业就参加工作,一转眼十年过去…三十多岁大龄青年的他,还是个老光棍。没房没车没存款,三无穷屌丝一枚。公司裁员丢掉工作,戒酒消愁醉醺醺回家时。一场意外一觉醒来,阴差阳错来到女权世界,附身二十岁男保姆身上。从此高天誓要在女权世界里,做一位顶级男保姆…我是女权世界顶级男保姆…
  • 哥你好

    哥你好

    在这无边无际浩瀚里,年少的少女该何去何 从?在斗罗的日子; 片段一: 衿兮“哥,好了(? ̄▽ ̄)?吗?” 唐三:“来了来了Hiーーーーー ☆*.☆ .∧_∧∩*☆ *☆(???)/. .?ノ*☆ ☆*(つノ.☆ (ノ片段二; 衿兮:“哥,我听竹清姐姐说,小白……你会不会?” 唐三:“等着,马上” 衿兮:“嘻嘻????”
  • 独家占爱:总裁别欺人

    独家占爱:总裁别欺人

    身为宋家的养女,计锦与深爱的宋均言成为夫妻。却没想到,她希冀的婚姻生活还未曾展开,便已经落幕。他带着另一个女人登堂入室,却对她说,他娶她,只是因为他需要。喝醉酒的计锦徘徊在街头,误把刚刚回国的沈嘉从当做自己的丈夫。她踢他的车泄愤,她当街亲吻他,问他,为什么不能爱她,不爱她,却又为什么要娶她。她的一个举动引来了媒体围观,当日,他们街头亲吻的照片便被登上财经头条。计锦才知道,她缠上的这个人,是商界巨鳄——沈嘉从。他们缘起于一场误会,她将自己的包扔到了他的车上。他以赔偿踢损的车为由,让她做他的保姆。一次次的擦肩而过,令他对她无法忘记。可计锦从来就不敢忘记,她不是沈嘉从的妻子,她是宋均言的妻子。
  • 神州争锋

    神州争锋

    神州大地,正道五府、魔教三宗,正邪相争不休,争锋剑出世,将一名少年的命运引入这盛世洪流……
  • 轮回仙缘录

    轮回仙缘录

    一位身披残袍的绝美青年,一座闪耀着星辰之光的玄妙铁塔。一个前世的承诺,一个记忆中的一袭青丝。无尽轮回中,隐藏的是一段轮回交织的凄美故事。你是谁?我又是谁?你从哪里来?我又从哪里来?