搜索引擎空规
A. 搜索引擎规则到底是什么
搜索引擎的原理,可以看做三步:从互联网上抓取网页——→建立索引数据库——→在索引数据库中搜索排序。
●从互联网上抓取网页
利用能够从互联网上自动收集网页的Spider系统程序,自动访问互联网,并沿着任何网页中的所有URL爬到其它网页,重复这过程,并把爬过的所有网页收集回来。
●建立索引数据库
搜索引擎的“网络机器人”或“网络蜘蛛”是一种网络上的软件,它遍历Web空间,能够扫描一定IP地址范围内的网站,并沿着网络上的链接从一个网页到另一个网页,从一个网站到另一个网站采集网页资料。它为保证采集的资料最新,还会回访已抓取过的网页。网络机器人或网络蜘蛛采集的网页,还要有其它程序进行分析,根据一定的相关度算法进行大量的计算建立网页索引,才能添加到索引数据库中。
●在索引数据库中搜索排序
真正意义上的搜索引擎,通常指的是收集了因特网上几千万到几十亿个网页并对网页中的每一个词(即关键词)进行索引,建立索引数据库的全文搜索引擎。当用户查找某个关键词的时候,所有在页面内容中包含了该关键词的网页都将作为搜索结果被搜出来。在经过复杂的算法进行排序后,这些结果将按照与搜索关键词的相关度高低,依次排列。
了解搜索引擎的工作原理对我们日常搜索应用和网站提交推广都会有很大帮助。
B. 搜索引擎的使用技巧
如何使用搜索引擎
搜索引擎为用户查找信息提供了极大的方便,你只需输入几个关键词,任何想要的资料都会从世界各个角落汇集到你的电脑前。然而如果操作不当,搜索效率也是会大打折扣的。
比方说你本想查询某方面的资料,可搜索引擎返回的却是大量无关的信息。这种情况责任通常不在搜索引擎,而是因为你没有掌握提高搜索精度的技巧。那么如何才能提高信息检索的效率呢?
--------------------------------------------------------------------------------
搜索关键词提练
无庸至疑,选择正确的关键词是一切的开始。学会从复杂搜索意图中提练出最具代表性和指示性的关键词对提高信息查询效率至关重要,这方面的技巧(或者说经验)是所有搜索技巧之母。
--------------------------------------------------------------------------------
细化搜索条件
搜索条件越具体,搜索引擎返回的结果就越精确,有时多输入一两个关键词效果就完全不同,这是搜索的基本技巧之一。
--------------------------------------------------------------------------------
用好逻辑命令
搜索逻辑命令通常是指布尔命令“AND”、“OR”、“NOT”及与之对应的“+”、“-”等逻辑符号命令。用好这些命令同样可使我们日常搜索应用达到事半功倍的效果。
--------------------------------------------------------------------------------
精确匹配搜索
精确匹配搜索也是缩小搜索结果范围的有力工具,此外它还可用来达到某些其他方式无法完成的搜索任务。
--------------------------------------------------------------------------------
特殊搜索命令
除一般搜索功能外,搜索引擎都提供一些特殊搜索命令,以满足高阶用户的特殊需求。比如查询指向某网站的外部链接和某网站内所有相关网页的功能等等。这些命令虽不常用,但当有这方面搜索需求时,它们就大派用场了。
--------------------------------------------------------------------------------
附加搜索功能
搜索引擎都提供的一些方便用户搜索的定制功能。常见的有相关关键词搜索、限制地区搜索等。
--------------------------------------------------------------------------------
用什么样的搜索引擎搜索
搜索引擎分几种,工作方式也不同,因而导致了信息覆盖范围方面的差异。我们平常搜索仅集中于某一家搜索引擎是不明智的,因为再好的搜索引擎也有局限性,合理的方式应该是根据具体要求选择不同的引擎。这里我们根据自己的经验给大家提出些建议。
C. 搜索引擎遵循的那些规则
1、网站空间不稳定、网站经常无法访问、网站运行很慢的,搜索引擎不愿意关注和抓取快照,因为会导致快照更新不及时!一定要保证网站能正常打开、空间稳定是优化的基础;
2、网站被网络收录后更改网站标题、网站描述、网站关键字导致实际页面的TDK和网络收录页面的TDK标签不一致,从而产生快照异常的站!关键词排名99%的会消失、快照回档、收录减少、快照评级降低等现象
3、关键词堆砌的网站,搜索引擎对其不友好,标题、描述、关键词一定要围绕网站主题和网站内容友好的表述,生硬堆砌关键词的网站不被网络喜欢!
4、优化的关键词必须要和网站主题内容相符(如果不符合相关性即便优化上去也会很快掉下来)
5、切忌不要将多个域名绑定到同一个网站,不要将多个URL重复指向同一个内容页,更不要克隆网站使用收录过的内容,克隆是最忌讳的。网络容易判断这种行为为作弊行为;
6、切记不可和其它刷量软件一起使用,容易出问题(流量软件本身使用的是虚拟IP或代理IP等,并非真实IP)
7、切记不要购买外链、购买友链,目前网络已经推出相应的算法,可判断是否购买的外链和友链,一旦认定后网站将万劫不复;
8、原创内容、高质量外链、高质量友链交换是关键词排名出现的前提。所以不要内容采集、大量内容、还有所谓的伪原创软件生成的内容;内容一定要具备结构清晰、可读性强;
9、泛域名站群或IP+端口的泛站群网站不被网络喜欢,2013年4月之前,泛站群在网络排名里效果非常好,是因为网络有一个排名漏洞,如今网络已经修补了漏洞,建议大家不要再做泛站群优化了!网络搜索结果霸屏时代已经终结了;
D. 开发搜索引擎需要具备哪些知识
下面以网络搜索机器人为例来说明搜索引擎技术。
1.网络机器人技术
网络机器人(Robot)又被称作Spider、Worm或Random,核心目的是为获取Intemet上的信息。一般定义为“一个在网络上检索文件且自动跟踪该文件的超文本结构并循环检索被参照的所有文件的软件”。机器人利用主页中的超文本链接遍历WWW,通过U趾引用从一个HT2LIL文档爬行到另一个HTML文档。网上机器人收集到的信息可有多种用途,如建立索引、HIML文件合法性的验证、uRL链接点验证与确认、监控与获取更新信息、站点镜像等。
机器人安在网上爬行,因此需要建立一个URL列表来记录访问的轨迹。它使用超文本,指向其他文档的URL是隐藏在文档中,需要从中分析提取URL,机器人一般都用于生成索引数据库。所有WWW的搜索程序都有如下的工作步骤:
(1)机器人从起始URL列表中取出URL并从网上读取其指向的内容;
(2)从每一个文档中提取某些信息(如关键字)并放入索引数据库中;
(3)从文档中提取指向其他文档的URL,并加入到URL列表中;
(4)重复上述3个步骤,直到再没有新的URL出现或超出了某些限制(时间或磁盘空间);
(5)给索引数据库加上检索接口,向网上用户发布或提供给用户检索。
搜索算法一般有深度优先和广度优先两种基本的搜索策略。机器人以URL列表存取的方式决定搜索策略:先进先出,则形成广度优先搜索,当起始列表包含有大量的WWW服务器地址时,广度优先搜索将产生一个很好的初始结果,但很难深入到服务器中去;先进后出,则形成深度优先搜索,这样能产生较好的文档分布,更容易发现文档的结构,即找到最大数目的交叉引用。也可以采用遍历搜索的方法,就是直接将32位的IP地址变化,逐个搜索整个Intemet。
搜索引擎是一个技术含量很高的网络应用系统。它包括网络技术、数据库技术动标引技术、检索技术、自动分类技术,机器学习等人工智能技术。
2.索引技术
索引技术是搜索引擎的核心技术之一。搜索引擎要对所收集到的信息进行整理、分类、索引以产生索引库,而中文搜索引擎的核心是分词技术。分词技术是利用一定的规则和词库,切分出一个句子中的词,为自动索引做好准备。目前的索引多采用Non—clustered方法,该技术和语言文字的学问有很大的关系,具体有如下几点:
(1)存储语法库,和词汇库配合分出句子中的词汇;
(2)存储词汇库,要同时存储词汇的使用频率和常见搭配方式;
(3)词汇宽,应可划分为不同的专业库,以便于处理专业文献;
(4)对无法分词的句子,把每个字当作词来处理。
索引器生成从关键词到URL的关系索引表。索引表一般使用某种形式的倒排表(1nversionUst),即由索引项查找相应的URL。索引表也要记录索引项在文档中出现的位置,以便检索器计算索引项之间的相邻关系或接近关系,并以特定的数据结构存储在硬盘上。
不同的搜索引擎系统可能采用不尽相同的标引方法。例如Webcrawler利用全文检索技术,对网页中每一个单词进行索引;Lycos只对页名、标题以及最重要的100个注释词等选择性词语进行索引;Infoseek则提供概念检索和词组检索,支持and、or、near、not等布尔运算。检索引擎的索引方法大致可分为自动索引、手工索引和用户登录三类。
3. 检索器与结果处理技术
检索器的主要功能是根据用户输入的关键词在索引器形成的倒排表中进行检索,同时完成页面与检索之间的相关度评价,对将要输出的结果进行排序,并实现某种用户相关性反馈机制。
通过搜索引擎获得的检索结果往往成百上千,为了得到有用的信息,常用的方法是按网页的重要性或相关性给网页评级,进行相关性排序。这里的相关度是指搜索关键字在文档中出现的额度。当额度越高时,则认为该文档的相关程度越高。能见度也是常用的衡量标准之一。一个网页的能见度是指该网页入口超级链接的数目。能见度方法是基于这样的观点:一个网页被其他网页引用得越多,则该网页就越有价值。特别地,一个网页被越重要的网页所引用,则该网页的重要程度也就越高。结果处理技术可归纳为:
(1)按频次排定次序 通常,如果一个页面包含了越多的关键词,其搜索目标的相关性应该越好,这是非常合平常理的解决方案。
(2)按页面被访问度排序 在这种方法中,搜索引擎会记录它所搜索到的页面被访问的频率。人们访问较多的页面通常应该包含比较多的信息,或者有其他吸引入的长处。这种解决方案适合一般的搜索用户,而因为大部分的搜索引擎都不是专业性用户,所以这种方案也比较适合一般搜索引擎使用。
(3)二次检索 进一步净化(比flne)结果,按照一定的条件对搜索结果进行优化,可以再选择类别、相关词进行二次搜索等。
由于目前的搜索引擎还不具备智能,除非知道要查找的文档的标题,否则排列第一的结果未必是“最好”的结果。所以有些文档尽管相关程度高,但并不一定是用户最需要的文档。
搜索引擎技术的行业应用:
搜索引擎的行业应用一般指类似于千瓦通信提供的多种搜索引擎行业与产品应用模式,大体上分为如下几种形式:
1、 政府机关行业应用
n 实时跟踪、采集与业务工作相关的信息来源。
n 全面满足内部工作人员对互联网信息的全局观测需求。
n 及时解决政务外网、政务内网的信息源问题,实现动态发布。
n 快速解决政府主网站对各地级子网站的信息获取需求。
n 全面整合信息,实现政府内部跨地区、跨部门的信息资源共享与有效沟通。
n 节约信息采集的人力、物力、时间,提高办公效率。
2、企业行业应用
n 实时准确地监控、追踪竞争对手动态,是企业获取竞争情报的利器。
n 及时获取竞争对手的公开信息以便研究同行业的发展与市场需求。
n 为企业决策部门和管理层提供便捷、多途径的企业战略决策工具。
n 大幅度地提高企业获取、利用情报的效率,节省情报信息收集、存储、挖掘的相关费用,是提高企业核心竞争力的关键。
n 提高企业整体分析研究能力、市场快速反应能力,建立起以知识管理为核心的竞争情报数据仓库,是提高企业核心竞争力的神经中枢。
3、新闻媒体行业应用
n 快速准确地自动跟踪、采集数千家网络媒体信息,扩大新闻线索,提高采集速度。
n 支持每天对数万条新闻进行有效抓取。监控范围的深度、广度可以自行设定。
n 支持对所需内容智能提取、审核。
n 实现互联网信息内容采集、浏览、编辑、管理、发布的一体化。
4、 行业网站应用
n 实时跟踪、采集与网站相关的信息来源。
n 及时跟踪行业的信息来源网站,自动,快速更新网站信息。动态更新信息。
n 实现互联网信息内容采集、浏览、编辑、管理、发布的一体化。
n 针对商务网站提出商务管理模式,大大提高行业网站的商务应用需求。
n 针对资讯网站分类目录生成,提出用户生成网站分类结构。并可以实时增加与更新分类结构。不受级数限制。从而大大利高行业的应用性。
n 提供搜索引擎SEO优化专业服务,快速提高行业网站的推广。
n 提供与CCDC呼叫搜索引擎的广告合作。建立行业网站联盟,提高行业网站知名度。
5) 网络信息监察与监控
n 网络舆情系统。如“千瓦通信-网络舆情雷达监测系统”
n 网站信息与内容监察与监控系统,如“千瓦通信-网站信息与内容监测与监察系统(站内神探)”
随着因特网的迅猛发展、WEB信息的增加,用户要在信息海洋里查找信息,就象大海捞
针一样,搜索引擎技术恰好解决了这一难题(它可以为用户提供信息检索服务)。目前,
搜索引擎技术正成为计算机工业界和学术界争相研究、开发的对象。
搜索引擎(Search Engine)是随着WEB信息的迅速增加,从1995年开始逐渐发展起来
的技术。据发表在《科学》杂志1999年7月的文章《WEB信息的可访问性》估计,全球目前
的网页超过8亿,有效数据超过9T,并且仍以每4个月翻一番的速度增长。用户要在如此浩
瀚的信息海洋里寻找信息,必然会"大海捞针"无功而返。搜索引擎正是为了解决这个"迷航
"问题而出现的技术。搜索引擎以一定的策略在互联网中搜集、发现信息,对信息进行理解
、提取、组织和处理,并为用户提供检索服务,从而起到信息导航的目的。搜索引擎提供
的导航服务已经成为互联网上非常重要的网络服务,搜索引擎站点也被美誉为"网络门户"
。搜索引擎技术因而成为计算机工业界和学术界争相研究、开发的对象。本文旨在对搜索
引擎的关键技术进行简单的介绍,以起到抛砖引玉的作用。
分 类
按照信息搜集方法和服务提供方式的不同,搜索引擎系统可以分为三大类:
1.目录式搜索引擎:以人工方式或半自动方式搜集信息,由编辑员查看信息之后,人
工形成信息摘要,并将信息置于事先确定的分类框架中。信息大多面向网站,提供目录浏
览服务和直接检索服务。该类搜索引擎因为加入了人的智能,所以信息准确、导航质量高
,缺点是需要人工介入、维护量大、信息量少、信息更新不及时。这类搜索引擎的代表是
:Yahoo、LookSmart、Open Directory、Go Guide等。
2.机器人搜索引擎:由一个称为蜘蛛(Spider)的机器人程序以某种策略自动地在互
联网中搜集和发现信息,由索引器为搜集到的信息建立索引,由检索器根据用户的查询输
入检索索引库,并将查询结果返回给用户。服务方式是面向网页的全文检索服务。该类搜
索引擎的优点是信息量大、更新及时、毋需人工干预,缺点是返回信息过多,有很多无关
信息,用户必须从结果中进行筛选。这类搜索引擎的代表是:AltaVista、Northern Ligh
t、Excite、Infoseek、Inktomi、FAST、Lycos、Google;国内代表为:"天网"、悠游、O
penFind等。
3.元搜索引擎:这类搜索引擎没有自己的数据,而是将用户的查询请求同时向多个搜
索引擎递交,将返回的结果进行重复排除、重新排序等处理后,作为自己的结果返回给用
户。服务方式为面向网页的全文检索。这类搜索引擎的优点是返回结果的信息量更大、更
全,缺点是不能够充分使用所使用搜索引擎的功能,用户需要做更多的筛选。这类搜索引
擎的代表是WebCrawler、InfoMarket等。
性 能 指 标
我们可以将WEB信息的搜索看作一个信息检索问题,即在由WEB网页组成的文档库中检索
出与用户查询相关的文档。所以我们可以用衡量传统信息检索系统的性能参数-召回率(R
ecall)和精度(Pricision)衡量一个搜索引擎的性能。
召回率是检索出的相关文档数和文档库中所有的相关文档数的比率,衡量的是检索系
统(搜索引擎)的查全率;精度是检索出的相关文档数与检索出的文档总数的比率,衡量
的是检索系统(搜索引擎)的查准率。对于一个检索系统来讲,召回率和精度不可能两全
其美:召回率高时,精度低,精度高时,召回率低。所以常常用11种召回率下11种精度的
平均值(即11点平均精度)来衡量一个检索系统的精度。对于搜索引擎系统来讲,因为没
有一个搜索引擎系统能够搜集到所有的WEB网页,所以召回率很难计算。目前的搜索引擎系
统都非常关心精度。
影响一个搜索引擎系统的性能有很多因素,最主要的是信息检索模型,包括文档和查询
的表示方法、评价文档和用户查询相关性的匹配策略、查询结果的排序方法和用户进行相
关度反馈的机制。
主 要 技 术
一个搜索引擎由搜索器、索引器、检索器和用户接口等四个部分组成。
1.搜索器
搜索器的功能是在互联网中漫游,发现和搜集信息。它常常是一个计算机程序,日夜
不停地运行。它要尽可能多、尽可能快地搜集各种类型的新信息,同时因为互联网上的信
息更新很快,所以还要定期更新已经搜集过的旧信息,以避免死连接和无效连接。目前有
两种搜集信息的策略:
● 从一个起始URL集合开始,顺着这些URL中的超链(Hyperlink),以宽度优先、深
度优先或启发式方式循环地在互联网中发现信息。这些起始URL可以是任意的URL,但常常
是一些非常流行、包含很多链接的站点(如Yahoo!)。
● 将Web空间按照域名、IP地址或国家域名划分,每个搜索器负责一个子空间的穷尽
搜索。 搜索器搜集的信息类型多种多样,包括HTML、XML、Newsgroup文章、FTP文件、
字处理文档、多媒体信息。 搜索器的实现常常用分布式、并行计算技术,以提高信息
发现和更新的速度。商业搜索引擎的信息发现可以达到每天几百万网页。
2.索引器
索引器的功能是理解搜索器所搜索的信息,从中抽取出索引项,用于表示文档以及生
成文档库的索引表。
索引项有客观索引项和内容索引项两种:客观项与文档的语意内容无关,如作者名、
URL、更新时间、编码、长度、链接流行度(Link Popularity)等等;内容索引项是用来
反映文档内容的,如关键词及其权重、短语、单字等等。内容索引项可以分为单索引项和
多索引项(或称短语索引项)两种。单索引项对于英文来讲是英语单词,比较容易提取,
因为单词之间有天然的分隔符(空格);对于中文等连续书写的语言,必须进行词语的切
分。 在搜索引擎中,一般要给单索引项赋与一个权值,以表示该索引项对文档的区分
度,同时用来计算查询结果的相关度。使用的方法一般有统计法、信息论法和概率法。短
语索引项的提取方法有统计法、概率法和语言学法。
索引表一般使用某种形式的倒排表(Inversion List),即由索引项查找相应的文档
。索引表也可能要记录索引项在文档中出现的位置,以便检索器计算索引项之间的相邻或
接近关系(proximity)。
索引器可以使用集中式索引算法或分布式索引算法。当数据量很大时,必须实现即时
索引(Instant Indexing),否则不能够跟上信息量急剧增加的速度。索引算法对索引器
的性能(如大规模峰值查询时的响应速度)有很大的影响。一个搜索引擎的有效性在很大
程度上取决于索引的质量。
3.检索器 检索器的功能是根据用户的查询在索引库中快速检出文档,进行文档与
查询的相关度评价,对将要输出的结果进行排序,并实现某种用户相关性反馈机制。
检索器常用的信息检索模型有集合理论模型、代数模型、概率模型和混合模型四种。
4.用户接口
用户接口的作用是输入用户查询、显示查询结果、提供用户相关性反馈机制。主要的
目的是方便用户使用搜索引擎,高效率、多方式地从搜索引擎中得到有效、及时的信息。
用户接口的设计和实现使用人机交互的理论和方法,以充分适应人类的思维习惯。
用户输入接口可以分为简单接口和复杂接口两种。
简单接口只提供用户输入查询串的文本框;复杂接口可以让用户对查询进行限制,如
逻辑运算(与、或、非;+、-)、相近关系(相邻、NEAR)、域名范围(如.e、.com)
、出现位置(如标题、内容)、信息时间、长度等等。目前一些公司和机构正在考虑制定
查询选项的标准。
未 来 动 向
搜索引擎已成为一个新的研究、开发领域。因为它要用到信息检索、人工智能、计算
机网络、分布式处理、数据库、数据挖掘、数字图书馆、自然语言处理等多领域的理论和
技术,所以具有综合性和挑战性。又由于搜索引擎有大量的用户,有很好的经济价值,所
以引起了世界各国计算机科学界和信息产业界的高度关注,目前的研究、开发十分活跃,
并出现了很多值得注意的动向。
1.十分注意提高信息查询结果的精度,提高检索的有效性 用户在搜索引擎上进行
信息查询时,并不十分关注返回结果的多少,而是看结果是否和自己的需求吻合。对于一
个查询,传统的搜索引擎动辄返回几十万、几百万篇文档,用户不得不在结果中筛选。解
决查询结果过多的现象目前出现了几种方法:一是通过各种方法获得用户没有在查询语句
中表达出来的真正用途,包括使用智能代理跟踪用户检索行为,分析用户模型;使用相关
度反馈机制,使用户告诉搜索引擎哪些文档和自己的需求相关(及其相关的程度),哪些
不相关,通过多次交互逐步求精。二是用正文分类(Text Categorization)技术将结果分
类,使用可视化技术显示分类结构,用户可以只浏览自己感兴趣的类别。三是进行站点类
聚或内容类聚,减少信息的总量。
2.基于智能代理的信息过滤和个性化服务
信息智能代理是另外一种利用互联网信息的机制。它使用自动获得的领域模型(如We
b知识、信息处理、与用户兴趣相关的信息资源、领域组织结构)、用户模型(如用户背景
、兴趣、行为、风格)知识进行信息搜集、索引、过滤(包括兴趣过滤和不良信息过滤)
,并自动地将用户感兴趣的、对用户有用的信息提交给用户。智能代理具有不断学习、适
应信息和用户兴趣动态变化的能力,从而提供个性化的服务。智能代理可以在用户端进行
,也可以在服务器端运行。
3.采用分布式体系结构提高系统规模和性能
搜索引擎的实现可以采用集中式体系结构和分布式体系结构,两种方法各有千秋。但
当系统规模到达一定程度(如网页数达到亿级)时,必然要采用某种分布式方法,以提高
系统性能。搜索引擎的各个组成部分,除了用户接口之外,都可以进行分布:搜索器可以
在多台机器上相互合作、相互分工进行信息发现,以提高信息发现和更新速度;索引器可
以将索引分布在不同的机器上,以减小索引对机器的要求;检索器可以在不同的机器上
E. 搜索引擎的规则是什么谁可以概述下啊
Internet搜索引擎概述摘要:对基于lnternet的搜索引擎的含义及分类、基本构成、工作原理及性能评价标准进行了概述,并进一步分析了利用搜索引擎检索网络信息的局限,对其未来的发展趋势作了相应的分析。关键词:搜索引擎,网络信息检索,发展趋势1 搜索引擎的含义及其分类搜索引擎,即search engine,这一词在国内外因特网领域中被广泛的使用,然而。它的含义却不尽相同。在美国。搜索引擎通常指的是基于因特网的搜索引擎,它们收集因特网上几千万到几亿个网页,并且每一个网页上的每一个词都被搜索引擎所收录,也就是我们所说的全文检索,典型的如Goog|e,ln[oseek,HotBot。在中国,搜索引擎通常指的是基于网站目录的搜索服务或者是特定网站的搜索服务,前者如搜狐、新浪等公司开发的网站搜索服务,后者如Chinaren网站提供的全文检索服务。而本文研究的搜索引擎是指一种基于lntemet的信息查询工具,即一种基于lnternet的信息查询系统,包括信息采集、信息标引和信息检索三个主要部分。现有的搜索引擎基本上分为三类:1.1 single search engine(独立搜索引擎) 它的特点是仅在搜索引擎自身的数据库检索信息,比如Yahoo。1.2 Meta search engine(元搜索引擎) 它在检索信息时通过调用其它多个独立的搜索引擎来完成检索功能,并且能够将从多个独立搜索引擎查询的结果进行不同程度的处理,比如删除重复结果、校验连接、结果按照相关度排序等。元搜索引擎本身可以有也可以没有自己的数据库。由于不同的元搜索引擎挂接的独立搜索引擎各不相同,且各自独立的搜索引擎在查询语法上的差别较大,使得元搜索引擎本身仅支持AND、0R、N0T等简单的语法操作,返回的结果只能满足“最低常用分母”,即不能提高搜索结果的准确性。1.3 Net search engine(网络搜索软件) 就是网络用户可以将相应的搜索软件下载至本地的计算机上,安装查询,这是一种具有网络查询功能的离线浏览器。相对于元搜索引擎,它可以灵活地控制输出结果,其最大特点是方便用户使用和能快速地查询网络相关资源。2 网络搜索引擎的工作原理及其基本构成用户检索信息时,搜索引擎是根据用户的查询要求,按照一定的算法从索引数据库中查找对应的信息返回给用户。为了保证用户查找信息的精度和新鲜度。对于独立的搜索引擎而言.还需要建立并维护一个庞大的数据库。独立搜索引擎中的索引数据库中的信息是通过一种叫做网络蜘蛛(spider)的程序软件定期在网上爬行,通过访问公共网络中公开区域的每一个站点采集网页,对网络信息资源进行收集,然后利用索引软件对收集的信息进行自动标引,创建一个可供用户按照关键字等进行查询的web页索引数据库,搜索软件通过索引数据库为用户提供查询服务。所以,一般的搜索引擎主要由网络蜘蛛、索引和搜索软件三部分组成.网络蜘蛛。是一个功能很强的程序,它会定期根据预先设定的地址去查看对应的网页,如网页发生变化则重新获取该网页,否则根据该网页中的链接继续去访问。网络蜘蛛访问页面的过程是对互连网上信息遍历的过程。为了保证网络蜘蛛遍历信息的广度,一般事先设定_ 些重要的链接,然后进行遍历。在遍历的过程中不断记录网页中的链接,不断地遍历下去,直到访问完所有的链接。索引软件。网络蜘蛛将遍历搜索集得到的网页存放在数据库中。为了提高检索的效率,需要建立索引。索引一般为倒排档索引。搜索软件。该软件用于筛选索引数据库中无数的网页信息,选择出符合用户检索要求的网页并对它们进行分级排序。然后将分级排序后的结果显示给用户。3 搜索引擎的主要性能评价指标3.1 搜索引擎建立索引的方法 数据库中的索引一般是按照倒排文档的文件格式存放,在建立例排索引的时候,不同的搜索引擎有不同的选项。有些搜索引擎对于信息页面建立全文索引;而有些只建立摘要部分,或者是段落前面部分的索引;还有些搜索引擎,比如Google建立索引的时候,同时还考虑超文本的不同标记所表示的不同含义。如粗体、大字体显示的东西往往比较重要;放在锚链中的信息往往是它所指向页面的信息的概括,所以用它来作为所指向的页面的重要信息。Google、infoseek还在建立索引的过程中收集页面中的超链接。这些超链接反映了收集到的信息之间的空间结构,利用这些结果信息可以 http://www.1187541.info
点赞哦
F. 搜索引擎中的"+"和空格有什么区别呢
多搜索引擎用空格的查询结果和用加号是相同的..
就当我是不会审题的**吧~
AND表示逻辑“与”,有的搜索引擎也常用“&”,“+”,“,”和空格来表示。AND用于检索两个以上关键词的情形,检索的结果应该与这几个关键词都有关系。如“经济AND文化”,就表示既包括经济又包括文化。
OR表示逻辑“或”,有的搜索引擎用“|”来表示。检索的结果只要求与若干个关键词中的一个有关系即可,如“体操OR游泳”,就表示可以包括体操,也可以包括游泳。使用OR通常会得到许多无关紧要的信息,一般应慎重使用。
NOT表示逻辑“非”,有的搜索引擎用“!”表示。NOT检索的结果将完全排除与NOT后面的关键词有关的信息,如“水果NOT苹果”,就表示可以包括水果但其中不能有苹果。
一般能提供高级检索的搜索引擎,都支持逻辑检索,但有的是“完全支持”,如Excite,Infoseek等;有的则是“部分支持”,如Yahoo就只支持“AND”和“OR”;有的在其高级检索中“完全支持”而在其简单检索中则“部分支持”,如HotBot,Lycos等。中文搜索引擎一般不直接支持“AND”,“OR”和“NO”而是通过使用特殊的操作符如“+”,“—”,“|”,“!”等来达到同样的目的(注意在输入代表逻辑关系的字符时,一定要用半角)。
二、检索的表示
下边所列的例子,可以帮助你更好地理解什么是逻辑查询,同时也是一些较常见的用法。
①“与”,在关键词之间使用半角的加号(+)
例1:查询网上关于法国足球、英国足球、巴西足球比较资料。
从查询要求表明有查询的内容必须同时包括“法国足球、英国足球,巴西足球”3个关键词,输入的查询式应为“英国足球+法国足球+巴西足球”。逻辑“与”的代表符号,有的搜索引擎不用+号,而用&号,还有用其他符号的,请注意查看说明。
②“或”,使用半角的逗号把关键词分开
例2:查询网上关于法国足球、英国足球和巴西足球的资料。
这个例子表示,查询的内容不必同时包括3个关键词,而只要包括其中任何一个即可,因此查询式应为“法国足球,英国足球,巴西足球”,有的搜索引擎使用空格,而非半角逗号。
③“非”,将要排除的关键词前加半角的减号
例3:查询除世界杯以外的有关足球的资料。
这一例子表示,查询的内容应包括“足球”,但必须没有“世界杯”字样。检索式应为“足球-世界杯”。
三、检索服务内容和要求
不同的搜索引擎有着不同的检索服务:
比如:google
Google属于全文搜索引擎,它搜索的速度比较快,用复杂而全自动的搜索方法排除了任何人为因素对搜索结果的影响。它可以方便、诚实、客观地寻找有用的价值资料。据统计,它收录了80多亿的网址,只返回包含所有关键词的网页按照关键词的接近度确定搜索结果的先后次序,优先考虑关键词较为接近的结果。
G. 什么是空规区
飞机起飞前的延误有两种,一种是航空公司原因,另一种就是航空管制。航空公司原因包括飞机周转、机组迟到、飞机维修等,总之就是飞机或机组没有按时到机场/进入起飞准备状态。航空管制就是飞机具备其他所有的起飞条件,但塔台不放行。不放行的原因有很多。
- 天气。这又分三种:起飞机场天气、目的地天气,还有最重要的,航路天气。恶劣天气(大雨、大雾、雷电、大风等)都不适合起降和飞行。其中一个天气不好就不能飞行。
- 航路拥堵。中国的领空全部归属空军管理。空军将其中20%给民航使用(随时可以收回)。在这20%的空间中,设定了一些航路。航路上的飞机前后左右的间距都有要求。同一条航路上的飞机太多,就不能让新的飞机飞进去,否则就会有安全问题。
- 军方活动。上面说了,20%的领空是空军”施舍“给民航的。空军要用了,民航就要让路。典型的就是军事演习。那就会在附近画一个禁飞区(通常会有300-500公里),所有飞机绕道,航路都需要调整。
- 跑道问题。机场跑道可能维修,或者跑道上发生状况(比如有大量鸟群),这时跑道会暂时封闭。跑道少了,起降能力就降低了,但航班却是按照正常状况安排的,于是就要额外的排队时间。
H. 搜索引擎基本的搜索规则(+号、-号、引号、空格的使用)
搜索引擎的使用技巧
搜索引擎就是帮助我们来方便地查询网上信息的,但是当你输入关键词后,出现了成百上千个查询结果,而且这些结果中并没有多少你想要的东西,面对着一堆信息垃圾,这时你的心情该是如何的沮丧。不要难过,这不是因为搜索引擎没有用,而是由于你没能很好地驾驭它,没有掌握它的使用技巧,才导致这样的后果。
每个搜索引擎都有自己的查询方法,你只有熟练的掌握它,才能运用自如。不同的搜索引擎提供的查询方法不完全相同,你要想具体了解,可以到各个网站中去查询,但有一些通用的查询方法,各个搜索引擎基本上都具有,下面就给你加以介绍。
由于使用目录查询比较简单,你只需确定要查找目标所在的目录,然后一层层打开,逐步细化就可以找到。所以我们下面主要介绍使用关键词进行查询。
1、简单查询 在搜索引擎中输入关键词,然后点击“搜索”就行了,系统很快会返回查询结果,这是最简单的查询方法,使用方便,但是查询的结果却不准确,可能包含着许多无用的信息。}
2、使用双引号用(" ") 给要查询的关键词加上双引号(半角,以下要加的其它符号同此),可以实现精确的查询,这种方法要求查询结果要精确匹配,不包括演变形式。例如在搜索引擎的文字框中输入“电传”,它就会返回网页中有“电传”这个关键字的网址,而不会返回诸如“电话传真”之类网页。
3、使用加号(+) 在关键词的前面使用加号,也就等于告诉搜索引擎该单词必须出现在搜索结果中的网页上,例如,在搜索引擎中输入“+电脑+电话+传真”就表示要查找的内容必须要同时包含“电脑、电话、传真”这三个关键词。
4、使用减号(-) 在关键词的前面使用减号,也就意味着在查询结果中不能出现该关键词,例如,在搜索引擎中输入“电视台-中央电视台”,它就表示最后的查询结果中一定不包含“中央电视台”。
5、使用通配符(*和?) 通配符包括星号(*)和问号(?),前者表示匹配的数量不受限制,后者匹配的字符数要受到限制,主要用在英文搜索引擎中。例如输入“computer*”,就可以找到“computer、computers、computerised、computerized”等单词,而输入“comp?ter”,则只能找到“computer、compater、competer”等单词。
6、使用布尔检索 所谓布尔检索,是指通过标准的布尔逻辑关系来表达关键词与关键词之间逻辑关系的一种查询方法,这种查询方法允许我们输入多个关键词,各个关键词之间的关系可以用逻辑关系词来表示。
and,称为逻辑“与”,用and进行连接,表示它所连接的两个词必须同时出现在查询结果中,例如,输入“computer and book”,它要求查询结果中必须同时包含computer和book。
or,称为逻辑“或”,它表示所连接的两个关键词中任意一个出现在查询结果中就可以,例如,输入“computer or book”,就要求查询结果中可以只有computer,或只有book,或同时包含computer和book。
not,称为逻辑“非”,它表示所连接的两个关键词中应从第一个关键词概念中排除第二个关键词,例如输入“automobile not car”,就要求查询的结果中包含automobile(汽车),但同时不能包含car(小汽车)。
near,它表示两个关键词之间的词距不能超过n个单词。 在实际的使用过程中,你可以将各种逻辑关系综合运用,灵活搭配,以便进行更加复杂的查询。
7、使用括号 当两个关键词用另外一种操作符连在一起,而你又想把它们列为一组时,就可以对这两个词加上圆括号。
8、使用元词检索 大多数搜索引擎都支持“元词”(metawords)功能,依据这类功能用户把元词放在关键词的前面,这样就可以告诉搜索引擎你想要检索的内容具有哪些明确的特征。例如,你在搜索引擎中输入“title:清华大学”,就可以查到网页标题中带有清华大学的网页。在键入的关键词后加上“domain:org”,就可以查到所有以org为后缀的网站。 其他元词还包括:image:用于检索图片,link:用于检索链接到某个选定网站的页面,url:用于检索地址中带有某个关键词的网页。
9、区分大小写 这是检索英文信息时要注意的一个问题,许多英文搜索引擎可以让用户选择是否要求区分关键词的大小写,这一功能对查询专有名词有很大的帮助,例如:web专指万维网或环球网,而web则表示蜘蛛网。
I. 搜索引擎的惩罚的种类
搜索引擎惩罚的形式很多,其中最容易判断的是整站删除。可以使用site:指令搜索域名如果网站完全没有被收录,往往是这几种情况:
1、robots. txt文件有问题,禁止搜索引擎收录。
2、服务器问题,使网站无法被搜索引擎抓取。
3、违法内容(如侵犯版权)被投诉后删除。
4、严重作弊行为被删除。
当然有的网站只是在搜索最主要关键词时被惩罚,其他次要关键词和长尾词排名不变。这类的情况大多是外部链接优化过度或垃圾链接造成的,其中高度集中的锚文字是主要原因之一。
最后提下这类情况,网站排名只是从第一页降到第二页,一般不是被惩罚,而很可能是算法变动或竞争对手优化得当排到了前面。