搜索交互
Ⅰ 搜索引擎如何搜索到信息
随着互联网的迅猛发展、WEB信息的增加,用户要在信息海洋里查找自己所需的信息,就象大海捞针一样,搜索引擎技术恰好解决了这一难题(它可以为用户提供信息检索服务)。搜索引擎是指互联网上专门提供检索服务的一类网站,这些站点的服务器通过网络搜索软件(例如网络搜索机器人)或网络登录等方式,将Intemet上大量网站的页面信息收集到本地,经过加工处理建立信息数据库和索引数据库,从而对用户提出的各种检索作出响应,提供用户所需的信息或相关指针。用户的检索途径主要包括自由词全文检索、关键词检索、分类检索及其他特殊信息的检索(如企业、人名、电话黄页等)。下面以网络搜索机器人为例来说明搜索引擎技术。
1.网络机器人技术
网络机器人(Robot)又被称作Spider、Worm或Random,核心目的是为获取Intemet上的信息。一般定义为“一个在网络上检索文件且自动跟踪该文件的超文本结构并循环检索被参照的所有文件的软件”。机器人利用主页中的超文本链接遍历WWW,通过U趾引用从一个HT2LIL文档爬行到另一个HTML文档。网上机器人收集到的信息可有多种用途,如建立索引、HIML文件合法性的验证、uRL链接点验证与确认、监控与获取更新信息、站点镜像等。
机器人安在网上爬行,因此需要建立一个URL列表来记录访问的轨迹。它使用超文本,指向其他文档的URL是隐藏在文档中,需要从中分析提取URL,机器人一般都用于生成索引数据库。所有WWW的搜索程序都有如下的工作步骤:
(1)机器人从起始URL列表中取出URL并从网上读取其指向的内容;
(2)从每一个文档中提取某些信息(如关键字)并放入索引数据库中;
(3)从文档中提取指向其他文档的URL,并加入到URL列表中;
(4)重复上述3个步骤,直到再没有新的URL出现或超出了某些限制(时间或磁盘空间);
(5)给索引数据库加上检索接口,向网上用户发布或提供给用户检索。
搜索算法一般有深度优先和广度优先两种基本的搜索策略。机器人以URL列表存取的方式决定搜索策略:先进先出,则形成广度优先搜索,当起始列表包含有大量的WWW服务器地址时,广度优先搜索将产生一个很好的初始结果,但很难深入到服务器中去;先进后出,则形成深度优先搜索,这样能产生较好的文档分布,更容易发现文档的结构,即找到最大数目的交叉引用。也可以采用遍历搜索的方法,就是直接将32位的IP地址变化,逐个搜索整个Intemet。
搜索引擎是一个技术含量很高的网络应用系统。它包括网络技术、数据库技术动标引技术、检索技术、自动分类技术,机器学习等人工智能技术。
2.索引技术
索引技术是搜索引擎的核心技术之一。搜索引擎要对所收集到的信息进行整理、分类、索引以产生索引库,而中文搜索引擎的核心是分词技术。分词技术是利用一定的规则和词库,切分出一个句子中的词,为自动索引做好准备。目前的索引多采用Non—clustered方法,该技术和语言文字的学问有很大的关系,具体有如下几点:
(1)存储语法库,和词汇库配合分出句子中的词汇;
(2)存储词汇库,要同时存储词汇的使用频率和常见搭配方式;
(3)词汇宽,应可划分为不同的专业库,以便于处理专业文献;
(4)对无法分词的句子,把每个字当作词来处理。
索引器生成从关键词到URL的关系索引表。索引表一般使用某种形式的倒排表(1nversionUst),即由索引项查找相应的URL。索引表也要记录索引项在文档中出现的位置,以便检索器计算索引项之间的相邻关系或接近关系,并以特定的数据结构存储在硬盘上。
不同的搜索引擎系统可能采用不尽相同的标引方法。例如Webcrawler利用全文检索技术,对网页中每一个单词进行索引;Lycos只对页名、标题以及最重要的100个注释词等选择性词语进行索引;Infoseek则提供概念检索和词组检索,支持and、or、near、not等布尔运算。检索引擎的索引方法大致可分为自动索引、手工索引和用户登录三类。
3. 检索器与结果处理技术
检索器的主要功能是根据用户输入的关键词在索引器形成的倒排表中进行检索,同时完成页面与检索之间的相关度评价,对将要输出的结果进行排序,并实现某种用户相关性反馈机制。
通过搜索引擎获得的检索结果往往成百上千,为了得到有用的信息,常用的方法是按网页的重要性或相关性给网页评级,进行相关性排序。这里的相关度是指搜索关键字在文档中出现的额度。当额度越高时,则认为该文档的相关程度越高。能见度也是常用的衡量标准之一。一个网页的能见度是指该网页入口超级链接的数目。能见度方法是基于这样的观点:一个网页被其他网页引用得越多,则该网页就越有价值。特别地,一个网页被越重要的网页所引用,则该网页的重要程度也就越高。结果处理技术可归纳为:
(1)按频次排定次序 通常,如果一个页面包含了越多的关键词,其搜索目标的相关性应该越好,这是非常合平常理的解决方案。
(2)按页面被访问度排序 在这种方法中,搜索引擎会记录它所搜索到的页面被访问的频率。人们访问较多的页面通常应该包含比较多的信息,或者有其他吸引入的长处。这种解决方案适合一般的搜索用户,而因为大部分的搜索引擎都不是专业性用户,所以这种方案也比较适合一般搜索引擎使用。
(3)二次检索 进一步净化(比flne)结果,按照一定的条件对搜索结果进行优化,可以再选择类别、相关词进行二次搜索等。
由于目前的搜索引擎还不具备智能,除非知道要查找的文档的标题,否则排列第一的结果未必是“最好”的结果。所以有些文档尽管相关程度高,但并不一定是用户最需要的文档。
搜索引擎技术的行业应用:
搜索引擎的行业应用一般指类似于千瓦通信提供的多种搜索引擎行业与产品应用模式,大体上分为如下几种形式:
1、 政府机关行业应用
n 实时跟踪、采集与业务工作相关的信息来源。
n 全面满足内部工作人员对互联网信息的全局观测需求。
n 及时解决政务外网、政务内网的信息源问题,实现动态发布。
n 快速解决政府主网站对各地级子网站的信息获取需求。
n 全面整合信息,实现政府内部跨地区、跨部门的信息资源共享与有效沟通。
n 节约信息采集的人力、物力、时间,提高办公效率。
2、企业行业应用
n 实时准确地监控、追踪竞争对手动态,是企业获取竞争情报的利器。
n 及时获取竞争对手的公开信息以便研究同行业的发展与市场需求。
n 为企业决策部门和管理层提供便捷、多途径的企业战略决策工具。
n 大幅度地提高企业获取、利用情报的效率,节省情报信息收集、存储、挖掘的相关费用,是提高企业核心竞争力的关键。
n 提高企业整体分析研究能力、市场快速反应能力,建立起以知识管理为核心的竞争情报数据仓库,是提高企业核心竞争力的神经中枢。
3、新闻媒体行业应用
n 快速准确地自动跟踪、采集数千家网络媒体信息,扩大新闻线索,提高采集速度。
n 支持每天对数万条新闻进行有效抓取。监控范围的深度、广度可以自行设定。
n 支持对所需内容智能提取、审核。
n 实现互联网信息内容采集、浏览、编辑、管理、发布的一体化。
4、 行业网站应用
n 实时跟踪、采集与网站相关的信息来源。
n 及时跟踪行业的信息来源网站,自动,快速更新网站信息。动态更新信息。
n 实现互联网信息内容采集、浏览、编辑、管理、发布的一体化。
n 针对商务网站提出商务管理模式,大大提高行业网站的商务应用需求。
n 针对资讯网站分类目录生成,提出用户生成网站分类结构。并可以实时增加与更新分类结构。不受级数限制。从而大大利高行业的应用性。
n 提供搜索引擎SEO优化专业服务,快速提高行业网站的推广。
n 提供与CCDC呼叫搜索引擎的广告合作。建立行业网站联盟,提高行业网站知名度。
5) 网络信息监察与监控
n 网络舆情系统。如“千瓦通信-网络舆情雷达监测系统”
n 网站信息与内容监察与监控系统,如“千瓦通信-网站信息与内容监测与监察系统(站内神探)”
随着因特网的迅猛发展、WEB信息的增加,用户要在信息海洋里查找信息,就象大海捞
针一样,搜索引擎技术恰好解决了这一难题(它可以为用户提供信息检索服务)。目前,
搜索引擎技术正成为计算机工业界和学术界争相研究、开发的对象。
搜索引擎(Search Engine)是随着WEB信息的迅速增加,从1995年开始逐渐发展起来
的技术。据发表在《科学》杂志1999年7月的文章《WEB信息的可访问性》估计,全球目前
的网页超过8亿,有效数据超过9T,并且仍以每4个月翻一番的速度增长。用户要在如此浩
瀚的信息海洋里寻找信息,必然会"大海捞针"无功而返。搜索引擎正是为了解决这个"迷航
"问题而出现的技术。搜索引擎以一定的策略在互联网中搜集、发现信息,对信息进行理解
、提取、组织和处理,并为用户提供检索服务,从而起到信息导航的目的。搜索引擎提供
的导航服务已经成为互联网上非常重要的网络服务,搜索引擎站点也被美誉为"网络门户"
。搜索引擎技术因而成为计算机工业界和学术界争相研究、开发的对象。本文旨在对搜索
引擎的关键技术进行简单的介绍,以起到抛砖引玉的作用。
分 类
按照信息搜集方法和服务提供方式的不同,搜索引擎系统可以分为三大类:
1.目录式搜索引擎:以人工方式或半自动方式搜集信息,由编辑员查看信息之后,人
工形成信息摘要,并将信息置于事先确定的分类框架中。信息大多面向网站,提供目录浏
览服务和直接检索服务。该类搜索引擎因为加入了人的智能,所以信息准确、导航质量高
,缺点是需要人工介入、维护量大、信息量少、信息更新不及时。这类搜索引擎的代表是
:Yahoo、LookSmart、Open Directory、Go Guide等。
2.机器人搜索引擎:由一个称为蜘蛛(Spider)的机器人程序以某种策略自动地在互
联网中搜集和发现信息,由索引器为搜集到的信息建立索引,由检索器根据用户的查询输
入检索索引库,并将查询结果返回给用户。服务方式是面向网页的全文检索服务。该类搜
索引擎的优点是信息量大、更新及时、毋需人工干预,缺点是返回信息过多,有很多无关
信息,用户必须从结果中进行筛选。这类搜索引擎的代表是:AltaVista、Northern Ligh
t、Excite、Infoseek、Inktomi、FAST、Lycos、Google;国内代表为:"天网"、悠游、O
penFind等。
3.元搜索引擎:这类搜索引擎没有自己的数据,而是将用户的查询请求同时向多个搜
索引擎递交,将返回的结果进行重复排除、重新排序等处理后,作为自己的结果返回给用
户。服务方式为面向网页的全文检索。这类搜索引擎的优点是返回结果的信息量更大、更
全,缺点是不能够充分使用所使用搜索引擎的功能,用户需要做更多的筛选。这类搜索引
擎的代表是WebCrawler、InfoMarket等。
性 能 指 标
我们可以将WEB信息的搜索看作一个信息检索问题,即在由WEB网页组成的文档库中检索
出与用户查询相关的文档。所以我们可以用衡量传统信息检索系统的性能参数-召回率(R
ecall)和精度(Pricision)衡量一个搜索引擎的性能。
召回率是检索出的相关文档数和文档库中所有的相关文档数的比率,衡量的是检索系
统(搜索引擎)的查全率;精度是检索出的相关文档数与检索出的文档总数的比率,衡量
的是检索系统(搜索引擎)的查准率。对于一个检索系统来讲,召回率和精度不可能两全
其美:召回率高时,精度低,精度高时,召回率低。所以常常用11种召回率下11种精度的
平均值(即11点平均精度)来衡量一个检索系统的精度。对于搜索引擎系统来讲,因为没
有一个搜索引擎系统能够搜集到所有的WEB网页,所以召回率很难计算。目前的搜索引擎系
统都非常关心精度。
影响一个搜索引擎系统的性能有很多因素,最主要的是信息检索模型,包括文档和查询
的表示方法、评价文档和用户查询相关性的匹配策略、查询结果的排序方法和用户进行相
关度反馈的机制。
主 要 技 术
一个搜索引擎由搜索器、索引器、检索器和用户接口等四个部分组成。
1.搜索器
搜索器的功能是在互联网中漫游,发现和搜集信息。它常常是一个计算机程序,日夜
不停地运行。它要尽可能多、尽可能快地搜集各种类型的新信息,同时因为互联网上的信
息更新很快,所以还要定期更新已经搜集过的旧信息,以避免死连接和无效连接。目前有
两种搜集信息的策略:
● 从一个起始URL集合开始,顺着这些URL中的超链(Hyperlink),以宽度优先、深
度优先或启发式方式循环地在互联网中发现信息。这些起始URL可以是任意的URL,但常常
是一些非常流行、包含很多链接的站点(如Yahoo!)。
● 将Web空间按照域名、IP地址或国家域名划分,每个搜索器负责一个子空间的穷尽
搜索。 搜索器搜集的信息类型多种多样,包括HTML、XML、Newsgroup文章、FTP文件、
字处理文档、多媒体信息。 搜索器的实现常常用分布式、并行计算技术,以提高信息
发现和更新的速度。商业搜索引擎的信息发现可以达到每天几百万网页。
2.索引器
索引器的功能是理解搜索器所搜索的信息,从中抽取出索引项,用于表示文档以及生
成文档库的索引表。
索引项有客观索引项和内容索引项两种:客观项与文档的语意内容无关,如作者名、
URL、更新时间、编码、长度、链接流行度(Link Popularity)等等;内容索引项是用来
反映文档内容的,如关键词及其权重、短语、单字等等。内容索引项可以分为单索引项和
多索引项(或称短语索引项)两种。单索引项对于英文来讲是英语单词,比较容易提取,
因为单词之间有天然的分隔符(空格);对于中文等连续书写的语言,必须进行词语的切
分。 在搜索引擎中,一般要给单索引项赋与一个权值,以表示该索引项对文档的区分
度,同时用来计算查询结果的相关度。使用的方法一般有统计法、信息论法和概率法。短
语索引项的提取方法有统计法、概率法和语言学法。
索引表一般使用某种形式的倒排表(Inversion List),即由索引项查找相应的文档
。索引表也可能要记录索引项在文档中出现的位置,以便检索器计算索引项之间的相邻或
接近关系(proximity)。
索引器可以使用集中式索引算法或分布式索引算法。当数据量很大时,必须实现即时
索引(Instant Indexing),否则不能够跟上信息量急剧增加的速度。索引算法对索引器
的性能(如大规模峰值查询时的响应速度)有很大的影响。一个搜索引擎的有效性在很大
程度上取决于索引的质量。
3.检索器 检索器的功能是根据用户的查询在索引库中快速检出文档,进行文档与
查询的相关度评价,对将要输出的结果进行排序,并实现某种用户相关性反馈机制。
检索器常用的信息检索模型有集合理论模型、代数模型、概率模型和混合模型四种。
4.用户接口
用户接口的作用是输入用户查询、显示查询结果、提供用户相关性反馈机制。主要的
目的是方便用户使用搜索引擎,高效率、多方式地从搜索引擎中得到有效、及时的信息。
用户接口的设计和实现使用人机交互的理论和方法,以充分适应人类的思维习惯。
用户输入接口可以分为简单接口和复杂接口两种。
简单接口只提供用户输入查询串的文本框;复杂接口可以让用户对查询进行限制,如
逻辑运算(与、或、非;+、-)、相近关系(相邻、NEAR)、域名范围(如.e、.com)
、出现位置(如标题、内容)、信息时间、长度等等。目前一些公司和机构正在考虑制定
查询选项的标准。
未 来 动 向
搜索引擎已成为一个新的研究、开发领域。因为它要用到信息检索、人工智能、计算
机网络、分布式处理、数据库、数据挖掘、数字图书馆、自然语言处理等多领域的理论和
技术,所以具有综合性和挑战性。又由于搜索引擎有大量的用户,有很好的经济价值,所
以引起了世界各国计算机科学界和信息产业界的高度关注,目前的研究、开发十分活跃,
并出现了很多值得注意的动向。
1.十分注意提高信息查询结果的精度,提高检索的有效性 用户在搜索引擎上进行
信息查询时,并不十分关注返回结果的多少,而是看结果是否和自己的需求吻合。对于一
个查询,传统的搜索引擎动辄返回几十万、几百万篇文档,用户不得不在结果中筛选。解
决查询结果过多的现象目前出现了几种方法:一是通过各种方法获得用户没有在查询语句
中表达出来的真正用途,包括使用智能代理跟踪用户检索行为,分析用户模型;使用相关
度反馈机制,使用户告诉搜索引擎哪些文档和自己的需求相关(及其相关的程度),哪些
不相关,通过多次交互逐步求精。二是用正文分类(Text Categorization)技术将结果分
类,使用可视化技术显示分类结构,用户可以只浏览自己感兴趣的类别。三是进行站点类
聚或内容类聚,减少信息的总量。
2.基于智能代理的信息过滤和个性化服务
信息智能代理是另外一种利用互联网信息的机制。它使用自动获得的领域模型(如We
b知识、信息处理、与用户兴趣相关的信息资源、领域组织结构)、用户模型(如用户背景
、兴趣、行为、风格)知识进行信息搜集、索引、过滤(包括兴趣过滤和不良信息过滤)
,并自动地将用户感兴趣的、对用户有用的信息提交给用户。智能代理具有不断学习、适
应信息和用户兴趣动态变化的能力,从而提供个性化的服务。智能代理可以在用户端进行
,也可以在服务器端运行。
3.采用分布式体系结构提高系统规模和性能
搜索引擎的实现可以采用集中式体系结构和分布式体系结构,两种方法各有千秋。但
当系统规模到达一定程度(如网页数达到亿级)时,必然要采用某种分布式方法,以提高
系统性能。搜索引擎的各个组成部分,除了用户接口之外,都可以进行分布:搜索器可以
在多台机器上相互合作、相互分工进行信息发现,以提高信息发现和更新速度;索引器可
以将索引分布在不同的机器上,以减小索引对机器的要求;检索器可以在不同的机器上.
Ⅱ 搜索引擎是什么
搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上采集信息,在对信息进行组织和处理后,为用户提供检索服务,将检索的相关信息展示给用户的系统。
搜索引擎是工作于互联网上的一门检索技术,它旨在提高人们获取搜集信息的速度,为人们提供更好的网络使用环境。从功能和原理上搜索引擎大致被分为全文搜索引擎、元搜索引擎、垂直搜索引擎和目录搜索引擎等四大类。
搜索引擎依托于多种技术,如网络爬虫技术、检索排序技术、网页处理技术、大数据处理技术、自然语言处理技术等,为信息检索用户提供快速、高相关性的信息服务。
搜索引擎技术的核心模块一般包括爬虫、索引、检索和排序等,同时可添加其他一系列辅助模块,以为用户创造更好的网络使用环境。
搜索引擎发展到今天,基础架构和算法在技术上都已经基本成型和成熟。搜索引擎已经发展成为根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。
Ⅲ 手机的交互方式有哪些
移动互联网是未来的发展趋势,随着移动设备硬件性能的提升和移动系统的更新,交互设计也被逐渐重视,不再是简单的将内容从互联网平台照搬至移动平台,而是解决产品在界面、使用情景、操作流程等方面的用户体验。手机作为移动互联网最主要的载体,从用户需求触发,在内容呈现、信息架构、交互操作等方面挖掘设计的可能性,是手机交互设计未来需要重点关注的设计趋势。一、手势
有一个词叫“指手划脚”,手势是人类沟通交流不可分割的一部分。对机器能不能用手势来沟通呢?现在有“智能手势识别”技术,开辟了我们与电脑、平板、手机间新的沟通方式。这主要是通过摄像头跟踪进行手势识别,从而控制设备的操作,是一种很智能的人机交互方式。市场研究机构ABIResearch公布的一项最新研究预测,到2017年,具有视觉手势识别功能的智能手机出货量将达6亿部。
隔空玩“切水果”已经可以应用。我们还可以将其应用在传送文件上,先在一台设备上选择想要传输的文件,抓上拖拽到另一台设备上,即可完成传输;或者是在餐馆点餐,食客隔空一点,就选中想要的菜;或者还可控制那些没有显示屏的设备,挥挥手,空调开了,电灯亮了。
二、语音
语音是现在应用比较多的交互方式。现在发短信、打电话、设闹钟、记笔记,很多人都开始“动口”来做。除了像苹果的Siri这种厂商自带的应用外,还有类似“灵犀”这样可以用在各种不同手机上的应用 ,而且十分智能。我们家的小朋友,曾经企图用“语音”来做作业,问出了“怎么组词”的问题,“灵犀”的回答是“自己的事情自己做”!:)
不管怎么样,语音识别开启了人机交互新的方式。个人十分看好搜索领域用上语音交互技术。而因为要和远端服务器对话,通常这类应用对网络的依赖很强。
三、默读
出声操作手机不稀奇,将来不出声,终端都能知道你要干什么。这用的是“默读识别”。不需要发出声音,系统就可以将喉部声带动作发出的电信号转换成语音,从而破译人想说的话。工作原理是当一个人默念或者低语时,不论有没有实际的唇部和脸部动作,都会产生相应的生物学信号。只要在人体下巴和喉结两侧固定钮扣大小的特殊传感器,就可以捕获大脑向发声器官发出的指令,并将这些信号“阅读”出来。目前美国宇航局艾姆斯研究中心正在开发,根据该项目首席科学家恰克•乔金森表示,几年之后,无声语音识别技术就能够进入商业应用。
可应用的场景包括杂闹环境,或是水下、太空等不方便说话的地方;还能帮助有语言障碍的人士同外界交流。将来也有可能尝试利用无声语音识别系统来控制各种外设终端(比如隔空取物?)。
四、眼动
已发布的三星GALAXY S4即以“眼球追踪”为卖点。利用这项技术,可以实现在三星自有浏览器上自动翻页。其基本工作原理是利用图像处理技术,使用摄像头连续地记录视线变化,追踪视觉注视频率以及注视持续时间长短,从而分析判断出用户的行为并反应。
这将会很受商家欢迎,因为能记录用户视线目光的转移,从而知道用户对什么东西感兴趣。这项技术也有助于行动不方便的人与世界沟通。或者将来用户将目光聚集在屏幕的特定区域,就能发送邮件,打出电话。当然还有可穿戴式设备,也可以借助眼动跟踪技术,更加方便地完成输入操作。
五、指纹
苹果在发布iPhone 5s的时候,除了64位的A7,更是把指纹识别当做5s空前、超前的卖点。除了类似解锁加密保护等信息安全的功用外,指纹识别更是一种全新的交互方式。
比如支付领域,转账汇款、余额查询、付款交易,指纹一刷就成。鉴于我们有十个手指,或者我们可用一个手指指纹做登录密码,再找一个手指作为支付密码?如果将我们的十个手指头配备上不同的指令,与手机交互,操作就更为简便了:食指打电话,中指发短信,小指打开邮件界面,再来个手指开关数据网络…
Ⅳ javascript搜索功能是怎么实现的要跟后台交互吧是不是和过滤功能差不多原理
搜索功能有多种实现方式 ,前后端都可以实现
第一种:
页面内搜索(类似CTRL+F),这个可以纯前端完成,直接用js匹配搜索结果,进行隐藏显示或改变颜色等
第二种:
纯后端方案,将搜索的字符串拼接到一个新的url参数后,然后跳转到生成的url上,直接显示新页面搜索结果,如最早的搜索就是一个跳转 ,目前已经不使用这种方式
第三种:
Ajax搜索,需要前后端配合,将关键字发送一个请求到后端,后端需要将结果的数据传给前端,前端根据返回的数据,重新对页面部分进行渲染
CTRL+F不支持正则,这个是浏览器自带的功能,由于正则对于普通用户来说,是很专业的,浏览器一般不会去支持很少有人会用的功能,当然是否支持取决于浏览器厂商的想法
Ⅳ 怎样做一个集成搜索引擎的搜索框
一个搜索引擎由搜索器、索引器、检索器和用户接口等四个部分组成。
1.搜索器
搜索器的功能是在互联网中漫游,发现和搜集信息。它常常是一个计算机程序,日夜不停地运行。它要尽可能多、尽可能快地搜集各种类型的新信息,同时因为互联网上的信息更新很快,所以还要定期更新已经搜集过的旧信息,以避免死连接和无效连接。目前有两种搜集信息的策略:
● 从一个起始URL集合开始,顺着这些URL中的超链(Hyperlink),以宽度优先、深度优先或启发式方式循环地在互联网中发现信息。这些起始URL可以是任意的URL,但常常是一些非常流行、包含很多链接的站点(如Yahoo!)。
● 将Web空间按照域名、IP地址或国家域名划分,每个搜索器负责一个子空间的穷尽搜索。
搜索器搜集的信息类型多种多样,包括HTML、XML、Newsgroup文章、FTP文件、字处理文档、多媒体信息。
搜索器的实现常常用分布式、并行计算技术,以提高信息发现和更新的速度。商业搜索引擎的信息发现可以达到每天几百万网页。
2.索引器
索引器的功能是理解搜索器所搜索的信息,从中抽取出索引项,用于表示文档以及生成文档库的索引表。
索引项有客观索引项和内容索引项两种:客观项与文档的语意内容无关,如作者名、URL、更新时间、编码、长度、链接流行度(Link Popularity)等等;内容索引项是用来反映文档内容的,如关键词及其权重、短语、单字等等。内容索引项可以分为单索引项和多索引项(或称短语索引项)两种。单索引项对于英文来讲是英语单词,比较容易提取,因为单词之间有天然的分隔符(空格);对于中文等连续书写的语言,必须进行词语的切分。
在搜索引擎中,一般要给单索引项赋与一个权值,以表示该索引项对文档的区分度,同时用来计算查询结果的相关度。使用的方法一般有统计法、信息论法和概率法。短语索引项的提取方法有统计法、概率法和语言学法。
索引表一般使用某种形式的倒排表(Inversion List),即由索引项查找相应的文档。索引表也可能要记录索引项在文档中出现的位置,以便检索器计算索引项之间的相邻或接近关系(proximity)。
索引器可以使用集中式索引算法或分布式索引算法。当数据量很大时,必须实现即时索引(Instant Indexing),否则不能够跟上信息量急剧增加的速度。索引算法对索引器的性能(如大规模峰值查询时的响应速度)有很大的影响。一个搜索引擎的有效性在很大程度上取决于索引的质量。
3.检索器
检索器的功能是根据用户的查询在索引库中快速检出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并实现某种用户相关性反馈机制。
检索器常用的信息检索模型有集合理论模型、代数模型、概率模型和混合模型四种。
4.用户接口
用户接口的作用是输入用户查询、显示查询结果、提供用户相关性反馈机制。主要的目的是方便用户使用搜索引擎,高效率、多方式地从搜索引擎中得到有效、及时的信息。用户接口的设计和实现使用人机交互的理论和方法,以充分适应人类的思维习惯。 用户输入接口可以分为简单接口和复杂接口两种。
Ⅵ 搜索引擎如何实现搜索的啊
随着互联网的迅猛发展、WEB信息的增加,用户要在信息海洋里查找自己所需的信息,就象大海捞针一样,搜索引擎技术恰好解决了这一难题(它可以为用户提供信息检索服务)。搜索引擎是指互联网上专门提供检索服务的一类网站,这些站点的服务器通过网络搜索软件(例如网络搜索机器人)或网络登录等方式,将Intemet上大量网站的页面信息收集到本地,经过加工处理建立信息数据库和索引数据库,从而对用户提出的各种检索作出响应,提供用户所需的信息或相关指针。用户的检索途径主要包括自由词全文检索、关键词检索、分类检索及其他特殊信息的检索(如企业、人名、电话黄页等)。下面以网络搜索机器人为例来说明搜索引擎技术。
1.网络机器人技术
网络机器人(Robot)又被称作Spider、Worm或Random,核心目的是为获取Intemet上的信息。一般定义为“一个在网络上检索文件且自动跟踪该文件的超文本结构并循环检索被参照的所有文件的软件”。机器人利用主页中的超文本链接遍历WWW,通过U趾引用从一个HT2LIL文档爬行到另一个HTML文档。网上机器人收集到的信息可有多种用途,如建立索引、HIML文件合法性的验证、uRL链接点验证与确认、监控与获取更新信息、站点镜像等。
机器人安在网上爬行,因此需要建立一个URL列表来记录访问的轨迹。它使用超文本,指向其他文档的URL是隐藏在文档中,需要从中分析提取URL,机器人一般都用于生成索引数据库。所有WWW的搜索程序都有如下的工作步骤:
(1)机器人从起始URL列表中取出URL并从网上读取其指向的内容;
(2)从每一个文档中提取某些信息(如关键字)并放入索引数据库中;
(3)从文档中提取指向其他文档的URL,并加入到URL列表中;
(4)重复上述3个步骤,直到再没有新的URL出现或超出了某些限制(时间或磁盘空间);
(5)给索引数据库加上检索接口,向网上用户发布或提供给用户检索。
搜索算法一般有深度优先和广度优先两种基本的搜索策略。机器人以URL列表存取的方式决定搜索策略:先进先出,则形成广度优先搜索,当起始列表包含有大量的WWW服务器地址时,广度优先搜索将产生一个很好的初始结果,但很难深入到服务器中去;先进后出,则形成深度优先搜索,这样能产生较好的文档分布,更容易发现文档的结构,即找到最大数目的交叉引用。也可以采用遍历搜索的方法,就是直接将32位的IP地址变化,逐个搜索整个Intemet。
搜索引擎是一个技术含量很高的网络应用系统。它包括网络技术、数据库技术动标引技术、检索技术、自动分类技术,机器学习等人工智能技术。
2.索引技术
索引技术是搜索引擎的核心技术之一。搜索引擎要对所收集到的信息进行整理、分类、索引以产生索引库,而中文搜索引擎的核心是分词技术。分词技术是利用一定的规则和词库,切分出一个句子中的词,为自动索引做好准备。目前的索引多采用Non—clustered方法,该技术和语言文字的学问有很大的关系,具体有如下几点:
(1)存储语法库,和词汇库配合分出句子中的词汇;
(2)存储词汇库,要同时存储词汇的使用频率和常见搭配方式;
(3)词汇宽,应可划分为不同的专业库,以便于处理专业文献;
(4)对无法分词的句子,把每个字当作词来处理。
索引器生成从关键词到URL的关系索引表。索引表一般使用某种形式的倒排表(1nversionUst),即由索引项查找相应的URL。索引表也要记录索引项在文档中出现的位置,以便检索器计算索引项之间的相邻关系或接近关系,并以特定的数据结构存储在硬盘上。
不同的搜索引擎系统可能采用不尽相同的标引方法。例如Webcrawler利用全文检索技术,对网页中每一个单词进行索引;Lycos只对页名、标题以及最重要的100个注释词等选择性词语进行索引;Infoseek则提供概念检索和词组检索,支持and、or、near、not等布尔运算。检索引擎的索引方法大致可分为自动索引、手工索引和用户登录三类。
3. 检索器与结果处理技术
检索器的主要功能是根据用户输入的关键词在索引器形成的倒排表中进行检索,同时完成页面与检索之间的相关度评价,对将要输出的结果进行排序,并实现某种用户相关性反馈机制。
通过搜索引擎获得的检索结果往往成百上千,为了得到有用的信息,常用的方法是按网页的重要性或相关性给网页评级,进行相关性排序。这里的相关度是指搜索关键字在文档中出现的额度。当额度越高时,则认为该文档的相关程度越高。能见度也是常用的衡量标准之一。一个网页的能见度是指该网页入口超级链接的数目。能见度方法是基于这样的观点:一个网页被其他网页引用得越多,则该网页就越有价值。特别地,一个网页被越重要的网页所引用,则该网页的重要程度也就越高。结果处理技术可归纳为:
(1)按频次排定次序 通常,如果一个页面包含了越多的关键词,其搜索目标的相关性应该越好,这是非常合平常理的解决方案。
(2)按页面被访问度排序 在这种方法中,搜索引擎会记录它所搜索到的页面被访问的频率。人们访问较多的页面通常应该包含比较多的信息,或者有其他吸引入的长处。这种解决方案适合一般的搜索用户,而因为大部分的搜索引擎都不是专业性用户,所以这种方案也比较适合一般搜索引擎使用。
(3)二次检索 进一步净化(比flne)结果,按照一定的条件对搜索结果进行优化,可以再选择类别、相关词进行二次搜索等。
由于目前的搜索引擎还不具备智能,除非知道要查找的文档的标题,否则排列第一的结果未必是“最好”的结果。所以有些文档尽管相关程度高,但并不一定是用户最需要的文档。
搜索引擎技术的行业应用:
搜索引擎的行业应用一般指类似于千瓦通信提供的多种搜索引擎行业与产品应用模式,大体上分为如下几种形式:
1、 政府机关行业应用
n 实时跟踪、采集与业务工作相关的信息来源。
n 全面满足内部工作人员对互联网信息的全局观测需求。
n 及时解决政务外网、政务内网的信息源问题,实现动态发布。
n 快速解决政府主网站对各地级子网站的信息获取需求。
n 全面整合信息,实现政府内部跨地区、跨部门的信息资源共享与有效沟通。
n 节约信息采集的人力、物力、时间,提高办公效率。
2、企业行业应用
n 实时准确地监控、追踪竞争对手动态,是企业获取竞争情报的利器。
n 及时获取竞争对手的公开信息以便研究同行业的发展与市场需求。
n 为企业决策部门和管理层提供便捷、多途径的企业战略决策工具。
n 大幅度地提高企业获取、利用情报的效率,节省情报信息收集、存储、挖掘的相关费用,是提高企业核心竞争力的关键。
n 提高企业整体分析研究能力、市场快速反应能力,建立起以知识管理为核心的竞争情报数据仓库,是提高企业核心竞争力的神经中枢。
3、新闻媒体行业应用
n 快速准确地自动跟踪、采集数千家网络媒体信息,扩大新闻线索,提高采集速度。
n 支持每天对数万条新闻进行有效抓取。监控范围的深度、广度可以自行设定。
n 支持对所需内容智能提取、审核。
n 实现互联网信息内容采集、浏览、编辑、管理、发布的一体化。
4、 行业网站应用
n 实时跟踪、采集与网站相关的信息来源。
n 及时跟踪行业的信息来源网站,自动,快速更新网站信息。动态更新信息。
n 实现互联网信息内容采集、浏览、编辑、管理、发布的一体化。
n 针对商务网站提出商务管理模式,大大提高行业网站的商务应用需求。
n 针对资讯网站分类目录生成,提出用户生成网站分类结构。并可以实时增加与更新分类结构。不受级数限制。从而大大利高行业的应用性。
n 提供搜索引擎SEO优化专业服务,快速提高行业网站的推广。
n 提供与CCDC呼叫搜索引擎的广告合作。建立行业网站联盟,提高行业网站知名度。
5) 网络信息监察与监控
n 网络舆情系统。如“千瓦通信-网络舆情雷达监测系统”
n 网站信息与内容监察与监控系统,如“千瓦通信-网站信息与内容监测与监察系统(站内神探)”
随着因特网的迅猛发展、WEB信息的增加,用户要在信息海洋里查找信息,就象大海捞
针一样,搜索引擎技术恰好解决了这一难题(它可以为用户提供信息检索服务)。目前,
搜索引擎技术正成为计算机工业界和学术界争相研究、开发的对象。
搜索引擎(Search Engine)是随着WEB信息的迅速增加,从1995年开始逐渐发展起来
的技术。据发表在《科学》杂志1999年7月的文章《WEB信息的可访问性》估计,全球目前
的网页超过8亿,有效数据超过9T,并且仍以每4个月翻一番的速度增长。用户要在如此浩
瀚的信息海洋里寻找信息,必然会"大海捞针"无功而返。搜索引擎正是为了解决这个"迷航
"问题而出现的技术。搜索引擎以一定的策略在互联网中搜集、发现信息,对信息进行理解
、提取、组织和处理,并为用户提供检索服务,从而起到信息导航的目的。搜索引擎提供
的导航服务已经成为互联网上非常重要的网络服务,搜索引擎站点也被美誉为"网络门户"
。搜索引擎技术因而成为计算机工业界和学术界争相研究、开发的对象。本文旨在对搜索
引擎的关键技术进行简单的介绍,以起到抛砖引玉的作用。
分 类
按照信息搜集方法和服务提供方式的不同,搜索引擎系统可以分为三大类:
1.目录式搜索引擎:以人工方式或半自动方式搜集信息,由编辑员查看信息之后,人
工形成信息摘要,并将信息置于事先确定的分类框架中。信息大多面向网站,提供目录浏
览服务和直接检索服务。该类搜索引擎因为加入了人的智能,所以信息准确、导航质量高
,缺点是需要人工介入、维护量大、信息量少、信息更新不及时。这类搜索引擎的代表是
:Yahoo、LookSmart、Open Directory、Go Guide等。
2.机器人搜索引擎:由一个称为蜘蛛(Spider)的机器人程序以某种策略自动地在互
联网中搜集和发现信息,由索引器为搜集到的信息建立索引,由检索器根据用户的查询输
入检索索引库,并将查询结果返回给用户。服务方式是面向网页的全文检索服务。该类搜
索引擎的优点是信息量大、更新及时、毋需人工干预,缺点是返回信息过多,有很多无关
信息,用户必须从结果中进行筛选。这类搜索引擎的代表是:AltaVista、Northern Ligh
t、Excite、Infoseek、Inktomi、FAST、Lycos、Google;国内代表为:"天网"、悠游、O
penFind等。
3.元搜索引擎:这类搜索引擎没有自己的数据,而是将用户的查询请求同时向多个搜
索引擎递交,将返回的结果进行重复排除、重新排序等处理后,作为自己的结果返回给用
户。服务方式为面向网页的全文检索。这类搜索引擎的优点是返回结果的信息量更大、更
全,缺点是不能够充分使用所使用搜索引擎的功能,用户需要做更多的筛选。这类搜索引
擎的代表是WebCrawler、InfoMarket等。
性 能 指 标
我们可以将WEB信息的搜索看作一个信息检索问题,即在由WEB网页组成的文档库中检索
出与用户查询相关的文档。所以我们可以用衡量传统信息检索系统的性能参数-召回率(R
ecall)和精度(Pricision)衡量一个搜索引擎的性能。
召回率是检索出的相关文档数和文档库中所有的相关文档数的比率,衡量的是检索系
统(搜索引擎)的查全率;精度是检索出的相关文档数与检索出的文档总数的比率,衡量
的是检索系统(搜索引擎)的查准率。对于一个检索系统来讲,召回率和精度不可能两全
其美:召回率高时,精度低,精度高时,召回率低。所以常常用11种召回率下11种精度的
平均值(即11点平均精度)来衡量一个检索系统的精度。对于搜索引擎系统来讲,因为没
有一个搜索引擎系统能够搜集到所有的WEB网页,所以召回率很难计算。目前的搜索引擎系
统都非常关心精度。
影响一个搜索引擎系统的性能有很多因素,最主要的是信息检索模型,包括文档和查询
的表示方法、评价文档和用户查询相关性的匹配策略、查询结果的排序方法和用户进行相
关度反馈的机制。
主 要 技 术
一个搜索引擎由搜索器、索引器、检索器和用户接口等四个部分组成。
1.搜索器
搜索器的功能是在互联网中漫游,发现和搜集信息。它常常是一个计算机程序,日夜
不停地运行。它要尽可能多、尽可能快地搜集各种类型的新信息,同时因为互联网上的信
息更新很快,所以还要定期更新已经搜集过的旧信息,以避免死连接和无效连接。目前有
两种搜集信息的策略:
● 从一个起始URL集合开始,顺着这些URL中的超链(Hyperlink),以宽度优先、深
度优先或启发式方式循环地在互联网中发现信息。这些起始URL可以是任意的URL,但常常
是一些非常流行、包含很多链接的站点(如Yahoo!)。
● 将Web空间按照域名、IP地址或国家域名划分,每个搜索器负责一个子空间的穷尽
搜索。 搜索器搜集的信息类型多种多样,包括HTML、XML、Newsgroup文章、FTP文件、
字处理文档、多媒体信息。 搜索器的实现常常用分布式、并行计算技术,以提高信息
发现和更新的速度。商业搜索引擎的信息发现可以达到每天几百万网页。
2.索引器
索引器的功能是理解搜索器所搜索的信息,从中抽取出索引项,用于表示文档以及生
成文档库的索引表。
索引项有客观索引项和内容索引项两种:客观项与文档的语意内容无关,如作者名、
URL、更新时间、编码、长度、链接流行度(Link Popularity)等等;内容索引项是用来
反映文档内容的,如关键词及其权重、短语、单字等等。内容索引项可以分为单索引项和
多索引项(或称短语索引项)两种。单索引项对于英文来讲是英语单词,比较容易提取,
因为单词之间有天然的分隔符(空格);对于中文等连续书写的语言,必须进行词语的切
分。 在搜索引擎中,一般要给单索引项赋与一个权值,以表示该索引项对文档的区分
度,同时用来计算查询结果的相关度。使用的方法一般有统计法、信息论法和概率法。短
语索引项的提取方法有统计法、概率法和语言学法。
索引表一般使用某种形式的倒排表(Inversion List),即由索引项查找相应的文档
。索引表也可能要记录索引项在文档中出现的位置,以便检索器计算索引项之间的相邻或
接近关系(proximity)。
索引器可以使用集中式索引算法或分布式索引算法。当数据量很大时,必须实现即时
索引(Instant Indexing),否则不能够跟上信息量急剧增加的速度。索引算法对索引器
的性能(如大规模峰值查询时的响应速度)有很大的影响。一个搜索引擎的有效性在很大
程度上取决于索引的质量。
3.检索器 检索器的功能是根据用户的查询在索引库中快速检出文档,进行文档与
查询的相关度评价,对将要输出的结果进行排序,并实现某种用户相关性反馈机制。
检索器常用的信息检索模型有集合理论模型、代数模型、概率模型和混合模型四种。
4.用户接口
用户接口的作用是输入用户查询、显示查询结果、提供用户相关性反馈机制。主要的
目的是方便用户使用搜索引擎,高效率、多方式地从搜索引擎中得到有效、及时的信息。
用户接口的设计和实现使用人机交互的理论和方法,以充分适应人类的思维习惯。
用户输入接口可以分为简单接口和复杂接口两种。
简单接口只提供用户输入查询串的文本框;复杂接口可以让用户对查询进行限制,如
逻辑运算(与、或、非;+、-)、相近关系(相邻、NEAR)、域名范围(如.e、.com)
、出现位置(如标题、内容)、信息时间、长度等等。目前一些公司和机构正在考虑制定
查询选项的标准。
未 来 动 向
搜索引擎已成为一个新的研究、开发领域。因为它要用到信息检索、人工智能、计算
机网络、分布式处理、数据库、数据挖掘、数字图书馆、自然语言处理等多领域的理论和
技术,所以具有综合性和挑战性。又由于搜索引擎有大量的用户,有很好的经济价值,所
以引起了世界各国计算机科学界和信息产业界的高度关注,目前的研究、开发十分活跃,
并出现了很多值得注意的动向。
1.十分注意提高信息查询结果的精度,提高检索的有效性 用户在搜索引擎上进行
信息查询时,并不十分关注返回结果的多少,而是看结果是否和自己的需求吻合。对于一
个查询,传统的搜索引擎动辄返回几十万、几百万篇文档,用户不得不在结果中筛选。解
决查询结果过多的现象目前出现了几种方法:一是通过各种方法获得用户没有在查询语句
中表达出来的真正用途,包括使用智能代理跟踪用户检索行为,分析用户模型;使用相关
度反馈机制,使用户告诉搜索引擎哪些文档和自己的需求相关(及其相关的程度),哪些
不相关,通过多次交互逐步求精。二是用正文分类(Text Categorization)技术将结果分
类,使用可视化技术显示分类结构,用户可以只浏览自己感兴趣的类别。三是进行站点类
聚或内容类聚,减少信息的总量。
2.基于智能代理的信息过滤和个性化服务
信息智能代理是另外一种利用互联网信息的机制。它使用自动获得的领域模型(如We
b知识、信息处理、与用户兴趣相关的信息资源、领域组织结构)、用户模型(如用户背景
、兴趣、行为、风格)知识进行信息搜集、索引、过滤(包括兴趣过滤和不良信息过滤)
,并自动地将用户感兴趣的、对用户有用的信息提交给用户。智能代理具有不断学习、适
应信息和用户兴趣动态变化的能力,从而提供个性化的服务。智能代理可以在用户端进行
,也可以在服务器端运行。
3.采用分布式体系结构提高系统规模和性能
搜索引擎的实现可以采用集中式体系结构和分布式体系结构,两种方法各有千秋。但
当系统规模到达一定程度(如网页数达到亿级)时,必然要采用某种分布式方法,以提高
系统性能。搜索引擎的各个组成部分,除了用户接口之外,都可以进行分布:搜索器可以
在多台机器上相互合作、相互分工进行信息发现,以提高信息发现和更新速度;索引器可
以将索引分布在不同的机器上,以减小索引对机器的要求;检索器可以在不同的机器上.
Ⅶ 如何使你的网站拥有受欢迎的交互界面
交互设计如今已是一个十分常见的问题,但许多设计者和开发者仍不知道它的具体意义。今天,我们将从不同于以往的方面:我们将会深入讲解能使你的网站拥有良好交互性的用户界面和设计原则。 首先,何为IxD 交互设计(即IxD)是一块发展迅速的新领域,大致出现于10-15年之前,源于一些体现设计问题的研究,后来被专业设计者鉴别和接受。 交互设计促进人与环境的交流,这里我们指的是人和网站的交流,交互设计师只要考虑用户和电脑的交互,毋须像UX设计者那样思考软件或系统所有涉及用户的方面。你也许在不同大学里听说过人机交互度——这些度基本是在IxD领域中培养的。 这样的设计师要做什么? 一个交互设计师会思考谁是产品的目标用户以及谁会使用它。用户研究者或是信息架构师会提供这些信息。在这些研究的基础上,一个交互设计师为了用户与软件交流,要耗费很长时间但要尽快地创作出这种令人称奇的交互方式。 设计师必须识别出关键交互并且画出线框图, 所以要不停地画草图。有的设计师会直接画出来,有的设计师会用软件来辅助(文末展示了一些不错的例子),还有其他一些设计师会或单独或合作地创作界面。 交互设计(IxD)不断地展现出新的交互方式,因为用户总是期望网站出现新的事物。但交互设计师需要意识到这些特性会如何影响用户,然后在许多想法中选择真正要实现的和可以放一段时间的。 下面我们将会看到一些驱动交互设计的概念。 目标驱动设计 尽管IxD不需要做,但为了获得最好的设计反馈,用户研究查至关重要。用户使用软件时,一般在心里有一些目标,你的应用程序应当很好地满足这些目标。为了成功地结合设计和功能,用户研究恰恰是最重要的元素。 这是如此的重要,以至于许多用户研究员也能找到做交互设计师的工作,就是因为他们在分析用于软件的人类行为模式方面的技能。 简单化 人们不知道用户界面是什么。事实上他们也不关心。他们不知道有人在网站的背后策划着他们所见到的一切。他们只知道他们需要一个简单的网站。他们要一个易用的系统,加载/响应速度快,不要让用户思考并且不给用户伤痛的理由。 情景和模式 我们使用的一些产品通常功能设计的很明确,因此每一个人都知道怎么使用它们。拿剪刀做例子吧。一个三岁的小孩都知道怎么使用它,两个手指伸到两个环中,只有一个活动方式能使用它。没有比这更简单的了。你的网站应该向一把剪刀一样简单易用。 为什此处使用”情景”这个单词呢?因为这个词表达了一个网站或者系统背后一些列的功能。 关于模式,用户界面应当由一系列用户熟知的组件组成,如果用户想提交一个表单,他们首先会找到提交按钮。这个按钮就是个常见元素,设计者没必要在接受一个新项目时每次都重复早轮子。 有些人会说了仿照现有的模式,不重新造轮子会让人感觉没有创新性。在易用性没得到保障时讨论创新简直就是白痴。记住,易用性和创新性是两码事。 如果你想创新,你仍然需要了解已知的模式。但是,如果你追求高易用性,没有人鼓励你去重复造轮子,因为用户需要时间去适应你的轮子。 创建一个高易用的系统需要交互设计师对约定,情景和web易用性有较深的理解。 现在你了解了一些交互设计的原则,接下来让我们看看一个优秀的交互设计是如何影响用户的。 访客定位 交互设计师需要了解他们的设计面向哪些用户,因此他们能通过用户给产品做好定位。 页面上显示出用户停留的地方,这样的体验不会让用户在浏览时感到困惑。用户也能知道如何从一个页面跳转到另一个想去的页面。让用户知道当前所在的位 置这是非常重要的,不要让他们陷入死胡同中。当搜索没有查询出结果,没有告诉用户下一步操作的选择,这样的交互体验是很糟糕的。 持续对话 交互设计把大量精力专注于给予用户持续的反馈。告诉用户他们做的是对还是错,即使在无意识的层面上,这也是一个受用户欢迎的元素。 你只须在用户完成动作的时候,告诉他们已经成功了。 当你在亚马逊上买一件东西时,你会在浏览器上和你的邮箱里获得一份确认书。当你通过联系表单提交邮件时,你会在页面中获得一份确认书。 这使得交互不仅仅停留于网站的浏览和特性使用,更是把交互带到了一个新的层面:它帮助用户更好地理解他们当前的状态,并把疑惑和问题减到最少,同时也去除了用户的挫败感。 思考工作流 IxD还要考虑工作流。如果你有一张注册表单,用户用它提交信息是会有什么事发生?页面会刷新吗,会跳转到首页吗,会显示确认信息吗,会跳转到登陆页面,或者同时跳转到上两个页面吗? It’s about having many choices and choosing the one that will fit your users expectancies best. 提及的所有元素都是网站工作流的一部分。每次交互后应该紧跟下一个符合逻辑的步骤,并且与你网站之前所创造的体验相符。 视觉层次 为了让用户照你的意思操作,你可以使用视觉层次来帮助他们。你可以使用布局、元素大小和颜色组合达到视觉突出的效果,以此来引导用户的双眼。 你也可以使用视觉层次使用户找到他们想要的东西。你想租车吗?保证你能使用视觉层次来引导用户来到”租赁”页面。 良好的线框化工具 绘制草稿和线框图是如此重要,因此我愿意向你展示一些好用的工具,这样你就能马上开始交互设计工作了。 Mockingbird Mockingbird是一个基于web的应用,在这个网站上用户可以创建、连接、预览和分享站点或应用的框图。它的界面简洁友好,用户可以拖放元素,调整大小,甚至可以通过一个链接与同事方便共享。 因为Mockingbird是一个基于Web的应用程序,这意味着你从任何一台计算机无处不在地创建和修改你的构思。 Lovely Charts Lovely Charts是一个在线的图表应用,它允许用户创建流程图、组织架构图、站点地图和流程框图。 该应用程序的主要特色功能是依据你所绘制的内容进行推测建议–这有助于绘图过程的简化,返回老版本和撤消更改也很容易。 Mockflow MockFlow也是一个很好的Web应用程序,它有干净简单的组织界面和一系列广泛的功能特性。 使用起来也使用拖放,有从图表到菜单,广告和下拉菜单等内置组件。你可以上传自己的图片或选择网站提供的通用素材,所以构建框图的过程是很快的。 SimpleDiagrams simplediagrams是另一个帮助用户通过创建框图表达自己的想法的桌面应用程序,它和上面提到的应用一样使用相同的拖放技术来实现。 尽管较其他应用没那么多的功能,但simplediagrams提供了能帮助用户创建框图更快速的基本工具。 介绍完simplediagrams今天的文章该结尾了。别忘了用户测试的重要性,记住创新和可用性通常会走向不通的方向。当创造神奇的交互界面的时候不断创新,专注于如何让使用它的人更加方便。 将这些牢记在心里,你会成为一个优秀的网站或应用程序交互设计师。 你怎么认为这个优秀的交互设计领域?你之前尝试过设计一个类似的接口元素没有,或是知道这些原则之后它是否为你所向往呢?
Ⅷ 如何让搜索引擎搜索结果更精准
当用户在搜索框输入一个关键字后,我们应该给用户返回什么内容呢?一、搜索引擎原理和用户使用习惯1.1 搜索引擎是一个可供所有人检索的数据库图1:搜索引擎简单的人机交互过程其中:1)被检索的数据库即搜索引擎所抓取的网页数据。通过蜘蛛爬取到原始数据后,搜索引擎会对其进行处理后才入库。即搜索引擎的搜索算法,比如大家熟知名字( 当然是名字啦,内容原理是最高机密) 的Google的PageRank。2)搜索引擎是高度简化后的产品。用户需要做的即是输入想要检索的关键词,确定,查看结果。这里有个需要说明的是,用户连搜索条件都不需要输入。而对搜索引擎来讲,不仅要在海量数据中快速找到相关结果,还要揣测用户的期望并提取正确的内容给用户,内部的机制已经不能用繁琐来形容了。这个难度就好比在大量图书中快速准确找出某一个未知问题的答案一样。图2:刚拍摄的国家图书馆,使用了滤镜。1.2 搜索引擎数据处理过程搜索引擎是一个超级复杂的系统,内部具体的处理规则和技术原理不可能是简单的阐述清楚。我们通过产品的思维来理解一下这个过程即可。拿写论文的例子分析即可,论文在成文之前材料的整理过程大致如下:1)从网络、图书馆、书籍杂志、讲座等等收集大量原始资料2)排除相关重复内容3)排除跟主题关联性不大的内容4)根据主题、逻辑顺序、优先级等进行人为的计算、分析、排版、处理等。这个过程是最为繁琐和耗时的,使用的武器便是史上最牛逼的工具:人脑!!!5)成文输入结果忍不住再重申一下:所有的产品其实都是在模仿人类的实际社会活动。。。明白这个对于产品经理很重要哦。搜索引擎数据处理流程基本类似(想要了解的可以自行搜索相关资料),唯一的也是搜索引擎想消除的区别:一个是有感情有逻辑的人脑在分析,一个是机器按照一定规则来分析。所以,想要搜索结果更精准,那就让它像人脑一样分析输入数据并输入结果。恩,我也觉得不怎么现实,但是可以想办法让他比较精准。二、获取信息的方式我们还是先从日常行为的来入手然后再推导产品的操作方式。2.1 通常,我们从周围环境如下获取信息:1、 已知获取途径和方法如想获知今天美元对人民币的汇率抑或北京飞青岛的机票价格和时刻表,因为途径已知,此类信息只要按图索骥即可。差别在于不同途径的成本。汇率可通过网络查询、电话咨询、银行网点询问等,显然第一种方法更便捷。(的确是废话)。这些信息都是规则化,概念明确的。2、了解核心关键需要整理的如刚才提到的论文写作,假设题目为弱关系社区设计,我们就需要去询问什么弱关系,和强关系有什么区别,已有的设计案例是什么。这些信息的获取建立在人为分析的前提下。2.2 提问方式还是举两个例子。1、 在形成完整的序言逻辑前,小孩子提问的方式是最简单的关键词,大人们要做的便是通过他的咿呀来理解孩子的需求。一般大人都能准确预测,原因在于其非常了解孩子的习惯、行为、方式、特征 等。2、有了完整的语言逻辑后,我们一般选择直接提问:今天的汇率是什么?北京飞青岛的票价多少,都是几点的?人脑也完全可以处理这些问题。当然,人是复杂的感情动物,好多东西还不能完全通过字面意思去理解。说一个不是很恰当的例子:约会中,女孩提问你觉得现在的房价如何。字面意思是房价,潜在意思是你的购房能力如何。2.3 搜索引擎该这么处理假设搜索引擎具有跟我们一样的大脑的话,那他处理问题的方式应该是这样的:1、分析所查询的问题是检索关键词还是提问2、结果分为三种,答案已知直接输出结果;途径已知,输入解决途径;提供最符合用户预期的排序结果共用户挑选3、不同的情况下会出现相互组合。当搜索引擎对关键词理解越充分时,结果越准确。三、改进方法和策略再总结一下用户的操作行为:3.1 当用户输入的为关键词时:1)已知用户的特征,根据其特征对搜索结果进行符合其本身的排序2)未知用户特征,则视为普通的查询。提供结构话的搜索结果,即具有相关性的提示,相关性越高,结果越靠前。3.2 当用户进行提问时:1)分析提问的语义,简单的语义输出结果或途径2) 无法分析确切的语义,提供多个结果给用户,同时根据用户的反馈不断调整结果。这也是用户特征的一部分。3.3 搜索结果出现交叉时,痛痒还是需要参考用户的行为特征来对结果排序。有几个名词,感兴趣的可再去搜索一下:Bai-框计算;Google-知识图谱;Facebook-社交图谱搜索;Siri-语义搜索;概率-马尔可夫模型。说白了,就是搜索引擎对用户的搜索意图越理解,资料库越完备,输出的结果越精准。还是举个例子来佐证一下:同样一个问题,好朋友的解答一般比陌生人要好,因为好朋友更了解你提问的动机,背景甚至期望得到的答案。问题来了,计算机毕竟不是生物,他执行的仅仅是规则。能做的便是收集你的一些行为和特征来推断你的喜好:1、个人信息:姓名、性别、籍贯、职业、行业、兴趣爱好、使用偏好等。2、个人行为:搜索记录、浏览记录、社交行为等3、处理方法:聚类、分类、数据挖掘恩,其实是一个推荐引擎。更多知识和操作方法可以看一下Ibm Developer的文章:探索推荐引擎的秘密。