类谷歌搜索
① 有哪些好的国外搜索引擎网站
Ask 它的数据库里储存了超过1000万个问题的答案,只要你用英文直接输入一个问题,它就会给出问题答案,如果你的问题答案不在它的数据库中,那么它会列出一串跟你的问题类似的问题和含有答案的链接,供你选择。 search google 很有特色 在国外很受欢迎 dmoz 比较好的分类 比较适合随便逛逛
② 跪求类似百度,Google形式的局域网版搜索引擎。
网络或Google这种的搜索引擎是建立在搜索网站的基础之上的,即搜索引擎搜索的都专是网站。如果你要在局属域网里面做这种搜索引擎,似乎不太现实——难道你要在每一台机器上建立一个网站供你的局域网搜索引擎搜索?
如果你要提供大家搜索问题的平台的话,可以这样操作:
建立一台局域网web服务器,然后下载一个知道系统,建设局域网的知道系统。采集网络知道、soso问问、新浪爱问等相关问题。就这么简单。
如果局域网某台机器访问服务器,上这个局域网站,就可以搜索问题了。
③ 如何使用Google搜索固定格式的文件
Google中支持特定文复件搜索(“filetype:”就是它制的搜索语法),这是一个非常强大而实用的功能。比如你想搜索有关生日或爱情的Flash格式文件,就可以在Google搜索栏中输入“birthday filetype:SWF”或“loveyou filetype:SWF”,这样就能找到许多精美的Flash。(网界网论坛)
④ 国内都有哪些垂直类搜索引擎
我知道的有深度搜,libasou,其实谷歌学术搜索也应该属于垂直类搜索引擎的,不知道属不属于你说的国内。
⑤ 谁能介绍几个国外的搜索引擎(类似于百度这类的)
1. Yahoo!(http://www.yahoo.com)
Yahoo!是目前最常用的引擎之一,是Internet引擎的"元老"。
Yahoo!的使用很简单,可以直接输入查找关键字,也可以先选分类主题进行分类查询
,它将返回三种信息:
1. 满足查询条件的Yahoo目录(用户可以利用它们进行交叉引用);
2. 满足条件的实际站点;
3. 更广泛的含有页面索引的Yahoo!目录,是一种更 广泛的交叉引用。
Yahoo!也提供了一些简单的高级查询,其配置选项有:
S搜索的范围:Yahoo(缺省)、Usenet或E-mail Address;
S搜索词之间的关系:OR或AND(缺省);
S可以进行子串搜索,将其设置Substrings或Complete words两种,其中Substrings将
我们输入的词作为一个子串,Complete words表示进行完整的单词搜索,缺省是子串搜索
·控制每页显示的结果数目:10、25(缺省)、50或100。
Yahoo!在高级查询上并不是很完善,但是Yahoo!在其主页的末尾提供了其他引擎如A
ltaVista的超连接,如果用户在Yahoo!查不到所需资料,Yahoo!可以到这些地方去搜索。
从而弥补了Yahoo!的一些缺陷。
2. InfoSeek(http://guide.infoseek.com)
InfoSeek是一个高效的搜索引擎,它的特点是:搜索精度高,查到的节点一般都与用
户的要求相符。其搜索结果按照相关程度依次显示。每一个结果显示该HTML文件的标题
、摘要、大小。
InfoSeek引擎拥有最好的搜索参数的集成,它允许用户在填写查寻要求时可以随心所
欲地不厌其详,而它在后台则施以适当的逻辑组合。这就意味着,用户可以忽略如何使用
搜索引擎,只要集中精力把自己想提的问题写好就行了。
InfoSeek数据库中每一网页的所有文本都被检索,它的搜索具有"事件敏感性"(case
sensitive),即对某些名字进行搜索时,搜索的效率会明显提高。用户输入一个短语后,I
nfoseek会使用与短语最接近的排位方法,提高搜索结果的相关性。
InfoSeek可以提供以下的搜索范围:
SWeb:在整个WWW信息系统内查找;
SNews:在实时新闻中查找;
SCompany:在公司名目中搜索;
SNewsgroups:在新闻组中搜索。
Infoseek的搜索方法包括:
1. 词组(短语)搜索 这时需对词组加上双引号,以示与单个词的区别;
2. 查找同时出现的词 对所要搜索的关键词加上[ ],表示括号内的词在文本中出现
时,其间隔不超过100个词。
3. AltaVista(altavista.digital.com)
AltaVista自1996年12月开始服务以来,引起了世界各地网民的广泛注意,每天都要
接受200万次以上的访问。AltaVista自诩拥有2100多万全文索引的网页,可以称得上是最
大的网络搜索数据库。
相对其他搜索引擎而言,AltaVista的搜索结果总是比其他任何站点的搜索结果内容
更丰富,AltaVista的搜索范围大得惊人,有人说能对网络的天涯海角进行彻底搜索的仅此
一家,就连一些鲜为人知的偏僻站点也能找到。所以,使用AltaVista时,要花更多的时间
在搜索结果里寻找自己想要的信息。不过,如果你的目的就是想找到关于某个主题的站点
,多多益善,那么AltaVista是最好的选择。
根据检索的对象,AltaVista搜索引擎提供三大类信息检索:Web检索和新闻组检索、
商业检索以及人物检索。除公共检索服务外,AltaVista还提供免费E-mail、页面翻译等
相关服务。它的搜索方法分为简单和高级两种。
1. 简单搜索
AltaVista搜索引擎推荐使用的检索方法, 是直接使用自然语言输入检索提问。检索
提问可以是自然语言的单词、词组或短语以及完整的问题。对使用AltaVista的最有用的
建议是, 由于它的索引是基于整个单词的正文的,在描述查找的单词时越精确越好,还要
去掉那些不感兴趣的单词。
2. 高级搜索
高级搜索包含了简单搜索的所有特性,还可以有布尔和接近操作符、括起来的逻辑组
合等。AltaVista支持二元操作符AND、OR、NEAR和一元操作符NOT。
AltaVista的接近操作符(NEAR)很有特色。可以使用NEAR/n,n是两个被搜索词之间的
单词的数目,如:Microsoft NEAR/5 Internet表示在"Microsoft"和"Internet"这两个关
键字之间的单词数目不得超过5个。如果不输入n,表示两个词挨在一起。为了控制挨在一
起的两个词之间的顺序,可以使用 ADJ 操作符,如:Microsoft ADJ Internet,表示Micro
soft 必须在Internet之前。
4. Lycos ( http://www.lycos.com)
Lycos是最老资格的搜索引擎之一,只要能给出准确的搜索结果,Lycos通常能给出最
全面的结果(基本上与AltaVista相同)。 Lycos的搜索范围分的较细,这样可以减少命中
的数量,可选择的项目有:
The Web、Web Site Reviews、Personal Home- pages、Message Boards、Reuters
News、Weather (city)、Cities、Dictionary、Stock (symbol)、Music (artist)、B
ooks、Pictures、Sounds、Downloads、Recipes等。
Lycos不是周期性地更新数据库,而是采用累积的形式构筑数据库。在对新的和原来
存在的数据库进行信息升级时,Lycos软件通过观察其他站点通向某一站点的链接数而评
价这个站点的知名度。然后引擎在每次搜索时都使用这一知名度索引,所以每次搜索结果
的相关性在一定的程度上取决于站点的相对知名度。
Lycos搜索结果的容量非常之大,你如果试图在网上迅速找到某个内容,Lycos不是最
好的选择,如果你需要对网上的内容广进博收,多多益善,Lycos可能会为你找到一些其他
站点找不到的内容。
Lycos在支持逻辑搜索和高级搜索功能方面较弱。
Lycos不提供要求/排除单词的功能, 但可以在一个单词前加一个"-"号,表示在给结
果定等级时,不考虑这个单词。
Lycos的通配符是$符号。如gen$ 表示 genetic、 genesis、general等。它还提供
了英文句号(.)的使用,可以禁止扩展一个单词。如gene.,只能得到gene,而得不到genet
ics和general。
5. Excite(http://www.excite.com)
Netscape在其Navigator浏览器的NetDirectory命令条中选中了Excite作为其中的一
个链接,这使Excite的知名度明显提高。众多的访问大大提高了Excite站点的流通量。
Excite使用的是基于关键词或基于概念的正文和主题搜索。概念搜索是指搜索引擎
不只简单地查找含有要查找的单词的文档,同时还搜索与要查找的概念相关的文档。缺省
的查找是概念查找。Excite既提供网络搜索引擎,又提供以类目形式组织起来的网络目录
(类似于Yahoo的目录索引)。
Excite中要求的单词和排除的单词的使用方法同AltaVista一样,使用+号和-号,Exc
ite支持二元操作符AND、OR 和一元操作符NOT,它也支持用括号来构成逻辑组。
6. Webcrawler(http://www.webcrawler.com)
Webcrawler 是一个杰出的搜索引擎, 它的界面有些像 AltaVista。实际上,它在
高级搜索方面的功能要比AlataVista强。它提供事先分好类的19个主题,实现了基于主题
的搜索。
Webcrawler号称支持"自然语言搜索",所以可以输入像"highest mountain in the
world(世界上最高的山)"这样的查询条件。它抛弃了无意义的词,对其余的词做模糊的A
ND搜索,含有所有的词的页面等级最高, 但也能查到只含一个词的页面,这是那些最佳引
擎的通用策略。
Webcrawler的词组、逻辑和接近操作符的使用类似于AltaVista。Webcrawler不支
持要求/排除的单词的查找,也不支持通配符。
WebCrawler的主要缺点是,它对搜索到的每个条目都不显示文本内容摘要。用户只能
看到网页题目和显示WebCrawler相关性排名的数字。所以,除非网页题目直接描述网页内
容,否则用户只能到这个站点访问,才能得知其网页内容。
在互联网上,中文内容只占约4%,绝大多数是英文内容,所以只有掌握英文搜索才能真正的深入互联网。但是,英文搜索引擎很多,变化也很快,应该用哪个搜索,和怎么搜索呢?今天,我就来介绍几个最有代表性的英文搜索引擎。
Ask (www.ask.com,又名askjeeves)
Ask是一个支持自然提问的搜索引擎,它的数据库里储存了超过1000万个问题的答案,只要你用英文直接输入一个问题,它就会给出问题答案,如果你的问题答案不在它的数据库中,那么它会列出一串跟你的问题类似的问题和含有答案的链接,供你选择。
根据网友们的使用经验,当你遇到一些属于事实型、原理型的问题时,使用Ask是最方便的。例如:“美国历任总统中就任时年纪最轻的是谁?”、“阿富汗的首都叫什么?”、“飞机是哪一年发明的?”、“雪为什么是白的?”、“为什么吃豆子的人爱放屁?”、“恐龙为什么灭绝?”、“后街男孩的网站在哪里?”。你还可以问它各种奇怪的问题,例如:“现在几点了?”、“罗马帝国为什么崩溃?”、“圣诞老人住在哪儿?”,它都会给你答案的。
dmoz(www.dmoz.org,又名ODP)
有的网友不喜欢自己输入英文单词搜索,而是喜欢用鼠标点击分类目录随意浏览,那么我向你推荐dmoz。
dmoz是互联网合作共享精神的结晶,它的4万多名志愿编辑都是各行各业的专业人员,大家走到一起免费制作dmoz,提供给任何个人和组织免费使用。dmoz已经收录了40多万子目录和近300万个网站,是世界上最大的、也是最好的网站分类目录,已经被世界各国400多个网站选做默认搜索引擎。dmoz使用起来非常方便,它提供相关目录使你不容易漏掉其它目录里的的相关内容,它还用一颗小星星推荐各个目录下最好的网站,使初学者不会被太多的网站弄迷途。
另外,任何人都可以申请成为dmoz的搜索引擎编辑,你也可以去申请,尝试一下亲自做搜索引擎编辑的感觉,不过,要被批准可得有点实力才行哦。
Google(www.google.com)
Google是在国外很受欢迎的搜索引擎,界面简洁,以搜索结果的准确性著称,它的网页快照和图片搜索也很有特色。
网页快照就是网页的备份,你在Google搜索的时候,如果发现某条搜索结果点不进去,是死链接,那么只要点击搜索结果旁边的网页快照(Cached),就能看到Google保存的备份网页。
Google还有世界上最大的图片搜索引擎(images.google.com),收集了互联网上3.3亿张图片,如果你想找哪个偶像的照片、想找某个名胜的风景照、想找军事兵器图片、、、只要输入合适的英文单词,很容易找到满意的图片。
search(www.search.com)
search属于元搜索引擎,它收集了800多种专业搜索引擎和数据库,分为商业金融、娱乐、健康医药、新闻媒体、评论、计算机、游戏、国际、寻人、购物、下载、政府、音乐、参考资料、旅行共15个大主题,每个大主题又分许多小主题。
当你进入任何一个主题搜索的时候,它都可以同时搜索这个主题下的多个专业搜索引擎和数据库,然后在一个页面上显示来自不同搜索引擎的搜索结果。
比如进入大主题“新闻媒体”搜索,它把搜索结果分为头条新闻、商业新闻、体育新闻、娱乐新闻、科技新闻、杂志、报纸,如果再进入小主题“科技新闻”搜索,那么它可以同时搜索CNET、PC World、ZDNet、IDG.net、TechWeb这5个著名的科技新闻网站,足够保证你得到最全最新的科技新闻。
好了,每个搜索引擎都有独特的优缺点,不同的需要就应该使用不同的搜索引擎。
如果你搜索英文内容,那么我给你推荐的使用习惯是:上网随便逛逛就用dmoz,平时搜索就用google,有问题就问ask,要做特定的主题搜索就用search.com。
⑥ 类似百渡GOOGLE这样的搜索网站还有哪儿些
没有搜不到的 只有想不到的
Google简体中文
http://www.google.cn/
Google 的使命是整合全球范围的信息,使人人皆可访问并从中受益。完成该使命的第一步就是 Google 的创始人 Larry Page 和 Sergey Brin 共同开发的全新的在线搜索引擎。该技术诞生于斯坦福大学的一个学生宿舍里,然后迅速传播到全球的信息搜索者。 Google 目前被公认为全球最大的搜索引擎,它提供了简单易用的免费服务,用户可以在瞬间返回相关的搜索结果。
在访问 Google 主页时,您可以使用多种语言查找信息、查看新闻标题、搜索超过 10 亿幅的图片,并能够细读全球最大的 Usenet 消息存档,其中提供的帖子超过 10 亿个,时间可以追溯到 1981 年。Google中文常用服务 Google入门到精通 Google爱好者论坛 谷歌地球专题
网络
http://www..com
网络搜索引擎拥有目前世界上最大的中文搜索引擎,总量超过3亿页以上,并且还在保持快速的增长。网络搜索引擎具有高准确性、高查全率、更新快以及服务稳定的特点,能够帮助广大网民快速的在浩如烟海的互联网信息中找到自己需要的信息,因此深受网民的喜爱。
网络搜索常用服务大全 网络搜索引擎入门到精通 网络超级搜霸下载 网络爱好者论坛
雅虎搜索
http://www.yahoo.cn/
Yahoo! 全球性搜索技术(YST,Yahoo! Search Technology)是一个涵盖全球120多亿网页(其中雅虎中国为12亿)的强大数据库,拥有数十项技术专利、精准运算能力,支持38种语言,近10,000台服务器,服务全球50%以上互联网用户的搜索需求。
雅虎搜索引擎入门到精通 雅虎爱好者论坛
中国搜索
http://www.zhongsou.com/
2003年12月23日,刚刚上市的慧聪国际集团重拳出击,原慧聪搜索正式独立运做,成立了中国搜索,全力打造中文搜索第一品牌。
中搜入门到精通 中国搜索爱好者论坛
搜狗搜索
http://www.sogou.com/
2004年8月3日,搜狐正式推出全新独立域名专业搜索网站“搜狗”,成为全球首家第三代中文互动式搜索引擎服务提供商。提供全球网页,新闻,商品,分类网站等搜索服务。
搜狗搜索引擎入门到精通 搜狗爱好者论坛
爱问搜索引擎
http://iask.com/
“爱问”搜索引擎产品由全球最大的中文网络门户新浪汇集技术精英、耗时一年多完全自主研发完成,采用了目前最为领先的智慧型互动搜索技术,充分体现了人性化应用理念,将给网络搜索市场带来前所未有的挑战。爱问搜索入门到精通
其它搜索引擎
网易搜索引擎
http://so.163.com/
网易在国内首创“网易开放式目录管理系统(ODP)”。提供网页搜索、分类网站、图片搜索、时尚搜索,其网页搜索结果由Google提供。网易搜索引擎入门到精通
有道搜索引擎
http://www.yo.com/
网易自主研发的搜索引擎。有道爱好者论坛
易搜
http://www.yisou.com/
2007年3月31日,雅虎中国原独立域名搜索网站“一搜”(Yisou.com)域名被重新启用,名称也由“一搜”改为“易搜”。
TOM搜索引擎
http://i.tom.com/
提供网页、网站、图片、MP3、新闻搜索,其网页搜索结果由网络搜索提供。
21CN搜索引擎
http://search.21cn.com/
提供网页、网站、图片、MP3、FLASH、电影、软件、影集搜索,其网页搜索结果由网络提供。
SOSO搜搜
http://www.soso.com/
QQ推出的独立搜索网站。提供综合、网页、图片、论坛、音乐、搜吧等搜索服务。
中华搜索
http://sou.china.com/
2006年1月18日,中华网推出新版的搜索引擎网站,目前提供网页、新闻、本地、图片、音乐、论坛搜索等服务。
北京大学天网中英文搜索引擎
http://e.pku.e.cn/
MSN中文搜索(测试版)
http://beta.search.msn.com.cn/
网页搜索功能不仅提供网页链接列表,而且能将您链接到您要查找的答案和信息。为实现这点,新的 MSN 搜索使用新的搜索引擎、索引和爬网软件,它们都是建立在 Microsoft 技术的基础之上的。
⑦ 3. 如何利用Google搜索引擎搜索特定格式的文档
在搜索的时候加:filetype:文件类型 关键词
例如搜索有关写作文的word的时候就这样专:filetype:word 写作文
当然也不属是所有的格式都支持的。
目前google支持的filetype文件类型是:
ppt xls doc rtf swf pdf kmz kml ps def
网络中,filetype支持的文件类型有:
ppt xls doc rtf pdf
搜索的时候加的格式一定要是搜索引擎支持的!要记得加空格!
⑧ 如何用 GOOGLE 或者 BAIDU搜索指定网站资源!
在GOOGLE 或者 BAIDU中输入命令,site命令语法格式有两种:
1、site:网址 关键词 例如:site:tieba..comPPT素材
2、关键词 site:网址 例如:PPT素材site:tieba..com
注意事项:
一、“site”后面是英文冒号;
二、网址域名前面不带“http://”,后面不带斜杠“/”,注意有和没有“www”的搜索结果是不一样的;
三、“site:”和网址之间不要有空格;
四、关键词和“site:”之间要空一格,多个关键词之间要空一格。
(8)类谷歌搜索扩展阅读
命令用途:
1、可用于限制网站类型,学术资料在e、org中会更精练,政府相关的在gov中也许更容易找;
2、用了e、org、net、gov之类的域名后缀,并不会搜索所有含这个后缀的网站。
3、搜索某种语言或某个关键词在指定国家的网站;
4、有的网站没有提供站内搜索,或者它的信息结构混乱,内容又多,不好找东西,那么可以用“site:”对这个网站进行检索;
Google的“site:”功能比多数网站自己的站内检索还要好用,如果你查的不是动态数据库,而且对时效性要求不高的话。
5、搜索不欢迎你搜索和免费使用的网站、数据库的部分内容;
6、用“site:”搜索死链接网站、已关闭网站内的信息。
⑨ Google搜索比百度搜索好在哪些地方
google有可开关的「安全搜索」,根据让用户根据自己喜好和接受度打开或关闭安全搜索。而网络,什么都不说,先主动帮你和谐了一些内容,遇到某些敏感词的时候,再和谐一些内容,然后这样告诉你:根据相关法律法规和政策,部分搜索结果未予显示。但从来不会告诉你是哪个法律和政策。google可以搜到几乎全网的视频,而网络大多是国内的。话说youtube有的视频我真的懒得去优酷等悠长又乏味的广告。网络除国内网页收录数量不错外,其他网页收录(包括港台网页)很不足。google可筛选不同地区不同文字的网页,网络不可以。google的算法更尊重原创内容。软件「格式工厂」为例:google上的首个链接就是格式工厂的官网。而网络,第一页是各种第三方下载站,至于官网,在第二页。在google上,包含更多原创内容的维基网络权重比其他网络高,而网络上,网络常常排在维基网络前面。知乎日报刚上线,搜索「知乎日报」,google的第一条是「知乎日报」的新闻搜索,第二条就是官网知乎日报。而网络,知乎日报的官网在第五页的最后的一条。google的图片和网页搜索可对搜索内容按「使用权限」进行筛选。网络不可以。google的图片搜索算法更精准。google的以图搜图比网络的精准太多。你在网络搜”cat“看看,第一页第二行有几张鞋子的照片……google可对图片设置安全搜索、使用权限搜索。google的进阶搜索(高级搜索)可筛选条件更多,网络稍缺。下面都是google有而网络没有的。按不同地区搜索按不同语言搜索视频按不同画质搜索图片和网页按使用权限搜索还有一些按类型的筛选,如论坛搜索、博客搜索。关于框计算。(google也有类似框计算的东西,但不知道它叫什么名字,先这么称呼吧。)以下可看出google想做搜索,而网络想做接口。以「一代宗师」为例,网络的框计算UI很突兀,又按钮又色块,google的就易接受很多。而且网络的框计算来自自己的内容和其他商业公司的内容,google的框计算内容来自维基网络。以”camera360“ 为例,网络框计算为网络应用的内容,首页没有google play和苹果商店,而google搜索页面有google play和苹果商店(并有打分),也有豌豆荚等第三方商店页面。除了网络应用,网络的其他产品也喜欢掺合进来,例如你在网络音乐搜音乐,其实是在「网络音乐」这个站内搜音乐,而不是全网的音乐,例如你在网络文库搜文档,其实是在「网络文库」这个站内搜文档,而不是全网。google的产品和google搜索分得比较开,google的产品在那个黑又硬导航条上面,和google搜索是分开的。google搜索上,除了地图,google的产品不会独成一个搜索。简体中文搜索方面,差别没有很大,个人感觉网络相关度不够google,并且广告站过多。再加上面差距积累下来,影响明显。—完—本文作者:Soso标签:Google 网络 转载申明:为了给广大网友提供更有价值的内容,我会把我认为优秀的互联网方面的文章转载于此。
⑩ 有没有比GOOGLE搜索范围更大的网站
没有,GOOGLE是排名全世界第一,中国第一的就是网络.
一、什么叫搜索引擎?
在Internet上有上百亿可用的公共Web页面,即使是最狂热的冲浪者也不会访问到所有的页面,而只能看到其中的一小部分,更不会在这浩瀚的Web海洋中发现你那即使精彩却渺小的一隅。当然你可以为你的存在做广告,可以用大大的字把你的URL刻在你的身体上,然后裸体穿过白宫草坪,但你得保证媒体正好在那里,并注视到了这一切。与其这样做,不如好好去理解搜索引擎是如何工作的?又怎样选择和使用"keywords"(关键词)等等。
本文的目的就是让众多的页面设计者在了解搜索引擎的基础上,寻求如何使自己的页面在搜索引擎索返回的列表中获得好的排列层次的方法。
"搜索引擎"这个术语一般统指真正意义上的搜索引擎(也就是全文检索搜索引擎)和目录(即目录式分类搜索引擎),其实他们是不一样的,其区别主要在于返回的搜索结果列表是如何编排的。
1、目录
目录(比如Yahoo!)返回的列表是由人工来编排的。
这类引擎提供了一份人工按类别编排的网站目录,各类下边排列着属于这一类别的网站的站名和网址链接,再记录一些摘要信息,对该网站进行概述性介绍(摘要可能是你提交过去的,也可以是引擎站点的编辑为你的站点所做的评价)。人们搜索时就按相应类别的目录查询下去。
这类引擎往往还伴有网站查询功能,也称之为网站检索,即提供一个文字输入框和一个按钮。我们可以在文字框中输入要查找的字、词或短语,再点击按钮,便会在目录中查找相关的站名、网址和内容提要,将查到的内容列表送过来。目前国内Sohoo、常青藤等都是这种搜索方式。
2、搜索引擎
搜索引擎(如HotBot)是自动创建列表的。
搜索引擎看起来与目录的网站查询非常相似,也提供一个文字输入框和按钮,使用方法也相同,而且有些也提供分类目录,但两者却有本质上的区别。
目录的资料库中,搜集保存的是各网站的站名、网址和内容提要;搜索引擎的资料库中,搜集保存的则是各网站的每一个网页的全部内容,范围要大得多。
搜索引擎是以全文检索的方式工作的。全文检索查到的结果不是站名、网址和内容提要,而是与你输入的关键词相关的一个个网页的地址和一小段文字。在这段文字中,可能没有你输入的那个关键词,它只是某一网页的第一段话,甚至是一段无法看懂的标记,但在这个网页中,一定有你所输入的那个关键词,或者相关的词汇。打个比方说,网站查询可以查到网上有哪些报纸,如《文汇报》、《大公报》,而全文检索则可以查到网上这些报纸的每一篇文章中的词汇。
3、两者相结合的搜索引擎
某些搜索引擎同时也提供目录。包含在搜索引擎中的目录通常质量比较高,也能从那里找到许多好站点。因为即使你把你的站点提交过去,也并不能保证一定被加到目录中去,他们把注意力放在那些已经在别的目录中存在的站点上,并有选择地寻找有吸引力的加到自己的目录中。
搜索引擎和目录各有各自不可替代的功用。目录比较简单,要想获得一个好的排列层次,除了你努力创建一个好内容的高品质站点外别无他法。搜索引擎复杂得多,它们随时都在自动地索引众多WEB站点的最新网页,所以常常会发现目录所不能得到的信息。如果你改动了你的页面,搜索引擎还随时会发现这个变化,并重新排列你在列表中的位置。而目录就做不到。下面专门讨论搜索引擎的工作原理以及如何提高在搜索引擎列表中的排列位置。
参考资料:http://www.yuan.sc.cn/cpc/buildweb/search101.htm
按照信息搜集方法和服务提供方式的不同,搜索引擎系统可以分为三大类:
1.目录式搜索引擎:以人工方式或半自动方式搜集信息,由编辑员查看信息之后,人工形成信息摘要,并将信息置于事先确定的分类框架中。信息大多面向网站,提供目录浏览服务和直接检索服务。该类搜索引擎因为加入了人的智能,所以信息准确、导航质量高,缺点是需要人工介入、维护量大、信息量少、信息更新不及时。这类搜索引擎的代表是:Yahoo、LookSmart、Open Directory、Go Guide等。
2.机器人搜索引擎:由一个称为蜘蛛(Spider)的机器人程序以某种策略自动地在互联网中搜集和发现信息,由索引器为搜集到的信息建立索引,由检索器根据用户的查询输入检索索引库,并将查询结果返回给用户。服务方式是面向网页的全文检索服务。该类搜索引擎的优点是信息量大、更新及时、毋需人工干预,缺点是返回信息过多,有很多无关信息,用户必须从结果中进行筛选。这类搜索引擎的代表是:AltaVista、Northern Light、Excite、Infoseek、Inktomi、FAST、Lycos、Google;国内代表为:"天网"、悠游、OpenFind等。
3.元搜索引擎:这类搜索引擎没有自己的数据,而是将用户的查询请求同时向多个搜索引擎递交,将返回的结果进行重复排除、重新排序等处理后,作为自己的结果返回给用户。服务方式为面向网页的全文检索。这类搜索引擎的优点是返回结果的信息量更大、更全,缺点是不能够充分使用所使用搜索引擎的功能,用户需要做更多的筛选。这类搜索引擎的代表是WebCrawler、InfoMarket等。
……
主 要 技 术
一个搜索引擎由搜索器、索引器、检索器和用户接口等四个部分组成。
1.搜索器
搜索器的功能是在互联网中漫游,发现和搜集信息。它常常是一个计算机程序,日夜不停地运行。它要尽可能多、尽可能快地搜集各种类型的新信息,同时因为互联网上的信息更新很快,所以还要定期更新已经搜集过的旧信息,以避免死连接和无效连接。目前有两种搜集信息的策略:
● 从一个起始URL集合开始,顺着这些URL中的超链(Hyperlink),以宽度优先、深度优先或启发式方式循环地在互联网中发现信息。这些起始URL可以是任意的URL,但常常是一些非常流行、包含很多链接的站点(如Yahoo!)。
● 将Web空间按照域名、IP地址或国家域名划分,每个搜索器负责一个子空间的穷尽搜索。
搜索器搜集的信息类型多种多样,包括HTML、XML、Newsgroup文章、FTP文件、字处理文档、多媒体信息。
搜索器的实现常常用分布式、并行计算技术,以提高信息发现和更新的速度。商业搜索引擎的信息发现可以达到每天几百万网页。
2.索引器
索引器的功能是理解搜索器所搜索的信息,从中抽取出索引项,用于表示文档以及生成文档库的索引表。
索引项有客观索引项和内容索引项两种:客观项与文档的语意内容无关,如作者名、URL、更新时间、编码、长度、链接流行度(Link Popularity)等等;内容索引项是用来反映文档内容的,如关键词及其权重、短语、单字等等。内容索引项可以分为单索引项和多索引项(或称短语索引项)两种。单索引项对于英文来讲是英语单词,比较容易提取,因为单词之间有天然的分隔符(空格);对于中文等连续书写的语言,必须进行词语的切分。
在搜索引擎中,一般要给单索引项赋与一个权值,以表示该索引项对文档的区分度,同时用来计算查询结果的相关度。使用的方法一般有统计法、信息论法和概率法。短语索引项的提取方法有统计法、概率法和语言学法。
索引表一般使用某种形式的倒排表(Inversion List),即由索引项查找相应的文档。索引表也可能要记录索引项在文档中出现的位置,以便检索器计算索引项之间的相邻或接近关系(proximity)。
索引器可以使用集中式索引算法或分布式索引算法。当数据量很大时,必须实现即时索引(Instant Indexing),否则不能够跟上信息量急剧增加的速度。索引算法对索引器的性能(如大规模峰值查询时的响应速度)有很大的影响。一个搜索引擎的有效性在很大程度上取决于索引的质量。
3.检索器
检索器的功能是根据用户的查询在索引库中快速检出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并实现某种用户相关性反馈机制。
检索器常用的信息检索模型有集合理论模型、代数模型、概率模型和混合模型四种。
4.用户接口
用户接口的作用是输入用户查询、显示查询结果、提供用户相关性反馈机制。主要的目的是方便用户使用搜索引擎,高效率、多方式地从搜索引擎中得到有效、及时的信息。用户接口的设计和实现使用人机交互的理论和方法,以充分适应人类的思维习惯。 用户输入接口可以分为简单接口和复杂接口两种。
简单接口只提供用户输入查询串的文本框;复杂接口可以让用户对查询进行限制,如逻辑运算(与、或、非;+、-)、相近关系(相邻、NEAR)、域名范围(如.e、.com)、出现位置(如标题、内容)、信息时间、长度等等。目前一些公司和机构正在考虑制定查询选项的标准。
http://www.userver.cn/n1246c142.aspx