類谷歌搜索
① 有哪些好的國外搜索引擎網站
Ask 它的資料庫里儲存了超過1000萬個問題的答案,只要你用英文直接輸入一個問題,它就會給出問題答案,如果你的問題答案不在它的資料庫中,那麼它會列出一串跟你的問題類似的問題和含有答案的鏈接,供你選擇。 search google 很有特色 在國外很受歡迎 dmoz 比較好的分類 比較適合隨便逛逛
② 跪求類似百度,Google形式的區域網版搜索引擎。
網路或Google這種的搜索引擎是建立在搜索網站的基礎之上的,即搜索引擎搜索的都專是網站。如果你要在局屬域網裡面做這種搜索引擎,似乎不太現實——難道你要在每一台機器上建立一個網站供你的區域網搜索引擎搜索?
如果你要提供大家搜索問題的平台的話,可以這樣操作:
建立一台區域網web伺服器,然後下載一個知道系統,建設區域網的知道系統。採集網路知道、soso問問、新浪愛問等相關問題。就這么簡單。
如果區域網某台機器訪問伺服器,上這個區域網站,就可以搜索問題了。
③ 如何使用Google搜索固定格式的文件
Google中支持特定文復件搜索(「filetype:」就是它制的搜索語法),這是一個非常強大而實用的功能。比如你想搜索有關生日或愛情的Flash格式文件,就可以在Google搜索欄中輸入「birthday filetype:SWF」或「loveyou filetype:SWF」,這樣就能找到許多精美的Flash。(網界網論壇)
④ 國內都有哪些垂直類搜索引擎
我知道的有深度搜,libasou,其實谷歌學術搜索也應該屬於垂直類搜索引擎的,不知道屬不屬於你說的國內。
⑤ 誰能介紹幾個國外的搜索引擎(類似於百度這類的)
1. Yahoo!(http://www.yahoo.com)
Yahoo!是目前最常用的引擎之一,是Internet引擎的"元老"。
Yahoo!的使用很簡單,可以直接輸入查找關鍵字,也可以先選分類主題進行分類查詢
,它將返回三種信息:
1. 滿足查詢條件的Yahoo目錄(用戶可以利用它們進行交叉引用);
2. 滿足條件的實際站點;
3. 更廣泛的含有頁面索引的Yahoo!目錄,是一種更 廣泛的交叉引用。
Yahoo!也提供了一些簡單的高級查詢,其配置選項有:
S搜索的范圍:Yahoo(預設)、Usenet或E-mail Address;
S搜索詞之間的關系:OR或AND(預設);
S可以進行子串搜索,將其設置Substrings或Complete words兩種,其中Substrings將
我們輸入的詞作為一個子串,Complete words表示進行完整的單詞搜索,預設是子串搜索
·控制每頁顯示的結果數目:10、25(預設)、50或100。
Yahoo!在高級查詢上並不是很完善,但是Yahoo!在其主頁的末尾提供了其他引擎如A
ltaVista的超連接,如果用戶在Yahoo!查不到所需資料,Yahoo!可以到這些地方去搜索。
從而彌補了Yahoo!的一些缺陷。
2. InfoSeek(http://guide.infoseek.com)
InfoSeek是一個高效的搜索引擎,它的特點是:搜索精度高,查到的節點一般都與用
戶的要求相符。其搜索結果按照相關程度依次顯示。每一個結果顯示該HTML文件的標題
、摘要、大小。
InfoSeek引擎擁有最好的搜索參數的集成,它允許用戶在填寫查尋要求時可以隨心所
欲地不厭其詳,而它在後台則施以適當的邏輯組合。這就意味著,用戶可以忽略如何使用
搜索引擎,只要集中精力把自己想提的問題寫好就行了。
InfoSeek資料庫中每一網頁的所有文本都被檢索,它的搜索具有"事件敏感性"(case
sensitive),即對某些名字進行搜索時,搜索的效率會明顯提高。用戶輸入一個短語後,I
nfoseek會使用與短語最接近的排位方法,提高搜索結果的相關性。
InfoSeek可以提供以下的搜索范圍:
SWeb:在整個WWW信息系統內查找;
SNews:在實時新聞中查找;
SCompany:在公司名目中搜索;
SNewsgroups:在新聞組中搜索。
Infoseek的搜索方法包括:
1. 片語(短語)搜索 這時需對片語加上雙引號,以示與單個詞的區別;
2. 查找同時出現的詞 對所要搜索的關鍵詞加上[ ],表示括弧內的詞在文本中出現
時,其間隔不超過100個詞。
3. AltaVista(altavista.digital.com)
AltaVista自1996年12月開始服務以來,引起了世界各地網民的廣泛注意,每天都要
接受200萬次以上的訪問。AltaVista自詡擁有2100多萬全文索引的網頁,可以稱得上是最
大的網路搜索資料庫。
相對其他搜索引擎而言,AltaVista的搜索結果總是比其他任何站點的搜索結果內容
更豐富,AltaVista的搜索范圍大得驚人,有人說能對網路的天涯海角進行徹底搜索的僅此
一家,就連一些鮮為人知的偏僻站點也能找到。所以,使用AltaVista時,要花更多的時間
在搜索結果里尋找自己想要的信息。不過,如果你的目的就是想找到關於某個主題的站點
,多多益善,那麼AltaVista是最好的選擇。
根據檢索的對象,AltaVista搜索引擎提供三大類信息檢索:Web檢索和新聞組檢索、
商業檢索以及人物檢索。除公共檢索服務外,AltaVista還提供免費E-mail、頁面翻譯等
相關服務。它的搜索方法分為簡單和高級兩種。
1. 簡單搜索
AltaVista搜索引擎推薦使用的檢索方法, 是直接使用自然語言輸入檢索提問。檢索
提問可以是自然語言的單詞、片語或短語以及完整的問題。對使用AltaVista的最有用的
建議是, 由於它的索引是基於整個單詞的正文的,在描述查找的單詞時越精確越好,還要
去掉那些不感興趣的單詞。
2. 高級搜索
高級搜索包含了簡單搜索的所有特性,還可以有布爾和接近操作符、括起來的邏輯組
合等。AltaVista支持二元操作符AND、OR、NEAR和一元操作符NOT。
AltaVista的接近操作符(NEAR)很有特色。可以使用NEAR/n,n是兩個被搜索詞之間的
單詞的數目,如:Microsoft NEAR/5 Internet表示在"Microsoft"和"Internet"這兩個關
鍵字之間的單詞數目不得超過5個。如果不輸入n,表示兩個詞挨在一起。為了控制挨在一
起的兩個詞之間的順序,可以使用 ADJ 操作符,如:Microsoft ADJ Internet,表示Micro
soft 必須在Internet之前。
4. Lycos ( http://www.lycos.com)
Lycos是最老資格的搜索引擎之一,只要能給出准確的搜索結果,Lycos通常能給出最
全面的結果(基本上與AltaVista相同)。 Lycos的搜索范圍分的較細,這樣可以減少命中
的數量,可選擇的項目有:
The Web、Web Site Reviews、Personal Home- pages、Message Boards、Reuters
News、Weather (city)、Cities、Dictionary、Stock (symbol)、Music (artist)、B
ooks、Pictures、Sounds、Downloads、Recipes等。
Lycos不是周期性地更新資料庫,而是採用累積的形式構築資料庫。在對新的和原來
存在的資料庫進行信息升級時,Lycos軟體通過觀察其他站點通向某一站點的鏈接數而評
價這個站點的知名度。然後引擎在每次搜索時都使用這一知名度索引,所以每次搜索結果
的相關性在一定的程度上取決於站點的相對知名度。
Lycos搜索結果的容量非常之大,你如果試圖在網上迅速找到某個內容,Lycos不是最
好的選擇,如果你需要對網上的內容廣進博收,多多益善,Lycos可能會為你找到一些其他
站點找不到的內容。
Lycos在支持邏輯搜索和高級搜索功能方面較弱。
Lycos不提供要求/排除單詞的功能, 但可以在一個單詞前加一個"-"號,表示在給結
果定等級時,不考慮這個單詞。
Lycos的通配符是$符號。如gen$ 表示 genetic、 genesis、general等。它還提供
了英文句號(.)的使用,可以禁止擴展一個單詞。如gene.,只能得到gene,而得不到genet
ics和general。
5. Excite(http://www.excite.com)
Netscape在其Navigator瀏覽器的NetDirectory命令條中選中了Excite作為其中的一
個鏈接,這使Excite的知名度明顯提高。眾多的訪問大大提高了Excite站點的流通量。
Excite使用的是基於關鍵詞或基於概念的正文和主題搜索。概念搜索是指搜索引擎
不只簡單地查找含有要查找的單詞的文檔,同時還搜索與要查找的概念相關的文檔。預設
的查找是概念查找。Excite既提供網路搜索引擎,又提供以類目形式組織起來的網路目錄
(類似於Yahoo的目錄索引)。
Excite中要求的單詞和排除的單詞的使用方法同AltaVista一樣,使用+號和-號,Exc
ite支持二元操作符AND、OR 和一元操作符NOT,它也支持用括弧來構成邏輯組。
6. Webcrawler(http://www.webcrawler.com)
Webcrawler 是一個傑出的搜索引擎, 它的界面有些像 AltaVista。實際上,它在
高級搜索方面的功能要比AlataVista強。它提供事先分好類的19個主題,實現了基於主題
的搜索。
Webcrawler號稱支持"自然語言搜索",所以可以輸入像"highest mountain in the
world(世界上最高的山)"這樣的查詢條件。它拋棄了無意義的詞,對其餘的詞做模糊的A
ND搜索,含有所有的詞的頁面等級最高, 但也能查到只含一個詞的頁面,這是那些最佳引
擎的通用策略。
Webcrawler的片語、邏輯和接近操作符的使用類似於AltaVista。Webcrawler不支
持要求/排除的單詞的查找,也不支持通配符。
WebCrawler的主要缺點是,它對搜索到的每個條目都不顯示文本內容摘要。用戶只能
看到網頁題目和顯示WebCrawler相關性排名的數字。所以,除非網頁題目直接描述網頁內
容,否則用戶只能到這個站點訪問,才能得知其網頁內容。
在互聯網上,中文內容只佔約4%,絕大多數是英文內容,所以只有掌握英文搜索才能真正的深入互聯網。但是,英文搜索引擎很多,變化也很快,應該用哪個搜索,和怎麼搜索呢?今天,我就來介紹幾個最有代表性的英文搜索引擎。
Ask (www.ask.com,又名askjeeves)
Ask是一個支持自然提問的搜索引擎,它的資料庫里儲存了超過1000萬個問題的答案,只要你用英文直接輸入一個問題,它就會給出問題答案,如果你的問題答案不在它的資料庫中,那麼它會列出一串跟你的問題類似的問題和含有答案的鏈接,供你選擇。
根據網友們的使用經驗,當你遇到一些屬於事實型、原理型的問題時,使用Ask是最方便的。例如:「美國歷任總統中就任時年紀最輕的是誰?」、「阿富汗的首都叫什麼?」、「飛機是哪一年發明的?」、「雪為什麼是白的?」、「為什麼吃豆子的人愛放屁?」、「恐龍為什麼滅絕?」、「後街男孩的網站在哪裡?」。你還可以問它各種奇怪的問題,例如:「現在幾點了?」、「羅馬帝國為什麼崩潰?」、「聖誕老人住在哪兒?」,它都會給你答案的。
dmoz(www.dmoz.org,又名ODP)
有的網友不喜歡自己輸入英文單詞搜索,而是喜歡用滑鼠點擊分類目錄隨意瀏覽,那麼我向你推薦dmoz。
dmoz是互聯網合作共享精神的結晶,它的4萬多名志願編輯都是各行各業的專業人員,大家走到一起免費製作dmoz,提供給任何個人和組織免費使用。dmoz已經收錄了40多萬子目錄和近300萬個網站,是世界上最大的、也是最好的網站分類目錄,已經被世界各國400多個網站選做默認搜索引擎。dmoz使用起來非常方便,它提供相關目錄使你不容易漏掉其它目錄里的的相關內容,它還用一顆小星星推薦各個目錄下最好的網站,使初學者不會被太多的網站弄迷途。
另外,任何人都可以申請成為dmoz的搜索引擎編輯,你也可以去申請,嘗試一下親自做搜索引擎編輯的感覺,不過,要被批准可得有點實力才行哦。
Google(www.google.com)
Google是在國外很受歡迎的搜索引擎,界面簡潔,以搜索結果的准確性著稱,它的網頁快照和圖片搜索也很有特色。
網頁快照就是網頁的備份,你在Google搜索的時候,如果發現某條搜索結果點不進去,是死鏈接,那麼只要點擊搜索結果旁邊的網頁快照(Cached),就能看到Google保存的備份網頁。
Google還有世界上最大的圖片搜索引擎(images.google.com),收集了互聯網上3.3億張圖片,如果你想找哪個偶像的照片、想找某個名勝的風景照、想找軍事兵器圖片、、、只要輸入合適的英文單詞,很容易找到滿意的圖片。
search(www.search.com)
search屬於元搜索引擎,它收集了800多種專業搜索引擎和資料庫,分為商業金融、娛樂、健康醫葯、新聞媒體、評論、計算機、游戲、國際、尋人、購物、下載、政府、音樂、參考資料、旅行共15個大主題,每個大主題又分許多小主題。
當你進入任何一個主題搜索的時候,它都可以同時搜索這個主題下的多個專業搜索引擎和資料庫,然後在一個頁面上顯示來自不同搜索引擎的搜索結果。
比如進入大主題「新聞媒體」搜索,它把搜索結果分為頭條新聞、商業新聞、體育新聞、娛樂新聞、科技新聞、雜志、報紙,如果再進入小主題「科技新聞」搜索,那麼它可以同時搜索CNET、PC World、ZDNet、IDG.net、TechWeb這5個著名的科技新聞網站,足夠保證你得到最全最新的科技新聞。
好了,每個搜索引擎都有獨特的優缺點,不同的需要就應該使用不同的搜索引擎。
如果你搜索英文內容,那麼我給你推薦的使用習慣是:上網隨便逛逛就用dmoz,平時搜索就用google,有問題就問ask,要做特定的主題搜索就用search.com。
⑥ 類似百渡GOOGLE這樣的搜索網站還有哪兒些
沒有搜不到的 只有想不到的
Google簡體中文
http://www.google.cn/
Google 的使命是整合全球范圍的信息,使人人皆可訪問並從中受益。完成該使命的第一步就是 Google 的創始人 Larry Page 和 Sergey Brin 共同開發的全新的在線搜索引擎。該技術誕生於斯坦福大學的一個學生宿舍里,然後迅速傳播到全球的信息搜索者。 Google 目前被公認為全球最大的搜索引擎,它提供了簡單易用的免費服務,用戶可以在瞬間返回相關的搜索結果。
在訪問 Google 主頁時,您可以使用多種語言查找信息、查看新聞標題、搜索超過 10 億幅的圖片,並能夠細讀全球最大的 Usenet 消息存檔,其中提供的帖子超過 10 億個,時間可以追溯到 1981 年。Google中文常用服務 Google入門到精通 Google愛好者論壇 谷歌地球專題
網路
http://www..com
網路搜索引擎擁有目前世界上最大的中文搜索引擎,總量超過3億頁以上,並且還在保持快速的增長。網路搜索引擎具有高准確性、高查全率、更新快以及服務穩定的特點,能夠幫助廣大網民快速的在浩如煙海的互聯網信息中找到自己需要的信息,因此深受網民的喜愛。
網路搜索常用服務大全 網路搜索引擎入門到精通 網路超級搜霸下載 網路愛好者論壇
雅虎搜索
http://www.yahoo.cn/
Yahoo! 全球性搜索技術(YST,Yahoo! Search Technology)是一個涵蓋全球120多億網頁(其中雅虎中國為12億)的強大數據庫,擁有數十項技術專利、精準運算能力,支持38種語言,近10,000台伺服器,服務全球50%以上互聯網用戶的搜索需求。
雅虎搜索引擎入門到精通 雅虎愛好者論壇
中國搜索
http://www.zhongsou.com/
2003年12月23日,剛剛上市的慧聰國際集團重拳出擊,原慧聰搜索正式獨立運做,成立了中國搜索,全力打造中文搜索第一品牌。
中搜入門到精通 中國搜索愛好者論壇
搜狗搜索
http://www.sogou.com/
2004年8月3日,搜狐正式推出全新獨立域名專業搜索網站「搜狗」,成為全球首家第三代中文互動式搜索引擎服務提供商。提供全球網頁,新聞,商品,分類網站等搜索服務。
搜狗搜索引擎入門到精通 搜狗愛好者論壇
愛問搜索引擎
http://iask.com/
「愛問」搜索引擎產品由全球最大的中文網路門戶新浪匯集技術精英、耗時一年多完全自主研發完成,採用了目前最為領先的智慧型互動搜索技術,充分體現了人性化應用理念,將給網路搜索市場帶來前所未有的挑戰。愛問搜索入門到精通
其它搜索引擎
網易搜索引擎
http://so.163.com/
網易在國內首創「網易開放式目錄管理系統(ODP)」。提供網頁搜索、分類網站、圖片搜索、時尚搜索,其網頁搜索結果由Google提供。網易搜索引擎入門到精通
有道搜索引擎
http://www.yo.com/
網易自主研發的搜索引擎。有道愛好者論壇
易搜
http://www.yisou.com/
2007年3月31日,雅虎中國原獨立域名搜索網站「一搜」(Yisou.com)域名被重新啟用,名稱也由「一搜」改為「易搜」。
TOM搜索引擎
http://i.tom.com/
提供網頁、網站、圖片、MP3、新聞搜索,其網頁搜索結果由網路搜索提供。
21CN搜索引擎
http://search.21cn.com/
提供網頁、網站、圖片、MP3、FLASH、電影、軟體、影集搜索,其網頁搜索結果由網路提供。
SOSO搜搜
http://www.soso.com/
QQ推出的獨立搜索網站。提供綜合、網頁、圖片、論壇、音樂、搜吧等搜索服務。
中華搜索
http://sou.china.com/
2006年1月18日,中華網推出新版的搜索引擎網站,目前提供網頁、新聞、本地、圖片、音樂、論壇搜索等服務。
北京大學天網中英文搜索引擎
http://e.pku.e.cn/
MSN中文搜索(測試版)
http://beta.search.msn.com.cn/
網頁搜索功能不僅提供網頁鏈接列表,而且能將您鏈接到您要查找的答案和信息。為實現這點,新的 MSN 搜索使用新的搜索引擎、索引和爬網軟體,它們都是建立在 Microsoft 技術的基礎之上的。
⑦ 3. 如何利用Google搜索引擎搜索特定格式的文檔
在搜索的時候加:filetype:文件類型 關鍵詞
例如搜索有關寫作文的word的時候就這樣專:filetype:word 寫作文
當然也不屬是所有的格式都支持的。
目前google支持的filetype文件類型是:
ppt xls doc rtf swf pdf kmz kml ps def
網路中,filetype支持的文件類型有:
ppt xls doc rtf pdf
搜索的時候加的格式一定要是搜索引擎支持的!要記得加空格!
⑧ 如何用 GOOGLE 或者 BAIDU搜索指定網站資源!
在GOOGLE 或者 BAIDU中輸入命令,site命令語法格式有兩種:
1、site:網址 關鍵詞 例如:site:tieba..comPPT素材
2、關鍵詞 site:網址 例如:PPT素材site:tieba..com
注意事項:
一、「site」後面是英文冒號;
二、網址域名前面不帶「http://」,後面不帶斜杠「/」,注意有和沒有「www」的搜索結果是不一樣的;
三、「site:」和網址之間不要有空格;
四、關鍵詞和「site:」之間要空一格,多個關鍵詞之間要空一格。
(8)類谷歌搜索擴展閱讀
命令用途:
1、可用於限制網站類型,學術資料在e、org中會更精練,政府相關的在gov中也許更容易找;
2、用了e、org、net、gov之類的域名後綴,並不會搜索所有含這個後綴的網站。
3、搜索某種語言或某個關鍵詞在指定國家的網站;
4、有的網站沒有提供站內搜索,或者它的信息結構混亂,內容又多,不好找東西,那麼可以用「site:」對這個網站進行檢索;
Google的「site:」功能比多數網站自己的站內檢索還要好用,如果你查的不是動態資料庫,而且對時效性要求不高的話。
5、搜索不歡迎你搜索和免費使用的網站、資料庫的部分內容;
6、用「site:」搜索死鏈接網站、已關閉網站內的信息。
⑨ Google搜索比百度搜索好在哪些地方
google有可開關的「安全搜索」,根據讓用戶根據自己喜好和接受度打開或關閉安全搜索。而網路,什麼都不說,先主動幫你和諧了一些內容,遇到某些敏感詞的時候,再和諧一些內容,然後這樣告訴你:根據相關法律法規和政策,部分搜索結果未予顯示。但從來不會告訴你是哪個法律和政策。google可以搜到幾乎全網的視頻,而網路大多是國內的。話說youtube有的視頻我真的懶得去優酷等悠長又乏味的廣告。網路除國內網頁收錄數量不錯外,其他網頁收錄(包括港台網頁)很不足。google可篩選不同地區不同文字的網頁,網路不可以。google的演算法更尊重原創內容。軟體「格式工廠」為例:google上的首個鏈接就是格式工廠的官網。而網路,第一頁是各種第三方下載站,至於官網,在第二頁。在google上,包含更多原創內容的維基網路權重比其他網路高,而網路上,網路常常排在維基網路前面。知乎日報剛上線,搜索「知乎日報」,google的第一條是「知乎日報」的新聞搜索,第二條就是官網知乎日報。而網路,知乎日報的官網在第五頁的最後的一條。google的圖片和網頁搜索可對搜索內容按「使用許可權」進行篩選。網路不可以。google的圖片搜索演算法更精準。google的以圖搜圖比網路的精準太多。你在網路搜」cat「看看,第一頁第二行有幾張鞋子的照片……google可對圖片設置安全搜索、使用許可權搜索。google的進階搜索(高級搜索)可篩選條件更多,網路稍缺。下面都是google有而網路沒有的。按不同地區搜索按不同語言搜索視頻按不同畫質搜索圖片和網頁按使用許可權搜索還有一些按類型的篩選,如論壇搜索、博客搜索。關於框計算。(google也有類似框計算的東西,但不知道它叫什麼名字,先這么稱呼吧。)以下可看出google想做搜索,而網路想做介面。以「一代宗師」為例,網路的框計算UI很突兀,又按鈕又色塊,google的就易接受很多。而且網路的框計算來自自己的內容和其他商業公司的內容,google的框計算內容來自維基網路。以」camera360「 為例,網路框計算為網路應用的內容,首頁沒有google play和蘋果商店,而google搜索頁面有google play和蘋果商店(並有打分),也有豌豆莢等第三方商店頁面。除了網路應用,網路的其他產品也喜歡摻合進來,例如你在網路音樂搜音樂,其實是在「網路音樂」這個站內搜音樂,而不是全網的音樂,例如你在網路文庫搜文檔,其實是在「網路文庫」這個站內搜文檔,而不是全網。google的產品和google搜索分得比較開,google的產品在那個黑又硬導航條上面,和google搜索是分開的。google搜索上,除了地圖,google的產品不會獨成一個搜索。簡體中文搜索方面,差別沒有很大,個人感覺網路相關度不夠google,並且廣告站過多。再加上面差距積累下來,影響明顯。—完—本文作者:Soso標簽:Google 網路 轉載申明:為了給廣大網友提供更有價值的內容,我會把我認為優秀的互聯網方面的文章轉載於此。
⑩ 有沒有比GOOGLE搜索范圍更大的網站
沒有,GOOGLE是排名全世界第一,中國第一的就是網路.
一、什麼叫搜索引擎?
在Internet上有上百億可用的公共Web頁面,即使是最狂熱的沖浪者也不會訪問到所有的頁面,而只能看到其中的一小部分,更不會在這浩瀚的Web海洋中發現你那即使精彩卻渺小的一隅。當然你可以為你的存在做廣告,可以用大大的字把你的URL刻在你的身體上,然後裸體穿過白宮草坪,但你得保證媒體正好在那裡,並注視到了這一切。與其這樣做,不如好好去理解搜索引擎是如何工作的?又怎樣選擇和使用"keywords"(關鍵詞)等等。
本文的目的就是讓眾多的頁面設計者在了解搜索引擎的基礎上,尋求如何使自己的頁面在搜索引擎索返回的列表中獲得好的排列層次的方法。
"搜索引擎"這個術語一般統指真正意義上的搜索引擎(也就是全文檢索搜索引擎)和目錄(即目錄式分類搜索引擎),其實他們是不一樣的,其區別主要在於返回的搜索結果列表是如何編排的。
1、目錄
目錄(比如Yahoo!)返回的列表是由人工來編排的。
這類引擎提供了一份人工按類別編排的網站目錄,各類下邊排列著屬於這一類別的網站的站名和網址鏈接,再記錄一些摘要信息,對該網站進行概述性介紹(摘要可能是你提交過去的,也可以是引擎站點的編輯為你的站點所做的評價)。人們搜索時就按相應類別的目錄查詢下去。
這類引擎往往還伴有網站查詢功能,也稱之為網站檢索,即提供一個文字輸入框和一個按鈕。我們可以在文字框中輸入要查找的字、詞或短語,再點擊按鈕,便會在目錄中查找相關的站名、網址和內容提要,將查到的內容列表送過來。目前國內Sohoo、常青藤等都是這種搜索方式。
2、搜索引擎
搜索引擎(如HotBot)是自動創建列表的。
搜索引擎看起來與目錄的網站查詢非常相似,也提供一個文字輸入框和按鈕,使用方法也相同,而且有些也提供分類目錄,但兩者卻有本質上的區別。
目錄的資料庫中,搜集保存的是各網站的站名、網址和內容提要;搜索引擎的資料庫中,搜集保存的則是各網站的每一個網頁的全部內容,范圍要大得多。
搜索引擎是以全文檢索的方式工作的。全文檢索查到的結果不是站名、網址和內容提要,而是與你輸入的關鍵詞相關的一個個網頁的地址和一小段文字。在這段文字中,可能沒有你輸入的那個關鍵詞,它只是某一網頁的第一段話,甚至是一段無法看懂的標記,但在這個網頁中,一定有你所輸入的那個關鍵詞,或者相關的詞彙。打個比方說,網站查詢可以查到網上有哪些報紙,如《文匯報》、《大公報》,而全文檢索則可以查到網上這些報紙的每一篇文章中的詞彙。
3、兩者相結合的搜索引擎
某些搜索引擎同時也提供目錄。包含在搜索引擎中的目錄通常質量比較高,也能從那裡找到許多好站點。因為即使你把你的站點提交過去,也並不能保證一定被加到目錄中去,他們把注意力放在那些已經在別的目錄中存在的站點上,並有選擇地尋找有吸引力的加到自己的目錄中。
搜索引擎和目錄各有各自不可替代的功用。目錄比較簡單,要想獲得一個好的排列層次,除了你努力創建一個好內容的高品質站點外別無他法。搜索引擎復雜得多,它們隨時都在自動地索引眾多WEB站點的最新網頁,所以常常會發現目錄所不能得到的信息。如果你改動了你的頁面,搜索引擎還隨時會發現這個變化,並重新排列你在列表中的位置。而目錄就做不到。下面專門討論搜索引擎的工作原理以及如何提高在搜索引擎列表中的排列位置。
參考資料:http://www.yuan.sc.cn/cpc/buildweb/search101.htm
按照信息搜集方法和服務提供方式的不同,搜索引擎系統可以分為三大類:
1.目錄式搜索引擎:以人工方式或半自動方式搜集信息,由編輯員查看信息之後,人工形成信息摘要,並將信息置於事先確定的分類框架中。信息大多面向網站,提供目錄瀏覽服務和直接檢索服務。該類搜索引擎因為加入了人的智能,所以信息准確、導航質量高,缺點是需要人工介入、維護量大、信息量少、信息更新不及時。這類搜索引擎的代表是:Yahoo、LookSmart、Open Directory、Go Guide等。
2.機器人搜索引擎:由一個稱為蜘蛛(Spider)的機器人程序以某種策略自動地在互聯網中搜集和發現信息,由索引器為搜集到的信息建立索引,由檢索器根據用戶的查詢輸入檢索索引庫,並將查詢結果返回給用戶。服務方式是面向網頁的全文檢索服務。該類搜索引擎的優點是信息量大、更新及時、毋需人工干預,缺點是返回信息過多,有很多無關信息,用戶必須從結果中進行篩選。這類搜索引擎的代表是:AltaVista、Northern Light、Excite、Infoseek、Inktomi、FAST、Lycos、Google;國內代表為:"天網"、悠遊、OpenFind等。
3.元搜索引擎:這類搜索引擎沒有自己的數據,而是將用戶的查詢請求同時向多個搜索引擎遞交,將返回的結果進行重復排除、重新排序等處理後,作為自己的結果返回給用戶。服務方式為面向網頁的全文檢索。這類搜索引擎的優點是返回結果的信息量更大、更全,缺點是不能夠充分使用所使用搜索引擎的功能,用戶需要做更多的篩選。這類搜索引擎的代表是WebCrawler、InfoMarket等。
……
主 要 技 術
一個搜索引擎由搜索器、索引器、檢索器和用戶介面等四個部分組成。
1.搜索器
搜索器的功能是在互聯網中漫遊,發現和搜集信息。它常常是一個計算機程序,日夜不停地運行。它要盡可能多、盡可能快地搜集各種類型的新信息,同時因為互聯網上的信息更新很快,所以還要定期更新已經搜集過的舊信息,以避免死連接和無效連接。目前有兩種搜集信息的策略:
● 從一個起始URL集合開始,順著這些URL中的超鏈(Hyperlink),以寬度優先、深度優先或啟發式方式循環地在互聯網中發現信息。這些起始URL可以是任意的URL,但常常是一些非常流行、包含很多鏈接的站點(如Yahoo!)。
● 將Web空間按照域名、IP地址或國家域名劃分,每個搜索器負責一個子空間的窮盡搜索。
搜索器搜集的信息類型多種多樣,包括HTML、XML、Newsgroup文章、FTP文件、字處理文檔、多媒體信息。
搜索器的實現常常用分布式、並行計算技術,以提高信息發現和更新的速度。商業搜索引擎的信息發現可以達到每天幾百萬網頁。
2.索引器
索引器的功能是理解搜索器所搜索的信息,從中抽取出索引項,用於表示文檔以及生成文檔庫的索引表。
索引項有客觀索引項和內容索引項兩種:客觀項與文檔的語意內容無關,如作者名、URL、更新時間、編碼、長度、鏈接流行度(Link Popularity)等等;內容索引項是用來反映文檔內容的,如關鍵詞及其權重、短語、單字等等。內容索引項可以分為單索引項和多索引項(或稱短語索引項)兩種。單索引項對於英文來講是英語單詞,比較容易提取,因為單詞之間有天然的分隔符(空格);對於中文等連續書寫的語言,必須進行詞語的切分。
在搜索引擎中,一般要給單索引項賦與一個權值,以表示該索引項對文檔的區分度,同時用來計算查詢結果的相關度。使用的方法一般有統計法、資訊理論法和概率法。短語索引項的提取方法有統計法、概率法和語言學法。
索引表一般使用某種形式的倒排表(Inversion List),即由索引項查找相應的文檔。索引表也可能要記錄索引項在文檔中出現的位置,以便檢索器計算索引項之間的相鄰或接近關系(proximity)。
索引器可以使用集中式索引演算法或分布式索引演算法。當數據量很大時,必須實現即時索引(Instant Indexing),否則不能夠跟上信息量急劇增加的速度。索引演算法對索引器的性能(如大規模峰值查詢時的響應速度)有很大的影響。一個搜索引擎的有效性在很大程度上取決於索引的質量。
3.檢索器
檢索器的功能是根據用戶的查詢在索引庫中快速檢出文檔,進行文檔與查詢的相關度評價,對將要輸出的結果進行排序,並實現某種用戶相關性反饋機制。
檢索器常用的信息檢索模型有集合理論模型、代數模型、概率模型和混合模型四種。
4.用戶介面
用戶介面的作用是輸入用戶查詢、顯示查詢結果、提供用戶相關性反饋機制。主要的目的是方便用戶使用搜索引擎,高效率、多方式地從搜索引擎中得到有效、及時的信息。用戶介面的設計和實現使用人機交互的理論和方法,以充分適應人類的思維習慣。 用戶輸入介面可以分為簡單介面和復雜介面兩種。
簡單介面只提供用戶輸入查詢串的文本框;復雜介面可以讓用戶對查詢進行限制,如邏輯運算(與、或、非;+、-)、相近關系(相鄰、NEAR)、域名范圍(如.e、.com)、出現位置(如標題、內容)、信息時間、長度等等。目前一些公司和機構正在考慮制定查詢選項的標准。
http://www.userver.cn/n1246c142.aspx