搜索引擎空規
A. 搜索引擎規則到底是什麼
搜索引擎的原理,可以看做三步:從互聯網上抓取網頁——→建立索引資料庫——→在索引資料庫中搜索排序。
●從互聯網上抓取網頁
利用能夠從互聯網上自動收集網頁的Spider系統程序,自動訪問互聯網,並沿著任何網頁中的所有URL爬到其它網頁,重復這過程,並把爬過的所有網頁收集回來。
●建立索引資料庫
搜索引擎的「網路機器人」或「網路蜘蛛」是一種網路上的軟體,它遍歷Web空間,能夠掃描一定IP地址范圍內的網站,並沿著網路上的鏈接從一個網頁到另一個網頁,從一個網站到另一個網站採集網頁資料。它為保證採集的資料最新,還會回訪已抓取過的網頁。網路機器人或網路蜘蛛採集的網頁,還要有其它程序進行分析,根據一定的相關度演算法進行大量的計算建立網頁索引,才能添加到索引資料庫中。
●在索引資料庫中搜索排序
真正意義上的搜索引擎,通常指的是收集了網際網路上幾千萬到幾十億個網頁並對網頁中的每一個詞(即關鍵詞)進行索引,建立索引資料庫的全文搜索引擎。當用戶查找某個關鍵詞的時候,所有在頁面內容中包含了該關鍵詞的網頁都將作為搜索結果被搜出來。在經過復雜的演算法進行排序後,這些結果將按照與搜索關鍵詞的相關度高低,依次排列。
了解搜索引擎的工作原理對我們日常搜索應用和網站提交推廣都會有很大幫助。
B. 搜索引擎的使用技巧
如何使用搜索引擎
搜索引擎為用戶查找信息提供了極大的方便,你只需輸入幾個關鍵詞,任何想要的資料都會從世界各個角落匯集到你的電腦前。然而如果操作不當,搜索效率也是會大打折扣的。
比方說你本想查詢某方面的資料,可搜索引擎返回的卻是大量無關的信息。這種情況責任通常不在搜索引擎,而是因為你沒有掌握提高搜索精度的技巧。那麼如何才能提高信息檢索的效率呢?
--------------------------------------------------------------------------------
搜索關鍵詞提練
無庸至疑,選擇正確的關鍵詞是一切的開始。學會從復雜搜索意圖中提練出最具代表性和指示性的關鍵詞對提高信息查詢效率至關重要,這方面的技巧(或者說經驗)是所有搜索技巧之母。
--------------------------------------------------------------------------------
細化搜索條件
搜索條件越具體,搜索引擎返回的結果就越精確,有時多輸入一兩個關鍵詞效果就完全不同,這是搜索的基本技巧之一。
--------------------------------------------------------------------------------
用好邏輯命令
搜索邏輯命令通常是指布爾命令「AND」、「OR」、「NOT」及與之對應的「+」、「-」等邏輯符號命令。用好這些命令同樣可使我們日常搜索應用達到事半功倍的效果。
--------------------------------------------------------------------------------
精確匹配搜索
精確匹配搜索也是縮小搜索結果范圍的有力工具,此外它還可用來達到某些其他方式無法完成的搜索任務。
--------------------------------------------------------------------------------
特殊搜索命令
除一般搜索功能外,搜索引擎都提供一些特殊搜索命令,以滿足高階用戶的特殊需求。比如查詢指向某網站的外部鏈接和某網站內所有相關網頁的功能等等。這些命令雖不常用,但當有這方面搜索需求時,它們就大派用場了。
--------------------------------------------------------------------------------
附加搜索功能
搜索引擎都提供的一些方便用戶搜索的定製功能。常見的有相關關鍵詞搜索、限制地區搜索等。
--------------------------------------------------------------------------------
用什麼樣的搜索引擎搜索
搜索引擎分幾種,工作方式也不同,因而導致了信息覆蓋范圍方面的差異。我們平常搜索僅集中於某一家搜索引擎是不明智的,因為再好的搜索引擎也有局限性,合理的方式應該是根據具體要求選擇不同的引擎。這里我們根據自己的經驗給大家提出些建議。
C. 搜索引擎遵循的那些規則
1、網站空間不穩定、網站經常無法訪問、網站運行很慢的,搜索引擎不願意關注和抓取快照,因為會導致快照更新不及時!一定要保證網站能正常打開、空間穩定是優化的基礎;
2、網站被網路收錄後更改網站標題、網站描述、網站關鍵字導致實際頁面的TDK和網路收錄頁面的TDK標簽不一致,從而產生快照異常的站!關鍵詞排名99%的會消失、快照回檔、收錄減少、快照評級降低等現象
3、關鍵詞堆砌的網站,搜索引擎對其不友好,標題、描述、關鍵詞一定要圍繞網站主題和網站內容友好的表述,生硬堆砌關鍵詞的網站不被網路喜歡!
4、優化的關鍵詞必須要和網站主題內容相符(如果不符合相關性即便優化上去也會很快掉下來)
5、切忌不要將多個域名綁定到同一個網站,不要將多個URL重復指向同一個內容頁,更不要克隆網站使用收錄過的內容,克隆是最忌諱的。網路容易判斷這種行為為作弊行為;
6、切記不可和其它刷量軟體一起使用,容易出問題(流量軟體本身使用的是虛擬IP或代理IP等,並非真實IP)
7、切記不要購買外鏈、購買友鏈,目前網路已經推出相應的演算法,可判斷是否購買的外鏈和友鏈,一旦認定後網站將萬劫不復;
8、原創內容、高質量外鏈、高質量友鏈交換是關鍵詞排名出現的前提。所以不要內容採集、大量內容、還有所謂的偽原創軟體生成的內容;內容一定要具備結構清晰、可讀性強;
9、泛域名站群或IP+埠的泛站群網站不被網路喜歡,2013年4月之前,泛站群在網路排名里效果非常好,是因為網路有一個排名漏洞,如今網路已經修補了漏洞,建議大家不要再做泛站群優化了!網路搜索結果霸屏時代已經終結了;
D. 開發搜索引擎需要具備哪些知識
下面以網路搜索機器人為例來說明搜索引擎技術。
1.網路機器人技術
網路機器人(Robot)又被稱作Spider、Worm或Random,核心目的是為獲取Intemet上的信息。一般定義為「一個在網路上檢索文件且自動跟蹤該文件的超文本結構並循環檢索被參照的所有文件的軟體」。機器人利用主頁中的超文本鏈接遍歷WWW,通過U趾引用從一個HT2LIL文檔爬行到另一個HTML文檔。網上機器人收集到的信息可有多種用途,如建立索引、HIML文件合法性的驗證、uRL鏈接點驗證與確認、監控與獲取更新信息、站點鏡像等。
機器人安在網上爬行,因此需要建立一個URL列表來記錄訪問的軌跡。它使用超文本,指向其他文檔的URL是隱藏在文檔中,需要從中分析提取URL,機器人一般都用於生成索引資料庫。所有WWW的搜索程序都有如下的工作步驟:
(1)機器人從起始URL列表中取出URL並從網上讀取其指向的內容;
(2)從每一個文檔中提取某些信息(如關鍵字)並放入索引資料庫中;
(3)從文檔中提取指向其他文檔的URL,並加入到URL列表中;
(4)重復上述3個步驟,直到再沒有新的URL出現或超出了某些限制(時間或磁碟空間);
(5)給索引資料庫加上檢索介面,向網上用戶發布或提供給用戶檢索。
搜索演算法一般有深度優先和廣度優先兩種基本的搜索策略。機器人以URL列表存取的方式決定搜索策略:先進先出,則形成廣度優先搜索,當起始列表包含有大量的WWW伺服器地址時,廣度優先搜索將產生一個很好的初始結果,但很難深入到伺服器中去;先進後出,則形成深度優先搜索,這樣能產生較好的文檔分布,更容易發現文檔的結構,即找到最大數目的交叉引用。也可以採用遍歷搜索的方法,就是直接將32位的IP地址變化,逐個搜索整個Intemet。
搜索引擎是一個技術含量很高的網路應用系統。它包括網路技術、資料庫技術動標引技術、檢索技術、自動分類技術,機器學習等人工智慧技術。
2.索引技術
索引技術是搜索引擎的核心技術之一。搜索引擎要對所收集到的信息進行整理、分類、索引以產生索引庫,而中文搜索引擎的核心是分詞技術。分詞技術是利用一定的規則和詞庫,切分出一個句子中的詞,為自動索引做好准備。目前的索引多採用Non—clustered方法,該技術和語言文字的學問有很大的關系,具體有如下幾點:
(1)存儲語法庫,和詞彙庫配合分出句子中的詞彙;
(2)存儲詞彙庫,要同時存儲詞彙的使用頻率和常見搭配方式;
(3)詞彙寬,應可劃分為不同的專業庫,以便於處理專業文獻;
(4)對無法分詞的句子,把每個字當作詞來處理。
索引器生成從關鍵詞到URL的關系索引表。索引表一般使用某種形式的倒排表(1nversionUst),即由索引項查找相應的URL。索引表也要記錄索引項在文檔中出現的位置,以便檢索器計算索引項之間的相鄰關系或接近關系,並以特定的數據結構存儲在硬碟上。
不同的搜索引擎系統可能採用不盡相同的標引方法。例如Webcrawler利用全文檢索技術,對網頁中每一個單詞進行索引;Lycos只對頁名、標題以及最重要的100個注釋詞等選擇性詞語進行索引;Infoseek則提供概念檢索和片語檢索,支持and、or、near、not等布爾運算。檢索引擎的索引方法大致可分為自動索引、手工索引和用戶登錄三類。
3. 檢索器與結果處理技術
檢索器的主要功能是根據用戶輸入的關鍵詞在索引器形成的倒排表中進行檢索,同時完成頁面與檢索之間的相關度評價,對將要輸出的結果進行排序,並實現某種用戶相關性反饋機制。
通過搜索引擎獲得的檢索結果往往成百上千,為了得到有用的信息,常用的方法是按網頁的重要性或相關性給網頁評級,進行相關性排序。這里的相關度是指搜索關鍵字在文檔中出現的額度。當額度越高時,則認為該文檔的相關程度越高。能見度也是常用的衡量標准之一。一個網頁的能見度是指該網頁入口超級鏈接的數目。能見度方法是基於這樣的觀點:一個網頁被其他網頁引用得越多,則該網頁就越有價值。特別地,一個網頁被越重要的網頁所引用,則該網頁的重要程度也就越高。結果處理技術可歸納為:
(1)按頻次排定次序 通常,如果一個頁麵包含了越多的關鍵詞,其搜索目標的相關性應該越好,這是非常合平常理的解決方案。
(2)按頁面被訪問度排序 在這種方法中,搜索引擎會記錄它所搜索到的頁面被訪問的頻率。人們訪問較多的頁面通常應該包含比較多的信息,或者有其他吸引入的長處。這種解決方案適合一般的搜索用戶,而因為大部分的搜索引擎都不是專業性用戶,所以這種方案也比較適合一般搜索引擎使用。
(3)二次檢索 進一步凈化(比flne)結果,按照一定的條件對搜索結果進行優化,可以再選擇類別、相關詞進行二次搜索等。
由於目前的搜索引擎還不具備智能,除非知道要查找的文檔的標題,否則排列第一的結果未必是「最好」的結果。所以有些文檔盡管相關程度高,但並不一定是用戶最需要的文檔。
搜索引擎技術的行業應用:
搜索引擎的行業應用一般指類似於千瓦通信提供的多種搜索引擎行業與產品應用模式,大體上分為如下幾種形式:
1、 政府機關行業應用
n 實時跟蹤、採集與業務工作相關的信息來源。
n 全面滿足內部工作人員對互聯網信息的全局觀測需求。
n 及時解決政務外網、政務內網的信息源問題,實現動態發布。
n 快速解決政府主網站對各地級子網站的信息獲取需求。
n 全面整合信息,實現政府內部跨地區、跨部門的信息資源共享與有效溝通。
n 節約信息採集的人力、物力、時間,提高辦公效率。
2、企業行業應用
n 實時准確地監控、追蹤競爭對手動態,是企業獲取競爭情報的利器。
n 及時獲取競爭對手的公開信息以便研究同行業的發展與市場需求。
n 為企業決策部門和管理層提供便捷、多途徑的企業戰略決策工具。
n 大幅度地提高企業獲取、利用情報的效率,節省情報信息收集、存儲、挖掘的相關費用,是提高企業核心競爭力的關鍵。
n 提高企業整體分析研究能力、市場快速反應能力,建立起以知識管理為核心的競爭情報數據倉庫,是提高企業核心競爭力的神經中樞。
3、新聞媒體行業應用
n 快速准確地自動跟蹤、採集數千家網路媒體信息,擴大新聞線索,提高採集速度。
n 支持每天對數萬條新聞進行有效抓取。監控范圍的深度、廣度可以自行設定。
n 支持對所需內容智能提取、審核。
n 實現互聯網信息內容採集、瀏覽、編輯、管理、發布的一體化。
4、 行業網站應用
n 實時跟蹤、採集與網站相關的信息來源。
n 及時跟蹤行業的信息來源網站,自動,快速更新網站信息。動態更新信息。
n 實現互聯網信息內容採集、瀏覽、編輯、管理、發布的一體化。
n 針對商務網站提出商務管理模式,大大提高行業網站的商務應用需求。
n 針對資訊網站分類目錄生成,提出用戶生成網站分類結構。並可以實時增加與更新分類結構。不受級數限制。從而大大利高行業的應用性。
n 提供搜索引擎SEO優化專業服務,快速提高行業網站的推廣。
n 提供與CCDC呼叫搜索引擎的廣告合作。建立行業網站聯盟,提高行業網站知名度。
5) 網路信息監察與監控
n 網路輿情系統。如「千瓦通信-網路輿情雷達監測系統」
n 網站信息與內容監察與監控系統,如「千瓦通信-網站信息與內容監測與監察系統(站內神探)」
隨著網際網路的迅猛發展、WEB信息的增加,用戶要在信息海洋里查找信息,就象大海撈
針一樣,搜索引擎技術恰好解決了這一難題(它可以為用戶提供信息檢索服務)。目前,
搜索引擎技術正成為計算機工業界和學術界爭相研究、開發的對象。
搜索引擎(Search Engine)是隨著WEB信息的迅速增加,從1995年開始逐漸發展起來
的技術。據發表在《科學》雜志1999年7月的文章《WEB信息的可訪問性》估計,全球目前
的網頁超過8億,有效數據超過9T,並且仍以每4個月翻一番的速度增長。用戶要在如此浩
瀚的信息海洋里尋找信息,必然會"大海撈針"無功而返。搜索引擎正是為了解決這個"迷航
"問題而出現的技術。搜索引擎以一定的策略在互聯網中搜集、發現信息,對信息進行理解
、提取、組織和處理,並為用戶提供檢索服務,從而起到信息導航的目的。搜索引擎提供
的導航服務已經成為互聯網上非常重要的網路服務,搜索引擎站點也被美譽為"網路門戶"
。搜索引擎技術因而成為計算機工業界和學術界爭相研究、開發的對象。本文旨在對搜索
引擎的關鍵技術進行簡單的介紹,以起到拋磚引玉的作用。
分 類
按照信息搜集方法和服務提供方式的不同,搜索引擎系統可以分為三大類:
1.目錄式搜索引擎:以人工方式或半自動方式搜集信息,由編輯員查看信息之後,人
工形成信息摘要,並將信息置於事先確定的分類框架中。信息大多面向網站,提供目錄瀏
覽服務和直接檢索服務。該類搜索引擎因為加入了人的智能,所以信息准確、導航質量高
,缺點是需要人工介入、維護量大、信息量少、信息更新不及時。這類搜索引擎的代表是
:Yahoo、LookSmart、Open Directory、Go Guide等。
2.機器人搜索引擎:由一個稱為蜘蛛(Spider)的機器人程序以某種策略自動地在互
聯網中搜集和發現信息,由索引器為搜集到的信息建立索引,由檢索器根據用戶的查詢輸
入檢索索引庫,並將查詢結果返回給用戶。服務方式是面向網頁的全文檢索服務。該類搜
索引擎的優點是信息量大、更新及時、毋需人工干預,缺點是返回信息過多,有很多無關
信息,用戶必須從結果中進行篩選。這類搜索引擎的代表是:AltaVista、Northern Ligh
t、Excite、Infoseek、Inktomi、FAST、Lycos、Google;國內代表為:"天網"、悠遊、O
penFind等。
3.元搜索引擎:這類搜索引擎沒有自己的數據,而是將用戶的查詢請求同時向多個搜
索引擎遞交,將返回的結果進行重復排除、重新排序等處理後,作為自己的結果返回給用
戶。服務方式為面向網頁的全文檢索。這類搜索引擎的優點是返回結果的信息量更大、更
全,缺點是不能夠充分使用所使用搜索引擎的功能,用戶需要做更多的篩選。這類搜索引
擎的代表是WebCrawler、InfoMarket等。
性 能 指 標
我們可以將WEB信息的搜索看作一個信息檢索問題,即在由WEB網頁組成的文檔庫中檢索
出與用戶查詢相關的文檔。所以我們可以用衡量傳統信息檢索系統的性能參數-召回率(R
ecall)和精度(Pricision)衡量一個搜索引擎的性能。
召回率是檢索出的相關文檔數和文檔庫中所有的相關文檔數的比率,衡量的是檢索系
統(搜索引擎)的查全率;精度是檢索出的相關文檔數與檢索出的文檔總數的比率,衡量
的是檢索系統(搜索引擎)的查准率。對於一個檢索系統來講,召回率和精度不可能兩全
其美:召回率高時,精度低,精度高時,召回率低。所以常常用11種召回率下11種精度的
平均值(即11點平均精度)來衡量一個檢索系統的精度。對於搜索引擎系統來講,因為沒
有一個搜索引擎系統能夠搜集到所有的WEB網頁,所以召回率很難計算。目前的搜索引擎系
統都非常關心精度。
影響一個搜索引擎系統的性能有很多因素,最主要的是信息檢索模型,包括文檔和查詢
的表示方法、評價文檔和用戶查詢相關性的匹配策略、查詢結果的排序方法和用戶進行相
關度反饋的機制。
主 要 技 術
一個搜索引擎由搜索器、索引器、檢索器和用戶介面等四個部分組成。
1.搜索器
搜索器的功能是在互聯網中漫遊,發現和搜集信息。它常常是一個計算機程序,日夜
不停地運行。它要盡可能多、盡可能快地搜集各種類型的新信息,同時因為互聯網上的信
息更新很快,所以還要定期更新已經搜集過的舊信息,以避免死連接和無效連接。目前有
兩種搜集信息的策略:
● 從一個起始URL集合開始,順著這些URL中的超鏈(Hyperlink),以寬度優先、深
度優先或啟發式方式循環地在互聯網中發現信息。這些起始URL可以是任意的URL,但常常
是一些非常流行、包含很多鏈接的站點(如Yahoo!)。
● 將Web空間按照域名、IP地址或國家域名劃分,每個搜索器負責一個子空間的窮盡
搜索。 搜索器搜集的信息類型多種多樣,包括HTML、XML、Newsgroup文章、FTP文件、
字處理文檔、多媒體信息。 搜索器的實現常常用分布式、並行計算技術,以提高信息
發現和更新的速度。商業搜索引擎的信息發現可以達到每天幾百萬網頁。
2.索引器
索引器的功能是理解搜索器所搜索的信息,從中抽取出索引項,用於表示文檔以及生
成文檔庫的索引表。
索引項有客觀索引項和內容索引項兩種:客觀項與文檔的語意內容無關,如作者名、
URL、更新時間、編碼、長度、鏈接流行度(Link Popularity)等等;內容索引項是用來
反映文檔內容的,如關鍵詞及其權重、短語、單字等等。內容索引項可以分為單索引項和
多索引項(或稱短語索引項)兩種。單索引項對於英文來講是英語單詞,比較容易提取,
因為單詞之間有天然的分隔符(空格);對於中文等連續書寫的語言,必須進行詞語的切
分。 在搜索引擎中,一般要給單索引項賦與一個權值,以表示該索引項對文檔的區分
度,同時用來計算查詢結果的相關度。使用的方法一般有統計法、資訊理論法和概率法。短
語索引項的提取方法有統計法、概率法和語言學法。
索引表一般使用某種形式的倒排表(Inversion List),即由索引項查找相應的文檔
。索引表也可能要記錄索引項在文檔中出現的位置,以便檢索器計算索引項之間的相鄰或
接近關系(proximity)。
索引器可以使用集中式索引演算法或分布式索引演算法。當數據量很大時,必須實現即時
索引(Instant Indexing),否則不能夠跟上信息量急劇增加的速度。索引演算法對索引器
的性能(如大規模峰值查詢時的響應速度)有很大的影響。一個搜索引擎的有效性在很大
程度上取決於索引的質量。
3.檢索器 檢索器的功能是根據用戶的查詢在索引庫中快速檢出文檔,進行文檔與
查詢的相關度評價,對將要輸出的結果進行排序,並實現某種用戶相關性反饋機制。
檢索器常用的信息檢索模型有集合理論模型、代數模型、概率模型和混合模型四種。
4.用戶介面
用戶介面的作用是輸入用戶查詢、顯示查詢結果、提供用戶相關性反饋機制。主要的
目的是方便用戶使用搜索引擎,高效率、多方式地從搜索引擎中得到有效、及時的信息。
用戶介面的設計和實現使用人機交互的理論和方法,以充分適應人類的思維習慣。
用戶輸入介面可以分為簡單介面和復雜介面兩種。
簡單介面只提供用戶輸入查詢串的文本框;復雜介面可以讓用戶對查詢進行限制,如
邏輯運算(與、或、非;+、-)、相近關系(相鄰、NEAR)、域名范圍(如.e、.com)
、出現位置(如標題、內容)、信息時間、長度等等。目前一些公司和機構正在考慮制定
查詢選項的標准。
未 來 動 向
搜索引擎已成為一個新的研究、開發領域。因為它要用到信息檢索、人工智慧、計算
機網路、分布式處理、資料庫、數據挖掘、數字圖書館、自然語言處理等多領域的理論和
技術,所以具有綜合性和挑戰性。又由於搜索引擎有大量的用戶,有很好的經濟價值,所
以引起了世界各國計算機科學界和信息產業界的高度關注,目前的研究、開發十分活躍,
並出現了很多值得注意的動向。
1.十分注意提高信息查詢結果的精度,提高檢索的有效性 用戶在搜索引擎上進行
信息查詢時,並不十分關注返回結果的多少,而是看結果是否和自己的需求吻合。對於一
個查詢,傳統的搜索引擎動輒返回幾十萬、幾百萬篇文檔,用戶不得不在結果中篩選。解
決查詢結果過多的現象目前出現了幾種方法:一是通過各種方法獲得用戶沒有在查詢語句
中表達出來的真正用途,包括使用智能代理跟蹤用戶檢索行為,分析用戶模型;使用相關
度反饋機制,使用戶告訴搜索引擎哪些文檔和自己的需求相關(及其相關的程度),哪些
不相關,通過多次交互逐步求精。二是用正文分類(Text Categorization)技術將結果分
類,使用可視化技術顯示分類結構,用戶可以只瀏覽自己感興趣的類別。三是進行站點類
聚或內容類聚,減少信息的總量。
2.基於智能代理的信息過濾和個性化服務
信息智能代理是另外一種利用互聯網信息的機制。它使用自動獲得的領域模型(如We
b知識、信息處理、與用戶興趣相關的信息資源、領域組織結構)、用戶模型(如用戶背景
、興趣、行為、風格)知識進行信息搜集、索引、過濾(包括興趣過濾和不良信息過濾)
,並自動地將用戶感興趣的、對用戶有用的信息提交給用戶。智能代理具有不斷學習、適
應信息和用戶興趣動態變化的能力,從而提供個性化的服務。智能代理可以在用戶端進行
,也可以在伺服器端運行。
3.採用分布式體系結構提高系統規模和性能
搜索引擎的實現可以採用集中式體系結構和分布式體系結構,兩種方法各有千秋。但
當系統規模到達一定程度(如網頁數達到億級)時,必然要採用某種分布式方法,以提高
系統性能。搜索引擎的各個組成部分,除了用戶介面之外,都可以進行分布:搜索器可以
在多台機器上相互合作、相互分工進行信息發現,以提高信息發現和更新速度;索引器可
以將索引分布在不同的機器上,以減小索引對機器的要求;檢索器可以在不同的機器上
E. 搜索引擎的規則是什麼誰可以概述下啊
Internet搜索引擎概述摘要:對基於lnternet的搜索引擎的含義及分類、基本構成、工作原理及性能評價標准進行了概述,並進一步分析了利用搜索引擎檢索網路信息的局限,對其未來的發展趨勢作了相應的分析。關鍵詞:搜索引擎,網路信息檢索,發展趨勢1 搜索引擎的含義及其分類搜索引擎,即search engine,這一詞在國內外網際網路領域中被廣泛的使用,然而。它的含義卻不盡相同。在美國。搜索引擎通常指的是基於網際網路的搜索引擎,它們收集網際網路上幾千萬到幾億個網頁,並且每一個網頁上的每一個詞都被搜索引擎所收錄,也就是我們所說的全文檢索,典型的如Goog|e,ln[oseek,HotBot。在中國,搜索引擎通常指的是基於網站目錄的搜索服務或者是特定網站的搜索服務,前者如搜狐、新浪等公司開發的網站搜索服務,後者如Chinaren網站提供的全文檢索服務。而本文研究的搜索引擎是指一種基於lntemet的信息查詢工具,即一種基於lnternet的信息查詢系統,包括信息採集、信息標引和信息檢索三個主要部分。現有的搜索引擎基本上分為三類:1.1 single search engine(獨立搜索引擎) 它的特點是僅在搜索引擎自身的資料庫檢索信息,比如Yahoo。1.2 Meta search engine(元搜索引擎) 它在檢索信息時通過調用其它多個獨立的搜索引擎來完成檢索功能,並且能夠將從多個獨立搜索引擎查詢的結果進行不同程度的處理,比如刪除重復結果、校驗連接、結果按照相關度排序等。元搜索引擎本身可以有也可以沒有自己的資料庫。由於不同的元搜索引擎掛接的獨立搜索引擎各不相同,且各自獨立的搜索引擎在查詢語法上的差別較大,使得元搜索引擎本身僅支持AND、0R、N0T等簡單的語法操作,返回的結果只能滿足「最低常用分母」,即不能提高搜索結果的准確性。1.3 Net search engine(網路搜索軟體) 就是網路用戶可以將相應的搜索軟體下載至本地的計算機上,安裝查詢,這是一種具有網路查詢功能的離線瀏覽器。相對於元搜索引擎,它可以靈活地控制輸出結果,其最大特點是方便用戶使用和能快速地查詢網路相關資源。2 網路搜索引擎的工作原理及其基本構成用戶檢索信息時,搜索引擎是根據用戶的查詢要求,按照一定的演算法從索引資料庫中查找對應的信息返回給用戶。為了保證用戶查找信息的精度和新鮮度。對於獨立的搜索引擎而言.還需要建立並維護一個龐大的資料庫。獨立搜索引擎中的索引資料庫中的信息是通過一種叫做網路蜘蛛(spider)的程序軟體定期在網上爬行,通過訪問公共網路中公開區域的每一個站點採集網頁,對網路信息資源進行收集,然後利用索引軟體對收集的信息進行自動標引,創建一個可供用戶按照關鍵字等進行查詢的web頁索引資料庫,搜索軟體通過索引資料庫為用戶提供查詢服務。所以,一般的搜索引擎主要由網路蜘蛛、索引和搜索軟體三部分組成.網路蜘蛛。是一個功能很強的程序,它會定期根據預先設定的地址去查看對應的網頁,如網頁發生變化則重新獲取該網頁,否則根據該網頁中的鏈接繼續去訪問。網路蜘蛛訪問頁面的過程是對互連網上信息遍歷的過程。為了保證網路蜘蛛遍歷信息的廣度,一般事先設定_ 些重要的鏈接,然後進行遍歷。在遍歷的過程中不斷記錄網頁中的鏈接,不斷地遍歷下去,直到訪問完所有的鏈接。索引軟體。網路蜘蛛將遍歷搜索集得到的網頁存放在資料庫中。為了提高檢索的效率,需要建立索引。索引一般為倒排檔索引。搜索軟體。該軟體用於篩選索引資料庫中無數的網頁信息,選擇出符合用戶檢索要求的網頁並對它們進行分級排序。然後將分級排序後的結果顯示給用戶。3 搜索引擎的主要性能評價指標3.1 搜索引擎建立索引的方法 資料庫中的索引一般是按照倒排文檔的文件格式存放,在建立例排索引的時候,不同的搜索引擎有不同的選項。有些搜索引擎對於信息頁面建立全文索引;而有些只建立摘要部分,或者是段落前面部分的索引;還有些搜索引擎,比如Google建立索引的時候,同時還考慮超文本的不同標記所表示的不同含義。如粗體、大字體顯示的東西往往比較重要;放在錨鏈中的信息往往是它所指向頁面的信息的概括,所以用它來作為所指向的頁面的重要信息。Google、infoseek還在建立索引的過程中收集頁面中的超鏈接。這些超鏈接反映了收集到的信息之間的空間結構,利用這些結果信息可以 http://www.1187541.info
點贊哦
F. 搜索引擎中的"+"和空格有什麼區別呢
多搜索引擎用空格的查詢結果和用加號是相同的..
就當我是不會審題的**吧~
AND表示邏輯「與」,有的搜索引擎也常用「&」,「+」,「,」和空格來表示。AND用於檢索兩個以上關鍵詞的情形,檢索的結果應該與這幾個關鍵詞都有關系。如「經濟AND文化」,就表示既包括經濟又包括文化。
OR表示邏輯「或」,有的搜索引擎用「|」來表示。檢索的結果只要求與若干個關鍵詞中的一個有關系即可,如「體操OR游泳」,就表示可以包括體操,也可以包括游泳。使用OR通常會得到許多無關緊要的信息,一般應慎重使用。
NOT表示邏輯「非」,有的搜索引擎用「!」表示。NOT檢索的結果將完全排除與NOT後面的關鍵詞有關的信息,如「水果NOT蘋果」,就表示可以包括水果但其中不能有蘋果。
一般能提供高級檢索的搜索引擎,都支持邏輯檢索,但有的是「完全支持」,如Excite,Infoseek等;有的則是「部分支持」,如Yahoo就只支持「AND」和「OR」;有的在其高級檢索中「完全支持」而在其簡單檢索中則「部分支持」,如HotBot,Lycos等。中文搜索引擎一般不直接支持「AND」,「OR」和「NO」而是通過使用特殊的操作符如「+」,「—」,「|」,「!」等來達到同樣的目的(注意在輸入代表邏輯關系的字元時,一定要用半形)。
二、檢索的表示
下邊所列的例子,可以幫助你更好地理解什麼是邏輯查詢,同時也是一些較常見的用法。
①「與」,在關鍵詞之間使用半形的加號(+)
例1:查詢網上關於法國足球、英國足球、巴西足球比較資料。
從查詢要求表明有查詢的內容必須同時包括「法國足球、英國足球,巴西足球」3個關鍵詞,輸入的查詢式應為「英國足球+法國足球+巴西足球」。邏輯「與」的代表符號,有的搜索引擎不用+號,而用&號,還有用其他符號的,請注意查看說明。
②「或」,使用半形的逗號把關鍵詞分開
例2:查詢網上關於法國足球、英國足球和巴西足球的資料。
這個例子表示,查詢的內容不必同時包括3個關鍵詞,而只要包括其中任何一個即可,因此查詢式應為「法國足球,英國足球,巴西足球」,有的搜索引擎使用空格,而非半形逗號。
③「非」,將要排除的關鍵詞前加半形的減號
例3:查詢除世界盃以外的有關足球的資料。
這一例子表示,查詢的內容應包括「足球」,但必須沒有「世界盃」字樣。檢索式應為「足球-世界盃」。
三、檢索服務內容和要求
不同的搜索引擎有著不同的檢索服務:
比如:google
Google屬於全文搜索引擎,它搜索的速度比較快,用復雜而全自動的搜索方法排除了任何人為因素對搜索結果的影響。它可以方便、誠實、客觀地尋找有用的價值資料。據統計,它收錄了80多億的網址,只返回包含所有關鍵詞的網頁按照關鍵詞的接近度確定搜索結果的先後次序,優先考慮關鍵詞較為接近的結果。
G. 什麼是空規區
飛機起飛前的延誤有兩種,一種是航空公司原因,另一種就是航空管制。航空公司原因包括飛機周轉、機組遲到、飛機維修等,總之就是飛機或機組沒有按時到機場/進入起飛准備狀態。航空管制就是飛機具備其他所有的起飛條件,但塔台不放行。不放行的原因有很多。
- 天氣。這又分三種:起飛機場天氣、目的地天氣,還有最重要的,航路天氣。惡劣天氣(大雨、大霧、雷電、大風等)都不適合起降和飛行。其中一個天氣不好就不能飛行。
- 航路擁堵。中國的領空全部歸屬空軍管理。空軍將其中20%給民航使用(隨時可以收回)。在這20%的空間中,設定了一些航路。航路上的飛機前後左右的間距都有要求。同一條航路上的飛機太多,就不能讓新的飛機飛進去,否則就會有安全問題。
- 軍方活動。上面說了,20%的領空是空軍」施捨「給民航的。空軍要用了,民航就要讓路。典型的就是軍事演習。那就會在附近畫一個禁飛區(通常會有300-500公里),所有飛機繞道,航路都需要調整。
- 跑道問題。機場跑道可能維修,或者跑道上發生狀況(比如有大量鳥群),這時跑道會暫時封閉。跑道少了,起降能力就降低了,但航班卻是按照正常狀況安排的,於是就要額外的排隊時間。
H. 搜索引擎基本的搜索規則(+號、-號、引號、空格的使用)
搜索引擎的使用技巧
搜索引擎就是幫助我們來方便地查詢網上信息的,但是當你輸入關鍵詞後,出現了成百上千個查詢結果,而且這些結果中並沒有多少你想要的東西,面對著一堆信息垃圾,這時你的心情該是如何的沮喪。不要難過,這不是因為搜索引擎沒有用,而是由於你沒能很好地駕馭它,沒有掌握它的使用技巧,才導致這樣的後果。
每個搜索引擎都有自己的查詢方法,你只有熟練的掌握它,才能運用自如。不同的搜索引擎提供的查詢方法不完全相同,你要想具體了解,可以到各個網站中去查詢,但有一些通用的查詢方法,各個搜索引擎基本上都具有,下面就給你加以介紹。
由於使用目錄查詢比較簡單,你只需確定要查找目標所在的目錄,然後一層層打開,逐步細化就可以找到。所以我們下面主要介紹使用關鍵詞進行查詢。
1、簡單查詢 在搜索引擎中輸入關鍵詞,然後點擊「搜索」就行了,系統很快會返回查詢結果,這是最簡單的查詢方法,使用方便,但是查詢的結果卻不準確,可能包含著許多無用的信息。}
2、使用雙引號用(" ") 給要查詢的關鍵詞加上雙引號(半形,以下要加的其它符號同此),可以實現精確的查詢,這種方法要求查詢結果要精確匹配,不包括演變形式。例如在搜索引擎的文字框中輸入「電傳」,它就會返回網頁中有「電傳」這個關鍵字的網址,而不會返回諸如「電話傳真」之類網頁。
3、使用加號(+) 在關鍵詞的前面使用加號,也就等於告訴搜索引擎該單詞必須出現在搜索結果中的網頁上,例如,在搜索引擎中輸入「+電腦+電話+傳真」就表示要查找的內容必須要同時包含「電腦、電話、傳真」這三個關鍵詞。
4、使用減號(-) 在關鍵詞的前面使用減號,也就意味著在查詢結果中不能出現該關鍵詞,例如,在搜索引擎中輸入「電視台-中央電視台」,它就表示最後的查詢結果中一定不包含「中央電視台」。
5、使用通配符(*和?) 通配符包括星號(*)和問號(?),前者表示匹配的數量不受限制,後者匹配的字元數要受到限制,主要用在英文搜索引擎中。例如輸入「computer*」,就可以找到「computer、computers、computerised、computerized」等單詞,而輸入「comp?ter」,則只能找到「computer、compater、competer」等單詞。
6、使用布爾檢索 所謂布爾檢索,是指通過標準的布爾邏輯關系來表達關鍵詞與關鍵詞之間邏輯關系的一種查詢方法,這種查詢方法允許我們輸入多個關鍵詞,各個關鍵詞之間的關系可以用邏輯關系詞來表示。
and,稱為邏輯「與」,用and進行連接,表示它所連接的兩個詞必須同時出現在查詢結果中,例如,輸入「computer and book」,它要求查詢結果中必須同時包含computer和book。
or,稱為邏輯「或」,它表示所連接的兩個關鍵詞中任意一個出現在查詢結果中就可以,例如,輸入「computer or book」,就要求查詢結果中可以只有computer,或只有book,或同時包含computer和book。
not,稱為邏輯「非」,它表示所連接的兩個關鍵詞中應從第一個關鍵詞概念中排除第二個關鍵詞,例如輸入「automobile not car」,就要求查詢的結果中包含automobile(汽車),但同時不能包含car(小汽車)。
near,它表示兩個關鍵詞之間的詞距不能超過n個單詞。 在實際的使用過程中,你可以將各種邏輯關系綜合運用,靈活搭配,以便進行更加復雜的查詢。
7、使用括弧 當兩個關鍵詞用另外一種操作符連在一起,而你又想把它們列為一組時,就可以對這兩個詞加上圓括弧。
8、使用元詞檢索 大多數搜索引擎都支持「元詞」(metawords)功能,依據這類功能用戶把元詞放在關鍵詞的前面,這樣就可以告訴搜索引擎你想要檢索的內容具有哪些明確的特徵。例如,你在搜索引擎中輸入「title:清華大學」,就可以查到網頁標題中帶有清華大學的網頁。在鍵入的關鍵詞後加上「domain:org」,就可以查到所有以org為後綴的網站。 其他元詞還包括:image:用於檢索圖片,link:用於檢索鏈接到某個選定網站的頁面,url:用於檢索地址中帶有某個關鍵詞的網頁。
9、區分大小寫 這是檢索英文信息時要注意的一個問題,許多英文搜索引擎可以讓用戶選擇是否要求區分關鍵詞的大小寫,這一功能對查詢專有名詞有很大的幫助,例如:web專指萬維網或環球網,而web則表示蜘蛛網。
I. 搜索引擎的懲罰的種類
搜索引擎懲罰的形式很多,其中最容易判斷的是整站刪除。可以使用site:指令搜索域名如果網站完全沒有被收錄,往往是這幾種情況:
1、robots. txt文件有問題,禁止搜索引擎收錄。
2、伺服器問題,使網站無法被搜索引擎抓取。
3、違法內容(如侵犯版權)被投訴後刪除。
4、嚴重作弊行為被刪除。
當然有的網站只是在搜索最主要關鍵詞時被懲罰,其他次要關鍵詞和長尾詞排名不變。這類的情況大多是外部鏈接優化過度或垃圾鏈接造成的,其中高度集中的錨文字是主要原因之一。
最後提下這類情況,網站排名只是從第一頁降到第二頁,一般不是被懲罰,而很可能是演算法變動或競爭對手優化得當排到了前面。