搜索引擎工作原理
1. 搜索引擎的工作原理
搜索引擎原理概述
搜索引擎,通常指的是收集了網際網路上幾千萬到幾十億個網頁並對網頁中的每一個詞(即關鍵詞)進行索引,建立索引資料庫的全文搜索引擎。當用戶查找某個關鍵詞的時候,所有在頁面內容中包含了該關鍵詞的網頁都將作為搜索結果被搜出來。在經過復雜的演算法進行排序後,這些結果將按照與搜索關鍵詞的相關度高低,依次排列。
[編輯本段]搜索引擎結構劃分
搜索引擎的基本上分為四個步驟: 1. 爬行和抓取 搜索引擎派出一個能夠在網上發現新網頁並抓文件的程序,這個程序通常稱之為蜘蛛。搜索引擎從已知的資料庫出發,就像正常用戶的瀏覽器一樣訪問這些網頁並抓取文件。搜索引擎會跟蹤網頁中的鏈接,訪問更多的網頁,這個過程就叫爬行。這些新的網址會被存入資料庫等待抓取。所以跟蹤網頁鏈接是搜索引擎蜘蛛發現新網址的最基本的方法,所以反向鏈接成為搜索引擎優化的最基本因素之一。沒有反向鏈接,搜索引擎連頁面都發現不了,就跟談不上排名了。 搜索引擎抓取的頁面文件與用戶瀏覽器得到的完全一樣,抓取的文件存入資料庫。 2.索引 蜘蛛抓取的頁面文件分解、分析,並以巨大表格的形式存入資料庫,這個過程既是索引(index).在索引資料庫中,網頁文字內容,關鍵詞出現的位置、字體、顏色、加粗、斜體等相關信息都有相應記錄。 3.搜索詞處理 用戶在搜索引擎界面輸入關鍵詞,單擊「搜索」按鈕後,搜索引擎程序即對搜索詞進行處理,如中文特有的分詞處理,去除停止詞,判斷是否需要啟動整合搜索,判斷是否有拼寫錯誤或錯別字等情況。搜索詞的處理必須十分快速。 4.排序 對搜索詞處理後,搜索引擎程序便開始工作,從索引資料庫中找出所有包含搜索詞的網頁,並且根據排名演算法計算出哪些網頁應該排在前面,然後按照一定格式返回到「搜索」頁面。 再好的搜索引擎也無法與人相比,這就是為什麼網站要進行搜索引擎優化。沒有SEO的幫助,搜索引擎常常並不能正確的返回最相關、最權威、最有用的信息。
[編輯本段]搜索引擎數據結構
搜索引擎的核心數據結構為倒排文件(也稱倒排索引),倒排索引是指用記錄的非主屬性值(也叫副鍵)來查找記錄而組織的文件叫倒排文件,即次索引。倒排文件中包括了所有副鍵值,並列出了與之有關的所有記錄主鍵值,主要用於復雜查詢。 與傳統的SQL查詢不同,在搜索引擎收集完數據的預處理階段,搜索引擎往往需要一種高效的數據結構來對外提供檢索服務。而現行最有效的數據結構就是「倒排文件」。倒排文件簡單一點可以定義為「用文檔的關鍵詞作為索引,文檔作為索引目標的一種結構(類似於普通書籍中,索引是關鍵詞,書的頁面是索引目標)。
搜索引擎原理 收藏
在浩如煙海的Internet上,特別是其上的Web(World Wide Web萬維網)上,不會搜索,就不會上網。網蟲朋友們,你了解搜索引擎嗎?它們是怎麼工作的?你都使用哪些搜索引擎?今天我就和大家聊聊搜索引擎的話題。
一、搜索引擎的分類
獲得網站網頁資料,能夠建立資料庫並提供查詢的系統,我們都可以把它叫做搜索引擎。按照工作原理的不同,可以把它們分為兩個基本類別:全文搜索引擎(FullText Search Engine)和分類目錄Directory)。
全文搜索引擎的資料庫是依靠一個叫「網路機器人(Spider)」或叫「網路蜘蛛(crawlers)」的軟體,通過網路上的各種鏈接自動獲取大量網頁信息內容,並按以定的規則分析整理形成的。Google、網路都是比較典型的全文搜索引擎系統。
分類目錄則是通過人工的方式收集整理網站資料形成資料庫的,比如雅虎中國以及國內的搜狐、新浪、網易分類目錄。另外,在網上的一些導航站點,也可以歸屬為原始的分類目錄,比如「網址之家」(http://www.hao123.com/)。
全文搜索引擎和分類目錄在使用上各有長短。全文搜索引擎因為依靠軟體進行,所以資料庫的容量非常龐大,但是,它的查詢結果往往不夠准確;分類目錄依靠人工收集和整理網站,能夠提供更為准確的查詢結果,但收集的內容卻非常有限。為了取長補短,現在的很多搜索引擎,都同時提供這兩類查詢,一般對全文搜索引擎的查詢稱為搜索「所有網站」或「全部網站」,比如Google的全文搜索(http://www.google.com/intl/zh-CN/);把對分類目錄的查詢稱為搜索「分類目錄」或搜索「分類網站」,比如新浪搜索(http://dir.sina.com.cn/)和雅虎中國搜索(http://cn.search.yahoo.com/dirsrch/)。
在網上,對這兩類搜索引擎進行整合,還產生了其它的搜索服務,在這里,我們權且也把它們稱作搜索引擎,主要有這兩類:
⒈元搜索引擎(META Search Engine)。
這類搜索引擎一般都沒有自己網路機器人及資料庫,它們的搜索結果是通過調用、控制和優化其它多個獨立搜索引擎的搜索結果並以統一的格式在同一界面集中顯示。元搜索引擎雖沒有「網路機器人」或「網路蜘蛛」,也無獨立的索引資料庫,但在檢索請求提交、檢索介面代理和檢索結果顯示等方面,均有自己研發的特色元搜索技術。比如「metaFisher元搜索引擎」
(http://www.hsfz.net/fish/),它就調用和整合了Google、Yahoo、AlltheWeb、網路和OpenFind等多家搜索引擎的數據。
⒉集成搜索引擎(All-in-One Search Page)。
集成搜索引擎是通過網路技術,在一個網頁上鏈接很多個獨立搜索引擎,查詢時,點選或指定搜索引擎,一次輸入,多個搜索引擎同時查詢,搜索結果由各搜索引擎分別以不同頁面顯示,比如「網際瑞士軍刀」(http://free.okey.net/%7Efree/search1.htm)。
二、搜索引擎的工作原理
全文搜索引擎的「網路機器人」或「網路蜘蛛」是一種網路上的軟體,它遍歷Web空間,能夠掃描一定IP地址范圍內的網站,並沿著網路上的鏈接從一個網頁到另一個網頁,從一個網站到另一個網站採集網頁資料。它為保證採集的資料最新,還會回訪已抓取過的網頁。網路機器人或網路蜘蛛採集的網頁,還要有其它程序進行分析,根據一定的相關度演算法進行大量的計算建立網頁索引,才能添加到索引資料庫中。我們平時看到的全文搜索引擎,實際上只是一個搜索引擎系統的檢索界面,當你輸入關鍵詞進行查詢時,搜索引擎會從龐大的資料庫中找到符合該關鍵詞的所有相關網頁的索引,並按一定的排名規則呈現給我們。不同的搜索引擎,網頁索引資料庫不同,排名規則也不盡相同,所以,當我們以同一關鍵詞用不同的搜索引擎查詢時,搜索結果也就不盡相同。
和全文搜索引擎一樣,分類目錄的整個工作過程也同樣分為收集信息、分析信息和查詢信息三部分,只不過分類目錄的收集、分析信息兩部分主要依靠人工完成。分類目錄一般都有專門的編輯人員,負責收集網站的信息。隨著收錄站點的增多,現在一般都是由站點管理者遞交自己的網站信息給分類目錄,然後由分類目錄的編輯人員審核遞交的網站,以決定是否收錄該站點。如果該站點審核通過,分類目錄的編輯人員還需要分析該站點的內容,並將該站點放在相應的類別和目錄中。所有這些收錄的站點同樣被存放在一個「索引資料庫」中。用戶在查詢信息時,可以選擇按照關鍵詞搜索,也可按分類目錄逐層查找。如以關鍵詞搜索,返回的結果跟全文搜索引擎一樣,也是根據信息關聯程度排列網站。需要注意的是,分類目錄的關鍵詞查詢只能在網站的名稱、網址、簡介等內容中進行,它的查詢結果也只是被收錄網站首頁的URL地址,而不是具體的頁面。分類目錄就像一個電話號碼薄一樣,按照各個網站的性質,把其網址分門別類排在一起,大類下面套著小類,一直到各個網站的詳細地址,一般還會提供各個網站的內容簡介,用戶不使用關鍵詞也可進行查詢,只要找到相關目錄,就完全可以找到相關的網站(注意:是相關的網站,而不是這個網站上某個網頁的內容,某一目錄中網站的排名一般是按照標題字母的先後順序或者收錄的時間順序決定的)。
三、搜索引擎的發展趨勢。
一個好的搜索引擎,不僅資料庫容量要大,更新頻率、檢索速度要快,支持對多語言的搜索,而且隨著資料庫容量的不斷膨脹,還要能從龐大的資料庫中精確地找到正確的資料。
⒈提高搜索引擎對用戶檢索提問的理解。
為了提高搜索引擎對用戶檢索提問的理解,就必須有一個好的檢索提問語言。為了克服關鍵詞檢索和目錄查詢的缺點,現在已經出現了自然語言智能答詢。用戶可以輸入簡單的疑問句,比如「如何能殺死計算機中的病毒」,搜索引擎在對提問進行結構和內容的分析之後,或直接給出提問的答案,或引導用戶從幾個可選擇的問題中進行再選擇。自然語言的優勢在於,一是使網路交流更加人性化,二是使查詢變得更加方便、直接、有效。就以上面的例子來講,如果用關鍵詞查詢,多半人會用「病毒」這個詞來檢索,結果中必然會包括各類病毒的介紹,病毒是怎樣產生的等等許多無用信息,而用「如何能殺死計算機中的病毒」檢索,搜索引擎會將怎樣殺死病毒的信息提供給用戶,提高了檢索效率。
⒉垂直主題搜索引擎有著極大的發展空間。
網上的信息浩如煙海,網路資源以驚人的速度增長,一個搜索引擎很難收集全所有主題的網路信息,即使信息主題收集得比較全面,由於主題范圍太寬,很難將各主題都做得精確而又專業,使得檢索結果垃圾太多。這樣以來,垂直主題的搜索引擎以其高度的目標化和專業化在各類搜索引擎中占據了一席之地。目前,一些主要的搜索引擎,都提供了新聞、Mp3、圖片、Flash等的搜索,加強了檢索的針對性。
⒊元搜索引擎,能夠提供全面且較為准確的查詢結果。
現在的許多搜索引擎,其收集信息的范圍、索引方法、排名規則等都各不相同,每個搜索引擎平均只能涉及到整個Web資源的30-50%,這樣導致同一個搜索請求在不同搜索引擎中獲得的查詢結果的重復率不足34%,而每一個搜索引擎的查准率不到45%。元搜索引擎(META Search Engine)是將用戶提交的檢索請求發送到多個獨立的搜索引擎上去搜索,並將檢索結果集中統一處理,以統一的格式提供給用戶,因此有搜索引擎之上的搜索引擎之稱。它的主要精力放在提高搜索速度、智能化處理搜索結果、個性化搜索功能的設置和用戶檢索界面的友好性上,查全率和查准率都比較高。
四、主要的搜索引擎介紹
這里介紹的是在國內外影響比較大的主要的一些搜索引擎和分類目錄站點,由於現在的站點一般都同時提供全文搜索和分類目錄兩種服務,所以我們按照其自有的技術進行分類和介紹。
一主要的全文搜索引擎
⒈Google(http://www.google.com/)。Google成立於1997年,幾年間迅速發展成為世界范圍內規模最大的搜索引擎。Google資料庫現存有42.8億個Web文件,每天處理的搜索請求已達2億次,而且這一數字還在不斷增長。Google借用Dmoz(http://dmoz.org/)的分類目錄提供「網頁目錄」查詢(http://www.google.com/dirhp?hl=zh-CN&tab=wd&ie=UTF-8&oe=UTF-8&q=),但默認網站排列順序並非按照字母順序,而是根據網站PageRank的分值高低排列。
⒉網路(http://www..com/)。網路是國內最早的商業化(早期為其它門戶網站提供搜索服務,現在的競價排名更是日進斗金)全文搜索引擎,擁有自己的網路機器人和索引資料庫,專注於中文的搜索引擎市場,除有網頁搜索外,網路還有新聞、MP3、圖片等搜索,並在2003年底推出「貼吧」、按地域搜索等功能。
⒊中國搜索(http://www.huicong.com/)。中國搜索的前身是慧聰搜索,原慧聰搜索在聯合中國網等30多家知名網站的基礎上,2002年9月25日,正式組建了中國搜索聯盟,經過一年多的發展,聯盟成員就已達630多家,成為中國互聯網一支重要的力量。由於發展迅速,慧聰集團借上市之機,將慧聰搜索更名為中國搜索,全力發展其在搜索引擎方面的業務,以打造中文搜索領域的全新品牌。
二主要分類目錄
⒈雅虎中國分類目錄(http://cn.yahoo.com/)。雅虎中國的分類目錄是最早的分類目錄,現有14個主類目,包括「商業與經濟」、「藝術與人文」等,可以逐層進入進行檢索,也可以利用關鍵詞對「分類網站」進行搜索(http://m6.search.cnb.yahoo.com/dirsrch/)。此外,雅虎中國也可以對「所有網站」進行關鍵詞搜索(http://cn.search.yahoo.com/websrch/),早期,他的搜索結果使用Google的數據,2004年2月正式推出自己的全文搜索引擎,並結束了與Google的合作。
⒉新浪分類目錄(http://dir.sina.com.cn/)。新浪的分類目錄目前共有18個大類目,用戶可按目錄逐級向下瀏覽,直到找到所需網站。就好像用戶到圖書館找書一樣,按照類別大小,層層查找,最終找到需要的網站或內容。通過和其它全文搜索引擎的合作,現在,也可以使用關鍵詞對新浪的「分類網站」或「全部網站」進行搜索。
⒊搜狐分類目錄(http://dir.sohu.com/)。搜狐分類目錄把網站作為收錄對象,具體的方法就是將每個網站首頁的URL地址提供給搜索用戶,並且將網站的題名和整個網站的內容簡單描述一下,但是並不揭示網站中每個網頁的信息內容。除此之外,也可以使用關鍵詞對搜狐的「分類目錄」或所有網站進行搜索。
⒋網易分類目錄(http://search.163.com/)。網易的分類目錄採用「開放式目錄」管理方式,在功能齊全的分布式編輯和管理系統的支持下,現有5000多位各界專業人士參與可瀏覽分類目錄的編輯工作,極大地適應了互聯網信息爆炸式增長的趨勢。在加強與其它搜索引擎合作的基礎上,新版搜索引擎支持使用關鍵詞對所有網站進行檢索。
搜索引擎並不真正搜索互聯網,它搜索的實際上是預先整理好的網頁索引資料庫。
真正意義上的搜索引擎,通常指的是收集了網際網路上幾千萬到幾十億個網頁並對網頁中的每一個詞(即關鍵詞)進行索引,建立索引資料庫的全文搜索引擎。當用戶查找某個關鍵詞的時候,所有在頁面內容中包含了該關鍵詞的網頁都將作為搜索結果被搜出來。在經過復雜的演算法進行排序後,這些結果將按照與搜索關鍵詞的相關度高低,依次排列。
現在的搜索引擎已普遍使用超鏈分析技術,除了分析索引網頁本身的內容,還分析索引所有指向該網頁的鏈接的URL、AnchorText、甚至鏈接周圍的文字。所以,有時候,即使某個網頁A中並沒有某個詞比如「惡魔撒旦」,但如果有別的網頁B用鏈接「惡魔撒旦」指向這個網頁A,那麼用戶搜索「惡魔撒旦」時也能找到網頁A。而且,如果有越多網頁(C、D、E、F……)用名為「惡魔撒旦」的鏈接指向這個網頁A,或者給出這個鏈接的源網頁(B、C、D、E、F……)越優秀,那麼網頁A在用戶搜索「惡魔撒旦」時也會被認為更相關,排序也會越靠前。
搜索引擎的原理,可以看做三步:從互聯網上抓取網頁→建立索引資料庫→在索引資料庫中搜索排序。
從互聯網上抓取網頁
利用能夠從互聯網上自動收集網頁的Spider系統程序,自動訪問互聯網,並沿著任何網頁中的所有URL爬到其它網頁,重復這過程,並把爬過的所有網頁收集回來。
建立索引資料庫
由分析索引系統程序對收集回來的網頁進行分析,提取相關網頁信息(包括網頁所在URL、編碼類型、頁面內容包含的關鍵詞、關鍵詞位置、生成時間、大小、與其它網頁的鏈接關系等),根據一定的相關度演算法進行大量復雜計算,得到每一個網頁針對頁面內容中及超鏈中每一個關鍵詞的相關度(或重要性),然後用這些相關信息建立網頁索引資料庫。
在索引資料庫中搜索排序
當用戶輸入關鍵詞搜索後,由搜索系統程序從網頁索引資料庫中找到符合該關鍵詞的所有相關網頁。因為所有相關網頁針對該關鍵詞的相關度早已算好,所以只需按照現成的相關度數值排序,相關度越高,排名越靠前。
最後,由頁面生成系統將搜索結果的鏈接地址和頁面內容摘要等內容組織起來返回給用戶。
搜索引擎的Spider一般要定期重新訪問所有網頁(各搜索引擎的周期不同,可能是幾天、幾周或幾月,也可能對不同重要性的網頁有不同的更新頻率),更新網頁索引資料庫,以反映出網頁內容的更新情況,增加新的網頁信息,去除死鏈接,並根據網頁內容和鏈接關系的變化重新排序。這樣,網頁的具體內容和變化情況就會反映到用戶查詢的結果中。
互聯網雖然只有一個,但各搜索引擎的能力和偏好不同,所以抓取的網頁各不相同,排序演算法也各不相同。大型搜索引擎的資料庫儲存了互聯網上幾億至幾十億的網頁索引,數據量達到幾千G甚至幾萬G。但即使最大的搜索引擎建立超過二十億網頁的索引資料庫,也只能佔到互聯網上普通網頁的不到30%,不同搜索引擎之間的網頁數據重疊率一般在70%以下。我們使用不同搜索引擎的重要原因,就是因為它們能分別搜索到不同的內容。而互聯網上有更大量的內容,是搜索引擎無法抓取索引的,也是我們無法用搜索引擎搜索到的。
你心裡應該有這個概念:搜索引擎只能搜到它網頁索引資料庫里儲存的內容。你也應該有這個概念:如果搜索引擎的網頁索引資料庫里應該有而你沒有搜出來,那是你的能力問題,學習搜索技巧可以大幅度提高你的搜索能力。
■ 全文搜索引擎
在搜索引擎分類部分我們提到過全文搜索引擎從網站提取信息建立網頁資料庫的概念。搜索引擎的自動信息搜集功能分兩種。一種是定期搜索,即每隔一段時間(比如Google一般是28天),搜索引擎主動派出「蜘蛛」程序,對一定IP地址范圍內的互聯網站進行檢索,一旦發現新的網站,它會自動提取網站的信息和網址加入自己的資料庫。
另一種是提交網站搜索,即網站擁有者主動向搜索引擎提交網址,它在一定時間內(2天到數月不等)定向向你的網站派出「蜘蛛」程序,掃描你的網站並將有關信息存入資料庫,以備用戶查詢。由於近年來搜索引擎索引規則發生了很大變化,主動提交網址並不保證你的網站能進入搜索引擎資料庫,因此目前最好的辦法是多獲得一些外部鏈接,讓搜索引擎有更多機會找到你並自動將你的網站收錄。
當用戶以關鍵詞查找信息時,搜索引擎會在資料庫中進行搜尋,如果找到與用戶要求內容相符的網站,便採用特殊的演算法——通常根據網頁中關鍵詞的匹配程度,出現的位置/頻次,鏈接質量等——計算出各網頁的相關度及排名等級,然後根據關聯度高低,按順序將這些網頁鏈接返回給用戶。
2. 搜索引擎工作原理是什麼為什麼要了解搜索引擎工作原理
搜索引擎的英文為search engine。搜索引擎是一個對互聯網信息資源進行搜索整理和分類,並儲存在網路資料庫中供用戶查詢的系統,包括信息搜集、信息分類、用戶查詢三部分。
從使用者的角度看,搜索引擎提供一個包含搜索框的頁面,在搜索框輸入詞語,通過瀏覽器提交給搜索引擎後,搜索引擎就會返回跟用戶輸入的內容相關的信息列表。其實,搜索引擎涉及多領域的理論和技術:數字圖書館、資料庫、信息檢索、信息提取、人工智慧、機器學習、自然語言處理、計算機語言學、統計數據分析、數據挖掘、計算機網路、分布式處理等,具有綜合性和挑戰性。
搜索引擎的用途,對普通網民而言,搜索引擎則僅僅是一種查詢工具,作為工具,使用者要了解搜索引擎的功用、性能,探討並掌握其使用方法和技巧。對商家來說,搜索引擎是一種贏利的產品或服務,而作為產品,搜索引擎商要研製、改進和創新其搜索技術;作為服務,搜索引擎營銷商要研究搜索引擎優化和推廣。利用搜索引擎的目的不同,構成了搜索引擎研究的不同群體和對搜索引擎不同角度不同側重的研究。
搜索引擎的工作原理包括如下三個過程:首先在互聯中發現、搜集網頁信息;同時對信息進行提取和組織建立索引庫;再由檢索器根據用戶輸入的查詢關鍵字,在索引庫中快速檢出文檔,進行文檔與查詢的相關度評價,對將要輸出的結果進行排序,並將查詢結果返回給用戶。
1、抓取網頁。每個獨立的搜索引擎都有自己的網頁抓取程序(spider)。Spider順著網頁中的超鏈接,連續地抓取網頁。被抓取的網頁被稱之為網頁快照。由於互聯網中超鏈接的應用很普遍,理論上,從一定范圍的網頁出發,就能搜集到絕大多數的網頁。
2、處理網頁。搜索引擎抓到網頁後,還要做大量的預處理工作,才能提供檢索服務。其中,最重要的就是提取關鍵詞,建立索引庫和索引。其他還包括去除重復網頁、分詞(中文)、判斷網頁類型、分析超鏈接、計算網頁的重要度/豐富度等。
3、提供檢索服務。用戶輸入關鍵詞進行檢索,搜索引擎從索引資料庫中找到匹配該關鍵詞的網頁;為了用戶便於判斷,除了網頁標題和URL外,還會提供一段來自網頁的摘要以及其他信息。
3. 搜索引擎的工作原理
在搜索引擎分類部分我們提到過全文搜索引擎從網站提取信息建立網頁資料庫的概念。搜索引擎的自動信息搜集功能分兩種。一種是定期搜索,即每隔一段時間(比如Google一般是28天),搜索引擎主動派出「蜘蛛」程序,對一定IP地址范圍內的互聯網站進行檢索,一旦發現新的網站,它會自動提取網站的信息和網址加入自己的資料庫。
另一種是提交網站搜索,即網站擁有者主動向搜索引擎提交網址,它在一定時間內(2天到數月不等)定向向你的網站派出「蜘蛛」程序,掃描你的網站並將有關信息存入資料庫,以備用戶查詢。由於近年來搜索引擎索引規則發生了很大變化,主動提交網址並不保證你的網站能進入搜索引擎資料庫,因此目前最好的辦法是多獲得一些外部鏈接,讓搜索引擎有更多機會找到你並自動將你的網站收錄。
當用戶以關鍵詞查找信息時,搜索引擎會在資料庫中進行搜尋,如果找到與用戶要求內容相符的網站,便採用特殊的演算法——通常根據網頁中關鍵詞的匹配程度,出現的位置/頻次,鏈接質量等——計算出各網頁的相關度及排名等級,然後根據關聯度高低,按順序將這些網頁鏈接返回給用戶。
4. 什麼是搜索引擎及搜索引擎的工作原理
搜索引擎(Search Engine)是指根據一定的策略、運用特定的計算機程序從互聯網上搜集信息,在對信息進行組織和處理後,為用戶提供檢索服務,將用戶檢索相關的信息展示給用戶的系統。搜索引擎包括全文索引、目錄索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、門戶搜索引擎與免費鏈接列表等。
工作原理
第一步:爬行
搜索引擎是通過一種特定規律的軟體跟蹤網頁的鏈接,從一個鏈接爬到另外一個鏈接,像蜘蛛在蜘蛛網上爬行一樣,所以被稱為「蜘蛛」也被稱為「機器人」。搜索引擎蜘蛛的爬行是被輸入了一定的規則的,它需要遵從一些命令或文件的內容。
第二步:抓取存儲
搜索引擎是通過蜘蛛跟蹤鏈接爬行到網頁,並將爬行的數據存入原始頁面資料庫。其中的頁面數據與用戶瀏覽器得到的HTML是完全一樣的。搜索引擎蜘蛛在抓取頁面時,也做一定的重復內容檢測,一旦遇到權重很低的網站上有大量抄襲、採集或者復制的內容,很可能就不再爬行。
第三步:預處理
搜索引擎將蜘蛛抓取回來的頁面,進行各種步驟的預處理。
⒈提取文字
⒉中文分詞
⒊去停止詞
⒋消除噪音(搜索引擎需要識別並消除這些雜訊,比如版權聲明文字、導航條、廣告等……)
5.正向索引
6.倒排索引
7.鏈接關系計算
8.特殊文件處理
除了HTML 文件外,搜索引擎通常還能抓取和索引以文字為基礎的多種文件類型,如
PDF、Word、WPS、XLS、PPT、TXT 文件等。我們在搜索結果中也經常會看到這些文件類型。 但搜索引擎還不能處理圖片、視頻、Flash
這類非文字內容,也不能執行腳本和程序。
第四步:排名
用戶在搜索框輸入關鍵詞後,排名程序調用索引庫數據,計算排名顯示給用戶,排名過程與用戶直接互動的。但是,由於搜索引擎的數據量龐大,雖然能達到每日都有小的更新,但是一般情況搜索引擎的排名規則都是根據日、周、月階段性不同幅度的更新。
選擇
與網站內容相關
搜索次數多,競爭小
主關鍵詞,不可太寬泛
主關鍵詞,不太特殊
商業價值
提取文字
中文分詞
去停止詞
消除雜訊
去重
正向索引
倒排索引
鏈接關系計算
特殊文件處理
5. 搜索引擎的工作原理是什麼及發展歷史
搜索引擎(Search Engine)是指根據一定的策略、運用特定的計算機程序從互聯網上搜集信息,在對信息進行組織和處理後,為用戶提供檢索服務,將用戶檢索相關的信息展示給用戶的系統。搜索引擎包括全文索引、目錄索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、門戶搜索引擎與免費鏈接列表等。
第一代:分類目錄時代(人工時代)
不知道大家時候在自己的搜索引擎首頁是否有設置過導航網站這個網址作為自己的首頁呢?其實這個網址就是搜索引擎第一代的代表。我們可以從這個導航網站這個網站裡面看到,裡面幾乎都是一些分類網址,幾乎在互聯網上的,這個網站裡面都一應俱全,從這里我們可以看出,這個網站是一個導航網站,也可以說分類目錄網站,用戶可以從這個分類目錄里找到自己想要的東西,這就是搜索引擎第一代。
2第二代:文本檢索時代(海量自動獲取與排序清單)
到了這一代,搜索引擎查詢信息的方法則是通過用戶所輸入的查詢信息提交給伺服器,伺服器通過查閱,返回給用戶一些相關程度高的信息。這代的搜索引擎的信息檢索模型主要包括例如布爾模型、概率模型或者向量空間模型。通過這些模型來計算用戶輸入的查詢信息是否與網頁內容相關程度高低,將相關度高的則返回給用戶。採取這種模式的搜索引擎主要是一些早期的搜索引擎,例如像Alta Vista、Excite等等。這就是搜索引擎第二代。
3第三代:整合分析時代(立體搜索與結果整合)
這一代的搜索引擎所使用的方法大概是和我們今天的網站的外部鏈接形式基本相同,在當時,外部鏈接代表的是一種推薦的含義,通過每個網站的推薦鏈接的數量來判斷一個網站的流行性和重要性。然後搜索引擎再結合網頁內容的重要性來和相似程度來改善用戶搜索的信息質量。這種模式的首先使用者是google,google不僅為首次使用並且大獲成功,這一成就在當時引起了學術界和其他商業搜索引擎的極度關注。後來,學術界以此成就為基礎,提出了更多的改進的鏈接分析演算法。大多數的主流搜索引擎都在使用分析鏈接技術演算法。這就是第三代搜索引擎
將用戶輸入關鍵字,反饋回來的海量信息,智能整合成一個門戶網站式的界面,讓用戶感覺每個關鍵字,都是一個完整的信息世界。而不是第二代一樣返回一個清單,整個清單夾雜著大量用戶不關心、且沒有分類的鏈接。第三代搜索引擎的典型特徵就是:智慧整合第二代返回的信息為立體的界面。讓用戶能輕易地一眼進入到最相關的分類區域去獲取信息。
4第四代:用戶中心時代(以移動互聯網為標志的個人需求精準搜索)
第四代,也就是我們所用的搜索引擎技術也是互聯網上面用的最普遍的。主要是以用戶為中心。當客戶輸入查詢的請求時候,同一個查詢的請求關鍵詞在用戶的背後可能是不同查詢要求。例如用戶輸入的是「蘋果」,那麼作為一個想要購買iPhone的用戶和一個果農來說,那麼要求就是大大的不一樣。甚至是同一個用戶,所查詢的關鍵詞一樣,也會因為所在的時間和所在的場合不同而返回的結果不同的所有主流搜索引擎,都在致力於解決同一個問題:怎樣才能從用戶所輸入的一個簡短的關鍵詞來判斷用戶的真正查詢請求。這一代搜索引擎主要是以用戶為中心。這就是第四代搜索引擎。
6. 簡述搜索引擎的工作原理
一個搜索引擎由搜索器、索引器、檢索器和用戶介面等四個部分組成。
1.搜索器
搜索器的功能是在互聯網中漫遊,發現和搜集信息。它常常是一個計算機程序,日夜不停地運行。它要盡可能多、盡可能快地搜集各種類型的新信息,同時因為互聯網上的信息更新很快,所以還要定期更新已經搜集過的舊信息,以避免死連接和無效連接。目前有兩種搜集信息的策略:
● 從一個起始URL集合開始,順著這些URL中的超鏈(Hyperlink),以寬度優先、深度優先或啟發式方式循環地在互聯網中發現信息。這些起始URL可以是任意的URL,但常常是一些非常流行、包含很多鏈接的站點(如Yahoo!)。
● 將Web空間按照域名、IP地址或國家域名劃分,每個搜索器負責一個子空間的窮盡搜索。
搜索器搜集的信息類型多種多樣,包括HTML、XML、Newsgroup文章、FTP文件、字處理文檔、多媒體信息。
搜索器的實現常常用分布式、並行計算技術,以提高信息發現和更新的速度。商業搜索引擎的信息發現可以達到每天幾百萬網頁。
2.索引器
索引器的功能是理解搜索器所搜索的信息,從中抽取出索引項,用於表示文檔以及生成文檔庫的索引表。
索引項有客觀索引項和內容索引項兩種:客觀項與文檔的語意內容無關,如作者名、URL、更新時間、編碼、長度、鏈接流行度(Link Popularity)等等;內容索引項是用來反映文檔內容的,如關鍵詞及其權重、短語、單字等等。內容索引項可以分為單索引項和多索引項(或稱短語索引項)兩種。單索引項對於英文來講是英語單詞,比較容易提取,因為單詞之間有天然的分隔符(空格);對於中文等連續書寫的語言,必須進行詞語的切分。
在搜索引擎中,一般要給單索引項賦與一個權值,以表示該索引項對文檔的區分度,同時用來計算查詢結果的相關度。使用的方法一般有統計法、資訊理論法和概率法。短語索引項的提取方法有統計法、概率法和語言學法。
索引表一般使用某種形式的倒排表(Inversion List),即由索引項查找相應的文檔。索引表也可能要記錄索引項在文檔中出現的位置,以便檢索器計算索引項之間的相鄰或接近關系(proximity)。
索引器可以使用集中式索引演算法或分布式索引演算法。當數據量很大時,必須實現即時索引(Instant Indexing),否則不能夠跟上信息量急劇增加的速度。索引演算法對索引器的性能(如大規模峰值查詢時的響應速度)有很大的影響。一個搜索引擎的有效性在很大程度上取決於索引的質量。
3.檢索器
檢索器的功能是根據用戶的查詢在索引庫中快速檢出文檔,進行文檔與查詢的相關度評價,對將要輸出的結果進行排序,並實現某種用戶相關性反饋機制。
檢索器常用的信息檢索模型有集合理論模型、代數模型、概率模型和混合模型四種。
4.用戶介面
用戶介面的作用是輸入用戶查詢、顯示查詢結果、提供用戶相關性反饋機制。主要的目的是方便用戶使用搜索引擎,高效率、多方式地從搜索引擎中得到有效、及時的信息。用戶介面的設計和實現使用人機交互的理論和方法,以充分適應人類的思維習慣。 用戶輸入介面可以分為簡單介面和復雜介面兩種。
簡單介面只提供用戶輸入查詢串的文本框;復雜介面可以讓用戶對查詢進行限制,如邏輯運算(與、或、非;+、-)、相近關系(相鄰、NEAR)、域名范圍(如.e、.com)、出現位置(如標題、內容)、信息時間、長度等等。
7. 搜索引擎基本工作原理是怎樣的
第一步:抓取網頁。
每個獨立的搜索引擎都有自己的網頁抓取程序———「蜘蛛」(Spider)。Spider順著網頁中的超連接
8. 網路搜索引擎的工作原理
搜索引擎,通常指的是收集了網際網路上幾千萬到幾十億個網頁並對網頁中的每一個詞(即關鍵詞)進行索引,建立索引資料庫的全文搜索引擎。當用戶查找某個關鍵詞的時候,所有在頁面內容中包含了該關鍵詞的網頁都將作為搜索結果被搜出來。在經過復雜的演算法進行排序後,這些結果將按照與搜索關鍵詞的相關度高低,依次排列。
編輯本段搜索引擎結構劃分
搜索引擎的基本上分為四個步驟:
1. 爬行和抓取 搜索引擎派出一個能夠在網上發現新網頁並抓文件的程序,這個程序通常稱之為蜘蛛。搜索引擎從已知的資料庫出發,就像正常用戶的瀏覽器一樣訪問這些網頁並抓取文件。搜索引擎會跟蹤網頁中的鏈接,訪問更多的網頁,這個過程就叫爬行。這些新的網址會被存入資料庫等待抓取。所以跟蹤網頁鏈接是搜索引擎蜘蛛發現新網址的最基本的方法,所以反向鏈接成為搜索引擎優化的最基本因素之一。搜索引擎抓取的頁面文件與用戶瀏覽器得到的完全一樣,抓取的文件存入資料庫。
2.索引 蜘蛛抓取的頁面文件分解、分析,並以巨大表格的形式存入資料庫,這個過程既是索引(index).在索引資料庫中,網頁文字內容,關鍵詞出現的位置、字體、顏色、加粗、斜體等相關信息都有相應記錄。
3.搜索詞處理 用戶在搜索引擎界面輸入關鍵詞,單擊「搜索」按鈕後,搜索引擎程序即對搜索詞進行處理,如中文特有的分詞處理,去除停止詞,判斷是否需要啟動整合搜索,判斷是否有拼寫錯誤或錯別字等情況。搜索詞的處理必須十分快速。
4.排序 對搜索詞處理後,搜索引擎程序便開始工作,從索引資料庫中找出所有包含搜索詞的網頁,並且根據排名演算法計算出哪些網頁應該排在前面,然後按照一定格式返回到「搜索」頁面。 再好的搜索引擎也無法與人相比,這就是為什麼網站要進行搜索引擎優化。沒有SEO的幫助,搜索引擎常常並不能正確的返回最相關、最權威、最有用的信息。
9. 百度搜索引擎工作原理是什麼
Baispider根據上述網站設置的協議對站點頁面進行抓取,但是不可能做到對所有站點一視同仁,會綜合考慮站點實際情況確定一個抓取配額,每天定量抓取站點內容,即我們常說的抓取頻次。那麼網路搜索引擎是根據什麼指標來確定對一個網站的抓取頻次的呢,主要指標有四個:
1,網站更新頻率:更新快多來,更新慢少來,直接影響Baispider的來訪頻率
2,網站更新質量:更新頻率提高了,僅僅是吸引了Baispier的注意,Baispider對質量是有嚴格要求的,如果網站每天更新出的大量內容都被Baispider判定為低質頁面,依然沒有意義。
3,連通度:網站應該安全穩定、對Baispider保持暢通,經常給Baispider吃閉門羹可不是好事情
4,站點評價:網路搜索引擎對每個站點都會有一個評價,且這個評價會根據站點情況不斷變化,是網路搜索引擎對站點的一個基礎打分(絕非外界所說的網路權重),是網路內部一個非常機密的數據。站點評級從不獨立使用,會配合其它因子和閾值一起共同影響對網站的抓取和排序。
10. 搜索引擎的工作原理是什麼
搜索引擎的工作原理總共有四步:
第一步:爬行,搜索引擎是通過一種特定規律的軟體跟蹤網頁的鏈接,從一個鏈接爬到另外一個鏈
接,所以稱為爬行。
第二步:抓取存儲,搜索引擎是通過蜘蛛跟蹤鏈接爬行到網頁,並將爬行的數據存入原始頁面資料庫。
第三步:預處理,搜索引擎將蜘蛛抓取回來的頁面,進行各種步驟的預處理。
第四步:排名,用戶在搜索框輸入關鍵詞後,排名程序調用索引庫數據,計算排名顯示給用戶,排名過程與用戶直接互動的。
不同的搜索引擎查出來的結果是根據引擎內部資料所決定的。比如:某一種搜索引擎沒有這種資料,您就查詢不到結果。
(10)搜索引擎工作原理擴展閱讀:
定義
一個搜索引擎由搜索器、索引器、檢索器和用戶接四個部分組成。搜索器的功能是在互聯網中漫遊,發現和搜集信息。索引器的功能是理解搜索器所搜索的信息,從中抽取出索引項,用於表示文檔以及生成文檔庫的索引表。
檢索器的功能是根據用戶的查詢在索引庫中快速檢出文檔,進行文檔與查詢的相關度評價,對將要輸出的結果進行排序,並實現某種用戶相關性反饋機制。用戶介面的作用是輸入用戶查詢、顯示查詢結果、提供用戶相關性反饋機制。
起源
所有搜索引擎的祖先,是1990年由Montreal的McGill University三名學生(Alan Emtage、Peter
Deutsch、Bill Wheelan)發明的Archie(Archie FAQ)。Alan Emtage等想到了開發一個可以用文件名查找文件的系統,於是便有了Archie。
Archie是第一個自動索引互聯網上匿名FTP網站文件的程序,但它還不是真正的搜索引擎。Archie是一個可搜索的FTP文件名列表,用戶必須輸入精確的文件名搜索,然後Archie會告訴用戶哪一個FTP地址可以下載該文件 。
由於Archie深受歡迎,受其啟發,Nevada System Computing Services大學於1993年開發了一個Gopher(Gopher FAQ)搜索工具Veronica(Veronica FAQ)。Jughead是後來另一個Gopher搜索工具。
參考資料來源:網路-搜索引擎