搜索等機制
Ⅰ 搜索引擎的基本工作機制
一個搜索引擎由搜索器、索引器、檢索器和用戶介面等四個部分組成。
1.搜索器
搜索器的功能是在互聯網中漫遊,發現和搜集信息。它常常是一個計算機程序,日夜不停地運行。它要盡可能多、盡可能快地搜集各種類型的新信息,同時因為互聯網上的信息更新很快,所以還要定期更新已經搜集過的舊信息,以避免死連接和無效連接。目前有兩種搜集信息的策略:
● 從一個起始URL集合開始,順著這些URL中的超鏈(Hyperlink),以寬度優先、深度優先或啟發式方式循環地在互聯網中發現信息。這些起始URL可以是任意的URL,但常常是一些非常流行、包含很多鏈接的站點(如Yahoo!)。
● 將Web空間按照域名、IP地址或國家域名劃分,每個搜索器負責一個子空間的窮盡搜索。
搜索器搜集的信息類型多種多樣,包括HTML、XML、Newsgroup文章、FTP文件、字處理文檔、多媒體信息。
搜索器的實現常常用分布式、並行計算技術,以提高信息發現和更新的速度。商業搜索引擎的信息發現可以達到每天幾百萬網頁。
2.索引器
索引器的功能是理解搜索器所搜索的信息,從中抽取出索引項,用於表示文檔以及生成文檔庫的索引表。
索引項有客觀索引項和內容索引項兩種:客觀項與文檔的語意內容無關,如作者名、URL、更新時間、編碼、長度、鏈接流行度(Link Popularity)等等;內容索引項是用來反映文檔內容的,如關鍵詞及其權重、短語、單字等等。內容索引項可以分為單索引項和多索引項(或稱短語索引項)兩種。單索引項對於英文來講是英語單詞,比較容易提取,因為單詞之間有天然的分隔符(空格);對於中文等連續書寫的語言,必須進行詞語的切分。
在搜索引擎中,一般要給單索引項賦與一個權值,以表示該索引項對文檔的區分度,同時用來計算查詢結果的相關度。使用的方法一般有統計法、資訊理論法和概率法。短語索引項的提取方法有統計法、概率法和語言學法。
索引表一般使用某種形式的倒排表(Inversion List),即由索引項查找相應的文檔。索引表也可能要記錄索引項在文檔中出現的位置,以便檢索器計算索引項之間的相鄰或接近關系(proximity)。
索引器可以使用集中式索引演算法或分布式索引演算法。當數據量很大時,必須實現即時索引(Instant Indexing),否則不能夠跟上信息量急劇增加的速度。索引演算法對索引器的性能(如大規模峰值查詢時的響應速度)有很大的影響。一個搜索引擎的有效性在很大程度上取決於索引的質量。
3.檢索器
檢索器的功能是根據用戶的查詢在索引庫中快速檢出文檔,進行文檔與查詢的相關度評價,對將要輸出的結果進行排序,並實現某種用戶相關性反饋機制。
檢索器常用的信息檢索模型有集合理論模型、代數模型、概率模型和混合模型四種。
4.用戶介面
用戶介面的作用是輸入用戶查詢、顯示查詢結果、提供用戶相關性反饋機制。主要的目的是方便用戶使用搜索引擎,高效率、多方式地從搜索引擎中得到有效、及時的信息。用戶介面的設計和實現使用人機交互的理論和方法,以充分適應人類的思維習慣。 用戶輸入介面可以分為簡單介面和復雜介面兩種。
簡單介面只提供用戶輸入查詢串的文本框;復雜介面可以讓用戶對查詢進行限制,如邏輯運算(與、或、非;+、-)、相近關系(相鄰、NEAR)、域名范圍(如.e、.com)、出現位置(如標題、內容)、信息時間、長度等等。目前一些公司和機構正在考慮制定查詢選項的標准。
Ⅱ 網路搜索引擎按機制分有幾種其特點是什麼
可分為三種
搜索引擎分類
搜索引擎按其工作方式主要可分為三種,分別是全文搜索引擎(Full Text Search Engine)、目錄索引類搜索引擎(Search Index/Directory)和元搜索引擎(Meta Search Engine)。
全文搜索引擎
全文搜索引擎是名副其實的搜索引擎,國外具代表性的有Google、Fast/AllTheWeb、AltaVista、Inktomi、Teoma、WiseNut等,國內著名的有網路(Bai)。它們都是通過從互聯網上提取的各個網站的信息(以網頁文字為主)而建立的資料庫中,檢索與用戶查詢條件匹配的相關記錄,然後按一定的排列順序將結果返回給用戶,因此他們是真正的搜索引擎。
從搜索結果來源的角度,全文搜索引擎又可細分為兩種,一種是擁有自己的檢索程序(Indexer),俗稱「蜘蛛」(Spider)程序或「機器人」(Robot)程序,並自建網頁資料庫,搜索結果直接從自身的資料庫中調用,如上面提到的7家引擎;另一種則是租用其他引擎的資料庫,並按自定的格式排列搜索結果,如Lycos引擎。
目錄索引
目錄索引雖然有搜索功能,但在嚴格意義上算不上是真正的搜索引擎,僅僅是按目錄分類的網站鏈接列表而已。用戶完全可以不用進行關鍵詞(Keywords)查詢,僅靠分類目錄也可找到需要的信息。目錄索引中最具代表性的莫過於大名鼎鼎的Yahoo雅虎。其他著名的還有Open Directory Project(DMOZ)、LookSmart、About等。國內的搜狐、新浪、網易搜索也都屬於這一類。
元搜索引擎(META Search Engine)
元搜索引擎在接受用戶查詢請求時,同時在其他多個引擎上進行搜索,並將結果返回給用戶。著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等(元搜索引擎列表),中文元搜索引擎中具代表性的有搜星搜索引擎。在搜索結果排列方面,有的直接按來源引擎排列搜索結果,如Dogpile,有的則按自定的規則將結果重新排列組合,如Vivisimo。
除上述三大類引擎外,還有以下幾種非主流形式:
集合式搜索引擎:如HotBot在2002年底推出的引擎。該引擎類似META搜索引擎,但區別在於不是同時調用多個引擎進行搜索,而是由用戶從提供的4個引擎當中選擇,因此叫它「集合式」搜索引擎更確切些。
門戶搜索引擎:如AOL Search、MSN Search等雖然提供搜索服務,但自身即沒有分類目錄也沒有網頁資料庫,其搜索結果完全來自其他引擎。
免費鏈接列表(Free For All Links,簡稱FFA):這類網站一般只簡單地滾動排列鏈接條目,少部分有簡單的分類目錄,不過規模比起Yahoo等目錄索引來要小得多。
由於上述網站都為用戶提供搜索查詢服務,為方便起見,我們通常將其統稱為搜索引擎。
搜索引擎基本工作原理
了解搜索引擎的工作原理對我們日常搜索應用和網站提交推廣都會有很大幫助。
全文搜索引擎
在搜索引擎分類部分我們提到過全文搜索引擎從網站提取信息建立網頁資料庫的概念。搜索引擎的自動信息搜集功能分兩種。一種是定期搜索,即每隔一段時間(比如Google一般是28天),搜索引擎主動派出「蜘蛛」程序,對一定IP地址范圍內的互聯網站進行檢索,一旦發現新的網站,它會自動提取網站的信息和網址加入自己的資料庫。
另一種是提交網站搜索,即網站擁有者主動向搜索引擎提交網址,它在一定時間內(2天到數月不等)定向向你的網站派出「蜘蛛」程序,掃描你的網站並將有關信息存入資料庫,以備用戶查詢。由於近年來搜索引擎索引規則發生了很大變化,主動提交網址並不保證你的網站能進入搜索引擎資料庫,因此目前最好的辦法是多獲得一些外部鏈接,讓搜索引擎有更多機會找到你並自動將你的網站收錄。
當用戶以關鍵詞查找信息時,搜索引擎會在資料庫中進行搜尋,如果找到與用戶要求內容相符的網站,便採用特殊的演算法——通常根據網頁中關鍵詞的匹配程度,出現的位置/頻次,鏈接質量等——計算出各網頁的相關度及排名等級,然後根據關聯度高低,按順序將這些網頁鏈接返回給用戶。
目錄索引
與全文搜索引擎相比,目錄索引有許多不同之處。
首先,搜索引擎屬於自動網站檢索,而目錄索引則完全依賴手工操作。用戶提交網站後,目錄編輯人員會親自瀏覽你的網站,然後根據一套自定的評判標准甚至編輯人員的主觀印象,決定是否接納你的網站。
其次,搜索引擎收錄網站時,只要網站本身沒有違反有關的規則,一般都能登錄成功。而目錄索引對網站的要求則高得多,有時即使登錄多次也不一定成功。尤其象Yahoo!這樣的超級索引,登錄更是困難。(由於登錄Yahoo!的難度最大,而它又是商家網路營銷必爭之地,所以我們會在後面用專門的篇幅介紹登錄Yahoo雅虎的技巧)
此外,在登錄搜索引擎時,我們一般不用考慮網站的分類問題,而登錄目錄索引時則必須將網站放在一個最合適的目錄(Directory)。
最後,搜索引擎中各網站的有關信息都是從用戶網頁中自動提取的,所以用戶的角度看,我們擁有更多的自主權;而目錄索引則要求必須手工另外填寫網站信息,而且還有各種各樣的限制。更有甚者,如果工作人員認為你提交網站的目錄、網站信息不合適,他可以隨時對其進行調整,當然事先是不會和你商量的。
目錄索引,顧名思義就是將網站分門別類地存放在相應的目錄中,因此用戶在查詢信息時,可選擇關鍵詞搜索,也可按分類目錄逐層查找。如以關鍵詞搜索,返回的結果跟搜索引擎一樣,也是根據信息關聯程度排列網站,只不過其中人為因素要多一些。如果按分層目錄查找,某一目錄中網站的排名則是由標題字母的先後順序決定(也有例外)。
目前,搜索引擎與目錄索引有相互融合滲透的趨勢。原來一些純粹的全文搜索引擎現在也提供目錄搜索,如Google就借用Open Directory目錄提供分類查詢。而象 Yahoo! 這些老牌目錄索引則通過與Google等搜索引擎合作擴大搜索范圍。在默認搜索模式下,一些目錄類搜索引擎首先返回的是自己目錄中匹配的網站,如國內搜狐、新浪、網易等;而另外一些則默認的是網頁搜索,如Yahoo。
搜索引擎的第三定律
搜索引擎走到今天,已經是一個結束過去,開辟未來的時候了。為了說清楚我所講的第三定律,我們先來回顧一下第一和第二定律。
第一定律 相關性定律
聽起來象是一篇學術論文,的確,就連第一,第二定律的提法以前也沒有過,但是第一,第二定律的內容確早已在業界和學術界得到了公認。其實這第一定律是早在互聯網出現之前就被學術界廣泛研究過的,那就是所謂的相關性定律。這個領域那時叫情報檢索,或信息檢索,也有叫全文檢索的。
那時的相關性都是基於詞頻統計的,也就是說,當用戶輸入檢索詞時,搜索引擎去找那些檢索詞在文章(網頁)中出現頻率較高的,位置較重要的,再加上一些對檢索詞本身常用程度的加權,最後排出一個結果來(檢索結果頁面) 。早期的搜索引擎結果排序都是基於本文的第一定律的,如Infoseek,Excite,Lycos等,它們基本上是沿用了網路時代之前學術界的研究成果,工業界的主要精力放在處理大訪問量和大數據量上,對相關性排序沒有突破。
詞頻統計其實根本沒有利用任何跟網路有關的特性,是前網路時代的技術。然而,網路時代的主要文獻是以網頁的形式存在的,而幾乎每個人都可以隨心所欲地在網上發表各種內容,詞頻相同的兩個網頁,質量相差可以很遠,可是按照搜索引擎的第一定律,對這兩個網頁的排序應該是一樣的。為了能夠派在某些檢索結果的前幾位,許多網頁內容的製作者絞盡腦汁,在其頁面上堆砌關鍵詞,搜索引擎對此防不勝防,苦不堪言。這種情況到了 1996年開始有了改變。
第二定律 人氣質量定律
1996年4月,我到賭城拉斯維加斯開一個有關信息檢索方面的學術會議,會議的內容就象拉斯維加斯的天氣一樣,照例比較枯燥乏味。但遠離公司的我,卻難得有一個靜下心來認真思考問題的機會。就在聽一個毫不相乾的論文演講的時候,我突然把科學引文索引的機制跟Web上的超級鏈接聯系起來了 - 感謝北大,她在我上大三的時候就教授了我科學引文索引的機制,美國恐怕沒有一所大學會在你本科的時候教這玩藝兒。
科學引文索引的機制,說白了就是誰的論文被引用次數多,誰就被認為是權威,論文就是好論文。這個思路移植到網上就是誰的網頁被鏈接次數多,那個網頁就被認為是質量高,人氣旺。在加上相應的鏈接文字分析,就可以用在搜索結果的排序上了。這就引出了搜索引擎的第二定律:人氣質量定律。根據這一定律,搜索結果的相關性排序,並不完全依賴於詞頻統計,而是更多地依賴於超鏈分析。
我意識到這是一個突破性的東西,回去以後就很快總結了思路,於96年6月申請了這一方面的美國專利。1999年 7月6號,美國專利和商標局批准了專利號為5,920,859的,以我為唯一發明人的專利。大約在96年底,斯坦福大學計算機系的兩位研究生也想到了同樣的解決方法,他們後來創立了一個叫Google的搜索引擎,Google的網站上至今仍然說他們的這項技術是Patent-pending (專利申請中) ,不知道美國專利局是不是還會再批這樣的專利。Anyway, 超鏈分析的方法98年以後逐漸被各大搜索引擎所接受,由於鏈接是網路內容的一個根本特性,這時候的搜索引擎才開始真正利用網路時代的檢索技術。
世事難料,2000年起網路泡沫迅速破滅,各大搜索引擎要麼遭人收購,要麼推遲上市,所有使用人氣質量定律的搜索引擎公司都未能倖免。那麼,搜索引擎的出路到底在哪兒?
第三定律 自信心定律
人氣質量定律解決的還是一個技術層面的問題,然而搜索引擎從誕生的那一天起,從來就不是一個純技術現像,它融合了技術,文化,市場等各個層面的因素。解決搜索引擎公司的生存和發展問題需要搜索引擎的第三定律--自信心定律。
1998年的時候,沒有太多的人拿一家遠在矽谷500英里以外,剛剛成立的,叫作GoTo.com(現已更名為Overture)的公司當回事兒。它不過是買了一個搜索引擎的技術服務,然後再向那些網站的擁有者們拍賣他們網站在GoTo檢索結果中的排名,誰付的錢多,誰的網站就排在前面,而且付費是根據網民點擊該網站的情況來計算的,僅僅在搜索結果中出現並不需要付費。這就是自信心定律的最早實踐者!根據這一定律,搜索結果的相關性排序,除了詞頻統計和超鏈分析之外,更注重的是競價拍賣。誰對自己的網站有信心,誰就排在前面。有信心的表現就是願意為這個排名付錢。需要聲明的是,自信心定律也是我自己給這一模式起的名字,以前的文獻中並沒有人這樣總結過。
今天,在網路業一片蕭條,那斯達克風聲鶴唳的時候,GoTo卻如日中天,市值高達13億美金,收入高達雅虎總收入的35%。反觀門戶網站,有哪一個能從它們的搜索引擎服務中賺出總收入的三分之一呢?究其原因,就是因為GoTo最早實踐了搜索引擎的自信心定律。以前的搜索引擎都是靠CPM來收費的,而CPM是從傳統廣告業借鑒過來的,沒有考慮網路媒體即時性,交互性,易競價的特點,而競價排名,點擊收費則是為網站擁有者直接提供銷售線索,而不是傳統意義上的廣告宣傳。自信心定律一改過去搜索引擎靠CPM收錢的尷尬局面,開創了真正屬於互聯網的收費模式。
Ⅲ 百度搜索的排名機制
HTML頁面標題。在搜索引擎演算法中,HTML頁面標題可以立即影響網站在搜索引擎結果,其重要專性也一屬直以來是最重要的。
頁面上的文字內容。這個道理很簡答淺顯,但很多站長可能會很容易忽略它。的確,可能有些頁面實例上並沒有使用關鍵字但取得不錯的排名,但不要抱僥幸心理。有些SEO建議每個頁面上文字量250~1000,而關鍵字的密碼從5%~10%。但我覺得,只要在不影響高質量文案意義的情況下,要盡可能的插入關鍵字。
外部鏈接(數量和質量)。外部鏈接如此重要,是因為他們指出了頁面的質量、受歡迎程度。最能提升排名的鏈接是那些來自首頁的鏈接。如果增加網站外部鏈接的數量和質量,是每個站長都應該去好好想辦法的。我覺得在站長網上發表文字,就是一種很好的方法。
外部鏈接錨文件。對於帶鏈接文本的鏈接,在搜索引擎演算法中也是十分重要的。有助於提高頁面的排名。目前我只是通過選擇適當的網頁進行友鏈的交換形式,在做這一塊工作。
域名的年齡。可能各位站長會發現,較新的域名排名上升難度會比舊的域名要大,這是因為搜索引擎對於網站年齡的友好性比較高,那麼各位站長,我們必須要做的一件事,就是「等待變老」。
Ⅳ Google,Yahoo,百度等主流搜索引擎的排名機制是什麼
Google做的是右側競價
網路做的是左側前四位和右側8位的競價
雅虎已經退出中國搜索市場。
Ⅳ 搜索引擎檢索機制分為哪3種
搜索引擎檢索機制:
搜索引擎按其工作方式主要可分為三種,分別是全文搜索引擎(Full
Text
Search
Engine)、目錄索引類搜索引擎(Search
Index/Directory)和元搜索引擎(Meta
Search
Engine)。
Ⅵ 搜索引擎工作原理
搜索引擎的工作原理總共有四步:
第一步:爬行,搜索引擎是通過一種特定規律的軟體跟蹤網頁的鏈接,從一個鏈接爬到另外一個鏈
接,所以稱為爬行。
第二步:抓取存儲,搜索引擎是通過蜘蛛跟蹤鏈接爬行到網頁,並將爬行的數據存入原始頁面資料庫。
第三步:預處理,搜索引擎將蜘蛛抓取回來的頁面,進行各種步驟的預處理。
第四步:排名,用戶在搜索框輸入關鍵詞後,排名程序調用索引庫數據,計算排名顯示給用戶,排名過程與用戶直接互動的。
不同的搜索引擎查出來的結果是根據引擎內部資料所決定的。比如:某一種搜索引擎沒有這種資料,您就查詢不到結果。
(6)搜索等機制擴展閱讀:
定義
一個搜索引擎由搜索器、索引器、檢索器和用戶接四個部分組成。搜索器的功能是在互聯網中漫遊,發現和搜集信息。索引器的功能是理解搜索器所搜索的信息,從中抽取出索引項,用於表示文檔以及生成文檔庫的索引表。
檢索器的功能是根據用戶的查詢在索引庫中快速檢出文檔,進行文檔與查詢的相關度評價,對將要輸出的結果進行排序,並實現某種用戶相關性反饋機制。用戶介面的作用是輸入用戶查詢、顯示查詢結果、提供用戶相關性反饋機制。
起源
所有搜索引擎的祖先,是1990年由Montreal的McGill University三名學生(Alan Emtage、Peter
Deutsch、Bill Wheelan)發明的Archie(Archie FAQ)。Alan Emtage等想到了開發一個可以用文件名查找文件的系統,於是便有了Archie。
Archie是第一個自動索引互聯網上匿名FTP網站文件的程序,但它還不是真正的搜索引擎。Archie是一個可搜索的FTP文件名列表,用戶必須輸入精確的文件名搜索,然後Archie會告訴用戶哪一個FTP地址可以下載該文件 。
由於Archie深受歡迎,受其啟發,Nevada System Computing Services大學於1993年開發了一個Gopher(Gopher FAQ)搜索工具Veronica(Veronica FAQ)。Jughead是後來另一個Gopher搜索工具。
參考資料來源:網路-搜索引擎
Ⅶ 搜索引擎檢索機制分為哪3種
搜索引擎分類
搜索引擎按其工作方式主要可分為三種,分別是全文搜索引擎(Full Text Search Engine)、目錄索引類搜索引擎(Search Index/Directory)和元搜索引擎(Meta Search Engine)。
全文搜索引擎
全文搜索引擎是名副其實的搜索引擎,國外具代表性的有Google、Fast/AllTheWeb、AltaVista、Inktomi、Teoma、WiseNut等,國內著名的有網路(Bai)。它們都是通過從互聯網上提取的各個網站的信息(以網頁文字為主)而建立的資料庫中,檢索與用戶查詢條件匹配的相關記錄,然後按一定的排列順序將結果返回給用戶,因此他們是真正的搜索引擎。
從搜索結果來源的角度,全文搜索引擎又可細分為兩種,一種是擁有自己的檢索程序(Indexer),俗稱「蜘蛛」(Spider)程序或「機器人」(Robot)程序,並自建網頁資料庫,搜索結果直接從自身的資料庫中調用,如上面提到的7家引擎;另一種則是租用其他引擎的資料庫,並按自定的格式排列搜索結果,如Lycos引擎。
目錄索引
目錄索引雖然有搜索功能,但在嚴格意義上算不上是真正的搜索引擎,僅僅是按目錄分類的網站鏈接列表而已。用戶完全可以不用進行關鍵詞(Keywords)查詢,僅靠分類目錄也可找到需要的信息。目錄索引中最
具代表性的莫過於大名鼎鼎的Yahoo雅虎。其他著名的還有Open Directory Project(DMOZ)、LookSmart、About等。國內的搜狐、新浪、網易搜索也都屬於這一類。
元搜索引擎(META Search Engine)
元搜索引擎在接受用戶查詢請求時,同時在其他多個引擎上進行搜索,並將結果返回給用戶。著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等(元搜索引擎列表),中文元搜索引擎中具代表性的有搜星搜索引擎。在搜索結果排列方面,有的直接按來源引擎排列搜索結果,如Dogpile,有的則按自定的規則將結果重新排列組合,如Vivisimo。
除上述三大類引擎外,還有以下幾種非主流形式:
集合式搜索引擎:如HotBot在2002年底推出的引擎。該引擎類似META搜索引擎,但區別在於不是同時調用多個引擎進行搜索,而是由用戶從提供的4個引擎當中選擇,因此叫它「集合式」搜索引擎更確切些。
門戶搜索引擎:如AOL Search、MSN Search等雖然提供搜索服務,但自身即沒有分類目錄也沒有網頁資料庫,其搜索結果完全來自其他引擎。
免費鏈接列表(Free For All Links,簡稱FFA):這類網站一般只簡單地滾動排列鏈接條目,少部分有簡單的分類目錄,不過規模比起Yahoo等目錄索引來要小得多。
由於上述網站都為用戶提供搜索查詢服務,為方便起見,我們通常將其統稱為搜索引擎。
搜索引擎基本工作原理
了解搜索引擎的工作原理對我們日常搜索應用和網站提交推廣都會有很大幫助。
全文搜索引擎
在搜索引擎分類部分我們提到過全文搜索引擎從網站提取信息建立網頁資料庫的概念。搜索引擎的自動信息搜集功能分兩種。一種是定期搜索,即每隔一段時間(比如Google一般是28天),搜索引擎主動派出「蜘蛛」程序,對一定IP地址范圍內的互聯網站進行檢索,一旦發現新的網站,它會自動提取網站的信息和網址加入自己的資料庫。
另一種是提交網站搜索,即網站擁有者主動向搜索引擎提交網址,它在一定時間內(2天到數月不等)定向向你的網站派出「蜘蛛」程序,掃描你的網站並將有關信息存入資料庫,以備用戶查詢。由於近年來搜索引擎索引規則發生了很大變化,主動提交網址並不保證你的網站能進入搜索引擎資料庫,因此目前最好的辦法是多獲得一些外部鏈接,讓搜索引擎有更多機會找到你並自動將你的網站收錄。
當用戶以關鍵詞查找信息時,搜索引擎會在資料庫中進行搜尋,如果找到與用戶要求內容相符的網站,便採用特殊的演算法——通常根據網頁中關鍵詞的匹配程度,出現的位置/頻次,鏈接質量等——計算出各網頁的相關度及排名等級,然後根據關聯度高低,按順序將這些網頁鏈接返回給用戶。
目錄索引
與全文搜索引擎相比,目錄索引有許多不同之處。
首先,搜索引擎屬於自動網站檢索,而目錄索引則完全依賴手工操作。用戶提交網站後,目錄編輯人員會親自瀏覽你的網站,然後根據一套自定的評判標准甚至編輯人員的主觀印象,決定是否接納你的網站。
其次,搜索引擎收錄網站時,只要網站本身沒有違反有關的規則,一般都能登錄成功。而目錄索引對網站的要求則高得多,有時即使登錄多次也不一定成功。尤其象Yahoo!這樣的超級索引,登錄更是困難。(由於登錄Yahoo!的難度最大,而它又是商家網路營銷必爭之地,所以我們會在後面用專門的篇幅介紹登錄Yahoo雅虎的技巧)
此外,在登錄搜索引擎時,我們一般不用考慮網站的分類問題,而登錄目錄索引時則必須將網站放在一個最合適的目錄(Directory)。
最後,搜索引擎中各網站的有關信息都是從用戶網頁中自動提取的,所以用戶的角度看,我們擁有更多的自主權;而目錄索引則要求必須手工另外填寫網站信息,而且還有各種各樣的限制。更有甚者,如果工作人員認為你提交網站的目錄、網站信息不合適,他可以隨時對其進行調整,當然事先是不會和你商量的。
目錄索引,顧名思義就是將網站分門別類地存放在相應的目錄中,因此用戶在查詢信息時,可選擇關鍵詞搜索,也可按分類目錄逐層查找。如以關鍵詞搜索,返回的結果跟搜索引擎一樣,也是根據信息關聯程度排列網站,只不過其中人為因素要多一些。如果按分層目錄查找,某一目錄中網站的排名則是由標題字母的先後順序決定(也有例外)。
目前,搜索引擎與目錄索引有相互融合滲透的趨勢。原來一些純粹的全文搜索引擎現在也提供目錄搜索,如Google就借用Open Directory目錄提供分類查詢。而象 Yahoo! 這些老牌目錄索引則通過與Google等搜索引擎合作擴大搜索范圍。在默認搜索模式下,一些目錄類搜索引擎首先返回的是自己目錄中匹配的網站,如國內搜狐、新浪、網易等;而另外一些則默認的是網頁搜索,如Yahoo。
Ⅷ 搜索引擎排序機制是只搜索引擎通過用戶引導搜索詞擴展搜索詞拆解以及什麼等行
額,排序影響因素有一兩百項。
其中比較重要的有:1,相關性 2,需求強度 3,豐富程度 4,有效性 5,時效性 6,便捷性 7,權威度
Ⅸ 搜索引擎按機制分類
搜索引擎分類
搜索引擎按其工作方式主要可分為三種,分別是全文搜索引擎( Text Search Engine)、目錄索引類搜索引擎(Search Index/Directory)和元搜索引擎(Meta Search Engine)。
全文搜索引擎
全文搜索引擎是名副其實的搜索引擎,國外具代表性的有Google、Fast/AllTheWeb、AltaVista、Inktomi、Teoma、WiseNut等,國內著名的有網路(Bai)。它們都是通過從互聯網上提取的各個網站的信息(以網頁文字為主)而建立的資料庫中,檢索與用戶查詢條件匹配的相關記錄,然後按一定的排列順序將結果返回給用戶,因此他們是真正的搜索引擎。
從搜索結果來源的角度,全文搜索引擎又可細分為兩種,一種是擁有自己的檢索程序(Indexer),俗稱「蜘蛛」(Spider)程序或「機器人」(Robot)程序,並自建網頁資料庫,搜索結果直接從自身的資料庫中調用,如上面提到的7家引擎;另一種則是租用其他引擎的資料庫,並按自定的格式排列搜索結果,如Lycos引擎。
目錄索引
目錄索引雖然有搜索功能,但在嚴格意義上算不上是真正的搜索引擎,僅僅是按目錄分類的網站鏈接列表而已。用戶完全可以不用進行關鍵詞(Keywords)查詢,僅靠分類目錄也可找到需要的信息。目錄索引中最
具代表性的莫過於大名鼎鼎的Yahoo雅虎。其他著名的還有Open Directory Project(DMOZ)、LookSmart、About等。國內的搜狐、新浪、網易搜索也都屬於這一類。
元搜索引擎(META Search Engine)
元搜索引擎在接受用戶查詢請求時,同時在其他多個引擎上進行搜索,並將結果返回給用戶。著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等(元搜索引擎列表),中文元搜索引擎中具代表性的有搜星搜索引擎。在搜索結果排列方面,有的直接按來源引擎排列搜索結果,如Dogpile,有的則按自定的規則將結果重新排列組合,如Vivisimo。
除上述三大類引擎外,還有以下幾種非主流形式:
集合式搜索引擎:如HotBot在2002年底推出的引擎。該引擎類似META搜索引擎,但區別在於不是同時調用多個引擎進行搜索,而是由用戶從提供的4個引擎當中選擇,因此叫它「集合式」搜索引擎更確切些。
門戶搜索引擎:如AOL Search、MSN Search等雖然提供搜索服務,但自身即沒有分類目錄也沒有網頁資料庫,其搜索結果完全來自其他引擎。
免費鏈接列表(Free For All Links,簡稱FFA):這類網站一般只簡單地滾動排列鏈接條目,少部分有簡單的分類目錄,不過規模比起Yahoo等目錄索引來要小得多。
由於上述網站都為用戶提供搜索查詢服務,為方便起見,我們通常將其統稱為搜索引擎。
Ⅹ 什麼是搜索機制 求大神解吖
簡單的說 就是把一切資源集合起來,使使用者可以通過一種簡單的途徑得到自己想要的答案!