結構化搜索
⑴ 垂直搜索引擎的來源
1、門戶網站自身的資源 。
2、以開放介面方式讓行業用戶提供的資源。
3、普通用戶發布的資源 。
4、抓取行業用戶的資源。 1、垂直搜索引擎抓取的數據來源於垂直搜索引擎關注的行業站點。
2、垂直搜索引擎抓取的數據傾向於結構化數據和元數據。
3、垂直搜索引擎的搜索行為是基於結構化數據和元數據的結構化搜索。
⑵ 有搜索引擎和非結構化數據挖掘的同行嗎
非結構化數據主要是指沒有模式結構定義的數據,比如純文本。
在搜外,您可以通過SEO培訓系統學習搜索引擎優化知識,通過搜外問答與資深人士進行深入交流和擴展人脈。
⑶ 網頁結構化抽取現在都有哪些常用方法
垂直搜索是針對某一個行業的專業搜索引擎,是搜索引擎的細分和延伸,是對網頁庫中的某類專門的信息進行一次整合,定向分欄位抽取出需要的數據進行處理後再以某種形式返回給用戶。
垂直搜索引擎和普通的網頁搜索引擎的最大區別是對網頁信息進行了結構化信息抽取,也就是將網頁的非結構化數據抽取成特定的結構化信息數據,好比網頁搜索是以網頁為最小單位,基於視覺的網頁塊分析是以網頁塊為最小單位,而垂直搜索是以結構化數據為最小單位。然後將這些數據存儲到資料庫,進行進一步的加工處理,如:去重、分類等,最後分詞、索引再以搜索的方式滿足用戶的需求。
整個過程中,數據由非結構化數據抽取成結構化數據,經過深度加工處理後以非結構化的方式和結構化的方式返回給用戶。
垂直搜索引擎的應用方向很多,比如企業庫搜索、供求信息搜索引擎、購物搜索、房產搜索、人才搜索、地圖搜索、mp3搜索、圖片搜索……幾乎各行各業各類信息都可以進一步細化成各類的垂直搜索引擎。
舉個例子來說明會更容易理解,比如購物搜索引擎,整體流程大致如下:抓取網頁後,對網頁商品信息進行抽取,抽取出商品名稱、價格、簡介……甚至可以進一步將筆記本簡介細分成「品牌、型號、CPU、內存、硬碟、顯示屏、……」然後對信息進行清洗、去重、分類、分析比較、數據挖掘,最後通過分詞索引提供用戶搜索、通過分析挖掘提供市場行情報告。
垂直搜索引擎大體上需要以下技術
1.Spider
2.網頁結構化信息抽取技術或元數據採集技術
3.分詞、索引
4.其他信息處理技術
垂直搜索引擎的技術評估應從以下幾點來判斷
1.全面性
2.更新性
3.准確性
4.功能性
垂直搜索的進入門檻很低,但是競爭的門檻很高。沒有專注的精神和精湛的技術是不行的。行業門戶網站具備行業優勢但他們又是沒有技術優勢的,絕對不要想像著招幾個人就可以搞定垂直搜索的全部技術,作為一個需要持續改進可運營的產品而不是一個項目來說對技術的把握控製程度又是垂直搜索成功的重要因素之一。
⑷ 中國搜索引擎檢索的主要方式有哪兩種
1、搜索引擎按其工作方式主要可分為三種,分別是全文搜索引擎(Full Text Search Engine)、目錄索引類搜索引擎(Search Index/Directory)和元搜索引擎(Meta Search Engine)。
2、兩種是不包括目錄索引,因為目錄索引雖然有搜索功能,但從嚴格意義上算不上是真正的搜索引擎,只是一個目錄列表而已。用戶完全可以不用進行關鍵詞(Keywords)查詢,僅靠分類目錄也可找到需要的信息。從這個角度說,搜索引擎按其工作方式分為全文搜索引擎和元搜索引擎兩種。
⑸ 什麼是結構化數據,非結構化數據和半結構化數據
結構化數據也稱為行數據,是由二維表結構來邏輯表達和實現的數據,嚴格地遵循數據格式與長度規范,主要通過關系型資料庫進行存儲和管理。結構化數據標記是能讓網站以更好的姿態展示在搜索結果當中的方式。做了結構化數據標記,便能使網站在搜索結果中良好地展示豐富網頁摘要。
非結構化數據是數據結構不規則或不完整,沒有預定義的數據模型,不方便用資料庫二維邏輯表來表現的數據。非結構化數據其格式非常多樣,標准也是多樣性的,而且在技術上非結構化信息比結構化信息更難標准化和理解。
半結構化數據具有一定的結構性,是一種適於資料庫集成的數據模型。也就是說,適於描述包含在兩個或多個資料庫(這些資料庫含有不同模式的相似數據)中的數據。它也是一種標記服務的基礎模型,用於Web上共享信息。
(5)結構化搜索擴展閱讀:
結構化數據的標記方式
1、使用HTML代碼標記
HTML代碼標記的方式主要有3種:微數據、微格式和RDFa。但對於一些外貿站站來說,標記是以微數據為主,少許時候也會用到微格式,視不用的頁面類型而定。
2、使用微數據標記
使用微數據標記的話,主流是使用schema進行標記。但由於頁面上有些項, schema並沒推出相應的標記代碼,從而也得仍舊使用data-vocabulary來標記, 這樣的話頁面代碼上就會出現新舊代碼並存的情況。
⑹ 結構化查詢語言的特點是什麼
結構化查詢語言的特點:
1、介於關系代數和關系演算之間的數據操縱語言
2、是關系資料庫數據操縱語言事實上的標准。
⑺ 搜索引擎通常具備哪些基本的檢索功能
現有的搜索引擎基本上分為三類:
1.1 single search engine(獨立搜索引擎) 它的特點是僅在搜索引擎自身的資料庫檢索信息,比如Yahoo。
1.2 Meta search engine(元搜索引擎) 它在檢索信息時通過調用其它多個獨立的搜索引擎來完成檢索功能,並且能夠將從多個獨立搜索引擎查詢的結果進行不同程度的處理,比如刪除重復結果、校驗連接、結果按照相關度排序等。元搜索引擎本身可以有也可以沒有自己的資料庫。由於不同的元搜索引擎掛接的獨立搜索引擎各不相同,且各自獨立的搜索引擎在查詢語法上的差別較大,使得元搜索引擎本身僅支持AND、0R、N0T等簡單的語法操作,返回的結果只能滿足「最低常用分母」,即不能提高搜索結果的准確性。
1.3 Net search engine(網路搜索軟體) 就是網路用戶可以將相應的搜索軟體下載至本地的計算機上,安裝查詢,這是一種具有網路查詢功能的離線瀏覽器。相對於元搜索引擎,它可以靈活地控制輸出結果,其最大特點是方便用戶使用和能快速地查詢網路相關資源。2 網路搜索引擎的工作原理及其基本構成
用戶檢索信息時,搜索引擎是根據用戶的查詢要求,按照一定的演算法從索引資料庫中查找對應的信息返回給用戶。為了保證用戶查找信息的精度和新鮮度。對於獨立的搜索引擎而言.還需要建立並維護一個龐大的資料庫。獨立搜索引擎中的索引資料庫中的信息是通過一種叫做網路蜘蛛(spider)的程序軟體定期在網上爬行,通過訪問公共網路中公開區域的每一個站點採集網頁,對網路信息資源進行收集,然後利用索引軟體對收集的信息進行自動標引,創建一個可供用戶按照關鍵字等進行查詢的web頁索引資料庫,搜索軟體通過索引資料庫為用戶提供查詢服務。所以,一般的搜索引擎主要由網路蜘蛛、索引和搜索軟體三部分組成.
網路蜘蛛。是一個功能很強的程序,它會定期根據預先設定的地址去查看對應的網頁,如網頁發生變化則重新獲取該網頁,否則根據該網頁中的鏈接繼續去訪問。網路蜘蛛訪問頁面的過程是對互連網上信息遍歷的過程。為了保證網路蜘蛛遍歷信息的廣度,一般事先設定_ 些重要的鏈接,然後進行遍歷。在遍歷的過程中不斷記錄網頁中的鏈接,不斷地遍歷下去,直到訪問完所有的鏈接。
索引軟體。網路蜘蛛將遍歷搜索集得到的網頁存放在資料庫中。為了提高檢索的效率,需要建立索引。索引一般為倒排檔索引。
搜索軟體。該軟體用於篩選索引資料庫中無數的網頁信息,選擇出符合用戶檢索要求的網頁並對它們進行分級排序。然後將分級排序後的結果顯示給用戶。
3 搜索引擎的主要性能評價指標
3.1 搜索引擎建立索引的方法 資料庫中的索引一般是按照倒排文檔的文件格式存放,在建立例排索引的時候,不同的搜索引擎有不同的選項。有些搜索引擎對於信息頁面建立全文索引;而有些只建立摘要部分,或者是段落前面部分的索引;還有些搜索引擎,比如Google建立索引的時候,同時還考慮超文本的不同標記所表示的不同含義。如粗體、大字體顯示的東西往往比較重要;放在錨鏈中的信息往往是它所指向頁面的信息的概括,所以用它來作為所指向的頁面的重要信息。Google、infoseek還在建立索引的過程中收集頁面中的超鏈接。這些超鏈接反映了收集到的信息之間的空間結構,利用這些結果信息可以提高頁面相關度判別時的准確度。由於索引不同,在檢索信息時產生的結果會不同。
3.2 搜索引擎的檢索功能搜索引擎所支持的檢索功能的多少及其實現的優劣,直接決定了檢索效果的好壞,所以網路檢索工具除了要支持諸如布爾檢索、鄰近檢索、截詞檢索、欄位檢索等基本的檢索功能之外,更應該根據網上信息資源的變化,及時地應用新技術、新方法,提高高級檢索功能。另外,由於中文信息特有的編碼不統一問題,所以如果搜索引擎能夠實現不同內碼之間的自動轉換,用戶就會全面檢索大陸、港台乃至全世界的中文信息。這樣不但提高了搜索引擎的質量,而且會得到用戶的支持。
3.3 搜索引擎的檢索效果 檢索效果可以從響應時間、查全率、查准率和相關度方面來衡量。響應時間是用戶輸入檢索式開始查詢到檢出結果的時間。查全率是指一次搜索結果中符合用戶要求的數目與和用戶查詢相關的總數之比;查准率是指一次搜索結果集中符合用戶要求的數目與該次搜索結果總數之比;相似度是指用戶查詢與搜索結果之間相似度的一種度量。雖然由於無法估計網路上與某個檢索提問相關的所有信息數量。所以目前尚沒有定量計算查全率的更好方法,但是它作為評價檢索效果的指標還是值得保留。查准率也是一個復雜的概念,一方面表示搜索引擎對搜索結果的排序,另一方面卻體現了搜索引擎對垃圾網頁的抗干擾能力。總之,一個好的搜索引輦應該具有較快的響應速度和高的查全率和查准率,或者有極大的相似度。
3.4 搜索引擎的受歡迎程度 搜索引擎的受歡迎程度體現了用戶對於搜索引擎的偏愛程度,知名度高、性能穩定和搜索質量好的搜索引擎很受用戶的青睞。搜索引擎的受歡迎程度也會隨著它的知名度和服務水平的變化而動態的變化。搜索引擎的服務水平和它所收集的信息量、信息的新鮮度和查詢的精度相關。隨著各種新的搜索技術的出現,智能化的、支持多媒體檢索的搜索引擎將越來越受用戶的歡迎。
另外,搜索引擎的信息佔有量也可以作為評價搜索引擎性能的指標。綜上所述,評價搜索引擎的性能指標可以概括為:a.建立索引的方法(全文索引,部分索引,按重要程度索引等);b.檢索功能(支持的檢索技術,多媒體檢索,內碼處理等);C.查詢效果(響應時間,查全率,查准率,相關度);d.受歡迎程度;e.信息佔有量。4 搜索引擎檢索信息的局限
2001年Roper的調查指出,36% 的互連網用戶一個星期花超過2個小時的時間在網上搜索;71% 的用戶在使用搜索引擎時遇到過麻煩;平均搜索12分鍾以後發現搜索受挫。另一項由Keen所做的調查顯示,31% 的人使用搜索引擎尋找答案,網上查找答案的半數以上都不成功。從這些調查數據中不難看出。目前的搜索引擎仍然存在不少的局限性。概括起來大致有以下幾個方面。
4.1 搜索引擎對信息的標引深度不夠 目前,搜索引擎檢索的結果往往只提供一些線形的網址和包括關鍵詞的網頁信息,與人們對它的預期存在較大的距離,或者返回過多的無用信息,或者信息丟失,特別是對特定的文獻資料庫的檢索顯得無能為力。
4.2 搜索引擎的信息量佔有不足 作為搜索引擎必須佔有相當大的信息量才能具有一定的查全率和實用性。目前還沒有一種覆蓋整個網際網路信息資源的搜索引擎。
4.3 搜索引擎的查准率不高 分析起來,這是因為:一方面由於網上信息數量巨大、內容龐大、良莠不齊,信息的質量得不到保障;另一方面是由於大多數搜索引擎的索引工作由程序自動完成,根據網頁中詞頻及詞的位置等因素確定關鍵詞,有的網站為了提高點擊率,將一些與網頁主題並不相關的熱門詞彙以隱含方式放在頁面上,並重復多次,從而造成查准率低。
4.4 檢索功能單一,缺乏靈活性 目前許多搜索引擎的查詢方法比較單一,一般只提供分類查詢方式和關鍵詞查詢方式。不能從文獻的多個方面對檢索提問進行限制,只能就某一關鍵詞或者概念進行籠統的檢索。
4.5 搜索引擎自身的技術局限像目前部分搜索引擎還不能支持對多媒體信息的檢索。造成上述信息檢索困難的原因實質在於搜索引擎對要檢索的信息僅僅採用機械的詞語匹配來實現,缺乏知識處理能力和理解能力。也就是說搜索引擎無法處理用戶看來是非常普通的常識性知識,更不能處理隨用戶不同而變化的個性化知識、隨地域不同而變化的區域性知識以及隨領域不同而變化的專業性知識等等。5 搜索引擎未來的發展趨勢
新一代搜索引擎的發展目標就是採用新興的搜索技術為用戶提供更方便易用、更精確的搜索工具來滿足用戶的信息查詢需要。技術上,應該在自然語言理解技術上有所突破,以XML可擴展標記語言為主,並使用向導技術。下面就搜索引擎的發展趨勢談幾點看法。
<strong>答案補充</strong>
5.1 垂直化專業領域搜索 由於社會分工的加大,用戶從事的職業有所不同,不同用戶對信息搜索也往往有自己的專業要求。由於綜合性的搜索引擎收錄各方面、各學科、各行業的信息,因而搜索不相關的信息太多,專業垂直引擎則可以解決這個問題,垂直類搜索引擎是只面向某一特定的領域,專注於自己的特長和核心技術,能夠保證對該領域信息的完全收錄與及時更新。因此,基於專業領域的「垂直搜索引擎」開始成為搜索引擎發展的一個新趨勢。
5.2 智能化搜索 傳統的搜索引擎使用方法是被動搜索,而准確的搜索應建立在對收錄信息和搜索請求的理解之上。顯然,基於自然語言理解技術的搜索引擎由於可以同用戶使用自然語言交談,並深刻理解用戶的搜索請求,則查詢的結果更
加准確。
5.3 關聯式的綜合搜索 所謂關聯式綜合搜索,是這樣一種一站式的搜索服務,它使得用戶在搜索時只需要輸入一次查詢目標,即可以在同一界面得到各種有關聯的查詢結果,這種服務的關鍵在於有一架構在XML基礎上的整合資訊平台。<strong>答案補充</strong>
5.4 個性化搜索 提高搜索精確度的另一個途徑是提供個性化的搜索,也就是將搜索建立在個性化的搜索環境之下,其核心是跟蹤用戶的搜索行為,通過對用戶的不斷了解、分析,積累用戶的搜索個性化數據來提高用戶的搜索效率。
5.5 結構化搜索 所謂結構化搜索,是指充分利用XML等技術使信息結構化,同時使用查詢結構化,從而使搜索的准確度大大提高。
5.6 本土化的搜索 世界上許多著名的搜索引擎都在美國,它們以英語為基礎,完全按他們的思維方式和觀點搜集和檢索資料,這對於全球不同國家的用戶來說是顯然不合適的。各國的文化傳統、思維方式和生活習慣不同,在對於網站的內容的搜索要求上也就存在差異。搜索結果要符合當地用戶的要求,搜索引擎就必須本土化。
5.7 多媒體搜索。隨著寬頻技術的發展,未來的互聯網是多媒體數據的時代,開發出可查詢圖像、聲音、圖片和電影的搜索引擎是一個新的方向,這也將極大地滿足用戶的需求。未來的搜索引擎應該信息量更大、搜索速度更快、搜索精度更高和更能夠滿足用戶的信息查詢需求。
⑻ 什麼是結構化搜索和非結構化搜索
比如網頁,它可以分析出一個分析樹來,它是有結構的,對它的搜索就是結構化搜索。
比如音頻視頻,它文件信息固然有結構,但它的內容信息是沒有結構的,比如,你想搜索含有森林景色的視頻,這就是非結構化搜索
⑼ 百度結構化數據提交插件,對網站收錄有影響嗎看到很多搜索結果,很多站長用了這個百度結構化數據插件,
結構化數據的提交,就是為了方便優先收錄,我自己的網站使用過wordpress的結構化數據(做菜譜的),沒有發現收錄下降的情況。
另外的一些情況可以作為參考,我公司的網站曾經和網路、神馬、360進行過類似阿拉丁/知道/網路類的商業合作和內容合作,對方都希望我們優先提供xml格式或json格式的結構化數據,方便生成內容或提升網站權重/收錄/排名,所以合理猜測對於結構化數據,網路更會優先處理,而不會減少收錄(當然大量採集垃圾內容的情況除外)
特別地,其實建議你自己去整理一下網站內部URL結構,大致統計出不同類型頁面的實際數量,批量查詢收錄(尤其是看看結構化數據的頁面是否更快被收錄),網站的收錄本就類似水池的進水口和出水口,收錄降了,不能輕易判定是哪部分頁面的收錄率下降了,而且也和網頁質量有較大關系(比如內容豐富度,代碼質量等),統計出不同類型頁面的實際數量,再抽樣進行收錄查詢,比較容易找到真正導致收錄下降的原因。