1. 大數據行業發展現狀與未來前景分析

近年來,全球正大步邁向大數據新時代,數據的高效存儲、處理和分析等需求也越來越旺盛。在此背景下,行業大數據得以高速發展,應用於各個領域,根據IDC發布的有關數據預測,2025年市場規模將達到19508億元的高點。

全球大數據儲量呈爆發式增長

隨著信息通信技術的發展,各行各業信息系統採集、處理和積累的數據量越來越多,全球大數據儲量呈爆炸式增長。根據國際數據公司(IDC)的監測數據顯示,2013年全球大數據儲量為4.3ZB(相當於47.24億個1TB容量的移動硬碟),2014年和2015年全球大數據儲量分別為6.6ZB和8.6ZB。近幾年全球大數據儲量的增速每年都保持在40%,2016年甚至達到了87.21%的增長率。2016年和2017年全球大數據儲量分別為16.1ZB和21.6ZB,2018年全球大數據儲量達到33.0ZB,2019年全球大數據儲量達到41ZB。

—— 以上數據及分析均來自於前瞻產業研究院《中國行業大數據市場發展前景預測與投資戰略規劃分析報告》。

2. 大數據發展現狀怎樣

大數據范疇已有很多成功的大數據使用,但就其效果和深度而言,當時大數據使用尚處於專初級階段,屬依據大數據剖析猜測未來、指導實踐的深層次使用將成為發展要點。當時,在大數據使用的實踐中,描述性、猜測性剖析使用多,決議計劃指導性等更深層次剖析使用偏少。
大數據管理系統遠未形成,特別是隱私維護、數據安全與數據同享使用功率之間尚存在明顯矛盾,成為限制大數據發展的重要短板,各界已經意識到構建大數據管理系統的重要意義。其間,隱私、安全與同享使用之間的矛盾問題尤為凸顯。一方面,數據同享敞開的需求非常火急;另一方面,數據的無序流通與同享,又或許導致隱私維護和數據安全方面的嚴重風險,必須對其加以標准和限制。

數據規模高速增加,現有技能系統難以滿意大數據使用的需求,大數據理論與技能遠未成熟,未來信息技能系統將需求顛覆式創新和變革。近年來,大數據獲取、存儲、管理、處理、剖析等相關的技能已有顯著發展,可是大數據技能系統尚不完善,大數據基礎理論的研究仍處於萌芽期。

3. 詳解大數據存儲:哪些問題最容易出現

數據是重要的生產要素
信息時代,數據儼然已成為一種重要的生產要素,如同資本、勞動力和原材料等其他要素一樣,而且作為一種普遍需求,它也不再局限於某些特殊行業的應用。各行各業的公司都在收集並利用大量的數據分析結果,盡可能的降低成本,提高產品質量、提高生產效率以及創造新的產品。例如,通過分析直接從產品測試現場收集的數據,能夠幫助企業改進設計。此外,一家公司還可以通過深入分析客戶行為,對比大量的市場數據,從而超越他的競爭對手。
存儲技術必須跟上
隨著大數據應用的爆發性增長,它已經衍生出了自己獨特的架構,而且也直接推動了存儲、網路以及計算技術的發展。畢竟處理大數據這種特殊的需求是一個新的挑戰。硬體的發展最終還是由軟體需求推動的,就這個例子來說,我們很明顯的看到大數據分析應用需求正在影響著數據存儲基礎設施的發展。
從另一方面看,這一變化對存儲廠商和其他IT基礎設施廠商未嘗不是一個機會。隨著結構化數據和非結構化數據量的持續增長,以及分析數據來源的多樣化,此前存儲系統的設計已經無法滿足大數據應用的需要。存儲廠商已經意識到這一點,他們開始修改基於塊和文件的存儲系統的架構設計以適應這些新的要求。在這里,我們會討論哪些與大數據存儲基礎設施相關的屬性,看看它們如何迎接大數據的挑戰。
容量問題
這里所說的「大容量」通常可達到PB級的數據規模,因此,海量數據存儲系統也一定要有相應等級的擴展能力。與此同時,存儲系統的擴展一定要簡便,可以通過增加模塊或磁碟櫃來增加容量,甚至不需要停機。基於這樣的需求,客戶現在越來越青睞Scale-out架構的存儲。Scale-out集群結構的特點是每個節點除了具有一定的存儲容量之外,內部還具備數據處理能力以及互聯設備,與傳統存儲系統的煙囪式架構完全不同,Scale-out架構可以實現無縫平滑的擴展,避免存儲孤島。
「大數據」應用除了數據規模巨大之外,還意味著擁有龐大的文件數量。因此如何管理文件系統層累積的元數據是一個難題,處理不當的話會影響到系統的擴展能力和性能,而傳統的NAS系統就存在這一瓶頸。所幸的是,基於對象的存儲架構就不存在這個問題,它可以在一個系統中管理十億級別的文件數量,而且還不會像傳統存儲一樣遭遇元數據管理的困擾。基於對象的存儲系統還具有廣域擴展能力,可以在多個不同的地點部署並組成一個跨區域的大型存儲基礎架構。
延遲問題
「大數據」應用還存在實時性的問題。特別是涉及到與網上交易或者金融類相關的應用。舉個例子來說,網路成衣銷售行業的在線廣告推廣服務需要實時的對客戶的瀏覽記錄進行分析,並准確的進行廣告投放。這就要求存儲系統在必須能夠支持上述特性同時保持較高的響應速度,因為響應延遲的結果是系統會推送「過期」的廣告內容給客戶。這種場景下,Scale-out架構的存儲系統就可以發揮出優勢,因為它的每一個節點都具有處理和互聯組件,在增加容量的同時處理能力也可以同步增長。而基於對象的存儲系統則能夠支持並發的數據流,從而進一步提高數據吞吐量。
有很多「大數據」應用環境需要較高的IOPS性能,比如HPC高性能計算。此外,伺服器虛擬化的普及也導致了對高IOPS的需求,正如它改變了傳統IT環境一樣。為了迎接這些挑戰,各種模式的固態存儲設備應運而生,小到簡單的在伺服器內部做高速緩存,大到全固態介質的可擴展存儲系統等等都在蓬勃發展。
並發訪問 一旦企業認識到大數據分析應用的潛在價值,他們就會將更多的數據集納入系統進行比較,同時讓更多的人分享並使用這些數據。為了創造更多的商業價值,企業往往會綜合分析那些來自不同平台下的多種數據對象。包括全局文件系統在內的存儲基礎設施就能夠幫助用戶解決數據訪問的問題,全局文件系統允許多個主機上的多個用戶並發訪問文件數據,而這些數據則可能存儲在多個地點的多種不同類型的存儲設備上。

4. 大數據量數據存儲問題

大數據(big
data),指無法在一定時間范圍內用常規軟體工具進行捕捉、管理和處理的數據集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。大數據的5V特點(IBM提出):Volume(大量)、Velocity(高速)、Variety(多樣)、Value(低價值密度)、Veracity(真實性)

5. 「大數據」 到底有多大

截止到2012年,數據量已經從TB(1024GB=1TB)級別躍升到PB(1024TB=1PB)、專EB(1024PB=1EB)乃至ZB(1024EB=1ZB)級別。屬

國際數據公司(IDC)的研究結果表明,2008年全球產生的數據量為0.49ZB,2009年的數據量為0.8ZB,2010年增長為
1.2ZB,2011年的數量更是高達1.82ZB,相當於全球每人產生200GB以上的數據。而到2012年為止,人類生產的所有印刷材料的數據量是
200PB,全人類歷史上說過的所有話的數據量大約是5EB。

IBM的研究稱,整個人類文明所獲得的全部數據中,有90%是過去兩年內產生的。而到了2020年,全世界所產生的數據規模將達到今天的44
倍。每一天,全世界會上傳超過5億張圖片,每分鍾就有20小時時長的視頻被分享。然而,即使是人們每天創造的全部信息——包括語音通話、電子郵件和信息在
內的各種通信,以及上傳的全部圖片、視頻與音樂,其信息量也無法匹及每一天所創造出的關於人們自身的數字信息量。這樣的趨勢會持續下去。

6. 工業大數據市場現狀及前景調研

我國工業大數據處於起步階段

工業大數據是指在工業領域信息化應用中所產生的數據,是工業互聯網的核心,是工業智能化發展的關鍵。工業大數據是基於網路互聯和大數據技術,貫穿於工業的設計、工藝、生產、管理、服務等各個環節,使工業系統具備描述、診斷、預測、決策、控制等智能化功能的模式和結果。

工業大數據從類型上主要分為現場設備數據、生產管理數據和外部數據。



更多數據來來源及分析請參考於前瞻產業研究院《中國工業大數據產業發展前景與投資戰略規劃分析報告》。

7. 大數據打開存儲市場新空間

大數據打開存儲市場新空間
以大數據在全球的發展狀態來看,可謂是風聲水起,中國大數據發展的步伐也越來越快。雖然目前中國大數據市場還處在初級階段,但發展迅猛,應用極其廣泛,不管是雲計算、物聯網、智慧城市還是移動互聯都要與大數據攜手並進。
都說未來是數據為王的時代,大數據應用將會越來越廣泛的落地在各個領域,大數據絕對是企業未來實現業務突破的重點。那麼,到底大數據和存儲有什麼樣的關系呢?

三大點囊括大數據需求
大數據就是大量的數據,人們用它來描述和定義信息爆炸時代產生的海量數大數據時代來臨。那麼,大數據到底有多大?有資料顯示,一天之中,互聯網產生的全部內容可以刻滿1.68億張DVD;發出的郵件有2940億封之多;發出的社區帖子達200萬個;賣出的手機為37.8萬台,高於全球每天出生的嬰兒數量37.1萬而到了2020年,全世界所產生的數據規模將達到今天的44倍……
事實上,大數據不僅是大,它的復雜性對於各行各業的企業而言都是一個頭疼的問題。因為客戶無法在一定時間內使用傳統資料庫軟體工具對大數據內容進行抓取、管理和處理的數據集。幾乎所有的企業都會關注在處理有意義的大數據之上。談到這一點就一定要結合中國的大數據特點來看,正是因為這些特點促成了今天中國的行業客戶面對大數據應用時的需求在一定程度上存在的共性。簡而言之可以歸結為以下三點:
首先,數據體量大,這些大型的數據集有可能會達到PB規模。 說到這個數據量級,人們首先會聯想到學數字圖書館,高校數字圖書館或是國家數字圖書館可以說是開啟了大數據時代PB級數據管理的一個典型案例。這要求信息基礎架構平台能夠動態地支持多重數據,滿足人們對數字的不同性能要求、不同的容量要求,並且隨時能夠改變;需要有效地管理共享資源,存儲資源按需分配,同時通過配額管理功能,以提高利用率。
其次,數據類別繁瑣,囊括了半結構化和非結構化數據,從而促使客戶需要藉助智能工具,實現對所有類型數據的索引、搜索和發掘。最後,所有的這些大數據應用的需求,都能夠為企業帶來價值。雖然很多企業都擁有可用的、高質量的海量數據,但如何保護這些海量、非結構化的用戶數據,並時時進行信息挖掘,給未來教育帶來更大的可能,則對行業技術研究者的想像力提出了挑戰。另一方面,數據是各個行業經營、管理和決策的重要基礎,數據綜合利用是近年來也是各行各業信息化建設的核心。使企業持續發展的數據業務建設提速,給各行業運營中心對數據進行集中處理提出了更高的要求,這也成為行業客戶發展規劃中的重要內容。
最後,安全性,自2005年,美國銀行加密的磁帶丟失,造成了大量客戶資料泄露,從此以後,數據存儲的安全性就一直受到人們的關注。隨著雲計算和大數據技術落地,大數據信息存儲的安全性又一次被重視,各行各業客戶同樣面臨著數據時代的挑戰。
存儲應對大數據多樣需求
綜上所述,各行各業對於大數據應用的需求、性能的關注、可靠性的要求,同時也是企業需要滿足自身對於業務系統的需求,而基於存儲對大數據的可管理性、高性能、容災保護、資源整合和總體成本等方面的性能,幾乎囊括了滿足大數據多樣需求的可能。
今天,隨著「互聯網+」時代的進程加速,信息化建設突飛猛進,數據信息量的快速增長的大數據時代,處理大數據的真諦就是利用存儲在海量數據中淘金的過程。
那麼,存儲是如何應對數據需求增長的呢?
存儲適用於各行的數據靈活方案
結合整個行業來看,存儲能夠幫助客戶應對在醫療、生命科學、能源研究、社會基礎設施等各領域的諸多挑戰和需求。
首先,針對大數據的容量需求,利用針對結構化數據的虛擬存儲平台是大數據處理的一個很好方案。可實現將其全部虛擬化,並將同一類型的硬碟(如SSD、SAS、SATA)重新「捆綁」在一起。針對結構化數據的存取動態分層技術。一定要「快」。可以根據數據被調用的頻率,自動將常用的數據搬到最高層,提高效率。
其次,針對大數據最於難應對的非結構化數據,數據存儲介質,大致經歷幾個階段:較早以前是用光碟刻錄數據,這種方式費時費力。[大數據魔方]後來,改用磁帶庫,成本低,存取也很快。如果磁帶在磁帶庫中,每分鍾可調取幾百 M 數據,如果不在磁帶庫中,就要先找到磁帶。但是今天,這些方案都不能滿足客戶業務的即時性和連續性需求。
最後,所有的大數據方案都是為了給客戶帶來大價值。雖然擁有龐大的數據,但是躺在那裡睡覺的數據是沒有任何價值的,只有盤活這些數據,才能體現出數據資產的價值。只有可利用的解決方案,才能充分發掘數據資產的價值。
目前,雖然中國大數據市場還處在初級階段,但增速非常迅猛,應用也極其廣泛,不管是雲計算、物聯網、智慧城市還是移動互聯都要與大數據扯上關系。未來是數據為王的時代,大數據應用將會越來越廣泛的落地在各個領域,而存儲絕對是企業未來應用大數據實現業務突破的重要媒介。

8. 大數據時代,我國數據量究竟有多大

從2013年初開始,對於大數據爆發的焦慮感,緊迫感,不由自主地被捲入的甚至無力的感覺,驅動眾多行業、企業和團體去關注和開始接觸和了解大 數據,自覺或不自覺的,主動或不得已地去融入這波洪流。但是,真的說到大數據,我們中國到底有多少數據量,它們都分布在哪些行業,哪些數據是目 前可用的,哪些行業已經在使用數據,進入產業互聯網和數據引導的變革了?
可能看到的版圖依舊模糊。因此,我們懷抱很好的希望,以第一個吃螃蟹並期待來自行業的矯正和拍磚的態度,首先嘗試對於國內各個領域,行業以 及機構的數據擁有情況,使用情況以及未來路徑做一個粗獷地調研、梳理和判斷,對大數據時代我國各個領域數據資產的擁有和使用情況,也就是我們數 據資產的家底做個盤點,也對各個行業、系統進軍大數據,以及擁抱產業互聯網的進度和未來做個簡單判斷。事實上,大數據之題無疑繁若星辰,然而只 有在相對完整的視圖下,繁星若塵,我們才可得以一窺天機。
從我們手頭掌握的數據來看,2013年度,中國存儲市場出貨容量超過1個EB(1EB=多少),存儲總量而IDC曾經發布的預測表明在未來的3-4年,中國存儲總 容量可能達到18個EB。從數據存儲市場的需求來看,互聯網、醫療健康、通信、公共安全以及軍工等行業的需求是主要的,且上升態勢明顯。
鑒於存儲和伺服器的緊密相關,我們從已經獲得的資料可以知道,目前全球運行的伺服器總量超過5000萬台,美國國內運行的伺服器總體容量接近 1000萬台。從各種市場公開數據來看,2013年中國內地伺服器銷售總數接近為100萬台。大體估算,截止到2013年底,中國內地整體在運行的伺服器總數 量在300萬台以上。
從現有存儲容量看,中國目前可存儲數據容量大約在8EB-10EB左右,現有的可以保存下來的數據容量大約在5EB左右,且每兩年左右會翻上一倍。這些 被存儲數據的大體分布為:媒體/互聯網占據現有容量的1/3,政府部門/電信企業占據1/3,其他的金融、教育、製造、服務業各部分佔據剩餘1/3數據量 。
公開數據顯示,互聯網搜索巨頭網路2013年擁有數據量接近EB級別、阿里、騰訊聲明自己存儲的數據總量都達到了百PB以上。此外,電信、醫療、金 融、公共安全、交通、氣象等各個方面保存的數據量也都達到數十或者上百PB級別。
在目前被廣泛引用的IDC和EMC聯合發布的「2020年的數字宇宙」報告 預測到2020年,全球數字宇宙將會膨脹到40ZB,均攤每個人身上是5200GB以上,這個量將會如何被有效存儲和應用,我們眼下還很難想像。然而我們 看到該報告指出,從現在起到2020年,全球數字宇宙的膨脹率大約為每兩年翻一番。事實上,根據上述調查結論和伺服器容量調查,我們也能做出個相對 合理的推斷:目前,全球產生的數據量中僅有1%左右的數據能夠被保存下來,也就是說今天全球能夠被保存下來的數據也就是在50EB左右,而其中被標記 並用於分析的數據更是不到10%。
作為全球人口和計算設備保有量的大國,我國每年所能產生的數據量也極為龐大,有數據說2014年甚至可能達到ZB級別,但是真正被有效存儲下來的 數據僅僅是其中極微少部分,中國保存下來數據佔全球數據的比例大約在10%左右,也就是上面說的5EB。這些數據中,目前已被標記並用於分析的數據僅 達到500PB左右,也是接近10%的一個比例。
伴隨著雲計算迅速普及和各行業,各企業和部門對於數據資產保存和利用意識的增強,以及通過互聯網、大數據對產業進行變革的意願,未來2-3年一 定會有越來越多的行業、大企業步入到PB、百PB、甚至EB級別數據俱樂部,未來3-3年中國的數據總量也將呈翻倍上升態勢,我們預測2015年中國就可能 突破10EB數據保有量,被標簽和分析利用數據量也將上升到EB級別,這些數據增長中互聯網、政務、醫療、教育、安全等行業和領域所做貢獻最大,而相 對傳統的物流、生產製造、甚至農業等領域數據擁有量的增長將更加明顯。