大數據發展背景及研究現狀

2015年左右,大數據相關政策規劃密集出台,同期為大數據企業新增數量頂峰時期。近年來,我國大數據產業迎來新的發展機遇期,產業規模日趨成熟。大數據產業主體從「硬」設施向「軟」服務轉變的態勢將更加明顯,面向金融、政務、電信、醫療等領域的大數據服務將實現倍增創新。

大數據企業數量持續增長,增速與政策出台密切相關

根據IT桔子統計,大數據企業的快速增長階段出現在2013-2015年,增長速度在2015年達到最高峰。2015年後,市場日趨成熟,企業新增開始趨於放緩,大數據產業逐漸走向成熟。

—— 以上數據及分析均來自於前瞻產業研究院《中國大數據產業發展前景與投資戰略規劃分析報告》。

⑵ 大數據的發展趨勢是怎樣的

1.數據分析成為大數據技術的核心 數據分析在數據處理過程中占據十分重要的位置,隨著時代的發展,數據分析也會逐漸成為大數據技術的核心。大數據的價值體現在對大規模數據集合的智能處理方面,進而在大規模的數據中獲取有用的信息。要想逐步實現這個功能,就必須對數據進行分析和挖掘。而數據的採集、存儲、和管理都是數據分析步驟的基礎,通過進行數據分析得到的結果,將應用於大數據相關的各個領域。未來大數據技術的進一步發展,與數據分析技是密切相關的
2.廣泛採用實時性的數據處理方式 在現如今人們的生活中,人們獲取信息的速度較快。為了更好地滿足人們的需求,大數據處理系統的處理方式也需要不斷地與時俱進。目前大數據的處理系統採用的主要是批量化的處理方式,這種數據處理方式有一定的局限性,主要是用於數據報告的頻率不需要達到分鍾級別的場合,而對於要求比較高的場合,這種數據處理方式就達不到要求。傳統的數據倉庫系統、鏈路挖掘等應用對數據處理的時間往往以小時或者天為單位。這與大數據自身的發展有點不相適應。大數據突出強調數據的實時性,因而對數據處理也要體現出實時性。如在線個性化推薦、股票交易處理、實時路況信息等數據處理時間要求在分鍾甚至秒極。要求極高。在一些大數據的應用場合,人們需要及時對獲取的信息進行處理並進行適當的舍棄,否則很容易造成空間的不足。在未來的發展過程中,實時性的數據處理方式將會成為主流,不斷推動大數據技術的發展和進步。
3.基於雲的數據分析平台將更加完善 近幾年來,雲計算技術發展的越來越快,與此相應的應用范圍也越來越寬。雲計算的發展為大數據技術的發展提供了一定的數據處理平台和技術支持。雲計算為大數據提供了分布式的計算方法、可以彈性擴展、相對便宜的存儲空間和計算資源,這些都是大數據技術發展中十分重要的組成部分。此外,雲計算具有十分豐富的IT資源、分布較為廣泛,為大數據技術的發展提供了技術支持。隨著雲計算技術的不斷發展和完善,發展平台的日趨成熟,大數據技術自身將會得到快速提升,數據處理水平也會得到顯著提升。
4.開源軟體的發展將會成為推動大數據技術發展的新動力 開源軟體是在大數據技術發展的過程中不斷研發出來的。這些開源軟體對各個領域的發展、人們的日常生活具有十分重要的作用。開源軟體的發展可以適當的促進商業軟體的發展,以此作為推動力,從而更好地服務於應用程序開發工具、應用、服務等各個不同的領域。雖然現如今商業化的軟體也是發展十分迅速,但是二者之間並不會產生矛盾,可以優勢互補,從而共同進步。開源軟體自身在發展的同時,為大數據技術的發展貢獻力量。

⑶ 談談我國大數據發展面臨著哪些制約因素

1.很少有優質可用的數據
這幾年數據交易機構如雨後春筍,「數據變現」成為很多擁有數據積累的傳統企業的新的生財法。目前,我國大數據需求端以互聯網企業為主,覆蓋面不廣,在O2O趨勢下,大型互聯網廠商嘗試引入外部數據支撐金融、生活、語音、旅遊、健康和教育等多種服務。
然而在具體的領域或行業內,我國普遍未形成成型的數據採集、加工、分析和應用鏈條,大量數據源未被激活,大多數數據擁有者沒有數據價值外化的路徑。比如,各醫療健康類應用收集了大量的數據,但沒有像那樣面向醫葯公司售賣數據。與國外相比我國的政府、公共服務、農業應用基本缺位,電信和銀行業更缺少與外部數據的碰撞。
另外,其實數據交易這件事本身就是一個悖論。數據作為一種商品有一定的特殊性,我用了別人也可以用,沒有任何消耗,可以在市場賣很多遍。這就產生一個問題,你這個數據到市場賣,根據經濟學觀點它的價值是零,你賣給我我可以用更低的價格賣給別人,所以數據交易理論上來說也是不可行的。
大數據概念火了以後,很多機構覺得數據存起來就是寶,於是積攢了大量零碎數據放在那裡,到底能發揮什麼作用也未可知。而在和許多真正想用數據做些事情的機構的合作中我們發現,即便是政府機構這樣的權威數據持有方,也存在很多數據缺失、數據錯誤、噪音多各方面的問題。
我們常常在講大數據就用大數據方法,小數據就用小數據方法,完美的數據是永遠等不來的。但這樣會導致什麼問題呢?在實際項目實施過程中,我們的數據科學家們不得不花費大量時間在數據清洗上,這其實是對本來就緊缺的數據人員的一種浪費。
理論上我們中國有很多數據,但不同部門數據存在在不同的地方,格式也不一樣。政府內部本身整合各部門的數據就已經是一件很頭大的事情,更不要提大規模的數據開放。同時數據開放面臨一個嚴重問題就是隱私問題,脫敏遠遠不夠,隱私問題是一個無底洞。比如我們把一個人的支付寶3個月數據拿過來,就可以很輕易的知道這個人今天在門口便利店買了一瓶水,昨天在淘寶買了沙發,每隔三個月會有一筆萬元的支出。那我們就可以很容易推斷這個人剛換了一個租房子的地方,就能了解他的消費習慣。這個數據其實完全是脫敏的,沒有名字、沒有號碼,但絲毫不妨礙我們通過演算法完全的勾勒出這個人的畫像。
2.實際技術與業務之間還有很大距離
大數據行業發展至今,技術與業務之間依然存在巨大著鴻溝。首先,就是數據分析技術本身。數據源企業為實現數據價值變現,嘗試多種方法,甚至自己組建數據分析團隊,可是數據分析是個技術活,1%的誤差都會極大地影響市場份額,術業有專攻,數據變現還是需要專業的數據分析人才來實現。
大數據概念的火熱,做大數據的公司越來越多,產品做得五花八門,數據建模看似誰都可以涉足,但現在數據分析的技術,方法,模型,演算法都有了非常大的改進,跟過去六七十年代完全不一樣,不是說做幾個SAAS軟體或者RAAS軟體就是大數據了,雖然短期看市場火熱,但長遠來說這條路是走不通的,大數據行業發展,技術才是真正的發力點,提高行業准入門檻尤為重要。
其次中國的數據有它的特色,例如在金融行業,目前大部分銀行採用的是風險評分卡,運用專家經驗定義風險變數,基於定性認識進行評分,通過事後風險回檢優化評分卡,風險預警功能較差。雖然央行徵信中心與國內少數技術領先銀行使用的是風險評分模型,但模型方法相對陳舊,如央行所用FICO評分模型為上世紀80年代基於邏輯回歸演算法構建的評分體系,邏輯回歸演算法適合處理線性數據,但實際問題往往是非線性的,特別是信用風險評估場景下。此外,FICO模型沒有針對我國具體業務進行場景細分,建模邏輯並不完全符合我國實際情況,因此導致准確率不足,風險預警能力差。基於此,中國人民銀行徵信中心首次與國內大數據公司合作,這次合作中普林科技應用國際領先的大數據建模分析技術運用決策樹隨機森林,AdaBOOST,GBDT,SVM等演算法,通過對信用報告的數字化解讀與深入洞察,准確預測了違約風險,對貸款審批、貸中管理形成指導,新模型對好壞賬戶的區分度遠高於行業平均水平。此次合作表明我國的大數據難題更需要適應國情的解決方案與本土的技術人才,這對我們的市場提出了一個新問題。
3.人才稀缺
我們國家大數據發展最大的優勢就是市場大,最大的劣勢恰巧就是缺乏相應人才,人才缺乏的程度非常嚴重。首先在國際市場方面,我們要跟國外公司爭人才,然而國外大數據行業同樣十分火熱。而不論在國內還是國外,跟企業競爭人才都是一項艱巨的事業,比如在世界上最好的大學之一的美國普林斯頓大學,想找數學家也是非常困難,人才很容易被大公司挖走,每年都有非常好的數據分析人才被企業挖走。所以人才難覓不只是口頭說說,更是一個亟待解決的問題 大數據是一個交叉學科,涉及統計學,管理編程等多學科,知識點復雜,缺乏系統的學習教程。

⑷ 大數據的發展趨勢有哪些

——更多數據來源及分析請參考於前瞻產業研究院中國大數據產業發展前景與投資戰略規劃分析報告》。

大數據與AI、5G、IoT等應用為公有雲創造了巨大的需求,扮演著大數據基礎設施服務提供者的角色,在大數據核心訴求的存儲和計算能力上給予不可或缺的支撐。

大數據又賦能公有雲行業的發展,將更好地參與到行業應用與數據變現的發展,催生大量的行業應用,為雲服務未來擴充發展提供想像空間。積極的國家政策將持續推動各行業企業積極上雲,擁抱數字化轉型,公有雲服務應用場景特別是數據應用不斷拓寬。

近幾年我國雲計算行業的市場規模和滲透率均在持續增長,使得我國公有雲市場進入了一個新的發展階段。除此之外,在5G商用以及AI等技術發展的推動下,我國公有雲市場規模始終保持高速增長趨勢,根據中國信息通信研究院的數據統計,2018年,中國公有雲市場規模達到437.4億元,較2017年增長65.2%。

2012-2018年中國公有雲市場規模統計及增長情況



數據來源:前瞻產業研究院整理

⑸ 現在大數據的發展趨勢

主要有幾點發展趨勢:

一是流式架構的更替,最早大數據生態沒有辦法統一批處理和流計算,只能採用Lambda架構,批的任務用批計算引擎,流式任務採用流計算引擎,比如批處理採用MapRece,流計算採用Storm。後來Spark試圖從批的角度統一流處理和批處理,近年來純流架構的Flink異軍突起,由於其架構設計合理,生態健康,近年來發展特別快。

二是大數據技術的雲化,一方面是公有雲業務的成熟,眾多大數據技術都被搬到了雲上,其運維方式和運行環境都發生了較大變化,帶來計算和存儲資源更加的彈性變化,另一方面,私有部署的大數據技術也逐漸採用容器、虛擬化等技術,期望更加精細化地利用計算資源。

三是異構計算的需求,近年來在通用CPU之外,GPU、FPGA、ASIC等晶元發展迅猛,不同晶元擅長不同的計算任務,大數據技術開始嘗試根據不同任務來調用不同的晶元,提升數據處理的效率。

四是兼容智能類的應用,隨著深度學習的崛起,AI類的應用越來越廣泛,大數據的技術棧在努力兼容AI的能力,通過一站式的能力來做數據分析和AI應用,這樣開發者就能在一個工具站中編寫SQL任務,調用機器學習和深度學習的演算法來訓練模型,完成各類數據分析的任務。

⑹ 現在大數據分析的發展前景怎麼樣

現狀大數據的前景十分的好,隨著大數據應用於各行各業,並正在改變著各行各業,同時也引領大數據人才的變革,在國家及當地政府支持下,大數據在企業中生根發芽,開花結果。在未來的三至五年,中國還將需要180萬數據人才,但目前大約有30萬人。到2020年,企業日後發展將基於大數據計算分析、數據挖掘、數據分析等數據產業的發展,我國也將更加需要更多的數據人才。

⑺ 大數據時代發展歷程是什麼

可按照時間點劃分大數據的發展歷程。

⑻ 近幾年來我國大數據市場發展為何如此迅速

流式處理佔主導地位,Kafka和Spark成為主流應用

根據數據處理的時效性,大數據處理系統可以分為批式(batch)大數據和流式(streaming)大數據兩類。其中,批式大數據又被稱為歷史大數據,流式大數據又被稱為實時大數據。

以Hadoop為代表的批處理大數據系統需先將數據匯聚成批,經批量預處理後載入至分析型數據倉庫中,以進行高性能實時查詢。這類系統雖然可對完整大數據集實現高效的即席查詢,但無法查詢到最新的實時數據,存在數據遲滯高等問題。

以Spark Streaming、Storm、Flink為代表的流處理大數據系統將實時數據通過流處理,逐條載入至高性能內存資料庫中進行查詢。此類系統可以對最新實時數據實現高效預設分析處理模型的查詢,數據遲滯低。

隨著互聯網、計算機行業快速發展,企業對數據的時效性越發重視,企業應用也逐漸由批處理數據平台向實時的流數據數據平台轉移。以流數據處理為代表的Spark、kafka大數據系統近年來大放異彩,取代了Hadoop的主導地位。

更多數據參考前瞻產業研究院發布的《中國大數據產業發展前景與投資戰略規劃分析報告》

⑼ 我國大數據的發展情況和現狀分別是什麼 簡述

(一)市場規模快速增長,供給結構初步形成
市場規模快速增長。十二五以來,我國大數據產業從無到有,全國各地發展大數據積極性較高,行業應用得到快速推廣,市場規模增速明顯。易觀國際數據顯示,2011-2014年,我國大數據市場規模分別為37.4億元、47.3億元、59億元和75.7億元,年平均復合增長約為27%。易觀國際同時預測,2015、2016年我國大數據市場規模將保持約30%的增長速度,在十二五末市場規模接近100億元。