大數據的價值如何實現
A. 大數據的價值是什麼
大數據對企業產生的一個重要價值就是分析數據的質量,此外,企業內部是否會形成一個個孤立的數據孤島,數據是否會成就企業內某些人或團隊新的權力,導致數據不能得到實時有效地分享,這些都會是阻礙大數據在企業中有效應用的因素。
B. 縱觀大數據是如何實現自己的數據價值
縱觀大數據是如何實現自己的數據價值
大數據開啟了人類數據管理史的一段嶄新旅程。人類想要測量、記錄和分析世界的渴望是驅動大數據技術不斷向前的動力。但如同此前的電子商務、雲計算等創新構想一樣,大數據也不得不懷抱變革理想在現實中披荊斬棘。
我們該如何定義我們所身處的信息技術時代?是雲計算、社交、移動,還是大數據?相信每位從業者和客戶都會有自己的認知與解讀。「一千個人眼中就有一千個哈姆雷特」,很多時候是一個放之四海皆準的道理,更何況我們正在經歷一段創新趨勢疊加、創新領域融合的獨特時期。而對於那些想要體會技術創新真正內涵的人士,有一個話題永遠不可迴避,這就是技術創新到底會給其受眾帶來怎樣的真實價值?這種價值是否能夠在其被發掘後長期、持續地給予?
本文重點關注大數據技術這一重大技術創新趨勢在企業環境中價值實現的過程。在全民熱議的氛圍中,或許我們可以暫時遠離那些對大數據的定義、技術特徵、未來走向的種種爭論,潛心聆聽喧囂中實地探索的腳步。我們希望與您共同探討大數據所能夠開辟的數據價值轉換與兌現路徑,從而為企業高效、合理利用快速增長的業務數據帶來啟發。也希望這些來自中國企業的真實應用案例能夠證明,大數據並不僅僅是一個催生佈道師的舞台,它正在真切地影響著我們的工作與生活。
腳踏實地的大數據
人類的想像力有多豐富,大數據的未來世界就會有多廣博。要讓海量數據資源變成寶貴的商業資產,企業的大數據技術實踐者們需要從現實中起步。
如今,「大數據」總會與「變革」作為聯動的詞彙出現。牛津大學網路學院互聯網研究所治理與監管專業教授維克托·邁爾-舍恩伯格在其著作《大數據時代》一書中,將大數據定義為一次重大時代轉型的開啟者,稱其將會引發一場生活、工作與思維的大變革。
他認為,在大數據時代,人類處理數據的方法和思維模式將被徹底改變,它會呈現出一些前所未有的現象。比方說,人們將會分析更多的數據,而不再依賴於隨機采樣;人們將不再沉迷於對數據分析精確度的追求,轉而關注對趨勢的把握;人們不會再習慣性地追問事情的因果,而是尋找事物之間的相關關系。
無論這些數據處理的未來趨勢最終是否能夠成真,我們都可以從日常的工作和生活中窺探到一些變化的端倪。首先,企業的數據管理范疇正在不斷擴大,在線交易、Web日誌、點擊流、感測器信息、社交媒體數據等都被納入企業的業務數據集。另一方面,我們在生活中會遇到越來越多與數據分析相關的商業創意。例如,各個電子商務、視頻網站中花樣繁多的推薦系統,還有超市中零食與手電筒這樣不明所以、卻能帶來實際銷售增長的擺放組合。
大數據對企業究竟意味著什麼?舍恩伯格在《大數據時代》一書中做出了這樣的描述:「在大數據時代,數據的價值從它最基本的用途轉變為未來的潛在用途。這一轉變意義重大,它影響了企業評估其擁有的數據及訪問者的方式,促使甚至是迫使公司改變他們的商業模式,同時也改變了組織看待和使用數據的方式。」
轉變並不會在一夜之間發生。從多來源的數據採集,到通過深度分析獲取洞察力,之間會是一段並不平坦的征程。毫無疑問,Hadoop等技術的日趨成熟,讓企業用戶可以更方便地、在更大的范圍內收集業務的相關數據,但同時真正的挑戰也會接踵而至。這就是如何高效地處理多來源的海量數據,並且為其找到適合的商業用途。
在過去的一個月里,我們實地探訪了三家正在實際部署大數據應用的企業。它們分別是京東(JD.com)、人人游戲和PPTV聚力。這三家互聯網企業正在用業界前沿的數據管理思維,展開大數據技術的早期實踐。同時,在它們身上也折射出全球互聯網企業利用大數據的實際趨勢。全球范圍內與之業務相類似的在線零售巨頭亞馬遜(Amazon.com)、社交遊戲先鋒Zynga、全球最大的在線影片租賃服務商Netflix,同樣處在大數據商業應用的最前沿。
另外,我們還特別加入了一個寓技術於體育競技的輕松案例。網球賽場上細致入微的數據統計和分析背後,正是大數據技術的鼎力支持。
遠觀不如近臨。大數據的價值實現之旅已經啟程,改變就在我們的身邊發生!
C. 大數據上的數據分析要如何實現
要從收集的數據中提取價值、提高威脅管理活動的效率以及使用法規遵從性活動來推動決策 制定,安全團隊需要使用「大數據」方法來進行安全管理。https://community.emc.com/docs/DOC-42149 這意味著:
採用敏捷的「橫向擴展」基礎架構來響應不斷變化的 IT 環境和不斷發展的威脅。安全管理需要支持影響 IT 的新業務計劃,從新的應用程序到新的交付模式,例如移動性、虛擬化、雲計算和外包。安全管理基礎架構必須能夠在企業層面上收集和管理安全數據,並進行擴展以滿足當今的企業級需求(包括物理要求和經濟要求)。這意味著進行「橫向擴展」而非「縱向擴展」,因為將所有這些數據集中化在實際情況中是不可能的。此外,該基礎架構還需要能夠輕松擴展以適應新的環境,並時刻准備好發展和完善以支持對不斷演變的威脅進行分析。
擁有支持安全分析特性的分析和可視化工具。安全專家需要專業的分析工具來支持其工作。有的分析師需要工具來協助自己找出具備某些支持詳細信息的基本事件。經理們可能只需要關鍵指標的高級可視化圖形和趨勢圖。惡意內容分析師需要重建可疑的文件和工具,以便自動執行這些文件的測試。網路取證分析師需要全面重建關於某個會話的所有日誌和網路信息,以便精確地確定發生的情況。
擁有威脅智能以便對收集的信息應用數據分析技術。組織需要了解當前的外部威脅環境,以便將這些威脅與從組織內部收集到的信息進行關聯。這種關聯工作對於分析師至關重要,可幫助他們清楚地理解當前的威脅指示因素和他們需要尋找的信息。
D. 如何實現大數據真正價值
1. 數據融合
成功的大數據分析可以使用戶應對工作中的困難,例如發現業務計劃和工作中的缺陷和失誤。它甚至可以將新的細分市場進行拆分,企業可以提供新的產品和服務。要想做到這些,就需要從各種資源得來的數據中抓住重點從而做出重要決策。
在數據分析中,時間至關重要。很多企業領導者和決策制定者需要實時的信息來快速做出決定。但是據估算,大約80%的時間都花在了准備和整理數據上。這樣一來真正的分析工作只佔20%。
因此高效的處理工作非常重要,例如數據分析的提取、轉換和載入過程(ETL)。
一個好的ETL工具可以將從多個來源獲取的數據融合在一起,也包括公共數據。它讓用戶的注意力集中到一個源頭,獲得相關性更高的信息,提高工作效率。同時可以確保用戶的信息來源是唯一的,降低錯誤溝通的風險。
企業如何通過各種技術手段,並把數據轉換為信息、知識,已經成了提高其核心競爭力的主要瓶頸。而ETL則是主要的一個技術手段。目前,ETL工具的典型代表有:Informatica、Datastage、OWB、微軟DTS、Beeload、Kettle……
2. 溝通無障礙
就像之前說過的,大數據分析工具可以幫助企業解決商業難題。從業人員也許能很好的理解這些問題,但IT人員卻不能完全理解,這樣就不能提供和專業需求相匹配的分析報告。再加上溝通不順暢,領導層就無法及時得到有用信息,也就無法快速做出決策。
如果技術人員能夠使用這種自助服務分析工具,就能夠找到問題所在並做出可以彌補漏洞的決定。此外,他們還可以將數據同其他開放信息結合在一起,挖掘細分市場。企業還可以共享IT資源來發掘更多的數據信息。
E. 大數據怎麼發揮大價值
大數據興起預示逗信息時代地進入新階段
1.1 看待大數據要有歷史性的眼光
信息時代是相對於農業和工業時代而言的一段相當長的時間。不同時代的生產要素和社會發展驅動力有明顯差別。信息時代的標志性技術發明是數字計算機、集成電路、光纖通信和互聯網(萬維網)。盡管媒體上大量出現逗大數據時代地的說法,但大數據、雲計算等新技術目前還沒有出現與上述劃時代的技術發明可媲美的技術突破,難以構成一個超越信息時代的新時代。信息時代可以分成若干階段,大數據等新技術的應用標志著信息社會將進入一個新階段。
考察分析100年以上的歷史長河可以發現,信息時代與工業時代的發展規律有許多相似之處。電氣化時代與信息時代生產率的提高過程驚人地相似。都是經過20~30年擴散儲備之後才有明顯提高,分界線分別是1915年和1995年。筆者猜想,信息技術經過幾十年的擴散儲備後,21世紀的前30年可能是信息技術提高生產率的黃金時期。
1.2 從逗信息時代新階段地的高度認識逗大數據地
中國已開始進入信息時代,但許多人的思想還停留在工業時代。經濟和科技工作中出現的許多問題,其根源是對時代的認識不到位。18-19世紀中國落後挨打,根源是滿清政府沒有認識到時代變了,我們不能重犯歷史性的錯誤。
中央提出中國進入經濟逗新常態地以後,媒體上有很多討論,但多數是為經濟增速降低做解釋,很少有從時代改變的角度論述逗新常態地的文章。筆者認為,經濟新常態意味著中國進入了以信息化帶動新型工業化、城鎮化和農業現代化的新階段,是經濟和社會管理的躍遷,不是權宜之計,更不是倒退。
大數據、移動互聯網、社交網路、雲計算、物聯網等新一代信息技術構成的IT架構逗第三平台地是信息社會進入新階段的標志,對整個經濟的轉型有引領和帶動作用。媒體上經常出現的互聯網、創客、逗第二次機器革命地、逗工業4.0地等都與大數據和雲計算有關。大數據和雲計算是新常態下提高生產率的新杠桿,所謂創新驅動發展就是主要依靠信息技術促進生產率的提高。
1.3 大數據可能是中國信息產業從跟蹤走向引領的突破口
中國的大數據企業已經有相當好的基礎。全球十大互聯網服務企業中國佔有4席(阿里巴巴、騰訊、網路和京東),其他6個Top10 互聯網服務企業全部是美國企業,歐洲和日本沒有互聯網企業進入Top10。這說明中國企業在基於大數據的互聯網服務業務上已處於世界前列。在發展大數據技術上,我國有可能改變過去30年技術受制於人的局面,在大數據應用上中國有可能在全世界起到引領作用。
但是,企業的規模走在世界前列並不表示我國在大數據技術上領先。實際上,國際上目前流行的大數據主流技術沒有一項是我國開創的。開源社區和眾包是發展大數據技術和產業的重要途徑,但我們對開源社區的貢獻很小,在全球近萬名社區核心志願者中,我國可能不到200名。我們要吸取過去基礎研究為企業提供核心技術不夠的教訓,加強大數據基礎研究和前瞻技術研究,努力攻克大數據核心和關鍵技術。
2 理解大數據需要上升到文化和認識論的高度
2.1 數據文化是一種先進文化
數據文化的本質是尊重客觀世界的實事求是精神,數據就是事實。重視數據就是強調用事實說話、按理性思維的科學精神。中國人的傳統習慣是定性思維而不是定量思維。目前許多城市在開展政府數據開放共享工作,但是發現多數老百姓對政府要開放的數據並不感興趣。要讓大數據走上健康的發展軌道,首先要大力弘揚數據文化。本文講的數據文化不只是大數據用於文藝、出版等文化產業,而是指全民的數據意識。全社會應認識到:信息化的核心是數據,只有政府和大眾都關注數據時,才能真正理解信息化的實質;數據是一種新的生產要素,大數據的利用可以改變資本和土地等傳統要素在經濟中的權重。
有人將逗上帝與數據共舞地歸納為美國文化的特點之一,說的是美國人既有對神的誠意,又有通過數據求真的理性。美國從鍍金時代到進步主義時期完成了數據文化的思維轉變,南北戰爭之後人口普查的方法被應用到很多領域,形成了數據預測分析的思維方式。近百年來美國和西方各國的現代化與數據文化的傳播滲透有密切關系,我國要實現現代化也必須強調數據文化。
提高數據意識的關鍵是要理解大數據的戰略意義。數據是與物質、能源一樣重要的戰略資源,數據的採集和分析涉及每一個行業,是帶有全局性和戰略性的技術。從硬技術到軟技術的轉變是當今全球性的技術發展趨勢,而從數據中發現價值的技術正是最有活力的軟技術,數據技術與數據產業的落後將使我們像錯過工業革命機會一樣延誤一個時代。
2.2 理解大數據需要有正確的認識論
歷史上科學研究是從邏輯演繹開始的,歐幾里得幾何的所有定理可從幾條公理推導出來。從伽利略和牛頓開始,科學研究更加重視自然觀察和實驗觀察,在觀察基礎上通過歸納方法提煉出科學理論,逗科學始於觀察地成為科學研究和認識論的主流。經驗論和唯理論這兩大流派都對科學的發展做出過重大貢獻,但也暴露出明顯的問題,甚至走入極端。理性主義走向極端就成為康德所批判的獨斷主義,經驗主義走入極端就變成懷疑論和不可知論。
20世紀30年代,德國哲學家波普爾提出了被後人稱為逗證偽主義地的認識論觀點,他認為科學理論不能用歸納法證實,只能被試驗發現的反例逗證偽地,因而他否定科學始於觀察,提出逗科學始於問題地的著名觀點[3]。證偽主義有其局限性,如果嚴格遵守證偽法則,萬有引力定律、原子論等重要理論都可能被早期的所謂反例扼殺。但逗科學始於問題地的觀點對當前大數據技術的發展有指導意義。
大數據的興起引發了新的科學研究模式:逗科學始於數據地。從認識論的角度看,大數據分析方法與逗科學始於觀察地的經驗論較為接近,但我們要牢記歷史的教訓,避免滑入否定理論作用的經驗主義泥坑。在強調逗相關性地的時候不要懷疑逗因果性地的存在;在宣稱大數據的客觀性、中立性的時候,不要忘了不管數據的規模如何,大數據總會受制於自身的局限性和人的偏見。不要相信這樣的預言:逗採用大數據挖掘,你不需要對數據提出任何問題,數據就會自動產生知識地。面對像大海一樣的巨量數據,從事數據挖掘的科技人員最大的困惑是,我們想撈的逗針地是什麼看這海里究竟有沒有逗針地看也就是說,我們需要知道要解決的問題是什麼。從這個意義上講,逗科學始於數據地與逗科學始於問題地應有機地結合起來。
對逗原因地的追求是科學發展的永恆動力。但是,原因是追求不完的,人類在有限的時間內不可能找到逗終極真理地。在科學的探索途中,人們往往用逗這是客觀規律地解釋世界,並不立即追問為什麼有這樣的客觀規律。也就是說,傳統科學並非只追尋因果性,也可以用客觀規律作為結論。大數據研究的結果多半是一些新的知識或新的模型,這些知識和模型也可以用來預測未來,可以認為是一類局部性的客觀規律。科學史上通過小數據模型發現一般性規律的例子不少,比如開普勒歸納的天體運動規律等;而大數據模型多半是發現一些特殊性的規律。物理學中的定律一般具有必然性,但大數據模型不一定具有必然性,也不一定具有可演繹性。大數據研究的對象往往是人的心理和社會,在知識階梯上位於較高層,其自然邊界是模糊的,但有更多的實踐特徵。大數據研究者更重視知行合一,相信實踐論。大數據認識論有許多與傳統認識論不同的特點,我們不能因其特點不同就否定大數據方法的科學性。大數據研究挑戰了傳統認識論對因果性的偏愛,用數據規律補充了單一的因果規律,實現了唯理論和經驗論的數據化統一,一種全新的大數據認識論正在形成。
3 正確認識大數據的價值和效益
3.1 大數據的價值主要體現為它的驅動效應
人們總是期望從大數據中挖掘出意想不到的逗大價值地。實際上大數據的價值主要體現在它的驅動效應,即帶動有關的科研和產業發展,提高各行各業通過數據分析解決困難問題和增值的能力。大數據對經濟的貢獻並不完全反映在大數據公司的直接收入上,應考慮對其他行業效率和質量提高的貢獻。大數據是典型的通用技術,理解通用技術要採用逗蜜蜂模型地:蜜蜂的效益主要不是自己釀的蜂蜜,而是蜜蜂傳粉對農業的貢獻。
電子計算機的創始人之一馮·諾依曼曾指出:逗在每一門科學中,當通過研究那些與終極目標相比頗為朴實的問題,發展出一些可以不斷加以推廣的方法時,這門學科就得到了巨大的進展。地我們不必天天期盼奇跡出現,多做一些逗頗為朴實地的事情,實際的進步就在扎扎實實的努力之中。媒體喜歡宣傳一些令人驚奇的大數據成功案例,對這些案例我們應保持清醒的頭腦。據Intel中國研究院首席工程師吳甘沙在一次報告中透露,所謂逗啤酒加尿布地的數據挖掘經典案例,其實是Teradata公司一位經理編出來的逗故事地,歷史上並沒有發生過[4]。即使有這個案例,也不說明大數據分析本身有什麼神奇,大數據中看起來毫不相關的兩件事同時或相繼出現的現象比比皆是,關鍵是人的分析推理找出為什麼兩件事物同時或相繼出現,找對了理由才是新知識或新發現的規律,相關性本身並沒有多大價值。
有一個家喻戶曉的寓言可以從一個角度說明大數據的價值:一位老農民臨終前告訴他的3個兒子,他在他家的地中埋藏了一罐金子,但沒有講埋在哪裡。
他的兒子們把他家所有的地都深挖了一遍,沒有挖到金子,但由於深挖了土地,從此莊稼收成特別好。數據收集、分析的能力提高了,即使沒有發現什麼普適的規律或令人完全想不到的新知識,大數據的價值也已逐步體現。
3.2 大數據的力量來自逗大成智慧地
每一種數據來源都有一定的局限性和片面性,只有融合、集成各方面的原始數據,才能反映事物的全貌。事物的本質和規律隱藏在各種原始數據的相互關聯之中。不同的數據可能描述同一實體,但角度不同。對同一個問題,不同的數據能提供互補信息,可對問題有更深入的理解。因此在大數據分析中,匯集盡量多種來源的數據是關鍵。
數據科學是數學(統計、代數、拓撲等)、計算機科學、基礎科學和各種應用科學融合的科學,類似錢學森先生提出的逗大成智慧學地[5]。錢老指出:逗必集大成,才能得智慧地。大數據能不能出智慧,關鍵在於對多種數據源的集成和融合。IEEE計算機學會最近發布了2014年的計算機技術發展趨勢預測報告,重點強調逗無縫智慧(seamless intelligence)地。發展大數據的目標就是要獲得協同融合的逗無縫智慧地。單靠一種數據源,即使數據規模很大,也可能出現逗瞎子摸象地一樣的片面性。數據的開放共享不是錦上添花的工作,而是決定大數據成敗的必要前提。
大數據研究和應用要改變過去各部門和各學科相互分割、獨立發展的傳統思路,重點不是支持單項技術和單個方法的發展,而是強調不同部門、不同學科的協作。數據科學不是垂直的逗煙囪地,而是像環境、能源科學一樣的橫向集成科學。
3.3 大數據遠景燦爛,但近期不能期望太高
交流電問世時主要用作照明,根本想像不到今天無處不在的應用。大數據技術也一樣,將來一定會產生許多現在想不到的應用。我們不必擔心大數據的未來,但近期要非常務實地工作。人們往往對近期的發展估計過高,而對長期的發展估計不足。Gartner公司預測,大數據技術要在5~10年後才會成為較普遍採用的主流技術,對發展大數據技術要有足夠的耐心。
大數據與其他信息技術一樣,在一段時間內遵循指數發展規律。指數發展的特點是,從一段歷史時期衡量(至少30年),前期發展比較慢,經過相當長時間(可能需要20年以上)的積累,會出現一個拐點,過了拐點以後,就會出現爆炸式的增長。但任何技術都不會永遠保持逗指數性地增長,一般而言,高技術發展遵循Gartner公司描述的技術成熟度曲線(hype cycle),最後可能進入良性發展的穩定狀態或者走向消亡。
需要採用大數據技術來解決的問題往往都是十分復雜的問題,比如社會計算、生命科學、腦科學等,這些問題絕不是幾代人的努力就可以解決的。宇宙經過百億年的演化,才出現生物和人類,其復雜和巧妙堪稱絕倫,不要指望在我們這一代人手中就能徹底揭開其奧妙。展望數百萬年甚至更長遠的未來,大數據技術只是科學技術發展長河中的一朵浪花,對10~20年大數據研究可能取得的科學成就不能抱有不切實際的幻想。
4 從復雜性的角度看大數據研究和應用面臨的挑戰
大數據技術和人類探索復雜性的努力有密切關系。20世紀70年代,新三論(耗散結構論、協同論、突變論)的興起對幾百年來貫穿科學技術研究的還原論發起了挑戰。1984年蓋爾曼等3位諾貝爾獎得主成立以研究復雜性為主的聖菲研究所,提出超越還原論的口號,在科技界掀起了一場復雜性科學運動。雖然雷聲很大,但30年來並未取得預期的效果,其原因之一可能是當時還沒有出現解決復雜性的技術。
集成電路、計算機與通信技術的發展大大增強了人類研究和處理復雜問題的能力。大數據技術將復雜性科學的新思想發揚光大,可能使復雜性科學得以落地。復雜性科學是大數據技術的科學基礎,大數據方法可以看作復雜性科學的技術實現。大數據方法為還原論與整體論的辯證統一提供了技術實現途徑。大數據研究要從復雜性研究中吸取營養,從事數據科學研究的學者不但要了解20世紀的逗新三論地,可能還要學習與超循環、混沌、分形和元胞自動機等理論有關的知識,擴大自己的視野,加深對大數據機理的理解。
大數據技術還不成熟,面對海量、異構、動態變化的數據,傳統的數據處理和分析技術難以應對,現有的數據處理系統實現大數據應用的效率較低,成本和能耗較大,而且難以擴展。這些挑戰大多來自數據本身的復雜性、計算的復雜性和信息系統的復雜性。
4.1 數據復雜性引起的挑戰
圖文檢索、主題發現、語義分析、情感分析等數據分析工作十分困難,其原因是大數據涉及復雜的類型、復雜的結構和復雜的模式,數據本身具有很高的復雜性。目前,人們對大數據背後的物理意義缺乏理解,對數據之間的關聯規律認識不足,對大數據的復雜性和計算復雜性的內在聯系也缺乏深刻理解,領域知識的缺乏制約了人們對大數據模型的發現和高效計算方法的設計。形式化或定量化地描述大數據復雜性的本質特徵及度量指標,需要深入研究數據復雜性的內在機理。人腦的復雜性主要體現在千萬億級的樹突和軸突的鏈接,大數據的復雜性主要也體現在數據之間的相互關聯。理解數據之間關聯的奧秘可能是揭示微觀到宏觀逗涌現地規律的突破口。大數據復雜性規律的研究有助於理解大數據復雜模式的本質特徵和生成機理,從而簡化大數據的表徵,獲取更好的知識抽象。為此,需要建立多模態關聯關系下的數據分布理論和模型,理清數據復雜度和計算復雜度之間的內在聯系,奠定大數據計算的理論基礎。
4.2 計算復雜性引起的挑戰
大數據計算不能像處理小樣本數據集那樣做全局數據的統計分析和迭代計算,在分析大數據時,需要重新審視和研究它的可計算性、計算復雜性和求解演算法。大數據樣本量巨大,內在關聯密切而復雜,價值密度分布極不均衡,這些特徵對建立大數據計算範式提出了挑戰。對於PB級的數據,即使只有線性復雜性的計算也難以實現,而且,由於數據分布的稀疏性,可能做了許多無效計算。
傳統的計算復雜度是指某個問題求解時需要的時間空間與問題規模的函數關系,所謂具有多項式復雜性的演算法是指當問題的規模增大時,計算時間和空間的增長速度在可容忍的范圍內。傳統科學計算關注的重點是,針對給定規模的問題,如何逗算得快地。而在大數據應用中,尤其是流式計算中,往往對數據處理和分析的時間、空間有明確限制,比如網路服務如果回應時間超過幾秒甚至幾毫秒,就會丟失許多用戶。大數據應用本質上是在給定的時間、空間限制下,如何逗算得多地。從逗算得快地到逗算得多地,考慮計算復雜性的思維邏輯有很大的轉變。所謂逗算得多地並不是計算的數據量越大越好,需要探索從足夠多的數據,到剛剛好的數據,再到有價值的數據的按需約簡方法。
基於大數據求解困難問題的一條思路是放棄通用解,針對特殊的限制條件求具體問題的解。人類的認知問題一般都是NP難問題,但只要數據充分多,在限制條件下可以找到十分滿意的解,近幾年自動駕駛汽車取得重大進展就是很好的案例。為了降低計算量,需要研究基於自舉和采樣的局部計算和近似方法,提出不依賴於全量數據的新型演算法理論,研究適應大數據的非確定性演算法等理論。
4.3 系統復雜性引起的挑戰
大數據對計算機系統的運行效率和能耗提出了苛刻要求,大數據處理系統的效能評價與優化問題具有挑戰性,不但要求理清大數據的計算復雜性與系統效率、能耗間的關系,還要綜合度量系統的吞吐率、並行處理能力、作業計算精度、作業單位能耗等多種效能因素。針對大數據的價值稀疏性和訪問弱局部性的特點,需要研究大數據的分布式存儲和處理架構。
大數據應用涉及幾乎所有的領域,大數據的優勢是能在長尾應用中發現稀疏而珍貴的價值,但一種優化的計算機系統結構很難適應各種不同的需求,碎片化的應用大大增加了信息系統的復雜性,像昆蟲種類一樣多(500多萬種)的大數據和物聯網應用如何形成手機一樣的巨大市場,這就是所謂逗昆蟲綱悖論地[6]。為了化解計算機系統的復雜性,需要研究異構計算系統和可塑計算技術。
大數據應用中,計算機系統的負載發生了本質性變化,計算機系統結構需要革命性的重構。信息系統需要從數據圍著處理器轉改變為處理能力圍著數據轉,關注的重點不是數據加工,而是數據的搬運;系統結構設計的出發點要從重視單任務的完成時間轉變到提高系統吞吐率和並行處理能力,並發執行的規模要提高到10億級以上。構建以數據為中心的計算系統的基本思路是從根本上消除不必要的數據流動,必要的數據搬運也應由逗大象搬木頭地轉變為逗螞蟻搬大米地。
5 發展大數據應避免的誤區
5.1 不要一味追求逗數據規模大地
大數據主要難點不是數據量大,而是數據類型多樣、要求及時回應和原始數據真假難辨。現有資料庫軟體解決不了非結構化數據,要重視數據融合、數據格式的標准化和數據的互操作。採集的數據往往質量不高是大數據的特點之一,但盡可能提高原始數據的質量仍然值得重視。腦科學研究的最大問題就是採集的數據可信度差,基於可信度很差的數據難以分析出有價值的結果。
一味追求數據規模大不僅會造成浪費,而且效果未必很好。多個來源的小數據的集成融合可能挖掘出單一來源大數據得不到的大價值。應多在數據的融合技術上下功夫,重視數據的開放與共享。所謂數據規模大與應用領域有密切關系,有些領域幾個PB的數據未必算大,有些領域可能幾十TB已經是很大的規模。
發展大數據不能無止境地追求逗更大、更多、更快地,要走低成本、低能耗、惠及大眾、公正法治的良性發展道路,要像現在治理環境污染一樣,及早關注大數據可能帶來的逗污染地和侵犯隱私等各種弊端。
5.2 不要逗技術驅動地,要逗應用為先地
新的信息技術層出不窮,信息領域不斷冒出新概念、新名詞,估計繼逗大數據地以後,逗認知計算地、逗可穿戴設備地、逗機器人地等新技術又會進入炒作高峰。我們習慣於跟隨國外的熱潮,往往不自覺地跟著技術潮流走,最容易走上逗技術驅動地的道路。實際上發展信息技術的目的是為人服務,檢驗一切技術的唯一標準是應用。我國發展大數據產業一定要堅持逗應用為先地的發展戰略,堅持應用牽引的技術路線。技術有限,應用無限。各地發展雲計算和大數據,一定要通過政策和各種措施調動應用部門和創新企業的積極性,通過跨界的組合創新開拓新的應用,從應用中找出路。
5.3 不能拋棄逗小數據地方法
流行的逗大數據地定義是:無法通過目前主流軟體工具在合理時間內採集、存儲、處理的數據集。這是用不能勝任的技術定義問題,可能導致認識的誤區。按照這種定義,人們可能只會重視目前解決不了的問題,如同走路的人想踩著自己身前的影子。其實,目前各行各業碰到的數據處理多數還是逗小數據地問題。我們應重視實際碰到的問題,不管是大數據還是小數據。
統計學家們花了200多年,總結出認知數據過程中的種種陷阱,這些陷阱不會隨著數據量的增大而自動填平。大數據中有大量的小數據問題,大數據採集同樣會犯小數據採集一樣的統計偏差。Google公司的流感預測這兩年失靈,就是由於搜索推薦等人為的干預造成統計誤差。
大數據界流行一種看法:大數據不需要分析因果關系、不需要采樣、不需要精確數據。這種觀念不能絕對化,實際工作中要邏輯演繹和歸納相結合、白盒與黑盒研究相結合、大數據方法與小數據方法相結合。
5.4 要高度關注構建大數據平台的成本
目前全國各地都在建設大數據中心,呂梁山下都建立了容量達2 PB以上的數據處理中心,許多城市公安部門要求存儲3個月以上的高清監控錄像。這些系統的成本都非常高。數據挖掘的價值是用成本換來的,不能不計成本,盲目建設大數據系統。什麼數據需要保存,要保存多少時間,應當根據可能的價值和所需的成本來決定。大數據系統技術還在研究之中,美國的E級超級計算機系統要求能耗降低1 000倍,計劃到2024年才能研製出來,用現在的技術構建的巨型系統能耗極高。
我們不要攀比大數據系統的規模,而是要比實際應用效果,比完成同樣的事消耗更少的資源和能量。先抓老百姓最需要的大數據應用,因地制宜發展大數據。發展大數據與實現信息化的策略一樣:目標要遠大、起步要精準、發展要快速。
F. 如何體現大數據的核心價值
這是一個實踐性的問題,是需要大量的時間才能實現。核心價值的存在,不是一個概念性的問題。檸檬學院大數據。
G. 如何實現大數據價值最大化
1. 數據融合
成功的大數據分析可以使用戶應對工作中的困難,例如發現業務計劃和工作中的缺陷和失誤。它甚至可以將新的細分市場進行拆分,企業可以提供新的產品和服務。要想做到這些,就需要從各種資源得來的數據中抓住重點從而做出重要決策。
在數據分析中,時間至關重要。很多企業領導者和決策制定者需要實時的信息來快速做出決定。但是據估算,大約80%的時間都花在了准備和整理數據上。這樣一來真正的分析工作只佔20%。
因此高效的處理工作非常重要,例如數據分析的提取、轉換和載入過程(ETL)。
一個好的ETL工具可以將從多個來源獲取的數據融合在一起,也包括公共數據。它讓用戶的注意力集中到一個源頭,獲得相關性更高的信息,提高工作效率。同時可以確保用戶的信息來源是唯一的,降低錯誤溝通的風險。
企業如何通過各種技術手段,並把數據轉換為信息、知識,已經成了提高其核心競爭力的主要瓶頸。而ETL則是主要的一個技術手段。目前,ETL工具的典型代表有:Informatica、Datastage、OWB、微軟DTS、Beeload、Kettle……
2. 溝通無障礙
就像之前說過的,大數據分析工具可以幫助企業解決商業難題。從業人員也許能很好的理解這些問題,但IT人員卻不能完全理解,這樣就不能提供和專業需求相匹配的分析報告。再加上溝通不順暢,領導層就無法及時得到有用信息,也就無法快速做出決策。
如果技術人員能夠使用這種自助服務分析工具,就能夠找到問題所在並做出可以彌補漏洞的決定。此外,他們還可以將數據同其他開放信息結合在一起,挖掘細分市場。企業還可以共享IT資源來發掘更多的數據信息。
H. 大數據 、雲計算、互聯網等是怎麼樣實現價值
其實我個人覺得大數據雲計算確實能給互聯網公司帶來很多的好處,但是這個大數據版雲計算剛剛推出來的權時候,其實很多大公司CEO都不是特別的看好,只是被他們的手下忽悠了一下,就去搞了這樣的東西,但是搞完之後他們才發現原來大數據和雲計算真的是非常不錯的。
就像淘寶這個公司我們都是知道的,這個大數據跟雲計算是有什麼用呢?就是通過大家長時間或者是大量的點擊某個商品之後,他會知道,你到底喜歡什麼樣的商品,這就是大數據跟雲計算來幫你計算出來的東西,然後這樣的話你就可以看到你喜歡的東西的概率會多一點,然後也會增加他們的銷量,這就是大數據雲計算給他們帶來的一個好處。
I. 大數據的價值體現有哪些
第一、幫助企業尋找更多的市場機會
基於用戶分析的基礎上,企業可以獲得更好的產品和營銷的創意和概念,怎麼去搜集到更多的用戶信息,挖掘可能有的市場機會,這是大數據幫助企業實現的最好方法。
第二、幫助企業提高決策的科學合理性
從大數據誕生的時候來講,它都是站在企業的決策角度出發,從數據的數量到數據的本質,數據越多,管理者進行決策的時候所依據的信息完整性就會越高。
第三、幫助企業找到人員管理新模式
企業的員工是無條件的服從上級的管理,還是內部一盤散沙,企業的管理效率高不高,在競爭環境日益激烈的今天,對於企業來說,管理高不高效直接關繫到企業的經營效益高不高效,大數據與企業的核心管理因素相結合,成為企業的資產之一,大數據的成果可以進行企業內部共享,對於企業來說,這是一個變革的機會。
第四、幫助企業提供更加個性化的服務
彈性管理,個性化領導,每一個員工都可以得到更加個性化的培訓,每一個用戶都可以得到更加個性化的服務,對於企業來說這種個性化的創新無疑要依靠大數據技術的支持和發展。
第五、幫助企業進行商業模式的改革
新型的商業模式不斷的出現,對於新的市場機會的出現,大數據可以幫助企業獲得更好的產品,新的業務模式也需要企業的商業模式進行支持,抓住機會,企業就可以進行更多的產品和服務的創新。
J. 如何真正實現大數據價值
因此,行之有效的企業級信息優化戰略變得空前重要。由於預計2015年產生的數字內容中有90%將是非結構化數據,如簡訊和微博生成的信息,以及視頻和音頻,情況將變得越來越復雜。無論身處哪個行業,圍繞大數據及管理這些信息的挑戰都無處不在。· 金融服務行業必須滿足客戶對數字銀行服務的期望,並處理風險和監管需求等問題;· 在醫療和生命科學領域,患者隱私及葯物開發問題使合規成為了關鍵的投資動因;· 了解客戶需求以提高服務和參與模式是旅遊和交通行業必不可少的;· 在政府和公共事業領域,政府正在提高其智能及安全能力,以期更好地保護公眾;· 實時的數據可視化、匯總和詮釋對於能源行業至關重要。毫無准備的企業可能會在應對現有原始信息的數量、種類和速度時手足無措。如果企業缺乏管理並處理多來源海量信息的能力,將會導致涉及整個企業層面的各類問題:· 具有更先進的信息系統的競爭對手將能很好地利用數據並爭奪客戶;· 盡管有更大量和更多來源,實現數據價值將越來越困難;· 浪費大量時間過濾海量不相關的數據,而這些數據不能支持決策或推動其執行;· 缺乏靈活性、分離的信息基礎設施成本將逐步增加。政府和企業迫切需要從無關的數據中獲取洞察,並有能力對其有效利用。那些能從戰略上迅速響應,並從海量信息中提取真正價值的企業將能獲得關鍵的市場領先地位。發揮信息的力量根據Coleman Parkes Research的研究[3]表明,亞太和日本地區62%的私有企業認為有效的信息優化戰略能幫助其獲得競爭優勢。但是僅有不到一半的企業採用了合適的解決方案並從大數據中獲得洞察,而目前僅有15%的企業將非結構化數據納入了其企業洞察、流程和戰略。企業的終極目標應是充分利用100%的信息來推動更快、更明智的業務決策。企業應能衡量信息戰略在新增收入、節約成本以及加速上市等方面所帶來的價值。要想在以信息為驅動力的新時代獲得成功,企業需要信息優化戰略以及可理解抽象概念的解決方案。企業的目標是通過涵蓋所有數據形式的信息管理和分析系統實現互聯性智能。這意味著他們必須:· 建立一個敏捷的智能環境,並有合適的基礎設施來捕獲和存儲海量信息,進行實時分析並迅速適應不斷變化的優先事項;· 對企業生態系統中的信息和智能戰略進行整合,以獲得對業務數據的完整視圖;· 通過將洞察和理念轉化為行動而實現信息資產的全部價值。提升客戶體驗實現更好的客戶體驗是所有信息優化戰略的主要目標。改進企業搜索和分析信息的方式,以更好地了解客戶行為和需求,從而支持快速、明智的業務決策。這將有助於實現更好的客戶體驗和更高的忠誠度。信息洞察應整合所有客戶信息,無論客戶如何與企業進行互動,包括通過社交媒體、微博、移動應用,以及通過電話等其它方式。信息必須在不同的業務范圍內進行收集,同時還要解決潛在的隱私和安全問題。先進的信息技術能夠幫助企業增強其識別客戶喜好、問題和趨勢的能力。而這些情報可被用來更好地與客戶進行互動,同時提供超越競爭對手的洞察。這些新情報可在應用開發以及將應用遷移至雲的過程中發揮作用,而雲能讓客戶輕松、快速地獲得新服務。優化業務績效不僅是企業需要應對海量結構化和非結構化數據,數據也分布於多個可能互不相關的業務范圍,也存在於許多不同的應用中。現代數據中心的另一個關鍵能力是能夠處理大量的無關信息,從而獲得能提高業務績效的洞察。通過整合、遷移並匯總數據存儲,企業可以改進信息訪問,並降低IT運營成本。這能帶來簡單、靈活、迅速、低成本高收益的信息基礎設施,而此類基礎設施同時還具有可擴展性、模塊化特性,及可靠性。用智能信息基礎設施替換復雜的孤立資料庫,企業能夠在需要時捕捉、存儲並提供信息,無論採用哪種應用、規模有多大。充分利用100%的相關職能和運營數據能夠幫助客戶提高運營業績和經營利潤,並對信息生命周期管理進行自動化處理。信息優化的目標為構建一個服務於整個企業,從數據安全及合規,到分析和敏捷性的統一基礎設施。而由此帶來的快速、輕松分析信息的能力能夠幫助企業獲得更可靠的視圖,從而做出准確、有效的決策。管理安全和風險將能夠端到端管理100%大數據作為新目標,企業應研究更好的監管和安全措施來應對與日俱增的風險和復雜性。這些問題包括:不能充分利用目前所有可用數據進行及時、正確的決策所帶來的財務和法律風險,以及獲取數據並保證其是最新、最正確的。智能信息生態系統可管理安全環境中的數據,從而管理日常業務並降低風險。它還能利用洞察來引導企業投資和定價,並充分利用新的業務機會。將數據轉化為資產不能周密部署並迅速採取行動的企業有可能面臨被劇增的大數據淹沒的風險。另一方面,那些能夠實施全面的企業級信息優化戰略的企業所獲得的回報將是非常巨大的。這一戰略有助於縮小潛在的和最終實現的業務成果之間的差距。總之,它可以分為三大要素:· 能捕獲、存儲、復制並擴展數據的信息基礎設施;· 管理、保護、治理並充分利用數據的信息管理;· 搜索、分析、理解數據並對其採取行動的信息洞察工具。能夠從自身數據資產中獲得深入洞察和價值的企業將開始收獲其實質性的信息回報。文章更新提醒功能已上線,幫助您及時了解本頻道動態。