大數據系列文章第1篇
1. 以大數據為主題,寫一篇1500字的文章
可參考下文9個關鍵字寫寫大數據行業2015年年終總結2015年,大數據市場的發展迅猛,放眼國際,總體市場規模持續增加,隨著人工智慧、物聯網的發展,幾乎所有人將目光瞄準了「數據」產生的價值。行業廠商Cloudera、DataStax以及DataGravity等大數據公司已經投入大量資金研發相關技術,Hadoop供應商Hortonworks與數據分析公司NewRelic甚至已經上市。而國內,國家也將大數據納入國策。我們邀請數夢工場的專家妹子和你來聊聊2015年大數據行業九大關鍵詞,管窺這一年行業內的發展。戰略:國家政策今年中國政府對於大數據發展不斷發文並推進,這標志著大數據已被國家政府納入創新戰略層面,成為國家戰略計劃的核心任務之一:2015年9月,國務院發布《促進大數據發展行動綱要》,大力促進中國數據技術的發展,數據將被作為戰略性資源加以重視;2015年10月26日,在國家「十三五」規劃中具體提到實施國家大數據戰略。挑戰:BI(商業智能)2015年對於商業智能(BI)分析市場來說,正由傳統的商業智能分析快速進入到敏捷型商業智能時代。以QlikView、Tableau和SpotView為代表的敏捷商業智能產品正在挑戰傳統的IBMCognos、SAPBusinessObjects等以IT為中心的BI分析平台。敏捷商業智能產品也正在進一步細化功能以達到更敏捷、更方便、適用范圍更廣的目的。崛起:深度學習/機器學習人工智慧如今已變得異常火熱,作為機器學習中最接近AI(人工智慧)的一個領域,深度學習在2015年不再高高在上,很多創新企業已經將其實用化:Facebook開源深度學習工具「Torch」、PayPal使用深度學習監測並對抗詐騙、亞馬遜啟動機器學習平台、蘋果收購機器學習公司Perceptio……同時在國內,網路、阿里,科大訊飛也在迅速布局和發展深度學習領域的技術。共存:Spark/HadoopSpark近幾年來越來越受人關注,2015年6月15日,IBM宣布投入超過3500名研究和開發人員在全球十餘個實驗室開展與Spark相關的項目。與Hadoop相比,Spark具有速度方面的優勢,但是它本身沒有一個分布式存儲系統,因此越來越多的企業選擇Hadoop做大數據平台,而Spark是運行於Hadoop頂層的內存處理方案。Hadoop最大的用戶(包括eBay和雅虎)都在Hadoop集群中運行著Spark。Cloudera和Hortonworks將Spark列為他們Hadoop發行的一部分。Spark對於Hadoop來說不是挑戰和取代相反,Hadoop是Spark成長發展的基礎。火爆:DBaaS隨著Oracle12cR2的推出,甲骨文以全新的多租戶架構開啟了DBaaS(資料庫即服務Database-as-a-Service)新時代,新的資料庫讓企業可以在單一實體機器中部署多個資料庫。在2015年,除了趨勢火爆,12c多租戶也在運營商、電信等行業投入生產應用。據分析機構Gartner預測,2012年至2016年公有資料庫雲的年復合增長率將高達86%,而到2019年資料庫雲市場規模將達到140億美元。與傳統資料庫相比,DBaaS能提供低成本、高敏捷性和高可擴展性等雲計算特有的優點。
2. 大數據的內容和基本含義
「大數據」是近年來IT行業的熱詞,大數據在各個行業的應用逐漸變得廣泛起來,如2014年的兩會,我們聽得最多的也是大數據分析,那麼,什麼是大數據呢,什麼是大數據概念呢,大數據概念怎麼理解呢,一起來看看吧。
1、大數據的定義。大數據,又稱巨量資料,指的是所涉及的數據資料量規模巨大到無法通過人腦甚至主流軟體工具,在合理時間內達到擷取、管理、處理、並整理成為幫助企業經營決策更積極目的的資訊。
2、大數據的採集。科學技術及互聯網的發展,推動著大數據時代的來臨,各行各業每天都在產生數量巨大的數據碎片,數據計量單位已從從Byte、KB、MB、GB、TB發展到PB、EB、ZB、YB甚至BB、NB、DB來衡量。大數據時代數據的採集也不再是技術問題,只是面對如此眾多的數據,我們怎樣才能找到其內在規律。
3、大數據的特點。數據量大、數據種類多、 要求實時性強、數據所蘊藏的價值大。在各行各業均存在大數據,但是眾多的信息和咨詢是紛繁復雜的,我們需要搜索、處理、分析、歸納、總結其深層次的規律。
4、大數據的挖掘和處理。大數據必然無法用人腦來推算、估測,或者用單台的計算機進行處理,必須採用分布式計算架構,依託雲計算的分布式處理、分布式資料庫、雲存儲和虛擬化技術,因此,大數據的挖掘和處理必須用到雲技術。
5、大數據的應用。大數據可應用於各行各業,將人們收集到的龐大數據進行分析整理,實現資訊的有效利用。舉個本專業的例子,比如在奶牛基因層面尋找與產奶量相關的主效基因,我們可以首先對奶牛全基因組進行掃描,盡管我們獲得了所有表型信息和基因信息,但是由於數據量龐大,這就需要採用大數據技術,進行分析比對,挖掘主效基因。例子還有很多。
6、大數據的意義和前景。總的來說,大數據是對大量、動態、能持續的數據,通過運用新系統、新工具、新模型的挖掘,從而獲得具有洞察力和新價值的東西。以前,面對龐大的數據,我們可能會一葉障目、可見一斑,因此不能了解到事物的真正本質,從而在科學工作中得到錯誤的推斷,而大數據時代的來臨,一切真相將會展現在我么面前。
3. 以大數據時代為題寫一篇年終總結
進入2012年,大數據(big data)一詞越來越多地被提及,人們用它來描述和定義信息爆炸時代產生的海量數
大數據時代來臨
據,並命名與之相關的技術發展與創新。它已經上過《紐約時報》《華爾街日報》的專欄封面,進入美國白宮官網的新聞,現身在國內一些互聯網主題的講座沙龍中,甚至被嗅覺靈敏的國金證券、國泰君安、銀河證券等寫進了投資推薦報告。
數據正在迅速膨脹並變大,它決定著企業的未來發展,雖然很多企業可能並沒有意識到數據爆炸性增長帶來問題的隱患,但是隨著時間的推移,人們將越來越多的意識到數據對企業的重要性。
正如《紐約時報》2012年2月的一篇專欄中所稱,「大數據」時代已經降臨,在商業、經濟及其他領域中,決策將日益基於數據和分析而作出,而並非基於經驗和直覺。
哈佛大學社會學教授加里·金說:「這是一場革命,龐大的數據資源使得各個領域開始了量化進程,無論學術界、商界還是政府,所有領域都將開始這種進程。」
大數據時代,什麼最貴?
十年前,葛大爺曾說過,「21世紀什麼最貴?」——「人才」,深以為然。只是,十年後的今天,大數據時代也帶來了身價不斷翻番的各種數據。由於急速拓展的網路帶寬以及各種穿戴設備所帶來的大量數據,數據的增長從未停歇,甚至呈井噴式增長。[7]
一分鍾內,微博推特上新發的數據量超過10萬;社交網路「臉譜」的瀏覽量超過600萬……
這些龐大數字,意味著什麼?
它意味著,一種全新的致富手段也許就擺在面前,它的價值堪比石油和黃金。
事實上,當你仍然在把微博等社交平台當作抒情或者發議論的工具時,華爾街的斂財高手們卻正在挖掘這些互聯網的「數據財富」,先人一步用其預判市場走勢,而且取得了不俗的收益。
讓我們一起來看看——他們是怎麼做的。
這些數據都能幹啥。具體有六大價值:
●1、華爾街根據民眾情緒拋售股票;
●2、對沖基金依據購物網站的顧客評論,分析企業產品銷售狀況;
●3、銀行根據求職網站的崗位數量,推斷就業率;
●4、投資機構搜集並分析上市企業聲明,從中尋找破產的蛛絲馬跡;
●5、美國疾病控制和預防中心依據網民搜索,分析全球范圍內流感等病疫的傳播狀況;
●6、美國總統奧巴馬的競選團隊依據選民的微博,實時分析選民對總統競選人的喜好。[1]
可視化
「數據是新的石油。」亞馬遜前任首席科學家Andreas Weigend說。Instagram以10億美元出售之時,成立於1881年的世界最大影像產品及服務商柯達正申請破產。
大數據是如此重要,以至於其獲取、儲存、搜索、共享、分析,乃至可視化地呈現,都成為了當前重要的研究課題[1] 。
「當時時變幻的、海量的數據出現在眼前,是怎樣一幅壯觀的景象?在後台注視著這一切,會不會有接近上帝俯視人間星火的感覺?」
這個問題我曾請教過劉建國,中國著名的搜索引擎專家。劉曾主持開發過國內第一個大規模中英文搜索引擎系統「天網」。
要知道,劉建國曾任至網路的首席技術官,在這樣一家每天需應對網民各種搜索請求1.7億次(2013年約為8.77億次)的網站中,如果只是在後台靜靜端坐,可能片刻都不能安心吧。網路果然在提供搜索服務之外,逐漸增添了網路指數,後又建立了基於網民搜索數據的重要產品「貼吧」及網路統計產品等。
劉建國沒有直接回答這個問題,他想了很久,似乎陷入了回憶,嘴角的笑容含著詭秘。
倒是有公司已經在大數據中有接近上帝俯視的感覺,美國洛杉磯就有企業宣稱,他們將全球夜景的歷史數據建立模型,在過濾掉波動之後,做出了投資房地產和消費的研究報告。
在數據可視化呈現方面,我最新接收到的故事是,一位在美國思科物流部門工作的朋友,很聰明的印度裔小夥子,被Facebook高價挖角,進入其數據研究小組。他後來驚訝地發現,裡面全是來自物流企業、供應鏈方面的技術人員和專家,「Facebook想知道,能不能用物流的角度和流程的方式,分析用戶的路徑和行為。」
4. 大數據分析專業什麼時候開始有的
以下是計量數據量的歷史過程中一些具有里程碑意義的事件,以及屬於「大數據」概念進化歷程中的一些「第一次」或者是新發現。
1944年
衛斯理大學圖書館員弗萊蒙特·雷德出版了《學者與研究型圖書館的未來》一書。他估計美國高校圖書館的規模每16年就翻一番。按照這一增長速度,雷德推測2040年耶魯大學圖書館將擁有「約2億冊藏書,將占據6,000餘英里書架…[需要的]編目人員超過6,000人。」
1961年
德里克·普賴斯出版了《巴比倫以來的科學》,在這本書中,普賴斯通過觀察科學期刊和論文的增長規律來研究科學知識的增長。他得出以下結論:新期刊的數量以指數方式增長而不是以線性方式增長,每15年翻一番,每50年以10為指數倍進行增長。普賴斯將其稱之為「指數增長規律」,並解釋道,「科學每前進一步就以一個相當恆定的出現率產生一系列新的進步。因此在任何時候,新科學的產生數量永遠嚴格地與科學發現總量成正比。」
1964年4月
哈里·J·格雷和亨利·拉斯頓在美國電氣與電子工程師協會(IEEE)的《電子計算機學報》上發表了《應對信息爆炸的技巧》一文,在文中,他們提出了以下建議:
1)任何人都不應該發表新論文。2)如果1)不可行,僅短小的論文可以被發表。「短小」的意思是文章不超過2,500字元,空格、標點符號都計算在內。3)如果2)被點贊,則應該實行下述限制:「只有將現存總長度為2501或更多字元的文章刪除一篇或多篇,短小的文章才可以被發表。」
上述建議的實行將產生一個重要的副產品,即減輕人才選拔委員會的負擔。因為一個人的出版物列表將僅被一個負數所代替,這個負數指代了他從現有信息存儲中刪除論文的凈數目。
1967年11月
B·A·馬里恩和P·A·D·德·梅恩在《美國計算機協會通訊》上發表了《自動數據壓縮》一文,文章指出,「近年來被人們所關注的『信息爆炸』使得對所有信息的存儲需求保持在最低限度是非常必要的。」文章描寫道:「全自動壓縮機由三部分組成,能夠快速處理信息,它可以被應用於『任何』信息主體,大大降低了緩慢的外部存儲要求,並可以通過計算機提高信息傳輸速度。」
1971年
亞瑟·米勒在《侵犯隱私》中寫道:「太多的信息處理者看似是以個人檔案存儲容量的比特數目來衡量一個人。」
1975年
日本郵電部開始實施了「信息流普查」計劃,以調查日本的信息總量(這一思想首次是在1969年的一篇文章中提出的)。普查以「字數總量」作為所有媒體的統一衡量單位。1975年的普查已經發現信息供給要比信息消費發展得快得多。1978年的普查報告指出「人們對單向傳播的大眾傳媒所提供信息的需求停滯不前,對以雙向傳播為特徵的個人通信媒體所提供信息的需求大規模增長…我們的社會正在進入一個新階段…在這一階段中,處於優勢地位的是那些能夠滿足個人需求的碎片性的、更為詳細的信息,而不再是那些傳統的被大量復制的、一致性的信息。[阿利斯泰爾·D·達夫,2000;參見馬丁·希爾伯特,2012]
1980年4月
I·A· 特詹姆斯蘭德在第四屆美國電氣和電子工程師協會(IEEE)「大規模存儲系統專題研討會」上做了一個報告,題為《我們該何去何從?》。在報告中,他指出 「那些很早以前就熟悉存儲裝置的人們發現,『帕金森第一法則』可以被用來解釋我們的現狀——『數據擴展至任何可用空間』…我相信大量數據正在被保留,因為用戶無法識別無用的數據;相較於丟棄潛在有用數據的不利後果,存儲無用數據的損失不那麼明顯。」
1981年
匈牙利中央統計辦公室開始實施了一項調查國家信息產業的研究項目,包括以比特為單位計量信息量。這項研究一直持續至今。1993年,匈牙利中央統計辦公室首席科學家伊斯特萬·迪恩斯編制了一本國家信息賬戶的標准體系手冊。[見伊斯特萬·迪恩斯,1994;馬丁·希爾伯特,2012]
1983年8月
伊契爾·索勒·普爾在《科學》雜志上發表了《追蹤信息流》一文,通過對1960年到1977年17種主流通訊媒體發展趨勢的觀察,他得出如下結論「這些媒體為10歲以上的美國人創造的可用詞彙以每年8.9%的速度增長…事實上這些媒體創造的、真正參與流通的單詞僅以每年2.9%的速度增長…在上述期間,信息流的增長在很大程度上是由於廣播的發展…但是在那段時期末 [1977年]情況發生了變化:點對點的媒體比廣播發展得快。」普爾、伊諾茲、高崎、赫維茨在《通信流:一項美國與日本的信息普查》中做了後續研究,這本書對美國和日本所產生的信息量進行了比較。
1986年7月
哈爾·B·貝克爾在《數據通信》上發表了《用戶真的能夠以今天或者明天的速度吸收數據嗎?》一文。貝克爾預計「古滕堡所實現的記錄密度大約是每立方英尺500個符號(字元),是公元前 4,000年蘇美爾人泥土片記錄密度的500倍。到2000年,半導體隨機存取存儲器將能夠在每立方英尺存儲1.25×1011個位元組。」
對於數據存儲而言,1996年數字存儲就比紙張存儲更能節約成本,這是R·J·T·莫里斯和B·J·特拉斯克渥奇在2003年7月1日《IBM系統期刊》上所發表的《存儲系統的演進》一文中指出的。
1997年10月
邁克爾·考克斯和大衛·埃爾斯沃思在第八屆美國電氣和電子工程師協會(IEEE)關於可視化的會議論文集中發表了《為外存模型可視化而應用控製程序請求頁面調度》的文章。文章以下述內容開頭:「可視化對計算機系統提出了一個有趣的挑戰:通常情況下數據集相當大,耗盡了主存儲器、本地磁碟、甚至是遠程磁碟的存儲容量。我們將這個問題稱為大數據。當主存儲器(內核)無法容納數據集,或者當本地磁碟都無法容納數據集的時候,最常用的解決辦法就是獲取更多的資源。」這是在美國計算機學會的數字圖書館中第一篇使用「大數據」這一術語的文章。
1997年
邁克爾·萊斯克發表了《世界上究竟有多少信息?》一文,萊斯克得出以下結論「世界上的信息總量近乎幾千PB;到2000年,磁帶和磁碟的生產將達到上述水平。因此,在短短幾年內,(a)我們可以存儲任何信息——沒有信息不得不被放棄,(b)人們再也不會看到典型的信息片段。」
1998年10月
K·G· 科夫曼和安德魯·奧德里科發表了《互聯網的規模與增長速度》一文。他們認為「公共互聯網流量的增長速度,雖然比通常認為的要低,卻仍然以每年100%的速度增長,要比其他網路流量的增長快很多。然而,如果以當前的趨勢繼續發展,在2002年左右,美國的數據流量就要趕超聲音流量,且將由互聯網主宰。」奧德里科隨後建立了明尼蘇達互聯網流量研究所(MINTS),跟蹤2002年到2009年互聯網流量的增長情況。
1999年8月
史蒂夫·布賴森、大衛·肯懷特、邁克爾·考克斯、大衛·埃爾斯沃思以及羅伯特·海門斯在《美國計算機協會通訊》上發表了《千兆位元組數據集的實時性可視化探索》一文。這是《美國計算機協會通訊》上第一篇使用「大數據」這一術語的文章(這篇文章有一個部分的標題為「大數據的科學可視化」)。文章開篇指出:「功能強大的計算機是許多查詢領域的福音。它們也是禍害;高速運轉的計算產生了規模龐大的數據。曾幾何時我們認為兆位元組(MB)的數據集就很大了,現在我們在單個模擬計算中就發現了300GB范圍的數據集。但是研究高端計算產生的數據是一個很有意義的嘗試。不止一位科學家曾經指出,審視所有的數字是極其困難的。正如數學家、計算機科學家先驅理查德·W·海明指出的,計算的目的是獲得規律性的認識,而不是簡單地獲得數字。」10月份,在美國電氣和電子工程師協會(IEEE)1999年關於可視化的年會上,布賴森、肯懷特、海門斯與大衛·班克斯、羅伯特·范·里拉和山姆·思爾頓在名為「自動化或者交互:什麼更適合大數據?」的專題討論小組中共同探討大數據的問題。
2000年10月
彼得·萊曼與哈爾·R·瓦里安在加州大學伯克利分校網站上發布了一項研究成果:《信息知多少?》。這是在計算機存儲方面第一個綜合性地量化研究世界上每年產生並存儲在四種物理媒體:紙張、膠卷、光碟(CD與DVD)和磁碟中新的以及原始信息(不包括備份)總量的成果。研究發現,1999年,世界上產生了 1.5EB獨一無二的信息,或者說是為地球上每個男人、每個女人以及每個孩子產生了250MB信息。研究同時發現,「大量唯一的信息是由個人創造和存儲的」(被稱為「數字民主化」),「數字信息產品不僅數量龐大,而且以最快的速度增長」。作者將這項發現稱為「數字統治」。萊曼和瓦里安指出,「即使在今天,大多數文本信息都是以數字形式產生的,在幾年之內,圖像也將如此。」2003年,萊曼與瓦里安發布了最新研究成果:2002年世界上大約產生了5EB 新信息,92%的新信息存儲在磁性介質上,其中大多數存儲在磁碟中。
2001年2月
梅塔集團分析師道格·萊尼發布了一份研究報告,題為《3D數據管理:控制數據容量、處理速度及數據種類》。十年後,3V作為定義大數據的三個維度而被廣泛接受。
2005年9月
蒂姆·奧萊利發表了《什麼是Web2.0》一文,在文中,他斷言「數據將是下一項技術核心」。奧萊利指出:「正如哈爾·瓦里安在去年的一次私人談話中所說的,『結構化查詢語言是一種新的超文本鏈接標示語言』。資料庫管理是Web2.0公司的核心競爭力,以至於我們有些時候將這些應用稱為『訊件』,而不僅僅是軟體。」
2007年3月
約翰·F·甘茨,大衛·萊茵澤爾及互聯網數據中心(IDC)其他研究人員出版了一個白皮書,題為《膨脹的數字宇宙:2010年世界信息增長預測》。這是第一份評估與預測每年世界所產生與復制的數字化數據總量的研究。互聯網數據中心估計,2006年世界產生了161EB數據,並預測在2006年至2010年間,每年為數字宇宙所增加的信息將是以上數字的六倍多,達到988EB,或者說每18個月就翻一番。據2010年和2011年同項研究所發布的信息,每年所創造的數字化數據總量超過了這個預測,2010年達到了1,200EB,2011年增長到了1,800EB。
2008年1月
布雷特·斯旺森和喬治·吉爾德發表了《評估數字洪流》一文,在文中他們提出到2015年美國IP流量將達到1ZB,2015年美國的互聯網規模將至少是2006年的50倍。
2008年6月
思科發布了一份報告,題為《思科視覺網路指數——預測與方法,2007-2012》,作為「持續跟蹤和預測視覺網路應用影響的行動」的一部分。這份報告預言,「從現在到2012年,IP流量將每兩年翻一番」,2012年IP流量將達到0.5ZB。這份預測比較准確,正如思科最近一份報告(2012年5月 30日)指出的,2012年IP流量剛剛超過0.5ZB,「在過去的5年中增長了8倍」。
2009年12月
羅傑·E·博恩和詹姆斯·E·少特發表了《信息知多少?2009年美國消費者報告》。研究發現,2008年「美國人消費了約1.3萬億小時信息,幾乎平均每天消費12小時。總計3.6澤位元組(ZB),10,845萬億單詞,相當於平均每人每天消費100,500單詞及34GB信息。博恩、少特和沙坦亞·巴魯在2011年1月發表了《信息知多少?2010年企業伺服器信息報告》,繼續上述研究。在文中他們估計,2008年「世界上的伺服器處理了9.57ZB信息,幾乎是95,700,000,000,000,000,000,000位元組信息,或者是10萬億GB。也就是平均每天每個工作者產生12GB信息,或者每年每個工作者產生3TB 信息。世界上所有的公司平均每年處理63TB信息。」
2010年2月
肯尼斯·庫克爾在《經濟學人》上發表了一份關於管理信息的特別報告《數據,無所不在的數據》。庫克爾在文中寫道:「…世界上有著無法想像的巨量數字信息,並以極快的速度增長…從經濟界到科學界,從政府部門到藝術領域,很多地方都已感受到了這種巨量信息的影響。科學家和計算機工程師已經為這個現象創造了一個新詞彙:『大數據』。」
2011年2月
馬丁·希爾伯特和普里西拉·洛佩茲在《科學》雜志上發表了《世界存儲、傳輸與計算信息的技術能力》一文。他們估計1986至2007年間,世界的信息存儲能力以每年25%的速度增長。同時指出,1986年99.2%的存儲容量都是模擬性的,但是到了2007年,94%的存儲容量都是數字化的,兩種存儲方式發生了角色的根本性逆轉(2002 年,數字化信息存儲第一次超過非數字化信息存儲)。
2011年5月
麥肯錫全球研究院的詹姆斯•馬尼卡、邁克爾·崔、布雷德·布朗、傑克斯·卜黑、理查德·多布斯、查爾斯·羅克斯伯勒以及安傑拉·孔·拜爾斯發布了《大數據:下一個具有創新力、競爭力與生產力的前沿領域》。他們指出:「到2009年,對於美國所有的經濟部門而言,平均每個有1,000名以上員工的公司所存儲的數據至少有200TB(是美國零售商沃爾瑪在1999年數據倉儲的兩倍)」證券和投資服務部門所存儲的數據處於領先地位。總的來講,這項研究估計2010 年所有的公司存儲了7.4EB新產生的數據,消費者存儲了6.8EB新數據。
2012年4月
《國際通信學報》出版了「信息計量」專題,這是多種測量信息量的研究方法與研究結果的專題。在《追蹤家庭信息流》一文中,諾伊曼、帕克和潘尼克(運用前文提到的日本郵電部和普爾的研究方法)估計,為美國家庭所提供的所有媒體信息從1960年的每天50,000分鍾增長到2005年的900,000分鍾。根據2005年的供需比例,他們估計美國人「1分鍾所需消費的信息有1,000分鍾的媒體內容可供選擇。」在《信息的國際化生產與傳播》一文中,邦妮和吉爾(運用上文中萊曼和瓦里安的研究方法)估計2008年世界產生了14.7EB新信息,接近2003年信息總量的三倍。
注釋:我有意沒有考慮對信息價值(和成本)的討論,及用金融術語和/或信息/知識工作者的數量來衡量信息經濟(例如馬克盧普、波拉特、謝曼特)的嘗試。同樣沒有考慮的還有很多有意思的關於「信息超載」的參考文獻,或者是相似的術語,詹姆斯·格雷克在最近出版的《信息》(詳見第15章)一書中對這些術語進行了調查。格雷克在克勞德·申農的注釋中發現了申農(1949年)試圖判定具有「比特存儲容量」的各種事物,如穿孔卡片、 「人類遺傳學構造」(格雷克指出,申農是提出「基因組是一個信息庫,並以比特為單位進行衡量」的第一人)、唱片。在申農的列表裡,最大條目是擁有100萬億兆比特的美國國會圖書館。
—— 大數據發展簡史
5. 這都是1篇文章嗎
先考慮有偶數頁的文章,只要這樣的第一篇文章的第一面排在奇數頁碼上(如第1頁),那麼接著每一篇有偶數頁的文章都會是第一面排在奇數頁碼上,共有7篇這樣的文章。然後考慮有奇數頁的文章,第一篇的第一面排在奇數頁碼上,第二篇的第一面就會排在偶數頁碼上,第三篇的第一面排在奇數頁碼上,如此等等。在8篇奇數頁的文章中,有4篇的第一面排在奇數頁碼上。因此最多有7+4=11(篇)文章的第一面排在奇數頁碼上。
6. 大數據如何入門
導讀:
第一章:初識Hadoop
第二章:更高效的WordCount
第三章:把別處的數據搞到Hadoop上
第四章:把Hadoop上的數據搞到別處去
第五章:快一點吧,我的SQL
第六章:一夫多妻制
第七章:越來越多的分析任務
第八章:我的數據要實時
第九章:我的數據要對外
第十章:牛逼高大上的機器學習
經常有初學者會問,自己想往大數據方向發展,該學哪些技術,學習路線是什麼樣的,覺得大數據很火,就業很好,薪資很高……首先,如果你確定了想往這個方面發展,先考慮自己的過去從業經歷、專業、興趣是什麼。計算機專業——操作系統、硬體、網路、伺服器?軟體專業——軟體開發、編程、寫代碼?還是數學、統計學專業——對數據和數字特別感興趣?
其實這就是想告訴你大數據的三個發展方向,平台搭建/優化/運維/監控、大數據開發/設計/架構、數據分析/挖掘。
先扯一下大數據的4V特徵:
數據量大,TB->PB
數據類型繁多,結構化、非結構化文本、日誌、視頻、圖片、地理位置等;
商業價值高,但是這種價值需要在海量數據之上,通過數據分析與機器學習更快速的挖掘出來;
處理時效性高,海量數據的處理需求不再局限在離線計算當中。
Hadoop 1.0、Hadoop 2.0
MapRece、HDFS
NameNode、DataNode
JobTracker、TaskTracker
Yarn、ResourceManager、NodeManager
HDFS目錄操作命令;
上傳、下載文件命令;
提交運行MapRece示常式序;
打開Hadoop WEB界面,查看Job運行狀態,查看Job運行日誌。
知道Hadoop的系統日誌在哪裡。
- SELECT word,COUNT(1) FROM wordcount GROUP BY word;
- 這時,使用Flume採集的數據,不是直接到HDFS上,而是先到Kafka,Kafka中的數據可以由多個消費者同時消費,其中一個消費者,就是將數據同步到HDFS。
- 至此,大數據平台底層架構已經成型了,其中包括了數據採集、數據存儲與計算(離線和實時)、數據同步、任務調度與監控這幾大模塊。接下來是時候考慮如何更好的對外提供數據了。
現如今,正式為了應對大數據的這幾個特點,開源的大數據框架越來越多,越來越強,先列舉一些常見的:
文件存儲:Hadoop HDFS、Tachyon、KFS
離線計算:Hadoop MapRece、Spark
流式、實時計算:Storm、Spark Streaming、S4、Heron
K-V、NOSQL資料庫:HBase、Redis、MongoDB
資源管理:YARN、Mesos
日誌收集:Flume、Scribe、Logstash、Kibana
消息系統:Kafka、StormMQ、ZeroMQ、RabbitMQ
查詢分析:Hive、Impala、Pig、Presto、Phoenix、SparkSQL、Drill、Flink、Kylin、Druid
分布式協調服務:Zookeeper
集群管理與監控:Ambari、Ganglia、Nagios、Cloudera Manager
數據挖掘、機器學習:Mahout、Spark MLLib
數據同步:Sqoop
任務調度:Oozie
······
第一章:初識Hadoop
1.1學會網路與Google
不論遇到什麼問題,先試試搜索並自己解決。
Google首選,翻不過去的,就用網路吧。
1.2參考資料首選官方文檔
特別是對於入門來說,官方文檔永遠是首選文檔。
相信搞這塊的大多是文化人,英文湊合就行,實在看不下去的,請參考第一步。
1.3先讓Hadoop跑起來
Hadoop可以算是大數據存儲和計算的開山鼻祖,現在大多開源的大數據框架都依賴Hadoop或者與它能很好的兼容。
關於Hadoop,你至少需要搞清楚以下是什麼:
自己搭建Hadoop,請使用第一步和第二步,能讓它跑起來就行。
建議先使用安裝包命令行安裝,不要使用管理工具安裝。
另外:Hadoop1.0知道它就行了,現在都用Hadoop 2.0.
1.4嘗試使用Hadoop
1.5了解它們的原理
MapRece:如何分而治之;
HDFS:數據到底在哪裡,什麼是副本;
Yarn到底是什麼,它能幹什麼;
NameNode到底在幹些什麼;
ResourceManager到底在幹些什麼;
1.6自己寫一個MapRece程序
仿照WordCount例子,自己寫一個(照抄也行)WordCount程序,
打包並提交到Hadoop運行。
不會Java的話,Shell、Python都可以,有個東西叫Hadoop Streaming。
如果能認真完成了以上幾步,恭喜你,你的一隻腳已經進來了。
第二章:更高效的WordCount
2.1學點SQL吧
如果不懂資料庫的童鞋先學習使用SQL句。
2.2 SQL版WordCount
在1.6中,你寫(或者抄)的WordCount一共有幾行代碼?
如果用SQL的話:
這便是SQL的魅力,編程需要幾十行,甚至上百行代碼,SQL一句就搞定;使用SQL處理分析Hadoop上的數據,方便、高效、易上手、更是趨勢。不論是離線計算還是實時計算,越來越多的大數據處理框架都在積極提供SQL介面。
2.3安裝配置Hive
Hive算是數據倉庫工具,安裝不難,網上有很多教程,配置完成後,可以正常進入Hive命令行。
2.4試試使用Hive
嘗試在Hive中創建wordcount表,並運行2.2中的SQL語句。在Hadoop WEB界面中找到剛才運行的SQL任務。看SQL查詢結果是否和1.4中MapRece中的結果一致。
明明寫的是SQL,為什麼Hadoop WEB界面中看到的是MapRece任務?
2.5學會Hive的基本命令
創建、刪除表;載入數據到表;下載Hive表的數據;並學習更多關於Hive的語法和命令。
以上如果按照第一章和第二章的流程認真完整的走了一遍後,應該已經具備以下技能和知識點:
0和Hadoop2.0的區別
MapRece的原理(還是那個經典的題目,一個10G大小的文件,給定1G大小的內存,如何使用Java程序統計出現次數最多的10個單詞及次數);
HDFS讀寫數據的流程;向HDFS中PUT數據;從HDFS中下載數據;
自己會寫簡單的MapRece程序,運行出現問題,知道在哪裡查看日誌;
會寫簡單的SELECT、WHERE、GROUP BY等SQL語句;
Hive SQL轉換成MapRece的大致流程;
Hive中常見的語句:創建表、刪除表、往表中載入數據、分區、將表中數據下載到本地;
從上面的學習,你已經了解到,HDFS是Hadoop提供的分布式存儲框架,它可以用來存儲海量數據,MapRece是Hadoop提供的分布式計算框架,它可以用來統計和分析HDFS上的海量數據,而Hive則是SQL On Hadoop,Hive提供了SQL介面,開發人員只需要編寫簡單易上手的SQL語句,Hive負責把SQL翻譯成MapRece,提交運行。
此時,你的認知中「大數據平台」是這樣的:
總結:
為什麼Spark比MapRece快。
使用SparkSQL代替Hive,更快的運行SQL。
使用Kafka完成數據的一次收集,多次消費架構。
自己可以寫程序完成Kafka的生產者和消費者。
前面的學習已經掌握了大數據平台中的數據採集、數據存儲和計算、數據交換等大部分技能,而這其中的每一步,都需要一個任務(程序)來完成,各個任務之間又存在一定的依賴性,比如,必須等數據採集任務成功完成後,數據計算任務才能開始運行。如果一個任務執行失敗,需要給開發運維人員發送告警,同時需要提供完整的日誌來方便查錯。
第七章:越來越多的分析任務
不僅僅是分析任務,數據採集、數據交換同樣是一個個的任務。這些任務中,有的是定時觸發,有點則需要依賴其他任務來觸發。當平台中有幾百上千個任務需要維護和運行時候,僅僅靠crontab遠遠不夠了,這時便需要一個調度監控系統來完成這件事。調度監控系統是整個數據平台的中樞系統,類似於AppMaster,負責分配和監控任務。
7.1 Apache Oozie
1. Oozie是什麼?有哪些功能?
2. Oozie可以調度哪些類型的任務(程序)?
3. Oozie可以支持哪些任務觸發方式?
4.安裝配置Oozie。
7.2其他開源的任務調度系統
Azkaban
light-task-scheler
alibaba/zeus
……
此時:
第八章:數據要實時
在第六章介紹Kafka的時候提到了一些需要實時指標的業務場景,實時基本可以分為絕對實時和准實時,絕對實時的延遲要求一般在毫秒級,准實時的延遲要求一般在秒、分鍾級。對於需要絕對實時的業務場景,用的比較多的是Storm,對於其他准實時的業務場景,可以是Storm,也可以是Spark Streaming。當然,如果可以的話,也可以自己寫程序來做。
8.1 Storm
1. 什麼是Storm?有哪些可能的應用場景?
2. Storm由哪些核心組件構成,各自擔任什麼角色?
3. Storm的簡單安裝和部署。
4. 自己編寫Demo程序,使用Storm完成實時數據流計算。
8.2 Spark Streaming
1. 什麼是Spark Streaming,它和Spark是什麼關系?
2. Spark Streaming和Storm比較,各有什麼優缺點?
3. 使用Kafka + Spark Streaming,完成實時計算的Demo程序。
此時:
第九章:數據要對外
通常對外(業務)提供數據訪問,大體上包含以下方面:
離線:比如,每天將前一天的數據提供到指定的數據源(DB、FILE、FTP)等;
離線數據的提供可以採用Sqoop、DataX等離線數據交換工具。
實時:比如,在線網站的推薦系統,需要實時從數據平台中獲取給用戶的推薦數據,這種要求延時非常低(50毫秒以內)。
根據延時要求和實時數據的查詢需要,可能的方案有:HBase、Redis、MongoDB、ElasticSearch等。
OLAP分析:OLAP除了要求底層的數據模型比較規范,另外,對查詢的響應速度要求也越來越高,可能的方案有:Impala、Presto、SparkSQL、Kylin。如果你的數據模型比較規模,那麼Kylin是最好的選擇。
即席查詢:即席查詢的數據比較隨意,一般很難建立通用的數據模型,因此可能的方案有:Impala、Presto、SparkSQL。
這么多比較成熟的框架和方案,需要結合自己的業務需求及數據平台技術架構,選擇合適的。原則只有一個:越簡單越穩定的,就是最好的。
如果你已經掌握了如何很好的對外(業務)提供數據,那麼你的「大數據平台」應該是這樣的:
第十章:牛逼高大上的機器學習
這里本人也沒有接觸太多,稍微講一下我們的業務場景應用,遇到的能用機器學習解決的問題大概這么三類:
分類問題:包括二分類和多分類,二分類就是解決了預測的問題,就像預測一封郵件是否垃圾郵件;多分類解決的是文本的分類;
聚類問題:從用戶搜索過的關鍵詞,對用戶進行大概的歸類。
推薦問題:根據用戶的歷史瀏覽和點擊行為進行相關推薦。
大多數行業,使用機器學習解決的,也就是這幾類問題。
入門學習線路:
數學基礎;
機器學習實戰(Machine Learning in Action),懂Python最好;
SparkMlLib提供了一些封裝好的演算法,以及特徵處理、特徵選擇的方法。
那麼把機器學習部分加進 「大數據平台」。
7. 以大數據為主題,寫一篇1500字的文章
世界包含的多得難以想像的數字化信息變得更多更快……從商業到科學,從政府到藝術,這種影響無處不在。科學家和計算機工程師們給這種現象創造了一個新名詞:「大數據」。大數據時代什麼意思?大數據概念什麼意思?大數據分析什麼意思?所謂大數據,那到底什麼是大數據,他的來源在哪裡,定義究竟是什麼呢?
七:最後北京開運聯合給您總結一下
不管大數據的核心價值是不是預測,但是基於大數據形成決策的模式已經為不少的企業帶來了盈利和聲譽。
1、從大數據的價值鏈條來分析,存在三種模式:
1)手握大數據,但是沒有利用好;比較典型的是金融機構,電信行業,政府機構等。
2)沒有數據,但是知道如何幫助有數據的人利用它;比較典型的是IT咨詢和服務企業,比如,埃森哲,IBM,開運聯合等。
3)既有數據,又有大數據思維;比較典型的是Google,Amazon,Mastercard等。
2、未來在大數據領域最具有價值的是兩種事物:
8. 以大數據為主題,寫一篇1500字的文章
綠色的外套上新添了幾許鮮艷的花紋.
春姑娘繼續向前走,走啊走內啊,她看見了田野里冬眠的青蛙容,於是,春姑娘用她神奇的「魔法棒」喚醒了睡夢中的青蛙,青蛙便開始用它那特有的歌喉,響亮地唱起了只有它自己能聽懂的歌曲.青蛙的叫聲吵醒了小鳥,一下子,大地熱鬧起來.「唧唧唧,唧唧唧」,小鳥也跟隨著春天的旋律,唱出了美妙的「歌曲」,從這個樹枝上,一下子飛到那邊的樹枝上,為大地增添了不少生趣.
9. 《大數據》這個期刊的質量怎麼樣,本人有一篇文章被錄用,版面費要2700。作為學生覺得有點貴了。
你要是找的代理的話,不但貴,而且還有可能被騙,直接找雜志社,不會那麼貴。