大數據分析架構書籍
A. 有關大數據雲計算的書籍有哪些
你好,關於大數來據書籍有以下基本自了參考看:
1.大數據預測
2.大數據時代
3.大數據分析:決勝互聯網金融時代
4.為數據而生:大數據創新實踐
5.爆發:大數據時代預見未來的新思維
這些書都是不錯的,將來大數據非常的重要。
B. 主流的大數據分析框架有哪些
1、Hadoop
Hadoop 採用 Map Rece 分布式計算框架,根據 GFS開發了 HDFS 分布式文件系統,根據 Big Table 開發了 HBase數據存儲系統。Hadoop 的開源特性使其成為分布式計算系統的事實上的國際標准。Yahoo,Facebook,Amazon 以及國內的網路,阿里巴巴等眾多互聯網公司都以 Hadoop 為基礎搭建自己的分布。
2、Spark
Spark 是在 Hadoop 的基礎上進行了一些架構上的改良。Spark 與Hadoop 最大的不同點在於,Hadoop 使用硬碟來存儲數據,而Spark 使用內存來存儲數據,因此 Spark 可以提供超過 Ha?doop 100 倍的運算速度。由於內存斷電後會丟失數據,Spark不能用於處理需要長期保存的數據。
3、 Storm
Storm 是 Twitter 主推的分布式計算系統。它在Hadoop的基礎上提供了實時運算的特性,可以實時的處理大數據流。不同於Hadoop和Spark,Storm不進行數據的收集和存儲工作,它直接通過網路實時的接受數據並且實時的處理數據,然後直接通過網路實時的傳回結果。
4、Samza
Samza 是由 Linked In 開源的一項技術,是一個分布式流處理框架,專用於實時數據的處理,非常像Twitter的流處理系統Storm。不同的是Sam?za 基於 Hadoop,而且使用了 Linked In 自家的 Kafka 分布式消息系統。
Samza 非常適用於實時流數據處理的業務,如數據跟蹤、日誌服務、實時服務等應用,它能夠幫助開發者進行高速消息處理,同時還具有良好的容錯能力。
C. 推薦一本關於大數據,數據分析類似的書籍
1、《Hadoop權威指南》
現在3.1版本剛剛發布,但官方並不推薦在生產環境使用。作為hadoop的入門書籍,從2.x版本開始也不失為良策。
本書從Hadoop的緣起開始,由淺入深,結合理論和實踐,全方位地介紹Hadoop這一高性能處理海量數據集的理想工具。剛剛更新的版本中,相比之前的版本增加了介紹YARN , Parquet , Flume, Crunch , Spark的章節,非常適合於Hadoop 初學者。
2、《Learning Spark》
《Spark 快速大數據分析》是一本為Spark 初學者准備的書,它沒有過多深入實現細節,而是更多關註上層用戶的具體用法。不過,本書絕不僅僅限於Spark 的用法,它對Spark 的核心概念和基本原理也有較為全面的介紹,讓讀者能夠知其然且知其所以然。
3、《Spark機器學習:核心技術與實踐》
以實踐方式助你掌握Spark機器學習技術。本書採用理論與大量實例相結合的方式幫助開發人員掌握使用Spark進行分析和實現機器學習演算法。通過這些示例和Spark在各種企業級系統中的應用,幫助讀者解鎖Spark機器學習演算法的復雜性,通過數據分析產生有價值的數據洞察力。
D. 想從零開始自學大數據,請問有哪些書籍推薦
在人人高呼的大數據時代,你是想繼續做一個月薪6K+的碼農,還是想要翻身學習成為炙手可熱名企瘋搶的大數據工程師呢?
隨著互聯網技術的發展,大數據行業前景非常被看好,有很多朋友對大數據行業心嚮往之,卻苦於不知道該如何下手,或者說學習大數據不知道應該看些什麼書。作為一個零基礎大數據入門學習者該看哪些書?今天就給大家分享幾本那些不容錯過的大數據書籍。
1、《數據挖掘》
這是一本關於數據挖掘領域的綜合概述,本書前版曾被KDnuggets的讀者評選為最受歡迎的數據挖掘專著,是一本可讀性極佳的教材。它從資料庫角度全面系統地介紹數據挖掘的概念、方法和技術以及技術研究進展,並重點關注近年來該領域重要和最新的課題——數據倉庫和數據立方體技術,流數據挖掘,社會化網路挖掘,空間、多媒體和其他復雜數據挖掘。
2、《Big Data》
這是一本在大數據的背景下,描述關於數據建模,數據層,數據處理需求分析以及數據架構和存儲實現問題的書。這本書提供了令人耳目一新的全面解決方案。但不可忽略的是,它也引入了大多數開發者並不熟悉的、困擾傳統架構的復雜性問題。本書將教你充分利用集群硬體優勢的Lambda架構,以及專門用來捕獲和分析網路規模數據的新工具,來創建這些系統。
3、《Mining of Massive Datasets》
這是一本書是關於數據挖掘的。但是本書主要關注極大規模數據的挖掘,也就是說這些數據大到無法在內存中存放。由於重點強調數據的規模,所以本書的例子大都來自Web本身或者Web上導出的數據。另外,本書從演算法的角度來看待數據挖掘,即數據挖掘是將演算法應用於數據,而不是使用數據來「訓練」某種類型的機器學習引擎。
E. 大數據相關的書籍有哪些,麻煩推薦一下
初級階段:《大數據時代》
讀完這本書,要求你形成大數據回的概念,對大數據有個全面的答認識和了解。
中級階段:《失控》
用統計的方法,而不是因果的方法,預測未來,用統計的方法來對某些東西進行預測.
高級階段:《復雜性》
指明了一個無窮疊代,即 「關系的關系的……關系」,而智能將在這里涌現,解決復雜性問題預測的關鍵很可能就在這里,這句話打開了一個非常廣闊的前景,將象宇宙一樣沒有窮盡。
高級階段(2):《量子物理史話》
停止爭論吧,上帝真的擲骰子!隨機性是世界的基石,當電子出現在這里時,它是一個隨機的過程,並不需要有誰給它加上難以忍受的條條框框。……而統計規律則把微觀上的無法無天抹平成為宏觀上的井井有條。——摘自《量子物理史話》
F. 大家推薦一本寫得好的關於大數據的書
兩本:
《大數據:正在到來的數據革命》 塗子沛
《大數據時代:生活、工作與思維的大變內革》 維克托•邁爾容-舍恩伯格 (Viktor Mayer-Schönberger) (作者), 肯尼思•庫克耶 (Kenneth Cukier) (作者), 盛楊燕 (譯者), 周濤 (譯者)
嫌少再加兩本:
《刪除:大數據取捨之道》 維克托•邁爾-舍恩伯格 (Viktor Mayer-Schönberger) (作者), 袁傑 (譯者)
《爆發:大數據時代預見未來的新思維》 艾伯特•拉斯洛•巴拉巴西(Albert László Barabási) (作者), 馬慧 (譯者)
G. 成為大數據處理架構師需要學什麼
一、大數據通用處理平台
Spark
Flink
Hadoop
二、分布式存儲:HDFS
三、資源調度
Yarn
Mesos
四、數據分析/數據倉庫專(SQL類)
Pig
Hive
kylin
Spark SQL,
Spark DataFrame
Impala
Phoenix
ELK
五、屬流式計算
Storm/JStorm
Spark Streaming
Flink
H. 有什麼比較好的大數據入門的書推薦
1. 《大數據分析:點「數」成金》
你現在正坐在一座金礦上,這些金子或被埋於備份,或正藏在你眼前的數據集里,他們是提升公司效益、拓展新的商業關系、制定更直觀決策的秘訣所在,足以使你的企業更上一層樓。你將明白如何利用、分析和駕馭數據來獲得豐厚回報。作者Frank Ohlhorst厚積數十年的技術經驗寫了此書。該書介紹了如何將大數據應用於各行各業,你將了解到如何對數據進行挖掘,怎樣從數據中揭示趨勢並轉化為競爭策略及提取價值的方法。這些更有意思也是更有效的方法能夠提升企業的智能化水平,將有助於企業解決實際問題,提升利潤空間,提高生產率並發現更多的商業機會。
2.《大數據時代》
《大數據時代》是國外大數據系統研究的先河之作,本書作者維克托被譽為」大數據商業應用第一人」,擁有再哈佛大學、牛津大學和新加坡國立大學等多個互聯網研究重鎮任教經歷,早在2010年就在《經濟學人》上發布了長達14頁對大數據應用的前瞻性研究。該書主要講了大數據時代的變革、商業變革和管理變革。《大數據時代》認為大數據的核心就是預測。大數據為人類的生活創造了前所未有的可量化的維度。大數據已經成為了新發明和新服務的源泉,而更多的改變正蓄勢待發。
3.《雲端時代殺手級應用:大數據分析》
《雲端時代殺手級應用:大數據分析》分析了什麼是大數據、大數據大商機、技術與前瞻三個部分。第一個部分介紹大數據分析的概念,以及企業、政府部門可應用的范疇。什麼是大數據分析?與個人與企業有什麼關系?將對全球產業造成什麼樣的沖擊?第二部分完整介紹了大數據在各產業的應用實況,為企業及政府部門提供應用的方向。提供了全球各地的實際應用案例,涵蓋了零售、金融、政府部門、能源、製造、娛樂等各個行業,充分展示了大數據分析產生的效益。第三部分則簡單介紹了大數據分析所需要的技術及未來的發展趨勢,為讀者提供了應用與研究的方向。
4.《大數據》
本書通過講述美國半個多世紀信息開放、技術創新的歷史,以別開生面的經典案例奧巴馬建設」前所未有的開放政府「的雄心、公開財務透明的曲折。《數據質量法》背後隱情,全國醫改法案的波瀾、統一身份證的百年糾結以及雲計算、Facebook和推特等社交媒體等等,為您一一講解數據創新給社會帶來的種種變革和挑戰。
5.《大數據互聯網大規模數據挖掘與分布式處理》。
該書主要講的是海量數集數據挖掘常用的演算法。書中分析了海量數據集數據挖掘常用的演算法,介紹了目前WEB端應用的許多重要話題等。
I. 大數據入門書籍有哪些
1:<大數據時代>
這是學習大數據必讀的一本書,也是最系統的關於大數據概念的一本書,由維克托·邁爾-舍恩伯格和肯尼斯·庫克耶編寫,主要介紹了大數據理念和生活工作及思維變革的關系。
它被包括寬頻資本董事長田朔寧、知名IT評論人謝文等專業讀者鑒定為「大數據領域最好的著作沒有之一,一本頂一萬本」。有這么好嗎?看完自己評價吧。這本書對這個大規模產生、分享和應用數據的新的大時代進行了闡述和釐清,作者圍繞「要全體不要抽樣、要效率不要絕對精確、要相關不要因果」三大理念,通過數十個商業和學術案例,剖析了萬事萬物數據化和數據復用挖掘的巨大價值。
2:<爆發>
由巴拉巴西編寫,主要講了在一個歷史故事的連續講述中,了解大數據的概念實質。從大數據的歷史開始,能更深入的了解大數據的發展歷程。
巴拉巴西整本書講述的大數據根本目的,是預測。他甚至有零有整地判斷,人類行為93%是可以預測的。打個比方,千百年前人類無法如今天般准確預測天氣,以致某些大致預測的行為都被認為是「通神」,其實核心在於對天氣數據的海量佔有和分析能力。但假如全人類的所有基礎及行為數據全部被佔有全部能分析呢?比如通過智能終端LBS功能採集全部運動軌跡、通過金融系統採集所有支付記錄、通過SNS採集所有社會關系和通過郵件、文檔、社會視頻監控和自我視頻監測採集所有言行記錄,24小時,每分每秒,一生,全地球70億人,那會如何?
3:<大數據>
由徐子沛編寫,看美國政府在大數據開放上的進程與反復,算是個案。如果能夠基本了解這三本的觀點,出門有底氣,見人腰桿直,不再被忽悠。
全書講述的,是大數據在美國政府管理中的應用,以及美國政府運行方式大數據變革的歷史與斗爭,其實也是故事性的。從奧巴馬上台就頒布《信息公開法案》,到設立第一個美國政府首席信息官開始,講述美國政府與民間在社會數據公開的斗爭史,以及美國社會管理向大數據思維轉變的過程。首先,這算是一個最詳實的案例;其次,這代表的不是某種管理方式變革,深處是對民主運行機制的變革與進步。說好了,這本書用心良苦,遠遠超越科普技術領域;說壞了,其心可誅。有一段,民間斗爭,逼迫奧巴馬公布所有每日白宮全部日程,包括接見了誰、談話的全部內容,這不就是個人大數據全公開在公眾人物上的應用嗎?這可比現在所謂官員公開財產的要求高了幾十倍——這要求政府全部行為、全部數據、全部公開,全體公眾隨時可查——技術和成本上其實
J. 大神,關於大數據處理方面的書籍有推薦嗎
《大數據來處理之道》作者:何金自池
分析比較了當下流行的大數據處理技術的優劣及適用場景,包括Hadoop、Spark、Storm、Dremel、Drill等,詳細分析了各種技術的應用場景和優缺點;同時闡述了大數據下的日誌分析系統,重點講解了ELK日誌處理方案;最後分析了大數據處理技術的發展趨勢,重點從各種技術的起源、設計思想、架構等方面闡述大數據處理之道。