大數據一定是基於分布式計算的嗎

分布式計算技術結合了一系列技術,可以對海量數據進行實時分析,它所使用的硬體非常便宜,因而讓這種技術的普及變成可能。
我們說大數據分析,說雲計算,都少不了分布式計算技術。因為要實現大規模的計算和數據分析,一台伺服器肯定是不夠的,也不能簡單地將不同功能模塊分布到不同的機器上運行,這充其量也只能叫做scale-up,但是最終你一定需要scale-out,這才是真正的分布式計算,或者叫並行計算。

⑵ 大數據所謂的分布式運算是指什麼

所謂的分布式計算,其實就是將大型計算任務進行拆解,使之變成小型計算任務,從而可以不局限於單機處理,而可以分布到若干機器匯總進行處理。其價值,就是解決了龐大數據無法在單機上運行處理或者說單機運行處理效率較低的情況。

⑶ 大數據所謂的分布式運算是指什麼

這個問題中有兩個關鍵詞,『大數據』和『分布式運算』,其實包含了三個問題:『什麼是版大數據』,什麼是『權分布式運算』,以及『什麼是大數據處理的分布式運算』。
假設你已經知道了前面的兩個問題(『什麼是大數據』,什麼是『分布式運算』)的答案的,因此只對第3個『什麼是大數據處理的分布式運算』做些回答;
大數據處理的最大特點是需要(計算)處理/參照的對象數據量的巨大。眾所周知現在的計算機結構對待需要處理/參照的數據是需要放在與承擔數據處理的CPU可直接交互(立刻調用)的存儲器中。而每個CPU可直接交互的數據量有限,對大數據的處理方式就需要用多CPU的集群(並行運算)系統來處理。這種處理可以用超級計算機系統的大數據處理,但現在更多是用網路將大量的計算機(成千上萬台)連接起來,實施分布式的集群運算來處理大數據。這里的分布,不只是CPU的分布,也是指存儲器(磁碟或內存)的分布。將待處理的大數據分布在連接在網路上的存儲器中,分布處理。現在的大數據分布式處理方式有Redis、Gemfire、SAP HANA……等等

⑷ 分布式操作系統內容與雲計算,大數據有何關聯,如何理解這樣一些關聯

1,大數據(big data),指無法在一定時間范圍內用常規軟體工具進行捕捉、管理和處理的數據集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產

2,大數據與雲計算的關系就像一枚硬幣的正反面一樣密不可分。大數據必然無法用單台的計算機進行處理,必須採用分布式計算架構。它的特色在於對海量數據的挖掘,但它必須依託雲計算的分布式處理、分布式資料庫、雲存儲和虛擬化技術。

他倆之間的關系你可以這樣來理解,雲計算技術就是一個容器,大數據正是存放在這個容器中的水,大數據是要依靠雲計算技術來進行存儲和計算的。

(4)分布式計算與大數據擴展閱讀:

大數據的4V特點:Volume(大量)、Velocity(高速)、Variety(多樣)、Value(價值)。

雲計算的關鍵詞在於「整合」,無論你是通過現在已經很成熟的傳統的虛擬機切分型技術,還是通過google後來所使用的海量節點聚合型技術,他都是通過將海量的伺服器資源通過網路進行整合,調度分配給用戶,從而解決用戶因為存儲計算資源不足所帶來的問題。

大數據正是因為數據的爆發式增長帶來的一個新的課題內容,如何存儲如今互聯網時代所產生的海量數據,如何有效的利用分析這些數據等等。

大數據的趨勢:

趨勢一:數據的資源化

何為資源化,是指大數據成為企業和社會關注的重要戰略資源,並已成為大家爭相搶奪的新焦點。因而,企業必須要提前制定大數據營銷戰略計劃,搶占市場先機。

趨勢二:與雲計算的深度結合

大數據離不開雲處理,雲處理為大數據提供了彈性可拓展的基礎設備,是產生大數據的平台之一。自2013年開始,大數據技術已開始和雲計算技術緊密結合,預計未來兩者關系將更為密切。除此之外,物聯網、移動互聯網等新興計算形態,也將一齊助力大數據革命,讓大數據營銷發揮出更大的影響力。

趨勢三:科學理論的突破

隨著大數據的快速發展,就像計算機和互聯網一樣,大數據很有可能是新一輪的技術革命。隨之興起的數據挖掘、機器學習和人工智慧等相關技術,可能會改變數據世界裡的很多演算法和基礎理論,實現科學技術上的突破

⑸ 在大數據處理環境下,哪一種分布式系統更合適,為什麼

1)集中式數據處理 集中式計算機網路由一個大型的中央系統,其終端是客戶機,數據全部存儲在中央系統,由資料庫管理系統進行管理,所有的處理都由該大型系統完成,終端只是用來輸入和輸出。終端自己不作任何處理,所有任務都在主機上進行處理。 集中式數據存儲的主要特點是能把所有數據保存在一個地方,各地辦公室的遠程終端通過電纜同中央計算機(主機)相聯,保證了每個終端使用的都是同一信息。備份數據容易,因為他們都存儲在伺服器上,而伺服器是唯一需要備份的系統。這還意味這伺服器是唯一需要安全保護的系統,終端沒有任何數據。銀行的自動提款機(ATM)採用的就是集中式計算機網路。另外所有的事務都在主機上進行處理,終端也不需要軟碟機,所以網路感染病毒的可能性很低。這種類型的網路總費用比較低,因為主機擁有大量存儲空間、功能強大的系統,而使終端可以使用功能簡單而便宜的微機和其他終端設備。 這類網路不利的一面是來自所有終端的計算都由主機完成,這類網路處理速度可能有些慢。另外,如果用戶有各種不同的需要,在集中式計算機網路上滿足這些需要可能是十分困難的,因為每個用戶的應用程序和資源都必須單獨設置,而讓這些應用程序和資源都在同一台集中式計算機上操作,使得系統效率不高。還有,因為所有用戶都必須連接到一台中央計算機,集中連接可能成為集中式網路的一個大問題。由於這些限制,如今的大多數網路都採用了分布式和協作式網路計算模型。 2)分布式數據處理 由於個人計算機的性能得到極大的提高及其使用的普及,使處理能力分布到網路上的所有計算機成為可能。分布式計算是和集中式計算相對立的概念,分布式計算的數據可以分布在很大區域。 分布式網路中,數據的存儲和處理都是在本地工作站上進行的。數據輸出可以列印,也可保存在軟盤上。通過網路主要是得到更快、更便捷的數據訪問。因為每台計算機都能夠存儲和處理數據,所以不要求伺服器功能十分強大,其價格也就不必過於昂貴。這種類型的網路可以適應用戶的各種需要,同時允許他們共享網路的數據、資源和服務。在分布式網路中使用的計算機既能夠作為獨立的系統使用,也可以把它們連接在一起得到更強的網路功能。 分布式計算的優點是可以快速訪問、多用戶使用。每台計算機可以訪問系統內其他計算機的信息文件;系統設計上具有更大的靈活性,既可為獨立的計算機的地區用戶的特殊需求服務,也可為聯網的企業需求服務,實現系統內不同計算機之間的通信;每台計算機都可以擁有和保持所需要的最大數據和文件;減少了數據傳輸的成本和風險。為分散地區和中心辦公室雙方提供更迅速的信息通信和處理方式,為每個分散的資料庫提供作用域,數據存儲於許多存儲單元中,但任何用戶都可以進行全局訪問,使故障的不利影響最小化,以較低的成本來滿足企業的特定要求。 分布式計算的缺點是:對病毒比較敏感,任何用戶都可能引入被病毒感染的文件,並將病毒擴散到整個網路。備份困難,如果用戶將數據存儲在各自的系統上,而不是將他們存儲在中央系統中,難於制定一項有效的備份計劃。這種情況還可能導致用戶使用同一文件的不同版本。為了運行程序要求性能更好的PC機;要求使用適當的程序;不同計算機的文件數據需要復制;對某些PC機要求有足夠的存儲容量,形成不必要的存儲成本;管理和維護比較復雜;設備必須要互相兼容。 3)協作式數據處理 協作式數據處理系統內的計算機能夠聯合處理數據,處理既可集中實施,也可分區實施。協作式計算允許各個客戶計算機合作處理一項共同的任務,採用這種方法,任務完成的速度要快於僅在一個客戶計算機運行。協作式計算允許計算機在整個網路內共享處理能力,可以使用其它計算機上的處理能力完成任務。除了具有在多個計算機系統上處理任務的能力,該類型的網路在共享資源方面類似於分布式計算。 協作式計算和分布式計算具有相似的優缺點。例如協作式網路上可以容納各種不同的客戶,協作式計算的優點是處理能力強,允許多用戶使用。缺點是病毒可迅速擴散到整個網路。因為數據能夠在整個網路內存儲,形成多個副本,文件同步困難。並且也使得備份所有的重要數據比較困難。

⑹ 什麼叫大數據,與雲計算有何關系。

1,大數據(big data),指無法在一定時間范圍內用常規軟體工具進行捕捉、管理和處理的數據集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產

2,大數據與雲計算的關系就像一枚硬幣的正反面一樣密不可分。大數據必然無法用單台的計算機進行處理,必須採用分布式計算架構。它的特色在於對海量數據的挖掘,但它必須依託雲計算的分布式處理、分布式資料庫、雲存儲和虛擬化技術。

他倆之間的關系你可以這樣來理解,雲計算技術就是一個容器,大數據正是存放在這個容器中的水,大數據是要依靠雲計算技術來進行存儲和計算的。

(6)分布式計算與大數據擴展閱讀:

大數據的4V特點:Volume(大量)、Velocity(高速)、Variety(多樣)、Value(價值)。

雲計算的關鍵詞在於「整合」,無論你是通過現在已經很成熟的傳統的虛擬機切分型技術,還是通過google後來所使用的海量節點聚合型技術,他都是通過將海量的伺服器資源通過網路進行整合,調度分配給用戶,從而解決用戶因為存儲計算資源不足所帶來的問題。

大數據正是因為數據的爆發式增長帶來的一個新的課題內容,如何存儲如今互聯網時代所產生的海量數據,如何有效的利用分析這些數據等等。

大數據的趨勢:

趨勢一:數據的資源化

何為資源化,是指大數據成為企業和社會關注的重要戰略資源,並已成為大家爭相搶奪的新焦點。因而,企業必須要提前制定大數據營銷戰略計劃,搶占市場先機。

趨勢二:與雲計算的深度結合

大數據離不開雲處理,雲處理為大數據提供了彈性可拓展的基礎設備,是產生大數據的平台之一。自2013年開始,大數據技術已開始和雲計算技術緊密結合,預計未來兩者關系將更為密切。除此之外,物聯網、移動互聯網等新興計算形態,也將一齊助力大數據革命,讓大數據營銷發揮出更大的影響力。

趨勢三:科學理論的突破

隨著大數據的快速發展,就像計算機和互聯網一樣,大數據很有可能是新一輪的技術革命。隨之興起的數據挖掘、機器學習和人工智慧等相關技術,可能會改變數據世界裡的很多演算法和基礎理論,實現科學技術上的突破。

參考資料:網路-大數據網路-雲數據

⑺ 分布式計算

其實分布式計算系統在國外已經有了很多成熟的開源系統,比如比較有名的hadoop,spark,strom等。而且國內大家都在做這些,最重要的時候大家做開源的時候也會免費的提供這些系統。
那麼我們來分析一下開源與免費的區別:最廣為人知的就是在用戶交互方面,明顯的收費系統的用戶體驗,ui界面,功能集成都比開源的葯好非常多,但是缺點明顯:錢。而開源的優勢是,大家都在做,各種功能都能找到發布的源碼,最最重要的是免費,缺點對應付費系統,用戶體驗差,沒有規范,功能片面。
說完優缺點,我們來分析這些優缺點對應用戶會帶來什麼:我們說平常網民,對於平常網民我對收費系統並不看好,因為平常網民第一對於分布式系統需求並沒有那麼大,第二平常網民需求比較傾向於滿足自身需要的結果,而不是我要滿足的需求是什麼技術的,最最重要的是國內,看所有軟體的用戶,收費貌似都沒有好結果,金山毒霸就是最好的例子,他原來一直是收費的,他們的理念是我們做的東西好,就好不怕巷子深,可是結果呢?毒霸對於正常用戶免費了。沒辦法國人就是這樣,有免費的我寧可體驗差一些,也不會花冤枉錢的。
對於企業和需求高的網民:企業級,他們需要的是一種服務,一種保障,為了企業運行他們是不介意多好一點錢的,所以有償分布式系統我任務最主要的面向對象最好的企業。
最後:其實大家熟悉分布式計算最主要還是因為一個名詞火了:大數據,但是大數據真的有那麼火么?其實是炒起來的,因為巨頭在做,所以跟風大家就開始做了,但是想想對於網民對於分布式需求可能還會滯後很久,當然你會說,分布式難道就真的只用在大數據,你太片面了吧?可是我們回過來一想目前在使用分布式技術的人,他賣的是分布式計算系統么?
所以建議有償分布式計算系統的定位應該面向需要這些技術的企業而不是網民。最後再引用金山的例子,對於網民,最好是免費開放部分功能,擴展用戶群,提高知名度,對於有需求企業,我們可以展開專職服務,提供有償高品質服務。
補充的是:互聯網時代來臨,分布式計算已經成為必然,走在前面是好的,但是,特別在有償的定位一定要准確。
關於超算和雲計算還有分布式計算:其實說句實話個人感覺對於雲計算,目前看得見的做的不錯只有雲盤和雲伺服器,超算對於普通人來說更是一個陌生的概念。其實不建議對於分布式計算能佔有多少市場份額或取代多少超算和雲計算做過多調研,因為其實仔細想一想,他們的面向其實是不一樣,建議多做:市場定位,面向群體,功能定位調研。而且對於他們以後能佔有多少市場份額,真的是個誰都不好說的事情,在諾基亞一夜轟塌之前,在08年的時候你能想像現在諾基亞基本退出手機市場么?所以風險是不可能規避。總結:做好系統定位,做好用戶群定位,做好長期作戰准備。!!

⑻ 雲計算與大數據的區別是什麼

雲計算有兩個含義。雲計算第一個含義也是最常見的含義,是指在雲計算提供商的數據中心(也稱為「公共雲」)中通過互聯網遠程運行用戶的工作負載。而亞馬遜網路服務(AWS)、Salesforce公司的CRM系統,以及Microsoft Azure等目前流行的公共雲產品,都體現了人們所熟悉的雲計算概念。如今,大多數企業採用多雲模式,這意味著他們使用多種公共雲服務。

大數據,通常指海量的數據,即無法通過常規軟體工具分析和處理的數據集合,具體定義,各家略有不同。

兩者區別

第一,在概念上兩者有所不同,雲計算改變了IT,而大數據則改變了業務。然而大數據必須有雲作為基礎架構,才能得以順暢運營

第二,大數據和雲計算的目標受眾不同,雲計算是CIO等關心的技術層,是一個進階的IT解決方案。而大數據是CEO關注的、是業務層的產品,而大數據的決策者是業務層。