分布式计算与大数据
⑴ 大数据一定是基于分布式计算的吗
分布式计算技术结合了一系列技术,可以对海量数据进行实时分析,它所使用的硬件非常便宜,因而让这种技术的普及变成可能。
我们说大数据分析,说云计算,都少不了分布式计算技术。因为要实现大规模的计算和数据分析,一台服务器肯定是不够的,也不能简单地将不同功能模块分布到不同的机器上运行,这充其量也只能叫做scale-up,但是最终你一定需要scale-out,这才是真正的分布式计算,或者叫并行计算。
⑵ 大数据所谓的分布式运算是指什么
所谓的分布式计算,其实就是将大型计算任务进行拆解,使之变成小型计算任务,从而可以不局限于单机处理,而可以分布到若干机器汇总进行处理。其价值,就是解决了庞大数据无法在单机上运行处理或者说单机运行处理效率较低的情况。
⑶ 大数据所谓的分布式运算是指什么
这个问题中有两个关键词,‘大数据’和‘分布式运算’,其实包含了三个问题:‘什么是版大数据’,什么是‘权分布式运算’,以及‘什么是大数据处理的分布式运算’。
假设你已经知道了前面的两个问题(‘什么是大数据’,什么是‘分布式运算’)的答案的,因此只对第3个‘什么是大数据处理的分布式运算’做些回答;
大数据处理的最大特点是需要(计算)处理/参照的对象数据量的巨大。众所周知现在的计算机结构对待需要处理/参照的数据是需要放在与承担数据处理的CPU可直接交互(立刻调用)的存储器中。而每个CPU可直接交互的数据量有限,对大数据的处理方式就需要用多CPU的集群(并行运算)系统来处理。这种处理可以用超级计算机系统的大数据处理,但现在更多是用网络将大量的计算机(成千上万台)连接起来,实施分布式的集群运算来处理大数据。这里的分布,不只是CPU的分布,也是指存储器(磁盘或内存)的分布。将待处理的大数据分布在连接在网络上的存储器中,分布处理。现在的大数据分布式处理方式有Redis、Gemfire、SAP HANA……等等
⑷ 分布式操作系统内容与云计算,大数据有何关联,如何理解这样一些关联
1,大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产
2,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理,必须采用分布式计算架构。它的特色在于对海量数据的挖掘,但它必须依托云计算的分布式处理、分布式数据库、云存储和虚拟化技术。
他俩之间的关系你可以这样来理解,云计算技术就是一个容器,大数据正是存放在这个容器中的水,大数据是要依靠云计算技术来进行存储和计算的。
(4)分布式计算与大数据扩展阅读:
大数据的4V特点:Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)。
云计算的关键词在于“整合”,无论你是通过现在已经很成熟的传统的虚拟机切分型技术,还是通过google后来所使用的海量节点聚合型技术,他都是通过将海量的服务器资源通过网络进行整合,调度分配给用户,从而解决用户因为存储计算资源不足所带来的问题。
大数据正是因为数据的爆发式增长带来的一个新的课题内容,如何存储如今互联网时代所产生的海量数据,如何有效的利用分析这些数据等等。
大数据的趋势:
趋势一:数据的资源化
何为资源化,是指大数据成为企业和社会关注的重要战略资源,并已成为大家争相抢夺的新焦点。因而,企业必须要提前制定大数据营销战略计划,抢占市场先机。
趋势二:与云计算的深度结合
大数据离不开云处理,云处理为大数据提供了弹性可拓展的基础设备,是产生大数据的平台之一。自2013年开始,大数据技术已开始和云计算技术紧密结合,预计未来两者关系将更为密切。除此之外,物联网、移动互联网等新兴计算形态,也将一齐助力大数据革命,让大数据营销发挥出更大的影响力。
趋势三:科学理论的突破
随着大数据的快速发展,就像计算机和互联网一样,大数据很有可能是新一轮的技术革命。随之兴起的数据挖掘、机器学习和人工智能等相关技术,可能会改变数据世界里的很多算法和基础理论,实现科学技术上的突破
⑸ 在大数据处理环境下,哪一种分布式系统更合适,为什么
1)集中式数据处理 集中式计算机网络由一个大型的中央系统,其终端是客户机,数据全部存储在中央系统,由数据库管理系统进行管理,所有的处理都由该大型系统完成,终端只是用来输入和输出。终端自己不作任何处理,所有任务都在主机上进行处理。 集中式数据存储的主要特点是能把所有数据保存在一个地方,各地办公室的远程终端通过电缆同中央计算机(主机)相联,保证了每个终端使用的都是同一信息。备份数据容易,因为他们都存储在服务器上,而服务器是唯一需要备份的系统。这还意味这服务器是唯一需要安全保护的系统,终端没有任何数据。银行的自动提款机(ATM)采用的就是集中式计算机网络。另外所有的事务都在主机上进行处理,终端也不需要软驱,所以网络感染病毒的可能性很低。这种类型的网络总费用比较低,因为主机拥有大量存储空间、功能强大的系统,而使终端可以使用功能简单而便宜的微机和其他终端设备。 这类网络不利的一面是来自所有终端的计算都由主机完成,这类网络处理速度可能有些慢。另外,如果用户有各种不同的需要,在集中式计算机网络上满足这些需要可能是十分困难的,因为每个用户的应用程序和资源都必须单独设置,而让这些应用程序和资源都在同一台集中式计算机上操作,使得系统效率不高。还有,因为所有用户都必须连接到一台中央计算机,集中连接可能成为集中式网络的一个大问题。由于这些限制,如今的大多数网络都采用了分布式和协作式网络计算模型。 2)分布式数据处理 由于个人计算机的性能得到极大的提高及其使用的普及,使处理能力分布到网络上的所有计算机成为可能。分布式计算是和集中式计算相对立的概念,分布式计算的数据可以分布在很大区域。 分布式网络中,数据的存储和处理都是在本地工作站上进行的。数据输出可以打印,也可保存在软盘上。通过网络主要是得到更快、更便捷的数据访问。因为每台计算机都能够存储和处理数据,所以不要求服务器功能十分强大,其价格也就不必过于昂贵。这种类型的网络可以适应用户的各种需要,同时允许他们共享网络的数据、资源和服务。在分布式网络中使用的计算机既能够作为独立的系统使用,也可以把它们连接在一起得到更强的网络功能。 分布式计算的优点是可以快速访问、多用户使用。每台计算机可以访问系统内其他计算机的信息文件;系统设计上具有更大的灵活性,既可为独立的计算机的地区用户的特殊需求服务,也可为联网的企业需求服务,实现系统内不同计算机之间的通信;每台计算机都可以拥有和保持所需要的最大数据和文件;减少了数据传输的成本和风险。为分散地区和中心办公室双方提供更迅速的信息通信和处理方式,为每个分散的数据库提供作用域,数据存储于许多存储单元中,但任何用户都可以进行全局访问,使故障的不利影响最小化,以较低的成本来满足企业的特定要求。 分布式计算的缺点是:对病毒比较敏感,任何用户都可能引入被病毒感染的文件,并将病毒扩散到整个网络。备份困难,如果用户将数据存储在各自的系统上,而不是将他们存储在中央系统中,难于制定一项有效的备份计划。这种情况还可能导致用户使用同一文件的不同版本。为了运行程序要求性能更好的PC机;要求使用适当的程序;不同计算机的文件数据需要复制;对某些PC机要求有足够的存储容量,形成不必要的存储成本;管理和维护比较复杂;设备必须要互相兼容。 3)协作式数据处理 协作式数据处理系统内的计算机能够联合处理数据,处理既可集中实施,也可分区实施。协作式计算允许各个客户计算机合作处理一项共同的任务,采用这种方法,任务完成的速度要快于仅在一个客户计算机运行。协作式计算允许计算机在整个网络内共享处理能力,可以使用其它计算机上的处理能力完成任务。除了具有在多个计算机系统上处理任务的能力,该类型的网络在共享资源方面类似于分布式计算。 协作式计算和分布式计算具有相似的优缺点。例如协作式网络上可以容纳各种不同的客户,协作式计算的优点是处理能力强,允许多用户使用。缺点是病毒可迅速扩散到整个网络。因为数据能够在整个网络内存储,形成多个副本,文件同步困难。并且也使得备份所有的重要数据比较困难。
⑹ 什么叫大数据,与云计算有何关系。
1,大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产
2,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理,必须采用分布式计算架构。它的特色在于对海量数据的挖掘,但它必须依托云计算的分布式处理、分布式数据库、云存储和虚拟化技术。
他俩之间的关系你可以这样来理解,云计算技术就是一个容器,大数据正是存放在这个容器中的水,大数据是要依靠云计算技术来进行存储和计算的。
(6)分布式计算与大数据扩展阅读:
大数据的4V特点:Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)。
云计算的关键词在于“整合”,无论你是通过现在已经很成熟的传统的虚拟机切分型技术,还是通过google后来所使用的海量节点聚合型技术,他都是通过将海量的服务器资源通过网络进行整合,调度分配给用户,从而解决用户因为存储计算资源不足所带来的问题。
大数据正是因为数据的爆发式增长带来的一个新的课题内容,如何存储如今互联网时代所产生的海量数据,如何有效的利用分析这些数据等等。
大数据的趋势:
趋势一:数据的资源化
何为资源化,是指大数据成为企业和社会关注的重要战略资源,并已成为大家争相抢夺的新焦点。因而,企业必须要提前制定大数据营销战略计划,抢占市场先机。
趋势二:与云计算的深度结合
大数据离不开云处理,云处理为大数据提供了弹性可拓展的基础设备,是产生大数据的平台之一。自2013年开始,大数据技术已开始和云计算技术紧密结合,预计未来两者关系将更为密切。除此之外,物联网、移动互联网等新兴计算形态,也将一齐助力大数据革命,让大数据营销发挥出更大的影响力。
趋势三:科学理论的突破
随着大数据的快速发展,就像计算机和互联网一样,大数据很有可能是新一轮的技术革命。随之兴起的数据挖掘、机器学习和人工智能等相关技术,可能会改变数据世界里的很多算法和基础理论,实现科学技术上的突破。
参考资料:网络-大数据网络-云数据
⑺ 分布式计算
其实分布式计算系统在国外已经有了很多成熟的开源系统,比如比较有名的hadoop,spark,strom等。而且国内大家都在做这些,最重要的时候大家做开源的时候也会免费的提供这些系统。
那么我们来分析一下开源与免费的区别:最广为人知的就是在用户交互方面,明显的收费系统的用户体验,ui界面,功能集成都比开源的药好非常多,但是缺点明显:钱。而开源的优势是,大家都在做,各种功能都能找到发布的源码,最最重要的是免费,缺点对应付费系统,用户体验差,没有规范,功能片面。
说完优缺点,我们来分析这些优缺点对应用户会带来什么:我们说平常网民,对于平常网民我对收费系统并不看好,因为平常网民第一对于分布式系统需求并没有那么大,第二平常网民需求比较倾向于满足自身需要的结果,而不是我要满足的需求是什么技术的,最最重要的是国内,看所有软件的用户,收费貌似都没有好结果,金山毒霸就是最好的例子,他原来一直是收费的,他们的理念是我们做的东西好,就好不怕巷子深,可是结果呢?毒霸对于正常用户免费了。没办法国人就是这样,有免费的我宁可体验差一些,也不会花冤枉钱的。
对于企业和需求高的网民:企业级,他们需要的是一种服务,一种保障,为了企业运行他们是不介意多好一点钱的,所以有偿分布式系统我任务最主要的面向对象最好的企业。
最后:其实大家熟悉分布式计算最主要还是因为一个名词火了:大数据,但是大数据真的有那么火么?其实是炒起来的,因为巨头在做,所以跟风大家就开始做了,但是想想对于网民对于分布式需求可能还会滞后很久,当然你会说,分布式难道就真的只用在大数据,你太片面了吧?可是我们回过来一想目前在使用分布式技术的人,他卖的是分布式计算系统么?
所以建议有偿分布式计算系统的定位应该面向需要这些技术的企业而不是网民。最后再引用金山的例子,对于网民,最好是免费开放部分功能,扩展用户群,提高知名度,对于有需求企业,我们可以展开专职服务,提供有偿高品质服务。
补充的是:互联网时代来临,分布式计算已经成为必然,走在前面是好的,但是,特别在有偿的定位一定要准确。
关于超算和云计算还有分布式计算:其实说句实话个人感觉对于云计算,目前看得见的做的不错只有云盘和云服务器,超算对于普通人来说更是一个陌生的概念。其实不建议对于分布式计算能占有多少市场份额或取代多少超算和云计算做过多调研,因为其实仔细想一想,他们的面向其实是不一样,建议多做:市场定位,面向群体,功能定位调研。而且对于他们以后能占有多少市场份额,真的是个谁都不好说的事情,在诺基亚一夜轰塌之前,在08年的时候你能想象现在诺基亚基本退出手机市场么?所以风险是不可能规避。总结:做好系统定位,做好用户群定位,做好长期作战准备。!!
⑻ 云计算与大数据的区别是什么
云计算有两个含义。云计算第一个含义也是最常见的含义,是指在云计算提供商的数据中心(也称为“公共云”)中通过互联网远程运行用户的工作负载。而亚马逊网络服务(AWS)、Salesforce公司的CRM系统,以及Microsoft Azure等目前流行的公共云产品,都体现了人们所熟悉的云计算概念。如今,大多数企业采用多云模式,这意味着他们使用多种公共云服务。
大数据,通常指海量的数据,即无法通过常规软件工具分析和处理的数据集合,具体定义,各家略有不同。
两者区别
第一,在概念上两者有所不同,云计算改变了IT,而大数据则改变了业务。然而大数据必须有云作为基础架构,才能得以顺畅运营。
第二,大数据和云计算的目标受众不同,云计算是CIO等关心的技术层,是一个进阶的IT解决方案。而大数据是CEO关注的、是业务层的产品,而大数据的决策者是业务层。