当前位置：首页 » 数据智能 » 大数据分布式系统架构

大数据分布式系统架构

发布时间: 2021-03-26 02:53:27

① 大数据开发必用的分布式框架有哪些

Spark
Spark用比较少的Scala代码实现，跟Hadoop基于分布式文件IO操作方式不同，Spark尽可能利用内存去做迭代计算，并使用mesos管理机器资源分配。
hadoop

Hadoop 是一个分布式系统基础架构，由Apache基金会开发。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力高速运算和存储。Hadoop实现了一个分布式文件系统（Hadoop Distributed File System），简称HDFS。HDFS有着高容错性的特点，并且设计用来部署在低廉的（low-cost）硬件上。而且它提供高传输率（high throughput）来访问应用程序的数据，适合那些有着超大数据集（large data set）的应用程序。HDFS放宽了（relax）POSIX的要求（requirements）这样可以流的形式访问（streaming access）文件系统中的数据。
bbo
Dubbo是一个阿里巴巴开源出来的一个分布式服务框架，致力于提供高性能和透明化的RPC远程服务调用方案，以及SOA服务治理方案。其核心部分包含:
远程通讯: 提供对多种基于长连接的NIO框架抽象封装，包括多种线程模型，序列化，以及“请求-响应”模式的信息交换方式。
集群容错: 提供基于接口方法的透明远程过程调用，包括多协议支持，以及软负载均衡，失败容错，地址路由，动态配置等集群支持。
自动发现: 基于注册中心目录服务，使服务消费方能动态的查找服务提供方，使地址透明，使服务提供方可以平滑增加或减少机器。
Fourinone则是通过多个包工头多环节链式处理和包工头内部多阶段处理的粗细粒度方式支持迭代类型计算，对于内存的使用提供完整的单机小型缓存和多机分布式缓存功能（详见第4章）。因此，通过提供多环节计算支持和分布式缓存功能，也能实现Spark基于内存完成迭代计算的机制。

② 什么是大数据的主流框架

大数据的框架肯定指的是分布式存储和分布式计算的框架
过去这个框架基本上被hadoop垄断，现在就不一定了，现在很多数据库已经开发出分布式版本，性能也比简单的hadoop要强劲，比如阿里的oceanbase，tidb
分步式计算框架目前也有spark，而且超越my proce，专门用来做大规模算的框架，也有一些，比如神经网络，Tensorflow就自带分布式功能

③ 分布式操作系统内容与云计算，大数据有何关联，如何理解这样一些关联

1，大数据（big data），指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产

2，大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理，必须采用分布式计算架构。它的特色在于对海量数据的挖掘，但它必须依托云计算的分布式处理、分布式数据库、云存储和虚拟化技术。

他俩之间的关系你可以这样来理解，云计算技术就是一个容器，大数据正是存放在这个容器中的水，大数据是要依靠云计算技术来进行存储和计算的。

(3)大数据分布式系统架构扩展阅读：

大数据的4V特点：Volume（大量）、Velocity（高速）、Variety（多样）、Value（价值）。

云计算的关键词在于“整合”，无论你是通过现在已经很成熟的传统的虚拟机切分型技术，还是通过google后来所使用的海量节点聚合型技术，他都是通过将海量的服务器资源通过网络进行整合，调度分配给用户，从而解决用户因为存储计算资源不足所带来的问题。

大数据正是因为数据的爆发式增长带来的一个新的课题内容，如何存储如今互联网时代所产生的海量数据，如何有效的利用分析这些数据等等。

大数据的趋势：

趋势一：数据的资源化

何为资源化，是指大数据成为企业和社会关注的重要战略资源，并已成为大家争相抢夺的新焦点。因而，企业必须要提前制定大数据营销战略计划，抢占市场先机。

趋势二：与云计算的深度结合

大数据离不开云处理，云处理为大数据提供了弹性可拓展的基础设备，是产生大数据的平台之一。自2013年开始，大数据技术已开始和云计算技术紧密结合，预计未来两者关系将更为密切。除此之外，物联网、移动互联网等新兴计算形态，也将一齐助力大数据革命，让大数据营销发挥出更大的影响力。

趋势三：科学理论的突破

随着大数据的快速发展，就像计算机和互联网一样，大数据很有可能是新一轮的技术革命。随之兴起的数据挖掘、机器学习和人工智能等相关技术，可能会改变数据世界里的很多算法和基础理论，实现科学技术上的突破

④ 多个分系统之间数据同步用什么架构或是什么框架比较

在我看来，一个完整的大数据平台应该提供离线计算、即席查询、实时计算、实时查询这几个方面的功能。 hadoop、spark、storm 无论哪一个，单独不可能完成上面的所有功能。 hadoop+spark+hive是一个很不错的选择.hadoop的HDFS毋庸置疑是分布式文件系统的解决方案，解决存储问题；hadoop maprece、hive、spark application、sparkSQL解决的是离线计算和即席查询的问题；spark streaming解决的是实时计算问题；另外，还需要HBase或者Redis等NOSQL技术来解决实时查询的问题；除了这些，大数据平台中必不可少的需要任务调度系统和数据交换工具；任务调度系统解决所有大数据平台中的任务调度与监控；数据交换工具解决其他数据源与HDFS之间的数据传输，比如：数据库到HDFS、HDFS到数据库等等。关于大数据平台的架构技术文章，可搜索"lxw的大数据田地"，里面有很多。

⑤ 大数据分析的框架有哪些，各自有什么特点

主流的大数据分析平台构架
1 Hadoop
Hadoop 采用 Map Rece 分布式计算框架，根据 GFS开发了 HDFS 分布式文件系统，根据 Big Table 开发了 HBase数据存储系统。Hadoop 的开源特性使其成为分布式计算系统的事实上的国际标准。Yahoo，Facebook，Amazon 以及国内的网络，阿里巴巴等众多互联网公司都以 Hadoop 为基础搭建自己的分布。

2 Spark
Spark 是在 Hadoop 的基础上进行了一些架构上的改良。Spark 与Hadoop 最大的不同点在于，Hadoop 使用硬盘来存储数据，而Spark 使用内存来存储数据，因此 Spark 可以提供超过 Ha?doop 100 倍的运算速度。由于内存断电后会丢失数据，Spark不能用于处理需要长期保存的数据。
3 Storm
Storm是 Twitter 主推的分布式计算系统。它在Hadoop的基础上提供了实时运算的特性，可以实时的处理大数据流。不同于Hadoop和Spark，Storm不进行数据的收集和存储工作，它直接通过网络实时的接受数据并且实时的处理数据，然后直接通过网络实时的传回结果。
4Samza
Samza 是由 Linked In 开源的一项技术，是一个分布式流处理框架，专用于实时数据的处理，非常像Twitter的流处理系统Storm。不同的是Sam?za 基于 Hadoop，而且使用了 Linked In 自家的 Kafka 分布式消息系统。
Samza 非常适用于实时流数据处理的业务，如数据跟踪、日志服务、实时服务等应用，它能够帮助开发者进行高速消息处理,同时还具有良好的容错能力。

⑥ 大数据解决方案，在技术架构中都是如何分类的

大数据是指以多元形式，自许多来源搜集而来的庞大数据组，往往具有实时性。在版企权业对企业销售的情况下，这些数据可能得自社交网络、电子商务网站、顾客来访纪录，还有许多其他来源。这些数据，并非公司顾客关系管理数据库的常态数据组。从技术上看，大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理，必须采用分布式计算架构。它的特色在于对海量数据的挖掘，但它必须依托云计算的分布式处理、分布式数据库、云存储和/或虚拟化技术。大数据的意义是由人类日益普及的网络行为所伴生的，受到相关部门、企业采集的，蕴含数据生产者真实意图、喜好的，非传统结构和意义的数据。

⑦ 如何架构大数据系统 hadoop

大数据数量庞大，格式多样化。大量数据由家庭、制造工厂和办公场所的各种设备、互联网事务交易、社交网络的活动、自动化传感器、移动设备以及科研仪器等生成。它的爆炸式增长已超出了传统IT基础架构的处理能力，给企业和社会带来严峻的数据管理问题。因此必须开发新的数据架构，围绕“数据收集、数据管理、数据分析、知识形成、智慧行动”的全过程，开发使用这些数据，释放出更多数据的隐藏价值。

一、大数据建设思路

1）数据的获得

四、总结

基于分布式技术构建的大数据平台能够有效降低数据存储成本，提升数据分析处理效率，并具备海量数据、高并发场景的支撑能力，可大幅缩短数据查询响应时间，满足企业各上层应用的数据需求。

⑧ “大数据架构”用哪种框架更为合适

个完整的大数据平台应该提供离线计算、即席查询、实时计算、实时查询这几个方面的功能。
hadoop、spark、storm 无论哪一个，单独不可能完成上面的所有功能。

hadoop+spark+hive是一个很不错的选择.hadoop的HDFS毋庸置疑是分布式文件系统的解决方案，解决存储问题；hadoop maprece、hive、spark application、sparkSQL解决的是离线计算和即席查询的问题；spark streaming解决的是实时计算问题；另外，还需要HBase或者Redis等NOSQL技术来解决实时查询的问题。

除了这些，大数据平台中必不可少的需要任务调度系统和数据交换工具；
任务调度系统解决所有大数据平台中的任务调度与监控；数据交换工具解决其他数据源与HDFS之间的数据传输，比如：数据库到HDFS、HDFS到数据库等等。关于大数据平台的架构技术文章，可搜索"lxw的大数据田地"，里面有很多。

⑨ 大数据架构究竟用哪种框架更为合适

一、大数据建设思路

1）数据的获得

通过大数据的引入和部署，可以达到如下效果：

1）数据整合

·统一数据模型：承载企业数据模型，促进企业各域数据逻辑模型的统一；

·统一数据标准：统一建立标准的数据编码目录，实现企业数据的标准化与统一存储；

·统一数据视图：实现统一数据视图，使企业在客户、产品和资源等视角获取到一致的信息。

2）数据质量管控

·数据质量校验：根据规则对所存储的数据进行一致性、完整性和准确性的校验，保证数据的一致性、完整性和准确性；

·数据质量管控：通过建立企业数据的质量标准、数据管控的组织、数据管控的流程，对数据质量进行统一管控，以达到数据质量逐步完善。

3）数据共享

·消除网状接口，建立大数据共享中心，为各业务系统提供共享数据，降低接口复杂度，提高系统间接口效率与质量；

·以实时或准实时的方式将整合或计算好的数据向外系统提供。

4）数据应用

·查询应用：平台实现条件不固定、不可预见、格式灵活的按需查询功能；

·固定报表应用：视统计维度和指标固定的分析结果的展示，可根据业务系统的需求，分析产生各种业务报表数据等；

·动态分析应用：按关心的维度和指标对数据进行主题性的分析，动态分析应用中维度和指标不固定。

四、总结

阅读全文

大数据分布式系统架构

与大数据分布式系统架构相关的阅读推荐