当前位置：首页 » 数据智能 » 如何构建大数据平台

如何构建大数据平台

发布时间: 2021-03-18 18:27:12

㈠如何创建一个大数据平台

所谓的大数据平台不是独立存在的，比如百度是依赖搜索引擎获得大数据并开展业务的，阿里是通过电子商务交易获得大数据并开展业务的，腾讯是通过社交获得大数据并开始业务的，所以说大数据平台不是独立存在的，重点是如何搜集和沉淀数据，如何分析数据并挖掘数据的价值。

我可能还不够资格回答这个问题，没有经历过一个公司大数据平台从无到有到复杂的过程。不过说说看法吧，也算是梳理一下想法找找喷。
这是个需求驱动的过程。
曾经听过spotify的分享，印象很深的是，他们分享说，他们的hadoop集群第一次故障是因为，机器放在靠窗的地方，太阳晒了当机了（笑）。从简单的没有机房放在自家窗前的集群到一直到现在复杂的数据平台，这是一个不断演进的过程。
对小公司来说，大概自己找一两台机器架个集群算算，也算是大数据平台了。在初创阶段，数据量会很小，不需要多大的规模。这时候组件选择也很随意，Hadoop一套，任务调度用脚本或者轻量的框架比如luigi之类的，数据分析可能hive还不如导入RMDB快。监控和部署也许都没时间整理，用脚本或者轻量的监控，大约是没有ganglia、nagios，puppet什么的。这个阶段也许算是技术积累，用传统手段还是真大数据平台都是两可的事情，但是为了今后的扩展性，这时候上Hadoop也许是不错的选择。
当进入高速发展期，也许扩容会跟不上计划，不少公司可能会迁移平台到云上，比如AWS阿里云什么的。小规模高速发展的平台，这种方式应该是经济实惠的，省了运维和管理的成本，扩容比较省心。要解决的是选择平台本身提供的服务，计算成本，打通数据出入的通道。整个数据平台本身如果走这条路，可能就已经基本成型了。走这条路的比较有名的应该是netflix。
也有一个阶段，你发现云服务的费用太高，虽然省了你很多事，但是花钱嗖嗖的。几个老板一合计，再玩下去下个月工资发布出来了。然后无奈之下公司开始往私有集群迁移。这时候你大概需要一群靠谱的运维，帮你监管机器，之前两三台机器登录上去看看状态换个磁盘什么的也许就不可能了，你面对的是成百上千台主机，有些关键服务必须保证稳定，有些是数据节点，磁盘三天两头损耗，网络可能被压得不堪重负。你需要一个靠谱的人设计网络布局，设计运维规范，架设监控，值班团队走起7*24小时随时准备出台。然后上面再有平台组真的大数据平台走起。
然后是选型，如果有技术实力，可以直接用社区的一整套，自己管起来，监控部署什么的自己走起。这个阶段部署监控和用户管理什么的都不可能像两三个节点那样人肉搞了，配置管理，部署管理都需要专门的平台和组件；定期Review用户的作业和使用情况，决定是否扩容，清理数据等等。否则等机器和业务进一步增加，团队可能会死的很惨，疲于奔命，每天事故不断，进入恶性循环。
当然有金钱实力的大户可以找Cloudera，Hortonworks，国内可以找华为星环，会省不少事，适合非互联网土豪。当然互联网公司也有用这些东西的，比如Ebay。
接下去你可能需要一些重量的组件帮你做一些事情。
比如你的数据接入，之前可能找个定时脚本或者爬log发包找个服务器接收写入HDFS，现在可能不行了，这些大概没有高性能，没有异常保障，你需要更强壮的解决方案，比如Flume之类的。
你的业务不断壮大，老板需要看的报表越来越多，需要训练的数据也需要清洗，你就需要任务调度，比如oozie或者azkaban之类的，这些系统帮你管理关键任务的调度和监控。
数据分析人员的数据大概可能渐渐从RDBMS搬迁到集群了，因为传统数据库已经完全hold不住了，但他们不会写代码，所以你上马了Hive。然后很多用户用了Hive觉得太慢，你就又上马交互分析系统，比如Presto，Impala或者SparkSQL。
你的数据科学家需要写ML代码，他们跟你说你需要Mahout或者Spark MLLib，于是你也部署了这些。
至此可能数据平台已经是工程师的日常工作场所了，大多数业务都会迁移过来。这时候你可能面临很多不同的问题。
比如各个业务线数据各种数据表多的一塌糊涂，不管是你还是写数据的人大概都不知道数据从哪儿来，接下去到哪儿去。你就自己搞了一套元数据管理的系统。
你分析性能，发现你们的数据都是上百Column，各种复杂的Query，裸存的Text格式即便压缩了也还是慢的要死，于是你主推用户都使用列存，Parquet，ORC之类的。
又或者你发现你们的ETL很长，中间生成好多临时数据，于是你下狠心把pipeline改写成Spark了。
再接下来也许你会想到花时间去维护一个门户，把这些零散的组件都整合到一起，提供统一的用户体验，比如一键就能把数据从数据库chua一下拉到HDFS导入Hive，也能一键就chua一下再搞回去；点几下就能设定一个定时任务，每天跑了给老板自动推送报表；或者点一下就能起一个Storm的topology；或者界面上写几个Query就能查询Hbase的数据。这时候你的数据平台算是成型了。
当然，磕磕碰碰免不了。每天你都有新的问题和挑战，否则你就要失业了不是？
你发现社区不断在解决你遇到过的问题，于是你们架构师每天分出很多时间去看社区的进展，有了什么新工具，有什么公司发布了什么项目解决了什么问题，兴许你就能用上。
上了这些乱七八糟的东西，你以为就安生了？Hadoop平台的一个大特点就是坑多。尤其是新做的功能新起的项目。对于平台组的人，老板如果知道这是天然坑多的平台，那他也许会很高兴，因为跟进社区，帮忙修bug，一起互动其实是很提升公司影响力的实情。当然如果老板不理解，你就自求多福吧，招几个老司机，出了问题能马上带路才是正道。当然团队的技术积累不能不跟上，因为数据平台还是乱世，三天不跟进你就不知道世界是什么样了。任何一个新技术，都是坑啊坑啊修啊修啊才完善的。如果是关键业务换技术，那需要小心再小心，技术主管也要有足够的积累，能够驾驭，知道收益和风险。

㈡大数据平台是什么什么时候需要大数据平台如何建立大数据平台

首先我们要了解java语言和Linux操作系统，这两个是学习大数据的基础，学习的顺序不分前后。

Java ：只要了解一些基础即可，做大数据不需要很深的Java 技术，学java SE 就相当于有学习大数据基础。

Linux：因为大数据相关软件都是在Linux上运行的，所以Linux要学习的扎实一些，学好Linux对你快速掌握大数据相关技术会有很大的帮助，能让你更好的理解hadoop、hive、hbase、spark等大数据软件的运行环境和网络环境配置，能少踩很多坑，学会shell就能看懂脚本这样能更容易理解和配置大数据集群。还能让你对以后新出的大数据技术学习起来更快。

Hadoop：这是现在流行的大数据处理平台几乎已经成为大数据的代名词，所以这个是必学的。Hadoop里面包括几个组件HDFS、MapRece和YARN，HDFS是存储数据的地方就像我们电脑的硬盘一样文件都存储在这个上面，MapRece是对数据进行处理计算的，它有个特点就是不管多大的数据只要给它时间它就能把数据跑完，但是时间可能不是很快所以它叫数据的批处理。

Zookeeper：这是个万金油，安装Hadoop的HA的时候就会用到它，以后的Hbase也会用到它。它一般用来存放一些相互协作的信息，这些信息比较小一般不会超过1M，都是使用它的软件对它有依赖，对于我们个人来讲只需要把它安装正确，让它正常的run起来就可以了。

Mysql：我们学习完大数据的处理了，接下来学习学习小数据的处理工具mysql数据库，因为一会装hive的时候要用到，mysql需要掌握到什么层度那?你能在Linux上把它安装好，运行起来，会配置简单的权限，修改root的密码，创建数据库。这里主要的是学习SQL的语法，因为hive的语法和这个非常相似。

Sqoop：这个是用于把Mysql里的数据导入到Hadoop里的。当然你也可以不用这个，直接把Mysql数据表导出成文件再放到HDFS上也是一样的，当然生产环境中使用要注意Mysql的压力。

Hive：这个东西对于会SQL语法的来说就是神器，它能让你处理大数据变的很简单，不会再费劲的编写MapRece程序。有的人说Pig那?它和Pig差不多掌握一个就可以了。

Oozie：既然学会Hive了，我相信你一定需要这个东西，它可以帮你管理你的Hive或者MapRece、Spark脚本，还能检查你的程序是否执行正确，出错了给你发报警并能帮你重试程序，最重要的是还能帮你配置任务的依赖关系。我相信你一定会喜欢上它的，不然你看着那一大堆脚本，和密密麻麻的crond是不是有种想屎的感觉。

Hbase：这是Hadoop生态体系中的NOSQL数据库，他的数据是按照key和value的形式存储的并且key是唯一的，所以它能用来做数据的排重，它与MYSQL相比能存储的数据量大很多。所以他常被用于大数据处理完成之后的存储目的地。

Kafka：这是个比较好用的队列工具，队列是干吗的?排队买票你知道不?数据多了同样也需要排队处理，这样与你协作的其它同学不会叫起来，你干吗给我这么多的数据(比如好几百G的文件)我怎么处理得过来，你别怪他因为他不是搞大数据的，你可以跟他讲我把数据放在队列里你使用的时候一个个拿，这样他就不在抱怨了马上灰流流的去优化他的程序去了，因为处理不过来就是他的事情。而不是你给的问题。当然我们也可以利用这个工具来做线上实时数据的入库或入HDFS，这时你可以与一个叫Flume的工具配合使用，它是专门用来提供对数据进行简单处理，并写到各种数据接受方(比如Kafka)的。

Spark：它是用来弥补基于MapRece处理数据速度上的缺点，它的特点是把数据装载到内存中计算而不是去读慢的要死进化还特别慢的硬盘。特别适合做迭代运算，所以算法流们特别稀饭它。它是用scala编写的。Java语言或者Scala都可以操作它，因为它们都是用JVM的。

㈢怎么搭建大数据分析平台

未至科技魔方是一款大数据模型平台，是一款基于服务总线与分布式云计算两大技术架构内的一款容数据分析、挖掘的工具平台，其采用分布式文件系统对数据进行存储，支持海量数据的处理。采用多种的数据采集技术，支持结构化数据及非结构化数据的采集。通过图形化的模型搭建工具，支持流程化的模型配置。通过第三方插件技术，很容易将其他工具及服务集成到平台中去。数据分析研判平台就是海量信息的采集，数据模型的搭建，数据的挖掘、分析最后形成知识服务于实战、服务于决策的过程，平台主要包括数据采集部分，模型配置部分，模型执行部分及成果展示部分等。

㈣如何搭建大数据云平台具备要素高并发

你好，您应该是景区或者文旅部门机构，这个问题深入展开不是一句两句能讲清楚地哈，内简单说一下容目前现状：目前全国范围内搭建的规范还没有，各地从金额来说几千万到几十万的方式都有，金额特别大的项目大概率是基建和装修及硬件采买。如果是一个基础设施完善的机构，基本是信息集成，包括票务、摄像、投诉、客流、停车场管理、广播通信（一般在应急平台上）、口碑等；如果基础设施落后，个人建议也没有必要花太多钱去搞基建，你建设的目的是为了应用，直接找相应的数据服务公司就好了，自己又不用培养数据方面的人才，直接使用数据服务很方便，每年付费也比一下投入大量资金用于基建只有一个空壳子要好，现在国内科技公司越来下沉行业，大量的案例应用服务基本满足大部分客户需求了，没必要自己照搬一套在自己本地。据我了解网络腾讯阿里都有文旅服务的部门，也有专注做文旅数据市场服务的，好像叫海鳗，他们海字辈的企业一堆，都针对不同行业。我作为文旅管委会的从业者，还是建议直接买服务，我们自己景区建的中心都没有数据，领导也走了，晾在那每人管了，太浪费了。

㈤如何快速搭建企业级大数据平台

提到大数据，无可避免的就会提到Hadoop。尽管大数据并不等同于Hadoop，但Hadoop确实是最热门专的大数属据技术。下面是最常用的混搭架构，来看一下大数据平台可以怎么搭建，支撑企业应用：

通过Kafka作为统一采集平台的消息管理层，灵活的对接、适配各种数据源采集（如集成flume），提供灵活、可配置的数据采集能力。
利用Spark和Hadoop技术，构建大数据平台最为核心的基础数据的存储、处理能力中心，提供强大的数据处理能力，满足数据的交互需求。同时通过Sparkstreaming，可以有效满足企业实时数据的要求，构建企业发展的实时指标体系。
同时为了更好的满足的数据获取需求，通过RDBMS，提供企业高度汇总的统计数据，满足企业常规的统计报表需求，降低使用门槛。对大数据明细查询需求，则通过构建HBase集群，提供大数据快速查询能力，满足对大数据的查询获取需求。

㈥大数据平台建设有哪些步骤以及需要注意的问题

大数据平台的搭建步骤：

1、linux系统安装
一般使用开源版的Redhat系统--CentOS作为底层平台。为了提供稳定的硬件基础，在给硬盘做RAID和挂载数据存储节点的时，需要按情况配置。
2、分布式计算平台/组件安装
国内外的分布式系统的大多使用的是Hadoop系列开源系统。Hadoop的核心是HDFS，一个分布式的文件系统。在其基础上常用的组件有Yarn、Zookeeper、Hive、Hbase、Sqoop、Impala、ElasticSearch、Spark等
使用开源组件的优点：1）使用者众多，很多bug可以在网上找的答案（这往往是开发中最耗时的地方）。2）开源组件一般免费，学习和维护相对方便。3）开源组件一般会持续更新，提供必要的更新服务『当然还需要手动做更新操作』。4）因为代码开源，若出bug可自由对源码作修改维护。
3、数据导入
数据导入的工具是Sqoop。用它可以将数据从文件或者传统数据库导入到分布式平台『一般主要导入到Hive，也可将数据导入到Hbase』。
4、数据分析
数据分析一般包括两个阶段：数据预处理和数据建模分析。
数据预处理是为后面的建模分析做准备，主要工作时从海量数据中提取可用特征，建立大宽表。这个过程可能会用到Hive SQL，Spark QL和Impala。
数据建模分析是针对预处理提取的特征/数据建模，得到想要的结果。这一块最好用的是Spark。常用的机器学习算法，如朴素贝叶斯、逻辑回归、决策树、神经网络、TFIDF、协同过滤等，都已经在ML lib里面，调用比较方便。
5、结果可视化及输出API
可视化一般式对结果或部分原始数据做展示。一般有两种情况，行数据展示，和列查找展示。要基于大数据平台做展示，会需要用到ElasticSearch和Hbase。Hbase提供快速『ms级别』的行查找。 ElasticSearch可以实现列索引，提供快速列查找。

大数据平台搭建中的主要问题
1、稳定性 Stability
理论上来说，稳定性是分布式系统最大的优势，因为它可以通过多台机器做数据及程序运行备份以确保系统稳定。但也由于大数据平台部署于多台机器上，配置不合适，也可能成为最大的问题。
2、可扩展性 Scalability
如何快速扩展已有大数据平台，在其基础上扩充新的机器是云计算等领域应用的关键问题。在实际2B的应用中，有时需要增减机器来满足新的需求。如何在保留原有功能的情况下，快速扩充平台是实际应用中的常见问题。

㈦如何建立一个完整可用的安全大数据平台

整体而言，大数据平台从平台部署和数据分析过程可分为如下几步：
1、linux系统安装
一般使用开源版的Redhat系统--CentOS作为底层平台。为了提供稳定的硬件基础，在给硬盘做RAID和挂载数据存储节点的时，需要按情况配置。例如，可以选择给HDFS的namenode做RAID2以提高其稳定性，将数据存储与操作系统分别放置在不同硬盘上，以确保操作系统的正常运行。

2、分布式计算平台/组件安装
目前国内外的分布式系统的大多使用的是Hadoop系列开源系统。Hadoop的核心是HDFS，一个分布式的文件系统。在其基础上常用的组件有Yarn、Zookeeper、Hive、Hbase、Sqoop、Impala、ElasticSearch、Spark等。
先说下使用开源组件的优点：1）使用者众多，很多bug可以在网上找的答案（这往往是开发中最耗时的地方）。2）开源组件一般免费，学习和维护相对方便。3）开源组件一般会持续更新，提供必要的更新服务『当然还需要手动做更新操作』。4）因为代码开源，若出bug可自由对源码作修改维护。
再简略讲讲各组件的功能。分布式集群的资源管理器一般用Yarn，『全名是Yet Another Resource Negotiator』。常用的分布式数据数据『仓』库有Hive、Hbase。Hive可以用SQL查询『但效率略低』，Hbase可以快速『近实时』读取行。外部数据库导入导出需要用到Sqoop。Sqoop将数据从Oracle、MySQL等传统数据库导入Hive或Hbase。Zookeeper是提供数据同步服务，Yarn和Hbase需要它的支持。Impala是对hive的一个补充，可以实现高效的SQL查询。ElasticSearch是一个分布式的搜索引擎。针对分析，目前最火的是Spark『此处忽略其他，如基础的MapRece 和 Flink』。Spark在core上面有ML lib，Spark Streaming、Spark QL和GraphX等库，可以满足几乎所有常见数据分析需求。
值得一提的是，上面提到的组件，如何将其有机结合起来，完成某个任务，不是一个简单的工作，可能会非常耗时。

3、数据导入
前面提到，数据导入的工具是Sqoop。用它可以将数据从文件或者传统数据库导入到分布式平台『一般主要导入到Hive，也可将数据导入到Hbase』。

4、数据分析
数据分析一般包括两个阶段：数据预处理和数据建模分析。
数据预处理是为后面的建模分析做准备，主要工作时从海量数据中提取可用特征，建立大宽表。这个过程可能会用到Hive SQL，Spark QL和Impala。
数据建模分析是针对预处理提取的特征/数据建模，得到想要的结果。如前面所提到的，这一块最好用的是Spark。常用的机器学习算法，如朴素贝叶斯、逻辑回归、决策树、神经网络、TFIDF、协同过滤等，都已经在ML lib里面，调用比较方便。

5、结果可视化及输出API
可视化一般式对结果或部分原始数据做展示。一般有两种情况，行熟悉展示，和列查找展示。在这里，要基于大数据平台做展示，会需要用到ElasticSearch和Hbase。Hbase提供快速『ms级别』的行查找。 ElasticSearch可以实现列索引，提供快速列查找。

平台搭建主要问题：
1、稳定性 Stability
理论上来说，稳定性是分布式系统最大的优势，因为它可以通过多台机器做数据及程序运行备份以确保系统稳定。但也由于大数据平台部署于多台机器上，配置不合适，也可能成为最大的问题。曾经遇到的一个问题是Hbase经常挂掉，主要原因是采购的硬盘质量较差。硬盘损坏有时会到导致Hbase同步出现问题，因而导致Hbase服务停止。由于硬盘质量较差，隔三差五会出现服务停止现象，耗费大量时间。结论：大数据平台相对于超算确实廉价，但是配置还是必须高于家用电脑的。

2、可扩展性 Scalability
如何快速扩展已有大数据平台，在其基础上扩充新的机器是云计算等领域应用的关键问题。在实际2B的应用中，有时需要增减机器来满足新的需求。如何在保留原有功能的情况下，快速扩充平台是实际应用中的常见问题。

上述是自己项目实践的总结。整个平台搭建过程耗时耗力，非一两个人可以完成。一个小团队要真正做到这些也需要耗费很长时间。

目前国内和国际上已有多家公司提供大数据平台搭建服务，国外有名的公司有Cloudera，Hortonworks，MapR等，国内也有华为、明略数据、星环等。另外有些公司如明略数据等还提供一体化的解决方案，寻求这些公司合作对于入门级的大数据企业或没有大数据分析能力的企业来说是最好的解决途径。

对于一些本身体量较小或者目前数据量积累较少的公司，个人认为没有必要搭建这一套系统，暂时先租用AWS和阿里云就够了。对于数据量大，但数据分析需求较简单的公司，可以直接买Tableau，Splunk，HP Vertica，或者IBM DB2等软件或服务即可。

㈧企业的大数据分析平台应该如何构建

①确认数据分析方向。比如是分析社交数据，还是电商数据，亦或者是视频数据，或者搜索数据。
②确认数据来源。比如来自腾讯，来自网络，来自阿里巴巴，来自实体店。
③数据分析师，去分析你获取的数据。

㈨如何构建企业级大数据平台，发挥数据大价值

大数据能够帮助企业预测经济形势、把握市场态势、了解消费需求、提高研发效率，不仅具有巨大的潜在商业价值，而且为企业提升竞争力提供了新思路。企业怎样利用大数据提升竞争力？乐思软件这里从企业决策、成本控制、服务体系、产品研发四个方面加以简要讨论。

企业决策大数据化。现代企业大都具备决策支持系统，以辅助决策。但现行的决策支持系统仅搜集部分重点数据，数据量小、数据面窄。企业决策大数据化的基础是企业信息数字化，重点是数据的整理分析。首先，企业需要进行信息数字化采集系统的更新升级。按各决策层级的功能建立数据采集系统，以横向、纵向、实时三维模式广泛采集数据。其次，企业需要推进决策权力分散化、前端化、自动化。对多维度的数据进行提炼整合，在人为影响起主要作用的顶层，提高决策指标信息含量和科学性；在人为影响起次要作用的底层，推进决策指标量化，完善决策支持系统和决策机制。大数据决策机制让数据说话，可以减少人为干扰因素，提高决策精准度。

成本控制大数据化。目前，很多企业在采购、物流、储存、生产、销售等环节引入了成本控制系统，但系统间融合度较低。企业可对现有成本控制系统进行改造升级，打造大数据综合成本控制系统。其一，在成本控制的全过程采集数据，以求最大限度地描述事物，实现信息数字化、数据大量化。其二，推进成本控制标准、控制机理系统化。量化指标，实现成本控制自动化，减少人为因素干扰；细化指标，以获取更精确的数据。其三，构建综合成本控制系统，将成本控制所涉及的从原材料采购到产品生产、运输、储存、销售等环节有机结合起来，形成一个综合评价体系，为成本控制提供可靠依据。成本控制大数据化以预先控制为主、过程控制为中、产后控制为辅的方式，可以最大限度降低企业运营成本。

服务体系大数据化。品牌和服务是企业的核心竞争力，服务体系直接影响企业的生存发展。优化服务体系的重点是健全沟通机制、联络机制和反馈机制，利用大数据优化服务体系的关键是找到服务体系中存在的问题。首先，加强数据收集，对消费者反馈的信息进行分类分析，找到服务体系的问题，然后对症下药，建立高效服务机制，提高服务效率。其次，将服务方案移到线上，打造自动化服务系统。快速分析、比对消费者服务需求信息，比对成功则自动进入服务程序，实现快速处理；比对失败则转入人工服务系统，对新服务需求进行研究处理，并快速将新服务机制添加至系统，优化服务系统。服务体系大数据化，可以实现服务体系的高度自动化，最大程度提高服务质量和效率。

产品研发大数据化。产品研发存在较高风险。大数据能精确分析客户需求，降低风险，提高研发成功率。产品研发的主要环节是消费需求分析，产品研发大数据化的关键环节是数据收集、分类整理和分析利用。企业官网的消费者反馈系统、贴吧、论坛、新闻评价体系等是消费者需求信息的主要来源，应注重从中收集数据。同时，可与论坛、贴吧、新闻评价体系合作构建消费者综合服务系统，完善消费者信息反馈机制，实现信息收集大量化、全面化、自动化，为产品研发提供信息源。然后，对收集的非结构化数据进行分类整理，以达到精确分析消费需求、缩短产品研发周期、提高研发效率的目的。产品研发大数据化，可以精准分析消费者需求，提高产品研发质量和效率，使企业在竞争中占据优势。

阅读全文

如何构建大数据平台

与如何构建大数据平台相关的阅读推荐