当前位置：首页 » 数据智能 » 大数据稀牛

大数据稀牛

发布时间: 2021-03-23 04:47:49

A. 什么是大数据时代

随着云时代的来临，大数据(Big data)也吸引了越来越多的关注。《著云台》的分析师团队认为，大数据(Big data)通常用来形容一个公司创造的大量非结构化和半结构化数据，这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱。大数据分析常和云计算联系到一起，因为实时的大型数据集分析需要像MapRece一样的框架来向数十、数百或甚至数千的电脑分配工作。
简言之，从各种各样类型的数据中，快速获得有价值信息的能力，就是大数据技术。明白这一点至关重要，也正是这一点促使该技术具备走向众多企业的潜力。大数据的4个“V”，或者说特点有四个层面：第一，数据体量巨大。从TB级别，跃升到PB级别;第二，数据类型繁多。前文提到的网络日志、视频、图片、地理位置信息等等。第三，价值密度低。以视频为例，连续不间断监控过程中，可能有用的数据仅仅有一两秒。第四，处理速度快。1秒定律。最后这一点也是和传统的数据挖掘技术有着本质
的不同。业界将其归纳为4个“V”——Volume，Variety，Value，Velocity。物联网、云计算、移动互联网、车联网、手机、平板电脑、PC以及遍布地球各个角落的各种各样的传感器，无一不是数据来源或者承载的方式著云台
例子包括网络日志，RFID，传感器网络，社会网络，社会数据(由于数据革命的社会)，互联网文本和文件;互联网搜索索引;呼叫详细记录，天文学，大气科学，基因组学，生物地球化学，生物，和其他复杂和/或跨学科的科研，军事侦察，医疗记录;摄影档案馆视频档案;和大规模的电子商务。
大的数据需要特殊的技术，以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术，包括大规模并行处理(MPP)数据库，数据挖掘电网，分布式文件系统，分布式数据库，云计算平台，互联网，和可扩展的存储系统。
一些但不是所有的MPP的关系数据库的PB的数据存储和管理的能力。隐含的负载，监控，备份和优化大型数据表的使用在RDBMS的。
斯隆数字巡天收集在其最初的几个星期，比在天文学的历史，早在2000年的整个数据收集更多的数据。自那时以来，它已经积累了140兆兆字节的信息。这个望远镜的继任者，大天气巡天望远镜，将于2016年在网上和将获得的数据，每5天沃尔玛处理超过100万客户的交易每隔一小时，反过来进口量数据库估计超过2.5 PB的是相当于167次，在美国国会图书馆的书籍。
FACEBOOK处理400亿张照片，从它的用户群。解码最初的人类基因组花了10年来处理时，现在可以在一个星期内实现。
“大数据”的影响，增加了对信息管理专家的需求，甲骨文，IBM，微软和SAP花了超过15亿美元的在软件智能数据管理和分析的专业公司。这个行业自身价值超过1000亿美元，增长近10%，每年两次，这大概是作为一个整体的软件业务的快速。大数据已经出现，因为我们生活在一个社会中有更多的东西。有46亿全球移动电话用户有1亿美元和20亿人访问互联网。
基本上，人们比以往任何时候都与数据或信息交互。 1990年至2005年，全球超过1亿人进入中产阶级，这意味着越来越多的人，谁收益的这笔钱将成为反过来导致更多的识字信息的增长。思科公司预计，到2013年，在互联网上流动的交通量将达到每年667艾字节。
最早提出“大数据”时代已经到来的机构是全球知名咨询公司麦肯锡。麦肯锡在研究报告中指出，数据已经渗透到每一个行业和业务职能领域，逐渐成为重要的生产因素;而人们对于海量数据的运用将预示着新一波生产率增长和消费者盈余浪潮的到来。
“麦肯锡的报告发布后，大数据迅速成为了计算机行业争相传诵的热门概念，也引起了金融界的高度关注。”随着互联网技术的不断发展，数据本身是资产，这一点在业界已经形成共识。“如果说云计算为数据资产提供了保管、访问的场所和渠道，那么如何盘活数据资产，使其为国家治理、企业决策乃至个人生活服务，则是大数据的核心议题，也是云计算内在的灵魂和必然的升级方向。”
事实上，全球互联网巨头都已意识到了“大数据”时代，数据的重要意义。包括EMC、惠普(微博)、IBM、微软(微博)在内的全球IT 巨头纷纷通过收购“大数据”相关厂商来实现技术整合，亦可见其对“大数据”的重视。
“大数据”作为一个较新的概念，目前尚未直接以专有名词被我国政府提出来给予政策支持。不过，在12月8日工信部发布的物联网“十二五”规划上，把信息处理技术作为4项关键技术创新工程之一被提出来，其中包括了海量数据存储、数据挖掘、图像视频智能分析，这都是大数据的重要组成部分。而另外3项关键技术创新工程，包括信息感知技术、信息传输技术、信息安全技术，也都与“大数据”密切相关。

B. 大数据如何入门

听说你想要学大数据？你确定你搞清楚概念了吗？我们来做个小测验吧：
数据分析师在公司是干什么的？
大数据和普通数据最大的区别是什么？
你的日常工作中根本接触不到大数据，你真正想学的是大数据吗？
有点蒙圈了吧。鱼君正是要帮你在最短的时间内理清这些概念，找准自己前进的方向。
大数据之“大”数据，大家会陌生吗？不会。我们每天的日常生活都会接触到数据。淘宝购物时货比三家的价格，年终考核之后发给我们的奖金，发表在知乎上的文章的评论数量，这些都是数据。
从人们会计数开始，数据就有了，数据分析也是。那么大数据呢？
说到大数据，你就绕不开互联网。在互联网出现之前，虽然政府部门和一些公共事业单位通过日积月累获得了较大量的数据，但并没有形成足够的影响力。直到互联网产品的出现，由于它收集用户数据的便利性，通常在一天之内就能够累计其他行业可能一年才能获取的数据量。
数据量的升级造成算法和硬件都必须要升级，操作起来的技术难度也就会提高很多。这个时候，就需要专业的技术和平台来完成存储，处理和分析大数据的工作。比如说，大家都听过的Hadoop平台，MapRece算法。都是大数据时代的产物。
因此，我认为，大数据的核心，就在于大。
有一定规模的互联网公司都会成立专门的大数据部门来管理自己产品所收集到的大数据。数据量越大，处理难度就越高，相应的，可能挖掘到的内涵也会更多。于是，大数据就成了一个产业，一个火热的产业。
大数据圈子里的人在大数据行业这个圈子里，公司提供的职位大致分为三类：数据分析师，数据产品经理，数据工程师。他们紧密合作，共同驱动公司的数据决策文化。
那么，着三种职位都是做什么的？又该怎么入行呢？
数据分析师
数据分析师，是使用大数据的人。核心是掌握各种数据分析工具和数据分析技能，目标是为公司管理层和产品团队提供分析报告，帮助他们做决策。
实际工作中，数据会被处理成各种不同的类型提供给数据分析师使用，有比较原始的，有比较简单好用的。因此，数据分析师需要掌握R, SQL，Excel, Python基础编程等多种技能，以及熟练掌握常用的数据分析方法。
如果你立志于成为一个数据分析师甚至数据科学家，那么我强烈建议你进行系统的学习。
数据产品经理
数据产品经理是设计数据产品的人。核心技能是数据需求分析和数据产品的设计，和其他的互联网产品经理并没有本质的不同。实际工作中，数据产品经理需要收集不同用户的数据需求并且设计出好用的数据产品提供给大家，帮助他们“用数据做决定”。
怎么入门呢？关于具体的进阶流程，我希望你听一下我在一块听听上做的讲座《4步让你成为大数据产品经理》，会为你提供非常全面的介绍。
常见的推荐入门书籍有《人人都是产品经理》，《The DatawareHouse Toolkit》，《Lean Analytics》等等。
数据工程师
数据工程师，简单分两种，一类是数据挖掘工程师，另外一类是大数据平台工程师。工程师的基本技能当然是写代码，写高质量的代码。
数据挖掘工程师主要工作是开发大数据流水线以及和数据分析师一起完成数据挖掘项目，而数据平台工程师主要工作是维护大数据平台。
因此，理工科背景出身，掌握C, C#, Python等编程/脚本语言，熟悉各种基础算法即可以胜任。
如何用数据做决策
对于那些并不想转行进入大数据圈子的人，我们要学的究竟是什么？
我相信，在我们的日常工作中，特别是业绩不佳，找不到突破口的时候，都曾想过能否用数据来帮助自己。因为我们都曾或多或少听过一些牛逼的数据案例，比如纸尿布与啤酒之类。
举一个简单的例子，你经营的餐馆现在状况不佳。你可以自己拍脑袋想一堆的新点子来尝试改善现状。你也可以，收集整理数据，通过分析找出根本原因，并提出对应解决方案，从而扭转局面。后者听起来似乎更加靠谱一些。
那么，你该收集什么数据，做什么分析，这就是你需要学习的：“如何用数据做决策”。从这个角度讲，我认为：
人人都应该是数据分析师
学习系统的数据决策和数据分析思维，我们可以从这篇文章开始：从0到1搭建数据分析知识体系。我自己工作中常用的数据分析方法都被囊括在里面，如果趋势分析，多维分解，用户分群，漏斗分析等等。请不要小看一篇文章，知识在精不在多。
你还可以从一本简单好读的《谁说菜鸟不会数据分析》开始搭建你的数据分析思维。
关于数据分析的书籍太多了，众口难调，随便一搜就有一大堆推荐。而其中所讲的知识和理论其实都是类似的。最终要让他们发挥作用，还是要和实践结合起来。
因此，我认为，在自己的生意和工作中多实践数据分析，多思考，遇到问题多在社群中提问和大家探讨，是最好的学习办法。我自己也一直是这样践行的。
带着问题去学习，是最好的方式。
在这个过程中，随着你对数据的深入了解，掌握更多的数据分析语言和工具。从Excel到SQL，甚至到R和Python。你所能使用的数据量也会越来越大。但你大可不必一开始就扎入这些工具的学习中，那样会收效甚微。

C. 大数据如何入门

导读：

第一章：初识Hadoop

第二章：更高效的WordCount

第三章：把别处的数据搞到Hadoop上

第四章：把Hadoop上的数据搞到别处去

第五章：快一点吧，我的SQL

第六章：一夫多妻制

第七章：越来越多的分析任务

第八章：我的数据要实时

第九章：我的数据要对外

第十章：牛逼高大上的机器学习

经常有初学者会问，自己想往大数据方向发展，该学哪些技术，学习路线是什么样的，觉得大数据很火，就业很好，薪资很高……首先，如果你确定了想往这个方面发展，先考虑自己的过去从业经历、专业、兴趣是什么。计算机专业——操作系统、硬件、网络、服务器？软件专业——软件开发、编程、写代码？还是数学、统计学专业——对数据和数字特别感兴趣？

其实这就是想告诉你大数据的三个发展方向，平台搭建/优化/运维/监控、大数据开发/设计/架构、数据分析/挖掘。

先扯一下大数据的4V特征：

数据量大，TB->PB
数据类型繁多，结构化、非结构化文本、日志、视频、图片、地理位置等；
商业价值高，但是这种价值需要在海量数据之上，通过数据分析与机器学习更快速的挖掘出来；
处理时效性高，海量数据的处理需求不再局限在离线计算当中。

现如今，正式为了应对大数据的这几个特点，开源的大数据框架越来越多，越来越强，先列举一些常见的：

文件存储：Hadoop HDFS、Tachyon、KFS

离线计算：Hadoop MapRece、Spark

流式、实时计算：Storm、Spark Streaming、S4、Heron

K-V、NOSQL数据库：HBase、Redis、MongoDB

资源管理：YARN、Mesos

日志收集：Flume、Scribe、Logstash、Kibana

消息系统：Kafka、StormMQ、ZeroMQ、RabbitMQ

查询分析：Hive、Impala、Pig、Presto、Phoenix、SparkSQL、Drill、Flink、Kylin、Druid

分布式协调服务：Zookeeper

集群管理与监控：Ambari、Ganglia、Nagios、Cloudera Manager

数据挖掘、机器学习：Mahout、Spark MLLib

数据同步：Sqoop

任务调度：Oozie

······

第一章：初识Hadoop

1.1学会网络与Google

不论遇到什么问题，先试试搜索并自己解决。

Google首选，翻不过去的，就用网络吧。

1.2参考资料首选官方文档

特别是对于入门来说，官方文档永远是首选文档。

相信搞这块的大多是文化人，英文凑合就行，实在看不下去的，请参考第一步。

1.3先让Hadoop跑起来

Hadoop可以算是大数据存储和计算的开山鼻祖，现在大多开源的大数据框架都依赖Hadoop或者与它能很好的兼容。

关于Hadoop,你至少需要搞清楚以下是什么：

Hadoop 1.0、Hadoop 2.0
MapRece、HDFS
NameNode、DataNode
JobTracker、TaskTracker
Yarn、ResourceManager、NodeManager

自己搭建Hadoop，请使用第一步和第二步，能让它跑起来就行。

建议先使用安装包命令行安装，不要使用管理工具安装。

另外：Hadoop1.0知道它就行了，现在都用Hadoop 2.0.

1.4尝试使用Hadoop

HDFS目录操作命令；
上传、下载文件命令；
提交运行MapRece示例程序；
打开Hadoop WEB界面，查看Job运行状态，查看Job运行日志。
知道Hadoop的系统日志在哪里。

1.5了解它们的原理

MapRece：如何分而治之；

HDFS：数据到底在哪里，什么是副本；

Yarn到底是什么，它能干什么；

NameNode到底在干些什么；

ResourceManager到底在干些什么；

1.6自己写一个MapRece程序

仿照WordCount例子，自己写一个（照抄也行）WordCount程序，

打包并提交到Hadoop运行。

不会java的话，Shell、Python都可以，有个东西叫Hadoop Streaming。

如果能认真完成了以上几步，恭喜你，你的一只脚已经进来了。

第二章：更高效的WordCount

2.1学点SQL吧

如果不懂数据库的童鞋先学习使用SQL句。

2.2 SQL版WordCount

在1.6中，你写（或者抄）的WordCount一共有几行代码？

如果用SQL的话：

SELECT word,COUNT(1) FROM wordcount GROUP BY word;

这便是SQL的魅力，编程需要几十行，甚至上百行代码，SQL一句就搞定；使用SQL处理分析Hadoop上的数据，方便、高效、易上手、更是趋势。不论是离线计算还是实时计算，越来越多的大数据处理框架都在积极提供SQL接口。

2.3安装配置Hive

Hive算是数据仓库工具，安装不难，网上有很多教程，配置完成后，可以正常进入Hive命令行。

2.4试试使用Hive

尝试在Hive中创建wordcount表，并运行2.2中的SQL语句。在Hadoop WEB界面中找到刚才运行的SQL任务。看SQL查询结果是否和1.4中MapRece中的结果一致。

明明写的是SQL，为什么Hadoop WEB界面中看到的是MapRece任务？

2.5学会Hive的基本命令

创建、删除表；加载数据到表；下载Hive表的数据；并学习更多关于Hive的语法和命令。

以上如果按照第一章和第二章的流程认真完整的走了一遍后，应该已经具备以下技能和知识点：

0和Hadoop2.0的区别

MapRece的原理（还是那个经典的题目，一个10G大小的文件，给定1G大小的内存，如何使用Java程序统计出现次数最多的10个单词及次数）；

HDFS读写数据的流程；向HDFS中PUT数据；从HDFS中下载数据；

自己会写简单的MapRece程序，运行出现问题，知道在哪里查看日志；

会写简单的SELECT、WHERE、GROUP BY等SQL语句；

Hive SQL转换成MapRece的大致流程；

Hive中常见的语句：创建表、删除表、往表中加载数据、分区、将表中数据下载到本地；

从上面的学习，你已经了解到，HDFS是Hadoop提供的分布式存储框架，它可以用来存储海量数据，MapRece是Hadoop提供的分布式计算框架，它可以用来统计和分析HDFS上的海量数据，而Hive则是SQL On Hadoop，Hive提供了SQL接口，开发人员只需要编写简单易上手的SQL语句，Hive负责把SQL翻译成MapRece，提交运行。

此时，你的认知中“大数据平台”是这样的：

这时，使用Flume采集的数据，不是直接到HDFS上，而是先到Kafka，Kafka中的数据可以由多个消费者同时消费，其中一个消费者，就是将数据同步到HDFS。

总结：

为什么Spark比MapRece快。

使用SparkSQL代替Hive，更快的运行SQL。

使用Kafka完成数据的一次收集，多次消费架构。

自己可以写程序完成Kafka的生产者和消费者。

前面的学习已经掌握了大数据平台中的数据采集、数据存储和计算、数据交换等大部分技能，而这其中的每一步，都需要一个任务（程序）来完成，各个任务之间又存在一定的依赖性，比如，必须等数据采集任务成功完成后，数据计算任务才能开始运行。如果一个任务执行失败，需要给开发运维人员发送告警，同时需要提供完整的日志来方便查错。

第七章：越来越多的分析任务

不仅仅是分析任务，数据采集、数据交换同样是一个个的任务。这些任务中，有的是定时触发，有点则需要依赖其他任务来触发。当平台中有几百上千个任务需要维护和运行时候，仅仅靠crontab远远不够了，这时便需要一个调度监控系统来完成这件事。调度监控系统是整个数据平台的中枢系统，类似于AppMaster，负责分配和监控任务。

7.1 Apache Oozie

1. Oozie是什么？有哪些功能？

2. Oozie可以调度哪些类型的任务（程序）？

3. Oozie可以支持哪些任务触发方式？

4.安装配置Oozie。

7.2其他开源的任务调度系统

Azkaban

light-task-scheler

alibaba/zeus

……

此时：

第八章：数据要实时

在第六章介绍Kafka的时候提到了一些需要实时指标的业务场景，实时基本可以分为绝对实时和准实时，绝对实时的延迟要求一般在毫秒级，准实时的延迟要求一般在秒、分钟级。对于需要绝对实时的业务场景，用的比较多的是Storm，对于其他准实时的业务场景，可以是Storm，也可以是Spark Streaming。当然，如果可以的话，也可以自己写程序来做。

8.1 Storm

1. 什么是Storm？有哪些可能的应用场景？

2. Storm由哪些核心组件构成，各自担任什么角色？

3. Storm的简单安装和部署。

4. 自己编写Demo程序，使用Storm完成实时数据流计算。

8.2 Spark Streaming

1. 什么是Spark Streaming，它和Spark是什么关系？

2. Spark Streaming和Storm比较，各有什么优缺点？

3. 使用Kafka + Spark Streaming，完成实时计算的Demo程序。

此时：

至此，大数据平台底层架构已经成型了，其中包括了数据采集、数据存储与计算（离线和实时）、数据同步、任务调度与监控这几大模块。接下来是时候考虑如何更好的对外提供数据了。

第九章：数据要对外

通常对外（业务）提供数据访问，大体上包含以下方面：

离线：比如，每天将前一天的数据提供到指定的数据源（DB、FILE、FTP）等；

离线数据的提供可以采用Sqoop、DataX等离线数据交换工具。

实时：比如，在线网站的推荐系统，需要实时从数据平台中获取给用户的推荐数据，这种要求延时非常低（50毫秒以内）。

根据延时要求和实时数据的查询需要，可能的方案有：HBase、Redis、MongoDB、ElasticSearch等。

OLAP分析：OLAP除了要求底层的数据模型比较规范，另外，对查询的响应速度要求也越来越高，可能的方案有：Impala、Presto、SparkSQL、Kylin。如果你的数据模型比较规模，那么Kylin是最好的选择。

即席查询：即席查询的数据比较随意，一般很难建立通用的数据模型，因此可能的方案有：Impala、Presto、SparkSQL。

这么多比较成熟的框架和方案，需要结合自己的业务需求及数据平台技术架构，选择合适的。原则只有一个：越简单越稳定的，就是最好的。

如果你已经掌握了如何很好的对外（业务）提供数据，那么你的“大数据平台”应该是这样的：

第十章：牛逼高大上的机器学习

这里本人也没有接触太多，稍微讲一下我们的业务场景应用，遇到的能用机器学习解决的问题大概这么三类：

分类问题：包括二分类和多分类，二分类就是解决了预测的问题，就像预测一封邮件是否垃圾邮件；多分类解决的是文本的分类；

聚类问题：从用户搜索过的关键词，对用户进行大概的归类。

推荐问题：根据用户的历史浏览和点击行为进行相关推荐。

大多数行业，使用机器学习解决的，也就是这几类问题。

入门学习线路：

数学基础；

机器学习实战（Machine Learning in Action），懂Python最好；

SparkMlLib提供了一些封装好的算法，以及特征处理、特征选择的方法。

那么把机器学习部分加进 “大数据平台”。

D. 大数据学习需要哪些课程

主修课程：面向对象程序设计、Hadoop实用技术、数据挖掘、机器学习、数据统计分析、高等数学、Python编程、JAVA编程、数据库技术、Web开发、Linux操作系统、大数据平台搭建及运维、大数据应用开发、可视化设计与开发等

E. 怎样学习大数据

首先我们要了解Java语言和Linux操作系统，这两个是学习大数据的基础，学习的顺序不分前后。

Java ：只要了解一些基础即可，做大数据不需要很深的Java 技术，学java SE 就相当于有学习大数据基础。

Linux：因为大数据相关软件都是在Linux上运行的，所以Linux要学习的扎实一些，学好Linux对你快速掌握大数据相关技术会有很大的帮助，能让你更好的理解hadoop、hive、hbase、spark等大数据软件的运行环境和网络环境配置，能少踩很多坑，学会shell就能看懂脚本这样能更容易理解和配置大数据集群。还能让你对以后新出的大数据技术学习起来更快。

Hadoop：这是现在流行的大数据处理平台几乎已经成为大数据的代名词，所以这个是必学的。Hadoop里面包括几个组件HDFS、MapRece和YARN，HDFS是存储数据的地方就像我们电脑的硬盘一样文件都存储在这个上面，MapRece是对数据进行处理计算的，它有个特点就是不管多大的数据只要给它时间它就能把数据跑完，但是时间可能不是很快所以它叫数据的批处理。

Zookeeper：这是个万金油，安装Hadoop的HA的时候就会用到它，以后的Hbase也会用到它。它一般用来存放一些相互协作的信息，这些信息比较小一般不会超过1M，都是使用它的软件对它有依赖，对于我们个人来讲只需要把它安装正确，让它正常的run起来就可以了。

Mysql：我们学习完大数据的处理了，接下来学习学习小数据的处理工具mysql数据库，因为一会装hive的时候要用到，mysql需要掌握到什么层度那?你能在Linux上把它安装好，运行起来，会配置简单的权限，修改root的密码，创建数据库。这里主要的是学习SQL的语法，因为hive的语法和这个非常相似。

Sqoop：这个是用于把Mysql里的数据导入到Hadoop里的。当然你也可以不用这个，直接把Mysql数据表导出成文件再放到HDFS上也是一样的，当然生产环境中使用要注意Mysql的压力。

Hive：这个东西对于会SQL语法的来说就是神器，它能让你处理大数据变的很简单，不会再费劲的编写MapRece程序。有的人说Pig那?它和Pig差不多掌握一个就可以了。

Oozie：既然学会Hive了，我相信你一定需要这个东西，它可以帮你管理你的Hive或者MapRece、Spark脚本，还能检查你的程序是否执行正确，出错了给你发报警并能帮你重试程序，最重要的是还能帮你配置任务的依赖关系。我相信你一定会喜欢上它的，不然你看着那一大堆脚本，和密密麻麻的crond是不是有种想屎的感觉。

Hbase：这是Hadoop生态体系中的NOSQL数据库，他的数据是按照key和value的形式存储的并且key是唯一的，所以它能用来做数据的排重，它与MYSQL相比能存储的数据量大很多。所以他常被用于大数据处理完成之后的存储目的地。

Kafka：这是个比较好用的队列工具，队列是干吗的?排队买票你知道不?数据多了同样也需要排队处理，这样与你协作的其它同学不会叫起来，你干吗给我这么多的数据(比如好几百G的文件)我怎么处理得过来，你别怪他因为他不是搞大数据的，你可以跟他讲我把数据放在队列里你使用的时候一个个拿，这样他就不在抱怨了马上灰流流的去优化他的程序去了，因为处理不过来就是他的事情。而不是你给的问题。当然我们也可以利用这个工具来做线上实时数据的入库或入HDFS，这时你可以与一个叫Flume的工具配合使用，它是专门用来提供对数据进行简单处理，并写到各种数据接受方(比如Kafka)的。

Spark：它是用来弥补基于MapRece处理数据速度上的缺点，它的特点是把数据装载到内存中计算而不是去读慢的要死进化还特别慢的硬盘。特别适合做迭代运算，所以算法流们特别稀饭它。它是用scala编写的。Java语言或者Scala都可以操作它，因为它们都是用JVM的。

F. 从java开发转到大数据开发，去哪里学习比较好

现在几乎所有的IT培训机构的大数据培训都是先学javase，随便一个都可以让之前有java基础的直接学习大数据的开发。这没有什么稀奇的，不过真正好的确实是少见。

G. 大数据培训学校学哪些内容

以下介绍的课程主要针对零基础大数据工程师每个阶段进行通俗易懂简易介绍，方面大家更好的了解大数据学习课程。课程框架是科多大数据的零基础大数据工程师课程。
一、第一阶段：静态网页基础(html+CSS)
1. 难易程度：一颗星
2. 课时量(技术知识点+阶段项目任务+综合能力)
3. 主要技术包括：html常用标签、CSS常见布局、样式、定位等、静态页面的设计制作方式等
4. 描述如下：
从技术层面来说，该阶段使用的技术代码很简单、易于学习、方便理解。从后期课程层来说，因为我们重点是大数据，但前期需要锻炼编程技术与思维。经过我们多年开发和授课的项目经理分析，满足这两点，目前市场上最好理解和掌握的技术是J2EE，但J2EE又离不开页面技术。所以第一阶段我们的重点是页面技术。采用市场上主流的HTMl+CSS。
二、第二阶段：JavaSE+JavaWeb
1. 难易程度：两颗星
2. 课时量(技术知识点+阶段项目任务+综合能力)
3. 主要技术包括：java基础语法、java面向对象(类、对象、封装、继承、多态、抽象类、接口、常见类、内部类、常见修饰符等)、异常、集合、文件、IO、MYSQL(基本SQL语句操作、多表查询、子查询、存储过程、事务、分布式事务)JDBC、线程、反射、Socket编程、枚举、泛型、设计模式
4. 描述如下：
称为Java基础，由浅入深的技术点、真实商业项目模块分析、多种存储方式的设计
与实现。该阶段是前四个阶段最最重要的阶段，因为后面所有阶段的都要基于此阶段，也是学习大数据紧密度最高的阶段。本阶段将第一次接触团队开发、产出具有前后台(第一阶段技术+第二阶段的技术综合应用)的真实项目。
三、第三阶段：前端框架
1. 难易程序：两星
2. 课时量(技术知识点+阶段项目任务+综合能力)：64课时
3. 主要技术包括：Java、Jquery、注解反射一起使用，XML以及XML解析、解析dom4j、jxab、jdk8.0新特性、SVN、Maven、easyui
4. 描述如下：
前两个阶段的基础上化静为动，可以实现让我们网页内容更加的丰富，当然如果从市场人员层面来说，有专业的前端设计人员，我们设计本阶段的目标在于前端的技术可以更直观的锻炼人的思维和设计能力。同时我们也将第二阶段的高级特性融入到本阶段。使学习者更上一层楼。
四、第四阶段：企业级开发框架
1. 难易程序：三颗星
2. 课时量(技术知识点+阶段项目任务+综合能力)
3. 主要技术包括：Hibernate、Spring、SpringMVC、log4j slf4j 整合、myBatis、struts2、Shiro、redis、流程引擎activity，爬虫技术nutch,lucene，webServiceCXF、Tomcat集群和热备、MySQL读写分离
4. 描述如下：
如果将整个JAVA课程比作一个糕点店，那前面三个阶段可以做出一个武大郎烧饼(因为是纯手工-太麻烦)，而学习框架是可以开一个星巴克(高科技设备-省时省力)。从J2EE开发工程师的任职要求来说，该阶段所用到的技术是必须掌握，而我们所授的课程是高于市场(市场上主流三大框架，我们进行七大框架技术传授)、而且有真实的商业项目驱动。需求文档、概要设计、详细设计、源码测试、部署、安装手册等都会进行讲解。
五、第五阶段：初识大数据
1. 难易程度：三颗星
2. 课时量(技术知识点+阶段项目任务+综合能力)
3. 主要技术包括：大数据前篇(什么是大数据，应用场景，如何学习大数据库，虚拟机概念和安装等)、Linux常见命令(文件管理、系统管理、磁盘管理)、Linux Shell编程(SHELL变量、循环控制、应用)、Hadoop入门(Hadoop组成、单机版环境、目录结构、HDFS界面、MR界面、简单的SHELL、java访问hadoop)、HDFS(简介、SHELL、IDEA开发工具使用、全分布式集群搭建)、MapRece应用(中间计算过程、Java操作MapRece、程序运行、日志监控)、Hadoop高级应用(YARN框架介绍、配置项与优化、CDH简介、环境搭建)、扩展(MAP 端优化，COMBINER 使用方法见,TOP K,SQOOP导出,其它虚拟机VM的快照,权限管理命令,AWK 与 SED命令)
4. 描述如下：
该阶段设计是为了让新人能够对大数据有一个相对的大概念怎么相对呢?在前置课程JAVA的学习过后能够理解程序在单机的电脑上是如何运行的。现在，大数据呢?大数据是将程序运行在大规模机器的集群中处理。大数据当然是要处理数据，所以同样，数据的存储从单机存储变为多机器大规模的集群存储。
(你问我什么是集群?好，我有一大锅饭，我一个人可以吃完，但是要很久，现在我叫大家一起吃。一个人的时候叫人，人多了呢? 是不是叫人群啊!)
那么大数据可以初略的分为：大数据存储和大数据处理所以在这个阶段中呢，我们课程设计了大数据的标准：HADOOP大数据的运行呢并不是在咋们经常使用的WINDOWS 7或者W10上面，而是现在使用最广泛的系统：LINUX。
六、第六阶段：大数据数据库
1. 难易程度：四颗星
2. 课时量(技术知识点+阶段项目任务+综合能力)
3. 主要技术包括：Hive入门(Hive简介、Hive使用场景、环境搭建、架构说明、工作机制)、Hive Shell编程(建表、查询语句、分区与分桶、索引管理和视图)、Hive高级应用(DISTINCT实现、groupby、join、sql转化原理、java编程、配置和优化)、hbase入门、Hbase SHELL编程(DDL、DML、Java操作建表、查询、压缩、过滤器)、细说Hbase模块(REGION、HREGION SERVER、HMASTER、ZOOKEEPER简介、ZOOKEEPER配置、Hbase与Zookeeper集成)、HBASE高级特性(读写流程、数据模型、模式设计读写热点、优化与配置)
4. 描述如下：
该阶段设计是为了让大家在理解大数据如何处理大规模的数据的同时。简化咋们的编写程序时间，同时提高读取速度。
怎么简化呢?在第一阶段中，如果需要进行复杂的业务关联与数据挖掘，自行编写MR程序是非常繁杂的。所以在这一阶段中我们引入了HIVE，大数据中的数据仓库。这里有一个关键字，数据仓库。我知道你要问我，所以我先说，数据仓库呢用来做数据挖掘分析的，通常是一个超大的数据中心，存储这些数据的呢，一般为ORACLE,DB2,等大型数据库，这些数据库通常用作实时的在线业务。
总之，要基于数据仓库分析数据呢速度是相对较慢的。但是方便在于只要熟悉SQL，学习起来相对简单，而HIVE呢就是这样一种工具，基于大数据的SQL查询工具，这一阶段呢还包括HBASE，它为大数据里面的数据库。纳闷了，不是学了一种叫做HIVE的数据“仓库”了么?HIVE是基于MR的所以查询起来相当慢，HBASE呢基于大数据可以做到实时的数据查询。一个主分析，另一个主查询
七、第七阶段：实时数据采集
1. 难易程序：四颗星
2. 课时量(技术知识点+阶段项目任务+综合能力)
3. 主要技术包括：Flume日志采集，KAFKA入门(消息队列、应用场景、集群搭建)、KAFKA详解(分区、主题、接受者、发送者、与ZOOKEEPER集成、Shell开发、Shell调试)、KAFKA高级使用(java开发、主要配置、优化项目)、数据可视化(图形与图表介绍、CHARTS工具分类、柱状图与饼图、3D图与地图)、STORM入门(设计思想、应用场景、处理过程、集群安装)、STROM开发(STROM MVN开发、编写STORM本地程序)、STORM进阶(java开发、主要配置、优化项目)、KAFKA异步发送与批量发送时效，KAFKA全局消息有序，STORM多并发优化
4. 描述如下：
前面的阶段数据来源是基于已经存在的大规模数据集来做的，数据处理与分析过后的结果是存在一定延时的，通常处理的数据为前一天的数据。
举例场景：网站防盗链，客户账户异常，实时征信，遇到这些场景基于前一天的数据分析出来过后呢?是否太晚了。所以在本阶段中我们引入了实时的数据采集与分析。主要包括了：FLUME实时数据采集，采集的来源支持非常广泛，KAFKA数据数据接收与发送，STORM实时数据处理，数据处理秒级别
八、第八阶段：SPARK数据分析
1. 难易程序：五颗星
2. 课时量(技术知识点+阶段项目任务+综合能力)
3. 主要技术包括：SCALA入门(数据类型、运算符、控制语句、基础函数)、SCALA进阶(数据结构、类、对象、特质、模式匹配、正则表达式)、SCALA高级使用(高阶函数、科里函数、偏函数、尾迭代、自带高阶函数等)、SPARK入门(环境搭建、基础结构、运行模式)、Spark数据集与编程模型、SPARK SQL、SPARK 进阶(DATA FRAME、DATASET、SPARK STREAMING原理、SPARK STREAMING支持源、集成KAFKA与SOCKET、编程模型)、SPARK高级编程(Spark-GraphX、Spark-Mllib机器学习)、SPARK高级应用(系统架构、主要配置和性能优化、故障与阶段恢复)、SPARK ML KMEANS算法，SCALA 隐式转化高级特性
4. 描述如下：
同样先说前面的阶段，主要是第一阶段。HADOOP呢在分析速度上基于MR的大规模数据集相对来说还是挺慢的，包括机器学习，人工智能等。而且不适合做迭代计算。SPARK呢在分析上是作为MR的替代产品，怎么替代呢? 先说他们的运行机制，HADOOP基于磁盘存储分析，而SPARK基于内存分析。我这么说你可能不懂，再形象一点，就像你要坐火车从北京到上海，MR就是绿皮火车，而SPARK是高铁或者磁悬浮。而SPARK呢是基于SCALA语言开发的，当然对SCALA支持最好，所以课程中先学习SCALA开发语言。
在科多大数据课程的设计方面，市面上的职位要求技术，基本全覆盖。而且并不是单纯的为了覆盖职位要求，而是本身课程从前到后就是一个完整的大数据项目流程，一环扣一环。
比如从历史数据的存储，分析(HADOOP,HIVE,HBASE)，到实时的数据存储(FLUME,KAFKA)，分析(STORM,SPARK)，这些在真实的项目中都是相互依赖存在的。

H. 大数据培训课程大纲要学什么课程

课纲不一样，看是大数据开发还是大数据分析了，我学的大数据分析可视化，学的主要有Python入门、sql、oracle、tableau、帆软、Informatica、Excel等等
我刚出来半年，视频录播可能还不算落后，有视频可***

I. 大数据学习一般都学什么

您好，大数据学习一般分为6个阶段

第一阶段
JavaSE基础核心
第二阶段内
数据库关键技术容
第三阶段
大数据基础核心
第四阶段
Spark生态体系框架&大数据精选项目
第五阶段
Spark生态体系框架&企业无缝对接项目
第六阶段
Flink流式数据处理框架
大数据是最近几年新兴的专业，发展的前景是非常好的，选择大数据是没有错的！

阅读全文

大数据稀牛

与大数据稀牛相关的阅读推荐