当前位置：首页 » 数据智能 » 大数据分析技术导论

大数据分析技术导论

发布时间: 2021-03-27 21:22:40

㈠大数据课程都学什么啊

大数据课程学习的内容有6个阶段：
1阶段
javaSE基础核心
2阶段
数据库关键技术内
3阶段
大数容据基础核心
4阶段
Spark生态体系框架&大数据高薪精选项目
5阶段
Spark生态体系框架&企业无缝对接项目
6阶段
Flink流式数据处理框架
按照顺序学习就可以了，希望你早日学有所成。

㈡大数据专业主要学什么课程

大数据技术专业属于交叉学科：以统计学、数学、计算机为三大支撑性学科；生物、医学、环境科学、经济学、社会学、管理学为应用拓展性学科。

此外还需学习数据采集、分析、处理软件，学习数学建模软件及计算机编程语言等，知识结构是二专多能复合的跨界人才(有专业知识、有数据思维)。

以中国人民大学为例：

基础课程：数学分析、高等代数、普通物理数学与信息科学概论、数据结构、数据科学导论、程序设计导论、程序设计实践。

必修课：离散数学、概率与统计、算法分析与设计、数据计算智能、数据库系统概论、计算机系统基础、并行体系结构与编程、非结构化大数据分析。

选修课：数据科学算法导论、数据科学专题、数据科学实践、互联网实用开发技术、抽样技术、统计学习、回归分析、随机过程。

(2)大数据分析技术导论扩展阅读：

大数据岗位：

1、大数据系统架构师

大数据平台搭建、系统设计、基础设施。

技能：计算机体系结构、网络架构、编程范式、文件系统、分布并行处理等。

2、大数据系统分析师

面向实际行业领域，利用大数据技术进行数据安全生命周期管理、分析和应用。

技能：人工智能、机器学习、数理统计、矩阵计算、优化方法。

3、hadoop开发工程师。

解决大数据存储问题。

4、数据分析师

不同行业中，专门从事行业数据搜集、整理、分析，并依据数据做出行业研究、评估和预测的专业人员。在工作中通过运用工具，提取、分析、呈现数据，实现数据的商业意义。

5、数据挖掘工程师

做数据挖掘要从海量数据中发现规律，这就需要一定的数学知识，最基本的比如线性代数、高等代数、凸优化、概率论等。经常会用到的语言包括python、Java、C或者C++，我自己用Python或者Java比较多。有时用MapRece写程序，再用Hadoop或者Hyp来处理数据，如果用Python的话会和Spark相结合。

㈢大数据导论与人工智能导论有什么区别

人工智能导论和大数据导论的区别
大数据相当于人的大脑从小学到大学记忆和存储的海量知识，这些知识只有通过消化，吸收、再造才能创造出更大的价值。

人工智能打个比喻为一个人吸收了人类大量的知识，不断的深度学习、进化成为一方高人。人工智能离不开大数据，更是基于云计算平台完成深度学习进化。

人工智能是基于大数据的支持和采集，运用于人工设定的特定性能和运算方式来实现的，大数据是不断采集、沉淀、分类等数据积累。

与以前的众多数据分析技术相比，人工智能技术立足于神经网络，同时发展出多层神经网络，从而可以进行深度机器学习。与以外传统的算法相比，这一算法并无多余的假设前提（比如线性建模需要假设数据之间的线性关系），而是完全利用输入的数据自行模拟和构建相应的模型结构。这一算法特点决定了它是更为灵活的、且可以根据不同的训练数据而拥有自优化的能力。

但这一显著的优点带来的便是显著增加的运算量。在计算机运算能力取得突破以前，这样的算法几乎没有实际应用的价值。大概十几年前，我们尝试用神经网络运算一组并不海量的数据，整整等待三天都不一定会有结果。但今天的情况却大大不同了。高速并行运算、海量数据、更优化的算法共同促成了人工智能发展的突破。这一突破，如果我们在三十年以后回头来看，将会是不弱于互联网对人类产生深远影响的另一项技术，它所释放的力量将再次彻底改变我们的生活。

㈣大数据分析要学什么

很多初入大数据领域或者转行进入大数据领域的朋友，需要了解的第一件事不是说各种组件框架生态相关的东西，也不是各种编程语言基础。

而是，了解清楚以下几个问题：

1)大数据领域到底包含了哪些东西，解决了哪些问题?

2)自己的实际基础是什么，如何结合自己的基础以及兴趣爱好，在整个大数据领域链路中，找到最好的切入点。只有解决了上面两个问题，才能给自己最精确的定位，找准方向深入下去。

第一个问题，大数据领域的范围。

现在一说起大数据分析，简单起来就是一个词，但其实这个方向已经可以形成一个技术领域了，包含了方方面面的技术点，也提供了各种不同的技术岗位。所以，不同的岗位，对应的需求，工作内容都是不同的。

我们可以根据数据从下到上，从无到有，到产生价值整个数据业务流程来拆解，并且与此同时，来看看每个环节我们需要的技术储备以及能做的事有哪些。大数据分析的几大基本业务流程：

收集 -> 传输 -> 转换/清洗 ->存储 -> 再加工 -> 挖掘/统计 -> 上层应用输出

总的来说，可以分以下几个大块。

第一环：数据的收集

在收集阶段，我们来看看数据主要有哪几种存在方式：

1)第三方开放数据集

2)业务数据

3)服务日志

4)行为上报数据

首先针对于第三方开放数据，目前爬取第三方开放数据的形式已经逐渐被认可，并且将会越来越多的人以及企业从互联网开放数据集中获取原始数据。所以，针对于开放数据的获取，爬虫已经可以单独形成一个体系了，包括不同的爬虫框架，以及近年来对于分布式爬虫的技术需求等，在语言方面主要还是python以及java为主，辅助其他相关脚本知识。

如果数据是业务数据，那么通常在传统的路子中，业务数据一般存储在传统的数据库中，那么，对于传统数据库相关的技术知识不可避免的需要有所了解。

我们需要对数据进行统一化处理，又不可避免的涉及到数据的迁移，即从传统数据存储介质中迁移到诸如hadoop生态中，那么涉及的迁移框架诸如sqoop之类的，又是不能不懂一些。在语言以及基础要求上，对SQL相关的知识需要补充，以及linux操作，简单的python需要掌握。

最后，如果是数据上报的形式，你需要对整个数据上报的流程熟悉，怎么进行埋点、怎么收集上报的数据，上报过来怎么进行传输接受落地，这里就不多说，最终这种上报过来的数据反倒相对规整。

第二环：数据的传输

数据的传输到底在什么时候会涉及到呢?诸如上面说到的数据上报，在大数据模式下，通常上报过来的数据我们都不会马上进行落地的，因为涉及到不同部分其效率不一样，在峰值波动的情况下，直接落地十有八九都会导致系统宕机。

所以，数据的传输在大数据领域中有着不可替代的左右，会出现在各种系统耦合之间，一方面用作数据的传输，另一方面用作数据的缓冲、系统解耦。在hadoop生态中，最有名的莫过于kafka与flume的组合搭配了，收集数据，并进行数据传输，此外还有不少类似的消息队列存在，诸如ActiveMQ、阿里的RocketMQ等等。

第三环：数据的存储

生态中最最核心的存储组件莫过于HDFS了，这是支撑hadoop能够做大批量数据处理的基础支撑，便捷而强悍的横向扩展能力。还有各种基于此之上不同形式的数据存储方式，诸如hive、HBase、甚至ES、Solr勉强都算，以及不可忽略的传统类型的SQL存储方式。

我们需要理解的是，不同的存储方式应对于实际的应用场景是不同的，HDFS作为最基础的分布式文件系统，我们就不多说。如Hive其更作用更多用于类传统式的SQL查询操作，其对于效应效率要求并不高，但对于数据规模的支撑性良好;而HBase则更偏向于即席查询，要求有更高的响应效率，但对于查询的复杂性支持上则相对较弱。

而我们说诸如ES、Solr都也勉强算是一种数据存储的组织方式，其实也是有一定道理的，因为他们本身也支持这种分布式的数据存储，只不过他们是为了应对于自己框架的检索需求而设计的数据存储组织。如Redis，也算是目前大数据生态中不可缺少的数据存储方式之一，基于内容，应对于高效的数据存储与读取，在很多的实际应用场景中都用的到。

第四环：数据的再加工

其实这一层主要要说就是基于Hadoop的MR框架以及Spark，当然，也有其他的一些分布式数据处理框架。

大规模的数据清洗转换、再加工，都离不开分布式处理框架的支持。我们需要对杂乱的数据进行标准化、对残缺的数据进行补全、对原始的数据进行深度加工提取高级属性等等。简单的，我们可以通过一些处理脚本来做，但针对于大规模的数据量级，我们依然需要依赖MR或者spark这种框架来处理。而针对于一些实时的场景，我们也不可避免的需要掌握诸如storm以及spark streaming之类的实时框架。所以，在这一环，我们不止需要了解不同的大数据处理框架，我们还需要在基于框架的基础上，做数据应用开发，进行数据处理。

最后一环：数据应用价值输出

前面我们做了很多事，包括数据的收集、传输、处理、存储等等，但这些都是手段，都不是我们的目的。我们的目的是让数据产生价值，这也是企业做大数据的核心目的。

我们可以用数据来做什么：

1)基于统计分析、数据预测，做数据化运营、决策，提升效率、效果，这是最常见的应用场景。

2)做推荐，在主体之外产生衍生价值，提升单位价值转换。

3)画像体系，至于说画像能做什么，只要能做的准，能做的事可多了。

4)基于数据化、智能化的搜索。

5)实现业务的数据化、自动化、智能化。

大数据分析技术导论

与大数据分析技术导论相关的阅读推荐