当前位置：首页 » 数据智能 » spark大数据面试

spark大数据面试

发布时间: 2021-03-20 13:34:35

『壹』大数据面试要准备哪些

一、大数据面试要准备一些应试须知：
1、让面试官记住你的名字。很多人在介绍自己名字的时候仅仅只有简单的一句“我叫某某某”,直到你的自我介绍完毕,面试官也没有记住你的名字,如果后续的自我介绍中没有突出的表现,那么这样的自我介绍注定是失败的。
2、告诉面试官和应聘职位相关的工作经历。在自我介绍自己的工作经历时,一定要注意哪些经历是和应聘职位相关,对应聘有帮助,哪些是毫无意义的。例如应聘技术人员的职位,我们主要讲从事本职工作的经历,如果有从事其他行业的经历,比如从事过销售,组织,管理工作的,也可以略微提一下,往往会对应聘起到一定的帮助。
3、在面试官面前展现性格阳光的一面。性格也是面试官需要考察的一项,一般来说活泼、外向的性格始终会受到大家的亲睐,所以我们在面试官面前一定要展示性格阳光的一面,即使内向,也不能表现出来。
4、简单的介绍一下自己的未来规划。未来规划这一项是为了告诉面试官,我是一个有计划、有目标、有理想的人,我参加面试是因为我对这份工作比较热爱,而不是为了混口饭吃而应聘这项工作。很多老板最怕找到以混日子为目的的员工。
5、注意扬长避短。扬长避短也就是说在面试时尽量选择自己好的方面来说,只说自己的优点,避免谈及自己的缺点。从人性的角度来讲,人们总是对负面的新闻感兴趣,因此在面试时,面试官会千方百计的发现你的缺点,你的弱项,如果我们主动将缺点暴露给对方,那么产生的影响往往是负面的。
细节决定成败,一个简单的自我介绍虽然只有短短的几分钟,但是其内容却包罗万象,因此在面试时自我介绍的完美与否是举足轻重的。
二、大数据面试要准备一些常见的面试题：
1、你会java语言吗？熟悉到什么程度？
2、你最喜欢的编程语言是什么？为什么？
3、处理过的最大的数据量？你是如何处理他们的？处理的结果如何。
2、在处理大数据过程中，如何保证得到期望值？
3、如何让一个网络爬虫速度更快、抽取更好的信息以及更好总结数据从而得到一干净的数据库？
4、点击流数据应该是实时处理？为什么？哪部分应该实时处理？
6、如何把非结构化的数据转换成结构化的数据？这是否真的有必要做这样的转换？把数据存成平面文本文件是否比存成关系数据库更好？
7、如何判别maprece过程有好的负载均衡？什么是负载均衡？
8、Spark和Hive的区别，以及Spark和Hive的数据倾斜调优问题？
9、Hive和Hbase的区别？
10、MapRece的思想，以及MapRece调优问题？
11、你所了解的开源网站？
12、有两个集群，每个集群有3个节点，使用hive分析相同的数据，sql语句完全一样，一个集群的分析结果比另外一个慢的多，给出造成这种现象的可能原因？
13、Hbase的优化？

14、集群的版本，以及集群的瓶颈问题？
15、CRM项目，怎么跟Spark结合？
16、如何创建一个关键字分类？
17、海量日志数据，提取出某日访问网络次数最多的那个IP？
18、Hadoop和Spark处理数据时，出现内存溢出的处理方法？
19、有一个1G大小的一个文件，里面每一是一个词，词的大小不超过16字节，内存大小限制大小1M，返回频率最高的50个词。
20、你是如何处理缺少数据的？你是推荐使用什么样的处理技术，或者说你是用什么样的技术处理呢？

『贰』学习Hadoop/Spark等大数据框架之前，单就Java语言而言，需要掌握哪些知识以及掌握到什么程度

如果只是应用Hadoop/Spark进行数据分析，那么JavaSE只需要基本了解就行了，重点在于深入理解Hadoop/Spark各自的内计算模型和实现原理容，以及常见的数据分析方法和分布式算法。实际的分析工作，甚至可以不使用java，使用各自的streaming接口用任意语言编写。另外，Spark与Hadoop不同，原生语言是Scala。

如果要深入学习两个框架的实现，阅读源代码的话，那肯定就得学习Java/Scala了，建议在掌握基础之后边看代码边查相应的语言特性。

对初学者，建议还是从应用入手，在使用的过程中，自然地一步步了解实现。

『叁』大数据中的Spark指的是什么

谢谢邀请！
spark最初是由伯克利大学的amplab于2009年提交的一个项目，现在已经是Apache软件基金会最活跃的项目，对于spark,apache给出的官方定义是：spark是一个快速和通用的大数据处理引擎。可以理解为一个分布式大数据处理框架，spark是基于Rdd(弹性分布式数据集)，立足于内存计算，在“one stack to rule them all” 的思想引导下，打造了一个可以流式处理（spark streaming）,机器学习（mllib）,实时查询（spark sql）,图计算（graphx）等各种大数据处理，无缝连接的一栈式计算平台，由于spark在性能和扩展上快速，易用，通用的特点，使之成为一个一体化，多元化的大数据计算平台。
spark的一栈式优势
1 快速处理，比hadoop快100倍，因为spark是基于内存计算，而hadoop是基于磁盘计算
2易用性，spark支持多种语言
3 通用性强，可以流式处理，及时查询，图计算，机器学习
4 可以和hadoop数据集成，运行在yarn上，统一进行资源管理调度
5 活跃和壮大的社区
以上是关于spark的简单定义，希望我的回答可以点赞，谢谢

『肆』简述hadoop和spark大数据平台的基本构架和工作原理

简述这你来查查这大数比据平台的一些消息，关于数据的。

『伍』如何学习Spark大数据

主要学习Spark大数据概念、基本原理、与Hadoop的区别与联系、Spark开发环境搭建、 Spark集群、 Scala开发语言、IntelliJ IDEA开发工具使用、Spark SQL数据存取、Spark Streaming流式计算、Spark MLlib机器学习、Spark Graphx图计算等内容。

『陆』大数据Spark是什么职位

spark大数据开发
大数据开发工程师
大数据平台开发工程师(hadoop/Spark)
spark是属于大数据开发中需要学习的技术之一。

『柒』千锋大数据开发面试题大全

大数据开发从千锋网站上有

『捌』如何使用spark做大数据分析

动手实验Apache Spark的最好方式是使用交互式Shell命令行，Spark目前有Python Shell和Scala Shell两种交互式命令行。
可以从这里下载Apache Spark，下载时选择最近预编译好的版本以便能够立即运行shell。
目前最新的Apache Spark版本是1.5.0，发布时间是2015年9月9日。
tar -xvzf ~/spark-1.5.0-bin-hadoop2.4.tgz

运行Python Shell
cd spark-1.5.0-bin-hadoop2.4
./bin/pyspark

在本节中不会使用Python Shell进行演示。
Scala交互式命令行由于运行在JVM上，能够使用java库。
运行Scala Shell
cd spark-1.5.0-bin-hadoop2.4
./bin/spark-shell

执行完上述命令行，你可以看到下列输出：
Scala Shell欢迎信息
Welcome to
____ __
/ __/__ ___ _____/ /__
_\ \/ _ \/ _ `/ __/ '_/
/___/ .__/\_,_/_/ /_/\_\ version 1.5.0
/_/
Using Scala version 2.10.4 (Java HotSpot(TM) 64-Bit Server VM, Java 1.8.0_25)
Type in expressions to have them evaluated.
Type :help for more information.
15/08/24 21:58:29 INFO SparkContext: Running Spark version 1.5.0

下面是一些简单的练习以便帮助使用shell。也许你现在不能理解我们做的是什么，但在后面我们会对此进行详细分析。在Scala Shell中，执行下列操作：
在Spark中使用README 文件创建textFileRDD
val textFile = sc.textFile("README.md")

获取textFile RDD的第一个元素
textFile.first()
res3: String = # Apache Spark

对textFile RDD中的数据进行过滤操作，返回所有包含“Spark”关键字的行，操作完成后会返回一个新的RDD，操作完成后可以对返回的RDD的行进行计数
筛选出包括Spark关键字的RDD然后进行行计数
val linesWithSpark = textFile.filter(line => line.contains("Spark"))
linesWithSpark.count()
res10: Long = 19

要找出RDD linesWithSpark单词出现最多的行，可以使用下列操作。使用map方法，将RDD中的各行映射成一个数，然后再使用rece方法找出包含单词数最多的行。
找出RDD textFile 中包含单词数最多的行
textFile.map(line => line.split(" ").size)
.rece((a, b) => if (a > b) a else b)
res11: Int = 14

返回结果表明第14行单词数最多。
也可以引入其它java包，例如 Math.max()方法，因为map和rece方法接受scala函数字面量作为参数。
在scala shell中引入Java方法
import java.lang.Math
textFile.map(line => line.split(" ").size)
.rece((a, b) => Math.max(a, b))
res12: Int = 14

我们可以很容易地将数据缓存到内存当中。
将RDD linesWithSpark 缓存，然后进行行计数
linesWithSpark.cache()
res13: linesWithSpark.type =
MapPartitionsRDD[8] at filter at <console>:23
linesWithSpark.count()
res15: Long = 19

上面简要地给大家演示的了如何使用Spark交互式命令行。
弹性分布式数据集（RDDs）
Spark在集群中可以并行地执行任务，并行度由Spark中的主要组件之一——RDD决定。弹性分布式数据集(Resilient distributed data, RDD)是一种数据表示方式，RDD中的数据被分区存储在集群中（碎片化的数据存储方式），正是由于数据的分区存储使得任务可以并行执行。分区数量越多，并行越高。下图给出了RDD的表示：

Display- Edit
想像每列均为一个分区（partition ），你可以非常方便地将分区数据分配给集群中的各个节点。
为创建RDD，可以从外部存储中读取数据，例如从Cassandra、Amazon简单存储服务（Amazon Simple Storage Service）、HDFS或其它Hadoop支持的输入数据格式中读取。也可以通过读取文件、数组或JSON格式的数据来创建RDD。另一方面，如果对于应用来说，数据是本地化的，此时你仅需要使用parallelize方法便可以将Spark的特性作用于相应数据，并通过Apache Spark集群对数据进行并行化分析。为验证这一点，我们使用Scala Spark Shell进行演示：

阅读全文

spark大数据面试

与spark大数据面试相关的阅读推荐