當前位置：首頁 » 數據智能 » spark大數據面試

spark大數據面試

發布時間: 2021-03-20 13:34:35

『壹』大數據面試要准備哪些

一、大數據面試要准備一些應試須知：
1、讓面試官記住你的名字。很多人在介紹自己名字的時候僅僅只有簡單的一句「我叫某某某」,直到你的自我介紹完畢,面試官也沒有記住你的名字,如果後續的自我介紹中沒有突出的表現,那麼這樣的自我介紹註定是失敗的。
2、告訴面試官和應聘職位相關的工作經歷。在自我介紹自己的工作經歷時,一定要注意哪些經歷是和應聘職位相關,對應聘有幫助,哪些是毫無意義的。例如應聘技術人員的職位,我們主要講從事本職工作的經歷,如果有從事其他行業的經歷,比如從事過銷售,組織,管理工作的,也可以略微提一下,往往會對應聘起到一定的幫助。
3、在面試官面前展現性格陽光的一面。性格也是面試官需要考察的一項,一般來說活潑、外向的性格始終會受到大家的親睞,所以我們在面試官面前一定要展示性格陽光的一面,即使內向,也不能表現出來。
4、簡單的介紹一下自己的未來規劃。未來規劃這一項是為了告訴面試官,我是一個有計劃、有目標、有理想的人,我參加面試是因為我對這份工作比較熱愛,而不是為了混口飯吃而應聘這項工作。很多老闆最怕找到以混日子為目的的員工。
5、注意揚長避短。揚長避短也就是說在面試時盡量選擇自己好的方面來說,只說自己的優點,避免談及自己的缺點。從人性的角度來講,人們總是對負面的新聞感興趣,因此在面試時,面試官會千方百計的發現你的缺點,你的弱項,如果我們主動將缺點暴露給對方,那麼產生的影響往往是負面的。
細節決定成敗,一個簡單的自我介紹雖然只有短短的幾分鍾,但是其內容卻包羅萬象,因此在面試時自我介紹的完美與否是舉足輕重的。
二、大數據面試要准備一些常見的面試題：
1、你會java語言嗎？熟悉到什麼程度？
2、你最喜歡的編程語言是什麼？為什麼？
3、處理過的最大的數據量？你是如何處理他們的？處理的結果如何。
2、在處理大數據過程中，如何保證得到期望值？
3、如何讓一個網路爬蟲速度更快、抽取更好的信息以及更好總結數據從而得到一干凈的資料庫？
4、點擊流數據應該是實時處理？為什麼？哪部分應該實時處理？
6、如何把非結構化的數據轉換成結構化的數據？這是否真的有必要做這樣的轉換？把數據存成平面文本文件是否比存成關系資料庫更好？
7、如何判別maprece過程有好的負載均衡？什麼是負載均衡？
8、Spark和Hive的區別，以及Spark和Hive的數據傾斜調優問題？
9、Hive和Hbase的區別？
10、MapRece的思想，以及MapRece調優問題？
11、你所了解的開源網站？
12、有兩個集群，每個集群有3個節點，使用hive分析相同的數據，sql語句完全一樣，一個集群的分析結果比另外一個慢的多，給出造成這種現象的可能原因？
13、Hbase的優化？

14、集群的版本，以及集群的瓶頸問題？
15、CRM項目，怎麼跟Spark結合？
16、如何創建一個關鍵字分類？
17、海量日誌數據，提取出某日訪問網路次數最多的那個IP？
18、Hadoop和Spark處理數據時，出現內存溢出的處理方法？
19、有一個1G大小的一個文件，裡面每一是一個詞，詞的大小不超過16位元組，內存大小限制大小1M，返回頻率最高的50個詞。
20、你是如何處理缺少數據的？你是推薦使用什麼樣的處理技術，或者說你是用什麼樣的技術處理呢？

『貳』學習Hadoop/Spark等大數據框架之前，單就Java語言而言，需要掌握哪些知識以及掌握到什麼程度

如果只是應用Hadoop/Spark進行數據分析，那麼JavaSE只需要基本了解就行了，重點在於深入理解Hadoop/Spark各自的內計算模型和實現原理容，以及常見的數據分析方法和分布式演算法。實際的分析工作，甚至可以不使用java，使用各自的streaming介面用任意語言編寫。另外，Spark與Hadoop不同，原生語言是Scala。

如果要深入學習兩個框架的實現，閱讀源代碼的話，那肯定就得學習Java/Scala了，建議在掌握基礎之後邊看代碼邊查相應的語言特性。

對初學者，建議還是從應用入手，在使用的過程中，自然地一步步了解實現。

『叄』大數據中的Spark指的是什麼

謝謝邀請！
spark最初是由伯克利大學的amplab於2009年提交的一個項目，現在已經是Apache軟體基金會最活躍的項目，對於spark,apache給出的官方定義是：spark是一個快速和通用的大數據處理引擎。可以理解為一個分布式大數據處理框架，spark是基於Rdd(彈性分布式數據集)，立足於內存計算，在「one stack to rule them all」的思想引導下，打造了一個可以流式處理（spark streaming）,機器學習（mllib）,實時查詢（spark sql）,圖計算（graphx）等各種大數據處理，無縫連接的一棧式計算平台，由於spark在性能和擴展上快速，易用，通用的特點，使之成為一個一體化，多元化的大數據計算平台。
spark的一棧式優勢
1 快速處理，比hadoop快100倍，因為spark是基於內存計算，而hadoop是基於磁碟計算
2易用性，spark支持多種語言
3 通用性強，可以流式處理，及時查詢，圖計算，機器學習
4 可以和hadoop數據集成，運行在yarn上，統一進行資源管理調度
5 活躍和壯大的社區
以上是關於spark的簡單定義，希望我的回答可以點贊，謝謝

『肆』簡述hadoop和spark大數據平台的基本構架和工作原理

簡述這你來查查這大數比據平台的一些消息，關於數據的。

『伍』如何學習Spark大數據

主要學習Spark大數據概念、基本原理、與Hadoop的區別與聯系、Spark開發環境搭建、 Spark集群、 Scala開發語言、IntelliJ IDEA開發工具使用、Spark SQL數據存取、Spark Streaming流式計算、Spark MLlib機器學習、Spark Graphx圖計算等內容。

『陸』大數據Spark是什麼職位

spark大數據開發
大數據開發工程師
大數據平台開發工程師(hadoop/Spark)
spark是屬於大數據開發中需要學習的技術之一。

『柒』千鋒大數據開發面試題大全

大數據開發從千鋒網站上有

『捌』如何使用spark做大數據分析

動手實驗Apache Spark的最好方式是使用互動式Shell命令行，Spark目前有Python Shell和Scala Shell兩種互動式命令行。
可以從這里下載Apache Spark，下載時選擇最近預編譯好的版本以便能夠立即運行shell。
目前最新的Apache Spark版本是1.5.0，發布時間是2015年9月9日。
tar -xvzf ~/spark-1.5.0-bin-hadoop2.4.tgz

運行Python Shell
cd spark-1.5.0-bin-hadoop2.4
./bin/pyspark

在本節中不會使用Python Shell進行演示。
Scala互動式命令行由於運行在JVM上，能夠使用java庫。
運行Scala Shell
cd spark-1.5.0-bin-hadoop2.4
./bin/spark-shell

執行完上述命令行，你可以看到下列輸出：
Scala Shell歡迎信息
Welcome to
____ __
/ __/__ ___ _____/ /__
_\ \/ _ \/ _ `/ __/ '_/
/___/ .__/\_,_/_/ /_/\_\ version 1.5.0
/_/
Using Scala version 2.10.4 (Java HotSpot(TM) 64-Bit Server VM, Java 1.8.0_25)
Type in expressions to have them evaluated.
Type :help for more information.
15/08/24 21:58:29 INFO SparkContext: Running Spark version 1.5.0

下面是一些簡單的練習以便幫助使用shell。也許你現在不能理解我們做的是什麼，但在後面我們會對此進行詳細分析。在Scala Shell中，執行下列操作：
在Spark中使用README 文件創建textFileRDD
val textFile = sc.textFile("README.md")

獲取textFile RDD的第一個元素
textFile.first()
res3: String = # Apache Spark

對textFile RDD中的數據進行過濾操作，返回所有包含「Spark」關鍵字的行，操作完成後會返回一個新的RDD，操作完成後可以對返回的RDD的行進行計數
篩選出包括Spark關鍵字的RDD然後進行行計數
val linesWithSpark = textFile.filter(line => line.contains("Spark"))
linesWithSpark.count()
res10: Long = 19

要找出RDD linesWithSpark單詞出現最多的行，可以使用下列操作。使用map方法，將RDD中的各行映射成一個數，然後再使用rece方法找出包含單詞數最多的行。
找出RDD textFile 中包含單詞數最多的行
textFile.map(line => line.split(" ").size)
.rece((a, b) => if (a > b) a else b)
res11: Int = 14

返回結果表明第14行單詞數最多。
也可以引入其它java包，例如 Math.max()方法，因為map和rece方法接受scala函數字面量作為參數。
在scala shell中引入Java方法
import java.lang.Math
textFile.map(line => line.split(" ").size)
.rece((a, b) => Math.max(a, b))
res12: Int = 14

我們可以很容易地將數據緩存到內存當中。
將RDD linesWithSpark 緩存，然後進行行計數
linesWithSpark.cache()
res13: linesWithSpark.type =
MapPartitionsRDD[8] at filter at <console>:23
linesWithSpark.count()
res15: Long = 19

上面簡要地給大家演示的了如何使用Spark互動式命令行。
彈性分布式數據集（RDDs）
Spark在集群中可以並行地執行任務，並行度由Spark中的主要組件之一——RDD決定。彈性分布式數據集(Resilient distributed data, RDD)是一種數據表示方式，RDD中的數據被分區存儲在集群中（碎片化的數據存儲方式），正是由於數據的分區存儲使得任務可以並行執行。分區數量越多，並行越高。下圖給出了RDD的表示：

Display- Edit
想像每列均為一個分區（partition ），你可以非常方便地將分區數據分配給集群中的各個節點。
為創建RDD，可以從外部存儲中讀取數據，例如從Cassandra、Amazon簡單存儲服務（Amazon Simple Storage Service）、HDFS或其它Hadoop支持的輸入數據格式中讀取。也可以通過讀取文件、數組或JSON格式的數據來創建RDD。另一方面，如果對於應用來說，數據是本地化的，此時你僅需要使用parallelize方法便可以將Spark的特性作用於相應數據，並通過Apache Spark集群對數據進行並行化分析。為驗證這一點，我們使用Scala Spark Shell進行演示：

閱讀全文

spark大數據面試

與spark大數據面試相關的閱讀推薦