spark大數據面試
『壹』 大數據面試要准備哪些
一、大數據面試要准備一些應試須知:
1、讓面試官記住你的名字。很多人在介紹自己名字的時候僅僅只有簡單的一句「我叫某某某」,直到你的自我介紹完畢,面試官也沒有記住你的名字,如果後續的自我介紹中沒有突出的表現,那麼這樣的自我介紹註定是失敗的。
2、告訴面試官和應聘職位相關的工作經歷。在自我介紹自己的工作經歷時,一定要注意哪些經歷是和應聘職位相關,對應聘有幫助,哪些是毫無意義的。例如應聘技術人員的職位,我們主要講從事本職工作的經歷,如果有從事其他行業的經歷,比如從事過銷售,組織,管理工作的,也可以略微提一下,往往會對應聘起到一定的幫助。
3、在面試官面前展現性格陽光的一面。性格也是面試官需要考察的一項,一般來說活潑、外向的性格始終會受到大家的親睞,所以我們在面試官面前一定要展示性格陽光的一面,即使內向,也不能表現出來。
4、簡單的介紹一下自己的未來規劃。未來規劃這一項是為了告訴面試官,我是一個有計劃、有目標、有理想的人,我參加面試是因為我對這份工作比較熱愛,而不是為了混口飯吃而應聘這項工作。很多老闆最怕找到以混日子為目的的員工。
5、注意揚長避短。揚長避短也就是說在面試時盡量選擇自己好的方面來說,只說自己的優點,避免談及自己的缺點。從人性的角度來講,人們總是對負面的新聞感興趣,因此在面試時,面試官會千方百計的發現你的缺點,你的弱項,如果我們主動將缺點暴露給對方,那麼產生的影響往往是負面的。
細節決定成敗,一個簡單的自我介紹雖然只有短短的幾分鍾,但是其內容卻包羅萬象,因此在面試時自我介紹的完美與否是舉足輕重的。
二、大數據面試要准備一些常見的面試題:
1、你會java語言嗎?熟悉到什麼程度?
2、你最喜歡的編程語言是什麼?為什麼?
3、處理過的最大的數據量?你是如何處理他們的?處理的結果如何。
2、在處理大數據過程中,如何保證得到期望值?
3、如何讓一個網路爬蟲速度更快、抽取更好的信息以及更好總結數據從而得到一干凈的資料庫?
4、點擊流數據應該是實時處理?為什麼?哪部分應該實時處理?
6、如何把非結構化的數據轉換成結構化的數據?這是否真的有必要做這樣的轉換?把數據存成平面文本文件是否比存成關系資料庫更好?
7、如何判別maprece過程有好的負載均衡?什麼是負載均衡?
8、Spark和Hive的區別,以及Spark和Hive的數據傾斜調優問題?
9、Hive和Hbase的區別?
10、MapRece的思想,以及MapRece調優問題?
11、你所了解的開源網站?
12、有兩個集群,每個集群有3個節點,使用hive分析相同的數據,sql語句完全一樣,一個集群的分析結果比另外一個慢的多,給出造成這種現象的可能原因?
13、Hbase的優化?
14、集群的版本,以及集群的瓶頸問題?
15、CRM項目,怎麼跟Spark結合?
16、如何創建一個關鍵字分類?
17、海量日誌數據,提取出某日訪問網路次數最多的那個IP?
18、Hadoop和Spark處理數據時,出現內存溢出的處理方法?
19、有一個1G大小的一個文件,裡面每一是一個詞,詞的大小不超過16位元組,內存大小限制大小1M,返回頻率最高的50個詞。
20、你是如何處理缺少數據的?你是推薦使用什麼樣的處理技術,或者說你是用什麼樣的技術處理呢?
『貳』 學習Hadoop/Spark等大數據框架之前,單就Java語言而言,需要掌握哪些知識以及掌握到什麼程度
如果只是應用Hadoop/Spark進行數據分析,那麼JavaSE只需要基本了解就行了,重點在於深入理解Hadoop/Spark各自的內計算模型和實現原理容,以及常見的數據分析方法和分布式演算法。實際的分析工作,甚至可以不使用java,使用各自的streaming介面用任意語言編寫。另外,Spark與Hadoop不同,原生語言是Scala。
如果要深入學習兩個框架的實現,閱讀源代碼的話,那肯定就得學習Java/Scala了,建議在掌握基礎之後邊看代碼邊查相應的語言特性。
對初學者,建議還是從應用入手,在使用的過程中,自然地一步步了解實現。
『叄』 大數據中的Spark指的是什麼
謝謝邀請!
spark最初是由伯克利大學的amplab於2009年提交的一個項目,現在已經是Apache軟體基金會最活躍的項目,對於spark,apache給出的官方定義是:spark是一個快速和通用的大數據處理引擎。可以理解為一個分布式大數據處理框架,spark是基於Rdd(彈性分布式數據集),立足於內存計算,在「one stack to rule them all」 的思想引導下 ,打造了一個可以流式處理(spark streaming),機器學習(mllib),實時查詢(spark sql),圖計算(graphx)等各種大數據處理,無縫連接的一棧式計算平台,由於spark在性能和擴展上快速,易用,通用的特點,使之成為一個一體化,多元化的大數據計算平台。
spark的一棧式優勢
1 快速處理,比hadoop快100倍,因為spark是基於內存計算,而hadoop是基於磁碟計算
2易用性,spark支持多種語言
3 通用性強,可以流式處理,及時查詢,圖計算,機器學習
4 可以和hadoop數據集成,運行在yarn上,統一進行資源管理調度
5 活躍和壯大的社區
以上是關於spark的簡單定義,希望我的回答可以點贊,謝謝
『肆』 簡述hadoop和spark大數據平台的基本構架和工作原理
簡述這你來查查這大數比據平台的一些消息,關於數據的。
『伍』 如何學習Spark大數據
主要學習Spark大數據概念、 基本原理、與Hadoop的區別與聯系、Spark開發環境搭建、 Spark集群、 Scala開發語言、IntelliJ IDEA開發工具使用、Spark SQL數據存取、Spark Streaming流式計算、Spark MLlib機器學習、Spark Graphx圖計算等內容。
『陸』 大數據Spark是什麼職位
spark大數據開發
大數據開發工程師
大數據平台開發工程師(hadoop/Spark)
spark是屬於大數據開發中需要學習的技術之一。
『柒』 千鋒大數據開發面試題大全
大數據開發從千鋒網站上有
『捌』 如何使用spark做大數據分析
動手實驗Apache Spark的最好方式是使用互動式Shell命令行,Spark目前有Python Shell和Scala Shell兩種互動式命令行。
可以從 這里下載Apache Spark,下載時選擇最近預編譯好的版本以便能夠立即運行shell。
目前最新的Apache Spark版本是1.5.0,發布時間是2015年9月9日。
tar -xvzf ~/spark-1.5.0-bin-hadoop2.4.tgz
運行Python Shell
cd spark-1.5.0-bin-hadoop2.4
./bin/pyspark
在本節中不會使用Python Shell進行演示。
Scala互動式命令行由於運行在JVM上,能夠使用java庫。
運行Scala Shell
cd spark-1.5.0-bin-hadoop2.4
./bin/spark-shell
執行完上述命令行,你可以看到下列輸出:
Scala Shell歡迎信息
Welcome to
____ __
/ __/__ ___ _____/ /__
_\ \/ _ \/ _ `/ __/ '_/
/___/ .__/\_,_/_/ /_/\_\ version 1.5.0
/_/
Using Scala version 2.10.4 (Java HotSpot(TM) 64-Bit Server VM, Java 1.8.0_25)
Type in expressions to have them evaluated.
Type :help for more information.
15/08/24 21:58:29 INFO SparkContext: Running Spark version 1.5.0
下面是一些簡單的練習以便幫助使用shell。也許你現在不能理解我們做的是什麼,但在後面我們會對此進行詳細分析。在Scala Shell中,執行下列操作:
在Spark中使用README 文件創建textFileRDD
val textFile = sc.textFile("README.md")
獲取textFile RDD的第一個元素
textFile.first()
res3: String = # Apache Spark
對textFile RDD中的數據進行過濾操作,返回所有包含「Spark」關鍵字的行,操作完成後會返回一個新的RDD,操作完成後可以對返回的RDD的行進行計數
篩選出包括Spark關鍵字的RDD然後進行行計數
val linesWithSpark = textFile.filter(line => line.contains("Spark"))
linesWithSpark.count()
res10: Long = 19
要找出RDD linesWithSpark單詞出現最多的行,可以使用下列操作。使用map方法,將RDD中的各行映射成一個數,然後再使用rece方法找出包含單詞數最多的行。
找出RDD textFile 中包含單詞數最多的行
textFile.map(line => line.split(" ").size)
.rece((a, b) => if (a > b) a else b)
res11: Int = 14
返回結果表明第14行單詞數最多。
也可以引入其它java包,例如 Math.max()方法,因為map和rece方法接受scala函數字面量作為參數。
在scala shell中引入Java方法
import java.lang.Math
textFile.map(line => line.split(" ").size)
.rece((a, b) => Math.max(a, b))
res12: Int = 14
我們可以很容易地將數據緩存到內存當中。
將RDD linesWithSpark 緩存,然後進行行計數
linesWithSpark.cache()
res13: linesWithSpark.type =
MapPartitionsRDD[8] at filter at <console>:23
linesWithSpark.count()
res15: Long = 19
上面簡要地給大家演示的了如何使用Spark互動式命令行。
彈性分布式數據集(RDDs)
Spark在集群中可以並行地執行任務,並行度由Spark中的主要組件之一——RDD決定。彈性分布式數據集(Resilient distributed data, RDD)是一種數據表示方式,RDD中的數據被分區存儲在集群中(碎片化的數據存儲方式),正是由於數據的分區存儲使得任務可以並行執行。分區數量越多,並行越高。下圖給出了RDD的表示:
Display- Edit
想像每列均為一個分區(partition ),你可以非常方便地將分區數據分配給集群中的各個節點。
為創建RDD,可以從外部存儲中讀取數據,例如從Cassandra、Amazon簡單存儲服務(Amazon Simple Storage Service)、HDFS或其它Hadoop支持的輸入數據格式中讀取。也可以通過讀取文件、數組或JSON格式的數據來創建RDD。另一方面,如果對於應用來說,數據是本地化的,此時你僅需要使用parallelize方法便可以將Spark的特性作用於相應數據,並通過Apache Spark集群對數據進行並行化分析。為驗證這一點,我們使用Scala Spark Shell進行演示: