阿里大數據競賽經驗
㈠ 阿里巴巴天池大數據競賽是一天提交一次嗎
.高瞻遠矚:站得高,看得遠,不要就事論事。有時看上去好像沒有什麼,但認真分析一下還是能夠發現問題。
㈡ 作為一個應屆生程序員,我是怎麼通過阿里的三輪面試的
首先,自我介紹。
我:「我做過兩個項目。寫過幾篇論文和專利。還參加過阿里巴巴大數據競賽。同時,出於個人興趣,我還閱讀了一下HDFS的少部分源碼,理解了一下HDFS的核心思想,實現了一個功能非常簡單,並且還不完善的HDFS。」
面試官1:「說一說你寫的論文中的某一篇的創新點?」
我:「我寫的文章或者專利,主要遵循一個原則:將已有的理論或者模型應用到新的場景中。所以,都是偏向應用的。重點說說這篇論文吧。首先,從奇異值分解說起吧……」
大概講了幾分鍾後,面試官1打斷我:「你做的這些東西都偏向數據挖掘方向,為什麼沒有投數據挖掘呢?」
我:「因為,按照我的理解,數據挖掘這個崗位需要對機器學習演算法有深入研究,然而,我做的偏向於對數據挖掘演算法的應用。所以,我想投研發,偏向數據挖掘和分布式方向,從基礎做起。」
面試官1:「其實,你的優勢是做過數據挖掘。這樣吧,我先找一個數據研發的面試官對你進行一下面試。等會兒,你再來我這。」
雖然自己也系統地學習過機器學習演算法,但是接觸時間太短(幾個月),研究不夠深入,只在比賽中用過少數幾種演算法:LR、RF和GBRT。自己的優勢在於對數據的理解和特徵的提取,以及演算法的應用。
而演算法推導過程並不清楚,只是理解了其思想。我怕被問得太細致,所以不是很情願。不過,在面試官1的堅持下,最終還是同意了。
看到第二個面試官的牌子上寫著「數據研發」,我稍微舒了口氣;幸好不是「數據挖掘」。
今年,「數據研發」崗位招人挺多的,很多都是去小微金服。面試完之後,我覺得「數據研發」的崗位要求是這樣子的:
熟練掌握基本的SQL語句;因為有一道筆試題目。我覺得阿里應該用自己的ODPS-SQL(類似於Hive)進行數據研發,雖然這個平台挺復雜的,但是面試的時候的要求並不高。只要掌握基本的內建函數和SQL語句就行了:select, group by…
我在比賽過程中,寫過幾萬行SQL代碼(去重之後幾千行),沒有用到過索引和視圖;經常用到內建函數,偶爾使用UDF(用戶自定義函數)。但是,寫的代碼不包含索引、視圖和UDF。也沒有考優化(其實我也不懂)。
有數據研發方面的相關經歷,面試官似乎很注重這一項。我參加過阿里巴巴大數據競賽。
對數據研發有一些自己的看法。這個很關鍵,一定要思路清晰。我主要在講比賽中的模型:數據的預處理->訓練集、預測集->特徵提取->進一步處理->正負樣本比例->訓練->預測。
當然會用寫MapRece的話就過更好了。阿里的平台提供了MapRece,估計工作中會用到。
然後,跟第二個技術面試官開始交流。
面試官2:「自我介紹一下吧。」
我:「剛才介紹過其他經歷了。那我主要介紹下與數據研發相關的經歷吧。」然後,簡單說了下自己參加的阿里巴巴大數據競賽。
面試官2:「行。先做一道題目吧。」
面試官給了我一道SQL的題目:給定一個表,共四列:user_id, brand_id, time, cnt(花的錢數)。從這個表裡面選出用戶B對每個品牌brand購買的總額度。
一看到,有點竊喜,這跟我競賽做的東西太相似了。
跟面試官進行簡單溝通後,很快寫出來了。不過還是怕做錯,檢查了很久才拿給面試官2。順便提了一下,如果需要處理字元串的話,我會用ODPS-SQL裡面的UDF。面試官看了下程序,沒說什麼,就放到了一邊。
後面,我們主要在討論阿里巴巴大數據競賽:我做了什麼,用什麼模型、演算法做的,准確率是多少。(這塊討論時間最多)
還好,我主要討論的是對業務和數據的理解,沒有深入討論數據挖掘演算法。
討論很順利。結束之後,面試官2把我帶回面試官1。
回來後,繼續與面試官1主要討論我寫的論文。由於之前對自己寫的論文進行過總結,思路很清晰。並談論了寫論文的體會和收獲。
總之,第一面的面試官很和藹,交談也很開心。
再次稍微提一下:個人覺得面試官主要有兩類,一類是用技術把你問死,從而判斷你對技術的掌握深度。
另一類是,簡單的技術問題之後,讓你去表現,引導你來講,從而看你這個人的思想、表達能力、個人觀點等綜合素質。
當然,一個面試官如果看到你不善於表達,就只能一直問你問題了。很榮幸,我碰到的是第二種面試官。面試跟聊天一樣輕松。
最終,順利通過。
應該是這個樣子的吧 哈哈【ITjob]
㈢ 阿里大數據學院的詳細情況,有了解的嗎
阿里大數據學院由阿里雲、慧科集團和高校三方聯手共建,是近兩年產教融合專、校企合作的新嘗屬試。學院採用「產學合作協同育人」人才培養模式,校企共同辦學,共建大數據、雲計算、雲安全等專業(不只是你說的大數據專業哦)、 實訓基地、 雙師團隊、 大數據教學資源庫,以項目實戰和課(程)證(書)融合的教學模式培養大數據技術應用型創新型人才,為當地大數據、雲計算等前沿信息產業高速發展提供人才支撐。
除了你提到的成都信息工程大學外,還有貴州理工學院、北京城市學院、福州職業技術學院與阿里雲、慧科合作成立了阿里大數據學院,培養符合市場需求緊缺的技術人才。
㈣ 如何看待阿里雲大數據專業認證,值得報名嗎
物聯網的正常運行和發展離不開大數據研究大數據絕對離不開計算機的雲計算技術計算機雲技術時代的到來將大數據處理變為了現實沒有計算機的雲計算技術,就不會有大數據的被分析和利用。大數據技術跟計算機雲計算技術的關系就像是一隻手的手心和手背,是絕對的密不可分,因為分析和處理大數據是無法用某一台計算機來完成的,它必須需要採用計算機的分布式架構,處理大數據的特色就是在於對那些海量性的數據進行分布式的數據挖掘,但這種分布式的大數據挖掘,還必須依託計算機的分布式處理,因為計算機的分布式資料庫或是雲存儲以及計算機中的虛擬化技術,可以支撐起對大數據相關技術處理的能力。大數據的分析必須要跟計算機的雲計算技術緊密連在一起,只有這樣,才能將大數據的價值變成資產性的價值,並將大數據處理真正變成一種現實。
㈤ 有誰知道百度和阿里與大數據相關部門的架構
阿里巴巴在08年就把大數據作為一項公司基本戰略,要知道那個時候甚至還沒幾個人開始談論「大數據」,可以說在大數據方面相比於國內其他互聯網公司,阿里是走在前面的。
按馬雲的話講,我們正從information technology轉向data technology。數據是靈魂。也許並不能保證大數據能給阿里巴巴賺很多錢,但是阿里認為數據對人類有用,所以他們做了。
舉一個阿里CTO認為大數據應用和價值的例子:淘寶小貸團隊,很小的隊伍,完全依賴數據對客戶的信用程度作分析,將數據轉化為信用,將信用轉化為財富,這是傳統商業銀行冗雜的審核程序,低效和高成本所不能比的。更重要的是,這個項目給近百萬的小商戶提供了生命線,哪怕只貸一元錢。沒有哪個銀行會這么做。
我認為阿里巴巴已經是國內互聯網大數據的先驅,他們在做有意義的事情。
㈥ 阿里巴巴在大數據建設上有哪些舉措
大數據是最近比較火的詞,從政府層面到個人,幾乎都在談論大數據。政府現在是大力的在發展大數據。像國內的大型互聯網公司都搭建了大數據平台。像京東慧眼、阿里的菜鳥物流,這些都是使用大數據的案例。而且馬雲今年在致股東公開信中也提到,全球化、農村經濟和大數據雲計算將成為阿里未來十年的發展大方向,數據就是未來的新石油。
㈦ 阿里巴巴運用大數據包括哪些
大數據計算服務(MaxCompute,原ODPS)
Data IDE(原BASE)
數據集成(原CDP雲道)
大數據基礎服務包括 Maxcompute 分析型資料庫等
大數據分析於展現包括 Date V Quick BI 畫像分析等
大數據應用 包括 推薦引擎 企業圖譜
㈧ 阿里天池大數據競賽可以用c++嗎
千里黃雲白日曛,北風吹雁雪紛紛.
㈨ 如何成為一名大數據工程師
大數據是眼下非常時髦的技術名詞,與此同時自然也催生出了一些與大數據處理相關的職業,通過對數據的挖掘分析來影響企業的商業決策。
這群人在國外被叫做數據科學家(Data Scientist),這個頭銜最早由D.J.Pati和Jeff Hammerbacher於2008年提出,他們後來分別成為了領英(LinkedIn)和Facebook數據科學團隊的負責人。而數據科學家這個職位目前也已經在美國傳統的電信、零售、金融、製造、物流、醫療、教育等行業里開始創造價值。
不過在國內,大數據的應用才剛剛萌芽,人才市場還不那麼成熟,「你很難期望有一個全才來完成整個鏈條上的所有環節。更多公司會根據自己已有的資源和短板,招聘能和現有團隊互補的人才。」領英(LinkedIn)中國商務分析及戰略總監王昱堯對《第一財經周刊》說。
數據工程師是做什麼的?於是每家公司對大數據工作的要求不盡相同:有的強調資料庫編程、有的突出應用數學和統計學知識、有的則要求有咨詢公司或投行相關的經驗、有些是希望能找到懂得產品和市場的應用型人才。正因為如此,很多公司會針對自己的業務類型和團隊分工,給這群與大數據打交道的人一些新的頭銜和定義:數據挖掘工程師、大數據專家、數據研究員、用戶分析專家等都是經常在國內公司里出現的Title,我們將其統稱為「大數據工程師」。
由於國內的大數據工作還處在一個有待開發的階段,因此能從其中挖掘出多少價值完全取決於工程師的個人能力。已經身處這個行業的專家給出了一些人才需求的大體框架,包括要有計算機編碼能力、數學及統計學相關背景,當然如果能對一些特定領域或行業有比較深入的了解,對於其快速判斷並抓准關鍵因素則更有幫助。
雖然對於一些大公司來說,擁有碩博學歷的公司人是比較好的選擇,不過阿里巴巴集團研究員薛貴榮強調,學歷並不是最主要的因素,能有大規模處理數據的經驗並且有喜歡在數據海洋中尋寶的好奇心會更適合這個工作。
除此之外,一個優秀的大數據工程師要具備一定的邏輯分析能力,並能迅速定位某個商業問題的關鍵屬性和決定因素。「他得知道什麼是相關的,哪個是重要的,使用什麼樣的數據是最有價值的,如何快速找到每個業務最核心的需求。」聯合國網路大數據聯合實驗室數據科學家沈志勇說。學習能力能幫助大數據工程師快速適應不同的項目,並在短時間內成為這個領域的數據專家;溝通能力則能讓他們的工作開展地更順利,因為大數據工程師的工作主要分為兩種方式:由市場部驅動和由數據分析部門驅動,前者需要常常向產品經理了解開發需求,後者則需要找運營部了解數據模型實際轉化的情況。
你可以將以上這些要求看做是成為大數據工程師的努力方向,因為根據萬寶瑞華管理合夥人顏莉萍(Nicole Yan)的觀察,這是一個很大的人才缺口。目前國內的大數據應用多集中在互聯網領域,有超過56%的企業在籌備發展大數據研究,「未來5年,94%的公司都會需要數據科學家。」顏莉萍(Nicole Yan)說。因此她也建議一些原本從事與數據工作相關的公司人可以考慮轉型。
用阿里巴巴集團研究員薛貴榮的話來說,大數據工程師就是一群「玩數據」的人,玩出數據的商業價值,讓數據變成生產力。大數據和傳統數據的最大區別在於,它是在線的、實時的,規模海量且形式不規整,無章法可循,因此「會玩」這些數據的人就很重要。
沈志勇認為如果把大數據想像成一座不停累積的礦山,那麼大數據工程師的工作就是,「第一步,定位並抽取信息所在的數據集,相當於探礦和采礦。第二步,把它變成直接可以做判斷的信息,相當於冶煉。最後是應用,把數據可視化等。」
因此分析歷史、預測未來、優化選擇,這是大數據工程師在「玩數據」時最重要的三大任務。通過這三個工作方向,他們幫助企業做出更好的商業決策。
1.找出過去事件的特徵
大數據工程師一個很重要的工作,就是通過分析數據來找出過去事件的特徵。比如,騰訊的數據團隊正在搭建一個數據倉庫,把公司所有網路平台上數量龐大、不規整的數據信息進行梳理,總結出可供查詢的特徵,來支持公司各類業務對數據的需求,包括廣告投放、游戲開發、社交網路等。
找出過去事件的特徵,最大的作用是可以幫助企業更好地認識消費者。通過分析用戶以往的行為軌跡,就能夠了解這個人,並預測他的行為。「你可以知道他是什麼樣的人、他的年紀、興趣愛好,是不是互聯網付費用戶、喜歡玩什麼類型的游戲,平常喜歡在網上做什麼事情。」騰訊雲計算有限公司北京研發中心總經理鄭立峰對《第一財經周刊》說。下一步到了業務層面,就可以針對各類人群推薦相關服務,比如手游,或是基於不同特徵和需求衍生出新的業務模式,比如微信的電影票業務。
2.預測未來可能發生的事情
通過引入關鍵因素,大數據工程師可以預測未來的消費趨勢。在阿里媽媽的營銷平台上,工程師正試圖通過引入氣象數據來幫助淘寶賣家做生意。「比如今年夏天不熱,很可能某些產品就沒有去年暢銷,除了空調、電扇,背心、游泳衣等都可能會受其影響。那麼我們就會建立氣象數據和銷售數據之間的關系,找到與之相關的品類,提前警示賣家周轉庫存。」薛貴榮說。
在網路,沈志勇支持「網路預測」部分產品的模型研發,試圖用大數據為更廣泛的人群服務。已經上線的包括世界盃預測、高考預測、景點預測等。以網路景點預測為例,大數據工程師需要收集所有可能影響一段時間內景點人流量的關鍵因素進行預測,並為全國各個景點未來的擁擠度分級—在接下來的若干天時間里,它究竟是暢通、擁擠,還是一般擁擠?
3.找出最優化的結果
根據不同企業的業務性質,大數據工程師可以通過數據分析來達到不同的目的。
以騰訊來說,鄭立峰認為能反映大數據工程師工作的最簡單直接的例子就是選項測試(AB Test),即幫助產品經理在A、B兩個備選方案中做出選擇。在過去,決策者只能依據經驗進行判斷,但如今大數據工程師可以通過大范圍地實時測試—比如,在社交網路產品的例子中,讓一半用戶看到A界面,另一半使用B界面,觀察統計一段時間內的點擊率和轉化率,以此幫助市場部做出最終選擇。
作為電商的阿里巴巴,則希望通過大數據鎖定精準的人群,幫助賣家做更好的營銷。「我們更期待的是你能找到這樣一批人,比起現有的用戶,這些人對產品更感興趣。」薛貴榮說。一個淘寶的實例是,某人參賣家原來推廣的目標人群是產婦,但工程師通過挖掘數據之間的關聯性後發現,針對孕婦群體投放的營銷轉化率更高。
需要具備的能力
1.數學及統計學相關的背景
就我們采訪過的BAT三家互聯網大公司來說,對於大數據工程師的要求都是希望是統計學和數學背景的碩士或博士學歷。沈志勇認為,缺乏理論背景的數據工作者,更容易進入一個技能上的危險區域(Danger Zone)—一堆數字,按照不同的數據模型和演算法總能捯飭出一些結果來,但如果你不知道那代表什麼,就並不是真正有意義的結果,並且那樣的結果還容易誤導你。「只有具備一定的理論知識,才能理解模型、復用模型甚至創新模型,來解決實際問題。」沈志勇說。
2.計算機編碼能力
實際開發能力和大規模的數據處理能力是作為大數據工程師的一些必備要素。「因為許多數據的價值來自於挖掘的過程,你必須親自動手才能發現金子的價值。」鄭立峰說。
舉例來說,現在人們在社交網路上所產生的許多記錄都是非結構化的數據,如何從這些毫無頭緒的文字、語音、圖像甚至視頻中攫取有意義的信息就需要大數據工程師親自挖掘。即使在某些團隊中,大數據工程師的職責以商業分析為主,但也要熟悉計算機處理大數據的方式。
3.對特定應用領域或行業的知識
在顏莉萍(Nicole Yan)看來,大數據工程師這個角色很重要的一點是,不能脫離市場,因為大數據只有和特定領域的應用結合起來才能產生價值。所以,在某個或多個垂直行業的經歷能為應聘者積累對行業的認知,對於之後成為大數據工程師有很大幫助,因此這也是應聘這個崗位時較有說服力的加分項。
「他不能只是懂得數據,還要有商業頭腦,不論對零售、醫葯、游戲還是旅遊等行業,能就其中某些領域有一定的理解,最好還是與公司的業務方向一致的,」就此薛貴榮還打了個比方,「過去我們說一些奢侈品店員勢利,看人一眼就知道買得起買不起,但這群人恰恰是有敏銳度的,我們認為他們是這個行業的專家。又比如對醫療行業了解的人,他在考慮醫療保險業務時,不僅會和人們醫院看病的記錄相關,也會考慮飲食數據,這些都是基於對該領域的了解。」
職業發展1.如何成為大數據工程師
由於目前大數據人才匱乏,對於公司來說,很難招聘到合適的人才—既要有高學歷,同時最好還有大規模數據處理經驗。因此很多企業會通過內部挖掘。
2014年8月,阿里巴巴舉辦了一個大數據競賽,把天貓平台上的數據拿出來,去除敏感問題後,放到雲計算平台上交予7000多支隊伍進行比賽,比賽分為內部賽和外部賽。「通過這個方式來激勵內部員工,同時也發現外部人才,讓各行業的大數據工程師涌現出來。」
顏莉萍(Nicole Yan)建議,目前長期從事資料庫管理、挖掘、編程工作的人,包括傳統的量化分析師、Hadoop方面的工程師,以及任何在工作中需要通過數據來進行判斷決策的管理者,比如某些領域的運營經理等,都可以嘗試該職位,而各個領域的達人只要學會運用數據,也可以成為大數據工程師。
2.薪酬待遇
作為IT類職業中的「大熊貓」,大數據工程師的收入待遇可以說達到了同類的頂級。根據顏莉萍(Nicole Yan)的觀察,國內IT、通訊、行業招聘中,有10%都是和大數據相關的,且比例還在上升。顏莉萍(Nicole Yan)表示,「大數據時代的到來很突然,在國內發展勢頭激進,而人才卻非常有限,現在完全是供不應求的狀況。」在美國,大數據工程師平均每年薪酬高達17.5萬美元,而據了解,在國內頂尖互聯網類公司,同一個級別大數據工程師的薪酬可能要比其他職位高20%至30%,且頗受企業重視。
3.職業發展路徑
由於大數據人才數量較少,因此大多數公司的數據部門一般都是扁平化的層級模式,大致分為數據分析師、資深研究員、部門總監3個級別。大公司可能按照應用領域的維度來劃分不同團隊,而在小公司則需要身兼數職。有些特別強調大數據戰略的互聯網公司則會另設最高職位—如阿里巴巴的首席數據官。「這個職位的大部分人會往研究方向發展,成為重要數據戰略人才。」顏莉萍(Nicole Yan)說。另一方面,大數據工程師對商業和產品的理解,並不亞於業務部門員工,因此也可轉向產品部或市場部,乃至上升為公司的高級管理層。
㈩ 阿里巴巴的天池大數據競賽和datacastle大數據競賽哪個好
直觀的肯定是抄kaggle是一個已經襲成熟的數據競賽,而DC才在國內剛剛興起。但從一定角度來說,如果和國外的相比,DC也具有一定的條件了,那肯定是在DC上去做競賽好,畢竟首要的語言方面的問題就能夠克服。而且對於初次參加此類競賽,或者想練手的同學來說,DC可以是你開始做數據分析的第一步。
-