A. 大數據分析是什麼優缺點是什麼大數據的優缺點

數據分析是指用適當的統計分析方法對收集來的大量數據進行分析,將它們加以匯總和理解並消化,以求最大化地開發數據的功能,發揮數據的作用。數據分析是為了提取有用信息和形成結論而對數據加以詳細研究和概括總結的過程。
大數據分析的優點:能夠准備得出可靠信息,有助於企業發展,已經找到自己的方向;
缺點:信息透明化,大數據比你更了解你自己。
大數據優點:
(1)及時解析故障、問題和缺陷的根源,每年可能為企業節省數十億美元。
(2)為成千上萬的快遞車輛規劃實時交通路線,躲避擁堵。

(3)分析所有SKU,以利潤最大化為目標來定價和清理庫存。

(4)根據客戶的購買習慣,為其推送他可能感興趣的優惠信息。
(5)從大量客戶中快速識別出金牌客戶。
(6)使用點擊流分析和數據挖掘來規避欺詐行為。
大數據的缺陷:
當前,大部分中國企業在數據基礎系統架構和數據分析方面都面臨著諸多挑戰。根據產業信息網調查,目前國內大部分企業的系統架構在應對大量數據時均有擴展性差、資源利用率低、應用部署復雜、運營成本高和高能耗等缺陷。

B. 如何理解傳統數據與大數據之間的區別

針對大數據帶給教育的機遇與挑戰,與讀者深入探討和分享大數據與傳統數據的區別,及其行業落地的進展情況。

二、大數據時代潛藏的教育危機

「不得不承認,對於學生,我們知道得太少」——這是卡耐基·梅隆大學(Carnegie Mellon University)教育學院研究介紹中的一句自白,也同樣是美國十大教育類年會中出鏡率最高的核心議題。這種對於學生認識的匱乏,在21世紀之前長達數百甚至上千年的教育史中並沒有產生什麼消極的效應,但卻在信息技術革命後的近十年來成為教育發展的致命痼疾。

「過去,對於學生來說,到學校上學學習知識具有無可辯駁的重要性,而那是因為當時人們能夠接觸知識的渠道太少,離開學校就無法獲取成體系的知識」斯坦福大學教授Arnetha Ball在AERA(美國教育研究會)大會主旨發言中說道,「但是,互聯網的普及將學校的地位從神壇上拉了下來。」Ball的擔心不無道理。根據Kids Count Census Data Online發布的數據,2012年全美在家上學(Home-Schooling)的5-17歲學生已達到197萬人,相對逐年價下降的出生人口,這一人口比重十分可觀。

與此同時,應運而生的則是內容越來越精緻的網上課堂,而創立於2009年並迅速風靡全球的可汗學院(Khan Academy)正是其中的傑出代表。從知名學府的公開課到可汗學院,這種網路學習模式受到熱捧恰恰證明了:人們對於學習的熱情並沒有過去,但是人們已經極端希望與傳統的學院式授課模式告別。一成不變,甚至「目中無人」的傳統集體教學模式在適應越來越多元化、也越來越追求個性化的學生群體時顯得捉襟見肘。

可汗學院模式不但支持學生自主選擇感興趣的內容,還可以快速跳轉到自己適合的難度,從而提高了學習的效率。學習者沒有學習的壓力,時長、時機、場合、回顧遍數都可以由自己控制。

可以想像,如果可汗學院的模式進一步發展,與計算機自適應(CAT)的評估系統相聯系,讓使用者可以通過自我評估實現對學習進度的掌握以及學習資料的精準獲取,那麼它將形成互聯網產品的「閉環」,其優勢與力量將是顛覆性的。

而如果傳統教育的課程模式不革新,課堂形態不脫胎換骨,教師角色與意識不蛻變,那麼學校的存在就只有對現代化學習資源匱乏的學生才有意義;而對於能夠自主獲得更適宜學習資源的學生來說,去學校可能只是為了完成一項社會角色賦予的義務,甚至談不上必要性,也就更談不上愉快的體驗或興趣的驅使了。

大數據的研究可以幫助教育研究者重新審視學生的需求,通過高新的技術以及細致的分析找到怎樣的課程、課堂、教師是能夠吸引學生的。但問題在於,社會發展給予教育研究者的時間窗口並不寬裕,因為有太多人同樣在試圖通過大數據挖掘設法瓜分學生們有限的精力與注意力。而且從某種程度上,他們做得遠比教育研究者更有動力與誠意。

首當其沖的是游戲的設計者——青少年是其主要消費群體。撇開馳名世界的暴雪公司(Blizzard Entertainment),美國藝電公司(Electronic Arts Inc.),日本任天堂公司(Nintendo)等國際巨鱷不談;即使是國內的盛大網路,第九城市,巨人科技,淘米網路等游戲公司,亦都早已組建了專業實力強勁的「用戶體驗」研究團隊。他們會通過眼動跟蹤,心律跟蹤,血壓跟蹤,鍵盤與滑鼠微操作速率等各種微觀行為來研究如何讓玩家在游戲中投入更多的時間,更加願意花真實世界的錢來購買虛擬世界的物品。什麼時候應該安排敵人出現,敵人應當是什麼級別,主人公需要耗費多少精力才能夠將其擊敗,這些變數都得到了嚴格的設計與控制,原因只有一個——大數據告訴游戲創作者,這樣的設計是最能夠吸引玩家持續游戲的。

其次是電影視頻、青春小說等鏈式文化產業。為什麼在網站上看視頻會一個接一個,無法停止,因為它會根據該賬號的歷史瀏覽記錄推算出其喜歡看什麼樣的視頻,喜歡聽什麼類型風格的歌,並投其所好;而暢銷網路小說看似並沒有「營養」,但裡面的遣詞造句、語段字數,故事起伏設定,甚至主人公性格的類型都是有相關研究進行支持——讀者往往並不喜歡結構嚴密、精心設計的劇情——這就是為什麼情節千篇一律的韓劇受人追捧的原因,他們通過收視率的反復研究,挖掘到了觀眾最需要的那些元素,並且屢試不爽。

此外還有許多更強大的研究者,比如電子商務,總能通過數據找到你可能願意購買的商品——他們甚至知道買尿片的父親更願意買啤酒。

這些領域看似與我們教育者並無特別關聯,但是他們與我們最關心的對象——學生卻有著千絲萬縷的聯系。數百年甚至數十年前,學生並不會面對如此多的誘惑,學校在其生活中占據極大比重,對其影響也最為顯著,因此教育者對於學生的控制總是有著充分的自信。但是,當不同的社會機構與產品開始爭奪學生的注意力時,教育者的自信就只能被認為是一種無法認清形勢的傲慢了——因為在這場「學生爭奪戰」中,傳統學校看上去實在缺乏競爭力。

即使教育研究者願意放下身段,通過大數據的幫助來悉心研究學生的需求與個性。但是人才的匱乏也是非常不利的一點因素——相比於商業環境下對研究實效的追逐,教育研究的緩慢與空洞顯得相形見絀。在互聯網企業紛紛拋出「首席數據官」的頭銜,向各種數據科學狂人拋出橄欖枝,並且在風險投資的鼓舞下,動輒以百萬年薪進行延聘時,大數據研究的前沿陣地必然仍是在互聯網行業中最轟轟烈烈地開戰。

分析形勢後的姿態,以及投入的力度與強度,或許是教育領域在進入大數據研究時最先需要充分考慮的兩個先決條件。

三、誰在為大數據歡呼:一場關於「人性」研究的啟蒙

孜孜不倦地觀測、記錄、挖掘海量的數據,有朝一日終會推導出或簡約或繁復的方程,以此得以在自然科學的歷史豐碑上留名——數百年來,這種對數據的崇拜早已成為了物理學家、化學家、生物學家、天文地理學家們的信念。而牛頓,貝葉斯,薛定諤等一代代巨匠的偉業也揭示了數據對於科學發現的無限重要價值。

相形之下,社會科學領域的研究就要慘淡地多——他們同樣看重數據,同樣追求統計與分析的「程序正義」,同樣勤勤懇懇地設計實驗與調研,去尋找成千上萬的被試,同樣像模像樣地去嵌套方程……但是幾乎很少有研究結果能夠得到普遍的承認,不管是社會學、心理學、經濟學、管理學還是教育學。

當然,社會科學領域的研究者們遇到的困難是顯而易見的:「人性」與「物性」是不同的,物質世界比較穩定,容易尋找規律;而由人組成的社會極其善變,難以總結。從數據的角度來說,人的數據不如物的數據那麼可靠:

首先是人不會像物那樣忠實地進行回應:誰知道一個人填寫的問卷有多少是注意力不集中填錯的、語文水平不高理解錯的、還是壓根沒打算講真話?此外,人與人本身的差距也大於物與物的差距:兩個化學組成相同的物質表現出各種性質幾乎是完全一樣的,但即使是兩個基因完全相同的雙胞胎也會因為不同的人生經驗,而表現出大相徑庭的行為特徵。

但這些都還並不關鍵,最最重要的是:人無法被反復研究。人不是牛頓的木塊,不是伽利略的鉛球,不是巴普洛夫的狼狗,人不會配合一次次從斜坡上被滑下來,一次次從比薩塔頂被扔下來,一次次流著口水乾等著送肉來的鈴聲。而我們知道,在「科學」的三個標准中,首當其沖的就是「可重復驗證」。

換句話說,我們可以獲得的關於「人性」的數據不夠大,不夠多,不夠隨時隨地,因此我們無法從數據中窺見人性。2002年諾貝爾經濟學獎授予心理學家丹尼爾?卡尼曼(Daniel Kahneman)時,似乎標示著社會科學領域已經接受了這樣一種事實:人類的行為是無法尋找規律、無法預測、難以進行科學度量的。社會科學開始懷疑用純粹理性的方法是否可以解答關於「人性」的種種現象。與此相映成趣的是2012年的美國大選,奧巴馬的團隊依靠對網路數據的精準篩選捕捉到了大量的「草根」選民,而對於其喜好與需求的分析與把握更是贏得其信任,從而在不被傳統民調與歷史數據規律看好的情況下一舉勝出。這跨越十年的兩個標志性事件讓人們對於「數據揭示人性」可能性的認識經歷了戲劇性的轉變。

如今,迅速普及的互聯網與移動互聯網悄然為記錄人的行為數據提供了最為便利、持久的載體。手機,iPad等貼近人的終端無時不刻不在記錄關於人的點點滴滴思考、決策與行為。最最重要的是,在這些強大的數據收集終端面前,人們沒有掩飾的意圖,人們完整地呈現著自己的各種經歷,人們不厭其煩一遍又一遍重復著他們不願在實驗情境下表現出來的行為,從而創造著海量的數據——傳統數據研究無法做到的事,傳統研究範式苦苦糾結的許多難點,都在大數據到來的那一剎那遁於無形。

大數據的到來,讓所有社會科學領域能夠藉由前沿技術的發展從宏觀群體走向微觀個體,讓跟蹤每一個人的數據成為了可能,從而讓研究「人性」成為了可能。而對於教育研究者來說,我們比任何時候都更接近發現真正的學生。

C. 未來的學校應該是什麼樣子的

我的想像彷彿乘坐著宇宙飛船,一下子飛到了我們的未來學校.這時我沉浸在美好的幻象之中……
校門口,有兩個高智能機器人,站在門口每天歡迎我們來到學校.我們還可以和機器人交談,我們提各種各樣怪怪的問題都難不倒它們.一進校園有一排醒目的電子熒光屏黑板報,只要按電鈕,它就根據你的要求顯示出豐富多採的畫面.
校園的中心是一個大型的運動場,它的上空有一個由活生生的植物編織而成的頂,下雨時,它可以為我們遮雨,天晴時,一按紅色按鈕它就自動打開,變成了一個大型花環,圍繞著運動場,美麗極了.運動場分兩層,第一層有綠色的環行跑道,中間是一個栽滿絨絨綠草的足球場.同學們可以在上面踢足球、做游戲.第二層有電子籃球場、高科技游泳池、電子乒乓球場、電子羽毛球場等體育設施,這些都是用電子計算機和tx射線控制的.運動場的周圍是同學們用基因工程培養出來的新型植物組成的大花園,一棵樹上可以開迎春花、桃花、李花,還可以結桃子、李子供同學品嘗.
運動場的正前方是用植物編成的現代化教學大樓.房子裡面冬暖下涼,因為這些植物可以自然的調節裡面的氣溫.教室裡面的黑板是用電腦熒屏製成的,我們的老師只要按滑鼠就可以輕松的進行教學了.我們的桌椅是可以按身高進行調控的,假如你寫字姿勢不正確,它就會悄悄地發出信號,要你及時糾正.我們的書本是用寬寬的海帶做成的,墨水是五彩繽紛的牛奶做的,筆是用可以吃的食物做成的,用完以後可以吃,在也不產身生那些污染環境的垃圾.
運動場的左側是一棟科技樓.第一層是電子圖書館,裡面只有電腦,我們只要按滑鼠就可以查到你所需要的信息.第二層有現代化的音樂室、美術室等特長室.第三層是生物科技館,裡面有用基因、克隆的新品種動物.第四層是時光隧道,上歷史課,我們就乘坐著時光隧道車去古時侯考查察.
未來的學校是多麼令人神往啊!這一切還是靠我們今天腳踏實地認真學習,長大後去發明、去創造、去實現這美好的夢想.

D. 世界互聯網大會2016召開時間表

第三屆世界互聯網大會11月16日到18日在浙江烏鎮舉行。本屆大會將以「創新驅動造福人類——攜手共建網路空間命運共同體」為主題,在全球范圍內邀請1200位來自政府、國際組織、企業、技術社群和民間團體的互聯網領軍人物,圍繞互聯網經濟、互聯網創新、互聯網文化、互聯網治理和互聯網國際合作五個方面進行探討交流。

時間表如下:
2015年12月15日全天:嘉賓注冊
10:00-10:20:「互聯網之光」博覽會開幕式 開館時間:17日08:30-17:00、18日08:30-16:00
2015年12月16日

10:30-11:30:大會開幕式
13:30-16:00:「互聯網+」論壇 「互聯網金融創新與發展」議題
13:30-16:00:「數字絲路?合作共贏」論壇 「信息基礎設施共建」議題
14:00-17:00:「網路安全」論壇
14:00-18:00:「協同 開放 共享 共贏——海峽兩岸暨香港、澳門互聯網發展」論壇
16:00-18:00:「互聯網文化與傳播」論壇 「中美大學生共話互聯網夢想」議題
16:00-18:30:「數字絲路 合作共贏」論壇 「資源整合模式創新」議題
19:30-21:00:「烏鎮之夜」歡迎晚宴
21:00-23:30:「互聯網文化與傳播」論壇 「《對話》:網聚正能量 傳播善動力」議題
2015年12月17日

08:30-11:30:「數字中國」論壇 「行觀天下 智慧城市」議題
08:30-12:00:「互聯網文化與傳播」論壇 「互聯網時代的文化傳承與創新」議題
09:00-11:30:「互聯網創新」論壇 「互聯網創新與可持續發展」議題
09:00-11:30:網路安全高層閉門圓桌會議
09:00-12:00:「互聯網創新」論壇 「互聯網創新與經濟發展」議題
13:00-15:30:「互聯網+」論壇 「智能製造轉型與升級」議題
14:00-17:00:「互聯網創新」論壇 「互聯網創新與知識產權保護」議題
14:00-17:30:「互聯網創新」論壇 「互聯網創新與初創企業成長」議題
14:00-18:30:「數字中國」論壇 「烏鎮論道 數字中國」議題
14:30-16:00:「互聯網文化與傳播」論壇 「中國文化網路傳播」議題
15:30-19:00:「互聯網文化與傳播」論壇 「《對話》:互聯網名人的哲學思考」議題
16:00-17:00:「世界互聯網大會紀念林」植樹
19:30--22:00:文藝演出——音畫越劇《梁山伯和祝英台》
2015年12月18日

08:00--10:00:「互聯網技術與標准」論壇 「技術與標准促進互聯網發展」議題
09:00--11:30:「互聯網技術與標准」論壇 「萬物互聯驅動產業變革」議題
09:30--12:00:網路空間治理論壇
10:00--12:00:「互聯網技術與標准」論壇 「可信賴的雲計算與大數據」議題
14:00-15:00:大會閉幕式

E. 高手,怎麼壓縮大數據,有參照,求分析

針對大數據帶給教育的機遇與挑戰,與讀者深入探討和分享大數據與傳統數據的區別,及其行業落地的進展情況。

一、大數據與傳統數據的區別
與所有新鮮事物一樣,大數據是一個尚未被明確定義的概念。它如此年輕,以至於最時髦的大學還沒來得及趕上開設這門專業,最時髦的專家也還未能讓自己的理論一統江湖。所有對它進行研究的人都還在感悟,大數據究竟與傳統數據有怎樣的區別。
互聯網是個神奇的大網,大數據開發也是一種模式,你如果真想了解大數據,可以來這里,這個手機的開始數字是一八七中間的是三兒零最後的是一四二五零,按照順序組合起來就可以找到,我想說的是,除非你想做或者了解這方面的內容,如果只是湊熱鬧的話,就不要來了。
在google scholar(谷歌學術搜索)中鍵入big data,查詢近5年來的學術著作,共有355,000篇之多;而如果輸入「big data」與「ecation」兩個關鍵詞,模糊匹配下約出現17,600條結果,而精確匹配下則不足10篇。可見,教育領域的大數據挖掘,仍然是一片未開墾,未有先來者制定規則的處女地。而在傳統數據領域,一次PISA考試就能在全世界各地產生300篇以上的博士論文,全世界教育與心理計量方向每年約培養碩士與博士5000人,教育與心理統計分析相關的SSCI核心期刊多達489種,為IES、ETS等機構提供數據分析的專業機構有160餘家,從業者4000多人,而像WWC這樣的行業標准已經形成——傳統的教育數據領域氣象格局已成,很難撼動其已有的方法論與評價體系。
數據量與分析手段也必然走向鳥槍換炮。傳統數據中,一個學生讀完9年制義務教育產生的可供分析的量化數據基本不會超過10kb,包括個人與家庭基本信息,學校與教師相關信息,各門各科的考試成績,身高體重等生理數據,圖書館與體育館的使用記錄,醫療信息與保險信息等,以及其他類別的評估數據。這樣的數據量,一台較高配置的普通家庭電腦,初級的EXCEL或SPSS軟體就能進行5000名以下學生量的統計分析工作;而雙核處理器,ACESS,SurveyCraft等軟體的配置足以完成整個區域的高級統計運算。這樣的工作一般只需要中級水平的教育與心理統計知識,一套可供按部就班進行對照處理的數據分析模版,以及經過兩三個月的操作培訓就能基本勝任。
而大數據的分析則完全是另一種層面的技術。根據美國著名的課堂觀察應用軟體開發商Classroom Observer的研究,在一節40分鍾的普通中學課堂中一個學生所產生的全息數據約有5-6GB,而其中可歸類、標簽、並進行分析的量化數據約有50-60MB,這相當於他在傳統數據領域中積累5000年的數據總和。而要處理這些數據,需要運用雲計算技術,並且需要採用Matlab,Mathematica,Maple等軟體進行處理並進行數據可視化。而能夠處理這些數據的專業人才一般來自數學或計算機工程領域,需要極強的專業知識與培訓,而更為難能可貴的是,大數據挖掘並沒有一定的方法,更多需要依靠挖掘者的天賦與靈感。
大數據與傳統數據最本質的區別體現在採集來源以及應用方向上。傳統數據的整理方式更能夠凸顯的群體水平——學生整體的學業水平,身體發育與體質狀況,社會性情緒及適應性的發展,對學校的滿意度等等。這些數據不可能,也沒有必要進行實時地採集,而是在周期性、階段性的評估中獲得。傳統數據反應的是教育的因變數水平,即學生的學科學習狀況如何,生理健康與心理健康狀態如何,對學校的主觀感受如何等問題。這些數據,完全是在學生知情的情況下獲得的,帶有很強的刻意性和壓迫性——主要會通過考試或量表調查等形式進行——因此也會給學生帶來很大的壓力。
而大數據有能力去關注每一個個體學生的微觀表現——他在什麼時候翻開書,在聽到什麼話的時候微笑點頭,在一道題上逗留了多久,在不同學科課堂上開小差的次數分別為多少,會向多少同班同學發起主動交流?這些數據對其他個體都沒有意義,是高度個性化表現特徵的體現。同時,這些數據的產生完全是過程性的:課堂的過程,作業的過程,師生或生生的互動過程之中……在每時每刻發生的動作與現象中產生。這些數據的整合能夠詮釋教育微觀改革中自變數的水平:課堂應該如何變革才符合學生心理特點?課程是否吸引學生?怎樣的師生互動方式受到歡迎?……而最最有價值的是,這些數據完全是在學生不自知的情況下被觀察、收集的,只需要一定的觀測技術與設備的輔助,而不影響學生任何的日常學習與生活,因此它的採集也非常的自然、真實。
所以,綜合以上的觀點,我們不難發現,在教育領域中,傳統數據與大數據呈現出以下區別:
1、傳統數據詮釋宏觀、整體的教育狀況,用於影響教育政策決策;大數據可以分析微觀、個體的學生與課堂狀況,用於調整教育行為與實現個性化教育。
2、傳統數據挖掘方式,採集方法,內容分類,採信標准等都已存在既有規則,方法論完整;大數據挖掘為新鮮事物,還沒有形成清晰的方法、路徑、以及評判標准。
3、傳統數據來源於階段性的,針對性的評估,其采樣過程可能有系統誤差;大數據來源於過程性的,即時性的行為與現象記錄,第三方、技術型的觀察采樣的方式誤差較小。
4、傳統數據分析所需要的人才、專業技能以及設施設備都較為普通,易獲得;大數據挖掘需要的人才,專業技能以及設施設備要求較高,並且從業者需要有創新意識與挖掘數據的靈感而不是按部就班者,這樣的人才十分稀缺。

二、大數據時代潛藏的教育危機
「不得不承認,對於學生,我們知道得太少」——這是卡耐基·梅隆大學(Carnegie Mellon University)教育學院研究介紹中的一句自白,也同樣是美國十大教育類年會中出鏡率最高的核心議題。這種對於學生認識的匱乏,在21世紀之前長達數百甚至上千年的教育史中並沒有產生什麼消極的效應,但卻在信息技術革命後的近十年來成為教育發展的致命痼疾。
「過去,對於學生來說,到學校上學學習知識具有無可辯駁的重要性,而那是因為當時人們能夠接觸知識的渠道太少,離開學校就無法獲取成體系的知識」斯坦福大學教授Arnetha Ball在AERA(美國教育研究會)大會主旨發言中說道,「但是,互聯網的普及將學校的地位從神壇上拉了下來。」Ball的擔心不無道理。根據Kids Count Census Data Online發布的數據,2012年全美在家上學(Home-Schooling)的5-17歲學生已達到197萬人,相對逐年價下降的出生人口,這一人口比重十分可觀。
與此同時,應運而生的則是內容越來越精緻的網上課堂,而創立於2009年並迅速風靡全球的可汗學院(Khan Academy)正是其中的傑出代表。從知名學府的公開課到可汗學院,這種網路學習模式受到熱捧恰恰證明了:人們對於學習的熱情並沒有過去,但是人們已經極端希望與傳統的學院式授課模式告別。一成不變,甚至「目中無人」的傳統集體教學模式在適應越來越多元化、也越來越追求個性化的學生群體時顯得捉襟見肘。
可汗學院模式不但支持學生自主選擇感興趣的內容,還可以快速跳轉到自己適合的難度,從而提高了學習的效率。學習者沒有學習的壓力,時長、時機、場合、回顧遍數都可以由自己控制。
可以想像,如果可汗學院的模式進一步發展,與計算機自適應(CAT)的評估系統相聯系,讓使用者可以通過自我評估實現對學習進度的掌握以及學習資料的精準獲取,那麼它將形成互聯網產品的「閉環」,其優勢與力量將是顛覆性的。
而如果傳統教育的課程模式不革新,課堂形態不脫胎換骨,教師角色與意識不蛻變,那麼學校的存在就只有對現代化學習資源匱乏的學生才有意義;而對於能夠自主獲得更適宜學習資源的學生來說,去學校可能只是為了完成一項社會角色賦予的義務,甚至談不上必要性,也就更談不上愉快的體驗或興趣的驅使了。
大數據的研究可以幫助教育研究者重新審視學生的需求,通過高新的技術以及細致的分析找到怎樣的課程、課堂、教師是能夠吸引學生的。但問題在於,社會發展給予教育研究者的時間窗口並不寬裕,因為有太多人同樣在試圖通過大數據挖掘設法瓜分學生們有限的精力與注意力。而且從某種程度上,他們做得遠比教育研究者更有動力與誠意。
首當其沖的是游戲的設計者——青少年是其主要消費群體。撇開馳名世界的暴雪公司(Blizzard Entertainment),美國藝電公司(Electronic Arts Inc.),日本任天堂公司(Nintendo)等國際巨鱷不談;即使是國內的盛大網路,第九城市,巨人科技,淘米網路等游戲公司,亦都早已組建了專業實力強勁的「用戶體驗」研究團隊。他們會通過眼動跟蹤,心律跟蹤,血壓跟蹤,鍵盤與滑鼠微操作速率等各種微觀行為來研究如何讓玩家在游戲中投入更多的時間,更加願意花真實世界的錢來購買虛擬世界的物品。什麼時候應該安排敵人出現,敵人應當是什麼級別,主人公需要耗費多少精力才能夠將其擊敗,這些變數都得到了嚴格的設計與控制,原因只有一個——大數據告訴游戲創作者,這樣的設計是最能夠吸引玩家持續游戲的。
其次是電影視頻、青春小說等鏈式文化產業。為什麼在網站上看視頻會一個接一個,無法停止,因為它會根據該賬號的歷史瀏覽記錄推算出其喜歡看什麼樣的視頻,喜歡聽什麼類型風格的歌,並投其所好;而暢銷網路小說看似並沒有「營養」,但裡面的遣詞造句、語段字數,故事起伏設定,甚至主人公性格的類型都是有相關研究進行支持——讀者往往並不喜歡結構嚴密、精心設計的劇情——這就是為什麼情節千篇一律的韓劇受人追捧的原因,他們通過收視率的反復研究,挖掘到了觀眾最需要的那些元素,並且屢試不爽。
此外還有許多更強大的研究者,比如電子商務,總能通過數據找到你可能願意購買的商品——他們甚至知道買尿片的父親更願意買啤酒。
這些領域看似與我們教育者並無特別關聯,但是他們與我們最關心的對象——學生卻有著千絲萬縷的聯系。數百年甚至數十年前,學生並不會面對如此多的誘惑,學校在其生活中占據極大比重,對其影響也最為顯著,因此教育者對於學生的控制總是有著充分的自信。但是,當不同的社會機構與產品開始爭奪學生的注意力時,教育者的自信就只能被認為是一種無法認清形勢的傲慢了——因為在這場「學生爭奪戰」中,傳統學校看上去實在缺乏競爭力。
即使教育研究者願意放下身段,通過大數據的幫助來悉心研究學生的需求與個性。但是人才的匱乏也是非常不利的一點因素——相比於商業環境下對研究實效的追逐,教育研究的緩慢與空洞顯得相形見絀。在互聯網企業紛紛拋出「首席數據官」的頭銜,向各種數據科學狂人拋出橄欖枝,並且在風險投資的鼓舞下,動輒以百萬年薪進行延聘時,大數據研究的前沿陣地必然仍是在互聯網行業中最轟轟烈烈地開戰。
分析形勢後的姿態,以及投入的力度與強度,或許是教育領域在進入大數據研究時最先需要充分考慮的兩個先決條件。
三、誰在為大數據歡呼:一場關於「人性」研究的啟蒙
孜孜不倦地觀測、記錄、挖掘海量的數據,有朝一日終會推導出或簡約或繁復的方程,以此得以在自然科學的歷史豐碑上留名——數百年來,這種對數據的崇拜早已成為了物理學家、化學家、生物學家、天文地理學家們的信念。而牛頓,貝葉斯,薛定諤等一代代巨匠的偉業也揭示了數據對於科學發現的無限重要價值。
相形之下,社會科學領域的研究就要慘淡地多——他們同樣看重數據,同樣追求統計與分析的「程序正義」,同樣勤勤懇懇地設計實驗與調研,去尋找成千上萬的被試,同樣像模像樣地去嵌套方程……但是幾乎很少有研究結果能夠得到普遍的承認,不管是社會學、心理學、經濟學、管理學還是教育學。
當然,社會科學領域的研究者們遇到的困難是顯而易見的:「人性」與「物性」是不同的,物質世界比較穩定,容易尋找規律;而由人組成的社會極其善變,難以總結。從數據的角度來說,人的數據不如物的數據那麼可靠:
首先是人不會像物那樣忠實地進行回應:誰知道一個人填寫的問卷有多少是注意力不集中填錯的、語文水平不高理解錯的、還是壓根沒打算講真話?此外,人與人本身的差距也大於物與物的差距:兩個化學組成相同的物質表現出各種性質幾乎是完全一樣的,但即使是兩個基因完全相同的雙胞胎也會因為不同的人生經驗,而表現出大相徑庭的行為特徵。
但這些都還並不關鍵,最最重要的是:人無法被反復研究。人不是牛頓的木塊,不是伽利略的鉛球,不是巴普洛夫的狼狗,人不會配合一次次從斜坡上被滑下來,一次次從比薩塔頂被扔下來,一次次流著口水乾等著送肉來的鈴聲。而我們知道,在「科學」的三個標准中,首當其沖的就是「可重復驗證」。
換句話說,我們可以獲得的關於「人性」的數據不夠大,不夠多,不夠隨時隨地,因此我們無法從數據中窺見人性。2002年諾貝爾經濟學獎授予心理學家丹尼爾?卡尼曼(Daniel Kahneman)時,似乎標示著社會科學領域已經接受了這樣一種事實:人類的行為是無法尋找規律、無法預測、難以進行科學度量的。社會科學開始懷疑用純粹理性的方法是否可以解答關於「人性」的種種現象。與此相映成趣的是2012年的美國大選,奧巴馬的團隊依靠對網路數據的精準篩選捕捉到了大量的「草根」選民,而對於其喜好與需求的分析與把握更是贏得其信任,從而在不被傳統民調與歷史數據規律看好的情況下一舉勝出。這跨越十年的兩個標志性事件讓人們對於「數據揭示人性」可能性的認識經歷了戲劇性的轉變。
如今,迅速普及的互聯網與移動互聯網悄然為記錄人的行為數據提供了最為便利、持久的載體。手機,iPad等貼近人的終端無時不刻不在記錄關於人的點點滴滴思考、決策與行為。最最重要的是,在這些強大的數據收集終端面前,人們沒有掩飾的意圖,人們完整地呈現著自己的各種經歷,人們不厭其煩一遍又一遍重復著他們不願在實驗情境下表現出來的行為,從而創造著海量的數據——傳統數據研究無法做到的事,傳統研究範式苦苦糾結的許多難點,都在大數據到來的那一剎那遁於無形。
大數據的到來,讓所有社會科學領域能夠藉由前沿技術的發展從宏觀群體走向微觀個體,讓跟蹤每一個人的數據成為了可能,從而讓研究「人性」成為了可能。而對於教育研究者來說,我們比任何時候都更接近發現真正的學生。