大數據主義者如何看待理論,因果與規律

大數據的興起,給傳統的科學哲學帶來許多新挑戰,特別是對諸如科學理論的作用專、因果關系、科學屬規律等科學哲學的核心問題提出了有別於傳統的新觀點。齊磊磊博士概括總結了大數據相關學者的論述,在《哲學動態》雜志發表了題為《大數據經驗主義——如何看待理論、因果與規律》的重要文章[1]。她在文中提出了大數據經驗主義的概念,並系統提煉了大數據經驗主義的科學哲學觀點,這是大數據哲學的重要提煉和概括。她認為,大數據經驗主義是一種新經驗主義(以下簡稱為大數據主義),並將其觀點概括為三點:1.在科學理論問題上,大數據主義認為「理論已經終結」,否定科學理論對科學發現的作用;2.在關繫到科學存亡的因果性問題上,大數據主義否定因果性的存在,提出由相關性取代因果性;3.在世界的本質問題上,大數據主義否定世界的規律性,認為世界的本質是混亂的。樹立起大數據主義的靶子之後,齊磊磊進行了批判,並明確提出反對大數據主義對大數據的神化。

❷ 大數據帶來的大影響

大數據帶來的大影響_數據分析師考試

如果把「數據化」視為信息社會的初級階段,則名不見經傳的英國科學家維克托·邁爾-舍恩伯格,用他別具洞見的天才新著《大數據時代》首次告訴我們:人類正在進入「數據顛覆傳統」的信息社會中級階段。

在此階段,信息無所不在無所不包,其無限膨脹的天文海量催生了「統計+分類-推理分析=決策」的計算機處理程序(有點像刷卡消費一步到位,節省了算賬找補等繁瑣環節),悄然挑戰「去粗取精、去偽存真、由表及裡、由此及彼」的傳統認識論模式,冥冥之中潛移默化,對我們的生活、工作與思維,對人類「階級斗爭、生產斗爭、科學試驗」三大實踐活動產生著重大而深刻的影響。

大數據點燃

美國政府曾為定期公布消費物價指數CPI以監控通脹率,僱用了大量人員向全美90個城市的商店、辦公室進行電話、傳真拜訪,耗資2.5億美元搜集反饋8萬種商品價格的延時信息。然而麻省理工學院兩位經濟學家採取「大數據」方案,通過一個軟體互聯網上每天搜集50萬種商品價格即時信息。2008年9月雷曼兄弟公司破產後,該軟體馬上發現了通脹轉為通縮的趨勢,而官方數據直到11月才發現。之後該軟體被暢銷到70多個國家。這一案例充分體現出「大數據」顛覆傳統的力量和變革思維的智慧。

「小數據」時代追求精準,竭力避免不精準信息誤導誤判。然而95%被傳統資料庫拒絕接受的非結構化(非標准)數據,在「大數據」時代的模糊化資料庫中發揮了重要的作用,因為數據越模糊越全面,才能有效避免誤導誤判。

從因果關繫到相關關系的思維變革,是「大數據」顛覆傳統認識論模式的關鍵。電腦畢竟不是人腦,電腦永遠搞不懂氣候與機票價格之間有什麼因果關系。公雞打鳴和天亮之間雖無因果關系,但古人通過公雞打鳴來預報天亮卻很少失敗。「如果數百萬條醫療記錄顯示橙汁和阿司匹林的特定組合對癌症治療有效果,那就用不著通過一次次實驗來探索其具體的葯理機制了」。「蘋果之父」喬布斯就主動試用過一些醫療記錄有效但未經臨床驗證的療法同癌症抗爭。你可以嘲笑喬布斯「不講科學」,但他卻因此多活了好幾年。

從根本上說,所謂「大數據挑戰傳統認識論」,其實是人類把復雜的認識過程「全部打包」給了電腦,而電腦懶得分析推理驗證,只通過統計分類對比,交出「最終答案」就OK了。大數據的精髓在於變「少而精」為「多而全」,變「因果」為「相關」。當實地調研開始被數據採集所替代,當嚴密的實驗開始被非線性邏輯所替代,當「唯一真理」開始被多項選擇所替代,「大數據」就用事實向人類宣告:「知其然不知其所以然」,既是電腦望塵人腦的劣勢,也是電腦超越人腦的優勢!

大數據滲透大世界

不要以為「大數據」只是科幻故事或政府與科學家的「專利」。環顧四周,「大數據」早已滲透我們生活和工作的方方面面,衍生出形形色色的數據超市、數據易趣、數據交友、數據聯誼、數據作坊、數據課堂、數據IB等傳奇版本。從治安管理、交通運輸、醫療衛生、商業貿易、批發零售、公益救援直到政治、軍事、經濟、金融、社會、環境、文藝、體育。

UPS國際快運公司從2000年開始通過「大數據」檢測其遍布全美的6萬輛貨車車隊,統計出各損耗零部件的生命周期,改「備份攜帶」為提前更換,有效預防了半路拋錨造成的嚴重麻煩和巨大損失,每年節省數百萬美元。UPS還依靠「大數據」優化行車路線(例如盡量右轉彎,避免左轉彎),2011年全公司車輛少跑4828萬公里,節省燃料300萬加侖,減少碳排放3萬公噸。

為紐約提供電力支持的愛迪生電力公司,針對每年多起電纜沙井蓋爆炸造成嚴重事故,採取「大數據」手段統計出106種預警先兆,預測2009年可能出事的沙井蓋並嚴加監控。結果位列前十分之一的高危井蓋中,預測准確率達44%。

美國里士滿市警察當局憑經驗認定槍擊事件往往導致犯罪高峰期,「大數據」證明這種高峰期往往出現在槍擊事件後2周左右。孟菲斯市2006年啟動「大數據」系統鎖定了更容易發生犯罪的地點和更容易抓捕罪犯的時間,使重大犯罪發生率下降26%。

沃爾瑪2004年依靠「大數據」發現了颶風前夕銷量增加的各類商品,進而每逢預報便及時設立颶風用品專區,並將手電筒、早餐零食蛋撻等擺放於專區附近,明顯增加了「順便購買」的銷量。

至於「大數據」的經濟價值,僅需略舉數例:2006年微軟以1.1億美元購買了埃齊奧尼的Farecast公司,2008年穀歌以7億美元購買了為Farecast提供數據的ITA Software公司。同年在冰島成立的DataMarket網站乾脆專靠搜集提供聯合國、世界銀行、歐盟統計局等權威機構的免費信息來獲利生存,包括倒賣各類研究機構公開發布的研究數據——只要找到買主,往往願出高價!

大數據創造大金融

金融領域當然是「大數據」的主戰場之一。程序化交易也許是現今最主要的「大數據」新式武器。美國股市每天成交量高達70億股,但其中三分之二的交易量並非由人操作,而是由建立在數學模型和演算法之上的計算機程序自動完成。日新月異的程序化交易只能運用海量數據來預測收益、降低風險。幾乎所有銀行、券商、保險、期貨、QFII和投資公司都開發了自己的程序化交易工具。誰的武器更先進?競爭到最後恐怕還是比誰搜集處理的數據更海量。

一家投資基金通過統計大商場周邊停車場及路口交通擁擠狀況,來預測商場經營及當地經濟狀況,進而預測相關股價走勢,最後居然拿數據統計資料換得了該商場的部分股權。

不少對沖基金通過搜集統計社交網站推特上的市場心情等信息來預測股市的表現。倫敦和加利福尼亞的兩家對沖基金,利用「大數據」形成119份表情圖和18864項獨立的指數,向許多客戶推銷股市每分鍾的「動態表情」:樂觀、憂郁、鎮靜、驚恐、呆滯、害怕、生氣、激憤等,以幫助和帶動投資決策。

在金融機構競相拉客理財的今天,如果能及時搜集處理海量的微博、微信、簡訊,自然也能從茫茫人海中及時發現怦然心動打算開戶的,或一氣之下打算「跳槽」的投資者。

當然,如果投資者都能通過「大數據」直接決策,將「刷卡消費」拓展成「刷卡投資」,那藏龍卧虎的分析師群體和爭雄斗妍的研究報告未來還有市場嗎?

大數據暗藏大隱患

像所有新生事物一樣,大數據也是一把雙刃劍。宏觀上看,「大數據」在各個不同的領域將人類虛擬分割為「數據化」與「被數據化」兩大陣營。持續發酵的「棱鏡門」事件披露了美國政府長期監控全世界的「最高機密」,但美國總統、國會和政府都認定這種監控「天經地義」,是「維護國家核心利益」。雖然社會早已建立起龐大的法律法規體系來保障個人信息安全,但在「大數據」時代,這些體系正蛻變為固若金湯但可以隨意繞過的「馬其諾防線」。

「大數據」導致個人信息被交易、個人隱私被外泄還不算,更大的危險在於「個人行為被預測」。正如作者預言——「這些能預測我們可能生病、拖欠還款甚至犯罪的演算法程序,會讓我們無法購買保險、無法貸款,甚至在犯罪實施前就預先被逮捕」——也許你認為這對全社會來說無疑是好事。可是如果預測系統不完善、軟硬體出差錯、數據搜集處理不當、臨時數據未經檢驗、黑客攻擊、有人惡意或善意開玩笑製造假信息……導致你、你的家庭、你的親朋好友、你的所在單位甚至你的祖國被冤枉被制裁,你還能無動於衷嗎?

微觀上看,即使是出於正當目的採集的「大數據」,仍可能在「擴展開發」過程中產生無法想像的副作用。例如谷歌的街景拍攝和GPS數據為衛星定位和自動駕駛儀提供了關鍵的支持,但同時因其有助於黑幫盜賊便捷挑選有利目標而引發了多國民眾的強烈抗議。當谷歌對圖像背景上的業主房屋、花園等目標進行模糊化處理後,反而引起盜賊更加註意。

無論你驚奇還是恐懼,歡迎還是躲避,關注還是漠視,理解還是拒絕,「大數據」都在加快步伐向我們走來。我們只有順勢而為,趨利避害,才不至於被這個充滿機遇和挑戰的新時代提前淘汰。

以上是小編為大家分享的關於大數據帶來的大影響的相關內容,更多信息可以關注環球青藤分享更多干貨

❸ 請求關於探索性調研、描述性調研、解釋性調研各列舉一例,給出相應的實例,國內或國外的實例均可。

1 探索性研究的基本目的是提供一些資料以幫助調研者認識和理解所面對的問題。常常用於在一種更正式的調研之前幫助調研者將問題定義得更准確些、幫助確定相關的行動路線或獲取更多的有關資料。這一階段所需的信息是不精確定義的,研究過程很有靈活性,沒有什麼結構。例如,向行業專家咨詢就是一種探索性的研究。樣本量一般較小,也沒有什麼代表性。原始數據一般是定性的。探索性調研的結果一般只是試驗性的、暫時性的,或作為進一步研究的開始。
2
描述性的調查研究是結論性研究的一種,顧名思義,這種研究的結果,就是要描述某些事物――通常中事物總體的特徵或功能,具體地說就是描述市場的特徵或功能。組織描述性調研主要有如下內容:
(1)描述有關群體的特證。例如,給出某些名牌商店的「重型使用者」(經常購物者)的輪廓。
(2)估算在某一具體總體中顯示某種行為的人群所佔的比例。例如,估算既是某些名牌商店的「重型使用者」,同時又光顧減價商店的顧客比例。
(3)確定產品特徵的概念。例如,不同家庭是如何按照選擇准則的一些重要因子來認識各百貨商店的。
(4)確定變數間的聯系程度。例如,在百貨商店購物與外出就餐之間有什麼程度的關聯。
(5)進行具體的預測。例如,某地區的時裝(某特定類別的產品)的零售銷量會是多少?
描述性調研假定調研者事先已對問題有許多相關的知識。事實上,探索性與描述性調研的主要區別在於後者事先購制了具體的假設。因此,所需的信息是很清楚地定義了的。典型的描述性調研都是以有代表性的大樣本(一般在600人以上)為基礎的。正式的調研方案的設計規定選擇信息來源的方法,以及從這些來源收集數據的方法。

3其目的是要獲取有關起因和結果之間聯系的證據。因果關系研究的目的包括下述內容:

(1)了解哪些變數是起因(獨立變數或自變數),哪些變數是結果(因變數或響應)。

(2)確定起因變數與要預測的結果變數間的相互關系的性質。

和描述性研究一樣,解釋性研究也需要有方案和結構的設計。描述性研究雖然也可以確定變數間聯系的緊密程度,但是並不能確定因果關系。要考察因果關系必須將有些可能影響結果的變數控制起來,這樣,起因變數對因變數的影響才能測量出來。研究因果關系的主要方法是實驗法。當然還有些高級的統計方法可以用於檢驗因果關系的模型。例如為了檢驗包裝(自變數)對銷售量(因變數)的影響,可將同類商店隨機地分為兩組,分別出售新包裝的商品和原包裝的同種商品,最後再進行比較。

雖然解釋性研究的方法與其他研究方法不太相同,但也不應將其孤立起來看。事實上,在許多調研中,探索性的研究、描述性研究和解釋性研究的設計都是相互補充的。

4三種 類型的研究設計並不是絕對互相獨立進行的。有些調研項目需要涉及一種以上研究類型的方案設計。如何將不同類型的方案相結合完全取決於調研問題的性質。選擇方案設計的一般原則有如下幾點:

(1)如果對調研問題的情況幾乎一無所知,那麼調查研究就要從探索性研究開始。下述的幾種情況就需要首先進行探索性研究:如果要對調研問題作更准確的定義;如果要確定備選的行動路線;如果要制定調查問答或理論假設;如果要將關鍵的變數分類成自變數或因變數。

(2)在整個研究方案設計的框架中,探索性研究是最初的步驟。在大多數情況下,還應繼續進行描述性研究或因果關系研究。例如,通過探索性研究得到的假設應當利用描述性研究或因果關系研究的方法進行統計檢驗。

(3)並不是每一個方案設計都要從探索性研究開始。是否要用探索性研究取決於調研問題定義的准確程度,以及調研者對處理問題途徑的把握程度。例如,每年都要搞的消費者滿意度調查就不再需要由探索性研究開始。

(4)一般探索性研究都是作為起始步驟的,但有時這類研究也需要跟隨在描述性研究或因果關系研究之後進行。例如,當描述性研究或解釋性研究的研究結果讓管理決策者很難理解時,利用探索性研究將可能提供更深入的認識從而可以幫助理解調研的結果。

❹ 大數據的利用過程是什麼

大數據處理:採集、導入/預處理、統計/分析、挖掘

❺ 大數據的弱點主要是精確性,可靠性,因果性,多樣性嗎

不對,大數據的弱點主要是多樣性,前面是它的優點。

❻ 在大數據時代,為什麼我們不在探求難以捉摸的因果關系,轉而關注事物的相關關系

看過大數據時代吧,里邊說的還比較清楚了,大數據的一個優勢就是從數據之間的相內關關系直接得到我們想容要的結論,而不必去追求原因和結果間的復雜因果關系。

在平時的科學研究中,我們工作的本質就是探尋事物間的本質的因果關系,分析因果關系是一件非常復雜而嚴謹的事情,甚至在有些場合根本無法短時間內得到具體的因果關系,這時候大數據的優勢就體現出來了。根據大數據分析結果,出現了A現象,必然發生B現象,那麼在絕大部分場合就可以先不關注A與B之間的具體因果關系,而從兩者在數據上表現的相關關系解決問題。當然大數據技術並非完全否認因果關系,而是強調先通過相關關系解決問題,因果關系可以在後期慢慢研究。
供參考。

❼ 如何運用大數據來分析各類日誌事件之間的關聯關系

大數據和crm的關系?這主題不明確。大數據的數據一般來自於crm並且服務於crm,這也是很多做版crm的比如說rushcrm把數權據分析當做一個點在深入挖掘,因為大數據裡面的數據怎麼來的,就是平時crm管理一點一滴累積來的,同時大數據最終服務的對象說到底也是為了企業的crm管理,所以我個人認為,這種關系是一個因果循環的關系,而不簡單的是一個因為所以的關系

❽ 大數據的弱點主要是精確性 可靠性 因果性 多樣性嗎

容量(Volume):數據的大小決定所考慮的數據的價值和潛在的信息;
種類(Variety):數據類型的多樣性;
速度(Velocity):指獲得數據的速度;
可變性(Variability):妨礙了處理和有效地管理數據的過程。
真實性(Veracity):數據的質量
復雜性(Complexity):數據量巨大,來源多渠道
價值(value):合理運用大數據,以低成本創造高價值

❾ 大數據分析中,因果和關聯的區別和聯系是什麼

嚴格的說,應該是因果和相關的區別和聯系。
1、它們之間,區別有個本質的版地方,因果必權然是相關,但相關未必是因果。
例如:
光照時間和水果含糖量之間,是因果關系,光照時間越長,光合作用產生的糖越多,水果就越甜。所以數據上看,光照時間和水果含糖量之間的數據,相關系數比較高。
光照時間和太陽能發電量之間,也是因果關系。光照時間越長,太陽能發電量就越多。但是數據上,太陽能發電量和水果的含糖量之間,都表現為隨著光照時間越長數值越大,所以他們之間的相關系數也很高,卻不能認為水果含糖量與太陽能發電量之間存在因果關系。
2、這樣,就牽引出因果和相關之間,它們的聯系,就是2者從數據上來看相關系數都比較高。