利用大数据探索因果性的案例
❶ 大数据主义者如何看待理论,因果与规律
大数据的兴起,给传统的科学哲学带来许多新挑战,特别是对诸如科学理论的作用专、因果关系、科学属规律等科学哲学的核心问题提出了有别于传统的新观点。齐磊磊博士概括总结了大数据相关学者的论述,在《哲学动态》杂志发表了题为《大数据经验主义——如何看待理论、因果与规律》的重要文章[1]。她在文中提出了大数据经验主义的概念,并系统提炼了大数据经验主义的科学哲学观点,这是大数据哲学的重要提炼和概括。她认为,大数据经验主义是一种新经验主义(以下简称为大数据主义),并将其观点概括为三点:1.在科学理论问题上,大数据主义认为“理论已经终结”,否定科学理论对科学发现的作用;2.在关系到科学存亡的因果性问题上,大数据主义否定因果性的存在,提出由相关性取代因果性;3.在世界的本质问题上,大数据主义否定世界的规律性,认为世界的本质是混乱的。树立起大数据主义的靶子之后,齐磊磊进行了批判,并明确提出反对大数据主义对大数据的神化。
❷ 大数据带来的大影响
大数据带来的大影响_数据分析师考试
如果把“数据化”视为信息社会的初级阶段,则名不见经传的英国科学家维克托·迈尔-舍恩伯格,用他别具洞见的天才新著《大数据时代》首次告诉我们:人类正在进入“数据颠覆传统”的信息社会中级阶段。
在此阶段,信息无所不在无所不包,其无限膨胀的天文海量催生了“统计+分类-推理分析=决策”的计算机处理程序(有点像刷卡消费一步到位,节省了算账找补等繁琐环节),悄然挑战“去粗取精、去伪存真、由表及里、由此及彼”的传统认识论模式,冥冥之中潜移默化,对我们的生活、工作与思维,对人类“阶级斗争、生产斗争、科学试验”三大实践活动产生着重大而深刻的影响。
大数据点燃
美国政府曾为定期公布消费物价指数CPI以监控通胀率,雇用了大量人员向全美90个城市的商店、办公室进行电话、传真拜访,耗资2.5亿美元搜集反馈8万种商品价格的延时信息。然而麻省理工学院两位经济学家采取“大数据”方案,通过一个软件在互联网上每天搜集50万种商品价格即时信息。2008年9月雷曼兄弟公司破产后,该软件马上发现了通胀转为通缩的趋势,而官方数据直到11月才发现。之后该软件被畅销到70多个国家。这一案例充分体现出“大数据”颠覆传统的力量和变革思维的智慧。
“小数据”时代追求精准,竭力避免不精准信息误导误判。然而95%被传统数据库拒绝接受的非结构化(非标准)数据,在“大数据”时代的模糊化数据库中发挥了重要的作用,因为数据越模糊越全面,才能有效避免误导误判。
从因果关系到相关关系的思维变革,是“大数据”颠覆传统认识论模式的关键。电脑毕竟不是人脑,电脑永远搞不懂气候与机票价格之间有什么因果关系。公鸡打鸣和天亮之间虽无因果关系,但古人通过公鸡打鸣来预报天亮却很少失败。“如果数百万条医疗记录显示橙汁和阿司匹林的特定组合对癌症治疗有效果,那就用不着通过一次次实验来探索其具体的药理机制了”。“苹果之父”乔布斯就主动试用过一些医疗记录有效但未经临床验证的疗法同癌症抗争。你可以嘲笑乔布斯“不讲科学”,但他却因此多活了好几年。
从根本上说,所谓“大数据挑战传统认识论”,其实是人类把复杂的认识过程“全部打包”给了电脑,而电脑懒得分析推理验证,只通过统计分类对比,交出“最终答案”就OK了。大数据的精髓在于变“少而精”为“多而全”,变“因果”为“相关”。当实地调研开始被数据采集所替代,当严密的实验开始被非线性逻辑所替代,当“唯一真理”开始被多项选择所替代,“大数据”就用事实向人类宣告:“知其然不知其所以然”,既是电脑望尘人脑的劣势,也是电脑超越人脑的优势!
大数据渗透大世界
不要以为“大数据”只是科幻故事或政府与科学家的“专利”。环顾四周,“大数据”早已渗透我们生活和工作的方方面面,衍生出形形色色的数据超市、数据易趣、数据交友、数据联谊、数据作坊、数据课堂、数据IB等传奇版本。从治安管理、交通运输、医疗卫生、商业贸易、批发零售、公益救援直到政治、军事、经济、金融、社会、环境、文艺、体育。
UPS国际快运公司从2000年开始通过“大数据”检测其遍布全美的6万辆货车车队,统计出各损耗零部件的生命周期,改“备份携带”为提前更换,有效预防了半路抛锚造成的严重麻烦和巨大损失,每年节省数百万美元。UPS还依靠“大数据”优化行车路线(例如尽量右转弯,避免左转弯),2011年全公司车辆少跑4828万公里,节省燃料300万加仑,减少碳排放3万公吨。
为纽约提供电力支持的爱迪生电力公司,针对每年多起电缆沙井盖爆炸造成严重事故,采取“大数据”手段统计出106种预警先兆,预测2009年可能出事的沙井盖并严加监控。结果位列前十分之一的高危井盖中,预测准确率达44%。
美国里士满市警察当局凭经验认定枪击事件往往导致犯罪高峰期,“大数据”证明这种高峰期往往出现在枪击事件后2周左右。孟菲斯市2006年启动“大数据”系统锁定了更容易发生犯罪的地点和更容易抓捕罪犯的时间,使重大犯罪发生率下降26%。
沃尔玛2004年依靠“大数据”发现了飓风前夕销量增加的各类商品,进而每逢预报便及时设立飓风用品专区,并将手电筒、早餐零食蛋挞等摆放于专区附近,明显增加了“顺便购买”的销量。
至于“大数据”的经济价值,仅需略举数例:2006年微软以1.1亿美元购买了埃齐奥尼的Farecast公司,2008年谷歌以7亿美元购买了为Farecast提供数据的ITA Software公司。同年在冰岛成立的DataMarket网站干脆专靠搜集提供联合国、世界银行、欧盟统计局等权威机构的免费信息来获利生存,包括倒卖各类研究机构公开发布的研究数据——只要找到买主,往往愿出高价!
大数据创造大金融
金融领域当然是“大数据”的主战场之一。程序化交易也许是现今最主要的“大数据”新式武器。美国股市每天成交量高达70亿股,但其中三分之二的交易量并非由人操作,而是由建立在数学模型和算法之上的计算机程序自动完成。日新月异的程序化交易只能运用海量数据来预测收益、降低风险。几乎所有银行、券商、保险、期货、QFII和投资公司都开发了自己的程序化交易工具。谁的武器更先进?竞争到最后恐怕还是比谁搜集处理的数据更海量。
一家投资基金通过统计大商场周边停车场及路口交通拥挤状况,来预测商场经营及当地经济状况,进而预测相关股价走势,最后居然拿数据统计资料换得了该商场的部分股权。
不少对冲基金通过搜集统计社交网站推特上的市场心情等信息来预测股市的表现。伦敦和加利福尼亚的两家对冲基金,利用“大数据”形成119份表情图和18864项独立的指数,向许多客户推销股市每分钟的“动态表情”:乐观、忧郁、镇静、惊恐、呆滞、害怕、生气、激愤等,以帮助和带动投资决策。
在金融机构竞相拉客理财的今天,如果能及时搜集处理海量的微博、微信、短信,自然也能从茫茫人海中及时发现怦然心动打算开户的,或一气之下打算“跳槽”的投资者。
当然,如果投资者都能通过“大数据”直接决策,将“刷卡消费”拓展成“刷卡投资”,那藏龙卧虎的分析师群体和争雄斗妍的研究报告未来还有市场吗?
大数据暗藏大隐患
像所有新生事物一样,大数据也是一把双刃剑。宏观上看,“大数据”在各个不同的领域将人类虚拟分割为“数据化”与“被数据化”两大阵营。持续发酵的“棱镜门”事件披露了美国政府长期监控全世界的“最高机密”,但美国总统、国会和政府都认定这种监控“天经地义”,是“维护国家核心利益”。虽然社会早已建立起庞大的法律法规体系来保障个人信息安全,但在“大数据”时代,这些体系正蜕变为固若金汤但可以随意绕过的“马其诺防线”。
“大数据”导致个人信息被交易、个人隐私被外泄还不算,更大的危险在于“个人行为被预测”。正如作者预言——“这些能预测我们可能生病、拖欠还款甚至犯罪的算法程序,会让我们无法购买保险、无法贷款,甚至在犯罪实施前就预先被逮捕”——也许你认为这对全社会来说无疑是好事。可是如果预测系统不完善、软硬件出差错、数据搜集处理不当、临时数据未经检验、黑客攻击、有人恶意或善意开玩笑制造假信息……导致你、你的家庭、你的亲朋好友、你的所在单位甚至你的祖国被冤枉被制裁,你还能无动于衷吗?
微观上看,即使是出于正当目的采集的“大数据”,仍可能在“扩展开发”过程中产生无法想象的副作用。例如谷歌的街景拍摄和GPS数据为卫星定位和自动驾驶仪提供了关键的支持,但同时因其有助于黑帮盗贼便捷挑选有利目标而引发了多国民众的强烈抗议。当谷歌对图像背景上的业主房屋、花园等目标进行模糊化处理后,反而引起盗贼更加注意。
无论你惊奇还是恐惧,欢迎还是躲避,关注还是漠视,理解还是拒绝,“大数据”都在加快步伐向我们走来。我们只有顺势而为,趋利避害,才不至于被这个充满机遇和挑战的新时代提前淘汰。
以上是小编为大家分享的关于大数据带来的大影响的相关内容,更多信息可以关注环球青藤分享更多干货
❸ 请求关于探索性调研、描述性调研、解释性调研各列举一例,给出相应的实例,国内或国外的实例均可。
1 探索性研究的基本目的是提供一些资料以帮助调研者认识和理解所面对的问题。常常用于在一种更正式的调研之前帮助调研者将问题定义得更准确些、帮助确定相关的行动路线或获取更多的有关资料。这一阶段所需的信息是不精确定义的,研究过程很有灵活性,没有什么结构。例如,向行业专家咨询就是一种探索性的研究。样本量一般较小,也没有什么代表性。原始数据一般是定性的。探索性调研的结果一般只是试验性的、暂时性的,或作为进一步研究的开始。
2
描述性的调查研究是结论性研究的一种,顾名思义,这种研究的结果,就是要描述某些事物――通常中事物总体的特征或功能,具体地说就是描述市场的特征或功能。组织描述性调研主要有如下内容:
(1)描述有关群体的特证。例如,给出某些名牌商店的“重型使用者”(经常购物者)的轮廓。
(2)估算在某一具体总体中显示某种行为的人群所占的比例。例如,估算既是某些名牌商店的“重型使用者”,同时又光顾减价商店的顾客比例。
(3)确定产品特征的概念。例如,不同家庭是如何按照选择准则的一些重要因子来认识各百货商店的。
(4)确定变量间的联系程度。例如,在百货商店购物与外出就餐之间有什么程度的关联。
(5)进行具体的预测。例如,某地区的时装(某特定类别的产品)的零售销量会是多少?
描述性调研假定调研者事先已对问题有许多相关的知识。事实上,探索性与描述性调研的主要区别在于后者事先购制了具体的假设。因此,所需的信息是很清楚地定义了的。典型的描述性调研都是以有代表性的大样本(一般在600人以上)为基础的。正式的调研方案的设计规定选择信息来源的方法,以及从这些来源收集数据的方法。
3其目的是要获取有关起因和结果之间联系的证据。因果关系研究的目的包括下述内容:
(1)了解哪些变量是起因(独立变量或自变量),哪些变量是结果(因变量或响应)。
(2)确定起因变量与要预测的结果变量间的相互关系的性质。
和描述性研究一样,解释性研究也需要有方案和结构的设计。描述性研究虽然也可以确定变量间联系的紧密程度,但是并不能确定因果关系。要考察因果关系必须将有些可能影响结果的变量控制起来,这样,起因变量对因变量的影响才能测量出来。研究因果关系的主要方法是实验法。当然还有些高级的统计方法可以用于检验因果关系的模型。例如为了检验包装(自变量)对销售量(因变量)的影响,可将同类商店随机地分为两组,分别出售新包装的商品和原包装的同种商品,最后再进行比较。
虽然解释性研究的方法与其他研究方法不太相同,但也不应将其孤立起来看。事实上,在许多调研中,探索性的研究、描述性研究和解释性研究的设计都是相互补充的。
4三种 类型的研究设计并不是绝对互相独立进行的。有些调研项目需要涉及一种以上研究类型的方案设计。如何将不同类型的方案相结合完全取决于调研问题的性质。选择方案设计的一般原则有如下几点:
(1)如果对调研问题的情况几乎一无所知,那么调查研究就要从探索性研究开始。下述的几种情况就需要首先进行探索性研究:如果要对调研问题作更准确的定义;如果要确定备选的行动路线;如果要制定调查问答或理论假设;如果要将关键的变量分类成自变量或因变量。
(2)在整个研究方案设计的框架中,探索性研究是最初的步骤。在大多数情况下,还应继续进行描述性研究或因果关系研究。例如,通过探索性研究得到的假设应当利用描述性研究或因果关系研究的方法进行统计检验。
(3)并不是每一个方案设计都要从探索性研究开始。是否要用探索性研究取决于调研问题定义的准确程度,以及调研者对处理问题途径的把握程度。例如,每年都要搞的消费者满意度调查就不再需要由探索性研究开始。
(4)一般探索性研究都是作为起始步骤的,但有时这类研究也需要跟随在描述性研究或因果关系研究之后进行。例如,当描述性研究或解释性研究的研究结果让管理决策者很难理解时,利用探索性研究将可能提供更深入的认识从而可以帮助理解调研的结果。
❹ 大数据的利用过程是什么
大数据处理:采集、导入/预处理、统计/分析、挖掘
❺ 大数据的弱点主要是精确性,可靠性,因果性,多样性吗
不对,大数据的弱点主要是多样性,前面是它的优点。
❻ 在大数据时代,为什么我们不在探求难以捉摸的因果关系,转而关注事物的相关关系
看过大数据时代吧,里边说的还比较清楚了,大数据的一个优势就是从数据之间的相内关关系直接得到我们想容要的结论,而不必去追求原因和结果间的复杂因果关系。
在平时的科学研究中,我们工作的本质就是探寻事物间的本质的因果关系,分析因果关系是一件非常复杂而严谨的事情,甚至在有些场合根本无法短时间内得到具体的因果关系,这时候大数据的优势就体现出来了。根据大数据分析结果,出现了A现象,必然发生B现象,那么在绝大部分场合就可以先不关注A与B之间的具体因果关系,而从两者在数据上表现的相关关系解决问题。当然大数据技术并非完全否认因果关系,而是强调先通过相关关系解决问题,因果关系可以在后期慢慢研究。
供参考。
❼ 如何运用大数据来分析各类日志事件之间的关联关系
大数据和crm的关系?这主题不明确。大数据的数据一般来自于crm并且服务于crm,这也是很多做版crm的比如说rushcrm把数权据分析当做一个点在深入挖掘,因为大数据里面的数据怎么来的,就是平时crm管理一点一滴累积来的,同时大数据最终服务的对象说到底也是为了企业的crm管理,所以我个人认为,这种关系是一个因果循环的关系,而不简单的是一个因为所以的关系
❽ 大数据的弱点主要是精确性 可靠性 因果性 多样性吗
容量(Volume):数据的大小决定所考虑的数据的价值和潜在的信息;
种类(Variety):数据类型的多样性;
速度(Velocity):指获得数据的速度;
可变性(Variability):妨碍了处理和有效地管理数据的过程。
真实性(Veracity):数据的质量
复杂性(Complexity):数据量巨大,来源多渠道
价值(value):合理运用大数据,以低成本创造高价值
❾ 大数据分析中,因果和关联的区别和联系是什么
严格的说,应该是因果和相关的区别和联系。
1、它们之间,区别有个本质的版地方,因果必权然是相关,但相关未必是因果。
例如:
光照时间和水果含糖量之间,是因果关系,光照时间越长,光合作用产生的糖越多,水果就越甜。所以数据上看,光照时间和水果含糖量之间的数据,相关系数比较高。
光照时间和太阳能发电量之间,也是因果关系。光照时间越长,太阳能发电量就越多。但是数据上,太阳能发电量和水果的含糖量之间,都表现为随着光照时间越长数值越大,所以他们之间的相关系数也很高,却不能认为水果含糖量与太阳能发电量之间存在因果关系。
2、这样,就牵引出因果和相关之间,它们的联系,就是2者从数据上来看相关系数都比较高。