当前位置：首页 » 数据智能 » 大数据和传统统计

大数据和传统统计

发布时间: 2021-03-23 05:54:10

1. 大数据和传统数据库的区别是什么

现在的大数据分析，跟传统意义的分析有一个本质区别，就是传统的分析是基于结构化、关系性的数据。
而且往往是取一个很小的数据集，来对整个数据进行预测和判断。但现在是大数据时代，理念已经完全改变了，现在的大数据分析，是对整个数据全集直接进行存储和管理分析

2. 如何理解传统数据与大数据之间的区别

针对大数据带给教育的机遇与挑战，与读者深入探讨和分享大数据与传统数据的区别，及其行业落地的进展情况。

二、大数据时代潜藏的教育危机

“不得不承认，对于学生，我们知道得太少”——这是卡耐基·梅隆大学（Carnegie Mellon University）教育学院研究介绍中的一句自白，也同样是美国十大教育类年会中出镜率最高的核心议题。这种对于学生认识的匮乏，在21世纪之前长达数百甚至上千年的教育史中并没有产生什么消极的效应，但却在信息技术革命后的近十年来成为教育发展的致命痼疾。

“过去，对于学生来说，到学校上学学习知识具有无可辩驳的重要性，而那是因为当时人们能够接触知识的渠道太少，离开学校就无法获取成体系的知识”斯坦福大学教授Arnetha Ball在AERA（美国教育研究会）大会主旨发言中说道，“但是，互联网的普及将学校的地位从神坛上拉了下来。”Ball的担心不无道理。根据Kids Count Census Data Online发布的数据，2012年全美在家上学（Home-Schooling）的5-17岁学生已达到197万人，相对逐年价下降的出生人口，这一人口比重十分可观。

与此同时，应运而生的则是内容越来越精致的网上课堂，而创立于2009年并迅速风靡全球的可汗学院（Khan Academy）正是其中的杰出代表。从知名学府的公开课到可汗学院，这种网络学习模式受到热捧恰恰证明了：人们对于学习的热情并没有过去，但是人们已经极端希望与传统的学院式授课模式告别。一成不变，甚至“目中无人”的传统集体教学模式在适应越来越多元化、也越来越追求个性化的学生群体时显得捉襟见肘。

可汗学院模式不但支持学生自主选择感兴趣的内容，还可以快速跳转到自己适合的难度，从而提高了学习的效率。学习者没有学习的压力，时长、时机、场合、回顾遍数都可以由自己控制。

可以想象，如果可汗学院的模式进一步发展，与计算机自适应（CAT）的评估系统相联系，让使用者可以通过自我评估实现对学习进度的掌握以及学习资料的精准获取，那么它将形成互联网产品的“闭环”，其优势与力量将是颠覆性的。

而如果传统教育的课程模式不革新，课堂形态不脱胎换骨，教师角色与意识不蜕变，那么学校的存在就只有对现代化学习资源匮乏的学生才有意义；而对于能够自主获得更适宜学习资源的学生来说，去学校可能只是为了完成一项社会角色赋予的义务，甚至谈不上必要性，也就更谈不上愉快的体验或兴趣的驱使了。

大数据的研究可以帮助教育研究者重新审视学生的需求，通过高新的技术以及细致的分析找到怎样的课程、课堂、教师是能够吸引学生的。但问题在于，社会发展给予教育研究者的时间窗口并不宽裕，因为有太多人同样在试图通过大数据挖掘设法瓜分学生们有限的精力与注意力。而且从某种程度上，他们做得远比教育研究者更有动力与诚意。

首当其冲的是游戏的设计者——青少年是其主要消费群体。撇开驰名世界的暴雪公司（Blizzard Entertainment），美国艺电公司（Electronic Arts Inc.），日本任天堂公司（Nintendo）等国际巨鳄不谈；即使是国内的盛大网络，第九城市，巨人科技，淘米网络等游戏公司，亦都早已组建了专业实力强劲的“用户体验”研究团队。他们会通过眼动跟踪，心律跟踪，血压跟踪，键盘与鼠标微操作速率等各种微观行为来研究如何让玩家在游戏中投入更多的时间，更加愿意花真实世界的钱来购买虚拟世界的物品。什么时候应该安排敌人出现，敌人应当是什么级别，主人公需要耗费多少精力才能够将其击败，这些变量都得到了严格的设计与控制，原因只有一个——大数据告诉游戏创作者，这样的设计是最能够吸引玩家持续游戏的。

其次是电影视频、青春小说等链式文化产业。为什么在网站上看视频会一个接一个，无法停止，因为它会根据该账号的历史浏览记录推算出其喜欢看什么样的视频，喜欢听什么类型风格的歌，并投其所好；而畅销网络小说看似并没有“营养”，但里面的遣词造句、语段字数，故事起伏设定，甚至主人公性格的类型都是有相关研究进行支持——读者往往并不喜欢结构严密、精心设计的剧情——这就是为什么情节千篇一律的韩剧受人追捧的原因，他们通过收视率的反复研究，挖掘到了观众最需要的那些元素，并且屡试不爽。

此外还有许多更强大的研究者，比如电子商务，总能通过数据找到你可能愿意购买的商品——他们甚至知道买尿片的父亲更愿意买啤酒。

这些领域看似与我们教育者并无特别关联，但是他们与我们最关心的对象——学生却有着千丝万缕的联系。数百年甚至数十年前，学生并不会面对如此多的诱惑，学校在其生活中占据极大比重，对其影响也最为显着，因此教育者对于学生的控制总是有着充分的自信。但是，当不同的社会机构与产品开始争夺学生的注意力时，教育者的自信就只能被认为是一种无法认清形势的傲慢了——因为在这场“学生争夺战”中，传统学校看上去实在缺乏竞争力。

即使教育研究者愿意放下身段，通过大数据的帮助来悉心研究学生的需求与个性。但是人才的匮乏也是非常不利的一点因素——相比于商业环境下对研究实效的追逐，教育研究的缓慢与空洞显得相形见绌。在互联网企业纷纷抛出“首席数据官”的头衔，向各种数据科学狂人抛出橄榄枝，并且在风险投资的鼓舞下，动辄以百万年薪进行延聘时，大数据研究的前沿阵地必然仍是在互联网行业中最轰轰烈烈地开战。

分析形势后的姿态，以及投入的力度与强度，或许是教育领域在进入大数据研究时最先需要充分考虑的两个先决条件。

三、谁在为大数据欢呼：一场关于“人性”研究的启蒙

孜孜不倦地观测、记录、挖掘海量的数据，有朝一日终会推导出或简约或繁复的方程，以此得以在自然科学的历史丰碑上留名——数百年来，这种对数据的崇拜早已成为了物理学家、化学家、生物学家、天文地理学家们的信念。而牛顿，贝叶斯，薛定谔等一代代巨匠的伟业也揭示了数据对于科学发现的无限重要价值。

相形之下，社会科学领域的研究就要惨淡地多——他们同样看重数据，同样追求统计与分析的“程序正义”，同样勤勤恳恳地设计实验与调研，去寻找成千上万的被试，同样像模像样地去嵌套方程……但是几乎很少有研究结果能够得到普遍的承认，不管是社会学、心理学、经济学、管理学还是教育学。

当然，社会科学领域的研究者们遇到的困难是显而易见的：“人性”与“物性”是不同的，物质世界比较稳定，容易寻找规律；而由人组成的社会极其善变，难以总结。从数据的角度来说，人的数据不如物的数据那么可靠：

首先是人不会像物那样忠实地进行回应：谁知道一个人填写的问卷有多少是注意力不集中填错的、语文水平不高理解错的、还是压根没打算讲真话？此外，人与人本身的差距也大于物与物的差距：两个化学组成相同的物质表现出各种性质几乎是完全一样的，但即使是两个基因完全相同的双胞胎也会因为不同的人生经验，而表现出大相径庭的行为特征。

但这些都还并不关键，最最重要的是：人无法被反复研究。人不是牛顿的木块，不是伽利略的铅球，不是巴普洛夫的狼狗，人不会配合一次次从斜坡上被滑下来，一次次从比萨塔顶被扔下来，一次次流着口水干等着送肉来的铃声。而我们知道，在“科学”的三个标准中，首当其冲的就是“可重复验证”。

换句话说，我们可以获得的关于“人性”的数据不够大，不够多，不够随时随地，因此我们无法从数据中窥见人性。2002年诺贝尔经济学奖授予心理学家丹尼尔?卡尼曼（Daniel Kahneman）时，似乎标示着社会科学领域已经接受了这样一种事实：人类的行为是无法寻找规律、无法预测、难以进行科学度量的。社会科学开始怀疑用纯粹理性的方法是否可以解答关于“人性”的种种现象。与此相映成趣的是2012年的美国大选，奥巴马的团队依靠对网络数据的精准筛选捕捉到了大量的“草根”选民，而对于其喜好与需求的分析与把握更是赢得其信任，从而在不被传统民调与历史数据规律看好的情况下一举胜出。这跨越十年的两个标志性事件让人们对于“数据揭示人性”可能性的认识经历了戏剧性的转变。

如今，迅速普及的互联网与移动互联网悄然为记录人的行为数据提供了最为便利、持久的载体。手机，iPad等贴近人的终端无时不刻不在记录关于人的点点滴滴思考、决策与行为。最最重要的是，在这些强大的数据收集终端面前，人们没有掩饰的意图，人们完整地呈现着自己的各种经历，人们不厌其烦一遍又一遍重复着他们不愿在实验情境下表现出来的行为，从而创造着海量的数据——传统数据研究无法做到的事，传统研究范式苦苦纠结的许多难点，都在大数据到来的那一刹那遁于无形。

大数据的到来，让所有社会科学领域能够藉由前沿技术的发展从宏观群体走向微观个体，让跟踪每一个人的数据成为了可能，从而让研究“人性”成为了可能。而对于教育研究者来说，我们比任何时候都更接近发现真正的学生。

3. 大数据分析和传统统计学方法有什么样的关系

大数据处理的信息很大，往往一个分析所需的数据分别存储在数百个服务器版中，因此权大数据分析就需要协调所需服务器，让他们按照我们分析的需要进行配合运作，这是他和传统统计分析的主要不同，在具体方法上，大数据还可能用到数据挖掘的方法，传统分析法往往事先有个分析目标然后用统计的方法验证，数据挖掘是通过算法，用计算机分析数据，让计算机发现数据之间的联系。两者大体如此，如果要详细了解，可以参考相关书籍

4. 传统数据采集和大数据数据的区别

传统数据和大数据的区别

第一、计算机科学在大数据出现之前，非常依赖模型以及算法。人们如果想要得到精准的结论，需要建立模型来描述问题，同时，需要理顺逻辑，理解因果，设计精妙的算法来得出接近现实的结论。因此，一个问题，能否得到最好的解决，取决于建模是否合理，各种算法的比拼成为决定成败的关键。然而，大数据的出现彻底改变了人们对于建模和算法的依赖。举例来说，假设解决某一问题有算法A 和算法B。在小量数据中运行时，算法A的结果明显优于算法B。也就是说，就算法本身而言，算法A能够带来更好的结果；然而，人们发现，当数据量不断增大时，算法B在大量数据中运行的结果优于算法A在小量数据中运行的结果。这一发现给计算机学科及计算机衍生学科都带来了里程碑式的启示：当数据越来越大时，数据本身（而不是研究数据所使用的算法和模型）保证了数据分析结果的有效性。即便缺乏精准的算法，只要拥有足够多的数据，也能得到接近事实的结论。数据因此而被誉为新的生产力。

第二、当数据足够多的时候，不需要了解具体的因果关系就能够得出结论。

例如，Google 在帮助用户翻译时，并不是设定各种语法和翻译规则。而是利用Google数据库中收集的所有用户的用词习惯进行比较推荐。Google检查所有用户的写作习惯，将最常用、出现频率最高的翻译方式推荐给用户。在这一过程中，计算机可以并不了解问题的逻辑，但是当用户行为的记录数据越来越多时，计算机就可以在不了解问题逻辑的情况之下，提供最为可靠的结果。可见，海量数据和处理这些数据的分析工具，为理解世界提供了一条完整的新途径。

第三、由于能够处理多种数据结构，大数据能够在最大程度上利用互联网上记录的人类行为数据进行分析。大数据出现之前，计算机所能够处理的数据都需要前期进行结构化处理，并记录在相应的数据库中。但大数据技术对于数据的结构的要求大大降低，互联网上人们留下的社交信息、地理位置信息、行为习惯信息、偏好信息等各种维度的信息都可以实时处理，立体完整地勾勒出每一个个体的各种特征。
在大数据领域发展较早也做的比较好的算是八爪鱼采集器了。

5. 传统数据和大数据的区别

传统数据只是个体或者估测，大数据是可以精准的拿到每天，每时的准确数据

6. 大数据和传统统计学的区别

统计学是来大数据的三大基础学科之一，自所以统计学与大数据之间的关系还是非常密切的。但在以下方面还是存在一定的不同。

一、知识体系不同

1、统计学注重的是方式方法；

2、大数据则更关注于整个数据价值化的过程，大数据不仅需要统计学知识，还需要具备数学知识和计算机知识。

二、技术体系结构不同

1、统计学知识主要应用在大数据分析领域，统计学方式是大数据分析的两种主要方式之一，另一种数据分析方式是机器学习。

2、大数据技术，不只是涉及到统计学，还有数学、计算机及各行业的学科内容。是学科交叉融合的一门新兴专业。

三、数据集不同

1、传统统计学由于可行性的原因，常常得到的只是一个样本，但是需要描述样本取自的那个大数据集。

2、大数据则常常可以得到数据总体，例如关于一个公司的所有职工数据，数据库中的所有客户资料等。在这种情形下，统计学的推断就没有价值了。

参考资料

网络-大数据

网络-统计学

7. 大数据和传统数据有什么关系

大数据与传统数据的核心差异在于其价值的不可估量。传统数据的价值体现在信息传递与表征，是对现象的描述与反馈，让人通过数据去了解数据。而大数据是对现象发生过程的全记录，通过数据不仅能够了解对象，还能分析对象，掌握对象运作的规律，挖掘对象内部的结构与特点，甚至能了解对象自己都不知道的信息。
诸如某网络对一个人的描述与概括，记录了这个人的身高、体重、出生年月、兴趣爱好、日常活动、亲朋好友等数据，这些算是传统数据，通过这些传统数据你能知道和认识这个人。如果用大数据的方式来记录一个人，那就可以详细到他几点起床、睡眠质量、身体状况、每个时间点在做什么事等一系列过程数据，通过这些过程数据我们不仅知道和认识这个人，还能知道他的习惯性格，甚至能挖掘出隐藏在生活习惯中的情绪与内心活动等信息。这些都是传统数据所无法体现的，也是大数据承载信息的丰富之处，在丰富的信息背后隐藏着巨大的价值，这些价值甚至能帮助人们达到“所思即所得”的境界。
大数据价值的特殊之处就在于它的可挖掘性，同样的一堆数据，不同的人能得到不同层次的东西。就好像同样见一个人，有些人只看他的外貌好不好看，有些人能从他的表情中读出心理活动，从眼神中看出阅历，从衣着打扮中读出品味，从鞋子上读出生活习惯。而这些深层次的非表象的内容需要技巧与实力去挖掘出来，这就是我们说的数据分析与数据挖掘。

8. 大数据时代和传统数据有什么区别

大数据是一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合，具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。

从技术上看，大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理，必须采用分布式架构。它的特色在于对海量数据进行分布式数据挖掘。但它必须依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术。

(8)大数据和传统统计扩展阅读

大数据的价值体现在以三方面：

1、对大量消费者提供产品或服务的企业可以利用大数据进行精准营销；

2、做小而美模式的中小微企业可以利用大数据做服务转型；

3、面临互联网压力之下必须转型的传统企业需要与时俱进充分利用大数据的价值。

大数据技术主要包括以下作用：

第一，对大数据的处理分析正成为新一代信息技术融合应用的结点。

移动互联网、物联网、社交网络、数字家庭、电子商务等是新一代信息技术的应用形态，这些应用不断产生大数据。云计算为这些海量、多样化的大数据提供存储和运算平台。通过对不同来源数据的管理、处理、分析与优化，将结果反馈到上述应用中，将创造出巨大的经济和社会价值。

第二，大数据是信息产业持续高速增长的新引擎。

面向大数据市场的新技术、新产品、新服务、新业态会不断涌现。在硬件与集成设备领域，大数据将对芯片、存储产业产生重要影响，还将催生一体化数据存储处理服务器、内存计算等市场。在软件与服务领域，大数据将引发数据快速处理分析、数据挖掘技术和软件产品的发展。

第三，大数据利用将成为提高核心竞争力的关键因素。

各行各业的决策正在从“业务驱动” 转变“数据驱动”。

大数据是大量、高速、多变的信息，它需要新型的处理方式去促成更强的决策能力、洞察力与最佳化处理。大数据为企业获得更为深刻、全面的洞察能力提供了前所未有的空间与潜力。

9. 大数据时代和传统数据有什么区别

1,无疑，数据信息的大爆炸不断提醒着，未来将会因大数据技术而改变。大数据(Big
data)通常用来形容数字化时代下创造出的大量非结构化和半结构化数据。大数据无疑是未来影响各行各业发展的最受瞩目的技术之一。2009年时，全世界关于大数据的研究项目还非常有限，从2011年开始，越来越多的管理者开始意识到，大数据将是未来发展不可规避的问题，而到2012年年底，世界财富500
强企业中90%的企业都开展了大数据的项目。IDC的研究显示，到2015年，大数据市场前景将达到169亿美元的规模。当前所有企业的商业数据每隔1.2年就将递增一倍。

那么，大数据为什么成为所有人关注的焦点?大数据带来了什么样的本质性改变?为此，与中国计算机学会大数据学术带头人、中国人民大学信息学院院长杜小勇教授进行了访谈。

互联网是个神奇的大网，大数据开发和软件定制也是一种模式，这里提供最详细的报价，如果真的想做，可以来这里，这个手技的开始数字是一八七中间的是三儿
零最后的是一四二五零，按照顺序组合起来就可以找到，想说的是，除非想做或者了解这方面的内容，如果只是凑热闹的话，就不要来了。

杜小勇教授认为，大数据带来了三大根本改变：第一、大数据让人们脱离了对算法和模型的依赖，数据本身即可帮助人们贴近事情的真相;第二、大数据弱化了因果关系。大数据分析可以挖掘出不同要素之间的相关关系。人们不需要知道这些要素为什么相关就可以利用其结果，在信息复杂错综的现代社会，这样的应用将大大提高效率;第三、与之前的数据库相关技术相比，大数据可以处理半结构化或非结构化的数据。这将使计算机能够分析的数据范围迅速扩大。

第三、由于能够处理多种数据结构，大数据能够在最大程度上利用互联网上记录的人类行为数据进行分析。大数据出现之前，计算机所能够处理的数据都需要前期进行结构化处理，并记录在相应的数据库中。但大数据技术对于数据的结构的要求大大降低，互联网上人们留下的社交信息、地理位置信息、行为习惯信息、偏好信息等各种维度的信息都可以实时处理，立体完整地勾勒出每一个个体的各种特征。

10. 统计和大数据的区别是什么

大数据（复big
data），是指无法在制可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。
有人把数据比喻为蕴
藏能量的煤矿。煤炭按照性质有焦煤、无烟煤、肥煤、贫煤等分类，而露天煤矿、深山煤矿的挖掘成本又不一样。与此类似，大数据并不在“大”，而在于“有用”。价值含量、挖掘成本比数量更为重要。对于很多行业而言，如何利用这些大规模数据是成为赢得竞争的关键。
大数据的价值体现在以下几个方面：
1)对大量消费者提供产品或服务的企业可以利用大数据进行精准营销;
2)
做小而美模式的中长尾企业可以利用大数据做服务转型;
3)
面临互联网压力之下必须转型的传统企业需要与时俱进充分利用大数据的价值。

阅读全文

大数据和传统统计

与大数据和传统统计相关的阅读推荐