我国大数据的发展历程
⑴ 大数据发展背景及研究现状
2015年左右,大数据相关政策规划密集出台,同期为大数据企业新增数量顶峰时期。近年来,我国大数据产业迎来新的发展机遇期,产业规模日趋成熟。大数据产业主体从“硬”设施向“软”服务转变的态势将更加明显,面向金融、政务、电信、医疗等领域的大数据服务将实现倍增创新。
大数据企业数量持续增长,增速与政策出台密切相关
根据IT桔子统计,大数据企业的快速增长阶段出现在2013-2015年,增长速度在2015年达到最高峰。2015年后,市场日趋成熟,企业新增开始趋于放缓,大数据产业逐渐走向成熟。
—— 以上数据及分析均来自于前瞻产业研究院《中国大数据产业发展前景与投资战略规划分析报告》。
⑵ 大数据的发展趋势是怎样的
1.数据分析成为大数据技术的核心 数据分析在数据处理过程中占据十分重要的位置,随着时代的发展,数据分析也会逐渐成为大数据技术的核心。大数据的价值体现在对大规模数据集合的智能处理方面,进而在大规模的数据中获取有用的信息。要想逐步实现这个功能,就必须对数据进行分析和挖掘。而数据的采集、存储、和管理都是数据分析步骤的基础,通过进行数据分析得到的结果,将应用于大数据相关的各个领域。未来大数据技术的进一步发展,与数据分析技是密切相关的
2.广泛采用实时性的数据处理方式 在现如今人们的生活中,人们获取信息的速度较快。为了更好地满足人们的需求,大数据处理系统的处理方式也需要不断地与时俱进。目前大数据的处理系统采用的主要是批量化的处理方式,这种数据处理方式有一定的局限性,主要是用于数据报告的频率不需要达到分钟级别的场合,而对于要求比较高的场合,这种数据处理方式就达不到要求。传统的数据仓库系统、链路挖掘等应用对数据处理的时间往往以小时或者天为单位。这与大数据自身的发展有点不相适应。大数据突出强调数据的实时性,因而对数据处理也要体现出实时性。如在线个性化推荐、股票交易处理、实时路况信息等数据处理时间要求在分钟甚至秒极。要求极高。在一些大数据的应用场合,人们需要及时对获取的信息进行处理并进行适当的舍弃,否则很容易造成空间的不足。在未来的发展过程中,实时性的数据处理方式将会成为主流,不断推动大数据技术的发展和进步。
3.基于云的数据分析平台将更加完善 近几年来,云计算技术发展的越来越快,与此相应的应用范围也越来越宽。云计算的发展为大数据技术的发展提供了一定的数据处理平台和技术支持。云计算为大数据提供了分布式的计算方法、可以弹性扩展、相对便宜的存储空间和计算资源,这些都是大数据技术发展中十分重要的组成部分。此外,云计算具有十分丰富的IT资源、分布较为广泛,为大数据技术的发展提供了技术支持。随着云计算技术的不断发展和完善,发展平台的日趋成熟,大数据技术自身将会得到快速提升,数据处理水平也会得到显著提升。
4.开源软件的发展将会成为推动大数据技术发展的新动力 开源软件是在大数据技术发展的过程中不断研发出来的。这些开源软件对各个领域的发展、人们的日常生活具有十分重要的作用。开源软件的发展可以适当的促进商业软件的发展,以此作为推动力,从而更好地服务于应用程序开发工具、应用、服务等各个不同的领域。虽然现如今商业化的软件也是发展十分迅速,但是二者之间并不会产生矛盾,可以优势互补,从而共同进步。开源软件自身在发展的同时,为大数据技术的发展贡献力量。
⑶ 谈谈我国大数据发展面临着哪些制约因素
1.很少有优质可用的数据
这几年数据交易机构如雨后春笋,“数据变现”成为很多拥有数据积累的传统企业的新的生财法。目前,我国大数据需求端以互联网企业为主,覆盖面不广,在O2O趋势下,大型互联网厂商尝试引入外部数据支撑金融、生活、语音、旅游、健康和教育等多种服务。
然而在具体的领域或行业内,我国普遍未形成成型的数据采集、加工、分析和应用链条,大量数据源未被激活,大多数数据拥有者没有数据价值外化的路径。比如,各医疗健康类应用收集了大量的数据,但没有像那样面向医药公司售卖数据。与国外相比我国的政府、公共服务、农业应用基本缺位,电信和银行业更缺少与外部数据的碰撞。
另外,其实数据交易这件事本身就是一个悖论。数据作为一种商品有一定的特殊性,我用了别人也可以用,没有任何消耗,可以在市场卖很多遍。这就产生一个问题,你这个数据到市场卖,根据经济学观点它的价值是零,你卖给我我可以用更低的价格卖给别人,所以数据交易理论上来说也是不可行的。
大数据概念火了以后,很多机构觉得数据存起来就是宝,于是积攒了大量零碎数据放在那里,到底能发挥什么作用也未可知。而在和许多真正想用数据做些事情的机构的合作中我们发现,即便是政府机构这样的权威数据持有方,也存在很多数据缺失、数据错误、噪音多各方面的问题。
我们常常在讲大数据就用大数据方法,小数据就用小数据方法,完美的数据是永远等不来的。但这样会导致什么问题呢?在实际项目实施过程中,我们的数据科学家们不得不花费大量时间在数据清洗上,这其实是对本来就紧缺的数据人员的一种浪费。
理论上我们中国有很多数据,但不同部门数据存在在不同的地方,格式也不一样。政府内部本身整合各部门的数据就已经是一件很头大的事情,更不要提大规模的数据开放。同时数据开放面临一个严重问题就是隐私问题,脱敏远远不够,隐私问题是一个无底洞。比如我们把一个人的支付宝3个月数据拿过来,就可以很轻易的知道这个人今天在门口便利店买了一瓶水,昨天在淘宝买了沙发,每隔三个月会有一笔万元的支出。那我们就可以很容易推断这个人刚换了一个租房子的地方,就能了解他的消费习惯。这个数据其实完全是脱敏的,没有名字、没有号码,但丝毫不妨碍我们通过算法完全的勾勒出这个人的画像。
2.实际技术与业务之间还有很大距离
大数据行业发展至今,技术与业务之间依然存在巨大着鸿沟。首先,就是数据分析技术本身。数据源企业为实现数据价值变现,尝试多种方法,甚至自己组建数据分析团队,可是数据分析是个技术活,1%的误差都会极大地影响市场份额,术业有专攻,数据变现还是需要专业的数据分析人才来实现。
大数据概念的火热,做大数据的公司越来越多,产品做得五花八门,数据建模看似谁都可以涉足,但现在数据分析的技术,方法,模型,算法都有了非常大的改进,跟过去六七十年代完全不一样,不是说做几个SAAS软件或者RAAS软件就是大数据了,虽然短期看市场火热,但长远来说这条路是走不通的,大数据行业发展,技术才是真正的发力点,提高行业准入门槛尤为重要。
其次中国的数据有它的特色,例如在金融行业,目前大部分银行采用的是风险评分卡,运用专家经验定义风险变量,基于定性认识进行评分,通过事后风险回检优化评分卡,风险预警功能较差。虽然央行征信中心与国内少数技术领先银行使用的是风险评分模型,但模型方法相对陈旧,如央行所用FICO评分模型为上世纪80年代基于逻辑回归算法构建的评分体系,逻辑回归算法适合处理线性数据,但实际问题往往是非线性的,特别是信用风险评估场景下。此外,FICO模型没有针对我国具体业务进行场景细分,建模逻辑并不完全符合我国实际情况,因此导致准确率不足,风险预警能力差。基于此,中国人民银行征信中心首次与国内大数据公司合作,这次合作中普林科技应用国际领先的大数据建模分析技术运用决策树随机森林,AdaBOOST,GBDT,SVM等算法,通过对信用报告的数字化解读与深入洞察,准确预测了违约风险,对贷款审批、贷中管理形成指导,新模型对好坏账户的区分度远高于行业平均水平。此次合作表明我国的大数据难题更需要适应国情的解决方案与本土的技术人才,这对我们的市场提出了一个新问题。
3.人才稀缺
我们国家大数据发展最大的优势就是市场大,最大的劣势恰巧就是缺乏相应人才,人才缺乏的程度非常严重。首先在国际市场方面,我们要跟国外公司争人才,然而国外大数据行业同样十分火热。而不论在国内还是国外,跟企业竞争人才都是一项艰巨的事业,比如在世界上最好的大学之一的美国普林斯顿大学,想找数学家也是非常困难,人才很容易被大公司挖走,每年都有非常好的数据分析人才被企业挖走。所以人才难觅不只是口头说说,更是一个亟待解决的问题 大数据是一个交叉学科,涉及统计学,管理编程等多学科,知识点复杂,缺乏系统的学习教程。
⑷ 大数据的发展趋势有哪些
——更多数据来源及分析请参考于前瞻产业研究院《中国大数据产业发展前景与投资战略规划分析报告》。
大数据与AI、5G、IoT等应用为公有云创造了巨大的需求,扮演着大数据基础设施服务提供者的角色,在大数据核心诉求的存储和计算能力上给予不可或缺的支撑。
大数据又赋能公有云行业的发展,将更好地参与到行业应用与数据变现的发展,催生大量的行业应用,为云服务未来扩充发展提供想象空间。积极的国家政策将持续推动各行业企业积极上云,拥抱数字化转型,公有云服务应用场景特别是数据应用不断拓宽。
近几年我国云计算行业的市场规模和渗透率均在持续增长,使得我国公有云市场进入了一个新的发展阶段。除此之外,在5G商用以及AI等技术发展的推动下,我国公有云市场规模始终保持高速增长趋势,根据中国信息通信研究院的数据统计,2018年,中国公有云市场规模达到437.4亿元,较2017年增长65.2%。
2012-2018年中国公有云市场规模统计及增长情况
数据来源:前瞻产业研究院整理
⑸ 现在大数据的发展趋势
主要有几点发展趋势:
一是流式架构的更替,最早大数据生态没有办法统一批处理和流计算,只能采用Lambda架构,批的任务用批计算引擎,流式任务采用流计算引擎,比如批处理采用MapRece,流计算采用Storm。后来Spark试图从批的角度统一流处理和批处理,近年来纯流架构的Flink异军突起,由于其架构设计合理,生态健康,近年来发展特别快。
二是大数据技术的云化,一方面是公有云业务的成熟,众多大数据技术都被搬到了云上,其运维方式和运行环境都发生了较大变化,带来计算和存储资源更加的弹性变化,另一方面,私有部署的大数据技术也逐渐采用容器、虚拟化等技术,期望更加精细化地利用计算资源。
三是异构计算的需求,近年来在通用CPU之外,GPU、FPGA、ASIC等芯片发展迅猛,不同芯片擅长不同的计算任务,大数据技术开始尝试根据不同任务来调用不同的芯片,提升数据处理的效率。
四是兼容智能类的应用,随着深度学习的崛起,AI类的应用越来越广泛,大数据的技术栈在努力兼容AI的能力,通过一站式的能力来做数据分析和AI应用,这样开发者就能在一个工具站中编写SQL任务,调用机器学习和深度学习的算法来训练模型,完成各类数据分析的任务。
⑹ 现在大数据分析的发展前景怎么样
现状大数据的前景十分的好,随着大数据应用于各行各业,并正在改变着各行各业,同时也引领大数据人才的变革,在国家及当地政府支持下,大数据在企业中生根发芽,开花结果。在未来的三至五年,中国还将需要180万数据人才,但目前大约有30万人。到2020年,企业日后发展将基于大数据计算分析、数据挖掘、数据分析等数据产业的发展,我国也将更加需要更多的数据人才。
⑺ 大数据时代发展历程是什么
可按照时间点划分大数据的发展历程。
⑻ 近几年来我国大数据市场发展为何如此迅速
流式处理占主导地位,Kafka和Spark成为主流应用
根据数据处理的时效性,大数据处理系统可以分为批式(batch)大数据和流式(streaming)大数据两类。其中,批式大数据又被称为历史大数据,流式大数据又被称为实时大数据。
以Hadoop为代表的批处理大数据系统需先将数据汇聚成批,经批量预处理后加载至分析型数据仓库中,以进行高性能实时查询。这类系统虽然可对完整大数据集实现高效的即席查询,但无法查询到最新的实时数据,存在数据迟滞高等问题。
以Spark Streaming、Storm、Flink为代表的流处理大数据系统将实时数据通过流处理,逐条加载至高性能内存数据库中进行查询。此类系统可以对最新实时数据实现高效预设分析处理模型的查询,数据迟滞低。
随着互联网、计算机行业快速发展,企业对数据的时效性越发重视,企业应用也逐渐由批处理数据平台向实时的流数据数据平台转移。以流数据处理为代表的Spark、kafka大数据系统近年来大放异彩,取代了Hadoop的主导地位。
更多数据参考前瞻产业研究院发布的《中国大数据产业发展前景与投资战略规划分析报告》
⑼ 我国大数据的发展情况和现状分别是什么 简述
(一)市场规模快速增长,供给结构初步形成
市场规模快速增长。十二五以来,我国大数据产业从无到有,全国各地发展大数据积极性较高,行业应用得到快速推广,市场规模增速明显。易观国际数据显示,2011-2014年,我国大数据市场规模分别为37.4亿元、47.3亿元、59亿元和75.7亿元,年平均复合增长约为27%。易观国际同时预测,2015、2016年我国大数据市场规模将保持约30%的增长速度,在十二五末市场规模接近100亿元。