twitter大数据消息提供
1. 在大数据背景下,信息想提供有价值的知识必须满足什么条件呢
(1)数据和信息是可解释的。因为大数据包含诸多非结构化数据和不同媒体类型数据,导致其中的大量数据和信息不可解释。
(2)信息必须是与用途和价值紧密相关的。通常情况下,相关信息会被视为信号,而不相关信息则被看作噪音。然而,关联性的主观色彩比较浓,对某人至关重要的信息可能与和另一个人完全无关。
(3)信息必须是新鲜的、“刚出炉”的、有远见的。这就意味着它必须提供一些你以前不曾掌握的新知识。
2. 大数据分析的框架有哪些,各自有什么特点
主流的大数据分析平台构架
1 Hadoop
Hadoop 采用 Map Rece 分布式计算框架,根据 GFS开发了 HDFS 分布式文件系统,根据 Big Table 开发了 HBase数据存储系统。Hadoop 的开源特性使其成为分布式计算系统的事实上的国际标准。Yahoo,Facebook,Amazon 以及国内的网络,阿里巴巴等众多互联网公司都以 Hadoop 为基础搭建自己的分布。
2 Spark
Spark 是在 Hadoop 的基础上进行了一些架构上的改良。Spark 与Hadoop 最大的不同点在于,Hadoop 使用硬盘来存储数据,而Spark 使用内存来存储数据,因此 Spark 可以提供超过 Ha?doop 100 倍的运算速度。由于内存断电后会丢失数据,Spark不能用于处理需要长期保存的数据。
3 Storm
Storm是 Twitter 主推的分布式计算系统。它在Hadoop的基础上提供了实时运算的特性,可以实时的处理大数据流。不同于Hadoop和Spark,Storm不进行数据的收集和存储工作,它直接通过网络实时的接受数据并且实时的处理数据,然后直接通过网络实时的传回结果。
4Samza
Samza 是由 Linked In 开源的一项技术,是一个分布式流处理框架,专用于实时数据的处理,非常像Twitter的流处理系统Storm。不同的是Sam?za 基于 Hadoop,而且使用了 Linked In 自家的 Kafka 分布式消息系统。
Samza 非常适用于实时流数据处理的业务,如数据跟踪、日志服务、实时服务等应用,它能够帮助开发者进行高速消息处理,同时还具有良好的容错能力。
3. 什么是大数据时代
大数据时代
(巨量资料(IT行业术语))
编辑
最早提出“大数据”时代到来的是全球知名咨询公司麦肯锡,麦肯锡称:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。” “大数据”在物理学、生物学、环境生态学等领域以及军事、金融、通讯等行业存在已有时日,却因为近年来互联网和信息行业的发展而引起人们关注。
中文名
大数据时代
外文名
Big data
提出者
麦肯锡
类 属
科技名词
目录
1 产生背景
2 影响
▪ 大数据
▪ 大数据的精髓
▪ 数据价值
▪ 可视化
3 特征
4 案例分析
5 产业崛起
6 提供依据
7 应对措施
产生背景
编辑
进入2012年,大数据(big data)一词越来越多地被提及,人们用它来描述和定义信息爆炸时代产生的海量数
大数据时代来临
据,并命名与之相关的技术发展与创新。它已经上过《纽约时报》《华尔街日报》的专栏封面,进入美国白宫官网的新闻,现身在国内一些互联网主题的讲座沙龙中,甚至被嗅觉灵敏的国金证券、国泰君安、银河证券等写进了投资推荐报告。[1]
数据正在迅速膨胀并变大,它决定着企业的未来发展,虽然很多企业可能并没有意识到数据爆炸性增长带来问题的隐患,但是随着时间的推移,人们将越来越多的意识到数据对企业的重要性。
正如《纽约时报》2012年2月的一篇专栏中所称,“大数据”时代已经降临,在商业、经济及其他领域中,决策将日益基于数据和分析而作出,而并非基于经验和直觉。
哈佛大学社会学教授加里·金说:“这是一场革命,庞大的数据资源使得各个领域开始了量化进程,无论学术界、商界还是政府,所有领域都将开始这种进程。”[2]
影响
编辑
大数据
现在的社会是一个高速发展的社会,科技发达,信息流通,人们之间的交流越来越密切,生活也越来越方便,大数据就是这个高科技时代的产物。[3]
随着云时代的来临,大数据(Big data)也吸引了越来越多的关注。大数据(Big data)通常用来形容一个公司创造的大量非结构化和半结构化数据,这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱。大数据分析常和云计算联系到一起,因为实时的大型数据集分析需要像MapRece一样的框架来向数十、数百或甚至数千的电脑分配工作。[2]
在现今的社会,大数据的应用越来越彰显他的优势,它占领的领域也越来越大,电子商务、O2O、物流配送等,各种利用大数据进行发展的领域正在协助企业不断地发展新业务,创新运营模式。有了大数据这个概念,对于消费者行为的判断,产品销售量的预测,精确的营销范围以及存货的补给已经得到全面的改善与优化。[4]
“大数据”在互联网行业指的是这样一种现象:互联网公司在日常运营中生成、累积的用户网络行为数据。这些数据的规模是如此庞大,以至于不能用G或T来衡量。
大数据到底有多大?一组名为“互联网上一天”的数据告诉我们,一天之中,互联网产生的全部内容可以刻满1.68亿张DVD;发出的邮件有2940亿封之多(相当于美国两年的纸质信件数量);发出的社区帖子达200万个(相当于《时代》杂志770年的文字量);卖出的手机为37.8万台,高于全球每天出生的婴儿数量37.1万……[1]
截止到2012年,数据量已经从TB(1024GB=1TB)级别跃升到PB(1024TB=1PB)、EB(1024PB=1EB)乃至ZB(1024EB=1ZB)级别。国际数据公司(IDC)的研究结果表明,2008年全球产生的数据量为0.49ZB,2009年的数据量为0.8ZB,2010年增长为1.2ZB,2011年的数量更是高达1.82ZB,相当于全球每人产生200GB以上的数据。而到2012年为止,人类生产的所有印刷材料的数据量是200PB,全人类历史上说过的所有话的数据量大约是5EB。IBM的研究称,整个人类文明所获得的全部数据中,有90%是过去两年内产生的。而到了2020年,全世界所产生的数据规模将达到今天的44倍。[5] 每一天,全世界会上传超过5亿张图片,每分钟就有20小时时长的视频被分享。然而,即使是人们每天创造的全部信息——包括语音通话、电子邮件和信息在内的各种通信,以及上传的全部图片、视频与音乐,其信息量也无法匹及每一天所创造出的关于人们自身的数字信息量。
这样的趋势会持续下去。我们现在还处于所谓“物联网”的最初级阶段,而随着技术成熟,我们的设备、交通工具和迅速发展的“可穿戴”科技将能互相连接与沟通。科技的进步已经使创造、捕捉和管理信息的成本降至2005年的六分之一,而从2005年起,用在硬件、软件、人才及服务之上的商业投资也增长了整整50%,达到了4000亿美元。[5]
大数据的精髓
大数据带给我们的三个颠覆性观念转变:是全部数据,而不是随机采样;是大体方向,而不是精确制导;是相关关系,而不是因果关系。[6]
A.不是随机样本,而是全体数据:在大数据时代,我们可以分析更多的数据,有时候甚至可以处理和某个特别现象相关的所有数据,而不再依赖于随机采样(随机采样,以前我们通常把这看成是理所应当的限制,但高性能的数字技术让我们意识到,这其实是一种人为限制);
B.不是精确性,而是混杂性:研究数据如此之多,以至于我们不再热衷于追求精确度;之前需要分析的数据很少,所以我们必须尽可能精确地量化我们的记录,随着规模的扩大,对精确度的痴迷将减弱;拥有了大数据,我们不再需要对一个现象刨根问底,只要掌握了大体的发展方向即可,适当忽略微观层面上的精确度,会让我们在宏观层面拥有更好的洞察力;
C.不是因果关系,而是相关关系:我们不再热衷于找因果关系,寻找因果关系是人类长久以来的习惯,在大数据时代,我们无须再紧盯事物之间的因果关系,而应该寻找事物之间的相关关系;相关关系也许不能准确地告诉我们某件事情为何会发生,但是它会提醒我们这件事情正在发生。
数据价值
大数据时代,什么最贵?
十年前,葛大爷曾说过,“21世纪什么最贵?”——“人才”,深以为然。只是,十年后的今天,大数据时代也带来了身价不断翻番的各种数据。由于急速拓展的网络带宽以及各种穿戴设备所带来的大量数据,数据的增长从未停歇,甚至呈井喷式增长。[7]
一分钟内,微博推特上新发的数据量超过10万;社交网络“脸谱”的浏览量超过600万……
这些庞大数字,意味着什么?
它意味着,一种全新的致富手段也许就摆在面前,它的价值堪比石油和黄金。
事实上,当你仍然在把微博等社交平台当作抒情或者发议论的工具时,华尔街的敛财高手们却正在挖掘这些互联网的“数据财富”,先人一步用其预判市场走势,而且取得了不俗的收益。
让我们一起来看看——他们是怎么做的。
这些数据都能干啥。具体有六大价值:
●1、华尔街根据民众情绪抛售股票;
●2、对冲基金依据购物网站的顾客评论,分析企业产品销售状况;
●3、银行根据求职网站的岗位数量,推断就业率;
●4、投资机构搜集并分析上市企业声明,从中寻找破产的蛛丝马迹;
●5、美国疾病控制和预防中心依据网民搜索,分析全球范围内流感等病疫的传播状况;
●6、美国总统奥巴马的竞选团队依据选民的微博,实时分析选民对总统竞选人的喜好。[1]
可视化
“数据是新的石油。”亚马逊前任首席科学家Andreas Weigend说。Instagram以10亿美元出售之时,成立于1881年的世界最大影像产品及服务商柯达正申请破产。
大数据是如此重要,以至于其获取、储存、搜索、共享、分析,乃至可视化地呈现,都成为了当前重要的研究课题[1] 。
“当时时变幻的、海量的数据出现在眼前,是怎样一幅壮观的景象?在后台注视着这一切,会不会有接近上帝俯视人间星火的感觉?”
这个问题我曾请教过刘建国,中国著名的搜索引擎专家。刘曾主持开发过国内第一个大规模中英文搜索引擎系统“天网”。
要知道,刘建国曾任至网络的首席技术官,在这样一家每天需应对网民各种搜索请求1.7亿次(2013年约为8.77亿次)的网站中,如果只是在后台静静端坐,可能片刻都不能安心吧。网络果然在提供搜索服务之外,逐渐增添了网络指数,后又建立了基于网民搜索数据的重要产品“贴吧”及网络统计产品等。
刘建国没有直接回答这个问题,他想了很久,似乎陷入了回忆,嘴角的笑容含着诡秘。
倒是有公司已经在大数据中有接近上帝俯视的感觉,美国洛杉矶就有企业宣称,他们将全球夜景的历史数据建立模型,在过滤掉波动之后,做出了投资房地产和消费的研究报告。
在数据可视化呈现方面,我最新接收到的故事是,一位在美国思科物流部门工作的朋友,很聪明的印度裔小伙子,被Facebook高价挖角,进入其数据研究小组。他后来惊讶地发现,里面全是来自物流企业、供应链方面的技术人员和专家,“Facebook想知道,能不能用物流的角度和流程的方式,分析用户的路径和行为。”
特征
编辑
数据量大(Volume)
第一个特征是数据量大。大数据的起始计量单位至少是P(1000个T)、E(100万个T)或Z(10亿个T)。
类型繁多(Variety)
第二个特征是数据类型繁多。包括网络日志、音频、视频、图片、地理位置信息等等,多类型的数据对数据的处理能力提出了更高的要求。
价值密度低(Value)
第三个特征是数据价值密度相对较低。如随着物联网的广泛应用,信息感知无处不在,信息海量,但价值密度较低,如何通过强大的机器算法更迅速地完成数据的价值“提纯”,是大数据时代亟待解决的难题。
速度快、时效高(Velocity)
第四个特征是处理速度快,时效性要求高。这是大数据区分于传统数据挖掘最显著的特征。
既有的技术架构和路线,已经无法高效处理如此海量的数据,而对于相关组织来说,如果投入巨大采集的信息无法通过及时处理反馈有效信息,那将是得不偿失的。可以说,大数据时代对人类的数据驾驭能力提出了新的挑战,也为人们获得更为深刻、全面的洞察能力提供了前所未有的空间与潜力。[2]
案例分析
编辑
个案一
你开心他就买你焦虑他就抛[2]
华尔街“德温特资本市场”公司首席执行官保罗·霍廷每天的工作之一,就是利用电脑程序分析全球3.4亿微博账户的留言,进而判断民众情绪,再以“1”到“50”进行打分。根据打分结果,霍廷再决定如何处理手中数以百万美元计的股票。
霍廷的判断原则很简单:如果所有人似乎都高兴,那就买入;如果大家的焦虑情绪上升,那就抛售。
这一招收效显著——当年第一季度,霍廷的公司获得了7%的收益率。
个案二
国际商用机器公司(IBM)估测,这些“数据”值钱的地方主要在于时效。对于片刻便能定输赢的华尔街,这一时效至关重要。曾经,华尔街2%的企业搜集微博等平台的“非正式”数据;如今,接近半数企业采用了这种手段。
●“社会流动”创业公司在“大数据”行业生机勃勃,和微博推特是合作伙伴。它分析数据,告诉广告商什么是正确的时间,谁是正确的用户,什么是应该发表的正确内容,备受广告商热爱。
●通过乔希·詹姆斯的Omniture(著名的网页流量分析工具)公司,你可以知道有多少人访问你的网站,以及他们呆了多长时间——这些数据对于任何企业来说都至关重要。詹姆斯把公司卖掉,进账18亿美元。
●微软专家吉拉德喜欢把这些“大数据”结果可视化:他把客户请到办公室,将包含这些公司的数据图谱展现出来——有些是普通的时间轴,有些像蒲公英,有些则是铺满整个画面的泡泡,泡泡中显示这些客户的粉丝正在谈论什么话题。
●“脸谱”数据分析师杰弗逊的工作就是搭建数据分析模型,弄清楚用户点击广告的动机和方式。
处理和分析工具
用于分析大数据的工具主要有开源与商用两个生态圈。
开源大数据生态圈:
1、Hadoop HDFS、HadoopMapRece, HBase、Hive 渐次诞生,早期Hadoop生态圈逐步形成。
2、. Hypertable是另类。它存在于Hadoop生态圈之外,但也曾经有一些用户。
3、NoSQL,membase、MongoDb
商用大数据生态圈:
1、一体机数据库/数据仓库:IBM PureData(Netezza), OracleExadata, SAP Hana等等。
2、数据仓库:TeradataAsterData, EMC GreenPlum, HPVertica 等等。
3、数据集市:QlikView、 Tableau 、 以及国内的Yonghong Data Mart 。
产业崛起
编辑
越来越多的政府、企业等机构开始意识到数据正在成为组织最重要的资产,数据分析能力正在成为组织的核心竞争力。具体有以下三大案例:
1、2012年3月22日,奥巴马政府宣布投资2亿美元拉动大数据相关产业发展,将“大数据战略”上升为国家意志。奥巴马政府将数据定义为“未来的新石油”,并表示一个国家拥有数据的规模、活性及解释运用的能力将成为综合国力的重要组成部分,未来,对数据的占有和控制甚至将成为陆权、海权、空权之外的另一种国家核心资产。
2、联合国也在2012年发布了大数据政务白皮书,指出大数据对于联合国和各国政府来说是一个历史性的机遇,人们如今可以使用极为丰富的数据资源,来对社会经济进行前所未有的实时分析,帮助政府更好地响应社会和经济运行。
3、而最为积极的还是众多的IT企业。麦肯锡在一份名为《大数据,是下一轮创新、竞争和生产力的前沿》的专题研究报告中提出,“对于企业来说,海量数据的运用将成为未来竞争和增长的基础”,该报告在业界引起广泛反响。
IBM则提出,上一个十年,他们抛弃了PC,成功转向了软件和服务,而这次将远离服务与咨询,更多地专注于因大数据分析软件而带来的全新业务增长点。IBM执行总裁罗睿兰认为,“数据将成为一切行业当中决定胜负的根本因素,最终数据将成为人类至关重要的自然资源。”
在国内,网络已经致力于开发自己的大数据处理和存储系统;腾讯也提出2013年已经到了数据化运营的黄金时期,如何整合这些数据成为未来的关键任务。
事实上,自2009年以来,有关“大数据” 主题的并购案层出不穷,且并购数量和规模呈逐步上升的态势。其中,Oracle对Sun、惠普对Autonomy两大并购案总金额高达176亿美元,大数据的产业价值由此可见一斑。[1-2]
提供依据
编辑
大数据是信息通信技术发展积累至今,按照自身技术发展逻辑,从提高生产效率向更高级智能阶段的自然生长。无处不在的信息感知和采集终端为我们采集了海量的数据,而以云计算为代表的计算技术的不断进步,为我们提供了强大的计算能力,这就围绕个人以及组织的行为构建起了一个与物质世界相平行的数字世界[1-2] 。
大数据虽然孕育于信息通信技术的日渐普遍和成熟,但它对社会经济生活产生的影响绝不限于技术层面,更本质上,它是为我们看待世界提供了一种全新的方法,即决策行为将日益基于数据分析做出,而不是像过去更多凭借经验和直觉做出。
事实上,大数据的影响并不仅仅限于信息通信产业,而是正在“吞噬”和重构很多传统行业,广泛运用数据分析手段管理和优化运营的公司其实质都是一个数据公司。麦当劳、肯德基以及苹果公司等旗舰专卖店的位置都是建立在数据分析基础之上的精准选址。而在零售业中,数据分析的技术与手段更是得到广泛的应用,传统企业如沃尔玛通过数据挖掘重塑并优化供应链,新崛起的电商如卓越亚马逊、淘宝等则通过对海量数据的掌握和分析,为用户提供更加专业化和个性化的服务。
最让人吃惊的例子是,社交媒体监测平台DataSift监测了Facebook(脸谱) IPO当天Twitter上的情感倾向与Facebook股价波动的关联。在Facebook开盘前Twitter上的情感逐渐转向负面,25分钟之后Facebook的股价便开始下跌。而当Twitter上的情感转向正面时,Facebook股价在8分钟之后也开始了回弹。最终当股市接近收盘、Twitter上的情感转向负面时,10分钟后Facebook的股价又开始下跌。最终的结论是:Twitter上每一次情感倾向的转向都会影响Facebook股价的波动。
这仅仅只是基于社交网络产生的大数据“预见未来”的众多案例之一,此外还有谷歌通过网民搜索行为预测流感爆发等例子。不仅在商业方面,大数据在社会建设方面的作为同样令人惊叹,智能电网、智慧交通、智慧医疗、智慧环保、智慧城市等的蓬勃兴起,都与大数据技术与应用的发展息息相关。
“大数据”可能带来的巨大价值正渐渐被人们认可,它通过技术的创新与发展,以及数据的全面感知、收集、分析、共享,为人们提供了一种全新的看待世界的方法。更多地基于事实与数据做出决策,这样的思维方式,可以预见,将推动一些习惯于靠“差不多”运行的社会发生巨大变革。
应对措施
编辑
一个好的企业应该未雨绸缪,从现在开始就应该着手准备,为企业的后期的数据收集和分析做好准备,企业可以从下面六个方面着手,这样当面临铺天盖地的大数据的时候,以确保企业能够快速发展,具体为下面六点。
目标
几乎每个组织都可能有源源不断的数据需要收集,无论是社交网络还是车间传感器设备,而且每个组织都有大量的数据需要处理,IT人员需要了解自己企业运营过程中都产生了什么数据,以自己的数据为基准,确定数据的范围。
准则
虽然每个企业都会产生大量数据,而且互不相同、多种多样的,这就需要企业IT人员在现在开始收集确认什么数据是企业业务需要的,找到最能反映企业业务情况的数据。
重新评估
大数据需要在服务器和存储设施中进行收集,并且大多数的企业信息管理体系结构将会发生重要大变化,IT经理则需要准备扩大他们的系统,以解决数据的不断扩大,IT经理要了解公司现有IT设施的情况,以组建处理大数据的设施为导向,避免一些不必要的设备的购买。
重视大数据技术
大数据是最近几年才兴起的词语,而并不是所有的IT人员对大数据都非常了解,例如如今的Hadoop,MapRece,NoSQL等技术都是2013年刚兴起的技术,企业IT人员要多关注这方面的技术和工具,以确保将来能够面对大数据的时候做出正确的决定。
培训企业的员工
大多数企业最缺乏的是人才,而当大数据到临的时候,企业将会缺少这方面的采集收集分析方面的人才,对于一些公司,特别是那种人比较少的公司,工作人员面临大数据将是一种挑战,企业要在平时的时候多对员工进行这方面的培训,以确保在大数据到来时,员工也能适应相关的工作。
培养三种能力
Teradata大中华区首席执行官辛儿伦对新浪科技表示,随着大数据时代的到来,企业应该在内部培养三种能力。第一,整合企业数据的能力;第二,探索数据背后价值和制定精确行动纲领的能力;第三,进行精确快速实时行动的能力。
做到上面的几点,当大数据时代来临的时候,面临大量数据将不是束手无策,而是成竹在胸,而从数据中得到的好处也将促进企业快速发展。
望点赞,谢谢
4. 大数据时代的提供依据
大数据是信息通信技术发展积累至今,按照自身技术发展逻辑,从提高生产效率向更高级智能阶段的自然生长。无处不在的信息感知和采集终端为我们采集了海量的数据,而以云计算为代表的计算技术的不断进步,为我们提供了强大的计算能力,这就围绕个人以及组织的行为构建起了一个与物质世界相平行的数字世界 。
大数据虽然孕育于信息通信技术的日渐普遍和成熟,但它对社会经济生活产生的影响绝不限于技术层面,更本质上,它是为我们看待世界提供了一种全新的方法,即决策行为将日益基于数据分析做出,而不是像过去更多凭借经验和直觉做出。
事实上,大数据的影响并不仅仅限于信息通信产业,而是正在“吞噬”和重构很多传统行业,广泛运用数据分析手段管理和优化运营的公司其实质都是一个数据公司。麦当劳、肯德基以及苹果公司等旗舰专卖店的位置都是建立在数据分析基础之上的精准选址。而在零售业中,数据分析的技术与手段更是得到广泛的应用,传统企业如沃尔玛通过数据挖掘重塑并优化供应链,新崛起的电商如卓越亚马逊、淘宝等则通过对海量数据的掌握和分析,为用户提供更加专业化和个性化的服务。
最让人吃惊的例子是,社交媒体监测平台DataSift监测了Facebook(脸谱) IPO当天Twitter上的情感倾向与Facebook股价波动的关联。在Facebook开盘前Twitter上的情感逐渐转向负面,25分钟之后Facebook的股价便开始下跌。而当Twitter上的情感转向正面时,Facebook股价在8分钟之后也开始了回弹。最终当股市接近收盘、Twitter上的情感转向负面时,10分钟后Facebook的股价又开始下跌。最终的结论是:Twitter上每一次情感倾向的转向都会影响Facebook股价的波动。
这仅仅只是基于社交网络产生的大数据“预见未来”的众多案例之一,此外还有谷歌通过网民搜索行为预测流感爆发等例子。不仅在商业方面,大数据在社会建设方面的作为同样令人惊叹,智能电网、智慧交通、智慧医疗、智慧环保、智慧城市等的蓬勃兴起,都与大数据技术与应用的发展息息相关。
“大数据”可能带来的巨大价值正渐渐被人们认可,它通过技术的创新与发展,以及数据的全面感知、收集、分析、共享,为人们提供了一种全新的看待世界的方法。更多地基于事实与数据做出决策,这样的思维方式,可以预见,将推动一些习惯于靠“差不多”运行的社会发生巨大变革。
5. 大数据网站有哪些
大数据是信来息技术与专业技术源、信息技术产业与各行业领域紧密融合的典型领域,有着旺盛的应用需求、广阔的应用前景。为把握这一新兴领域带来的新机遇,需要不断跟踪研究大数据,不断提升对大数据的认知和理解,坚持技术创新与应用创新的协同共进,加快经济社会各领域的大数据开发与利用,推动国家、行业、企业对于数据的应用需求和应用水平进入新的阶段。
6. 如何利用大数据做好信息服务
在数字化时代,企业需要进行精细化运营才能更好的从管理、营销、信息方面提升用户的服务体验,在精细化运营的过程中,大数据起到了非常重要的作用,通过对大数据进行有效的洞察和分析,精准地抓取用户喜好和兴趣,根据所得结果进行的精细化运营,才能提升企业的运营效率和转化率。
大数据对于企业提供的营销价值是毋庸置疑的,与此同时,面对海量的数据,管理及处理信息安全问题是企业遇到的又一大挑战。为了应对这些问题,中国移动国际推出了数据中心服务,旨在为企业客户构筑安全、高效、开放的互联网数据中心,能为企业提供多元化,且极具灵活性的托管方案。有了良好的数据托管,企业面临的各种网络安全问题都将会迎刃而解。
7. 所有的大数据都是有价值的吗
所有的大数据都是有价值的吗
大数据不一定等同于好数据,且越来越多的专家也坚信这一点,大数据并不会自动产生好的分析结果。如果数据不完整、断章取义或者被破坏,可能会导致企业产生错误的决策,从而削弱企业的竞争力或影响用户个人日常生活。
美国哈佛大学教授、定量社会科学研究所主任——Gary King就曾因数据分析时断章取义,得出了错误的结果。他发起了一个大数据分析项目,即通过检测Twitter和其他社交媒体帖子中的“工作”、“失业”和“分类”等关键词,来预测美国的失业率。
通过使用情感分析的技术,该组织收集了包含这些关键字的tweet和其他社交媒体帖子,来查看这些帖子的增加或减少是否与每月失业率存在相关性。
在监测这些内容时,研究人员发现包含其中一个关键字(“工作”)的帖子数量急剧增加,但随后,他们发现这与失业率毫无关系,因为他们忽略了乔布斯(乔布斯的名字Jobs也有“工作”的意思)去世的消息。我们应从这个例子中吸取教训,不要完全依靠“神奇”的大数据来指导决策。
King表示,“jobs”的双重含义只是诸多类似事件之一,在这一领域工作的人都遇到过类似的经历。他说:“这些关键字列表在短期内可能可行,但从长远来看,往往会带来灾难性的失败。你可以通过添加额外的关键字来解决问题,但这需要大量的人力参与。”
你可以输入关键些到Bing Social页面,便会看到一些相关或者无关的东西。如果你不更改查询,随着时间的推移,你会发现含有这些关键词的话题正以某种方式逐渐偏离主题,有时候偏离比较小,有时候却很大。”
但King表示,总体而言,很多大数据分析都产生了有用的内容。Vantiv公司首席安全官兼高级副总裁Kim Jones表示,这不是一个新问题,但如果人们认为大量数据能够奇迹般地产生良好的分析结果,这个问题可能会变严重。他指出:“Jobs的例子是一个经典的案例,数据本身并不等同于智慧。”
King认为内容是关键。他是大数据分析公司Crimson Hexagon首席科学家兼联合创始人,用该公司市场营销执行副总裁Wayne St. Amand的话来说,该公司旨在为在线对话提供“内容、意义和结构”。
然而,越来越多没有内容的数据在推动决策过程。华尔街日报2月份曾报道,医疗保险公司使用大数据来为其用户创建个人资料文件。该公司追踪的信息之一是购买加大号衣服的历史记录,这可能会导致将转诊转为减肥的计划。
没有人会觉得鼓励人们更健康地生活是错误的事情,但是这方面涉及的隐私问题却令人不安。这个人购买加大号衣服可能是送给另一位家庭成员。而且这种隐私问题可能带来更严重的影响。《彭博商业周刊》在2008年曾报道过有人因购买处方药的历史记录,而被保险公司拒绝为其上医疗保险,而这个人买药的历史记录暴露这个人有轻微的心理健康问题。
Adam Frank在博客中指出,在某些情况下,银行会因为用户在社交网站LinkedIn或者Facebook上的联系人的情况而拒绝用户的贷款。如果你的朋友赖账,你的信誉可能也会受到他们的信誉的影响。ACLU高级政策分析师Jay Stanley指出,“信用卡公司有时会因为其他消费者的信贷历史记录而降低消费者的限额。”
Kim Jones表示,从相关性得出结论,而不进行进一步分析,这给他本人也带来过麻烦。“在80年代后期和90年代初期,有数据显示,驾驶入门级豪华车,且年龄在20和27岁之间的西班牙裔和黑人男性最有可能是毒贩。而我正好符合这个标准,我是非裔美国人,年龄也在这个范围内,当时我开的正式这样的车,但我并不是毒贩。”
他表示,“我们不能只是依靠数据分析,那样可能会导致一些坏的结果。如果你忽略人类的分析因素,那么你的错误率将会非常高。”
简言之,大数据是一个工具,但不应该被视为解决方案。“它可以帮助你缩小范围,从数百万可能缩小到150左右,”Jones表示,“但是我们不能让计算机做一切判断,因为这最终可能会给你带来麻烦。”
8. 有谁知道大数据的概况
大数据应用与案例分析
1. 大数据应用案例之:医疗行业
2. 大数据应用案例之:能源行业
3. 大数据应用案例之:通信行业
4. 大数据应用案例之:零售业
[1] Seton Healthcare是采用IBM最新沃森技术医疗保健内容分析预测的首个客户。该技术允许企业找到大量病人相关的临床医疗信息,通过大数据处理,更好地分析病人的信息。
[2] 在加拿大多伦多的一家医院,针对早产婴儿,每秒钟有超过3000次的数据读取。通过这些数据分析,医院能够提前知道哪些早产儿出现问题并且有针对性地采取措施,避免早产婴儿夭折。
[3] 它让更多的创业者更方便地开发产品,比如通过社交网络来收集数据的健康类App。也许未来数年后,它们搜集的数据能让医生给你的诊断变得更为精确,比方说不是通用的成人每日三次一次一片,而是检测到你的血液中药剂已经代谢完成会自动提醒你再次服药。
[1]智能电网现在欧洲已经做到了终端,也就是所谓的智能电表。在德国,为了鼓励利用太阳能,会在家庭安装太阳能,除了卖电给你,当你的太阳能有多余电的时候还可以买回来。通过电网收集每隔五分钟或十分钟收集一次数据,收集来的这些数据可以用来预测客户的用电习惯等,从而推断出在未来2~3个月时间里,整个电网大概需要多少电。有了这个预测后,就可以向发电或者供电企业购买一定数量的电。因为电有点像期货一样,如果提前买就会比较便宜,买现货就比较贵。通过这个预测后,可以降低采购成本。
[2] 维斯塔斯风力系统,依靠的是BigInsights软件和IBM超级计算机,然后对气象数据进行分析,找出安装风力涡轮机和整个风电场最佳的地点。利用大数据,以往需要数周的分析工作,现在仅需要不足1小时便可完成。
[1] XO Communications通过使用IBM SPSS预测分析软件,减少了将近一半的客户流失率。XO现在可以预测客户的行为,发现行为趋势,并找出存在缺陷的环节,从而帮助公司及时采取措施,保留客户。此外,IBM新的Netezza网络分析加速器,将通过提供单个端到端网络、服务、客户分析视图的可扩展平台,帮助通信企业制定更科学、合理决策。
[2] 电信业者透过数以千万计的客户资料,能分析出多种使用者行为和趋势,卖给需要的企业,这是全新的资料经济。
[3]中国移动通过大数据分析,对企业运营的全业务进行针对性的监控、预警、跟踪。系统在第一时间自动捕捉市场变化,再以最快捷的方式推送给指定负责人,使他在最短时间内获知市场行情。
[4] NTT docomo(日本最大的移动通信运营商,拥有超过6千万的签约用户)把手机位置信息和互联网上的信息结合起来,为顾客提供附近的餐饮店信息,接近末班车时间时,提供末班车信息服务。
[1] "我们的某个客户,是一家领先的专业时装零售商,通过当地的百货商店、网络及其邮购目录业务为客户提供服务。公司希望向客户提供差异化服务,如何定位公司的差异化,他们通过从 Twitter 和Facebook上收集社交信息,更深入的理解化妆品的营销模式,随后他们认识到必须保留两类有价值的客户:高消费者和高影响者。希望通过接受免费化妆服务,让用户进行口碑宣传,这是交易数据与交互数据的完美结合,为业务挑战提供了解决方案。"Informatica的技术帮助这家零售商用社交平台上的数据充实了客户主数据,使他的业务服务更具有目标性。
[2]零售企业也监控客户的店内走动情况以及与商品的互动。它们将这些数据与交易记录相结合来展开分析,从而在销售哪些商品、如何摆放货品以及何时调整售价上给出意见,此类方法已经帮助某领先零售企业减少了17%的存货,同时在保持市场份额的前提下,增加了高利润率自有品牌商品的比例。
9. 大数据平台有哪些的最新相关信息
主要就是两个平台一个是Hadoop,一个是Spark,一个是MPI,Hypertable一共四个平台。--ITJOB
Hadoop
Storm是Twitter开源的一个类似于Hadoop的实时数据处理框架(原来是由BackType开发,后BackType被Twitter收购,将Storm作为Twitter的实时数据分析)。
Spark是UC Berkeley AMP lab所开源的类Hadoop MapRece的通用的并行计算框架,Spark基于map rece算法实现的分布式计算,拥有Hadoop MapRece所具有的优点;但不同于MapRece的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的map rece的算法。
Impala是Cloudera公司主导开发的新型查询系统,它提供SQL语义,能查询存储在Hadoop的HDFS和HBase中的PB级大数据。
MPI
Mesos集群管理软件,Google Borg的开源实现。提供了有效的、跨分布式应用或框架的资源隔离和共享,可以运行Hadoop、MPI、Hypertable、Spark。