大数据系列文章第1篇
1. 以大数据为主题,写一篇1500字的文章
可参考下文9个关键字写写大数据行业2015年年终总结2015年,大数据市场的发展迅猛,放眼国际,总体市场规模持续增加,随着人工智能、物联网的发展,几乎所有人将目光瞄准了“数据”产生的价值。行业厂商Cloudera、DataStax以及DataGravity等大数据公司已经投入大量资金研发相关技术,Hadoop供应商Hortonworks与数据分析公司NewRelic甚至已经上市。而国内,国家也将大数据纳入国策。我们邀请数梦工场的专家妹子和你来聊聊2015年大数据行业九大关键词,管窥这一年行业内的发展。战略:国家政策今年中国政府对于大数据发展不断发文并推进,这标志着大数据已被国家政府纳入创新战略层面,成为国家战略计划的核心任务之一:2015年9月,国务院发布《促进大数据发展行动纲要》,大力促进中国数据技术的发展,数据将被作为战略性资源加以重视;2015年10月26日,在国家“十三五”规划中具体提到实施国家大数据战略。挑战:BI(商业智能)2015年对于商业智能(BI)分析市场来说,正由传统的商业智能分析快速进入到敏捷型商业智能时代。以QlikView、Tableau和SpotView为代表的敏捷商业智能产品正在挑战传统的IBMCognos、SAPBusinessObjects等以IT为中心的BI分析平台。敏捷商业智能产品也正在进一步细化功能以达到更敏捷、更方便、适用范围更广的目的。崛起:深度学习/机器学习人工智能如今已变得异常火热,作为机器学习中最接近AI(人工智能)的一个领域,深度学习在2015年不再高高在上,很多创新企业已经将其实用化:Facebook开源深度学习工具“Torch”、PayPal使用深度学习监测并对抗诈骗、亚马逊启动机器学习平台、苹果收购机器学习公司Perceptio……同时在国内,网络、阿里,科大讯飞也在迅速布局和发展深度学习领域的技术。共存:Spark/HadoopSpark近几年来越来越受人关注,2015年6月15日,IBM宣布投入超过3500名研究和开发人员在全球十余个实验室开展与Spark相关的项目。与Hadoop相比,Spark具有速度方面的优势,但是它本身没有一个分布式存储系统,因此越来越多的企业选择Hadoop做大数据平台,而Spark是运行于Hadoop顶层的内存处理方案。Hadoop最大的用户(包括eBay和雅虎)都在Hadoop集群中运行着Spark。Cloudera和Hortonworks将Spark列为他们Hadoop发行的一部分。Spark对于Hadoop来说不是挑战和取代相反,Hadoop是Spark成长发展的基础。火爆:DBaaS随着Oracle12cR2的推出,甲骨文以全新的多租户架构开启了DBaaS(数据库即服务Database-as-a-Service)新时代,新的数据库让企业可以在单一实体机器中部署多个数据库。在2015年,除了趋势火爆,12c多租户也在运营商、电信等行业投入生产应用。据分析机构Gartner预测,2012年至2016年公有数据库云的年复合增长率将高达86%,而到2019年数据库云市场规模将达到140亿美元。与传统数据库相比,DBaaS能提供低成本、高敏捷性和高可扩展性等云计算特有的优点。
2. 大数据的内容和基本含义
“大数据”是近年来IT行业的热词,大数据在各个行业的应用逐渐变得广泛起来,如2014年的两会,我们听得最多的也是大数据分析,那么,什么是大数据呢,什么是大数据概念呢,大数据概念怎么理解呢,一起来看看吧。
1、大数据的定义。大数据,又称巨量资料,指的是所涉及的数据资料量规模巨大到无法通过人脑甚至主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。
2、大数据的采集。科学技术及互联网的发展,推动着大数据时代的来临,各行各业每天都在产生数量巨大的数据碎片,数据计量单位已从从Byte、KB、MB、GB、TB发展到PB、EB、ZB、YB甚至BB、NB、DB来衡量。大数据时代数据的采集也不再是技术问题,只是面对如此众多的数据,我们怎样才能找到其内在规律。
3、大数据的特点。数据量大、数据种类多、 要求实时性强、数据所蕴藏的价值大。在各行各业均存在大数据,但是众多的信息和咨询是纷繁复杂的,我们需要搜索、处理、分析、归纳、总结其深层次的规律。
4、大数据的挖掘和处理。大数据必然无法用人脑来推算、估测,或者用单台的计算机进行处理,必须采用分布式计算架构,依托云计算的分布式处理、分布式数据库、云存储和虚拟化技术,因此,大数据的挖掘和处理必须用到云技术。
5、大数据的应用。大数据可应用于各行各业,将人们收集到的庞大数据进行分析整理,实现资讯的有效利用。举个本专业的例子,比如在奶牛基因层面寻找与产奶量相关的主效基因,我们可以首先对奶牛全基因组进行扫描,尽管我们获得了所有表型信息和基因信息,但是由于数据量庞大,这就需要采用大数据技术,进行分析比对,挖掘主效基因。例子还有很多。
6、大数据的意义和前景。总的来说,大数据是对大量、动态、能持续的数据,通过运用新系统、新工具、新模型的挖掘,从而获得具有洞察力和新价值的东西。以前,面对庞大的数据,我们可能会一叶障目、可见一斑,因此不能了解到事物的真正本质,从而在科学工作中得到错误的推断,而大数据时代的来临,一切真相将会展现在我么面前。
3. 以大数据时代为题写一篇年终总结
进入2012年,大数据(big data)一词越来越多地被提及,人们用它来描述和定义信息爆炸时代产生的海量数
大数据时代来临
据,并命名与之相关的技术发展与创新。它已经上过《纽约时报》《华尔街日报》的专栏封面,进入美国白宫官网的新闻,现身在国内一些互联网主题的讲座沙龙中,甚至被嗅觉灵敏的国金证券、国泰君安、银河证券等写进了投资推荐报告。
数据正在迅速膨胀并变大,它决定着企业的未来发展,虽然很多企业可能并没有意识到数据爆炸性增长带来问题的隐患,但是随着时间的推移,人们将越来越多的意识到数据对企业的重要性。
正如《纽约时报》2012年2月的一篇专栏中所称,“大数据”时代已经降临,在商业、经济及其他领域中,决策将日益基于数据和分析而作出,而并非基于经验和直觉。
哈佛大学社会学教授加里·金说:“这是一场革命,庞大的数据资源使得各个领域开始了量化进程,无论学术界、商界还是政府,所有领域都将开始这种进程。”
大数据时代,什么最贵?
十年前,葛大爷曾说过,“21世纪什么最贵?”——“人才”,深以为然。只是,十年后的今天,大数据时代也带来了身价不断翻番的各种数据。由于急速拓展的网络带宽以及各种穿戴设备所带来的大量数据,数据的增长从未停歇,甚至呈井喷式增长。[7]
一分钟内,微博推特上新发的数据量超过10万;社交网络“脸谱”的浏览量超过600万……
这些庞大数字,意味着什么?
它意味着,一种全新的致富手段也许就摆在面前,它的价值堪比石油和黄金。
事实上,当你仍然在把微博等社交平台当作抒情或者发议论的工具时,华尔街的敛财高手们却正在挖掘这些互联网的“数据财富”,先人一步用其预判市场走势,而且取得了不俗的收益。
让我们一起来看看——他们是怎么做的。
这些数据都能干啥。具体有六大价值:
●1、华尔街根据民众情绪抛售股票;
●2、对冲基金依据购物网站的顾客评论,分析企业产品销售状况;
●3、银行根据求职网站的岗位数量,推断就业率;
●4、投资机构搜集并分析上市企业声明,从中寻找破产的蛛丝马迹;
●5、美国疾病控制和预防中心依据网民搜索,分析全球范围内流感等病疫的传播状况;
●6、美国总统奥巴马的竞选团队依据选民的微博,实时分析选民对总统竞选人的喜好。[1]
可视化
“数据是新的石油。”亚马逊前任首席科学家Andreas Weigend说。Instagram以10亿美元出售之时,成立于1881年的世界最大影像产品及服务商柯达正申请破产。
大数据是如此重要,以至于其获取、储存、搜索、共享、分析,乃至可视化地呈现,都成为了当前重要的研究课题[1] 。
“当时时变幻的、海量的数据出现在眼前,是怎样一幅壮观的景象?在后台注视着这一切,会不会有接近上帝俯视人间星火的感觉?”
这个问题我曾请教过刘建国,中国著名的搜索引擎专家。刘曾主持开发过国内第一个大规模中英文搜索引擎系统“天网”。
要知道,刘建国曾任至网络的首席技术官,在这样一家每天需应对网民各种搜索请求1.7亿次(2013年约为8.77亿次)的网站中,如果只是在后台静静端坐,可能片刻都不能安心吧。网络果然在提供搜索服务之外,逐渐增添了网络指数,后又建立了基于网民搜索数据的重要产品“贴吧”及网络统计产品等。
刘建国没有直接回答这个问题,他想了很久,似乎陷入了回忆,嘴角的笑容含着诡秘。
倒是有公司已经在大数据中有接近上帝俯视的感觉,美国洛杉矶就有企业宣称,他们将全球夜景的历史数据建立模型,在过滤掉波动之后,做出了投资房地产和消费的研究报告。
在数据可视化呈现方面,我最新接收到的故事是,一位在美国思科物流部门工作的朋友,很聪明的印度裔小伙子,被Facebook高价挖角,进入其数据研究小组。他后来惊讶地发现,里面全是来自物流企业、供应链方面的技术人员和专家,“Facebook想知道,能不能用物流的角度和流程的方式,分析用户的路径和行为。”
4. 大数据分析专业什么时候开始有的
以下是计量数据量的历史过程中一些具有里程碑意义的事件,以及属于“大数据”概念进化历程中的一些“第一次”或者是新发现。
1944年
卫斯理大学图书馆员弗莱蒙特·雷德出版了《学者与研究型图书馆的未来》一书。他估计美国高校图书馆的规模每16年就翻一番。按照这一增长速度,雷德推测2040年耶鲁大学图书馆将拥有“约2亿册藏书,将占据6,000余英里书架…[需要的]编目人员超过6,000人。”
1961年
德里克·普赖斯出版了《巴比伦以来的科学》,在这本书中,普赖斯通过观察科学期刊和论文的增长规律来研究科学知识的增长。他得出以下结论:新期刊的数量以指数方式增长而不是以线性方式增长,每15年翻一番,每50年以10为指数倍进行增长。普赖斯将其称之为“指数增长规律”,并解释道,“科学每前进一步就以一个相当恒定的出现率产生一系列新的进步。因此在任何时候,新科学的产生数量永远严格地与科学发现总量成正比。”
1964年4月
哈里·J·格雷和亨利·拉斯顿在美国电气与电子工程师协会(IEEE)的《电子计算机学报》上发表了《应对信息爆炸的技巧》一文,在文中,他们提出了以下建议:
1)任何人都不应该发表新论文。2)如果1)不可行,仅短小的论文可以被发表。“短小”的意思是文章不超过2,500字符,空格、标点符号都计算在内。3)如果2)被点赞,则应该实行下述限制:“只有将现存总长度为2501或更多字符的文章删除一篇或多篇,短小的文章才可以被发表。”
上述建议的实行将产生一个重要的副产品,即减轻人才选拔委员会的负担。因为一个人的出版物列表将仅被一个负数所代替,这个负数指代了他从现有信息存储中删除论文的净数目。
1967年11月
B·A·马里恩和P·A·D·德·梅恩在《美国计算机协会通讯》上发表了《自动数据压缩》一文,文章指出,“近年来被人们所关注的‘信息爆炸’使得对所有信息的存储需求保持在最低限度是非常必要的。”文章描写道:“全自动压缩机由三部分组成,能够快速处理信息,它可以被应用于‘任何’信息主体,大大降低了缓慢的外部存储要求,并可以通过计算机提高信息传输速度。”
1971年
亚瑟·米勒在《侵犯隐私》中写道:“太多的信息处理者看似是以个人档案存储容量的比特数目来衡量一个人。”
1975年
日本邮电部开始实施了“信息流普查”计划,以调查日本的信息总量(这一思想首次是在1969年的一篇文章中提出的)。普查以“字数总量”作为所有媒体的统一衡量单位。1975年的普查已经发现信息供给要比信息消费发展得快得多。1978年的普查报告指出“人们对单向传播的大众传媒所提供信息的需求停滞不前,对以双向传播为特征的个人通信媒体所提供信息的需求大规模增长…我们的社会正在进入一个新阶段…在这一阶段中,处于优势地位的是那些能够满足个人需求的碎片性的、更为详细的信息,而不再是那些传统的被大量复制的、一致性的信息。[阿利斯泰尔·D·达夫,2000;参见马丁·希尔伯特,2012]
1980年4月
I·A· 特詹姆斯兰德在第四届美国电气和电子工程师协会(IEEE)“大规模存储系统专题研讨会”上做了一个报告,题为《我们该何去何从?》。在报告中,他指出 “那些很早以前就熟悉存储装置的人们发现,‘帕金森第一法则’可以被用来解释我们的现状——‘数据扩展至任何可用空间’…我相信大量数据正在被保留,因为用户无法识别无用的数据;相较于丢弃潜在有用数据的不利后果,存储无用数据的损失不那么明显。”
1981年
匈牙利中央统计办公室开始实施了一项调查国家信息产业的研究项目,包括以比特为单位计量信息量。这项研究一直持续至今。1993年,匈牙利中央统计办公室首席科学家伊斯特万·迪恩斯编制了一本国家信息账户的标准体系手册。[见伊斯特万·迪恩斯,1994;马丁·希尔伯特,2012]
1983年8月
伊契尔·索勒·普尔在《科学》杂志上发表了《追踪信息流》一文,通过对1960年到1977年17种主流通讯媒体发展趋势的观察,他得出如下结论“这些媒体为10岁以上的美国人创造的可用词汇以每年8.9%的速度增长…事实上这些媒体创造的、真正参与流通的单词仅以每年2.9%的速度增长…在上述期间,信息流的增长在很大程度上是由于广播的发展…但是在那段时期末 [1977年]情况发生了变化:点对点的媒体比广播发展得快。”普尔、伊诺兹、高崎、赫维茨在《通信流:一项美国与日本的信息普查》中做了后续研究,这本书对美国和日本所产生的信息量进行了比较。
1986年7月
哈尔·B·贝克尔在《数据通信》上发表了《用户真的能够以今天或者明天的速度吸收数据吗?》一文。贝克尔预计“古滕堡所实现的记录密度大约是每立方英尺500个符号(字符),是公元前 4,000年苏美尔人泥土片记录密度的500倍。到2000年,半导体随机存取存储器将能够在每立方英尺存储1.25×1011个字节。”
对于数据存储而言,1996年数字存储就比纸张存储更能节约成本,这是R·J·T·莫里斯和B·J·特拉斯克渥奇在2003年7月1日《IBM系统期刊》上所发表的《存储系统的演进》一文中指出的。
1997年10月
迈克尔·考克斯和大卫·埃尔斯沃思在第八届美国电气和电子工程师协会(IEEE)关于可视化的会议论文集中发表了《为外存模型可视化而应用控制程序请求页面调度》的文章。文章以下述内容开头:“可视化对计算机系统提出了一个有趣的挑战:通常情况下数据集相当大,耗尽了主存储器、本地磁盘、甚至是远程磁盘的存储容量。我们将这个问题称为大数据。当主存储器(内核)无法容纳数据集,或者当本地磁盘都无法容纳数据集的时候,最常用的解决办法就是获取更多的资源。”这是在美国计算机学会的数字图书馆中第一篇使用“大数据”这一术语的文章。
1997年
迈克尔·莱斯克发表了《世界上究竟有多少信息?》一文,莱斯克得出以下结论“世界上的信息总量近乎几千PB;到2000年,磁带和磁盘的生产将达到上述水平。因此,在短短几年内,(a)我们可以存储任何信息——没有信息不得不被放弃,(b)人们再也不会看到典型的信息片段。”
1998年10月
K·G· 科夫曼和安德鲁·奥德里科发表了《互联网的规模与增长速度》一文。他们认为“公共互联网流量的增长速度,虽然比通常认为的要低,却仍然以每年100%的速度增长,要比其他网络流量的增长快很多。然而,如果以当前的趋势继续发展,在2002年左右,美国的数据流量就要赶超声音流量,且将由互联网主宰。”奥德里科随后建立了明尼苏达互联网流量研究所(MINTS),跟踪2002年到2009年互联网流量的增长情况。
1999年8月
史蒂夫·布赖森、大卫·肯怀特、迈克尔·考克斯、大卫·埃尔斯沃思以及罗伯特·海门斯在《美国计算机协会通讯》上发表了《千兆字节数据集的实时性可视化探索》一文。这是《美国计算机协会通讯》上第一篇使用“大数据”这一术语的文章(这篇文章有一个部分的标题为“大数据的科学可视化”)。文章开篇指出:“功能强大的计算机是许多查询领域的福音。它们也是祸害;高速运转的计算产生了规模庞大的数据。曾几何时我们认为兆字节(MB)的数据集就很大了,现在我们在单个模拟计算中就发现了300GB范围的数据集。但是研究高端计算产生的数据是一个很有意义的尝试。不止一位科学家曾经指出,审视所有的数字是极其困难的。正如数学家、计算机科学家先驱理查德·W·海明指出的,计算的目的是获得规律性的认识,而不是简单地获得数字。”10月份,在美国电气和电子工程师协会(IEEE)1999年关于可视化的年会上,布赖森、肯怀特、海门斯与大卫·班克斯、罗伯特·范·里拉和山姆·思尔顿在名为“自动化或者交互:什么更适合大数据?”的专题讨论小组中共同探讨大数据的问题。
2000年10月
彼得·莱曼与哈尔·R·瓦里安在加州大学伯克利分校网站上发布了一项研究成果:《信息知多少?》。这是在计算机存储方面第一个综合性地量化研究世界上每年产生并存储在四种物理媒体:纸张、胶卷、光盘(CD与DVD)和磁盘中新的以及原始信息(不包括备份)总量的成果。研究发现,1999年,世界上产生了 1.5EB独一无二的信息,或者说是为地球上每个男人、每个女人以及每个孩子产生了250MB信息。研究同时发现,“大量唯一的信息是由个人创造和存储的”(被称为“数字民主化”),“数字信息产品不仅数量庞大,而且以最快的速度增长”。作者将这项发现称为“数字统治”。莱曼和瓦里安指出,“即使在今天,大多数文本信息都是以数字形式产生的,在几年之内,图像也将如此。”2003年,莱曼与瓦里安发布了最新研究成果:2002年世界上大约产生了5EB 新信息,92%的新信息存储在磁性介质上,其中大多数存储在磁盘中。
2001年2月
梅塔集团分析师道格·莱尼发布了一份研究报告,题为《3D数据管理:控制数据容量、处理速度及数据种类》。十年后,3V作为定义大数据的三个维度而被广泛接受。
2005年9月
蒂姆·奥莱利发表了《什么是Web2.0》一文,在文中,他断言“数据将是下一项技术核心”。奥莱利指出:“正如哈尔·瓦里安在去年的一次私人谈话中所说的,‘结构化查询语言是一种新的超文本链接标示语言’。数据库管理是Web2.0公司的核心竞争力,以至于我们有些时候将这些应用称为‘讯件’,而不仅仅是软件。”
2007年3月
约翰·F·甘茨,大卫·莱茵泽尔及互联网数据中心(IDC)其他研究人员出版了一个白皮书,题为《膨胀的数字宇宙:2010年世界信息增长预测》。这是第一份评估与预测每年世界所产生与复制的数字化数据总量的研究。互联网数据中心估计,2006年世界产生了161EB数据,并预测在2006年至2010年间,每年为数字宇宙所增加的信息将是以上数字的六倍多,达到988EB,或者说每18个月就翻一番。据2010年和2011年同项研究所发布的信息,每年所创造的数字化数据总量超过了这个预测,2010年达到了1,200EB,2011年增长到了1,800EB。
2008年1月
布雷特·斯旺森和乔治·吉尔德发表了《评估数字洪流》一文,在文中他们提出到2015年美国IP流量将达到1ZB,2015年美国的互联网规模将至少是2006年的50倍。
2008年6月
思科发布了一份报告,题为《思科视觉网络指数——预测与方法,2007-2012》,作为“持续跟踪和预测视觉网络应用影响的行动”的一部分。这份报告预言,“从现在到2012年,IP流量将每两年翻一番”,2012年IP流量将达到0.5ZB。这份预测比较准确,正如思科最近一份报告(2012年5月 30日)指出的,2012年IP流量刚刚超过0.5ZB,“在过去的5年中增长了8倍”。
2009年12月
罗杰·E·博恩和詹姆斯·E·少特发表了《信息知多少?2009年美国消费者报告》。研究发现,2008年“美国人消费了约1.3万亿小时信息,几乎平均每天消费12小时。总计3.6泽字节(ZB),10,845万亿单词,相当于平均每人每天消费100,500单词及34GB信息。博恩、少特和沙坦亚·巴鲁在2011年1月发表了《信息知多少?2010年企业服务器信息报告》,继续上述研究。在文中他们估计,2008年“世界上的服务器处理了9.57ZB信息,几乎是95,700,000,000,000,000,000,000字节信息,或者是10万亿GB。也就是平均每天每个工作者产生12GB信息,或者每年每个工作者产生3TB 信息。世界上所有的公司平均每年处理63TB信息。”
2010年2月
肯尼斯·库克尔在《经济学人》上发表了一份关于管理信息的特别报告《数据,无所不在的数据》。库克尔在文中写道:“…世界上有着无法想象的巨量数字信息,并以极快的速度增长…从经济界到科学界,从政府部门到艺术领域,很多地方都已感受到了这种巨量信息的影响。科学家和计算机工程师已经为这个现象创造了一个新词汇:‘大数据’。”
2011年2月
马丁·希尔伯特和普里西拉·洛佩兹在《科学》杂志上发表了《世界存储、传输与计算信息的技术能力》一文。他们估计1986至2007年间,世界的信息存储能力以每年25%的速度增长。同时指出,1986年99.2%的存储容量都是模拟性的,但是到了2007年,94%的存储容量都是数字化的,两种存储方式发生了角色的根本性逆转(2002 年,数字化信息存储第一次超过非数字化信息存储)。
2011年5月
麦肯锡全球研究院的詹姆斯•马尼卡、迈克尔·崔、布雷德·布朗、杰克斯·卜黑、理查德·多布斯、查尔斯·罗克斯伯勒以及安杰拉·孔·拜尔斯发布了《大数据:下一个具有创新力、竞争力与生产力的前沿领域》。他们指出:“到2009年,对于美国所有的经济部门而言,平均每个有1,000名以上员工的公司所存储的数据至少有200TB(是美国零售商沃尔玛在1999年数据仓储的两倍)”证券和投资服务部门所存储的数据处于领先地位。总的来讲,这项研究估计2010 年所有的公司存储了7.4EB新产生的数据,消费者存储了6.8EB新数据。
2012年4月
《国际通信学报》出版了“信息计量”专题,这是多种测量信息量的研究方法与研究结果的专题。在《追踪家庭信息流》一文中,诺伊曼、帕克和潘尼克(运用前文提到的日本邮电部和普尔的研究方法)估计,为美国家庭所提供的所有媒体信息从1960年的每天50,000分钟增长到2005年的900,000分钟。根据2005年的供需比例,他们估计美国人“1分钟所需消费的信息有1,000分钟的媒体内容可供选择。”在《信息的国际化生产与传播》一文中,邦妮和吉尔(运用上文中莱曼和瓦里安的研究方法)估计2008年世界产生了14.7EB新信息,接近2003年信息总量的三倍。
注释:我有意没有考虑对信息价值(和成本)的讨论,及用金融术语和/或信息/知识工作者的数量来衡量信息经济(例如马克卢普、波拉特、谢曼特)的尝试。同样没有考虑的还有很多有意思的关于“信息超载”的参考文献,或者是相似的术语,詹姆斯·格雷克在最近出版的《信息》(详见第15章)一书中对这些术语进行了调查。格雷克在克劳德·申农的注释中发现了申农(1949年)试图判定具有“比特存储容量”的各种事物,如穿孔卡片、 “人类遗传学构造”(格雷克指出,申农是提出“基因组是一个信息库,并以比特为单位进行衡量”的第一人)、唱片。在申农的列表里,最大条目是拥有100万亿兆比特的美国国会图书馆。
—— 大数据发展简史
5. 这都是1篇文章吗
先考虑有偶数页的文章,只要这样的第一篇文章的第一面排在奇数页码上(如第1页),那么接着每一篇有偶数页的文章都会是第一面排在奇数页码上,共有7篇这样的文章。然后考虑有奇数页的文章,第一篇的第一面排在奇数页码上,第二篇的第一面就会排在偶数页码上,第三篇的第一面排在奇数页码上,如此等等。在8篇奇数页的文章中,有4篇的第一面排在奇数页码上。因此最多有7+4=11(篇)文章的第一面排在奇数页码上。
6. 大数据如何入门
导读:
第一章:初识Hadoop
第二章:更高效的WordCount
第三章:把别处的数据搞到Hadoop上
第四章:把Hadoop上的数据搞到别处去
第五章:快一点吧,我的SQL
第六章:一夫多妻制
第七章:越来越多的分析任务
第八章:我的数据要实时
第九章:我的数据要对外
第十章:牛逼高大上的机器学习
经常有初学者会问,自己想往大数据方向发展,该学哪些技术,学习路线是什么样的,觉得大数据很火,就业很好,薪资很高……首先,如果你确定了想往这个方面发展,先考虑自己的过去从业经历、专业、兴趣是什么。计算机专业——操作系统、硬件、网络、服务器?软件专业——软件开发、编程、写代码?还是数学、统计学专业——对数据和数字特别感兴趣?
其实这就是想告诉你大数据的三个发展方向,平台搭建/优化/运维/监控、大数据开发/设计/架构、数据分析/挖掘。
先扯一下大数据的4V特征:
数据量大,TB->PB
数据类型繁多,结构化、非结构化文本、日志、视频、图片、地理位置等;
商业价值高,但是这种价值需要在海量数据之上,通过数据分析与机器学习更快速的挖掘出来;
处理时效性高,海量数据的处理需求不再局限在离线计算当中。
Hadoop 1.0、Hadoop 2.0
MapRece、HDFS
NameNode、DataNode
JobTracker、TaskTracker
Yarn、ResourceManager、NodeManager
HDFS目录操作命令;
上传、下载文件命令;
提交运行MapRece示例程序;
打开Hadoop WEB界面,查看Job运行状态,查看Job运行日志。
知道Hadoop的系统日志在哪里。
- SELECT word,COUNT(1) FROM wordcount GROUP BY word;
- 这时,使用Flume采集的数据,不是直接到HDFS上,而是先到Kafka,Kafka中的数据可以由多个消费者同时消费,其中一个消费者,就是将数据同步到HDFS。
- 至此,大数据平台底层架构已经成型了,其中包括了数据采集、数据存储与计算(离线和实时)、数据同步、任务调度与监控这几大模块。接下来是时候考虑如何更好的对外提供数据了。
现如今,正式为了应对大数据的这几个特点,开源的大数据框架越来越多,越来越强,先列举一些常见的:
文件存储:Hadoop HDFS、Tachyon、KFS
离线计算:Hadoop MapRece、Spark
流式、实时计算:Storm、Spark Streaming、S4、Heron
K-V、NOSQL数据库:HBase、Redis、MongoDB
资源管理:YARN、Mesos
日志收集:Flume、Scribe、Logstash、Kibana
消息系统:Kafka、StormMQ、ZeroMQ、RabbitMQ
查询分析:Hive、Impala、Pig、Presto、Phoenix、SparkSQL、Drill、Flink、Kylin、Druid
分布式协调服务:Zookeeper
集群管理与监控:Ambari、Ganglia、Nagios、Cloudera Manager
数据挖掘、机器学习:Mahout、Spark MLLib
数据同步:Sqoop
任务调度:Oozie
······
第一章:初识Hadoop
1.1学会网络与Google
不论遇到什么问题,先试试搜索并自己解决。
Google首选,翻不过去的,就用网络吧。
1.2参考资料首选官方文档
特别是对于入门来说,官方文档永远是首选文档。
相信搞这块的大多是文化人,英文凑合就行,实在看不下去的,请参考第一步。
1.3先让Hadoop跑起来
Hadoop可以算是大数据存储和计算的开山鼻祖,现在大多开源的大数据框架都依赖Hadoop或者与它能很好的兼容。
关于Hadoop,你至少需要搞清楚以下是什么:
自己搭建Hadoop,请使用第一步和第二步,能让它跑起来就行。
建议先使用安装包命令行安装,不要使用管理工具安装。
另外:Hadoop1.0知道它就行了,现在都用Hadoop 2.0.
1.4尝试使用Hadoop
1.5了解它们的原理
MapRece:如何分而治之;
HDFS:数据到底在哪里,什么是副本;
Yarn到底是什么,它能干什么;
NameNode到底在干些什么;
ResourceManager到底在干些什么;
1.6自己写一个MapRece程序
仿照WordCount例子,自己写一个(照抄也行)WordCount程序,
打包并提交到Hadoop运行。
不会Java的话,Shell、Python都可以,有个东西叫Hadoop Streaming。
如果能认真完成了以上几步,恭喜你,你的一只脚已经进来了。
第二章:更高效的WordCount
2.1学点SQL吧
如果不懂数据库的童鞋先学习使用SQL句。
2.2 SQL版WordCount
在1.6中,你写(或者抄)的WordCount一共有几行代码?
如果用SQL的话:
这便是SQL的魅力,编程需要几十行,甚至上百行代码,SQL一句就搞定;使用SQL处理分析Hadoop上的数据,方便、高效、易上手、更是趋势。不论是离线计算还是实时计算,越来越多的大数据处理框架都在积极提供SQL接口。
2.3安装配置Hive
Hive算是数据仓库工具,安装不难,网上有很多教程,配置完成后,可以正常进入Hive命令行。
2.4试试使用Hive
尝试在Hive中创建wordcount表,并运行2.2中的SQL语句。在Hadoop WEB界面中找到刚才运行的SQL任务。看SQL查询结果是否和1.4中MapRece中的结果一致。
明明写的是SQL,为什么Hadoop WEB界面中看到的是MapRece任务?
2.5学会Hive的基本命令
创建、删除表;加载数据到表;下载Hive表的数据;并学习更多关于Hive的语法和命令。
以上如果按照第一章和第二章的流程认真完整的走了一遍后,应该已经具备以下技能和知识点:
0和Hadoop2.0的区别
MapRece的原理(还是那个经典的题目,一个10G大小的文件,给定1G大小的内存,如何使用Java程序统计出现次数最多的10个单词及次数);
HDFS读写数据的流程;向HDFS中PUT数据;从HDFS中下载数据;
自己会写简单的MapRece程序,运行出现问题,知道在哪里查看日志;
会写简单的SELECT、WHERE、GROUP BY等SQL语句;
Hive SQL转换成MapRece的大致流程;
Hive中常见的语句:创建表、删除表、往表中加载数据、分区、将表中数据下载到本地;
从上面的学习,你已经了解到,HDFS是Hadoop提供的分布式存储框架,它可以用来存储海量数据,MapRece是Hadoop提供的分布式计算框架,它可以用来统计和分析HDFS上的海量数据,而Hive则是SQL On Hadoop,Hive提供了SQL接口,开发人员只需要编写简单易上手的SQL语句,Hive负责把SQL翻译成MapRece,提交运行。
此时,你的认知中“大数据平台”是这样的:
总结:
为什么Spark比MapRece快。
使用SparkSQL代替Hive,更快的运行SQL。
使用Kafka完成数据的一次收集,多次消费架构。
自己可以写程序完成Kafka的生产者和消费者。
前面的学习已经掌握了大数据平台中的数据采集、数据存储和计算、数据交换等大部分技能,而这其中的每一步,都需要一个任务(程序)来完成,各个任务之间又存在一定的依赖性,比如,必须等数据采集任务成功完成后,数据计算任务才能开始运行。如果一个任务执行失败,需要给开发运维人员发送告警,同时需要提供完整的日志来方便查错。
第七章:越来越多的分析任务
不仅仅是分析任务,数据采集、数据交换同样是一个个的任务。这些任务中,有的是定时触发,有点则需要依赖其他任务来触发。当平台中有几百上千个任务需要维护和运行时候,仅仅靠crontab远远不够了,这时便需要一个调度监控系统来完成这件事。调度监控系统是整个数据平台的中枢系统,类似于AppMaster,负责分配和监控任务。
7.1 Apache Oozie
1. Oozie是什么?有哪些功能?
2. Oozie可以调度哪些类型的任务(程序)?
3. Oozie可以支持哪些任务触发方式?
4.安装配置Oozie。
7.2其他开源的任务调度系统
Azkaban
light-task-scheler
alibaba/zeus
……
此时:
第八章:数据要实时
在第六章介绍Kafka的时候提到了一些需要实时指标的业务场景,实时基本可以分为绝对实时和准实时,绝对实时的延迟要求一般在毫秒级,准实时的延迟要求一般在秒、分钟级。对于需要绝对实时的业务场景,用的比较多的是Storm,对于其他准实时的业务场景,可以是Storm,也可以是Spark Streaming。当然,如果可以的话,也可以自己写程序来做。
8.1 Storm
1. 什么是Storm?有哪些可能的应用场景?
2. Storm由哪些核心组件构成,各自担任什么角色?
3. Storm的简单安装和部署。
4. 自己编写Demo程序,使用Storm完成实时数据流计算。
8.2 Spark Streaming
1. 什么是Spark Streaming,它和Spark是什么关系?
2. Spark Streaming和Storm比较,各有什么优缺点?
3. 使用Kafka + Spark Streaming,完成实时计算的Demo程序。
此时:
第九章:数据要对外
通常对外(业务)提供数据访问,大体上包含以下方面:
离线:比如,每天将前一天的数据提供到指定的数据源(DB、FILE、FTP)等;
离线数据的提供可以采用Sqoop、DataX等离线数据交换工具。
实时:比如,在线网站的推荐系统,需要实时从数据平台中获取给用户的推荐数据,这种要求延时非常低(50毫秒以内)。
根据延时要求和实时数据的查询需要,可能的方案有:HBase、Redis、MongoDB、ElasticSearch等。
OLAP分析:OLAP除了要求底层的数据模型比较规范,另外,对查询的响应速度要求也越来越高,可能的方案有:Impala、Presto、SparkSQL、Kylin。如果你的数据模型比较规模,那么Kylin是最好的选择。
即席查询:即席查询的数据比较随意,一般很难建立通用的数据模型,因此可能的方案有:Impala、Presto、SparkSQL。
这么多比较成熟的框架和方案,需要结合自己的业务需求及数据平台技术架构,选择合适的。原则只有一个:越简单越稳定的,就是最好的。
如果你已经掌握了如何很好的对外(业务)提供数据,那么你的“大数据平台”应该是这样的:
第十章:牛逼高大上的机器学习
这里本人也没有接触太多,稍微讲一下我们的业务场景应用,遇到的能用机器学习解决的问题大概这么三类:
分类问题:包括二分类和多分类,二分类就是解决了预测的问题,就像预测一封邮件是否垃圾邮件;多分类解决的是文本的分类;
聚类问题:从用户搜索过的关键词,对用户进行大概的归类。
推荐问题:根据用户的历史浏览和点击行为进行相关推荐。
大多数行业,使用机器学习解决的,也就是这几类问题。
入门学习线路:
数学基础;
机器学习实战(Machine Learning in Action),懂Python最好;
SparkMlLib提供了一些封装好的算法,以及特征处理、特征选择的方法。
那么把机器学习部分加进 “大数据平台”。
7. 以大数据为主题,写一篇1500字的文章
世界包含的多得难以想象的数字化信息变得更多更快……从商业到科学,从政府到艺术,这种影响无处不在。科学家和计算机工程师们给这种现象创造了一个新名词:“大数据”。大数据时代什么意思?大数据概念什么意思?大数据分析什么意思?所谓大数据,那到底什么是大数据,他的来源在哪里,定义究竟是什么呢?
七:最后北京开运联合给您总结一下
不管大数据的核心价值是不是预测,但是基于大数据形成决策的模式已经为不少的企业带来了盈利和声誉。
1、从大数据的价值链条来分析,存在三种模式:
1)手握大数据,但是没有利用好;比较典型的是金融机构,电信行业,政府机构等。
2)没有数据,但是知道如何帮助有数据的人利用它;比较典型的是IT咨询和服务企业,比如,埃森哲,IBM,开运联合等。
3)既有数据,又有大数据思维;比较典型的是Google,Amazon,Mastercard等。
2、未来在大数据领域最具有价值的是两种事物:
8. 以大数据为主题,写一篇1500字的文章
绿色的外套上新添了几许鲜艳的花纹.
春姑娘继续向前走,走啊走内啊,她看见了田野里冬眠的青蛙容,于是,春姑娘用她神奇的“魔法棒”唤醒了睡梦中的青蛙,青蛙便开始用它那特有的歌喉,响亮地唱起了只有它自己能听懂的歌曲.青蛙的叫声吵醒了小鸟,一下子,大地热闹起来.“唧唧唧,唧唧唧”,小鸟也跟随着春天的旋律,唱出了美妙的“歌曲”,从这个树枝上,一下子飞到那边的树枝上,为大地增添了不少生趣.
9. 《大数据》这个期刊的质量怎么样,本人有一篇文章被录用,版面费要2700。作为学生觉得有点贵了。
你要是找的代理的话,不但贵,而且还有可能被骗,直接找杂志社,不会那么贵。