运维大数据分析平台
Ⅰ 大数据运维的主要工作内容是什么
大数据运维,这里指互联网运维,通常属于技术部门,与研发、测试、系统管回理同为互联网产品技术支答撑的4大部门,这个划分在国内和国外以及大小公司间都会多少有一些不同。
一个互联网产品的生成一般经历的过程是:产品经理(proct manager,非技术部)需求分析、研发部门开发、测试部门测试、运维部门部署发布以及长期的运行维护。
一般来讲国内的互联网运维负责软件测试交付后的发布和管理,其核心目标是将交付的业务软件和硬件基础设施高效合理的整合,转换为可持续提供高质量服务的产品,同时最大限度降低服务运行的成本,保障服务运行的安全。
Ⅱ 大数据分析平台哪家好
以下为大家介绍几个代表性数据分析平台:
1、 Cloudera
Cloudera提供一个可扩展、灵活、集成的平台,可用来方便的管理您的企业中快速增长的多种多样的数据,从而部署和管理Hadoop和相关项目、操作和分析您的数据以及保护数据的安全。Cloudera Manager是一个复杂的应用程序,用于部署、管理、监控CDH部署并诊断问题,Cloudera Manager提供Admin Console,这是一种基于Web的用户界面,是您的企业数据管理简单而直接,它还包括Cloudera Manager API,可用来获取集群运行状况信息和度量以及配置Cloudera Manager。
2、 星环Transwarp
基于hadoop生态系统的大数据平台公司,国内唯一入选过Gartner魔力象限的大数据平台公司,对hadoop不稳定的部分进行了优化,功能上进行了细化,为企业提供hadoop大数据引擎及数据库工具。
3、 阿里数加
阿里云发布的一站式大数据平台,覆盖了企业数仓、商业智能、机器学习、数据可视化等领域,可以提供数据采集、数据深度融合、计算和挖掘服务,将计算的几个通过可视化工具进行个性化的数据分析和展现,图形展示和客户感知良好,但是需要捆绑阿里云才能使用,部分体验功能一般,需要有一定的知识基础。maxcompute(原名ODPS)是数加底层的计算引擎,有两个维度可以看这个计算引擎的性能,一个是6小时处理100PB的数据,相当于1亿部高清电影,另外一个是单集群规模过万台,并支持多集群联合计算。
4、 华为FusionInsight
基于Apache进行功能增强的企业级大数据存储、查询和分析的统一平台。完全开放的大数据平台,可运行在开放的x86架构服务器上,它以海量数据处理引擎和实时数据处理引擎为核心,针对金融、运营商等数据密集型行业的运行维护、应用开发等需求,打造了敏捷、智慧、可信的平台软件。
5、网易猛犸
网易猛犸大数据平台使一站式的大数据应用开发和数据管理平台,包括大数据开发套件和hadoop发行版两部分。大数据开发套件主要包含数据开发、任务运维、自助分析、数据管理、项目管理及多租户管理等。大数据开发套件将数据开发、数据分析、数据ETL等数据科学工作通过工作流的方式有效地串联起来,提高了数据开发工程师和数据分析工程师的工作效率。Hadoop发行版涵盖了网易大数据所有底层平台组件,包括自研组件、基于开源改造的组件。丰富而全面的组件,提供完善的平台能力,使其能轻易地构建不同领域的解决方案,满足不同类型的业务需求。
6.知于大数据分析平台
知于平台的定位与当今流行的平台定位不一样,它针对的主要是中小型企业,为中小型企业提供大数据解决方案。现阶段,平台主打的产品是舆情系统、文章传播分析与网站排名监测,每个服务的价格单次在50元左右,性价比极高。
Ⅲ 豪越HYDO智能运维管理大数据平台好用不
还挺好用的,主要是运行比较稳定,很少出问题,所以比较省心,不印象日常的工作需要。有问题线上或者电话联系,客服都是会耐心回答的
Ⅳ 大数据运维是干什么的难学吗费脑子吗
只要你感兴趣,不管难不难,要知道这个是高薪职业,到这可以参观学习的
Ⅳ 哪些单位用豪越HYDO智能运维管理大数据平台比较多
需要跨域采集全层级IT数据,包括用户体验层、网络层、业务层、服务层、进程层、虚拟化层、系统层和硬件层等,大数据是实现IT智能运维的基础
Ⅵ 如何设计企业级大数据分析平台
所谓的大数据平台不是独立存在的,比如网络是依赖搜索引擎获得大数据并开展业务的,阿里是通过电子商务交易获得大数据并开展业务的,腾讯是通过社交获得大数据并开始业务的,所以说大数据平台不是独立存在的,重点是如何搜集和沉淀数据,如何分析数据并挖掘数据的价值。
我可能还不够资格回答这个问题,没有经历过一个公司大数据平台从无到有到复杂的过程。不过说说看法吧,也算是梳理一下想法找找喷。
这是个需求驱动的过程。
曾经听过spotify的分享,印象很深的是,他们分享说,他们的hadoop集群第一次故障是因为,机器放在靠窗的地方,太阳晒了当机了(笑)。从简单的没有机房放在自家窗前的集群到一直到现在复杂的数据平台,这是一个不断演进的过程。
对小公司来说,大概自己找一两台机器架个集群算算,也算是大数据平台了。在初创阶段,数据量会很小,不需要多大的规模。这时候组件选择也很随意,Hadoop一套,任务调度用脚本或者轻量的框架比如luigi之类的,数据分析可能hive还不如导入RMDB快。监控和部署也许都没时间整理,用脚本或者轻量的监控,大约是没有ganglia、nagios,puppet什么的。这个阶段也许算是技术积累,用传统手段还是真大数据平台都是两可的事情,但是为了今后的扩展性,这时候上Hadoop也许是不错的选择。
当进入高速发展期,也许扩容会跟不上计划,不少公司可能会迁移平台到云上,比如AWS阿里云什么的。小规模高速发展的平台,这种方式应该是经济实惠的,省了运维和管理的成本,扩容比较省心。要解决的是选择平台本身提供的服务,计算成本,打通数据出入的通道。整个数据平台本身如果走这条路,可能就已经基本成型了。走这条路的比较有名的应该是netflix。
也有一个阶段,你发现云服务的费用太高,虽然省了你很多事,但是花钱嗖嗖的。几个老板一合计,再玩下去下个月工资发布出来了。然后无奈之下公司开始往私有集群迁移。这时候你大概需要一群靠谱的运维,帮你监管机器,之前两三台机器登录上去看看状态换个磁盘什么的也许就不可能了,你面对的是成百上千台主机,有些关键服务必须保证稳定,有些是数据节点,磁盘三天两头损耗,网络可能被压得不堪重负。你需要一个靠谱的人设计网络布局,设计运维规范,架设监控,值班团队走起7*24小时随时准备出台。然后上面再有平台组真的大数据平台走起。
然后是选型,如果有技术实力,可以直接用社区的一整套,自己管起来,监控部署什么的自己走起。这个阶段部署监控和用户管理什么的都不可能像两三个节点那样人肉搞了,配置管理,部署管理都需要专门的平台和组件;定期Review用户的作业和使用情况,决定是否扩容,清理数据等等。否则等机器和业务进一步增加,团队可能会死的很惨,疲于奔命,每天事故不断,进入恶性循环。
当然有金钱实力的大户可以找Cloudera,Hortonworks,国内可以找华为星环,会省不少事,适合非互联网土豪。当然互联网公司也有用这些东西的,比如Ebay。
接下去你可能需要一些重量的组件帮你做一些事情。
比如你的数据接入,之前可能找个定时脚本或者爬log发包找个服务器接收写入HDFS,现在可能不行了,这些大概没有高性能,没有异常保障,你需要更强壮的解决方案,比如Flume之类的。
你的业务不断壮大,老板需要看的报表越来越多,需要训练的数据也需要清洗,你就需要任务调度,比如oozie或者azkaban之类的,这些系统帮你管理关键任务的调度和监控。
数据分析人员的数据大概可能渐渐从RDBMS搬迁到集群了,因为传统数据库已经完全hold不住了,但他们不会写代码,所以你上马了Hive。然后很多用户用了Hive觉得太慢,你就又上马交互分析系统,比如Presto,Impala或者SparkSQL。
你的数据科学家需要写ML代码,他们跟你说你需要Mahout或者Spark MLLib,于是你也部署了这些。
至此可能数据平台已经是工程师的日常工作场所了,大多数业务都会迁移过来。这时候你可能面临很多不同的问题。
比如各个业务线数据各种数据表多的一塌糊涂,不管是你还是写数据的人大概都不知道数据从哪儿来,接下去到哪儿去。你就自己搞了一套元数据管理的系统。
你分析性能,发现你们的数据都是上百Column,各种复杂的Query,裸存的Text格式即便压缩了也还是慢的要死,于是你主推用户都使用列存,Parquet,ORC之类的。
又或者你发现你们的ETL很长,中间生成好多临时数据,于是你下狠心把pipeline改写成Spark了。
再接下来也许你会想到花时间去维护一个门户,把这些零散的组件都整合到一起,提供统一的用户体验,比如一键就能把数据从数据库chua一下拉到HDFS导入Hive,也能一键就chua一下再搞回去;点几下就能设定一个定时任务,每天跑了给老板自动推送报表;或者点一下就能起一个Storm的topology;或者界面上写几个Query就能查询Hbase的数据。这时候你的数据平台算是成型了。
当然,磕磕碰碰免不了。每天你都有新的问题和挑战,否则你就要失业了不是?
你发现社区不断在解决你遇到过的问题,于是你们架构师每天分出很多时间去看社区的进展,有了什么新工具,有什么公司发布了什么项目解决了什么问题,兴许你就能用上。
上了这些乱七八糟的东西,你以为就安生了?Hadoop平台的一个大特点就是坑多。尤其是新做的功能新起的项目。对于平台组的人,老板如果知道这是天然坑多的平台,那他也许会很高兴,因为跟进社区,帮忙修bug,一起互动其实是很提升公司影响力的实情。当然如果老板不理解,你就自求多福吧,招几个老司机,出了问题能马上带路才是正道。当然团队的技术积累不能不跟上,因为数据平台还是乱世,三天不跟进你就不知道世界是什么样了。任何一个新技术,都是坑啊坑啊修啊修啊才完善的。如果是关键业务换技术,那需要小心再小心,技术主管也要有足够的积累,能够驾驭,知道收益和风险。
Ⅶ 大数据分析平台哪个好
国内的BI品牌都能做大数据分析,各有千秋,根据你的实际需求去挑选对比吧,朋友推荐过Smartbi,他家产品的功能和服务都还不错。
Ⅷ 大数据分析工具
1、日志管理工具Splunk(http://www.splunk.com/)
<img src="https://pic4.mg.com/_b.png" data-rawwidth="1894" data-rawheight="902" class="origin_image zh-lightbox-thumb" width="1894" data-original="https://pic4.mg.com/_r.png">
面向使用的人群主要有:
<img src="https://pic1.mg.com/_b.png" data-rawwidth="841" data-rawheight="366" class="origin_image zh-lightbox-thumb" width="841" data-original="https://pic1.mg.com/_r.png">
Splunk的功能组件主要有Forwarder、Serch Head、Indexer三种,然后支持了查询搜索、仪表盘和报表(效果真不是吹的,很精致呀),另外还支持SaaS服务模式。其中,Splunk支持的数据源也是多种类型的,基本上还是可以满足客户的需求。
<img src="https://pic1.mg.com/_b.png" data-rawwidth="554" data-rawheight="389" class="origin_image zh-lightbox-thumb" width="554" data-original="https://pic1.mg.com/_r.png">
目前支持Hadoop1.x(MRv1)、Hadoop2.x(MRv2)、Hadoop2.x(Yarn)三个版本的Hadoop集群的日志数据源收集,在日志管理运维方面还是处于一个国际领先的地位,目前国内有部分的数据驱动型公司也正在采用Splunk的日志管理运维服务。
<img src="https://pic3.mg.com/_b.png" data-rawwidth="834" data-rawheight="396" class="origin_image zh-lightbox-thumb" width="834" data-original="https://pic3.mg.com/_r.png">
可视化部分效果也是很不错的
<img src="https://pic2.mg.com/_b.png" data-rawwidth="554" data-rawheight="260" class="origin_image zh-lightbox-thumb" width="554" data-original="https://pic2.mg.com/_r.png"><img src="https://pic3.mg.com/_b.png" data-rawwidth="554" data-rawheight="259" class="origin_image zh-lightbox-thumb" width="554" data-original="https://pic3.mg.com/_r.png"><img src="https://pic4.mg.com/_b.png" data-rawwidth="554" data-rawheight="258" class="origin_image zh-lightbox-thumb" width="554" data-original="https://pic4.mg.com/_r.png">
2、EverString(Home - EverString)
<img src="https://pic1.mg.com/_b.png" data-rawwidth="479" data-rawheight="159" class="origin_image zh-lightbox-thumb" width="479" data-original="https://pic1.mg.com/_r.png">
everstring主要是通过大数据的预测分析建模为企业提供业务和客户推荐的SaaS服务,获取和积累了两个数据信息资源库,一个行业外部的资源库(公有SaaS收费形式),一个行业自己内部的资源库(私有),然后再通过机器学习和人工智能的方法对数据进行相应行业或是领域的建模,最后得到一个比较不错的结果,优化于人工可以得到的结果,而且Everstring也成为了初创大数据公司里面估值很高的公司。
3、国外的Tableau(http://www.tableau.com/)
可视化界面还是做得不错的
<img src="https://pic2.mg.com/_b.png" data-rawwidth="660" data-rawheight="407" class="origin_image zh-lightbox-thumb" width="660" data-original="https://pic2.mg.com/_r.png">
<img src="https://pic1.mg.com/_b.png" data-rawwidth="1272" data-rawheight="754" class="origin_image zh-lightbox-thumb" width="1272" data-original="https://pic1.mg.com/_r.png">
可是对于价格还是按需掏腰包吧。
<img src="https://pic3.mg.com/_b.png" data-rawwidth="1603" data-rawheight="847" class="origin_image zh-lightbox-thumb" width="1603" data-original="https://pic3.mg.com/_r.png">
4、国内的大数据魔镜分析工具(魔镜—行业领先的大数据可视化分析平台 6.0)
魔镜的大数据平台主要提供的还是数据清洗和ETL、Hadoop数据仓库以及一系列的数据分析服务,可提供的数据分析视图工具类型丰富:
<img src="https://pic1.mg.com/_b.png" data-rawwidth="1256" data-rawheight="688" class="origin_image zh-lightbox-thumb" width="1256" data-original="https://pic1.mg.com/_r.png">
目前国外还时候有很多从事大数据业务的公司,像协助美国CIA找到本拉登的Panlatir,可以预测未来的Recorded Future和,6sence,ETL方向的Etleap,CRM系统方向的Salesforce等,如果说到可视化工具,它应该是大数据处理流程里面的最后展现环节。
国内有个不错的链接,实属干货呀。
盘点:55个最实用大数据可视化分析工具(http://tech.it168.com/a2015/0318/1712/000001712286.shtml)
就写到这里吧,分析的不到位的地方,还请指出,谢谢。
补充
----------------------
刚有人问,哪些是目前国内可以用得到的一些数据科学家分析的工具,正好公司有同事是这方面的专家,请教了下,如下:
1、SPSS:主要用于数据建模工作,功能稳定且强大,能够满足中小企业在业务模型建立过程中的需求。
2、BitDeli
BitDeli是今年11月份在旧金山成立的一家初创公司。它能衡量出任何使用Python脚本的应用程序的指标,联合创始人兼CEO Ville Tuulos告诉Derrick,脚本可以很简单,也可以很复杂——甚至未来可以延伸到机器学习。不过和“重量级选手”Hadoop相比,BitDeli自认为是一个轻量级的Ruby。
3. Continuuity
Continuuity是前Yahoo首席云架构师Todd Papaioannou和Facebook HBase的工程师Jonathan Gray的心血结晶,Continuuity想让所有的公司都能像Yahoo、Facebook一样运营。该团队创建了一个大数据工具,它可以简化Hadoop以及HBase集群的复杂性,而且包含一系列开发套件,旨在帮助程序员开发大数据应用,该平台采用Hadoop技术,允许开发者在防火墙内外对大数据应用软件进行部署、扩展和管理。公司联合创始人兼首席执行官Todd Papaioannou表示,作为一家初创企业,Continuuity正在试图掀起下一波大数据应用软件的浪潮,公司所提供的工具能够大大提高处于开发状态的软件不同部分与阶段的扩展性。
4. Flurry
Flurry是移动应用统计分析领域里的标杆,正因为在行业内独特的优势,它每年的营收高达一亿美元。Flurry拥有非常全面的功能,不仅仅只是帮助开发者构建移动应用,它还帮助开发者分析所有的数据,进而产生更大的效益。其实数据也支撑了该公司的广告网络,他们通过数据分析可以帮助开发者推送准确的广告到需要的用户面前。不过单纯从移动应用的数据统计功能来看,Flurry绝对是处于领先地位。其功能模块设置合理,分析维度全面,分析流程也易于理解。