1. 为什么纸牌屋被称为用大数据“算”出来的美剧

国Netflix公司是一家在线影片租赁提供商,该公司的网站收集了大量用户内行为偏好数据,经分析后发容现,喜欢观看BBC老版《纸牌屋》的用户,大多喜欢
大卫·芬奇导演或凯文·史派西主演的电视剧。于是,Netflix投资一亿美元拍摄了新版 《纸牌屋》,请大卫·芬奇执导、凯文·史派西做主演。结果,大
数据技术让Netflix赚得盆满钵满。

2. 奈飞公司的创新的大数据推荐算法

第一个Netflix大奖成功的解决了一个巨大的挑战,为提供了50个以上评级的观众准确的预测他们的口味。下一个百万大奖目标是,为那些不经常做影片评级或者根本不做评级的顾客推荐影片,要求使用一些隐藏着观众口味的地理数据和行为数据来进行预测。同样,获胜者需要公开他们的算法。如果能解决这个问题,Netflix就能够很快开始向新客户推荐影片,而不需要等待客户提供大量的评级数据后才能做出推荐。
新的比赛用数据集有1亿条数据,包括评级数据,顾客年龄,性别,居住地区邮编,和以前观看过的影片。所有的数据都是匿名的,没有办法关联到netflix的任何一个顾客。
与第一个大奖赛不同,这次比赛没有设定比赛目标。50万美金首先奖励给6个月内取得领先的团队,另外50万美金奖励给18个月后取得领先的团队。
推荐引擎是Netflix公司的一个关键服务,1千多万顾客都能在一个个性化网页上对影片做出1-5的评级。Netflix将这些评级放在一个巨大的数据集里,该数据集容量超过了30亿条。Netflix使用推荐算法和软件来标识具有相似品味的观众对影片可能做出的评级。两年来,Netflix 已经使用参赛选手的方法提高了影片推荐的效率,这已经得到了很多影片评论家和用户的好评。
Strands推荐引擎的首席科学家里克·汉加特纳博士写道:“在短期内,搜索引擎将会越来越多地加入简单的推荐技术,以处理接近的查询词(例如,“您要找的是这个,根据类似查询/其他人的搜索,你可能要寻找的是这个。”)但从长期来说,而比起搜索行业和搜索技术,推荐技术会更加地无孔不入。”

3. 告诉你如何用大数据推动影视产业

关于大数据在影视方面的案例,Netflix 这个词估计大家都快听到耳朵起茧了,频繁被提及。比如《纸牌屋》的成功 。
大数据技术在电影方面的应用,主要在于于电影剧本分析、电影营销分析、电影用户行为分析。

4. Netflix一年花了65亿拍美剧,高成本的剧都是哪些

说起Netflix,也就是网飞,可能大家最先想到的就是他出的许多精品剧,甚至有很出名的剧集刚出就一次播完的“网飞行为”梗。不过纵使网飞制作美剧成本高、产量大,但人家相比起中国的某些电视剧来说,可以算是精品高产似母猪了。

为什么网飞的剧这么受欢迎呢?最主要的原因是他们有做大数据分析,知道做什么样的原创剧集可以吸引到大批的流量。就比如改编自经典名著《绿山墙的安妮》的《小小安妮》,虽然也是一部青春片,但相比国产剧给人以更多的真实感,即使主角是个加拿大的小女孩,她在成长中遇到的一些困难是非常能引起我们的回忆和共鸣的。而这种共鸣,也是网飞的剧除了投入成本大之外,受欢迎又赚钱的原因了。

那么,网飞一年花了65亿拍美剧,高成本的剧都有哪些呢?小编就带大家去观看一下!

(1)《王冠

《王冠》是Netflix制作的一部历史剧,剧情是关于现在还在为的英国女王,伊丽莎白二世的生平故事。

这部剧的第一季单价就创下了当时的最高纪录1.3亿美元,如果这个数据是真的的话,那么算下来也就是说这部剧差不多每小时一集耗资高达650万到1300万美元了!

那么钱都花在哪了呢?光是为各个角色,就准备了将近7000套服装,如果这笔开支还不够大的花,就要好好看看那个接近1:1比例的白金汉宫复制品拍摄地了。

由此我们可以看出网飞的剧受欢迎不是没有原因的,人家除了剧本不错之外,在各方面的细节上也做的非常到位,经费也用在了正确的地方上去了。

以上就是我推荐的三部网飞比较烧钱的剧了,虽然网飞出品的剧大部分质量都很好,但是也是有失手的时候。不过网飞看样子似乎并不太在意花了这么多钱,毕竟他们很多的剧大部分时候的回报都很高。

5. 大数据是什么概念

大数据是什么?
在很多人的眼里大数据可能是一个很模糊的概念,但是,在日常生活中大数据有离我们很近,我们无时无刻不再享受着大数据所给我们带来的便利,个性化,人性化。全面的了解大数据我们应该从四个方面简单了解。定义,结构特点,我们身边有哪些大数据,大数据带来了什么,这四个方面了解。
那么“大数据”到底是什么呢?

在麦肯锡全球研究所给出的定义中指出:大数据即是一种规模大到在获取,存储,管理,分析方面大大超出了传统数据库软件工具能力范围的数据集合。简单而言大数据是数据多到爆表。大数据的单位一般以PB衡量。那么PB是多大呢?1GB=1024MB ,1PB=1024GB才足以称为大数据。

如图:

衡量单位一览表
其次,大数据具有什么样的特点和结构呢?

大数据从整体上看分为四个特点,
第一,大量。

衡量单位PB级别,存储内容多。
第二,高速。

大数据需要在获取速度和分析速度上要及时迅速。保证在短时间内更多的人接收到信息。
第二,多样。

数据的来源是各种渠道上获取的,有文本数据,图片数据,视频数据等。因此数据是多种多样的。
第三,价值。

大数据不仅仅拥有本身的信息价值,还拥有商业价值。大数据在结构上还分为:结构化,半结构化,非结构化。结构化简单来讲是数据库,是由二维表来逻辑表达和实现的数据。非结构化即数据结构不规则或不完整,没有预定义的数据模型。由人类产生的数据大部分是非结构化数据。

6. 如何创建一个大数据平台

所谓的大数据平台不是独立存在的,比如百度是依赖搜索引擎获得大数据并开展业务的,阿里是通过电子商务交易获得大数据并开展业务的,腾讯是通过社交获得大数据并开始业务的,所以说大数据平台不是独立存在的,重点是如何搜集和沉淀数据,如何分析数据并挖掘数据的价值。

我可能还不够资格回答这个问题,没有经历过一个公司大数据平台从无到有到复杂的过程。不过说说看法吧,也算是梳理一下想法找找喷。
这是个需求驱动的过程。
曾经听过spotify的分享,印象很深的是,他们分享说,他们的hadoop集群第一次故障是因为,机器放在靠窗的地方,太阳晒了当机了(笑)。从简单的没有机房放在自家窗前的集群到一直到现在复杂的数据平台,这是一个不断演进的过程。
对小公司来说,大概自己找一两台机器架个集群算算,也算是大数据平台了。在初创阶段,数据量会很小,不需要多大的规模。这时候组件选择也很随意,Hadoop一套,任务调度用脚本或者轻量的框架比如luigi之类的,数据分析可能hive还不如导入RMDB快。监控和部署也许都没时间整理,用脚本或者轻量的监控,大约是没有ganglia、nagios,puppet什么的。这个阶段也许算是技术积累,用传统手段还是真大数据平台都是两可的事情,但是为了今后的扩展性,这时候上Hadoop也许是不错的选择。
当进入高速发展期,也许扩容会跟不上计划,不少公司可能会迁移平台到云上,比如AWS阿里云什么的。小规模高速发展的平台,这种方式应该是经济实惠的,省了运维和管理的成本,扩容比较省心。要解决的是选择平台本身提供的服务,计算成本,打通数据出入的通道。整个数据平台本身如果走这条路,可能就已经基本成型了。走这条路的比较有名的应该是netflix。
也有一个阶段,你发现云服务的费用太高,虽然省了你很多事,但是花钱嗖嗖的。几个老板一合计,再玩下去下个月工资发布出来了。然后无奈之下公司开始往私有集群迁移。这时候你大概需要一群靠谱的运维,帮你监管机器,之前两三台机器登录上去看看状态换个磁盘什么的也许就不可能了,你面对的是成百上千台主机,有些关键服务必须保证稳定,有些是数据节点,磁盘三天两头损耗,网络可能被压得不堪重负。你需要一个靠谱的人设计网络布局,设计运维规范,架设监控,值班团队走起7*24小时随时准备出台。然后上面再有平台组真的大数据平台走起。
然后是选型,如果有技术实力,可以直接用社区的一整套,自己管起来,监控部署什么的自己走起。这个阶段部署监控和用户管理什么的都不可能像两三个节点那样人肉搞了,配置管理,部署管理都需要专门的平台和组件;定期Review用户的作业和使用情况,决定是否扩容,清理数据等等。否则等机器和业务进一步增加,团队可能会死的很惨,疲于奔命,每天事故不断,进入恶性循环。
当然有金钱实力的大户可以找Cloudera,Hortonworks,国内可以找华为星环,会省不少事,适合非互联网土豪。当然互联网公司也有用这些东西的,比如Ebay。
接下去你可能需要一些重量的组件帮你做一些事情。
比如你的数据接入,之前可能找个定时脚本或者爬log发包找个服务器接收写入HDFS,现在可能不行了,这些大概没有高性能,没有异常保障,你需要更强壮的解决方案,比如Flume之类的。
你的业务不断壮大,老板需要看的报表越来越多,需要训练的数据也需要清洗,你就需要任务调度,比如oozie或者azkaban之类的,这些系统帮你管理关键任务的调度和监控。
数据分析人员的数据大概可能渐渐从RDBMS搬迁到集群了,因为传统数据库已经完全hold不住了,但他们不会写代码,所以你上马了Hive。然后很多用户用了Hive觉得太慢,你就又上马交互分析系统,比如Presto,Impala或者SparkSQL。
你的数据科学家需要写ML代码,他们跟你说你需要Mahout或者Spark MLLib,于是你也部署了这些。
至此可能数据平台已经是工程师的日常工作场所了,大多数业务都会迁移过来。这时候你可能面临很多不同的问题。
比如各个业务线数据各种数据表多的一塌糊涂,不管是你还是写数据的人大概都不知道数据从哪儿来,接下去到哪儿去。你就自己搞了一套元数据管理的系统。
你分析性能,发现你们的数据都是上百Column,各种复杂的Query,裸存的Text格式即便压缩了也还是慢的要死,于是你主推用户都使用列存,Parquet,ORC之类的。
又或者你发现你们的ETL很长,中间生成好多临时数据,于是你下狠心把pipeline改写成Spark了。
再接下来也许你会想到花时间去维护一个门户,把这些零散的组件都整合到一起,提供统一的用户体验,比如一键就能把数据从数据库chua一下拉到HDFS导入Hive,也能一键就chua一下再搞回去;点几下就能设定一个定时任务,每天跑了给老板自动推送报表;或者点一下就能起一个Storm的topology;或者界面上写几个Query就能查询Hbase的数据。这时候你的数据平台算是成型了。
当然,磕磕碰碰免不了。每天你都有新的问题和挑战,否则你就要失业了不是?
你发现社区不断在解决你遇到过的问题,于是你们架构师每天分出很多时间去看社区的进展,有了什么新工具,有什么公司发布了什么项目解决了什么问题,兴许你就能用上。
上了这些乱七八糟的东西,你以为就安生了?Hadoop平台的一个大特点就是坑多。尤其是新做的功能新起的项目。对于平台组的人,老板如果知道这是天然坑多的平台,那他也许会很高兴,因为跟进社区,帮忙修bug,一起互动其实是很提升公司影响力的实情。当然如果老板不理解,你就自求多福吧,招几个老司机,出了问题能马上带路才是正道。当然团队的技术积累不能不跟上,因为数据平台还是乱世,三天不跟进你就不知道世界是什么样了。任何一个新技术,都是坑啊坑啊修啊修啊才完善的。如果是关键业务换技术,那需要小心再小心,技术主管也要有足够的积累,能够驾驭,知道收益和风险。

7. Netflix的核心竞争力是什么

创新模式,消除关键制约因素

在Netflix出现之前,美国有一个公司叫做Blockbuster,当年在美国风靡一时,曾经在全美有9000多家门店与接近6万的雇员,专门提供给碟片租赁服务。Netflix的创始人Hasting当时经常在那里租碟,有一次租碟之后,由于超过了归还时间,交了约40美元的逾期费用。这件事情引起了Hasting的反思,如果有一家没有逾期费用的租赁商,是不是给用户的感官体验会更好呢?

其实早期的Blockbuster也不仅仅只是一个单纯租借音像制品的店,它也有它很鲜明的特点,不然也不能风靡全美。其最主要的特点是运用数据分析干掉了一大批零散的竞争者,通过数据分析周围用户的人口特征、喜好,以此来决定开店的位置以及藏碟的种类。

Netflix创始人看到了Blockbuster的优势与不足,在商业模式上借鉴了Blockbuster优秀的数据分析模式,并且运用更高技术的分析方式。而与之不同的是,首先,Netflix采用网上租赁的形式,说白了就是O2O的方式,只要客户在网上下单,隔夜之后就可以将光盘邮寄到用户手中,用户完全不用出门就可以拿到想看的碟片,看完之后,再将碟片邮寄回公司。其次,Netflix完全采用轻资产的形式,摆脱了重资产的束缚,大大降低了人力成本。最重要的是,1999年开始,Netflix上租借光盘只需要按照时间缴纳会员费用,就可以租碟,并不存在逾期费用,当然,租碟的次数是有限制的。Netflix风靡之后,以绝对优势将Blockbuster打垮,很快便占据了光碟租赁市场的霸主地位。

抓住偶然的机会,勇于颠覆自我

在2005年Netflix已经拥有了450万的用户群体,这对当时的流媒体来说,已经是非常了不起的用户量了。2006年开始,由于宽带业务的普及,用户逐渐从电视转向网络。Netflix嗅到了一丝危机,但同时,这也是巨大的商机,网络化用户的急剧增长开始加大对流媒体的需求。于是,Netflix转身进入了流媒体行业。与租赁业务相比,流媒体业务不仅能够保证内容的实时性,而且换了平台仍旧能够靠用户记忆点播。这样,就可以降低用户每月的费用,且能够更加精准大量的拿到用户数据,以此将更精准的内容推给用户。与此同时,Netflix开始发展内容产品,内容上的创新依靠内部员工。

依靠技术更加贴近用户

如果让您给Netflix定义,那么您会认为它是一家什么样的公司呢?答案可能是娱乐公司,其实不然,Netflix是一家依赖技术的公司。上面我们讲过,Netflix的创始人吸取了Blockbuster利用数据达到的优势,并将其不断扩大,时至今日,其仍然为优秀IT工程师开着业内最高的薪水。其技术解决的问题主要有二:一是通过技术手段更加贴近用户口味;二是提高用户感官体验。通过技术手段贴近用户的主要方式是依赖大数据,依赖用户每日的观看内容与操作方式得出数据,给与观众最适合的推荐。提高用户体验主要是利用压缩其视频的技术达到用户在较慢网速下仍能得到较好的清晰度效果。

Netflix的商业逻辑,不仅仅是由于其消除了一些关键因素,也在于其前瞻性的眼界和不断颠覆自身的勇气。

8. 《怪奇物语2》开播,Netflix凭什么五年反超HBO

《怪奇物语2》将在美国开播。作为Netflix眼中唯一的对手,还在苦等《权力游戏》的HBO也许该颤抖了。


9. 大数据行业的数据精准吗

第一,用户行为与特征分析。显然,只要积累足够的用户数据,就能分析出用户的喜好与购买习惯,甚至做到“比用户更了解用户自己”。有了这一点,才是许多大数据营销的前提与出发点。无论如何,那些过去将“一切以客户为中心”作为口号的企业可以想想,过去你们真的能及时全面地了解客户的需求与所想吗?或许只有大数据时代这个问题的答案才更明确。

第二,精准营销信息推送支撑。过去多少年了,精准营销总在被许多公司提及,但是真正做到的少之又少,反而是垃圾信息泛滥。究其原因,主要就是过去名义上的精准营销并不怎么精准,因为其缺少用户特征数据支撑及详细准确的分析。相对而言,现在的RTB广告等应用则向我们展示了比以前更好的精准性,而其背后靠的即是大数据支撑。

第三,引导产品及营销活动投用户所好。如果能在产品生产之前了解潜在用户的主要特征,以及他们对产品的期待,那么你的产品生产即可投其所好。例如,Netflix在近投拍《纸牌屋》之前,即通过大数据分析知道了潜在观众最喜欢的导演与演员,结果果然捕获了观众的心。又比如,《小时代》在预告片投放后,即从微博上通过大数据分析得知其电影的主要观众群为90后女性,因此后续的营销活动则主要针对这些人群展开。

第四,竞争对手监测与品牌传播。竞争对手在干什么是许多企业想了解的,即使对方不会告诉你,但你却可以通过大数据监测分析得知。品牌传播的有效性亦可通过大数据分析找准方向。例如,可以进行传播趋势分析、内容特征分析、互动用户分析、正负情绪分类、口碑品类分析、产品属性分布等,可以通过监测掌握竞争对手传播态势,并可以参考行业标杆用户策划,根据用户声音策划内容,甚至可以评估微博矩阵运营效果。

第五,品牌危机监测及管理支持。新媒体时代,品牌危机使许多企业谈虎色变,然而大数据可以让企业提前有所洞悉。在危机爆发过程中,最需要的是跟踪危机传播趋势,识别重要参与人员,方便快速应对。大数据可以采集负面定义内容,及时启动危机跟踪和报警,按照人群社会属性分析,聚类事件过程中的观点,识别关键人物及传播路径,进而可以保护企业、产品的声誉,抓住源头和关键节点,快速有效地处理危机。

第六,企业重点客户筛选。许多企业家纠结的事是:在企业的用户、好友与粉丝中,哪些是最有价值的用户?有了大数据,或许这一切都可以更加有事实支撑。从用户访问的各种网站可判断其最近关心的东西是否与你的企业相关;从用户在社会化媒体上所发布的各类内容及与他人互动的内容中,可以找出千丝万缕的信息,利用某种规则关联及综合起来,就可以帮助企业筛选重点的目标用户。

第七,大数据用于改善用户体验。要改善用户体验,关键在于真正了解用户及他们所使用的你的产品的状况,做最适时的提醒。例如,在大数据时代或许你正驾驶的汽车可提前救你一命。只要通过遍布全车的传感器收集车辆运行信息,在你的汽车关键部件发生问题之前,就会提前向你或4S店预警,这决不仅仅是节省金钱,而且对保护生命大有裨益。事实上,美国的UPS快递公司早在2000年就利用这种基于大数据的预测性分析系统来检测全美60000辆车辆的实时车况,以便及时地进行防御性修理

第八,SCRM中的客户分级管理支持。面对日新月异的新媒体,许多企业想通过对粉丝的公开内容和互动记录分析,将粉丝转化为潜在用户,激活社会化资产价值,并对潜在用户进行多个维度的画像。大数据可以分析活跃粉丝的互动内容,设定消费者画像各种规则,关联潜在用户与会员数据,关联潜在用户与客服数据,筛选目标群体做精准营销,进而可以使传统客户关系管理结合社会化数据,丰富用户不同维度的标签,并可动态更新消费者生命周期数据,保持信息新鲜有效。

第九,发现新市场与新趋势。基于大数据的分析与预测,对于企业家提供洞察新市场与把握经济走向都是极大的支持。例如,阿里巴巴从大量交易数据中更早地发现了国际金融危机的到来。又如,在2012年美国总统选举中,微软研究院的David Rothschild就曾使用大数据模型,准确预测了美国50个州和哥伦比亚特区共计51个选区中50个地区的选举结果,准确性高于98%。之后,他又通过大数据分析,对第85届届奥斯卡各奖项的归属进行了预测,除最佳导演外,其它各项奖预测全部命中。

第十,市场预测与决策分析支持。对于数据对市场预测及决策分析的支持,过去早就在数据分析与数据挖掘盛行的年代被提出过。沃尔玛著名的“啤酒与尿布”案例即是那时的杰作。只是由于大数据时代上述Volume(规模大)及Variety(类型多)对数据分析与数据挖掘提出了新要求。更全面、速度更及时的大数据,必然对市场预测及决策分析进一步上台阶提供更好的支撑。要知道,似是而非或错误的、过时的数据对决策者而言简直就是灾难。