当前位置：首页 » 数据智能 » netapp大数据

netapp大数据

发布时间: 2021-03-24 23:00:09

⑴ openstack组件问题

OpenStack其实有三个与存储相关的组件，这三个组件被人熟知的程度和组件本身出现时间的早晚是相符的，按熟悉程度排列如下：
Swift——提供对象存储（Object Storage），在概念上类似于Amazon S3服务，不过swift具有很强的扩展性、冗余和持久性，也兼容S3 API
Glance——提供虚机镜像（Image）存储和管理，包括了很多与Amazon AMI catalog相似的功能。（Glance的后台数据从最初的实践来看是存放在Swift的）。
Cinder——提供块存储（Block Storage），类似于Amazon的EBS块存储服务，目前仅给虚机挂载使用。
（Amazon一直是OpenStack设计之初的假象对手和挑战对象，所以基本上关键的功能模块都有对应项目。除了上面提到的三个组件，对于AWS中的重要的EC2服务，OpenStack中是Nova来对应，并且保持和EC2 API的兼容性，有不同的方法可以实现）
三个组件中，Glance主要是虚机镜像的管理，所以相对简单；Swift作为对象存储已经很成熟，连CloudStack也支持它。Cinder是比较新出现的块存储，设计理念不错，并且和商业存储有结合的机会，所以厂商比较积极。
Swift
关于Swift的架构和部署讨论，除了官方网站，网上也有很多文章，这里就不重复.(也可以参考我之前在OpenStack中国行活动中上海站演讲的PPT)。从开发上看，最近也没有太大的结构性调整，所以我想主要说说比较适用的应用领域好了。
从我所了解的实际案例来看，Swift出现的领域有4个，(应该还有更多，希望大家看到实际用例能够指教)
1.网盘。
Swift的对称分布式架构和多proxy多节点的设计导致它从基因里就适合于多用户大并发的应用模式，最典型的应用莫过于类似Dropbox的网盘应用，Dropbox去年底已经突破一亿用户数，对于这种规模的访问，良好的架构设计是能够支撑的根本原因。
Swift的对称架构使得数据节点从逻辑上看处于同级别，每台节点上同时都具有数据和相关的元数据。并且元数据的核心数据结构使用的是哈希环，一致性哈希算法对于节点的增减都只需重定位环空间中的一小部分数据,具有较好的容错性和可扩展性。另外数据是无状态的，每个数据在磁盘上都是完整的存储。这几点综合起来保证了存储的本身的良好的扩展性。
另外和应用的结合上，Swift是说HTTP协议这种语言的，这使得应用和存储的交互变得简单，不需要考虑底层基础构架的细节，应用软件不需要进行任何的修改就可以让系统整体扩展到非常大的程度。
2.IaaS公有云
Swift在设计中的线性扩展，高并发和多租户支持等特性，使得它也非常适合做为IaaS的选择，公有云规模较大，更多的遇到大量虚机并发启动这种情况，所以对于虚机镜像的后台存储具体来说，实际上的挑战在于大数据（超过G）的并发读性能，Swift在OpenStack中一开始就是作为镜像库的后台存储，经过RACKSpace上千台机器的部署规模下的数年实践，Swift已经被证明是一个成熟的选择。
另外如果基于IaaS要提供上层的SaaS 服务，多租户是一个不可避免的问题，Swift的架构设计本身就是支持多租户的，这样对接起来更方便。
3.备份归档
RackSpace的主营业务就是数据的备份归档，所以Swift在这个领域也是久经考验，同时他们还延展出一种新业务--“热归档”。由于长尾效应，数据可能被调用的时间窗越来越长，热归档能够保证应用归档数据能够在分钟级别重新获取，和传统磁带机归档方案中的数小时而言，是一个很大的进步。
4. 移动互联网和CDN
移动互联网和手机游戏等产生大量的用户数据，数据量不是很大但是用户数很多，这也是Swift能够处理的领域。
至于加上CDN，如果使用Swift，云存储就可以直接响应移动设备，不需要专门的服务器去响应这个HTTP的请求，也不需要在数据传输中再经过移动设备上的文件系统，直接是用HTTP 协议上传云端。如果把经常被平台访问的数据缓存起来，利用一定的优化机制，数据可以从不同的地点分发到你的用户那里，这样就能提高访问的速度，我最近看到Swift的开发社区有人在讨论视频网站应用和Swift的结合，窃以为是值得关注的方向。
Glance
Glance比较简单，是一个虚机镜像的存储。向前端nova（或者是安装了Glance-client的其他虚拟管理平台）提供镜像服务，包括存储，查询和检索。这个模块本身不存储大量的数据，需要挂载后台存储（Swift，S3。。。）来存放实际的镜像数据。
Glance主要包括下面几个部分：
l API service： glance-api 主要是用来接受Nova的各种api调用请求，将请求放入RBMQ交由后台处理，。
l Glacne-registry 用来和MySQL数据库进行交互，存储或者获取镜像的元数据，注意，刚才在Swift中提到，Swift在自己的Storage Server中是不保存元数据的，这儿的元数据是指保存在MySQL数据库中的关于镜像的一些信息，这个元数据是属于Glance的。
l Image store：后台存储接口，通过它获取镜像，后台挂载的默认存储是Swift，但同时也支持Amazon S3等其他的镜像。
Glance从某种角度上看起来有点像虚拟存储，也提供API，可以实现比较完整的镜像管理功能。所以理论上其他云平台也可以使用它。
Glance比较简单，又限于云内部，所以没啥可以多展开讨论的，不如看看新出来的块存储组件Cinder，目前我对Cinder基本的看法是总体的设计不错，细节和功能还有很多需要完善的地方，离一个成熟的产品还有点距离。
Cinder
OpenStack到F版本有比较大的改变，其中之一就是将之前在Nova中的部分持久性块存储功能（Nova-Volume）分离了出来，独立为新的组件Cinder。它通过整合后端多种存储，用API接口为外界提供块存储服务，主要核心是对卷的管理，允许对卷，卷的类型，卷的快照进行处理。
Cinder包含以下三个主要组成部分

API service：Cinder-api 是主要服务接口, 负责接受和处理外界的API请求，并将请求放入RabbitMQ队列，交由后端执行。 Cinder目前提供Volume API V2
Scheler service: 处理任务队列的任务，并根据预定策略选择合适的Volume Service节点来执行任务。目前版本的cinder仅仅提供了一个Simple Scheler, 该调度器选择卷数量最少的一个活跃节点来创建卷。
Volume service: 该服务运行在存储节点上，管理存储空间，塔处理cinder数据库的维护状态的读写请求，通过消息队列和直接在块存储设备或软件上与其他进程交互。每个存储节点都有一个Volume Service，若干个这样的存储节点联合起来可以构成一个存储资源池。

Cinder通过添加不同厂商的指定drivers来为了支持不同类型和型号的存储。目前能支持的商业存储设备有EMC 和IBM的几款，也能通过LVM支持本地存储和NFS协议支持NAS存储，所以Netapp的NAS应该也没问题，好像华为也在努力中。我前段时间还在Cinder的blueprints看到IBM的GPFS分布式文件系统，在以后的版本应该会添加进来
到目前为止，Cinder主要和Openstack的Nova内部交互，为之提供虚机实例所需要的卷Attach上去，但是理论上也可以单独向外界提供块存储。
部署上，可以把三个服务部署在一台服务器，也可以独立部署到不同物理节点
现在Cinder还是不够成熟，有几个明显的问题还没很好解决，一是支持的商业存储还不够多，而且还不支持FC SAN，另外单点故障隐患没解决，内部的schele调度算法也太简单。另外由于它把各种存储整合进来又加了一层，管理倒是有办法了，但是效率肯定是有影响，性能肯定有损耗，但这也是没办法的事了。
Openstack通过两年多发展，变得越来越庞大。目前光存储就出现了三种：对象存储、镜像存储和块存储。这也是为了满足更多不同的需求，体现出开源项目灵活快速的特性。总的说来，当选择一套存储系统的时候，如果考虑到将来会被多个应用所共同使用，应该视为长期的决策。Openstack作为一个开放的系统，最主要是解决软硬件供应商锁定的问题，可以随时选择新的硬件供应商，将新的硬件和已有的硬件组成混合的集群，统一管理，当然也可以替换软件技术服务的提供商，不用动应用。这是开源本身的优势！

⑵ 超融合架构（HCI）和软件定义存储（SDS）的关系

两者是相辅相成，相互促进的。单纯从存储属性来看，HCI是SDS的一部分，正如前面SDS的分类所描述的那样，HCI属于数据平面。HCI具有的在线横向扩展的特性，非常适合云化的时代，但云化所需的存储资源即刻交付、动态扩展、在线调整，其实还需要借助控制平面的存储策略才能完成。
在SDS分类里，软件定义存储还包含了能被控制平面层驱动的外置共享存储，不过这部分的发展在国内还相对缓慢。软件定义存储的发展，在比较长的一段时间内，还需借助超融合架构的落地和蓬勃发展。

⑶ 请问到底是性能重要还是空间利用率重要

最大限度地挖掘存储系统的性能潜力是用户永远的追求，但是，面对众多性能优化技术，还必须考虑到底是性能重要还是空间利用率重要。
在当前经济形势低迷的大背景下，挖掘现有存储系统的性能潜力成为用户的必然选择，不过追求性能只是一个方面。
看到的现象是大多数存储系统的空间利用率还不到50%，而且存储控制器的处理能力也只用到一小部分，这些都是让用户不可接受的事实。
在数据中心应用领域，通过服务器整合以及虚拟化技术，物理服务器的资源已经被最大化的利用起来，与此相反的是，存储效率低下的问题却成为用户的痛点。
若要实现服务器虚拟化的高效率，存储系统就必须跟得上，这是一个必要的前提，因此服务器虚拟化应用推动着存储技术向更高效的方向发展。
在虚拟化环境中，当前端服务器数量不断增加，后端存储阵列的不足便暴露出来，尤其表现在缺乏细粒度的分配和调动空间资源的能力方面。
因此，如果用户希望对数据中心进行高度整合，那么服务器虚拟化技术和高效的存储技术二者缺一不可。
存储效率是一个综合性的指标，实现最佳的存储效率意味着要在有效存储空间以及可用处理资源两方面都有出色表现，通常也是各产品之间相互竞争的重点。
StorageIO高级分析师GregSchulz说，“为了达到应用所需的IOPS能力，有些存储系统被设计得很大，通过大量磁盘的并发来提升IOPS，可是空间利用率却非常低，反之，追求空间利用率的最大化往往需要借助存储精简技术，比如压缩和重复数据删除等等，但是这些功能会对系统性能带来负面的影响“。
因此，达成高效的存储就需要在容量和性能之间寻找一个平衡点，根据应用需求的不同，对容量、处理能力、性能以及成本进行控制和优化。
保证存储效率有哪些基本条件优化存储系统的性能，本质上就是要尽可能地提高存储处理资源的利用率，同时尽量消除系统的瓶颈或阻塞。
随着处理资源利用率的增加，剩余的处理资源以及响应额外处理请求的能力相应的就会降低。
而且如果缓冲区太小，那么系统达到性能上限（瓶颈）的可能性就非常大。
举个例子来说，一个平均处理资源利用率在50%的磁盘阵列不太可能触及性能上限（瓶颈），而对于一个利用率达到80%的系统来说，这个可能性就要大得多。
高效存储技术及其对性能、容量和成本的影响由存储厂商或第三方公司提供的内嵌在存储系统内部或在外部附加的运行报告、监控以及存储分析功能是十分重要的，它们可以帮助用户更好的了解系统的运行情况，避免系统过度（过高）配置，并减少很多后期维护工作。
尤其是当用户需要优化性能或者按需增加处理资源时，这些组件的作用就会体现的非常明显。
对此，StorageIO高级分析师GregSchulz评价道：“无论是性能问题还是容量问题，好好利用存储厂商或第三方公司提供的工具都是十分重要的。
”这些工具不仅能够帮助用户定位性能的问题，更重要的方面在于它们可以帮助用户选择出最恰当的解决方案。
衡量一套存储系统的性能并不能依赖某个单一指标，而要考虑多种组合因素，它们每一项都对应用程序访问数据的速度有所影响。
其中，IOPS、吞吐带宽和访问延迟这三项指标是最关键的。
不过，指标数据究竟是好是坏还要考虑应用环境的差异，包括工作负载的类型（随机请求或者顺序请求）、数据块的大小、交易类型（读或是写），以及其他相关的能够影响性能的因素都依赖于应用程序本身的特点。
比方说，如果是流媒体视频应用，那么大文件快速顺序读性能和大数据块是最重要的；
而如果是虚拟化应用环境，那么随机读性能通常是最主要的考察指标。
下面的部分，将纵览那些可以优化性能并且提高存储资源利用率的技术，这里没有独门秘籍，因为每一种方法都有其优点和缺点。
通过堆砌磁盘数量来提高性能磁盘驱动器是一种机械装置，读写磁头通过在高速旋转盘片的内道和外道之间往复移动来寻找并读写数据。
即使是转速最快的15000转磁盘，其磁头机械臂的重定位时间延迟都会有数毫秒之多，因此每个磁盘的IOPS值最多只有几百个，吞吐带宽则局限在100MB/秒以内。
通过将数据分布在多个磁盘上，然后对多个磁盘同步进行读写访问是一种常见的扩展性能的方法。
通过增加磁盘的个数，系统整体的IOPS和带宽值也会等比例提升。
加之，有些存储厂商还提供shortstr好ing这样的可以缩短磁头机械臂移动距离的技术。
此类技术可以将数据集中放置在磁盘盘片的外道区域，结果是磁头移动的距离大大缩短，对数据访问的性能具有十分明显的提升作用。
可是，当通过利用大量的磁盘并发以及short-str好ing磁头短距离移动技术达成既定的性能目标之后，会发现其代价是非常高昂的，此外，由于仅仅使用了盘片的外道空间，所以存储的空间利用率会非常差。
早在SSD固态盘技术出现之前，利用大量的磁盘并发以及short-str好ing磁头短距离移动技术来满足应用的性能要求是最普遍的办法，即使在今天，这种方案依然被大量使用，原因是SSD固态盘的成本太高，所以用户依然青睐磁盘而不是SSD。
NatApp技术和战略总监MikeRiley就说：“对于顺序访问大数据块和大文件这样的应用，使用磁盘通常性价比更高。
”RAID及wide-striping技术对效率的影响很多用户容易忽视一点，即RAID和RAID级别其实都会对性能和容量产生影响。
通过改变RAID级别来提升存储性能或者空间的利用率是一种很现实的选择。
校验盘的数量、条带的大小、RAID组的尺寸以及RAID组内数据块大小都会影响性能和容量。
RAID技术对性能和容量的影响都熟悉那些常见的RAID级别及其特点，但还有一些不常见的技术趋势值得关注，这些都与讨论的存储效率有关。
首先，RAID组的尺寸会影响性能、可用性以及容量。
通常，大的RAID组包含的磁盘数量更多，速度也更快，但是，当出现磁盘故障后，大RAID组也需要更多的时间用来重建。
每隔几年，磁盘的容量都会翻一番，其结果是RAID重建的时间也相应变的更长，在数据重建期间出现其他磁盘故障的风险也变得更大。
即使是带有双校验机制，允许两块磁盘同时出现故障的RAID6也存在风险增加的问题，况且，RAID6对性能的影响还比较大。
有一个更好的办法是完全打破传统RAID组和私有校验盘的概念，比如，NetApp的DynamicDiskPools（DDP）技术，该技术将数据、校验信息以及闲置空间块分散放置在一个磁盘池中，池中所有的磁盘会并发处理RAID重建工作。
另一个有代表性的产品是HP的3PAR存储系统，3PAR采用了一种叫做widestriping的技术，将数据条块化之后散布在一大堆磁盘上，同时磁盘自身的裸容量又细分成若干小的存储块（chunklet）。
3PAR的卷管理器将这些小的chunklet组织起来形成若干个micro-RAID（微型RAID组），每个微型RAID组都有自己的校验块。
对于每一个单独的微型RAID组来说，其成员块（chunklet）都分布在不同的磁盘上，而且chunklet的尺寸也很小，因此数据重建时对性能的冲击和风险都是最小的。
固态存储毫无疑问，SSD固态存储的出现是一件划时代的“大事儿“，对于存储厂商来说，在优化性能和容量这两个方面，SSD技术都是一种全新的选择。
与传统的磁盘技术相比，SSD固态盘在延迟指标方面有数量级上的优势（微秒对毫秒），而在IOPS性能上，SSD的优势甚至达到了多个数量级（10000以上对数百）。
Flash技术（更多的时候是磁盘与flash的结合）为存储管理员提供了一种更具性价比的解决方案，不必像过去那样，为了满足应用对性能的高要求而不得不部署大批量的磁盘，然后再将数据分散在磁盘上并发处理。
SSD固态盘最佳的适用场景是大量数据的随机读操作，比如虚拟化hypervisor，但如果是大数据块和大文件的连续访问请求，SSD的优势就没有那么明显了。
EMC统一存储部门负责产品管理与市场的高级副总裁EricHerzog说：“Flash的价格仍然10倍于最高端的磁盘，因此，用户只能酌情使用，而且要用在刀刃上。
”目前，固态存储有三种不同的使用方式：第一种方式，用SSD固态盘完全代替机械磁盘。
用SSD替换传统的磁盘是最简单的提升存储系统性能的方法。
如果选择这个方案，关键的一点是用户要协同存储厂商来验证SSD固态盘的效果，并且遵循厂商提供的建议。
如果存储系统自身的处理能力无法承载固态存储的高性能，那么SSD有可能会将整个系统拖垮。
因为，如果SSD的速度超出了存储控制器的承受范围，那么很容易出现性能（I/O阻塞）问题，而且会越来越糟。
另一个问题涉及到数据移动的机制，即的数据在什么时候、以何种方式迁移到固态存储上，或从固态存储上移走。
最简单但也最不可取的方法是人工指定，比如通过手动设定将数据库的日志文件固定存放在SSD固态存储空间，对于比较老的存储系统来说，这也许是唯一的方式。
在这里推荐用户使用那些自动化的数据分层移动技术，比如EMC的FAST（FullyAutomatedStorageTiering）。
第二种方式，用Flash（固态存储芯片）作为存储系统的缓存。
传统意义上的DRAM高速缓存容量太小，因此可以用Flash作为DRAM的外围扩展，而这种利用Flash的方式较之第一种可能更容易实现一些。
Flash缓存本身是系统架构的一个组成部分，即使容量再大，也是由存储控制器直接管理。
而用Flash作缓存的设计也很容易解决数据分层的难题，根据一般的定义，最活跃的数据会一直放置在高速缓存里，而过期的数据则驻留在机械磁盘上。
与第一种方式比较，存储系统里所有的数据都有可能借助Flash高速缓存来提升访问性能，而第一种方式下，只有存放在SSD固态盘中的数据才能获得高性能。
初看起来，用Flash做高速缓存的方案几乎没有缺陷，可问题是只有新型的存储系统才支持这种特性，而且是选件，因此这种模式的发展受到一定的制约。
与此相反，看到用Flash做大容量磁盘的高速缓存（而不是系统的高速缓存）反而成为更普遍的存储架构设计选择，因为它可以将高容量和高性能更好的融合。
IBM存储软件业务经理RonRiffe说：“在一套磁盘阵列中，只需要增加2-3%的固态存储空间，几乎就可以让吞吐带宽提高一倍。
”在服务器中使用Flash存储卡。
数据的位置离CPU和内存越近，存储性能也就越好。
在服务器中插入PCIeFlash存储卡，比如Fusion-IO，就可以获得最佳的存储性能。
不太有利的一面是，内置的Flash存储卡无法在多台服务器之间共享，只有单台服务器上的应用程序才能享受这一好处，而且价格非常昂贵。
尽管如此，仍然有两个厂商对此比较热衷，都希望将自己的存储系统功能向服务器内部扩展。
一个是NetApp，正在使其核心软件DataOntap能够在虚拟机hypervisor上运行；
另一个是EMC，推出的功能叫做VFCache（原名叫ProjectLightning）。
显而易见，这两家公司的目标是通过提供服务器端的Flash存储分级获得高性能，而这种方式又能让用户的服务器与提供的外部存储系统无缝集成。
存储加速装置存储加速装置一般部署在服务器和存储系统之间，既可以提高存储访问性能，又可以提供附加的存储功能服务，比如存储虚拟化等等。
多数情况下，存储加速装置后端连接的都是用户已有的异构存储系统，包括各种各样的型号和品牌。
异构环境的问题是当面临存储效率低下或者性能不佳的困扰时，分析与评估的过程就比较复杂。
然而，存储加速装置能够帮助已有磁盘阵列改善性能，并将各种异构的存储系统纳入一个统一的存储池，这不但可以提升整个存储环境的整体性能、降低存储成本，而且还可以延长已有存储的服役时间。
最近由IBM发布的是此类产品的代表，它将IBM的存储虚拟化软件SVC（SANVolumeController）以及存储分析和管理工具集成在一个单独的产品中。
可以将各种异构的物理存储阵列纳入到一个虚拟存储池中，在这个池之上创建的卷还支持自动精简配置。
该装置不但可以管理连接在其后的存储阵列中的Flash固态存储空间，而且自身内部也可以安装Flash固态存储组件。
通过实时存储分析功能，能够识别出I/O访问频繁的数据以及热点区域，并能够自动地将数据从磁盘迁移到Flash固态存储上，反向亦然。
用户可以借助的这些功能大幅度的提高现有的异构混合存储系统环境的性能和空间利用率。
与IBM类似的产品还有Alacritech和Avere，它们都是基于块或基于文件的存储加速设备。
日益增加的存储空间利用率利用存储精简技术，可以最大化的利用起可用的磁盘空间，存储精简技术包括自动精简配置、瘦克隆、压缩以及重复数据删除等等。
这些技术都有一个共同的目标，即最大程度的引用已经存在的数据块，消除或避免存储重复的数据。
然而存储精简技术对系统的性能稍有影响，所以对于用户来说，只有在明确了性能影响程度并且能够接受这种影响的前提下，才应该启动重复数据删除或数据压缩的功能。
性能和容量：密不可分存储系统的性能和空间利用率是紧密相关的一对参数，提升或改进其中的一个，往往会给另一个带来负面的影响。
因此，只有好好的利用存储分析和报表工具，才能了解存储的真实性能表现，进而发现系统瓶颈并采取适当的补救措施，这是必要的前提。
总之，提高存储效率的工作其实就是在性能需求和存储成本之间不断的寻找平衡。

⑷ 如何评估大数据应用的存储系统

但也因为虚拟化的特性，为承载环境中不断增长的虚拟机，需要扩容存储以满足性能与容量的使用需求。IT经理们已经发现，那些因服务器虚拟化所节省的资金都逐渐投入存储购买的方案上了。服务器虚拟化因虚拟机蔓延、虚拟机中用于备份与灾难恢复软件配置的问题，让许多组织彻底改变了原有的数据备份与灾难恢复策略。EMC、Hitachi Data System、IBM、NetApp和Dell等都致力于服务器虚拟化存储问题，提供包括存储虚拟化、重复数据删除与自动化精简配置等解决方案。服务器虚拟化存储问题出现在数据中心虚拟化环境中传统的物理存储技术。导致虚拟服务器蔓延的部分原因，在于虚拟服务器可能比物理服务器多消耗约30%左右的磁盘空间。还可能存在虚拟机“I/O 搅拌机”问题：传统存储架构无法有效管虚拟机产生的混杂模式随机I/O。虚拟化环境下的虚拟存储管理远比传统环境复杂——管理虚拟机就意味着管理存储空间。解决服务器虚拟化存储问题作为一名IT经理，你拥有解决此类服务器虚拟化存储问题的几个选项，我们从一些实用性较低的方案开始介绍。其中一项便是以更慢的速度部署虚拟机。你可以在每台宿主上运行更少的虚拟机，降低“I/O混合器”问题出现的可能性。另外一个方法则是提供额外存储，但价格不菲。一个更好的选择是在采购存储设备时，选择更智能的型号并引入诸如存储虚拟化，重复数据删除与自动化精简配置技术。采用这一战略意味着新技术的应用，建立与新产商的合作关系，例如Vistor、DataCore与FalconStor。将存储虚拟化作为解决方案许多分析师与存储提供商推荐存储虚拟化，作为服务器虚拟化存储问题的解决方案。即使没有出现问题，存储虚拟化也可以减少数据中心开支，提高商业灵活性并成为任何私有云的重要组件之一。概念上来说，存储虚拟化类似服务器虚拟化。将物理存储系统抽象，隐藏复杂的物理存储设备。存储虚拟化将来自于多个网络存储设备的资源整合为资源池，对外部来说，相当于单个存储设备，连同虚拟化的磁盘、块、磁带系统与文件系统。存储虚拟化的一个优势便是该技术可以帮助存储管理员管理存储设备，提高执行诸如备份/恢复与归档任务的效率。存储虚拟化架构维护着一份虚拟磁盘与其他物理存储的映射表。虚拟存储软件层(逻辑抽象层)介于物理存储系统与运行的虚拟服务器之间。当虚拟服务器需要访问数据时，虚拟存储抽象层提供虚拟磁盘与物理存储设备之间的映射，并在主机与物理存储间传输数据。只要理解了服务器虚拟化技术，存储虚拟化的区别仅在于采用怎样的技术来实现。容易混淆的主要还是在于存储提供商用于实现存储虚拟化的不同方式，可能直接通过存储控制器也可能通过SAN应用程序。同样的，某些部署存储虚拟化将命令和数据一起存放(in-band)而其他可能将命令与数据路径分离(out-of-band)。存储虚拟化通过许多技术实现，可以是基于软件、主机、应用或基于网络的。基于主机的技术提供了一个虚拟化层，并扮演为应用程序提供单独存储驱动分区的角色。基于软件的技术管理着基于存储网络的硬件设施。基于网络的技术与基于软件的技术类似，但工作于网络交换层。存储虚拟化技术也有一些缺陷。实现基于主机的存储虚拟化工具实际上就是卷管理器，而且已经流传了好多年。服务器上的卷管理器用于配置多个磁盘并将其作为单一资源管理，可以在需要的时候按需分割，但这样的配置需要在每台服务器上配置。此解决方式最适合小型系统使用。基于软件的技术，每台主机仅需要通过应用软件查询是否有存储单元可用，而软件将主机需求重定向至存储单元。因为基于软件的应用通过同样的链路写入块数据与控制信息(metadata)，所以可能存有潜在瓶颈，影响主机数据传输的速度。为了降低延迟，应用程序通常需要维护用于读取与写入操作的缓存，这也增加了其应用的价格。服务器虚拟化存储创新：自动化精简配置与重复数据删除存储技术的两个创新，自动化精简配置与重复数据删除，同样是减少服务器虚拟化环境对存储容量需求的解决方案。这两项革新可以与存储虚拟化结合，以提供牢固可靠的存储容量控制保障。自动精简配置让存储“走的更远”，可减少已分配但没有使用的容量。其功能在于对数据块按需分配，而不是对所有容量需求进行预先分配。此方法可以减少几乎所有空白空间，帮助避免利用率低下的情况出现，通常可以降低10%的磁盘开销，避免出现分配大量存储空间给某些独立服务器，却一直没有使用的情况。在许多服务器部署需求中，精简配置可通过普通存储资源池提供应用所需的存储空间。在这样的条件下，精简配置可以与存储虚拟化综合应用。重复数据删除从整体上检测与删除位于存储介质或文件系统中的重复数据。检测重复数据可在文件、字节或块级别进行。重复数据删除技术通过确定相同的数据段，并通过一份简单的拷贝替代那些重复数据。例如，文件系统中有一份相同的文档，在50个文件夹(文件)中，可以通过一份单独的拷贝与49个链接来替代原文件。重复数据删除可以应用与服务器虚拟化环境中以减少存储需求。每个虚拟服务器包含在一个文件中，有时文件会变得很大。虚拟服务器的一个功能便是，系统管理员可以在某些时候停下虚拟机，复制并备份。其可以在之后重启，恢复上线。这些备份文件存储于文件服务器的某处，通常在文件中会有重复数据。没有重复数据删除技术支持，很容易使得备份所需的存储空间急剧增长。改变购买存储设备的观念即使通过存储虚拟化，重复数据删除与精简配置可以缓解存储数容量增长的速度，组织也可能需要改变其存储解决方案购买标准。例如，如果你购买的存储支持重复数据删除，你可能不再需要配置原先规划中那么多的存储容量。支持自动化精简配置，存储容量利用率可以自动提高并接近100%，而不需要管理员费心操作维护。传统存储购买之前，需要评估满足负载所需的存储能力基线、三年时间存储潜在增长率、存储扩展能力与解决存储配置文件，还有拟定相关的采购合同。以存储虚拟化与云计算的优势，购买更大容量的传统存储将越来越不实际，尤其在预算仍是购买存储最大的限制的情况下。以下是一些简单的存储购买指导：除非设计中明确说明，不要购买仅能解决单一问题的存储方案。这样的做法将导致购买的存储架构无法与其他系统共享使用。 ·关注那些支持多协议并提供更高灵活性的存储解决方案。 ·考虑存储解决方案所能支持的应用/负载范围。 ·了解能够解决存储问题的技术与方案，例如重复数据删除与自动化精简配置等。 ·了解可以降低系统管理成本的存储管理软件与自动化工具。许多组织都已经在内部环境中多少实施了服务器虚拟化，并考虑如何在现有存储硬件与服务器上实现私有云。存储预算应用于购买合适的硬件或软件，这点十分重要。不要将仅将注意力集中在低价格上。相反，以业务问题为出发点，提供解决问题最有价值的存储解决方案才是王道。

⑸ 大数据时代需要什么样的存储

众多专家认为，大数据时代的存储，应当是分布式的存储，并呈现出与计算融合的趋势。当然，不同专家对融合的理解也有所区别。 SNIA-China技术委员会大大雷涛表示，在当前的大数据时代，由于数据量TB、PB级的急剧膨胀，传统的数据搬移工作已经不现实，因而存储服务器出现新的融合趋势。在这样的架构中，数据不再移动，写入以后分散在STORAGE，它的计算节点融合在数据旁边的CPU，数据越来越贴近计算。雷涛补充说，大数据只谈商业分析的数据支持，这是小数据思维，从金融、运营商、政府行业我们做的项目里面发现，大数据是嵌入到整个行业里面，替换以前的存储和计算的系统架构的过程。华为存储产品线Marketing部长经宁认为，大数据带来的三大变化，包括从集中式走向分布式，从水平走向纵向，从计算为中心转向以数据为中心，总结一句话，即在大数据下架构方向走向分布式存储的架构。 2013年，华为存储产品线把理念进行升级，变成“存以致用，融以致远”。经宁表示，融合架构是我们面对大数据挑战一个很好的选择。华为更多的希望把数据智能用起来产生价值，通过融合架构实现计算存储融合，可以带来更高的管理效率更高效能，大大降低我们管理上的开销。中桥国际调研咨询公司首席分析师王丛女士则从虚拟化、云计算数据保护和融合架构三个维度谈了中国数据中心的发展变化。她表示，具有高可移动性的虚拟机用于生产，掉了链子就很难判断是哪个物理环境，这就驱动了融合架构。融合架构避免了整合的时间和网络问题判断的时间，能够实现统一集中透明管理，可以根据工作负载去实时动态配置资源，也可以实时监控哪里出了问题，怎么解决问题。王丛还指出，融合架构有不同的形态，其中一种是在原来硬件基础上用一个软件罩上，然后形成融合架构，实现目的是可以在线扩展，所有动态可以负载均衡，在最大限度提高部署效率前提下，又能够降低因为硬件问题而导致的应用性能降低和应用的不稳定。老牌存储厂商NetApp同样对存储架构很有体会。NetApp公司北方区及电信事业部技术总监刘炜表示，在今天把数据存起来不是很难的问题，买一个移动硬盘就可以存储数据，但是在上面存储享受的服务级别不同的，不同于放在数据中心和网络云上面的服务级别的。为了不让数据成为整个企业发展的负担，而是成为真正的价值点，从资料变成资产，基础架构需要快速、安全地支持一些新的技术手段。刘炜认为，应用级别和服务级别怎么定义需要有很好存储架构。NetApp集群存储系统，并不是简单地迎合新概念，而是面向实际的应用设计。NetApp做了很多IT架构的设计，满足应用分级、资源分层的需求，你可以用虚拟化，也可以不用。 Fusion-io大中国区技术总监Tonny Ai与英特尔公司通信和存储基础架构事业部存储部市场总监 Christine M Rice女士谈到了SSD在大数据时代数据中心的应用。Tonny Ai表示，让包括非结构化数据的大量数据快速变成信息，不仅仅是服务器要快，存储速度也要跟上CPU的速度，闪存正是针对当前网络存储速度落后的解决方案，能够有效提高存储的性能。同时，Tonny Ai认为，在云计算、大数据时代，集中式存储需要的管理和维护非常困难，分布式存储模型是大势所趋。在这其中，Fusion-io提供了PCIe闪存卡、全闪存阵列以及SDK工具，支持提升各种应用的性能。 Christine M Rice女士指出，SSD不只是让数据变快。她认为，通过SSD在数据中心的使用，能够帮助节约成本，降低延迟，加快访问数据的速度，同时还能够提供非常高的可靠性和管理级别，结合了DRM的使用进行软件分层管理。戴尔亚太存储技术总监许良谋则强调了SSD的利用要在成本和性能之间的平衡，如何更好地应对大数据——闪存的成本和寿命让很多企业对它爱恨交加。许良谋认为，大数据需要一个高容量高速度的共享存储，戴尔的流动数据架构就是一个让数据平滑迁移的平台。戴尔实现了一个新的技术突破，即快速SLC和eMLC大容量盘可以用到流动架构里面，再加上普通的大容量盘，两级固态盘优化和流动数据架构的配合，这种方案可以比普通纯闪存的方式实现75%以上的成本节约。许良谋介绍到，戴尔一直通过收购、合作等方式，在自身产品线中不断引入新的存储技术，力图把最好的存储产品以最经济的方式提供给用户。

⑹ 学习物联网，云计算和大数据该从什么方向和书籍入手请大家帮帮我

你可以先了解下 NETAPP

阅读全文

netapp大数据

与netapp大数据相关的阅读推荐