⑴ openstack組件問題

OpenStack其實有三個與存儲相關的組件,這三個組件被人熟知的程度和組件本身出現時間的早晚是相符的,按熟悉程度排列如下:
Swift——提供對象存儲 (Object Storage),在概念上類似於Amazon S3服務,不過swift具有很強的擴展性、冗餘和持久性,也兼容S3 API
Glance——提供虛機鏡像(Image)存儲和管理,包括了很多與Amazon AMI catalog相似的功能。(Glance的後台數據從最初的實踐來看是存放在Swift的)。
Cinder——提供塊存儲(Block Storage),類似於Amazon的EBS塊存儲服務,目前僅給虛機掛載使用。
(Amazon一直是OpenStack設計之初的假象對手和挑戰對象,所以基本上關鍵的功能模塊都有對應項目。除了上面提到的三個組件,對於AWS中的重要的EC2服務,OpenStack中是Nova來對應,並且保持和EC2 API的兼容性,有不同的方法可以實現)
三個組件中,Glance主要是虛機鏡像的管理,所以相對簡單;Swift作為對象存儲已經很成熟,連CloudStack也支持它。Cinder是比較新出現的塊存儲,設計理念不錯,並且和商業存儲有結合的機會,所以廠商比較積極。
Swift
關於Swift的架構和部署討論,除了官方網站,網上也有很多文章,這里就不重復.(也可以參考我之前在OpenStack中國行活動中上海站演講的PPT)。從開發上看,最近也沒有太大的結構性調整,所以我想主要說說比較適用的應用領域好了。
從我所了解的實際案例來看,Swift出現的領域有4個,(應該還有更多,希望大家看到實際用例能夠指教)
1.網盤。
Swift的對稱分布式架構和多proxy多節點的設計導致它從基因里就適合於多用戶大並發的應用模式,最典型的應用莫過於類似Dropbox的網盤應用,Dropbox去年底已經突破一億用戶數,對於這種規模的訪問,良好的架構設計是能夠支撐的根本原因。
Swift的對稱架構使得數據節點從邏輯上看處於同級別,每台節點上同時都具有數據和相關的元數據。並且元數據的核心數據結構使用的是哈希環,一致性哈希演算法對於節點的增減都只需重定位環空間中的一小部分數據,具有較好的容錯性和可擴展性。另外數據是無狀態的,每個數據在磁碟上都是完整的存儲。這幾點綜合起來保證了存儲的本身的良好的擴展性。
另外和應用的結合上,Swift是說HTTP協議這種語言的,這使得應用和存儲的交互變得簡單,不需要考慮底層基礎構架的細節,應用軟體不需要進行任何的修改就可以讓系統整體擴展到非常大的程度。
2.IaaS公有雲
Swift在設計中的線性擴展,高並發和多租戶支持等特性,使得它也非常適合做為IaaS的選擇,公有雲規模較大,更多的遇到大量虛機並發啟動這種情況,所以對於虛機鏡像的後台存儲具體來說,實際上的挑戰在於大數據(超過G)的並發讀性能,Swift在OpenStack中一開始就是作為鏡像庫的後台存儲,經過RACKSpace上千台機器的部署規模下的數年實踐,Swift已經被證明是一個成熟的選擇。
另外如果基於IaaS要提供上層的SaaS 服務,多租戶是一個不可避免的問題,Swift的架構設計本身就是支持多租戶的,這樣對接起來更方便。
3.備份歸檔
RackSpace的主營業務就是數據的備份歸檔,所以Swift在這個領域也是久經考驗,同時他們還延展出一種新業務--「熱歸檔」。由於長尾效應,數據可能被調用的時間窗越來越長,熱歸檔能夠保證應用歸檔數據能夠在分鍾級別重新獲取,和傳統磁帶機歸檔方案中的數小時而言,是一個很大的進步。
4. 移動互聯網和CDN
移動互聯網和手機游戲等產生大量的用戶數據,數據量不是很大但是用戶數很多,這也是Swift能夠處理的領域。
至於加上CDN,如果使用Swift,雲存儲就可以直接響應移動設備,不需要專門的伺服器去響應這個HTTP的請求,也不需要在數據傳輸中再經過移動設備上的文件系統,直接是用HTTP 協議上傳雲端。如果把經常被平台訪問的數據緩存起來,利用一定的優化機制,數據可以從不同的地點分發到你的用戶那裡,這樣就能提高訪問的速度,我最近看到Swift的開發社區有人在討論視頻網站應用和Swift的結合,竊以為是值得關注的方向。
Glance
Glance比較簡單,是一個虛機鏡像的存儲。向前端nova(或者是安裝了Glance-client的其他虛擬管理平台)提供鏡像服務,包括存儲,查詢和檢索。這個模塊本身不存儲大量的數據,需要掛載後台存儲(Swift,S3。。。)來存放實際的鏡像數據。
Glance主要包括下面幾個部分:
l API service: glance-api 主要是用來接受Nova的各種api調用請求,將請求放入RBMQ交由後台處理,。
l Glacne-registry 用來和MySQL資料庫進行交互,存儲或者獲取鏡像的元數據,注意,剛才在Swift中提到,Swift在自己的Storage Server中是不保存元數據的,這兒的元數據是指保存在MySQL資料庫中的關於鏡像的一些信息,這個元數據是屬於Glance的。
l Image store: 後台存儲介面,通過它獲取鏡像,後台掛載的默認存儲是Swift,但同時也支持Amazon S3等其他的鏡像。
Glance從某種角度上看起來有點像虛擬存儲,也提供API,可以實現比較完整的鏡像管理功能。所以理論上其他雲平台也可以使用它。
Glance比較簡單,又限於雲內部,所以沒啥可以多展開討論的,不如看看新出來的塊存儲組件Cinder,目前我對Cinder基本的看法是總體的設計不錯,細節和功能還有很多需要完善的地方,離一個成熟的產品還有點距離。
Cinder
OpenStack到F版本有比較大的改變,其中之一就是將之前在Nova中的部分持久性塊存儲功能(Nova-Volume)分離了出來,獨立為新的組件Cinder。它通過整合後端多種存儲,用API介面為外界提供塊存儲服務,主要核心是對卷的管理,允許對卷,卷的類型,卷的快照進行處理。
Cinder包含以下三個主要組成部分

API service:Cinder-api 是主要服務介面, 負責接受和處理外界的API請求,並將請求放入RabbitMQ隊列,交由後端執行。 Cinder目前提供Volume API V2
Scheler service: 處理任務隊列的任務,並根據預定策略選擇合適的Volume Service節點來執行任務。目前版本的cinder僅僅提供了一個Simple Scheler, 該調度器選擇卷數量最少的一個活躍節點來創建卷。
Volume service: 該服務運行在存儲節點上,管理存儲空間,塔處理cinder資料庫的維護狀態的讀寫請求,通過消息隊列和直接在塊存儲設備或軟體上與其他進程交互。每個存儲節點都有一個Volume Service,若干個這樣的存儲節點聯合起來可以構成一個存儲資源池。

Cinder通過添加不同廠商的指定drivers來為了支持不同類型和型號的存儲。目前能支持的商業存儲設備有EMC 和IBM的幾款,也能通過LVM支持本地存儲和NFS協議支持NAS存儲,所以Netapp的NAS應該也沒問題,好像華為也在努力中。我前段時間還在Cinder的blueprints看到IBM的GPFS分布式文件系統,在以後的版本應該會添加進來
到目前為止,Cinder主要和Openstack的Nova內部交互,為之提供虛機實例所需要的卷Attach上去,但是理論上也可以單獨向外界提供塊存儲。
部署上,可以把三個服務部署在一台伺服器,也可以獨立部署到不同物理節點
現在Cinder還是不夠成熟,有幾個明顯的問題還沒很好解決,一是支持的商業存儲還不夠多,而且還不支持FC SAN,另外單點故障隱患沒解決,內部的schele調度演算法也太簡單。另外由於它把各種存儲整合進來又加了一層,管理倒是有辦法了,但是效率肯定是有影響,性能肯定有損耗,但這也是沒辦法的事了。
Openstack通過兩年多發展,變得越來越龐大。目前光存儲就出現了三種:對象存儲、鏡像存儲和塊存儲。這也是為了滿足更多不同的需求,體現出開源項目靈活快速的特性。總的說來,當選擇一套存儲系統的時候,如果考慮到將來會被多個應用所共同使用,應該視為長期的決策。Openstack作為一個開放的系統,最主要是解決軟硬體供應商鎖定的問題,可以隨時選擇新的硬體供應商,將新的硬體和已有的硬體組成混合的集群,統一管理,當然也可以替換軟體技術服務的提供商,不用動應用。這是開源本身的優勢!

⑵ 超融合架構(HCI)和軟體定義存儲(SDS)的關系

兩者是相輔相成,相互促進的。單純從存儲屬性來看,HCI是SDS的一部分,正如前面SDS的分類所描述的那樣,HCI屬於數據平面。HCI具有的在線橫向擴展的特性,非常適合雲化的時代,但雲化所需的存儲資源即刻交付、動態擴展、在線調整,其實還需要藉助控制平面的存儲策略才能完成。
在SDS分類里,軟體定義存儲還包含了能被控制平面層驅動的外置共享存儲,不過這部分的發展在國內還相對緩慢。軟體定義存儲的發展,在比較長的一段時間內,還需藉助超融合架構的落地和蓬勃發展。

⑶ 請問到底是性能重要還是空間利用率重要

最大限度地挖掘存儲系統的性能潛力是用戶永遠的追求,但是,面對眾多性能優化技術,還必須考慮到底是性能重要還是空間利用率重要。
在當前經濟形勢低迷的大背景下,挖掘現有存儲系統的性能潛力成為用戶的必然選擇,不過追求性能只是一個方面。
看到的現象是大多數存儲系統的空間利用率還不到50%,而且存儲控制器的處理能力也只用到一小部分,這些都是讓用戶不可接受的事實。
在數據中心應用領域,通過伺服器整合以及虛擬化技術,物理伺服器的資源已經被最大化的利用起來,與此相反的是,存儲效率低下的問題卻成為用戶的痛點。
若要實現伺服器虛擬化的高效率,存儲系統就必須跟得上,這是一個必要的前提,因此伺服器虛擬化應用推動著存儲技術向更高效的方向發展。
在虛擬化環境中,當前端伺服器數量不斷增加,後端存儲陣列的不足便暴露出來,尤其表現在缺乏細粒度的分配和調動空間資源的能力方面。
因此,如果用戶希望對數據中心進行高度整合,那麼伺服器虛擬化技術和高效的存儲技術二者缺一不可。
存儲效率是一個綜合性的指標,實現最佳的存儲效率意味著要在有效存儲空間以及可用處理資源兩方面都有出色表現,通常也是各產品之間相互競爭的重點。
StorageIO高級分析師GregSchulz說,「為了達到應用所需的IOPS能力,有些存儲系統被設計得很大,通過大量磁碟的並發來提升IOPS,可是空間利用率卻非常低,反之,追求空間利用率的最大化往往需要藉助存儲精簡技術,比如壓縮和重復數據刪除等等,但是這些功能會對系統性能帶來負面的影響「。
因此,達成高效的存儲就需要在容量和性能之間尋找一個平衡點,根據應用需求的不同,對容量、處理能力、性能以及成本進行控制和優化。
保證存儲效率有哪些基本條件優化存儲系統的性能,本質上就是要盡可能地提高存儲處理資源的利用率,同時盡量消除系統的瓶頸或阻塞。
隨著處理資源利用率的增加,剩餘的處理資源以及響應額外處理請求的能力相應的就會降低。
而且如果緩沖區太小,那麼系統達到性能上限(瓶頸)的可能性就非常大。
舉個例子來說,一個平均處理資源利用率在50%的磁碟陣列不太可能觸及性能上限(瓶頸),而對於一個利用率達到80%的系統來說,這個可能性就要大得多。
高效存儲技術及其對性能、容量和成本的影響由存儲廠商或第三方公司提供的內嵌在存儲系統內部或在外部附加的運行報告、監控以及存儲分析功能是十分重要的,它們可以幫助用戶更好的了解系統的運行情況,避免系統過度(過高)配置,並減少很多後期維護工作。
尤其是當用戶需要優化性能或者按需增加處理資源時,這些組件的作用就會體現的非常明顯。
對此,StorageIO高級分析師GregSchulz評價道:「無論是性能問題還是容量問題,好好利用存儲廠商或第三方公司提供的工具都是十分重要的。
」這些工具不僅能夠幫助用戶定位性能的問題,更重要的方面在於它們可以幫助用戶選擇出最恰當的解決方案。
衡量一套存儲系統的性能並不能依賴某個單一指標,而要考慮多種組合因素,它們每一項都對應用程序訪問數據的速度有所影響。
其中,IOPS、吞吐帶寬和訪問延遲這三項指標是最關鍵的。
不過,指標數據究竟是好是壞還要考慮應用環境的差異,包括工作負載的類型(隨機請求或者順序請求)、數據塊的大小、交易類型(讀或是寫),以及其他相關的能夠影響性能的因素都依賴於應用程序本身的特點。
比方說,如果是流媒體視頻應用,那麼大文件快速順序讀性能和大數據塊是最重要的;
而如果是虛擬化應用環境,那麼隨機讀性能通常是最主要的考察指標。
下面的部分,將縱覽那些可以優化性能並且提高存儲資源利用率的技術,這里沒有獨門秘籍,因為每一種方法都有其優點和缺點。
通過堆砌磁碟數量來提高性能磁碟驅動器是一種機械裝置,讀寫磁頭通過在高速旋轉碟片的內道和外道之間往復移動來尋找並讀寫數據。
即使是轉速最快的15000轉磁碟,其磁頭機械臂的重定位時間延遲都會有數毫秒之多,因此每個磁碟的IOPS值最多隻有幾百個,吞吐帶寬則局限在100MB/秒以內。
通過將數據分布在多個磁碟上,然後對多個磁碟同步進行讀寫訪問是一種常見的擴展性能的方法。
通過增加磁碟的個數,系統整體的IOPS和帶寬值也會等比例提升。
加之,有些存儲廠商還提供shortstr好ing這樣的可以縮短磁頭機械臂移動距離的技術。
此類技術可以將數據集中放置在磁碟碟片的外道區域,結果是磁頭移動的距離大大縮短,對數據訪問的性能具有十分明顯的提升作用。
可是,當通過利用大量的磁碟並發以及short-str好ing磁頭短距離移動技術達成既定的性能目標之後,會發現其代價是非常高昂的,此外,由於僅僅使用了碟片的外道空間,所以存儲的空間利用率會非常差。
早在SSD固態盤技術出現之前,利用大量的磁碟並發以及short-str好ing磁頭短距離移動技術來滿足應用的性能要求是最普遍的辦法,即使在今天,這種方案依然被大量使用,原因是SSD固態盤的成本太高,所以用戶依然青睞磁碟而不是SSD。
NatApp技術和戰略總監MikeRiley就說:「對於順序訪問大數據塊和大文件這樣的應用,使用磁碟通常性價比更高。
」RAID及wide-striping技術對效率的影響很多用戶容易忽視一點,即RAID和RAID級別其實都會對性能和容量產生影響。
通過改變RAID級別來提升存儲性能或者空間的利用率是一種很現實的選擇。
校驗盤的數量、條帶的大小、RAID組的尺寸以及RAID組內數據塊大小都會影響性能和容量。
RAID技術對性能和容量的影響都熟悉那些常見的RAID級別及其特點,但還有一些不常見的技術趨勢值得關注,這些都與討論的存儲效率有關。
首先,RAID組的尺寸會影響性能、可用性以及容量。
通常,大的RAID組包含的磁碟數量更多,速度也更快,但是,當出現磁碟故障後,大RAID組也需要更多的時間用來重建。
每隔幾年,磁碟的容量都會翻一番,其結果是RAID重建的時間也相應變的更長,在數據重建期間出現其他磁碟故障的風險也變得更大。
即使是帶有雙校驗機制,允許兩塊磁碟同時出現故障的RAID6也存在風險增加的問題,況且,RAID6對性能的影響還比較大。
有一個更好的辦法是完全打破傳統RAID組和私有校驗盤的概念,比如,NetApp的DynamicDiskPools(DDP)技術,該技術將數據、校驗信息以及閑置空間塊分散放置在一個磁碟池中,池中所有的磁碟會並發處理RAID重建工作。
另一個有代表性的產品是HP的3PAR存儲系統,3PAR採用了一種叫做widestriping的技術,將數據條塊化之後散布在一大堆磁碟上,同時磁碟自身的裸容量又細分成若干小的存儲塊(chunklet)。
3PAR的卷管理器將這些小的chunklet組織起來形成若干個micro-RAID(微型RAID組),每個微型RAID組都有自己的校驗塊。
對於每一個單獨的微型RAID組來說,其成員塊(chunklet)都分布在不同的磁碟上,而且chunklet的尺寸也很小,因此數據重建時對性能的沖擊和風險都是最小的。
固態存儲毫無疑問,SSD固態存儲的出現是一件劃時代的「大事兒「,對於存儲廠商來說,在優化性能和容量這兩個方面,SSD技術都是一種全新的選擇。
與傳統的磁碟技術相比,SSD固態盤在延遲指標方面有數量級上的優勢(微秒對毫秒),而在IOPS性能上,SSD的優勢甚至達到了多個數量級(10000以上對數百)。
Flash技術(更多的時候是磁碟與flash的結合)為存儲管理員提供了一種更具性價比的解決方案,不必像過去那樣,為了滿足應用對性能的高要求而不得不部署大批量的磁碟,然後再將數據分散在磁碟上並發處理。
SSD固態盤最佳的適用場景是大量數據的隨機讀操作,比如虛擬化hypervisor,但如果是大數據塊和大文件的連續訪問請求,SSD的優勢就沒有那麼明顯了。
EMC統一存儲部門負責產品管理與市場的高級副總裁EricHerzog說:「Flash的價格仍然10倍於最高端的磁碟,因此,用戶只能酌情使用,而且要用在刀刃上。
」目前,固態存儲有三種不同的使用方式:第一種方式,用SSD固態盤完全代替機械磁碟。
用SSD替換傳統的磁碟是最簡單的提升存儲系統性能的方法。
如果選擇這個方案,關鍵的一點是用戶要協同存儲廠商來驗證SSD固態盤的效果,並且遵循廠商提供的建議。
如果存儲系統自身的處理能力無法承載固態存儲的高性能,那麼SSD有可能會將整個系統拖垮。
因為,如果SSD的速度超出了存儲控制器的承受范圍,那麼很容易出現性能(I/O阻塞)問題,而且會越來越糟。
另一個問題涉及到數據移動的機制,即的數據在什麼時候、以何種方式遷移到固態存儲上,或從固態存儲上移走。
最簡單但也最不可取的方法是人工指定,比如通過手動設定將資料庫的日誌文件固定存放在SSD固態存儲空間,對於比較老的存儲系統來說,這也許是唯一的方式。
在這里推薦用戶使用那些自動化的數據分層移動技術,比如EMC的FAST(FullyAutomatedStorageTiering)。
第二種方式,用Flash(固態存儲晶元)作為存儲系統的緩存。
傳統意義上的DRAM高速緩存容量太小,因此可以用Flash作為DRAM的外圍擴展,而這種利用Flash的方式較之第一種可能更容易實現一些。
Flash緩存本身是系統架構的一個組成部分,即使容量再大,也是由存儲控制器直接管理。
而用Flash作緩存的設計也很容易解決數據分層的難題,根據一般的定義,最活躍的數據會一直放置在高速緩存里,而過期的數據則駐留在機械磁碟上。
與第一種方式比較,存儲系統里所有的數據都有可能藉助Flash高速緩存來提升訪問性能,而第一種方式下,只有存放在SSD固態盤中的數據才能獲得高性能。
初看起來,用Flash做高速緩存的方案幾乎沒有缺陷,可問題是只有新型的存儲系統才支持這種特性,而且是選件,因此這種模式的發展受到一定的制約。
與此相反,看到用Flash做大容量磁碟的高速緩存(而不是系統的高速緩存)反而成為更普遍的存儲架構設計選擇,因為它可以將高容量和高性能更好的融合。
IBM存儲軟體業務經理RonRiffe說:「在一套磁碟陣列中,只需要增加2-3%的固態存儲空間,幾乎就可以讓吞吐帶寬提高一倍。
」在伺服器中使用Flash存儲卡。
數據的位置離CPU和內存越近,存儲性能也就越好。
在伺服器中插入PCIeFlash存儲卡,比如Fusion-IO,就可以獲得最佳的存儲性能。
不太有利的一面是,內置的Flash存儲卡無法在多台伺服器之間共享,只有單台伺服器上的應用程序才能享受這一好處,而且價格非常昂貴。
盡管如此,仍然有兩個廠商對此比較熱衷,都希望將自己的存儲系統功能向伺服器內部擴展。
一個是NetApp,正在使其核心軟體DataOntap能夠在虛擬機hypervisor上運行;
另一個是EMC,推出的功能叫做VFCache(原名叫ProjectLightning)。
顯而易見,這兩家公司的目標是通過提供伺服器端的Flash存儲分級獲得高性能,而這種方式又能讓用戶的伺服器與提供的外部存儲系統無縫集成。
存儲加速裝置存儲加速裝置一般部署在伺服器和存儲系統之間,既可以提高存儲訪問性能,又可以提供附加的存儲功能服務,比如存儲虛擬化等等。
多數情況下,存儲加速裝置後端連接的都是用戶已有的異構存儲系統,包括各種各樣的型號和品牌。
異構環境的問題是當面臨存儲效率低下或者性能不佳的困擾時,分析與評估的過程就比較復雜。
然而,存儲加速裝置能夠幫助已有磁碟陣列改善性能,並將各種異構的存儲系統納入一個統一的存儲池,這不但可以提升整個存儲環境的整體性能、降低存儲成本,而且還可以延長已有存儲的服役時間。
最近由IBM發布的是此類產品的代表,它將IBM的存儲虛擬化軟體SVC(SANVolumeController)以及存儲分析和管理工具集成在一個單獨的產品中。
可以將各種異構的物理存儲陣列納入到一個虛擬存儲池中,在這個池之上創建的卷還支持自動精簡配置。
該裝置不但可以管理連接在其後的存儲陣列中的Flash固態存儲空間,而且自身內部也可以安裝Flash固態存儲組件。
通過實時存儲分析功能,能夠識別出I/O訪問頻繁的數據以及熱點區域,並能夠自動地將數據從磁碟遷移到Flash固態存儲上,反向亦然。
用戶可以藉助的這些功能大幅度的提高現有的異構混合存儲系統環境的性能和空間利用率。
與IBM類似的產品還有Alacritech和Avere,它們都是基於塊或基於文件的存儲加速設備。
日益增加的存儲空間利用率利用存儲精簡技術,可以最大化的利用起可用的磁碟空間,存儲精簡技術包括自動精簡配置、瘦克隆、壓縮以及重復數據刪除等等。
這些技術都有一個共同的目標,即最大程度的引用已經存在的數據塊,消除或避免存儲重復的數據。
然而存儲精簡技術對系統的性能稍有影響,所以對於用戶來說,只有在明確了性能影響程度並且能夠接受這種影響的前提下,才應該啟動重復數據刪除或數據壓縮的功能。
性能和容量:密不可分存儲系統的性能和空間利用率是緊密相關的一對參數,提升或改進其中的一個,往往會給另一個帶來負面的影響。
因此,只有好好的利用存儲分析和報表工具,才能了解存儲的真實性能表現,進而發現系統瓶頸並採取適當的補救措施,這是必要的前提。
總之,提高存儲效率的工作其實就是在性能需求和存儲成本之間不斷的尋找平衡。

⑷ 如何評估大數據應用的存儲系統

但也因為虛擬化的特性,為承載環境中不斷增長的虛擬機,需要擴容存儲以滿足性能與容量的使用需求。IT經理們已經發現,那些因伺服器虛擬化所節省的資金都逐漸投入存儲購買的方案上了。 伺服器虛擬化因虛擬機蔓延、虛擬機中用於備份與災難恢復軟體配置的問題,讓許多組織徹底改變了原有的數據備份與災難恢復策略。EMC、Hitachi Data System、IBM、NetApp和Dell等都致力於伺服器虛擬化存儲問題,提供包括存儲虛擬化、重復數據刪除與自動化精簡配置等解決方案。 伺服器虛擬化存儲問題出現在數據中心虛擬化環境中傳統的物理存儲技術。導致虛擬伺服器蔓延的部分原因,在於虛擬伺服器可能比物理伺服器多消耗約30%左右的磁碟空間。還可能存在虛擬機「I/O 攪拌機」問題:傳統存儲架構無法有效管虛擬機產生的混雜模式隨機I/O。虛擬化環境下的虛擬存儲管理遠比傳統環境復雜——管理虛擬機就意味著管理存儲空間。解決伺服器虛擬化存儲問題 作為一名IT經理,你擁有解決此類伺服器虛擬化存儲問題的幾個選項,我們從一些實用性較低的方案開始介紹。其中一項便是以更慢的速度部署虛擬機。你可以在每台宿主上運行更少的虛擬機,降低「I/O混合器」問題出現的可能性。另外一個方法則是提供額外存儲,但價格不菲。 一個更好的選擇是在采購存儲設備時,選擇更智能的型號並引入諸如存儲虛擬化,重復數據刪除與自動化精簡配置技術。採用這一戰略意味著新技術的應用,建立與新產商的合作關系,例如Vistor、DataCore與FalconStor。將存儲虛擬化作為解決方案 許多分析師與存儲提供商推薦存儲虛擬化,作為伺服器虛擬化存儲問題的解決方案。即使沒有出現問題,存儲虛擬化也可以減少數據中心開支,提高商業靈活性並成為任何私有雲的重要組件之一。 概念上來說,存儲虛擬化類似伺服器虛擬化。將物理存儲系統抽象,隱藏復雜的物理存儲設備。存儲虛擬化將來自於多個網路存儲設備的資源整合為資源池,對外部來說,相當於單個存儲設備,連同虛擬化的磁碟、塊、磁帶系統與文件系統。存儲虛擬化的一個優勢便是該技術可以幫助存儲管理員管理存儲設備,提高執行諸如備份/恢復與歸檔任務的效率。 存儲虛擬化架構維護著一份虛擬磁碟與其他物理存儲的映射表。虛擬存儲軟體層(邏輯抽象層)介於物理存儲系統與運行的虛擬伺服器之間。當虛擬伺服器需要訪問數據時,虛擬存儲抽象層提供虛擬磁碟與物理存儲設備之間的映射,並在主機與物理存儲間傳輸數據。 只要理解了伺服器虛擬化技術,存儲虛擬化的區別僅在於採用怎樣的技術來實現。容易混淆的主要還是在於存儲提供商用於實現存儲虛擬化的不同方式,可能直接通過存儲控制器也可能通過SAN應用程序。同樣的,某些部署存儲虛擬化將命令和數據一起存放(in-band)而其他可能將命令與數據路徑分離(out-of-band)。 存儲虛擬化通過許多技術實現,可以是基於軟體、主機、應用或基於網路的。基於主機的技術提供了一個虛擬化層,並扮演為應用程序提供單獨存儲驅動分區的角色。基於軟體的技術管理著基於存儲網路的硬體設施。基於網路的技術與基於軟體的技術類似,但工作於網路交換層。 存儲虛擬化技術也有一些缺陷。實現基於主機的存儲虛擬化工具實際上就是卷管理器,而且已經流傳了好多年。伺服器上的卷管理器用於配置多個磁碟並將其作為單一資源管理,可以在需要的時候按需分割,但這樣的配置需要在每台伺服器上配置。此解決方式最適合小型系統使用。 基於軟體的技術,每台主機僅需要通過應用軟體查詢是否有存儲單元可用,而軟體將主機需求重定向至存儲單元。因為基於軟體的應用通過同樣的鏈路寫入塊數據與控制信息(metadata),所以可能存有潛在瓶頸,影響主機數據傳輸的速度。為了降低延遲,應用程序通常需要維護用於讀取與寫入操作的緩存,這也增加了其應用的價格。伺服器虛擬化存儲創新:自動化精簡配置與重復數據刪除 存儲技術的兩個創新,自動化精簡配置與重復數據刪除,同樣是減少伺服器虛擬化環境對存儲容量需求的解決方案。這兩項革新可以與存儲虛擬化結合,以提供牢固可靠的存儲容量控制保障。 自動精簡配置讓存儲「走的更遠」,可減少已分配但沒有使用的容量。其功能在於對數據塊按需分配,而不是對所有容量需求進行預先分配。此方法可以減少幾乎所有空白空間,幫助避免利用率低下的情況出現,通常可以降低10%的磁碟開銷,避免出現分配大量存儲空間給某些獨立伺服器,卻一直沒有使用的情況。 在許多伺服器部署需求中,精簡配置可通過普通存儲資源池提供應用所需的存儲空間。在這樣的條件下,精簡配置可以與存儲虛擬化綜合應用。 重復數據刪除從整體上檢測與刪除位於存儲介質或文件系統中的重復數據。檢測重復數據可在文件、位元組或塊級別進行。重復數據刪除技術通過確定相同的數據段,並通過一份簡單的拷貝替代那些重復數據。例如,文件系統中有一份相同的文檔,在50個文件夾(文件)中,可以通過一份單獨的拷貝與49個鏈接來替代原文件。 重復數據刪除可以應用與伺服器虛擬化環境中以減少存儲需求。每個虛擬伺服器包含在一個文件中,有時文件會變得很大。虛擬伺服器的一個功能便是,系統管理員可以在某些時候停下虛擬機,復制並備份。其可以在之後重啟,恢復上線。這些備份文件存儲於文件伺服器的某處,通常在文件中會有重復數據。沒有重復數據刪除技術支持,很容易使得備份所需的存儲空間急劇增長。改變購買存儲設備的觀念 即使通過存儲虛擬化,重復數據刪除與精簡配置可以緩解存儲數容量增長的速度,組織也可能需要改變其存儲解決方案購買標准。例如,如果你購買的存儲支持重復數據刪除,你可能不再需要配置原先規劃中那麼多的存儲容量。支持自動化精簡配置,存儲容量利用率可以自動提高並接近100%,而不需要管理員費心操作維護。 傳統存儲購買之前,需要評估滿足負載所需的存儲能力基線、三年時間存儲潛在增長率、存儲擴展能力與解決存儲配置文件,還有擬定相關的采購合同。以存儲虛擬化與雲計算的優勢,購買更大容量的傳統存儲將越來越不實際,尤其在預算仍是購買存儲最大的限制的情況下。以下是一些簡單的存儲購買指導: 除非設計中明確說明,不要購買僅能解決單一問題的存儲方案。這樣的做法將導致購買的存儲架構無法與其他系統共享使用。 ·關注那些支持多協議並提供更高靈活性的存儲解決方案。 ·考慮存儲解決方案所能支持的應用/負載范圍。 ·了解能夠解決存儲問題的技術與方案,例如重復數據刪除與自動化精簡配置等。 ·了解可以降低系統管理成本的存儲管理軟體與自動化工具。 許多組織都已經在內部環境中多少實施了伺服器虛擬化,並考慮如何在現有存儲硬體與伺服器上實現私有雲。存儲預算應用於購買合適的硬體或軟體,這點十分重要。不要將僅將注意力集中在低價格上。相反,以業務問題為出發點,提供解決問題最有價值的存儲解決方案才是王道。

⑸ 大數據時代需要什麼樣的存儲

眾多專家認為,大數據時代的存儲,應當是分布式的存儲,並呈現出與計算融合的趨勢。當然,不同專家對融合的理解也有所區別。 SNIA-China技術委員會大大雷濤表示,在當前的大數據時代,由於數據量TB、PB級的急劇膨脹,傳統的數據搬移工作已經不現實,因而存儲伺服器出現新的融合趨勢。在這樣的架構中,數據不再移動,寫入以後分散在STORAGE,它的計算節點融合在數據旁邊的CPU,數據越來越貼近計算。 雷濤補充說,大數據只談商業分析的數據支持,這是小數據思維,從金融、運營商、政府行業我們做的項目裡面發現,大數據是嵌入到整個行業裡面,替換以前的存儲和計算的系統架構的過程。 華為存儲產品線Marketing部長經寧認為,大數據帶來的三大變化,包括從集中式走向分布式,從水平走向縱向,從計算為中心轉向以數據為中心,總結一句話,即在大數據下架構方向走向分布式存儲的架構。 2013年,華為存儲產品線把理念進行升級,變成「存以致用,融以致遠」。經寧表示,融合架構是我們面對大數據挑戰一個很好的選擇。華為更多的希望把數據智能用起來產生價值,通過融合架構實現計算存儲融合,可以帶來更高的管理效率更高效能,大大降低我們管理上的開銷。 中橋國際調研咨詢公司首席分析師王叢女士則從虛擬化、雲計算數據保護和融合架構三個維度談了中國數據中心的發展變化。她表示,具有高可移動性的虛擬機用於生產,掉了鏈子就很難判斷是哪個物理環境,這就驅動了融合架構。融合架構避免了整合的時間和網路問題判斷的時間,能夠實現統一集中透明管理,可以根據工作負載去實時動態配置資源,也可以實時監控哪裡出了問題,怎麼解決問題。 王叢還指出,融合架構有不同的形態,其中一種是在原來硬體基礎上用一個軟體罩上,然後形成融合架構,實現目的是可以在線擴展,所有動態可以負載均衡,在最大限度提高部署效率前提下,又能夠降低因為硬體問題而導致的應用性能降低和應用的不穩定。 老牌存儲廠商NetApp同樣對存儲架構很有體會。NetApp公司北方區及電信事業部技術總監劉煒表示,在今天把數據存起來不是很難的問題,買一個移動硬碟就可以存儲數據,但是在上面存儲享受的服務級別不同的,不同於放在數據中心和網路雲上面的服務級別的。 為了不讓數據成為整個企業發展的負擔,而是成為真正的價值點,從資料變成資產,基礎架構需要快速、安全地支持一些新的技術手段。劉煒認為,應用級別和服務級別怎麼定義需要有很好存儲架構。NetApp集群存儲系統,並不是簡單地迎合新概念,而是面向實際的應用設計。NetApp做了很多IT架構的設計,滿足應用分級、資源分層的需求,你可以用虛擬化,也可以不用。 Fusion-io大中國區技術總監Tonny Ai與英特爾公司通信和存儲基礎架構事業部存儲部市場總監 Christine M Rice女士談到了SSD在大數據時代數據中心的應用。Tonny Ai表示,讓包括非結構化數據的大量數據快速變成信息,不僅僅是伺服器要快,存儲速度也要跟上CPU的速度,快閃記憶體正是針對當前網路存儲速度落後的解決方案,能夠有效提高存儲的性能。 同時,Tonny Ai認為,在雲計算、大數據時代,集中式存儲需要的管理和維護非常困難,分布式存儲模型是大勢所趨。在這其中,Fusion-io提供了PCIe快閃記憶體卡、全快閃記憶體陣列以及SDK工具,支持提升各種應用的性能。 Christine M Rice女士指出,SSD不只是讓數據變快。她認為,通過SSD在數據中心的使用,能夠幫助節約成本,降低延遲,加快訪問數據的速度,同時還能夠提供非常高的可靠性和管理級別,結合了DRM的使用進行軟體分層管理。 戴爾亞太存儲技術總監許良謀則強調了SSD的利用要在成本和性能之間的平衡,如何更好地應對大數據——快閃記憶體的成本和壽命讓很多企業對它愛恨交加。許良謀認為,大數據需要一個高容量高速度的共享存儲,戴爾的流動數據架構就是一個讓數據平滑遷移的平台。 戴爾實現了一個新的技術突破,即快速SLC和eMLC大容量盤可以用到流動架構裡面,再加上普通的大容量盤,兩級固態盤優化和流動數據架構的配合,這種方案可以比普通純快閃記憶體的方式實現75%以上的成本節約。 許良謀介紹到,戴爾一直通過收購、合作等方式,在自身產品線中不斷引入新的存儲技術,力圖把最好的存儲產品以最經濟的方式提供給用戶。

⑹ 學習物聯網,雲計算和大數據該從什麼方向和書籍入手 請大家幫幫我

你可以先了解下 NETAPP