網管人雜誌
本文刊載於
網管人雜誌第 219 期 - 2024 年 4 月 1 日出刊,NetAdmin 網管人雜誌為一本介紹 Trend Learning 趨勢觀念、Solution Learning 解決方案、Technology
Learning
技術應用的雜誌,下列筆記為本站投稿網管人雜誌獲得刊登的文章,網管人雜誌於每月份
1 日出刊您可於各大書店中看到它,或透過城邦出版人讀者服務網進行訂閱。
本文目錄
前言
最新的 vSAN 8 Update 2 版本,在 2023 年 VMware Explore 大會中,隨著 vSphere 8 Update 2 版本一起正式發佈。過去,vSAN 便是將「運算 / 儲存 / 網路」整合後的 HCI 超融合環境,現在最新的 vSAN 8 U2 版本中,最亮眼的新功能之一便是集中式儲存的 vSAN Max(如圖 1 所示)。
圖 1、最新 vSAN 8 U2 版本正式發佈集中式儲存 vSAN Max
值得企業和組織注意的是,根據 VMware 官方最佳建議作法,vSAN Max 單一叢集至少應部署「7 台」叢集節點主機,雖然最多支援至「32 台」,但最佳作法則是建議最多「24 台」即可,在延伸叢集的部份,則建議至少應部署「14 台」叢集節點主機。
雖然,vSAN Max 叢集規模,只要擁有 6 台節點主機便支援 FTT=2(RAID-6)儲存原則,然而只要節點主機發生故障,便會喪失相關資料物件的可用性。反觀由 7 台節點主機組成的 vSAN Max 叢集規模,除了支援 FTT=2(RAID-6)儲存原則之外,當叢集節點主機發生故障時,也能夠確保資料物件的高可用性,這也是 VMware 最佳建議作法中,至少應部署 7 台節點主機組成 vSAN Max 叢集的主要原因。
當然,隨著 vSAN Max 叢集不斷擴充叢集節點主機時,除了整體可用資源線性增加之外,面對叢集節點主機發生故障時,受影響的資源也將逐漸降低,舉例來說,7 台節點主機組成的 vSAN Max 叢集,面對災難事件時將會影響 14.3% 的儲存資源(效能 / 空間),而 24 台節點主機組成的 vSAN Max 叢集,面對災難事件時則降低至僅影響 4.2% 的儲存資源(如圖 2 所示)。
圖 2、vSAN Max 叢集規模面對災難事件時影響程度示意圖
vSAN 8 U2 亮眼特色功能
vSAN Max vs vSAN HCI Mesh
在過去的 vSAN 版本中,VMware 已經提出 vSAN HCI Mesh 機制,讓傳統 vSphere 叢集或 vSAN 超融合叢集,能夠透過 vSAN HCI Mesh 機制,使用遠端的 vSAN Datastore 儲存資源。然而,在最新的 vSAN 8 U2 版本中,推出 vSAN Max 的 Storage-Only 集中式儲存機制,這兩者之間有何不同呢?
首先,可以看到在「傳統 HCI」(Traditional HCI)運作架構中,集合運算及儲存資源在 vSAN 超融合叢集中,所有的叢集節點主機,這種運作架構稱為「聚合資源」(Aggregates Resources),這種運作架構相對簡單,能夠充分滿足小型企業和組織的需求。然而,對於中大型企業和組織時,就顯得彈性較為不足,舉例來說,可能運算資源已經用盡,但是儲存資源仍然充足,反之亦然。
在過去,中大型企業和組織,會部署多組 vSAN 超融合叢集並整合 HCI Mesh 機制,也就是圖中的「跨叢集容量共享」(Cross-Cluster Capacity Sharing)架構,讓不同的 vSAN 超融合叢集之間,倘若某個 vSAN 超融合叢集發生儲存資源不足的情況時,其它 vSAN 超融合叢集便能提供或使用資源,雖然達到共享 vSAN Datastore 儲存資源的目的,但這樣的運作架構屬於分散式,而非集中式共用儲存資源方案(如圖 3 所示)。此外,別忘了 HCI Mesh 還有最多「5 個」遠端 vSAN Datastore 儲存資源共享的限制,難以滿足中大型企業和組織不斷變化和擴增的專案需求。
圖 3、傳統 vSAN 超融合架構及新式 vSAN Max 集中式共用儲存架構
因此,最新推出的 vSAN Max 便是集中式共用儲存資源機制,輕鬆為一個或多個 vSphere 叢集提供儲存資源,讓運算資源和儲存資源之間能夠各司其職,形成「非聚合儲存」(Disaggregated Storage)運作架構,並使用 vCenter Server 管理平台統一進行管理作業(如圖 4 所示)。
圖 4、vSAN Max 集中式共用儲存運作架構示意圖
匹敵高階儲存設備的 vSAN Max
首先,在 vSAN Max 儲存架構中,必須採用最新推出且高效能的 vSAN ESA 超融合儲存架構,而非傳統的 vSAN OSA 超融合儲存架構,確保屆時建構的 vSAN Max 能夠發揮最大儲存資源。在整個 vSAN Max 叢集架構中,根據 VMware 最佳建議作法中,部署 24 台叢集節點主機時,即可提供高達 8.6PB 的儲存空間,並提供高達 340 萬的 IOPS 儲存效能。
此外,vSAN Max 也支援原有超融合叢集進階功能,例如,延伸叢集(Stretched Cluster)、容錯網域(Fault Domains)、檔案服務(File Services)……等,重點是這些功能,都可以在管理人員熟悉的 vCenter Server 管理介面中完成(如圖 5 所示)。
圖 5、vSAN Max 儲存運作架構示意圖
vSAN ESA 儲存效能最佳化
vSAN ESA 儲存架構,在前一版 vSAN 8 U1 中推出,由於採用全 NVMe 高效能儲存裝置,讓 vSAN ESA 能夠提供非常高效能的儲存資源。在最新 vSAN 8 U2 版本中,針對 vSAN ESA 儲存架構進行二項改進,最佳化 vSAN ESA 整體儲存效能。
首先,最佳化在 vSAN 8 U1 版本中,vSAN ESA 的「日誌結構檔案系統」(Log-Structured Filesystem,LFS),包括新的「適應性寫入路徑」(Adaptive Write Path),確認傳入資料 I/O 的特徵,並根據情況使用兩個資料路徑之一寫入資料,也就是自動調校資料 I/O 的選擇路徑。一般情況下,預設寫入路徑會處理小型資料 I/O,而大型資料 I/O 的寫入路徑,則用於處理較大的 I/O 或大量未完成的 I/O,以便因應各種工作負載條件下提供高效能。
因此,在最新 vSAN 8 U2 版本中,透過記憶體處理資料的方式來改善 LFS 處理效率,對於每個「物件」(Object)來說,調整後的 LSF 使用 In-memory I/O Bank 記憶體動態分配機制,能夠更高效率的寫入資料和中繼資料,並且容納更多資料傳入 I/O,而非為每個物件分配固定數量的 I/O Bank,所以 LFS 能夠順利清除未使用的 I/O Bank(如圖 6 所示)。簡單來說,最佳化適應性寫入路徑機制後,在 vSAN ESA 儲存架構中使用 RAID-6 的儲存效能,能夠和 vSAN OSA 儲存架構中 RAID-1 的儲存效能相同。
圖 6、新式 vSAN LFS 和適應性寫入路徑最佳化運作架構示意圖
改善後的 vSAN LFS 檔案系統,以及處理資料 I/O 的適應性寫入路徑最佳化,對於集中式儲存架構的 vSAN Max 也有所助益。同時,建構於 vSAN ESA 基礎之上的 vSAN Max,由於能夠專注在處理儲存資源,而不像單純 vSAN ESA 超融合叢集,除了處理儲存資源之外,還必須處理運算資源等工作負載,所以對於處理大量未完成的資料 I/O 或大型資料 I/O 的效率,能夠比單純 vSAN ESA 超融合叢集有更佳的儲存效能(如圖 7 所示)。
圖 7、針對非聚合儲存的 vSAN ESA 適應性寫入路徑最佳化運作示意圖
支援垂直和水平擴充架構的 vSAN Max
傳統三層式虛擬化運作架構中,處理儲存資源的硬體儲存陣列設備,內含處理器、記憶體、容錯的儲存控制器……等,並且透過背板連接眾多儲存裝置,以及透過擴充機箱的方式來擴充儲存空間,並將這些儲存空間整合後,呈現給上層的 vSphere 工作負載提供儲存 I/O 資源。
然而,這種採用垂直模組化擴充機制的缺點,在於僅能擴充儲存硬體設備的可用儲存空間,但是所有來至上層 vSphere 傳遞的儲存 I/O 工作負載,仍然是由本來的容錯儲存控制器處理,並且硬體儲存設備的儲存控制器,在處理資料 I/O 的機制通常是「先到先服務」(First com first serve)的方式。
因此,當上層 vSphere 叢集工作負載不斷擴增的同時,隨著儲存控制器的快取空間用盡,造成硬體儲存設備的儲存控制器無法負荷,並且所有工作負載共享儲存控制器的緩衝空間,屆時除了發生嚴重的儲存 I/O 資源爭用之外,一旦儲存控制器發生問題時,更會發生雞蛋放在同一個籃子的災難事件(如圖 8 所示)。
圖 8、傳統三層式運作架構的缺點示意圖
反觀 vSAN Max 運作架構,原生設計於 vSAN 超融合叢集,同時支援「垂直擴充」(Scale-Up)和「水平擴充」(Scale-Out)運作架構,舉例來說,在 vSAN Max 叢集中,共有 6 台叢集節點主機,每台節點主機配置共 300TB 儲存容量,共有 56 個運算核心及 100Gb 傳輸網路,所以建構後的 vSAN Max 叢集,將會整合為 1.8PB 儲存資源空間,和 336 個運算核心及 600Gb 傳輸網路,一旦需求增加新增叢集節點主機至 vSAN Max 叢集時,每新增一台節點主機,便會增加 300TB 儲存容量 / 56 個運算核心 / 100Gb 頻寬,所以 vSAN Max 叢集資源可以隨著增加叢集節點主機,線性提升整體的運算 / 儲存 / 網路等資源(如圖 9 所示)。
圖 9、vSAN Max 水平擴充運作架構示意圖
同時,這種水平擴充架構的另一個優勢,在於當 vSAN Max 叢集中節點主機發生故障時,並不像傳統三層式架構會導致大災難,舉例來說,在 12 台節點主機所組成的 vSAN Max 叢集中,倘若其中一台節點主機發生故障時,對於 vSAN Max 叢集來說僅損失 1/12 的資源,上層的 vSphere 資料 I/O 需求,將會繼續平均分散在其它存活 11 台節點主機上繼續運作。
此外,vSAN Max 叢集也支援垂直擴充機制,一旦管理人員經過評估後,發現無須新增節點主機進行水平擴充,而是為每台現有的叢集節點主機擴充儲存裝置,即可擴充 vSAN Max 叢集整體儲存空間,達到垂直擴充機制(如圖 10 所示)。
圖 10、支援垂直擴充機制的 vSAN Max 叢集架構示意圖
支援容錯網域的 vSAN Max
對於小型企業和組織來說,即便部署 vSAN Max 環境,通常因為營運規模的關係,通常叢集節點主機數量並不會超過一個機櫃,然而對於中大型企業和組織來說,部署的叢集節點主機數量,經常會跨越不同的機櫃,此時便需要啟用「容錯網域」(Fault Domains)功能,才能兼顧效能的同時又具備資料高可用性(如圖 11 所示)。
圖 11、vSAN Max 支援容錯網域確保資料高可用性示意圖
舉例來說,在單一的 vSAN 叢集中,共有 24 台叢集節點主機並分佈在 6 座機櫃中,在啟用容錯網域功能後,以 vSAN 儲存原則 FTT=1(RAID-1)為例,資料物件和見證都會寫入不同的機櫃和節點主機中,其中資料物件寫入機櫃 2 和機櫃 4,見證則是寫入機櫃 3 當中(如圖 12 所示)。
圖 12、vSAN 叢集啟用容錯網域資料物件和見證寫入示意圖
當機櫃 2 內存放資料物件的叢集節點主機發生故障後,系統會在機櫃 2 內其它存活的叢集節點主機,將遺失的資料物件進行重建,倘若整個機櫃 2 發生災難後,系統便會在其它存活的機櫃中,將遺失的資料物件進行重建(如圖 13 所示)。
圖 13、vSAN 叢集啟用容錯網域後因應災難事件示意圖
倘若,叢集節點主機數量不多,但是又想具備類似容錯網域的功能時,有沒有更簡單的作法 ?舉例來說,vSAN Max 叢集中共有 7 台叢集節點主機,分別放置在不同的機櫃當中,一旦實體伺服器這樣擺放之後,無須啟用容錯網域功能,也等同於具備機櫃感知的能力,值得注意的是,每座機櫃只能放一台叢集節點主機(如圖 14 所示)。
圖 14、透過實體擺放叢集節點主機在不同機櫃,達到類似容錯網域的功能
值得注意的是,小型 vSAN 叢集並擺放於同一機櫃中也並非全無好處,舉例來說,叢集節點主機都處於同一機櫃時,vSAN 儲存流量都保持在 ToR/Leaf 網路交換器即可,反觀中大型跨機櫃的 vSAN 叢集環境,由於跨越機櫃的關係,整體的 vSAN 儲存流量,必須至上層 Spine 網路交換器進行交換才行(如圖 15 所示)。
圖 15、不同規模 vSAN 叢集的網路拓樸對於儲存流量的影響
實戰演練 – 部署 vSAN Max 儲存叢集
在本文實作環境中,將會組態設定已經部署 6 台節點主機的 vSAN ESA 叢集,搖身一變為集中式儲存的 vSAN Max 叢集,至於為何部署 6 台節點主機的原因在於,這樣的節點主機數量才足以支援,並且建立 RAID-6(Erasure Coding)儲存原則,以便屆時能夠與 OSA 超融合叢集的 RAID-1 儲存原則,進行儲存效能 I/O 的互相比較。
有關 vSAN ESA 超融合叢集的部署操作詳細資訊,請參考本刊 <第 208 期 - vSAN 8 新儲存架構開工,實戰 ESA 超融合叢集>專欄內容。
啟用 vSAN Max 集中式儲存服務
在 vCenter Server 管理介面中,請依序點選「vSAN ESA Cluster > Configure > vSAN > Services」,在 vSAN Services 頁面中,可以看到有三個服務選項,分別是 vSAN HCI、vSAN Compute Cluster、vSAN Max,請點選 vSAN Max 選項(如圖 16 所示),並採用預設值 Single site vSAN cluster 後,點選下方 Configure 鈕繼續。
圖 16、準備啟用 vSAN ESA 叢集中的 vSAN Max 服務
在彈出的 Configure vSAN 互動視窗中,系統會自動檢查選擇的 vSAN 叢集,是否為已經啟用並運作中的 vSAN ESA 叢集,否則將無法繼續執行啟用 vSAN Max 服務的動作,在 2 Services 頁面中,管理人員可以依據需求,選擇是否啟用加密選項 Data-At-Rest 或 Data-In-Transit(如圖 17 所示),以及 vSAN ESA 叢集預設便啟用的 Auto-Policy management 功能,確認無誤後按下 Next 鈕繼續。
圖 17、在稍後啟用的 vSAN Max 服務中是否啟用資料加密機制
在 3 Claim disks 頁面中,可以看到本文實作環境中,vSAN ESA 叢集共 6 台節點主機,每一台節點主機配置 4 個 NVMe SSD 儲存裝置,所以整個 vSAN ESA 叢集共有 24 個 NVMe SSD 儲存裝置,並且預設情況下宣告所有 NVMe SSD 儲存裝置,成為屆時 vSAN Max 的儲存資源池(如圖 18 所示)。
圖 18、宣告所有 NVMe SSD 儲存裝置成為 vSAN Max 儲存資源池
在 4 Create fault domains 頁面中,由於 vSAN Max 也支援建立容錯網域機制,所以管理人員可依據需求,按下 ADD 建立容錯網域,或採用預設值不建立容錯網域按下 Next 鈕繼續。最後,在 5 Review 頁面中,再次確認組態設定值無誤後,按下 Finish 鈕後,系統便立即為 vSAN ESA 叢集啟用 vSAN Max 服務。
使用 vSAN Max 儲存資源
順利啟用 vSAN Max 集中式儲存機制後,便可以組態設定 vSphere 運算叢集,使用 vSAN Max 儲存資源。事實上,組態設定方式和過去 vSAN HCI Mesh 機制相同,主要差異在於,過去 vSAN HCI Mesh 機制,無論是 Client Cluster 或 Server Cluster 最多僅支援「5 個」vSAN Datastore 儲存資源。
有關 vSAN HCI Mesh 運作機制的詳細資訊,請參考本刊 < 第 190 期 - 實戰部署 HCI Mesh 架構,最大化 vSAN 資源使用 >專欄內容。
請點選本文實作環境中,負載運作 VM 虛擬主機等工作負載的 Compute 運算叢集,依序點選「Compute Cluster > Configure > vSAN > Services」,在 vSAN Services 頁面中,請點選「vSAN Compute Cluster」選項(如圖 19 所示),以及預設的 Configure cluster without vSAN datastore 選項後,按下 Configure 鈕繼續組態設定作業。
圖 19、組態設定 Compute 運算叢集使用 vSAN Max 儲存資源
在彈出的 Configure vSAN Compute Cluster 視窗中,系統提醒將組態設定為 vSAN 運算叢集角色,稍後掛載使用的 vSAN 儲存資源將為遠端叢集,避免管理人員誤認儲存資源為本地端儲存資源,確認無誤後按下 Apply 鈕以便套用生效。
回到 vCenter Server 管理介面中,可以看到 Compute 運算叢集中,vSAN 組態設定區塊中多了 Remote Datastores 項目,點選後按下 Mount Remote Datastore,在彈出的 Select datastore 視窗中,可以看到剛才啟用的 vSAN Max 儲存資源,點選後按下 Next 鈕。值得注意的是,倘若在 Select datastore 視窗中,無法看到剛才啟用的 vSAN Max 儲存資源時,表示 Compute 運算叢集的 VMkernel Port,無法和 vSAN Max 儲存叢集進行通訊所導致的結果。
在 Check compatibility 頁面中,系統將會針對剛才選擇的遠端 vSAN Max 儲存資源,進行多個項目的相容性檢查(如圖 20 所示),例如,遠端 vSAN Max 儲存資源是否為支援格式的版本、Compute 運算叢集和 vSAN Max 儲存資源之間,網路延遲時間是否低於 5ms…… 等,確保能夠順利掛載和使用選擇的遠端 vSAN Max 儲存資源。
圖 20、系統執行掛載遠端 vSAN Max 儲存叢集的相容性檢查作業
部署 VM 虛擬主機並使用 vSAN Max 儲存資源
現在,Compute 運算叢集,無論是部署新的 VM 虛擬主機,或先前部署並運作中的 VM 虛擬主機,只要執行 Storage vMotion 儲存資源遷移任務,在遷移 VM 虛擬主機的儲存資源時,都能選擇已經掛載完成的遠端 vSAN Max 儲存資源,並且套用具備彈性和高可用性的 vSAN 儲存原則。
舉例來說,管理人員在 Compute 運算叢集中,於新增 VM 虛擬主機的流程中,在 4 Select storage 步驟中,當選擇的儲存資源為掛載的 vSAN Max 儲存資源時,便能同時選擇套用至 VM 虛擬主機的 vSAN 儲存原則,以本文實作環境為例,便可以套用 RAID6 的儲存原則至新增的 VM 虛擬主機中(如圖 21 所示)。
圖 21、Compute 運算叢集新增 VM 虛擬主機並使用 vSAN Max 儲存資源
當 Compute 運算叢集部署完成 VM 虛擬主機後,管理人員可以點選 vSAN-ESA 叢集,可以看到啟用 vSAN Max 服務的 vSAN-ESA 叢集,已經內建儀表板功能並有四大區塊顯示相關資訊,分別是 vSAN Health、vSAN Performance、vSAN Client Clusters、vSAN Capacity,在 vSAN Health 區塊中,除了顯示 vSAN Max 健康情況之外,屆時若有效能上的問題時,還能點選 Troubleshoot 進行故障排除,或是點選 View Trend Details 時查看健康情況趨勢圖(如圖 22 所示)。
圖 22、透過 vSAN Max 內建儀表板功能了解整體健康情況
在 vSAN Performance 區塊中則顯示儲存 I/O 效能表示數據,在 vSAN Client Clusters 區塊中,則顯示目前有哪些 vSphere 運算叢集,或其它 vSAN 超融合叢集,掛載 vSAN Max 儲存資源,在 vSAN Capacity 區塊中,則顯示 vSAN Max 整體儲存空間的使用資訊。
結語
透過本文的深入剖析和實作演練後,相信管理人員除了理解最新 vSAN 8 U2 版本中,有哪些亮眼特色功能之外,透過實戰小節在 vSAN ESA 叢集中,啟用和部署 vSAN Max 集中式儲存機制,讓企業和組織的管理人員能夠立即上手,方便在內部資料中心內進行測試和研究 vSAN Max 新功能。