隨著 NVME SSD 的性能和容量不斷提高,且價格不斷下降,隨著高性能無損網(wǎng)絡 25Gb/100Gb 的普及和 400Gb 的出現(xiàn),隨著 NVMe over RoCE 技術的普及(數(shù)據(jù)中心的任何位置訪問存儲都只需要微秒級時延),這都加速了全閃化數(shù)據(jù)中心架構的到來。全閃化數(shù)據(jù)中心架構能為企業(yè)級客戶提供顯著的性能提升、成本節(jié)約和業(yè)務靈活性,從而幫助企業(yè)在高度競爭的市場環(huán)境中取得優(yōu)勢。但現(xiàn)有全閃存儲存在以下痛點:
XSKY 通過借鑒高端存儲的 Shared-Everything 架構和 XSKY 在多年分布式存儲的經(jīng)驗,設計了全新革命性的 eXtreme Shared-Everything Architecture 極速全共享架構(簡稱為:XSEA、星海架構),它能夠充分利用最新的標準存儲協(xié)議和網(wǎng)絡技術,將會顛覆數(shù)據(jù)中心的存儲層次結構,取代部分 NVMe DAS 和混閃存儲,通過突破性的方法解決了過去 20 年傳統(tǒng) Shared-Nothing 架構下的性能、可靠性、規(guī)模、成本的妥協(xié)問題。
星海架構通過的三項技術創(chuàng)新 Shared-Everything、單層閃存介質、端到端的 NVMe,實現(xiàn)了 3 個 100:
全共享數(shù)據(jù)存儲
100ms 故障切換時間
面向 TLC NVMe SSD
100% 得盤率
最大化硬件卸載
100μs 超低延遲
星海架構采用了 “Shared-Everything (全共享)”模型來實現(xiàn)全共享數(shù)據(jù)存儲,使得每個節(jié)點都能直接訪問所有 SSD,來提高數(shù)據(jù)訪問速度和靈活性。在慢盤、亞健康場景下,可在 100ms 內(nèi)快速完成故障切換。
星海架構采用單層 TLC NVMe SSD 來構建存儲池,簡化集群的存儲硬件結構。在使用方式上,利用 Append Only 方式實現(xiàn)數(shù)據(jù)寫入,減少了寫放大現(xiàn)象。并通過精心設計的空間布局,在單個 SSD 上實現(xiàn)了緩存和持久存儲的雙重功能。這些技術使得在沒有專用緩存介質情況下,確保足夠的性能穩(wěn)定性。
在常規(guī)的混合讀寫業(yè)務場景中,相比分層緩存方式,單層閃存可以顯著降低介質成本 20%以上。同時配合 shared-everything 架構模型帶來的全局 EC 和壓縮功能,使得集群的得盤率超過了 100%。
在端到端 IO 路徑上,星海架構采用了標準 NVMe over Fabrics 協(xié)議進行構建。除了客戶端訪問存儲采用 NVMe over Fabrics 標準協(xié)議外,在存儲內(nèi)部互聯(lián)網(wǎng)絡也采用 NVMe over Fabrics 標準協(xié)議,是完全的端到端 NVMe 設計,意味著所有存儲節(jié)點都可以通過 NVMe over Fabrics 高效地訪問每一個 NVMe SSD,從而避免了存儲協(xié)議轉換所帶來的額外開銷。在端到端的 NVMe I/O 路徑上,星海架構也采用了高效的 Polling 模式處理每個 I/O 請求,并通過 NUMA 綁定優(yōu)化了不同服務的內(nèi)存訪問效率,最后實現(xiàn)低至 100 微秒的端到端延遲。這可以讓數(shù)據(jù)中心的任何位置訪問星飛全閃存儲都只需要微秒級時延。
星飛軟件基于星海架構 ,繼承了 XSKY SDS 塊和文件的成熟能力,提供統(tǒng)一存儲平臺,為虛擬化、私有云、OLTP、HPDA、AI/ML 等場景提供支持。星飛存儲軟件的數(shù)據(jù)面提供了數(shù)據(jù)持久層、數(shù)據(jù)服務層、協(xié)議訪問層,負責數(shù)據(jù)的存儲、保護、安全、呈現(xiàn),并向客戶端主機提供標準存儲訪問協(xié)議。
這三層協(xié)同工作提供了下一代分布式全閃存儲的以下能力:
數(shù)據(jù)持久層 Persistent Layer 向上層提供數(shù)據(jù)持久化服務,擁有 3 個核心設計:
數(shù)據(jù)服務層 Service Layer 向上層提供塊存儲服務和文件存儲服務,包含 BlockServer、FileServer。
BlockServer 是塊存儲的存儲引擎,基于 Persistent Layer 提供的高性能讀寫 Chunk 接口,使用 Log-Structured 的形式組織數(shù)據(jù)抽象出虛擬塊層。支持的存儲訪問協(xié)議有 NVMe/RoCE、NVMe/TCP 、iSCSI 和 KVM vhost-blk。
BlockServer 對外提供 NVMe over RoCE/TCP Target 供客戶端訪問。
BlockDataClient 屬于私有客戶端,部署在 KVM 計算節(jié)點上,為 KVM 提供 vhost-blk 塊存儲協(xié)議接口。
| 英文 | 說明 |
|---|---|
| XINFINI 星飛 | XSKY的新一代全閃技術名稱 |
| XSEA 星海 | XSKY的新一代全閃架構名稱 |
| eXtreme Shared-Everything Architecture | 縮寫是“XSEA”,表示極速全共享架構,即“星海架構” |
| Shared-Everything Architecture | 全共享架構,分布式系統(tǒng)架構的一種 |
| Shared-Nothing Architecture | 無共享架構,分布式系統(tǒng)架構的一種 |
| Persistent Layer | (數(shù)據(jù))持久層 |
| Service Layer | (數(shù)據(jù))服務層 |
| Access Layer | (協(xié)議)訪問層 |
| AppendLog Write | 在分布式系統(tǒng)中用于確保數(shù)據(jù)一致性和容錯能力的一種重要技術。 |
| QAT | 英特爾至強可擴展處理器內(nèi)置的硬件加速器,用于壓縮和解壓縮操作 |
| NVMe DAS | NVMe direct attached storage, 就是服務器使用本地 NVMe 盤 |
| NVMe | Non-Volatiltee Memory Express,Storage over PCle 協(xié)議 |
| RDMA | Remote Direct Memory Access,遠程直接內(nèi)存訪問網(wǎng)絡協(xié)議 |
| CE | Converged Ethernet,無損以太網(wǎng)網(wǎng)絡 |
| NVMe-oF Target | NVMe over Fabrics 存儲端 |
| NVMe-oF Initiator | NVMe over Fabrics 客戶端 |
| RoCE | 代表RDMA Over Converged Ethernet。基于融合以太網(wǎng)的 RDMA (RoCE) ,它允許通過以太網(wǎng)進行遠程直接內(nèi)存訪問 (RDMA) |