本站真誠介紹香港這個「東方之珠」和「亞洲國際都會」

亞洲國際都會 asiasworldcity

CXL的進展:尚未成熟

(本文内容不代表本站观点。)
香港飛龍 Hong Kong HK Dragon
「香港飛龍」標誌

本文内容:

如果您希望可以時常見面,歡迎標星收藏哦~來源:內容 編譯自 eejournal 。近年來,CXL正在成爲大家的焦點。事實上,在開發 CXL 標準、基於該標準生產早期計算機硬件(內存模塊和內存服務器)以及從該硬件獲取一些性能數據方面確實取得了長足的進步。從性能數據中,現在可以確定哪些應用程序最適合使用基於 CXL 的內存子系統,哪些不適合。內存專家Jim Handy在一箇分享中概述了 CXL 的現狀。他首先指出,就像七個盲人摸象一樣,CXL 憑藉其在各個修訂版本中新增的功能,擁有了豐富的功能。CXL 可用於:保持多種處理器類型 (xPU) 之間的內存一致性。消除數據中心內各個 CPU 中的閒置內存。擴展可連接到單個 CPU 的內存量。增加 CPU、服務器或機架的內存帶寬。支持持久內存。隱藏 DDR4、DDR5 和 DDR6 SDRAM 庫之間的操作差異。在 xPU 之間傳遞消息。根據應用程序的不同,其中一些功能將比其他功能更重要,正如 Handy 通過來自可能使用 CXL 內存的不同系統 OEM 的回應所說明的那樣:Google:閒置內存並不重要,因爲 Google 的虛擬機非常小,可以輕鬆高效地裝入 CPU 內存中。IBM 和佐治亞理工學院:DDR 不是一箇好的答案,因爲多處理器 CPU 在 DDR 通道上排隊的效率低於與 CXL 內存通信的效率。AI 提供商:我們需要 GPU 上巨大的內存和 HBM 存儲的快速加載。超大規模:我們想要“任意到任意”的 xPU 連接。PC OEM:CXL 並非立即可用。Handy 還指出,CXL 是一箇相對較新的標準。CXL 聯盟於 2019 年發佈了 CXL 1.0 和 CXL 1.1。CXL 2.0 於 2020 年底發佈,它增加了 CXL 交換的概念,以支持數據中心機架內的多箇主機 xPU。CXL 3.0、3.1 和 3.2 增加了多項功能,包括多箇交換機層,以支持跨機架通道的連接,預計將於 2022 年至 2024 年間發佈。CXL 聯盟系統和軟件工作組聯合主席Mahesh Natu展示了一張圖表,說明了多年來 CXL 的覆蓋範圍如何從單個 CPU 系統擴展到機架,再擴展到機架通道:多年來,CXL 的覆蓋範圍已從單個 CPU 系統擴展到機架,再到機架通道在演示過程中,Natu 展示了常見的內存層次結構圖,展示了服務器上以及連接到服務器系統網絡結構的 CXL 內存如何融入層次結構:CXL 內存位於服務器主內存(目前通常爲 SDRAM)和存儲設備(閃存 SSD 或 HDD)之間然而我認爲這幅圖並不能展現全貌。這些金字塔代表了服務器中單個 CPU 的內存層次結構。然而,越來越明顯的是,CXL 僅在多服務器環境中纔有意義。因此,多維內存層次結構可能如下所示:光纖連接 CXL 內存位於服務器主內存(通常爲本地連接的 SDRAM)和閃存 SSD 或 HDD 存儲之間,但跨越 CXL 網絡中的所有服務器顯然,CXL 的目標客戶是數據中心級的大型系統。因此,PC OEM 對此興趣不大也就不足爲奇了,就像他們對數據中心架構日益重要的 800Gbps 以太網端口並不特別感興趣一樣。基於上述系統開發人員的不同興趣以及當前操作系統對 CXL 內存子系統的支持相對缺乏,Handy 預測 CXL 內存子系統的銷售要到 2027 年纔會開始騰飛。以下是他在 SNIA 網絡研討會期間展示的圖表:Jim Handy預測,除非有支持 CXL 功能的軟件出現,否則基於 CXL 的內存銷量不會大幅增長。他估計這要到 2027 年才能實現管 CXL 硬件尚不成熟,且目前缺乏支持其衆多功能的軟件,但已有一些報告開始展現 CXL 在大型系統中的優勢。MART 模塊化技術高級產品營銷經理Torry Steele的演講部分提供了一些見解。他的第一個主題是直接比較 DDR 內存與 CXL 內存的延遲和帶寬。DDR 內存控制器與直接連接的 DDR SDRAM 之間的延遲約爲 100 納秒。CPU 片上 CXL 內存控制器與使用 PCIe gen5 協議的 CXL 內存板或模塊之間的延遲約爲 170 到 210 納秒,大約是觀察到的 DDR 延遲的兩倍。如果插入一箇 CXL 交換機,延遲將變爲 270 到 510 納秒。顯然,使用 CXL 內存會增加內存延遲。從帶寬角度來看,DDR5-6400 SDRAM DIMM 的傳輸速度約爲 51.2 GB/秒,而通過 16 通道 PCIe Gen5 連接連接到 CPU 片上 CXL 內存控制器的 CXL 內存板的傳輸速度爲 64 GB/秒。因此,這兩種連接系統具有可比性,但 CXL 連接所需的 CPU 引腳數要少一箇數量級,因此在引腳數相同的情況下,以 CXL 爲中心的 CPU 可以設計比 DDR 端口多得多的 CXL 端口,從而實現更優的內存帶寬,並直接支持更大的內存子系統,但這同樣是以延遲爲代價的。有些應用程序對延遲敏感,而有些應用程序對延遲不太敏感,只是需要更高的內存帶寬。美光公司和 AMD 進行了測試,並發表了題爲“ CXL 內存擴展:深入瞭解實際平臺”的白皮書,結果表明基於 CXL 的內存子系統可提供顯著的性能優勢,具體取決於應用程序。在受內存容量限制的系統上使用 TPC-H 基準進行的 Microsoft SQL 數據庫測試中,使用 CXL 擴展系統內存容量可將 SSD I/O 分頁減少 44% 至 88%,並使應用程序性能提升 23%。在涉及 Apache Spark(一種專爲大規模數據處理而設計的開源分析引擎,運行監督式機器學習算法 SVM)的機器學習測試中,CXL 內存使性能提高了一倍以上。當應用程序的 20% 的內存存儲映射到 CXL 內存時,CloverLeaf HPC(高性能計算)應用程序的性能提高了 17%。在該應用程序中,與本地連接的 DRAM 相比,CXL 內存爲應用程序提供的內存帶寬增加了 33%。總體而言,基於 CXL 標準的內存子系統現已投入生產。測試表明,CXL 內存子系統在某些應用中能夠帶來切實的效益。某些系統開發商(例如數據中心超大規模企業)對 CXL 內存子系統的興趣會比其他開發商更大。最後,CXL 至少還需要一兩年的時間才能成熟,成爲能夠在數據中心廣泛應用的產品。https://www.eejournal.com/article/a-cxl-progress-report-the-elephant-is-learning-to-dance/半導體精品公衆號推薦專注半導體領域更多原創內容關注全球半導體產業動向與趨勢*免責聲明:本文由作者原創。文章內容系作者個人觀點,半導體行業觀察轉載僅爲了傳達一種不同的觀點,不代表半導體行業觀察對該觀點贊同或支持,如果有任何異議,歡迎聯繫半導體行業觀察。今天是《半導體行業觀察》爲您分享的第4047期內容,歡迎關注。『半導體第一垂直媒體』實時 專業 原創 深度公衆號ID:icbank喜歡我們的內容就點“在看”分享給小夥伴哦


(本文内容不代表本站观点。)
---------------------------------
本网站以及域名有仲裁协议(arbitration agreement)。

依据《伯尔尼公约》、香港、中国内地的法律规定,本站对部分文章享有对应的版权。

本站真诚介绍香港这个「东方之珠」和「亚洲国际都会」,香港和「东方之珠」和「亚洲国际都会」是本站的业务地点名称。

本网站是"非商业"(non-commercial),没有涉及商业利益或竞争。


2025-Jun-08 09:09am (UTC +8)
栏目列表