最新資訊

您所在的位置：首頁 > 新聞中心 > 解決方案

超微GPU Server H100/H200 系統(tǒng)介紹

來源：www.zonex178.com 發(fā)布時間：2024/10/28 10:47:44

嚴(yán)格意義上HGX里面有8個GPU，每個GPU為一個Module 這個才叫做模組，HGX 其實是由8個GPU 模組和4個NVLInk Switch組成，下圖所示，就是每個上圖的SINK 下面的GPU模組。

放大的圖：

嚴(yán)格意義的模組中間就是H100/A100這種GPU，通過SXM SOCKET 接口和GPU主板連接。

然后下圖是8個GPU 模組通過4 個NVLINK SWITCH 連接，組成一個8GPU的“大號”GPU。

在H100 SXM GPU上加裝散熱器后，便構(gòu)成了HGX，這是由英偉達設(shè)計的一種配置，作為直接供應(yīng)給服務(wù)器制造商的“最小單元”。需要注意的是，HGX本身并不能單獨運行，因為它本質(zhì)上是一個“大型邏輯GPU”，必須與服務(wù)器平臺（即服務(wù)器主體）結(jié)合使用，才能構(gòu)成一個完整的GPU服務(wù)器。這種完整的服務(wù)器便是NVIDIA DGX，一款由英偉達品牌提供的GPU服務(wù)器。除了核心的HGX模塊之外，DGX還配備了服務(wù)器所需的其他組件，如機箱、主板、電源、CPU、內(nèi)存、存儲設(shè)備及網(wǎng)絡(luò)接口卡等。盡管在功能和結(jié)構(gòu)上，NVIDIA DGX與其他服務(wù)器制造商基于HGX模塊構(gòu)建的GPU服務(wù)器沒有顯著差異，但由于其高昂的價格以及可能與合作伙伴產(chǎn)生市場競爭的考慮，NVIDIA通常不會廣泛推廣DGX產(chǎn)品，除非是針對特定客戶群體。事實上，NVIDIA DGX更多地出現(xiàn)在每年GTC大會等場合，用于展示新的GPU技術(shù)，例如直接贈送給像ChatGPT實驗室這樣的研究機構(gòu)或在發(fā)布會上向客戶展示。這一策略既體現(xiàn)了NVIDIA希望通過DGX來吸引關(guān)注和宣傳新技術(shù)的意圖，同時也避免了與生態(tài)系統(tǒng)中的合作伙伴發(fā)生直接競爭。

因此，從某種程度上講，DGX可以被視為一種“概念車型”的存在，主要用于技術(shù)和市場的展示目的，而非大規(guī)模商業(yè)銷售。出于對合作伙伴關(guān)系的維護，NVIDIA在多數(shù)情況下并不在美國及其他地區(qū)廣泛銷售DGX。鑒于此，為了更貼合實際應(yīng)用情況，我們將以超微公司的一款SYS-821GE-TNHR AI服務(wù)器為例進行介紹，這款服務(wù)器在設(shè)計和性能上與DGX有著相似之處。

接下來就是這個系統(tǒng)貴的部分HGX的俯視圖, 主要由8個H100 和4個NVLINK Switch組成,號稱占到整個系統(tǒng)的90%，這個就是Intel 的股票為啥腰斬，而NVIDIA的股票狂漲的原因。AIGC這波操作，Intel幾乎沒有賺到多少錢 ,一個系統(tǒng)就賣2個CPU 估計1%都不到，但是8個GPU占到整個系統(tǒng)的90%成本。

系統(tǒng)架構(gòu)圖：

觀看了整個機器的外部和內(nèi)部結(jié)構(gòu)，在這個基礎(chǔ)上理解系統(tǒng)架構(gòu)圖就比較容易

1. 上面的motherboard 主板，主板主要由CPU 內(nèi)存組成，兩個CPU SOCKET 通過4個UPI LINK連接，CPU通過DMI連接PCH (南橋，Intel 又叫 Platform Controller Hub) 再連接BMC和2個M.2 Nvme 應(yīng)該裝OS使用，2個M.2 NVMe 可以組成RAID 1.

2. 中間底部的表示的為上面介紹的PCIe Switch Board, 每個CPU因為是Intel 第4代/5代 CPU 可以支持80個PCIe Lane ,所以總共可以支持160Lane，連接到6個PCIe Switch ,其中4個PCIe Switch 是用來和HGX 上的GPU通信的，每個PCIe SW上端USP(Upstream Port) 32 PCIe Lane ，下端DSP(Downstream Port) 72 PCIe Lane 總共104 Lane。DSP 下端每個PCIe Switch可以接兩張x16網(wǎng)卡，總共8張網(wǎng)卡，假設(shè)每個網(wǎng)卡可以提供200Gb/s的帶寬, 則可以通過這些網(wǎng)卡實現(xiàn)1.6T Gb/s的跨Node GPU-GPU帶寬,使用GPUDirect RDMA 可以實現(xiàn)GPU跨Node 的直接連接而無需CPU介入，從而實現(xiàn)Server 和 Server之間的8 GPU通訊，把若干各8 GPU組網(wǎng)連接在一起。這對大模型訓(xùn)練特別有用，大模型訓(xùn)練里面一個概念模型并行，模型并行（Model Parallel, MP）通常是指在多個計算節(jié)點上分布式地訓(xùn)練一個大型的神經(jīng)網(wǎng)絡(luò)模型，其中每個節(jié)點負責(zé)模型的一部分。這種方法主要用于解決單個計算節(jié)點無法容納整個模型的情況。模型并行可以進一步細分為幾種策略，PP和TP。每個PCIe Switch DSP里面還有另外兩個x16 PCIe lane用來接入GPU到HGX，這個是CPU-GPU的通信，主要是CPU對GPU進行控制流的操作，類似大模型的訓(xùn)練都在HGX 里面的GPU執(zhí)行了，但是開始進行初始化和一些數(shù)據(jù)準(zhǔn)備操作以及命令配置等是由CPU 代表操作系統(tǒng)模型框架來下發(fā)到GPU的，所以還是需要通信的，只不過這個通信沒有GPU-GPU之前的數(shù)據(jù)量那么大。每個PCIe SW 還有一個8lane 是留給2 x NVMe SSD 使用，總共支持64lane ,8個NVMe SSD 用來進行本地存儲。

3. 兩側(cè)各可以配置一個PCIe Switch這兩個一個是default 一個是可選，用來做CPU 的網(wǎng)絡(luò)通信使用,即這兩個CPU和其他的Server 之間的通信，可以配置為NIC 或者DPU 做NVMe RoceV2 協(xié)議卸載，可以實現(xiàn)GDS和存算分離的存儲集群通過 GDS( GPUDriect Stroage )連接。另外兩個x16的PCIE 再可以接8個NVme 加上PCIe Switch board 的8個系統(tǒng)總共支持18個NVME U.2.

來源： stephenxi 計算機體系結(jié)構(gòu)及底層原理公眾號

上一條：英偉達主流GPU參數(shù)速查表10.31 下一條：服務(wù)器產(chǎn)品的L6和L10是什么？

亚洲人妻无码精品专区|国产亚洲精品a等一页|伊人丁香狠狠色综合久久|无码一区二区在线播放视频|尹人香蕉99久久综合网站|8090成人午夜精品无码|欧美日韩永久久一区二区三区|午夜福利国产精品久久婷婷性色

新聞導(dǎo)航

推薦產(chǎn)品

浪潮服務(wù)器NF8260G7

浪潮服務(wù)器NF5466G7

最新資訊

亚洲人妻无码精品专区|国产亚洲精品a等一页|伊人丁香狠狠色综合久久|无码一区二区在线播放视频|尹人香蕉99久久综合网站|8090成人午夜精品无码|欧美日韩永久久一区二区三区|午夜福利国产精品久久婷婷性色

新聞導(dǎo)航

推薦產(chǎn)品

浪潮服務(wù)器NF8260G7

浪潮服務(wù)器NF5466G7

最新資訊

相關(guān)文章

相關(guān)產(chǎn)品