嚴(yán)格意義上HGX里面有8個GPU,每個GPU為一個Module 這個才叫做模組,HGX 其實是由8個GPU 模組和4個NVLInk Switch組成,下圖所示,就是每個上圖的SINK 下面的GPU模組。
放大的圖:
嚴(yán)格意義的模組 中間就是H100/A100這種GPU,通過SXM SOCKET 接口和GPU主板連接。
然后下圖是8個GPU 模組通過4 個NVLINK SWITCH 連接,組成一個8GPU的“大號”GPU。
在H100 SXM GPU上加裝散熱器后,便構(gòu)成了HGX,這是由英偉達設(shè)計的一種配置,作為直接供應(yīng)給服務(wù)器制造商的“最 小單元”。需要注意的是,HGX本身并不能單獨運行,因為它本質(zhì)上是一個“大型邏輯GPU”,必須與服務(wù)器平臺(即服務(wù)器主體)結(jié)合使用,才能構(gòu)成一個完整的GPU服務(wù)器。這種完整的服務(wù)器便是NVIDIA DGX,一款由英偉達品牌提供的GPU服務(wù)器。除了核心的HGX模塊之外,DGX還配備了服務(wù)器所需的其他組件,如機箱、主板、電源、CPU、內(nèi)存、存儲設(shè)備及網(wǎng)絡(luò)接口卡等。 盡管在功能和結(jié)構(gòu)上,NVIDIA DGX與其他服務(wù)器制造商基于HGX模塊構(gòu)建的GPU服務(wù)器沒有顯 著差異,但由于其高昂的價格以及可能與合作伙伴產(chǎn)生市場競爭的考慮,NVIDIA通常不會廣泛推廣DGX產(chǎn)品,除非是針對特定客戶群體。事實上,NVIDIA DGX更多地出現(xiàn)在每年GTC大會等場合,用于展示 新的GPU技術(shù),例如直接贈送給像ChatGPT實驗室這樣的研究機構(gòu)或在發(fā)布會上向客戶展示。這一策略既體現(xiàn)了NVIDIA希望通過DGX來吸引關(guān)注和宣傳新技術(shù)的意圖,同時也避免了與生態(tài)系統(tǒng)中的合作伙伴發(fā)生直接競爭。
因此,從某種程度上講,DGX可以被視為一種“概念車型”的存在,主要用于技術(shù)和市場的展示目的,而非大規(guī)模商業(yè)銷售。出于對合作伙伴關(guān)系的維護,NVIDIA在多數(shù)情況下并不在美國及其他地區(qū)廣泛銷售DGX。鑒于此,為了更貼合實際應(yīng)用情況,我們將以超微公司的一款SYS-821GE-TNHR AI服務(wù)器為例進行介紹,這款服務(wù)器在設(shè)計和性能上與DGX有著相似之處。
接下來就是這個系統(tǒng)貴的部分HGX的俯視圖, 主要由8個H100 和4個NVLINK Switch組成,號稱占到整個系統(tǒng)的90%,這個就是Intel 的股票為啥腰斬,而NVIDIA的股票狂漲的原因。AIGC這波操作,Intel幾乎沒有賺到多少錢 ,一個系統(tǒng)就賣2個CPU 估計1%都不到,但是8個GPU占到整個系統(tǒng)的90%成本。
系統(tǒng)架構(gòu)圖:
觀看了整個機器的外部和內(nèi)部結(jié)構(gòu),在這個基礎(chǔ)上理解系統(tǒng)架構(gòu)圖就比較容易
1. 上面的motherboard 主板,主板主要由CPU 內(nèi)存組成,兩個CPU SOCKET 通過4個UPI LINK連接,CPU通過DMI連接PCH (南橋,Intel 又叫 Platform Controller Hub) 再連接BMC和2個M.2 Nvme 應(yīng)該裝OS使用,2個M.2 NVMe 可以組成RAID 1.
2. 中間底部的表示的為上面介紹的PCIe Switch Board, 每個CPU因為是Intel 第4代/5代 CPU 可以支持80個PCIe Lane ,所以總共可以支持160Lane,連接到6個PCIe Switch ,其中4個PCIe Switch 是用來和HGX 上的GPU通信的,每個PCIe SW上端USP(Upstream Port) 32 PCIe Lane ,下端DSP(Downstream Port) 72 PCIe Lane 總共104 Lane。DSP 下端每個PCIe Switch可以接兩張x16網(wǎng)卡,總共8張網(wǎng)卡,假設(shè)每個網(wǎng)卡可以提供200Gb/s的帶寬, 則可以通過這些網(wǎng)卡實現(xiàn)1.6T Gb/s的跨Node GPU-GPU帶寬,使用GPUDirect RDMA 可以實現(xiàn)GPU跨Node 的直接連接而無需CPU介入 ,從而實現(xiàn)Server 和 Server之間的8 GPU通訊,把若干各8 GPU組網(wǎng)連接在一起。這對大模型訓(xùn)練特別有用,大模型訓(xùn)練里面一個概念 模型并行,模型并行(Model Parallel, MP)通常是指在多個計算節(jié)點上分布式地訓(xùn)練一個大型的神經(jīng)網(wǎng)絡(luò)模型,其中每個節(jié)點負責(zé)模型的一部分。這種方法主要用于解決單個計算節(jié)點無法容納整個模型的情況。模型并行可以進一步細分為幾種策略,PP和TP。每個PCIe Switch DSP里面還有另外兩個x16 PCIe lane用來接入GPU到HGX,這個是CPU-GPU的通信,主要是CPU對GPU進行控制流的操作,類似大模型的訓(xùn)練都在HGX 里面的GPU執(zhí)行了,但是開始進行初始化和一些數(shù)據(jù)準(zhǔn)備操作以及命令配置等是由CPU 代表操作系統(tǒng)模型框架來下發(fā)到GPU的,所以還是需要通信的,只不過這個通信沒有GPU-GPU之前的數(shù)據(jù)量那么大。每個PCIe SW 還有一個8lane 是留給2 x NVMe SSD 使用,總共支持64lane ,8個NVMe SSD 用來進行本地存儲。
3. 兩側(cè)各可以配置一個PCIe Switch這兩個一個是default 一個是可選,用來做CPU 的網(wǎng)絡(luò)通信使用,即這兩個CPU和其他的Server 之間的通信,可以配置為NIC 或者DPU 做NVMe RoceV2 協(xié)議卸載,可以實現(xiàn)GDS和存算分離的存儲集群通過 GDS( GPUDriect Stroage )連接。另外兩個x16的PCIE 再可以接8個NVme 加上PCIe Switch board 的8個系統(tǒng)總共支持18個NVME U.2.
來源: