|
引言7 ^( b9 t) ^3 _2 C" o7 i8 C/ z
高性能計算(HPC)和機器學(xué)習(xí)(ML)領(lǐng)域已經(jīng)因GPU的廣泛應(yīng)用而發(fā)生了變革。截至2024年6月,世界排名前10的超級計算機中有9個依賴GPU集群進行加速。GPU在計算方面表現(xiàn)出色,但GPU之間的通信可能成為重大瓶頸,特別是當(dāng)每個節(jié)點和集群中的GPU數(shù)量增加時。2 z+ _, B" P3 \1 K2 M' \$ }
& Q4 j5 A# A: B" q2 h
傳統(tǒng)上,多GPU通信由CPU管理。然而,近期以GPU為中心的通信進展正在挑戰(zhàn)這一范式,減少CPU參與,賦予GPU更多通信任務(wù)自主權(quán),并解決多GPU通信與計算之間的不匹配問題[1]。
, i2 G d9 w/ w$ m6 W3 W# r @8 l- }6 [% U0 I8 q' y& {4 G3 [+ \2 W F
dln2bfcsmn164029997221.png (97.26 KB, 下載次數(shù): 9)
下載附件
保存到相冊
dln2bfcsmn164029997221.png
2024-10-1 01:07 上傳
& L3 n7 ? K, V8 C; ~1 ^
圖1:展示了不同類型的節(jié)點內(nèi)通信方法的數(shù)據(jù)路徑和API調(diào)用。
$ j, x; r2 U( R1 T5 m9 `* ~. | S$ Y8 G# b+ g( Z* T4 ?: T: s5 |
理解GPU中心通信
z- H+ H; W& t5 ?+ uGPU中心通信可以廣泛定義為減少CPU在多GPU執(zhí)行關(guān)鍵路徑中參與的機制。這包括供應(yīng)商層面的改進(賦予GPU通信自主權(quán))和利用這些改進的用戶層面實現(xiàn)。
; ~# {' R% @+ N( S5 F
# p( P- ^4 b5 h5 z+ p7 r8 WGPU中心通信主要分為兩類:
$ B" u/ p1 w. O- [6 B& W8 H; V節(jié)點內(nèi)通信:在單個節(jié)點內(nèi)進行通信,該節(jié)點包含多個連接到共享內(nèi)存主機的GPU卡。節(jié)點間通信:跨多個節(jié)點進行通信,每個GPU由不同的進程控制,不同節(jié)點上的進程之間不共享內(nèi)存。+ s" [+ i6 G0 O# {
: a* R* E" r0 ]3 A
支持GPU中心通信的關(guān)鍵技術(shù)
1 ?) N3 s3 s' E% ]+ Y8 s3 ]幾項技術(shù)為高效的GPU中心通信奠定了基礎(chǔ):
- C2 q- j. k9 R/ E3 Q$ i8 \" l
1. 統(tǒng)一虛擬尋址(UVA):在CUDA 4.0中引入,UVA允許節(jié)點內(nèi)的所有GPU和CPU共享同一統(tǒng)一虛擬地址空間,簡化了內(nèi)存管理。
1 Z$ H% L3 b/ \4 h' k; W8 _' z |% J* Z
2. GPUDirect:一系列優(yōu)化GPU與其他器件之間數(shù)據(jù)傳輸?shù)募夹g(shù):: q* d4 x& w) u5 L
GPUDirect RDMA:支持NVIDIA GPU跨節(jié)點直接通信,無需CPU參與。GPUDirect P2P:允許同一PCIe根復(fù)合體上的GPU之間直接內(nèi)存訪問。) N* o7 J' s1 L/ Q u
3 i5 A0 n5 {9 H9 v8 `# X* @
3. NVLink:高帶寬、低延遲的GPU到GPU互連,顯著提高了GPU之間的數(shù)據(jù)傳輸速率。" E% [# T, Z Y
8 ?( n2 C, A) O* u
wlnjf4vbo4i64029997321.png (147.58 KB, 下載次數(shù): 10)
下載附件
保存到相冊
wlnjf4vbo4i64029997321.png
2024-10-1 01:07 上傳
8 h5 f/ t: z7 e% q# r$ P
圖2:呈現(xiàn)了NVIDIA支持GPU中心通信和網(wǎng)絡(luò)的技術(shù)時間線。
: O4 J: ]7 y+ K6 }2 u, Q4 H: \' X) e8 H: F
4. CUDA IPC:允許同一節(jié)點上的進程訪問其他進程的器件緩沖區(qū),無需額外復(fù)制。/ R" u. X" B) ? y# X, D* P7 h
+ R& A$ R/ {5 @' G0 U: \' D t5. 統(tǒng)一內(nèi)存(UVM):創(chuàng)建一個節(jié)點內(nèi)所有處理器可訪問的單一地址空間,自動管理CPU和GPU內(nèi)存之間的數(shù)據(jù)移動。: l8 l& s9 B: N, s: T% Q
, L9 k3 k" h, W
X4 x( N* g& Y/ H3 bGPU中心通信庫
6 E' H$ y) S4 l1 j: T: K幾個庫已經(jīng)開發(fā)出來利用這些技術(shù)并提供高效GPU為中心的通信:) b6 T2 c$ L3 Z! i
GPU感知MPI:可以區(qū)分主機和器件緩沖區(qū)的MPI實現(xiàn),允許GPU之間直接通信,無需通過主機內(nèi)存中轉(zhuǎn)。NCCL (NVIDIA集體通信庫):提供針對深度學(xué)習(xí)工作負(fù)載優(yōu)化的拓?fù)涓兄w原語,用于GPU間通信。NVSHMEM:NVIDIA對CUDA器件OpenSHMEM規(guī)范的實現(xiàn),為進程提供高效的單邊put/get API以訪問遠程數(shù)據(jù)對象。ROC_SHMEM:AMD對NVSHMEM的對應(yīng)實現(xiàn),為AMD GPU提供類似功能。* c& C: d2 D+ T
[/ol]
% Y9 y, U5 A1 G! R# C' Q& D' Y; _# q: z5 S
qgpmxzuax3564029997421.png (123.58 KB, 下載次數(shù): 11)
下載附件
保存到相冊
qgpmxzuax3564029997421.png
2024-10-1 01:07 上傳
+ v* N* T; z7 ~$ i圖3:展示了各種以GPU為中心的通信方法的節(jié)點間通信數(shù)據(jù)和控制路徑。9 P3 A k8 K, z- a, }" c3 S
3 f3 w7 }. h# K8 P k0 T7 E
9 G+ T' |3 T: ]- A7 u( l: r2 B. {
挑戰(zhàn)和未來方向8 q8 r' k: q3 v" G @, @2 _
以GPU為中心的通信提供了顯著優(yōu)勢,但仍存在幾個挑戰(zhàn)和未來研究方向:0 V) Z; ^. h5 V+ q1 D5 v; t
語義不匹配:MPI和GPU編程模型之間存在根本的語義不匹配,因為MPI不了解GPU流。這可能導(dǎo)致強制同步和內(nèi)核啟動流水線受損。資源爭用:當(dāng)通信和計算都由GPU線程執(zhí)行時,它們會爭用相同的有限資源,可能導(dǎo)致性能問題。內(nèi)存一致性:確保內(nèi)核運行時GPU和NIC內(nèi)存之間的一致性可能具有挑戰(zhàn)性,特別是對于持久內(nèi)核。集體算法設(shè)計:多GPU系統(tǒng)復(fù)雜且非傳統(tǒng)的拓?fù)浣Y(jié)構(gòu),以及GPU對之間不均勻的帶寬,使設(shè)計高效的集體通信算法變得復(fù)雜。
1 Q. A9 M6 B# Q% t% T7 X! U[/ol]
6 d# Z" s7 S5 Y! S未來研究方向包括:
& [0 K. Z5 ^4 l, d6 l1 q5 S( h- d無CPU網(wǎng)絡(luò):將整個網(wǎng)絡(luò)棧移至GPU,實現(xiàn)完全自主的多GPU執(zhí)行。更廣泛的GPU自主性:使GPU能夠處理傳統(tǒng)上由CPU管理的任務(wù),如文件系統(tǒng)訪問和系統(tǒng)調(diào)用。改進調(diào)試和分析工具:開發(fā)能夠監(jiān)控和可視化GPU中心通信的工具,包括器件原生傳輸和多GPU環(huán)境中的競爭檢測。
- K8 ~5 j* c3 }% t b[/ol]
, {; S' h2 c* q, o結(jié)論" H% }# k0 w& ~1 L+ ?5 F- L+ I6 J2 t( I
以GPU為中心的通信代表了多GPU執(zhí)行范式的重大轉(zhuǎn)變,提供了提高性能、降低延遲和增強可擴展性的潛力。隨著GPU繼續(xù)主導(dǎo)HPC和ML領(lǐng)域,理解和利用這些通信技術(shù)對于開發(fā)人員、研究人員和系統(tǒng)設(shè)計師來說將變得越來越重要,以便從多GPU系統(tǒng)中獲得最大性能。8 z k; E( g' ~7 K8 T: x
9 S! e) G0 l& B
以GPU為中心的通信領(lǐng)域正在迅速發(fā)展,新的硬件特性、軟件庫和編程模型不斷涌現(xiàn)。了解這些發(fā)展及其影響對于任何使用大規(guī)模GPU加速系統(tǒng)的人來說都是必要的。
+ ?2 u: G; b& X- N7 Y4 D) R
8 J) |0 `; h1 ^9 o展望未來,可以期待GPU中心通信的進一步優(yōu)化,這將由硬件互連的進步、更復(fù)雜的軟件庫和創(chuàng)新的編程模型推動。這些發(fā)展將繼續(xù)推動高性能計算和機器學(xué)習(xí)的邊界,使更復(fù)雜和要求更高的應(yīng)用能夠在大規(guī)模GPU集群上高效運行。( M% }1 ]" J0 {
( Z6 _2 ?' \! l/ |5 P% Q: d
參考文獻5 j0 @5 E6 M* \; H" W; G, z0 V
[1] D. Unat et al., "The Landscape of GPU-Centric Communication," ACM Comput. Surv., vol. 37, no. 4, Article 111, Aug. 2024.
* J; c% z" I$ ]* P w3 b5 m+ o$ H0 t4 d4 X
# X* F" Q! P& ]$ n: ?
- END -1 U4 ^, w; [ v& e* T- M
! z/ |5 w) R( P$ n軟件申請我們歡迎化合物/硅基光電子芯片的研究人員和工程師申請體驗免費版PIC Studio軟件。無論是研究還是商業(yè)應(yīng)用,PIC Studio都可提升您的工作效能。
& t* c% {5 e- s點擊左下角"閱讀原文"馬上申請
1 I) z$ X4 ]3 N" ], h! J4 B' `9 ?7 E" t
歡迎轉(zhuǎn)載
1 F' m. E" S$ \2 u8 @* h- Y& _+ p7 a# u$ I) J2 G1 `: N" h
轉(zhuǎn)載請注明出處,請勿修改內(nèi)容和刪除作者信息!' K; A" E, K0 E8 W, L1 @
% {4 A" G& m4 Z+ A0 I2 m2 N
- r6 u9 v3 S0 x5 N
: @: U6 ]! D) |: P: w" m
0au4eoo2ehh64029997521.gif (16.04 KB, 下載次數(shù): 9)
下載附件
保存到相冊
0au4eoo2ehh64029997521.gif
2024-10-1 01:07 上傳
3 a, R$ ?, W7 R( G. O2 g6 ^
+ P8 _+ v ]2 q6 V2 h% T1 @關(guān)注我們7 O" o% m( V& d3 P0 c1 b" U2 ^3 m
4 _3 Y3 [1 _7 k- r8 Q, G6 G7 M% S8 G
5ej2rrfoyfj64029997621.png (31.33 KB, 下載次數(shù): 9)
下載附件
保存到相冊
5ej2rrfoyfj64029997621.png
2024-10-1 01:07 上傳
( W5 l0 L1 f, ]4 c1 n
|
( z+ L! F0 i1 ^# i: v
m1vkzzacjn164029997721.png (82.79 KB, 下載次數(shù): 10)
下載附件
保存到相冊
m1vkzzacjn164029997721.png
2024-10-1 01:07 上傳
% B! l# M. E% ]" I% g" ]
| % n7 i: A5 v( z) @
rx51yznhvkh64029997821.png (21.52 KB, 下載次數(shù): 9)
下載附件
保存到相冊
rx51yznhvkh64029997821.png
2024-10-1 01:07 上傳
+ `0 Z3 ?) N. Y4 c A |
: D! u( T0 K6 r1 G
% s8 T q; r/ R5 [9 T
: F8 a$ w3 U6 p
- {3 U3 i0 C) \關(guān)于我們:8 |4 y; G' e( e4 Z" g/ {1 |8 k
深圳逍遙科技有限公司(Latitude Design Automation Inc.)是一家專注于半導(dǎo)體芯片設(shè)計自動化(EDA)的高科技軟件公司。我們自主開發(fā)特色工藝芯片設(shè)計和仿真軟件,提供成熟的設(shè)計解決方案如PIC Studio、MEMS Studio和Meta Studio,分別針對光電芯片、微機電系統(tǒng)、超透鏡的設(shè)計與仿真。我們提供特色工藝的半導(dǎo)體芯片集成電路版圖、IP和PDK工程服務(wù),廣泛服務(wù)于光通訊、光計算、光量子通信和微納光子器件領(lǐng)域的頭部客戶。逍遙科技與國內(nèi)外晶圓代工廠及硅光/MEMS中試線合作,推動特色工藝半導(dǎo)體產(chǎn)業(yè)鏈發(fā)展,致力于為客戶提供前沿技術(shù)與服務(wù)。# P- ^( s" o' Q
5 n& p2 G4 \+ `- a6 A. P) N0 N3 X2 Yhttp://www.latitudeda.com/+ H8 j! y9 `% C
(點擊上方名片關(guān)注我們,發(fā)現(xiàn)更多精彩內(nèi)容) |
|