|
引言
/ l5 ^! A( l% ^/ H7 h# A本文介紹SK hynix開發(fā)的創(chuàng)新技術(shù):加速器內(nèi)存(Accelerator-in-Memory,AiM)和AiMX系統(tǒng)。這些先進解決方案旨在應對大型語言模型(LLMs)帶來的計算效率和成本效益挑戰(zhàn),適用于數(shù)據(jù)中心和設(shè)備端人工智能場景。
' y2 n! x. @' Z2 w" n1 r1 Q, c7 @* y1 i8 ~4 S
7 {% f+ ?2 C5 L0 s) L: j8 E理解挑戰(zhàn):內(nèi)存受限的大型語言模型
4 I/ V9 I6 S3 y6 \# _大型語言模型的核心操作在于矩陣-向量乘法,特別是在多頭注意力(MHA)和全連接(FC)層中。這些操作主要受內(nèi)存帶寬限制,尤其是在小批量推理時。這一特性使得LLMs的運行成本高昂,無論是在計算資源還是能源消耗方面。
h1 T, y! P, H t2 L/ q# J; f
M/ Y$ K+ ^6 N' ^0 L
0lyjmk5vyxw64050447417.png (190.4 KB, 下載次數(shù): 6)
下載附件
保存到相冊
0lyjmk5vyxw64050447417.png
2024-10-6 01:26 上傳
. w& d R0 C' f3 U圖1:展示了LLM操作的內(nèi)存受限特性,說明矩陣-向量乘法如何主導計算景觀。
3 g; C1 h0 d- o' u: ]) Z- \) O& }* q7 j
( ?* ]# W0 Z l$ USK hynix的解決方案:加速器內(nèi)存(AiM)
, u5 P+ m9 L/ n. U6 W為解決這一挑戰(zhàn),SK hynix推出了加速器內(nèi)存(AiM)技術(shù)。AiM是一種突破性方法,將計算功能更靠近數(shù)據(jù),顯著減少帶寬瓶頸。$ f1 g' A! y/ k3 h( R; }6 K
" Y3 m6 t( [* N% m; I6 g7 ^
GDDR6-AiM的主要特點:. k0 D, b+ {. m2 c7 D
外部帶寬:32 GB/s運行速度:1 GHz計算吞吐量:512 GFLOPS內(nèi)部帶寬:512 GB/s數(shù)值精度:BF16
5 r; [+ |* Z' q, |7 V6 q. x: c) V: p6 p' P8 H# m
: A# p# _7 i5 W* }! ^- u
5fab0kcgjgq64050447517.png (179.65 KB, 下載次數(shù): 7)
下載附件
保存到相冊
5fab0kcgjgq64050447517.png
2024-10-6 01:26 上傳
9 E0 [, T! |' l% ]9 \" w: C
圖2:展示了GDDR6-AiM的芯片照片和封裝,突出顯示了這項創(chuàng)新技術(shù)的物理實現(xiàn)。
9 { C# h; e; z. I. v9 B, m( z! b5 k$ K- ~6 \" R3 S% o; |
AiMX:為數(shù)據(jù)中心應用擴展AiM' }% \: {. ]3 b" P
在AiM技術(shù)的基礎(chǔ)上,SK hynix開發(fā)了AiMX,這是一種專為數(shù)據(jù)中心應用設(shè)計的系統(tǒng)級解決方案。AiMX卡原型將多個AiM封裝與FPGA相結(jié)合,創(chuàng)建了一個強大的LLM推理加速器。
* F3 `' e7 v* R) g% C# ?
, f0 I8 W* O/ _ XAiMX卡原型規(guī)格:' X5 d- k/ a4 a; [+ n# T% f& E: R! n
主機接口:PCIe Gen3 x8x8(雙分叉)形態(tài)因素:FHFL(兼容A100/A30)配置:2 FPGA x 16 AiM封裝AiM容量:16 GB帶寬:170 GB/s(@2.67Gbps); k9 P2 a* I2 y0 c* F4 b# }$ Q
) b9 t. z: `" C ]
$ G6 X* I8 e0 H7 P4 u8 _% k
uvuu1aondnt64050447618.png (308.51 KB, 下載次數(shù): 5)
下載附件
保存到相冊
uvuu1aondnt64050447618.png
2024-10-6 01:26 上傳
+ q. w; X$ u7 ^, D0 L圖3:展示了AiMX卡原型,演示了多個AiM封裝如何集成到單個加速器卡中。( g& o3 h+ ]4 [+ a
9 H7 D9 f# {( t; s9 O$ I/ ^0 `+ }
優(yōu)化AiM中的多頭注意力(MHA)' X( w' x5 M' Y0 O7 S5 O2 I) i% e
AiM的一個關(guān)鍵優(yōu)化是其處理多頭注意力的方法,這是基于transformer的模型的關(guān)鍵組件。AiM采用智能數(shù)據(jù)放置策略來處理鍵和值矩陣,以最大化效率。% d8 c+ a. R6 [. p# C- I
8 \7 ?$ |6 ]( y2 g: e5 j
c3yxtvzsdwn64050447718.png (190.16 KB, 下載次數(shù): 6)
下載附件
保存到相冊
c3yxtvzsdwn64050447718.png
2024-10-6 01:26 上傳
; ]8 ^4 ]+ c4 v$ v( \圖4:說明了AiM感知的鍵/值矩陣放置策略,展示了數(shù)據(jù)如何在存儲體間分布以實現(xiàn)最佳性能。* b% m4 U1 x. G5 t3 Q1 ~8 |
' n: T# I: s% V; F8 z) A, z擴展AiMX卡以提升性能
+ J/ O$ W8 f; N, WSK hynix進一步改進了AiMX解決方案,推出了擴展卡設(shè)計,將AiM封裝的容量和數(shù)量翻倍。. p! `/ t9 C+ _% M& f
2 q. F8 }$ ?1 C& m Q擴展AiMX卡規(guī)格: q3 q. R, I& w3 h' C7 o
形態(tài)因素:FHFL(兼容H100/A100)配置:2 FPGA x 32 AiM封裝AiM容量:32 GB帶寬:170 GB/s(@2.67Gbps)散熱:被動式
& U/ p6 E. J! G, d. ]! \3 r: @/ }1 b- W2 K' F
4 L4 n$ o$ D M' `4 t% p
2einr1idvld64050447818.png (442.15 KB, 下載次數(shù): 7)
下載附件
保存到相冊
2einr1idvld64050447818.png
2024-10-6 01:26 上傳
8 m- j f* G4 f7 l f4 N
圖5:展示了擴展AiMX卡原型,突出顯示了增加的AiM封裝數(shù)量和改進的設(shè)計。
8 w1 C, U+ _* F3 B% y% B V" s$ ]5 m* J) j% W& A( i% _
用于設(shè)備端人工智能的AiM和AiMX
$ {# b& {% T4 N7 f. N認識到設(shè)備端人工智能的日益重要性,SK hynix將AiM技術(shù)適配用于移動和邊緣應用。LPDDR-AiM旨在滿足設(shè)備端人工智能的獨特挑戰(zhàn),包括形態(tài)因素限制、低批量大小和能效要求。* h/ A5 ~0 d. v9 ^5 h6 i# N4 [5 V
9 L4 ]/ P+ t5 h' ?6 XLPDDR-AiM規(guī)格(每個芯片):8 v' P" J7 \. a) z, @
內(nèi)存密度:1-2 GB組織結(jié)構(gòu):X16IO數(shù)據(jù)率:9.6外部帶寬:19.2 GB/s數(shù)值精度:INT4/8處理單元:16 PU/芯片計算吞吐量:307.2 GOPS內(nèi)部帶寬:153.6 GB/s2 S; \9 _- c8 |5 {% t" n9 i
( H* I5 N2 `9 e5 \6 d
: v; H( X+ a( K, v
zbuty4lst2y64050447918.png (220.32 KB, 下載次數(shù): 6)
下載附件
保存到相冊
zbuty4lst2y64050447918.png
2024-10-6 01:26 上傳
+ p4 [# C' Q# L& O- d圖6:展示了LPDDR-AiM的規(guī)格,并強調(diào)了其與現(xiàn)有LPDDR協(xié)議的兼容性。
+ E% H- O; k/ d2 s2 n' L
; _, u) ?% m" ]8 u- m0 |用于設(shè)備端人工智能的AiMX系統(tǒng)架構(gòu)2 Z9 w N, {# Y/ `$ `
設(shè)備端AiMX系統(tǒng)架構(gòu)與其數(shù)據(jù)中心對應物相似,但已適配移動平臺。這種設(shè)計允許與移動應用處理器或客戶端CPU無縫集成。# I3 f, g5 @3 R. C6 q; k8 N$ a
6 b8 x8 @( I0 @* v+ ?
3rs51v4jcd064050448018.png (118.55 KB, 下載次數(shù): 6)
下載附件
保存到相冊
3rs51v4jcd064050448018.png
2024-10-6 01:26 上傳
, A+ |& o' J l
圖7:比較了數(shù)據(jù)中心和設(shè)備端人工智能應用的AiMX系統(tǒng)架構(gòu),說明了相似之處和為移動使用所做的調(diào)整。2 g' f e) K! w4 g# _, ~2 P
) n2 a* h# N3 F+ O w$ v. a0 @
0 ]4 {; V- d }9 e3 I未來設(shè)計考慮/ d+ C" Q, L) e3 S% r4 O! b* U
隨著SK hynix繼續(xù)發(fā)展AiM和AiMX技術(shù),正在探索幾個設(shè)計選擇:
2 P1 o' X( p: D. x- ~) m4 \: f" f) H3 g# o" d8 s0 @2 H. f
1. AiM功能:7 P) {3 C3 k# A0 D5 B
從GEMV擴展到包括GEMM和其他操作
) b* \3 q6 D" l6 B: W支持各種精度(二進制、整數(shù)、浮點、BF、MX)2 ]. H F* U- m
探索異構(gòu)精度能力2 h* e2 N6 J$ l' O( f% c. `
/ j/ F1 B! H% T* ]$ M3 }+ T K
2. SoC優(yōu)化:9 E* V' h% M4 u: r
平衡功率和熱約束# z3 J! g0 t5 v- m
改善MAC到MAC延遲
# c7 ~7 T) ~& h) ]7 l6 P) S# y優(yōu)化存儲體到MAC比率9 A0 i; [- Q, h
實施動態(tài)電源供應策略
8 P- N: F' Z& F1 }3 s3 X/ J2 S! @% J/ Q- q" R
3. 軟件增強:
9 r4 _; r9 K" y! C5 U9 t" z' H開發(fā)PIM感知內(nèi)存管理技術(shù)
$ w+ n5 F6 f1 G& A& S. T4 d" e實現(xiàn)大頁面大小以高效放置權(quán)重數(shù)據(jù)
* u& P+ a& P' L V. q/ A創(chuàng)建PIM感知內(nèi)存交換策略7 D5 ~! O7 u# O
: X z2 r3 | }+ f# C% G! D1 v
lc5opsyvnhj64050448119.png (108.3 KB, 下載次數(shù): 6)
下載附件
保存到相冊
lc5opsyvnhj64050448119.png
2024-10-6 01:26 上傳
# c1 U m+ U* [- \9 A圖8:概述了未來AiM實現(xiàn)的各種設(shè)計選擇,聚焦于功能、精度和潛在應用。
4 G9 W- l' ^/ Z+ U. d9 H! O) D+ [+ L' W6 b# K* j+ D
結(jié)論和未來展望
9 j1 k7 `; x+ b4 m6 }SK hynix的AiM和AiMX解決方案在解決內(nèi)存受限人工智能工作負載的挑戰(zhàn)方面代表了重大進步。從數(shù)據(jù)中心到移動設(shè)備,這些技術(shù)有望提高性能,降低能源消耗,實現(xiàn)更高效的人工智能推理。! E4 `% Y$ j3 J" \. l
* i+ ~0 W& Y* z( r
AiM和AiMX的發(fā)展路線圖雄心勃勃,計劃為數(shù)據(jù)中心提供高容量解決方案,實現(xiàn)設(shè)備端人工智能,并探索先進封裝技術(shù)如混合鍵合。隨著這些技術(shù)的成熟,有潛力重塑人工智能加速的格局,使先進的人工智能應用更易獲得和更具可持續(xù)性。* @) O! l9 X; {9 ?# \5 A7 C
: b+ e4 r1 C4 w
wrkwicmt2gk64050448219.png (364.73 KB, 下載次數(shù): 6)
下載附件
保存到相冊
wrkwicmt2gk64050448219.png
2024-10-6 01:26 上傳
. Y! J8 @% M( J% W3 r- j3 Z1 t. z; M
圖9:展示了SK hynix的AiM和AiMX技術(shù)路線圖,展示了從芯片級解決方案到系統(tǒng)級實現(xiàn)和未來創(chuàng)新的演變。# u$ k' b' |4 ^. N5 c& q0 }) N
3 Q3 R+ z! {6 `* V- L2 _7 ?% O
隨著人工智能繼續(xù)滲透到我們數(shù)字生活的各個方面,像AiM和AiMX這樣的解決方案將在實現(xiàn)更強大、高效和普遍的人工智能應用中發(fā)揮關(guān)鍵作用。研究人員、開發(fā)人員和硬件工程師應密切關(guān)注這些新興技術(shù),并考慮如何利用這些技術(shù)來推動人工智能的可能性邊界。1 E2 s# c6 D; G5 B0 g' _
' h: N# \! {6 {) K3 B* Y2 t參考文獻
3 c/ }* Q |. h[1]G. Kim et al."SK hynix AI-Specific Computing Memory Solution: From AiM device to Heterogeneous AiMX-xPU System for Comprehensive LLM Inference," in Hot Chips 2024.
) y6 R) T u9 ?' I2 t, i+ H( y1 K# X9 Q3 G6 }, u s
- END -
- g! V6 m: {( K7 a" E) f( g
- f5 N9 N1 p7 Q; t- o6 P8 ^軟件申請我們歡迎化合物/硅基光電子芯片的研究人員和工程師申請體驗免費版PIC Studio軟件。無論是研究還是商業(yè)應用,PIC Studio都可提升您的工作效能。
6 {' k. E! \1 U0 v3 V6 U* o點擊左下角"閱讀原文"馬上申請
+ P* R# _1 R0 @ a# w1 G; h' w- A' ^- k" P+ Y
歡迎轉(zhuǎn)載
. G8 F9 d ~1 |) ]
) L) B7 o' A- p; |! K轉(zhuǎn)載請注明出處,請勿修改內(nèi)容和刪除作者信息!! }3 q: V: @ f1 c8 m5 R: |9 J
; ?1 {2 _; t0 N# y+ l
+ }$ u) e' b* B W- p9 |6 R. }: e* z; m8 l
yclq2vua1oc64050448319.gif (16.04 KB, 下載次數(shù): 6)
下載附件
保存到相冊
yclq2vua1oc64050448319.gif
2024-10-6 01:26 上傳
+ I* w4 a& j( P D
- [' O9 t5 Z @! A [8 c關(guān)注我們* ]0 ?0 A7 D" {6 x' c8 s/ L
4 o* {$ S/ t6 [, `) q9 d4 K0 P( n9 V c4 ?$ f- ]+ D0 i5 L; b
xq3egfybadd64050448419.png (31.33 KB, 下載次數(shù): 5)
下載附件
保存到相冊
xq3egfybadd64050448419.png
2024-10-6 01:26 上傳
6 v/ s; @ e4 I+ W |
" A/ b, H* h) w9 ^- u
xbtnl4chepl64050448519.png (82.79 KB, 下載次數(shù): 5)
下載附件
保存到相冊
xbtnl4chepl64050448519.png
2024-10-6 01:26 上傳
9 N) K3 A- l+ N |
9 r; @$ B4 f9 o, \3 l; A* O
c1udmeeonna64050448619.png (21.52 KB, 下載次數(shù): 7)
下載附件
保存到相冊
c1udmeeonna64050448619.png
2024-10-6 01:26 上傳
P9 r4 c! S3 P |
/ g5 m) V+ R+ k) J& C# |
, D" m, Z n, n1 _! t; @# x( x+ ]5 Z
* l: f# A1 }" M6 r3 ]* s
關(guān)于我們:9 p0 } o0 x, v1 h3 N/ H
深圳逍遙科技有限公司(Latitude Design Automation Inc.)是一家專注于半導體芯片設(shè)計自動化(EDA)的高科技軟件公司。我們自主開發(fā)特色工藝芯片設(shè)計和仿真軟件,提供成熟的設(shè)計解決方案如PIC Studio、MEMS Studio和Meta Studio,分別針對光電芯片、微機電系統(tǒng)、超透鏡的設(shè)計與仿真。我們提供特色工藝的半導體芯片集成電路版圖、IP和PDK工程服務,廣泛服務于光通訊、光計算、光量子通信和微納光子器件領(lǐng)域的頭部客戶。逍遙科技與國內(nèi)外晶圓代工廠及硅光/MEMS中試線合作,推動特色工藝半導體產(chǎn)業(yè)鏈發(fā)展,致力于為客戶提供前沿技術(shù)與服務。) w6 c8 r% L+ q" \
) _5 u5 C! V+ p; {
http://www.latitudeda.com/
9 j7 K5 k" u& X- j(點擊上方名片關(guān)注我們,發(fā)現(xiàn)更多精彩內(nèi)容) |
|