|
引言 [$ b! q0 K" l4 {) G$ A4 U
本文介紹SK hynix開發(fā)的創(chuàng)新技術(shù):加速器內(nèi)存(Accelerator-in-Memory,AiM)和AiMX系統(tǒng)。這些先進(jìn)解決方案旨在應(yīng)對(duì)大型語言模型(LLMs)帶來的計(jì)算效率和成本效益挑戰(zhàn),適用于數(shù)據(jù)中心和設(shè)備端人工智能場(chǎng)景。
9 a* P9 y# i# J1 e- e& _ B% q1 U3 B: w& r1 ]8 X$ }
7 Q4 A' S2 p$ c9 g理解挑戰(zhàn):內(nèi)存受限的大型語言模型/ I$ `; v& o8 i# j3 L4 _7 d1 }& u
大型語言模型的核心操作在于矩陣-向量乘法,特別是在多頭注意力(MHA)和全連接(FC)層中。這些操作主要受內(nèi)存帶寬限制,尤其是在小批量推理時(shí)。這一特性使得LLMs的運(yùn)行成本高昂,無論是在計(jì)算資源還是能源消耗方面。
+ L/ a. f2 u3 n' `, Y' z) i! k
1 A& [4 h2 K& `9 X
0lyjmk5vyxw64050447417.png (190.4 KB, 下載次數(shù): 6)
下載附件
保存到相冊(cè)
0lyjmk5vyxw64050447417.png
2024-10-6 01:26 上傳
( j2 v7 u8 R9 h) K/ i+ I圖1:展示了LLM操作的內(nèi)存受限特性,說明矩陣-向量乘法如何主導(dǎo)計(jì)算景觀。
# ?& R& M, N3 [4 T. T$ ]: K7 s( E$ o- ~6 h
SK hynix的解決方案:加速器內(nèi)存(AiM)
9 A" {; \+ C& _# Z5 \* z: T為解決這一挑戰(zhàn),SK hynix推出了加速器內(nèi)存(AiM)技術(shù)。AiM是一種突破性方法,將計(jì)算功能更靠近數(shù)據(jù),顯著減少帶寬瓶頸。
4 z' I" A* N! c8 i* _4 r+ w1 A8 F, ~) Z7 `
GDDR6-AiM的主要特點(diǎn):
$ {: P3 w! f) v外部帶寬:32 GB/s運(yùn)行速度:1 GHz計(jì)算吞吐量:512 GFLOPS內(nèi)部帶寬:512 GB/s數(shù)值精度:BF167 L9 B1 J4 m- [4 B; I
9 C9 {3 R4 T5 w; \ X
4 i) M$ a$ t- h$ M! {2 c0 ]
5fab0kcgjgq64050447517.png (179.65 KB, 下載次數(shù): 7)
下載附件
保存到相冊(cè)
5fab0kcgjgq64050447517.png
2024-10-6 01:26 上傳
0 |" I j* D3 z& Q圖2:展示了GDDR6-AiM的芯片照片和封裝,突出顯示了這項(xiàng)創(chuàng)新技術(shù)的物理實(shí)現(xiàn)。
; @# R/ S1 W) E' o7 k. ?1 d
( j/ r# N6 R/ Z4 `) h. PAiMX:為數(shù)據(jù)中心應(yīng)用擴(kuò)展AiM1 N. m9 D5 ?$ p/ p
在AiM技術(shù)的基礎(chǔ)上,SK hynix開發(fā)了AiMX,這是一種專為數(shù)據(jù)中心應(yīng)用設(shè)計(jì)的系統(tǒng)級(jí)解決方案。AiMX卡原型將多個(gè)AiM封裝與FPGA相結(jié)合,創(chuàng)建了一個(gè)強(qiáng)大的LLM推理加速器。
& {1 T/ P6 {; C
; S3 O( m8 d% R9 d/ u0 |8 \* ^AiMX卡原型規(guī)格:" P& l: f8 ^, P/ a. a
主機(jī)接口:PCIe Gen3 x8x8(雙分叉)形態(tài)因素:FHFL(兼容A100/A30)配置:2 FPGA x 16 AiM封裝AiM容量:16 GB帶寬:170 GB/s(@2.67Gbps)' `; A3 @. G! H9 H6 H$ Y, E4 \6 Q
2 a4 M/ l/ g* F: e9 R2 j- H8 M2 J$ ~7 N8 W' q k' x7 }
uvuu1aondnt64050447618.png (308.51 KB, 下載次數(shù): 5)
下載附件
保存到相冊(cè)
uvuu1aondnt64050447618.png
2024-10-6 01:26 上傳
7 C( y. y8 N3 o3 m, V1 G) R圖3:展示了AiMX卡原型,演示了多個(gè)AiM封裝如何集成到單個(gè)加速器卡中。: w7 c' G# F; ]1 D
) m& x( y9 q* |! d
7 u1 ~( J6 X1 c) l8 v+ v
優(yōu)化AiM中的多頭注意力(MHA): }% F p5 h; [5 V5 k- S8 F
AiM的一個(gè)關(guān)鍵優(yōu)化是其處理多頭注意力的方法,這是基于transformer的模型的關(guān)鍵組件。AiM采用智能數(shù)據(jù)放置策略來處理鍵和值矩陣,以最大化效率。9 b; h- w) J- Q
4 P$ k+ r5 T1 n
c3yxtvzsdwn64050447718.png (190.16 KB, 下載次數(shù): 6)
下載附件
保存到相冊(cè)
c3yxtvzsdwn64050447718.png
2024-10-6 01:26 上傳
$ r9 ?1 X) R. L6 J" X
圖4:說明了AiM感知的鍵/值矩陣放置策略,展示了數(shù)據(jù)如何在存儲(chǔ)體間分布以實(shí)現(xiàn)最佳性能。
+ P1 f2 w2 l0 |" t/ u7 o) U, D& `+ X0 F+ J# E X
擴(kuò)展AiMX卡以提升性能
, f: c* S7 s2 n% d9 `; S: ZSK hynix進(jìn)一步改進(jìn)了AiMX解決方案,推出了擴(kuò)展卡設(shè)計(jì),將AiM封裝的容量和數(shù)量翻倍。
8 P" f; @* K: E, ?
5 \; f( `+ n. f2 g3 S擴(kuò)展AiMX卡規(guī)格:& ?5 l, \5 U" f* [ s4 n' c; O
形態(tài)因素:FHFL(兼容H100/A100)配置:2 FPGA x 32 AiM封裝AiM容量:32 GB帶寬:170 GB/s(@2.67Gbps)散熱:被動(dòng)式, i! B# a3 v9 o
' T# `; L' X5 Q7 H
5 @3 r* F' G# v) i( v- ~
2einr1idvld64050447818.png (442.15 KB, 下載次數(shù): 7)
下載附件
保存到相冊(cè)
2einr1idvld64050447818.png
2024-10-6 01:26 上傳
5 u0 n4 V; j; j- P- t- Q: P+ f& j圖5:展示了擴(kuò)展AiMX卡原型,突出顯示了增加的AiM封裝數(shù)量和改進(jìn)的設(shè)計(jì)。8 x/ Q& Q! M8 v; o; m- x" w
?5 C* d% `3 F3 o4 u) x用于設(shè)備端人工智能的AiM和AiMX' x/ x. V( k2 a" c
認(rèn)識(shí)到設(shè)備端人工智能的日益重要性,SK hynix將AiM技術(shù)適配用于移動(dòng)和邊緣應(yīng)用。LPDDR-AiM旨在滿足設(shè)備端人工智能的獨(dú)特挑戰(zhàn),包括形態(tài)因素限制、低批量大小和能效要求。
8 h1 T9 B6 }* B' p1 ?9 Y. j
3 W0 Z1 O j- Y+ v5 [+ GLPDDR-AiM規(guī)格(每個(gè)芯片):2 r& F! b$ W+ ]
內(nèi)存密度:1-2 GB組織結(jié)構(gòu):X16IO數(shù)據(jù)率:9.6外部帶寬:19.2 GB/s數(shù)值精度:INT4/8處理單元:16 PU/芯片計(jì)算吞吐量:307.2 GOPS內(nèi)部帶寬:153.6 GB/s* F- z i6 {0 L% _# o. W+ }/ c( B
9 @# t) d" Y! z' v+ C1 \! t H' Q* |, z, r' z2 N( C' t4 B
zbuty4lst2y64050447918.png (220.32 KB, 下載次數(shù): 6)
下載附件
保存到相冊(cè)
zbuty4lst2y64050447918.png
2024-10-6 01:26 上傳
6 p& h, }1 s+ Z! d2 o- \8 I* q0 e: i3 L
圖6:展示了LPDDR-AiM的規(guī)格,并強(qiáng)調(diào)了其與現(xiàn)有LPDDR協(xié)議的兼容性。
: H9 j9 {& n* Q Q5 a# E8 x' B H. Y
用于設(shè)備端人工智能的AiMX系統(tǒng)架構(gòu)9 e N( `" y0 O4 Q9 O8 V, G
設(shè)備端AiMX系統(tǒng)架構(gòu)與其數(shù)據(jù)中心對(duì)應(yīng)物相似,但已適配移動(dòng)平臺(tái)。這種設(shè)計(jì)允許與移動(dòng)應(yīng)用處理器或客戶端CPU無縫集成。% W! ?) n$ n0 j& J5 d
; A" n; g a% r- J
3rs51v4jcd064050448018.png (118.55 KB, 下載次數(shù): 6)
下載附件
保存到相冊(cè)
3rs51v4jcd064050448018.png
2024-10-6 01:26 上傳
8 y8 `- h! ^" E5 X# H
圖7:比較了數(shù)據(jù)中心和設(shè)備端人工智能應(yīng)用的AiMX系統(tǒng)架構(gòu),說明了相似之處和為移動(dòng)使用所做的調(diào)整。9 S7 E: G+ }7 x' D- d
% U4 P5 q0 j( s
" \. ]5 `1 S5 ^# m9 `4 G2 h6 ]未來設(shè)計(jì)考慮
- Y* f$ d/ P. J0 v隨著SK hynix繼續(xù)發(fā)展AiM和AiMX技術(shù),正在探索幾個(gè)設(shè)計(jì)選擇:
4 j" S U+ j4 U1 {# N
+ u; @# J+ N2 t, i) F, N1. AiM功能:
$ U1 _7 {3 M: v! U3 m從GEMV擴(kuò)展到包括GEMM和其他操作+ J( N+ e6 k; L$ O( H2 r
支持各種精度(二進(jìn)制、整數(shù)、浮點(diǎn)、BF、MX)* d# W! x- W, \# {
探索異構(gòu)精度能力
8 g+ P! X# t0 d% O/ u) S7 c/ l0 V4 P" v
2. SoC優(yōu)化:5 m j( ^7 Q- B: ]1 U; m A
平衡功率和熱約束
4 Z3 s& i Z- t1 \+ v' i, f0 K+ P改善MAC到MAC延遲
p: }" T0 W6 N/ \! U2 j優(yōu)化存儲(chǔ)體到MAC比率
+ b$ Z# s/ e& \9 P1 C9 \# E實(shí)施動(dòng)態(tài)電源供應(yīng)策略
8 U5 B3 M0 L$ |" V# C5 V* W, b) q9 \1 e
3. 軟件增強(qiáng):
6 C$ Z9 X" P7 A" K8 N開發(fā)PIM感知內(nèi)存管理技術(shù)
: [( \0 b9 _! V2 j* d實(shí)現(xiàn)大頁面大小以高效放置權(quán)重?cái)?shù)據(jù)& j$ n% U4 C5 U5 f, e \
創(chuàng)建PIM感知內(nèi)存交換策略
* O+ M) s8 B# h- O7 \- h/ M! E3 Y; |( G e
lc5opsyvnhj64050448119.png (108.3 KB, 下載次數(shù): 6)
下載附件
保存到相冊(cè)
lc5opsyvnhj64050448119.png
2024-10-6 01:26 上傳
. \3 v4 J) e- i圖8:概述了未來AiM實(shí)現(xiàn)的各種設(shè)計(jì)選擇,聚焦于功能、精度和潛在應(yīng)用。3 s t% l$ S- x3 w( j M7 h1 Q G
, \: |- z# z4 I. p) K結(jié)論和未來展望5 }+ ^* o& L7 ~
SK hynix的AiM和AiMX解決方案在解決內(nèi)存受限人工智能工作負(fù)載的挑戰(zhàn)方面代表了重大進(jìn)步。從數(shù)據(jù)中心到移動(dòng)設(shè)備,這些技術(shù)有望提高性能,降低能源消耗,實(shí)現(xiàn)更高效的人工智能推理。
9 h0 Z- {9 a# v& B C6 B- h1 b
9 H5 [9 _' u) n& C9 ~AiM和AiMX的發(fā)展路線圖雄心勃勃,計(jì)劃為數(shù)據(jù)中心提供高容量解決方案,實(shí)現(xiàn)設(shè)備端人工智能,并探索先進(jìn)封裝技術(shù)如混合鍵合。隨著這些技術(shù)的成熟,有潛力重塑人工智能加速的格局,使先進(jìn)的人工智能應(yīng)用更易獲得和更具可持續(xù)性。
4 k4 s# D3 ~- R3 r C$ c: F: K- i2 w# ^' _* u0 a2 D# q
wrkwicmt2gk64050448219.png (364.73 KB, 下載次數(shù): 6)
下載附件
保存到相冊(cè)
wrkwicmt2gk64050448219.png
2024-10-6 01:26 上傳
2 F0 B4 R8 X, j) z$ L圖9:展示了SK hynix的AiM和AiMX技術(shù)路線圖,展示了從芯片級(jí)解決方案到系統(tǒng)級(jí)實(shí)現(xiàn)和未來創(chuàng)新的演變。
: \& q5 v4 \1 [9 w1 s; o- f$ K( [3 d* b" L$ `" J+ `' o5 o7 ^
隨著人工智能繼續(xù)滲透到我們數(shù)字生活的各個(gè)方面,像AiM和AiMX這樣的解決方案將在實(shí)現(xiàn)更強(qiáng)大、高效和普遍的人工智能應(yīng)用中發(fā)揮關(guān)鍵作用。研究人員、開發(fā)人員和硬件工程師應(yīng)密切關(guān)注這些新興技術(shù),并考慮如何利用這些技術(shù)來推動(dòng)人工智能的可能性邊界。
% C. A- M* |3 {+ B% f% F9 W: F( R- f: c- S( [! j; t. L
參考文獻(xiàn)
& X/ M! w7 S( c( L8 H6 }[1]G. Kim et al."SK hynix AI-Specific Computing Memory Solution: From AiM device to Heterogeneous AiMX-xPU System for Comprehensive LLM Inference," in Hot Chips 2024.
5 Y1 Q) `# ]: o0 G
4 B! E1 X1 Y0 u: `! }- END -
! T+ A0 K' T0 {/ P: P9 \ l- D
4 c# Z r6 A- ~# a" p% e, W4 `軟件申請(qǐng)我們歡迎化合物/硅基光電子芯片的研究人員和工程師申請(qǐng)?bào)w驗(yàn)免費(fèi)版PIC Studio軟件。無論是研究還是商業(yè)應(yīng)用,PIC Studio都可提升您的工作效能。# E% M" \% q% u5 b9 `' \- ~
點(diǎn)擊左下角"閱讀原文"馬上申請(qǐng)
# U" X0 E6 M4 I" {- Q$ f1 k. P: j' |4 y$ _4 ~( m% ?6 T2 k
歡迎轉(zhuǎn)載5 D/ f, T0 w( F9 e
5 X4 P+ h" c' ^. W/ U
轉(zhuǎn)載請(qǐng)注明出處,請(qǐng)勿修改內(nèi)容和刪除作者信息!, G" i2 h) c( C
/ } q# o; n0 P- ?+ s2 `" G8 t" q3 b( x4 v3 ]
3 |% P3 s5 e! I& C+ f, f
yclq2vua1oc64050448319.gif (16.04 KB, 下載次數(shù): 6)
下載附件
保存到相冊(cè)
yclq2vua1oc64050448319.gif
2024-10-6 01:26 上傳
( i6 r% @$ S! }3 w1 F# K l3 z* L- G
# Q& y" _& {7 _- }5 U* s關(guān)注我們
5 r/ d9 O9 `" o* J9 B( u. k, P; ~+ K. L
4 @* ^% D$ z& ?4 p; q, |
xq3egfybadd64050448419.png (31.33 KB, 下載次數(shù): 5)
下載附件
保存到相冊(cè)
xq3egfybadd64050448419.png
2024-10-6 01:26 上傳
/ ?- c5 D5 I6 ]1 Z3 e
|
; Y1 r0 i( ?& a
xbtnl4chepl64050448519.png (82.79 KB, 下載次數(shù): 5)
下載附件
保存到相冊(cè)
xbtnl4chepl64050448519.png
2024-10-6 01:26 上傳
V) e( U$ P9 x$ H. T" n; o+ Q | # h8 G$ c9 [- @% v1 Y- Z
c1udmeeonna64050448619.png (21.52 KB, 下載次數(shù): 7)
下載附件
保存到相冊(cè)
c1udmeeonna64050448619.png
2024-10-6 01:26 上傳
/ z- R: D6 A4 U- x1 y | # Z8 @4 t) a- ?0 _* x
7 u7 M" X2 J3 D* w
* |2 G+ V9 u' i1 F
/ e1 T1 Z0 j! \+ X6 Z$ o- H+ ~關(guān)于我們:% S2 V( n0 A, f* n9 c, X, s m& S
深圳逍遙科技有限公司(Latitude Design Automation Inc.)是一家專注于半導(dǎo)體芯片設(shè)計(jì)自動(dòng)化(EDA)的高科技軟件公司。我們自主開發(fā)特色工藝芯片設(shè)計(jì)和仿真軟件,提供成熟的設(shè)計(jì)解決方案如PIC Studio、MEMS Studio和Meta Studio,分別針對(duì)光電芯片、微機(jī)電系統(tǒng)、超透鏡的設(shè)計(jì)與仿真。我們提供特色工藝的半導(dǎo)體芯片集成電路版圖、IP和PDK工程服務(wù),廣泛服務(wù)于光通訊、光計(jì)算、光量子通信和微納光子器件領(lǐng)域的頭部客戶。逍遙科技與國(guó)內(nèi)外晶圓代工廠及硅光/MEMS中試線合作,推動(dòng)特色工藝半導(dǎo)體產(chǎn)業(yè)鏈發(fā)展,致力于為客戶提供前沿技術(shù)與服務(wù)。
8 `6 f8 D( G) n: h @
4 m. x0 T% G! b B0 F- I8 Khttp://www.latitudeda.com/
5 y: m+ H4 z/ ]+ L. J* N( t/ d2 ~(點(diǎn)擊上方名片關(guān)注我們,發(fā)現(xiàn)更多精彩內(nèi)容) |
|