電子產(chǎn)業(yè)一站式賦能平臺(tái)

PCB聯(lián)盟網(wǎng)

搜索
查看: 72|回復(fù): 0
收起左側(cè)

Hot Chips 2024 | SK hynix的AiM和AiMX加速人工智能的解決方案

[復(fù)制鏈接]

465

主題

465

帖子

3514

積分

四級(jí)會(huì)員

Rank: 4

積分
3514
跳轉(zhuǎn)到指定樓層
樓主
發(fā)表于 2024-10-4 08:00:00 | 只看該作者 |只看大圖 回帖獎(jiǎng)勵(lì) |倒序?yàn)g覽 |閱讀模式
引言  [$ b! q0 K" l4 {) G$ A4 U
本文介紹SK hynix開發(fā)的創(chuàng)新技術(shù):加速器內(nèi)存(Accelerator-in-Memory,AiM)和AiMX系統(tǒng)。這些先進(jìn)解決方案旨在應(yīng)對(duì)大型語言模型(LLMs)帶來的計(jì)算效率和成本效益挑戰(zhàn),適用于數(shù)據(jù)中心和設(shè)備端人工智能場(chǎng)景。
9 a* P9 y# i# J1 e- e& _  B% q1 U3 B: w& r1 ]8 X$ }

7 Q4 A' S2 p$ c9 g理解挑戰(zhàn):內(nèi)存受限的大型語言模型/ I$ `; v& o8 i# j3 L4 _7 d1 }& u
大型語言模型的核心操作在于矩陣-向量乘法,特別是在多頭注意力(MHA)和全連接(FC)層中。這些操作主要受內(nèi)存帶寬限制,尤其是在小批量推理時(shí)。這一特性使得LLMs的運(yùn)行成本高昂,無論是在計(jì)算資源還是能源消耗方面。
+ L/ a. f2 u3 n' `, Y' z) i! k
1 A& [4 h2 K& `9 X
( j2 v7 u8 R9 h) K/ i+ I圖1:展示了LLM操作的內(nèi)存受限特性,說明矩陣-向量乘法如何主導(dǎo)計(jì)算景觀。
# ?& R& M, N3 [4 T. T$ ]: K7 s( E$ o- ~6 h
SK hynix的解決方案:加速器內(nèi)存(AiM)
9 A" {; \+ C& _# Z5 \* z: T為解決這一挑戰(zhàn),SK hynix推出了加速器內(nèi)存(AiM)技術(shù)。AiM是一種突破性方法,將計(jì)算功能更靠近數(shù)據(jù),顯著減少帶寬瓶頸。
4 z' I" A* N! c8 i* _4 r+ w1 A8 F, ~) Z7 `
GDDR6-AiM的主要特點(diǎn):
$ {: P3 w! f) v
  • 外部帶寬:32 GB/s
  • 運(yùn)行速度:1 GHz
  • 計(jì)算吞吐量:512 GFLOPS
  • 內(nèi)部帶寬:512 GB/s
  • 數(shù)值精度:BF167 L9 B1 J4 m- [4 B; I
    9 C9 {3 R4 T5 w; \  X

    4 i) M$ a$ t- h$ M! {2 c0 ]
    0 |" I  j* D3 z& Q圖2:展示了GDDR6-AiM的芯片照片和封裝,突出顯示了這項(xiàng)創(chuàng)新技術(shù)的物理實(shí)現(xiàn)。
    ; @# R/ S1 W) E' o7 k. ?1 d
    ( j/ r# N6 R/ Z4 `) h. PAiMX:為數(shù)據(jù)中心應(yīng)用擴(kuò)展AiM1 N. m9 D5 ?$ p/ p
    在AiM技術(shù)的基礎(chǔ)上,SK hynix開發(fā)了AiMX,這是一種專為數(shù)據(jù)中心應(yīng)用設(shè)計(jì)的系統(tǒng)級(jí)解決方案。AiMX卡原型將多個(gè)AiM封裝與FPGA相結(jié)合,創(chuàng)建了一個(gè)強(qiáng)大的LLM推理加速器。
    & {1 T/ P6 {; C
    ; S3 O( m8 d% R9 d/ u0 |8 \* ^AiMX卡原型規(guī)格:" P& l: f8 ^, P/ a. a
  • 主機(jī)接口:PCIe Gen3 x8x8(雙分叉)
  • 形態(tài)因素:FHFL(兼容A100/A30)
  • 配置:2 FPGA x 16 AiM封裝
  • AiM容量:16 GB
  • 帶寬:170 GB/s(@2.67Gbps)' `; A3 @. G! H9 H6 H$ Y, E4 \6 Q

    2 a4 M/ l/ g* F: e9 R2 j- H8 M2 J$ ~7 N8 W' q  k' x7 }

    7 C( y. y8 N3 o3 m, V1 G) R圖3:展示了AiMX卡原型,演示了多個(gè)AiM封裝如何集成到單個(gè)加速器卡中。: w7 c' G# F; ]1 D
    ) m& x( y9 q* |! d
    7 u1 ~( J6 X1 c) l8 v+ v
    優(yōu)化AiM中的多頭注意力(MHA): }% F  p5 h; [5 V5 k- S8 F
    AiM的一個(gè)關(guān)鍵優(yōu)化是其處理多頭注意力的方法,這是基于transformer的模型的關(guān)鍵組件。AiM采用智能數(shù)據(jù)放置策略來處理鍵和值矩陣,以最大化效率。9 b; h- w) J- Q

    4 P$ k+ r5 T1 n $ r9 ?1 X) R. L6 J" X
    圖4:說明了AiM感知的鍵/值矩陣放置策略,展示了數(shù)據(jù)如何在存儲(chǔ)體間分布以實(shí)現(xiàn)最佳性能。
    + P1 f2 w2 l0 |" t/ u7 o) U, D& `+ X0 F+ J# E  X
    擴(kuò)展AiMX卡以提升性能
    , f: c* S7 s2 n% d9 `; S: ZSK hynix進(jìn)一步改進(jìn)了AiMX解決方案,推出了擴(kuò)展卡設(shè)計(jì),將AiM封裝的容量和數(shù)量翻倍。
    8 P" f; @* K: E, ?
    5 \; f( `+ n. f2 g3 S擴(kuò)展AiMX卡規(guī)格:& ?5 l, \5 U" f* [  s4 n' c; O
  • 形態(tài)因素:FHFL(兼容H100/A100)
  • 配置:2 FPGA x 32 AiM封裝
  • AiM容量:32 GB
  • 帶寬:170 GB/s(@2.67Gbps)
  • 散熱:被動(dòng)式, i! B# a3 v9 o
    ' T# `; L' X5 Q7 H
    5 @3 r* F' G# v) i( v- ~

    5 u0 n4 V; j; j- P- t- Q: P+ f& j圖5:展示了擴(kuò)展AiMX卡原型,突出顯示了增加的AiM封裝數(shù)量和改進(jìn)的設(shè)計(jì)。8 x/ Q& Q! M8 v; o; m- x" w

      ?5 C* d% `3 F3 o4 u) x用于設(shè)備端人工智能的AiM和AiMX' x/ x. V( k2 a" c
    認(rèn)識(shí)到設(shè)備端人工智能的日益重要性,SK hynix將AiM技術(shù)適配用于移動(dòng)和邊緣應(yīng)用。LPDDR-AiM旨在滿足設(shè)備端人工智能的獨(dú)特挑戰(zhàn),包括形態(tài)因素限制、低批量大小和能效要求。
    8 h1 T9 B6 }* B' p1 ?9 Y. j
    3 W0 Z1 O  j- Y+ v5 [+ GLPDDR-AiM規(guī)格(每個(gè)芯片):2 r& F! b$ W+ ]
  • 內(nèi)存密度:1-2 GB
  • 組織結(jié)構(gòu):X16
  • IO數(shù)據(jù)率:9.6
  • 外部帶寬:19.2 GB/s
  • 數(shù)值精度:INT4/8
  • 處理單元:16 PU/芯片
  • 計(jì)算吞吐量:307.2 GOPS
  • 內(nèi)部帶寬:153.6 GB/s* F- z  i6 {0 L% _# o. W+ }/ c( B

    9 @# t) d" Y! z' v+ C1 \! t  H' Q* |, z, r' z2 N( C' t4 B
    6 p& h, }1 s+ Z! d2 o- \8 I* q0 e: i3 L
    圖6:展示了LPDDR-AiM的規(guī)格,并強(qiáng)調(diào)了其與現(xiàn)有LPDDR協(xié)議的兼容性。
    : H9 j9 {& n* Q  Q5 a# E8 x' B  H. Y
    用于設(shè)備端人工智能的AiMX系統(tǒng)架構(gòu)9 e  N( `" y0 O4 Q9 O8 V, G
    設(shè)備端AiMX系統(tǒng)架構(gòu)與其數(shù)據(jù)中心對(duì)應(yīng)物相似,但已適配移動(dòng)平臺(tái)。這種設(shè)計(jì)允許與移動(dòng)應(yīng)用處理器或客戶端CPU無縫集成。% W! ?) n$ n0 j& J5 d
    ; A" n; g  a% r- J
    8 y8 `- h! ^" E5 X# H
    圖7:比較了數(shù)據(jù)中心和設(shè)備端人工智能應(yīng)用的AiMX系統(tǒng)架構(gòu),說明了相似之處和為移動(dòng)使用所做的調(diào)整。9 S7 E: G+ }7 x' D- d
    % U4 P5 q0 j( s

    " \. ]5 `1 S5 ^# m9 `4 G2 h6 ]未來設(shè)計(jì)考慮
    - Y* f$ d/ P. J0 v隨著SK hynix繼續(xù)發(fā)展AiM和AiMX技術(shù),正在探索幾個(gè)設(shè)計(jì)選擇:
    4 j" S  U+ j4 U1 {# N
    + u; @# J+ N2 t, i) F, N1. AiM功能
    $ U1 _7 {3 M: v! U3 m從GEMV擴(kuò)展到包括GEMM和其他操作+ J( N+ e6 k; L$ O( H2 r
    支持各種精度(二進(jìn)制、整數(shù)、浮點(diǎn)、BF、MX)* d# W! x- W, \# {
    探索異構(gòu)精度能力
    8 g+ P! X# t0 d% O/ u) S7 c/ l0 V4 P" v
    2. SoC優(yōu)化5 m  j( ^7 Q- B: ]1 U; m  A
    平衡功率和熱約束
    4 Z3 s& i  Z- t1 \+ v' i, f0 K+ P改善MAC到MAC延遲
      p: }" T0 W6 N/ \! U2 j優(yōu)化存儲(chǔ)體到MAC比率
    + b$ Z# s/ e& \9 P1 C9 \# E實(shí)施動(dòng)態(tài)電源供應(yīng)策略
    8 U5 B3 M0 L$ |" V# C5 V* W, b) q9 \1 e
    3. 軟件增強(qiáng)
    6 C$ Z9 X" P7 A" K8 N開發(fā)PIM感知內(nèi)存管理技術(shù)
    : [( \0 b9 _! V2 j* d實(shí)現(xiàn)大頁面大小以高效放置權(quán)重?cái)?shù)據(jù)& j$ n% U4 C5 U5 f, e  \
    創(chuàng)建PIM感知內(nèi)存交換策略
    * O+ M) s8 B# h- O7 \- h/ M! E3 Y; |( G  e

    . \3 v4 J) e- i圖8:概述了未來AiM實(shí)現(xiàn)的各種設(shè)計(jì)選擇,聚焦于功能、精度和潛在應(yīng)用。3 s  t% l$ S- x3 w( j  M7 h1 Q  G

    , \: |- z# z4 I. p) K結(jié)論和未來展望5 }+ ^* o& L7 ~
    SK hynix的AiM和AiMX解決方案在解決內(nèi)存受限人工智能工作負(fù)載的挑戰(zhàn)方面代表了重大進(jìn)步。從數(shù)據(jù)中心到移動(dòng)設(shè)備,這些技術(shù)有望提高性能,降低能源消耗,實(shí)現(xiàn)更高效的人工智能推理。
    9 h0 Z- {9 a# v& B  C6 B- h1 b
    9 H5 [9 _' u) n& C9 ~AiM和AiMX的發(fā)展路線圖雄心勃勃,計(jì)劃為數(shù)據(jù)中心提供高容量解決方案,實(shí)現(xiàn)設(shè)備端人工智能,并探索先進(jìn)封裝技術(shù)如混合鍵合。隨著這些技術(shù)的成熟,有潛力重塑人工智能加速的格局,使先進(jìn)的人工智能應(yīng)用更易獲得和更具可持續(xù)性。
    4 k4 s# D3 ~- R3 r  C$ c: F: K- i2 w# ^' _* u0 a2 D# q

    2 F0 B4 R8 X, j) z$ L圖9:展示了SK hynix的AiM和AiMX技術(shù)路線圖,展示了從芯片級(jí)解決方案到系統(tǒng)級(jí)實(shí)現(xiàn)和未來創(chuàng)新的演變。
    : \& q5 v4 \1 [9 w1 s; o- f$ K( [3 d* b" L$ `" J+ `' o5 o7 ^
    隨著人工智能繼續(xù)滲透到我們數(shù)字生活的各個(gè)方面,像AiM和AiMX這樣的解決方案將在實(shí)現(xiàn)更強(qiáng)大、高效和普遍的人工智能應(yīng)用中發(fā)揮關(guān)鍵作用。研究人員、開發(fā)人員和硬件工程師應(yīng)密切關(guān)注這些新興技術(shù),并考慮如何利用這些技術(shù)來推動(dòng)人工智能的可能性邊界。
    % C. A- M* |3 {+ B% f% F9 W: F( R- f: c- S( [! j; t. L
    參考文獻(xiàn)
    & X/ M! w7 S( c( L8 H6 }[1]G. Kim et al."SK hynix AI-Specific Computing Memory Solution: From AiM device to Heterogeneous AiMX-xPU System for Comprehensive LLM Inference," in Hot Chips 2024.
    5 Y1 Q) `# ]: o0 G
    4 B! E1 X1 Y0 u: `! }- END -
    ! T+ A0 K' T0 {/ P: P9 \  l- D
    4 c# Z  r6 A- ~# a" p% e, W4 `軟件申請(qǐng)我們歡迎化合物/硅基光電子芯片的研究人員和工程師申請(qǐng)?bào)w驗(yàn)免費(fèi)版PIC Studio軟件。無論是研究還是商業(yè)應(yīng)用,PIC Studio都可提升您的工作效能。# E% M" \% q% u5 b9 `' \- ~
    點(diǎn)擊左下角"閱讀原文"馬上申請(qǐng)
    # U" X0 E6 M4 I" {- Q$ f1 k. P: j' |4 y$ _4 ~( m% ?6 T2 k
    歡迎轉(zhuǎn)載5 D/ f, T0 w( F9 e
    5 X4 P+ h" c' ^. W/ U
    轉(zhuǎn)載請(qǐng)注明出處,請(qǐng)勿修改內(nèi)容和刪除作者信息!, G" i2 h) c( C

    / }  q# o; n0 P- ?+ s2 `" G8 t" q3 b( x4 v3 ]
    3 |% P3 s5 e! I& C+ f, f
    ( i6 r% @$ S! }3 w1 F# K  l3 z* L- G

    # Q& y" _& {7 _- }5 U* s關(guān)注我們
    5 r/ d9 O9 `" o* J9 B( u. k, P; ~+ K. L
    4 @* ^% D$ z& ?4 p; q, |
    / ?- c5 D5 I6 ]1 Z3 e

    ; Y1 r0 i( ?& a
      V) e( U$ P9 x$ H. T" n; o+ Q
    # h8 G$ c9 [- @% v1 Y- Z

    / z- R: D6 A4 U- x1 y
                          # Z8 @4 t) a- ?0 _* x
    7 u7 M" X2 J3 D* w

    * |2 G+ V9 u' i1 F
    / e1 T1 Z0 j! \+ X6 Z$ o- H+ ~關(guān)于我們:% S2 V( n0 A, f* n9 c, X, s  m& S
    深圳逍遙科技有限公司(Latitude Design Automation Inc.)是一家專注于半導(dǎo)體芯片設(shè)計(jì)自動(dòng)化(EDA)的高科技軟件公司。我們自主開發(fā)特色工藝芯片設(shè)計(jì)和仿真軟件,提供成熟的設(shè)計(jì)解決方案如PIC Studio、MEMS Studio和Meta Studio,分別針對(duì)光電芯片、微機(jī)電系統(tǒng)、超透鏡的設(shè)計(jì)與仿真。我們提供特色工藝的半導(dǎo)體芯片集成電路版圖、IP和PDK工程服務(wù),廣泛服務(wù)于光通訊、光計(jì)算、光量子通信和微納光子器件領(lǐng)域的頭部客戶。逍遙科技與國(guó)內(nèi)外晶圓代工廠及硅光/MEMS中試線合作,推動(dòng)特色工藝半導(dǎo)體產(chǎn)業(yè)鏈發(fā)展,致力于為客戶提供前沿技術(shù)與服務(wù)。
    8 `6 f8 D( G) n: h  @
    4 m. x0 T% G! b  B0 F- I8 Khttp://www.latitudeda.com/
    5 y: m+ H4 z/ ]+ L. J* N( t/ d2 ~(點(diǎn)擊上方名片關(guān)注我們,發(fā)現(xiàn)更多精彩內(nèi)容)
  • 發(fā)表回復(fù)

    本版積分規(guī)則

    關(guān)閉

    站長(zhǎng)推薦上一條 /1 下一條


    聯(lián)系客服 關(guān)注微信 下載APP 返回頂部 返回列表