電子產(chǎn)業(yè)一站式賦能平臺

PCB聯(lián)盟網(wǎng)

搜索
查看: 73|回復: 0
收起左側(cè)

Hot Chips 2024 | SK hynix的AiM和AiMX加速人工智能的解決方案

[復制鏈接]

465

主題

465

帖子

3514

積分

四級會員

Rank: 4

積分
3514
跳轉(zhuǎn)到指定樓層
樓主
發(fā)表于 2024-10-4 08:00:00 | 只看該作者 |只看大圖 回帖獎勵 |倒序瀏覽 |閱讀模式
引言
/ l5 ^! A( l% ^/ H7 h# A本文介紹SK hynix開發(fā)的創(chuàng)新技術(shù):加速器內(nèi)存(Accelerator-in-Memory,AiM)和AiMX系統(tǒng)。這些先進解決方案旨在應對大型語言模型(LLMs)帶來的計算效率和成本效益挑戰(zhàn),適用于數(shù)據(jù)中心和設(shè)備端人工智能場景。
' y2 n! x. @' Z2 w" n1 r1 Q, c7 @* y1 i8 ~4 S

7 {% f+ ?2 C5 L0 s) L: j8 E理解挑戰(zhàn):內(nèi)存受限的大型語言模型
4 I/ V9 I6 S3 y6 \# _大型語言模型的核心操作在于矩陣-向量乘法,特別是在多頭注意力(MHA)和全連接(FC)層中。這些操作主要受內(nèi)存帶寬限制,尤其是在小批量推理時。這一特性使得LLMs的運行成本高昂,無論是在計算資源還是能源消耗方面。
  h1 T, y! P, H  t2 L/ q# J; f
  M/ Y$ K+ ^6 N' ^0 L
. w& d  R0 C' f3 U圖1:展示了LLM操作的內(nèi)存受限特性,說明矩陣-向量乘法如何主導計算景觀。
3 g; C1 h0 d- o' u: ]) Z- \) O& }* q7 j
( ?* ]# W0 Z  l$ USK hynix的解決方案:加速器內(nèi)存(AiM)
, u5 P+ m9 L/ n. U6 W為解決這一挑戰(zhàn),SK hynix推出了加速器內(nèi)存(AiM)技術(shù)。AiM是一種突破性方法,將計算功能更靠近數(shù)據(jù),顯著減少帶寬瓶頸。$ f1 g' A! y/ k3 h( R; }6 K
" Y3 m6 t( [* N% m; I6 g7 ^
GDDR6-AiM的主要特點:. k0 D, b+ {. m2 c7 D
  • 外部帶寬:32 GB/s
  • 運行速度:1 GHz
  • 計算吞吐量:512 GFLOPS
  • 內(nèi)部帶寬:512 GB/s
  • 數(shù)值精度:BF16
    5 r; [+ |* Z' q, |7 V6 q
    . x: c) V: p6 p' P8 H# m

    : A# p# _7 i5 W* }! ^- u 9 E0 [, T! |' l% ]9 \" w: C
    圖2:展示了GDDR6-AiM的芯片照片和封裝,突出顯示了這項創(chuàng)新技術(shù)的物理實現(xiàn)。
    9 {  C# h; e; z. I. v9 B, m( z! b5 k$ K- ~6 \" R3 S% o; |
    AiMX:為數(shù)據(jù)中心應用擴展AiM' }% \: {. ]3 b" P
    在AiM技術(shù)的基礎(chǔ)上,SK hynix開發(fā)了AiMX,這是一種專為數(shù)據(jù)中心應用設(shè)計的系統(tǒng)級解決方案。AiMX卡原型將多個AiM封裝與FPGA相結(jié)合,創(chuàng)建了一個強大的LLM推理加速器。
    * F3 `' e7 v* R) g% C# ?
    , f0 I8 W* O/ _  XAiMX卡原型規(guī)格:' X5 d- k/ a4 a; [+ n# T% f& E: R! n
  • 主機接口:PCIe Gen3 x8x8(雙分叉)
  • 形態(tài)因素:FHFL(兼容A100/A30)
  • 配置:2 FPGA x 16 AiM封裝
  • AiM容量:16 GB
  • 帶寬:170 GB/s(@2.67Gbps); k9 P2 a* I2 y0 c* F4 b# }$ Q
    ) b9 t. z: `" C  ]
    $ G6 X* I8 e0 H7 P4 u8 _% k

    + q. w; X$ u7 ^, D0 L圖3:展示了AiMX卡原型,演示了多個AiM封裝如何集成到單個加速器卡中。( g& o3 h+ ]4 [+ a

    9 H7 D9 f# {( t
    ; s9 O$ I/ ^0 `+ }
    優(yōu)化AiM中的多頭注意力(MHA)' X( w' x5 M' Y0 O7 S5 O2 I) i% e
    AiM的一個關(guān)鍵優(yōu)化是其處理多頭注意力的方法,這是基于transformer的模型的關(guān)鍵組件。AiM采用智能數(shù)據(jù)放置策略來處理鍵和值矩陣,以最大化效率。% d8 c+ a. R6 [. p# C- I
    8 \7 ?$ |6 ]( y2 g: e5 j

    ; ]8 ^4 ]+ c4 v$ v( \圖4:說明了AiM感知的鍵/值矩陣放置策略,展示了數(shù)據(jù)如何在存儲體間分布以實現(xiàn)最佳性能。* b% m4 U1 x. G5 t3 Q1 ~8 |

    ' n: T# I: s% V; F8 z) A, z擴展AiMX卡以提升性能
    + J/ O$ W8 f; N, WSK hynix進一步改進了AiMX解決方案,推出了擴展卡設(shè)計,將AiM封裝的容量和數(shù)量翻倍。. p! `/ t9 C+ _% M& f

    2 q. F8 }$ ?1 C& m  Q擴展AiMX卡規(guī)格:  q3 q. R, I& w3 h' C7 o
  • 形態(tài)因素:FHFL(兼容H100/A100)
  • 配置:2 FPGA x 32 AiM封裝
  • AiM容量:32 GB
  • 帶寬:170 GB/s(@2.67Gbps)
  • 散熱:被動式
    & U/ p6 E. J! G, d. ]! \3 r
    : @/ }1 b- W2 K' F
    4 L4 n$ o$ D  M' `4 t% p
    8 m- j  f* G4 f7 l  f4 N
    圖5:展示了擴展AiMX卡原型,突出顯示了增加的AiM封裝數(shù)量和改進的設(shè)計。
    8 w1 C, U+ _* F3 B% y% B  V" s$ ]5 m* J) j% W& A( i% _
    用于設(shè)備端人工智能的AiM和AiMX
    $ {# b& {% T4 N7 f. N認識到設(shè)備端人工智能的日益重要性,SK hynix將AiM技術(shù)適配用于移動和邊緣應用。LPDDR-AiM旨在滿足設(shè)備端人工智能的獨特挑戰(zhàn),包括形態(tài)因素限制、低批量大小和能效要求。* h/ A5 ~0 d. v9 ^5 h6 i# N4 [5 V

    9 L4 ]/ P+ t5 h' ?6 XLPDDR-AiM規(guī)格(每個芯片):8 v' P" J7 \. a) z, @
  • 內(nèi)存密度:1-2 GB
  • 組織結(jié)構(gòu):X16
  • IO數(shù)據(jù)率:9.6
  • 外部帶寬:19.2 GB/s
  • 數(shù)值精度:INT4/8
  • 處理單元:16 PU/芯片
  • 計算吞吐量:307.2 GOPS
  • 內(nèi)部帶寬:153.6 GB/s2 S; \9 _- c8 |5 {% t" n9 i
    ( H* I5 N2 `9 e5 \6 d

    : v; H( X+ a( K, v
    + p4 [# C' Q# L& O- d圖6:展示了LPDDR-AiM的規(guī)格,并強調(diào)了其與現(xiàn)有LPDDR協(xié)議的兼容性。
    + E% H- O; k/ d2 s2 n' L
    ; _, u) ?% m" ]8 u- m0 |用于設(shè)備端人工智能的AiMX系統(tǒng)架構(gòu)2 Z9 w  N, {# Y/ `$ `
    設(shè)備端AiMX系統(tǒng)架構(gòu)與其數(shù)據(jù)中心對應物相似,但已適配移動平臺。這種設(shè)計允許與移動應用處理器或客戶端CPU無縫集成。# I3 f, g5 @3 R. C6 q; k8 N$ a

    6 b8 x8 @( I0 @* v+ ? , A+ |& o' J  l
    圖7:比較了數(shù)據(jù)中心和設(shè)備端人工智能應用的AiMX系統(tǒng)架構(gòu),說明了相似之處和為移動使用所做的調(diào)整。2 g' f  e) K! w4 g# _, ~2 P

    ) n2 a* h# N3 F+ O  w$ v. a0 @

    0 ]4 {; V- d  }9 e3 I未來設(shè)計考慮/ d+ C" Q, L) e3 S% r4 O! b* U
    隨著SK hynix繼續(xù)發(fā)展AiM和AiMX技術(shù),正在探索幾個設(shè)計選擇:
    2 P1 o' X( p: D. x- ~) m4 \: f" f) H3 g# o" d8 s0 @2 H. f
    1. AiM功能7 P) {3 C3 k# A0 D5 B
    從GEMV擴展到包括GEMM和其他操作
    ) b* \3 q6 D" l6 B: W支持各種精度(二進制、整數(shù)、浮點、BF、MX)2 ]. H  F* U- m
    探索異構(gòu)精度能力2 h* e2 N6 J$ l' O( f% c. `
    / j/ F1 B! H% T* ]$ M3 }+ T  K
    2. SoC優(yōu)化9 E* V' h% M4 u: r
    平衡功率和熱約束# z3 J! g0 t5 v- m
    改善MAC到MAC延遲
    # c7 ~7 T) ~& h) ]7 l6 P) S# y優(yōu)化存儲體到MAC比率9 A0 i; [- Q, h
    實施動態(tài)電源供應策略
    8 P- N: F' Z& F1 }3 s3 X/ J2 S! @% J/ Q- q" R
    3. 軟件增強
    9 r4 _; r9 K" y! C5 U9 t" z' H開發(fā)PIM感知內(nèi)存管理技術(shù)
    $ w+ n5 F6 f1 G& A& S. T4 d" e實現(xiàn)大頁面大小以高效放置權(quán)重數(shù)據(jù)
    * u& P+ a& P' L  V. q/ A創(chuàng)建PIM感知內(nèi)存交換策略7 D5 ~! O7 u# O
    : X  z2 r3 |  }+ f# C% G! D1 v

    # c1 U  m+ U* [- \9 A圖8:概述了未來AiM實現(xiàn)的各種設(shè)計選擇,聚焦于功能、精度和潛在應用。
    4 G9 W- l' ^/ Z+ U. d9 H! O) D+ [+ L' W6 b# K* j+ D
    結(jié)論和未來展望
    9 j1 k7 `; x+ b4 m6 }SK hynix的AiM和AiMX解決方案在解決內(nèi)存受限人工智能工作負載的挑戰(zhàn)方面代表了重大進步。從數(shù)據(jù)中心到移動設(shè)備,這些技術(shù)有望提高性能,降低能源消耗,實現(xiàn)更高效的人工智能推理。! E4 `% Y$ j3 J" \. l
    * i+ ~0 W& Y* z( r
    AiM和AiMX的發(fā)展路線圖雄心勃勃,計劃為數(shù)據(jù)中心提供高容量解決方案,實現(xiàn)設(shè)備端人工智能,并探索先進封裝技術(shù)如混合鍵合。隨著這些技術(shù)的成熟,有潛力重塑人工智能加速的格局,使先進的人工智能應用更易獲得和更具可持續(xù)性。* @) O! l9 X; {9 ?# \5 A7 C

    : b+ e4 r1 C4 w . Y! J8 @% M( J% W3 r- j3 Z1 t. z; M
    圖9:展示了SK hynix的AiM和AiMX技術(shù)路線圖,展示了從芯片級解決方案到系統(tǒng)級實現(xiàn)和未來創(chuàng)新的演變。# u$ k' b' |4 ^. N5 c& q0 }) N
    3 Q3 R+ z! {6 `* V- L2 _7 ?% O
    隨著人工智能繼續(xù)滲透到我們數(shù)字生活的各個方面,像AiM和AiMX這樣的解決方案將在實現(xiàn)更強大、高效和普遍的人工智能應用中發(fā)揮關(guān)鍵作用。研究人員、開發(fā)人員和硬件工程師應密切關(guān)注這些新興技術(shù),并考慮如何利用這些技術(shù)來推動人工智能的可能性邊界。1 E2 s# c6 D; G5 B0 g' _

    ' h: N# \! {6 {) K3 B* Y2 t參考文獻
    3 c/ }* Q  |. h[1]G. Kim et al."SK hynix AI-Specific Computing Memory Solution: From AiM device to Heterogeneous AiMX-xPU System for Comprehensive LLM Inference," in Hot Chips 2024.
    ) y6 R) T  u9 ?' I2 t, i+ H( y1 K# X9 Q3 G6 }, u  s
    - END -
    - g! V6 m: {( K7 a" E) f( g
    - f5 N9 N1 p7 Q; t- o6 P8 ^軟件申請我們歡迎化合物/硅基光電子芯片的研究人員和工程師申請體驗免費版PIC Studio軟件。無論是研究還是商業(yè)應用,PIC Studio都可提升您的工作效能。
    6 {' k. E! \1 U0 v3 V6 U* o點擊左下角"閱讀原文"馬上申請
    + P* R# _1 R0 @  a# w1 G; h' w- A' ^- k" P+ Y
    歡迎轉(zhuǎn)載
    . G8 F9 d  ~1 |) ]
    ) L) B7 o' A- p; |! K轉(zhuǎn)載請注明出處,請勿修改內(nèi)容和刪除作者信息!! }3 q: V: @  f1 c8 m5 R: |9 J

    ; ?1 {2 _; t0 N# y+ l
    + }$ u) e' b* B  W- p9 |
    6 R. }: e* z; m8 l

    + I* w4 a& j( P  D
    - [' O9 t5 Z  @! A  [8 c關(guān)注我們* ]0 ?0 A7 D" {6 x' c8 s/ L

    4 o* {$ S/ t6 [, `) q9 d4 K
    0 P( n9 V  c4 ?$ f- ]+ D0 i5 L; b

    6 v/ s; @  e4 I+ W

    " A/ b, H* h) w9 ^- u
    9 N) K3 A- l+ N

    9 r; @$ B4 f9 o, \3 l; A* O
      P9 r4 c! S3 P
                         
    / g5 m) V+ R+ k) J& C# |
    , D" m, Z  n, n1 _
    ! t; @# x( x+ ]5 Z
    * l: f# A1 }" M6 r3 ]* s
    關(guān)于我們:9 p0 }  o0 x, v1 h3 N/ H
    深圳逍遙科技有限公司(Latitude Design Automation Inc.)是一家專注于半導體芯片設(shè)計自動化(EDA)的高科技軟件公司。我們自主開發(fā)特色工藝芯片設(shè)計和仿真軟件,提供成熟的設(shè)計解決方案如PIC Studio、MEMS Studio和Meta Studio,分別針對光電芯片、微機電系統(tǒng)、超透鏡的設(shè)計與仿真。我們提供特色工藝的半導體芯片集成電路版圖、IP和PDK工程服務,廣泛服務于光通訊、光計算、光量子通信和微納光子器件領(lǐng)域的頭部客戶。逍遙科技與國內(nèi)外晶圓代工廠及硅光/MEMS中試線合作,推動特色工藝半導體產(chǎn)業(yè)鏈發(fā)展,致力于為客戶提供前沿技術(shù)與服務。) w6 c8 r% L+ q" \
    ) _5 u5 C! V+ p; {
    http://www.latitudeda.com/
    9 j7 K5 k" u& X- j(點擊上方名片關(guān)注我們,發(fā)現(xiàn)更多精彩內(nèi)容)
  • 回復

    使用道具 舉報

    發(fā)表回復

    您需要登錄后才可以回帖 登錄 | 立即注冊

    本版積分規(guī)則

    關(guān)閉

    站長推薦上一條 /1 下一條


    聯(lián)系客服 關(guān)注微信 下載APP 返回頂部 返回列表