|
引言
8 j, h6 \& M' U$ [; Q6 s, T隨著硅晶體管縮放接近極限,研究人員正在探索新技術(shù)以繼續(xù)提高處理器性能和效率。有前途的方向是使用片上光學網(wǎng)絡(luò)(也稱為光學片上網(wǎng)絡(luò)或光學NoC)來替代傳統(tǒng)的電氣互連。與電氣網(wǎng)絡(luò)相比,光學NoC在帶寬、延遲和功耗方面具有潛在優(yōu)勢。然而,有效管理光學NoC的功耗帶來了新的挑戰(zhàn)[1]。+ E- j3 m$ f% |- s7 I7 n* f6 }, |
5 { E! b% R4 {# v4 G9 Q% s: O本文將探討用于最小化光學NoC靜態(tài)功耗的激光調(diào)制方案。我們將介紹基于網(wǎng)絡(luò)活動動態(tài)調(diào)制激光功率的關(guān)鍵概念、架構(gòu)和預測技術(shù)。" Y7 g7 x7 `7 i m" ^4 E! O& `
6 W2 I: s% V$ m( [4 h, q: D
1 u( r. D' p: y) |! y& z, B+ {背景2 b+ L: u) Z3 _' f& |
光學NoC使用光來傳輸芯片上組件之間的數(shù)據(jù);緲(gòu)建模塊包括:
: S: w/ K7 C: X激光器:光源,可以是片外或片上調(diào)制器:將電信號轉(zhuǎn)換為光信號波導:在芯片上引導光光電探測器:將光信號轉(zhuǎn)換回電信號
/ Z( x+ G- N$ {7 o# k) J1 B, n8 N& _% M1 s
光傳輸本身非常高效,但產(chǎn)生光的激光器消耗大量功率。一個關(guān)鍵挑戰(zhàn)是光子不能像電荷那樣容易存儲。這意味著激光器通常需要持續(xù)供電,即使不主動傳輸數(shù)據(jù)時也是如此。這種靜態(tài)功耗可能占光學NoC總功耗的80-90%。4 G* @' t# [5 j( I
7 C/ |, I% O! ~6 x為解決這個問題,研究人員開發(fā)了激光調(diào)制方案,旨在根據(jù)預測的網(wǎng)絡(luò)活動動態(tài)調(diào)整激光功率。一般方法包括:* Z/ l) O( m( n* L! I5 d
監(jiān)控網(wǎng)絡(luò)活動指標預測未來活動相應調(diào)整激光功率重新配置網(wǎng)絡(luò): h! h8 }. w% w) n) w9 A3 o
5 {/ @2 Z' H# E: ~1 C9 c讓我們看看為不同類型處理器提出的一些具體方案。
% B) |! Y8 n8 u8 N h2 d/ r- N G8 e- p z8 e
多核CPU設(shè)計中的激光調(diào)制方案
7 ]( h: h. H% ]/ w6 ]2 B4 c- CProbe8 c+ H" r) _; d* B
最早提出的激光調(diào)制方案之一是Probe。使用64核架構(gòu),核心分組為4x4塊。每個塊都有專用的片外激光器,可以使用單寫多讀(SWMR)總線廣播消息。
7 c# ?% ?. j) B% |( y7 w% Q6 v3 S% n( S
Probe根據(jù)鏈路利用率和緩沖區(qū)利用率指標預測未來活動。使用兩種類型的預測器:用于低流量變化:過去和當前利用率的加權(quán)平均用于高變化:由利用率水平索引的模式歷史表
3 G& D0 ?8 j- {[/ol]/ y, Q( _% I# F) e' e% X# F$ T: _8 Z
錦標賽預測器根據(jù)最近的準確性在兩者之間選擇。
t& G* `6 w2 I3 a8 a. q& O- t/ Z4 e, [2 [, l
ColdBus
6 u2 t( O7 u$ p& F1 qColdBus采用不同的方法,基于L1緩存未命中預測活動。關(guān)鍵洞察是在共享內(nèi)存系統(tǒng)中,大部分網(wǎng)絡(luò)流量來自L1未命中。# W/ ?; Q8 D$ u% ~$ {( E
* Q$ W/ F& L4 z: _8 U' x使用類似于分支預測器的基于PC的預測器來識別可能導致未命中的指令。然后,一個時期預測器估計這些未命中何時發(fā)生。
. a8 Z9 Q2 c3 ]8 i4 `9 p
# V7 A" Z* W' ~/ }2 wColdBus還引入了一個"額外波導",為需要的站點提供應急功率。 U/ a# X" x) r d- b5 m
! x5 a0 _$ R- {
PShaRe
+ h% }/ @- J, D! m. DPShaRe在之前工作的基礎(chǔ)上有幾個關(guān)鍵創(chuàng)新:一致性和非一致性流量的獨立網(wǎng)絡(luò)基于神經(jīng)網(wǎng)絡(luò)的非線性預測器站點之間的功率共享重用浪費的光功率進行熱調(diào)諧% e. k4 @5 E% I5 {* D+ I6 D( t
[/ol]( G0 o$ z- l( C
圖1顯示了整體架構(gòu):
6 s. v- r3 T u& N8 e! P- s# q |% z7 _
srqgc3eexiq64021065016.png (157.24 KB, 下載次數(shù): 1)
下載附件
保存到相冊
srqgc3eexiq64021065016.png
2024-9-19 13:40 上傳
]3 e3 t" q$ B( j: V/ o圖1:PShaRe架構(gòu),顯示連接光學站點的功率和數(shù)據(jù)波導。 d2 H p( D$ w+ I" |* }9 F& L
7 c% u% W. @5 F& X2 \1 Z神經(jīng)網(wǎng)絡(luò)預測器使用14個性能計數(shù)器輸入,對每個站點在下一個時期的活動進行二元預測。
' M! c0 {, k# `* Y
& { ^+ n! r7 ~BigBus
. D2 p# v% l' y對于非常大的核心數(shù)(500+),需要像BigBus這樣的設(shè)計。BigBus使用分層架構(gòu),將塊簇組成更大的單元。
$ H$ o3 x9 Q0 \/ L u4 Q
% n8 [4 n8 Q0 N) W3 Q: ?) u1 i圖2說明了BigBus設(shè)計:* b' \8 s" C' q
" Y' d; ~7 X+ S8 p. f
3ru5uphwiop64021065116.png (216.89 KB, 下載次數(shù): 1)
下載附件
保存到相冊
3ru5uphwiop64021065116.png
2024-9-19 13:40 上傳
# p$ L1 V; [: b: r: ^& `
圖2:BigBus架構(gòu),顯示由蛇形光鏈路連接的核心和緩存庫的分層組織。
4 K8 |6 r+ u9 a Z
; W1 l* h; U4 l% t+ A: o! ]BigBus使用兩階段預測過程:每個站點根據(jù)等待時間和待處理事件決定是否增加/減少令牌激光控制器將當前預測與歷史數(shù)據(jù)結(jié)合
. \, g7 r7 a) Q' f ?' s4 ~[/ol]2 D1 ^/ e$ |4 ^8 F* B9 I; h) R
這允許在當前條件的響應性和穩(wěn)定性之間取得平衡。
- |; }: B8 u3 G; h" x( Q$ c* c1 [% u: y1 j I: u0 m( H6 P( e
/ M6 S4 p5 o$ P T% c
多插槽系統(tǒng)(MULTI-SOCKET SYSTEMS)中的激光調(diào)制方案
: d, ]5 A; e Z6 h' T0 P, t9 @8 ^對于像服務(wù)器這樣的多芯片系統(tǒng),像Nuplet這樣的設(shè)計將光網(wǎng)絡(luò)擴展到插槽之間。Nuplet同時使用片內(nèi)和片間光網(wǎng)絡(luò)。# ^3 h: G! w' h) \' H5 {
& y' [: \) C% ~" H! N2 G片間預測機制旨在確定要流通的仲裁令牌數(shù)量。它考慮:發(fā)送到片間光學站(ICOS)的消息ICOS隊列中的待處理事件6 i# Y( I. R& b3 m8 R
[/ol]
& x s5 l' k4 h" c0 U功率請求表(PRT)存儲歷史令牌計數(shù)。預測將PRT值與當前流量趨勢和隊列狀態(tài)結(jié)合。" X: a3 ]' E( M% W6 }: Z( r
# X$ |: m( R. Y/ K- }3 c
GPU設(shè)計中的激光調(diào)制方案% r! P$ R) {) x# P
由于GPU側(cè)重于內(nèi)存帶寬而非延遲,因此帶來了獨特的挑戰(zhàn)。GPUOpt設(shè)計將光學NoC適配于GPU架構(gòu)。
$ T/ o" |5 x6 K+ f' e; E8 P
+ s) S i2 M* D7 E6 H2 l圖3顯示了GPUOpt的整體架構(gòu):
# \( M, c! J, d# t- i
# A' C7 ?9 g5 m7 g( G
mkq4dnaq3ip64021065217.png (198.05 KB, 下載次數(shù): 2)
下載附件
保存到相冊
mkq4dnaq3ip64021065217.png
2024-9-19 13:40 上傳
: e- }; D8 J# M; F# L. D圖3:GPU光學NoC的架構(gòu),顯示由光網(wǎng)絡(luò)連接的SM和LLC集群。
! }* p" @2 }# h% g% ]& H. O3 Z9 Y" t, U
GPUOpt對流式多處理器(SM)站點和最后級緩存(LLC)站點使用不同的預測機制:
/ v; h# Q* W; M1 |- s( R- u0 V1. SM站點使用基于以下因素的受限預測器(Restr_Pred):3 |* h! P: N9 ^. D% N+ L
接收的消息發(fā)送的消息等待時間( Q8 h% \4 i* r( b/ S
* q# R0 N3 Y. V* R3 {; l
2. LLC站點使用考慮以下因素的靈活預測器(Flex_Pred):
% h- ?- m, q+ D6 q+ ^接收的消息發(fā)送的消息待處理事件0 E, q/ W2 t4 Z: X
! a# a+ K* e1 [
激光控制器將這些預測結(jié)合起來,確定整體功率需求。
; _) N/ t; q2 F' K, F$ ^. b9 \; R; E6 p2 B; ?
7 l2 m3 R, ?5 U. m" v/ ?. D
關(guān)鍵概念和趨勢7 d" I: u: c1 z2 E, P- H& C" o
雖然具體方案各不相同,但一些共同主題和最佳實踐浮現(xiàn)出來:5 M% x! `: k7 p, N; b
' F. l8 N, P1 V @6 o1.將時間劃分為固定時期進行預測和重新配置
" g! b$ _3 w) U/ a6 G5 k9 V$ R* q2. 使用多個輸入指標:- ?* H+ V/ n% T" @0 f2 u: D1 A) G
網(wǎng)絡(luò)利用率緩沖區(qū)占用率緩存未命中率指令類型待處理事件" X0 X" \" R9 d6 G( [9 ?
3. 將當前指標與歷史數(shù)據(jù)結(jié)合 U- O" G$ z/ \( C
4. 使用非線性預測函數(shù)(如神經(jīng)網(wǎng)絡(luò))捕捉復雜關(guān)系
: q; j* J( _5 Y5. 對不同流量類型進行單獨預測(如一致性與非一致性)& M2 D# _/ s0 a( a
6. 分層設(shè)計以實現(xiàn)可擴展性! [1 m. V- ?0 Y* Z# U0 |
7. 盡可能重用未使用的光功率5 d: T1 K9 Q8 v$ W% o$ u6 g
8. 為特定架構(gòu)經(jīng)驗性地調(diào)整預測參數(shù)
% `: V W* `* e% E$ H m
& ` y s) {& ]圖4說明了有效激光調(diào)制可能帶來的功率節(jié)。. _/ e3 E, E8 }2 Y7 x
, l' I7 Z7 D( @- y# D* e8 c
c4ryd1jrep564021065317.png (100.12 KB, 下載次數(shù): 1)
下載附件
保存到相冊
c4ryd1jrep564021065317.png
2024-9-19 13:40 上傳
, B7 g; M% u1 j9 ^- J. [# y5 t( [圖4:ideal、Probe和ColdBus方案在各種基準測試中的相對激光功耗。
$ U& ~% E6 F' z4 J( m3 \3 \, o) I3 |- ?2 f3 A6 v
: ]/ X" n& E. b1 F7 [# e; b
未來方向
! f* H0 y8 m! S4 d, ]( o+ ^隨著光學NoC從研究轉(zhuǎn)向?qū)嶋H實施,可以期待這些技術(shù)的進一步完善。方向包括:
7 h0 @. {( p, O) y* `9 M用于更準確預測的機器學習技術(shù)與應用層知識的集成在運行時調(diào)整參數(shù)的自適應方案考慮電氣和光網(wǎng)絡(luò)的整體優(yōu)化針對新興工作負載(如AI加速)的專門化
5 S, e; Q: {( n0 K6 U7 Y6 w0 F7 ?# r( ]1 Z: q4 W! h
/ a! l g- R( F+ ]3 X' Y G0 m結(jié)論
% U" S; n" _6 e3 Z* ], b+ q. }有效的激光調(diào)制對實現(xiàn)光學片上網(wǎng)絡(luò)的潛在優(yōu)勢非常重要。通過準確預測網(wǎng)絡(luò)活動并相應調(diào)整激光功率,可以在保持性能的同時最小化靜態(tài)功耗。隨著處理器架構(gòu)繼續(xù)發(fā)展,激光調(diào)制方案需要適應新的設(shè)計約束和流量模式。該領(lǐng)域的持續(xù)研究有望為未來計算系統(tǒng)解鎖新的能效水平。
* z8 B6 a3 X4 t! {) T1 K7 U/ Y# u9 _6 ` @+ ` p! F; t
* O% m) O8 P$ ?- f參考文獻# T$ [- Y# J1 x' M4 v* P+ R
[1] M. Nikdast, S. Pasricha, G. Nicolescu, and A. Seyedi, Eds., Silicon Photonics for High-Performance Computing and Beyond, 1st ed. Boca Raton, FL, USA: CRC Press, 2021.
9 y" E; ?# B b8 K2 O g1 C
5 e& A7 O1 U. ~- END -2 z, c7 Z# v' N
+ e) n) b& I, V% n8 t2 L
軟件申請我們歡迎化合物/硅基光電子芯片的研究人員和工程師申請體驗免費版PIC Studio軟件。無論是研究還是商業(yè)應用,PIC Studio都可提升您的工作效能。1 Q/ e1 g' A2 y" ^1 T
點擊左下角"閱讀原文"馬上申請; `) n# }$ ]$ M. o3 Y
0 A* u7 N) Z0 t9 Z/ i) k歡迎轉(zhuǎn)載5 C5 h Q1 P! Y# j# q; L
% ]' \5 K- k$ i9 u# [轉(zhuǎn)載請注明出處,請勿修改內(nèi)容和刪除作者信息!3 j7 _6 z9 K d: p
+ y9 z) ]& Q* ^& q5 y) N
3 Q2 l* Z5 t2 `2 V* Q& v L. ]8 \# a7 ^+ R1 o! s; X
0xpbhnxw1i464021065417.gif (16.04 KB, 下載次數(shù): 2)
下載附件
保存到相冊
0xpbhnxw1i464021065417.gif
2024-9-19 13:40 上傳
3 I" E/ |/ N1 N @2 w$ t M2 [! [. G) N) V
關(guān)注我們
- {# f( J2 @4 ]6 Z
! ^& q6 a# @6 L$ n; L/ U- g. m& }( r" ]1 S6 F+ s
52hg30m1xdu64021065517.png (31.33 KB, 下載次數(shù): 2)
下載附件
保存到相冊
52hg30m1xdu64021065517.png
2024-9-19 13:40 上傳
" [+ m6 C- \9 e2 a6 R |
( ]! ~( Z9 X9 h% {
nn4ow0j30tq64021065617.png (82.79 KB, 下載次數(shù): 1)
下載附件
保存到相冊
nn4ow0j30tq64021065617.png
2024-9-19 13:40 上傳
/ u' J: T( \% e) I: p0 k* s. o
| $ u& E/ V, L( B% }; j) _
24dgnjrfrph64021065717.png (21.52 KB, 下載次數(shù): 4)
下載附件
保存到相冊
24dgnjrfrph64021065717.png
2024-9-19 13:40 上傳
2 P( g, m1 \$ e- i; @1 L$ t. M5 x
|
, f5 z* V2 F N4 Q% D5 f+ N+ P0 ^: W7 A. G- f" A
( A% j& T3 |: i7 C! ?! z( z/ a$ a7 k, a! t2 b
關(guān)于我們:
/ p3 {1 @' w: Y" D/ R/ b ~: J5 f深圳逍遙科技有限公司(Latitude Design Automation Inc.)是一家專注于半導體芯片設(shè)計自動化(EDA)的高科技軟件公司。我們自主開發(fā)特色工藝芯片設(shè)計和仿真軟件,提供成熟的設(shè)計解決方案如PIC Studio、MEMS Studio和Meta Studio,分別針對光電芯片、微機電系統(tǒng)、超透鏡的設(shè)計與仿真。我們提供特色工藝的半導體芯片集成電路版圖、IP和PDK工程服務(wù),廣泛服務(wù)于光通訊、光計算、光量子通信和微納光子器件領(lǐng)域的頭部客戶。逍遙科技與國內(nèi)外晶圓代工廠及硅光/MEMS中試線合作,推動特色工藝半導體產(chǎn)業(yè)鏈發(fā)展,致力于為客戶提供前沿技術(shù)與服務(wù)。" j: n. u5 N/ h
1 n* P g- k7 y' X x* phttp://www.latitudeda.com/
1 U, b6 i3 g" a& d) a; _(點擊上方名片關(guān)注我們,發(fā)現(xiàn)更多精彩內(nèi)容) |
|