|
引言3 w- N2 O, D8 D8 Z `$ @$ F% r( g8 U
隨著硅晶體管縮放接近極限,研究人員正在探索新技術以繼續(xù)提高處理器性能和效率。有前途的方向是使用片上光學網(wǎng)絡(也稱為光學片上網(wǎng)絡或光學NoC)來替代傳統(tǒng)的電氣互連。與電氣網(wǎng)絡相比,光學NoC在帶寬、延遲和功耗方面具有潛在優(yōu)勢。然而,有效管理光學NoC的功耗帶來了新的挑戰(zhàn)[1]。) q; ~4 ^3 y3 R" Q7 I7 Z0 ]# P# ^- @ ^
/ g' W& q4 l7 a2 }
本文將探討用于最小化光學NoC靜態(tài)功耗的激光調制方案。我們將介紹基于網(wǎng)絡活動動態(tài)調制激光功率的關鍵概念、架構和預測技術。. m5 E, m+ Z" c9 A# [" R; r& W
- R5 k+ }) d4 H g- |& {( u
7 R$ d8 w: y: M) ^
背景
$ X$ s7 a6 {. ^4 \& x! D2 m光學NoC使用光來傳輸芯片上組件之間的數(shù)據(jù);緲嫿K包括:
$ _% D* ~3 ^2 a/ w2 K2 P" `激光器:光源,可以是片外或片上調制器:將電信號轉換為光信號波導:在芯片上引導光光電探測器:將光信號轉換回電信號
5 |4 B. a( m" u& R( I7 u8 ?; k" Y- H' X
光傳輸本身非常高效,但產(chǎn)生光的激光器消耗大量功率。一個關鍵挑戰(zhàn)是光子不能像電荷那樣容易存儲。這意味著激光器通常需要持續(xù)供電,即使不主動傳輸數(shù)據(jù)時也是如此。這種靜態(tài)功耗可能占光學NoC總功耗的80-90%。
& s5 ?. D6 O7 [% v$ {4 i% O# T Z5 h% e' `" j9 V% |; M/ u* B
為解決這個問題,研究人員開發(fā)了激光調制方案,旨在根據(jù)預測的網(wǎng)絡活動動態(tài)調整激光功率。一般方法包括:
, T/ C8 Q( |1 D- S+ Q. F6 y8 k: N$ v3 O監(jiān)控網(wǎng)絡活動指標預測未來活動相應調整激光功率重新配置網(wǎng)絡
/ \$ S/ s" ^1 g% g. H
, y; z3 l6 Q" u2 K8 g: @讓我們看看為不同類型處理器提出的一些具體方案。
8 b# Y8 V4 F7 ^( X" i8 x1 L& d5 D4 O, z
多核CPU設計中的激光調制方案+ A, c" B& z V1 Q, I) B6 [) Y
Probe0 H/ B' F4 z8 q% r
最早提出的激光調制方案之一是Probe。使用64核架構,核心分組為4x4塊。每個塊都有專用的片外激光器,可以使用單寫多讀(SWMR)總線廣播消息。1 M1 M" T% D+ }
) \3 I( f" _. u
Probe根據(jù)鏈路利用率和緩沖區(qū)利用率指標預測未來活動。使用兩種類型的預測器:用于低流量變化:過去和當前利用率的加權平均用于高變化:由利用率水平索引的模式歷史表+ Z( s9 w; V$ H+ S& X# H+ D; U0 z
[/ol]
* i% G& E0 A7 h9 G錦標賽預測器根據(jù)最近的準確性在兩者之間選擇。
* _# v1 D) _$ n: O- Z! j* \. D7 c5 N$ }2 N2 e t
ColdBus) q1 V8 @7 o- l
ColdBus采用不同的方法,基于L1緩存未命中預測活動。關鍵洞察是在共享內(nèi)存系統(tǒng)中,大部分網(wǎng)絡流量來自L1未命中。
1 {% f# g! v5 e- Z4 [0 _/ W5 h6 E. u( d' r2 @5 c: D( j( o2 H
使用類似于分支預測器的基于PC的預測器來識別可能導致未命中的指令。然后,一個時期預測器估計這些未命中何時發(fā)生。
, h0 O, I3 W. L ~
3 Y( o" K% z2 Q9 d5 M' bColdBus還引入了一個"額外波導",為需要的站點提供應急功率。
* m ~+ j6 ]8 ~3 g* N) q$ y5 s& p! V2 L% a1 R6 J2 v) A9 h% q
PShaRe+ @# o9 F9 K6 q7 u' \8 d @" e1 g
PShaRe在之前工作的基礎上有幾個關鍵創(chuàng)新:一致性和非一致性流量的獨立網(wǎng)絡基于神經(jīng)網(wǎng)絡的非線性預測器站點之間的功率共享重用浪費的光功率進行熱調諧
7 r) x# e" k* c) C8 t% q[/ol]
7 d& W% }5 |5 z/ O, h1 d' z/ w) y圖1顯示了整體架構:7 o! X2 `/ h6 ^: g
* i. Z/ V5 l9 o0 k, i- A
v0i132opydn64034878813.png (157.24 KB, 下載次數(shù): 2)
下載附件
保存到相冊
v0i132opydn64034878813.png
2024-9-22 01:17 上傳
- B1 }/ J3 g8 X* [
圖1:PShaRe架構,顯示連接光學站點的功率和數(shù)據(jù)波導。
1 R8 b/ F2 t1 h3 \; E) |2 F0 }3 y8 d9 A
神經(jīng)網(wǎng)絡預測器使用14個性能計數(shù)器輸入,對每個站點在下一個時期的活動進行二元預測。
6 Q! r3 x' p) ?4 I( Z& L& U; O4 n( t$ }% b) z
BigBus
) E+ P# t6 j% n9 o9 E3 l5 }' C6 K5 J對于非常大的核心數(shù)(500+),需要像BigBus這樣的設計。BigBus使用分層架構,將塊簇組成更大的單元。
4 j: s; r) o0 o) N( C9 J. O
, L3 P# G. k6 s1 V; o) D圖2說明了BigBus設計:
5 A& H! e$ A) t' e6 E. Q: s9 ] i. U
2lsssyofp4g64034878913.png (216.89 KB, 下載次數(shù): 4)
下載附件
保存到相冊
2lsssyofp4g64034878913.png
2024-9-22 01:17 上傳
' J# M& r+ F/ x5 B- q
圖2:BigBus架構,顯示由蛇形光鏈路連接的核心和緩存庫的分層組織。2 b% |2 j8 w( M, n7 E* Q
: E6 q7 X7 ^. t- [
BigBus使用兩階段預測過程:每個站點根據(jù)等待時間和待處理事件決定是否增加/減少令牌激光控制器將當前預測與歷史數(shù)據(jù)結合
1 g5 }+ ~! O7 I* X% z[/ol]5 u' {& y& U. I; D6 r* G" ]) S$ c
這允許在當前條件的響應性和穩(wěn)定性之間取得平衡。0 d" |9 l& O2 g2 M' K5 d `+ d) m
! t1 Z! p% W' W" M2 V
y+ v& @, \7 k
多插槽系統(tǒng)(MULTI-SOCKET SYSTEMS)中的激光調制方案
3 |' r1 W5 \0 g+ Q; k對于像服務器這樣的多芯片系統(tǒng),像Nuplet這樣的設計將光網(wǎng)絡擴展到插槽之間。Nuplet同時使用片內(nèi)和片間光網(wǎng)絡。# R S; Q1 ^; S+ }
' ^$ W R. m; k! {片間預測機制旨在確定要流通的仲裁令牌數(shù)量。它考慮:發(fā)送到片間光學站(ICOS)的消息ICOS隊列中的待處理事件7 F+ H i% E: q3 P7 r# ?5 i) Z* x1 a+ j
[/ol]
! f l# A1 C/ g, h( ~功率請求表(PRT)存儲歷史令牌計數(shù)。預測將PRT值與當前流量趨勢和隊列狀態(tài)結合。' G A7 o3 I: L, Q8 H) K
4 N) L1 |* p/ p7 m2 _2 |& G: ZGPU設計中的激光調制方案. r0 M: x5 F+ n* q) g! s
由于GPU側重于內(nèi)存帶寬而非延遲,因此帶來了獨特的挑戰(zhàn)。GPUOpt設計將光學NoC適配于GPU架構。
- r7 B/ u- L4 p" X; ^7 U1 t5 N) |1 K E5 r1 }* B7 a
圖3顯示了GPUOpt的整體架構:' {& {- F( w: E2 K/ P: L
6 q5 [" P+ K" w/ ^3 A! e- L
m5tbfrm3byw64034879013.png (198.05 KB, 下載次數(shù): 2)
下載附件
保存到相冊
m5tbfrm3byw64034879013.png
2024-9-22 01:17 上傳
; m0 Y8 g% C: X/ g, }0 O+ Y. {
圖3:GPU光學NoC的架構,顯示由光網(wǎng)絡連接的SM和LLC集群。5 X9 ]' Q2 n& Z* ~4 l2 I7 p, s
; `3 c, Q) c9 r# a; v9 m0 z9 L2 n
GPUOpt對流式多處理器(SM)站點和最后級緩存(LLC)站點使用不同的預測機制:7 ]0 T/ _: o# N: d$ b: _; W+ t" u
1. SM站點使用基于以下因素的受限預測器(Restr_Pred):. E/ H. Z6 f! e" }. E$ i% ~2 V" |
接收的消息發(fā)送的消息等待時間2 m) l- ]$ ?" F. z: g7 p) m* O) Y
, P6 B$ e ^+ Q5 O1 w- Q0 [! G2. LLC站點使用考慮以下因素的靈活預測器(Flex_Pred):+ V! A( {3 a9 T \- d% {: Y' P
接收的消息發(fā)送的消息待處理事件
B3 [# m' }- j+ X! @. K7 E
' a% {( X& n% {; a! R0 n! ]; ?$ x5 R激光控制器將這些預測結合起來,確定整體功率需求。
5 t9 ^0 X& R, A! l0 Q, z9 T- i* W8 Z* G" i" x4 P J
2 z5 E) R4 H% q: W! g1 J6 o* y
關鍵概念和趨勢
' G6 F5 @5 b, z9 k雖然具體方案各不相同,但一些共同主題和最佳實踐浮現(xiàn)出來:
' u' U7 Y9 p S6 B. R6 g/ p; W8 t! q& q: _3 u0 C) K7 X9 H
1.將時間劃分為固定時期進行預測和重新配置
# Z: B% ?1 o$ K3 A h# S W2. 使用多個輸入指標:
2 y R/ O( w L5 v" l網(wǎng)絡利用率緩沖區(qū)占用率緩存未命中率指令類型待處理事件
! a9 c: `+ ~2 V! c3. 將當前指標與歷史數(shù)據(jù)結合7 _0 p3 m* d- t) ?
4. 使用非線性預測函數(shù)(如神經(jīng)網(wǎng)絡)捕捉復雜關系1 E+ d/ T# f5 J
5. 對不同流量類型進行單獨預測(如一致性與非一致性)7 x! v4 T$ z! j& A
6. 分層設計以實現(xiàn)可擴展性
9 D% [* H' Y- w) s* U9 c' q- {7. 盡可能重用未使用的光功率# Q5 v& r) T2 d# P- e1 i3 D* h
8. 為特定架構經(jīng)驗性地調整預測參數(shù)
5 D2 X6 q+ [* I2 v8 e, b0 I$ i+ E$ |! C
圖4說明了有效激光調制可能帶來的功率節(jié)。3 I2 k4 |; j3 M! z3 O( Y w
# l; B6 C b: Q$ I. A/ |* V
om02xkr3dhc64034879113.png (100.12 KB, 下載次數(shù): 3)
下載附件
保存到相冊
om02xkr3dhc64034879113.png
2024-9-22 01:17 上傳
/ ~! b; E6 p U& k% j
圖4:ideal、Probe和ColdBus方案在各種基準測試中的相對激光功耗。7 E* k# Z% w7 i" ~* p3 u
% W2 r/ A7 u) R, O+ y. j, `' V% F* Q3 ?% x6 v+ T: I; G# s
未來方向; k" O1 ^# Q1 {
隨著光學NoC從研究轉向實際實施,可以期待這些技術的進一步完善。方向包括:5 |* f1 M) w% \7 Q) {0 n
用于更準確預測的機器學習技術與應用層知識的集成在運行時調整參數(shù)的自適應方案考慮電氣和光網(wǎng)絡的整體優(yōu)化針對新興工作負載(如AI加速)的專門化 R8 G. k% t7 f( m- N8 x
4 ]# [; ]! e# I4 M6 \0 k% \4 A5 ~$ ~7 p% p0 v
結論 z1 o' [6 l5 W& N# C
有效的激光調制對實現(xiàn)光學片上網(wǎng)絡的潛在優(yōu)勢非常重要。通過準確預測網(wǎng)絡活動并相應調整激光功率,可以在保持性能的同時最小化靜態(tài)功耗。隨著處理器架構繼續(xù)發(fā)展,激光調制方案需要適應新的設計約束和流量模式。該領域的持續(xù)研究有望為未來計算系統(tǒng)解鎖新的能效水平。6 {$ r( X' l9 M" r- I6 [& `3 d
( L* ?8 y" m+ f& q; y% Z4 M
5 o: e0 j- E1 ]. G# M4 x參考文獻! N2 v) f/ r2 l! |1 T( o% L
[1] M. Nikdast, S. Pasricha, G. Nicolescu, and A. Seyedi, Eds., Silicon Photonics for High-Performance Computing and Beyond, 1st ed. Boca Raton, FL, USA: CRC Press, 2021.
; r# ?' z( {6 y s5 H" L# N2 S- x8 U+ u% d
- END -
! j0 b7 ~+ Z7 w* Z" n# f7 `3 n) r5 `2 O5 S! {
軟件申請我們歡迎化合物/硅基光電子芯片的研究人員和工程師申請體驗免費版PIC Studio軟件。無論是研究還是商業(yè)應用,PIC Studio都可提升您的工作效能。- {9 v7 s6 l' Z) ~1 K
點擊左下角"閱讀原文"馬上申請
, i( E1 u; y* L. P, ]; j, R+ q G- L+ ^/ }8 [9 R& |( k
歡迎轉載
8 m0 f1 N* H) a: r
5 H: F* a, \$ i! X* p轉載請注明出處,請勿修改內(nèi)容和刪除作者信息!5 E5 E; _# j; G& h' b
0 U! R! u# H& o( R' t" C9 t3 X8 p$ s" P' {
( R% _8 i% \6 [, B
tlesfwadvw464034879213.gif (16.04 KB, 下載次數(shù): 4)
下載附件
保存到相冊
tlesfwadvw464034879213.gif
2024-9-22 01:17 上傳
5 Y5 f: N) {5 j, h& E% h3 P2 l! ^8 t
關注我們
# {6 A" O- _) a. a
# w/ y9 `9 O7 \7 }* z
T8 g0 V9 K% p' M( D3 f6 n
0rzxntnecf364034879313.png (31.33 KB, 下載次數(shù): 1)
下載附件
保存到相冊
0rzxntnecf364034879313.png
2024-9-22 01:17 上傳
3 N. i& K# f6 G, f |
( {2 b% U, \" U) g* x" A% C. l4 H
wklhaednp3g64034879413.png (82.79 KB, 下載次數(shù): 1)
下載附件
保存到相冊
wklhaednp3g64034879413.png
2024-9-22 01:17 上傳
: Q8 x8 v. Q, W0 w! v- E |
: D) n) I9 Q' T
v05awecejyj64034879513.png (21.52 KB, 下載次數(shù): 2)
下載附件
保存到相冊
v05awecejyj64034879513.png
2024-9-22 01:17 上傳
& u! `/ A/ `' |! q
|
1 i' Y) Z8 c) @9 F1 p/ w. _: E; U- a2 Z& O- \# u7 _, f
; n0 ]6 v" b+ j7 H
! I% s: i/ D+ j* p0 i關于我們:1 Y" [2 ^4 T2 H2 B# @4 v
深圳逍遙科技有限公司(Latitude Design Automation Inc.)是一家專注于半導體芯片設計自動化(EDA)的高科技軟件公司。我們自主開發(fā)特色工藝芯片設計和仿真軟件,提供成熟的設計解決方案如PIC Studio、MEMS Studio和Meta Studio,分別針對光電芯片、微機電系統(tǒng)、超透鏡的設計與仿真。我們提供特色工藝的半導體芯片集成電路版圖、IP和PDK工程服務,廣泛服務于光通訊、光計算、光量子通信和微納光子器件領域的頭部客戶。逍遙科技與國內(nèi)外晶圓代工廠及硅光/MEMS中試線合作,推動特色工藝半導體產(chǎn)業(yè)鏈發(fā)展,致力于為客戶提供前沿技術與服務。& N8 x; Y% W8 v5 g( O) [+ D% J+ U
0 M. [9 Y$ N. [
http://www.latitudeda.com/
% B1 n# _$ P; Q# [(點擊上方名片關注我們,發(fā)現(xiàn)更多精彩內(nèi)容) |
|