|
引言
$ z8 c9 ?3 r% k# G- g0 L隨著生成式人工智能和大型語(yǔ)言模型(LLMs)的興起,數(shù)據(jù)中心面臨著功耗和散熱挑戰(zhàn)。本文探討了管理高密度計(jì)算環(huán)境的散熱技術(shù)和解決方案,重點(diǎn)關(guān)注從傳統(tǒng)空氣冷卻向更高效的液體冷卻方法的轉(zhuǎn)變[1]。9 J+ U) C, y0 b
" g9 m* P3 H) P- A0 W. ^人工智能革命及其對(duì)數(shù)據(jù)中心的影響
/ r6 _9 r. s% P/ T; d) u( d生成式人工智能和LLMs的出現(xiàn)開(kāi)創(chuàng)了新的計(jì)算時(shí)代,其特點(diǎn)是海量數(shù)據(jù)集和密集的計(jì)算需求。現(xiàn)代LLMs,如GPT-3,由數(shù)十億個(gè)參數(shù)組成,需要大量數(shù)據(jù)進(jìn)行訓(xùn)練。7 d R# e2 ^1 A' F; E8 u
nbwsmx0dstb64058358813.png (312.38 KB, 下載次數(shù): 0)
下載附件
保存到相冊(cè)
nbwsmx0dstb64058358813.png
前天 01:46 上傳
7 g Q7 G o3 A( p. I" T+ @1 u! Q圖1展示了LLMs的規(guī)模,顯示GPT-3的1750億個(gè)參數(shù)如何對(duì)應(yīng)于海量數(shù)據(jù)集和GPU計(jì)算需求。0 r0 f0 R. H* r( B5 {8 s
+ I; P% j; j: ^3 S8 i
這些模型需要異常強(qiáng)大的計(jì)算能力,通常使用數(shù)百或數(shù)千個(gè)GPU并行工作。這種計(jì)算密度導(dǎo)致數(shù)據(jù)中心的功耗和熱量產(chǎn)生顯著增加。
9 A- O3 x6 R2 R7 O( w+ D x0 y: Z* ~* M: V8 H
GPU計(jì)算的興起及其挑戰(zhàn)9 H, K, ?' R. S! B! d
向以人工智能為中心的計(jì)算轉(zhuǎn)變使GPU成為數(shù)據(jù)中心硬件的核心。與傳統(tǒng)CPU不同,GPU專為并行處理而設(shè)計(jì),非常適合人工智能工作負(fù)載。然而,這也帶來(lái)了一些挑戰(zhàn):
. a( n3 o, \. _" `8 ~熱設(shè)計(jì)功率增加:現(xiàn)代GPU的功耗可超過(guò)1000瓦,產(chǎn)生大量熱量。更高密度:人工智能訓(xùn)練服務(wù)器每臺(tái)可消耗超過(guò)10千瓦,遠(yuǎn)超許多現(xiàn)有數(shù)據(jù)中心的容量。散熱限制:大多數(shù)數(shù)據(jù)中心設(shè)計(jì)用于一般計(jì)算和存儲(chǔ),而非人工智能工作負(fù)載的極端熱密度。
( z3 Y" m( g% C3 ?) n' _ Z$ ?$ w9 V# H$ e
( R2 m4 k) g7 c. p( F6 u) v: s
3xybf4wnwje64058358913.png (214.91 KB, 下載次數(shù): 1)
下載附件
保存到相冊(cè)
3xybf4wnwje64058358913.png
前天 01:46 上傳
a& G* n+ @9 r0 n; \" G圖2顯示了數(shù)據(jù)中心由于GPU計(jì)算興起而面臨的挑戰(zhàn),包括功耗增加和熱密度提高。
6 S9 P6 b0 G) K3 v% z. U; o; i8 k7 v- l7 U
傳統(tǒng)空氣冷卻:局限性和低效性
. [- |) i; [; H( i& D9 V5 i! F歷史上,數(shù)據(jù)中心一直依賴空氣冷卻系統(tǒng)來(lái)管理熱量。雖然對(duì)于低密度計(jì)算環(huán)境有效,但空氣冷卻難以應(yīng)對(duì)現(xiàn)代人工智能硬件的熱輸出。& {# `( n7 \5 X
dzhh0w1yxoy64058359013.png (215.65 KB, 下載次數(shù): 0)
下載附件
保存到相冊(cè)
dzhh0w1yxoy64058359013.png
前天 01:46 上傳
$ J; f: n, ?6 L0 K" o; _ ]圖3描繪了數(shù)據(jù)中心的傳統(tǒng)空氣冷卻系統(tǒng),顯示了空氣流動(dòng)和冷卻過(guò)程中涉及的各種組件。
r v4 S# `5 v( W' k
8 W; n _# o9 C7 Y空氣冷卻的局限性包括:4 F, u T1 D1 V T& V" B- g0 p; a
熱傳遞效率低:與液體相比,空氣的熱導(dǎo)率較低。能耗高:風(fēng)扇和CRAC單元消耗大量電力。空間限制:空氣冷卻需要移動(dòng)大量空氣,限制了機(jī)架密度。
0 W# P+ i, p2 T' n: P1 |$ I
0 o, v2 k! V K; [: K) R這些因素導(dǎo)致較高的能源使用效率(PUE)比率,表明數(shù)據(jù)中心運(yùn)營(yíng)效率較低。) v; n" H! y6 x7 [( Z6 @
; P, {, t) `2 C$ f3 u( z; A+ {5 ?
液體冷卻革命4 z$ I8 s `+ d h
為應(yīng)對(duì)高密度人工智能計(jì)算帶來(lái)的挑戰(zhàn),業(yè)界正迅速轉(zhuǎn)向液體冷卻解決方案。與傳統(tǒng)空氣冷卻相比,液體冷卻具有多項(xiàng)優(yōu)勢(shì):更好的熱傳遞:液體的熱導(dǎo)率遠(yuǎn)高于空氣。效率提高:液體冷卻可顯著減少冷卻功耗。更高密度:允許更緊湊的服務(wù)器設(shè)計(jì)和更高的機(jī)架密度。; v; ^8 p) J3 E
[/ol]- M9 [ Z* ]$ m' @7 ~! x
mu1jln0wkrl64058359113.png (148.34 KB, 下載次數(shù): 0)
下載附件
保存到相冊(cè)
mu1jln0wkrl64058359113.png
前天 01:46 上傳
8 B5 I! m! {# U圖4展示了數(shù)據(jù)中心的液體冷卻系統(tǒng),說(shuō)明如何消除空氣冷卻系統(tǒng)中存在的大型耗能組件。
* r+ f+ c& F% J3 G W! q: g% ?0 _" s
液體冷卻解決方案類型* ?4 V3 @4 w2 k, s2 e' H ]
1. 直接液體冷卻(DLC): l0 v U7 ?. `
DLC涉及在產(chǎn)熱組件(如CPU和GPU)上直接安裝冷板。液體冷卻劑流經(jīng)這些冷板,有效地從熱源處移除熱量。7 w1 {' ?1 m5 F7 K) S6 D
vecfzu0za3564058359214.png (320.18 KB, 下載次數(shù): 0)
下載附件
保存到相冊(cè)
vecfzu0za3564058359214.png
前天 01:46 上傳
- x/ W2 o1 S) v( \# ^& d
圖5概述了直接液體冷卻系統(tǒng),顯示了關(guān)鍵組件,包括冷板、冷卻分配單元(CDU)和冷卻塔。( U8 u) }8 d' e; q* d
4 R2 d& f# q7 g( Y5 u% p6 bDLC的優(yōu)勢(shì):
# a8 _* c( q1 |* K; V服務(wù)器冷卻功耗最高可減少92%整體數(shù)據(jù)中心電力成本最高可減少40%服務(wù)器噪音最高可減少55%; E! S3 D' w1 m/ q! F( Q
4 C2 x+ W5 `. d( Y# J1 P& f2. 后門熱交換器(RDHx)
4 `+ `7 T* Y* d# h1 N1 F* i2 _RDHx是一種可在現(xiàn)有空氣冷卻環(huán)境中實(shí)施的混合解決方案。它涉及在服務(wù)器機(jī)架背面安裝冷卻面板,以冷卻熱排氣。
& o8 N$ B* N" M8 `& j2 j4 N
sdx42ikihyk64058359314.png (275.81 KB, 下載次數(shù): 0)
下載附件
保存到相冊(cè)
sdx42ikihyk64058359314.png
前天 01:46 上傳
2 F S5 z! b; d3 s* W" t) h
圖6展示了后門熱交換器系統(tǒng),說(shuō)明它如何與現(xiàn)有空氣冷卻服務(wù)器機(jī)架集成以提高冷卻效率。
; G, n* x Y0 z2 \
# }0 R/ M' ~5 [, y3. 浸沒(méi)式液體冷卻(ILC)3 R* o3 t( J' i$ M
在ILC中,整個(gè)服務(wù)器浸沒(méi)在介電冷卻液中,為所有組件提供全面冷卻。" g) }$ q, G4 N7 e, @
tjsuortumwp64058359414.png (221.67 KB, 下載次數(shù): 0)
下載附件
保存到相冊(cè)
tjsuortumwp64058359414.png
前天 01:46 上傳
! J% f) m$ T) {. q$ q" \. u
圖7展示了浸沒(méi)式液體冷卻系統(tǒng),描述了如何將服務(wù)器完全浸沒(méi)在介電液體中以實(shí)現(xiàn)最大熱量移除。
( W& |) ~2 H1 a% W: x+ N& l( c( O u0 A" C0 T/ j* s, w3 A
實(shí)施液體冷卻:考慮因素和益處
% b3 S+ k# C2 o7 }- B在轉(zhuǎn)向液體冷卻時(shí),數(shù)據(jù)中心運(yùn)營(yíng)商應(yīng)考慮:基礎(chǔ)設(shè)施變更:液體冷卻需要不同的管道和熱交換系統(tǒng)。組件兼容性:確保所有服務(wù)器組件與所選冷卻方法兼容。維護(hù)程序:液體冷卻系統(tǒng)需要不同的維護(hù)方法。- T7 R6 Z2 q; S
[/ol]
# T; y6 z7 G* I ?) ?7 M3 i+ {實(shí)施液體冷卻的益處包括:" i; t) m* m& p1 {
大幅減少冷卻成本提高計(jì)算密度提高整體數(shù)據(jù)中心效率潛在的熱量在其他設(shè)施中再利用, ^ O% u( V' Q: G1 |
2 c7 c) e, E: H: h4 r
wtj1wxpomay64058359515.png (220.62 KB, 下載次數(shù): 0)
下載附件
保存到相冊(cè)
wtj1wxpomay64058359515.png
前天 01:46 上傳
4 l' @1 w4 j6 m# r
圖8比較了直接液體冷卻和空氣冷卻,突出顯示了在資本支出和運(yùn)營(yíng)支出方面的潛在成本優(yōu)勢(shì)。
; y. l& K6 z. ` z
" V: b3 M; z$ W! U( {7 Q9 |數(shù)據(jù)中心冷卻的未來(lái)趨勢(shì)
; R8 ]% S5 C1 S' x隨著人工智能繼續(xù)發(fā)展,我們可以預(yù)期冷卻技術(shù)將進(jìn)一步發(fā)展:
) j7 @9 B3 E% L. w4 Z0 i2 o液體冷卻的廣泛采用冷卻劑配方的改進(jìn)以提高熱傳遞人工智能集成以優(yōu)化冷卻管理更加關(guān)注可持續(xù)性和熱量再利用
( k' ~+ s% H O2 [5 z/ p) B T- o/ J- [
mnge2nwrm3l64058359615.png (420.41 KB, 下載次數(shù): 0)
下載附件
保存到相冊(cè)
mnge2nwrm3l64058359615.png
前天 01:46 上傳
9 U6 x, m8 ~9 F2 R
圖9展示了未來(lái)人工智能和冷卻趨勢(shì)的"水晶球"視圖,包括人工智能推理的擴(kuò)展、特定領(lǐng)域的LLMs,以及人工通用智能(AGI)的潛力。: E4 e$ {: _, C2 r. T. q: v2 a- G
/ `; J6 o3 C+ j# ?1 E' P, x結(jié)論
/ J4 V. c( i; h N6 s0 _6 y& z人工智能革命已將數(shù)據(jù)中心熱管理推向極限,需要從傳統(tǒng)空氣冷卻轉(zhuǎn)向更高效的液體冷卻解決方案。隨著行業(yè)繼續(xù)發(fā)展,采用這些新的冷卻技術(shù)對(duì)支持下一代人工智能和高性能計(jì)算工作負(fù)載將變得越來(lái)越重要。通過(guò)了解和實(shí)施先進(jìn)的冷卻技術(shù),數(shù)據(jù)中心運(yùn)營(yíng)商可以確保準(zhǔn)備好應(yīng)對(duì)未來(lái)的計(jì)算需求,同時(shí)提高效率并減少環(huán)境影響。
; j1 m; V2 J& o2 J& \% M2 M! t# a9 D; n0 K( d' G
參考文獻(xiàn)
; P$ A6 }8 V/ T+ I s[1] T. Garvens, "Thermal Techniques for Data Center Compute Density," Supermicro, Aug. 23, 2024.
: K2 |* I, g8 I$ C
. I2 Y4 O6 b% C: X! Q2 A- END -
/ A) `% _- {6 A0 D& i7 \2 _& A" L3 ]" \
軟件申請(qǐng)我們歡迎化合物/硅基光電子芯片的研究人員和工程師申請(qǐng)?bào)w驗(yàn)免費(fèi)版PIC Studio軟件。無(wú)論是研究還是商業(yè)應(yīng)用,PIC Studio都可提升您的工作效能。
- G6 U) L; i3 P- @& P d x2 @點(diǎn)擊左下角"閱讀原文"馬上申請(qǐng)- M2 M6 |9 a& I- V1 Q5 |/ D
3 J( _0 o( o# m. r6 M+ j歡迎轉(zhuǎn)載
# i1 v L8 Z* J8 L2 |1 V% j, g. x/ b, p4 h9 L: C! m
轉(zhuǎn)載請(qǐng)注明出處,請(qǐng)勿修改內(nèi)容和刪除作者信息!# L% n! q7 Z2 p9 A
* ^" i+ {6 ?4 U* k! e% a, C
( F% N5 q- g1 P+ j" U; [
6 O, f# _( P: O! a% j k
bum4amoaid464058359715.gif (16.04 KB, 下載次數(shù): 0)
下載附件
保存到相冊(cè)
bum4amoaid464058359715.gif
前天 01:46 上傳
' J- k8 X6 z, Z3 W! W) F- S1 ?+ I* [
關(guān)注我們
7 V& f e0 _9 J) j, C0 h! l
9 L. Z6 V G9 Z& }9 n9 [
* h* M* v3 L1 _
z30vjcdrbqk64058359815.png (31.33 KB, 下載次數(shù): 0)
下載附件
保存到相冊(cè)
z30vjcdrbqk64058359815.png
前天 01:46 上傳
7 s* F6 p0 S6 i7 Q2 | |
" U3 }1 H) N! P8 }. f
uvi5zchxmyn64058359915.png (82.79 KB, 下載次數(shù): 0)
下載附件
保存到相冊(cè)
uvi5zchxmyn64058359915.png
前天 01:46 上傳
* O3 [" G2 |% [ P" ~! _: R
|
! H; W/ ]7 N) n( l2 d
xgbej01bkut64058360015.png (21.52 KB, 下載次數(shù): 0)
下載附件
保存到相冊(cè)
xgbej01bkut64058360015.png
前天 01:46 上傳
8 @6 W0 k9 s$ h4 J | ( S1 G, D9 V" Z2 ~/ {
& e& p* {9 n' k, v4 ?1 `
4 l+ c; g% o0 m9 i& _" b0 L4 C; N- [3 u, [; k8 n) R" o$ P
關(guān)于我們:
' r( d( M f7 J深圳逍遙科技有限公司(Latitude Design Automation Inc.)是一家專注于半導(dǎo)體芯片設(shè)計(jì)自動(dòng)化(EDA)的高科技軟件公司。我們自主開(kāi)發(fā)特色工藝芯片設(shè)計(jì)和仿真軟件,提供成熟的設(shè)計(jì)解決方案如PIC Studio、MEMS Studio和Meta Studio,分別針對(duì)光電芯片、微機(jī)電系統(tǒng)、超透鏡的設(shè)計(jì)與仿真。我們提供特色工藝的半導(dǎo)體芯片集成電路版圖、IP和PDK工程服務(wù),廣泛服務(wù)于光通訊、光計(jì)算、光量子通信和微納光子器件領(lǐng)域的頭部客戶。逍遙科技與國(guó)內(nèi)外晶圓代工廠及硅光/MEMS中試線合作,推動(dòng)特色工藝半導(dǎo)體產(chǎn)業(yè)鏈發(fā)展,致力于為客戶提供前沿技術(shù)與服務(wù)。
% s' `! F8 L; Q5 F
# H- w7 C. v6 v! i0 H. Ahttp://www.latitudeda.com/& h5 y' i4 q: I+ p1 p2 `6 g
(點(diǎn)擊上方名片關(guān)注我們,發(fā)現(xiàn)更多精彩內(nèi)容) |
|