快接頭,龐大的數(shù)據(jù)中心中一個極容易被忽視的小組件。
卻也是數(shù)據(jù)中心產(chǎn)業(yè)鏈中出貨量巨大,又關乎數(shù)據(jù)中心液冷服務器安全穩(wěn)定的組件。
尤其是在液冷技術在國內(nèi)火爆后,英特爾技術專家在一年前的一次深入考察液冷生態(tài)系統(tǒng)時,從ODM、OEM等伙伴處發(fā)現(xiàn)了一個普遍存在的問題:
由于數(shù)據(jù)中心經(jīng)常涉及到設備迭代,當運維人員在進行機房運維工作時,經(jīng)常會遇到不同廠商的快接頭無法互插。
是否可以在不同快接頭之間形成一個互插互換的測試標準,就成了擺在英特爾數(shù)據(jù)中心與人工智能事業(yè)部面前的一個問題。
于是,英特爾在一年前啟動了這一項目,據(jù)英特爾數(shù)據(jù)中心與人工智能事業(yè)部中國區(qū)生態(tài)拓展總監(jiān)徐冉后來回憶稱,“當時我們預計兩個季度就能完成這項工作,但后來發(fā)現(xiàn),互插測試遠比我們想象的要更復雜。”
在隨后這一年里,英特爾聯(lián)合英維克、丹佛斯、立敏達科技、藍科電氣、正北連接五家UQD快接頭廠商,對250組樣品、32種測試項目,進行了上千次測試。
8月19日,這一測試項目最終完成,英特爾通用快接頭互插互換聯(lián)盟也正式成立,這也為液冷技術方案在國內(nèi)數(shù)據(jù)中心進一步推廣應用掃除了又一魔障。
數(shù)據(jù)中心的“接頭難題”
在數(shù)據(jù)中心液冷系統(tǒng)中,往往有大量的快接頭存在,這些快接頭的作用是快速連接、斷開液體冷卻管路,從而方便維護和更換組件,并最大程度地減少液體泄漏。
因而,快接頭在一定程度上決定了數(shù)據(jù)中心液冷系統(tǒng)維護的難以程度,也關乎著數(shù)據(jù)中心的安全穩(wěn)定運行。
作為OCP UQD項目發(fā)起者,英特爾早在2019年就提出了通用快接頭標準,不過,英特爾數(shù)據(jù)中心和人工智能事業(yè)部中國區(qū)平臺技術研發(fā)部總監(jiān)杜黎光指出,“英特爾最早只是聯(lián)合業(yè)界在這項標準中基于OCP統(tǒng)一了快接頭的關鍵尺寸,確保不同廠家的快接頭在機械尺寸上能夠匹配、插緊。”
但這項標準只保證了最基本的對接問題,至于采用不同快接頭插緊后,是否能達到原廠的效果、是否足夠好用,原有標準中并沒有進行詳細規(guī)定。
更何況,在2019年,液冷技術方案在國內(nèi)數(shù)據(jù)中心中還并非主流技術,大多數(shù)廠商依然秉持著觀望態(tài)度,這也讓整個行業(yè)對OCP UQD標準沒有給予足夠重視。
藍科電氣總經(jīng)理陳杰指出,“直到2022年底ChatGPT的發(fā)布,我們開始邁入到AI時代,液冷技術在國內(nèi)開始火爆起來。”
正是在液冷技術不斷升溫,成為更多數(shù)據(jù)中心的選擇時,之前只是規(guī)定了快接頭尺寸標準的OCP UQD也就需要再往前走一步,真正解決快接頭互插互換過程中安全穩(wěn)定問題。
對此,杜黎光給出的一個更為直觀的例子:
數(shù)據(jù)中心機架上如果裝了某一廠商的服務器,在與機架上快接頭進行插合時,如果選用的是同一家廠商的快接頭,無論是在吻合程度、可靠性,還是防泄露能力,都會有很好的表現(xiàn)。
但如果選用的不是同一家廠商的快接頭,是否會有一樣的效果,這還從未有人進行過驗證。
由于數(shù)據(jù)中心的機架壽命在10年以上,服務器迭代周期往往只有2年左右,出現(xiàn)液冷服務器的快接頭與機架上的不一致也就成了常見的事。
正因如此,2024年,推動不同廠商之間的快接頭互插互換接近、乃至達到原廠水平,就成了英特爾中國數(shù)據(jù)中心液冷創(chuàng)新加速計劃中的一項重要工作。
這一年,英特爾先是經(jīng)過綜合考慮遴選出了五家本地UQD快接頭廠商,后又基于英特爾產(chǎn)品品控要求和可能失效模式分析,制定了全面的互換測試標準和流程。
在這個過程中,首先是各家參與測試的廠商進行自插自配測試,以此確保自身的兼容性,在此基礎上再進行兩兩組合的互插互配測試。
據(jù)杜黎光透露,各廠商產(chǎn)品往往自插自配時表現(xiàn)良好,但在互插互配時就會出現(xiàn)各種問題。
例如,彈簧是快接頭的關鍵部件,而彈簧的軟硬程度、壓縮間距的標準往往是一個范圍,各家廠商在快接頭設計過程中,由于軟硬程度和壓縮間距選擇的標準值不同,就會導致互插互換時密封不嚴,乃至無法匹配的情況。
這時,聯(lián)盟的作用就是協(xié)調(diào)各方,針對參數(shù)差異進行溝通,共同商定優(yōu)化方案。
在過去這一年里,英維克、丹佛斯、立敏達科技、藍科電氣、正北連接五家UQD快接頭廠商的250種樣品,共進行了32次測試項目,上千次測試。
與此同時,英特爾測試團隊打通了冷板、冷卻液等上下游產(chǎn)業(yè)鏈進行聯(lián)合測試,期間發(fā)現(xiàn)了多種失效模式并制定了相應的改進方案。
這才有了英特爾通用快接頭互插互換聯(lián)盟的正式成立。
即將進入的液冷時代
據(jù)IDC統(tǒng)計數(shù)據(jù)顯示,2024年中國液冷服務器市場規(guī)模達到23.7億美元,同比增長67%,預計2029年將會進一步達到162億美元。
液冷技術,正在成為數(shù)據(jù)中心應對算力持續(xù)增長、功率不斷提升、散熱需求越來越高的一項關鍵技術。
不過,徐冉也特別指出,目前液冷行業(yè)仍處于起步階段。
為此,英特爾早在2024年就推出了英特爾中國數(shù)據(jù)中心液冷創(chuàng)新加速計劃,據(jù)杜黎光透露,目前這項計劃已經(jīng)開展了以下幾個重要項目:
第一,冷板整體方案測試認證,英特爾審議了英維克作為英特爾BHS-AP平臺冷板方案整體供應商,整體方案包括冷板、管道、快接頭和CDU,每個部件英特爾都定義了認證測試的方法。
第二,浸沒式液冷項目,英特爾聯(lián)合綠色云圖、新華三、??松梨诠餐瞥隽嘶诤铣捎偷腉-Flow液冷解決方案,該方案成功克服了合成油散熱能力的局限,能夠?qū)⑸峁β蚀蠓嵘?,實現(xiàn)了環(huán)保與高效散熱的兼顧。
第三,冷板液冷液體測試項目,冷板相當于人的循環(huán)系統(tǒng),泵出的液體通過管道流出去,這當中的液體非常重要,英特爾此前驗證了一些液體供應商,現(xiàn)在推薦的液體含有冷凍液和抗腐蝕、抗菌合成配方的PG25。
第四,OCP UQD快接頭互插互換項目,英特爾聯(lián)合英維克、丹佛斯、立敏達科技、藍科電氣、正北連接五家廠商完成了OCP UQD快接頭互插互換,并成立了英特爾通用快接頭互插互換聯(lián)盟。
值得注意的是,此次進行互插互換測試的快接頭,是市場上更為主流的04型號的快接頭,徐冉指出,“未來如果我們的OEM、ODM或CSP客戶有更多需求,并提出測試其他產(chǎn)品或引入新供應商的建議,我們一定會認真考慮并付諸實施。”
至于英特爾此次成立的這一聯(lián)盟接下來在技術層面的工作重點,杜黎光指出,“首先會做好后續(xù)服務與問題追蹤,持續(xù)關注客戶應用過程中可能會出現(xiàn)的互插互換問題并及時解決,其次也會根據(jù)技術發(fā)展方向與業(yè)界合作,根據(jù)實際需要對UQD標準進行迭代升級。”
好文章,需要你的鼓勵
騰訊ARC實驗室推出AudioStory系統(tǒng),首次實現(xiàn)AI根據(jù)復雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術,通過交錯式推理生成、解耦橋接機制和漸進式訓練,能夠?qū)碗s指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學聯(lián)合研發(fā)的VideoJAM技術,通過讓AI同時學習外觀和運動信息,顯著解決了當前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術僅需添加兩個線性層就能大幅提升運動質(zhì)量,在多項測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實用化應用奠定了重要基礎。
上海AI實驗室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓練數(shù)據(jù)集和MM-AlignBench評測基準,通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術能力的同時顯著提升人性化交互水平,為AI價值觀對齊提供了可行技術路徑。
谷歌DeepMind團隊開發(fā)的GraphCast是一個革命性的AI天氣預測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預報,準確性超越傳統(tǒng)方法90%的指標。該模型采用圖神經(jīng)網(wǎng)絡技術,通過學習40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學領域帶來了效率和精度的雙重突破。
關注智造、硬件、機器人。