2025年,具備深度思考能力的DeepSeek的問(wèn)世,讓大模型在商業(yè)落地過(guò)程中,有了處理復(fù)雜任務(wù)的能力。
然而,面對(duì)大模型技術(shù)的日新月異,當(dāng)越來(lái)越多開(kāi)發(fā)者、開(kāi)發(fā)團(tuán)隊(duì)著手基于大模型開(kāi)發(fā)應(yīng)用,乃至AI智能體時(shí),如何用較低成本、開(kāi)發(fā)出符合這個(gè)時(shí)代的AI智能體,就成了當(dāng)下大多數(shù)開(kāi)發(fā)者不得不面對(duì)的問(wèn)題。
也是在這樣的背景下,基于英特爾至強(qiáng)6性能核的火山引擎第四代計(jì)算實(shí)例g4il提出了“一杯咖啡的成本,在云上構(gòu)建專屬大模型知識(shí)庫(kù)”,似是有意解決這一問(wèn)題。
近日,我們與英特爾技術(shù)專家進(jìn)行了一次技術(shù)交流。
據(jù)英特爾技術(shù)專家透露,“英特爾已經(jīng)基于火山引擎第四代計(jì)算實(shí)例g4il進(jìn)行了一系列測(cè)試,我們現(xiàn)在已經(jīng)能夠做到在一個(gè)云實(shí)例里,僅使用CPU就可以運(yùn)行14B的大模型,這個(gè)門(mén)檻最低可以降到16vCPU或32vCPU,16vCPU在火山引擎官網(wǎng)的定價(jià)僅約3.8元/小時(shí)。”
這讓基于云計(jì)算的大模型應(yīng)用開(kāi)發(fā)頗具誘惑力,也為大模型步入真正具備落地能力的Agentic AI時(shí)代奠定了基礎(chǔ)。
01 DeepSeek帶來(lái)的高效開(kāi)發(fā)啟示
年初DeepSeek的出現(xiàn),不僅在各項(xiàng)能力上持續(xù)刷新業(yè)界對(duì)大模型潛能的認(rèn)知上限,更以其獨(dú)特的“深度思考”能力,為大模型應(yīng)用開(kāi)發(fā)帶來(lái)了新思路。
DeepSeek的顯著特性之一是其高效的“蒸餾”技術(shù)。
通過(guò)這種技術(shù),即使是參數(shù)量相對(duì)較?。ㄈ?B或14B參數(shù))的大模型,也能夠展現(xiàn)出媲美甚至超越許多先前大模型的推理能力,這一點(diǎn)在DeepSeek-R1模型上得到了充分體現(xiàn)。
這種“小模型撬動(dòng)大智慧”的特性,使得DeepSeek在學(xué)習(xí)和開(kāi)發(fā)階段具有極高的性價(jià)比,為更廣泛的開(kāi)發(fā)者和研究者提供了接觸和使用先進(jìn)AI技術(shù)的機(jī)會(huì)。
面對(duì)大模型技術(shù)的飛速迭代,許多開(kāi)發(fā)者和企業(yè)都感受到了前所未有的機(jī)遇與挑戰(zhàn)。
英特爾技術(shù)專家指出,“面對(duì)這股不可逆轉(zhuǎn)的趨勢(shì),與其在大模型本身研發(fā)上進(jìn)行‘內(nèi)卷’,不如將目光投向大模型應(yīng)用開(kāi)發(fā)這一更廣闊的賽道。”
因?yàn)榇竽P捅旧硗枰c具體的應(yīng)用場(chǎng)景相結(jié)合,才能真正落地并發(fā)揮其價(jià)值。
投身大模型應(yīng)用開(kāi)發(fā),不僅是緩解技術(shù)焦慮的有效途徑,更是提升自身價(jià)值、抓住時(shí)代機(jī)遇的關(guān)鍵一步。
然而,對(duì)于普通開(kāi)發(fā)者而言,進(jìn)入大模型應(yīng)用開(kāi)發(fā)領(lǐng)域并非易事,RAG、MCP、A2A等技術(shù)名詞層出不窮,技術(shù)棧的演進(jìn)速度也令人眼花繚亂,許多人因此望而卻步。
一方面認(rèn)為門(mén)檻過(guò)高,另一方面則苦于不知從何處入手,這種困境是當(dāng)前AI普惠化過(guò)程中亟待解決的現(xiàn)實(shí)問(wèn)題。
DeepSeek的成功也為模型架構(gòu)的創(chuàng)新提供了啟示。
DeepSeek采用的MoE混合專家架構(gòu)雖然并非首創(chuàng),但卻有力地驗(yàn)證了該架構(gòu)的有效性。
MoE架構(gòu)的特點(diǎn)在于,雖然模型總參數(shù)量可能大幅增加,但實(shí)際在推理過(guò)程中被激活的“有效參數(shù)”數(shù)量相對(duì)較少,這種機(jī)制使得模型能夠在不顯著增加算力需求的前提下,提升了性能和容量,實(shí)現(xiàn)了對(duì)計(jì)算資源的更高效利用。
英特爾技術(shù)專家特別指出,更值得關(guān)注的是DeepSeek所展現(xiàn)的“深度思考”能力,這意味著模型在處理復(fù)雜任務(wù)時(shí),不再僅僅是簡(jiǎn)單地根據(jù)輸入生成輸出,而是在內(nèi)部經(jīng)歷“規(guī)劃”和“思考”階段,然后再給出結(jié)果。
這種機(jī)制顯著提升了模型在復(fù)雜問(wèn)題解決和邏輯推理能力,也為接下來(lái)大模型的應(yīng)用普及奠定了基礎(chǔ)。
然而,如何解決大模型在開(kāi)發(fā)、測(cè)試、驗(yàn)證過(guò)程中的算力開(kāi)銷,降低大模型應(yīng)用的開(kāi)發(fā)成本,依然是開(kāi)發(fā)者不得不三思的問(wèn)題。
前不久,火山引擎云基礎(chǔ)團(tuán)隊(duì)官方表示,基于英特爾至強(qiáng)6性能核的火山引擎第四代計(jì)算實(shí)例g4il,已經(jīng)可以實(shí)現(xiàn)“一杯咖啡的成本,在云上構(gòu)建專屬大模型知識(shí)庫(kù)”。
這為大模型應(yīng)用開(kāi)發(fā)者們帶來(lái)了一個(gè)低成本選項(xiàng)。
02 異構(gòu)計(jì)算趨勢(shì)下,CPU如何發(fā)光發(fā)熱?
同樣是做AI推理,如何比較CPU和GPU的性能差異?
這是大模型應(yīng)用開(kāi)發(fā)者面臨的一個(gè)問(wèn)題,也是英特爾這樣的算力供應(yīng)商需要考慮的問(wèn)題。
英特爾技術(shù)專家指出,“本質(zhì)上CPU可以理解為一把‘瑞士軍刀’,是一個(gè)通用型計(jì)算設(shè)備,能夠執(zhí)行多種任務(wù),我們也對(duì)英特爾至強(qiáng)6性能核的AI推理進(jìn)行了加強(qiáng),使其相比其他CPU有了專門(mén)做矩陣運(yùn)算的AI加速器,GPU則更像一個(gè)專注于并行計(jì)算和AI加速的‘專家工具’。”
不過(guò),英特爾技術(shù)專家也指出,“當(dāng)前業(yè)界的普遍趨勢(shì)是采用異構(gòu)計(jì)算方案,即根據(jù)任務(wù)特性,讓CPU和GPU協(xié)同工作,各展所長(zhǎng)。”
CPU的優(yōu)勢(shì)在于其低成本、易獲得性,以及能夠滿足多數(shù)場(chǎng)景下的基本AI推理需求,特別是在GPU資源有限或不易獲取,或者僅需進(jìn)行小規(guī)模模型推理及特定AI場(chǎng)景應(yīng)用時(shí)。
即便在GPU資源充足的情況下,CPU依然可以與GPU協(xié)同工作,承擔(dān)數(shù)據(jù)預(yù)處理、任務(wù)調(diào)度、部分輕量級(jí)模型推理等任務(wù),而非簡(jiǎn)單的替代關(guān)系。
CPU與GPU協(xié)同的異構(gòu)計(jì)算方案,實(shí)際上已經(jīng)是當(dāng)下技術(shù)發(fā)展的主流方向。
大模型應(yīng)用的生命周期通常包括開(kāi)發(fā)、驗(yàn)證和大規(guī)模生產(chǎn)部署三個(gè)階段,在對(duì)算力性能要求相對(duì)較低的開(kāi)發(fā)和驗(yàn)證階段,CPU的低成本和易獲得性使其成為理想的選擇。
正因如此,基于英特爾至強(qiáng)6性能核的火山引擎第四代計(jì)算實(shí)例g4il意在充分發(fā)揮CPU的這些優(yōu)勢(shì),火山引擎聯(lián)合因特爾共同打造了面向大模型應(yīng)用的開(kāi)發(fā)環(huán)境,并整合了豐富的應(yīng)用鏡像,將其包裝成一個(gè)完整的解決方案,旨在降低開(kāi)發(fā)者入門(mén)的門(mén)檻。
英特爾技術(shù)專家指出,進(jìn)行大模型應(yīng)用開(kāi)發(fā)需要具備三大要素:
用于驗(yàn)證和練習(xí)的硬件環(huán)境,主流軟件棧的兼容支持,以及一個(gè)好老師。
為了幫助開(kāi)發(fā)者跨越這“第一步”,英特爾與火山引擎致基于g4il實(shí)例就三大要素進(jìn)行了如下布局:
硬件環(huán)境方面,火山引擎g4il實(shí)例搭載了先進(jìn)的英特爾至強(qiáng)6處理器,內(nèi)置AMX AI加速器,通過(guò)AMX的硬件加速能力,用戶在配置更低、更經(jīng)濟(jì)的虛擬機(jī)上也能獲得流暢的大模型應(yīng)用體驗(yàn)。
例如,針對(duì)DeepSeek的7B、14B參數(shù)的小尺寸模型,通過(guò)軟硬件協(xié)同優(yōu)化,可以在不依賴GPU的情況下,僅使用CPU(如16vCPU或32vCPU的g4il實(shí)例)即可實(shí)現(xiàn)每秒7個(gè)token以上的流暢輸出速度。
據(jù)悉,基于英特爾至強(qiáng)6性能核的g4il實(shí)例已經(jīng)正式發(fā)售。
在火山引擎官網(wǎng)上,一個(gè)16vCPU的g4il實(shí)例定價(jià)約為每小時(shí)3.8元,極大地降低了開(kāi)發(fā)者的硬件成本。
軟件棧方面,英特爾發(fā)起的OPEA開(kāi)源社區(qū)致力于利用開(kāi)放架構(gòu)和組件化、模塊化的思想,旨在為企業(yè)打造可擴(kuò)展的AI應(yīng)用部署基礎(chǔ)。
OPEA社區(qū)積累了大量經(jīng)過(guò)預(yù)先驗(yàn)證和優(yōu)化的開(kāi)源應(yīng)用范例,可供用戶參考。
英特爾與火山引擎將這些范例和必要的軟件棧打包成虛擬機(jī)鏡像,用戶在火山引擎控制臺(tái)選擇g4il實(shí)例后,可以直接選用預(yù)置的知識(shí)庫(kù)問(wèn)答等AI應(yīng)用鏡像,實(shí)現(xiàn)一鍵部署。
據(jù)英特爾技術(shù)專家透露,“通過(guò)一鍵部署,原本可能需要數(shù)天才能完成的環(huán)境搭建過(guò)程,如今可以縮短至3分鐘左右。”
課程指導(dǎo)方面,英特爾準(zhǔn)備了豐富的演示課程和技術(shù)文檔,內(nèi)容涵蓋從基礎(chǔ)環(huán)境搭建、代碼開(kāi)發(fā)環(huán)境配置,到模型調(diào)優(yōu)、性能優(yōu)化等各個(gè)環(huán)節(jié)。
這些課程旨在幫助基礎(chǔ)相對(duì)薄弱的用戶補(bǔ)齊知識(shí)短板,理解技術(shù)原理,掌握實(shí)際操作技能,從而真正實(shí)現(xiàn)能力的進(jìn)階。
據(jù)悉,這些課程在英特爾官網(wǎng)上免費(fèi)開(kāi)放給所有用戶。
正是基于這三大要素的構(gòu)建,火山引擎云基礎(chǔ)團(tuán)隊(duì)有了提出“一杯咖啡的成本,在云上構(gòu)建專屬大模型知識(shí)庫(kù)”的底氣,也為開(kāi)發(fā)者提供了一條云上新路徑,一條高效通向Agentic AI的路徑。
好文章,需要你的鼓勵(lì)
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長(zhǎng)篇音頻故事。該系統(tǒng)結(jié)合大語(yǔ)言模型的敘事推理能力與音頻生成技術(shù),通過(guò)交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場(chǎng)景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開(kāi)辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過(guò)讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息,顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問(wèn)題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量,在多項(xiàng)測(cè)試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語(yǔ)言模型人性化對(duì)話問(wèn)題。該研究創(chuàng)建了包含20萬(wàn)高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評(píng)測(cè)基準(zhǔn),通過(guò)創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平,為AI價(jià)值觀對(duì)齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開(kāi)發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測(cè)模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過(guò)學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測(cè)方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來(lái)了效率和精度的雙重突破。
關(guān)注智造、硬件、機(jī)器人。