2025年,具備深度思考能力的DeepSeek的問世,讓大模型在商業(yè)落地過程中,有了處理復雜任務的能力。
然而,面對大模型技術的日新月異,當越來越多開發(fā)者、開發(fā)團隊著手基于大模型開發(fā)應用,乃至AI智能體時,如何用較低成本、開發(fā)出符合這個時代的AI智能體,就成了當下大多數(shù)開發(fā)者不得不面對的問題。
也是在這樣的背景下,基于英特爾至強6性能核的火山引擎第四代計算實例g4il提出了“一杯咖啡的成本,在云上構建專屬大模型知識庫”,似是有意解決這一問題。
近日,我們與英特爾技術專家進行了一次技術交流。
據(jù)英特爾技術專家透露,“英特爾已經(jīng)基于火山引擎第四代計算實例g4il進行了一系列測試,我們現(xiàn)在已經(jīng)能夠做到在一個云實例里,僅使用CPU就可以運行14B的大模型,這個門檻最低可以降到16vCPU或32vCPU,16vCPU在火山引擎官網(wǎng)的定價僅約3.8元/小時。”
這讓基于云計算的大模型應用開發(fā)頗具誘惑力,也為大模型步入真正具備落地能力的Agentic AI時代奠定了基礎。
01 DeepSeek帶來的高效開發(fā)啟示
年初DeepSeek的出現(xiàn),不僅在各項能力上持續(xù)刷新業(yè)界對大模型潛能的認知上限,更以其獨特的“深度思考”能力,為大模型應用開發(fā)帶來了新思路。
DeepSeek的顯著特性之一是其高效的“蒸餾”技術。
通過這種技術,即使是參數(shù)量相對較?。ㄈ?B或14B參數(shù))的大模型,也能夠展現(xiàn)出媲美甚至超越許多先前大模型的推理能力,這一點在DeepSeek-R1模型上得到了充分體現(xiàn)。
這種“小模型撬動大智慧”的特性,使得DeepSeek在學習和開發(fā)階段具有極高的性價比,為更廣泛的開發(fā)者和研究者提供了接觸和使用先進AI技術的機會。
面對大模型技術的飛速迭代,許多開發(fā)者和企業(yè)都感受到了前所未有的機遇與挑戰(zhàn)。
英特爾技術專家指出,“面對這股不可逆轉的趨勢,與其在大模型本身研發(fā)上進行‘內卷’,不如將目光投向大模型應用開發(fā)這一更廣闊的賽道。”
因為大模型本身往往需要與具體的應用場景相結合,才能真正落地并發(fā)揮其價值。
投身大模型應用開發(fā),不僅是緩解技術焦慮的有效途徑,更是提升自身價值、抓住時代機遇的關鍵一步。
然而,對于普通開發(fā)者而言,進入大模型應用開發(fā)領域并非易事,RAG、MCP、A2A等技術名詞層出不窮,技術棧的演進速度也令人眼花繚亂,許多人因此望而卻步。
一方面認為門檻過高,另一方面則苦于不知從何處入手,這種困境是當前AI普惠化過程中亟待解決的現(xiàn)實問題。
DeepSeek的成功也為模型架構的創(chuàng)新提供了啟示。
DeepSeek采用的MoE混合專家架構雖然并非首創(chuàng),但卻有力地驗證了該架構的有效性。
MoE架構的特點在于,雖然模型總參數(shù)量可能大幅增加,但實際在推理過程中被激活的“有效參數(shù)”數(shù)量相對較少,這種機制使得模型能夠在不顯著增加算力需求的前提下,提升了性能和容量,實現(xiàn)了對計算資源的更高效利用。
英特爾技術專家特別指出,更值得關注的是DeepSeek所展現(xiàn)的“深度思考”能力,這意味著模型在處理復雜任務時,不再僅僅是簡單地根據(jù)輸入生成輸出,而是在內部經(jīng)歷“規(guī)劃”和“思考”階段,然后再給出結果。
這種機制顯著提升了模型在復雜問題解決和邏輯推理能力,也為接下來大模型的應用普及奠定了基礎。
然而,如何解決大模型在開發(fā)、測試、驗證過程中的算力開銷,降低大模型應用的開發(fā)成本,依然是開發(fā)者不得不三思的問題。
前不久,火山引擎云基礎團隊官方表示,基于英特爾至強6性能核的火山引擎第四代計算實例g4il,已經(jīng)可以實現(xiàn)“一杯咖啡的成本,在云上構建專屬大模型知識庫”。
這為大模型應用開發(fā)者們帶來了一個低成本選項。
02 異構計算趨勢下,CPU如何發(fā)光發(fā)熱?
同樣是做AI推理,如何比較CPU和GPU的性能差異?
這是大模型應用開發(fā)者面臨的一個問題,也是英特爾這樣的算力供應商需要考慮的問題。
英特爾技術專家指出,“本質上CPU可以理解為一把‘瑞士軍刀’,是一個通用型計算設備,能夠執(zhí)行多種任務,我們也對英特爾至強6性能核的AI推理進行了加強,使其相比其他CPU有了專門做矩陣運算的AI加速器,GPU則更像一個專注于并行計算和AI加速的‘專家工具’。”
不過,英特爾技術專家也指出,“當前業(yè)界的普遍趨勢是采用異構計算方案,即根據(jù)任務特性,讓CPU和GPU協(xié)同工作,各展所長。”
CPU的優(yōu)勢在于其低成本、易獲得性,以及能夠滿足多數(shù)場景下的基本AI推理需求,特別是在GPU資源有限或不易獲取,或者僅需進行小規(guī)模模型推理及特定AI場景應用時。
即便在GPU資源充足的情況下,CPU依然可以與GPU協(xié)同工作,承擔數(shù)據(jù)預處理、任務調度、部分輕量級模型推理等任務,而非簡單的替代關系。
CPU與GPU協(xié)同的異構計算方案,實際上已經(jīng)是當下技術發(fā)展的主流方向。
大模型應用的生命周期通常包括開發(fā)、驗證和大規(guī)模生產(chǎn)部署三個階段,在對算力性能要求相對較低的開發(fā)和驗證階段,CPU的低成本和易獲得性使其成為理想的選擇。
正因如此,基于英特爾至強6性能核的火山引擎第四代計算實例g4il意在充分發(fā)揮CPU的這些優(yōu)勢,火山引擎聯(lián)合因特爾共同打造了面向大模型應用的開發(fā)環(huán)境,并整合了豐富的應用鏡像,將其包裝成一個完整的解決方案,旨在降低開發(fā)者入門的門檻。
英特爾技術專家指出,進行大模型應用開發(fā)需要具備三大要素:
用于驗證和練習的硬件環(huán)境,主流軟件棧的兼容支持,以及一個好老師。
為了幫助開發(fā)者跨越這“第一步”,英特爾與火山引擎致基于g4il實例就三大要素進行了如下布局:
硬件環(huán)境方面,火山引擎g4il實例搭載了先進的英特爾至強6處理器,內置AMX AI加速器,通過AMX的硬件加速能力,用戶在配置更低、更經(jīng)濟的虛擬機上也能獲得流暢的大模型應用體驗。
例如,針對DeepSeek的7B、14B參數(shù)的小尺寸模型,通過軟硬件協(xié)同優(yōu)化,可以在不依賴GPU的情況下,僅使用CPU(如16vCPU或32vCPU的g4il實例)即可實現(xiàn)每秒7個token以上的流暢輸出速度。
據(jù)悉,基于英特爾至強6性能核的g4il實例已經(jīng)正式發(fā)售。
在火山引擎官網(wǎng)上,一個16vCPU的g4il實例定價約為每小時3.8元,極大地降低了開發(fā)者的硬件成本。
軟件棧方面,英特爾發(fā)起的OPEA開源社區(qū)致力于利用開放架構和組件化、模塊化的思想,旨在為企業(yè)打造可擴展的AI應用部署基礎。
OPEA社區(qū)積累了大量經(jīng)過預先驗證和優(yōu)化的開源應用范例,可供用戶參考。
英特爾與火山引擎將這些范例和必要的軟件棧打包成虛擬機鏡像,用戶在火山引擎控制臺選擇g4il實例后,可以直接選用預置的知識庫問答等AI應用鏡像,實現(xiàn)一鍵部署。
據(jù)英特爾技術專家透露,“通過一鍵部署,原本可能需要數(shù)天才能完成的環(huán)境搭建過程,如今可以縮短至3分鐘左右。”
課程指導方面,英特爾準備了豐富的演示課程和技術文檔,內容涵蓋從基礎環(huán)境搭建、代碼開發(fā)環(huán)境配置,到模型調優(yōu)、性能優(yōu)化等各個環(huán)節(jié)。
這些課程旨在幫助基礎相對薄弱的用戶補齊知識短板,理解技術原理,掌握實際操作技能,從而真正實現(xiàn)能力的進階。
據(jù)悉,這些課程在英特爾官網(wǎng)上免費開放給所有用戶。
正是基于這三大要素的構建,火山引擎云基礎團隊有了提出“一杯咖啡的成本,在云上構建專屬大模型知識庫”的底氣,也為開發(fā)者提供了一條云上新路徑,一條高效通向Agentic AI的路徑。
好文章,需要你的鼓勵
新加坡國立大學研究團隊開發(fā)了SPIRAL框架,通過讓AI與自己對弈零和游戲來提升推理能力。實驗顯示,僅訓練AI玩簡單撲克游戲就能讓其數(shù)學推理能力提升8.6%,通用推理提升8.4%,且無需任何數(shù)學題目作為訓練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉移到數(shù)學解題中,為AI訓練提供了新思路。
同濟大學團隊開發(fā)的GIGA-ToF技術通過融合多幀圖像的"圖結構"信息,創(chuàng)新性地解決了3D相機噪聲問題。該技術利用圖像間的不變幾何關系,結合深度學習和數(shù)學優(yōu)化方法,在合成數(shù)據(jù)集上實現(xiàn)37.9%的精度提升,并在真實設備上展現(xiàn)出色泛化能力,為機器人、AR和自動駕駛等領域提供更可靠的3D視覺解決方案。
伊利諾伊大學研究團隊通過對比實驗發(fā)現(xiàn),經(jīng)過強化學習訓練的視覺語言模型雖然表現(xiàn)出"頓悟時刻"現(xiàn)象,但這些自我糾錯行為并不能實際提升推理準確率。研究揭示了AI模型存在"生成-驗證差距",即生成答案的能力強于驗證答案質量的能力,且模型在自我驗證時無法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機構聯(lián)合提出SparseLoRA技術,通過動態(tài)稀疏性實現(xiàn)大語言模型訓練加速1.6倍,計算成本降低2.2倍。該方法使用SVD稀疏性估計器智能選擇重要計算部分,在保持模型性能的同時顯著提升訓練效率,已在多個任務上驗證有效性。
關注智造、硬件、機器人。