這項(xiàng)由臺灣國立大學(xué)的林熙哲、余育竹、張凱博和NVIDIA的王宇強(qiáng)教授共同完成的突破性研究發(fā)表于2025年6月,論文題目為《EMLoC: Emulator-based Memory-efficient Fine-tuning with LoRA Correction》。有興趣深入了解的讀者可以通過arXiv:2506.12015v1訪問完整論文。這個研究團(tuán)隊(duì)解決了一個困擾無數(shù)AI愛好者和研究者的現(xiàn)實(shí)難題:如何在普通消費(fèi)級顯卡上訓(xùn)練超大型AI模型。
要理解這項(xiàng)研究的重要性,我們可以先想象這樣一個場景。假設(shè)你是一個對AI充滿熱情的程序員,你想讓一個強(qiáng)大的AI模型學(xué)會理解你特定領(lǐng)域的專業(yè)知識,比如醫(yī)學(xué)影像診斷或者法律文件分析。然而,當(dāng)你興沖沖地開始訓(xùn)練時,卻發(fā)現(xiàn)你的24GB顯卡根本無法承載這個龐大模型的訓(xùn)練過程,盡管它在推理時運(yùn)行得很好。這就像你的廚房雖然能容納一個大烤箱來烤蛋糕,但卻沒有足夠空間來準(zhǔn)備制作蛋糕所需的所有材料和工具。
傳統(tǒng)上,人們面臨這種困境時只有兩個選擇。第一個選擇是降低標(biāo)準(zhǔn),使用一個較小的模型進(jìn)行訓(xùn)練,這樣雖然能在現(xiàn)有硬件上運(yùn)行,但就像用小烤箱烤蛋糕一樣,最終的效果會大打折扣,無法發(fā)揮大模型的強(qiáng)大能力。第二個選擇是堅(jiān)持使用大模型,但訓(xùn)練時會因?yàn)閮?nèi)存不足而崩潰,就像試圖在小廚房里擺放過多廚具,最終什么都做不了。
研究團(tuán)隊(duì)提出的EMLoC方法就像是為這個難題提供了一個巧妙的解決方案。他們的核心思想是創(chuàng)建一個"模擬器",這個模擬器就像是原始大模型的簡化版本,但保留了最重要的特征和能力。在這個模擬器上進(jìn)行訓(xùn)練就像在一個縮小版的廚房里練習(xí)烹飪技巧,雖然空間有限,但你學(xué)到的技能完全可以轉(zhuǎn)移到真正的大廚房中使用。
整個訓(xùn)練過程可以分為三個精心設(shè)計(jì)的階段。第一階段是構(gòu)建這個智能模擬器。研究團(tuán)隊(duì)不是簡單地縮小模型,而是使用了一種叫做"激活感知奇異值分解"的技術(shù)。這個名稱聽起來很復(fù)雜,但實(shí)際上就像是一個智能的模型壓縮工具。它會分析你要訓(xùn)練的具體任務(wù),然后保留對這個任務(wù)最重要的模型部分,刪除那些不太相關(guān)的部分。就像一個經(jīng)驗(yàn)豐富的搬家工人,他知道在搬到小房子時應(yīng)該保留哪些最重要的家具,丟棄哪些可有可無的物品。
第二階段是在這個模擬器上進(jìn)行實(shí)際的訓(xùn)練。這個過程使用了一種叫做LoRA的技術(shù),它不會修改模型的核心部分,而是添加一些小的"適配器"來學(xué)習(xí)新知識。這就像在原有的家具上添加一些小配件來適應(yīng)新的使用需求,而不是更換整套家具。由于模擬器比原始模型小得多,這個訓(xùn)練過程可以在普通的消費(fèi)級顯卡上順利進(jìn)行。
第三階段是最關(guān)鍵的創(chuàng)新部分,研究團(tuán)隊(duì)稱之為"LoRA校正"。由于訓(xùn)練是在簡化的模擬器上進(jìn)行的,直接將學(xué)到的知識轉(zhuǎn)移到原始大模型上可能會出現(xiàn)不匹配的問題,就像在小廚房里練習(xí)的烹飪技巧需要在大廚房里進(jìn)行調(diào)整才能達(dá)到最佳效果。研究團(tuán)隊(duì)開發(fā)了一套智能校正算法,能夠自動調(diào)整這些學(xué)到的適配器,使它們在原始大模型上也能完美工作。
一、突破性的內(nèi)存效率革命
傳統(tǒng)的AI模型訓(xùn)練就像搬家時需要同時準(zhǔn)備三套完整的家具:一套是現(xiàn)有的家具(模型參數(shù)),一套是臨時存儲的物品(中間激活值),還有一套是搬家工具和材料(優(yōu)化器狀態(tài))。EMLoC的革命性突破在于它大幅減少了第一套"家具"的數(shù)量,通過創(chuàng)建一個精心設(shè)計(jì)的簡化版本來代替龐大的原始模型。
這種方法的巧妙之處在于它不是盲目地刪除模型組件,而是像一個經(jīng)驗(yàn)豐富的建筑師設(shè)計(jì)房屋時會考慮居住者的具體需求一樣,根據(jù)具體的訓(xùn)練任務(wù)來定制這個簡化版本。研究團(tuán)隊(duì)使用了一種叫做激活感知SVD的技術(shù),這個技術(shù)會分析一小部分目標(biāo)任務(wù)的數(shù)據(jù),理解哪些模型組件對這個特定任務(wù)最重要,然后保留這些關(guān)鍵部分,同時用更簡潔的方式表示其他部分。
具體來說,假設(shè)你要訓(xùn)練一個AI模型來理解醫(yī)學(xué)影像,那么模型中負(fù)責(zé)識別邊緣和形狀的部分可能比負(fù)責(zé)理解顏色的部分更重要。激活感知SVD就會重點(diǎn)保留前者,對后者進(jìn)行更大程度的簡化。這種智能化的簡化過程確保了模擬器雖然體積更小,但對特定任務(wù)的理解能力并不會顯著下降。
研究結(jié)果顯示,這種方法可以將訓(xùn)練時的內(nèi)存需求降低到與推理時幾乎相同的水平。這意味著如果你的顯卡能夠運(yùn)行一個38B參數(shù)的大模型進(jìn)行推理,那么使用EMLoC方法,你也能在同樣的硬件上對這個模型進(jìn)行訓(xùn)練。這個突破讓原本只有大型科技公司和研究機(jī)構(gòu)才能負(fù)擔(dān)的大模型訓(xùn)練變得平民化,任何擁有消費(fèi)級顯卡的個人開發(fā)者都能參與到AI模型的定制化訓(xùn)練中。
更令人驚喜的是,這種方法不僅適用于單一類型的模型或任務(wù),它具有很強(qiáng)的通用性。無論是處理圖像的視覺模型、理解文本的語言模型,還是同時處理圖像和文本的多模態(tài)模型,EMLoC都能有效地降低訓(xùn)練內(nèi)存需求。研究團(tuán)隊(duì)在多個不同的任務(wù)上驗(yàn)證了這種方法的有效性,包括圖表問答、文檔理解、信息圖表分析等各種復(fù)雜的AI任務(wù)。
二、智能模擬器構(gòu)建的科學(xué)藝術(shù)
構(gòu)建一個既小巧又有效的模擬器絕非易事,這個過程需要在模型大小和性能之間找到微妙的平衡點(diǎn)。研究團(tuán)隊(duì)面臨的挑戰(zhàn)就像一個珠寶設(shè)計(jì)師需要在保持鉆石璀璨光澤的同時將其切割得更小巧精致。他們不能簡單地隨機(jī)刪除模型組件,因?yàn)檫@樣可能會破壞模型的核心能力。
EMLoC采用的激活感知奇異值分解技術(shù)是這個過程的核心。這個技術(shù)的工作原理可以用制作濃縮湯的過程來類比。當(dāng)你想制作濃縮湯時,你不會隨機(jī)地丟棄食材,而是會保留那些最能體現(xiàn)湯味精華的成分,同時去除多余的水分和不太重要的配料。激活感知SVD也是如此,它通過分析模型在處理特定任務(wù)時的"激活模式",識別出哪些模型參數(shù)對任務(wù)貢獻(xiàn)最大,然后用數(shù)學(xué)方法保留這些關(guān)鍵信息,同時用更緊湊的形式表示其他信息。
這個過程需要一小批來自目標(biāo)任務(wù)的校準(zhǔn)數(shù)據(jù),通常只需要64個樣本就足夠了。這些樣本就像是味覺測試員品嘗湯的樣品,幫助算法理解什么樣的模型組件對這個特定任務(wù)最重要。值得注意的是,這個校準(zhǔn)過程非常高效,通常在幾分鐘內(nèi)就能完成,不需要進(jìn)行耗時的預(yù)訓(xùn)練或其他復(fù)雜操作。
模擬器構(gòu)建完成后,它保持了與原始模型相同的架構(gòu)結(jié)構(gòu),這意味著任何原本可以應(yīng)用于原始模型的訓(xùn)練技術(shù)都可以無縫地應(yīng)用于模擬器。這種設(shè)計(jì)的巧妙之處在于它為用戶提供了完全的靈活性,無論你想使用什么樣的訓(xùn)練策略或技術(shù),都不需要對現(xiàn)有的訓(xùn)練流程進(jìn)行修改。
研究團(tuán)隊(duì)還發(fā)現(xiàn),模擬器的壓縮比例可以根據(jù)可用的硬件資源靈活調(diào)整。如果你的顯卡內(nèi)存較小,可以創(chuàng)建壓縮比例更高的模擬器。如果你有更多的內(nèi)存空間,可以保留更多的模型細(xì)節(jié)。這種靈活性使得EMLoC能夠適應(yīng)各種不同的硬件配置,從高端的專業(yè)顯卡到普通的消費(fèi)級顯卡都能從中受益。
三、LoRA校正算法的精密工程
當(dāng)你在一個縮小版的廚房里學(xué)會了烹飪技巧后,要在正常大小的廚房里應(yīng)用這些技巧時,往往需要進(jìn)行一些調(diào)整?;鸷虻目刂啤⒄{(diào)料的分量、烹飪時間等都可能需要相應(yīng)的修改。EMLoC面臨的挑戰(zhàn)與此類似:在簡化模擬器上訓(xùn)練得到的LoRA模塊需要經(jīng)過精心調(diào)整才能在原始大模型上發(fā)揮最佳效果。
研究團(tuán)隊(duì)開發(fā)的LoRA校正算法就是為了解決這個"適配"問題。這個算法的核心思想是測量原始模型和模擬器之間的差異,然后對LoRA模塊進(jìn)行相應(yīng)的補(bǔ)償調(diào)整。整個過程可以想象成一個經(jīng)驗(yàn)豐富的調(diào)音師在調(diào)整鋼琴,他會仔細(xì)聆聽每個琴鍵的音調(diào),然后進(jìn)行精確的調(diào)整以確保整體的和諧。
校正過程首先會分析LoRA模塊的內(nèi)部結(jié)構(gòu),將其分解為更容易處理的組件。這就像將一個復(fù)雜的機(jī)械裝置拆解為基本零件,以便更好地理解每個部分的功能。然后,算法會計(jì)算當(dāng)同樣的輸入數(shù)據(jù)通過原始模型和模擬器時產(chǎn)生的輸出差異,這些差異信息就像是"誤差地圖",顯示了需要進(jìn)行校正的具體方向和程度。
基于這些差異信息,校正算法會對LoRA模塊的參數(shù)進(jìn)行精確調(diào)整。這個調(diào)整過程非常精細(xì),它不會大幅度地改變LoRA模塊學(xué)到的知識,而是進(jìn)行微妙的"微調(diào)"以消除模型間的不匹配。為了防止過度校正可能帶來的負(fù)面影響,算法還引入了一個智能的約束機(jī)制,確保校正的幅度保持在合理范圍內(nèi)。
研究團(tuán)隊(duì)在設(shè)計(jì)這個校正算法時特別注意了一個重要原則:校正應(yīng)該只在LoRA模塊"活躍"的區(qū)域進(jìn)行。這就像醫(yī)生進(jìn)行手術(shù)時會避免影響健康的組織,只對有問題的部分進(jìn)行處理。這種精確的定向校正確保了原始模型的其他能力不會受到意外影響,同時最大化了LoRA模塊在目標(biāo)任務(wù)上的表現(xiàn)。
四、多樣化實(shí)驗(yàn)驗(yàn)證的豐富成果
為了證明EMLoC方法的有效性和通用性,研究團(tuán)隊(duì)進(jìn)行了一系列廣泛而深入的實(shí)驗(yàn)驗(yàn)證。這些實(shí)驗(yàn)就像是對一個新藥物進(jìn)行全面的臨床試驗(yàn),需要在各種不同的條件和環(huán)境下測試其效果和安全性。
在視覺問答任務(wù)的測試中,研究團(tuán)隊(duì)選擇了七個具有代表性的數(shù)據(jù)集,這些數(shù)據(jù)集涵蓋了從通用知識問答到專業(yè)領(lǐng)域應(yīng)用的各種場景。比如ChartQA專注于圖表理解,DocVQA處理文檔分析,而PMC-VQA則專門針對醫(yī)學(xué)影像理解。在這些測試中,EMLoC表現(xiàn)出了令人印象深刻的一致性和可靠性。
最引人注目的是EMLoC在大模型上的表現(xiàn)。研究團(tuán)隊(duì)成功地在一張24GB的消費(fèi)級顯卡上訓(xùn)練了38B參數(shù)的超大模型,這在傳統(tǒng)方法下是完全不可能實(shí)現(xiàn)的。正常情況下,訓(xùn)練這樣規(guī)模的模型需要95GB以上的顯存,這意味著你需要專業(yè)的數(shù)據(jù)中心級別的硬件。EMLoC將這個門檻降低到了普通AI愛好者和小型研究團(tuán)隊(duì)也能承受的水平。
在與其他內(nèi)存優(yōu)化方法的比較中,EMLoC展現(xiàn)出了明顯的優(yōu)勢。相比于簡單使用小模型的方法,EMLoC在幾乎所有任務(wù)上都取得了更好的性能表現(xiàn)。與其他復(fù)雜的內(nèi)存優(yōu)化技術(shù)相比,EMLoC不僅效果更好,而且使用起來更加簡便,不需要復(fù)雜的預(yù)設(shè)置或特殊的硬件要求。
研究團(tuán)隊(duì)還測試了EMLoC在不同壓縮比例下的表現(xiàn)。他們發(fā)現(xiàn)即使將模型壓縮到原始大小的25%,EMLoC仍然能夠保持接近原始模型的性能水平。這種強(qiáng)大的壓縮能力意味著用戶可以根據(jù)自己的硬件條件靈活選擇合適的壓縮比例,在性能和資源消耗之間找到最佳平衡點(diǎn)。
為了驗(yàn)證方法的跨領(lǐng)域適用性,研究團(tuán)隊(duì)還在自然語言處理任務(wù)上進(jìn)行了測試。結(jié)果顯示EMLoC不僅在視覺相關(guān)任務(wù)上表現(xiàn)出色,在純文本處理任務(wù)中也展現(xiàn)出了良好的效果。這種跨模態(tài)的成功應(yīng)用證明了EMLoC方法的通用性和廣泛適用性。
五、實(shí)際應(yīng)用中的突破性影響
EMLoC的出現(xiàn)為AI領(lǐng)域帶來了深遠(yuǎn)的影響,這種影響可以從多個角度來理解。首先,它大大降低了AI模型定制化的門檻。在此之前,想要對大型AI模型進(jìn)行個性化訓(xùn)練通常需要昂貴的專業(yè)硬件,這使得只有大型科技公司和資金充足的研究機(jī)構(gòu)才能負(fù)擔(dān)得起?,F(xiàn)在,任何擁有一臺配備了中等性能顯卡的個人電腦的用戶都可以對世界上最先進(jìn)的AI模型進(jìn)行定制化訓(xùn)練。
這種技術(shù)民主化的意義非常深遠(yuǎn)。它就像是將原本只有專業(yè)實(shí)驗(yàn)室才能使用的高端顯微鏡變成了普通學(xué)校也能負(fù)擔(dān)得起的教學(xué)設(shè)備。這意味著更多的創(chuàng)新想法能夠得到實(shí)現(xiàn),更多的專業(yè)領(lǐng)域能夠受益于AI技術(shù)的個性化應(yīng)用。
在醫(yī)療領(lǐng)域,EMLoC使得小型醫(yī)院和診所也能夠訓(xùn)練專門針對其患者群體特征的AI診斷模型。在教育領(lǐng)域,學(xué)??梢愿鶕?jù)自己學(xué)生的特點(diǎn)訓(xùn)練個性化的AI輔導(dǎo)系統(tǒng)。在商業(yè)應(yīng)用中,中小企業(yè)可以開發(fā)專門針對其客戶需求的AI助手,而不需要依賴大型科技公司提供的通用解決方案。
研究團(tuán)隊(duì)還展示了EMLoC在圖像生成任務(wù)中的應(yīng)用潛力。他們將這種方法應(yīng)用于DreamBooth個性化圖像生成,成功地在普通消費(fèi)級硬件上訓(xùn)練了12B參數(shù)的FLUX擴(kuò)散模型。這個應(yīng)用展示了EMLoC不僅適用于理解型AI任務(wù),也能很好地支持生成型AI應(yīng)用。
從技術(shù)發(fā)展的角度來看,EMLoC代表了一種全新的思路。傳統(tǒng)的內(nèi)存優(yōu)化方法通常專注于優(yōu)化訓(xùn)練過程中的某個特定環(huán)節(jié),比如優(yōu)化器狀態(tài)或中間激活值的存儲。EMLoC的創(chuàng)新在于它從根本上重新思考了訓(xùn)練和推理之間的關(guān)系,提出了"訓(xùn)練時使用簡化模型,推理時使用完整模型"的新范式。
這種方法的另一個重要優(yōu)勢是它對現(xiàn)有訓(xùn)練流程的兼容性。用戶不需要學(xué)習(xí)新的訓(xùn)練框架或修改現(xiàn)有的代碼,EMLoC可以作為一個"即插即用"的解決方案集成到現(xiàn)有的工作流程中。這種無縫集成的特性大大降低了技術(shù)采用的成本和復(fù)雜性。
六、技術(shù)細(xì)節(jié)的深度解析
深入了解EMLoC的技術(shù)實(shí)現(xiàn)細(xì)節(jié),我們可以更好地理解這個方法為什么如此有效。整個系統(tǒng)的設(shè)計(jì)體現(xiàn)了研究團(tuán)隊(duì)對AI模型訓(xùn)練過程的深刻理解和巧妙的工程實(shí)現(xiàn)。
在模擬器構(gòu)建階段,激活感知SVD技術(shù)的使用不是隨意選擇的,而是基于對神經(jīng)網(wǎng)絡(luò)工作原理的深入分析。神經(jīng)網(wǎng)絡(luò)中的每個線性層都可以用數(shù)學(xué)矩陣來表示,而SVD是一種能夠找到矩陣中最重要信息的數(shù)學(xué)工具。傳統(tǒng)的SVD會基于矩陣本身的數(shù)學(xué)特性進(jìn)行分解,但激活感知SVD更進(jìn)一步,它考慮了這些矩陣在實(shí)際處理特定任務(wù)時的行為模式。
這種差異就像兩種不同的圖書管理方式。傳統(tǒng)方法可能會根據(jù)書籍的物理特征(比如大小、重量)來決定保留哪些書,而激活感知方法則會根據(jù)讀者實(shí)際借閱的頻率和偏好來做決定。顯然,后者能夠更好地滿足實(shí)際需求。
LoRA校正算法的數(shù)學(xué)原理同樣精巧。當(dāng)LoRA模塊在模擬器上訓(xùn)練時,它學(xué)到的是如何在簡化環(huán)境中解決問題。但當(dāng)這個模塊被轉(zhuǎn)移到完整模型上時,環(huán)境發(fā)生了變化,就像一個習(xí)慣了在海拔較低地區(qū)跑步的運(yùn)動員突然到高原上比賽一樣,需要進(jìn)行適應(yīng)性調(diào)整。
校正算法通過數(shù)學(xué)分析確定了這種"環(huán)境變化"的具體影響,然后計(jì)算出需要對LoRA模塊進(jìn)行什么樣的調(diào)整來補(bǔ)償這種影響。整個過程是完全自動化的,不需要人工干預(yù)或復(fù)雜的超參數(shù)調(diào)整。
研究團(tuán)隊(duì)在實(shí)現(xiàn)過程中還考慮了許多實(shí)際的工程問題。比如,如何確保校正過程的數(shù)值穩(wěn)定性,如何防止校正幅度過大導(dǎo)致的負(fù)面影響,如何在不同的硬件配置上保持一致的性能表現(xiàn)等。這些看似微小的技術(shù)細(xì)節(jié)往往決定了一個研究成果能否在實(shí)際應(yīng)用中取得成功。
在內(nèi)存管理方面,EMLoC采用了多種優(yōu)化策略的組合。除了通過模擬器減少模型參數(shù)的內(nèi)存占用外,它還與現(xiàn)有的梯度檢查點(diǎn)、混合精度訓(xùn)練等技術(shù)完美兼容,進(jìn)一步降低了整體的內(nèi)存需求。這種多層次的優(yōu)化策略確保了在各種不同的硬件配置下都能取得理想的效果。
說到底,EMLoC這項(xiàng)研究為AI技術(shù)的普及和民主化開辟了一條新的道路。它不僅解決了一個重要的技術(shù)問題,更重要的是,它改變了我們對AI模型訓(xùn)練資源需求的認(rèn)知。過去,訓(xùn)練大型AI模型似乎是一個遙不可及的目標(biāo),只有少數(shù)擁有海量資源的機(jī)構(gòu)才能參與?,F(xiàn)在,這個門檻被大大降低了,讓更多的創(chuàng)新者和研究者能夠參與到AI技術(shù)的發(fā)展中來。
這種技術(shù)民主化的意義遠(yuǎn)超技術(shù)本身。當(dāng)更多的人能夠參與到AI模型的訓(xùn)練和定制中時,我們將看到更多樣化的應(yīng)用場景,更貼近實(shí)際需求的解決方案,以及更具創(chuàng)新性的技術(shù)突破。EMLoC不僅是一個優(yōu)秀的技術(shù)成果,更是一個推動整個AI領(lǐng)域向更開放、更包容方向發(fā)展的重要推手。
對于那些一直渴望在AI領(lǐng)域進(jìn)行深入探索但受限于硬件條件的開發(fā)者和研究者來說,EMLoC提供了一個全新的可能性。你不再需要等待擁有昂貴的專業(yè)設(shè)備,也不需要依賴于大型云計(jì)算平臺的高昂費(fèi)用。只要你有想法、有熱情,就能在自己的電腦上實(shí)現(xiàn)那些曾經(jīng)看似不可能的AI應(yīng)用。
這項(xiàng)研究的完整技術(shù)細(xì)節(jié)和實(shí)現(xiàn)代碼已經(jīng)通過學(xué)術(shù)渠道公開發(fā)布,感興趣的讀者可以通過訪問項(xiàng)目主頁hsi-che-lin.github.io/EMLoC獲取更多信息。研究團(tuán)隊(duì)的這種開放共享的態(tài)度進(jìn)一步體現(xiàn)了他們推動技術(shù)民主化的理念,讓這項(xiàng)突破性的技術(shù)能夠真正惠及更廣泛的用戶群體。
Q&A
Q1:EMLoC是什么?它解決了什么問題? A:EMLoC是一種革命性的AI模型訓(xùn)練方法,它解決了在普通消費(fèi)級顯卡上訓(xùn)練超大型AI模型的難題。傳統(tǒng)上,訓(xùn)練大模型需要比推理多得多的顯存,EMLoC通過創(chuàng)建智能"模擬器"將訓(xùn)練內(nèi)存需求降低到與推理相同的水平,讓普通用戶也能在家用電腦上訓(xùn)練38B參數(shù)的大模型。
Q2:用EMLoC訓(xùn)練的模型效果會不會比正常訓(xùn)練的差很多? A:不會。研究結(jié)果顯示EMLoC訓(xùn)練的模型性能非常接近直接在原始大模型上訓(xùn)練的效果,在多個測試任務(wù)中甚至表現(xiàn)更好。這得益于其智能的模擬器構(gòu)建和精確的LoRA校正算法,確保了訓(xùn)練質(zhì)量不會因?yàn)閮?nèi)存優(yōu)化而顯著下降。
Q3:普通人現(xiàn)在就能使用EMLoC技術(shù)嗎?有什么要求? A:目前EMLoC的研究成果和代碼已經(jīng)公開發(fā)布,技術(shù)愛好者可以通過項(xiàng)目主頁hsi-che-lin.github.io/EMLoC獲取相關(guān)資源。使用要求相對簡單:一張24GB顯存的消費(fèi)級顯卡就能訓(xùn)練38B參數(shù)的大模型,相比傳統(tǒng)方法需要的95GB顯存大幅降低了硬件門檻。
好文章,需要你的鼓勵
新加坡國立大學(xué)研究團(tuán)隊(duì)開發(fā)了SPIRAL框架,通過讓AI與自己對弈零和游戲來提升推理能力。實(shí)驗(yàn)顯示,僅訓(xùn)練AI玩簡單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟(jì)大學(xué)團(tuán)隊(duì)開發(fā)的GIGA-ToF技術(shù)通過融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機(jī)噪聲問題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實(shí)現(xiàn)37.9%的精度提升,并在真實(shí)設(shè)備上展現(xiàn)出色泛化能力,為機(jī)器人、AR和自動駕駛等領(lǐng)域提供更可靠的3D視覺解決方案。
伊利諾伊大學(xué)研究團(tuán)隊(duì)通過對比實(shí)驗(yàn)發(fā)現(xiàn),經(jīng)過強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺語言模型雖然表現(xiàn)出"頓悟時刻"現(xiàn)象,但這些自我糾錯行為并不能實(shí)際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗(yàn)證差距",即生成答案的能力強(qiáng)于驗(yàn)證答案質(zhì)量的能力,且模型在自我驗(yàn)證時無法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過動態(tài)稀疏性實(shí)現(xiàn)大語言模型訓(xùn)練加速1.6倍,計(jì)算成本降低2.2倍。該方法使用SVD稀疏性估計(jì)器智能選擇重要計(jì)算部分,在保持模型性能的同時顯著提升訓(xùn)練效率,已在多個任務(wù)上驗(yàn)證有效性。