這項(xiàng)由SEACrowd團(tuán)隊(duì)聯(lián)合多所知名機(jī)構(gòu)(包括雅加達(dá)大學(xué)、阿聯(lián)酋MBZUAI大學(xué)、新加坡AI研究院等)完成的研究于2025年6月發(fā)表在預(yù)印本平臺arXiv上。這項(xiàng)突破性研究揭示了大型語言模型內(nèi)部的語言表示對齊現(xiàn)象,并開發(fā)出了一種能在推理時(shí)精確控制語言生成的創(chuàng)新方法。有興趣深入了解的讀者可以通過arXiv:2506.12450訪問完整論文。
在人工智能飛速發(fā)展的今天,大型語言模型已經(jīng)能夠處理多種語言,但它們究竟是如何在內(nèi)部"理解"和"區(qū)分"不同語言的?這就像一個(gè)精通多國語言的翻譯官,他的大腦中是如何組織和調(diào)用不同語言知識的?這項(xiàng)研究就是要揭開這個(gè)神秘面紗,并且找到一種方法讓AI模型能夠在生成文本時(shí)精準(zhǔn)地選擇使用哪種語言。
研究團(tuán)隊(duì)發(fā)現(xiàn),在多語言大型語言模型的"大腦"深處,存在著一個(gè)令人驚訝的現(xiàn)象:不同語言的相同含義在模型的中間層會"對齊"到相似的表示空間中。這就好比一個(gè)多語言翻譯官的大腦中有一個(gè)"概念中央處理器",無論輸入的是英語的"love"還是中文的"愛",在這個(gè)中央處理器中都會激活相同的概念區(qū)域。這種自然出現(xiàn)的對齊現(xiàn)象是模型跨語言能力的關(guān)鍵基礎(chǔ)。
基于這一發(fā)現(xiàn),研究團(tuán)隊(duì)開發(fā)出了一種名為"推理時(shí)語言控制"的技術(shù),簡稱ITLC。這種技術(shù)就像給翻譯官安裝了一個(gè)"語言切換器",能夠在不重新訓(xùn)練模型的情況下,精確控制模型生成特定語言的文本。更重要的是,這種控制不會損害文本的語義完整性,就像一個(gè)熟練的翻譯官可以在保持意思不變的前提下,流暢地在不同語言間切換表達(dá)。
一、多語言模型的"語言地圖":揭秘內(nèi)部表示對齊
要理解這項(xiàng)研究,我們首先需要了解什么是"表示對齊"。可以把大型語言模型想象成一座巨大的圖書館,這座圖書館有很多層。在不同的樓層,相同的知識以不同的方式存儲和組織。研究團(tuán)隊(duì)發(fā)現(xiàn),在圖書館的中間樓層,有一個(gè)特殊的區(qū)域,不同語言表達(dá)的相同概念會被存放在非常接近的位置。
為了驗(yàn)證這個(gè)現(xiàn)象,研究團(tuán)隊(duì)對比了兩種不同類型的多語言模型。第一種是像LaBSE這樣專門設(shè)計(jì)用于語言對齊的模型,就像一個(gè)經(jīng)過專業(yè)訓(xùn)練、專門負(fù)責(zé)跨語言對照的圖書管理員。第二種是像Qwen2.5這樣自然習(xí)得多語言能力的通用模型,就像一個(gè)在多語言環(huán)境中自然成長起來的博學(xué)之士。
通過大量實(shí)驗(yàn),研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象:專門訓(xùn)練的對齊模型在最后一層達(dá)到最高的語言對齊度,而自然習(xí)得的模型則在中間層表現(xiàn)出最強(qiáng)的對齊效果。這就像專業(yè)翻譯官經(jīng)過訓(xùn)練后在"輸出端"表現(xiàn)出強(qiáng)大的跨語言能力,而天然的多語言者在"思考過程中"就自然地將不同語言的概念聯(lián)系在一起。
更深入的分析顯示,這種對齊現(xiàn)象與模型的跨語言泛化能力密切相關(guān)。當(dāng)模型在某個(gè)語言上訓(xùn)練后,它在其他語言上的表現(xiàn)與該語言對在模型內(nèi)部的對齊程度呈正相關(guān)關(guān)系。這意味著,模型內(nèi)部的語言對齊程度越高,它在跨語言任務(wù)上的表現(xiàn)就越好,就像兩種語言在翻譯官腦中聯(lián)系得越緊密,他在這兩種語言間翻譯就越流暢。
二、語言特異性信息的發(fā)現(xiàn)與分離
在探索模型內(nèi)部表示的過程中,研究團(tuán)隊(duì)還發(fā)現(xiàn)了另一個(gè)重要現(xiàn)象:盡管不同語言的相同概念會在中間層對齊,但語言特異性信息(即區(qū)分不同語言的特征)仍然被保留在表示中。這就像一個(gè)翻譯官在理解概念的同時(shí),還能記住這個(gè)概念最初是用哪種語言表達(dá)的。
為了測試這種語言特異性信息的保留程度,研究團(tuán)隊(duì)設(shè)計(jì)了語言識別實(shí)驗(yàn)。他們訓(xùn)練分類器來識別模型內(nèi)部表示對應(yīng)的是哪種語言,這就像測試一個(gè)人能否從翻譯官的"思考模式"中判斷出他正在處理的是哪種語言。
實(shí)驗(yàn)結(jié)果顯示,在對齊程度最高的層中,語言識別的準(zhǔn)確性顯著下降。對于專門訓(xùn)練的LaBSE模型,在最后一層的語言識別準(zhǔn)確性急劇下降到接近隨機(jī)水平,而對于自然習(xí)得的Qwen2.5模型,在中間層的語言識別準(zhǔn)確性下降約30%,但仍保持相當(dāng)?shù)乃?。這個(gè)發(fā)現(xiàn)表明,自然習(xí)得的模型在實(shí)現(xiàn)跨語言對齊的同時(shí),比專門訓(xùn)練的模型保留了更多的語言特異性信息。
這種差異的意義重大:它意味著自然訓(xùn)練的模型在內(nèi)部維持了一個(gè)更加精細(xì)的語言表示系統(tǒng),既能實(shí)現(xiàn)跨語言理解,又能保持對語言身份的敏感性。這為后續(xù)的語言控制技術(shù)奠定了基礎(chǔ),因?yàn)橹挥挟?dāng)模型內(nèi)部仍然保留著區(qū)分不同語言的信息時(shí),我們才能有效地操控這些信息來實(shí)現(xiàn)精確的語言生成控制。
三、推理時(shí)語言控制技術(shù)的創(chuàng)新突破
基于對模型內(nèi)部語言表示的深入理解,研究團(tuán)隊(duì)開發(fā)出了推理時(shí)語言控制技術(shù)。這項(xiàng)技術(shù)的核心思想是:既然模型內(nèi)部存在語言特異性信息,那么我們就可以通過精確操控這些信息來控制模型的語言輸出,而無需重新訓(xùn)練模型。
整個(gè)技術(shù)過程可以比作給翻譯官的大腦安裝一個(gè)精密的"語言調(diào)節(jié)器"。首先,研究團(tuán)隊(duì)使用線性判別分析技術(shù)從模型的中間層表示中提取出語言特異性的特征向量。這個(gè)過程就像從翻譯官的思考模式中分離出不同語言的"指紋"特征。通過分析大量不同語言的文本在模型內(nèi)部的表示,他們構(gòu)建了一個(gè)能夠最大化區(qū)分不同語言的特征空間。
接下來,研究團(tuán)隊(duì)為每種語言構(gòu)建了專門的"語言向量"。這些向量捕獲了每種語言獨(dú)有的特征模式,就像每種語言的"身份證"。通過神經(jīng)網(wǎng)絡(luò)分類器的權(quán)重分析,他們識別出對每種語言最重要的特征維度,然后計(jì)算這些維度上的平均表示,形成該語言的代表性向量。
在實(shí)際應(yīng)用時(shí),語言控制的實(shí)現(xiàn)過程既巧妙又直接。當(dāng)需要將模型從源語言(比如英語)切換到目標(biāo)語言(比如中文)時(shí),技術(shù)會計(jì)算一個(gè)"語言轉(zhuǎn)換向量",這個(gè)向量等于目標(biāo)語言向量減去源語言向量。然后,在模型的推理過程中,這個(gè)轉(zhuǎn)換向量會被注入到模型的中間層表示中,就像給翻譯官的思考過程施加一個(gè)輕微但精確的"語言偏向"。
研究團(tuán)隊(duì)還設(shè)計(jì)了三種不同的注入策略。第一種是"僅提示注入",只在處理輸入提示時(shí)應(yīng)用語言轉(zhuǎn)換,就像在翻譯官開始工作前給他一個(gè)語言提示。第二種是"僅生成注入",只在生成輸出文本時(shí)應(yīng)用轉(zhuǎn)換,就像在翻譯官輸出時(shí)進(jìn)行語言調(diào)節(jié)。第三種是"全程注入",在整個(gè)推理過程中都應(yīng)用語言轉(zhuǎn)換,就像給翻譯官持續(xù)的語言引導(dǎo)。
四、實(shí)驗(yàn)驗(yàn)證:從跨語言生成到語言混淆緩解
為了驗(yàn)證推理時(shí)語言控制技術(shù)的有效性,研究團(tuán)隊(duì)設(shè)計(jì)了兩個(gè)主要的應(yīng)用場景。第一個(gè)場景是跨語言語言生成控制,測試模型能否在接受一種語言的輸入后,精確地用另一種語言進(jìn)行回應(yīng)。第二個(gè)場景是緩解語言混淆問題,這是當(dāng)前大型語言模型面臨的一個(gè)普遍挑戰(zhàn):模型有時(shí)會在應(yīng)該使用目標(biāo)語言的時(shí)候混入其他語言的內(nèi)容。
在跨語言生成測試中,研究團(tuán)隊(duì)使用了包含九種不同語言的數(shù)據(jù)集,涵蓋了從印尼語、泰語到阿拉伯語、中文等不同語系的語言。測試結(jié)果顯示,應(yīng)用了語言控制技術(shù)的模型在語言正確性上有了顯著提升。特別是在英語到其他語言的生成方向上,"全程注入"策略實(shí)現(xiàn)了近乎完美的語言控制,大多數(shù)目標(biāo)語言的正確率都達(dá)到了100%。
更令人印象深刻的是,這種語言控制不僅實(shí)現(xiàn)了語言的精確切換,還保持了生成內(nèi)容的語義質(zhì)量。通過人工評估,研究團(tuán)隊(duì)發(fā)現(xiàn)使用語言控制技術(shù)生成的文本在自然性、相關(guān)性和正確性方面都能與基線模型相媲美,在某些情況下甚至表現(xiàn)更好。這意味著技術(shù)實(shí)現(xiàn)了真正的"無損語言切換"。
在語言混淆緩解實(shí)驗(yàn)中,研究團(tuán)隊(duì)使用了專門的語言混淆基準(zhǔn)測試。這個(gè)基準(zhǔn)測試模擬了真實(shí)使用場景中模型可能遇到的語言混淆情況,比如在應(yīng)該用中文回答的時(shí)候意外混入英文詞匯,或者在多語言對話中語言身份模糊的情況。
實(shí)驗(yàn)結(jié)果顯示,推理時(shí)語言控制技術(shù)在所有測試指標(biāo)上都帶來了顯著改善。語言混淆通過率從基線的29.41%提升到78.93%,行級通過率從19.75%提升到85.08%,詞級通過率也從73.45%提升到77.15%。這些數(shù)據(jù)表明,技術(shù)不僅能在句子層面控制語言輸出,還能在更細(xì)粒度的層面確保語言一致性。
特別值得注意的是,研究團(tuán)隊(duì)發(fā)現(xiàn)從基礎(chǔ)模型中提取的語言向量在經(jīng)過指令調(diào)優(yōu)的模型上同樣有效。這個(gè)發(fā)現(xiàn)具有重要的實(shí)用價(jià)值,因?yàn)樗馕吨Z言控制技術(shù)具有良好的遷移性,不需要為每個(gè)模型版本重新訓(xùn)練語言向量。
五、技術(shù)深度分析:方法論與實(shí)現(xiàn)細(xì)節(jié)
推理時(shí)語言控制技術(shù)的實(shí)現(xiàn)涉及多個(gè)精心設(shè)計(jì)的技術(shù)組件。在語言特征提取階段,研究團(tuán)隊(duì)選擇了線性判別分析作為核心方法,這個(gè)選擇并非偶然。線性判別分析能夠找到最大化不同語言類別間分離度的投影方向,同時(shí)保持計(jì)算效率和可解釋性。
在特征維度的選擇上,研究團(tuán)隊(duì)通過大量實(shí)驗(yàn)確定了100個(gè)主成分作為最優(yōu)配置。他們發(fā)現(xiàn),使用太少的成分會丟失重要的語言區(qū)分信息,而使用太多的成分會引入噪聲,降低語言控制的精確度。100個(gè)成分的配置在語言識別準(zhǔn)確性和未使用方差之間達(dá)到了最佳平衡點(diǎn)。
語言向量的構(gòu)建過程也經(jīng)過了精心優(yōu)化。研究團(tuán)隊(duì)不是簡單地使用所有特征維度,而是根據(jù)神經(jīng)網(wǎng)絡(luò)分類器的權(quán)重來識別對每種語言最重要的特征維度。他們設(shè)定了一個(gè)閾值(0.01),只有權(quán)重超過這個(gè)閾值的維度才被認(rèn)為是該語言的"活躍維度"。這種選擇性方法確保了語言向量只包含最相關(guān)的語言特異性信息。
在語言向量注入的實(shí)現(xiàn)上,研究團(tuán)隊(duì)采用了偽逆變換將低維的語言向量映射回原始的高維表示空間。這個(gè)過程確保了注入的語言信息能夠與模型的原始表示兼容,不會破壞模型內(nèi)部的表示結(jié)構(gòu)。
縮放因子的調(diào)節(jié)是另一個(gè)關(guān)鍵的技術(shù)細(xì)節(jié)。研究團(tuán)隊(duì)發(fā)現(xiàn),不同的注入策略需要不同的最優(yōu)縮放因子:僅提示注入的最優(yōu)因子是0.8,僅生成注入是0.6,而全程注入是0.5。這種差異反映了不同階段的語言控制需要不同強(qiáng)度的干預(yù)。過強(qiáng)的干預(yù)可能會破壞語義完整性,而過弱的干預(yù)則無法實(shí)現(xiàn)有效的語言控制。
六、跨模型泛化能力與實(shí)用性驗(yàn)證
研究團(tuán)隊(duì)特別關(guān)注了技術(shù)的泛化能力,這對于實(shí)際應(yīng)用至關(guān)重要。他們測試了從基礎(chǔ)模型提取的語言向量在指令調(diào)優(yōu)模型上的效果,結(jié)果發(fā)現(xiàn)這種跨模型遷移是高度有效的。在Qwen2.5-0.5B-Instruct模型上,使用基礎(chǔ)模型提取的語言向量仍然能夠達(dá)到81.51%的語言混淆通過率,與使用專門為指令模型提取的語言向量(80.96%)相當(dāng)。
這個(gè)發(fā)現(xiàn)的意義在于,它證明了語言表示的相對幾何結(jié)構(gòu)在模型的后訓(xùn)練過程中保持了穩(wěn)定性。即使模型經(jīng)過了指令調(diào)優(yōu)、偏好調(diào)優(yōu)或強(qiáng)化學(xué)習(xí)等后續(xù)訓(xùn)練,不同語言之間的相對距離關(guān)系仍然基本保持不變。這為技術(shù)的實(shí)際部署提供了重要的便利性,用戶無需為每個(gè)模型變體重新進(jìn)行語言向量提取。
在不同模板和提示策略的測試中,研究團(tuán)隊(duì)發(fā)現(xiàn)結(jié)構(gòu)化模板對跨語言性能有顯著影響。對于基礎(chǔ)模型,引入問答模板雖然降低了單語言性能,但顯著提升了跨語言性能。對于指令調(diào)優(yōu)模型,其自帶的對話模板已經(jīng)為跨語言任務(wù)提供了良好的基礎(chǔ),額外的模板結(jié)構(gòu)化帶來的改善相對有限。
少樣本學(xué)習(xí)的實(shí)驗(yàn)結(jié)果也很有啟發(fā)性。研究團(tuán)隊(duì)發(fā)現(xiàn),增加少樣本示例對基礎(chǔ)模型的跨語言性能有累積的正面效應(yīng),但對指令調(diào)優(yōu)模型的影響較小。這表明指令調(diào)優(yōu)過程已經(jīng)賦予了模型更強(qiáng)的跨語言泛化能力,使其對額外的上下文示例依賴度降低。
七、技術(shù)限制與未來發(fā)展方向
盡管推理時(shí)語言控制技術(shù)展現(xiàn)出了令人印象深刻的效果,但研究團(tuán)隊(duì)也誠實(shí)地指出了當(dāng)前技術(shù)的一些限制。首先,研究主要集中在相對較小的模型(0.5B參數(shù))上,技術(shù)在更大規(guī)模模型上的表現(xiàn)還需要進(jìn)一步驗(yàn)證。隨著模型規(guī)模的增加,內(nèi)部表示的復(fù)雜性也會增加,這可能需要更精細(xì)的語言控制策略。
其次,研究涵蓋的語言種類相對有限,特別是對于低資源語言的測試還不夠充分。不同語言的類型學(xué)特征差異很大,技術(shù)在語言學(xué)距離較遠(yuǎn)的語言對上的表現(xiàn)可能會有所不同。未來的研究需要擴(kuò)展到更多樣化的語言集合,特別是那些在訓(xùn)練數(shù)據(jù)中代表性不足的語言。
人工評估的規(guī)模也是一個(gè)限制因素。目前的人工評估只涵蓋了每種語言30個(gè)樣本,這對于全面評估技術(shù)效果來說相對有限。更大規(guī)模的人工評估將有助于更準(zhǔn)確地衡量技術(shù)的實(shí)際效果,特別是在語義保持和文本質(zhì)量方面。
在技術(shù)機(jī)制方面,當(dāng)前的方法主要依賴于線性變換,這可能無法捕獲語言表示中更復(fù)雜的非線性關(guān)系。未來的研究可能需要探索更sophisticated的特征提取和向量注入方法,以實(shí)現(xiàn)更精確和靈活的語言控制。
八、實(shí)際應(yīng)用前景與社會影響
推理時(shí)語言控制技術(shù)的應(yīng)用前景廣闊,特別是在多語言內(nèi)容生成、機(jī)器翻譯和跨語言人機(jī)交互領(lǐng)域。對于內(nèi)容創(chuàng)作者來說,這項(xiàng)技術(shù)可以大大簡化多語言內(nèi)容的生成流程。以往需要分別訓(xùn)練或微調(diào)不同語言版本的模型,現(xiàn)在可以通過一個(gè)統(tǒng)一的模型加上語言控制技術(shù)來實(shí)現(xiàn)。
在教育領(lǐng)域,這項(xiàng)技術(shù)可以用于構(gòu)建更智能的多語言學(xué)習(xí)系統(tǒng)。系統(tǒng)可以根據(jù)學(xué)習(xí)者的需求動(dòng)態(tài)調(diào)整輸出語言,比如在解釋概念時(shí)使用學(xué)習(xí)者的母語,在練習(xí)時(shí)切換到目標(biāo)語言。這種靈活的語言切換能力將大大提升多語言教育的效率和體驗(yàn)。
對于企業(yè)級應(yīng)用,特別是跨國公司的客戶服務(wù)系統(tǒng),這項(xiàng)技術(shù)可以實(shí)現(xiàn)更自然和一致的多語言支持??头C(jī)器人可以在保持對話連貫性的同時(shí),根據(jù)客戶的語言偏好無縫切換輸出語言,提供更好的用戶體驗(yàn)。
在社會影響方面,這項(xiàng)技術(shù)有助于減少語言障礙,促進(jìn)不同語言社區(qū)之間的交流。特別是對于使用低資源語言的社區(qū),這項(xiàng)技術(shù)可能為他們提供更好的AI服務(wù)體驗(yàn),有助于縮小數(shù)字鴻溝。
然而,技術(shù)的發(fā)展也需要考慮潛在的風(fēng)險(xiǎn)。精確的語言控制能力可能被惡意利用,比如生成特定語言的虛假信息或進(jìn)行有針對性的信息操控。因此,在技術(shù)發(fā)展的同時(shí),也需要建立相應(yīng)的倫理規(guī)范和監(jiān)管機(jī)制。
說到底,這項(xiàng)關(guān)于多語言AI模型"語言手術(shù)"的研究為我們打開了一扇理解AI內(nèi)部工作機(jī)制的新窗口。研究團(tuán)隊(duì)發(fā)現(xiàn)的語言表示對齊現(xiàn)象,就像發(fā)現(xiàn)了AI大腦中的"多語言處理中心",而他們開發(fā)的推理時(shí)語言控制技術(shù),則像是為這個(gè)處理中心安裝了精密的"語言切換器"。
這項(xiàng)技術(shù)的意義遠(yuǎn)超其技術(shù)層面的創(chuàng)新。它展示了我們可以在不重新訓(xùn)練模型的情況下,精確控制AI的行為特征。這種"輕量級干預(yù)"的思路可能會啟發(fā)更多類似的技術(shù)發(fā)展,比如控制AI的寫作風(fēng)格、情感傾向或?qū)I(yè)程度等。
更重要的是,這項(xiàng)研究證明了大型語言模型內(nèi)部存在著我們?nèi)栽谔剿鞯膹?fù)雜結(jié)構(gòu)和機(jī)制。模型的多語言能力不是簡單的記憶和重復(fù),而是通過精妙的內(nèi)部表示組織實(shí)現(xiàn)的。這種理解將有助于我們構(gòu)建更加高效、可控和可解釋的AI系統(tǒng)。
對于普通用戶來說,這項(xiàng)技術(shù)最直接的好處可能是更加自然和可靠的多語言AI體驗(yàn)。不再需要擔(dān)心AI在不合適的時(shí)候混用語言,也不再需要為不同語言需求使用不同的模型。一個(gè)AI助手將能夠根據(jù)需要靈活地在不同語言間切換,就像一個(gè)真正的多語言專家一樣。
當(dāng)然,這項(xiàng)研究也提醒我們,AI技術(shù)的發(fā)展需要更多跨學(xué)科的合作。語言學(xué)、認(rèn)知科學(xué)、計(jì)算機(jī)科學(xué)等領(lǐng)域的知識都對理解和改進(jìn)AI系統(tǒng)至關(guān)重要。只有通過這樣的深度合作,我們才能構(gòu)建出真正理解和服務(wù)人類多樣化需求的AI系統(tǒng)。
隨著這類技術(shù)的不斷發(fā)展,我們或許很快就能看到真正"懂得"多語言交流精髓的AI系統(tǒng)。它們不僅能夠掌握不同語言的詞匯和語法,更能理解不同語言背后的文化內(nèi)涵和表達(dá)習(xí)慣,為人類的跨語言交流架起更加智能的橋梁。
Q&A
Q1:什么是推理時(shí)語言控制技術(shù)?它能做什么? A:推理時(shí)語言控制(ITLC)是一種無需重新訓(xùn)練模型就能精確控制AI語言輸出的技術(shù)。它通過在模型推理過程中注入特定的"語言向量",讓AI能夠按需在不同語言間切換生成文本,同時(shí)保持內(nèi)容的語義完整性。就像給翻譯官安裝了一個(gè)精密的語言切換器。
Q2:這項(xiàng)技術(shù)會不會讓AI生成的內(nèi)容質(zhì)量下降? A:不會。研究顯示,使用語言控制技術(shù)生成的文本在自然性、相關(guān)性和正確性方面都與原始模型相當(dāng),在某些情況下甚至表現(xiàn)更好。技術(shù)實(shí)現(xiàn)了真正的"無損語言切換",既能精確控制語言又能保持內(nèi)容質(zhì)量。
Q3:普通用戶如何使用這項(xiàng)技術(shù)?有什么實(shí)際應(yīng)用? A:目前這項(xiàng)技術(shù)主要應(yīng)用在研究層面,但未來可能集成到各種AI產(chǎn)品中。實(shí)際應(yīng)用包括多語言客服系統(tǒng)、教育軟件、內(nèi)容創(chuàng)作工具等。用戶將能體驗(yàn)到更加自然可靠的多語言AI服務(wù),不用擔(dān)心AI在不合適時(shí)候混用語言。
好文章,需要你的鼓勵(lì)
新加坡國立大學(xué)研究團(tuán)隊(duì)開發(fā)了SPIRAL框架,通過讓AI與自己對弈零和游戲來提升推理能力。實(shí)驗(yàn)顯示,僅訓(xùn)練AI玩簡單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟(jì)大學(xué)團(tuán)隊(duì)開發(fā)的GIGA-ToF技術(shù)通過融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機(jī)噪聲問題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實(shí)現(xiàn)37.9%的精度提升,并在真實(shí)設(shè)備上展現(xiàn)出色泛化能力,為機(jī)器人、AR和自動(dòng)駕駛等領(lǐng)域提供更可靠的3D視覺解決方案。
伊利諾伊大學(xué)研究團(tuán)隊(duì)通過對比實(shí)驗(yàn)發(fā)現(xiàn),經(jīng)過強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺語言模型雖然表現(xiàn)出"頓悟時(shí)刻"現(xiàn)象,但這些自我糾錯(cuò)行為并不能實(shí)際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗(yàn)證差距",即生成答案的能力強(qiáng)于驗(yàn)證答案質(zhì)量的能力,且模型在自我驗(yàn)證時(shí)無法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過動(dòng)態(tài)稀疏性實(shí)現(xiàn)大語言模型訓(xùn)練加速1.6倍,計(jì)算成本降低2.2倍。該方法使用SVD稀疏性估計(jì)器智能選擇重要計(jì)算部分,在保持模型性能的同時(shí)顯著提升訓(xùn)練效率,已在多個(gè)任務(wù)上驗(yàn)證有效性。