在人工智能迅猛發(fā)展的今天,大型語言模型(LLM)的推理能力越來越強(qiáng),但這種能力提升往往伴隨著計算資源的大量消耗。由香港中文大學(xué)的鐘嘉源、李澤炬、徐志健、溫相宇、李可志和許強(qiáng)教授組成的研究團(tuán)隊(duì)于2025年5月17日發(fā)布了一項(xiàng)創(chuàng)新研究,論文標(biāo)題為《Solve-Detect-Verify: 具有靈活生成式驗(yàn)證器的推理時擴(kuò)展》(arXiv:2505.11966v1),這項(xiàng)工作為解決AI推理過程中的效率與準(zhǔn)確性平衡問題提供了全新思路。
想象一下,如果你雇傭了一個聰明的助手幫你解數(shù)學(xué)題。這個助手很認(rèn)真,會一步步寫下解題過程,但有時會思考過度,寫很多不必要的步驟;而且當(dāng)他寫完后,你還需要另一個人來檢查答案是否正確。如果檢查者很謹(jǐn)慎,檢查過程會很詳細(xì)但很耗時;如果檢查太草率,可能會漏掉錯誤。這就是當(dāng)今AI系統(tǒng)面臨的困境。
香港中文大學(xué)的研究團(tuán)隊(duì)針對這一問題提出了兩個關(guān)鍵創(chuàng)新:第一,他們設(shè)計了一個名為FlexiVe的靈活驗(yàn)證器,就像一個聰明的檢查員,能根據(jù)問題的復(fù)雜度自動調(diào)整檢查的詳細(xì)程度;第二,他們開發(fā)了一個完整的"解決-檢測-驗(yàn)證"(Solve-Detect-Verify)流程,讓AI系統(tǒng)知道何時應(yīng)該停止思考,并適時進(jìn)行驗(yàn)證。
這套系統(tǒng)的核心靈感來自于心理學(xué)家丹尼爾·卡尼曼提出的"思考,快與慢"理論。就像人類有時會快速直覺判斷,有時會深入分析思考一樣,F(xiàn)lexiVe也具備"快思考"和"慢思考"兩種模式。對于簡單明確的問題,它會快速驗(yàn)證;遇到復(fù)雜疑難的問題,才會啟動詳細(xì)的推理驗(yàn)證。
研究結(jié)果令人振奮:在多個數(shù)學(xué)推理基準(zhǔn)測試上,這套系統(tǒng)不僅提高了準(zhǔn)確率,還大幅降低了計算成本。例如,在AIME 2024基準(zhǔn)測試中,與傳統(tǒng)方法相比,該系統(tǒng)僅使用四分之一的計算資源就達(dá)到了更高的準(zhǔn)確率。
這項(xiàng)研究的價值不僅在于技術(shù)突破,更在于為人工智能的發(fā)展提供了新范式:如何讓AI系統(tǒng)像人類一樣,根據(jù)問題難度靈活調(diào)整思考方式和資源分配,做到既高效又準(zhǔn)確。這對未來AI系統(tǒng)在教育、科研、商業(yè)決策等領(lǐng)域的廣泛應(yīng)用具有重要意義。
一、研究背景:AI推理的效率與準(zhǔn)確性困境
在人工智能領(lǐng)域,最近的大型語言模型(LLM)在處理復(fù)雜推理任務(wù)方面取得了長足進(jìn)步。這些模型,如同一位認(rèn)真思考的學(xué)者,會生成詳細(xì)的、一步步解釋的推理過程,就像我們在解決復(fù)雜數(shù)學(xué)題時會在草稿紙上寫下每個步驟。
然而,這種深入思考的能力雖然提高了解決問題的準(zhǔn)確性,卻帶來了一個明顯的權(quán)衡問題:計算效率。想象你在準(zhǔn)備一場重要考試,可以選擇快速做更多題目但可能出錯,或者花大量時間仔細(xì)做少量題目以確保正確。AI系統(tǒng)面臨著類似的困境。
香港中文大學(xué)的研究團(tuán)隊(duì)發(fā)現(xiàn),這些模型在生成推理過程時經(jīng)常會表現(xiàn)出"過度思考"的傾向。就像我們有時會反復(fù)檢查一道已經(jīng)解出的數(shù)學(xué)題,模型也會生成冗長的、有時甚至是多余的推理步驟。這種現(xiàn)象導(dǎo)致了大量計算資源的浪費(fèi),而這些額外的計算有時僅帶來微小的準(zhǔn)確率提升。
更復(fù)雜的是,驗(yàn)證這些推理過程的正確性又引入了新的挑戰(zhàn)。傳統(tǒng)的驗(yàn)證方法面臨兩難境地:一方面,像生成式獎勵模型(GenRM)這樣復(fù)雜而強(qiáng)大的驗(yàn)證器雖然能提供詳細(xì)的反饋,但如果在每個推理步驟都應(yīng)用,會導(dǎo)致計算成本大幅上升;另一方面,更簡單的驗(yàn)證方法雖然速度快,但可能缺乏可靠性,就像一個匆忙的批改者可能會忽略細(xì)微的錯誤。
研究團(tuán)隊(duì)還注意到另一個效率問題:模型在推理過程中常常表現(xiàn)出"自我修正"的行為。它們會生成表示猶豫的詞語(如"嗯"、"讓我再檢查一下"),甚至在已經(jīng)隱含地得出正確結(jié)果后,仍繼續(xù)進(jìn)行冗余的內(nèi)部驗(yàn)證步驟。這種持續(xù)的生成過程,如同一個不確定的學(xué)生反復(fù)檢查自己的答案,會消耗大量計算資源而沒有實(shí)質(zhì)性的準(zhǔn)確率提升。
這種復(fù)雜的權(quán)衡關(guān)系揭示了一個明確的方法學(xué)空白:我們需要一個靈活的驗(yàn)證器,能夠根據(jù)任務(wù)復(fù)雜度動態(tài)調(diào)整其計算投入,在推理速度和準(zhǔn)確性之間取得平衡;同時,我們需要一個智能的推理時間框架,能夠戰(zhàn)略性地部署這種驗(yàn)證器,并通過減少不必要的計算來簡化整體推理過程。
為了解決這些挑戰(zhàn),研究團(tuán)隊(duì)提出了兩個主要貢獻(xiàn):FlexiVe(靈活生成式驗(yàn)證器)和Solve-Detect-Verify推理框架。這些創(chuàng)新方法從根本上改變了AI系統(tǒng)處理復(fù)雜推理任務(wù)的方式,為提高效率同時保持準(zhǔn)確性提供了新途徑。
二、FlexiVe:模擬人類思維的靈活驗(yàn)證器
FlexiVe是香港中文大學(xué)研究團(tuán)隊(duì)設(shè)計的一種創(chuàng)新驗(yàn)證器,其靈感來源于人類思維的雙重處理模式。就像我們在日常生活中,有時會快速直覺地作出判斷(例如看到紅燈立即停下),有時則會進(jìn)行深入的分析思考(如解決一道復(fù)雜的數(shù)學(xué)問題),F(xiàn)lexiVe也具備"快思考"和"慢思考"兩種模式。
"快思考"模式下,F(xiàn)lexiVe像是一位經(jīng)驗(yàn)豐富的老師快速瀏覽學(xué)生的答卷。它不會詳細(xì)分析每一個步驟,而是通過簡潔有效的方式快速識別可能存在的錯誤。這種模式受到了麻省理工學(xué)院最近研究的啟發(fā),該研究表明模型無需詳細(xì)"思考"也能有效推理。但研究團(tuán)隊(duì)進(jìn)一步改進(jìn)了這種方法,通過強(qiáng)化學(xué)習(xí)技術(shù)(具體是群體相對策略優(yōu)化GRPO)使其在保持高效的同時更加準(zhǔn)確。
相比之下,"慢思考"模式就像一位認(rèn)真批改論文的教授,會對推理過程進(jìn)行深入、細(xì)致的分析。這種模式生成更詳細(xì)的輸出,能夠精確定位錯誤并提供深入的反饋。當(dāng)然,這種詳盡分析需要更多的計算資源。
FlexiVe的真正創(chuàng)新在于其"靈活驗(yàn)證預(yù)算分配策略"。想象一下,如果你是一位閱卷老師,面對一大堆試卷,你可能會先快速瀏覽每份卷子,對明顯有問題或明顯正確的試卷快速做出判斷,而對那些不確定的試卷才會花時間仔細(xì)檢查。FlexiVe正是采用了類似的策略。
具體來說,F(xiàn)lexiVe首先會在"快思考"模式下并行地執(zhí)行多次驗(yàn)證。如果這些快速驗(yàn)證結(jié)果高度一致(如果其中絕大多數(shù)都認(rèn)為推理正確,或者都發(fā)現(xiàn)了相同的錯誤),F(xiàn)lexiVe就會接受這個一致的結(jié)果。這就像多位閱卷老師的初步評價都一致,就不需要進(jìn)一步討論了。
但如果快速驗(yàn)證結(jié)果出現(xiàn)分歧——有些認(rèn)為正確,有些發(fā)現(xiàn)錯誤,或者發(fā)現(xiàn)的錯誤位置不一致——這表明該推理可能比較復(fù)雜或模棱兩可。此時,F(xiàn)lexiVe會啟動"慢思考"模式,投入更多計算資源進(jìn)行深入分析。
這種靈活的策略帶來了顯著的效率提升。實(shí)驗(yàn)表明,在GSM8K和MATH等基準(zhǔn)測試上,F(xiàn)lexiVe在生成大約3倍少的計算量(以token數(shù)量衡量)的情況下,達(dá)到了更高的F1分?jǐn)?shù)(錯誤檢測的準(zhǔn)確率指標(biāo))。
值得注意的是,與一些僅在單個步驟級別進(jìn)行驗(yàn)證的方法不同,F(xiàn)lexiVe對整個推理過程進(jìn)行整體評估。這就像閱卷老師不僅看單個計算步驟,還會評估整體解題思路一樣。這種方法避免了逐步驗(yàn)證可能帶來的累積計算開銷,特別是對于長而復(fù)雜的推理過程,提供了更好的可擴(kuò)展性和效率。
三、Solve-Detect-Verify:智能化的推理流水線
有了FlexiVe這個強(qiáng)大的驗(yàn)證器,研究團(tuán)隊(duì)進(jìn)一步開發(fā)了一個完整的推理框架:Solve-Detect-Verify。這個框架就像一個高效的團(tuán)隊(duì)合作流程,包含三個關(guān)鍵階段:解決問題、檢測完成點(diǎn)和驗(yàn)證結(jié)果。
首先是"解決"(Solve)階段。在這個階段,一個大型語言模型(稱為"解決器")被用來生成初始解決方案。這就像讓一個數(shù)學(xué)高手開始解題,一步步寫下推理過程。這個解決器可以是任何現(xiàn)成的大型語言模型,研究團(tuán)隊(duì)在實(shí)驗(yàn)中使用了DeepSeek-R1系列模型。
接下來是"檢測"(Detect)階段,這是整個框架中特別創(chuàng)新的部分。在傳統(tǒng)方法中,模型會一直生成內(nèi)容直到完成,即使它可能在中途已經(jīng)找到了正確答案。而Solve-Detect-Verify框架則不同,它會持續(xù)監(jiān)控模型的輸出,尋找特定的"猶豫關(guān)鍵詞"(如"嗯"、"讓我檢查一下"等)。
當(dāng)檢測到這些關(guān)鍵詞時,系統(tǒng)會暫停生成,并通過一個巧妙的方法評估當(dāng)前解決方案是否已經(jīng)完成:它會計算模型在當(dāng)前上下文下生成"是"和"否"這兩個詞的對數(shù)概率,并比較它們。如果"是"的概率更高,說明模型自己認(rèn)為已經(jīng)得出了完整的解決方案。這個過程非常高效,因?yàn)樗赜昧顺^90%的生成前綴,保留了關(guān)鍵值(KV)緩存,最小化了計算開銷。
如果系統(tǒng)認(rèn)為推理已經(jīng)完成,它會進(jìn)入"驗(yàn)證"(Verify)階段;否則,它會繼續(xù)生成內(nèi)容。這種自適應(yīng)監(jiān)控減少了不必要的計算,并實(shí)現(xiàn)了及早驗(yàn)證的可能性。
在"驗(yàn)證"階段,F(xiàn)lexiVe會評估候選解決方案S1,識別任何錯誤并定位到具體步驟。如果S1被驗(yàn)證為正確,它會直接成為最終輸出。但如果發(fā)現(xiàn)錯誤,F(xiàn)lexiVe會提供診斷反饋(F1),指導(dǎo)解決器生成一個新的候選解決方案S2,旨在通過探索替代推理路徑來修正錯誤。這個改進(jìn)的解決方案S2然后被接受為最終輸出,無需額外的驗(yàn)證輪次。
這種集成的驗(yàn)證和有條件的、反饋驅(qū)動的改進(jìn)方法確保了在嚴(yán)格解決方案評估和高效改進(jìn)之間取得平衡。
通過實(shí)驗(yàn),研究團(tuán)隊(duì)發(fā)現(xiàn)這個框架在多個復(fù)雜數(shù)學(xué)推理基準(zhǔn)測試上取得了令人印象深刻的結(jié)果。例如,在AIME 2024基準(zhǔn)測試上,Solve-Detect-Verify框架僅使用4個解決方案就達(dá)到了73.3%的準(zhǔn)確率,而傳統(tǒng)的自一致性方法需要16個解決方案才能達(dá)到類似的準(zhǔn)確率水平。這意味著新框架使用了大約四分之一的計算資源,卻取得了同等甚至更好的結(jié)果。
四、實(shí)驗(yàn)結(jié)果:實(shí)證驗(yàn)證效率與準(zhǔn)確性的雙重提升
研究團(tuán)隊(duì)設(shè)計了一系列嚴(yán)謹(jǐn)?shù)膶?shí)驗(yàn),目的在于評估FlexiVe作為獨(dú)立驗(yàn)證器的性能,以及整個Solve-Detect-Verify框架在復(fù)雜推理任務(wù)中的效果。實(shí)驗(yàn)結(jié)果令人欣喜,展示了這些創(chuàng)新方法在提高推理準(zhǔn)確性和計算效率方面的顯著優(yōu)勢。
首先,研究團(tuán)隊(duì)評估了FlexiVe在ProcessBench基準(zhǔn)測試上的錯誤識別能力。ProcessBench包含多個數(shù)學(xué)推理數(shù)據(jù)集,如GSM8K、MATH、OlympiadBench和OmniMATH,是測試驗(yàn)證器性能的理想平臺。在這些測試中,F(xiàn)lexiVe展現(xiàn)出卓越的性能。
具體來說,在"中等計算"設(shè)置下,F(xiàn)lexiVe(Flex@128配置)在MATH數(shù)據(jù)集上達(dá)到了85.0%的F1分?jǐn)?shù),平均F1分?jǐn)?shù)為80.8%。這一性能超過了GenPRM-32B(沒有代碼執(zhí)行)模型,該模型的平均F1分?jǐn)?shù)為79.3%。特別值得注意的是,F(xiàn)lexiVe是在顯著更少的樣本上訓(xùn)練的(1,526個樣本與23,000個樣本相比)。
在"高計算"設(shè)置下,采用"慢思考"模式的FlexiVe(Think@64)在GSM8K上達(dá)到了88.1%的F1分?jǐn)?shù),在MATH上達(dá)到了90.1%的F1分?jǐn)?shù)。這一性能明顯超過了具有代碼執(zhí)行功能的計算密集型GenPRM-32B(Maj@8)模型,后者在GSM8K上為85.1%,在MATH上為86.3%。這一結(jié)果凸顯了FlexiVe架構(gòu)和訓(xùn)練方法的有效性,即使在更密集的驗(yàn)證任務(wù)上也能實(shí)現(xiàn)優(yōu)越的準(zhǔn)確性。
關(guān)于計算效率,圖形分析展示了FlexiVe在GSM8K和MATH這兩個數(shù)據(jù)集上的準(zhǔn)確性-成本權(quán)衡優(yōu)勢。FlexiVe(Flex@k)為相似的token使用提供了更好的F1分?jǐn)?shù),比基線驗(yàn)證器DeepSeek-R1-Distill-Qwen-14B(DS14B)更為優(yōu)越。雖然FlexiVe(NoThinking@k)變體是超級高效的,但它的F1天花板較低,顯示出即使是最優(yōu)化的"快思考"模式也有其準(zhǔn)確性限制。
對于完整的Solve-Detect-Verify框架,研究團(tuán)隊(duì)在AIME2024、AIME2025和CNMO等特別具有挑戰(zhàn)性的數(shù)學(xué)數(shù)據(jù)集上進(jìn)行了評估。這些測試旨在了解框架的擴(kuò)展性能,探索了兩個主要擴(kuò)展維度:首先是在單次管道執(zhí)行中調(diào)整FlexiVe的驗(yàn)證預(yù)算,其次是生成多個候選解決方案,每個解決方案都由Solve-Detect-Verify處理。
在第一個擴(kuò)展維度上,僅使用"解決+檢測"設(shè)置(不包括FlexiVe驗(yàn)證)就顯著減少了token使用,例如在AIME2024上的token比率為0.67,在CNMO上為0.43。然而,這種配置可能會降低準(zhǔn)確性,特別是在CNMO上(44.4%對比基線的55.5%)。當(dāng)集成FlexiVe驗(yàn)證,特別是"Flex@8"配置時,準(zhǔn)確率顯著提升,超過了基線水平:AIME2024上達(dá)到73.3%(基線為56.6%),AIME2025上達(dá)到50.0%(基線為43.3%),并在CNMO上與基線持平(55.5%)。重要的是,這些"Flex@8"配置使用的token比基線少,例如AIME2024上的token比率為0.96,CNMO上為0.80,證明了Solve-Detect-Verify的token效率優(yōu)勢。
然而,CNMO的結(jié)果表明,僅調(diào)整驗(yàn)證器預(yù)算可能不足以在所有情況下確保性能峰值。因此,研究團(tuán)隊(duì)探索了第二個擴(kuò)展維度:通過生成多個解決方案來擴(kuò)展計算。在AIME2024基準(zhǔn)測試上,這種策略隨著處理的解決方案數(shù)量增加而顯著、一致地提高了準(zhǔn)確率:從1個解決方案的67.5%上升到16個解決方案的83%以上。這種方法有效地利用了增加的計算資源,由FlexiVe從候選方案中識別正確解決方案。
這些結(jié)果強(qiáng)調(diào)了一個關(guān)鍵發(fā)現(xiàn):對于在Solve-Detect-Verify中獲得最佳結(jié)果,擴(kuò)展"解決器"LLM的計算資源與擴(kuò)展FlexiVe的驗(yàn)證能力同樣重要。這種共生關(guān)系表明,該框架能夠有效地平衡和優(yōu)化整個推理過程中不同組件的計算分配。
五、進(jìn)一步分析與研究局限性
研究團(tuán)隊(duì)還對FlexiVe和Solve-Detect-Verify框架進(jìn)行了深入的補(bǔ)充分析,探索了各個組件的性能貢獻(xiàn)和潛在的改進(jìn)空間。
在組件性能比較中,研究團(tuán)隊(duì)進(jìn)行了消融研究,評估各個組件的獨(dú)立影響。對于FlexiVe,他們使用了Flex@4配置;對于NoThinking,使用了maj@8;對于DeepSeek-R1-Distill-Qwen-14B基線和FlexiVe的深思熟慮模式,使用了Think@1,確保計算預(yù)算大致相當(dāng)。結(jié)果顯示,F(xiàn)lexiVe的強(qiáng)化學(xué)習(xí)訓(xùn)練不僅匹配或略微超過了類似計算下的基線驗(yàn)證器性能,而且在啟用其"思考"模式時顯著優(yōu)于基線。這一點(diǎn)至關(guān)重要:盡管FlexiVe主要通過其高效的"快思考"模式進(jìn)行強(qiáng)化學(xué)習(xí)訓(xùn)練,但它能有效地推廣,提高其在更深思熟慮的"思考"模式下的驗(yàn)證性能,凸顯了其基于強(qiáng)化學(xué)習(xí)的魯棒性和適應(yīng)性。
研究團(tuán)隊(duì)還比較了強(qiáng)化學(xué)習(xí)(RL)與傳統(tǒng)的監(jiān)督微調(diào)(SFT)在訓(xùn)練驗(yàn)證器方面的效果。SFT基線使用了10,000條由DeepSeek-R1-Distill-Qwen-14B生成的推理路徑,這些路徑基于OpenO1的問題,并通過基于LLM的判斷進(jìn)行標(biāo)記。結(jié)果表明,SFT方法缺乏泛化能力。ProcessBench中的推理軌跡,通常來自較弱、非思考型的LLM,更短、復(fù)雜度更低。這導(dǎo)致SFT驗(yàn)證器在更多樣化的過程上性能下降。相比之下,僅在1,526個BIG-Bench Mistake問題上通過RL訓(xùn)練的FlexiVe展現(xiàn)了強(qiáng)大的泛化能力。這凸顯了RL在培養(yǎng)具有顯著較少數(shù)據(jù)的魯棒驗(yàn)證器方面的優(yōu)勢。
盡管FlexiVe和Solve-Detect-Verify框架展示了令人鼓舞的進(jìn)展,研究團(tuán)隊(duì)也坦率地指出了幾個值得未來研究探索的領(lǐng)域,以增強(qiáng)其健壯性并擴(kuò)大其適用性:
首先,F(xiàn)lexiVe的泛化能力與其訓(xùn)練數(shù)據(jù)多樣性有內(nèi)在聯(lián)系。當(dāng)前的驗(yàn)證主要集中在數(shù)學(xué)推理領(lǐng)域,這是由于計算資源的限制。未來的工作可以探索跨領(lǐng)域的應(yīng)用,如程序合成或常識問答,以測試FlexiVe在更廣泛問題類型上的魯棒性。
其次,F(xiàn)lexiVe動態(tài)預(yù)算分配的參數(shù)(如k和τ)是基于經(jīng)驗(yàn)設(shè)置的。進(jìn)行全面的靈敏度分析并開發(fā)自動調(diào)優(yōu)指南將有助于最大化實(shí)際應(yīng)用中的采用。
此外,雖然Solve-Detect-Verify旨在提高效率,其多組件特性和動態(tài)模式切換引入了固有的計算開銷。研究團(tuán)隊(duì)認(rèn)為,這種開銷可以通過優(yōu)化實(shí)現(xiàn)大大減少,整體性能可以通過利用先進(jìn)的推理引擎(如vLLM或SGLang)顯著提升。推進(jìn)這一方向?qū)⑹巧鐓^(qū)探索的寶貴途徑,以充分實(shí)現(xiàn)這種動態(tài)推理系統(tǒng)的益處。
解決這些方面將是復(fù)雜、高效且廣泛適用的驗(yàn)證推理框架持續(xù)發(fā)展和部署的關(guān)鍵。
六、結(jié)論與未來展望
回顧整個研究,香港中文大學(xué)團(tuán)隊(duì)的這項(xiàng)工作為大型語言模型的推理方式帶來了重要創(chuàng)新。FlexiVe作為一個動態(tài)驗(yàn)證器,成功地在計算成本和準(zhǔn)確性之間取得了平衡,而Solve-Detect-Verify流程則改變了推理增強(qiáng)的方式,使其更加高效且可靠。
這項(xiàng)研究的核心價值在于,它展示了如何讓AI系統(tǒng)變得更像我們?nèi)祟悾褐篮螘r應(yīng)該快速思考,何時需要深入分析;知道何時已經(jīng)達(dá)到了合理的解決方案可以停止探索,何時需要重新思考。這種靈活性不僅提高了性能,還顯著降低了資源消耗。
從更廣泛的視角看,這項(xiàng)研究為AI系統(tǒng)設(shè)計提供了新的范式:不是簡單地增加計算資源或模型規(guī)模,而是通過更智能的架構(gòu)設(shè)計和資源分配策略來提高效率。這種方法在資源有限的環(huán)境中尤為重要,也與可持續(xù)AI發(fā)展的理念相符。
未來,這種方法可能擴(kuò)展到更廣泛的應(yīng)用場景,不僅限于數(shù)學(xué)推理。在教育中,它可以幫助AI輔導(dǎo)系統(tǒng)更高效地解答學(xué)生問題;在科研中,它可以協(xié)助研究人員驗(yàn)證復(fù)雜推理;在商業(yè)決策中,它可以提供更可靠且資源高效的分析支持。
當(dāng)然,研究團(tuán)隊(duì)也承認(rèn),仍有改進(jìn)空間。例如,進(jìn)一步優(yōu)化FlexiVe的訓(xùn)練方法,探索更多領(lǐng)域的適用性,以及開發(fā)自動參數(shù)調(diào)優(yōu)的策略等。但無疑,這項(xiàng)研究已經(jīng)為解決AI推理中的效率-準(zhǔn)確性權(quán)衡問題指明了一條有前景的道路。
正如論文所強(qiáng)調(diào)的,研究團(tuán)隊(duì)的工作"提供了可擴(kuò)展和有效的解決方案,以增強(qiáng)LLM在測試時的推理能力"。隨著AI技術(shù)繼續(xù)發(fā)展,這種靈活、高效的推理和驗(yàn)證方法將變得越來越重要,成為未來AI系統(tǒng)不可或缺的組成部分。
好文章,需要你的鼓勵
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時學(xué)習(xí)外觀和運(yùn)動信息,顯著解決了當(dāng)前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個線性層就能大幅提升運(yùn)動質(zhì)量,在多項(xiàng)測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評測基準(zhǔn),通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時顯著提升人性化交互水平,為AI價值觀對齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開發(fā)的GraphCast是一個革命性的AI天氣預(yù)測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報,準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。