這項(xiàng)令人矚目的研究來自中山大學(xué)深圳校區(qū),由羅昊天、沈利等研究者組成的國際合作團(tuán)隊(duì)完成,團(tuán)隊(duì)成員還包括來自中國農(nóng)業(yè)大學(xué)、清華大學(xué)、牛津大學(xué)、滴滴出行以及南洋理工大學(xué)的研究人員。該論文發(fā)表于2025年1月29日,研究成果已在arXiv平臺公開發(fā)布,論文編號為arXiv:2501.12570v2,有興趣深入了解的讀者可以通過https://arxiv.org/abs/2501.12570訪問完整論文,研究代碼即將在GitHub開源。
當(dāng)我們談?wù)撊斯ぶ悄艿耐评砟芰r(shí),OpenAI的O1模型無疑是一個(gè)里程碑式的存在。這個(gè)模型就像一個(gè)極其聰明但話特別多的學(xué)生,面對數(shù)學(xué)題時(shí)會在草稿紙上寫下長篇大論的思考過程,最終得出正確答案。然而,正如那個(gè)話多的學(xué)生會讓老師等得不耐煩一樣,O1模型的"長篇大論"也讓用戶等得焦急——每次推理都要花費(fèi)大量時(shí)間,計(jì)算成本居高不下。
這就是研究團(tuán)隊(duì)要解決的核心問題。他們發(fā)現(xiàn),這些"長思考"模型在推理過程中存在一個(gè)有趣的現(xiàn)象,研究者將其稱為"長度不和諧"。打個(gè)比方,這就像一個(gè)廚師做一道簡單的炒雞蛋,卻非要寫出一本詳細(xì)的烹飪手冊,記錄每一個(gè)細(xì)節(jié)步驟,包括如何拿勺子、如何開火、甚至如何呼吸。雖然最終菜品可能做得不錯(cuò),但這個(gè)過程實(shí)在太冗長了。
研究團(tuán)隊(duì)通過一個(gè)巧妙的實(shí)驗(yàn)發(fā)現(xiàn)了這個(gè)問題的嚴(yán)重性。他們從著名的MATH數(shù)學(xué)題庫中隨機(jī)選取了64道題目,讓Marco-o1和QwQ-32B這兩個(gè)長思考模型各生成512個(gè)解答。然后,他們將所有答案按長度分成四個(gè)區(qū)間,就像把學(xué)生的作文按字?jǐn)?shù)分組一樣。結(jié)果令人意外:最短的答案往往準(zhǔn)確率最高。這就好比發(fā)現(xiàn)最簡潔的解題步驟反而最容易得出正確答案,而那些啰啰嗦嗦的長篇解答反而容易出錯(cuò)。
具體來說,在Marco模型的測試中,最短區(qū)間的答案準(zhǔn)確率達(dá)到81.1%,而最長區(qū)間只有75.3%。這個(gè)發(fā)現(xiàn)徹底顛覆了"思考越多越好"的常識認(rèn)知,反而證明了"簡潔就是美"的道理。研究團(tuán)隊(duì)意識到,如果能讓模型學(xué)會"言簡意賅",既能保持準(zhǔn)確性,又能大幅提升效率,這將是一個(gè)革命性的突破。
基于這個(gè)發(fā)現(xiàn),研究團(tuán)隊(duì)提出了一個(gè)創(chuàng)新的解決方案,他們稱之為"長度和諧微調(diào)"方法,簡稱O1-Pruner。這個(gè)名字很形象——就像一把智能剪刀,專門用來修剪模型推理過程中的冗余部分。O1-Pruner的工作原理可以比作一個(gè)經(jīng)驗(yàn)豐富的編輯,既要保證文章內(nèi)容的準(zhǔn)確性和完整性,又要刪除所有不必要的廢話和重復(fù)表述。
O1-Pruner的核心創(chuàng)新在于設(shè)計(jì)了一個(gè)巧妙的獎勵機(jī)制。研究團(tuán)隊(duì)構(gòu)建了一個(gè)"長度-和諧獎勵"函數(shù),這個(gè)函數(shù)就像一個(gè)公正的評委,會同時(shí)考慮兩個(gè)標(biāo)準(zhǔn):答案的準(zhǔn)確性和推理的簡潔性。當(dāng)模型給出一個(gè)又短又對的答案時(shí),它會獲得最高獎勵;如果答案很長但正確,獎勵會適中;如果答案很短但錯(cuò)誤,則會受到嚴(yán)厲懲罰。這種機(jī)制巧妙地平衡了效率和準(zhǔn)確性之間的關(guān)系。
在技術(shù)實(shí)現(xiàn)上,O1-Pruner采用了類似于強(qiáng)化學(xué)習(xí)中近端策略優(yōu)化(PPO)的訓(xùn)練方法。整個(gè)過程可以理解為一個(gè)師父教徒弟的過程:師父(參考模型)先示范如何解題,徒弟(待優(yōu)化模型)觀察學(xué)習(xí),然后嘗試用更簡潔的方式解決同樣的問題。如果徒弟的答案既準(zhǔn)確又簡潔,就會得到獎勵;如果為了求快而出錯(cuò),就會被懲罰。通過這種反復(fù)練習(xí),徒弟逐漸學(xué)會了既快又準(zhǔn)的解題技巧。
為了驗(yàn)證O1-Pruner的效果,研究團(tuán)隊(duì)進(jìn)行了大規(guī)模的實(shí)驗(yàn)測試。他們選擇了兩個(gè)代表性的長思考模型:Marco-o1-7B和QwQ-32B-Preview,并在三個(gè)不同難度的數(shù)學(xué)數(shù)據(jù)集上進(jìn)行測試,包括高中數(shù)學(xué)競賽題(MATH)、小學(xué)數(shù)學(xué)應(yīng)用題(GSM8K)和高考數(shù)學(xué)題(GaoKao)。
實(shí)驗(yàn)結(jié)果令人震撼。經(jīng)過O1-Pruner優(yōu)化的Marco-o1-7B模型,在保持甚至提升準(zhǔn)確率的同時(shí),推理長度縮短了40.5%。具體來說,模型的平均準(zhǔn)確率從73.4%提升到76.8%,而平均推理長度從932個(gè)詞減少到554個(gè)詞。這就像一個(gè)學(xué)生不僅學(xué)會了寫作文時(shí)去掉廢話,而且文章質(zhì)量還有所提升。
對于更大的QwQ-32B-Preview模型,效果同樣顯著。該模型的平均準(zhǔn)確率從88.2%提升到89.3%,推理長度從1717個(gè)詞縮減到1121個(gè)詞,縮短了34.7%。這種改進(jìn)不僅體現(xiàn)在數(shù)字上,更直接影響了用戶體驗(yàn)。
為了更直觀地展示效果,研究團(tuán)隊(duì)還測試了實(shí)際的推理時(shí)間。在使用A800 GPU進(jìn)行推理時(shí),優(yōu)化后的Marco-o1模型的推理時(shí)間從2分鐘縮短到略超過1分鐘,而QwQ-32B模型的推理時(shí)間從接近6分鐘減少到約4分鐘。這種時(shí)間上的節(jié)約對于實(shí)際應(yīng)用來說意義重大,就像把原本需要排隊(duì)半小時(shí)的銀行業(yè)務(wù)縮短到10分鐘一樣。
研究團(tuán)隊(duì)還設(shè)計(jì)了一個(gè)全新的評估指標(biāo)——"準(zhǔn)確性-效率得分"(AES),用來綜合衡量模型在準(zhǔn)確性和效率之間的平衡。這個(gè)指標(biāo)就像體育比賽中的綜合得分,既考慮技術(shù)難度又考慮完成時(shí)間。在所有對比實(shí)驗(yàn)中,O1-Pruner都獲得了最高的AES得分,證明了其在平衡準(zhǔn)確性和效率方面的卓越表現(xiàn)。
為了確保研究的嚴(yán)謹(jǐn)性,團(tuán)隊(duì)還進(jìn)行了詳細(xì)的消融實(shí)驗(yàn)。他們發(fā)現(xiàn),獎勵函數(shù)中的平衡參數(shù)λ對模型性能有重要影響。當(dāng)λ設(shè)置為2時(shí),模型能夠達(dá)到最佳的準(zhǔn)確性和效率平衡。這就像調(diào)節(jié)汽車的檔位,找到最適合的設(shè)置能讓車輛既省油又有足夠動力。
更有趣的是,研究團(tuán)隊(duì)還探索了不同難度數(shù)據(jù)集對模型優(yōu)化效果的影響。他們發(fā)現(xiàn),在較難的問題上訓(xùn)練的模型會產(chǎn)生相對較長但更準(zhǔn)確的答案,而在簡單問題上訓(xùn)練的模型則會生成更短的答案。這符合人類的直覺:復(fù)雜問題確實(shí)需要更多思考,而簡單問題應(yīng)該快速解決。
O1-Pruner方法的創(chuàng)新之處還在于其通用性。研究團(tuán)隊(duì)證明,這種方法不僅適用于數(shù)學(xué)推理,理論上可以擴(kuò)展到任何需要長思考過程的AI任務(wù)。這就像發(fā)明了一種通用的"效率提升劑",可以讓各種AI模型都變得更加高效。
從技術(shù)角度來看,O1-Pruner解決了AI領(lǐng)域的一個(gè)重要挑戰(zhàn):如何在推理能力和計(jì)算效率之間找到最佳平衡點(diǎn)。傳統(tǒng)方法要么追求極致的準(zhǔn)確性而忽視效率,要么為了提升速度而犧牲性能。O1-Pruner則巧妙地將兩者結(jié)合,通過智能化的獎勵機(jī)制實(shí)現(xiàn)了雙贏。
這項(xiàng)研究的意義不僅在于技術(shù)層面的突破,更在于為AI的實(shí)際應(yīng)用鋪平了道路。當(dāng)前,計(jì)算資源的成本仍然是限制AI大規(guī)模應(yīng)用的主要障礙之一。O1-Pruner通過顯著減少推理時(shí)間和計(jì)算需求,讓高質(zhì)量的AI推理服務(wù)變得更加經(jīng)濟(jì)可行。這就像把原本只有少數(shù)人才能承受的奢侈品變成了大眾消費(fèi)品。
研究團(tuán)隊(duì)的工作還揭示了一個(gè)深層次的問題:并非所有的"深度思考"都是必要的。在人工智能快速發(fā)展的今天,我們往往容易陷入"越復(fù)雜越好"的誤區(qū)。然而,這項(xiàng)研究告訴我們,真正的智能不在于思考的復(fù)雜度,而在于思考的有效性。就像一個(gè)真正的專家能夠用最簡單的語言解釋最復(fù)雜的問題一樣,一個(gè)優(yōu)秀的AI模型也應(yīng)該能夠用最高效的方式解決問題。
從更廣泛的角度來看,O1-Pruner代表了AI優(yōu)化研究的一個(gè)新方向。過去的研究主要關(guān)注如何讓模型變得更強(qiáng)大,而現(xiàn)在我們開始關(guān)注如何讓模型變得更聰明、更高效。這種轉(zhuǎn)變反映了AI技術(shù)從追求極致性能向追求實(shí)用性和可持續(xù)性的發(fā)展趨勢。
值得注意的是,這項(xiàng)研究還對AI安全和可解釋性具有重要意義。更簡潔的推理過程意味著更容易理解和驗(yàn)證,這對于構(gòu)建可信任的AI系統(tǒng)至關(guān)重要。當(dāng)AI模型的推理過程變得冗長復(fù)雜時(shí),人類很難判斷其推理是否合理。而O1-Pruner通過促進(jìn)簡潔推理,實(shí)際上也提高了AI系統(tǒng)的透明度。
研究團(tuán)隊(duì)還發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象:經(jīng)過O1-Pruner優(yōu)化的模型不僅在推理效率上有所提升,在某些情況下準(zhǔn)確率也有所提高。這個(gè)發(fā)現(xiàn)挑戰(zhàn)了"復(fù)雜性與性能正相關(guān)"的傳統(tǒng)觀念,證明了"少即是多"的哲學(xué)在AI領(lǐng)域同樣適用。這就像一個(gè)畫家通過刪除多余的筆觸使畫作變得更加生動一樣。
對于未來的發(fā)展方向,研究團(tuán)隊(duì)指出,O1-Pruner只是一個(gè)開始。他們計(jì)劃將這種方法擴(kuò)展到更多類型的推理任務(wù),包括科學(xué)推理、邏輯推理和創(chuàng)意寫作等。同時(shí),他們也在研究如何進(jìn)一步優(yōu)化獎勵機(jī)制,使其能夠更好地適應(yīng)不同類型的問題和應(yīng)用場景。
這項(xiàng)研究的實(shí)際應(yīng)用前景十分廣闊。在教育領(lǐng)域,經(jīng)過O1-Pruner優(yōu)化的AI教師助手能夠更快地為學(xué)生提供高質(zhì)量的解題指導(dǎo)。在商業(yè)咨詢領(lǐng)域,AI分析師能夠更高效地處理復(fù)雜的商業(yè)問題。在科研領(lǐng)域,AI助手能夠更快速地協(xié)助研究人員進(jìn)行文獻(xiàn)分析和假設(shè)生成。
說到底,中山大學(xué)團(tuán)隊(duì)的這項(xiàng)研究為我們展示了AI發(fā)展的一個(gè)重要方向:不是讓AI變得更復(fù)雜,而是讓AI變得更智慧。O1-Pruner就像一位優(yōu)秀的老師,不僅知道如何思考,更知道如何高效地思考。它告訴我們,真正的進(jìn)步不在于增加復(fù)雜性,而在于在保持質(zhì)量的同時(shí)提升效率。這種理念不僅適用于AI研究,也為我們處理日常工作和生活中的復(fù)雜問題提供了有益的啟示。隨著這項(xiàng)技術(shù)的進(jìn)一步發(fā)展和完善,我們有理由期待一個(gè)更加高效、更加智能的AI時(shí)代的到來。對于那些希望深入了解這項(xiàng)技術(shù)細(xì)節(jié)的讀者,建議訪問研究團(tuán)隊(duì)即將開源的GitHub項(xiàng)目,親自體驗(yàn)這種革命性的AI優(yōu)化技術(shù)。
Q&A
Q1:O1-Pruner是什么?它是如何工作的?
A:O1-Pruner是中山大學(xué)團(tuán)隊(duì)開發(fā)的AI模型優(yōu)化方法,專門用來解決O1這類"長思考"模型推理過程冗長的問題。它的工作原理就像一個(gè)智能編輯,通過設(shè)計(jì)特殊的獎勵機(jī)制,鼓勵A(yù)I模型生成既準(zhǔn)確又簡潔的答案。當(dāng)模型給出又短又對的答案時(shí)會得到最高獎勵,如果為了求快而出錯(cuò)則會受到懲罰,這樣模型就學(xué)會了高效推理。
Q2:使用O1-Pruner優(yōu)化后的AI模型效果如何?
A:實(shí)驗(yàn)結(jié)果非常令人驚喜。經(jīng)過O1-Pruner優(yōu)化的Marco-o1-7B模型,推理長度縮短了40.5%,同時(shí)準(zhǔn)確率還從73.4%提升到76.8%。推理時(shí)間也從2分鐘縮短到1分鐘多。更大的QwQ-32B模型推理長度縮短34.7%,推理時(shí)間從6分鐘減少到4分鐘,這種效率提升對實(shí)際應(yīng)用意義重大。
Q3:O1-Pruner解決的"長度不和諧"問題是什么意思?
A:長度不和諧是指AI模型在推理時(shí)經(jīng)常產(chǎn)生不必要的冗長回答,就像做簡單題卻寫出長篇大論一樣。研究團(tuán)隊(duì)發(fā)現(xiàn),很多時(shí)候最短的答案反而準(zhǔn)確率最高,這說明模型存在"廢話太多"的問題。O1-Pruner就是要解決這種效率低下的現(xiàn)象,讓AI學(xué)會"言簡意賅"地解決問題。
好文章,需要你的鼓勵
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動信息,顯著解決了當(dāng)前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動質(zhì)量,在多項(xiàng)測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評測基準(zhǔn),通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平,為AI價(jià)值觀對齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。