這項由普林斯頓大學的楊凌教授和王夢迪教授領導的研究團隊,聯(lián)合伊利諾伊大學香檳分校、康奈爾大學以及字節(jié)跳動種子團隊共同完成的研究,發(fā)表于2025年6月23日。有興趣深入了解的讀者可以通過arXiv:2506.18896v1訪問完整論文,研究代碼和模型也已在ReasonFlux-PRM-Code開源發(fā)布。
想象一下這樣的場景:你正在解一道復雜的數(shù)學題,大腦中不斷涌現(xiàn)各種想法——有時會走彎路,有時會自我糾正,有時會探索不同的解題路徑。這個思考過程就像一條蜿蜒的河流,充滿了分支、回流和探索。然而,傳統(tǒng)的AI評分系統(tǒng)就像一個只會看最終答案的老師,完全忽略了你思考過程中的精彩部分。
這種局限性在當今AI教育領域變得越來越明顯。隨著像GPT和Claude這樣的大型語言模型越來越聰明,它們開始學會展示自己的"思考過程"——就像學生在草稿紙上寫下的思路一樣。但問題來了:如何評價這些復雜的思維軌跡呢?這就好比一位數(shù)學老師不僅要看學生的最終答案,還要理解學生解題時的每一個推理步驟、每一次嘗試,甚至包括那些看似"走錯路"但實際上展現(xiàn)了深度思考的過程。
正是在這樣的背景下,普林斯頓大學的研究團隊開發(fā)了一套革命性的評分系統(tǒng)——ReasonFlux-PRM。這個系統(tǒng)的名字聽起來很技術化,但它的作用卻很容易理解:它就像一位極其細心的老師,不僅能看懂學生的最終答案,更重要的是,它能深入理解學生整個思考過程的質(zhì)量。
傳統(tǒng)的AI評分系統(tǒng)面臨著一個根本性的挑戰(zhàn)。當你向AI提出一個問題時,比如"解釋為什么天空是藍色的",現(xiàn)代AI系統(tǒng)會先在"腦海"中進行一番復雜的思考,然后才給出最終回答。這個內(nèi)部思考過程可能包括考慮光的散射原理、回憶相關的物理知識、組織語言等等。然而,現(xiàn)有的評分系統(tǒng)只能評判最終的回答質(zhì)量,就像一位老師只看學生交上來的作業(yè)答案,卻完全忽視了學生在草稿紙上的思考軌跡。
更具體地說,最新一代的AI模型(如DeepSeek-R1)會產(chǎn)生兩種截然不同的輸出:一是詳細的思考軌跡,記錄了AI"思考"過程中的每一個步驟、每一次嘗試;二是經(jīng)過整理的最終回答。這種差異就像學生做數(shù)學題時的草稿和最終答卷的區(qū)別。草稿可能雜亂無章,充滿了涂改、重新開始的痕跡,但卻真實反映了思考的深度;而最終答卷則條理清晰,邏輯嚴密。
研究團隊發(fā)現(xiàn),現(xiàn)有的評分系統(tǒng)在處理這些復雜思考軌跡時表現(xiàn)得相當糟糕。他們測試了幾個當前最先進的評分模型,發(fā)現(xiàn)這些系統(tǒng)在區(qū)分高質(zhì)量和低質(zhì)量的思考過程時幾乎毫無能力。更令人擔憂的是,當使用這些不合適的評分結(jié)果來訓練新的AI模型時,訓練效果不僅沒有改善,反而出現(xiàn)了明顯的退步。這就像讓一位不懂數(shù)學的人去批改數(shù)學作業(yè),結(jié)果可想而知。
為了解決這個問題,研究團隊深入分析了AI思考軌跡與最終回答之間的本質(zhì)差異。他們發(fā)現(xiàn),思考軌跡具有兩個顯著特點:首先是"分支性思維"——AI在思考過程中會嘗試不同的解題路徑,有時會回頭重新開始,有時會同時探索多個方向;其次是"局部凝聚性"——思考過程中的每一步都專注于當前的具體問題,而不太關心整體的敘述連貫性。相比之下,最終回答通常是線性的、邏輯清晰的,就像一篇經(jīng)過精心編輯的文章。
基于這些洞察,研究團隊設計了ReasonFlux-PRM系統(tǒng)。這個系統(tǒng)的核心理念是同時關注思考過程的每一個步驟和整體質(zhì)量。具體來說,它會對思考軌跡進行三個維度的評估。
第一個維度是"對齊度評估"。系統(tǒng)會檢查思考過程中的每一步是否與最終回答保持一致。這就像檢查學生的草稿思路是否最終導向了正確的答案。系統(tǒng)使用先進的語義相似度技術,能夠識別出那些與最終目標相關的思考步驟,同時發(fā)現(xiàn)那些偏離主題或產(chǎn)生幻覺的內(nèi)容。
第二個維度是"質(zhì)量評估"。對于那些可能與最終答案在表面上不太相似,但實際上體現(xiàn)了深度思考的步驟,系統(tǒng)會進行專門的質(zhì)量判斷。這就像一位經(jīng)驗豐富的老師能夠識別出學生看似"繞彎路"的思考實際上展現(xiàn)了對問題的深入理解。系統(tǒng)使用強大的AI判斷模型來評估每個思考步驟的邏輯合理性和創(chuàng)新性。
第三個維度是"連貫性評估"。系統(tǒng)會檢查思考過程中相鄰步驟之間的邏輯連接是否合理。這通過一種巧妙的對比學習方法實現(xiàn):系統(tǒng)會將當前步驟與前一步驟進行對比,同時與一些不相關的步驟進行對比,從而學會識別哪些思考轉(zhuǎn)換是合理的,哪些是突兀的。
除了這些步驟級別的評估,ReasonFlux-PRM還引入了一個創(chuàng)新的"模板引導評估"機制。這個機制的工作原理很有趣:系統(tǒng)首先會從復雜的思考軌跡中提取出一個抽象的"解題模板",就像從一個具體的解題過程中總結(jié)出通用的解題策略。然后,系統(tǒng)會讓其他AI模型按照這個模板來解決類似的問題,并觀察成功率。如果這個模板能夠指導其他模型成功解決問題,那么原始的思考軌跡就被認為是高質(zhì)量的。
這種評估方法非常巧妙,因為它不僅關注思考過程本身的質(zhì)量,還關注這種思考方式的可推廣性。就像評判一個教學方法的好壞,不僅要看老師自己能否用這個方法解決問題,還要看學生是否能夠?qū)W會并應用這個方法。
研究團隊將ReasonFlux-PRM設計成了一個多用途的工具,能夠在AI訓練的不同階段發(fā)揮作用。首先,在數(shù)據(jù)篩選階段,系統(tǒng)可以從大量的訓練樣本中挑選出高質(zhì)量的思考軌跡,就像一位經(jīng)驗豐富的編輯從眾多稿件中選擇最優(yōu)秀的作品。這種精心篩選的數(shù)據(jù)可以顯著提高后續(xù)AI模型的訓練效果。
其次,在強化學習階段,ReasonFlux-PRM可以提供實時的反饋信號。當AI模型在訓練過程中產(chǎn)生新的思考軌跡時,系統(tǒng)會立即給出評分,告訴模型哪些思考方向是值得堅持的,哪些需要調(diào)整。這就像一位私人教練在你運動時提供實時指導,幫助你不斷改進動作。
此外,在實際應用階段,當用戶向AI系統(tǒng)提出問題時,系統(tǒng)可以生成多個不同的回答,然后使用ReasonFlux-PRM來選擇最佳答案。這種"多選一"的策略可以顯著提高AI回答的質(zhì)量和可靠性。
為了驗證ReasonFlux-PRM的效果,研究團隊進行了大規(guī)模的實驗測試。他們使用了多個極具挑戰(zhàn)性的數(shù)學和科學推理任務,包括美國數(shù)學邀請賽(AIME)、高難度數(shù)學問題集(MATH500)以及博士級科學問答(GPQA-Diamond)等。這些測試就像AI領域的"高考",能夠真實反映系統(tǒng)的能力水平。
實驗結(jié)果令人印象深刻。在數(shù)據(jù)篩選任務中,使用ReasonFlux-PRM選擇的訓練數(shù)據(jù)訓練出的AI模型,比使用人工篩選數(shù)據(jù)訓練的模型表現(xiàn)更好。具體來說,在各項測試中,改進幅度達到了平均12.1%。這個提升幅度相當可觀,就像學生的考試成績從70分提高到78分。
在強化學習階段,ReasonFlux-PRM的指導作用同樣顯著。相比于傳統(tǒng)的訓練方法,使用新系統(tǒng)指導的AI模型在推理能力上平均提升了4.5%。雖然這個數(shù)字看起來不大,但在AI領域,即使1%的提升都可能代表著重大突破。
在實際應用中的"多選一"策略也表現(xiàn)出色,平均性能提升達到6.3%。這意味著用戶在使用AI系統(tǒng)時能夠獲得更準確、更可靠的回答。
特別值得一提的是,研究團隊還開發(fā)了一個輕量級版本的ReasonFlux-PRM,參數(shù)量只有15億,相比于70億參數(shù)的完整版本要小得多。這個小型版本專門為資源受限的應用場景設計,比如移動設備或邊緣計算環(huán)境。雖然體積小,但這個輕量級版本在許多任務上的表現(xiàn)依然令人滿意,展現(xiàn)了技術的實用性。
研究團隊還進行了詳細的效率分析。他們發(fā)現(xiàn),雖然ReasonFlux-PRM會增加一些計算開銷,但這種開銷是完全可以接受的。更重要的是,通過精心篩選訓練數(shù)據(jù),新系統(tǒng)實際上可以減少總的訓練時間。這就像通過精心挑選食材,雖然挑選過程需要時間,但最終能夠更快地烹飪出美味佳肴。
為了更直觀地展示ReasonFlux-PRM的能力,研究團隊提供了一些具體的案例研究。在一個數(shù)學問題的解答中,系統(tǒng)成功識別出了AI思考過程中出現(xiàn)錯誤的具體步驟,并給出了相應的低分評價。而對于另一個正確解答的案例,系統(tǒng)不僅給出了高分,還準確識別出了解題過程中的亮點步驟。
這種精細化的評估能力具有重要的教育意義。未來,這項技術可能被應用到在線教育平臺中,為學生提供更精準的學習反饋。系統(tǒng)不僅能告訴學生答案是否正確,還能詳細分析學生的思考過程,指出具體的優(yōu)點和改進空間。
研究團隊對這項工作的局限性也很坦誠。目前的系統(tǒng)主要針對數(shù)學和科學推理任務進行了優(yōu)化,對于更開放性的任務(如創(chuàng)意寫作或常識對話)可能需要進一步的調(diào)整。此外,系統(tǒng)的訓練需要高質(zhì)量的思考軌跡數(shù)據(jù),而獲取這些數(shù)據(jù)本身就是一個挑戰(zhàn)。
不過,研究團隊對未來的發(fā)展前景很樂觀。他們認為,隨著AI模型變得越來越復雜,能夠理解和評估復雜思考過程的技術將變得越來越重要。ReasonFlux-PRM代表了這個方向上的重要一步,為AI系統(tǒng)的進一步發(fā)展奠定了基礎。
從更廣闊的視角來看,這項研究反映了AI發(fā)展的一個重要趨勢:從關注最終結(jié)果轉(zhuǎn)向關注整個思考過程。這種轉(zhuǎn)變不僅有助于提高AI系統(tǒng)的性能,還能增強AI的可解釋性和可信度。當我們能夠理解AI是如何思考的,我們就能更好地信任和使用這些系統(tǒng)。
說到底,ReasonFlux-PRM的核心價值在于它為AI教育和訓練提供了一種全新的視角。它不再把學習看作是從輸入到輸出的簡單映射,而是將其視為一個復雜的思考過程。這種理念上的轉(zhuǎn)變可能會深刻影響未來AI系統(tǒng)的設計和訓練方式。歸根結(jié)底,這項研究告訴我們,在AI的世界里,思考的過程和結(jié)果同樣重要。對于普通用戶來說,這意味著未來的AI助手將不僅能給出正確答案,還能展示可靠的推理過程,讓人們更好地理解和信任AI的判斷。這項技術的成熟應用,可能會讓AI教育變得更加個性化和精準,每個學習者都能獲得針對其思維特點的專門指導。有興趣深入了解技術細節(jié)的讀者,可以通過論文提供的開源代碼和模型進行進一步探索和實驗。
Q&A
Q1:ReasonFlux-PRM是什么?它能做什么? A:ReasonFlux-PRM是普林斯頓大學開發(fā)的AI評分系統(tǒng),專門用來評估AI的復雜思考過程。它不僅能看懂AI的最終答案,更重要的是能理解AI"思考"時的每一個步驟質(zhì)量,就像一位能看懂學生草稿的細心老師。
Q2:這個系統(tǒng)會不會讓AI變得更聰明? A:是的,實驗顯示使用ReasonFlux-PRM訓練的AI模型在數(shù)學和科學推理上平均提升了4.5%-12.1%。它通過提供更精準的學習反饋,幫助AI更好地掌握復雜的推理技能。
Q3:普通人能用到這項技術嗎?有什么實際好處? A:目前這項技術主要用于AI研究和開發(fā),但未來可能應用到在線教育平臺中。對普通人的好處是AI助手會變得更可靠,不僅給出正確答案,還能展示清晰的推理過程,讓人更容易理解和信任。
好文章,需要你的鼓勵
騰訊ARC實驗室推出AudioStory系統(tǒng),首次實現(xiàn)AI根據(jù)復雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術,通過交錯式推理生成、解耦橋接機制和漸進式訓練,能夠?qū)碗s指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學聯(lián)合研發(fā)的VideoJAM技術,通過讓AI同時學習外觀和運動信息,顯著解決了當前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術僅需添加兩個線性層就能大幅提升運動質(zhì)量,在多項測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實用化應用奠定了重要基礎。
上海AI實驗室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓練數(shù)據(jù)集和MM-AlignBench評測基準,通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術能力的同時顯著提升人性化交互水平,為AI價值觀對齊提供了可行技術路徑。
谷歌DeepMind團隊開發(fā)的GraphCast是一個革命性的AI天氣預測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預報,準確性超越傳統(tǒng)方法90%的指標。該模型采用圖神經(jīng)網(wǎng)絡技術,通過學習40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學領域帶來了效率和精度的雙重突破。