這項(xiàng)由清華大學(xué)的胡景程、張引民、韓啟、蔣大欣、張翔宇,以及清華大學(xué)的沈向洋聯(lián)合完成的研究發(fā)表于2025年7月的arXiv預(yù)印本(論文編號(hào):arXiv:2503.24290v2),有興趣深入了解的讀者可以通過GitHub開源項(xiàng)目(https://github.com/Open-Reasoner-Zero/Open-Reasoner-Zero)和HuggingFace模型庫(https://huggingface.co/Open-Reasoner-Zero)獲取完整的代碼和模型。
當(dāng)我們談到人工智能的推理能力時(shí),通常會(huì)覺得這是一個(gè)需要大量預(yù)訓(xùn)練、復(fù)雜調(diào)優(yōu)和海量資源的高技術(shù)門檻領(lǐng)域。然而,這項(xiàng)來自StepFun和清華大學(xué)的研究卻告訴我們一個(gè)令人驚喜的事實(shí):原來從最基礎(chǔ)的模型開始,用最簡(jiǎn)單的方法,也能訓(xùn)練出卓越的推理AI。
這就好比一個(gè)烹飪新手,不需要學(xué)會(huì)所有復(fù)雜的烹飪技巧,只要掌握幾個(gè)最基本的原則,就能做出比米其林大廚更美味的菜肴。研究團(tuán)隊(duì)提出的Open-Reasoner-Zero(簡(jiǎn)稱ORZ)就是這樣一個(gè)"極簡(jiǎn)主義"的訓(xùn)練方案,它打破了人們對(duì)AI訓(xùn)練復(fù)雜性的固有印象。
這項(xiàng)研究的核心發(fā)現(xiàn)顛覆了業(yè)界的傳統(tǒng)認(rèn)知。以往的AI推理模型訓(xùn)練就像是一個(gè)需要精密調(diào)試的復(fù)雜機(jī)器,需要各種復(fù)雜的調(diào)節(jié)器和控制裝置。而ORZ證明,最簡(jiǎn)單的方法往往是最有效的。研究團(tuán)隊(duì)使用了被稱為"香草PPO"(vanilla PPO)的基礎(chǔ)算法,配合最直接的獎(jiǎng)勵(lì)機(jī)制,就像用最基本的食材制作出了營養(yǎng)豐富的美食。
最令人印象深刻的是效率表現(xiàn)。當(dāng)使用相同的基礎(chǔ)模型Qwen2.5-32B時(shí),ORZ只需要DeepSeek-R1-Zero十分之一的訓(xùn)練步數(shù),就能在AIME2024、MATH500和GPQA Diamond等權(quán)威測(cè)試中取得更好的成績(jī)。這就像是同樣的原材料,別人需要十個(gè)小時(shí)才能完成的工作,ORZ只需要一個(gè)小時(shí)就能做得更好。
一、推理訓(xùn)練的新思路:從零開始的藝術(shù)
傳統(tǒng)的AI推理模型訓(xùn)練通常分為兩個(gè)階段,就像培養(yǎng)一個(gè)學(xué)生,先要教會(huì)基礎(chǔ)知識(shí)(預(yù)訓(xùn)練),再教會(huì)解題技巧(強(qiáng)化學(xué)習(xí))。但ORZ采用了一種全新的"Reasoner-Zero"范式,直接在基礎(chǔ)模型上進(jìn)行大規(guī)模強(qiáng)化學(xué)習(xí)訓(xùn)練,跳過了中間的復(fù)雜步驟。
這種做法最初看起來風(fēng)險(xiǎn)很大,就像讓一個(gè)從未接觸過數(shù)學(xué)的人直接去解高等數(shù)學(xué)題。然而,研究結(jié)果表明,基礎(chǔ)模型本身就具備了驚人的學(xué)習(xí)潛力。當(dāng)給它們提供正確的訓(xùn)練環(huán)境和獎(jiǎng)勵(lì)機(jī)制時(shí),它們能夠快速掌握推理技能,甚至比那些經(jīng)過復(fù)雜預(yù)處理的模型表現(xiàn)更好。
研究團(tuán)隊(duì)選擇了Qwen2.5系列的基礎(chǔ)模型作為起點(diǎn),這些模型就像是具有良好天賦但尚未開發(fā)的學(xué)生。通過精心設(shè)計(jì)的訓(xùn)練過程,這些模型學(xué)會(huì)了如何進(jìn)行逐步推理、自我反思,以及在遇到困難時(shí)重新思考問題的方法。
有趣的是,研究發(fā)現(xiàn)即使是最小的0.5B參數(shù)模型也能從這種訓(xùn)練中獲益。這意味著這種方法具有很強(qiáng)的普適性,不僅適用于大型模型,也能讓較小的模型獲得顯著的推理能力提升。這為資源有限的研究團(tuán)隊(duì)和開發(fā)者提供了新的可能性。
二、極簡(jiǎn)主義的威力:越簡(jiǎn)單越有效
ORZ的核心哲學(xué)是"極簡(jiǎn)主義",這聽起來可能有些反直覺。在大多數(shù)人的印象中,復(fù)雜的AI訓(xùn)練需要復(fù)雜的方法來支撐。然而,這項(xiàng)研究發(fā)現(xiàn),最簡(jiǎn)單的PPO算法配合最直接的參數(shù)設(shè)置,反而能夠?qū)崿F(xiàn)最穩(wěn)定和最高效的訓(xùn)練。
具體來說,研究團(tuán)隊(duì)使用了PPO算法中最基礎(chǔ)的設(shè)置:GAE參數(shù)λ和γ都設(shè)為1。在技術(shù)層面,這意味著算法完全捕獲長期依賴關(guān)系,這對(duì)推理任務(wù)至關(guān)重要。用更通俗的話說,就像教學(xué)生解題時(shí),不急于求成,而是讓他們充分思考每一個(gè)步驟,理解整個(gè)解題過程的邏輯。
更令人驚訝的是,ORZ完全拋棄了傳統(tǒng)訓(xùn)練中常用的KL正則化技術(shù)。KL正則化就像是給學(xué)生設(shè)置的"安全繩",防止他們的思維偏離太遠(yuǎn)。但研究發(fā)現(xiàn),去掉這根"安全繩"反而讓模型能夠更自由地探索和學(xué)習(xí),從而獲得更好的性能。
在獎(jiǎng)勵(lì)設(shè)計(jì)方面,ORZ也秉承了極簡(jiǎn)原則。它只使用最基本的對(duì)錯(cuò)判斷:答案正確得1分,錯(cuò)誤得0分。沒有復(fù)雜的分級(jí)評(píng)分,沒有格式要求,就像最簡(jiǎn)單的是非題。但正是這種簡(jiǎn)單直接的反饋機(jī)制,讓模型能夠快速理解什么是正確的推理方向。
三、數(shù)據(jù)規(guī)模的秘密:質(zhì)量與數(shù)量的平衡
雖然ORZ在算法設(shè)計(jì)上追求極簡(jiǎn),但在數(shù)據(jù)準(zhǔn)備方面卻毫不馬虎。研究團(tuán)隊(duì)精心收集和整理了數(shù)萬個(gè)高質(zhì)量的數(shù)學(xué)和推理問題,涵蓋了從基礎(chǔ)算術(shù)到高級(jí)數(shù)學(xué)競(jìng)賽的各個(gè)難度層次。
這個(gè)數(shù)據(jù)集的構(gòu)建過程就像是為學(xué)生準(zhǔn)備一套完整的練習(xí)冊(cè)。研究團(tuán)隊(duì)從多個(gè)權(quán)威來源收集題目,包括AIME數(shù)學(xué)競(jìng)賽、MATH數(shù)據(jù)集、以及各種公開的數(shù)學(xué)論壇。但與簡(jiǎn)單的數(shù)據(jù)堆砌不同,他們對(duì)每個(gè)問題都進(jìn)行了仔細(xì)篩選,確保問題的質(zhì)量和答案的準(zhǔn)確性。
特別值得注意的是,研究團(tuán)隊(duì)排除了那些難以用簡(jiǎn)單規(guī)則驗(yàn)證答案的問題,比如開放式的證明題。這樣做的目的是確保訓(xùn)練過程中的反饋信號(hào)足夠清晰和準(zhǔn)確。就像在教學(xué)中,如果題目本身就存在歧義,那么再好的學(xué)生也難以獲得正確的學(xué)習(xí)方向。
實(shí)驗(yàn)結(jié)果清楚地顯示了數(shù)據(jù)規(guī)模的重要性。當(dāng)使用ORZ的57k大規(guī)模數(shù)據(jù)集時(shí),模型的性能能夠持續(xù)改善,沒有出現(xiàn)飽和現(xiàn)象。而當(dāng)使用傳統(tǒng)的MATH訓(xùn)練集(僅7.5k題目)時(shí),模型很快就遇到了性能瓶頸。這說明在推理訓(xùn)練中,數(shù)據(jù)的數(shù)量和多樣性都至關(guān)重要。
四、訓(xùn)練過程中的智慧發(fā)現(xiàn):批評(píng)家模型的妙用
ORZ采用的PPO算法有一個(gè)獨(dú)特的組件叫做"批評(píng)家"(critic),這個(gè)概念可能聽起來很抽象,但實(shí)際上它的作用非常直觀。想象一下,當(dāng)學(xué)生在解題時(shí),除了學(xué)生本身,還有一個(gè)經(jīng)驗(yàn)豐富的老師在旁邊觀察和評(píng)估。這個(gè)老師不直接給出答案,而是評(píng)估當(dāng)前的解題思路是否在正確的軌道上。
研究團(tuán)隊(duì)通過深入分析發(fā)現(xiàn),這個(gè)"批評(píng)家"模型具有了一種令人驚訝的能力:它能夠識(shí)別和抑制重復(fù)性的無意義文本。當(dāng)模型開始產(chǎn)生重復(fù)的內(nèi)容或陷入循環(huán)思維時(shí),批評(píng)家會(huì)給出較低的評(píng)分,從而引導(dǎo)模型回到正確的推理軌道上。
這種機(jī)制的重要性在與其他方法的對(duì)比中變得更加明顯。研究團(tuán)隊(duì)比較了PPO和另一種叫做GRPO的算法,發(fā)現(xiàn)GRPO在訓(xùn)練過程中容易出現(xiàn)不穩(wěn)定現(xiàn)象,模型會(huì)突然開始產(chǎn)生大量重復(fù)文本,導(dǎo)致訓(xùn)練失敗。而PPO的批評(píng)家機(jī)制有效地防止了這種問題的發(fā)生。
通過可視化分析,研究團(tuán)隊(duì)展示了批評(píng)家模型如何給不同類型的文本片段打分。對(duì)于邏輯清晰、推理連貫的文本,批評(píng)家給出高分;對(duì)于重復(fù)性強(qiáng)、沒有推進(jìn)的文本,批評(píng)家給出低分。這種自動(dòng)的質(zhì)量控制機(jī)制是ORZ能夠穩(wěn)定訓(xùn)練的關(guān)鍵因素之一。
五、令人驚嘆的性能表現(xiàn):少量訓(xùn)練換來卓越結(jié)果
ORZ的性能表現(xiàn)可以用"事半功倍"來形容。在標(biāo)準(zhǔn)的數(shù)學(xué)推理測(cè)試中,ORZ-32B模型在AIME2024測(cè)試中達(dá)到了48.1%的準(zhǔn)確率,在MATH500測(cè)試中達(dá)到了92.2%的準(zhǔn)確率,在GPQA Diamond測(cè)試中達(dá)到了55.5%的準(zhǔn)確率。這些成績(jī)不僅超越了使用相同基礎(chǔ)模型的DeepSeek-R1-Zero,而且使用的訓(xùn)練時(shí)間僅為后者的十分之一。
更令人印象深刻的是,ORZ展現(xiàn)出了優(yōu)秀的規(guī)模可擴(kuò)展性。從0.5B到32B參數(shù)的各個(gè)模型規(guī)模都能從這種訓(xùn)練方法中獲益,而且性能提升幾乎呈線性關(guān)系。這意味著這種方法不是偶然成功,而是具有深層的科學(xué)原理支撐。
在訓(xùn)練過程中,研究團(tuán)隊(duì)觀察到了一個(gè)有趣的現(xiàn)象:模型的回答長度與訓(xùn)練質(zhì)量呈正相關(guān)關(guān)系。隨著訓(xùn)練的進(jìn)行,模型不僅變得更準(zhǔn)確,而且開始產(chǎn)生更詳細(xì)、更有深度的推理過程。特別是那些包含反思和重新思考的回答,往往具有更高的準(zhǔn)確性。
除了在專業(yè)推理測(cè)試中的優(yōu)秀表現(xiàn),ORZ還在通用知識(shí)測(cè)試中表現(xiàn)出色。在MMLU和MMLU_PRO等綜合測(cè)試中,ORZ-32B的表現(xiàn)甚至超過了經(jīng)過專門指令調(diào)優(yōu)的Qwen2.5-32B-Instruct模型。這說明推理能力的提升對(duì)模型的整體智能水平都有積極影響。
六、開源精神的體現(xiàn):讓人人都能訓(xùn)練推理模型
ORZ項(xiàng)目最值得稱贊的地方之一是它的完全開源特性。研究團(tuán)隊(duì)不僅公開了完整的源代碼,還提供了訓(xùn)練數(shù)據(jù)、模型權(quán)重,甚至包括批評(píng)家模型的權(quán)重。這種開放性在當(dāng)前AI領(lǐng)域并不常見,特別是在推理模型這樣的前沿領(lǐng)域。
開源的意義遠(yuǎn)不止于代碼共享。研究團(tuán)隊(duì)提供的完整訓(xùn)練配置和超參數(shù)設(shè)置,讓其他研究者能夠輕松復(fù)現(xiàn)實(shí)驗(yàn)結(jié)果。這種可復(fù)現(xiàn)性是科學(xué)研究的基石,也是推動(dòng)整個(gè)領(lǐng)域進(jìn)步的關(guān)鍵。任何有興趣的研究團(tuán)隊(duì)都可以基于這些資源進(jìn)行進(jìn)一步的探索和改進(jìn)。
特別值得一提的是,ORZ的計(jì)算需求相對(duì)較低。相比于一些需要巨大計(jì)算資源的訓(xùn)練方法,ORZ的極簡(jiǎn)設(shè)計(jì)使得中小型研究團(tuán)隊(duì)也能夠承擔(dān)相應(yīng)的計(jì)算成本。這種可訪問性對(duì)于推動(dòng)AI推理技術(shù)的普及具有重要意義。
研究團(tuán)隊(duì)還提供了詳細(xì)的技術(shù)文檔和教程,包括從數(shù)據(jù)準(zhǔn)備到模型訓(xùn)練的完整流程。這些資源對(duì)于想要入門AI推理模型訓(xùn)練的研究者來說是寶貴的學(xué)習(xí)材料。通過這種知識(shí)分享,ORZ項(xiàng)目正在構(gòu)建一個(gè)推理AI研究的開放生態(tài)系統(tǒng)。
七、技術(shù)細(xì)節(jié)的深度剖析:簡(jiǎn)單背后的科學(xué)原理
雖然ORZ追求極簡(jiǎn),但這種簡(jiǎn)單并非草率,而是基于深入的技術(shù)理解和大量實(shí)驗(yàn)驗(yàn)證的結(jié)果。研究團(tuán)隊(duì)進(jìn)行了詳盡的消融實(shí)驗(yàn),系統(tǒng)性地驗(yàn)證了每個(gè)設(shè)計(jì)選擇的合理性。
在GAE參數(shù)的選擇上,研究團(tuán)隊(duì)比較了不同的λ值設(shè)置。實(shí)驗(yàn)發(fā)現(xiàn),λ=1的設(shè)置在訓(xùn)練穩(wěn)定性和最終性能方面都明顯優(yōu)于λ=0.95的設(shè)置。這個(gè)看似微小的參數(shù)差異,實(shí)際上反映了在推理任務(wù)中完整捕獲長期依賴關(guān)系的重要性。每一個(gè)推理步驟都可能影響最終答案的正確性,因此不能過早地對(duì)未來獎(jiǎng)勵(lì)進(jìn)行折扣。
關(guān)于KL正則化的選擇,研究團(tuán)隊(duì)的實(shí)驗(yàn)清楚地顯示了去除KL約束的好處。傳統(tǒng)的強(qiáng)化學(xué)習(xí)中使用KL正則化是為了防止策略偏離過遠(yuǎn),但在推理任務(wù)中,這種約束反而限制了模型的探索能力。去除KL正則化后,模型能夠更自由地學(xué)習(xí)新的推理模式,從而獲得更好的性能。
在數(shù)據(jù)規(guī)模的影響方面,研究團(tuán)隊(duì)的對(duì)比實(shí)驗(yàn)展示了令人信服的結(jié)果。使用ORZ的大規(guī)模數(shù)據(jù)集時(shí),模型性能呈現(xiàn)持續(xù)上升趨勢(shì),沒有明顯的飽和跡象。這與使用小規(guī)模數(shù)據(jù)集時(shí)出現(xiàn)的早期飽和形成了鮮明對(duì)比,證明了數(shù)據(jù)多樣性和規(guī)模對(duì)推理訓(xùn)練的關(guān)鍵作用。
研究團(tuán)隊(duì)還對(duì)不同模型規(guī)模進(jìn)行了系統(tǒng)性研究,從0.5B到32B參數(shù)的模型都顯示出了一致的改進(jìn)模式。這種跨規(guī)模的一致性表明,ORZ的訓(xùn)練方法具有良好的可擴(kuò)展性,不依賴于特定的模型規(guī)?;蚣軜?gòu)。
八、實(shí)際應(yīng)用的前景:從學(xué)術(shù)研究到現(xiàn)實(shí)價(jià)值
ORZ的成功不僅在學(xué)術(shù)層面具有重要意義,其實(shí)際應(yīng)用前景也非常廣闊。首先,在教育領(lǐng)域,這種高效的推理模型訓(xùn)練方法可以幫助開發(fā)更智能的輔導(dǎo)系統(tǒng)。這些系統(tǒng)不僅能夠解答學(xué)生的問題,還能提供詳細(xì)的解題思路和推理過程,真正幫助學(xué)生理解知識(shí)而不是簡(jiǎn)單地給出答案。
在科學(xué)研究領(lǐng)域,ORZ展示的推理能力可以應(yīng)用于假設(shè)生成、實(shí)驗(yàn)設(shè)計(jì)和結(jié)果分析等環(huán)節(jié)。研究人員可以利用這種模型來輔助復(fù)雜問題的分析,特別是在需要多步邏輯推理的場(chǎng)景中。雖然模型不能替代人類的創(chuàng)造性思維,但它可以作為強(qiáng)有力的思維工具,幫助研究人員探索更多的可能性。
在商業(yè)應(yīng)用方面,ORZ的高效訓(xùn)練特性使得企業(yè)能夠以相對(duì)較低的成本訓(xùn)練定制化的推理模型。無論是金融分析、法律咨詢還是技術(shù)支持,都可以基于ORZ的框架開發(fā)專門的應(yīng)用系統(tǒng)。這種可定制性和成本效益使得AI推理技術(shù)有可能真正普及到中小企業(yè)。
值得注意的是,ORZ在訓(xùn)練過程中表現(xiàn)出的穩(wěn)定性和可預(yù)測(cè)性,使得它特別適合于那些對(duì)可靠性要求較高的應(yīng)用場(chǎng)景。傳統(tǒng)的AI訓(xùn)練往往存在不確定性,而ORZ的極簡(jiǎn)設(shè)計(jì)減少了出錯(cuò)的可能性,提高了訓(xùn)練結(jié)果的可信度。
九、未來發(fā)展的方向:從基礎(chǔ)突破到更大愿景
研究團(tuán)隊(duì)在論文中提出了對(duì)未來發(fā)展的明確規(guī)劃,這些方向不僅體現(xiàn)了技術(shù)發(fā)展的自然延伸,也反映了對(duì)AI推理能力更深層次的思考。
在數(shù)據(jù)擴(kuò)展方面,團(tuán)隊(duì)計(jì)劃探索如何通過增加數(shù)據(jù)的數(shù)量、質(zhì)量和多樣性來進(jìn)一步提升模型的推理能力。這不僅僅是簡(jiǎn)單的數(shù)據(jù)堆疊,而是要建立一個(gè)更加豐富和平衡的訓(xùn)練生態(tài)系統(tǒng)。他們希望通過開源社區(qū)的力量,共同貢獻(xiàn)和分享高質(zhì)量的訓(xùn)練數(shù)據(jù),形成一個(gè)良性的發(fā)展循環(huán)。
在模型規(guī)模方面,雖然當(dāng)前的研究已經(jīng)覆蓋了從0.5B到32B的參數(shù)范圍,但團(tuán)隊(duì)認(rèn)為還有進(jìn)一步探索的空間。更大的模型可能具備學(xué)習(xí)更復(fù)雜推理模式的能力,而多模態(tài)的擴(kuò)展則可以讓模型處理不僅僅是文本,還包括圖像、數(shù)學(xué)公式等多種信息類型的推理問題。
測(cè)試時(shí)計(jì)算的擴(kuò)展是另一個(gè)重要方向。目前的模型主要在訓(xùn)練時(shí)學(xué)習(xí)推理能力,但如何在推理時(shí)動(dòng)態(tài)分配計(jì)算資源,如何通過多輪對(duì)話深化推理過程,如何利用多個(gè)模型的協(xié)作來解決更復(fù)雜的問題,這些都是值得探索的領(lǐng)域。
最雄心勃勃的目標(biāo)是場(chǎng)景擴(kuò)展。團(tuán)隊(duì)希望將推理能力從數(shù)學(xué)和邏輯問題擴(kuò)展到更廣泛的領(lǐng)域,包括創(chuàng)意寫作、科學(xué)發(fā)現(xiàn)和社會(huì)交互等。這需要對(duì)推理本身有更深入的理解,也需要開發(fā)更加通用和靈活的訓(xùn)練框架。
說到底,ORZ項(xiàng)目展示的不僅僅是一種新的訓(xùn)練方法,更是一種研究理念的轉(zhuǎn)變。它證明了在AI發(fā)展的道路上,有時(shí)候回歸基礎(chǔ)、追求簡(jiǎn)潔反而能夠帶來更大的突破。就像物理學(xué)中的奧卡姆剃刀原理一樣,最簡(jiǎn)單的解釋往往最接近真理。
這項(xiàng)研究給整個(gè)AI社區(qū)帶來的啟示是深刻的。它告訴我們,不是所有的進(jìn)步都需要更復(fù)雜的架構(gòu)或更巧妙的技巧,有時(shí)候最重要的是找到問題的本質(zhì),然后用最直接的方法去解決它。ORZ的成功可能會(huì)激發(fā)更多研究者重新審視那些看似"過時(shí)"或"簡(jiǎn)單"的方法,在其中發(fā)現(xiàn)新的可能性。
對(duì)于普通人來說,這項(xiàng)研究意味著AI推理技術(shù)正在變得更加民主化和可訪問。隨著訓(xùn)練成本的降低和開源資源的豐富,我們可能很快就會(huì)看到各種各樣基于這種技術(shù)的應(yīng)用出現(xiàn)在日常生活中。從智能助手到教育工具,從科研輔助到創(chuàng)意支持,AI推理能力的普及將會(huì)改變我們與信息和知識(shí)交互的方式。
歸根結(jié)底,ORZ項(xiàng)目體現(xiàn)了科學(xué)研究的精神:保持好奇心,勇于質(zhì)疑常規(guī),追求簡(jiǎn)潔和優(yōu)雅的解決方案。正如研究團(tuán)隊(duì)在論文中引用的"苦澀教訓(xùn)"所說,長遠(yuǎn)來看,唯一重要的是能夠隨著計(jì)算和數(shù)據(jù)的增加而有效擴(kuò)展的方法。而ORZ正是這樣一種方法——簡(jiǎn)單、有效、可擴(kuò)展,為AI推理的未來發(fā)展指明了一條清晰的道路。
有興趣深入了解這項(xiàng)研究的讀者,可以通過GitHub項(xiàng)目頁面和HuggingFace模型庫獲取完整的代碼、數(shù)據(jù)和模型資源,親自體驗(yàn)這種革命性的訓(xùn)練方法。
Q&A
Q1:Open-Reasoner-Zero是什么?它與傳統(tǒng)AI訓(xùn)練有什么不同? A:Open-Reasoner-Zero是一種極簡(jiǎn)的AI推理模型訓(xùn)練方法,直接在基礎(chǔ)模型上進(jìn)行強(qiáng)化學(xué)習(xí)訓(xùn)練,跳過了復(fù)雜的預(yù)處理步驟。它使用最基礎(chǔ)的PPO算法和簡(jiǎn)單的對(duì)錯(cuò)獎(jiǎng)勵(lì)機(jī)制,卻能以十分之一的訓(xùn)練時(shí)間達(dá)到甚至超越復(fù)雜方法的效果。
Q2:為什么簡(jiǎn)單的方法反而比復(fù)雜的方法更有效? A:研究發(fā)現(xiàn),復(fù)雜的約束和調(diào)節(jié)機(jī)制(如KL正則化)反而限制了模型的學(xué)習(xí)能力。簡(jiǎn)單的方法讓模型能夠更自由地探索推理空間,而PPO算法中的"批評(píng)家"組件能夠自動(dòng)識(shí)別和抑制無意義的重復(fù)內(nèi)容,保證訓(xùn)練質(zhì)量。
Q3:普通研究者能使用這個(gè)方法嗎?需要什么條件? A:是的,這正是Open-Reasoner-Zero的一大優(yōu)勢(shì)。它完全開源,計(jì)算需求相對(duì)較低,中小型研究團(tuán)隊(duì)也能承擔(dān)。研究團(tuán)隊(duì)提供了完整的代碼、數(shù)據(jù)、模型權(quán)重和詳細(xì)文檔,任何人都可以通過GitHub和HuggingFace平臺(tái)獲取這些資源并進(jìn)行復(fù)現(xiàn)實(shí)驗(yàn)。
好文章,需要你的鼓勵(lì)
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場(chǎng)景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息,顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量,在多項(xiàng)測(cè)試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對(duì)話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評(píng)測(cè)基準(zhǔn),通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平,為AI價(jià)值觀對(duì)齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測(cè)模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測(cè)方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。