今年6月,字節(jié)跳動(dòng)種子團(tuán)隊(duì)發(fā)布了一項(xiàng)名為"Truncated Proximal Policy Optimization"(T-PPO,截?cái)嗍浇瞬呗詢?yōu)化)的重要研究成果。這項(xiàng)研究由字節(jié)跳動(dòng)種子實(shí)驗(yàn)室的樊天天研究員領(lǐng)導(dǎo),聯(lián)合清華大學(xué)AIR實(shí)驗(yàn)室共同完成,并已在arXiv平臺(tái)發(fā)表(論文編號(hào):arXiv:2506.15050v1)。對(duì)于想要深入了解技術(shù)細(xì)節(jié)的讀者,可以通過這個(gè)編號(hào)在arXiv官網(wǎng)搜索獲取完整論文。
在人工智能飛速發(fā)展的今天,我們經(jīng)常聽到ChatGPT、文心一言這樣的AI模型能夠進(jìn)行復(fù)雜推理,回答各種難題。但你可能不知道,要讓這些AI變得如此聰明,背后需要進(jìn)行大量的"訓(xùn)練"過程,就像教導(dǎo)一個(gè)學(xué)生解數(shù)學(xué)題一樣。而這個(gè)訓(xùn)練過程往往耗時(shí)巨大,成本高昂。字節(jié)跳動(dòng)的研究團(tuán)隊(duì)就像發(fā)明了一種新的"高效學(xué)習(xí)法",能讓AI的學(xué)習(xí)速度提升2.5倍,同時(shí)還能保持甚至提高學(xué)習(xí)效果。
這項(xiàng)研究的核心在于解決一個(gè)實(shí)際問題:當(dāng)前最流行的AI訓(xùn)練方法PPO(近端策略優(yōu)化)雖然效果不錯(cuò),但就像一個(gè)過分謹(jǐn)慎的老師,總是要等所有學(xué)生都完成整套題目后才開始批改和指導(dǎo),這導(dǎo)致了大量的等待時(shí)間和資源浪費(fèi)。研究團(tuán)隊(duì)提出的T-PPO算法就像一位更靈活的教師,能夠在學(xué)生解題過程中就開始提供指導(dǎo),不必等到全部完成,從而大大提高了教學(xué)效率。
研究的創(chuàng)新之處在于兩個(gè)核心技術(shù)突破。第一個(gè)突破是"擴(kuò)展廣義優(yōu)勢(shì)估計(jì)"(EGAE),這就像是給老師配備了一副特殊的眼鏡,讓他能夠在學(xué)生還沒做完全部題目時(shí),就準(zhǔn)確判斷出學(xué)生前面部分的表現(xiàn)好壞,并及時(shí)給出指導(dǎo)。第二個(gè)突破是"獨(dú)立優(yōu)化機(jī)制",就像同時(shí)安排兩位專業(yè)教師分別負(fù)責(zé)不同方面的指導(dǎo),一位專注于解題思路的培養(yǎng),另一位專注于答案準(zhǔn)確性的評(píng)估,兩者可以同時(shí)進(jìn)行工作,不會(huì)相互干擾。
團(tuán)隊(duì)在著名的AIME 2024數(shù)學(xué)競(jìng)賽題目上測(cè)試了這個(gè)新方法。AIME是美國(guó)頂級(jí)的數(shù)學(xué)競(jìng)賽,題目難度相當(dāng)于奧數(shù)水平,需要很長(zhǎng)的推理鏈條才能解出答案。就像讓AI參加一場(chǎng)馬拉松式的數(shù)學(xué)考試,不僅要答對(duì),還要展示完整的解題過程。結(jié)果顯示,使用T-PPO訓(xùn)練的32B參數(shù)Qwen2.5模型在這項(xiàng)測(cè)試中獲得了62分的優(yōu)秀成績(jī),不僅超過了其他競(jìng)爭(zhēng)方法,還將訓(xùn)練時(shí)間縮短了60%。
一、AI學(xué)習(xí)的瓶頸:等待的藝術(shù)變成了浪費(fèi)的科學(xué)
要理解T-PPO的價(jià)值,我們首先需要了解當(dāng)前AI訓(xùn)練面臨的核心問題。現(xiàn)在最主流的AI訓(xùn)練方法叫做PPO,它的工作方式就像一個(gè)極其負(fù)責(zé)任但效率不高的家教老師。
當(dāng)這位老師給學(xué)生布置了一套復(fù)雜的數(shù)學(xué)題后,他會(huì)耐心等待每個(gè)學(xué)生都完成全部題目,然后才開始批改和給出反饋。這種做法雖然保證了教學(xué)質(zhì)量,但存在一個(gè)明顯的問題:有些學(xué)生做題快,有些學(xué)生做題慢,快的學(xué)生早早完成后就只能干等著,而老師也必須等到最慢的學(xué)生完成后才能開始下一輪教學(xué)。
在AI訓(xùn)練的世界里,這個(gè)問題變得更加嚴(yán)重。當(dāng)我們讓AI解決復(fù)雜推理問題時(shí),比如證明數(shù)學(xué)定理或者分析科學(xué)問題,AI需要生成很長(zhǎng)的"思考過程",就像學(xué)生寫詳細(xì)的解題步驟一樣。有些問題可能需要幾千個(gè)文字的推理過程,而有些問題可能只需要幾百個(gè)文字。但按照傳統(tǒng)PPO的做法,系統(tǒng)必須等到所有AI都完成最長(zhǎng)的推理過程后,才能開始學(xué)習(xí)和改進(jìn)。
這就導(dǎo)致了一個(gè)被研究人員稱為"硬件利用率低"的問題。想象一下,一個(gè)擁有強(qiáng)大計(jì)算能力的超級(jí)計(jì)算機(jī),在大部分時(shí)間里都在"發(fā)呆"等待,就像一臺(tái)法拉利跑車被迫在擁堵的城市道路上緩慢行駛一樣,完全無法發(fā)揮其真正的性能。
更糟糕的是,隨著AI推理能力的提升,它們生成的推理過程越來越長(zhǎng),等待時(shí)間也越來越久。這就像原本需要1小時(shí)的作業(yè)現(xiàn)在變成了3小時(shí),而等待時(shí)間也相應(yīng)地從1小時(shí)變成了3小時(shí),整個(gè)訓(xùn)練過程變得越來越緩慢和昂貴。
研究團(tuán)隊(duì)意識(shí)到,這個(gè)問題的本質(zhì)在于傳統(tǒng)方法過于"同步化"—— 所有的學(xué)習(xí)都必須等到所有的生成過程都完成。這種嚴(yán)格的同步要求雖然保證了訓(xùn)練的穩(wěn)定性,但也成為了效率提升的最大障礙。就像一支軍隊(duì)行軍時(shí)必須等待最慢的士兵一樣,整個(gè)隊(duì)伍的速度被最慢的那個(gè)環(huán)節(jié)所限制。
同時(shí),研究人員還發(fā)現(xiàn)了另一個(gè)問題:在長(zhǎng)時(shí)間的推理過程中,AI在前面部分的表現(xiàn)往往比后面部分更容易評(píng)估和改進(jìn)。就像學(xué)生在解數(shù)學(xué)題時(shí),前面的基礎(chǔ)步驟通常比最后的復(fù)雜計(jì)算更重要,也更容易判斷對(duì)錯(cuò)。但傳統(tǒng)方法卻要等到學(xué)生完成全部步驟后才開始任何指導(dǎo),這無疑浪費(fèi)了很多寶貴的學(xué)習(xí)機(jī)會(huì)。
二、突破性解決方案:邊做邊學(xué)的智慧
面對(duì)這些挑戰(zhàn),字節(jié)跳動(dòng)的研究團(tuán)隊(duì)提出了一個(gè)革命性的想法:為什么不能讓AI在生成推理過程的同時(shí)就開始學(xué)習(xí)呢?這就像讓老師在學(xué)生做題過程中就開始提供指導(dǎo),而不是等到全部完成后才開始。
T-PPO的核心思想可以用一個(gè)生動(dòng)的比喻來理解:傳統(tǒng)的PPO就像一個(gè)傳統(tǒng)的課堂,老師必須等所有學(xué)生都完成考試后才能批改試卷,然后統(tǒng)一講解。而T-PPO則像一個(gè)現(xiàn)代化的智能學(xué)習(xí)系統(tǒng),能夠?qū)崟r(shí)監(jiān)控每個(gè)學(xué)生的答題進(jìn)度,在學(xué)生完成部分題目后就開始提供針對(duì)性的指導(dǎo),同時(shí)讓完成得快的學(xué)生不用干等,可以立即開始新的學(xué)習(xí)任務(wù)。
這個(gè)新方法的第一個(gè)關(guān)鍵創(chuàng)新是"擴(kuò)展廣義優(yōu)勢(shì)估計(jì)"(EGAE)。聽起來很復(fù)雜,但實(shí)際上這就像給老師配備了一種特殊的"透視能力"。傳統(tǒng)方法中,老師只能在學(xué)生完成全部題目后才能評(píng)判這個(gè)學(xué)生的表現(xiàn)好壞。而EGAE讓老師能夠在學(xué)生只完成一半題目的情況下,就準(zhǔn)確預(yù)測(cè)這個(gè)學(xué)生最終的表現(xiàn),并據(jù)此提供恰當(dāng)?shù)闹笇?dǎo)。
這種"透視能力"是怎么實(shí)現(xiàn)的呢?研究團(tuán)隊(duì)巧妙地利用了一個(gè)數(shù)學(xué)原理:在長(zhǎng)期的推理過程中,前面步驟的重要性往往比后面步驟更大,就像建房子時(shí)地基比屋頂裝飾更重要一樣。通過精確的數(shù)學(xué)計(jì)算,EGAE能夠根據(jù)已完成的部分推理,合理估計(jì)整個(gè)推理過程的質(zhì)量,從而允許系統(tǒng)在推理還沒完成時(shí)就開始學(xué)習(xí)改進(jìn)。
第二個(gè)關(guān)鍵創(chuàng)新是"獨(dú)立優(yōu)化機(jī)制"。這個(gè)機(jī)制就像在學(xué)校里同時(shí)安排兩位專業(yè)教師:一位"思維教練"專門負(fù)責(zé)培養(yǎng)學(xué)生的解題思路和推理方法,另一位"準(zhǔn)確性評(píng)估師"專門負(fù)責(zé)檢查答案的正確性。這兩位教師可以同時(shí)工作,互不干擾,大大提高了教學(xué)效率。
在技術(shù)層面,"思維教練"對(duì)應(yīng)的是策略模型的訓(xùn)練,它關(guān)注AI如何一步步生成推理過程。由于有了EGAE的幫助,這個(gè)教練不需要等到推理完全結(jié)束,就可以在推理進(jìn)行到一半時(shí)開始指導(dǎo)AI改進(jìn)思維方式。而"準(zhǔn)確性評(píng)估師"對(duì)應(yīng)的是價(jià)值模型的訓(xùn)練,它專門負(fù)責(zé)判斷最終答案的正確性。為了保證評(píng)估的準(zhǔn)確性,這個(gè)評(píng)估師會(huì)耐心等到推理完全結(jié)束,看到最終答案后再進(jìn)行評(píng)估。
這種分工合作的方式帶來了雙重好處:既保證了學(xué)習(xí)的質(zhì)量(通過準(zhǔn)確的最終評(píng)估),又大大提高了學(xué)習(xí)的效率(通過及時(shí)的過程指導(dǎo))。就像一個(gè)優(yōu)秀的體育教練既要在訓(xùn)練過程中及時(shí)糾正運(yùn)動(dòng)員的動(dòng)作,也要在比賽結(jié)束后根據(jù)最終成績(jī)制定新的訓(xùn)練計(jì)劃。
三、令人驚喜的實(shí)驗(yàn)成果:數(shù)據(jù)說話的時(shí)刻
為了驗(yàn)證T-PPO的效果,研究團(tuán)隊(duì)選擇了一個(gè)極具挑戰(zhàn)性的測(cè)試平臺(tái):AIME 2024數(shù)學(xué)競(jìng)賽。AIME(美國(guó)數(shù)學(xué)邀請(qǐng)賽)是美國(guó)最高水平的高中數(shù)學(xué)競(jìng)賽之一,題目難度堪比奧數(shù),每道題都需要復(fù)雜的推理過程才能解決。這就像讓AI參加一場(chǎng)馬拉松式的數(shù)學(xué)考試,不僅要得出正確答案,還要展示完整的解題思路。
實(shí)驗(yàn)使用的是Qwen2.5-32B基礎(chǔ)模型,這是一個(gè)擁有320億參數(shù)的大型語言模型。研究團(tuán)隊(duì)讓這個(gè)模型通過不同的訓(xùn)練方法學(xué)習(xí)解決數(shù)學(xué)問題,然后在AIME 2024的題目上測(cè)試它們的表現(xiàn)。結(jié)果讓人印象深刻:使用T-PPO訓(xùn)練的模型最終獲得了62分的優(yōu)秀成績(jī),超過了所有其他競(jìng)爭(zhēng)方法。
更令人興奮的是訓(xùn)練效率的巨大提升。傳統(tǒng)的PPO方法需要大約16,800秒(約4.7小時(shí))才能達(dá)到收斂,而T-PPO只需要6,720秒(約1.9小時(shí))就能達(dá)到更好的效果,訓(xùn)練時(shí)間縮短了60%。這就像原本需要5小時(shí)的車程現(xiàn)在只需要2小時(shí)就能到達(dá),而且還能欣賞到更美的風(fēng)景。
從具體的技術(shù)指標(biāo)來看,T-PPO在多個(gè)關(guān)鍵維度都展現(xiàn)出了優(yōu)勢(shì)。在計(jì)算效率方面,傳統(tǒng)PPO在政策展開階段的計(jì)算強(qiáng)度只有84操作/字節(jié),而T-PPO達(dá)到了249操作/字節(jié),幾乎是傳統(tǒng)方法的3倍。這個(gè)數(shù)字聽起來很抽象,但可以這樣理解:計(jì)算強(qiáng)度越高,說明計(jì)算資源的利用越充分,就像一臺(tái)機(jī)器從原來只發(fā)揮30%的性能提升到了90%的性能。
在訓(xùn)練穩(wěn)定性方面,T-PPO也表現(xiàn)出色。研究團(tuán)隊(duì)觀察到,使用T-PPO訓(xùn)練的模型在學(xué)習(xí)過程中表現(xiàn)出了一個(gè)有趣的現(xiàn)象:生成的推理長(zhǎng)度先是增加,然后稍微下降,最后穩(wěn)定在一個(gè)比傳統(tǒng)方法更高的水平。這個(gè)過程就像學(xué)生學(xué)習(xí)解題一樣——剛開始時(shí)會(huì)寫很多冗余的步驟,然后學(xué)會(huì)簡(jiǎn)化,最后找到既簡(jiǎn)潔又完整的最佳表達(dá)方式。
更重要的是,T-PPO不僅在效率上有所提升,在最終效果上也有所改善。在AIME 2024的測(cè)試中,T-PPO超越了包括DeepSeek-R1-Zero-Qwen-32B(47分)、DAPO(50分)、VAPO(60分)、GePPO(50分)和PPO-EWMA(52分)在內(nèi)的所有基準(zhǔn)方法。這證明了效率提升并沒有以犧牲質(zhì)量為代價(jià),反而通過更好的訓(xùn)練策略獲得了雙重收益。
四、深入解析:技術(shù)創(chuàng)新的核心機(jī)制
要真正理解T-PPO為什么能取得如此顯著的成果,我們需要深入了解其技術(shù)創(chuàng)新的核心機(jī)制。這些機(jī)制雖然在表面上看起來復(fù)雜,但背后的邏輯卻相當(dāng)直觀和巧妙。
首先是"截?cái)嗖呗?的設(shè)計(jì)理念。傳統(tǒng)方法就像一個(gè)完美主義者,堅(jiān)持要看到每個(gè)學(xué)生完成全部作業(yè)后才開始評(píng)價(jià)。而T-PPO采用了一種更加靈活的方式:設(shè)定一個(gè)"窗口長(zhǎng)度",比如2000個(gè)詞,當(dāng)AI的推理達(dá)到這個(gè)長(zhǎng)度時(shí)就先停下來進(jìn)行一次學(xué)習(xí),即使推理還沒有完全結(jié)束。這就像將一場(chǎng)馬拉松比賽分成若干個(gè)檢查點(diǎn),在每個(gè)檢查點(diǎn)都可以給運(yùn)動(dòng)員補(bǔ)給和指導(dǎo),而不是等到終點(diǎn)才進(jìn)行總結(jié)。
在具體實(shí)施中,研究團(tuán)隊(duì)設(shè)置了24,000個(gè)詞作為最大推理長(zhǎng)度,8,000個(gè)詞作為窗口長(zhǎng)度。這意味著每個(gè)長(zhǎng)推理過程被分成了3個(gè)階段,每個(gè)階段都可以獨(dú)立進(jìn)行學(xué)習(xí)和優(yōu)化。這種分段處理方式不僅提高了訓(xùn)練效率,還使得系統(tǒng)能夠更好地處理不同長(zhǎng)度的推理任務(wù)。
擴(kuò)展廣義優(yōu)勢(shì)估計(jì)(EGAE)的工作原理可以用一個(gè)簡(jiǎn)單的例子來說明。假設(shè)一個(gè)學(xué)生正在解一道復(fù)雜的數(shù)學(xué)題,傳統(tǒng)方法必須等學(xué)生完成全部10個(gè)步驟后才能評(píng)判。而EGAE能夠在學(xué)生完成前6個(gè)步驟時(shí),就根據(jù)這些步驟的質(zhì)量和數(shù)學(xué)原理,合理推測(cè)出如果學(xué)生繼續(xù)按照當(dāng)前的思路進(jìn)行,最終得到正確答案的概率有多大。這種推測(cè)基于一個(gè)重要的觀察:在數(shù)學(xué)推理中,前面步驟的正確性對(duì)后續(xù)步驟有很強(qiáng)的指導(dǎo)作用。
從數(shù)學(xué)角度來看,EGAE擴(kuò)展了傳統(tǒng)的廣義優(yōu)勢(shì)估計(jì)公式。原始的GAE公式是:A_t = δ_t + (γλ)δ_(t+1) + ... + (γλ)^(T-t-1)δ_(T-1),其中T是完整序列的長(zhǎng)度。而EGAE將其修改為:A_t = δ_t + (γλ)δ_(t+1) + ... + (γλ)^(l-t-1)δ_(l-1),其中l(wèi)是截?cái)嚅L(zhǎng)度。這個(gè)看似簡(jiǎn)單的修改背后包含了深刻的數(shù)學(xué)洞察:通過適當(dāng)?shù)膮?shù)選擇,截?cái)嗪蟮墓烙?jì)仍然能夠保持足夠的準(zhǔn)確性。
獨(dú)立優(yōu)化機(jī)制的設(shè)計(jì)則體現(xiàn)了分工合作的智慧。在傳統(tǒng)的PPO中,策略模型和價(jià)值模型的更新是緊密耦合的,必須同時(shí)進(jìn)行。而T-PPO將它們解耦,允許策略模型基于部分生成的序列進(jìn)行更新,同時(shí)讓價(jià)值模型基于完整的序列進(jìn)行更新。這就像一個(gè)工廠中的兩條生產(chǎn)線可以獨(dú)立運(yùn)行,一條專門處理半成品,另一條專門處理最終產(chǎn)品,兩者互不干擾但又相互配合。
令人印象深刻的是,T-PPO還采用了一種巧妙的"token過濾策略"。在每個(gè)訓(xùn)練步驟中,系統(tǒng)會(huì)智能地選擇哪些token用于訓(xùn)練策略模型,哪些token用于訓(xùn)練價(jià)值模型。對(duì)于策略模型,系統(tǒng)主要使用當(dāng)前訓(xùn)練步驟中新生成的token,這樣可以及時(shí)捕捉到策略的改進(jìn)方向。對(duì)于價(jià)值模型,系統(tǒng)使用已完成序列的所有token,確保價(jià)值估計(jì)的準(zhǔn)確性。這種精細(xì)化的token管理策略進(jìn)一步提高了訓(xùn)練效率,減少了不必要的計(jì)算開銷。
五、實(shí)際應(yīng)用價(jià)值:從實(shí)驗(yàn)室到現(xiàn)實(shí)世界的橋梁
T-PPO的突破性成果不僅僅停留在學(xué)術(shù)層面,它還具有廣泛的實(shí)際應(yīng)用價(jià)值,有望在多個(gè)領(lǐng)域產(chǎn)生深遠(yuǎn)影響。這些影響就像投入湖中的石子,會(huì)產(chǎn)生一圈圈不斷擴(kuò)散的漣漪。
在教育領(lǐng)域,T-PPO的應(yīng)用前景令人興奮。當(dāng)前的AI教學(xué)助手往往只能在學(xué)生完成全部作業(yè)后給出反饋,這種延遲的反饋效果有限。而基于T-PPO訓(xùn)練的AI教師能夠在學(xué)生解題過程中實(shí)時(shí)提供指導(dǎo),就像一位經(jīng)驗(yàn)豐富的老師站在學(xué)生身邊,隨時(shí)發(fā)現(xiàn)問題并及時(shí)糾正。這種即時(shí)反饋機(jī)制不僅能夠提高學(xué)習(xí)效率,還能幫助學(xué)生建立正確的思維習(xí)慣。
在科學(xué)研究領(lǐng)域,T-PPO的價(jià)值同樣不可估量??茖W(xué)發(fā)現(xiàn)往往需要復(fù)雜的推理過程,從假設(shè)提出到實(shí)驗(yàn)設(shè)計(jì),再到結(jié)果分析,每一步都需要嚴(yán)密的邏輯思維。傳統(tǒng)的AI助手在處理這種長(zhǎng)鏈條推理時(shí)效率較低,而T-PPO訓(xùn)練的AI能夠更快地掌握科學(xué)推理的精髓,成為研究人員的得力助手。無論是分析基因序列、設(shè)計(jì)化學(xué)實(shí)驗(yàn),還是構(gòu)建物理模型,這樣的AI助手都能夠大大加速科學(xué)發(fā)現(xiàn)的進(jìn)程。
從商業(yè)角度來看,T-PPO帶來的訓(xùn)練效率提升意味著巨大的成本節(jié)約。要知道,訓(xùn)練一個(gè)大型AI模型往往需要數(shù)百萬甚至數(shù)千萬美元的計(jì)算成本。如果能夠?qū)⒂?xùn)練時(shí)間縮短60%,就相當(dāng)于節(jié)約了數(shù)百萬美元的開支。這種成本優(yōu)勢(shì)會(huì)使得更多的公司和研究機(jī)構(gòu)能夠負(fù)擔(dān)得起先進(jìn)AI技術(shù)的開發(fā),從而推動(dòng)整個(gè)行業(yè)的快速發(fā)展。
更重要的是,T-PPO的成功為AI推理能力的發(fā)展指明了新的方向。當(dāng)前的AI推理模型,如OpenAI的o1、DeepSeek的R1等,都需要生成越來越長(zhǎng)的推理過程來解決復(fù)雜問題。這種趨勢(shì)雖然提高了AI的推理能力,但也帶來了巨大的計(jì)算負(fù)擔(dān)。T-PPO提供了一種解決方案,讓我們能夠在保持甚至提升推理質(zhì)量的同時(shí),顯著降低訓(xùn)練成本。
在技術(shù)產(chǎn)業(yè)化方面,T-PPO的影響也將是深遠(yuǎn)的。隨著AI技術(shù)在各行各業(yè)的普及,對(duì)高質(zhì)量推理模型的需求將急劇增長(zhǎng)。無論是法律文書分析、醫(yī)療診斷輔助、金融風(fēng)險(xiǎn)評(píng)估,還是工程設(shè)計(jì)優(yōu)化,都需要具備強(qiáng)大推理能力的AI系統(tǒng)。T-PPO使得這些專業(yè)領(lǐng)域的AI系統(tǒng)能夠以更低的成本、更高的效率進(jìn)行訓(xùn)練和部署。
此外,T-PPO的開源性質(zhì)也為整個(gè)AI社區(qū)帶來了福音。字節(jié)跳動(dòng)選擇將這一技術(shù)以研究論文的形式公開發(fā)表,意味著世界各地的研究者和開發(fā)者都可以在此基礎(chǔ)上進(jìn)行進(jìn)一步的改進(jìn)和應(yīng)用。這種開放共享的精神將加速AI技術(shù)的發(fā)展,讓更多人受益于先進(jìn)的AI推理能力。
從長(zhǎng)遠(yuǎn)來看,T-PPO代表的這種"邊學(xué)邊做"的訓(xùn)練理念可能會(huì)成為未來AI發(fā)展的重要范式。就像人類學(xué)習(xí)過程中的"在實(shí)踐中學(xué)習(xí)"一樣,AI也需要能夠在執(zhí)行任務(wù)的過程中不斷改進(jìn)和優(yōu)化。T-PPO為這種學(xué)習(xí)模式提供了一個(gè)成功的技術(shù)實(shí)現(xiàn),為未來更加智能、更加高效的AI系統(tǒng)奠定了基礎(chǔ)。
說到底,T-PPO的成功不僅僅是一個(gè)技術(shù)突破,更是對(duì)AI訓(xùn)練理念的一次重要革新。它告訴我們,在追求AI能力提升的同時(shí),我們同樣需要關(guān)注效率和成本。只有這樣,AI技術(shù)才能真正走出實(shí)驗(yàn)室,服務(wù)于更廣泛的人群,為人類社會(huì)創(chuàng)造更大的價(jià)值。正如研究團(tuán)隊(duì)在論文中所表達(dá)的希望:這項(xiàng)工作不僅能降低訓(xùn)練成本,更能為專業(yè)領(lǐng)域的專家模型開發(fā)帶來新的啟發(fā),推動(dòng)AI技術(shù)在各個(gè)專業(yè)領(lǐng)域的深入應(yīng)用。
Q&A
Q1:T-PPO是什么?它和傳統(tǒng)PPO有什么區(qū)別? A:T-PPO是字節(jié)跳動(dòng)開發(fā)的一種新型AI訓(xùn)練算法,全稱是"截?cái)嗍浇瞬呗詢?yōu)化"。與傳統(tǒng)PPO需要等待AI完成全部推理過程才開始學(xué)習(xí)不同,T-PPO可以在推理進(jìn)行過程中就開始訓(xùn)練,就像老師在學(xué)生做題時(shí)就能給出指導(dǎo),而不用等到全部完成。這使得訓(xùn)練效率提升了2.5倍。
Q2:T-PPO會(huì)不會(huì)影響AI的推理質(zhì)量? A:不會(huì)。實(shí)驗(yàn)結(jié)果顯示,T-PPO不僅大幅提升了訓(xùn)練效率,還在AIME 2024數(shù)學(xué)競(jìng)賽中獲得了62分的優(yōu)秀成績(jī),超過了所有其他競(jìng)爭(zhēng)方法。這證明了效率提升并沒有以犧牲質(zhì)量為代價(jià),反而通過更好的訓(xùn)練策略獲得了雙重收益。
Q3:普通人能用到T-PPO技術(shù)嗎? A:目前T-PPO主要是一種訓(xùn)練技術(shù),主要被AI公司和研究機(jī)構(gòu)使用來訓(xùn)練更好的AI模型。但是,通過T-PPO訓(xùn)練出來的AI模型最終會(huì)服務(wù)于普通用戶,比如更智能的教育助手、更準(zhǔn)確的科學(xué)計(jì)算工具等。隨著技術(shù)的普及,未來我們?nèi)粘J褂玫腁I產(chǎn)品很可能都會(huì)受益于這種高效訓(xùn)練技術(shù)。
好文章,需要你的鼓勵(lì)
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長(zhǎng)篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場(chǎng)景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息,顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量,在多項(xiàng)測(cè)試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對(duì)話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評(píng)測(cè)基準(zhǔn),通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平,為AI價(jià)值觀對(duì)齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測(cè)模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測(cè)方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。