av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見(jiàn)證連接與計(jì)算的「力量」

首頁(yè) ByteDance Seed和南京大學(xué)聯(lián)手破解AI訓(xùn)練難題:無(wú)需人工標(biāo)注的"雙向?qū)W習(xí)"讓機(jī)器自己當(dāng)老師

ByteDance Seed和南京大學(xué)聯(lián)手破解AI訓(xùn)練難題:無(wú)需人工標(biāo)注的"雙向?qū)W習(xí)"讓機(jī)器自己當(dāng)老師

2025-09-09 10:22
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-09-09 10:22 ? 科技行者

這項(xiàng)由ByteDance Seed和南京大學(xué)的研究團(tuán)隊(duì)共同完成的突破性研究發(fā)表于2025年8月,論文名為《DuPO: Enabling Reliable LLM Self-Verification via Dual Preference Optimization》。這項(xiàng)研究提出了一種全新的AI訓(xùn)練方法,讓大型語(yǔ)言模型能夠像學(xué)生互相檢查作業(yè)一樣自我提升,完全不需要昂貴的人工標(biāo)注。有興趣深入了解的讀者可以通過(guò)arXiv:2508.14460v1訪問(wèn)完整論文。

當(dāng)前訓(xùn)練大型AI模型就像培養(yǎng)一個(gè)學(xué)生,傳統(tǒng)方法需要大量老師(人工標(biāo)注員)不斷糾正和指導(dǎo),這不僅成本高昂,而且質(zhì)量難以保證。正如一個(gè)班級(jí)如果只有一位老師要管理幾十個(gè)學(xué)生會(huì)力不從心一樣,現(xiàn)有的AI訓(xùn)練方法面臨著相似的困境。更糟糕的是,對(duì)于翻譯、數(shù)學(xué)推理這樣的復(fù)雜任務(wù),即使是專(zhuān)業(yè)的標(biāo)注員也可能給出不一致甚至錯(cuò)誤的答案。

研究團(tuán)隊(duì)巧妙地提出了一種"雙向?qū)W習(xí)"的訓(xùn)練方法,稱為DuPO(Dual Learning-based Preference Optimization)。這種方法的核心思想就像讓學(xué)生A出題給學(xué)生B做,然后B再根據(jù)A的答案反向出題給A驗(yàn)證。如果A能夠正確回答B(yǎng)的反向問(wèn)題,說(shuō)明A的原始答案質(zhì)量很高;如果答不出來(lái),說(shuō)明原答案有問(wèn)題。這樣,兩個(gè)"學(xué)生"就能在沒(méi)有老師直接指導(dǎo)的情況下相互提升。

具體來(lái)說(shuō),當(dāng)AI模型處理一個(gè)數(shù)學(xué)問(wèn)題時(shí),比如"一個(gè)盒子里有3個(gè)紅球和5個(gè)藍(lán)球,總共多少個(gè)球?",傳統(tǒng)方法需要人工檢查答案"8"是否正確。而DuPO方法會(huì)讓模型自己構(gòu)造一個(gè)反向問(wèn)題:"如果答案是8,且已知有3個(gè)紅球,那么藍(lán)球有多少個(gè)?"如果模型能正確回答"5個(gè)藍(lán)球",說(shuō)明它對(duì)原問(wèn)題的理解是準(zhǔn)確的;如果答不出或答錯(cuò),說(shuō)明原答案可能有問(wèn)題。

這種方法的巧妙之處在于解決了傳統(tǒng)"雙向?qū)W習(xí)"的兩大難題。第一個(gè)難題就像拼圖游戲中缺失的拼片無(wú)法還原完整圖案一樣,AI的輸出往往不包含足夠信息來(lái)重構(gòu)輸入。比如數(shù)學(xué)題的答案"8"可能對(duì)應(yīng)無(wú)數(shù)不同的問(wèn)題,無(wú)法唯一確定原題。研究團(tuán)隊(duì)通過(guò)"已知-未知分解"巧妙解決了這個(gè)問(wèn)題,就像在拼圖時(shí)保留一些關(guān)鍵拼片作為線索,只讓模型重構(gòu)缺失的部分。

第二個(gè)難題是"能力不對(duì)稱"問(wèn)題,就像一個(gè)學(xué)生擅長(zhǎng)解題但不擅長(zhǎng)出題一樣,AI在正向和反向任務(wù)上的表現(xiàn)可能差異很大。研究團(tuán)隊(duì)通過(guò)降低反向任務(wù)的復(fù)雜度,讓它變得更容易完成,確保了訓(xùn)練信號(hào)的可靠性。

在多語(yǔ)言翻譯實(shí)驗(yàn)中,DuPO方法將Seed-X-7B-Instruct模型的表現(xiàn)提升了顯著的幅度。在覆蓋28種語(yǔ)言、756個(gè)翻譯方向的大規(guī)模測(cè)試中,該方法平均提升了2.13個(gè)COMET分?jǐn)?shù)點(diǎn)。更令人印象深刻的是,經(jīng)過(guò)DuPO訓(xùn)練的7B參數(shù)模型在人工評(píng)估中達(dá)到了與GPT-4o和DeepSeek-R1這樣的超大型模型相當(dāng)?shù)乃剑瑫r(shí)顯著超越了Google翻譯這樣的商業(yè)系統(tǒng)。

在數(shù)學(xué)推理任務(wù)上,DuPO的效果同樣令人驚喜。當(dāng)應(yīng)用到不同規(guī)模的模型時(shí),從1.5B到7B參數(shù),都獲得了穩(wěn)定的性能提升。特別值得一提的是,Qwen3-4B模型在三個(gè)挑戰(zhàn)性數(shù)學(xué)基準(zhǔn)測(cè)試中的平均得分提升了6.4個(gè)百分點(diǎn),甚至超越了更大的DeepSeek-R1-0120模型。對(duì)于OpenReasoning-Nemotron-7B這樣的強(qiáng)力模型,DuPO將其平均分?jǐn)?shù)從83.9%提升到90.3%,達(dá)到了新的性能巔峰。

更有趣的是,DuPO不僅可以用于訓(xùn)練,還能在推理時(shí)作為"智能評(píng)委"發(fā)揮作用。就像考試時(shí)讓學(xué)生做多道題然后選擇最好的答案一樣,DuPO可以讓模型生成多個(gè)候選答案,然后通過(guò)反向驗(yàn)證選出最優(yōu)解。這種方法在AIME數(shù)學(xué)競(jìng)賽基準(zhǔn)上將Qwen3-4B的表現(xiàn)提升了9.3個(gè)百分點(diǎn),讓這個(gè)相對(duì)較小的模型在某些任務(wù)上甚至超越了DeepSeek-R1和Claude-Sonnet4-Thinking這樣的超大型模型。

研究團(tuán)隊(duì)還驗(yàn)證了DuPO在不同模型架構(gòu)上的通用性。無(wú)論是LlaMA-3.1-8B還是OctoThinker-8B-Hybrid-Base,都在DuPO的幫助下獲得了顯著提升。特別是LlaMA-3.1-8B在數(shù)學(xué)推理任務(wù)上的平均得分從8.1%躍升到32.1%,提升幅度達(dá)到24個(gè)百分點(diǎn),甚至超越了依賴標(biāo)準(zhǔn)答案訓(xùn)練的SimpleRL-Zoo方法。

最令人興奮的發(fā)現(xiàn)是,DuPO甚至能夠直接從基礎(chǔ)模型中"喚醒"推理能力。研究團(tuán)隊(duì)將DuPO應(yīng)用到?jīng)]有經(jīng)過(guò)任何數(shù)學(xué)推理訓(xùn)練的Qwen3-4B基礎(chǔ)模型上,觀察到模型的推理能力從初始的15.2%穩(wěn)步提升到56.5%,在未見(jiàn)過(guò)的測(cè)試集上也展現(xiàn)出了強(qiáng)大的泛化能力。這就像一個(gè)從未學(xué)過(guò)數(shù)學(xué)的學(xué)生,僅僅通過(guò)自我練習(xí)和驗(yàn)證就掌握了復(fù)雜的數(shù)學(xué)推理技能。

為了驗(yàn)證方法的有效性,研究團(tuán)隊(duì)進(jìn)行了詳細(xì)的消融實(shí)驗(yàn)。他們發(fā)現(xiàn),如果去除"未知成分選擇"這一關(guān)鍵策略,模型性能會(huì)顯著下降。這進(jìn)一步證明了他們提出的"廣義對(duì)偶框架"確實(shí)是性能提升的關(guān)鍵所在,而不是其他偶然因素。

DuPO方法的成功為AI訓(xùn)練開(kāi)辟了新的道路。它不僅大大降低了訓(xùn)練成本,擺脫了對(duì)昂貴人工標(biāo)注的依賴,還展現(xiàn)出了優(yōu)秀的跨任務(wù)泛化能力。無(wú)論是語(yǔ)言翻譯這樣的開(kāi)放性任務(wù),還是數(shù)學(xué)推理這樣的邏輯性任務(wù),DuPO都能提供可靠的性能提升。

這項(xiàng)研究的意義遠(yuǎn)不止于技術(shù)創(chuàng)新。它為AI模型的自主學(xué)習(xí)和持續(xù)改進(jìn)提供了新的可能性,讓我們看到了AI系統(tǒng)未來(lái)可能實(shí)現(xiàn)真正自主學(xué)習(xí)的曙光。正如研究團(tuán)隊(duì)所展示的那樣,通過(guò)巧妙的"雙向驗(yàn)證"機(jī)制,AI模型能夠在沒(méi)有外部監(jiān)督的情況下不斷提升自己的能力。這種方法不僅適用于當(dāng)前的大型語(yǔ)言模型,還為未來(lái)更強(qiáng)大、更智能的AI系統(tǒng)奠定了重要基礎(chǔ)。

當(dāng)然,這項(xiàng)研究也有一些局限性。目前的實(shí)驗(yàn)主要集中在中等規(guī)模的模型上,對(duì)于更大規(guī)模模型的效果還有待進(jìn)一步驗(yàn)證。此外,雖然DuPO在翻譯和數(shù)學(xué)推理上表現(xiàn)出色,但在更開(kāi)放、更具創(chuàng)造性的任務(wù)上的應(yīng)用還需要更多探索。研究團(tuán)隊(duì)也坦率地指出,數(shù)學(xué)推理中的"未知成分選擇"步驟會(huì)帶來(lái)一定的計(jì)算開(kāi)銷(xiāo),未來(lái)需要開(kāi)發(fā)更高效的篩選機(jī)制。

說(shuō)到底,DuPO為我們描繪了一個(gè)令人興奮的未來(lái)圖景:AI系統(tǒng)能夠像人類(lèi)學(xué)習(xí)者一樣,通過(guò)自我反思和驗(yàn)證不斷提升能力,而不再完全依賴外部的"老師"。這種自主學(xué)習(xí)的能力不僅能大大降低AI開(kāi)發(fā)和部署的成本,還可能讓AI系統(tǒng)在面對(duì)新任務(wù)時(shí)展現(xiàn)出更強(qiáng)的適應(yīng)性和創(chuàng)造力。對(duì)于普通用戶而言,這意味著未來(lái)的AI助手將變得更加智能、更加可靠,同時(shí)使用成本也會(huì)更加親民。

Q&A

Q1:DuPO雙向?qū)W習(xí)方法是什么原理?它如何讓AI自己訓(xùn)練自己?

A:DuPO就像讓學(xué)生A出題給學(xué)生B做,然后B根據(jù)A的答案反向出題來(lái)驗(yàn)證A。比如AI解答"3個(gè)紅球+5個(gè)藍(lán)球=8個(gè)球"后,系統(tǒng)會(huì)反向提問(wèn)"答案是8且有3個(gè)紅球,藍(lán)球有幾個(gè)?"如果AI能正確回答"5個(gè)",說(shuō)明原答案質(zhì)量高;答錯(cuò)則說(shuō)明有問(wèn)題。這樣AI就能在沒(méi)有人工標(biāo)注的情況下自我改進(jìn)。

Q2:DuPO方法在哪些任務(wù)上效果最好?具體提升有多大?

A:DuPO在多語(yǔ)言翻譯和數(shù)學(xué)推理任務(wù)上效果顯著。在翻譯方面,讓7B模型達(dá)到了與GPT-4o相當(dāng)?shù)乃?,?56個(gè)翻譯方向上平均提升2.13個(gè)COMET分?jǐn)?shù)。在數(shù)學(xué)推理上,Qwen3-4B模型平均提升6.4個(gè)百分點(diǎn),OpenReasoning-Nemotron-7B從83.9%提升到90.3%。甚至作為推理時(shí)的評(píng)判工具也能帶來(lái)9.3個(gè)百分點(diǎn)的提升。

Q3:DuPO方法相比傳統(tǒng)AI訓(xùn)練方式有什么優(yōu)勢(shì)?普通人能用上嗎?

A:DuPO最大優(yōu)勢(shì)是完全不需要昂貴的人工標(biāo)注,大大降低了訓(xùn)練成本,同時(shí)避免了人工標(biāo)注不一致的問(wèn)題。它能讓AI系統(tǒng)自主學(xué)習(xí)和持續(xù)改進(jìn),適用于各種不同規(guī)模和架構(gòu)的模型。雖然目前還是研究階段,但這種技術(shù)將讓未來(lái)的AI助手變得更智能、更可靠,使用成本也更親民。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-