av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

^{<sub id="ihpcp"></sub>}

^{<blockquote id="ihpcp"></blockquote>}

首頁(yè)
對(duì)話創(chuàng)新
對(duì)話科技行者
機(jī)器人新紀(jì)元
AI論文解讀
聯(lián)系我們

微信掃一掃，關(guān)注公眾號(hào)

科技行者
算力行者

見(jiàn)證連接與計(jì)算的「力量」

ByteDance Seed和南京大學(xué)聯(lián)手破解AI訓(xùn)練難題：無(wú)需人工標(biāo)注的"雙向?qū)W習(xí)"讓機(jī)器自己當(dāng)老師

人工智能雙向?qū)W習(xí)偏好優(yōu)化

ByteDance Seed和南京大學(xué)聯(lián)手破解AI訓(xùn)練難題：無(wú)需人工標(biāo)注的"雙向?qū)W習(xí)"讓機(jī)器自己當(dāng)老師

作者：科技行者

2025-09-09 10:22

分享至：

ByteDance Seed和南京大學(xué)研究團(tuán)隊(duì)提出DuPO雙向?qū)W習(xí)訓(xùn)練法，讓AI模型通過(guò)"出題-驗(yàn)證"的方式自我提升，無(wú)需人工標(biāo)注。該方法在多語(yǔ)言翻譯和數(shù)學(xué)推理上效果顯著，讓7B模型達(dá)到GPT-4o水平，數(shù)學(xué)推理提升6.4個(gè)百分點(diǎn)。這一突破為AI自主學(xué)習(xí)開(kāi)辟新路徑，大幅降低訓(xùn)練成本。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-09-09 10:22 ? 科技行者

這項(xiàng)由ByteDance Seed和南京大學(xué)的研究團(tuán)隊(duì)共同完成的突破性研究發(fā)表于2025年8月，論文名為《DuPO: Enabling Reliable LLM Self-Verification via Dual Preference Optimization》。這項(xiàng)研究提出了一種全新的AI訓(xùn)練方法，讓大型語(yǔ)言模型能夠像學(xué)生互相檢查作業(yè)一樣自我提升，完全不需要昂貴的人工標(biāo)注。有興趣深入了解的讀者可以通過(guò)arXiv:2508.14460v1訪問(wèn)完整論文。

當(dāng)前訓(xùn)練大型AI模型就像培養(yǎng)一個(gè)學(xué)生，傳統(tǒng)方法需要大量老師（人工標(biāo)注員）不斷糾正和指導(dǎo)，這不僅成本高昂，而且質(zhì)量難以保證。正如一個(gè)班級(jí)如果只有一位老師要管理幾十個(gè)學(xué)生會(huì)力不從心一樣，現(xiàn)有的AI訓(xùn)練方法面臨著相似的困境。更糟糕的是，對(duì)于翻譯、數(shù)學(xué)推理這樣的復(fù)雜任務(wù)，即使是專(zhuān)業(yè)的標(biāo)注員也可能給出不一致甚至錯(cuò)誤的答案。

研究團(tuán)隊(duì)巧妙地提出了一種"雙向?qū)W習(xí)"的訓(xùn)練方法，稱為DuPO（Dual Learning-based Preference Optimization）。這種方法的核心思想就像讓學(xué)生A出題給學(xué)生B做，然后B再根據(jù)A的答案反向出題給A驗(yàn)證。如果A能夠正確回答B(yǎng)的反向問(wèn)題，說(shuō)明A的原始答案質(zhì)量很高；如果答不出來(lái)，說(shuō)明原答案有問(wèn)題。這樣，兩個(gè)"學(xué)生"就能在沒(méi)有老師直接指導(dǎo)的情況下相互提升。

具體來(lái)說(shuō)，當(dāng)AI模型處理一個(gè)數(shù)學(xué)問(wèn)題時(shí)，比如"一個(gè)盒子里有3個(gè)紅球和5個(gè)藍(lán)球，總共多少個(gè)球？"，傳統(tǒng)方法需要人工檢查答案"8"是否正確。而DuPO方法會(huì)讓模型自己構(gòu)造一個(gè)反向問(wèn)題："如果答案是8，且已知有3個(gè)紅球，那么藍(lán)球有多少個(gè)？"如果模型能正確回答"5個(gè)藍(lán)球"，說(shuō)明它對(duì)原問(wèn)題的理解是準(zhǔn)確的；如果答不出或答錯(cuò)，說(shuō)明原答案可能有問(wèn)題。

這種方法的巧妙之處在于解決了傳統(tǒng)"雙向?qū)W習(xí)"的兩大難題。第一個(gè)難題就像拼圖游戲中缺失的拼片無(wú)法還原完整圖案一樣，AI的輸出往往不包含足夠信息來(lái)重構(gòu)輸入。比如數(shù)學(xué)題的答案"8"可能對(duì)應(yīng)無(wú)數(shù)不同的問(wèn)題，無(wú)法唯一確定原題。研究團(tuán)隊(duì)通過(guò)"已知-未知分解"巧妙解決了這個(gè)問(wèn)題，就像在拼圖時(shí)保留一些關(guān)鍵拼片作為線索，只讓模型重構(gòu)缺失的部分。

第二個(gè)難題是"能力不對(duì)稱"問(wèn)題，就像一個(gè)學(xué)生擅長(zhǎng)解題但不擅長(zhǎng)出題一樣，AI在正向和反向任務(wù)上的表現(xiàn)可能差異很大。研究團(tuán)隊(duì)通過(guò)降低反向任務(wù)的復(fù)雜度，讓它變得更容易完成，確保了訓(xùn)練信號(hào)的可靠性。

在多語(yǔ)言翻譯實(shí)驗(yàn)中，DuPO方法將Seed-X-7B-Instruct模型的表現(xiàn)提升了顯著的幅度。在覆蓋28種語(yǔ)言、756個(gè)翻譯方向的大規(guī)模測(cè)試中，該方法平均提升了2.13個(gè)COMET分?jǐn)?shù)點(diǎn)。更令人印象深刻的是，經(jīng)過(guò)DuPO訓(xùn)練的7B參數(shù)模型在人工評(píng)估中達(dá)到了與GPT-4o和DeepSeek-R1這樣的超大型模型相當(dāng)?shù)乃剑瑫r(shí)顯著超越了Google翻譯這樣的商業(yè)系統(tǒng)。

在數(shù)學(xué)推理任務(wù)上，DuPO的效果同樣令人驚喜。當(dāng)應(yīng)用到不同規(guī)模的模型時(shí)，從1.5B到7B參數(shù)，都獲得了穩(wěn)定的性能提升。特別值得一提的是，Qwen3-4B模型在三個(gè)挑戰(zhàn)性數(shù)學(xué)基準(zhǔn)測(cè)試中的平均得分提升了6.4個(gè)百分點(diǎn)，甚至超越了更大的DeepSeek-R1-0120模型。對(duì)于OpenReasoning-Nemotron-7B這樣的強(qiáng)力模型，DuPO將其平均分?jǐn)?shù)從83.9%提升到90.3%，達(dá)到了新的性能巔峰。

更有趣的是，DuPO不僅可以用于訓(xùn)練，還能在推理時(shí)作為"智能評(píng)委"發(fā)揮作用。就像考試時(shí)讓學(xué)生做多道題然后選擇最好的答案一樣，DuPO可以讓模型生成多個(gè)候選答案，然后通過(guò)反向驗(yàn)證選出最優(yōu)解。這種方法在AIME數(shù)學(xué)競(jìng)賽基準(zhǔn)上將Qwen3-4B的表現(xiàn)提升了9.3個(gè)百分點(diǎn)，讓這個(gè)相對(duì)較小的模型在某些任務(wù)上甚至超越了DeepSeek-R1和Claude-Sonnet4-Thinking這樣的超大型模型。

研究團(tuán)隊(duì)還驗(yàn)證了DuPO在不同模型架構(gòu)上的通用性。無(wú)論是LlaMA-3.1-8B還是OctoThinker-8B-Hybrid-Base，都在DuPO的幫助下獲得了顯著提升。特別是LlaMA-3.1-8B在數(shù)學(xué)推理任務(wù)上的平均得分從8.1%躍升到32.1%，提升幅度達(dá)到24個(gè)百分點(diǎn)，甚至超越了依賴標(biāo)準(zhǔn)答案訓(xùn)練的SimpleRL-Zoo方法。

最令人興奮的發(fā)現(xiàn)是，DuPO甚至能夠直接從基礎(chǔ)模型中"喚醒"推理能力。研究團(tuán)隊(duì)將DuPO應(yīng)用到?jīng)]有經(jīng)過(guò)任何數(shù)學(xué)推理訓(xùn)練的Qwen3-4B基礎(chǔ)模型上，觀察到模型的推理能力從初始的15.2%穩(wěn)步提升到56.5%，在未見(jiàn)過(guò)的測(cè)試集上也展現(xiàn)出了強(qiáng)大的泛化能力。這就像一個(gè)從未學(xué)過(guò)數(shù)學(xué)的學(xué)生，僅僅通過(guò)自我練習(xí)和驗(yàn)證就掌握了復(fù)雜的數(shù)學(xué)推理技能。

為了驗(yàn)證方法的有效性，研究團(tuán)隊(duì)進(jìn)行了詳細(xì)的消融實(shí)驗(yàn)。他們發(fā)現(xiàn)，如果去除"未知成分選擇"這一關(guān)鍵策略，模型性能會(huì)顯著下降。這進(jìn)一步證明了他們提出的"廣義對(duì)偶框架"確實(shí)是性能提升的關(guān)鍵所在，而不是其他偶然因素。

DuPO方法的成功為AI訓(xùn)練開(kāi)辟了新的道路。它不僅大大降低了訓(xùn)練成本，擺脫了對(duì)昂貴人工標(biāo)注的依賴，還展現(xiàn)出了優(yōu)秀的跨任務(wù)泛化能力。無(wú)論是語(yǔ)言翻譯這樣的開(kāi)放性任務(wù)，還是數(shù)學(xué)推理這樣的邏輯性任務(wù)，DuPO都能提供可靠的性能提升。

這項(xiàng)研究的意義遠(yuǎn)不止于技術(shù)創(chuàng)新。它為AI模型的自主學(xué)習(xí)和持續(xù)改進(jìn)提供了新的可能性，讓我們看到了AI系統(tǒng)未來(lái)可能實(shí)現(xiàn)真正自主學(xué)習(xí)的曙光。正如研究團(tuán)隊(duì)所展示的那樣，通過(guò)巧妙的"雙向驗(yàn)證"機(jī)制，AI模型能夠在沒(méi)有外部監(jiān)督的情況下不斷提升自己的能力。這種方法不僅適用于當(dāng)前的大型語(yǔ)言模型，還為未來(lái)更強(qiáng)大、更智能的AI系統(tǒng)奠定了重要基礎(chǔ)。

當(dāng)然，這項(xiàng)研究也有一些局限性。目前的實(shí)驗(yàn)主要集中在中等規(guī)模的模型上，對(duì)于更大規(guī)模模型的效果還有待進(jìn)一步驗(yàn)證。此外，雖然DuPO在翻譯和數(shù)學(xué)推理上表現(xiàn)出色，但在更開(kāi)放、更具創(chuàng)造性的任務(wù)上的應(yīng)用還需要更多探索。研究團(tuán)隊(duì)也坦率地指出，數(shù)學(xué)推理中的"未知成分選擇"步驟會(huì)帶來(lái)一定的計(jì)算開(kāi)銷(xiāo)，未來(lái)需要開(kāi)發(fā)更高效的篩選機(jī)制。

說(shuō)到底，DuPO為我們描繪了一個(gè)令人興奮的未來(lái)圖景：AI系統(tǒng)能夠像人類(lèi)學(xué)習(xí)者一樣，通過(guò)自我反思和驗(yàn)證不斷提升能力，而不再完全依賴外部的"老師"。這種自主學(xué)習(xí)的能力不僅能大大降低AI開(kāi)發(fā)和部署的成本，還可能讓AI系統(tǒng)在面對(duì)新任務(wù)時(shí)展現(xiàn)出更強(qiáng)的適應(yīng)性和創(chuàng)造力。對(duì)于普通用戶而言，這意味著未來(lái)的AI助手將變得更加智能、更加可靠，同時(shí)使用成本也會(huì)更加親民。

Q&A

Q1：DuPO雙向?qū)W習(xí)方法是什么原理？它如何讓AI自己訓(xùn)練自己？

A：DuPO就像讓學(xué)生A出題給學(xué)生B做，然后B根據(jù)A的答案反向出題來(lái)驗(yàn)證A。比如AI解答"3個(gè)紅球+5個(gè)藍(lán)球=8個(gè)球"后，系統(tǒng)會(huì)反向提問(wèn)"答案是8且有3個(gè)紅球，藍(lán)球有幾個(gè)？"如果AI能正確回答"5個(gè)"，說(shuō)明原答案質(zhì)量高；答錯(cuò)則說(shuō)明有問(wèn)題。這樣AI就能在沒(méi)有人工標(biāo)注的情況下自我改進(jìn)。

Q2：DuPO方法在哪些任務(wù)上效果最好？具體提升有多大？

A：DuPO在多語(yǔ)言翻譯和數(shù)學(xué)推理任務(wù)上效果顯著。在翻譯方面，讓7B模型達(dá)到了與GPT-4o相當(dāng)?shù)乃?，?56個(gè)翻譯方向上平均提升2.13個(gè)COMET分?jǐn)?shù)。在數(shù)學(xué)推理上，Qwen3-4B模型平均提升6.4個(gè)百分點(diǎn)，OpenReasoning-Nemotron-7B從83.9%提升到90.3%。甚至作為推理時(shí)的評(píng)判工具也能帶來(lái)9.3個(gè)百分點(diǎn)的提升。

Q3：DuPO方法相比傳統(tǒng)AI訓(xùn)練方式有什么優(yōu)勢(shì)？普通人能用上嗎？

A：DuPO最大優(yōu)勢(shì)是完全不需要昂貴的人工標(biāo)注，大大降低了訓(xùn)練成本，同時(shí)避免了人工標(biāo)注不一致的問(wèn)題。它能讓AI系統(tǒng)自主學(xué)習(xí)和持續(xù)改進(jìn)，適用于各種不同規(guī)模和架構(gòu)的模型。雖然目前還是研究階段，但這種技術(shù)將讓未來(lái)的AI助手變得更智能、更可靠，使用成本也更親民。

人工智能雙向?qū)W習(xí)偏好優(yōu)化

分享至

0贊

好文章，需要你的鼓勵(lì)

推薦文章

音頻生成
大語(yǔ)言模型
多模態(tài)AI

2025-09-10 09:47

如何讓AI像電影配樂(lè)師一樣創(chuàng)作完整的長(zhǎng)篇音頻故事——騰訊ARC實(shí)驗(yàn)室團(tuán)隊(duì)AudioStory突破性進(jìn)展

騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng)，首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長(zhǎng)篇音頻故事。該系統(tǒng)結(jié)合大語(yǔ)言模型的敘事推理能力與音頻生成技術(shù)，通過(guò)交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練，能夠?qū)?fù)雜指令分解為連續(xù)音頻場(chǎng)景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異，為AI音頻創(chuàng)作開(kāi)辟新方向。
視頻生成
深度學(xué)習(xí)
多模態(tài)學(xué)習(xí)

2025-09-09 13:57

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動(dòng)起來(lái)不再是奢望

Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù)，通過(guò)讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息，顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問(wèn)題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量，在多項(xiàng)測(cè)試中超越包括Sora在內(nèi)的商業(yè)模型，為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
多模態(tài)AI
人類(lèi)價(jià)值觀對(duì)齊
數(shù)據(jù)集構(gòu)建

2025-09-09 13:56

上海AI實(shí)驗(yàn)室重磅發(fā)布：讓AI看圖"說(shuō)人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類(lèi)價(jià)值觀對(duì)齊難題

上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究，首次系統(tǒng)性解決多模態(tài)大語(yǔ)言模型人性化對(duì)話問(wèn)題。該研究創(chuàng)建了包含20萬(wàn)高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評(píng)測(cè)基準(zhǔn)，通過(guò)創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法，讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平，為AI價(jià)值觀對(duì)齊提供了可行技術(shù)路徑。
人工智能
圖神經(jīng)網(wǎng)絡(luò)
天氣預(yù)報(bào)

2025-09-09 10:56

谷歌研究團(tuán)隊(duì)發(fā)布超級(jí)預(yù)測(cè)模型：讓AI像天氣預(yù)報(bào)員一樣預(yù)測(cè)全球大氣變化

谷歌DeepMind團(tuán)隊(duì)開(kāi)發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測(cè)模型，能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào)，準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù)，通過(guò)學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律，在極端天氣預(yù)測(cè)方面表現(xiàn)卓越，能耗僅為傳統(tǒng)方法的千分之一，為氣象學(xué)領(lǐng)域帶來(lái)了效率和精度的雙重突破。

如何讓AI像電影配樂(lè)師一樣創(chuàng)作完整的長(zhǎng)篇音頻故事——騰訊ARC實(shí)驗(yàn)室團(tuán)隊(duì)AudioStory突破性進(jìn)展

如何讓AI像電影配樂(lè)師一樣創(chuàng)作完整的長(zhǎng)篇音頻故事——騰訊ARC實(shí)驗(yàn)室團(tuán)隊(duì)AudioStory突破性進(jìn)展

2025-09-10 09:47

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動(dòng)起來(lái)不再是奢望

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動(dòng)起來(lái)不再是奢望

2025-09-09 13:57

上海AI實(shí)驗(yàn)室重磅發(fā)布：讓AI看圖"說(shuō)人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類(lèi)價(jià)值觀對(duì)齊難題

上海AI實(shí)驗(yàn)室重磅發(fā)布：讓AI看圖"說(shuō)人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類(lèi)價(jià)值觀對(duì)齊難題

2025-09-09 13:56

谷歌研究團(tuán)隊(duì)發(fā)布超級(jí)預(yù)測(cè)模型：讓AI像天氣預(yù)報(bào)員一樣預(yù)測(cè)全球大氣變化

谷歌研究團(tuán)隊(duì)發(fā)布超級(jí)預(yù)測(cè)模型：讓AI像天氣預(yù)報(bào)員一樣預(yù)測(cè)全球大氣變化

2025-09-09 10:56

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

友情鏈接

至頂網(wǎng)
管理現(xiàn)代化
和訊IT
TechWeb
第三媒體
速途網(wǎng)
51CTO傳媒
投資界
科技訊
智者新時(shí)代

京ICP證15039648號(hào) 京ICP備15039648號(hào)-9 京公網(wǎng)安備 11010802021500號(hào)

北京第二十六維信息技術(shù)有限公司（至頂網(wǎng)）版權(quán)所有。 | 聯(lián)絡(luò)我們

舉報(bào)電話：010-62641205　涉未成年人舉報(bào)專(zhuān)線：010-62641208 舉報(bào)郵箱: jubao@zhiding.cn 　網(wǎng)上有害信息舉報(bào)專(zhuān)區(qū)：https://www.12377.cn

<abbr id="8y5bx"><button id="8y5bx"><b id="8y5bx"></b></button></abbr><em id="8y5bx"><b id="8y5bx"></b></em>

<table id="8y5bx"><strong id="8y5bx"><strong id="8y5bx"></strong></strong></table>