av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見證連接與計(jì)算的「力量」

首頁(yè) 阿里云團(tuán)隊(duì)推出革命性多模態(tài)獎(jiǎng)勵(lì)模型:讓AI更懂人類的視覺理解偏好

阿里云團(tuán)隊(duì)推出革命性多模態(tài)獎(jiǎng)勵(lì)模型:讓AI更懂人類的視覺理解偏好

2025-07-09 09:38
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-07-09 09:38 ? 科技行者

這項(xiàng)由阿里云Skywork AI團(tuán)隊(duì)和昆侖公司聯(lián)合完成的突破性研究發(fā)表于2025年6月,研究團(tuán)隊(duì)包括王曉琨、王佩宇、裴江波、沈偉等多位專家,他們的研究成果已在arXiv平臺(tái)公開發(fā)布(論文編號(hào):arXiv:2505.07263v2)。有興趣深入了解的讀者可以通過(guò)https://huggingface.co/Skywork/Skywork-VL-Reward-7B訪問完整模型和技術(shù)資料。

想象你正在教導(dǎo)一個(gè)聰明的學(xué)生如何理解圖片和文字的組合內(nèi)容,但這個(gè)學(xué)生需要學(xué)會(huì)的不僅僅是看懂內(nèi)容,更要懂得什么樣的回答才是人類真正想要的。這正是阿里云研究團(tuán)隊(duì)面臨的挑戰(zhàn)。在人工智能快速發(fā)展的今天,雖然能夠同時(shí)理解圖像和文字的AI模型已經(jīng)相當(dāng)先進(jìn),但如何讓這些模型的回答更貼近人類偏好,卻一直是個(gè)技術(shù)難題。

傳統(tǒng)的文字AI已經(jīng)有了相當(dāng)成熟的"評(píng)分系統(tǒng)"來(lái)判斷回答質(zhì)量,就像考試中的標(biāo)準(zhǔn)答案一樣。但當(dāng)AI需要同時(shí)處理圖片和文字時(shí),這套評(píng)分系統(tǒng)就顯得力不從心了。現(xiàn)有的多模態(tài)獎(jiǎng)勵(lì)模型就像只會(huì)簡(jiǎn)單打分的老師,無(wú)法準(zhǔn)確評(píng)估復(fù)雜的視覺推理過(guò)程,特別是那些需要深度思考的高難度問題。

阿里云團(tuán)隊(duì)開發(fā)的Skywork-VL Reward模型就像是一位經(jīng)驗(yàn)豐富的全能教師,不僅能理解圖片和文字的結(jié)合,更能準(zhǔn)確判斷什么樣的回答更符合人類期望。這個(gè)模型基于著名的Qwen2.5-VL-7B-Instruct架構(gòu)構(gòu)建,包含70億個(gè)參數(shù),經(jīng)過(guò)精心設(shè)計(jì)的兩階段訓(xùn)練過(guò)程,最終能夠?yàn)槎嗄B(tài)AI的回答提供精準(zhǔn)的質(zhì)量評(píng)分。

**一、構(gòu)建史上最全面的多模態(tài)偏好數(shù)據(jù)庫(kù)**

要訓(xùn)練出一個(gè)優(yōu)秀的"AI評(píng)委",首先需要大量高質(zhì)量的"評(píng)分標(biāo)準(zhǔn)"數(shù)據(jù)。研究團(tuán)隊(duì)就像收集食譜的大廚一樣,從各個(gè)渠道匯集了約19萬(wàn)個(gè)精心篩選的對(duì)比樣本,這些樣本覆蓋了從簡(jiǎn)單圖片描述到復(fù)雜推理任務(wù)的各種場(chǎng)景。

這個(gè)龐大的數(shù)據(jù)集主要來(lái)源于三個(gè)重要渠道。第一個(gè)是LLaVA-Critic-113k數(shù)據(jù)集,包含11.3萬(wàn)個(gè)多模態(tài)樣本,每個(gè)樣本都配有詳細(xì)的質(zhì)量評(píng)判和解釋說(shuō)明,就像美食評(píng)論不僅給出星級(jí)評(píng)分,還詳細(xì)說(shuō)明評(píng)分理由。第二個(gè)是Skywork-Reward-Preference-80K數(shù)據(jù)集,雖然是純文本數(shù)據(jù),但經(jīng)過(guò)精心篩選,能夠顯著提升模型對(duì)文字內(nèi)容的理解和評(píng)判能力。第三個(gè)是RLAIF-V數(shù)據(jù)集,包含超過(guò)8.3萬(wàn)個(gè)偏好對(duì)比樣本,來(lái)源廣泛,能夠增強(qiáng)模型在不同場(chǎng)景下的泛化能力。

除了這些公開數(shù)據(jù),研究團(tuán)隊(duì)還創(chuàng)建了一個(gè)獨(dú)特的內(nèi)部數(shù)據(jù)集,專門針對(duì)復(fù)雜推理任務(wù)。這個(gè)數(shù)據(jù)集包含約5萬(wàn)個(gè)精心設(shè)計(jì)的對(duì)比樣本,主要涵蓋數(shù)學(xué)、物理、生物和化學(xué)等科學(xué)領(lǐng)域的多模態(tài)推理問題。這些問題就像高考中的綜合應(yīng)用題,需要AI不僅看懂圖表和公式,還要進(jìn)行多步驟的邏輯推理。

數(shù)據(jù)收集完成后,團(tuán)隊(duì)還進(jìn)行了三個(gè)階段的精心篩選和優(yōu)化。第一階段像圖書管理員整理書籍一樣,去除重復(fù)和相似的樣本,篩選出約20萬(wàn)個(gè)高質(zhì)量的獨(dú)特樣本。第二階段使用一個(gè)初步訓(xùn)練的模型對(duì)所有數(shù)據(jù)進(jìn)行預(yù)評(píng)分,就像預(yù)審員篩選材料,對(duì)評(píng)分過(guò)低或評(píng)分差異過(guò)小的樣本用GPT-4o重新生成更優(yōu)質(zhì)的回答。第三階段專門針對(duì)推理類任務(wù),使用兩種不同的方法生成回答:一種是直接生成,另一種是先用視覺模型描述圖像,再用推理模型生成答案,這樣能夠涵蓋不同類型的推理路徑。

**二、創(chuàng)新的雙階段訓(xùn)練策略**

訓(xùn)練Skywork-VL Reward就像培養(yǎng)一位全能評(píng)委,需要分階段進(jìn)行專門訓(xùn)練。研究團(tuán)隊(duì)采用了巧妙的雙階段訓(xùn)練策略,確保模型既能精通多模態(tài)內(nèi)容,又能在純文本任務(wù)上保持競(jìng)爭(zhēng)力。

在模型架構(gòu)方面,團(tuán)隊(duì)對(duì)原有的Qwen2.5-VL-7B-Instruct模型進(jìn)行了精心改造。原本這個(gè)模型就像一個(gè)能看圖說(shuō)話的學(xué)生,現(xiàn)在研究團(tuán)隊(duì)把它改造成了一個(gè)能給回答打分的評(píng)委。具體來(lái)說(shuō),他們移除了原本用于生成文字的輸出層,替換成一個(gè)專門的評(píng)分頭,這個(gè)評(píng)分頭就像評(píng)委手中的記分牌,能夠根據(jù)輸入的圖片、問題和回答給出一個(gè)精確的質(zhì)量分?jǐn)?shù)。

第一階段的訓(xùn)練專注于多模態(tài)理解能力。在這個(gè)階段,模型主要學(xué)習(xí)如何同時(shí)處理圖像和文字信息,就像學(xué)生先要掌握基礎(chǔ)的看圖理解能力。訓(xùn)練過(guò)程中,研究團(tuán)隊(duì)采用了部分參數(shù)凍結(jié)策略,就像保護(hù)珍貴文物一樣,凍結(jié)了模型中負(fù)責(zé)視覺理解的核心組件,只訓(xùn)練負(fù)責(zé)融合和評(píng)判的部分,這樣既保持了原有的視覺能力,又能高效地學(xué)習(xí)新的評(píng)分技能。

第二階段則加入了純文本數(shù)據(jù),讓模型在保持多模態(tài)能力的同時(shí),不忘記如何處理純文字任務(wù)。這就像讓一個(gè)既會(huì)畫畫又會(huì)寫作的藝術(shù)家,確保兩種技能都不退化。整個(gè)訓(xùn)練過(guò)程使用了經(jīng)典的配對(duì)排序損失函數(shù),這種方法不追求給出絕對(duì)的分?jǐn)?shù),而是專注于判斷哪個(gè)回答更好,就像奧運(yùn)會(huì)評(píng)委不需要知道每個(gè)動(dòng)作的絕對(duì)分?jǐn)?shù),只需要準(zhǔn)確排出名次即可。

訓(xùn)練過(guò)程中,團(tuán)隊(duì)使用AdamW優(yōu)化器,第一階段采用相對(duì)較高的學(xué)習(xí)率,第二階段則降低學(xué)習(xí)率進(jìn)行精細(xì)調(diào)整。每個(gè)階段都訓(xùn)練2個(gè)輪次,研究團(tuán)隊(duì)發(fā)現(xiàn)這樣的設(shè)置既能確保收斂,又不會(huì)過(guò)度擬合。

**三、多維度基準(zhǔn)測(cè)試驗(yàn)證模型性能**

為了全面驗(yàn)證Skywork-VL Reward的實(shí)際表現(xiàn),研究團(tuán)隊(duì)設(shè)計(jì)了comprehensive的評(píng)估體系,就像給新車進(jìn)行全方位的路測(cè)一樣。

在多模態(tài)任務(wù)的核心測(cè)試VL-RewardBench上,Skywork-VL Reward展現(xiàn)出了令人矚目的性能。這個(gè)基準(zhǔn)測(cè)試包含1250個(gè)精心設(shè)計(jì)的測(cè)試樣本,涵蓋一般多模態(tài)理解、視覺幻覺檢測(cè)和復(fù)雜推理三個(gè)維度。結(jié)果顯示,Skywork-VL Reward在綜合性能上達(dá)到73.1%的準(zhǔn)確率,超越了包括Gemini-2.0-flash在內(nèi)的所有專有模型,在開源模型中更是遙遙領(lǐng)先。

特別值得關(guān)注的是,在視覺幻覺檢測(cè)這個(gè)最具挑戰(zhàn)性的任務(wù)上,Skywork-VL Reward取得了80.0%的驚人成績(jī),大幅超越了其他所有模型。視覺幻覺是指AI模型在描述圖像時(shí)出現(xiàn)的事實(shí)性錯(cuò)誤,比如把圖片中的紅色汽車說(shuō)成藍(lán)色,或者聲稱看到了實(shí)際不存在的物體。這種錯(cuò)誤在實(shí)際應(yīng)用中可能造成嚴(yán)重后果,因此準(zhǔn)確識(shí)別和評(píng)判這類錯(cuò)誤的能力極其重要。

在純文本任務(wù)的RewardBench測(cè)試中,模型同樣表現(xiàn)優(yōu)異,達(dá)到90.1%的平均分?jǐn)?shù)。這個(gè)結(jié)果證明了雙階段訓(xùn)練策略的有效性——模型在學(xué)會(huì)處理復(fù)雜多模態(tài)任務(wù)的同時(shí),并沒有損失處理純文本的能力。在具體的子任務(wù)中,模型在安全性判斷和推理任務(wù)上都取得了91%以上的高分,顯示出良好的綜合素質(zhì)。

研究團(tuán)隊(duì)還通過(guò)具體案例展示了模型的判斷能力。在一個(gè)幾何計(jì)算題中,模型需要評(píng)判兩個(gè)都得出正確答案但推理過(guò)程不同的回答。優(yōu)質(zhì)回答直接使用正確公式進(jìn)行簡(jiǎn)潔計(jì)算,而劣質(zhì)回答則充滿了反復(fù)修正和冗余解釋。Skywork-VL Reward準(zhǔn)確地給優(yōu)質(zhì)回答打出5.86分,給劣質(zhì)回答打出-15.5分,顯示出對(duì)推理質(zhì)量的敏銳判斷力。在另一個(gè)圖表分析案例中,面對(duì)詢問哪個(gè)國(guó)家在貧困率圖表中柱狀圖最長(zhǎng)的問題,模型同樣能夠區(qū)分簡(jiǎn)潔準(zhǔn)確的回答和重復(fù)冗余的表述。

**四、實(shí)際應(yīng)用中的顯著效果提升**

Skywork-VL Reward不僅在基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,在實(shí)際應(yīng)用中也展現(xiàn)出強(qiáng)大的實(shí)用價(jià)值。研究團(tuán)隊(duì)將其應(yīng)用于混合偏好優(yōu)化訓(xùn)練過(guò)程中,結(jié)果顯示這種應(yīng)用能夠顯著提升AI模型的多模態(tài)推理能力。

在MathVista這個(gè)極具挑戰(zhàn)性的數(shù)學(xué)推理基準(zhǔn)測(cè)試中,使用Skywork-VL Reward指導(dǎo)的模型訓(xùn)練取得了明顯進(jìn)步。基礎(chǔ)模型的準(zhǔn)確率為69.2%,經(jīng)過(guò)不同獎(jiǎng)勵(lì)模型指導(dǎo)訓(xùn)練后,使用Qwen2.5-VL-7B-Instruct指導(dǎo)能達(dá)到71.2%,使用InternVL3-8B指導(dǎo)能達(dá)到71.8%,而使用Skywork-VL Reward指導(dǎo)則能達(dá)到73.5%的最高水平。這4.3個(gè)百分點(diǎn)的提升看似不大,但在如此困難的任務(wù)上,這樣的提升是非常顯著的。

這種提升的背后反映了Skywork-VL Reward對(duì)復(fù)雜推理過(guò)程的深度理解能力。傳統(tǒng)的獎(jiǎng)勵(lì)模型往往只能判斷最終答案的對(duì)錯(cuò),但Skywork-VL Reward能夠評(píng)估整個(gè)推理鏈條的質(zhì)量,包括邏輯的清晰性、步驟的合理性以及表達(dá)的簡(jiǎn)潔性。這種細(xì)致的判斷能力使得AI模型能夠?qū)W習(xí)到更好的推理模式,而不僅僅是死記硬背正確答案。

混合偏好優(yōu)化的過(guò)程就像讓AI模型在多位優(yōu)秀老師的指導(dǎo)下學(xué)習(xí),每位老師都有自己的專長(zhǎng)和判斷標(biāo)準(zhǔn)。Skywork-VL Reward在這個(gè)過(guò)程中扮演了一位特別優(yōu)秀的導(dǎo)師角色,它不僅關(guān)注答案的正確性,更重視推理過(guò)程的質(zhì)量和表達(dá)的清晰度。

**五、技術(shù)創(chuàng)新與未來(lái)展望**

Skywork-VL Reward的成功源于多項(xiàng)技術(shù)創(chuàng)新的巧妙結(jié)合。首先是大規(guī)模高質(zhì)量數(shù)據(jù)集的構(gòu)建,研究團(tuán)隊(duì)不僅收集了現(xiàn)有的優(yōu)質(zhì)數(shù)據(jù),還專門針對(duì)復(fù)雜推理任務(wù)創(chuàng)建了獨(dú)特的數(shù)據(jù)集。其次是巧妙的模型架構(gòu)設(shè)計(jì),通過(guò)替換輸出層并采用部分參數(shù)凍結(jié)策略,在保持原有能力的基礎(chǔ)上高效學(xué)習(xí)新技能。再次是創(chuàng)新的雙階段訓(xùn)練方法,確保模型既精通多模態(tài)任務(wù)又不忘記文本處理能力。

這項(xiàng)研究的意義遠(yuǎn)超技術(shù)本身。隨著多模態(tài)AI在教育、醫(yī)療、自動(dòng)駕駛等領(lǐng)域的廣泛應(yīng)用,如何確保AI的回答質(zhì)量和安全性變得至關(guān)重要。Skywork-VL Reward提供了一個(gè)可靠的評(píng)估工具,就像為AI世界建立了一套通用的"質(zhì)量標(biāo)準(zhǔn)"。

當(dāng)前的研究主要關(guān)注結(jié)果導(dǎo)向的評(píng)估,即只評(píng)判最終回答的質(zhì)量。未來(lái)的發(fā)展方向可能會(huì)轉(zhuǎn)向過(guò)程導(dǎo)向的評(píng)估,即對(duì)推理過(guò)程中的每個(gè)步驟都進(jìn)行評(píng)分和指導(dǎo)。這種更細(xì)粒度的評(píng)估能夠幫助AI模型學(xué)習(xí)更好的思維模式,而不僅僅是正確的答案。

研究團(tuán)隊(duì)已經(jīng)將Skywork-VL Reward開源,這意味著全世界的研究者和開發(fā)者都能使用這個(gè)工具來(lái)改進(jìn)自己的AI系統(tǒng)。這種開放的態(tài)度將有助于推動(dòng)整個(gè)行業(yè)的進(jìn)步,讓更多優(yōu)秀的多模態(tài)AI系統(tǒng)涌現(xiàn)出來(lái)。

說(shuō)到底,Skywork-VL Reward代表了AI理解人類偏好這一關(guān)鍵技術(shù)的重要進(jìn)展。它不僅能夠準(zhǔn)確評(píng)估AI的多模態(tài)表現(xiàn),更為構(gòu)建更智能、更可靠的AI系統(tǒng)提供了重要工具。隨著這項(xiàng)技術(shù)的不斷完善和應(yīng)用,我們有理由期待未來(lái)的AI助手能夠更好地理解我們的需求,提供更加貼心和準(zhǔn)確的服務(wù)。對(duì)于普通用戶而言,這意味著與AI交互將變得更加自然和高效,無(wú)論是詢問圖片內(nèi)容、尋求學(xué)習(xí)幫助,還是進(jìn)行復(fù)雜的分析推理,AI都能給出更符合期望的回答。這項(xiàng)研究真正體現(xiàn)了技術(shù)為人類服務(wù)的理念,讓AI變得更加智能的同時(shí),也更加貼近人心。

Q&A

Q1:Skywork-VL Reward是什么?它能做什么? A:Skywork-VL Reward是阿里云開發(fā)的多模態(tài)AI評(píng)分系統(tǒng),就像一位能同時(shí)理解圖片和文字的專業(yè)評(píng)委。它能判斷AI回答圖文問題的質(zhì)量,特別擅長(zhǎng)評(píng)估復(fù)雜推理過(guò)程,幫助訓(xùn)練出更優(yōu)秀的AI模型。

Q2:這個(gè)模型會(huì)不會(huì)取代人類評(píng)估? A:目前不會(huì)完全取代人類,但能大大提高評(píng)估效率。它更像是人類評(píng)估專家的得力助手,能夠處理大量重復(fù)性評(píng)估工作,但復(fù)雜的創(chuàng)意性和倫理性判斷仍需要人類參與。

Q3:普通用戶能使用這個(gè)技術(shù)嗎? A:研究團(tuán)隊(duì)已經(jīng)將模型開源(網(wǎng)址:https://huggingface.co/Skywork/Skywork-VL-Reward-7B),技術(shù)開發(fā)者可以直接使用。對(duì)普通用戶來(lái)說(shuō),這項(xiàng)技術(shù)會(huì)間接改善各種AI應(yīng)用的回答質(zhì)量,讓AI助手變得更聰明更貼心。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-