av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見(jiàn)證連接與計(jì)算的「力量」

首頁(yè) Skywork AI的多模態(tài)推理新突破:讓AI像人類一樣"慢慢思考"解決復(fù)雜問(wèn)題

Skywork AI的多模態(tài)推理新突破:讓AI像人類一樣"慢慢思考"解決復(fù)雜問(wèn)題

2025-07-15 11:38
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-07-15 11:38 ? 科技行者

這項(xiàng)由Skywork AI公司(隸屬昆侖科技)的Chris、魏一晨、彭毅、王曉昆等多位研究人員共同完成的研究,發(fā)表于2025年6月6日,研究代號(hào)為arXiv:2504.16656v4。感興趣的讀者可以通過(guò)論文鏈接https://huggingface.co/Skywork/Skywork-R1V2-38B獲取完整模型和研究詳情。

人工智能正在經(jīng)歷一場(chǎng)思維方式的革命。當(dāng)我們使用ChatGPT或其他AI助手時(shí),它們通常會(huì)立即給出答案,就像搶答比賽中的選手一樣迅速反應(yīng)。但真正困難的數(shù)學(xué)題或科學(xué)問(wèn)題,往往需要深思熟慮才能解決。就像學(xué)生考試時(shí)遇到難題,需要在草稿紙上反復(fù)推演一樣,AI也需要學(xué)會(huì)"慢慢思考"。

傳統(tǒng)的AI模型追求速度,被稱為"快思考"模型。它們就像那些反應(yīng)敏捷但有時(shí)會(huì)匆忙下結(jié)論的人。而新一代的"慢思考"模型,則更像是那些遇到問(wèn)題會(huì)仔細(xì)分析、反復(fù)驗(yàn)證的學(xué)者。OpenAI的o1模型、谷歌的Gemini-Thinking,以及國(guó)內(nèi)的Kimi-1.5等,都屬于這種新型的"慢思考"模型。它們?cè)跀?shù)學(xué)競(jìng)賽和科學(xué)推理方面的表現(xiàn),比傳統(tǒng)模型提升了30%以上。

然而,當(dāng)這種"慢思考"策略從純文本擴(kuò)展到圖文并茂的多模態(tài)領(lǐng)域時(shí),問(wèn)題變得更加復(fù)雜。就像一個(gè)人既要看圖又要理解文字,還要進(jìn)行復(fù)雜推理一樣,多模態(tài)AI需要同時(shí)處理視覺(jué)信息和邏輯推理。令人困惑的是,雖然在復(fù)雜的視覺(jué)推理任務(wù)上表現(xiàn)有所提升,但在簡(jiǎn)單的圖像理解任務(wù)上卻出現(xiàn)了退步,甚至?xí)a(chǎn)生更多的"視覺(jué)幻覺(jué)"——也就是看到實(shí)際不存在的東西。

為了解決這個(gè)棘手問(wèn)題,Skywork AI團(tuán)隊(duì)推出了第二代產(chǎn)品R1V2,這是一個(gè)能夠平衡復(fù)雜推理能力和通用理解能力的多模態(tài)AI模型。它就像一個(gè)既能解高等數(shù)學(xué)題,又能準(zhǔn)確識(shí)別日常物品的全能學(xué)生。

一、創(chuàng)新的"混合強(qiáng)化學(xué)習(xí)"訓(xùn)練方法

R1V2的核心創(chuàng)新在于采用了一種全新的"混合強(qiáng)化學(xué)習(xí)"訓(xùn)練方法。這就像培養(yǎng)一個(gè)學(xué)生,不僅要教他解題技巧,還要培養(yǎng)他的判斷力和自我糾錯(cuò)能力。

傳統(tǒng)的AI訓(xùn)練就像讓學(xué)生模仿老師的解題過(guò)程,這種方法被稱為"監(jiān)督微調(diào)"。但R1V2完全跳過(guò)了這個(gè)階段,因?yàn)檠芯繄F(tuán)隊(duì)發(fā)現(xiàn),過(guò)多的模仿反而會(huì)削弱AI的原創(chuàng)思維能力,就像學(xué)生過(guò)分依賴標(biāo)準(zhǔn)答案而失去了獨(dú)立思考的能力。

取而代之的是,R1V2采用了一種叫做"混合偏好優(yōu)化"(MPO)的方法。這種方法就像給AI配備了一個(gè)內(nèi)在的"質(zhì)量檢查員",能夠從三個(gè)維度評(píng)估自己的回答質(zhì)量。首先是比較不同答案的相對(duì)優(yōu)劣,就像在多個(gè)解題方案中選擇最佳的那個(gè)。其次是評(píng)估單個(gè)答案的絕對(duì)質(zhì)量,判斷這個(gè)答案本身是否達(dá)標(biāo)。最后是學(xué)習(xí)如何生成高質(zhì)量的回答過(guò)程,掌握正確的"解題套路"。

這個(gè)質(zhì)量檢查員的角色由Skywork團(tuán)隊(duì)開(kāi)發(fā)的"Skywork-VL獎(jiǎng)勵(lì)模型"來(lái)?yè)?dān)任。這個(gè)獎(jiǎng)勵(lì)模型就像一個(gè)經(jīng)驗(yàn)豐富的老師,既能理解圖像內(nèi)容,又能評(píng)判推理過(guò)程的正確性。在它的指導(dǎo)下,R1V2能夠有效減少重復(fù)性的思考過(guò)程和過(guò)度思考的問(wèn)題,在一般性視覺(jué)任務(wù)上表現(xiàn)更加穩(wěn)定。

二、解決"優(yōu)勢(shì)消失"難題的創(chuàng)新機(jī)制

為了進(jìn)一步提升推理能力,研究團(tuán)隊(duì)還引入了另一種訓(xùn)練方法——"群體相對(duì)策略優(yōu)化"(GRPO)。這種方法就像組織一場(chǎng)"頭腦風(fēng)暴"比賽,讓AI對(duì)同一個(gè)問(wèn)題生成多個(gè)不同的答案,然后通過(guò)比較這些答案的質(zhì)量來(lái)學(xué)習(xí)改進(jìn)。

但是這種方法面臨一個(gè)嚴(yán)重問(wèn)題,研究人員稱之為"消失的優(yōu)勢(shì)"現(xiàn)象。隨著訓(xùn)練的進(jìn)行,AI生成的多個(gè)答案會(huì)逐漸趨于一致,要么都對(duì),要么都錯(cuò),失去了相互比較的價(jià)值。這就像一個(gè)班級(jí)的學(xué)生經(jīng)過(guò)長(zhǎng)期訓(xùn)練后,面對(duì)某類題目時(shí)給出的答案高度相似,老師就很難通過(guò)比較來(lái)發(fā)現(xiàn)問(wèn)題和改進(jìn)點(diǎn)了。

為了解決這個(gè)問(wèn)題,Skywork團(tuán)隊(duì)創(chuàng)造性地提出了"選擇性樣本緩沖區(qū)"(SSB)機(jī)制。這個(gè)機(jī)制就像建立了一個(gè)"珍貴題庫(kù)",專門收集那些能夠產(chǎn)生不同答案、具有區(qū)分度的高質(zhì)量訓(xùn)練樣本。當(dāng)常規(guī)訓(xùn)練樣本的區(qū)分度下降時(shí),系統(tǒng)會(huì)自動(dòng)從這個(gè)題庫(kù)中調(diào)取有價(jià)值的樣本繼續(xù)訓(xùn)練。

這種方法的效果非常顯著。在訓(xùn)練初期,大約60%的樣本都具有很好的區(qū)分度,但隨著訓(xùn)練推進(jìn),這個(gè)比例會(huì)急劇下降到40%以下。SSB機(jī)制通過(guò)維持高質(zhì)量樣本的持續(xù)供應(yīng),確保訓(xùn)練過(guò)程始終保持高效率。更重要的是,研究團(tuán)隊(duì)發(fā)現(xiàn),提前準(zhǔn)備這樣的"精選題庫(kù)"能夠?qū)⒂?xùn)練效率提升10%以上。

三、巧妙平衡推理能力與視覺(jué)準(zhǔn)確性

研究過(guò)程中,團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)有趣但需要謹(jǐn)慎處理的現(xiàn)象:過(guò)度強(qiáng)化視覺(jué)推理能力會(huì)導(dǎo)致"視覺(jué)幻覺(jué)"增加。這就像一個(gè)人過(guò)分投入復(fù)雜的圖像分析時(shí),可能會(huì)在簡(jiǎn)單圖片中"看到"實(shí)際不存在的細(xì)節(jié)。

這種現(xiàn)象的出現(xiàn)有其深層原因。當(dāng)AI需要進(jìn)行復(fù)雜的視覺(jué)推理時(shí),它必須在視覺(jué)元素之間進(jìn)行更多的"創(chuàng)造性插值"——也就是根據(jù)已有信息推測(cè)可能的關(guān)聯(lián)。這個(gè)過(guò)程雖然有助于復(fù)雜推理,但也增加了產(chǎn)生錯(cuò)誤聯(lián)想的風(fēng)險(xiǎn)。

為了解決這個(gè)問(wèn)題,研究團(tuán)隊(duì)采用了精確的"獎(jiǎng)勵(lì)閾值校準(zhǔn)"策略。這就像給AI設(shè)置了一個(gè)"理性檢查點(diǎn)",防止它在追求復(fù)雜推理時(shí)偏離現(xiàn)實(shí)。通過(guò)SSB機(jī)制,系統(tǒng)能夠在保持多樣化學(xué)習(xí)信號(hào)的同時(shí),維持視覺(jué)推理和文本推理之間的適當(dāng)平衡。

四、突破性的模塊化架構(gòu)設(shè)計(jì)

R1V2在技術(shù)架構(gòu)上也有重要?jiǎng)?chuàng)新。不同于傳統(tǒng)的端到端訓(xùn)練方式,它采用了模塊化的組裝方法。整個(gè)系統(tǒng)就像一個(gè)精密的相機(jī)系統(tǒng),由三個(gè)核心組件構(gòu)成:負(fù)責(zé)"看"的視覺(jué)編碼器(InternViT-6B)、負(fù)責(zé)"想"的語(yǔ)言推理模型(QwQ-32B),以及連接二者的輕量級(jí)適配器。

這種設(shè)計(jì)的巧妙之處在于,視覺(jué)編碼器保持凍結(jié)狀態(tài),專注于提取圖像特征。語(yǔ)言模型則保留其強(qiáng)大的推理能力,不受視覺(jué)訓(xùn)練的干擾。而適配器則像一個(gè)"翻譯官",負(fù)責(zé)將視覺(jué)信息轉(zhuǎn)換為語(yǔ)言模型能夠理解的形式。

研究團(tuán)隊(duì)通過(guò)大量實(shí)驗(yàn)發(fā)現(xiàn)了一個(gè)令人驚訝的現(xiàn)象:文本推理能力和視覺(jué)理解能力之間存在很強(qiáng)的"遷移效應(yīng)"。一個(gè)模態(tài)的改進(jìn)會(huì)直接惠及另一個(gè)模態(tài),就像學(xué)會(huì)了騎自行車的人更容易學(xué)會(huì)騎摩托車一樣。有趣的是,單獨(dú)訓(xùn)練視覺(jué)編碼器收效甚微,而訓(xùn)練適配器或同時(shí)訓(xùn)練適配器和語(yǔ)言模型效果顯著,這說(shuō)明跨模態(tài)的"對(duì)齊"比視覺(jué)編碼本身更加關(guān)鍵。

五、卓越的實(shí)驗(yàn)表現(xiàn)

R1V2在多個(gè)權(quán)威測(cè)試平臺(tái)上都取得了優(yōu)異成績(jī)。在文本推理方面,它在2024年美國(guó)數(shù)學(xué)邀請(qǐng)賽(AIME2024)上獲得了78.9%的正確率,在編程競(jìng)賽LiveCodeBench上達(dá)到63.6%,在綜合推理測(cè)試LiveBench上獲得73.2%的成績(jī)。

在多模態(tài)推理測(cè)試中,R1V2的表現(xiàn)同樣出色。在多學(xué)科理解測(cè)試MMMU上達(dá)到73.6%,在數(shù)學(xué)視覺(jué)推理MathVista上獲得74.0%,在國(guó)際奧林匹克競(jìng)賽題目OlympiadBench上取得62.6%的成績(jī)。這些分?jǐn)?shù)不僅在開(kāi)源模型中名列前茅,甚至可以與一些商業(yè)模型相媲美。

特別值得一提的是,R1V2僅有380億個(gè)參數(shù),卻能夠超越許多720億參數(shù)的大型模型。比如在MMMU測(cè)試中,它比Qwen2.5-VL-72B高出3.4個(gè)百分點(diǎn),比QvQ-Preview-72B高出3.3個(gè)百分點(diǎn)。在奧林匹克競(jìng)賽題目上,這種優(yōu)勢(shì)更加明顯,R1V2的62.6%遠(yuǎn)超其他大型模型的40.4%和33.2%。

與商業(yè)模型相比,R1V2在某些方面已經(jīng)達(dá)到甚至超越了它們的水平。例如在MMMU測(cè)試中,它超過(guò)了Claude 3.5 Sonnet的70.4%和Gemini 2 Flash的70.7%。雖然在某些測(cè)試中仍與頂級(jí)商業(yè)模型OpenAI-o4-mini存在差距,但這個(gè)差距已經(jīng)大大縮小,顯示出開(kāi)源模型正在快速追趕商業(yè)產(chǎn)品的步伐。

六、深入的技術(shù)驗(yàn)證與分析

為了驗(yàn)證各項(xiàng)技術(shù)創(chuàng)新的有效性,研究團(tuán)隊(duì)進(jìn)行了詳細(xì)的對(duì)比實(shí)驗(yàn)。SSB機(jī)制的效果最為顯著:在使用SSB的情況下,有效訓(xùn)練樣本的比例能夠維持在60%以上,而不使用SSB時(shí)這個(gè)比例會(huì)降到40%以下。這直接轉(zhuǎn)化為更好的模型性能——MMMU測(cè)試成績(jī)從73.4%提升到73.6%。

在訓(xùn)練策略的比較中,混合方法(MPO+GRPO)展現(xiàn)出最佳的平衡效果。雖然單獨(dú)使用MPO在某些數(shù)學(xué)推理任務(wù)上能夠獲得最高分(AIME2024上達(dá)到79.0%),但結(jié)合GRPO后的混合方法在綜合表現(xiàn)上更加穩(wěn)定,特別是在奧林匹克競(jìng)賽題目上從60.6%提升到62.6%。

更重要的是,混合方法有效控制了"視覺(jué)幻覺(jué)"問(wèn)題。傳統(tǒng)的監(jiān)督微調(diào)方法的幻覺(jué)率高達(dá)12.1%,而混合方法將這個(gè)數(shù)字降低到9.1%,MPO單獨(dú)使用時(shí)甚至能降到8.7%。這表明新的訓(xùn)練策略不僅提升了推理能力,還增強(qiáng)了模型的可靠性。

在模塊激活策略的測(cè)試中,研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)反直覺(jué)的結(jié)果:僅訓(xùn)練適配器的效果最好,在所有測(cè)試中都取得了最高分?jǐn)?shù)(MMMU 73.6%,MathVista 74.0%,OlympiadBench 62.6%)。這說(shuō)明問(wèn)題的關(guān)鍵不在于增強(qiáng)視覺(jué)編碼能力,而在于改善視覺(jué)特征與語(yǔ)言處理之間的"溝通"質(zhì)量。

研究團(tuán)隊(duì)還測(cè)試了不同的MPO閾值設(shè)置對(duì)訓(xùn)練效果的影響。他們發(fā)現(xiàn),較高的閾值(如15)能夠帶來(lái)更穩(wěn)定的訓(xùn)練過(guò)程,而較低的閾值雖然在初期可能表現(xiàn)更好,但容易導(dǎo)致后期的性能衰退。這與他們觀察到的"獎(jiǎng)勵(lì)過(guò)度優(yōu)化"現(xiàn)象一致——過(guò)分追求某個(gè)指標(biāo)可能會(huì)損害模型的整體表現(xiàn)。

七、實(shí)際應(yīng)用場(chǎng)景展示

為了展示R1V2的實(shí)際能力,研究團(tuán)隊(duì)提供了兩個(gè)具體的應(yīng)用案例。第一個(gè)案例是中國(guó)高考物理題,涉及電磁感應(yīng)和交流發(fā)電機(jī)的復(fù)雜問(wèn)題。面對(duì)包含兩個(gè)不同匝數(shù)線圈的復(fù)雜圖表,R1V2能夠準(zhǔn)確識(shí)別關(guān)鍵信息,并運(yùn)用電磁學(xué)原理進(jìn)行推理。

在這個(gè)物理問(wèn)題中,R1V2展現(xiàn)了系統(tǒng)性的分析能力。它首先識(shí)別出線圈匝數(shù)的差異(n1 > n2),然后正確地指出感應(yīng)電流的頻率取決于磁芯的轉(zhuǎn)速而非線圈匝數(shù)。這種分析過(guò)程體現(xiàn)了AI能夠區(qū)分相關(guān)因素和無(wú)關(guān)因素的能力,而不是簡(jiǎn)單地進(jìn)行模式匹配。

第二個(gè)案例是中國(guó)高考數(shù)學(xué)題,涉及三維幾何中球體和四角錐的體積計(jì)算。這類問(wèn)題需要空間想象能力和精確的數(shù)學(xué)計(jì)算。R1V2采用了建立坐標(biāo)系的策略,將復(fù)雜的三維問(wèn)題轉(zhuǎn)化為可計(jì)算的代數(shù)問(wèn)題。更令人印象深刻的是,它在得出答案后還會(huì)主動(dòng)進(jìn)行驗(yàn)證:"讓我再仔細(xì)檢查一下步驟,看看是否有錯(cuò)誤..."這種自我檢查的行為體現(xiàn)了真正的推理思維。

八、技術(shù)局限與改進(jìn)方向

盡管R1V2在推理任務(wù)上表現(xiàn)出色,但在一些通用視覺(jué)理解任務(wù)上仍有改進(jìn)空間。在文檔理解方面,它在AI2D測(cè)試中獲得81.3%,在ChartQA和TextVQA上分別達(dá)到79.0%和相當(dāng)水平,雖然表現(xiàn)尚可,但與專門優(yōu)化的模型相比仍有差距。

在視頻理解方面,R1V2在VideoMME上獲得60.2%,在MVBench上達(dá)到61.5%的成績(jī)。值得注意的是,當(dāng)視頻內(nèi)容需要時(shí)序推理時(shí),它的表現(xiàn)會(huì)顯著提升(在MMBench-Video上獲得1.92分,超過(guò)了InternVL2.5-38B的1.82分),這再次證明了其在復(fù)雜推理任務(wù)上的優(yōu)勢(shì)。

研究團(tuán)隊(duì)坦誠(chéng)地指出,這種性能分化反映了當(dāng)前設(shè)計(jì)中的一個(gè)權(quán)衡選擇。他們有意識(shí)地將資源更多地投入到推理能力的提升上,而在通用視覺(jué)理解方面做出了一定的妥協(xié)。這是一個(gè)工程決策,未來(lái)的版本將致力于在保持強(qiáng)大推理能力的同時(shí),提升通用視覺(jué)理解的表現(xiàn)。

在幻覺(jué)控制方面,雖然混合訓(xùn)練方法已經(jīng)將幻覺(jué)率降低到9.1%,但研究團(tuán)隊(duì)認(rèn)為還有進(jìn)一步改進(jìn)的空間。他們發(fā)現(xiàn),激進(jìn)的推理優(yōu)化初期確實(shí)會(huì)增加幻覺(jué)現(xiàn)象,但通過(guò)MPO方法的干預(yù),最終能夠有效控制這個(gè)問(wèn)題。在事實(shí)準(zhǔn)確性測(cè)試RealWorldQA上,R1V2達(dá)到68.9%的正確率,表明在保持推理能力的同時(shí)維持了合理的事實(shí)判斷水平。

九、對(duì)AI發(fā)展的啟示意義

R1V2的成功提供了幾個(gè)重要的技術(shù)啟示。首先,它證明了"慢思考"策略可以成功地?cái)U(kuò)展到多模態(tài)領(lǐng)域,而不必犧牲太多的通用理解能力。這為未來(lái)的AI系統(tǒng)設(shè)計(jì)提供了新的思路——不同類型的智能任務(wù)可能需要不同的處理策略,而關(guān)鍵在于找到合適的平衡點(diǎn)。

其次,模塊化的架構(gòu)設(shè)計(jì)顯示了組合不同預(yù)訓(xùn)練模型的巨大潛力。通過(guò)精心設(shè)計(jì)的適配層,可以將專門優(yōu)化的視覺(jué)模型和語(yǔ)言模型有機(jī)結(jié)合,實(shí)現(xiàn)"1+1>2"的效果。這種方法不僅提高了開(kāi)發(fā)效率,還為未來(lái)的多模態(tài)系統(tǒng)提供了可擴(kuò)展的框架。

第三,混合強(qiáng)化學(xué)習(xí)方法的成功表明,復(fù)雜的AI能力可能需要多種訓(xùn)練策略的協(xié)同作用。單一的訓(xùn)練方法往往難以同時(shí)優(yōu)化多個(gè)目標(biāo),而精心設(shè)計(jì)的組合策略能夠在不同維度上取得更好的平衡。

最后,SSB這樣的技術(shù)創(chuàng)新解決了強(qiáng)化學(xué)習(xí)中的實(shí)際問(wèn)題,為其他研究者提供了有價(jià)值的工具。這種機(jī)制不僅適用于多模態(tài)AI,也可能在純文本或其他類型的AI訓(xùn)練中發(fā)揮作用。

R1V2的開(kāi)源發(fā)布也體現(xiàn)了推動(dòng)AI民主化的重要意義。通過(guò)將先進(jìn)的多模態(tài)推理技術(shù)開(kāi)放給研究社區(qū),Skywork團(tuán)隊(duì)為全球的AI發(fā)展做出了貢獻(xiàn)。這種開(kāi)放策略有助于加速技術(shù)創(chuàng)新,同時(shí)也為更多開(kāi)發(fā)者提供了構(gòu)建智能應(yīng)用的基礎(chǔ)工具。

說(shuō)到底,R1V2代表了開(kāi)源AI模型在復(fù)雜推理能力上的一次重要突破。它不僅在技術(shù)層面實(shí)現(xiàn)了多項(xiàng)創(chuàng)新,更重要的是證明了開(kāi)源模型完全有能力在高端AI應(yīng)用中與商業(yè)產(chǎn)品一較高下。隨著更多研究團(tuán)隊(duì)在這個(gè)基礎(chǔ)上繼續(xù)創(chuàng)新,我們有理由相信,AI的"慢思考"能力將變得更加強(qiáng)大和實(shí)用,為解決現(xiàn)實(shí)世界中的復(fù)雜問(wèn)題提供更好的工具。

對(duì)于普通用戶而言,這意味著未來(lái)的AI助手將能夠處理更加復(fù)雜的任務(wù),無(wú)論是幫助學(xué)生解決數(shù)學(xué)物理難題,還是協(xié)助專業(yè)人士進(jìn)行復(fù)雜的分析工作。而對(duì)于開(kāi)發(fā)者來(lái)說(shuō),R1V2提供了一個(gè)強(qiáng)大的基礎(chǔ)平臺(tái),可以在此基礎(chǔ)上構(gòu)建各種專業(yè)應(yīng)用。這項(xiàng)研究不僅推動(dòng)了技術(shù)邊界,也為AI的普及應(yīng)用鋪平了道路。

Q&A

Q1:什么是"慢思考"AI,它和普通AI有什么區(qū)別? A:"慢思考"AI就像考試時(shí)會(huì)在草稿紙上反復(fù)推演的學(xué)生,遇到復(fù)雜問(wèn)題時(shí)會(huì)深思熟慮,而不是立即給出答案。普通AI追求快速響應(yīng),"慢思考"AI則更注重推理過(guò)程的準(zhǔn)確性,在數(shù)學(xué)和科學(xué)問(wèn)題上表現(xiàn)更好,準(zhǔn)確率能提升30%以上。

Q2:Skywork R1V2會(huì)不會(huì)出現(xiàn)"視覺(jué)幻覺(jué)"問(wèn)題? A:研究團(tuán)隊(duì)發(fā)現(xiàn)過(guò)度強(qiáng)化推理能力確實(shí)會(huì)增加"視覺(jué)幻覺(jué)"風(fēng)險(xiǎn),但他們通過(guò)混合訓(xùn)練方法將幻覺(jué)率控制在9.1%,比傳統(tǒng)方法的12.1%有顯著改善。系統(tǒng)會(huì)通過(guò)"質(zhì)量檢查員"機(jī)制來(lái)平衡推理能力和視覺(jué)準(zhǔn)確性。

Q3:普通人能使用Skywork R1V2嗎?有什么要求? A:可以使用。Skywork團(tuán)隊(duì)已經(jīng)開(kāi)源了R1V2模型,用戶可以通過(guò)https://huggingface.co/Skywork/Skywork-R1V2-38B獲取。雖然需要一定的技術(shù)基礎(chǔ)來(lái)部署,但這為開(kāi)發(fā)者構(gòu)建各種智能應(yīng)用提供了強(qiáng)大的基礎(chǔ)工具。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-