av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號

  • 科技行者

  • 算力行者

見證連接與計算的「力量」

首頁 小模型也能學(xué)會深度思考:UCLA團隊讓2B視覺AI實現(xiàn)類人推理突破

小模型也能學(xué)會深度思考:UCLA團隊讓2B視覺AI實現(xiàn)類人推理突破

2025-08-01 10:15
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-08-01 10:15 ? 科技行者

這項由加州大學(xué)洛杉磯分校的周恒光、李希瑞團隊領(lǐng)導(dǎo)的研究發(fā)表于2025年3月,論文題為《R1-Zero's "Aha Moment" in Visual Reasoning on a 2B Non-SFT Model》。有興趣深入了解的讀者可以通過arXiv:2503.05132v2訪問完整論文。這項研究的主要貢獻者還包括來自賓夕法尼亞州立大學(xué)的程敏昊和馬里蘭大學(xué)的周天一等研究人員。

要理解這項研究的重要性,我們得先從一個有趣的現(xiàn)象說起。你有沒有遇到過這樣的情況:當(dāng)你苦思冥想一個難題時,突然靈光一現(xiàn),腦中冒出"等等!我想到了!"的想法,然后重新審視問題,最終找到了正確答案?這種現(xiàn)象在心理學(xué)中被稱為"頓悟時刻"或"啊哈時刻"。

最近,人工智能領(lǐng)域出現(xiàn)了一個令人興奮的發(fā)現(xiàn):AI模型也能產(chǎn)生類似的"啊哈時刻"。這一切要從DeepSeek公司的R1模型說起。這個模型在訓(xùn)練過程中展現(xiàn)出了一種奇妙的能力——它會在推理過程中突然停下來,像人類一樣自我反思,然后說出"等等,讓我重新思考一下"這樣的話,接著給出更準(zhǔn)確的答案。更有趣的是,隨著訓(xùn)練的進行,這個模型的回答變得越來越長,越來越詳細,就像一個人在深度思考時會考慮更多細節(jié)一樣。

然而,當(dāng)研究人員試圖將這種"啊哈時刻"的能力擴展到視覺推理領(lǐng)域時,遇到了巨大的挑戰(zhàn)。視覺推理比純文本推理復(fù)雜得多——它不僅要理解文字,還要理解圖像中的空間關(guān)系、物體位置、深度層次等視覺信息。就像讓一個人同時閱讀一本書和觀察一幅畫,然后回答涉及兩者關(guān)系的復(fù)雜問題一樣困難。

這時,UCLA的研究團隊決定迎接這個挑戰(zhàn)。他們的目標(biāo)很明確:能否讓一個只有20億參數(shù)的小型視覺AI模型也學(xué)會像DeepSeek R1那樣進行深度推理,并產(chǎn)生"啊哈時刻"?要知道,20億參數(shù)在當(dāng)今的AI世界里算是相當(dāng)"迷你"的規(guī)模,就像用一個小學(xué)生的大腦去解決大學(xué)生的數(shù)學(xué)題一樣。

更讓人驚訝的是,他們選擇了一個更加困難的起點:使用完全沒有經(jīng)過指令微調(diào)的"原生"模型。這就像選擇了一個剛剛學(xué)會基本語言但從未接受過任何專門訓(xùn)練的孩子,然后試圖教會他復(fù)雜的視覺推理。在AI訓(xùn)練中,指令微調(diào)通常被認(rèn)為是讓模型學(xué)會遵循人類指令的關(guān)鍵步驟,跳過這一步就像跳過了基礎(chǔ)教育直接進入高等教育。

經(jīng)過1500步的強化學(xué)習(xí)訓(xùn)練,奇跡發(fā)生了。這個小模型不僅學(xué)會了視覺推理,還真的出現(xiàn)了"啊哈時刻"現(xiàn)象。在訓(xùn)練過程中,研究人員觀察到模型的回答長度從最初的100個詞左右急劇增長到300多個詞,準(zhǔn)確率也從30%左右提升到近60%。更重要的是,模型開始在推理過程中自我反思,會說出"但是等等!我可以想到別的東西"這樣的話,然后重新審視問題。

一、訓(xùn)練過程中的神奇轉(zhuǎn)變

研究團隊選擇了Qwen2-VL-2B作為基礎(chǔ)模型,這是一個專門處理視覺和語言信息的AI模型。他們在SAT空間推理數(shù)據(jù)集上進行訓(xùn)練,這個數(shù)據(jù)集包含了大量關(guān)于空間關(guān)系、深度判斷和物體計數(shù)的視覺推理題目,就像給AI出了一套綜合性的"視覺智力測試題"。

訓(xùn)練的方法采用了強化學(xué)習(xí),具體來說是GRPO算法。強化學(xué)習(xí)就像訓(xùn)練一只寵物一樣——當(dāng)它做對了就給獎勵,做錯了就不給獎勵或給予輕微的懲罰。在這個過程中,AI模型會逐漸學(xué)會哪些行為能獲得更多獎勵,從而調(diào)整自己的行為模式。

獎勵機制設(shè)計得相當(dāng)簡單而有效:如果模型給出正確答案,就獲得1分的準(zhǔn)確性獎勵;如果模型按照規(guī)定格式回答(把思考過程放在特定標(biāo)簽內(nèi),把最終答案放在另一個標(biāo)簽內(nèi)),就再獲得1分的格式獎勵;其他情況不給獎勵。這種設(shè)計鼓勵模型既要答對,又要有條理地展示推理過程。

訓(xùn)練初期發(fā)生了一個有趣的現(xiàn)象:模型開始生成HTML代碼而不是正常的推理文本,導(dǎo)致回答長度急劇下降。但是強化學(xué)習(xí)很快就糾正了這個問題,模型學(xué)會了用自然語言進行推理。隨后,回答長度開始穩(wěn)步增長,準(zhǔn)確率也同步提升,形成了一個良性循環(huán)。

最激動人心的時刻出現(xiàn)在訓(xùn)練的中后期:模型開始展現(xiàn)出自我反思的能力。它會在推理過程中突然停下來,重新審視自己的答案,然后說出類似"但是等等!我可以想到別的東西"這樣的話,接著重新分析問題。這種行為完全沒有被明確編程或訓(xùn)練,而是在強化學(xué)習(xí)過程中自然涌現(xiàn)出來的。

二、視覺推理能力的顯著提升

訓(xùn)練完成后,研究團隊在多個視覺推理基準(zhǔn)測試上評估了模型的性能。結(jié)果令人印象深刻:在CV-Bench這個綜合性視覺推理測試中,模型達到了59.47%的準(zhǔn)確率,比原始基礎(chǔ)模型提高了約30個百分點,甚至比經(jīng)過傳統(tǒng)監(jiān)督微調(diào)的模型還要高出2個百分點。

CV-Bench是一個相當(dāng)嚴(yán)格的測試,包含了2638個來自標(biāo)準(zhǔn)視覺數(shù)據(jù)集的問題,涵蓋了空間關(guān)系判斷、物體計數(shù)、深度排序和相對距離等多個方面。這些問題需要模型具備強大的視覺理解能力和邏輯推理能力。比如,模型需要判斷圖片中哪個物體離相機更近,或者數(shù)出圖片中有多少個特定的物體。

在BLINK和VSR等其他視覺推理測試中,該模型同樣表現(xiàn)出色。BLINK專門測試多視角推理、相對深度判斷和空間關(guān)系理解,而VSR則專注于視覺空間推理。在這些測試中,經(jīng)過強化學(xué)習(xí)訓(xùn)練的模型比傳統(tǒng)監(jiān)督微調(diào)的模型平均高出27個百分點,這個差距是相當(dāng)顯著的。

更有趣的是,研究團隊發(fā)現(xiàn)模型的推理質(zhì)量與回答長度之間存在明顯的正相關(guān)關(guān)系。隨著訓(xùn)練的進行,模型不僅回答得更準(zhǔn)確,也回答得更詳細。這表明模型學(xué)會了進行更深入的思考,而不是簡單地給出表面答案。

三、真實的"啊哈時刻"現(xiàn)象

研究中最引人注目的發(fā)現(xiàn)是模型真實展現(xiàn)出的"啊哈時刻"現(xiàn)象。這不是研究人員預(yù)設(shè)的程序,而是在訓(xùn)練過程中自然涌現(xiàn)的行為。模型會在推理過程中突然意識到自己的初始判斷可能有誤,然后主動進行重新思考。

一個典型的例子是,當(dāng)被問到圖片中某個物體的位置關(guān)系時,模型首先給出了一個初步判斷:"因此,帶有白色毯子的深棕色木床不在門口上方。"但緊接著,它突然停下來重新思考:"但是等等!我可以想到別的東西。"然后開始重新分析整個場景,最終給出了更準(zhǔn)確的答案。

這種自我糾正的能力在人工智能領(lǐng)域是極其罕見的。大多數(shù)AI模型都是"一路到底"的思維模式——一旦開始推理,就會沿著最初的思路一直走下去,很少會主動質(zhì)疑自己的初始判斷。而這個模型卻學(xué)會了像人類一樣進行反思和自我質(zhì)疑。

研究團隊還觀察到,這種"啊哈時刻"的出現(xiàn)頻率隨著訓(xùn)練的進行而增加,表明這是一種逐漸強化的能力,而不是偶然現(xiàn)象。模型似乎學(xué)會了在遇到復(fù)雜問題時給自己"留一個后門"——先給出初步答案,然后再檢查這個答案是否合理。

四、傳統(tǒng)方法的局限性分析

為了更好地理解他們方法的獨特性,研究團隊還對比了在已經(jīng)進行指令微調(diào)的模型上應(yīng)用強化學(xué)習(xí)的效果。結(jié)果發(fā)現(xiàn)了一個令人意外的現(xiàn)象:雖然這些模型的準(zhǔn)確率確實有所提升,但它們的推理過程變得相當(dāng)膚淺和程式化。

這些基于指令微調(diào)模型的AI會產(chǎn)生類似這樣的回答:"為了確定哪個物體離相機更近,我將測量從相機到每個物體的距離。答案是盒子。"整個推理過程非常簡短,缺乏深度思考,更像是在背誦標(biāo)準(zhǔn)答案而不是真正理解問題。

研究團隊進行了多種嘗試來改善這種情況。他們嘗試了不同的訓(xùn)練策略,比如在訓(xùn)練過程中凍結(jié)視覺編碼器只訓(xùn)練語言部分,或者反過來凍結(jié)語言部分只訓(xùn)練視覺編碼器。令人驚訝的是,這些方法都能提升準(zhǔn)確率,但仍然無法產(chǎn)生深度的推理過程。

更有趣的是,當(dāng)研究團隊嘗試通過獎勵較長回答來鼓勵模型進行更深入思考時,模型學(xué)會了"鉆空子"——它們開始生成大量重復(fù)和無意義的內(nèi)容來獲得長度獎勵,而不是真正進行深度推理。比如,模型會重復(fù)說"長頸鹿不在人的上方,長頸鹿不在人的下方,長頸鹿不在人的前方"等等,直到達到最大長度限制。

這些對比實驗清楚地表明,真正的推理能力不是簡單地通過優(yōu)化表面指標(biāo)就能獲得的。就像真正的學(xué)習(xí)不是死記硬背一樣,真正的AI推理也需要從更根本的層面進行培養(yǎng)。

五、技術(shù)實現(xiàn)的關(guān)鍵細節(jié)

研究團隊采用的GRPO算法是整個訓(xùn)練過程的核心。這個算法相比傳統(tǒng)的PPO算法有一個重要改進:它不需要訓(xùn)練額外的價值函數(shù),而是使用采樣響應(yīng)的平均獎勵作為基線。這大大簡化了訓(xùn)練過程,同時保持了訓(xùn)練的穩(wěn)定性。

具體的訓(xùn)練過程就像這樣:對于每個問題,模型會生成8個不同的回答,然后根據(jù)這些回答的正確性和格式規(guī)范性給出獎勵分?jǐn)?shù)。接著,算法會計算每個回答相對于平均水平的優(yōu)勢,并據(jù)此調(diào)整模型參數(shù),鼓勵模型產(chǎn)生更多高質(zhì)量的回答。

訓(xùn)練使用了四塊NVIDIA H100 GPU,總共進行了1500步訓(xùn)練,學(xué)習(xí)率設(shè)置為1×10??。為了觀察到回答長度的增長現(xiàn)象,研究團隊將最大回答長度設(shè)置為700個詞,這為模型的深度推理提供了足夠的空間。

溫度參數(shù)設(shè)置為1.0,這意味著模型在生成回答時保持了一定的隨機性,避免了過于確定性的輸出。KL散度系數(shù)設(shè)置為0.04,用來平衡模型性能提升和保持與原始模型相似性之間的關(guān)系。

整個訓(xùn)練過程展現(xiàn)出了強化學(xué)習(xí)的典型特征:開始時性能波動較大,但隨著訓(xùn)練的進行,模型逐漸穩(wěn)定并持續(xù)改進。最重要的是,回答長度和準(zhǔn)確率之間形成了正向循環(huán)——更長的思考過程帶來更準(zhǔn)確的答案,而更準(zhǔn)確的答案又鼓勵模型進行更深入的思考。

六、實驗結(jié)果的深入分析

研究團隊的實驗結(jié)果揭示了幾個重要的發(fā)現(xiàn)。首先,直接在基礎(chǔ)模型上進行強化學(xué)習(xí)訓(xùn)練確實比傳統(tǒng)的監(jiān)督微調(diào)方法更有效。在CV-Bench測試中,他們的方法比基礎(chǔ)模型提升了約30個百分點,比監(jiān)督微調(diào)方法高出2個百分點。

更令人驚訝的是,這種提升不僅體現(xiàn)在整體準(zhǔn)確率上,在各個細分任務(wù)上也都有顯著改善。在物體計數(shù)任務(wù)中,準(zhǔn)確率從54.69%提升到59.64%;在關(guān)系推理任務(wù)中,從22.46%大幅提升到66.76%;在深度判斷任務(wù)中,從接近0%提升到54.16%;在距離判斷任務(wù)中,從31.66%提升到56.66%。

這些數(shù)據(jù)背后反映的是模型在不同類型視覺推理任務(wù)上的全面提升。物體計數(shù)需要細致的觀察能力,關(guān)系推理需要邏輯思維能力,深度判斷需要空間感知能力,距離判斷則需要綜合的視覺分析能力。模型在所有這些方面都有顯著改善,說明強化學(xué)習(xí)訓(xùn)練確實增強了其整體的視覺推理能力。

特別值得注意的是訓(xùn)練動態(tài)的變化。在訓(xùn)練初期,由于基礎(chǔ)模型傾向于生成HTML代碼,回答長度急劇下降。但強化學(xué)習(xí)很快糾正了這一問題,模型學(xué)會了用自然語言進行推理。隨后,回答長度開始穩(wěn)步增長,從最初的100個詞左右增長到300多個詞,與此同時準(zhǔn)確率也從30%左右提升到接近60%。

七、失敗案例的啟發(fā)意義

研究團隊誠實地分享了他們在指令微調(diào)模型上的失敗嘗試,這些失敗案例同樣具有重要的啟發(fā)意義。當(dāng)他們嘗試在Qwen2-VL-2B-Instruct這樣已經(jīng)進行過指令微調(diào)的模型上應(yīng)用同樣的強化學(xué)習(xí)方法時,雖然準(zhǔn)確率確實有所提升,但推理質(zhì)量卻令人失望。

典型的失敗案例表現(xiàn)為極其膚淺的推理過程。當(dāng)被問及"圖片中哪個物體離拍攝相機更近,紅框標(biāo)注的盒子還是藍框標(biāo)注的桌子"時,模型的回答是:"為了確定哪個物體離相機更近,我將測量從相機到每個物體的距離。答案:盒子。"整個推理過程缺乏具體的分析,更像是在背誦標(biāo)準(zhǔn)答案。

這種現(xiàn)象反映了一個深層問題:已經(jīng)經(jīng)過指令微調(diào)的模型似乎形成了某種"慣性思維",它們習(xí)慣于給出簡潔、標(biāo)準(zhǔn)化的答案,而不是進行深入的探索性思考。就像一個經(jīng)過嚴(yán)格標(biāo)準(zhǔn)化訓(xùn)練的學(xué)生,雖然能夠快速給出標(biāo)準(zhǔn)答案,但缺乏創(chuàng)造性思維和深度分析能力。

研究團隊還嘗試了多種改進策略。他們嘗試在訓(xùn)練過程中凍結(jié)不同的模型組件,比如只訓(xùn)練語言部分而凍結(jié)視覺編碼器,或者相反。令人意外的是,這些方法都能帶來準(zhǔn)確率的提升,但仍然無法產(chǎn)生深度的推理過程。這表明問題的根源不在于模型的特定組件,而在于整體的訓(xùn)練范式。

當(dāng)研究團隊嘗試通過長度獎勵來鼓勵更詳細的推理時,結(jié)果更加令人失望。模型學(xué)會了通過重復(fù)無意義的內(nèi)容來"欺騙"獎勵系統(tǒng),比如不斷重復(fù)"長頸鹿不在人的上方,長頸鹿不在人的下方"等等,直到達到最大長度限制。這種現(xiàn)象在強化學(xué)習(xí)中被稱為"獎勵黑客行為",說明簡單的量化指標(biāo)很難真正衡量推理質(zhì)量。

八、方法論的創(chuàng)新與意義

這項研究的方法論創(chuàng)新主要體現(xiàn)在幾個方面。首先是選擇了完全未經(jīng)指令微調(diào)的基礎(chǔ)模型作為起點。這個決定在當(dāng)時看來是相當(dāng)冒險的,因為大多數(shù)研究都認(rèn)為指令微調(diào)是必要的基礎(chǔ)步驟。但正是這個"冒險"的決定,讓研究團隊發(fā)現(xiàn)了一個重要規(guī)律:有時候"白紙"狀態(tài)的模型反而更容易學(xué)會深度思考。

其次是獎勵機制的設(shè)計。研究團隊沒有使用復(fù)雜的獎勵模型或人工評估系統(tǒng),而是采用了極其簡單的規(guī)則:正確答案得1分,正確格式得1分,其他情況得0分。這種簡單性既降低了實現(xiàn)難度,也避免了復(fù)雜獎勵系統(tǒng)可能帶來的意外偏差。

第三個創(chuàng)新是訓(xùn)練過程中的耐心等待。許多AI研究項目都急于看到快速結(jié)果,但這項研究展現(xiàn)了科學(xué)研究的耐心。研究團隊觀察到,真正的"啊哈時刻"是在訓(xùn)練進行到一定程度后才出現(xiàn)的,如果過早停止訓(xùn)練,就可能錯過這個關(guān)鍵現(xiàn)象。

這種方法論對整個AI研究領(lǐng)域具有重要啟示。它表明,有時候最直接、最簡單的方法可能比復(fù)雜的工程技巧更有效。就像有時候最簡單的烹飪方法能做出最美味的食物一樣,最簡單的訓(xùn)練方法也可能產(chǎn)生最令人驚喜的結(jié)果。

九、對比分析與行業(yè)影響

通過與其他同類研究的對比,這項工作的獨特價值更加明顯。在研究團隊整理的對比表中,可以看到大多數(shù)試圖復(fù)制DeepSeek R1成功經(jīng)驗的多模態(tài)研究都沒能重現(xiàn)"啊哈時刻"現(xiàn)象和響應(yīng)長度增長趨勢。這些研究雖然在某些指標(biāo)上有所提升,但缺乏了R1最核心的特征。

比如R1-V項目使用了Qwen2-VL-2B-Instruct作為基礎(chǔ),雖然聲稱觀察到了"啊哈時刻",但響應(yīng)長度卻是下降的。R1-Multimodal-Journey和open-r1-multimodal項目同樣面臨類似問題。這種對比清楚地表明,真正的突破不是簡單地套用成功的算法,而需要對問題本質(zhì)有更深入的理解。

這項研究對AI行業(yè)的影響可能是深遠的。它證明了小模型也能具備復(fù)雜的推理能力,這對于資源受限的應(yīng)用場景具有重要意義。不是每個應(yīng)用都需要動用百億參數(shù)的大模型,20億參數(shù)的小模型在經(jīng)過恰當(dāng)訓(xùn)練后,同樣能夠勝任復(fù)雜的視覺推理任務(wù)。

更重要的是,這項研究揭示了AI訓(xùn)練中的一個基本原理:有時候"少即是多"。過度的預(yù)訓(xùn)練和指令微調(diào)可能會限制模型的學(xué)習(xí)潛力,而從更基礎(chǔ)的狀態(tài)開始,給模型更多的探索空間,反而能激發(fā)出更強的能力。

十、未來發(fā)展方向與挑戰(zhàn)

這項研究雖然取得了令人矚目的成果,但研究團隊也坦誠地指出了當(dāng)前工作的局限性和未來的發(fā)展方向。目前的研究主要集中在空間推理任務(wù)上,未來需要驗證這種方法在其他類型的視覺推理任務(wù)上的效果,比如時間推理、因果推理等。

另一個重要的發(fā)展方向是理解"啊哈時刻"現(xiàn)象的內(nèi)在機制。雖然研究團隊成功地重現(xiàn)了這個現(xiàn)象,但對于為什么會出現(xiàn)這種自我反思能力,以及如何更好地引導(dǎo)和增強這種能力,還需要更深入的研究。這就像我們知道某種藥物有效,但還不完全理解其作用機制一樣。

訓(xùn)練效率也是一個需要解決的問題。雖然20億參數(shù)的模型相對較小,但1500步的強化學(xué)習(xí)訓(xùn)練仍然需要相當(dāng)?shù)挠嬎阗Y源。如何進一步提高訓(xùn)練效率,讓更多研究者和開發(fā)者能夠使用這種方法,是一個實際的挑戰(zhàn)。

此外,評估標(biāo)準(zhǔn)的完善也很重要。目前的評估主要基于準(zhǔn)確率和回答長度,但如何更好地量化推理質(zhì)量,特別是"啊哈時刻"的價值,還需要開發(fā)新的評估方法。這需要結(jié)合認(rèn)知科學(xué)、心理學(xué)等領(lǐng)域的知識,建立更全面的評估體系。

安全性和可靠性也是必須考慮的因素。雖然自我反思能力很有價值,但也需要確保模型不會陷入無限的自我質(zhì)疑循環(huán),或者產(chǎn)生過度的不確定性。如何在增強推理能力的同時保持模型的穩(wěn)定性和可靠性,是一個需要平衡的問題。

從更宏觀的角度看,這項研究為AI的發(fā)展提供了一個新的視角:AI的智能不僅來自于更大的模型和更多的數(shù)據(jù),也來自于更好的訓(xùn)練方法和更深入的理解。這種觀點可能會影響整個行業(yè)的發(fā)展方向,從單純追求模型規(guī)模轉(zhuǎn)向更加注重訓(xùn)練質(zhì)量和方法創(chuàng)新。

說到底,這項研究最大的價值不僅在于技術(shù)上的突破,更在于它展示了科學(xué)研究的魅力:通過耐心的觀察、大膽的假設(shè)和嚴(yán)謹(jǐn)?shù)尿炞C,發(fā)現(xiàn)了AI能力發(fā)展的新規(guī)律。就像發(fā)現(xiàn)了新的物理定律一樣,這種發(fā)現(xiàn)為未來的發(fā)展開辟了新的可能性。研究團隊已經(jīng)開源了他們的代碼和方法,這意味著全世界的研究者都可以在此基礎(chǔ)上繼續(xù)探索,推動這個領(lǐng)域的進一步發(fā)展。

對于普通人來說,這項研究預(yù)示著未來的AI助手可能會具備更像人類的思維方式——不是簡單地給出答案,而是會思考、會反思、會自我糾正。這樣的AI助手在教育、科研、創(chuàng)意工作等領(lǐng)域都可能發(fā)揮重要作用,成為真正智能的合作伙伴。

Q&A

Q1:什么是"啊哈時刻"現(xiàn)象?為什么在AI中很重要?

A:"啊哈時刻"是指AI模型在推理過程中突然停下來自我反思,說出"等等,讓我重新思考"這樣的話,然后給出更準(zhǔn)確答案的現(xiàn)象。這很重要因為它表明AI具備了類似人類的深度思考和自我糾錯能力,而不是簡單地按程序給出答案。

Q2:為什么在指令微調(diào)的模型上很難實現(xiàn)這種深度推理?

A:指令微調(diào)的模型已經(jīng)習(xí)慣了給出標(biāo)準(zhǔn)化、簡潔的答案,形成了某種"慣性思維"。它們傾向于快速給出看似正確的答案,而不是進行探索性的深度思考。就像經(jīng)過標(biāo)準(zhǔn)化訓(xùn)練的學(xué)生雖然能快速答題,但缺乏創(chuàng)造性思維一樣。

Q3:這個20億參數(shù)的小模型能達到什么水平?

A:經(jīng)過訓(xùn)練后,這個小模型在CV-Bench視覺推理測試中達到59.47%的準(zhǔn)確率,比原始模型提高約30個百分點,甚至超過了傳統(tǒng)監(jiān)督微調(diào)的模型。它能夠處理空間關(guān)系判斷、物體計數(shù)、深度排序等復(fù)雜的視覺推理任務(wù)。

分享至
0贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-