av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見證連接與計(jì)算的「力量」

首頁(yè) 讓AI也學(xué)會(huì)"慢思考":上海AI實(shí)驗(yàn)室如何讓視覺(jué)AI像人類一樣深度推理

讓AI也學(xué)會(huì)"慢思考":上海AI實(shí)驗(yàn)室如何讓視覺(jué)AI像人類一樣深度推理

2025-07-28 10:57
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-07-28 10:57 ? 科技行者

這項(xiàng)由上海AI實(shí)驗(yàn)室的沈峻豪等研究人員領(lǐng)導(dǎo)的研究發(fā)表于2025年7月的arXiv預(yù)印本,論文編號(hào)為arXiv:2507.16814v1。有興趣深入了解的讀者可以通過(guò)該編號(hào)在arXiv網(wǎng)站上訪問(wèn)完整論文。

在人工智能的世界里,有一個(gè)看似簡(jiǎn)單卻令人頭疼的問(wèn)題:如何讓AI像人類一樣"慢慢思考"?我們?nèi)祟愒诿鎸?duì)復(fù)雜問(wèn)題時(shí),往往不會(huì)急于給出答案,而是會(huì)仔細(xì)觀察、深入分析、反復(fù)推敲,最終得出結(jié)論。這種"慢思考"的能力對(duì)于解決復(fù)雜的數(shù)學(xué)題、物理問(wèn)題或工程挑戰(zhàn)至關(guān)重要。

最近,隨著OpenAI的o1系列和DeepSeek-R1等語(yǔ)言模型的成功,我們看到了AI在文本推理方面的"慢思考"能力有了顯著提升。這些模型能夠像人類一樣,先在心里"默默思考"一番,然后給出更加準(zhǔn)確的答案。然而,當(dāng)我們把同樣的期望投射到需要同時(shí)處理圖像和文字的多模態(tài)AI上時(shí),問(wèn)題就變得復(fù)雜了。

設(shè)想一下這樣的場(chǎng)景:你給AI展示一道幾何題的圖片,要求它不僅要看懂圖中的線條、角度和標(biāo)注,還要進(jìn)行復(fù)雜的邏輯推理。傳統(tǒng)的視覺(jué)-語(yǔ)言模型雖然能夠識(shí)別圖像內(nèi)容,但在深度推理方面往往力不從心,就像一個(gè)只會(huì)"看"但不會(huì)"想"的學(xué)生。

研究團(tuán)隊(duì)面臨的核心挑戰(zhàn)可以用一個(gè)形象的比喻來(lái)理解:傳統(tǒng)的訓(xùn)練方法就像讓一個(gè)從未見過(guò)復(fù)雜思考過(guò)程的學(xué)生去解高難度題目。這個(gè)學(xué)生(AI模型)雖然接受過(guò)大量的視覺(jué)-文本對(duì)齊訓(xùn)練,能夠準(zhǔn)確描述看到的內(nèi)容,但卻缺乏深度推理的經(jīng)驗(yàn)。如果我們直接用強(qiáng)化學(xué)習(xí)讓它"邊做邊學(xué)",就像讓它閉門造車,很容易陷入原有能力的局限中。相反,如果我們直接從外部"老師"那里搬來(lái)推理過(guò)程,又可能出現(xiàn)"水土不服"的問(wèn)題——外部模型看到的圖像細(xì)節(jié)可能與學(xué)生模型理解的不一致,導(dǎo)致產(chǎn)生視覺(jué)幻覺(jué)。

為了解決這個(gè)難題,研究團(tuán)隊(duì)提出了一個(gè)名為SOPHIA(Semi-Off-Policy RL for vision-language slow-tHInking reAsoning)的創(chuàng)新方法。這個(gè)方法的巧妙之處在于它采用了"半外部指導(dǎo)"的策略,就像為學(xué)生安排了一個(gè)既懂得學(xué)生特點(diǎn)又具備高超推理能力的個(gè)性化導(dǎo)師。

SOPHIA的工作原理可以用一個(gè)精妙的"師生協(xié)作"過(guò)程來(lái)理解。首先,學(xué)生(目標(biāo)視覺(jué)-語(yǔ)言模型)會(huì)仔細(xì)觀察圖像,用自己的方式詳細(xì)描述看到的內(nèi)容,包括空間布局、語(yǔ)義關(guān)系和精細(xì)的視覺(jué)細(xì)節(jié)。這一步確保了后續(xù)的推理建立在學(xué)生真正"看懂"的基礎(chǔ)上,避免了理解偏差。

接下來(lái),一位經(jīng)驗(yàn)豐富的推理導(dǎo)師(開源推理語(yǔ)言模型,如QwQ或DeepSeek-R1)會(huì)基于學(xué)生提供的視覺(jué)描述,展示如何進(jìn)行深度思考和推理。這個(gè)過(guò)程就像導(dǎo)師在說(shuō):"既然你看到了這些內(nèi)容,那么我們應(yīng)該這樣分析,這樣推理,最終得出答案。"導(dǎo)師不是憑空推理,而是完全基于學(xué)生的視覺(jué)理解,這樣就避免了信息不匹配的問(wèn)題。

研究團(tuán)隊(duì)還設(shè)計(jì)了一套精巧的獎(jiǎng)勵(lì)機(jī)制。當(dāng)推理過(guò)程得出正確答案時(shí),不僅推理過(guò)程本身會(huì)獲得獎(jiǎng)勵(lì),連帶著學(xué)生的視覺(jué)理解也會(huì)得到相應(yīng)的反饋。這種"向后傳播"的獎(jiǎng)勵(lì)機(jī)制就像告訴學(xué)生:"你的觀察方式很好,基于你的觀察進(jìn)行的推理也很成功,繼續(xù)保持這種觀察和思考的配合。"

為了確保學(xué)習(xí)質(zhì)量,SOPHIA還采用了"優(yōu)中選優(yōu)"的策略。對(duì)于同一個(gè)問(wèn)題,系統(tǒng)會(huì)生成多個(gè)推理軌跡,然后選擇其中最短且正確的版本進(jìn)行學(xué)習(xí)。這樣做的好處是避免了推理語(yǔ)言模型有時(shí)會(huì)出現(xiàn)的"過(guò)度思考"問(wèn)題,讓學(xué)生學(xué)會(huì)的是高效而準(zhǔn)確的思考方式。

在實(shí)際的策略更新過(guò)程中,SOPHIA使用了離線策略優(yōu)化的技術(shù)框架。簡(jiǎn)單來(lái)說(shuō),就是學(xué)生不需要在學(xué)習(xí)過(guò)程中不斷"試錯(cuò)",而是從預(yù)先收集的高質(zhì)量推理樣本中學(xué)習(xí)。研究團(tuán)隊(duì)通過(guò)數(shù)學(xué)推導(dǎo)證明了,在滿足一定條件下,這種方法可以有效近似標(biāo)準(zhǔn)的重要性采樣,同時(shí)大大提高了訓(xùn)練效率。

研究團(tuán)隊(duì)在InternVL2.5和InternVL3.0兩個(gè)模型系列上進(jìn)行了廣泛的實(shí)驗(yàn)驗(yàn)證,涵蓋了8B和38B兩種規(guī)模。實(shí)驗(yàn)結(jié)果令人印象深刻:SOPHIA顯著提升了模型在多個(gè)多模態(tài)推理基準(zhǔn)測(cè)試上的表現(xiàn)。特別值得一提的是,經(jīng)過(guò)SOPHIA訓(xùn)練的InternVL3.0-38B在平均性能上提升了8.50%,在極具挑戰(zhàn)性的MathVision和OlympiadBench數(shù)據(jù)集上分別達(dá)到了49.08%和49.95%的準(zhǔn)確率,甚至超越了一些閉源模型如GPT-4.1。

研究團(tuán)隊(duì)還進(jìn)行了詳細(xì)的對(duì)比分析,發(fā)現(xiàn)SOPHIA不僅優(yōu)于傳統(tǒng)的監(jiān)督微調(diào)方法,也超越了直接的在線策略強(qiáng)化學(xué)習(xí)方法。更有趣的是,SOPHIA訓(xùn)練后的模型為進(jìn)一步的在線策略學(xué)習(xí)提供了更好的起點(diǎn),這就像為學(xué)生打下了扎實(shí)的思考基礎(chǔ),讓后續(xù)的學(xué)習(xí)事半功倍。

在幾何推理這個(gè)特別具有挑戰(zhàn)性的領(lǐng)域,SOPHIA展現(xiàn)出了尤其突出的優(yōu)勢(shì)。幾何問(wèn)題需要模型不僅要準(zhǔn)確理解圖形中的空間關(guān)系,還要進(jìn)行復(fù)雜的邏輯推理。在DynaMath、MathVision和OlympiadBench的幾何子任務(wù)上,SOPHIA都取得了顯著的性能提升,證明了其在增強(qiáng)視覺(jué)理解與推理能力結(jié)合方面的有效性。

研究團(tuán)隊(duì)還進(jìn)行了大量的消融實(shí)驗(yàn)來(lái)驗(yàn)證設(shè)計(jì)選擇的合理性。他們發(fā)現(xiàn),在訓(xùn)練過(guò)程中凍結(jié)視覺(jué)編碼器能夠獲得更好的性能,這可能是因?yàn)殚L(zhǎng)篇的推理軌跡會(huì)干擾視覺(jué)-語(yǔ)言的對(duì)齊。關(guān)于獎(jiǎng)勵(lì)設(shè)計(jì)的實(shí)驗(yàn)表明,結(jié)合視覺(jué)理解質(zhì)量和推理正確性的綜合獎(jiǎng)勵(lì)機(jī)制比單純的結(jié)果獎(jiǎng)勵(lì)更加有效。選擇最短正確軌跡的策略也得到了驗(yàn)證,避免了模型學(xué)習(xí)冗余或重復(fù)的推理模式。

在數(shù)據(jù)規(guī)模的分析中,研究團(tuán)隊(duì)發(fā)現(xiàn)隨著訓(xùn)練數(shù)據(jù)量的增加,模型性能會(huì)相應(yīng)提升,但在某些基準(zhǔn)測(cè)試上會(huì)出現(xiàn)收益遞減的現(xiàn)象。這為實(shí)際應(yīng)用中的資源配置提供了重要參考。

值得注意的是,研究團(tuán)隊(duì)誠(chéng)實(shí)地指出了SOPHIA當(dāng)前的一些局限性。首先,大型視覺(jué)-語(yǔ)言模型在處理長(zhǎng)距離視覺(jué)依賴關(guān)系方面仍然存在困難,特別是在多步驟或復(fù)雜推理任務(wù)中。其次,當(dāng)前的視覺(jué)編碼器在復(fù)雜場(chǎng)景的細(xì)粒度識(shí)別能力方面還有待提升,這限制了視覺(jué)感知的精度。此外,盡管SOPHIA的獎(jiǎng)勵(lì)設(shè)計(jì)能夠有效過(guò)濾有缺陷的軌跡,但諸如幻覺(jué)和推理冗余等問(wèn)題并未完全解決。

從更廣闊的角度來(lái)看,SOPHIA代表了多模態(tài)人工智能發(fā)展的一個(gè)重要方向。它不依賴人工標(biāo)注或閉源模型,而是通過(guò)巧妙的算法設(shè)計(jì)實(shí)現(xiàn)了可擴(kuò)展的自動(dòng)化訓(xùn)練。這種方法為開發(fā)更可靠、更具泛化能力的AI系統(tǒng)提供了新的思路,特別是在教育、科學(xué)研究和輔助技術(shù)等領(lǐng)域具有廣闊的應(yīng)用前景。

說(shuō)到底,SOPHIA解決的是一個(gè)根本性的問(wèn)題:如何讓AI不僅能"看",還能"想"。通過(guò)精心設(shè)計(jì)的半外部策略強(qiáng)化學(xué)習(xí)框架,研究團(tuán)隊(duì)成功地將語(yǔ)言模型的深度推理能力遷移到了視覺(jué)-語(yǔ)言模型中,同時(shí)避免了直接遷移可能帶來(lái)的各種問(wèn)題。這項(xiàng)工作不僅推動(dòng)了多模態(tài)AI的技術(shù)進(jìn)步,也為構(gòu)建更加智能和可靠的AI系統(tǒng)指明了方向。對(duì)于普通人而言,這意味著未來(lái)的AI助手將能夠更好地理解和分析復(fù)雜的視覺(jué)信息,為我們提供更準(zhǔn)確、更深入的幫助。研究團(tuán)隊(duì)希望他們的開源資源和方法能夠促進(jìn)更廣泛的研究合作,特別是在教育、科學(xué)和輔助技術(shù)等領(lǐng)域發(fā)揮更大的作用。

Q&A

Q1:SOPHIA是什么?它能做什么? A:SOPHIA是一種讓視覺(jué)AI學(xué)會(huì)"慢思考"的訓(xùn)練方法。它能讓AI在看圖片時(shí)不僅識(shí)別內(nèi)容,還能像人類一樣進(jìn)行復(fù)雜的邏輯推理,比如解幾何題、分析科學(xué)圖表等。就像給AI配了一個(gè)既懂圖像又會(huì)推理的老師。

Q2:SOPHIA會(huì)不會(huì)讓AI產(chǎn)生視覺(jué)幻覺(jué)? A:SOPHIA特別設(shè)計(jì)了避免幻覺(jué)的機(jī)制。它讓AI先用自己的方式理解圖像,然后基于這種理解進(jìn)行推理,而不是直接復(fù)制外部模型的推理過(guò)程。這樣就避免了"看到的"和"想到的"不匹配的問(wèn)題。

Q3:普通人能用上SOPHIA技術(shù)嗎? A:目前SOPHIA主要用于訓(xùn)練大型AI模型,普通用戶無(wú)法直接使用。但經(jīng)過(guò)SOPHIA訓(xùn)練的AI模型可以更好地處理復(fù)雜的視覺(jué)推理任務(wù),比如幫助學(xué)生解數(shù)學(xué)題、協(xié)助科研人員分析實(shí)驗(yàn)數(shù)據(jù)等,這些應(yīng)用會(huì)逐步普及到日常生活中。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-