av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號

  • 科技行者

  • 算力行者

見證連接與計算的「力量」

首頁 MM-PRM:通過可擴展的步驟級監(jiān)督提升多模態(tài)數(shù)學推理能力

MM-PRM:通過可擴展的步驟級監(jiān)督提升多模態(tài)數(shù)學推理能力

2025-05-22 13:57
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-05-22 13:57 ? 科技行者

在人工智能快速發(fā)展的今天,多模態(tài)大語言模型(MLLMs)在視覺-語言理解方面取得了令人矚目的進展,但在處理復雜的多步驟推理任務時,它們?nèi)匀幻媾R著巨大挑戰(zhàn)。這些模型往往會產(chǎn)生邏輯不一致或部分正確的解決方案,就像一個學生解數(shù)學題時,雖然有時能得到正確答案,但中間過程卻充滿錯誤。為什么會出現(xiàn)這種情況呢?上海人工智能實驗室、上海創(chuàng)新研究院和上海交通大學的研究團隊在2025年5月發(fā)布的論文《MM-PRM: Enhancing Multimodal Mathematical Reasoning with Scalable Step-Level Supervision》中指出,這主要是因為缺乏對中間推理步驟的細粒度監(jiān)督。

想象一下,如果你在教一個孩子解決數(shù)學問題,你通常不會只關(guān)注最終答案是否正確,而是會檢查每一個解題步驟。這正是研究團隊提出的MM-PRM(多模態(tài)過程獎勵模型)所做的事情。這個模型就像一位耐心的數(shù)學老師,能夠評估解題過程中每一步的質(zhì)量,而不僅僅是對最終答案打分。

研究團隊首先構(gòu)建了一個名為MM-Policy的強大多模態(tài)模型,通過在各種數(shù)學推理數(shù)據(jù)上進行訓練。然后,他們精心策劃了一個包含10,000個多模態(tài)數(shù)學問題的數(shù)據(jù)集MM-K12,這些問題都有可驗證的答案,作為種子數(shù)據(jù)。接下來,利用一種基于蒙特卡洛樹搜索(MCTS)的流程,他們自動生成了超過70萬個步驟級別的標注,而無需人工標注。這就像是創(chuàng)建了一個自動駕駛的批改系統(tǒng),能夠識別并標記解題過程中的每一個步驟是否正確。

最終訓練出的MM-PRM被用來在Best-of-N推理設(shè)置中對候選推理路徑進行評分,并在多個基準測試中取得了顯著的提升。例如,在MM-K12測試集上,準確率從33.92%提高到了42.80%;在MathVista上,從62.93%提高到67.60%;在OlympiadBench上,從15.41%提高到24.00%。這些提升證明了過程監(jiān)督是增強多模態(tài)推理系統(tǒng)邏輯穩(wěn)健性的強大工具。

研究團隊還發(fā)現(xiàn),軟標簽(與硬標簽相比)、較小的學習率以及路徑多樣性是優(yōu)化PRM性能的關(guān)鍵因素。就像烹飪一樣,不僅需要優(yōu)質(zhì)的原料(數(shù)據(jù)),還需要適當?shù)幕鸷颍▽W習率)和多樣的味道(路徑多樣性)才能做出美味佳肴。

讓我們深入了解這項研究的細節(jié),看看研究團隊是如何一步步改進多模態(tài)數(shù)學推理能力的。

一、研究背景與挑戰(zhàn)

在我們?nèi)粘I钪?,許多問題需要多步驟的邏輯推理才能解決。想象一下,當你計劃一次旅行,需要考慮預算、時間、交通和住宿等多個因素。大語言模型(LLMs)如OpenAI的GPT-4、Qwen、InternLM等在處理這類需要一般推理和數(shù)學問題解決的任務上取得了顯著進步。同時,多模態(tài)大語言模型(MLLMs)如InternVL、Qwen-VL等也在視覺-語言理解方面展現(xiàn)出令人矚目的能力。

然而,當面對需要復雜多步驟推理的數(shù)學問題時,特別是包含圖像的問題,這些模型仍然表現(xiàn)不佳。它們常常會出現(xiàn)邏輯鏈斷裂、中間步驟不準確,或者有時雖然得到了正確的最終答案,但中間步驟卻是錯誤的——這種現(xiàn)象引入了高假陽性率,并且削弱了模型解釋性。

為了解決這個問題,獎勵建模(reward modeling)成為了一個有前途的方法。獎勵模型在基于人類反饋的強化學習(RLHF)中扮演著核心角色,也可以在推理時使用測試時縮放(TTS)策略如Best-of-N(BoN)來選擇多個候選響應中的最佳答案。

獎勵模型主要分為兩類:結(jié)果獎勵模型(ORMs)和過程獎勵模型(PRMs)。結(jié)果獎勵模型只對最終答案提供評分,忽略了中間推理步驟的質(zhì)量,這限制了它們引導模型走向穩(wěn)健推理路徑的能力。相比之下,過程獎勵模型提供了更細粒度的方法,通過評估每個推理步驟,實現(xiàn)更準確和可解釋的反饋。

近期,一些研究探索了純文本數(shù)學推理中的過程獎勵模型。PRM800k手動構(gòu)建了一個大規(guī)模數(shù)據(jù)集,包含步驟級別的正確性標簽,但這種方法難以擴展。MathShepherd通過評估給定步驟的延續(xù)是否能夠?qū)蛘_答案來標記推理步驟,但其效率相對較低。OmegaPRM引入了基于蒙特卡洛樹搜索(MCTS)的框架,能夠高效自動生成過程監(jiān)督數(shù)據(jù)。然而,所有這些工作都集中在純文本數(shù)學推理上。在多模態(tài)數(shù)學推理領(lǐng)域,如何設(shè)計一個高效的框架來生成過程監(jiān)督數(shù)據(jù)并穩(wěn)定地訓練過程獎勵模型仍然是一個具有挑戰(zhàn)性的問題。

二、MM-PRM:多模態(tài)過程獎勵模型的創(chuàng)新方法

為了解決上述挑戰(zhàn),研究團隊提出了MM-PRM,這是一個強大的過程獎勵模型,能夠有效處理域內(nèi)和域外問題。具體來說,他們設(shè)計了一個由三個相互連接的階段組成的結(jié)構(gòu)化流程:

首先,在**策略模型構(gòu)建**階段,他們訓練了一個多模態(tài)策略模型,按照思維鏈(CoT)范式生成高質(zhì)量的推理軌跡。

接著,在**過程監(jiān)督數(shù)據(jù)生成**階段,他們使用基于MCTS的引擎OmegaPRM來高效識別推理缺陷并大規(guī)模生成步驟級別的獎勵標簽。

最后,在**過程獎勵模型訓練**階段,他們訓練了一個PRM來評估每個推理步驟并提供密集反饋。

這個端到端的設(shè)計確保了過程監(jiān)督可以被生成、建模和應用在一個完全閉環(huán)中。這顯著提高了推理質(zhì)量和穩(wěn)健性,特別是在需要長邏輯鏈的任務中。

### 策略模型構(gòu)建

策略模型是整個框架的基礎(chǔ),負責生成給定多模態(tài)數(shù)學問題的候選推理軌跡。這些軌跡后續(xù)會被評估和標記,形成用于訓練PRM的步驟級別監(jiān)督。因此,確保策略模型產(chǎn)生邏輯連貫和結(jié)構(gòu)完整的輸出對整個系統(tǒng)的有效性至關(guān)重要。

為了訓練策略模型,研究團隊整理了一個大規(guī)模、高質(zhì)量的數(shù)學問題數(shù)據(jù)集,涵蓋了廣泛的主題和難度級別。該數(shù)據(jù)集整合了來自十幾個公共數(shù)學數(shù)據(jù)集的樣本,包括R-CoT、MAVIS、MathV360K、NuminaMath和DART-Math等,問題范圍從小學算術(shù)到高級幾何和統(tǒng)計學。

收集后,所有數(shù)據(jù)都經(jīng)過嚴格的清洗和格式標準化。視覺和文本內(nèi)容被明確配對,推理軌跡被重新格式化,遵循結(jié)構(gòu)化的CoT模式,每個邏輯步驟都使用結(jié)構(gòu)化標簽如``清晰標記,最終結(jié)論用``標注。為了提高質(zhì)量和清晰度,他們利用了一個強大的指令調(diào)整語言模型(Qwen2.5-72B-Instruct)來解析原始解決方案并將它們重構(gòu)為連貫、模塊化的步驟。這種結(jié)構(gòu)化表示不僅增強了模型的可學習性,還為下一階段生成步驟級別獎勵標簽奠定了基礎(chǔ)。

有了這個經(jīng)過清洗和注釋的語料庫(超過500萬個例子),研究團隊使用監(jiān)督學習對一個強大的開源多模態(tài)模型InternVL2.5-8B進行了微調(diào)。這確保了模型學會產(chǎn)生符合CoT推理模式的邏輯合理且結(jié)構(gòu)良好的輸出。

### 過程監(jiān)督數(shù)據(jù)生成

為了實現(xiàn)步驟級別推理的細粒度監(jiān)督,研究團隊采用了基于OmegaPRM框架的自動化過程注釋流程。OmegaPRM引入了一種基于MCTS的機制,用于高效識別和標記中間推理步驟并附帶置信度估計。雖然最初是為文本數(shù)學推理開發(fā)的,但他們對這個框架進行了調(diào)整和擴展,以處理多模態(tài)輸入。

他們的過程從收集一個精心策劃的10,000個多模態(tài)數(shù)學問題數(shù)據(jù)集MM-K12開始,包括5,000個填空題和5,000個多選題。這些問題涵蓋了從小學到高中的各種課程主題,作為過程監(jiān)督生成的種子實例。MM-K12中的所有例子都經(jīng)過仔細篩選,確保每個問題包含有意義的視覺輸入和一個唯一的、可驗證的答案,使它們非常適合結(jié)構(gòu)化推理和獎勵建模。此外,MM-K12還提供了一個獨立的500個問題的測試集,按照相同標準構(gòu)建,用于后續(xù)評估域內(nèi)性能。對于每個問題,策略模型按照CoT范式生成多個候選解決方案,這些推理路徑構(gòu)成了后續(xù)獎勵注釋的原始材料。

為了評估每個中間步驟的正確性,他們遵循OmegaPRM的分層展開和搜索協(xié)議。具體來說,他們從部分前綴生成多個完成(展開),并基于其下游完成是否達到正確的最終答案來估計給定步驟的正確性。通過應用二分搜索,算法能夠高效定位推理開始偏離的最早步驟。這些監(jiān)督信號然后被聚合到一個結(jié)構(gòu)化的狀態(tài)-動作樹中,該樹記錄了每個推理狀態(tài)的蒙特卡洛(MC)估計和其他統(tǒng)計數(shù)據(jù)。在他們的實現(xiàn)中,他們在整個樹構(gòu)建和搜索過程中保持完整的多模態(tài)上下文——包括文本和視覺組件。

重要的是,他們的調(diào)整保留了OmegaPRM的分治搜索效率,同時實現(xiàn)了對以復雜視覺刺激為條件的推理步驟的獎勵監(jiān)督。通過這個流程,他們僅從10k個種子問題生成了超過70萬個步驟級別的注釋,無需手動標注。由此產(chǎn)生的數(shù)據(jù)集提供了與真實多模態(tài)推理一致的密集、高質(zhì)量的過程監(jiān)督。

### 過程獎勵模型訓練

有了大規(guī)模的步驟級別監(jiān)督,他們繼續(xù)訓練一個PRM,能夠評估給定多模態(tài)上下文的推理步驟質(zhì)量。PRM被設(shè)計為一個細粒度的評論者,為每個中間步驟分配一個獎勵分數(shù),條件是其前面的推理上下文,這使得測試時縮放和潛在的RL應用成為可能。

在PRM訓練中的一個核心設(shè)計決策在于如何從MC估計中制定監(jiān)督信號。與采用硬二元標簽(例如,$\hat{y} = 1[MC(s) > \tau]$)不同,他們使用軟標簽,直接將MC分數(shù)作為連續(xù)監(jiān)督目標。

這一選擇的動機是觀察到MC分數(shù)反映的不僅僅是中間步驟的正確性。它還編碼了諸如問題難度、步驟關(guān)鍵性以及策略模型展開中的分布不確定性等因素。例如,高度模糊或視覺復雜問題中的推理步驟可能會產(chǎn)生較低的MC分數(shù),即使邏輯在根本上是合理的。在這種情況下,硬閾值可能會錯誤表示步驟的質(zhì)量,給訓練引入噪音。相比之下,軟標簽保留了概率性細微差別,使學習動態(tài)更加平滑。

形式上,對于路徑$x = [x_1, x_2, \ldots, x_T]$中的每個推理步驟$x_t$,他們分配了一個監(jiān)督目標$\hat{y}_t = MC(x_{<t}) \in [0, 1]$,其中$MC(x_{<t})$表示從這個部分路徑可以達到正確最終答案的估計概率。

為了建模預測任務,他們將PRM視為一個在每個推理步驟上操作的分類器。給定一個多模態(tài)輸入$q$和一個生成的推理軌跡$[x_1, x_2, \ldots, x_T]$,他們在每個步驟之后插入一個特殊標記,表示為$\sigma$,產(chǎn)生形式為$[q, x_1, \sigma, x_2, \sigma, \ldots, x_T, \sigma]$的輸入序列。在他們的實現(xiàn)中,$\sigma$被實例化為標記``。在每次出現(xiàn)$\sigma$時,模型的任務是產(chǎn)生一個標量置信度分數(shù),表示前面的步驟在邏輯上是否正確。

通過訓練目標是最小化預測分數(shù)$p^{(i)}$和軟標簽$\hat{y}^{(i)}$之間的交叉熵損失,跨越所有評分點:

$L_{PRM} = -\sum_{i=1}^{T} \left[ \hat{y}^{(i)} \cdot \log p^{(i)} + (1 - \hat{y}^{(i)}) \cdot \log(1 - p^{(i)}) \right]$

這個公式引導模型對推理步驟進行細粒度評估,將更高的置信度分配給那些有更強正確性證據(jù)的步驟。

三、實驗設(shè)置與評估方法

為了驗證MM-PRM的有效性,研究團隊進行了一系列實驗,這些實驗經(jīng)過精心配置,以確保公平、可擴展和可重現(xiàn)的結(jié)果。

### 實驗設(shè)置

**策略模型構(gòu)建**:他們的策略模型(MM-Policy)從多模態(tài)主干InternVL 2.5-8B初始化,并使用約400萬個經(jīng)過清洗、結(jié)構(gòu)化的數(shù)學問題進行微調(diào)。模型訓練了1個epoch,批大小為128,學習率為4e-5,只更新語言模塊,同時保持視覺編碼器凍結(jié)。

**過程監(jiān)督數(shù)據(jù)生成**:他們調(diào)整了OmegaPRM流程用于多模態(tài)推理,并將其應用于MM-K12(10k樣本)。使用基于MCTS的結(jié)構(gòu)化展開,他們生成了約747,000個步驟級別的注釋。采樣參數(shù)調(diào)整為平衡多樣性和效率:溫度=1.0,topk=50,topp=0.9,探索系數(shù)cpuct=0.125,最多200個搜索步驟或每個問題1,000個總展開。

**過程獎勵模型訓練**:他們從微調(diào)后的策略模型初始化PRM,并訓練了1個epoch,批大小為512,學習率為4e-6。

### 評估策略與基準

為了評估MM-PRM在提高推理質(zhì)量方面的有效性,他們采用了BoN評估協(xié)議。對于每個測試問題,策略模型獨立生成N=16個候選推理路徑。然后PRM對每個路徑逐步評分,產(chǎn)生一系列浮點值,表示每個中間步驟的預測質(zhì)量,具有最高分數(shù)的路徑被選為最終答案。

由于PRM為每個候選路徑輸出一個步驟級置信度分數(shù)向量,他們的評估中的一個關(guān)鍵組成部分是用于將該向量壓縮為標量的聚合函數(shù)。他們探索了一組多樣化的聚合函數(shù),包括Min、Average、Max、SumLogPr(對數(shù)概率之和)、SumLogOdds(對數(shù)幾率之和)和MeanOdds(平均幾率),每個函數(shù)捕獲路徑質(zhì)量的不同方面。此外,他們使用了一個隨機基線進行比較,其中最終答案是從同一組16個候選項中隨機抽樣的。

他們使用答案準確率來評估性能,定義為最終選擇的答案與真值匹配的比例。這個指標直接反映了MM-PRM在引導選擇正確推理路徑方面的效用。

為了全面評估模型的性能和泛化能力,他們在一系列多模態(tài)數(shù)學基準上進行了實驗,包括MM-K12(測試集)、OlympiadBench(OE_MM_maths_en_COMP)、MathVista(testmini)、MathVerse(testmini)和MathVision(test)。MM-K12測試集作為域內(nèi)評估。對于域外評估,他們使用了OlympiadBench的OE_MM_maths_en_COMP分割,其中包含來自國際數(shù)學競賽的開放式多模態(tài)問題,在格式上與MM-K12密切相關(guān)但明顯更難。為了進一步測試泛化性,他們包括了MathVista,它涵蓋了廣泛的視覺數(shù)學任務;MathVerse,它強調(diào)結(jié)構(gòu)化視覺內(nèi)容的理解;以及MathVision,它針對抽象視覺推理。這些基準提供了一個多樣化和嚴格的設(shè)置,來測量他們的過程獎勵建模框架的性能和泛化性。

四、實驗結(jié)果與分析

研究團隊通過將MM-PRM應用于一系列策略模型并測試其在多個多模態(tài)數(shù)學基準上的影響,評估了MM-PRM的有效性。

### 量化結(jié)果

在所有模型上,MM-PRM都帶來了顯著的性能提升。例如,當應用于MM-K12測試集上的MM-Policy時,準確率從33.92%提高到了42.80%,類似的提升也在InternVL2.5-8B上觀察到,性能從27.01%提高到37.80%。這些結(jié)果證實了MM-PRM在識別高質(zhì)量推理路徑方面非常有效。

除了域內(nèi)設(shè)置外,還觀察到MM-PRM在更大的模型和更具挑戰(zhàn)性的數(shù)據(jù)集上也表現(xiàn)出良好的泛化能力。例如,將MM-PRM應用于InternVL2.5-78B,在OlympiadBench上的準確率從30.98%提高到了34.67%,在MathVerse上從50.18%提高到了54.47%。盡管僅使用來自MM-K12種子數(shù)據(jù)集的過程數(shù)據(jù)進行訓練,MM-PRM在各種基準和模型上始終提高了推理準確率。這表明可擴展的步驟級別獎勵建模能夠以模型無關(guān)和數(shù)據(jù)高效的方式提高數(shù)學推理能力。不同聚合函數(shù)的詳細評估結(jié)果可以在論文的附錄部分中找到。

### 質(zhì)性分析

為了進一步說明MM-PRM的行為,研究團隊展示了一個涉及平行線和角平分線的幾何問題的質(zhì)性例子。在這個例子中,策略模型生成了一個四步推理路徑,最終導致了錯誤的最終答案。

PRM對前兩個步驟給予了高分(0.83和0.68),表明它們在邏輯上是合理的。相反,第三步得分很低(0.02),表明模型已經(jīng)識別出了這一點的重大推理錯誤。這個有缺陷的步驟直接導致了第四步中的錯誤結(jié)論。

這個例子表明,MM-PRM能夠檢測到推理鏈中的局部邏輯錯誤,這種細粒度的判斷在選擇高質(zhì)量的推理軌跡和過濾掉那些具有微妙但關(guān)鍵缺陷的軌跡中至關(guān)重要。

### 進一步研究與討論

研究團隊還深入探討了幾個關(guān)鍵因素,這些因素對于理解和優(yōu)化PRM的性能至關(guān)重要。

**候選路徑對PRM性能的影響**:由于PRM在BoN框架中純粹作為選擇器,其性能在本質(zhì)上受到策略模型產(chǎn)生的候選推理路徑的多樣性和質(zhì)量的限制。換句話說,PRM無法改進BoN中的有缺陷生成——它只能在可用選項中進行選擇。因此,每個問題生成的推理路徑數(shù)量直接影響其識別正確和連貫解決方案的潛力。

當研究團隊改變生成的推理路徑數(shù)量N(2, 4, 8, 16),并衡量相應的在MeanOdds聚合策略下的答案準確率時,發(fā)現(xiàn)隨著N的增加,MM-PRM的性能在兩個測試集上都一致提高。在MM-K12測試集上,準確率從N=2時的38.6%提高到N=16時的42.8%,收益在N=8之后趨于平緩。相比之下,在OlympiadBench上,隨著N的增長,準確率更穩(wěn)定地從18.4%增加到24.0%。這表明對于更難、更多樣化的任務,擁有更大的推理路徑池對PRM識別有效解決方案至關(guān)重要。

**學習率的影響**:正如PRM800k研究中所指出的,微調(diào)PRM將語言模型的目標從生成轉(zhuǎn)變?yōu)榕袆e,這使得學習率成為一個關(guān)鍵因素。通常更傾向于使用較小的學習率以保持穩(wěn)定性并保留預訓練知識。

當研究團隊在MM-K12測試集上使用MeanOdds聚合器評估不同學習率下訓練的MM-PRM時,發(fā)現(xiàn)性能在4e-6時達到峰值——約為監(jiān)督微調(diào)中通常使用的學習率的十分之一——然后在更高值時急劇下降。這證實了中等、保守的學習率會導致更好的訓練,而過大的值則會降低準確率。

**軟標簽與硬標簽的比較**:在訓練PRM時,研究團隊采用了軟標簽——即實值MC分數(shù)——作為步驟級別獎勵建模的監(jiān)督。與硬標簽不同,軟標簽保留了不確定性,并允許模型學習推理質(zhì)量的更細微表示。

為了評估這一設(shè)計選擇,研究團隊將軟標簽與硬標簽閾值進行了比較,在硬標簽中,MC>0的步驟被視為正確,其他步驟被視為不正確,遵循OmegaPRM中的協(xié)議。結(jié)果表明,軟標簽訓練在所有聚合策略中始終優(yōu)于硬標簽訓練。例如,在Average聚合器下,軟標簽在MM-K12測試集上產(chǎn)生了43%的準確率,而硬標簽為34.4%。SumLogOdds(43.2%對33.8%)和MeanOdds(42.8%對37.0%)也觀察到類似的改進。

五、總結(jié)與未來展望

這項研究提出了MM-PRM,這是一個基于可擴展框架的過程獎勵模型,用于多模態(tài)數(shù)學過程獎勵建模,能夠?qū)崿F(xiàn)無需人工注釋的步驟級別監(jiān)督。通過利用多模態(tài)策略模型和基于MCTS的數(shù)據(jù)生成流程,研究團隊從MM-K12數(shù)據(jù)集中僅10k個數(shù)學問題構(gòu)建了超過70萬個過程級別的標簽。他們訓練的PRM在BoN推理中顯著提高了各種基準上的推理準確率,并表現(xiàn)出對新數(shù)據(jù)集和模型的強大泛化能力。廣泛的分析進一步證實了軟標簽、保守學習率和足夠路徑多樣性對優(yōu)化PRM性能的重要性。MM-PRM突顯了過程監(jiān)督對增強多模態(tài)數(shù)學問題解決的價值。

這項研究的局限性主要在于兩個方面:一是由于計算限制,研究團隊僅在具有8B參數(shù)的InternVL系列上進行訓練,沒有探索更大的模型或來自其他模型家族的架構(gòu)。這限制了他們充分評估PRM訓練行為如何隨模型大小縮放或跨不同主干模型泛化的能力。二是用于過程監(jiān)督生成的種子數(shù)據(jù)在多樣性上有限,因為它僅由K-12級別的數(shù)學問題組成。因此,PRM可能不太接觸到超出標準教育設(shè)置范圍的高級數(shù)學領(lǐng)域或視覺格式。

盡管有這些局限性,這項研究為多模態(tài)數(shù)學推理中的過程監(jiān)督提供了寶貴的見解和一個可行的框架。作為未來工作的方向,研究更廣泛的模型覆蓋和更多樣化的種子數(shù)據(jù)構(gòu)建是有前途的。此外,將MM-PRM集成到端到端的訓練流程中,例如通過強化學習優(yōu)化策略模型本身,可能會帶來更顯著的性能提升。

總的來說,MM-PRM展示了過程級別監(jiān)督在提高多模態(tài)數(shù)學推理能力方面的強大潛力,尤其是在沒有昂貴人工注釋的情況下。這個框架不僅提高了答案準確率,還增強了推理路徑的邏輯一致性和可解釋性,這對于教育和科學發(fā)現(xiàn)等應用來說是至關(guān)重要的特性。

分享至
0贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-