av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

<var id="anqth"><thead id="anqth"></thead></var>

<table id="anqth"><strong id="anqth"></strong></table>

<form id="anqth"></form>

首頁(yè)
對(duì)話創(chuàng)新
對(duì)話科技行者
機(jī)器人新紀(jì)元
AI論文解讀
聯(lián)系我們

微信掃一掃，關(guān)注公眾號(hào)

科技行者
算力行者

見(jiàn)證連接與計(jì)算的「力量」

MPS-Prover：多視角搜索和數(shù)據(jù)精選讓自動(dòng)定理證明更上一層樓

自動(dòng)定理證明多視角搜索訓(xùn)練數(shù)據(jù)精選

MPS-Prover：多視角搜索和數(shù)據(jù)精選讓自動(dòng)定理證明更上一層樓

作者：科技行者

2025-05-21 13:35

分享至：

騰訊AI實(shí)驗(yàn)室和騰訊LLM部門(mén)研究人員開(kāi)發(fā)的MPS-Prover是一種創(chuàng)新的逐步自動(dòng)定理證明系統(tǒng)，通過(guò)兩大關(guān)鍵創(chuàng)新解決了現(xiàn)有方法的局限：一個(gè)高效的訓(xùn)練后數(shù)據(jù)精選策略，剔除約40%冗余訓(xùn)練數(shù)據(jù)；以及一個(gè)多視角樹(shù)搜索機(jī)制，整合了學(xué)習(xí)型評(píng)價(jià)模型與策略性設(shè)計(jì)的啟發(fā)式規(guī)則，提高策略選擇多樣性并增強(qiáng)搜索穩(wěn)健性。實(shí)驗(yàn)表明，MPS-Prover在miniF2F和ProofNet等基準(zhǔn)測(cè)試上實(shí)現(xiàn)了最先進(jìn)性能，生成的證明比現(xiàn)有方法更簡(jiǎn)潔多樣，為開(kāi)發(fā)更強(qiáng)大的混合證明系統(tǒng)提供了寶貴思路。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-05-21 13:35 ? 科技行者

在數(shù)學(xué)和計(jì)算機(jī)科學(xué)的交叉領(lǐng)域，有一項(xiàng)挑戰(zhàn)極其艱巨的任務(wù)——自動(dòng)定理證明。想象一下，你需要教會(huì)計(jì)算機(jī)像數(shù)學(xué)家那樣，一步一步地推導(dǎo)出復(fù)雜數(shù)學(xué)定理的證明。這就像教一個(gè)從未見(jiàn)過(guò)廚房的人，僅憑食譜和原料清單，精確地烹飪出一道法式大餐。今天，我要為大家介紹一項(xiàng)由騰訊AI實(shí)驗(yàn)室和騰訊大語(yǔ)言模型部門(mén)的研究人員共同完成的最新突破——MPS-Prover（多視角搜索證明器）。這項(xiàng)研究由騰訊AI實(shí)驗(yàn)室的梁振文、宋麟峰、米海濤、俞棟和騰訊大語(yǔ)言模型部門(mén)的李楊、楊濤、張峰于2025年5月發(fā)布在arXiv預(yù)印本平臺(tái)上。

自動(dòng)定理證明是什么？簡(jiǎn)單來(lái)說(shuō)，它是讓計(jì)算機(jī)自動(dòng)生成數(shù)學(xué)定理的形式化證明。這些證明必須嚴(yán)格遵循邏輯推理規(guī)則，確保每一步都是正確的。想象一下，你在解一道復(fù)雜的數(shù)學(xué)題，每一步都必須嚴(yán)格按照數(shù)學(xué)規(guī)則，而且不能有任何錯(cuò)誤。計(jì)算機(jī)在做自動(dòng)定理證明時(shí)，面臨的挑戰(zhàn)更大——它需要在巨大的搜索空間中找到正確的證明路徑。

近年來(lái)，大型語(yǔ)言模型（LLMs）在這一領(lǐng)域展現(xiàn)出令人矚目的能力。但現(xiàn)有的逐步證明系統(tǒng)（一步一步生成證明的方法）仍然面臨幾個(gè)主要問(wèn)題：它們往往依賴有偏見(jiàn)的搜索引導(dǎo)，導(dǎo)致效率低下和次優(yōu)的證明策略。比如，它們可能會(huì)陷入重復(fù)使用相同的證明策略而無(wú)法取得進(jìn)展、選擇錯(cuò)誤的策略導(dǎo)致無(wú)法證明的狀態(tài)，或者使用看似強(qiáng)大但在特定情況下無(wú)效的策略。

MPS-Prover通過(guò)兩大創(chuàng)新解決了這些問(wèn)題：一個(gè)高效的訓(xùn)練后數(shù)據(jù)精選策略和一個(gè)多視角樹(shù)搜索機(jī)制。讓我們一起來(lái)看看這個(gè)系統(tǒng)是如何工作的，以及它如何在多個(gè)挑戰(zhàn)性基準(zhǔn)測(cè)試中實(shí)現(xiàn)了最先進(jìn)的性能。

一、理解自動(dòng)定理證明的挑戰(zhàn)

想象你正在教一個(gè)完全不懂?dāng)?shù)學(xué)的人如何解一道復(fù)雜的數(shù)學(xué)題。你不僅需要告訴他解題的每一步，還需要解釋為什么這樣做是正確的。而且，你不能跳過(guò)任何一個(gè)步驟，否則他就會(huì)迷失。

在自動(dòng)定理證明領(lǐng)域，研究人員主要采用兩種方法：一種是"整體證明生成"，即一次性生成完整的證明腳本；另一種是"逐步形式化證明生成"，即計(jì)算機(jī)在每一步都會(huì)提出下一個(gè)證明步驟（一個(gè)正式的策略），然后由形式化證明助手驗(yàn)證這一步是否正確，并提供更新后的證明狀態(tài)作為反饋。

逐步方法有幾個(gè)明顯的優(yōu)勢(shì)：它允許與證明引擎持續(xù)交互，能夠逐步簡(jiǎn)化搜索目標(biāo)，具有更高的容錯(cuò)性（錯(cuò)誤只需要回溯到前一步，而不是重新開(kāi)始整個(gè)證明），而且天然適合使用樹(shù)搜索方法探索不同的證明路徑。

然而，逐步方法也面臨一些關(guān)鍵挑戰(zhàn)，如圖1所示：

首先，引導(dǎo)節(jié)點(diǎn)選擇的評(píng)價(jià)模型可能會(huì)產(chǎn)生偏見(jiàn)。這種偏見(jiàn)往往源于訓(xùn)練數(shù)據(jù)中某些"安全"或廣泛適用的策略（如have或general-purpose simplifiers如aesop和simp_all）出現(xiàn)頻率較高。這些策略雖然通常是有效證明的一部分，但如果模型過(guò)度依賴它們，可能無(wú)法找到最高效的證明路徑，導(dǎo)致類似策略建議重復(fù)出現(xiàn)而使證明停滯不前。

其次，錯(cuò)誤的策略應(yīng)用可能導(dǎo)致"無(wú)法證明的狀態(tài)"，比如過(guò)度簡(jiǎn)化條件。

第三，一些強(qiáng)大但具有條件性有效的策略（如aesop、simp_all）可能被無(wú)效地應(yīng)用。語(yǔ)言模型可能由于這些策略在訓(xùn)練數(shù)據(jù)中頻繁出現(xiàn)或它們能夠產(chǎn)生看似有希望的局部簡(jiǎn)化而提出它們，但當(dāng)狀態(tài)不真正適合這種簡(jiǎn)化時(shí)，它們可能無(wú)法取得進(jìn)展，甚至可能模糊前進(jìn)的路徑。

雖然基于最佳優(yōu)先搜索（BFS）的方法在導(dǎo)航這個(gè)搜索空間方面顯示出希望，但它們通常依賴單一評(píng)價(jià)分?jǐn)?shù)來(lái)擴(kuò)展節(jié)點(diǎn)，這仍然使它們?nèi)菀资艿竭@些失敗模式的影響，特別是學(xué)習(xí)型評(píng)價(jià)模型中固有的偏見(jiàn)。

二、MPS-Prover的雙重創(chuàng)新

MPS-Prover的創(chuàng)新之處在于它巧妙地解決了上述挑戰(zhàn)，通過(guò)兩個(gè)核心創(chuàng)新：

### 1. 訓(xùn)練數(shù)據(jù)精選策略

傳統(tǒng)的專家迭代方法通常會(huì)統(tǒng)一添加所有新證明的問(wèn)題，但MPS-Prover引入了明確的規(guī)則，過(guò)濾掉約40%的冗余或低價(jià)值訓(xùn)練示例，使模型專注于學(xué)習(xí)更復(fù)雜的推理模式。

想象你在學(xué)習(xí)做菜。如果你的食譜書(shū)中90%的內(nèi)容都在教你如何煮白米飯，那么你在復(fù)雜烹飪技巧上的進(jìn)步會(huì)很有限。同樣，如果訓(xùn)練數(shù)據(jù)中充斥著太多簡(jiǎn)單的、重復(fù)的證明模式，模型就難以學(xué)習(xí)到更高級(jí)的推理策略。

具體來(lái)說(shuō)，他們采取了兩種過(guò)濾策略：

一是過(guò)濾短證明。研究團(tuán)隊(duì)排除了那些可以在3步或更少步驟內(nèi)證明的定理。這些非常短的證明主要依賴于一組有限的基本策略（如rfl、simp_all或nlinarith），對(duì)高級(jí)問(wèn)題解決技術(shù)的洞察很少。通過(guò)移除這些過(guò)于簡(jiǎn)單的例子，他們將初始訓(xùn)練數(shù)據(jù)集減少了約40%。

值得注意的是，過(guò)濾這些簡(jiǎn)單證明并不會(huì)降低模型解決簡(jiǎn)單問(wèn)題的能力。這是因?yàn)橹鸩阶C明器的訓(xùn)練數(shù)據(jù)固有地包含大量"后期階段"的證明步驟。這些步驟是在證明已經(jīng)取得良好進(jìn)展并接近完成時(shí)采取的，通常類似于在更簡(jiǎn)單問(wèn)題中遇到的狀態(tài)。因此，模型仍然通過(guò)復(fù)雜證明的中間步驟接觸到足夠的簡(jiǎn)單推理環(huán)境。

二是移除無(wú)效策略。他們還過(guò)濾掉了那些沒(méi)有對(duì)證明狀態(tài)產(chǎn)生有意義進(jìn)展的訓(xùn)練數(shù)據(jù)。某些旨在簡(jiǎn)化的策略有時(shí)不會(huì)給證明狀態(tài)帶來(lái)任何變化，例如aesop、all_goals和simp_all。評(píng)估數(shù)據(jù)集后，他們識(shí)別并移除了約5%的此類無(wú)效策略。這種有針對(duì)性的修剪鼓勵(lì)模型更好地辨別何時(shí)應(yīng)該應(yīng)用這些簡(jiǎn)化策略，減少過(guò)度依賴并提高證明效率。

### 2. 多視角樹(shù)搜索機(jī)制

MPS-Prover的第二個(gè)關(guān)鍵創(chuàng)新是它的多視角樹(shù)搜索機(jī)制。想象你在走迷宮時(shí)，不僅僅依靠一張地圖，而是同時(shí)使用衛(wèi)星視圖、指南針和當(dāng)?shù)厝说慕ㄗh。這種多重指導(dǎo)讓你更不容易走入死胡同。

傳統(tǒng)的最佳優(yōu)先搜索（BFS）方法僅基于最佳評(píng)價(jià)分?jǐn)?shù)選擇節(jié)點(diǎn)。如圖2所示，MPS-Prover不僅考慮評(píng)價(jià)模型的建議，還融入了策略性設(shè)計(jì)的啟發(fā)式規(guī)則，以多樣化策略選擇，防止陷入重復(fù)的、無(wú)效的或不可證明的狀態(tài)，從而提高搜索的穩(wěn)健性。

具體來(lái)說(shuō)，MPS-Prover引入了三種啟發(fā)式選擇規(guī)則：

1. 策略有效性評(píng)分：根據(jù)策略在推進(jìn)證明方面的感知效能為不同策略分配不同的分?jǐn)?shù)。一般來(lái)說(shuō)，那些引入新的、實(shí)質(zhì)性假設(shè)或顯著重構(gòu)證明目標(biāo)的策略，如rcases、intro、contrapose、induction或proof by contradiction（在適當(dāng)應(yīng)用時(shí)），會(huì)被分配更高的分?jǐn)?shù)。這些通常是能夠解鎖新推理路徑或通過(guò)分解問(wèn)題來(lái)簡(jiǎn)化問(wèn)題的策略。相反，輔助策略或那些專注于更局部化的簡(jiǎn)化，如norm_num和simp_all，會(huì)收到較低的分?jǐn)?shù)。

2. 最小化案例分割：選擇導(dǎo)致?tīng)顟B(tài)字符串中案例出現(xiàn)次數(shù)最少的策略。雖然像induction、constructor和split這樣的策略在特定情況下是有益的，但過(guò)度的案例分割會(huì)使證明狀態(tài)變得復(fù)雜。這種啟發(fā)式鼓勵(lì)更簡(jiǎn)單、更易管理的證明狀態(tài)。

3. 最短狀態(tài)偏好：優(yōu)先考慮導(dǎo)致更短的Lean 4狀態(tài)字符串的策略。與最小化案例類似，這種啟發(fā)式偏好更簡(jiǎn)單、更直接的狀態(tài)，有助于更高效地完成證明。

如圖2所示，MPS-Prover的樹(shù)搜索每次擴(kuò)展步驟最多維護(hù)四個(gè)節(jié)點(diǎn)。具體來(lái)說(shuō)，從前一次迭代中選擇的節(jié)點(diǎn)集合開(kāi)始，使用大語(yǔ)言模型為每個(gè)節(jié)點(diǎn)生成Nsamples候選策略。這會(huì)產(chǎn)生一個(gè)更大的潛在下一狀態(tài)池（例如，如果選擇了4個(gè)節(jié)點(diǎn)，并且Nsamples = 8，我們將有4 × 8 = 32個(gè)候選下一狀態(tài)）。從這個(gè)擴(kuò)展的池中：

1. 基于評(píng)價(jià)模型的預(yù)測(cè)（即與完成的距離最小的那個(gè)）選擇一個(gè)節(jié)點(diǎn)。 2. 基于啟發(fā)式規(guī)則選擇額外的三個(gè)節(jié)點(diǎn)。每個(gè)啟發(fā)式規(guī)則評(píng)估所有候選下一狀態(tài)，并選擇最符合其標(biāo)準(zhǔn)的那個(gè)。如果不同視角選擇了相同的節(jié)點(diǎn)，我們只保留它一次，這意味著在這種情況下，可能會(huì)有少于四個(gè)唯一節(jié)點(diǎn)被帶入下一個(gè)搜索迭代。

研究團(tuán)隊(duì)承認(rèn)，每個(gè)啟發(fā)式規(guī)則，包括評(píng)價(jià)模型，都有內(nèi)在的偏見(jiàn)和限制，偏向某些證明策略或狀態(tài)。然而，通過(guò)并發(fā)應(yīng)用這些標(biāo)準(zhǔn)，他們顯著增強(qiáng)了每個(gè)搜索層的多樣性，確保有希望的節(jié)點(diǎn)被保留，而不是因?yàn)閱我粯?biāo)準(zhǔn)的偏見(jiàn)而被忽視。

三、實(shí)驗(yàn)證明MPS-Prover的卓越性能

為了全面評(píng)估MPS-Prover的性能，研究團(tuán)隊(duì)使用了兩個(gè)廣受認(rèn)可的基準(zhǔn)測(cè)試：

1. miniF2F：這是ATP領(lǐng)域的標(biāo)準(zhǔn)基準(zhǔn)測(cè)試。問(wèn)題來(lái)源于數(shù)學(xué)競(jìng)賽（AMC、AIME、IMO）以及高中和本科課程。他們使用了來(lái)自Huggingface Numina倉(cāng)庫(kù)的最新版本，該版本糾正了原始數(shù)據(jù)集中發(fā)現(xiàn)的八個(gè)錯(cuò)誤。

2. ProofNet：這個(gè)基準(zhǔn)測(cè)試包含371個(gè)問(wèn)題，特點(diǎn)是本科水平的數(shù)學(xué)題。研究團(tuán)隊(duì)報(bào)告了其測(cè)試集上的性能。

在supervised fine-tuning（SFT）方面，他們對(duì)Qwen2.5-Math-7B-base進(jìn)行了微調(diào)。SFT數(shù)據(jù)集由以下幾部分組成：(1)在專家迭代過(guò)程中生成并由他們的過(guò)濾技術(shù)精選的逐步證明數(shù)據(jù)；(2)通過(guò)連接已接受的證明步驟形成的完整證明數(shù)據(jù)；(3)為搜索算法的距離評(píng)價(jià)模型訓(xùn)練的數(shù)據(jù)。這個(gè)聚合數(shù)據(jù)集在應(yīng)用訓(xùn)練數(shù)據(jù)過(guò)濾方法后約為350萬(wàn)個(gè)問(wèn)題-答案對(duì)。模型訓(xùn)練了3個(gè)周期，使用余弦學(xué)習(xí)率調(diào)度器，最大學(xué)習(xí)率為2 × 10^-5。累積批量大小為256。訓(xùn)練在8個(gè)H20 80G GPU上進(jìn)行，總訓(xùn)練時(shí)間約為3天。

實(shí)驗(yàn)結(jié)果令人印象深刻。在miniF2F測(cè)試集上，MPS-Prover成功證明了244個(gè)問(wèn)題中的185個(gè)，準(zhǔn)確率達(dá)到75.82%，顯著超過(guò)了之前的最先進(jìn)逐步證明器BFS-prover。在所有7B參數(shù)類模型中（包括整體證明和逐步生成方法），MPS-Prover的性能僅次于DeepSeek-Prover-V2（Distilled, CoT）?？紤]到他們的7B模型是從一個(gè)明顯更大的模型蒸餾而來(lái)，這一結(jié)果尤為令人印象深刻。相比之下，MPS-Prover是直接通過(guò)7B規(guī)模的迭代細(xì)化進(jìn)行訓(xùn)練的。

另一個(gè)值得注意的發(fā)現(xiàn)是MPS-Prover即使在受限的搜索預(yù)算下也表現(xiàn)出色。在評(píng)估的最小搜索預(yù)算下，MPS-Prover在miniF2F上達(dá)到了67.62%的通過(guò)率，顯著優(yōu)于InternLM（50.7%）和Hunyuan Prover（59.84%）在類似最小條件下的表現(xiàn)。令人印象深刻的是，這種基本性能已經(jīng)超過(guò)了幾個(gè)強(qiáng)大基線（如Goedel-prover和InternLM2.5-StepProver）報(bào)告的最大性能，這表明他們的方法表現(xiàn)出優(yōu)秀的穩(wěn)定性和高效性，無(wú)需窮盡搜索努力即可實(shí)現(xiàn)有競(jìng)爭(zhēng)力的結(jié)果。

在更具挑戰(zhàn)性的ProofNet基準(zhǔn)測(cè)試上，MPS-Prover取得了32.97%的成功率，超過(guò)了所有其他7B基線模型，包括使用思維鏈（CoT）推理的DeepSeek-Prover-V2。

研究團(tuán)隊(duì)還進(jìn)行了在固定預(yù)算下的比較?？紤]到MPS每次迭代天然會(huì)探索更多分支，為確保公平比較，他們將MPS的pass@k與BFS的pass@4k在類似算力下進(jìn)行了對(duì)比。如圖3所示，MPS在分配相似計(jì)算資源時(shí)始終優(yōu)于BFS。在最低預(yù)算下（MPS pass@1 vs. BFS pass@4），MPS達(dá)到67.62%（165/244）的成功率，略高于BFS的66.39%（162/244）。隨著預(yù)算增加，這種優(yōu)勢(shì)變得更加明顯，突顯了MPS多樣化探索策略的有效性。

四、深入分析：證明長(zhǎng)度與多樣性

為了進(jìn)一步研究不同搜索策略生成的證明特征，研究團(tuán)隊(duì)對(duì)MPS和標(biāo)準(zhǔn)BFS（使用基于樹(shù)的距離預(yù)測(cè)作為評(píng)價(jià)標(biāo)準(zhǔn)）進(jìn)行了量化比較。他們通過(guò)使用相同的大語(yǔ)言模型骨干并只分析MPS和BFS都成功證明的定理集來(lái)確保公平比較。

圖4a展示了證明長(zhǎng)度的分布，以策略步驟數(shù)量衡量（分組為1-9和10+類別）。很明顯，MPS生成的證明平均比BFS找到的證明顯著更短，如虛線所示的平均值。MPS生成更多步驟較少的證明，而B(niǎo)FS表現(xiàn)出更多較長(zhǎng)證明的長(zhǎng)尾分布。這表明MPS中的多樣化引導(dǎo)信號(hào)有助于避免無(wú)效策略序列或局部最優(yōu)，導(dǎo)致更簡(jiǎn)潔的解決方案。

圖4b說(shuō)明了證明策略多樣性的分布。多樣性定義為證明中使用的唯一策略數(shù)量除以其總長(zhǎng)度（步驟數(shù)）。分?jǐn)?shù)越接近1表示相對(duì)于長(zhǎng)度的策略多樣性越高。結(jié)果清楚地表明，MPS生成的證明具有比BFS證明明顯更高的平均多樣性分?jǐn)?shù)（見(jiàn)均值線）。雖然兩種方法都能生成具有最大多樣性的證明（分?jǐn)?shù)=1.0），但BFS產(chǎn)生了更多多樣性分?jǐn)?shù)非常低的證明。這凸顯了MPS在促進(jìn)探索和利用更廣泛策略范圍方面的有效性，而B(niǎo)FS則僅由評(píng)價(jià)模型引導(dǎo)，更容易出現(xiàn)重復(fù)使用策略的情況。

研究團(tuán)隊(duì)還分析了證明特征，通過(guò)比較MPS-Prover與兩個(gè)領(lǐng)先的整體證明生成器（Kimina-Prover-Preview和DeepSeek-Prover-V2）在170個(gè)共同解決的miniF2F問(wèn)題上生成的證明長(zhǎng)度。表4顯示，MPS-Prover生成的證明明顯更短（平均長(zhǎng)度3.44步），相比之下Kimina的平均長(zhǎng)度為15.91步，DeepSeek-Prover-V2為52.16步。

研究者將這種差異歸因于操作上的不同：像MPS-Prover這樣的逐步證明器受益于與Lean引擎的頻繁交互。每次策略執(zhí)行都會(huì)更新證明狀態(tài)，允許證明器通過(guò)將新?tīng)顟B(tài)視為子問(wèn)題來(lái)自適應(yīng)地優(yōu)化其策略。這種迭代過(guò)程，結(jié)合優(yōu)先考慮有影響力步驟的策略級(jí)搜索，有助于發(fā)現(xiàn)更直接的解決方案。相比之下，整體證明系統(tǒng)通常最初就計(jì)劃整個(gè)證明，動(dòng)態(tài)適應(yīng)有限，可能導(dǎo)致更長(zhǎng)，盡管正確的證明腳本。

五、案例研究：MPS-Prover的優(yōu)勢(shì)

為了提供對(duì)證明策略和生成解決方案差異的更細(xì)微理解，研究團(tuán)隊(duì)對(duì)特定定理進(jìn)行了案例研究，比較了MPS-Prover與Kimina-Prover和DeepSeek-Prover V2生成的證明，并展示了MPS-Prover獨(dú)特解決的問(wèn)題。

例如，在algebra_absapbon1pabsapbleqsumabsaon1pabsa定理（該定理涉及分式不等式證明）中，MPS-Prover生成了僅8行的極其簡(jiǎn)潔證明。關(guān)鍵步驟包括利用rw進(jìn)行基于非負(fù)性的目標(biāo)重寫(xiě)，使用by_cases進(jìn)行情況分析（例如a = 0），然后高效使用field_simp與相關(guān)假設(shè)如abs_nonneg和mul_nonneg。證明以refine'結(jié)合div_nonneg和強(qiáng)大的終結(jié)器如nlinarith和positivity結(jié)束。每一步似乎都取得了實(shí)質(zhì)性進(jìn)展，通常通過(guò)有效利用內(nèi)置的Mathlib引理和策略顯著簡(jiǎn)化目標(biāo)或完成部分證明。

相比之下，Kimina-Prover對(duì)同一問(wèn)題的解決方案長(zhǎng)達(dá)約40行，主要依賴一系列have語(yǔ)句引入中間引理。雖然邏輯合理，但這種明確陳述和證明多個(gè)中間步驟的方法導(dǎo)致了更冗長(zhǎng)的證明。

DeepSeek-Prover V2的證明最長(zhǎng)，約60行。它也廣泛使用have引入并證明一系列引理，但這些引理的證明及其后續(xù)應(yīng)用被分解為許多細(xì)粒度步驟。雖然展示了復(fù)雜的理解能力，但整體證明由于每個(gè)組件的詳細(xì)、一步一步的推導(dǎo)而變得相當(dāng)冗長(zhǎng)。

在另一個(gè)例子imo_1962_p2中（一個(gè)涉及不等式和平方根的問(wèn)題），MPS-Prover再次生成了非常短的證明。它有效使用refine'構(gòu)建連接，然后利用強(qiáng)大的重寫(xiě)和簡(jiǎn)化策略如rw、field_simp、norm_num和nlinarith，通常鏈接或與特定假設(shè)一起應(yīng)用。

這些案例研究強(qiáng)調(diào)了MPS-Prover通過(guò)其逐步搜索和選擇高進(jìn)展策略的趨勢(shì)，傾向于生成更簡(jiǎn)潔的證明，通過(guò)有效利用強(qiáng)大的內(nèi)置Mathlib功能。而整體證明系統(tǒng)，盡管能夠進(jìn)行復(fù)雜的推理和規(guī)劃，但由于其傾向于將問(wèn)題分解為許多更簡(jiǎn)單的、明確陳述的中間步驟，可能會(huì)生成更長(zhǎng)的證明，這些步驟可能受到初始、可能更冗長(zhǎng)的計(jì)劃的限制。

此外，研究團(tuán)隊(duì)還展示了一個(gè)MPS-Prover成功解決而其他兩個(gè)系統(tǒng)都失敗的問(wèn)題：amc12a_2020_p7。這個(gè)問(wèn)題涉及基于序列a(k)^3特定值的求和評(píng)估。MPS-Prover解決方案的關(guān)鍵在于使用induction'作為初始步驟，然后廣泛使用simp_all簡(jiǎn)化目標(biāo)，以及interval_cases處理特定范圍內(nèi)的自然數(shù)變量。MPS-Prover成功找到了這種特定組合的策略，特別是關(guān)鍵的induction'和有效使用interval_cases，這突顯了多視角方法在導(dǎo)航復(fù)雜搜索空間時(shí)的優(yōu)勢(shì)。

六、未來(lái)發(fā)展方向與局限性

盡管MPS-Prover在逐步自動(dòng)定理證明方面取得了顯著進(jìn)展，但研究團(tuán)隊(duì)也承認(rèn)逐步范式本身存在某些固有限制，特別是與整體證明生成方法相比。

當(dāng)前逐步證明器（包括MPS-Prover）的一個(gè)主要限制在于處理引入復(fù)雜、嵌套證明義務(wù)的策略，如需要自己的子證明的新引理。整體證明系統(tǒng)可以生成包含通過(guò)have語(yǔ)句引入并隨后證明輔助引理的完整證明腳本。然而，對(duì)于與Lean 4引擎交互的純逐步證明器，如果策略嘗試引入未經(jīng)證明的引理或需要立即滿足子證明的復(fù)雜結(jié)構(gòu)，Lean引擎通常會(huì)引發(fā)錯(cuò)誤并停止該證明路徑。證明器無(wú)法輕易"暫停"主證明，獨(dú)立證明引理，然后恢復(fù)，所有這些都在單個(gè)交互步驟中完成。

這意味著MPS-Prover，像其他當(dāng)前的逐步證明器一樣，在自主發(fā)現(xiàn)和利用不在上下文或標(biāo)準(zhǔn)庫(kù)中的復(fù)雜中間引理方面不太擅長(zhǎng)。雖然多視角搜索可以使用現(xiàn)有策略找到高效路徑，但它不固有支持自包含方式生成和證明新的、非平凡引理，就像整體證明生成器可能計(jì)劃的那樣。這限制了證明器將非常復(fù)雜的問(wèn)題分解為更可管理的、依賴引理的子問(wèn)題的能力。

研究團(tuán)隊(duì)將解決這一限制作為未來(lái)工作的關(guān)鍵方向。正如他們?cè)诮Y(jié)論中提到的，探索結(jié)合MPS-Prover的逐步搜索能力與整體證明生成方法的全局規(guī)劃和引理處理優(yōu)勢(shì)的混合方法，可能會(huì)提供一條有前途的道路來(lái)克服這一挑戰(zhàn)，進(jìn)一步擴(kuò)大自動(dòng)證明定理的范圍。

七、結(jié)論與影響

MPS-Prover的創(chuàng)新展示了如何通過(guò)訓(xùn)練數(shù)據(jù)的精心設(shè)計(jì)和先進(jìn)的搜索策略來(lái)提高自動(dòng)定理證明的性能。事實(shí)上，MPS-Prover不僅在性能上超越了其他逐步證明器，還在生成的證明簡(jiǎn)潔性和多樣性方面表現(xiàn)出色。

這項(xiàng)研究對(duì)人工智能和形式化數(shù)學(xué)領(lǐng)域有幾個(gè)重要影響：

首先，它展示了大型語(yǔ)言模型在逐步自動(dòng)定理證明中的強(qiáng)大能力，進(jìn)一步證明了人工智能在數(shù)學(xué)推理中的潛力。其次，MPS-Prover生成的證明更短、更多樣，這表明它不僅能找到正確的證明，還能找到更高效的路徑。這對(duì)于實(shí)際應(yīng)用中的形式驗(yàn)證特別有價(jià)值。第三，該研究為未來(lái)的混合證明器開(kāi)發(fā)提供了有價(jià)值的見(jiàn)解，結(jié)合了逐步和整體方法的優(yōu)勢(shì)。

隨著自動(dòng)定理證明系統(tǒng)的不斷發(fā)展，我們可以期待它們?cè)谛问交匾獢?shù)學(xué)定理、驗(yàn)證軟件和硬件系統(tǒng)，甚至可能幫助數(shù)學(xué)家驗(yàn)證新猜想方面發(fā)揮越來(lái)越重要的作用。MPS-Prover是這一激動(dòng)人心旅程中的重要一步，為探索更強(qiáng)大、更可靠的自動(dòng)定理證明系統(tǒng)提供了堅(jiān)實(shí)的框架和全面的分析。

自動(dòng)定理證明多視角搜索訓(xùn)練數(shù)據(jù)精選

分享至

0贊

好文章，需要你的鼓勵(lì)

推薦文章

音頻生成
大語(yǔ)言模型
多模態(tài)AI

2025-09-10 09:47

如何讓AI像電影配樂(lè)師一樣創(chuàng)作完整的長(zhǎng)篇音頻故事——騰訊ARC實(shí)驗(yàn)室團(tuán)隊(duì)AudioStory突破性進(jìn)展

騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng)，首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長(zhǎng)篇音頻故事。該系統(tǒng)結(jié)合大語(yǔ)言模型的敘事推理能力與音頻生成技術(shù)，通過(guò)交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練，能夠?qū)?fù)雜指令分解為連續(xù)音頻場(chǎng)景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異，為AI音頻創(chuàng)作開(kāi)辟新方向。
視頻生成
深度學(xué)習(xí)
多模態(tài)學(xué)習(xí)

2025-09-09 13:57

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動(dòng)起來(lái)不再是奢望

Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù)，通過(guò)讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息，顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問(wèn)題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量，在多項(xiàng)測(cè)試中超越包括Sora在內(nèi)的商業(yè)模型，為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
多模態(tài)AI
人類價(jià)值觀對(duì)齊
數(shù)據(jù)集構(gòu)建

2025-09-09 13:56

上海AI實(shí)驗(yàn)室重磅發(fā)布：讓AI看圖"說(shuō)人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類價(jià)值觀對(duì)齊難題

上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究，首次系統(tǒng)性解決多模態(tài)大語(yǔ)言模型人性化對(duì)話問(wèn)題。該研究創(chuàng)建了包含20萬(wàn)高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評(píng)測(cè)基準(zhǔn)，通過(guò)創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法，讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平，為AI價(jià)值觀對(duì)齊提供了可行技術(shù)路徑。
人工智能
圖神經(jīng)網(wǎng)絡(luò)
天氣預(yù)報(bào)

2025-09-09 10:56

谷歌研究團(tuán)隊(duì)發(fā)布超級(jí)預(yù)測(cè)模型：讓AI像天氣預(yù)報(bào)員一樣預(yù)測(cè)全球大氣變化

谷歌DeepMind團(tuán)隊(duì)開(kāi)發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測(cè)模型，能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào)，準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù)，通過(guò)學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律，在極端天氣預(yù)測(cè)方面表現(xiàn)卓越，能耗僅為傳統(tǒng)方法的千分之一，為氣象學(xué)領(lǐng)域帶來(lái)了效率和精度的雙重突破。

如何讓AI像電影配樂(lè)師一樣創(chuàng)作完整的長(zhǎng)篇音頻故事——騰訊ARC實(shí)驗(yàn)室團(tuán)隊(duì)AudioStory突破性進(jìn)展

如何讓AI像電影配樂(lè)師一樣創(chuàng)作完整的長(zhǎng)篇音頻故事——騰訊ARC實(shí)驗(yàn)室團(tuán)隊(duì)AudioStory突破性進(jìn)展

2025-09-10 09:47

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動(dòng)起來(lái)不再是奢望

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動(dòng)起來(lái)不再是奢望

2025-09-09 13:57

上海AI實(shí)驗(yàn)室重磅發(fā)布：讓AI看圖"說(shuō)人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類價(jià)值觀對(duì)齊難題

上海AI實(shí)驗(yàn)室重磅發(fā)布：讓AI看圖"說(shuō)人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類價(jià)值觀對(duì)齊難題

2025-09-09 13:56

谷歌研究團(tuán)隊(duì)發(fā)布超級(jí)預(yù)測(cè)模型：讓AI像天氣預(yù)報(bào)員一樣預(yù)測(cè)全球大氣變化

谷歌研究團(tuán)隊(duì)發(fā)布超級(jí)預(yù)測(cè)模型：讓AI像天氣預(yù)報(bào)員一樣預(yù)測(cè)全球大氣變化

2025-09-09 10:56

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

友情鏈接

至頂網(wǎng)
管理現(xiàn)代化
和訊IT
TechWeb
第三媒體
速途網(wǎng)
51CTO傳媒
投資界
科技訊
智者新時(shí)代

京ICP證15039648號(hào) 京ICP備15039648號(hào)-9 京公網(wǎng)安備 11010802021500號(hào)

北京第二十六維信息技術(shù)有限公司（至頂網(wǎng)）版權(quán)所有。 | 聯(lián)絡(luò)我們

舉報(bào)電話：010-62641205　涉未成年人舉報(bào)專線：010-62641208 舉報(bào)郵箱: jubao@zhiding.cn 　網(wǎng)上有害信息舉報(bào)專區(qū)：https://www.12377.cn