在數(shù)學(xué)和計(jì)算機(jī)科學(xué)的交叉領(lǐng)域,有一項(xiàng)挑戰(zhàn)極其艱巨的任務(wù)——自動定理證明。想象一下,你需要教會計(jì)算機(jī)像數(shù)學(xué)家那樣,一步一步地推導(dǎo)出復(fù)雜數(shù)學(xué)定理的證明。這就像教一個(gè)從未見過廚房的人,僅憑食譜和原料清單,精確地烹飪出一道法式大餐。今天,我要為大家介紹一項(xiàng)由騰訊AI實(shí)驗(yàn)室和騰訊大語言模型部門的研究人員共同完成的最新突破——MPS-Prover(多視角搜索證明器)。這項(xiàng)研究由騰訊AI實(shí)驗(yàn)室的梁振文、宋麟峰、米海濤、俞棟和騰訊大語言模型部門的李楊、楊濤、張峰于2025年5月發(fā)布在arXiv預(yù)印本平臺上。
自動定理證明是什么?簡單來說,它是讓計(jì)算機(jī)自動生成數(shù)學(xué)定理的形式化證明。這些證明必須嚴(yán)格遵循邏輯推理規(guī)則,確保每一步都是正確的。想象一下,你在解一道復(fù)雜的數(shù)學(xué)題,每一步都必須嚴(yán)格按照數(shù)學(xué)規(guī)則,而且不能有任何錯(cuò)誤。計(jì)算機(jī)在做自動定理證明時(shí),面臨的挑戰(zhàn)更大——它需要在巨大的搜索空間中找到正確的證明路徑。
近年來,大型語言模型(LLMs)在這一領(lǐng)域展現(xiàn)出令人矚目的能力。但現(xiàn)有的逐步證明系統(tǒng)(一步一步生成證明的方法)仍然面臨幾個(gè)主要問題:它們往往依賴有偏見的搜索引導(dǎo),導(dǎo)致效率低下和次優(yōu)的證明策略。比如,它們可能會陷入重復(fù)使用相同的證明策略而無法取得進(jìn)展、選擇錯(cuò)誤的策略導(dǎo)致無法證明的狀態(tài),或者使用看似強(qiáng)大但在特定情況下無效的策略。
MPS-Prover通過兩大創(chuàng)新解決了這些問題:一個(gè)高效的訓(xùn)練后數(shù)據(jù)精選策略和一個(gè)多視角樹搜索機(jī)制。讓我們一起來看看這個(gè)系統(tǒng)是如何工作的,以及它如何在多個(gè)挑戰(zhàn)性基準(zhǔn)測試中實(shí)現(xiàn)了最先進(jìn)的性能。
一、理解自動定理證明的挑戰(zhàn)
想象你正在教一個(gè)完全不懂?dāng)?shù)學(xué)的人如何解一道復(fù)雜的數(shù)學(xué)題。你不僅需要告訴他解題的每一步,還需要解釋為什么這樣做是正確的。而且,你不能跳過任何一個(gè)步驟,否則他就會迷失。
在自動定理證明領(lǐng)域,研究人員主要采用兩種方法:一種是"整體證明生成",即一次性生成完整的證明腳本;另一種是"逐步形式化證明生成",即計(jì)算機(jī)在每一步都會提出下一個(gè)證明步驟(一個(gè)正式的策略),然后由形式化證明助手驗(yàn)證這一步是否正確,并提供更新后的證明狀態(tài)作為反饋。
逐步方法有幾個(gè)明顯的優(yōu)勢:它允許與證明引擎持續(xù)交互,能夠逐步簡化搜索目標(biāo),具有更高的容錯(cuò)性(錯(cuò)誤只需要回溯到前一步,而不是重新開始整個(gè)證明),而且天然適合使用樹搜索方法探索不同的證明路徑。
然而,逐步方法也面臨一些關(guān)鍵挑戰(zhàn),如圖1所示:
首先,引導(dǎo)節(jié)點(diǎn)選擇的評價(jià)模型可能會產(chǎn)生偏見。這種偏見往往源于訓(xùn)練數(shù)據(jù)中某些"安全"或廣泛適用的策略(如have或general-purpose simplifiers如aesop和simp_all)出現(xiàn)頻率較高。這些策略雖然通常是有效證明的一部分,但如果模型過度依賴它們,可能無法找到最高效的證明路徑,導(dǎo)致類似策略建議重復(fù)出現(xiàn)而使證明停滯不前。
其次,錯(cuò)誤的策略應(yīng)用可能導(dǎo)致"無法證明的狀態(tài)",比如過度簡化條件。
第三,一些強(qiáng)大但具有條件性有效的策略(如aesop、simp_all)可能被無效地應(yīng)用。語言模型可能由于這些策略在訓(xùn)練數(shù)據(jù)中頻繁出現(xiàn)或它們能夠產(chǎn)生看似有希望的局部簡化而提出它們,但當(dāng)狀態(tài)不真正適合這種簡化時(shí),它們可能無法取得進(jìn)展,甚至可能模糊前進(jìn)的路徑。
雖然基于最佳優(yōu)先搜索(BFS)的方法在導(dǎo)航這個(gè)搜索空間方面顯示出希望,但它們通常依賴單一評價(jià)分?jǐn)?shù)來擴(kuò)展節(jié)點(diǎn),這仍然使它們?nèi)菀资艿竭@些失敗模式的影響,特別是學(xué)習(xí)型評價(jià)模型中固有的偏見。
二、MPS-Prover的雙重創(chuàng)新
MPS-Prover的創(chuàng)新之處在于它巧妙地解決了上述挑戰(zhàn),通過兩個(gè)核心創(chuàng)新:
### 1. 訓(xùn)練數(shù)據(jù)精選策略
傳統(tǒng)的專家迭代方法通常會統(tǒng)一添加所有新證明的問題,但MPS-Prover引入了明確的規(guī)則,過濾掉約40%的冗余或低價(jià)值訓(xùn)練示例,使模型專注于學(xué)習(xí)更復(fù)雜的推理模式。
想象你在學(xué)習(xí)做菜。如果你的食譜書中90%的內(nèi)容都在教你如何煮白米飯,那么你在復(fù)雜烹飪技巧上的進(jìn)步會很有限。同樣,如果訓(xùn)練數(shù)據(jù)中充斥著太多簡單的、重復(fù)的證明模式,模型就難以學(xué)習(xí)到更高級的推理策略。
具體來說,他們采取了兩種過濾策略:
一是過濾短證明。研究團(tuán)隊(duì)排除了那些可以在3步或更少步驟內(nèi)證明的定理。這些非常短的證明主要依賴于一組有限的基本策略(如rfl、simp_all或nlinarith),對高級問題解決技術(shù)的洞察很少。通過移除這些過于簡單的例子,他們將初始訓(xùn)練數(shù)據(jù)集減少了約40%。
值得注意的是,過濾這些簡單證明并不會降低模型解決簡單問題的能力。這是因?yàn)橹鸩阶C明器的訓(xùn)練數(shù)據(jù)固有地包含大量"后期階段"的證明步驟。這些步驟是在證明已經(jīng)取得良好進(jìn)展并接近完成時(shí)采取的,通常類似于在更簡單問題中遇到的狀態(tài)。因此,模型仍然通過復(fù)雜證明的中間步驟接觸到足夠的簡單推理環(huán)境。
二是移除無效策略。他們還過濾掉了那些沒有對證明狀態(tài)產(chǎn)生有意義進(jìn)展的訓(xùn)練數(shù)據(jù)。某些旨在簡化的策略有時(shí)不會給證明狀態(tài)帶來任何變化,例如aesop、all_goals和simp_all。評估數(shù)據(jù)集后,他們識別并移除了約5%的此類無效策略。這種有針對性的修剪鼓勵(lì)模型更好地辨別何時(shí)應(yīng)該應(yīng)用這些簡化策略,減少過度依賴并提高證明效率。
### 2. 多視角樹搜索機(jī)制
MPS-Prover的第二個(gè)關(guān)鍵創(chuàng)新是它的多視角樹搜索機(jī)制。想象你在走迷宮時(shí),不僅僅依靠一張地圖,而是同時(shí)使用衛(wèi)星視圖、指南針和當(dāng)?shù)厝说慕ㄗh。這種多重指導(dǎo)讓你更不容易走入死胡同。
傳統(tǒng)的最佳優(yōu)先搜索(BFS)方法僅基于最佳評價(jià)分?jǐn)?shù)選擇節(jié)點(diǎn)。如圖2所示,MPS-Prover不僅考慮評價(jià)模型的建議,還融入了策略性設(shè)計(jì)的啟發(fā)式規(guī)則,以多樣化策略選擇,防止陷入重復(fù)的、無效的或不可證明的狀態(tài),從而提高搜索的穩(wěn)健性。
具體來說,MPS-Prover引入了三種啟發(fā)式選擇規(guī)則:
1. 策略有效性評分:根據(jù)策略在推進(jìn)證明方面的感知效能為不同策略分配不同的分?jǐn)?shù)。一般來說,那些引入新的、實(shí)質(zhì)性假設(shè)或顯著重構(gòu)證明目標(biāo)的策略,如rcases、intro、contrapose、induction或proof by contradiction(在適當(dāng)應(yīng)用時(shí)),會被分配更高的分?jǐn)?shù)。這些通常是能夠解鎖新推理路徑或通過分解問題來簡化問題的策略。相反,輔助策略或那些專注于更局部化的簡化,如norm_num和simp_all,會收到較低的分?jǐn)?shù)。
2. 最小化案例分割:選擇導(dǎo)致狀態(tài)字符串中案例出現(xiàn)次數(shù)最少的策略。雖然像induction、constructor和split這樣的策略在特定情況下是有益的,但過度的案例分割會使證明狀態(tài)變得復(fù)雜。這種啟發(fā)式鼓勵(lì)更簡單、更易管理的證明狀態(tài)。
3. 最短狀態(tài)偏好:優(yōu)先考慮導(dǎo)致更短的Lean 4狀態(tài)字符串的策略。與最小化案例類似,這種啟發(fā)式偏好更簡單、更直接的狀態(tài),有助于更高效地完成證明。
如圖2所示,MPS-Prover的樹搜索每次擴(kuò)展步驟最多維護(hù)四個(gè)節(jié)點(diǎn)。具體來說,從前一次迭代中選擇的節(jié)點(diǎn)集合開始,使用大語言模型為每個(gè)節(jié)點(diǎn)生成Nsamples候選策略。這會產(chǎn)生一個(gè)更大的潛在下一狀態(tài)池(例如,如果選擇了4個(gè)節(jié)點(diǎn),并且Nsamples = 8,我們將有4 × 8 = 32個(gè)候選下一狀態(tài))。從這個(gè)擴(kuò)展的池中:
1. 基于評價(jià)模型的預(yù)測(即與完成的距離最小的那個(gè))選擇一個(gè)節(jié)點(diǎn)。 2. 基于啟發(fā)式規(guī)則選擇額外的三個(gè)節(jié)點(diǎn)。每個(gè)啟發(fā)式規(guī)則評估所有候選下一狀態(tài),并選擇最符合其標(biāo)準(zhǔn)的那個(gè)。如果不同視角選擇了相同的節(jié)點(diǎn),我們只保留它一次,這意味著在這種情況下,可能會有少于四個(gè)唯一節(jié)點(diǎn)被帶入下一個(gè)搜索迭代。
研究團(tuán)隊(duì)承認(rèn),每個(gè)啟發(fā)式規(guī)則,包括評價(jià)模型,都有內(nèi)在的偏見和限制,偏向某些證明策略或狀態(tài)。然而,通過并發(fā)應(yīng)用這些標(biāo)準(zhǔn),他們顯著增強(qiáng)了每個(gè)搜索層的多樣性,確保有希望的節(jié)點(diǎn)被保留,而不是因?yàn)閱我粯?biāo)準(zhǔn)的偏見而被忽視。
三、實(shí)驗(yàn)證明MPS-Prover的卓越性能
為了全面評估MPS-Prover的性能,研究團(tuán)隊(duì)使用了兩個(gè)廣受認(rèn)可的基準(zhǔn)測試:
1. miniF2F:這是ATP領(lǐng)域的標(biāo)準(zhǔn)基準(zhǔn)測試。問題來源于數(shù)學(xué)競賽(AMC、AIME、IMO)以及高中和本科課程。他們使用了來自Huggingface Numina倉庫的最新版本,該版本糾正了原始數(shù)據(jù)集中發(fā)現(xiàn)的八個(gè)錯(cuò)誤。
2. ProofNet:這個(gè)基準(zhǔn)測試包含371個(gè)問題,特點(diǎn)是本科水平的數(shù)學(xué)題。研究團(tuán)隊(duì)報(bào)告了其測試集上的性能。
在supervised fine-tuning(SFT)方面,他們對Qwen2.5-Math-7B-base進(jìn)行了微調(diào)。SFT數(shù)據(jù)集由以下幾部分組成:(1)在專家迭代過程中生成并由他們的過濾技術(shù)精選的逐步證明數(shù)據(jù);(2)通過連接已接受的證明步驟形成的完整證明數(shù)據(jù);(3)為搜索算法的距離評價(jià)模型訓(xùn)練的數(shù)據(jù)。這個(gè)聚合數(shù)據(jù)集在應(yīng)用訓(xùn)練數(shù)據(jù)過濾方法后約為350萬個(gè)問題-答案對。模型訓(xùn)練了3個(gè)周期,使用余弦學(xué)習(xí)率調(diào)度器,最大學(xué)習(xí)率為2 × 10^-5。累積批量大小為256。訓(xùn)練在8個(gè)H20 80G GPU上進(jìn)行,總訓(xùn)練時(shí)間約為3天。
實(shí)驗(yàn)結(jié)果令人印象深刻。在miniF2F測試集上,MPS-Prover成功證明了244個(gè)問題中的185個(gè),準(zhǔn)確率達(dá)到75.82%,顯著超過了之前的最先進(jìn)逐步證明器BFS-prover。在所有7B參數(shù)類模型中(包括整體證明和逐步生成方法),MPS-Prover的性能僅次于DeepSeek-Prover-V2(Distilled, CoT)??紤]到他們的7B模型是從一個(gè)明顯更大的模型蒸餾而來,這一結(jié)果尤為令人印象深刻。相比之下,MPS-Prover是直接通過7B規(guī)模的迭代細(xì)化進(jìn)行訓(xùn)練的。
另一個(gè)值得注意的發(fā)現(xiàn)是MPS-Prover即使在受限的搜索預(yù)算下也表現(xiàn)出色。在評估的最小搜索預(yù)算下,MPS-Prover在miniF2F上達(dá)到了67.62%的通過率,顯著優(yōu)于InternLM(50.7%)和Hunyuan Prover(59.84%)在類似最小條件下的表現(xiàn)。令人印象深刻的是,這種基本性能已經(jīng)超過了幾個(gè)強(qiáng)大基線(如Goedel-prover和InternLM2.5-StepProver)報(bào)告的最大性能,這表明他們的方法表現(xiàn)出優(yōu)秀的穩(wěn)定性和高效性,無需窮盡搜索努力即可實(shí)現(xiàn)有競爭力的結(jié)果。
在更具挑戰(zhàn)性的ProofNet基準(zhǔn)測試上,MPS-Prover取得了32.97%的成功率,超過了所有其他7B基線模型,包括使用思維鏈(CoT)推理的DeepSeek-Prover-V2。
研究團(tuán)隊(duì)還進(jìn)行了在固定預(yù)算下的比較。考慮到MPS每次迭代天然會探索更多分支,為確保公平比較,他們將MPS的pass@k與BFS的pass@4k在類似算力下進(jìn)行了對比。如圖3所示,MPS在分配相似計(jì)算資源時(shí)始終優(yōu)于BFS。在最低預(yù)算下(MPS pass@1 vs. BFS pass@4),MPS達(dá)到67.62%(165/244)的成功率,略高于BFS的66.39%(162/244)。隨著預(yù)算增加,這種優(yōu)勢變得更加明顯,突顯了MPS多樣化探索策略的有效性。
四、深入分析:證明長度與多樣性
為了進(jìn)一步研究不同搜索策略生成的證明特征,研究團(tuán)隊(duì)對MPS和標(biāo)準(zhǔn)BFS(使用基于樹的距離預(yù)測作為評價(jià)標(biāo)準(zhǔn))進(jìn)行了量化比較。他們通過使用相同的大語言模型骨干并只分析MPS和BFS都成功證明的定理集來確保公平比較。
圖4a展示了證明長度的分布,以策略步驟數(shù)量衡量(分組為1-9和10+類別)。很明顯,MPS生成的證明平均比BFS找到的證明顯著更短,如虛線所示的平均值。MPS生成更多步驟較少的證明,而BFS表現(xiàn)出更多較長證明的長尾分布。這表明MPS中的多樣化引導(dǎo)信號有助于避免無效策略序列或局部最優(yōu),導(dǎo)致更簡潔的解決方案。
圖4b說明了證明策略多樣性的分布。多樣性定義為證明中使用的唯一策略數(shù)量除以其總長度(步驟數(shù))。分?jǐn)?shù)越接近1表示相對于長度的策略多樣性越高。結(jié)果清楚地表明,MPS生成的證明具有比BFS證明明顯更高的平均多樣性分?jǐn)?shù)(見均值線)。雖然兩種方法都能生成具有最大多樣性的證明(分?jǐn)?shù)=1.0),但BFS產(chǎn)生了更多多樣性分?jǐn)?shù)非常低的證明。這凸顯了MPS在促進(jìn)探索和利用更廣泛策略范圍方面的有效性,而BFS則僅由評價(jià)模型引導(dǎo),更容易出現(xiàn)重復(fù)使用策略的情況。
研究團(tuán)隊(duì)還分析了證明特征,通過比較MPS-Prover與兩個(gè)領(lǐng)先的整體證明生成器(Kimina-Prover-Preview和DeepSeek-Prover-V2)在170個(gè)共同解決的miniF2F問題上生成的證明長度。表4顯示,MPS-Prover生成的證明明顯更短(平均長度3.44步),相比之下Kimina的平均長度為15.91步,DeepSeek-Prover-V2為52.16步。
研究者將這種差異歸因于操作上的不同:像MPS-Prover這樣的逐步證明器受益于與Lean引擎的頻繁交互。每次策略執(zhí)行都會更新證明狀態(tài),允許證明器通過將新狀態(tài)視為子問題來自適應(yīng)地優(yōu)化其策略。這種迭代過程,結(jié)合優(yōu)先考慮有影響力步驟的策略級搜索,有助于發(fā)現(xiàn)更直接的解決方案。相比之下,整體證明系統(tǒng)通常最初就計(jì)劃整個(gè)證明,動態(tài)適應(yīng)有限,可能導(dǎo)致更長,盡管正確的證明腳本。
五、案例研究:MPS-Prover的優(yōu)勢
為了提供對證明策略和生成解決方案差異的更細(xì)微理解,研究團(tuán)隊(duì)對特定定理進(jìn)行了案例研究,比較了MPS-Prover與Kimina-Prover和DeepSeek-Prover V2生成的證明,并展示了MPS-Prover獨(dú)特解決的問題。
例如,在algebra_absapbon1pabsapbleqsumabsaon1pabsa定理(該定理涉及分式不等式證明)中,MPS-Prover生成了僅8行的極其簡潔證明。關(guān)鍵步驟包括利用rw進(jìn)行基于非負(fù)性的目標(biāo)重寫,使用by_cases進(jìn)行情況分析(例如a = 0),然后高效使用field_simp與相關(guān)假設(shè)如abs_nonneg和mul_nonneg。證明以refine'結(jié)合div_nonneg和強(qiáng)大的終結(jié)器如nlinarith和positivity結(jié)束。每一步似乎都取得了實(shí)質(zhì)性進(jìn)展,通常通過有效利用內(nèi)置的Mathlib引理和策略顯著簡化目標(biāo)或完成部分證明。
相比之下,Kimina-Prover對同一問題的解決方案長達(dá)約40行,主要依賴一系列have語句引入中間引理。雖然邏輯合理,但這種明確陳述和證明多個(gè)中間步驟的方法導(dǎo)致了更冗長的證明。
DeepSeek-Prover V2的證明最長,約60行。它也廣泛使用have引入并證明一系列引理,但這些引理的證明及其后續(xù)應(yīng)用被分解為許多細(xì)粒度步驟。雖然展示了復(fù)雜的理解能力,但整體證明由于每個(gè)組件的詳細(xì)、一步一步的推導(dǎo)而變得相當(dāng)冗長。
在另一個(gè)例子imo_1962_p2中(一個(gè)涉及不等式和平方根的問題),MPS-Prover再次生成了非常短的證明。它有效使用refine'構(gòu)建連接,然后利用強(qiáng)大的重寫和簡化策略如rw、field_simp、norm_num和nlinarith,通常鏈接或與特定假設(shè)一起應(yīng)用。
這些案例研究強(qiáng)調(diào)了MPS-Prover通過其逐步搜索和選擇高進(jìn)展策略的趨勢,傾向于生成更簡潔的證明,通過有效利用強(qiáng)大的內(nèi)置Mathlib功能。而整體證明系統(tǒng),盡管能夠進(jìn)行復(fù)雜的推理和規(guī)劃,但由于其傾向于將問題分解為許多更簡單的、明確陳述的中間步驟,可能會生成更長的證明,這些步驟可能受到初始、可能更冗長的計(jì)劃的限制。
此外,研究團(tuán)隊(duì)還展示了一個(gè)MPS-Prover成功解決而其他兩個(gè)系統(tǒng)都失敗的問題:amc12a_2020_p7。這個(gè)問題涉及基于序列a(k)^3特定值的求和評估。MPS-Prover解決方案的關(guān)鍵在于使用induction'作為初始步驟,然后廣泛使用simp_all簡化目標(biāo),以及interval_cases處理特定范圍內(nèi)的自然數(shù)變量。MPS-Prover成功找到了這種特定組合的策略,特別是關(guān)鍵的induction'和有效使用interval_cases,這突顯了多視角方法在導(dǎo)航復(fù)雜搜索空間時(shí)的優(yōu)勢。
六、未來發(fā)展方向與局限性
盡管MPS-Prover在逐步自動定理證明方面取得了顯著進(jìn)展,但研究團(tuán)隊(duì)也承認(rèn)逐步范式本身存在某些固有限制,特別是與整體證明生成方法相比。
當(dāng)前逐步證明器(包括MPS-Prover)的一個(gè)主要限制在于處理引入復(fù)雜、嵌套證明義務(wù)的策略,如需要自己的子證明的新引理。整體證明系統(tǒng)可以生成包含通過have語句引入并隨后證明輔助引理的完整證明腳本。然而,對于與Lean 4引擎交互的純逐步證明器,如果策略嘗試引入未經(jīng)證明的引理或需要立即滿足子證明的復(fù)雜結(jié)構(gòu),Lean引擎通常會引發(fā)錯(cuò)誤并停止該證明路徑。證明器無法輕易"暫停"主證明,獨(dú)立證明引理,然后恢復(fù),所有這些都在單個(gè)交互步驟中完成。
這意味著MPS-Prover,像其他當(dāng)前的逐步證明器一樣,在自主發(fā)現(xiàn)和利用不在上下文或標(biāo)準(zhǔn)庫中的復(fù)雜中間引理方面不太擅長。雖然多視角搜索可以使用現(xiàn)有策略找到高效路徑,但它不固有支持自包含方式生成和證明新的、非平凡引理,就像整體證明生成器可能計(jì)劃的那樣。這限制了證明器將非常復(fù)雜的問題分解為更可管理的、依賴引理的子問題的能力。
研究團(tuán)隊(duì)將解決這一限制作為未來工作的關(guān)鍵方向。正如他們在結(jié)論中提到的,探索結(jié)合MPS-Prover的逐步搜索能力與整體證明生成方法的全局規(guī)劃和引理處理優(yōu)勢的混合方法,可能會提供一條有前途的道路來克服這一挑戰(zhàn),進(jìn)一步擴(kuò)大自動證明定理的范圍。
七、結(jié)論與影響
MPS-Prover的創(chuàng)新展示了如何通過訓(xùn)練數(shù)據(jù)的精心設(shè)計(jì)和先進(jìn)的搜索策略來提高自動定理證明的性能。事實(shí)上,MPS-Prover不僅在性能上超越了其他逐步證明器,還在生成的證明簡潔性和多樣性方面表現(xiàn)出色。
這項(xiàng)研究對人工智能和形式化數(shù)學(xué)領(lǐng)域有幾個(gè)重要影響:
首先,它展示了大型語言模型在逐步自動定理證明中的強(qiáng)大能力,進(jìn)一步證明了人工智能在數(shù)學(xué)推理中的潛力。其次,MPS-Prover生成的證明更短、更多樣,這表明它不僅能找到正確的證明,還能找到更高效的路徑。這對于實(shí)際應(yīng)用中的形式驗(yàn)證特別有價(jià)值。第三,該研究為未來的混合證明器開發(fā)提供了有價(jià)值的見解,結(jié)合了逐步和整體方法的優(yōu)勢。
隨著自動定理證明系統(tǒng)的不斷發(fā)展,我們可以期待它們在形式化重要數(shù)學(xué)定理、驗(yàn)證軟件和硬件系統(tǒng),甚至可能幫助數(shù)學(xué)家驗(yàn)證新猜想方面發(fā)揮越來越重要的作用。MPS-Prover是這一激動人心旅程中的重要一步,為探索更強(qiáng)大、更可靠的自動定理證明系統(tǒng)提供了堅(jiān)實(shí)的框架和全面的分析。
好文章,需要你的鼓勵(lì)
新加坡國立大學(xué)研究團(tuán)隊(duì)開發(fā)了SPIRAL框架,通過讓AI與自己對弈零和游戲來提升推理能力。實(shí)驗(yàn)顯示,僅訓(xùn)練AI玩簡單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟(jì)大學(xué)團(tuán)隊(duì)開發(fā)的GIGA-ToF技術(shù)通過融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機(jī)噪聲問題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實(shí)現(xiàn)37.9%的精度提升,并在真實(shí)設(shè)備上展現(xiàn)出色泛化能力,為機(jī)器人、AR和自動駕駛等領(lǐng)域提供更可靠的3D視覺解決方案。
伊利諾伊大學(xué)研究團(tuán)隊(duì)通過對比實(shí)驗(yàn)發(fā)現(xiàn),經(jīng)過強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺語言模型雖然表現(xiàn)出"頓悟時(shí)刻"現(xiàn)象,但這些自我糾錯(cuò)行為并不能實(shí)際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗(yàn)證差距",即生成答案的能力強(qiáng)于驗(yàn)證答案質(zhì)量的能力,且模型在自我驗(yàn)證時(shí)無法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過動態(tài)稀疏性實(shí)現(xiàn)大語言模型訓(xùn)練加速1.6倍,計(jì)算成本降低2.2倍。該方法使用SVD稀疏性估計(jì)器智能選擇重要計(jì)算部分,在保持模型性能的同時(shí)顯著提升訓(xùn)練效率,已在多個(gè)任務(wù)上驗(yàn)證有效性。