av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

<output id="0nb2u"><big id="0nb2u"><span id="0nb2u"></span></big></output>

<nobr id="0nb2u"></nobr>

首頁
對(duì)話創(chuàng)新
對(duì)話科技行者
機(jī)器人新紀(jì)元
AI論文解讀
聯(lián)系我們

微信掃一掃，關(guān)注公眾號(hào)

科技行者
算力行者

見證連接與計(jì)算的「力量」

北航大學(xué)團(tuán)隊(duì)突破：AI代碼生成不再"自欺欺人"，用屬性測(cè)試讓程序真正靠譜

屬性測(cè)試代碼生成迭代優(yōu)化

北航大學(xué)團(tuán)隊(duì)突破：AI代碼生成不再"自欺欺人"，用屬性測(cè)試讓程序真正靠譜

作者：科技行者

2025-06-30 11:06

分享至：

北京航空航天大學(xué)研究團(tuán)隊(duì)提出了Property-Generated Solver框架，通過屬性測(cè)試解決AI代碼生成中的"自欺欺人"問題。該方法使用雙智能體協(xié)作，一個(gè)負(fù)責(zé)代碼生成，一個(gè)負(fù)責(zé)屬性驗(yàn)證，避免了傳統(tǒng)測(cè)試依賴具體輸輸出對(duì)的局限性。實(shí)驗(yàn)顯示相比現(xiàn)有方法在代碼正確率上提升23%-37%，為AI輔助編程提供了更可靠的解決方案。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-06-30 11:06 ? 科技行者

這項(xiàng)由北京航空航天大學(xué)軟件學(xué)院何樂涵、陳澤仁、高翔、張哲、盛祿等研究人員，以及上海人工智能實(shí)驗(yàn)室邵靜共同完成的研究發(fā)表于2025年6月的arXiv預(yù)印本平臺(tái)（論文編號(hào)：arXiv:2506.18315v1）。感興趣的讀者可以通過該編號(hào)在arXiv官網(wǎng)查閱完整論文。

當(dāng)下的人工智能已經(jīng)能夠根據(jù)我們的需求自動(dòng)生成代碼，就像一個(gè)永不疲倦的程序員助手。GitHub Copilot這樣的工具已經(jīng)走進(jìn)了千家萬戶的開發(fā)環(huán)境。然而，這些AI生成的代碼就像一道看起來美味但可能有毒的菜肴——表面上語法正確，運(yùn)行起來卻可能漏洞百出。

傳統(tǒng)的解決方案就像給廚師配備一個(gè)品嘗員：通過測(cè)試用例來檢驗(yàn)代碼是否正確。這種被稱為"測(cè)試驅(qū)動(dòng)開發(fā)"的方法確實(shí)有效，但存在一個(gè)致命缺陷——如果測(cè)試用例本身就有問題呢？這就好比品嘗員的味覺出了問題，明明菜里放錯(cuò)了鹽卻說味道剛好。更糟糕的是，很多時(shí)候我們根本沒有足夠的高質(zhì)量測(cè)試用例，就像讓品嘗員在沒有標(biāo)準(zhǔn)答案的情況下判斷菜品好壞。

北航團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)更聰明的解決方案。與其讓AI去猜測(cè)具體的輸入輸出應(yīng)該是什么樣子，不如讓它理解程序應(yīng)該遵循的基本規(guī)律。這就像不去記憶每道菜的具體味道，而是掌握烹飪的基本原理：炒菜不能糊、湯不能咸得發(fā)苦、甜品不能是酸的。

研究團(tuán)隊(duì)把這種方法稱為"屬性生成求解器"（Property-Generated Solver，簡(jiǎn)稱PGS）。這個(gè)系統(tǒng)就像配備了兩個(gè)專業(yè)人員的廚房：一個(gè)是負(fù)責(zé)做菜的廚師（生成器），另一個(gè)是負(fù)責(zé)制定和檢查烹飪標(biāo)準(zhǔn)的質(zhì)檢員（測(cè)試器）。質(zhì)檢員不需要知道每道菜的具體味道應(yīng)該是什么，只需要確?；镜呐腼?cè)瓌t得到遵守。

一、傳統(tǒng)方法的根本缺陷：自欺欺人的惡性循環(huán)

為了理解這項(xiàng)研究的價(jià)值，我們需要先看看現(xiàn)有方法存在什么問題。設(shè)想你要讓AI為你寫一個(gè)數(shù)學(xué)函數(shù)，比如計(jì)算一個(gè)數(shù)字的質(zhì)因數(shù)分解。傳統(tǒng)的方法是給AI提供一些例子：12應(yīng)該分解為[2,2,3]，15應(yīng)該分解為[3,5]。然后讓AI根據(jù)這些例子學(xué)會(huì)寫代碼。

但問題來了：如果AI對(duì)這個(gè)數(shù)學(xué)概念的理解本身就有偏差怎么辦？比如它誤以為質(zhì)因數(shù)分解只需要找到能整除的質(zhì)數(shù)，而忽略了重復(fù)因子的重要性。在這種情況下，它可能會(huì)給出12的分解結(jié)果為[2,3]，漏掉了一個(gè)2。

更糟糕的是，當(dāng)我們要求這個(gè)有偏見的AI自己生成測(cè)試用例時(shí)，它很可能會(huì)生成同樣錯(cuò)誤的測(cè)試：認(rèn)為12分解為[2,3]是對(duì)的。這樣一來，錯(cuò)誤的代碼通過了錯(cuò)誤的測(cè)試，整個(gè)系統(tǒng)陷入了"自欺欺人"的惡性循環(huán)。

傳統(tǒng)測(cè)試方法還面臨另一個(gè)挑戰(zhàn)：預(yù)測(cè)正確答案往往比生成代碼本身還要困難。考慮一個(gè)復(fù)雜的圖著色問題——給地圖上的每個(gè)區(qū)域涂色，確保相鄰區(qū)域顏色不同。要為每種可能的地圖配置都預(yù)測(cè)出正確的著色方案，這比編寫解決這個(gè)問題的代碼還要復(fù)雜。

第三個(gè)問題是現(xiàn)有測(cè)試往往只關(guān)注代碼覆蓋率——確保代碼的每一行都被執(zhí)行到——而不關(guān)心邏輯的正確性。這就像檢查一道菜時(shí)只確保每種調(diào)料都用到了，而不管最終味道是否正確。

二、屬性測(cè)試：從具體例子到抽象原則

北航團(tuán)隊(duì)的解決方案借鑒了一個(gè)在軟件工程中相對(duì)小眾但威力巨大的概念：屬性測(cè)試（Property-Based Testing）。這種方法的核心思想是，與其關(guān)注具體的輸入輸出對(duì)應(yīng)關(guān)系，不如關(guān)注程序應(yīng)該滿足的高層次屬性或不變量。

繼續(xù)用質(zhì)因數(shù)分解的例子來說明。與其測(cè)試"12分解為[2,2,3]"這樣的具體對(duì)應(yīng)關(guān)系，屬性測(cè)試會(huì)關(guān)注這樣的規(guī)律："分解結(jié)果中所有數(shù)字的乘積必須等于原始數(shù)字"以及"分解結(jié)果必須按照非遞減順序排列"。這些屬性相對(duì)容易定義和驗(yàn)證，而且不需要我們預(yù)先知道每個(gè)輸入的正確答案。

這種方法的優(yōu)勢(shì)顯而易見。對(duì)于圖著色問題，我們不需要為每張地圖都找出正確的著色方案，只需要驗(yàn)證"相鄰區(qū)域的顏色不相同"這個(gè)簡(jiǎn)單屬性。對(duì)于排序算法，我們不需要預(yù)測(cè)每個(gè)數(shù)組排序后的具體結(jié)果，只需要確保"結(jié)果是非遞減序列"且"包含原數(shù)組的所有元素"。

屬性測(cè)試還有一個(gè)重要特點(diǎn)：它能夠自動(dòng)生成大量多樣化的測(cè)試輸入。不像傳統(tǒng)方法需要人工設(shè)計(jì)測(cè)試用例，屬性測(cè)試系統(tǒng)可以根據(jù)問題的約束條件自動(dòng)產(chǎn)生各種邊界情況和特殊場(chǎng)景，大大提高了錯(cuò)誤發(fā)現(xiàn)的概率。

三、雙智能體協(xié)作：生成器與測(cè)試器的完美配合

PGS系統(tǒng)的核心是兩個(gè)AI智能體的巧妙配合。這就像一個(gè)高效的軟件開發(fā)團(tuán)隊(duì)：一個(gè)專注于編碼實(shí)現(xiàn)，另一個(gè)專注于質(zhì)量保證。

生成器（Generator）是團(tuán)隊(duì)中的"程序員"。它根據(jù)問題描述生成初始代碼，然后根據(jù)測(cè)試反饋不斷改進(jìn)。與傳統(tǒng)的單一AI不同，這個(gè)生成器專門優(yōu)化了代碼生成和迭代改進(jìn)的能力。當(dāng)它收到來自測(cè)試器的反饋時(shí)，能夠精確定位問題所在并進(jìn)行針對(duì)性修復(fù)。

測(cè)試器（Tester）則是團(tuán)隊(duì)中的"質(zhì)量工程師"。它的工作流程包含幾個(gè)關(guān)鍵步驟。首先，它分析問題描述，識(shí)別出程序應(yīng)該滿足的高層次屬性。比如對(duì)于一個(gè)排序函數(shù)，測(cè)試器會(huì)識(shí)別出"輸出必須是有序的"、"輸出必須包含輸入的所有元素"等屬性。

接下來，測(cè)試器將這些抽象屬性轉(zhuǎn)換為可執(zhí)行的檢查代碼。這些檢查代碼就像自動(dòng)化的質(zhì)檢流程，能夠?qū)θ魏谓o定的輸入輸出對(duì)進(jìn)行驗(yàn)證。測(cè)試器還會(huì)設(shè)計(jì)驗(yàn)證機(jī)制，確保這些屬性檢查本身是正確的——通過已知的正確案例驗(yàn)證檢查代碼不會(huì)誤報(bào)，通過已知的錯(cuò)誤案例驗(yàn)證檢查代碼能夠成功發(fā)現(xiàn)問題。

測(cè)試器的另一個(gè)重要任務(wù)是生成多樣化的測(cè)試輸入。它不是隨機(jī)生成數(shù)據(jù)，而是根據(jù)問題的特性和約束條件，系統(tǒng)性地創(chuàng)造各種測(cè)試場(chǎng)景：常見情況、邊界條件、極端情況等。這確保了測(cè)試的全面性和有效性。

當(dāng)生成器產(chǎn)生的代碼被測(cè)試時(shí)，測(cè)試器會(huì)收集所有的執(zhí)行結(jié)果，包括成功的案例和失敗的案例。對(duì)于失敗的案例，測(cè)試器不是簡(jiǎn)單地報(bào)告"測(cè)試失敗"，而是會(huì)進(jìn)行深入分析，找出最具代表性、最簡(jiǎn)潔的失敗案例，并提供詳細(xì)的錯(cuò)誤描述和改進(jìn)建議。

四、智能反饋策略：簡(jiǎn)單問題帶來深刻洞察

在軟件調(diào)試中有一個(gè)重要原則：最簡(jiǎn)單的能復(fù)現(xiàn)問題的輸入往往最有助于定位和解決問題。北航團(tuán)隊(duì)在PGS中實(shí)現(xiàn)了這一原則，開發(fā)了一套智能的反饋選擇策略。

傳統(tǒng)的軟件測(cè)試往往追求高代碼覆蓋率，認(rèn)為測(cè)試應(yīng)該觸及代碼的每一個(gè)分支和路徑。但研究團(tuán)隊(duì)發(fā)現(xiàn)，對(duì)于AI代碼生成來說，這種策略可能適得其反。復(fù)雜的測(cè)試用例雖然能夠觸及更多代碼路徑，但也可能讓AI"迷失在細(xì)節(jié)中"，難以識(shí)別問題的核心所在。

相比之下，簡(jiǎn)單的測(cè)試用例更容易讓AI理解問題的本質(zhì)。比如，如果一個(gè)排序算法在處理包含重復(fù)元素的數(shù)組時(shí)出現(xiàn)問題，那么用[2,1,2]這樣的簡(jiǎn)單例子比用包含幾十個(gè)元素的復(fù)雜數(shù)組更容易讓AI理解錯(cuò)誤的根源。

PGS采用了類似于"增量調(diào)試"的策略：在所有導(dǎo)致屬性違反的測(cè)試用例中，優(yōu)先選擇輸入最短、執(zhí)行時(shí)間最快的案例作為反饋。這種策略有多重好處。首先，簡(jiǎn)單的輸入更容易讓AI跟蹤執(zhí)行流程，理解錯(cuò)誤發(fā)生的具體位置。其次，簡(jiǎn)單的案例往往能夠暴露算法的根本性缺陷，而不是邊界條件的特殊處理問題。最后，處理簡(jiǎn)單案例的計(jì)算成本更低，提高了整個(gè)迭代過程的效率。

研究團(tuán)隊(duì)通過實(shí)驗(yàn)驗(yàn)證了這一策略的有效性。在LiveCodeBench測(cè)試集上，使用最短輸入長(zhǎng)度的反饋策略比使用最長(zhǎng)輸入長(zhǎng)度的策略在成功率上高出3個(gè)百分點(diǎn)，同時(shí)減少了12%的計(jì)算開銷。

五、實(shí)驗(yàn)驗(yàn)證：全面超越現(xiàn)有方法

為了驗(yàn)證PGS的有效性，研究團(tuán)隊(duì)進(jìn)行了大規(guī)模的對(duì)比實(shí)驗(yàn)。他們選擇了三個(gè)具有代表性的代碼生成基準(zhǔn)測(cè)試集：HumanEval（包含164個(gè)手寫Python編程問題）、MBPP（約500個(gè)眾包的入門級(jí)Python問題）和LiveCodeBench（880個(gè)來自實(shí)際編程競(jìng)賽的挑戰(zhàn)性問題）。

實(shí)驗(yàn)中使用了三個(gè)不同能力級(jí)別的大語言模型：DeepSeek-Coder-V2（專門優(yōu)化的開源代碼生成模型）、Qwen2.5-Coder（在編程任務(wù)上表現(xiàn)出色的通用模型）和DeepSeek-R1-Distilled-32B（具有長(zhǎng)鏈?zhǔn)酵评砟芰Φ母咝阅苣Ｐ停?/p>

PGS與多種現(xiàn)有方法進(jìn)行了對(duì)比，包括直接提示、鏈?zhǔn)剿季S推理、Code-T（使用自動(dòng)生成測(cè)試的方法）、Self-Edit（自我修正方法）、Reflexion（基于反思的迭代改進(jìn)）等多種先進(jìn)技術(shù)。

實(shí)驗(yàn)結(jié)果顯示了PGS的顯著優(yōu)勢(shì)。在pass@1指標(biāo)（一次生成成功的比例）上，PGS相比傳統(tǒng)測(cè)試驅(qū)動(dòng)開發(fā)方法取得了23.1%到37.3%的相對(duì)提升。特別值得注意的是，在最具挑戰(zhàn)性的LiveCodeBench測(cè)試集上，PGS在困難問題（Hard級(jí)別）上的表現(xiàn)尤為突出，成功率達(dá)到40.7%，遠(yuǎn)超直接提示方法的28.1%。

在修復(fù)成功率（RSR）指標(biāo)上，PGS同樣表現(xiàn)優(yōu)異。這個(gè)指標(biāo)衡量的是將初始錯(cuò)誤代碼修正為正確代碼的能力。PGS在HumanEval和MBPP上平均比代表性的測(cè)試驅(qū)動(dòng)開發(fā)方法高出約15.7個(gè)百分點(diǎn)，展現(xiàn)了其強(qiáng)大的迭代改進(jìn)能力。

六、深入分析：為什么屬性測(cè)試如此有效

實(shí)驗(yàn)數(shù)據(jù)揭示了PGS成功背后的深層原因。首先，研究團(tuán)隊(duì)發(fā)現(xiàn)，對(duì)于大語言模型來說，生成正確的屬性檢查代碼比直接生成完整的解決方案要容易得多。在LiveCodeBench的難題中，直接生成正確代碼的成功率只有1.1%，但生成有效屬性檢查的成功率高達(dá)48.9%。

這個(gè)現(xiàn)象背后有其合理性。定義"程序應(yīng)該滿足什么條件"往往比"程序應(yīng)該如何實(shí)現(xiàn)"更加直觀。比如，描述"排序后的數(shù)組應(yīng)該是有序的"比實(shí)現(xiàn)"快速排序算法的具體步驟"要簡(jiǎn)單得多。

其次，屬性測(cè)試能夠?qū)㈦[藏的邏輯錯(cuò)誤轉(zhuǎn)化為明顯的運(yùn)行時(shí)錯(cuò)誤。在沒有屬性檢查的情況下，25.3%的錯(cuò)誤代碼會(huì)產(chǎn)生"錯(cuò)誤答案"——代碼運(yùn)行正常但結(jié)果不正確，這類錯(cuò)誤最難調(diào)試。而引入屬性測(cè)試后，這個(gè)比例降低到10.5%，同時(shí)"運(yùn)行時(shí)錯(cuò)誤"（包括屬性違反）的比例從4.6%增加到11.8%。雖然總錯(cuò)誤數(shù)量增加了，但錯(cuò)誤變得更容易識(shí)別和修復(fù)。

第三，屬性測(cè)試提供了更豐富的語義信息。傳統(tǒng)的測(cè)試失敗通常只告訴我們"期望輸出X，實(shí)際輸出Y"，而屬性違反會(huì)告訴我們"違反了乘積相等性"或"違反了有序性"，這種高層次的錯(cuò)誤信息更有助于AI理解問題的本質(zhì)并進(jìn)行針對(duì)性修復(fù)。

七、跨模型表現(xiàn)：通用性驗(yàn)證

PGS的另一個(gè)重要優(yōu)勢(shì)是其跨模型的穩(wěn)定表現(xiàn)。無論是在能力相對(duì)較弱的DeepSeek-Coder-V2上，還是在性能強(qiáng)大的DeepSeek-R1-Distilled-32B上，PGS都展現(xiàn)出了一致的改進(jìn)效果。這說明PGS的核心思想——將代碼生成與驗(yàn)證解耦，通過屬性測(cè)試提供高質(zhì)量反饋——是一個(gè)通用的、不依賴特定模型架構(gòu)的改進(jìn)策略。

特別值得關(guān)注的是PGS在不同難度任務(wù)上的表現(xiàn)差異。在簡(jiǎn)單任務(wù)上，由于大多數(shù)現(xiàn)有方法已經(jīng)能夠取得較好效果，PGS的改進(jìn)幅度相對(duì)溫和。但在中等和困難任務(wù)上，PGS的優(yōu)勢(shì)愈發(fā)明顯。這符合直覺：當(dāng)問題變得復(fù)雜時(shí)，高質(zhì)量的測(cè)試和反饋機(jī)制變得更加重要。

研究還發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象：隨著任務(wù)難度增加，"通過了可見測(cè)試但最終失敗"的情況越來越多。在簡(jiǎn)單任務(wù)中，這個(gè)比例是62.4%對(duì)65.9%（通過隱藏測(cè)試對(duì)通過可見測(cè)試），而在困難任務(wù)中變成了1.1%對(duì)18.1%。這個(gè)巨大的差距說明了傳統(tǒng)測(cè)試方法在復(fù)雜問題上的局限性，也解釋了為什么PGS在困難任務(wù)上的相對(duì)優(yōu)勢(shì)更為顯著。

八、技術(shù)細(xì)節(jié)：讓屬性測(cè)試真正可行

雖然屬性測(cè)試的理念很優(yōu)雅，但要讓它在實(shí)際的AI代碼生成中發(fā)揮作用，還需要解決許多技術(shù)細(xì)節(jié)。

首先是屬性質(zhì)量的保證。并非所有AI生成的屬性都是有用的，有些可能過于寬泛（比如"輸出不能為空"），有些可能存在邏輯錯(cuò)誤。PGS設(shè)計(jì)了一套驗(yàn)證機(jī)制：每個(gè)屬性都必須通過已知正確案例的測(cè)試（確保不會(huì)誤報(bào)），同時(shí)在已知錯(cuò)誤案例上失?。ù_保具有發(fā)現(xiàn)錯(cuò)誤的能力）。

其次是輸入生成的多樣性。屬性測(cè)試的威力很大程度上依賴于能夠生成多樣化、有代表性的測(cè)試輸入。PGS不是簡(jiǎn)單地隨機(jī)生成數(shù)據(jù)，而是根據(jù)問題的約束條件和特性，系統(tǒng)性地創(chuàng)造不同類型的測(cè)試場(chǎng)景。對(duì)于排序問題，它會(huì)生成空數(shù)組、單元素?cái)?shù)組、已排序數(shù)組、逆序數(shù)組、包含重復(fù)元素的數(shù)組等各種情況。

第三是反饋的精確性。當(dāng)屬性違反發(fā)生時(shí)，系統(tǒng)需要提供足夠詳細(xì)但不過于復(fù)雜的錯(cuò)誤信息。PGS會(huì)識(shí)別違反的具體屬性，提供導(dǎo)致違反的輸入和輸出，并用自然語言描述問題的本質(zhì)。比如，不是簡(jiǎn)單地說"測(cè)試失敗"，而是說"對(duì)于輸入12，期望分解結(jié)果的乘積為12，但實(shí)際乘積為6"。

最后是迭代控制。PGS需要在"快速收斂"和"充分探索"之間找到平衡。系統(tǒng)設(shè)置了最大迭代次數(shù)限制（通常為5次），確保在合理時(shí)間內(nèi)完成生成過程。同時(shí)，它也會(huì)動(dòng)態(tài)調(diào)整屬性的數(shù)量和復(fù)雜度，避免過度復(fù)雜的驗(yàn)證邏輯影響效率。

九、實(shí)際應(yīng)用潛力與局限性

PGS的成功為AI輔助編程開辟了新的可能性。在實(shí)際軟件開發(fā)中，程序員經(jīng)常面臨這樣的情況：知道程序應(yīng)該滿足什么條件，但不確定具體如何實(shí)現(xiàn)。PGS提供了一種新的交互模式：開發(fā)者可以描述程序的功能需求和約束條件，讓AI基于這些高層次的規(guī)格自動(dòng)生成并驗(yàn)證代碼。

這種方法在某些領(lǐng)域特別有價(jià)值。在算法競(jìng)賽中，問題通常有明確的輸入輸出格式和約束條件，但具體的解決策略需要?jiǎng)?chuàng)造性思維。PGS可以幫助參賽者快速驗(yàn)證算法思路的正確性。在教育領(lǐng)域，學(xué)生可以通過描述程序應(yīng)該滿足的性質(zhì)來驗(yàn)證自己的代碼實(shí)現(xiàn)，獲得更有針對(duì)性的學(xué)習(xí)反饋。

然而，PGS也存在一些局限性。首先，它依賴于能夠清晰描述程序?qū)傩缘哪芰Α?duì)于一些涉及復(fù)雜業(yè)務(wù)邏輯或用戶體驗(yàn)的應(yīng)用，很難用簡(jiǎn)單的屬性來完全描述程序的正確性。其次，當(dāng)前的實(shí)現(xiàn)主要針對(duì)算法性問題，對(duì)于涉及用戶界面、數(shù)據(jù)庫操作、網(wǎng)絡(luò)通信等的復(fù)雜軟件系統(tǒng)，還需要進(jìn)一步的擴(kuò)展和適應(yīng)。

研究團(tuán)隊(duì)也坦誠(chéng)地討論了一些技術(shù)挑戰(zhàn)。屬性的生成質(zhì)量仍然依賴于大語言模型的理解能力，當(dāng)面對(duì)全新的問題域時(shí)，可能會(huì)生成不夠準(zhǔn)確或不夠全面的屬性。此外，當(dāng)前的實(shí)現(xiàn)主要關(guān)注功能正確性，對(duì)于性能、安全性、可維護(hù)性等其他軟件質(zhì)量屬性的支持還有待加強(qiáng)。

十、未來展望：走向更智能的編程助手

這項(xiàng)研究為AI輔助編程的未來發(fā)展指明了一個(gè)重要方向：從"模仿人類代碼"走向"理解程序本質(zhì)"。傳統(tǒng)的代碼生成模型主要通過學(xué)習(xí)大量人類編寫的代碼來獲得生成能力，本質(zhì)上是一種模式匹配和組合。而PGS展示了另一種可能性：讓AI理解程序應(yīng)該滿足的抽象性質(zhì)，基于這些理解來生成和驗(yàn)證代碼。

這種方法的潛在影響是深遠(yuǎn)的。它可能會(huì)改變我們與編程工具交互的方式：不再是告訴計(jì)算機(jī)"如何做"，而是告訴它"要達(dá)到什么目標(biāo)"。這種聲明式的編程范式可能會(huì)顯著降低編程的門檻，讓更多人能夠參與到軟件開發(fā)中來。

從技術(shù)發(fā)展的角度看，PGS也為形式化方法在AI時(shí)代的復(fù)興提供了新的可能性。形式化方法一直是計(jì)算機(jī)科學(xué)中確保程序正確性的重要工具，但由于其復(fù)雜性，在實(shí)際開發(fā)中的應(yīng)用有限。PGS展示了如何將形式化思想與現(xiàn)代AI技術(shù)結(jié)合，創(chuàng)造出既強(qiáng)大又易用的工具。

研究團(tuán)隊(duì)已經(jīng)開源了PGS的實(shí)現(xiàn)代碼，這為后續(xù)研究和應(yīng)用提供了良好的基礎(chǔ)。可以預(yù)期，未來會(huì)有更多研究者在此基礎(chǔ)上進(jìn)行擴(kuò)展，將PGS的思想應(yīng)用到更廣泛的編程任務(wù)中，或者開發(fā)出更加智能的屬性生成和驗(yàn)證機(jī)制。

說到底，這項(xiàng)研究最重要的貢獻(xiàn)不是具體的技術(shù)實(shí)現(xiàn)，而是思維方式的轉(zhuǎn)變。它提醒我們，在追求AI生成代碼的表面正確性時(shí)，不要忘記程序背后的邏輯本質(zhì)。通過將注意力從"生成什么代碼"轉(zhuǎn)向"滿足什么性質(zhì)"，我們可能找到了一條通往更可靠、更智能的AI編程助手的道路。這種方法不僅在當(dāng)前顯示出了明顯的技術(shù)優(yōu)勢(shì)，更重要的是為未來的研究開辟了新的可能性，讓我們對(duì)AI輔助編程的前景更加充滿信心。

Q&A

Q1：屬性測(cè)試跟傳統(tǒng)的單元測(cè)試有什么區(qū)別？ A：傳統(tǒng)單元測(cè)試需要預(yù)先設(shè)定具體的輸入輸出對(duì)（如輸入12，期望輸出[2,2,3]），而屬性測(cè)試關(guān)注的是程序應(yīng)該滿足的通用規(guī)律（如"所有因子的乘積等于原數(shù)"）。屬性測(cè)試不需要預(yù)知具體答案，只需要驗(yàn)證程序是否遵循基本原則，這樣更容易發(fā)現(xiàn)深層邏輯錯(cuò)誤。

Q2：為什么說傳統(tǒng)AI代碼測(cè)試會(huì)出現(xiàn)"自欺欺人"的問題？ A：當(dāng)AI對(duì)問題理解有偏差時(shí)，它生成的代碼和測(cè)試用例可能包含相同的錯(cuò)誤邏輯。比如AI誤解了質(zhì)因數(shù)分解的概念，既會(huì)生成錯(cuò)誤的代碼，也會(huì)生成錯(cuò)誤的測(cè)試案例，導(dǎo)致錯(cuò)誤代碼通過錯(cuò)誤測(cè)試，形成惡性循環(huán)而無法發(fā)現(xiàn)真正問題。

Q3：PGS框架的兩個(gè)智能體是如何分工合作的？ A：生成器專門負(fù)責(zé)編寫和改進(jìn)代碼，就像程序員；測(cè)試器負(fù)責(zé)制定驗(yàn)證標(biāo)準(zhǔn)、生成測(cè)試數(shù)據(jù)和提供反饋，就像質(zhì)量工程師。測(cè)試器會(huì)根據(jù)問題描述自動(dòng)識(shí)別程序應(yīng)該滿足的屬性，然后系統(tǒng)性地驗(yàn)證生成器的代碼是否符合這些要求，形成高效的迭代改進(jìn)循環(huán)。

屬性測(cè)試代碼生成迭代優(yōu)化

分享至

0贊

好文章，需要你的鼓勵(lì)

推薦文章

音頻生成
大語言模型
多模態(tài)AI

2025-09-10 09:47

如何讓AI像電影配樂師一樣創(chuàng)作完整的長(zhǎng)篇音頻故事——騰訊ARC實(shí)驗(yàn)室團(tuán)隊(duì)AudioStory突破性進(jìn)展

騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng)，首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長(zhǎng)篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù)，通過交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練，能夠?qū)?fù)雜指令分解為連續(xù)音頻場(chǎng)景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異，為AI音頻創(chuàng)作開辟新方向。
視頻生成
深度學(xué)習(xí)
多模態(tài)學(xué)習(xí)

2025-09-09 13:57

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動(dòng)起來不再是奢望

Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù)，通過讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息，顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量，在多項(xiàng)測(cè)試中超越包括Sora在內(nèi)的商業(yè)模型，為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
多模態(tài)AI
人類價(jià)值觀對(duì)齊
數(shù)據(jù)集構(gòu)建

2025-09-09 13:56

上海AI實(shí)驗(yàn)室重磅發(fā)布：讓AI看圖"說人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類價(jià)值觀對(duì)齊難題

上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究，首次系統(tǒng)性解決多模態(tài)大語言模型人性化對(duì)話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評(píng)測(cè)基準(zhǔn)，通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法，讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平，為AI價(jià)值觀對(duì)齊提供了可行技術(shù)路徑。
人工智能
圖神經(jīng)網(wǎng)絡(luò)
天氣預(yù)報(bào)

2025-09-09 10:56

谷歌研究團(tuán)隊(duì)發(fā)布超級(jí)預(yù)測(cè)模型：讓AI像天氣預(yù)報(bào)員一樣預(yù)測(cè)全球大氣變化

谷歌DeepMind團(tuán)隊(duì)開發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測(cè)模型，能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào)，準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù)，通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律，在極端天氣預(yù)測(cè)方面表現(xiàn)卓越，能耗僅為傳統(tǒng)方法的千分之一，為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。

如何讓AI像電影配樂師一樣創(chuàng)作完整的長(zhǎng)篇音頻故事——騰訊ARC實(shí)驗(yàn)室團(tuán)隊(duì)AudioStory突破性進(jìn)展

如何讓AI像電影配樂師一樣創(chuàng)作完整的長(zhǎng)篇音頻故事——騰訊ARC實(shí)驗(yàn)室團(tuán)隊(duì)AudioStory突破性進(jìn)展

2025-09-10 09:47

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動(dòng)起來不再是奢望

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動(dòng)起來不再是奢望

2025-09-09 13:57

上海AI實(shí)驗(yàn)室重磅發(fā)布：讓AI看圖"說人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類價(jià)值觀對(duì)齊難題

上海AI實(shí)驗(yàn)室重磅發(fā)布：讓AI看圖"說人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類價(jià)值觀對(duì)齊難題

2025-09-09 13:56

谷歌研究團(tuán)隊(duì)發(fā)布超級(jí)預(yù)測(cè)模型：讓AI像天氣預(yù)報(bào)員一樣預(yù)測(cè)全球大氣變化

谷歌研究團(tuán)隊(duì)發(fā)布超級(jí)預(yù)測(cè)模型：讓AI像天氣預(yù)報(bào)員一樣預(yù)測(cè)全球大氣變化

2025-09-09 10:56

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

友情鏈接

至頂網(wǎng)
管理現(xiàn)代化
和訊IT
TechWeb
第三媒體
速途網(wǎng)
51CTO傳媒
投資界
科技訊
智者新時(shí)代

京ICP證15039648號(hào) 京ICP備15039648號(hào)-9 京公網(wǎng)安備 11010802021500號(hào)

北京第二十六維信息技術(shù)有限公司（至頂網(wǎng)）版權(quán)所有。 | 聯(lián)絡(luò)我們

舉報(bào)電話：010-62641205　涉未成年人舉報(bào)專線：010-62641208 舉報(bào)郵箱: jubao@zhiding.cn 　網(wǎng)上有害信息舉報(bào)專區(qū)：https://www.12377.cn

<sup id="u8tx5"><big id="u8tx5"></big></sup>

<abbr id="u8tx5"></abbr>

<sub id="u8tx5"><s id="u8tx5"></s></sub>