av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

<pre id="jxs0v"></pre><tfoot id="jxs0v"></tfoot>

微信掃一掃，關(guān)注公眾號

科技行者
算力行者

見證連接與計算的「力量」

港中文團(tuán)隊發(fā)布WebGen-Bench：讓AI從零寫網(wǎng)站，但最強(qiáng)模型正確率僅27.8%

人工智能網(wǎng)站生成基準(zhǔn)測試

港中文團(tuán)隊發(fā)布WebGen-Bench：讓AI從零寫網(wǎng)站，但最強(qiáng)模型正確率僅27.8%

作者：科技行者

2025-07-08 09:45

分享至：

港中文團(tuán)隊發(fā)布首個AI網(wǎng)站生成能力基準(zhǔn)測試WebGen-Bench，評估結(jié)果顯示即使最強(qiáng)模型準(zhǔn)確率僅27.8%，但通過專門訓(xùn)練的WebGen-LM-32B模型達(dá)到38.2%，為AI建站技術(shù)發(fā)展提供重要參考。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-07-08 09:45 ? 科技行者

這項由香港中文大學(xué)多媒體實驗室（MMLab）的盧子木、楊云橋、任厚興等研究團(tuán)隊完成的開創(chuàng)性研究發(fā)表于2025年5月。研究團(tuán)隊構(gòu)建了業(yè)界首個專門評估大語言模型從零生成網(wǎng)站能力的基準(zhǔn)測試WebGen-Bench，并開源了相關(guān)代碼和數(shù)據(jù)。有興趣深入了解的讀者可以通過GitHub鏈接（https://github.com/mnluzimu/WebGen-Bench）訪問完整的研究資料和開源代碼。

隨著人工智能技術(shù)的飛速發(fā)展，我們經(jīng)常聽說AI能寫代碼、能聊天、能畫畫，但如果讓AI從零開始建一個完整的網(wǎng)站，它能做到什么程度呢？這個問題聽起來簡單，但實際上比我們想象的要復(fù)雜得多。就像讓一個人不僅要會做菜，還要能開餐廳、管理后廚、設(shè)計菜單、裝修門面一樣，建網(wǎng)站需要AI同時掌握多種技能：規(guī)劃網(wǎng)站結(jié)構(gòu)、編寫代碼文件、實現(xiàn)各種功能、還要讓頁面看起來美觀實用。

港中文的研究團(tuán)隊意識到，雖然市面上有很多評估AI編程能力的測試，但這些測試大多像是"修補工作"——給AI一個已經(jīng)存在的代碼庫，讓它修復(fù)bug或者添加小功能。但真正從零開始建一個網(wǎng)站，就像是讓AI當(dāng)一回"建筑師兼施工隊長"，需要從地基開始，一磚一瓦地蓋起整棟房子。為了填補這個空白，他們創(chuàng)建了WebGen-Bench這個專門的測試平臺。

這個研究的重要性在于，它第一次系統(tǒng)性地回答了一個關(guān)鍵問題：當(dāng)我們把建網(wǎng)站這個任務(wù)完全交給AI時，它能做得有多好？這不僅關(guān)系到程序員的工作會如何變化，更關(guān)系到普通人是否有一天能夠通過簡單的自然語言描述，就讓AI幫自己建一個功能完整的網(wǎng)站。研究結(jié)果顯示，即使是目前最強(qiáng)的AI模型，在這個任務(wù)上的表現(xiàn)也只有27.8%的正確率，這意味著AI建網(wǎng)站的路還很長，但同時也展現(xiàn)了巨大的發(fā)展空間。

一、WebGen-Bench：為AI建網(wǎng)站能力量身定制的"考試系統(tǒng)"

要評估AI建網(wǎng)站的能力，首先需要一套公平、全面的"考試題目"。港中文團(tuán)隊設(shè)計的WebGen-Bench就像是為AI量身定制的網(wǎng)站建設(shè)能力測試中心。這個測試系統(tǒng)的設(shè)計思路很像我們熟悉的駕照考試——不僅要考理論知識，更要看實際操作能力。

研究團(tuán)隊首先面臨一個挑戰(zhàn)：如何創(chuàng)造出既多樣又實用的網(wǎng)站建設(shè)任務(wù)？他們采用了一種很聰明的方法，就像美食節(jié)目中廚師們會根據(jù)不同菜系和口味偏好設(shè)計挑戰(zhàn)一樣。團(tuán)隊先是仔細(xì)研究了Upwork、Freelancer、Proginn等真實的網(wǎng)站開發(fā)接單平臺，從中總結(jié)出20種最常見的網(wǎng)站類型，包括個人作品集網(wǎng)站、企業(yè)宣傳網(wǎng)站、電商平臺、社交媒體、論壇系統(tǒng)等等。

接下來，他們召集了40名計算機(jī)科學(xué)博士生進(jìn)行"頭腦風(fēng)暴"，就像編劇團(tuán)隊一起構(gòu)思劇本一樣。這些博士生根據(jù)這20種網(wǎng)站類型，設(shè)想出各種具體的應(yīng)用場景和功能需求，最終創(chuàng)造出了10,152個項目描述。這些描述就像是"甲方"給開發(fā)者的需求文檔，詳細(xì)說明了網(wǎng)站需要實現(xiàn)什么功能、長什么樣子。

為了確保指令的質(zhì)量和多樣性，研究團(tuán)隊使用GPT-4o將這些項目描述轉(zhuǎn)換成了自然語言指令。這個過程就像是把技術(shù)規(guī)格書翻譯成普通人能理解的話。比如，一個技術(shù)規(guī)格可能寫著"實現(xiàn)用戶認(rèn)證系統(tǒng)和CRUD操作"，翻譯后的指令就會說"請建一個網(wǎng)站，用戶可以注冊登錄，還能添加、查看、修改和刪除自己的信息"。

最終，研究團(tuán)隊精心挑選出101個最具代表性的指令作為正式測試集，這些指令涵蓋了幾乎所有重要的網(wǎng)站應(yīng)用類型。每個指令的平均長度約為497個字符，包含的功能需求平均有6.4個，確保了測試的充分性。同時，為了避免訓(xùn)練數(shù)據(jù)污染問題，團(tuán)隊還構(gòu)建了一個包含6,667個指令的訓(xùn)練集WebGen-Instruct，并通過嚴(yán)格的去重處理確保訓(xùn)練集和測試集之間沒有重疊。

這種設(shè)計確保了WebGen-Bench能夠全面考察AI在網(wǎng)站建設(shè)各個環(huán)節(jié)的能力，從高層規(guī)劃到具體實現(xiàn)，從功能開發(fā)到界面設(shè)計，形成了一個完整的評估體系。

二、647個"實際操作題"：如何驗證AI建的網(wǎng)站真正能用

光有建網(wǎng)站的指令還不夠，就像考駕照不能只看你會不會背交通規(guī)則，還得看你能不能真正把車開好一樣。港中文團(tuán)隊面臨的下一個挑戰(zhàn)是：如何客觀地評判AI建出來的網(wǎng)站質(zhì)量如何？

為了解決這個問題，研究團(tuán)隊為每個網(wǎng)站建設(shè)指令都設(shè)計了詳細(xì)的"功能測試題"。這個過程就像為每道菜譜都準(zhǔn)備相應(yīng)的品嘗標(biāo)準(zhǔn)一樣。他們首先使用GPT-4o為每個指令生成初步的測試用例，然后安排兩名計算機(jī)科學(xué)博士生獨立審查和完善這些測試用例。如果兩人的意見不一致，就通過討論達(dá)成共識，確保每個測試用例都準(zhǔn)確對應(yīng)指令中的某個具體要求。

最終，101個建網(wǎng)站指令共產(chǎn)生了647個測試用例，平均每個指令有6.4個測試用例。每個測試用例都設(shè)計得很具體，包含兩個核心部分：要執(zhí)行的操作和期望的結(jié)果。比如，對于一個在線商店網(wǎng)站，一個測試用例可能是"在購物車中添加商品，然后進(jìn)入結(jié)賬頁面"，期望的結(jié)果是"商品正確顯示在購物車中，結(jié)賬頁面能正常加載并顯示商品信息和價格"。

傳統(tǒng)的做法是請人工測試員逐一測試這些網(wǎng)站，但這樣做成本高昂且耗時巨大。研究團(tuán)隊估算，如果用人工測試，完成所有647個測試用例需要大約10.8小時，成本約377.8美元。更重要的是，人工測試的速度太慢，無法支持快速迭代和大規(guī)模實驗。

因此，團(tuán)隊引入了一個"自動化測試助手"——基于WebVoyager的UI代理。這就像是雇傭了一個永不疲倦的測試員，它能夠像真實用戶一樣瀏覽網(wǎng)站、點擊按鈕、填寫表單、查看頁面內(nèi)容。這個AI測試助手使用Qwen2.5-VL-32B-Instruct作為"大腦"，能夠理解測試指令，執(zhí)行相應(yīng)操作，并判斷結(jié)果是否符合期望。

AI測試助手的工作流程很有趣：它會根據(jù)測試用例的描述在網(wǎng)站上執(zhí)行相應(yīng)操作，比如搜索特定內(nèi)容、提交表單、導(dǎo)航到不同頁面等。然后，它會仔細(xì)"觀察"網(wǎng)站的反應(yīng)，分析頁面變化、內(nèi)容顯示等，最后給出YES（完全達(dá)到期望）、PARTIAL（部分達(dá)到期望）或NO（未達(dá)到期望）的評判。

為了驗證這個自動化測試系統(tǒng)的準(zhǔn)確性，研究團(tuán)隊還進(jìn)行了人工驗證。他們選擇了三個代表性模型的測試結(jié)果，安排人工測試員進(jìn)行同樣的測試，然后比較AI測試助手和人工測試員的結(jié)果。令人欣慰的是，AI測試助手的判斷與人工測試員的一致性達(dá)到了86.1%到94.4%，證明了自動化測試的可靠性。

除了功能測試，研究團(tuán)隊還設(shè)計了外觀評估系統(tǒng)。畢竟，一個網(wǎng)站不僅要功能正常，還要看起來美觀大方。他們使用GPT-4o對每個生成的網(wǎng)站進(jìn)行外觀評分，評估標(biāo)準(zhǔn)包括頁面渲染是否正確、內(nèi)容是否相關(guān)、布局是否和諧、設(shè)計是否現(xiàn)代美觀等，最終給出1到5分的評分。

三、三大代理框架同臺競技：誰是最佳"AI建站助手"

有了完善的測試系統(tǒng)，接下來就要看不同的AI代理框架在建網(wǎng)站任務(wù)上的實際表現(xiàn)了。港中文團(tuán)隊選擇了三個目前最受歡迎的代碼生成代理框架進(jìn)行對比測試，就像是讓三位不同風(fēng)格的建筑師用同樣的材料建房子，看看誰的作品更優(yōu)秀。

第一位"選手"是Bolt.diy，它是知名網(wǎng)站建設(shè)工具Bolt.new的開源版本。Bolt.diy就像是一位專門的網(wǎng)站建筑師，它專門為網(wǎng)站開發(fā)而設(shè)計。當(dāng)接到建站任務(wù)時，Bolt.diy會首先決定使用哪些技術(shù)框架（比如React、Vite、Remix等），然后導(dǎo)入基礎(chǔ)模板，在此基礎(chǔ)上逐步構(gòu)建完整的網(wǎng)站。它提供了一個類似瀏覽器的操作環(huán)境，可以實時預(yù)覽網(wǎng)站效果，就像建筑師可以在繪圖板上隨時查看設(shè)計效果一樣。

第二位"選手"是OpenHands，這是一個通用的AI軟件開發(fā)平臺。OpenHands就像是一個多才多藝的全能工程師，不僅能建網(wǎng)站，還能處理各種其他的編程任務(wù)。在這次測試中，研究團(tuán)隊讓OpenHands搭配CodeActAgent來執(zhí)行網(wǎng)站建設(shè)任務(wù)。

第三位"選手"是Aider，這是一個基于終端的AI編程框架。Aider就像是一位經(jīng)驗豐富的命令行專家，它原生支持多種編程語言，包括Python、JavaScript、PHP、HTML、CSS等。Aider的特長是構(gòu)建整個代碼庫的"地圖"，這使得它在處理大型項目時表現(xiàn)出色。

為了公平比較，研究團(tuán)隊首先讓這三個框架都使用DeepSeek-V3作為"大腦"進(jìn)行初步測試。結(jié)果顯示，Bolt.diy明顯領(lǐng)先，準(zhǔn)確率達(dá)到20.8%，而OpenHands只有9.0%，Aider為14.1%。這個結(jié)果其實并不意外，因為Bolt.diy是專門為網(wǎng)站開發(fā)設(shè)計的，就像專業(yè)廚師在烹飪比賽中通常會比業(yè)余愛好者表現(xiàn)更好一樣。

既然Bolt.diy表現(xiàn)最佳，研究團(tuán)隊就以它為平臺，測試了多種不同的大語言模型作為"大腦"的效果。他們測試了Claude-3.5-Sonnet、DeepSeek-R1、GPT-4o、o3-mini、Qwen2.5-Coder-32B、Qwen2.5-72B-Instruct等多個模型。

測試結(jié)果頗有意思：DeepSeek-R1取得了最高的功能準(zhǔn)確率27.8%，緊隨其后的是Claude-3.5-Sonnet的26.4%。但在外觀設(shè)計方面，Claude-3.5-Sonnet獲得了3.0分的最高評分，而DeepSeek-R1只有2.5分。這就像是一個工程師功能實現(xiàn)能力很強(qiáng)，但審美水平一般，而另一個工程師雖然功能稍遜，但設(shè)計品味更好。

值得注意的是，即使是表現(xiàn)最好的組合（Bolt.diy + DeepSeek-R1），在647個測試用例中也只有27.8%的準(zhǔn)確率。這個結(jié)果看似不高，但要知道，建網(wǎng)站是一個極其復(fù)雜的任務(wù)，需要AI同時掌握規(guī)劃、編程、設(shè)計、測試等多種技能。就像讓一個人同時扮演建筑師、工程師、裝修工和質(zhì)檢員的角色一樣，出錯的環(huán)節(jié)太多了。

從錯誤分析來看，超過一半的失敗案例都是因為網(wǎng)站啟動失敗或模板修改不當(dāng)造成的。這說明當(dāng)前AI在網(wǎng)站項目的基礎(chǔ)設(shè)施搭建和環(huán)境配置方面還存在明顯不足，就像蓋房子時地基沒打好，后面的工程自然無法順利進(jìn)行。

四、分類表現(xiàn)分析：AI在不同類型網(wǎng)站建設(shè)中的"偏科"現(xiàn)象

深入分析測試結(jié)果，研究團(tuán)隊發(fā)現(xiàn)了一個有趣的現(xiàn)象：AI在不同類型的網(wǎng)站建設(shè)任務(wù)中表現(xiàn)差異很大，就像學(xué)生在不同科目上會有明顯的強(qiáng)弱項一樣。

從網(wǎng)站功能類型來看，研究團(tuán)隊將101個測試指令分為三大類：內(nèi)容展示類、用戶交互類和數(shù)據(jù)管理類。內(nèi)容展示類網(wǎng)站主要負(fù)責(zé)信息呈現(xiàn)，比如企業(yè)官網(wǎng)、個人作品集、新聞網(wǎng)站等，這類網(wǎng)站相對簡單，主要是靜態(tài)頁面展示。用戶交互類網(wǎng)站需要處理用戶操作，比如表單提交、用戶登錄、實時聊天、電商交易等，復(fù)雜度中等。數(shù)據(jù)管理類網(wǎng)站則要處理復(fù)雜的數(shù)據(jù)操作，比如增刪改查、API集成、大數(shù)據(jù)處理等，是最復(fù)雜的類型。

測試結(jié)果顯示，AI在內(nèi)容展示類網(wǎng)站上表現(xiàn)最好，平均準(zhǔn)確率能達(dá)到35%以上。這就像讓一個新手廚師做簡單的涼菜拌盤，雖然不夠精致，但基本能做到色香味俱全。相比之下，AI在數(shù)據(jù)管理類網(wǎng)站上的表現(xiàn)最差，準(zhǔn)確率普遍在10-20%之間，就像讓新手廚師做復(fù)雜的法式大餐，往往顧此失彼，難以兼顧。

從測試用例類型來看，研究團(tuán)隊將647個測試用例分為功能測試、數(shù)據(jù)展示測試和設(shè)計驗證測試三類。功能測試占比最大（52.4%），主要驗證網(wǎng)站的各種功能是否正常工作，比如表單提交、用戶認(rèn)證、搜索功能等。數(shù)據(jù)展示測試（28.7%）主要檢查網(wǎng)站是否能正確顯示和更新數(shù)據(jù)，比如用戶信息、產(chǎn)品列表、統(tǒng)計圖表等。設(shè)計驗證測試（18.9%）則關(guān)注網(wǎng)站的外觀和用戶體驗，比如顏色搭配、布局合理性、響應(yīng)式設(shè)計等。

令人意外的是，AI在設(shè)計驗證測試中的表現(xiàn)最好，平均準(zhǔn)確率能達(dá)到40-50%。這說明當(dāng)前AI在實現(xiàn)指定的顏色、字體、布局等設(shè)計要求方面相對可靠，就像一個裝修工人能夠按照設(shè)計圖紙準(zhǔn)確地刷墻貼瓷磚一樣。而在功能測試中，AI的表現(xiàn)相對較差，平均準(zhǔn)確率只有20-30%，說明在實現(xiàn)復(fù)雜交互邏輯方面還有很大提升空間。

另一個有趣的發(fā)現(xiàn)是，AI生成的網(wǎng)站在文件數(shù)量和代碼行數(shù)上呈現(xiàn)出明顯的模式。表現(xiàn)好的模型（如WebGen-LM系列）傾向于生成更多代碼行數(shù)而不過度增加文件數(shù)量，平均每個項目約8個文件、315行代碼。而表現(xiàn)較差的模型（如GPT-4o、o3-mini）則容易生成過多的小文件，每個文件代碼很少，導(dǎo)致項目結(jié)構(gòu)混亂，就像把一本書撕成很多碎片分別裝訂，反而不如保持相對完整的章節(jié)結(jié)構(gòu)。

這些分析結(jié)果為改進(jìn)AI建網(wǎng)站能力指明了方向：當(dāng)前最需要提升的是復(fù)雜功能的實現(xiàn)能力和項目結(jié)構(gòu)的組織能力，而在基礎(chǔ)的頁面展示和設(shè)計實現(xiàn)方面，AI已經(jīng)有了不錯的基礎(chǔ)。

五、訓(xùn)練專門的"網(wǎng)站建設(shè)AI"：WebGen-LM系列模型的誕生

看到現(xiàn)有AI模型在網(wǎng)站建設(shè)任務(wù)上的表現(xiàn)還有很大提升空間，港中文團(tuán)隊決定"因材施教"，專門訓(xùn)練一系列針對網(wǎng)站建設(shè)優(yōu)化的AI模型，這就是WebGen-LM系列。

這個過程就像是從通用工程師中培養(yǎng)專業(yè)的網(wǎng)站建設(shè)專家。研究團(tuán)隊首先從他們構(gòu)建的WebGen-Instruct訓(xùn)練集中精選出2000個高質(zhì)量的網(wǎng)站建設(shè)指令，然后使用表現(xiàn)最好的DeepSeek-V3模型來生成相應(yīng)的建站過程軌跡。這就像是讓一位經(jīng)驗豐富的老師傅手把手地演示如何建網(wǎng)站，記錄下每一個步驟和決策過程。

為了確保訓(xùn)練質(zhì)量，團(tuán)隊采用了"拒絕采樣"的方法，只保留那些生成網(wǎng)站外觀評分達(dá)到3分以上的軌跡。這個過程就像是篩選優(yōu)秀作品用作教學(xué)案例，只有那些既功能完善又外觀合格的網(wǎng)站建設(shè)過程才被保留下來。經(jīng)過篩選，最終得到了600個高質(zhì)量的訓(xùn)練軌跡。

基于這些珍貴的訓(xùn)練數(shù)據(jù)，研究團(tuán)隊對Qwen2.5-Coder-Instruct系列的三個不同規(guī)模模型（7B、14B、32B參數(shù)）進(jìn)行了專門的微調(diào)訓(xùn)練。訓(xùn)練過程很像教授專業(yè)課程：使用4e-5的學(xué)習(xí)率，批次大小為32，訓(xùn)練2個epoch。不同規(guī)模的模型使用不同數(shù)量的GPU進(jìn)行訓(xùn)練，32B模型使用32塊A800 GPU，訓(xùn)練資源最為密集。

訓(xùn)練完成后，WebGen-LM系列模型在網(wǎng)站建設(shè)任務(wù)上的表現(xiàn)令人印象深刻。最大的WebGen-LM-32B模型達(dá)到了38.2%的準(zhǔn)確率，不僅比原始的Qwen2.5-Coder-32B-Instruct（9.5%）提升了4倍，甚至超過了表現(xiàn)最好的通用模型DeepSeek-R1（27.8%）。這個結(jié)果充分證明了專門訓(xùn)練的價值，就像專業(yè)培訓(xùn)確實能讓普通工程師成為網(wǎng)站建設(shè)專家。

更有趣的是，隨著模型規(guī)模的增大，性能提升也很明顯：WebGen-LM-7B達(dá)到28.4%，WebGen-LM-14B達(dá)到29.4%，WebGen-LM-32B達(dá)到38.2%。這種規(guī)律性的提升說明，對于復(fù)雜的網(wǎng)站建設(shè)任務(wù)，更大的模型確實能夠?qū)W習(xí)到更豐富的知識和更細(xì)致的技能。

從生成的代碼質(zhì)量來看，WebGen-LM系列模型也展現(xiàn)出了更好的工程實踐。它們生成的網(wǎng)站平均包含更多的代碼行數(shù)，但文件組織更加合理，不會像一些通用模型那樣生成過多的小文件導(dǎo)致項目結(jié)構(gòu)混亂。這說明專門訓(xùn)練讓AI學(xué)會了更好的軟件工程實踐，就像專業(yè)培訓(xùn)讓程序員學(xué)會了如何組織大型項目的代碼結(jié)構(gòu)。

值得注意的是，所有WebGen-LM模型生成的代碼行數(shù)都超過了它們的"老師"DeepSeek-V3，這在一定程度上歸因于拒絕采樣過程的作用。通過只學(xué)習(xí)高質(zhì)量的網(wǎng)站建設(shè)案例，模型學(xué)會了生成更完整、更詳細(xì)的實現(xiàn)，而不是簡單地抄襲模板或生成功能不完整的代碼。

這一系列實驗結(jié)果表明，針對特定任務(wù)進(jìn)行專門訓(xùn)練確實是提升AI能力的有效途徑。雖然WebGen-LM模型仍然沒有達(dá)到完美的水平，但38.2%的準(zhǔn)確率已經(jīng)代表了當(dāng)前技術(shù)條件下的一個重要突破，為未來進(jìn)一步改進(jìn)指明了方向。

六、自動化測試驗證：AI測試員的可靠性如何？

既然使用了AI測試助手來評估網(wǎng)站質(zhì)量，一個自然的問題是：這個AI測試員本身靠譜嗎？港中文團(tuán)隊對此進(jìn)行了專門的驗證研究，就像我們需要驗證新的考試評分系統(tǒng)是否公正準(zhǔn)確一樣。

研究團(tuán)隊選擇了三個代表性的模型組合（Bolt.diy配合Claude-3.5-Sonnet、DeepSeek-R1和DeepSeek-V3）的測試結(jié)果，安排人工測試員進(jìn)行同樣的測試任務(wù)。人工測試過程要求很高的精確性，因此團(tuán)隊安排了三名測試員獨立完成每個測試用例，如果出現(xiàn)意見分歧，就由第四位測試員重新檢查并做出最終判斷。

對比結(jié)果顯示，AI測試助手的判斷與人工測試員的一致性相當(dāng)高。對于Claude-3.5-Sonnet的測試結(jié)果，一致性達(dá)到90.3%；對于DeepSeek-R1為86.1%；對于DeepSeek-V3為94.4%。這個一致性水平說明AI測試助手在大多數(shù)情況下能夠準(zhǔn)確判斷網(wǎng)站功能是否正常工作，就像一個訓(xùn)練有素的質(zhì)檢員能夠準(zhǔn)確識別產(chǎn)品缺陷一樣。

更詳細(xì)的分析顯示，AI測試助手在不同類型的測試用例上表現(xiàn)也有差異。在簡單的頁面展示和基礎(chǔ)交互測試中，AI測試助手的判斷準(zhǔn)確性更高，與人工測試員的一致性經(jīng)常超過95%。而在涉及復(fù)雜業(yè)務(wù)邏輯或細(xì)微用戶體驗的測試中，一致性會稍微降低，但仍然保持在85%以上的水平。

有趣的是，當(dāng)AI測試助手和人工測試員出現(xiàn)分歧時，主要分歧集中在PARTIAL（部分滿足要求）的判斷上。人工測試員傾向于更嚴(yán)格的標(biāo)準(zhǔn)，而AI測試助手有時會對邊界情況給出更寬松的評判。這就像是嚴(yán)格的老師和相對寬松的老師在評分時可能有不同的標(biāo)準(zhǔn)，但都是合理的。

為了進(jìn)一步驗證自動化測試的可靠性，研究團(tuán)隊還分析了測試失敗的原因分布。結(jié)果顯示，超過一半的測試失敗是由于明顯的技術(shù)問題，比如網(wǎng)站無法啟動、頁面加載錯誤、關(guān)鍵功能完全缺失等。這些問題是AI測試助手和人工測試員都能輕易識別的，因此一致性很高。

另外大約30%的失敗是由于功能實現(xiàn)不完整或不正確，比如搜索功能返回錯誤結(jié)果、表單提交后沒有反饋等。在這類問題的判斷上，AI測試助手也表現(xiàn)出了良好的識別能力，雖然偶爾會在細(xì)節(jié)判斷上與人工測試員有所差異。

剩下的失敗主要涉及用戶體驗和界面細(xì)節(jié)問題，這是AI測試助手相對較難準(zhǔn)確判斷的領(lǐng)域。不過，由于這類問題在整體測試中占比較小，對總體評估結(jié)果的影響有限。

總的來說，自動化測試驗證結(jié)果表明，使用AI測試助手進(jìn)行網(wǎng)站功能評估是一個可行且相對可靠的方案。雖然它還不能完全替代人工測試，但在大規(guī)模、標(biāo)準(zhǔn)化的基準(zhǔn)測試中，它提供了一個高效、一致且成本低廉的評估方法。這種自動化測試方法的成功，也為未來構(gòu)建更大規(guī)模的AI能力評估基準(zhǔn)鋪平了道路。

七、未來展望：AI建網(wǎng)站的路還有多遠(yuǎn)？

通過WebGen-Bench這項開創(chuàng)性研究，我們首次有了量化評估AI建網(wǎng)站能力的標(biāo)準(zhǔn)工具，也清楚地看到了當(dāng)前技術(shù)水平和實用化之間的差距。就像早期的汽車雖然能跑，但還遠(yuǎn)遠(yuǎn)達(dá)不到替代馬車的程度一樣，現(xiàn)在的AI建網(wǎng)站技術(shù)還處在"能用但不夠好"的階段。

27.8%的最高準(zhǔn)確率意味著什么？簡單來說，如果你給AI 100個建網(wǎng)站的任務(wù)，它大概能完全做對28個，部分做對一些，剩下的可能完全搞砸。這個水平顯然還不足以讓普通人放心地把重要項目交給AI來完成，但已經(jīng)足以在一些簡單場景下提供有價值的輔助。

從錯誤分析中可以看出，當(dāng)前AI在網(wǎng)站建設(shè)中最大的短板是基礎(chǔ)環(huán)境配置和項目結(jié)構(gòu)組織。超過一半的失敗都是因為網(wǎng)站啟動不了或者文件組織混亂，這就像廚師做菜時連火都點不著，或者把調(diào)料撒得到處都是。相比之下，AI在理解需求和實現(xiàn)簡單功能方面已經(jīng)有了不錯的基礎(chǔ)。

這個現(xiàn)狀其實反映了AI技術(shù)發(fā)展的一個典型特點：在模式識別和內(nèi)容生成方面表現(xiàn)出色，但在系統(tǒng)性的工程實踐和復(fù)雜項目管理方面還有很大提升空間。就像AI可以寫出不錯的詩歌和文章，但讓它管理一個完整的出版流程就困難重重。

WebGen-LM系列模型的成功訓(xùn)練為未來指明了一個可行的發(fā)展方向：專門化訓(xùn)練確實能夠顯著提升AI在特定任務(wù)上的表現(xiàn)。38.2%的準(zhǔn)確率雖然仍然不夠理想，但相比通用模型的表現(xiàn)已經(jīng)有了質(zhì)的飛躍。這說明，未來我們可能會看到更多針對特定領(lǐng)域深度優(yōu)化的AI模型，而不是一味追求"萬能"的通用模型。

從實際應(yīng)用角度來看，當(dāng)前的AI建網(wǎng)站技術(shù)已經(jīng)可以在一些特定場景下發(fā)揮價值。比如，對于簡單的展示型網(wǎng)站、原型開發(fā)、或者為專業(yè)開發(fā)者提供初始代碼框架，現(xiàn)有技術(shù)已經(jīng)具備了一定的實用性。但對于復(fù)雜的商業(yè)網(wǎng)站、安全性要求高的應(yīng)用、或者需要與多個外部系統(tǒng)集成的項目，人工開發(fā)仍然是更可靠的選擇。

研究團(tuán)隊也指出了當(dāng)前工作的一些限制。WebGen-Bench主要聚焦于TypeScript、JavaScript、CSS和HTML等前端技術(shù)，對于后端服務(wù)、數(shù)據(jù)庫設(shè)計、微服務(wù)架構(gòu)等更復(fù)雜的技術(shù)棧覆蓋有限。此外，當(dāng)前的訓(xùn)練方法主要使用監(jiān)督學(xué)習(xí)，未來可能需要引入強(qiáng)化學(xué)習(xí)、直接偏好優(yōu)化等更先進(jìn)的訓(xùn)練策略來進(jìn)一步提升性能。

從技術(shù)發(fā)展趨勢來看，AI建網(wǎng)站能力的提升可能需要在幾個方向同時發(fā)力：首先是改進(jìn)AI對復(fù)雜項目結(jié)構(gòu)的理解和組織能力；其次是增強(qiáng)AI在調(diào)試和問題解決方面的能力；再次是提升AI對用戶體驗和設(shè)計美學(xué)的理解；最后是加強(qiáng)AI與各種開發(fā)工具和部署平臺的集成能力。

值得注意的是，AI建網(wǎng)站技術(shù)的發(fā)展不僅僅是一個技術(shù)問題，也涉及到開發(fā)流程、質(zhì)量保證、維護(hù)管理等多個方面。即使AI能夠生成完美的初始網(wǎng)站，如何確保后續(xù)的維護(hù)、更新、安全patch等工作仍然是需要解決的問題。

總的來說，WebGen-Bench為我們提供了一個清晰的起點，讓我們知道當(dāng)前AI建網(wǎng)站技術(shù)處在什么水平，距離實用化還有多遠(yuǎn)。雖然這個距離還不短，但WebGen-LM系列模型的成功表明，通過有針對性的研究和訓(xùn)練，這個距離正在逐步縮短。未來幾年，我們很可能會看到AI在網(wǎng)站建設(shè)領(lǐng)域發(fā)揮越來越重要的作用，從最初的代碼輔助工具逐步發(fā)展為更加智能和可靠的開發(fā)伙伴。

Q&A

Q1：WebGen-Bench是什么？它主要用來做什么？ A：WebGen-Bench是港中文團(tuán)隊開發(fā)的全球首個專門評估AI從零生成網(wǎng)站能力的基準(zhǔn)測試平臺。它包含101個網(wǎng)站建設(shè)指令和647個功能測試用例，用來客觀評估不同AI模型在網(wǎng)站建設(shè)任務(wù)上的表現(xiàn)，就像給AI安排的"建網(wǎng)站能力考試"。

Q2：目前最強(qiáng)的AI建網(wǎng)站準(zhǔn)確率只有27.8%，這意味著什么？ A：這意味著AI建網(wǎng)站技術(shù)還處在早期階段，距離實用化還有較大差距。AI可能在100個建網(wǎng)站任務(wù)中只能完全做對28個，其余的要么部分正確要么完全失敗。不過，對于簡單的展示型網(wǎng)站或代碼框架生成，已經(jīng)具備了一定實用價值。

Q3：WebGen-LM模型有什么特別之處？普通人能用到嗎？ A：WebGen-LM是專門針對網(wǎng)站建設(shè)任務(wù)訓(xùn)練的AI模型，準(zhǔn)確率達(dá)到38.2%，超過了通用模型。目前這些模型主要供研究使用，普通用戶可以通過GitHub獲取開源代碼和數(shù)據(jù)，但還沒有成熟的商業(yè)化產(chǎn)品可供直接使用。

人工智能網(wǎng)站生成基準(zhǔn)測試

分享至

0贊

好文章，需要你的鼓勵

推薦文章

音頻生成
大語言模型
多模態(tài)AI

2025-09-10 09:47

如何讓AI像電影配樂師一樣創(chuàng)作完整的長篇音頻故事——騰訊ARC實驗室團(tuán)隊AudioStory突破性進(jìn)展

騰訊ARC實驗室推出AudioStory系統(tǒng)，首次實現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù)，通過交錯式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練，能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測試中表現(xiàn)優(yōu)異，為AI音頻創(chuàng)作開辟新方向。
視頻生成
深度學(xué)習(xí)
多模態(tài)學(xué)習(xí)

2025-09-09 13:57

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動起來不再是奢望

Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù)，通過讓AI同時學(xué)習(xí)外觀和運動信息，顯著解決了當(dāng)前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個線性層就能大幅提升運動質(zhì)量，在多項測試中超越包括Sora在內(nèi)的商業(yè)模型，為AI視頻生成的實用化應(yīng)用奠定了重要基礎(chǔ)。
多模態(tài)AI
人類價值觀對齊
數(shù)據(jù)集構(gòu)建

2025-09-09 13:56

上海AI實驗室重磅發(fā)布：讓AI看圖"說人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類價值觀對齊難題

上海AI實驗室發(fā)布OmniAlign-V研究，首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評測基準(zhǔn)，通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法，讓AI在保持技術(shù)能力的同時顯著提升人性化交互水平，為AI價值觀對齊提供了可行技術(shù)路徑。
人工智能
圖神經(jīng)網(wǎng)絡(luò)
天氣預(yù)報

2025-09-09 10:56

谷歌研究團(tuán)隊發(fā)布超級預(yù)測模型：讓AI像天氣預(yù)報員一樣預(yù)測全球大氣變化

谷歌DeepMind團(tuán)隊開發(fā)的GraphCast是一個革命性的AI天氣預(yù)測模型，能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報，準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù)，通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律，在極端天氣預(yù)測方面表現(xiàn)卓越，能耗僅為傳統(tǒng)方法的千分之一，為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。

如何讓AI像電影配樂師一樣創(chuàng)作完整的長篇音頻故事——騰訊ARC實驗室團(tuán)隊AudioStory突破性進(jìn)展

如何讓AI像電影配樂師一樣創(chuàng)作完整的長篇音頻故事——騰訊ARC實驗室團(tuán)隊AudioStory突破性進(jìn)展

2025-09-10 09:47

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動起來不再是奢望

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動起來不再是奢望

2025-09-09 13:57

上海AI實驗室重磅發(fā)布：讓AI看圖"說人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類價值觀對齊難題

上海AI實驗室重磅發(fā)布：讓AI看圖"說人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類價值觀對齊難題

2025-09-09 13:56

谷歌研究團(tuán)隊發(fā)布超級預(yù)測模型：讓AI像天氣預(yù)報員一樣預(yù)測全球大氣變化

谷歌研究團(tuán)隊發(fā)布超級預(yù)測模型：讓AI像天氣預(yù)報員一樣預(yù)測全球大氣變化

2025-09-09 10:56

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

友情鏈接

至頂網(wǎng)
管理現(xiàn)代化
和訊IT
TechWeb
第三媒體
速途網(wǎng)
51CTO傳媒
投資界
科技訊
智者新時代

京ICP證15039648號京ICP備15039648號-9 京公網(wǎng)安備 11010802021500號

北京第二十六維信息技術(shù)有限公司（至頂網(wǎng)）版權(quán)所有。 | 聯(lián)絡(luò)我們

舉報電話：010-62641205　涉未成年人舉報專線：010-62641208 舉報郵箱: jubao@zhiding.cn 　網(wǎng)上有害信息舉報專區(qū)：https://www.12377.cn

<abbr id="hdvlk"></abbr>