av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見證連接與計(jì)算的「力量」

首頁(yè) 港中文團(tuán)隊(duì)發(fā)布WebGen-Bench:讓AI從零寫網(wǎng)站,但最強(qiáng)模型正確率僅27.8%

港中文團(tuán)隊(duì)發(fā)布WebGen-Bench:讓AI從零寫網(wǎng)站,但最強(qiáng)模型正確率僅27.8%

2025-07-08 09:45
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-07-08 09:45 ? 科技行者

這項(xiàng)由香港中文大學(xué)多媒體實(shí)驗(yàn)室(MMLab)的盧子木、楊云橋、任厚興等研究團(tuán)隊(duì)完成的開創(chuàng)性研究發(fā)表于2025年5月。研究團(tuán)隊(duì)構(gòu)建了業(yè)界首個(gè)專門評(píng)估大語(yǔ)言模型從零生成網(wǎng)站能力的基準(zhǔn)測(cè)試WebGen-Bench,并開源了相關(guān)代碼和數(shù)據(jù)。有興趣深入了解的讀者可以通過GitHub鏈接(https://github.com/mnluzimu/WebGen-Bench)訪問完整的研究資料和開源代碼。

隨著人工智能技術(shù)的飛速發(fā)展,我們經(jīng)常聽說AI能寫代碼、能聊天、能畫畫,但如果讓AI從零開始建一個(gè)完整的網(wǎng)站,它能做到什么程度呢?這個(gè)問題聽起來簡(jiǎn)單,但實(shí)際上比我們想象的要復(fù)雜得多。就像讓一個(gè)人不僅要會(huì)做菜,還要能開餐廳、管理后廚、設(shè)計(jì)菜單、裝修門面一樣,建網(wǎng)站需要AI同時(shí)掌握多種技能:規(guī)劃網(wǎng)站結(jié)構(gòu)、編寫代碼文件、實(shí)現(xiàn)各種功能、還要讓頁(yè)面看起來美觀實(shí)用。

港中文的研究團(tuán)隊(duì)意識(shí)到,雖然市面上有很多評(píng)估AI編程能力的測(cè)試,但這些測(cè)試大多像是"修補(bǔ)工作"——給AI一個(gè)已經(jīng)存在的代碼庫(kù),讓它修復(fù)bug或者添加小功能。但真正從零開始建一個(gè)網(wǎng)站,就像是讓AI當(dāng)一回"建筑師兼施工隊(duì)長(zhǎng)",需要從地基開始,一磚一瓦地蓋起整棟房子。為了填補(bǔ)這個(gè)空白,他們創(chuàng)建了WebGen-Bench這個(gè)專門的測(cè)試平臺(tái)。

這個(gè)研究的重要性在于,它第一次系統(tǒng)性地回答了一個(gè)關(guān)鍵問題:當(dāng)我們把建網(wǎng)站這個(gè)任務(wù)完全交給AI時(shí),它能做得有多好?這不僅關(guān)系到程序員的工作會(huì)如何變化,更關(guān)系到普通人是否有一天能夠通過簡(jiǎn)單的自然語(yǔ)言描述,就讓AI幫自己建一個(gè)功能完整的網(wǎng)站。研究結(jié)果顯示,即使是目前最強(qiáng)的AI模型,在這個(gè)任務(wù)上的表現(xiàn)也只有27.8%的正確率,這意味著AI建網(wǎng)站的路還很長(zhǎng),但同時(shí)也展現(xiàn)了巨大的發(fā)展空間。

一、WebGen-Bench:為AI建網(wǎng)站能力量身定制的"考試系統(tǒng)"

要評(píng)估AI建網(wǎng)站的能力,首先需要一套公平、全面的"考試題目"。港中文團(tuán)隊(duì)設(shè)計(jì)的WebGen-Bench就像是為AI量身定制的網(wǎng)站建設(shè)能力測(cè)試中心。這個(gè)測(cè)試系統(tǒng)的設(shè)計(jì)思路很像我們熟悉的駕照考試——不僅要考理論知識(shí),更要看實(shí)際操作能力。

研究團(tuán)隊(duì)首先面臨一個(gè)挑戰(zhàn):如何創(chuàng)造出既多樣又實(shí)用的網(wǎng)站建設(shè)任務(wù)?他們采用了一種很聰明的方法,就像美食節(jié)目中廚師們會(huì)根據(jù)不同菜系和口味偏好設(shè)計(jì)挑戰(zhàn)一樣。團(tuán)隊(duì)先是仔細(xì)研究了Upwork、Freelancer、Proginn等真實(shí)的網(wǎng)站開發(fā)接單平臺(tái),從中總結(jié)出20種最常見的網(wǎng)站類型,包括個(gè)人作品集網(wǎng)站、企業(yè)宣傳網(wǎng)站、電商平臺(tái)、社交媒體、論壇系統(tǒng)等等。

接下來,他們召集了40名計(jì)算機(jī)科學(xué)博士生進(jìn)行"頭腦風(fēng)暴",就像編劇團(tuán)隊(duì)一起構(gòu)思劇本一樣。這些博士生根據(jù)這20種網(wǎng)站類型,設(shè)想出各種具體的應(yīng)用場(chǎng)景和功能需求,最終創(chuàng)造出了10,152個(gè)項(xiàng)目描述。這些描述就像是"甲方"給開發(fā)者的需求文檔,詳細(xì)說明了網(wǎng)站需要實(shí)現(xiàn)什么功能、長(zhǎng)什么樣子。

為了確保指令的質(zhì)量和多樣性,研究團(tuán)隊(duì)使用GPT-4o將這些項(xiàng)目描述轉(zhuǎn)換成了自然語(yǔ)言指令。這個(gè)過程就像是把技術(shù)規(guī)格書翻譯成普通人能理解的話。比如,一個(gè)技術(shù)規(guī)格可能寫著"實(shí)現(xiàn)用戶認(rèn)證系統(tǒng)和CRUD操作",翻譯后的指令就會(huì)說"請(qǐng)建一個(gè)網(wǎng)站,用戶可以注冊(cè)登錄,還能添加、查看、修改和刪除自己的信息"。

最終,研究團(tuán)隊(duì)精心挑選出101個(gè)最具代表性的指令作為正式測(cè)試集,這些指令涵蓋了幾乎所有重要的網(wǎng)站應(yīng)用類型。每個(gè)指令的平均長(zhǎng)度約為497個(gè)字符,包含的功能需求平均有6.4個(gè),確保了測(cè)試的充分性。同時(shí),為了避免訓(xùn)練數(shù)據(jù)污染問題,團(tuán)隊(duì)還構(gòu)建了一個(gè)包含6,667個(gè)指令的訓(xùn)練集WebGen-Instruct,并通過嚴(yán)格的去重處理確保訓(xùn)練集和測(cè)試集之間沒有重疊。

這種設(shè)計(jì)確保了WebGen-Bench能夠全面考察AI在網(wǎng)站建設(shè)各個(gè)環(huán)節(jié)的能力,從高層規(guī)劃到具體實(shí)現(xiàn),從功能開發(fā)到界面設(shè)計(jì),形成了一個(gè)完整的評(píng)估體系。

二、647個(gè)"實(shí)際操作題":如何驗(yàn)證AI建的網(wǎng)站真正能用

光有建網(wǎng)站的指令還不夠,就像考駕照不能只看你會(huì)不會(huì)背交通規(guī)則,還得看你能不能真正把車開好一樣。港中文團(tuán)隊(duì)面臨的下一個(gè)挑戰(zhàn)是:如何客觀地評(píng)判AI建出來的網(wǎng)站質(zhì)量如何?

為了解決這個(gè)問題,研究團(tuán)隊(duì)為每個(gè)網(wǎng)站建設(shè)指令都設(shè)計(jì)了詳細(xì)的"功能測(cè)試題"。這個(gè)過程就像為每道菜譜都準(zhǔn)備相應(yīng)的品嘗標(biāo)準(zhǔn)一樣。他們首先使用GPT-4o為每個(gè)指令生成初步的測(cè)試用例,然后安排兩名計(jì)算機(jī)科學(xué)博士生獨(dú)立審查和完善這些測(cè)試用例。如果兩人的意見不一致,就通過討論達(dá)成共識(shí),確保每個(gè)測(cè)試用例都準(zhǔn)確對(duì)應(yīng)指令中的某個(gè)具體要求。

最終,101個(gè)建網(wǎng)站指令共產(chǎn)生了647個(gè)測(cè)試用例,平均每個(gè)指令有6.4個(gè)測(cè)試用例。每個(gè)測(cè)試用例都設(shè)計(jì)得很具體,包含兩個(gè)核心部分:要執(zhí)行的操作和期望的結(jié)果。比如,對(duì)于一個(gè)在線商店網(wǎng)站,一個(gè)測(cè)試用例可能是"在購(gòu)物車中添加商品,然后進(jìn)入結(jié)賬頁(yè)面",期望的結(jié)果是"商品正確顯示在購(gòu)物車中,結(jié)賬頁(yè)面能正常加載并顯示商品信息和價(jià)格"。

傳統(tǒng)的做法是請(qǐng)人工測(cè)試員逐一測(cè)試這些網(wǎng)站,但這樣做成本高昂且耗時(shí)巨大。研究團(tuán)隊(duì)估算,如果用人工測(cè)試,完成所有647個(gè)測(cè)試用例需要大約10.8小時(shí),成本約377.8美元。更重要的是,人工測(cè)試的速度太慢,無法支持快速迭代和大規(guī)模實(shí)驗(yàn)。

因此,團(tuán)隊(duì)引入了一個(gè)"自動(dòng)化測(cè)試助手"——基于WebVoyager的UI代理。這就像是雇傭了一個(gè)永不疲倦的測(cè)試員,它能夠像真實(shí)用戶一樣瀏覽網(wǎng)站、點(diǎn)擊按鈕、填寫表單、查看頁(yè)面內(nèi)容。這個(gè)AI測(cè)試助手使用Qwen2.5-VL-32B-Instruct作為"大腦",能夠理解測(cè)試指令,執(zhí)行相應(yīng)操作,并判斷結(jié)果是否符合期望。

AI測(cè)試助手的工作流程很有趣:它會(huì)根據(jù)測(cè)試用例的描述在網(wǎng)站上執(zhí)行相應(yīng)操作,比如搜索特定內(nèi)容、提交表單、導(dǎo)航到不同頁(yè)面等。然后,它會(huì)仔細(xì)"觀察"網(wǎng)站的反應(yīng),分析頁(yè)面變化、內(nèi)容顯示等,最后給出YES(完全達(dá)到期望)、PARTIAL(部分達(dá)到期望)或NO(未達(dá)到期望)的評(píng)判。

為了驗(yàn)證這個(gè)自動(dòng)化測(cè)試系統(tǒng)的準(zhǔn)確性,研究團(tuán)隊(duì)還進(jìn)行了人工驗(yàn)證。他們選擇了三個(gè)代表性模型的測(cè)試結(jié)果,安排人工測(cè)試員進(jìn)行同樣的測(cè)試,然后比較AI測(cè)試助手和人工測(cè)試員的結(jié)果。令人欣慰的是,AI測(cè)試助手的判斷與人工測(cè)試員的一致性達(dá)到了86.1%到94.4%,證明了自動(dòng)化測(cè)試的可靠性。

除了功能測(cè)試,研究團(tuán)隊(duì)還設(shè)計(jì)了外觀評(píng)估系統(tǒng)。畢竟,一個(gè)網(wǎng)站不僅要功能正常,還要看起來美觀大方。他們使用GPT-4o對(duì)每個(gè)生成的網(wǎng)站進(jìn)行外觀評(píng)分,評(píng)估標(biāo)準(zhǔn)包括頁(yè)面渲染是否正確、內(nèi)容是否相關(guān)、布局是否和諧、設(shè)計(jì)是否現(xiàn)代美觀等,最終給出1到5分的評(píng)分。

三、三大代理框架同臺(tái)競(jìng)技:誰(shuí)是最佳"AI建站助手"

有了完善的測(cè)試系統(tǒng),接下來就要看不同的AI代理框架在建網(wǎng)站任務(wù)上的實(shí)際表現(xiàn)了。港中文團(tuán)隊(duì)選擇了三個(gè)目前最受歡迎的代碼生成代理框架進(jìn)行對(duì)比測(cè)試,就像是讓三位不同風(fēng)格的建筑師用同樣的材料建房子,看看誰(shuí)的作品更優(yōu)秀。

第一位"選手"是Bolt.diy,它是知名網(wǎng)站建設(shè)工具Bolt.new的開源版本。Bolt.diy就像是一位專門的網(wǎng)站建筑師,它專門為網(wǎng)站開發(fā)而設(shè)計(jì)。當(dāng)接到建站任務(wù)時(shí),Bolt.diy會(huì)首先決定使用哪些技術(shù)框架(比如React、Vite、Remix等),然后導(dǎo)入基礎(chǔ)模板,在此基礎(chǔ)上逐步構(gòu)建完整的網(wǎng)站。它提供了一個(gè)類似瀏覽器的操作環(huán)境,可以實(shí)時(shí)預(yù)覽網(wǎng)站效果,就像建筑師可以在繪圖板上隨時(shí)查看設(shè)計(jì)效果一樣。

第二位"選手"是OpenHands,這是一個(gè)通用的AI軟件開發(fā)平臺(tái)。OpenHands就像是一個(gè)多才多藝的全能工程師,不僅能建網(wǎng)站,還能處理各種其他的編程任務(wù)。在這次測(cè)試中,研究團(tuán)隊(duì)讓OpenHands搭配CodeActAgent來執(zhí)行網(wǎng)站建設(shè)任務(wù)。

第三位"選手"是Aider,這是一個(gè)基于終端的AI編程框架。Aider就像是一位經(jīng)驗(yàn)豐富的命令行專家,它原生支持多種編程語(yǔ)言,包括Python、JavaScript、PHP、HTML、CSS等。Aider的特長(zhǎng)是構(gòu)建整個(gè)代碼庫(kù)的"地圖",這使得它在處理大型項(xiàng)目時(shí)表現(xiàn)出色。

為了公平比較,研究團(tuán)隊(duì)首先讓這三個(gè)框架都使用DeepSeek-V3作為"大腦"進(jìn)行初步測(cè)試。結(jié)果顯示,Bolt.diy明顯領(lǐng)先,準(zhǔn)確率達(dá)到20.8%,而OpenHands只有9.0%,Aider為14.1%。這個(gè)結(jié)果其實(shí)并不意外,因?yàn)锽olt.diy是專門為網(wǎng)站開發(fā)設(shè)計(jì)的,就像專業(yè)廚師在烹飪比賽中通常會(huì)比業(yè)余愛好者表現(xiàn)更好一樣。

既然Bolt.diy表現(xiàn)最佳,研究團(tuán)隊(duì)就以它為平臺(tái),測(cè)試了多種不同的大語(yǔ)言模型作為"大腦"的效果。他們測(cè)試了Claude-3.5-Sonnet、DeepSeek-R1、GPT-4o、o3-mini、Qwen2.5-Coder-32B、Qwen2.5-72B-Instruct等多個(gè)模型。

測(cè)試結(jié)果頗有意思:DeepSeek-R1取得了最高的功能準(zhǔn)確率27.8%,緊隨其后的是Claude-3.5-Sonnet的26.4%。但在外觀設(shè)計(jì)方面,Claude-3.5-Sonnet獲得了3.0分的最高評(píng)分,而DeepSeek-R1只有2.5分。這就像是一個(gè)工程師功能實(shí)現(xiàn)能力很強(qiáng),但審美水平一般,而另一個(gè)工程師雖然功能稍遜,但設(shè)計(jì)品味更好。

值得注意的是,即使是表現(xiàn)最好的組合(Bolt.diy + DeepSeek-R1),在647個(gè)測(cè)試用例中也只有27.8%的準(zhǔn)確率。這個(gè)結(jié)果看似不高,但要知道,建網(wǎng)站是一個(gè)極其復(fù)雜的任務(wù),需要AI同時(shí)掌握規(guī)劃、編程、設(shè)計(jì)、測(cè)試等多種技能。就像讓一個(gè)人同時(shí)扮演建筑師、工程師、裝修工和質(zhì)檢員的角色一樣,出錯(cuò)的環(huán)節(jié)太多了。

從錯(cuò)誤分析來看,超過一半的失敗案例都是因?yàn)榫W(wǎng)站啟動(dòng)失敗或模板修改不當(dāng)造成的。這說明當(dāng)前AI在網(wǎng)站項(xiàng)目的基礎(chǔ)設(shè)施搭建和環(huán)境配置方面還存在明顯不足,就像蓋房子時(shí)地基沒打好,后面的工程自然無法順利進(jìn)行。

四、分類表現(xiàn)分析:AI在不同類型網(wǎng)站建設(shè)中的"偏科"現(xiàn)象

深入分析測(cè)試結(jié)果,研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象:AI在不同類型的網(wǎng)站建設(shè)任務(wù)中表現(xiàn)差異很大,就像學(xué)生在不同科目上會(huì)有明顯的強(qiáng)弱項(xiàng)一樣。

從網(wǎng)站功能類型來看,研究團(tuán)隊(duì)將101個(gè)測(cè)試指令分為三大類:內(nèi)容展示類、用戶交互類和數(shù)據(jù)管理類。內(nèi)容展示類網(wǎng)站主要負(fù)責(zé)信息呈現(xiàn),比如企業(yè)官網(wǎng)、個(gè)人作品集、新聞網(wǎng)站等,這類網(wǎng)站相對(duì)簡(jiǎn)單,主要是靜態(tài)頁(yè)面展示。用戶交互類網(wǎng)站需要處理用戶操作,比如表單提交、用戶登錄、實(shí)時(shí)聊天、電商交易等,復(fù)雜度中等。數(shù)據(jù)管理類網(wǎng)站則要處理復(fù)雜的數(shù)據(jù)操作,比如增刪改查、API集成、大數(shù)據(jù)處理等,是最復(fù)雜的類型。

測(cè)試結(jié)果顯示,AI在內(nèi)容展示類網(wǎng)站上表現(xiàn)最好,平均準(zhǔn)確率能達(dá)到35%以上。這就像讓一個(gè)新手廚師做簡(jiǎn)單的涼菜拌盤,雖然不夠精致,但基本能做到色香味俱全。相比之下,AI在數(shù)據(jù)管理類網(wǎng)站上的表現(xiàn)最差,準(zhǔn)確率普遍在10-20%之間,就像讓新手廚師做復(fù)雜的法式大餐,往往顧此失彼,難以兼顧。

從測(cè)試用例類型來看,研究團(tuán)隊(duì)將647個(gè)測(cè)試用例分為功能測(cè)試、數(shù)據(jù)展示測(cè)試和設(shè)計(jì)驗(yàn)證測(cè)試三類。功能測(cè)試占比最大(52.4%),主要驗(yàn)證網(wǎng)站的各種功能是否正常工作,比如表單提交、用戶認(rèn)證、搜索功能等。數(shù)據(jù)展示測(cè)試(28.7%)主要檢查網(wǎng)站是否能正確顯示和更新數(shù)據(jù),比如用戶信息、產(chǎn)品列表、統(tǒng)計(jì)圖表等。設(shè)計(jì)驗(yàn)證測(cè)試(18.9%)則關(guān)注網(wǎng)站的外觀和用戶體驗(yàn),比如顏色搭配、布局合理性、響應(yīng)式設(shè)計(jì)等。

令人意外的是,AI在設(shè)計(jì)驗(yàn)證測(cè)試中的表現(xiàn)最好,平均準(zhǔn)確率能達(dá)到40-50%。這說明當(dāng)前AI在實(shí)現(xiàn)指定的顏色、字體、布局等設(shè)計(jì)要求方面相對(duì)可靠,就像一個(gè)裝修工人能夠按照設(shè)計(jì)圖紙準(zhǔn)確地刷墻貼瓷磚一樣。而在功能測(cè)試中,AI的表現(xiàn)相對(duì)較差,平均準(zhǔn)確率只有20-30%,說明在實(shí)現(xiàn)復(fù)雜交互邏輯方面還有很大提升空間。

另一個(gè)有趣的發(fā)現(xiàn)是,AI生成的網(wǎng)站在文件數(shù)量和代碼行數(shù)上呈現(xiàn)出明顯的模式。表現(xiàn)好的模型(如WebGen-LM系列)傾向于生成更多代碼行數(shù)而不過度增加文件數(shù)量,平均每個(gè)項(xiàng)目約8個(gè)文件、315行代碼。而表現(xiàn)較差的模型(如GPT-4o、o3-mini)則容易生成過多的小文件,每個(gè)文件代碼很少,導(dǎo)致項(xiàng)目結(jié)構(gòu)混亂,就像把一本書撕成很多碎片分別裝訂,反而不如保持相對(duì)完整的章節(jié)結(jié)構(gòu)。

這些分析結(jié)果為改進(jìn)AI建網(wǎng)站能力指明了方向:當(dāng)前最需要提升的是復(fù)雜功能的實(shí)現(xiàn)能力和項(xiàng)目結(jié)構(gòu)的組織能力,而在基礎(chǔ)的頁(yè)面展示和設(shè)計(jì)實(shí)現(xiàn)方面,AI已經(jīng)有了不錯(cuò)的基礎(chǔ)。

五、訓(xùn)練專門的"網(wǎng)站建設(shè)AI":WebGen-LM系列模型的誕生

看到現(xiàn)有AI模型在網(wǎng)站建設(shè)任務(wù)上的表現(xiàn)還有很大提升空間,港中文團(tuán)隊(duì)決定"因材施教",專門訓(xùn)練一系列針對(duì)網(wǎng)站建設(shè)優(yōu)化的AI模型,這就是WebGen-LM系列。

這個(gè)過程就像是從通用工程師中培養(yǎng)專業(yè)的網(wǎng)站建設(shè)專家。研究團(tuán)隊(duì)首先從他們構(gòu)建的WebGen-Instruct訓(xùn)練集中精選出2000個(gè)高質(zhì)量的網(wǎng)站建設(shè)指令,然后使用表現(xiàn)最好的DeepSeek-V3模型來生成相應(yīng)的建站過程軌跡。這就像是讓一位經(jīng)驗(yàn)豐富的老師傅手把手地演示如何建網(wǎng)站,記錄下每一個(gè)步驟和決策過程。

為了確保訓(xùn)練質(zhì)量,團(tuán)隊(duì)采用了"拒絕采樣"的方法,只保留那些生成網(wǎng)站外觀評(píng)分達(dá)到3分以上的軌跡。這個(gè)過程就像是篩選優(yōu)秀作品用作教學(xué)案例,只有那些既功能完善又外觀合格的網(wǎng)站建設(shè)過程才被保留下來。經(jīng)過篩選,最終得到了600個(gè)高質(zhì)量的訓(xùn)練軌跡。

基于這些珍貴的訓(xùn)練數(shù)據(jù),研究團(tuán)隊(duì)對(duì)Qwen2.5-Coder-Instruct系列的三個(gè)不同規(guī)模模型(7B、14B、32B參數(shù))進(jìn)行了專門的微調(diào)訓(xùn)練。訓(xùn)練過程很像教授專業(yè)課程:使用4e-5的學(xué)習(xí)率,批次大小為32,訓(xùn)練2個(gè)epoch。不同規(guī)模的模型使用不同數(shù)量的GPU進(jìn)行訓(xùn)練,32B模型使用32塊A800 GPU,訓(xùn)練資源最為密集。

訓(xùn)練完成后,WebGen-LM系列模型在網(wǎng)站建設(shè)任務(wù)上的表現(xiàn)令人印象深刻。最大的WebGen-LM-32B模型達(dá)到了38.2%的準(zhǔn)確率,不僅比原始的Qwen2.5-Coder-32B-Instruct(9.5%)提升了4倍,甚至超過了表現(xiàn)最好的通用模型DeepSeek-R1(27.8%)。這個(gè)結(jié)果充分證明了專門訓(xùn)練的價(jià)值,就像專業(yè)培訓(xùn)確實(shí)能讓普通工程師成為網(wǎng)站建設(shè)專家。

更有趣的是,隨著模型規(guī)模的增大,性能提升也很明顯:WebGen-LM-7B達(dá)到28.4%,WebGen-LM-14B達(dá)到29.4%,WebGen-LM-32B達(dá)到38.2%。這種規(guī)律性的提升說明,對(duì)于復(fù)雜的網(wǎng)站建設(shè)任務(wù),更大的模型確實(shí)能夠?qū)W習(xí)到更豐富的知識(shí)和更細(xì)致的技能。

從生成的代碼質(zhì)量來看,WebGen-LM系列模型也展現(xiàn)出了更好的工程實(shí)踐。它們生成的網(wǎng)站平均包含更多的代碼行數(shù),但文件組織更加合理,不會(huì)像一些通用模型那樣生成過多的小文件導(dǎo)致項(xiàng)目結(jié)構(gòu)混亂。這說明專門訓(xùn)練讓AI學(xué)會(huì)了更好的軟件工程實(shí)踐,就像專業(yè)培訓(xùn)讓程序員學(xué)會(huì)了如何組織大型項(xiàng)目的代碼結(jié)構(gòu)。

值得注意的是,所有WebGen-LM模型生成的代碼行數(shù)都超過了它們的"老師"DeepSeek-V3,這在一定程度上歸因于拒絕采樣過程的作用。通過只學(xué)習(xí)高質(zhì)量的網(wǎng)站建設(shè)案例,模型學(xué)會(huì)了生成更完整、更詳細(xì)的實(shí)現(xiàn),而不是簡(jiǎn)單地抄襲模板或生成功能不完整的代碼。

這一系列實(shí)驗(yàn)結(jié)果表明,針對(duì)特定任務(wù)進(jìn)行專門訓(xùn)練確實(shí)是提升AI能力的有效途徑。雖然WebGen-LM模型仍然沒有達(dá)到完美的水平,但38.2%的準(zhǔn)確率已經(jīng)代表了當(dāng)前技術(shù)條件下的一個(gè)重要突破,為未來進(jìn)一步改進(jìn)指明了方向。

六、自動(dòng)化測(cè)試驗(yàn)證:AI測(cè)試員的可靠性如何?

既然使用了AI測(cè)試助手來評(píng)估網(wǎng)站質(zhì)量,一個(gè)自然的問題是:這個(gè)AI測(cè)試員本身靠譜嗎?港中文團(tuán)隊(duì)對(duì)此進(jìn)行了專門的驗(yàn)證研究,就像我們需要驗(yàn)證新的考試評(píng)分系統(tǒng)是否公正準(zhǔn)確一樣。

研究團(tuán)隊(duì)選擇了三個(gè)代表性的模型組合(Bolt.diy配合Claude-3.5-Sonnet、DeepSeek-R1和DeepSeek-V3)的測(cè)試結(jié)果,安排人工測(cè)試員進(jìn)行同樣的測(cè)試任務(wù)。人工測(cè)試過程要求很高的精確性,因此團(tuán)隊(duì)安排了三名測(cè)試員獨(dú)立完成每個(gè)測(cè)試用例,如果出現(xiàn)意見分歧,就由第四位測(cè)試員重新檢查并做出最終判斷。

對(duì)比結(jié)果顯示,AI測(cè)試助手的判斷與人工測(cè)試員的一致性相當(dāng)高。對(duì)于Claude-3.5-Sonnet的測(cè)試結(jié)果,一致性達(dá)到90.3%;對(duì)于DeepSeek-R1為86.1%;對(duì)于DeepSeek-V3為94.4%。這個(gè)一致性水平說明AI測(cè)試助手在大多數(shù)情況下能夠準(zhǔn)確判斷網(wǎng)站功能是否正常工作,就像一個(gè)訓(xùn)練有素的質(zhì)檢員能夠準(zhǔn)確識(shí)別產(chǎn)品缺陷一樣。

更詳細(xì)的分析顯示,AI測(cè)試助手在不同類型的測(cè)試用例上表現(xiàn)也有差異。在簡(jiǎn)單的頁(yè)面展示和基礎(chǔ)交互測(cè)試中,AI測(cè)試助手的判斷準(zhǔn)確性更高,與人工測(cè)試員的一致性經(jīng)常超過95%。而在涉及復(fù)雜業(yè)務(wù)邏輯或細(xì)微用戶體驗(yàn)的測(cè)試中,一致性會(huì)稍微降低,但仍然保持在85%以上的水平。

有趣的是,當(dāng)AI測(cè)試助手和人工測(cè)試員出現(xiàn)分歧時(shí),主要分歧集中在PARTIAL(部分滿足要求)的判斷上。人工測(cè)試員傾向于更嚴(yán)格的標(biāo)準(zhǔn),而AI測(cè)試助手有時(shí)會(huì)對(duì)邊界情況給出更寬松的評(píng)判。這就像是嚴(yán)格的老師和相對(duì)寬松的老師在評(píng)分時(shí)可能有不同的標(biāo)準(zhǔn),但都是合理的。

為了進(jìn)一步驗(yàn)證自動(dòng)化測(cè)試的可靠性,研究團(tuán)隊(duì)還分析了測(cè)試失敗的原因分布。結(jié)果顯示,超過一半的測(cè)試失敗是由于明顯的技術(shù)問題,比如網(wǎng)站無法啟動(dòng)、頁(yè)面加載錯(cuò)誤、關(guān)鍵功能完全缺失等。這些問題是AI測(cè)試助手和人工測(cè)試員都能輕易識(shí)別的,因此一致性很高。

另外大約30%的失敗是由于功能實(shí)現(xiàn)不完整或不正確,比如搜索功能返回錯(cuò)誤結(jié)果、表單提交后沒有反饋等。在這類問題的判斷上,AI測(cè)試助手也表現(xiàn)出了良好的識(shí)別能力,雖然偶爾會(huì)在細(xì)節(jié)判斷上與人工測(cè)試員有所差異。

剩下的失敗主要涉及用戶體驗(yàn)和界面細(xì)節(jié)問題,這是AI測(cè)試助手相對(duì)較難準(zhǔn)確判斷的領(lǐng)域。不過,由于這類問題在整體測(cè)試中占比較小,對(duì)總體評(píng)估結(jié)果的影響有限。

總的來說,自動(dòng)化測(cè)試驗(yàn)證結(jié)果表明,使用AI測(cè)試助手進(jìn)行網(wǎng)站功能評(píng)估是一個(gè)可行且相對(duì)可靠的方案。雖然它還不能完全替代人工測(cè)試,但在大規(guī)模、標(biāo)準(zhǔn)化的基準(zhǔn)測(cè)試中,它提供了一個(gè)高效、一致且成本低廉的評(píng)估方法。這種自動(dòng)化測(cè)試方法的成功,也為未來構(gòu)建更大規(guī)模的AI能力評(píng)估基準(zhǔn)鋪平了道路。

七、未來展望:AI建網(wǎng)站的路還有多遠(yuǎn)?

通過WebGen-Bench這項(xiàng)開創(chuàng)性研究,我們首次有了量化評(píng)估AI建網(wǎng)站能力的標(biāo)準(zhǔn)工具,也清楚地看到了當(dāng)前技術(shù)水平和實(shí)用化之間的差距。就像早期的汽車雖然能跑,但還遠(yuǎn)遠(yuǎn)達(dá)不到替代馬車的程度一樣,現(xiàn)在的AI建網(wǎng)站技術(shù)還處在"能用但不夠好"的階段。

27.8%的最高準(zhǔn)確率意味著什么?簡(jiǎn)單來說,如果你給AI 100個(gè)建網(wǎng)站的任務(wù),它大概能完全做對(duì)28個(gè),部分做對(duì)一些,剩下的可能完全搞砸。這個(gè)水平顯然還不足以讓普通人放心地把重要項(xiàng)目交給AI來完成,但已經(jīng)足以在一些簡(jiǎn)單場(chǎng)景下提供有價(jià)值的輔助。

從錯(cuò)誤分析中可以看出,當(dāng)前AI在網(wǎng)站建設(shè)中最大的短板是基礎(chǔ)環(huán)境配置和項(xiàng)目結(jié)構(gòu)組織。超過一半的失敗都是因?yàn)榫W(wǎng)站啟動(dòng)不了或者文件組織混亂,這就像廚師做菜時(shí)連火都點(diǎn)不著,或者把調(diào)料撒得到處都是。相比之下,AI在理解需求和實(shí)現(xiàn)簡(jiǎn)單功能方面已經(jīng)有了不錯(cuò)的基礎(chǔ)。

這個(gè)現(xiàn)狀其實(shí)反映了AI技術(shù)發(fā)展的一個(gè)典型特點(diǎn):在模式識(shí)別和內(nèi)容生成方面表現(xiàn)出色,但在系統(tǒng)性的工程實(shí)踐和復(fù)雜項(xiàng)目管理方面還有很大提升空間。就像AI可以寫出不錯(cuò)的詩(shī)歌和文章,但讓它管理一個(gè)完整的出版流程就困難重重。

WebGen-LM系列模型的成功訓(xùn)練為未來指明了一個(gè)可行的發(fā)展方向:專門化訓(xùn)練確實(shí)能夠顯著提升AI在特定任務(wù)上的表現(xiàn)。38.2%的準(zhǔn)確率雖然仍然不夠理想,但相比通用模型的表現(xiàn)已經(jīng)有了質(zhì)的飛躍。這說明,未來我們可能會(huì)看到更多針對(duì)特定領(lǐng)域深度優(yōu)化的AI模型,而不是一味追求"萬能"的通用模型。

從實(shí)際應(yīng)用角度來看,當(dāng)前的AI建網(wǎng)站技術(shù)已經(jīng)可以在一些特定場(chǎng)景下發(fā)揮價(jià)值。比如,對(duì)于簡(jiǎn)單的展示型網(wǎng)站、原型開發(fā)、或者為專業(yè)開發(fā)者提供初始代碼框架,現(xiàn)有技術(shù)已經(jīng)具備了一定的實(shí)用性。但對(duì)于復(fù)雜的商業(yè)網(wǎng)站、安全性要求高的應(yīng)用、或者需要與多個(gè)外部系統(tǒng)集成的項(xiàng)目,人工開發(fā)仍然是更可靠的選擇。

研究團(tuán)隊(duì)也指出了當(dāng)前工作的一些限制。WebGen-Bench主要聚焦于TypeScript、JavaScript、CSS和HTML等前端技術(shù),對(duì)于后端服務(wù)、數(shù)據(jù)庫(kù)設(shè)計(jì)、微服務(wù)架構(gòu)等更復(fù)雜的技術(shù)棧覆蓋有限。此外,當(dāng)前的訓(xùn)練方法主要使用監(jiān)督學(xué)習(xí),未來可能需要引入強(qiáng)化學(xué)習(xí)、直接偏好優(yōu)化等更先進(jìn)的訓(xùn)練策略來進(jìn)一步提升性能。

從技術(shù)發(fā)展趨勢(shì)來看,AI建網(wǎng)站能力的提升可能需要在幾個(gè)方向同時(shí)發(fā)力:首先是改進(jìn)AI對(duì)復(fù)雜項(xiàng)目結(jié)構(gòu)的理解和組織能力;其次是增強(qiáng)AI在調(diào)試和問題解決方面的能力;再次是提升AI對(duì)用戶體驗(yàn)和設(shè)計(jì)美學(xué)的理解;最后是加強(qiáng)AI與各種開發(fā)工具和部署平臺(tái)的集成能力。

值得注意的是,AI建網(wǎng)站技術(shù)的發(fā)展不僅僅是一個(gè)技術(shù)問題,也涉及到開發(fā)流程、質(zhì)量保證、維護(hù)管理等多個(gè)方面。即使AI能夠生成完美的初始網(wǎng)站,如何確保后續(xù)的維護(hù)、更新、安全patch等工作仍然是需要解決的問題。

總的來說,WebGen-Bench為我們提供了一個(gè)清晰的起點(diǎn),讓我們知道當(dāng)前AI建網(wǎng)站技術(shù)處在什么水平,距離實(shí)用化還有多遠(yuǎn)。雖然這個(gè)距離還不短,但WebGen-LM系列模型的成功表明,通過有針對(duì)性的研究和訓(xùn)練,這個(gè)距離正在逐步縮短。未來幾年,我們很可能會(huì)看到AI在網(wǎng)站建設(shè)領(lǐng)域發(fā)揮越來越重要的作用,從最初的代碼輔助工具逐步發(fā)展為更加智能和可靠的開發(fā)伙伴。

Q&A

Q1:WebGen-Bench是什么?它主要用來做什么? A:WebGen-Bench是港中文團(tuán)隊(duì)開發(fā)的全球首個(gè)專門評(píng)估AI從零生成網(wǎng)站能力的基準(zhǔn)測(cè)試平臺(tái)。它包含101個(gè)網(wǎng)站建設(shè)指令和647個(gè)功能測(cè)試用例,用來客觀評(píng)估不同AI模型在網(wǎng)站建設(shè)任務(wù)上的表現(xiàn),就像給AI安排的"建網(wǎng)站能力考試"。

Q2:目前最強(qiáng)的AI建網(wǎng)站準(zhǔn)確率只有27.8%,這意味著什么? A:這意味著AI建網(wǎng)站技術(shù)還處在早期階段,距離實(shí)用化還有較大差距。AI可能在100個(gè)建網(wǎng)站任務(wù)中只能完全做對(duì)28個(gè),其余的要么部分正確要么完全失敗。不過,對(duì)于簡(jiǎn)單的展示型網(wǎng)站或代碼框架生成,已經(jīng)具備了一定實(shí)用價(jià)值。

Q3:WebGen-LM模型有什么特別之處?普通人能用到嗎? A:WebGen-LM是專門針對(duì)網(wǎng)站建設(shè)任務(wù)訓(xùn)練的AI模型,準(zhǔn)確率達(dá)到38.2%,超過了通用模型。目前這些模型主要供研究使用,普通用戶可以通過GitHub獲取開源代碼和數(shù)據(jù),但還沒有成熟的商業(yè)化產(chǎn)品可供直接使用。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-