這項由H Company(法國AI公司)的M. Andreux、B. Baldas Skuk等數(shù)十位研究人員組成的大型團(tuán)隊完成的研究發(fā)表于2025年6月3日的arXiv預(yù)印本平臺,論文編號為arXiv:2506.02865v1。有興趣深入了解技術(shù)細(xì)節(jié)的讀者可以通過https://arxiv.org/abs/2506.02865訪問完整論文。
想象一下,你想讓AI幫你在網(wǎng)上訂個餐廳、買張電影票,或者搜索一些復(fù)雜信息。傳統(tǒng)的AI就像一個只會紙上談兵的書呆子——它們雖然知識淵博,但面對真實(shí)的網(wǎng)頁時卻束手無策,既看不懂頁面布局,也不知道該點(diǎn)哪個按鈕。更要命的是,如果你想讓ChatGPT這樣的頂級AI來幫你,每次操作的費(fèi)用高得讓人咋舌。
現(xiàn)在,H Company的研究團(tuán)隊就像是訓(xùn)練出了一位AI界的"網(wǎng)頁沖浪高手"。他們開發(fā)的Surfer-H系統(tǒng)配備了名為Holo1的開源AI模型,不僅能像人類一樣熟練地瀏覽網(wǎng)頁、點(diǎn)擊按鈕、填寫表格,更令人驚喜的是,它的表現(xiàn)竟然能與價格昂貴的GPT-4系列模型不相上下,但成本卻只有后者的幾分之一。
這項研究的突破性在于,它首次證明了小型開源模型經(jīng)過精心訓(xùn)練后,完全有能力在復(fù)雜的網(wǎng)頁操作任務(wù)中挑戰(zhàn)商業(yè)巨頭的閉源模型。研究團(tuán)隊不僅公開了所有模型權(quán)重,還發(fā)布了專門的網(wǎng)頁定位測試集WebClick,為整個AI社區(qū)的發(fā)展做出了重要貢獻(xiàn)。
一、像教孩子學(xué)電腦一樣訓(xùn)練AI網(wǎng)頁高手
傳統(tǒng)的AI就像是一個被關(guān)在圖書館里的學(xué)者,雖然博覽群書,但從未真正接觸過外面的世界。當(dāng)你讓它幫你在網(wǎng)上買東西時,它只能告訴你理論上應(yīng)該怎么做,卻無法真正動手操作。這就好比一個從未下過廚的人試圖指導(dǎo)你做菜——理論知識再豐富,沒有實(shí)踐經(jīng)驗(yàn)也是白搭。
H Company的研究團(tuán)隊面臨的挑戰(zhàn)就像是要把這個書呆子訓(xùn)練成一個熟練的網(wǎng)頁操作員。他們需要讓AI學(xué)會三項核心技能:首先是制定策略——就像人類瀏覽網(wǎng)頁時會思考"我現(xiàn)在需要做什么";其次是精準(zhǔn)定位——能夠在復(fù)雜的網(wǎng)頁中找到正確的按鈕或輸入框;最后是質(zhì)量把關(guān)——判斷自己的操作結(jié)果是否正確。
Surfer-H系統(tǒng)的設(shè)計就像是一個高效的工作團(tuán)隊,由三個專門的"部門"組成。策略制定部門(Policy)負(fù)責(zé)分析當(dāng)前頁面和任務(wù)目標(biāo),決定下一步應(yīng)該做什么,就像一個經(jīng)驗(yàn)豐富的項目經(jīng)理;定位部門(Localizer)專門負(fù)責(zé)在網(wǎng)頁上找到需要操作的具體位置,就像一個眼尖手快的技術(shù)員;質(zhì)量檢驗(yàn)部門(Validator)則負(fù)責(zé)檢查最終結(jié)果是否符合要求,就像一個嚴(yán)格的質(zhì)檢員。
這種分工合作的方式特別聰明,因?yàn)椴煌娜蝿?wù)需要不同的專業(yè)技能。就像在一家餐廳里,廚師專注于烹飪,服務(wù)員專注于服務(wù)客人,收銀員專注于結(jié)賬一樣,每個角色都在自己的專業(yè)領(lǐng)域內(nèi)發(fā)揮最大作用。
系統(tǒng)的記憶機(jī)制就像人類瀏覽網(wǎng)頁時的思維過程。它會記住之前訪問過哪些頁面、嘗試了什么操作、遇到了什么問題,然后基于這些經(jīng)驗(yàn)來指導(dǎo)下一步行動。這種記憶不是簡單的流水賬,而是包含了思考過程、關(guān)鍵信息和行動歷史的智能記錄。
二、三萬億字符的網(wǎng)頁訓(xùn)練營:從爬蟲數(shù)據(jù)到AI專家
訓(xùn)練Holo1就像是開辦一所專門的"網(wǎng)頁操作學(xué)院"。研究團(tuán)隊收集了超過三萬億個字符的訓(xùn)練數(shù)據(jù),這個數(shù)字聽起來很抽象,但換個說法你就明白了——這相當(dāng)于讓AI閱讀了幾千萬本書的內(nèi)容,而且這些"書"都是關(guān)于如何操作網(wǎng)頁的實(shí)用指南。
訓(xùn)練數(shù)據(jù)的構(gòu)成就像是為AI準(zhǔn)備的三道營養(yǎng)大餐。第一道是"基礎(chǔ)功夫菜",占了總訓(xùn)練量的一半多,主要來自真實(shí)網(wǎng)頁的爬取數(shù)據(jù)。研究團(tuán)隊從公開互聯(lián)網(wǎng)上收集了400萬個網(wǎng)頁,并標(biāo)記了其中8900萬個可點(diǎn)擊元素。這就像是讓AI觀摩了無數(shù)次真實(shí)的網(wǎng)頁操作演示,學(xué)會識別按鈕、鏈接、輸入框等各種網(wǎng)頁元素。
第二道是"技能提升菜",占訓(xùn)練量的三分之一,專門訓(xùn)練AI的高級理解能力。這包括學(xué)會驗(yàn)證點(diǎn)擊位置是否正確、從網(wǎng)頁中提取有用信息、回答關(guān)于網(wǎng)頁內(nèi)容的問題等。就像是讓AI不僅會看網(wǎng)頁,還要理解網(wǎng)頁想表達(dá)什么意思。
第三道是"實(shí)戰(zhàn)演練菜",雖然只占訓(xùn)練量的六分之一,但卻是最關(guān)鍵的部分。這些數(shù)據(jù)來自AI實(shí)際執(zhí)行任務(wù)時的操作記錄,就像是讓AI從自己和同伴的成功案例中學(xué)習(xí)。研究團(tuán)隊收集了大量成功完成任務(wù)的操作序列,讓AI學(xué)會在面對具體任務(wù)時應(yīng)該采取什么樣的行動策略。
特別有趣的是,研究團(tuán)隊還為AI準(zhǔn)備了一些"特訓(xùn)課程"。比如專門針對日歷操作的訓(xùn)練——因?yàn)樗麄儼l(fā)現(xiàn)現(xiàn)有的AI在處理日歷時經(jīng)常出錯。他們創(chuàng)建了專門的日歷網(wǎng)站,設(shè)計了各種日歷相關(guān)的任務(wù),讓AI反復(fù)練習(xí),直到完全掌握。這就像是發(fā)現(xiàn)學(xué)生在某個科目上有弱點(diǎn),就專門為這個科目開設(shè)補(bǔ)習(xí)班一樣。
還有針對表格理解的特訓(xùn)。很多AI在面對復(fù)雜表格時會犯糊涂,分不清哪些信息屬于哪一行哪一列。研究團(tuán)隊就專門生成了大量的表格數(shù)據(jù),讓AI練習(xí)如何正確理解和處理表格信息。
訓(xùn)練過程采用了一種叫做"濾過式行為克隆"的方法,聽起來很復(fù)雜,其實(shí)就像是"只學(xué)好學(xué)生的經(jīng)驗(yàn)"。研究團(tuán)隊只保留那些成功完成任務(wù)的操作記錄用于訓(xùn)練,把失敗的案例都過濾掉。這樣AI學(xué)到的都是正確的操作方式,避免了學(xué)習(xí)錯誤行為的風(fēng)險。
三、WebClick:專為網(wǎng)頁操作設(shè)計的AI考試
現(xiàn)有的AI測試就像是讓一個專門訓(xùn)練網(wǎng)頁操作的選手去參加通用的電腦技能考試——雖然也能測出一些能力,但無法準(zhǔn)確反映他在網(wǎng)頁操作方面的真實(shí)水平。研究團(tuán)隊意識到需要一個專門針對網(wǎng)頁操作的測試標(biāo)準(zhǔn),于是開發(fā)了WebClick基準(zhǔn)測試。
WebClick就像是為網(wǎng)頁操作AI設(shè)計的專業(yè)考試??荚噧?nèi)容包括1639個精心設(shè)計的測試題目,涵蓋了100多個不同的網(wǎng)站。每道題目都像是一個實(shí)際的操作場景:給AI一張網(wǎng)頁截圖和一個操作指令,比如"點(diǎn)擊購物車按鈕"或"選擇明天的日期",然后看AI能否準(zhǔn)確找到正確的位置。
這個考試的題目來源很有意思,就像是從三個不同的場景中收集真實(shí)案例。第一類來自AI自己在練習(xí)過程中遇到的情況——這就像是把學(xué)生平時做錯的題目收集起來,看看現(xiàn)在能不能做對。第二類來自人類日常上網(wǎng)時的真實(shí)操作記錄——這就像是觀察普通人是怎么使用網(wǎng)頁的,然后把這些場景變成考試題。第三類專門針對日歷操作設(shè)計,因?yàn)檠芯繄F(tuán)隊發(fā)現(xiàn)這是AI普遍的弱點(diǎn)。
日歷操作之所以困難,就像是讓AI學(xué)會看懂一個復(fù)雜的時間表。不同國家的日期格式不同,有的是"月/日/年",有的是"日/月/年",還有各種節(jié)假日標(biāo)記、周末突出顯示等。AI需要理解這些復(fù)雜的視覺信息,然后準(zhǔn)確找到用戶要求的特定日期。
考試結(jié)果讓人印象深刻。Holo1-3B模型的平均得分達(dá)到73.55%,而體積更大的Holo1-7B更是達(dá)到了76.19%。相比之下,其他同類模型的表現(xiàn)就遜色不少。比如體積相當(dāng)?shù)腝wen2.5-VL-3B只得了65.51分,UGround-V1-2B得了67.15分。
更令人驚喜的是,小巧的Holo1-3B模型居然能夠與體積大一倍多的Qwen2.5-VL-7B模型(69.32分)不相上下,甚至在某些項目上還超過了后者。這就像是一個輕量級選手在拳擊比賽中擊敗了重量級對手,證明了精心設(shè)計的訓(xùn)練方法能夠以小博大。
在專門的日歷操作測試中,Holo1模型的表現(xiàn)尤其出色。Holo1-7B在日歷任務(wù)上得到了72.92分,遠(yuǎn)超其他競爭對手。這證明了針對性訓(xùn)練的有效性——就像是專門練習(xí)某項技能的運(yùn)動員,在該項目上的表現(xiàn)會明顯優(yōu)于全才型選手。
四、WebVoyager大考驗(yàn):與GPT-4正面較量
WebVoyager基準(zhǔn)測試就像是AI界的"網(wǎng)頁操作奧林匹克競賽",包含643個真實(shí)世界的任務(wù),涵蓋10個不同類型的網(wǎng)站。這些任務(wù)就像是日常生活中我們經(jīng)常遇到的網(wǎng)上操作:預(yù)訂餐廳、購買商品、查找信息、填寫表格等等。
比賽規(guī)則很有趣:每個AI選手最多可以嘗試30步操作來完成一個任務(wù),如果中途覺得完成了,可以提交答案;如果答案被判定為不正確,可以重新嘗試,最多嘗試10次。這就像是給學(xué)生一張考試卷,允許他們多次修改答案,但每次修改都會增加用時。
成本計算就像是給每種AI標(biāo)上了"使用價格標(biāo)簽"。GPT-4o的使用成本最高,每百萬輸入字符需要2.5美元,輸出字符需要10美元;而Holo1-3B的成本只有GPT-4o的很小一部分,每百萬輸入字符只需0.1美元,輸出字符只需0.4美元。這個價格差異就像是名牌產(chǎn)品和高性價比替代品之間的差別。
比賽結(jié)果令人矚目。在允許10次嘗試的情況下,搭載Holo1-7B的Surfer-H系統(tǒng)達(dá)到了92.2%的成功率,幾乎與使用GPT-4.1的版本(92.0%)不相上下。但是在成本方面,前者每個任務(wù)只需0.13美元,而后者需要0.54美元——這就像是買到了性能相當(dāng)?shù)珒r格便宜四倍的產(chǎn)品。
更有趣的是,研究團(tuán)隊還測試了一個"完全自主"的版本,即所有三個功能模塊都使用Holo1模型。雖然這個版本的表現(xiàn)稍有下降(Holo1-7B全模塊版本達(dá)到80.4%),但成本進(jìn)一步降低到每個任務(wù)只需0.06美元。這就像是選擇了一個全自動化的服務(wù),雖然精確度略有降低,但效率和成本控制達(dá)到了最優(yōu)。
研究團(tuán)隊還進(jìn)行了一個特別的對比實(shí)驗(yàn),就像是測試"學(xué)過原題"和"沒學(xué)過原題"的差別。他們訓(xùn)練了一個特殊版本的模型(Holo1-7B-WVE),這個模型在訓(xùn)練時沒有接觸過WebVoyager的任務(wù),只學(xué)習(xí)了擴(kuò)展數(shù)據(jù)集中的其他任務(wù)。結(jié)果顯示,這個"沒見過考試題"的版本仍然能達(dá)到87.7%的成功率,比基礎(chǔ)的Qwen2.5-VL-7B模型(78.2%)高出近10個百分點(diǎn)。這證明了訓(xùn)練方法的有效性不僅僅依賴于"題海戰(zhàn)術(shù)",而是真正提升了AI的理解和操作能力。
與市面上其他知名的AI代理系統(tǒng)相比,Surfer-H的表現(xiàn)也毫不遜色。OpenAI的Operator系統(tǒng)達(dá)到87.0%,Google的Project Mariner達(dá)到83.5%,BrowserUse達(dá)到89.1%,而Surfer-H+Holo1的組合不僅在準(zhǔn)確率上超越了這些系統(tǒng),在成本效益方面更是遙遙領(lǐng)先。
五、帕累托最優(yōu):性價比之王的誕生
在經(jīng)濟(jì)學(xué)中,有一個叫做"帕累托最優(yōu)"的概念,簡單說就是在不讓任何人情況變壞的前提下,無法再讓任何人的情況變得更好。在AI系統(tǒng)的評估中,這個概念就變成了在不增加成本的前提下無法獲得更好的性能,或者在不降低性能的前提下無法進(jìn)一步減少成本。
Surfer-H配備Holo1模型就實(shí)現(xiàn)了這樣的帕累托最優(yōu)狀態(tài)。想象一個坐標(biāo)圖,橫軸是成本,縱軸是性能。理想的產(chǎn)品應(yīng)該位于左上角——成本低但性能高。研究結(jié)果顯示,無論是Holo1-3B還是Holo1-7B,都牢牢占據(jù)著這個"性價比黃金位置"。
這種優(yōu)勢在不同的嘗試次數(shù)下都保持穩(wěn)定。當(dāng)AI只允許嘗試1次時,Holo1-7B就能達(dá)到69.6%的成功率,成本僅為0.05美元;當(dāng)允許嘗試5次時,成功率提升到88.2%,成本增加到0.10美元;允許10次嘗試時,成功率達(dá)到峰值92.2%,成本也只有0.13美元。這就像是一個產(chǎn)品在不同使用強(qiáng)度下都能保持最佳性價比,無論是輕度使用還是重度使用都很劃算。
相比之下,使用GPT-4系列模型的版本雖然性能出色,但成本高昂。比如GPT-4.1版本雖然能達(dá)到92.0%的成功率,但每個任務(wù)需要0.54美元,是Holo1-7B的四倍多。GPT-4o版本的成本稍低一些,每個任務(wù)0.71美元,但成功率只有84.3%,性價比明顯不如Holo1。
更有趣的是成本結(jié)構(gòu)的分析。在傳統(tǒng)的AI代理系統(tǒng)中,最昂貴的通常是核心的決策模塊,因?yàn)樗枰幚碜顝?fù)雜的推理任務(wù)。但Surfer-H的模塊化設(shè)計讓團(tuán)隊可以靈活搭配不同性能等級的組件。比如,他們可以用相對便宜的Holo1-3B來處理定位任務(wù),用稍貴一點(diǎn)的GPT-4o來處理驗(yàn)證任務(wù),這樣既保證了關(guān)鍵環(huán)節(jié)的質(zhì)量,又控制了整體成本。
研究團(tuán)隊還測試了一個完全使用Holo1的"極致性價比"版本。這個版本的三個模塊都使用同一個Holo1模型,每個任務(wù)的成本降低到了0.06美元以下,雖然性能有所下降(80.4%),但對于成本敏感的應(yīng)用場景來說,這個性價比是無人能及的。
這種靈活的模塊化設(shè)計就像是組裝電腦時可以根據(jù)預(yù)算和需求選擇不同檔次的配件。需要極致性能的用戶可以選擇高端配置,預(yù)算有限的用戶可以選擇經(jīng)濟(jì)型配置,而大多數(shù)用戶會發(fā)現(xiàn)中端配置(Holo1+GPT-4o驗(yàn)證器)提供了最佳的性價比平衡。
六、開源共享:讓AI技術(shù)普惠大眾
研究團(tuán)隊做出了一個在AI領(lǐng)域相當(dāng)罕見的決定:完全開源。他們不僅公開了Holo1模型的完整權(quán)重,還發(fā)布了WebClick測試數(shù)據(jù)集,并且承諾持續(xù)維護(hù)和更新這些資源。這就像是一家公司不僅免費(fèi)分享了自己的核心技術(shù),還提供了完整的使用指南和測試工具。
這種開源精神在當(dāng)今的AI領(lǐng)域顯得格外珍貴。大多數(shù)頂尖的AI公司都選擇將自己的模型作為商業(yè)機(jī)密,通過API接口提供付費(fèi)服務(wù)。而H Company的做法就像是將秘制配方公開,讓任何有興趣的研究者和開發(fā)者都能在此基礎(chǔ)上進(jìn)行改進(jìn)和創(chuàng)新。
開源的好處是多方面的。對于學(xué)術(shù)研究者來說,他們可以深入分析Holo1的內(nèi)部結(jié)構(gòu),理解其工作原理,在此基礎(chǔ)上開發(fā)更好的方法。對于小型公司和個人開發(fā)者來說,他們可以直接使用這些模型來構(gòu)建自己的應(yīng)用,而不需要承擔(dān)高昂的API調(diào)用費(fèi)用。對于整個AI生態(tài)系統(tǒng)來說,開源促進(jìn)了技術(shù)的快速傳播和迭代改進(jìn)。
模型的安全性評估也是開源的重要方面。研究團(tuán)隊使用ToxiGen數(shù)據(jù)集測試了Holo1模型生成有害內(nèi)容的傾向。結(jié)果顯示,Holo1-3B只有2.1%的回復(fù)被標(biāo)記為有問題,Holo1-7B更是只有1.5%,這個比例甚至比一些基礎(chǔ)模型還要低。這說明專門的訓(xùn)練不僅提升了模型的能力,還保持了其安全性。
WebClick數(shù)據(jù)集的開源同樣意義重大。這個專門針對網(wǎng)頁操作的測試集填補(bǔ)了現(xiàn)有評估體系的空白,為整個領(lǐng)域提供了統(tǒng)一的評估標(biāo)準(zhǔn)。就像是為一個新興的體育項目制定了標(biāo)準(zhǔn)化的比賽規(guī)則和評分標(biāo)準(zhǔn),讓不同團(tuán)隊的研究成果可以進(jìn)行公平比較。
開源還帶來了一個意外的好處:社區(qū)驗(yàn)證。當(dāng)代碼和數(shù)據(jù)公開后,全世界的研究者都可以驗(yàn)證結(jié)果的可重現(xiàn)性,發(fā)現(xiàn)潛在的問題,提出改進(jìn)建議。這種集體智慧的力量往往能夠推動技術(shù)更快地發(fā)展和完善。
從商業(yè)角度來看,這種開源策略也很聰明。雖然H Company放棄了直接的模型授權(quán)收入,但他們獲得了技術(shù)聲譽(yù)、社區(qū)支持和生態(tài)影響力。這就像是一家餐廳免費(fèi)分享招牌菜的做法,雖然失去了獨(dú)家優(yōu)勢,但贏得了整個行業(yè)的尊重和合作機(jī)會。
七、技術(shù)細(xì)節(jié):小模型也能有大智慧
Holo1模型的技術(shù)路線選擇頗有講究,就像是在設(shè)計一輛賽車時需要在速度、穩(wěn)定性和燃油效率之間找到最佳平衡點(diǎn)。研究團(tuán)隊選擇了Qwen 2.5-VL-Instruct作為基礎(chǔ)模型,這就像是選擇了一個性能穩(wěn)定、結(jié)構(gòu)合理的"底盤",然后在此基礎(chǔ)上進(jìn)行專門的"改裝"。
訓(xùn)練策略采用了多任務(wù)混合學(xué)習(xí)的方法,這就像是讓一個學(xué)生同時學(xué)習(xí)多門相關(guān)課程,而不是一門一門地依次學(xué)習(xí)。AI需要同時掌握文本理解、圖像識別、坐標(biāo)定位、邏輯推理等多種技能,而且這些技能之間需要協(xié)調(diào)配合。傳統(tǒng)的訓(xùn)練方法可能會讓AI在某一項技能上特別突出,但在技能整合方面表現(xiàn)不佳。
多任務(wù)訓(xùn)練的巧妙之處在于讓AI學(xué)會了"一專多能"。同一個模型既可以充當(dāng)策略制定者,又可以擔(dān)任定位專家,還能當(dāng)質(zhì)量檢驗(yàn)員。這就像是培養(yǎng)了一個全能型員工,雖然在每個單項上可能不如專門的專家,但整體協(xié)調(diào)能力更強(qiáng),溝通成本更低。
模型規(guī)模的選擇也很有策略性。3B參數(shù)的版本就像是一輛經(jīng)濟(jì)型轎車,燃油效率高,維護(hù)成本低,適合大多數(shù)日常使用場景。7B參數(shù)的版本則像是一輛中高端SUV,性能更強(qiáng),適合更復(fù)雜的任務(wù)場景。這種分層設(shè)計讓用戶可以根據(jù)自己的具體需求和預(yù)算來選擇合適的版本。
訓(xùn)練數(shù)據(jù)的預(yù)處理過程也很精細(xì),就像是為運(yùn)動員準(zhǔn)備營養(yǎng)餐一樣講究。所有的訓(xùn)練樣本都被轉(zhuǎn)換成統(tǒng)一的對話格式,每個樣本包含系統(tǒng)指令、用戶輸入和AI回復(fù)三個部分,有些樣本還包含一張或多張圖片。這種標(biāo)準(zhǔn)化的格式讓AI能夠更好地理解不同類型任務(wù)之間的共同規(guī)律。
特別值得一提的是坐標(biāo)生成的訓(xùn)練方法。讓AI學(xué)會在屏幕上精確定位就像是訓(xùn)練一個射箭選手,不僅需要良好的視力,還需要穩(wěn)定的手法和準(zhǔn)確的判斷。研究團(tuán)隊設(shè)計了專門的坐標(biāo)標(biāo)注方法,讓AI不僅知道"點(diǎn)哪里",還要理解"為什么點(diǎn)這里"。
驗(yàn)證模塊的訓(xùn)練更是充滿挑戰(zhàn),就像是訓(xùn)練一個嚴(yán)格的考官。這個模塊需要判斷AI的操作結(jié)果是否真正完成了用戶的要求,這需要深度的語義理解和邏輯推理能力。研究團(tuán)隊收集了大量的成功和失敗案例,讓AI學(xué)會區(qū)分"看起來完成了"和"真正完成了"之間的差別。
模型的推理過程采用了結(jié)構(gòu)化生成技術(shù),這就像是給AI設(shè)計了一套標(biāo)準(zhǔn)的思考模板。每次接到任務(wù),AI都會按照"觀察-思考-行動-記錄"的流程進(jìn)行,這種結(jié)構(gòu)化的方法既提高了推理的準(zhǔn)確性,也讓整個過程更容易調(diào)試和改進(jìn)。
說到底,這項研究最大的價值不在于創(chuàng)造了一個新的AI系統(tǒng),而在于證明了一個重要觀點(diǎn):通過精心的設(shè)計和訓(xùn)練,小型開源模型完全有能力在特定領(lǐng)域挑戰(zhàn)甚至超越大型商業(yè)模型。就像是一個小而精的專業(yè)團(tuán)隊可以在特定項目上擊敗大公司的通用團(tuán)隊一樣。
Surfer-H和Holo1的成功為AI技術(shù)的民主化開辟了新的道路。它告訴我們,頂尖的AI能力不一定需要天價的使用成本,也不一定要依賴于幾家大公司的壟斷技術(shù)。通過開源共享和精準(zhǔn)訓(xùn)練,我們完全可以構(gòu)建出既強(qiáng)大又經(jīng)濟(jì)、既專業(yè)又開放的AI系統(tǒng)。
這種思路對整個AI行業(yè)都有啟發(fā)意義。與其在通用大模型的軍備競賽中無止境地投入資源,不如專注于解決特定領(lǐng)域的實(shí)際問題,用更聰明的方法實(shí)現(xiàn)更好的效果。歸根結(jié)底,AI技術(shù)的價值不在于模型有多大、參數(shù)有多少,而在于能否真正幫助人們解決實(shí)際問題,讓技術(shù)服務(wù)于生活,而不是讓生活服務(wù)于技術(shù)。
有興趣深入了解技術(shù)實(shí)現(xiàn)細(xì)節(jié)的讀者,可以訪問https://arxiv.org/abs/2506.02865查看完整的論文,或者在Hugging Face平臺上直接下載和使用Holo1模型。這種開放的態(tài)度本身就是對AI技術(shù)發(fā)展方向的最好詮釋——技術(shù)應(yīng)該屬于每個人,創(chuàng)新應(yīng)該惠及所有人。
好文章,需要你的鼓勵
新加坡國立大學(xué)研究團(tuán)隊開發(fā)了SPIRAL框架,通過讓AI與自己對弈零和游戲來提升推理能力。實(shí)驗(yàn)顯示,僅訓(xùn)練AI玩簡單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟(jì)大學(xué)團(tuán)隊開發(fā)的GIGA-ToF技術(shù)通過融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機(jī)噪聲問題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實(shí)現(xiàn)37.9%的精度提升,并在真實(shí)設(shè)備上展現(xiàn)出色泛化能力,為機(jī)器人、AR和自動駕駛等領(lǐng)域提供更可靠的3D視覺解決方案。
伊利諾伊大學(xué)研究團(tuán)隊通過對比實(shí)驗(yàn)發(fā)現(xiàn),經(jīng)過強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺語言模型雖然表現(xiàn)出"頓悟時刻"現(xiàn)象,但這些自我糾錯行為并不能實(shí)際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗(yàn)證差距",即生成答案的能力強(qiáng)于驗(yàn)證答案質(zhì)量的能力,且模型在自我驗(yàn)證時無法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過動態(tài)稀疏性實(shí)現(xiàn)大語言模型訓(xùn)練加速1.6倍,計算成本降低2.2倍。該方法使用SVD稀疏性估計器智能選擇重要計算部分,在保持模型性能的同時顯著提升訓(xùn)練效率,已在多個任務(wù)上驗(yàn)證有效性。