av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

<big id="9cdma"></big>

<nobr id="9cdma"><listing id="9cdma"></listing></nobr>

<blockquote id="9cdma"></blockquote>

微信掃一掃，關(guān)注公眾號

科技行者
算力行者

見證連接與計算的「力量」

WebChoreArena：東京大學(xué)研究團(tuán)隊推出更具挑戰(zhàn)性的網(wǎng)頁代理任務(wù)評估基準(zhǔn)

人工智能網(wǎng)頁代理基準(zhǔn)測試

WebChoreArena：東京大學(xué)研究團(tuán)隊推出更具挑戰(zhàn)性的網(wǎng)頁代理任務(wù)評估基準(zhǔn)

作者：科技行者

2025-06-05 15:25

分享至：

東京大學(xué)研究團(tuán)隊開發(fā)的WebChoreArena是一個全新的網(wǎng)頁代理評估基準(zhǔn)，它包含532個精心設(shè)計的任務(wù)，專注于測試AI代理處理繁瑣、復(fù)雜網(wǎng)頁任務(wù)的能力。研究結(jié)果顯示，即使是最先進(jìn)的語言模型（如Gemini 2.5 Pro）在這些挑戰(zhàn)性任務(wù)上的表現(xiàn)也比常規(guī)任務(wù)降低了約14個百分點，證明了這一基準(zhǔn)有效區(qū)分了不同模型的能力。WebChoreArena通過設(shè)計海量記憶、計算、長期記憶等類型的任務(wù)，為評估AI代理在實際應(yīng)用場景中的表現(xiàn)提供了更嚴(yán)格的標(biāo)準(zhǔn)。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-06-05 15:25 ? 科技行者

這項由東京大學(xué)的Atsuyuki Miyai、Zaiying Zhao、Kazuki Egashira、Atsuki Sato、Tatsumi Sunada、Shota Onohara、Hiromasa Yamanishi、Mashiro Toyooka、Kunato Nishina、Ryoma Maeda以及Kiyoharu Aizawa和Toshihiko Yamasaki教授共同完成的研究，于2025年6月2日以預(yù)印本形式發(fā)布在arXiv平臺（arXiv:2506.01952v1 [cs.CL]），研究成果及相關(guān)資源可通過https://webchorearena.github.io/獲取。

一、網(wǎng)頁代理：人工智能的新使者

想象一下，當(dāng)你面對一堆繁瑣的網(wǎng)頁任務(wù)時，比如整理訂單數(shù)據(jù)、計算多個產(chǎn)品的評分，或者在社交媒體上查找特定內(nèi)容，通常需要耗費大量時間和精力。如果有一個"數(shù)字助手"能替你完成這些工作，是不是會讓生活輕松許多？這正是"網(wǎng)頁代理"（web browsing agent）的目標(biāo)。

網(wǎng)頁代理是由大型語言模型（LLM）驅(qū)動的人工智能系統(tǒng)，它們能像人類一樣操作網(wǎng)頁瀏覽器，點擊按鈕、填寫表單、閱讀內(nèi)容并作出決策。與普通編程方式相比，網(wǎng)頁代理的優(yōu)勢在于它能直接與任何網(wǎng)頁界面交互，不需要專門的API（應(yīng)用程序接口），而且整個操作過程對人類來說非常透明，容易理解和監(jiān)督。

隨著科技的發(fā)展，這些網(wǎng)頁代理變得越來越聰明，能夠順利完成常規(guī)的網(wǎng)頁瀏覽任務(wù)。但這引發(fā)了一個關(guān)鍵問題：它們能否超越基礎(chǔ)瀏覽，處理那些更復(fù)雜、更繁瑣，甚至是人類自己都不愿做的"網(wǎng)頁雜務(wù)"呢？

二、從WebArena到WebChoreArena：挑戰(zhàn)升級

在網(wǎng)頁代理的評估領(lǐng)域，WebArena已經(jīng)成為了一個公認(rèn)的標(biāo)準(zhǔn)測試平臺。它提供了四個模擬網(wǎng)站：電子商務(wù)平臺（OneStopShop）、社交論壇（Reddit）、協(xié)作軟件開發(fā)平臺（GitLab）和在線數(shù)據(jù)管理系統(tǒng)（在線商店管理）。許多研究者和公司都用它來測試自己開發(fā)的網(wǎng)頁代理。

然而，隨著大型語言模型的進(jìn)步，WebArena暴露出兩個主要局限性：

首先，它的任務(wù)主要集中在普通的網(wǎng)頁瀏覽上。當(dāng)AI模型變得更強(qiáng)大時，這些基礎(chǔ)任務(wù)已經(jīng)不足以準(zhǔn)確測量它們的能力極限。

其次，WebArena中的一些任務(wù)存在模糊的指令或評估錯誤。當(dāng)代理性能較低時，這些問題影響不大，但隨著代理能力的提高，這些缺陷限制了測試平臺能夠準(zhǔn)確評估的上限。

為了解決這些問題，東京大學(xué)的研究團(tuán)隊開發(fā)了WebChoreArena，一個基于WebArena但更具挑戰(zhàn)性的測試平臺。想象一下，WebArena就像是駕駛考試中的基礎(chǔ)路考，而WebChoreArena則相當(dāng)于高級路考，包含了更復(fù)雜的路況和駕駛技巧測試。

三、WebChoreArena的核心設(shè)計：模擬真實世界的繁瑣任務(wù)

WebChoreArena包含532個精心設(shè)計的任務(wù)，這些任務(wù)可以分為四大類：

**海量記憶任務(wù)**：這類任務(wù)要求代理能夠準(zhǔn)確記住大量的觀察信息。想象你走進(jìn)一個裝滿商品的倉庫，需要記住每個商品的位置、價格和庫存數(shù)量，然后根據(jù)這些信息回答問題。例如，代理需要從產(chǎn)品分類頁面收集所有評論分?jǐn)?shù)，這需要它能夠提取和保留頁面上的全部必要信息。

**計算任務(wù)**：這類任務(wù)需要代理基于之前觀察到的內(nèi)容進(jìn)行數(shù)學(xué)推理。就像你需要計算購物清單上所有商品的總價一樣。在一個具體例子中，代理需要追蹤并求和論壇中前40個帖子的評論數(shù)量，這考驗了它執(zhí)行算術(shù)運算的能力。

**長期記憶任務(wù)**：這類任務(wù)要求代理能夠在多個網(wǎng)頁之間保持長期記憶和推理。就像你需要先查看菜譜，了解所需食材，然后去超市購物，回家后還能記得所有步驟一樣。例如，代理需要先從一個頁面檢索定價規(guī)則，然后在與訂單頁面交互時應(yīng)用這些規(guī)則，這測試了它在多次導(dǎo)航后記憶和正確使用先前信息的能力。

**其他特殊任務(wù)**：這類任務(wù)涉及不常見或特定于某些網(wǎng)站的操作，比如在GitLab中分配標(biāo)簽。這些問題測試代理處理不常見UI元素或操作的能力。

這些任務(wù)跨越了四個網(wǎng)站：購物平臺（Shopping）、購物管理系統(tǒng)（Shopping Admin）、社交論壇（Reddit）和協(xié)作開發(fā)平臺（GitLab），還包括需要在多個網(wǎng)站之間導(dǎo)航的跨站任務(wù)。每個任務(wù)都經(jīng)過了精心設(shè)計，以確保它們既有現(xiàn)實意義，又具有適當(dāng)?shù)奶魬?zhàn)性。

四、精心打造的測評系統(tǒng)

為了確保測評的公平性和有效性，研究團(tuán)隊投入了大量精力來構(gòu)建和完善WebChoreArena：

研究團(tuán)隊為每個模擬網(wǎng)站分配了三名注釋員（從作者中選擇），其中一名注釋員被分配到所有四個網(wǎng)站，以確保不同網(wǎng)站之間任務(wù)質(zhì)量的一致性?？偣灿惺⑨寙T參與了任務(wù)創(chuàng)建過程。

注釋員首先會探索網(wǎng)站，熟悉內(nèi)容和功能，然后根據(jù)特定標(biāo)準(zhǔn)制定任務(wù)。他們特別強(qiáng)調(diào)了以下幾點：

首先是專注于記憶密集型分析任務(wù)?，F(xiàn)實世界中常見但在現(xiàn)有基準(zhǔn)測試中未得到充分代表的任務(wù)類型。為避免過于簡單的任務(wù)，團(tuán)隊使用基于Claude的代理對早期任務(wù)進(jìn)行了評估，以識別模型的局限性并完善任務(wù)設(shè)計。

其次是減少任務(wù)規(guī)范和評估中的歧義。雖然處理模糊指令對于現(xiàn)實世界中的代理很重要，但為了可靠的評估，團(tuán)隊優(yōu)先考慮了明確的可評估性。在WebArena中，模糊的指令常常導(dǎo)致代理產(chǎn)生的合理答案被錯誤地標(biāo)記為失敗。

第三是基于模板的任務(wù)構(gòu)建和擴(kuò)展。注釋員創(chuàng)建任務(wù)模板并將其擴(kuò)展為多個任務(wù)實例，每個變量都有多個實例化。這種設(shè)計使得評估更加穩(wěn)健和系統(tǒng)化。

總共創(chuàng)建了117個任務(wù)模板：購物網(wǎng)站25個，購物管理29個，Reddit 20個，GitLab 28個，跨站任務(wù)15個。平均每個模板產(chǎn)生了約4.5個任務(wù)實例。

為確保每個任務(wù)的質(zhì)量和正確性，團(tuán)隊進(jìn)行了交叉檢查，每個網(wǎng)站有三名注釋員參與。由于許多歧義只有在實際任務(wù)執(zhí)行過程中才會顯現(xiàn)，團(tuán)隊進(jìn)行了多輪推理、錯誤分析和修訂。這個注釋過程既細(xì)致又耗時，總共花費了300多小時的精心完善。

五、評估方法：如何判斷AI的表現(xiàn)

評估網(wǎng)頁代理的表現(xiàn)不是一件簡單的事情。想象一下，如果讓不同的老師用不同的標(biāo)準(zhǔn)來評判學(xué)生的答案，結(jié)果很可能會不一致。為了確保評估的一致性和公平性，WebChoreArena采用了三種主要的評估指標(biāo)：

**文本匹配（string_match）**：這種方法用于評估代理輸出的文本是否符合預(yù)期。它又分為三類： - 精確匹配（exact_match）：只有當(dāng)輸出與標(biāo)準(zhǔn)答案完全一致時，才算成功。 - 必須包含（must_include）：只要標(biāo)準(zhǔn)答案包含在輸出中的任何位置，就算成功。 - 模糊匹配（fuzzy_match）：利用語言模型（在實現(xiàn)中使用GPT-4o）來評估輸出是否在語義上等同于標(biāo)準(zhǔn)答案。

**網(wǎng)頁交互評估（program_html）**：這種方法驗證代理的操作是否在網(wǎng)頁上產(chǎn)生了預(yù)期的狀態(tài)變化。具體來說，會從代理操作后的網(wǎng)頁上指定元素中提取信息，并與標(biāo)準(zhǔn)答案進(jìn)行比較，以確定功能上的正確性。

通過這些評估方法，研究人員可以全面評估網(wǎng)頁代理在不同類型任務(wù)上的表現(xiàn)，從而更準(zhǔn)確地了解它們的能力和局限性。

六、實驗設(shè)置：各路AI選手的較量

為了全面評估不同語言模型在WebChoreArena上的表現(xiàn)，研究團(tuán)隊選擇了三個代表性的大型語言模型（LLM）：

**GPT-4o**：這是學(xué)術(shù)研究中常用的代表性語言模型，由OpenAI開發(fā)。

**Claude 3.7 Sonnet**：這是Anthropic公司開發(fā)的一款先進(jìn)的大容量語言模型。

**Gemini 2.5 Pro**：這是Google開發(fā)的最新一代大型語言模型，擁有強(qiáng)大的推理能力。

這些語言模型被用于兩個先進(jìn)的網(wǎng)頁代理系統(tǒng)中進(jìn)行測試：

**AgentOccam**：這是一個專為WebArena基準(zhǔn)測試設(shè)計的代理，它采用了經(jīng)過優(yōu)化的觀察和行動空間，以更好地與語言模型的預(yù)訓(xùn)練數(shù)據(jù)保持一致。此外，它還采用了支持分支和剪枝的規(guī)劃策略，允許代理生成替代計劃，并根據(jù)中間結(jié)果消除次優(yōu)計劃，從而實現(xiàn)更高效、更適應(yīng)性強(qiáng)的決策過程。

**BrowserGym**：這是一個統(tǒng)一、可擴(kuò)展的環(huán)境，用于在各種基準(zhǔn)測試中開發(fā)和評估網(wǎng)頁代理，具有標(biāo)準(zhǔn)化的觀察和行動空間。

這些不同組合的測試讓研究人員能夠全面了解各種模型和代理系統(tǒng)在復(fù)雜網(wǎng)頁任務(wù)上的能力差異。

七、實驗結(jié)果：新舊基準(zhǔn)下的AI表現(xiàn)對比

實驗結(jié)果展示了令人深思的發(fā)現(xiàn)。首先，讓我們看看各個模型在WebArena和WebChoreArena上的整體表現(xiàn)：

在WebArena上，使用AgentOccam代理時，GPT-4o達(dá)到了42.8%的準(zhǔn)確率，Claude 3.7 Sonnet達(dá)到了52.0%，而Gemini 2.5 Pro達(dá)到了54.8%。使用BrowserGym代理時，GPT-4o達(dá)到了36.4%，Claude 3.7 Sonnet達(dá)到了51.5%，Gemini 2.5 Pro達(dá)到了59.2%。

相比之下，在更具挑戰(zhàn)性的WebChoreArena上，所有模型的表現(xiàn)都有顯著下降：

使用AgentOccam代理時，GPT-4o的準(zhǔn)確率僅為6.8%（相比WebArena下降了36.0個百分點），Claude 3.7 Sonnet為23.5%（下降28.5個百分點），Gemini 2.5 Pro為37.8%（下降17.0個百分點）。

使用BrowserGym代理時，GPT-4o的準(zhǔn)確率僅為2.6%（下降33.8個百分點），Claude 3.7 Sonnet為23.1%（下降28.4個百分點），Gemini 2.5 Pro為44.9%（下降14.3個百分點）。

這些結(jié)果帶來了幾個關(guān)鍵發(fā)現(xiàn)：

**GPT-4o在WebChoreArena上表現(xiàn)掙扎**：雖然GPT-4o在WebArena上表現(xiàn)尚可，但在更具挑戰(zhàn)性的WebChoreArena上表現(xiàn)顯著下降，這表明WebChoreArena確實提供了更嚴(yán)峻的挑戰(zhàn)，需要更先進(jìn)的語言模型才能應(yīng)對。

**最新的語言模型雖有進(jìn)步但仍有很大提升空間**：隨著語言模型的演進(jìn)，如Claude 3.7 Sonnet和Gemini 2.5 Pro，在WebChoreArena上的表現(xiàn)有所提高，但即使是最先進(jìn)的Gemini 2.5 Pro，相比于WebArena，在WebChoreArena上仍有顯著的性能下降，這表明即使是最先進(jìn)的模型在處理更復(fù)雜的網(wǎng)頁任務(wù)時仍有很大的提升空間。

**WebChoreArena能更清晰地測量模型性能差異**：與WebArena相比，WebChoreArena能夠更清晰地展示不同模型之間的性能差異。在WebArena上，BrowserGym的性能范圍從GPT-4o的36.4%到Gemini 2.5 Pro的59.2%，而在WebChoreArena上，這一范圍從GPT-4o的2.6%擴(kuò)大到Gemini 2.5 Pro的44.9%，提供了更廣闊的評估譜系，有助于模型開發(fā)者和評估者更清晰地了解各個模型的優(yōu)勢和劣勢。

**WebChoreArena能進(jìn)行細(xì)粒度的任務(wù)類型分析**：通過對不同任務(wù)類型的性能分析，研究發(fā)現(xiàn)代理架構(gòu)（不僅僅是語言模型的類型）對不同類型任務(wù)的性能有顯著影響。例如，Gemini 2.5 Pro在BrowserGym中對海量記憶任務(wù)表現(xiàn)最佳，而AgentOccam在這一類別中表現(xiàn)最差。這種差異可歸因于它們在記憶管理策略上的根本差異。

八、深入分析：不同模態(tài)和工具的影響

研究團(tuán)隊還進(jìn)行了一系列額外的分析，以更深入地了解不同因素對代理性能的影響：

**輸入模態(tài)的影響**：研究者調(diào)查了輸入數(shù)據(jù)模態(tài)（即文本和圖像）對代理性能的影響。主要實驗主要使用基于文本的輸入（即可訪問性樹），以減輕視覺幻覺，只有三個模板需要圖像輸入。然而，分析如何在加入圖像輸入時性能變化提供了重要見解。

研究發(fā)現(xiàn)，加入圖像輸入通常會導(dǎo)致整體性能下降。特別是購物等某些網(wǎng)站類別在包含視覺信息時表現(xiàn)出顯著的性能變化。進(jìn)一步的分析表明，對于需要僅文本信息的任務(wù)（即視覺和文本信息之間存在差距的情況），特別是對于Gemini這樣的模型，表現(xiàn)出明顯的性能下降。因此，探索如何在減輕幻覺的同時利用視覺信息代表了未來研究的一個關(guān)鍵方向。

**工具使用的影響**：研究者還調(diào)查了使用外部工具，特別是計算器，是否能增強(qiáng)代理性能。為此，他們使用了WebArena團(tuán)隊開發(fā)的基于網(wǎng)絡(luò)的計算器，該計算器提供了基于GUI的界面，允許代理無縫執(zhí)行算術(shù)運算。他們明確給代理以下指令："如果你需要進(jìn)行一些計算，可以使用位于<計算器URL>的計算器。"

從WebChoreArena中提取了215個特定于計算的任務(wù)來評估工具使用的有效性。結(jié)果顯示，整體性能基本保持不變。主要原因是模型很少嘗試使用工具。在215個任務(wù)中，使用工具的任務(wù)數(shù)量不到總數(shù)的28%。代理似乎更喜歡直接解決問題，因為當(dāng)它們認(rèn)為問題可以自行解決時，直接解決比使用工具更高效。因此，研究發(fā)現(xiàn)僅僅使用計算器工具并不一定能提高WebChoreArena的性能。

九、錯誤分析：AI的常見失誤

為了更好地理解現(xiàn)有系統(tǒng)的局限性，研究團(tuán)隊詳細(xì)分析了Gemini 2.5 Pro（與BrowserGym結(jié)合）的失敗案例，并識別了幾種常見的錯誤類型：

**計數(shù)錯誤**：在海量記憶任務(wù)中，雖然代理能夠準(zhǔn)確計數(shù)單個網(wǎng)頁內(nèi)的項目，但當(dāng)任務(wù)需要在多個頁面之間導(dǎo)航和匯總信息時，它們常常遇到困難并犯下計數(shù)錯誤。

**計算錯誤**：研究沒有觀察到在簡單的加法或乘法任務(wù)中的錯誤。然而，當(dāng)Gemini 2.5 Pro需要加或乘十五個以上的數(shù)字時，明顯開始更頻繁地出現(xiàn)計算錯誤。

**忽略指令**：研究觀察到幾個指令被忽視的實例。例如，代理有時會忽略只選擇"超過5條評論"的產(chǎn)品的指令，或未能遵循指定的輸出格式。

**操作錯誤**：還觀察到一些操作錯誤。例如，代理有時無法記住其先前的操作。在一個案例中，它成功到達(dá)第二頁，但錯誤地認(rèn)為自己仍在第一頁，導(dǎo)致它不必要地導(dǎo)航到另一頁。

**其他錯誤**：其他錯誤包括列出不存在的產(chǎn)品，過早結(jié)束搜索而不檢查所有頁面，以及在中途退出復(fù)雜搜索以嘗試更快的方法，但迷失方向無法完成任務(wù)。

這些分析為未來改進(jìn)網(wǎng)頁代理提供了寶貴的見解，指出了需要重點關(guān)注的幾個關(guān)鍵領(lǐng)域。

十、總結(jié)與展望：測評平臺的意義與限制

WebChoreArena作為一個全新的基準(zhǔn)測試平臺，為評估網(wǎng)頁代理在復(fù)雜、繁瑣任務(wù)上的能力提供了更加嚴(yán)峻的挑戰(zhàn)。這項研究不僅展示了現(xiàn)有技術(shù)的進(jìn)步，也揭示了未來研究的方向。

**研究的局限性**：首先，這項工作主要貢獻(xiàn)在于構(gòu)建基準(zhǔn)測試，并沒有專注于開發(fā)新方法?；谘芯堪l(fā)現(xiàn)設(shè)計新方法是未來研究的關(guān)鍵方向。

其次，實驗是在模擬的網(wǎng)絡(luò)環(huán)境中進(jìn)行的，雖然這確保了完全的可重復(fù)性，同時也接近真實網(wǎng)站，但仍可能存在一定差距。開發(fā)WebChoreArena的在線擴(kuò)展是進(jìn)一步與真實環(huán)境對齊同時保持可重復(fù)性的重要下一步。

**未來展望**： WebChoreArena提供了一個更具挑戰(zhàn)性的測試平臺，可以幫助研究人員更準(zhǔn)確地評估和改進(jìn)網(wǎng)頁代理的能力。隨著語言模型和代理技術(shù)的不斷發(fā)展，我們可以期待看到能夠更好地處理復(fù)雜網(wǎng)頁任務(wù)的系統(tǒng)出現(xiàn)。

這項研究不僅對學(xué)術(shù)界有重要意義，對普通用戶也有潛在的影響。隨著網(wǎng)頁代理能力的提升，未來我們可能會看到更多能夠自動化處理網(wǎng)絡(luò)雜務(wù)的工具出現(xiàn)，這將為用戶節(jié)省大量時間和精力。

總之，WebChoreArena代表了網(wǎng)頁代理評估領(lǐng)域的一個重要進(jìn)步，它將幫助推動這一領(lǐng)域的研究向更實用、更強(qiáng)大的方向發(fā)展。

人工智能網(wǎng)頁代理基準(zhǔn)測試

分享至

0贊

好文章，需要你的鼓勵

推薦文章

音頻生成
大語言模型
多模態(tài)AI

2025-09-10 09:47

如何讓AI像電影配樂師一樣創(chuàng)作完整的長篇音頻故事——騰訊ARC實驗室團(tuán)隊AudioStory突破性進(jìn)展

騰訊ARC實驗室推出AudioStory系統(tǒng)，首次實現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù)，通過交錯式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練，能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測試中表現(xiàn)優(yōu)異，為AI音頻創(chuàng)作開辟新方向。
視頻生成
深度學(xué)習(xí)
多模態(tài)學(xué)習(xí)

2025-09-09 13:57

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動起來不再是奢望

Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù)，通過讓AI同時學(xué)習(xí)外觀和運動信息，顯著解決了當(dāng)前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個線性層就能大幅提升運動質(zhì)量，在多項測試中超越包括Sora在內(nèi)的商業(yè)模型，為AI視頻生成的實用化應(yīng)用奠定了重要基礎(chǔ)。
多模態(tài)AI
人類價值觀對齊
數(shù)據(jù)集構(gòu)建

2025-09-09 13:56

上海AI實驗室重磅發(fā)布：讓AI看圖"說人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類價值觀對齊難題

上海AI實驗室發(fā)布OmniAlign-V研究，首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評測基準(zhǔn)，通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法，讓AI在保持技術(shù)能力的同時顯著提升人性化交互水平，為AI價值觀對齊提供了可行技術(shù)路徑。
人工智能
圖神經(jīng)網(wǎng)絡(luò)
天氣預(yù)報

2025-09-09 10:56

谷歌研究團(tuán)隊發(fā)布超級預(yù)測模型：讓AI像天氣預(yù)報員一樣預(yù)測全球大氣變化

谷歌DeepMind團(tuán)隊開發(fā)的GraphCast是一個革命性的AI天氣預(yù)測模型，能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報，準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù)，通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律，在極端天氣預(yù)測方面表現(xiàn)卓越，能耗僅為傳統(tǒng)方法的千分之一，為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。

如何讓AI像電影配樂師一樣創(chuàng)作完整的長篇音頻故事——騰訊ARC實驗室團(tuán)隊AudioStory突破性進(jìn)展

如何讓AI像電影配樂師一樣創(chuàng)作完整的長篇音頻故事——騰訊ARC實驗室團(tuán)隊AudioStory突破性進(jìn)展

2025-09-10 09:47

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動起來不再是奢望

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動起來不再是奢望

2025-09-09 13:57

上海AI實驗室重磅發(fā)布：讓AI看圖"說人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類價值觀對齊難題

上海AI實驗室重磅發(fā)布：讓AI看圖"說人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類價值觀對齊難題

2025-09-09 13:56

谷歌研究團(tuán)隊發(fā)布超級預(yù)測模型：讓AI像天氣預(yù)報員一樣預(yù)測全球大氣變化

谷歌研究團(tuán)隊發(fā)布超級預(yù)測模型：讓AI像天氣預(yù)報員一樣預(yù)測全球大氣變化

2025-09-09 10:56

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

友情鏈接

至頂網(wǎng)
管理現(xiàn)代化
和訊IT
TechWeb
第三媒體
速途網(wǎng)
51CTO傳媒
投資界
科技訊
智者新時代

京ICP證15039648號京ICP備15039648號-9 京公網(wǎng)安備 11010802021500號

北京第二十六維信息技術(shù)有限公司（至頂網(wǎng)）版權(quán)所有。 | 聯(lián)絡(luò)我們

舉報電話：010-62641205　涉未成年人舉報專線：010-62641208 舉報郵箱: jubao@zhiding.cn 　網(wǎng)上有害信息舉報專區(qū)：https://www.12377.cn

<samp id="i6ryi"><delect id="i6ryi"></delect></samp>

<del id="i6ryi"></del>