av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號

  • 科技行者

  • 算力行者

見證連接與計算的「力量」

首頁 WEB-SHEPHERD:讓網(wǎng)絡(luò)代理更智能的過程獎勵模型

WEB-SHEPHERD:讓網(wǎng)絡(luò)代理更智能的過程獎勵模型

2025-05-27 11:35
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-05-27 11:35 ? 科技行者

基本信息與研究概述

如果你曾經(jīng)想過讓電腦自動幫你完成網(wǎng)頁上的重復(fù)性任務(wù),那么這項研究絕對值得你關(guān)注。來自韓國延世大學(xué)和美國卡內(nèi)基梅隆大學(xué)的研究團(tuán)隊最近發(fā)布了一項突破性研究——WEB-SHEPHERD(網(wǎng)絡(luò)牧羊人),這是第一個專門為評估網(wǎng)絡(luò)導(dǎo)航軌跡而設(shè)計的過程獎勵模型。這項研究發(fā)表于2025年5月,目前正在審閱中,有興趣深入了解的讀者可以通過arXiv:2505.15277v1查閱完整論文。

想象一下,如果你需要每天在亞馬遜上查詢不同產(chǎn)品的價格、在航空公司網(wǎng)站上檢查航班信息,或者在社交媒體上執(zhí)行重復(fù)性操作。這些任務(wù)不僅耗時,而且枯燥乏味。這正是網(wǎng)絡(luò)代理(Web Agents)試圖解決的問題:讓AI自動完成這些任務(wù)。但問題在于,目前的網(wǎng)絡(luò)代理往往不夠可靠,經(jīng)常在遇到微小問題時表現(xiàn)得很笨拙,比如反復(fù)輸入相同的查詢,最終導(dǎo)致任務(wù)失敗。

研究團(tuán)隊指出,這種不可靠性主要源于網(wǎng)絡(luò)導(dǎo)航的長期規(guī)劃性質(zhì)。想象你在一個陌生的城市沒有地圖,需要找到一家特定的餐廳。你需要規(guī)劃多個步驟,可能要詢問路人、辨認(rèn)路標(biāo)、調(diào)整路線等。同樣,AI在網(wǎng)頁上導(dǎo)航時也需要規(guī)劃多個步驟并保持目標(biāo)導(dǎo)向,這對大型語言模型來說是個挑戰(zhàn)。

為了解決這個問題,研究人員開發(fā)了WEB-SHEPHERD,這是一個專門用于評價網(wǎng)絡(luò)代理行為的"過程獎勵模型"(PRM)。如果把網(wǎng)絡(luò)代理比作一個迷途的旅行者,那么WEB-SHEPHERD就像一個經(jīng)驗豐富的向?qū)?,在每一步都能告訴旅行者:"是的,你走對了方向"或"不,你需要轉(zhuǎn)向"。

與之前研究不同的是,以往的方法通常依賴于昂貴的大型多模態(tài)語言模型(如GPT-4o)來評估代理的行為,這不僅成本高昂(在WebArena的812個查詢上使用GPT-4o進(jìn)行樹搜索大約需要14,000美元),而且處理速度慢(在一塊A100上運(yùn)行推理需要40小時)。WEB-SHEPHERD提供了一個更經(jīng)濟(jì)、更快速的替代方案,同時還表現(xiàn)得更好。

研究創(chuàng)新點(diǎn)與主要貢獻(xiàn)

研究團(tuán)隊的貢獻(xiàn)不僅限于創(chuàng)建WEB-SHEPHERD模型,他們還構(gòu)建了完整的數(shù)據(jù)集和評估基準(zhǔn),為網(wǎng)絡(luò)導(dǎo)航領(lǐng)域的獎勵模型研究奠定了基礎(chǔ)。

首先,他們創(chuàng)建了WEBPRM COLLECTION,這是一個包含40,000多個步級別偏好對的大規(guī)模數(shù)據(jù)集。想象一下,這就像一本詳細(xì)的旅行指南,不僅告訴你最終目的地在哪里,還詳細(xì)記錄了每一個路口應(yīng)該怎么走,哪條路是對的,哪條路是錯的。這個數(shù)據(jù)集涵蓋了各種不同領(lǐng)域和難度級別的任務(wù),并且每個任務(wù)都配有一個注釋清單,明確列出了完成任務(wù)所需的關(guān)鍵步驟。

其次,他們引入了WEBREWARDBENCH,這是首個專門用于評估網(wǎng)絡(luò)導(dǎo)航獎勵模型的元評估基準(zhǔn)。如果把獎勵模型比作旅游向?qū)В敲催@個基準(zhǔn)就像是一個考核向?qū)芰Φ臉?biāo)準(zhǔn)測試,確保他們真的懂得如何指導(dǎo)旅行者。

在實驗中,研究團(tuán)隊發(fā)現(xiàn)WEB-SHEPHERD在WEBREWARDBENCH上的表現(xiàn)比使用GPT-4o好約30個百分點(diǎn)。這就像是一個本地向?qū)П纫粋€只看過旅游書的外地人更了解城市的每一條街道。更令人印象深刻的是,當(dāng)在WebArena-lite測試中使用GPT-4o-mini作為策略,而WEB-SHEPHERD作為驗證器時,性能比使用GPT-4o-mini作為驗證器提高了10.9個百分點(diǎn),而成本卻減少了10倍。

這項研究的創(chuàng)新點(diǎn)在于,它將網(wǎng)絡(luò)導(dǎo)航任務(wù)分解為清晰的子目標(biāo)清單,然后評估代理在每一步是否朝著這些子目標(biāo)前進(jìn)。就像一個好的導(dǎo)游會把復(fù)雜的城市之旅分解成易于理解的部分:"首先我們?nèi)ミ@個地標(biāo),然后參觀那個博物館,最后到這家餐廳吃飯"。這種結(jié)構(gòu)化的方法使得WEB-SHEPHERD能夠提供更精確、更有用的反饋。

過程獎勵模型的重要性

為什么研究團(tuán)隊特別強(qiáng)調(diào)"過程"獎勵模型,而不是"結(jié)果"獎勵模型呢?這個區(qū)別非常關(guān)鍵。

想象你在教一個孩子學(xué)習(xí)烹飪。如果你只關(guān)注最終結(jié)果(食物是否好吃),那么當(dāng)出現(xiàn)問題時,孩子可能不知道錯在哪里。但如果你在整個烹飪過程中提供指導(dǎo)("現(xiàn)在應(yīng)該先切菜","火候有點(diǎn)大了"),孩子就能及時調(diào)整并學(xué)習(xí)得更好。

在網(wǎng)絡(luò)導(dǎo)航中,這種區(qū)別更為重要。研究團(tuán)隊解釋說,與其他領(lǐng)域不同,網(wǎng)絡(luò)導(dǎo)航中的結(jié)果獎勵模型無法集成到測試時間算法中。例如,在數(shù)學(xué)問題上,AI可以寫出多個解決方案,然后結(jié)果獎勵模型可以選擇一個最佳方案。但在網(wǎng)絡(luò)導(dǎo)航中,如果AI嘗試了八次預(yù)訂飛機(jī)票,飛機(jī)票是不能退款的,所以必須在過程級別做出關(guān)于采取哪個行動的決策。

此外,在訓(xùn)練時,過程獎勵模型能提供更細(xì)粒度的獎勵信號,這比結(jié)果獎勵模型更可靠。想象你在學(xué)習(xí)開車,教練只在最后告訴你"通過了"或"沒通過",和教練在每個路口、每次變道時都給你反饋,哪種學(xué)習(xí)效果更好?顯然是后者。

WEB-SHEPHERD采用了結(jié)構(gòu)化的清單,將高級用戶指令明確分解為清晰、可解釋的子目標(biāo)。通過參考這個清單作為評估標(biāo)準(zhǔn),WEB-SHEPHERD能夠準(zhǔn)確評估步級別的進(jìn)度,從而在代理軌跡中提供精確和穩(wěn)健的指導(dǎo)。

WEBPRM COLLECTION數(shù)據(jù)集的構(gòu)建

為了訓(xùn)練WEB-SHEPHERD,研究團(tuán)隊首先需要構(gòu)建一個高質(zhì)量的數(shù)據(jù)集。這個過程就像是收集一本詳盡的旅游指南,記錄了各種各樣的旅程,包括哪些路是對的,哪些是錯的。

他們的目標(biāo)是收集一個包含(I, O, C, A+, A-)的數(shù)據(jù)集,其中I是用戶指令,O是觀察結(jié)果序列,C是清單,A+是選擇的動作序列(即專家軌跡),A-是拒絕的動作序列。

首先,研究團(tuán)隊從人類專家那里收集用戶指令I(lǐng)和選擇的動作A+。他們從Mind2Web使用的網(wǎng)站池中選擇了可以通過playwright訪問的網(wǎng)站。在注釋之前,所有注釋者參加了一個三小時的培訓(xùn)課程,以熟悉注釋工具并理解人類和代理瀏覽行為之間的差異。

之后,收集的所有數(shù)據(jù)都由10名人類評估者審核,以確保質(zhì)量和一致性。在這個過程中,他們過濾掉了無法復(fù)現(xiàn)的無效軌跡,以及容易誤解的模糊指令。注釋者被指示制作跨越三個難度級別的指令I(lǐng):簡單、中等和困難。

接下來,研究團(tuán)隊構(gòu)建了粗粒度的清單,這些清單強(qiáng)調(diào)有意義的任務(wù)進(jìn)展,而不是精確的執(zhí)行步驟。例如,像"過濾A"和"過濾B"這樣的細(xì)粒度動作被抽象為更高級別的子目標(biāo),如"過濾"。這種抽象使模型能夠泛化到語義上等效的策略。給定指令I(lǐng)和專家軌跡A+,他們使用GPT-4o生成子目標(biāo)分析和相應(yīng)的清單。

為了收集被拒絕的動作a-,研究團(tuán)隊從各種策略中采樣5個候選動作,并選擇那些與專家動作a+不同的動作。然而,其中一些替代方案可能對應(yīng)于有效但不同的朝向任務(wù)完成的動作。為了最小化這種情況,他們應(yīng)用了基于規(guī)則的過濾,并為每個專家動作a+收集最多五個被拒絕的動作a-。

最終的數(shù)據(jù)集展示了隨著難度級別增加,代理軌跡的長度和清單子目標(biāo)的數(shù)量也增加。簡單任務(wù)通常需要較少的步驟(中位數(shù)約5步),而中等任務(wù)顯示出更多的變異性(中位數(shù)約9步),困難任務(wù)涉及明顯更長的軌跡(中位數(shù)約20步),有些甚至超過40步。這表明他們的難度注釋有效地反映了復(fù)雜性和所需的交互深度。

WEB-SHEPHERD模型的設(shè)計與工作原理

WEB-SHEPHERD就像一個經(jīng)驗豐富的導(dǎo)游,不僅知道最終目的地在哪里,還能在旅程的每一步提供指導(dǎo)。它的工作分為兩個關(guān)鍵步驟:清單生成和基于清單的獎勵預(yù)測。

第一步是清單生成。當(dāng)給定一個用戶指令I(lǐng)時,WEB-SHEPHERD會生成一個清單C,這個清單由一系列自然語言子目標(biāo)(g1, g2, ..., gk)組成。這就像是將一次復(fù)雜的城市之旅分解為幾個關(guān)鍵景點(diǎn):"首先參觀這個博物館,然后去那個公園,最后到這家餐廳"。這個清單隨后成為獎勵預(yù)測的基礎(chǔ),使WEB-SHEPHERD能夠追蹤朝向目標(biāo)的進(jìn)度。

第二步是基于清單的獎勵建模。研究團(tuán)隊選擇了下一個標(biāo)記預(yù)測作為學(xué)習(xí)目標(biāo),以利用多模態(tài)大型語言模型的內(nèi)部推理能力。他們優(yōu)化了針對由反饋F和判斷J連接形成的目標(biāo)的語言建模損失,將整個序列視為一個連貫的響應(yīng)。

具體來說,給定一個由清單C、觀察o和回答a組成的輸入,模型被訓(xùn)練成以自回歸方式生成相應(yīng)的反饋和判斷。損失函數(shù)定義為:

LNTP = -∑t log Pθ(yt | y<t, C, o, a)

其中y = [F; J]表示連接的反饋和判斷標(biāo)記。這個目標(biāo)鼓勵模型學(xué)習(xí)基于清單評估軌跡,進(jìn)行推理并提供解釋評估的有價值反饋。

由于獎勵是通過標(biāo)記生成預(yù)測的,輸出位于離散空間中。為了獲得連續(xù)的獎勵信號,可以采用幾種映射策略。一種方法是采樣多個輸出序列并計算平均獎勵?;蛘?,研究團(tuán)隊采用了一個verbalized(語言化器),使用來自LM頭的logits來估計標(biāo)簽標(biāo)記(例如,"Yes","No"和"In Progress")上的軟概率。

在推理時,WEB-SHEPHERD生成反饋F ~ P(·|I, C, o, a)并使用"Yes"和"In Progress"標(biāo)記的概率計算每個清單項的獎勵:

rk(o, a) = (1/L) ∑L_l P("Yes"|I, C, o, a, F) + 0.5 × P("In Progress"|I, C, o, a, F)

其中L表示清單的數(shù)量,rk是分配給第k個響應(yīng)的分?jǐn)?shù)。最終獎勵計算為平均值:r(o, a) = ∑K_k=1 rk(o, a)。

實驗結(jié)果與評估

研究團(tuán)隊進(jìn)行了全面的實驗,專注于在為網(wǎng)絡(luò)代理分配過程級別獎勵方面的有效性,既關(guān)注獎勵分配的準(zhǔn)確性,也關(guān)注這些獎勵在提高代理性能方面的實用性。

首先,他們創(chuàng)建了WEBREWARDBENCH,這是一個直接測量預(yù)測獎勵準(zhǔn)確性的基準(zhǔn)。為了構(gòu)建一個可靠的基準(zhǔn)來評估PRMs,他們遵循了Kim等人的設(shè)置,收集了偏好對(ot, a+_t, {a-_(t,i)}^4_i=1}),其中每個觀察ot都配對了一個選擇的動作和四個被拒絕的動作。此外,他們?yōu)槊總€任務(wù)提供了參考清單,以確保公平和一致的評估。

他們使用三個指標(biāo)評估過程獎勵預(yù)測:(1)平均倒數(shù)排名(MRR):在按預(yù)測獎勵排序的所有候選動作列表中,首選動作的倒數(shù)排名的平均值;(2)步驟準(zhǔn)確率(Acc. step):模型為首選動作a+_t分配最高預(yù)測獎勵的步驟比例;(3)軌跡準(zhǔn)確率(Acc. traj):模型在每個步驟中將a+排在候選動作中最高位置的完整軌跡比例。

研究發(fā)現(xiàn),當(dāng)前最先進(jìn)的多模態(tài)大型語言模型在為網(wǎng)絡(luò)導(dǎo)航任務(wù)分配可靠獎勵方面存在困難。這種限制在軌跡準(zhǔn)確率指標(biāo)中特別明顯。在這個指標(biāo)中,模型經(jīng)常無法在單個任務(wù)內(nèi)的每個時間步驟一致地分配正確的獎勵。相比之下,WEB-SHEPHERD在所有基準(zhǔn)設(shè)置中顯著優(yōu)于所有基線,表現(xiàn)出顯著的性能差距。

清單允許可靠的獎勵分配。實驗表明,基線和研究團(tuán)隊的模型在分配獎勵時都顯著受益于清單。清單導(dǎo)致獎勵分配更準(zhǔn)確和一致,如所有基線的軌跡準(zhǔn)確率提高所證明的。這些結(jié)果表明,清單作為有價值的指導(dǎo),幫助模型在預(yù)測過程獎勵時保持連貫性。

有趣的是,多模態(tài)輸入并不總是提高性能;在某些情況下,使用多模態(tài)輸入甚至?xí)档托阅?。例如,?dāng)使用GPT-4o作為獎勵模型時,他們在Mind2Web的跨網(wǎng)站子集上的軌跡準(zhǔn)確率方面觀察到顯著改進(jìn)。這一觀察與Xue等人的發(fā)現(xiàn)一致,表明處理來自多種模態(tài)的輸入可能引入模糊性,并充當(dāng)噪音源,最終阻礙模型性能。

在獎勵引導(dǎo)軌跡搜索方面,使用Best-of-n(BoN)采樣的獎勵引導(dǎo)搜索為評估獎勵模型引導(dǎo)策略的能力提供了一個實用代理。值得注意的是,它允許評估獎勵過度優(yōu)化的潛力,而不依賴強(qiáng)化學(xué)習(xí)。此外,它提供了一種在不微調(diào)的情況下調(diào)整MLLM策略的有效方法。

在WebArena-lite的在線設(shè)置中,他們使用GPT-4o-mini作為策略,在五個從策略采樣的動作候選中,執(zhí)行分配最高獎勵的動作。在使用GPT-4o-mini作為獎勵模型時,他們觀察到GPT-4o-mini策略的輕微改進(jìn)。然而,當(dāng)GPT-4o用作策略模型時,總體性能從31.52降至26.67。相比之下,應(yīng)用WEB-SHEPHERD導(dǎo)致GPT-4o-mini和GPT-4o策略在幾乎所有領(lǐng)域都有顯著的性能提升。值得注意的是,WEB-SHEPHERD將GPT-4o-mini的瀏覽性能從23.64提升到34.55,比沒有軌跡搜索的GPT-4o高出約3個百分點(diǎn)。這些結(jié)果表明,WEB-SHEPHERD在在線設(shè)置中保持有效,即使與更強(qiáng)的策略模型配對。

為了評估WEB-SHEPHERD生成的反饋的有效性,研究團(tuán)隊進(jìn)行了實驗,其中代理使用他們的反饋進(jìn)行步級別改進(jìn)。具體來說,當(dāng)當(dāng)前獎勵低于WEB-SHEPHERD分配的前一個獎勵時,代理使用他們的反饋改進(jìn)當(dāng)前動作。有趣的是,與Chae等人之前的發(fā)現(xiàn)相反,他們發(fā)現(xiàn)在改進(jìn)過程中納入模型反饋會導(dǎo)致顯著改進(jìn)。一個可能的解釋是,WEB-SHEPHERD不僅學(xué)習(xí)了動作的影響,還識別了表征次優(yōu)行為的模式。

成本效益分析與潛在應(yīng)用

研究團(tuán)隊評估了WEB-SHEPHERD的成本效益,將其與基于API的模型進(jìn)行了比較。對于WEB-SHEPHERD,成本估計基于A100 80GB GPU實例的每小時費(fèi)率(1.19美元/小時),結(jié)合通過vLLM測量的吞吐量。每個實例平均有81,287個輸入和1,953個輸出標(biāo)記,他們使用公開可用的價格計算基于API的模型的成本。

研究顯示,WEB-SHEPHERD以最低的每1,000個實例成本提供了最佳性能——大約比GPT-4o-mini便宜10倍,比GPT-4o便宜100倍。這種顯著的成本節(jié)約使得WEB-SHEPHERD成為實際應(yīng)用中的可行選擇,特別是對于需要在預(yù)算限制內(nèi)大規(guī)模部署網(wǎng)絡(luò)代理的企業(yè)或個人用戶。

研究團(tuán)隊還進(jìn)行了案例研究,對WEB-SHEPHERD進(jìn)行定性分析。他們從獎勵引導(dǎo)軌跡搜索中采樣了30個成功案例和30個失敗案例,并繪制了獎勵分?jǐn)?shù)趨勢作為軌跡長度上的歸一化步驟索引的函數(shù)。雖然失敗案例表現(xiàn)出相對平坦的獎勵曲線,但成功案例顯示隨時間的獎勵平穩(wěn)一致地增加。

此外,他們確定了三個最常見的錯誤來源:(1)對動作效果的錯誤推理,其中模型無法適當(dāng)?shù)仡A(yù)期未來獎勵——例如,在下一步中為本應(yīng)揭示所需信息的滾動動作分配低獎勵;(2)對觀察到的狀態(tài)的誤解,通常是由于沒有正確考慮先前動作的影響,導(dǎo)致模型不必要地重復(fù)動作;(3)生成的清單中的幻覺,例如假設(shè)網(wǎng)站上存在不存在的功能(如過濾功能)。

研究局限性與未來方向

盡管WEB-SHEPHERD取得了顯著的成功,但研究團(tuán)隊也坦率地討論了他們工作的一些限制和未來研究方向。

首先,他們指出需要擴(kuò)展到基于坐標(biāo)的動作。最近,基于坐標(biāo)的動作——代理使用直接坐標(biāo)輸入與數(shù)字環(huán)境交互,而不需要額外的后端程序來轉(zhuǎn)換動作——因其在多樣化接口中的適應(yīng)性而受到關(guān)注。研究團(tuán)隊已經(jīng)收集了一個數(shù)據(jù)集,以擴(kuò)展WEB-SHEPHERD支持基于坐標(biāo)的動作格式。然而,由于這個方向超出了本工作的主要范圍,他們將其探索留給未來的研究。

其次,將WEB-SHEPHERD應(yīng)用于強(qiáng)化學(xué)習(xí)是另一個有趣的未來方向。雖然他們計劃探索這個設(shè)置,但它需要大量的計算資源,因此也留給未來的工作。特別是,他們希望調(diào)查來自PRMs的獎勵信號是否可以提高學(xué)習(xí)效率——即,在訓(xùn)練期間獎勵增加的速度——以及在現(xiàn)有基準(zhǔn)上的最終性能。

第三,關(guān)于WEB-SHEPHERD的基礎(chǔ)模型選擇,研究團(tuán)隊目前的實現(xiàn)使用相對輕量級的基礎(chǔ)模型(3B-8B),但這種方法是模型無關(guān)的,可以擴(kuò)展到更大的規(guī)模。原則上,WEB-SHEPHERD可以擴(kuò)展到32B-72B范圍內(nèi)的更強(qiáng)大的基礎(chǔ)模型,這可能會在復(fù)雜的網(wǎng)絡(luò)環(huán)境中進(jìn)一步提高性能。他們將此類擴(kuò)展的探索留給未來的工作,特別是在資源豐富的環(huán)境中。

最后,擴(kuò)展WEB-SHEPHERD以處理多模態(tài)指令也是一個有前途的方向。雖然現(xiàn)有網(wǎng)絡(luò)代理基準(zhǔn)中的大多數(shù)指令都是純文本的,但一些任務(wù)——例如VisualWebArena中的任務(wù)——同時包含文本和圖像模態(tài)。擴(kuò)展WEB-SHEPHERD以處理多模態(tài)指令是未來工作的有前途的方向,因為它將使代理能夠在除了文本理解之外還需要視覺理解的更復(fù)雜和現(xiàn)實的網(wǎng)絡(luò)環(huán)境中操作。

結(jié)論

歸根結(jié)底,WEB-SHEPHERD代表了網(wǎng)絡(luò)導(dǎo)航領(lǐng)域的重要進(jìn)步。通過提供一個專門用于評估網(wǎng)絡(luò)代理軌跡的高效過程獎勵模型,研究團(tuán)隊不僅創(chuàng)建了一個性能優(yōu)越的解決方案,還大大降低了成本,使其在實際應(yīng)用中更加可行。

簡單來說,WEB-SHEPHERD就像是一個經(jīng)驗豐富的旅行向?qū)В粌H知道最終目的地在哪里,還能在旅程的每一步提供明確的指導(dǎo)。而且,與雇傭一個昂貴的專業(yè)向?qū)啾龋琖EB-SHEPHERD提供了同樣甚至更好的指導(dǎo),但成本只有原來的十分之一。

此外,研究團(tuán)隊通過創(chuàng)建WEBPRM COLLECTION和WEBREWARDBENCH,為未來的研究提供了寶貴的資源,使其他研究人員能夠構(gòu)建和評估自己的網(wǎng)絡(luò)導(dǎo)航獎勵模型。

對于普通用戶來說,這項研究的意義在于,它為更可靠、更經(jīng)濟(jì)的自動化網(wǎng)絡(luò)任務(wù)鋪平了道路。想象一下,在不久的將來,你可能會有一個個人助手,能夠為你預(yù)訂機(jī)票、比較產(chǎn)品價格、填寫表格,甚至管理你的社交媒體賬戶,而所有這些都以高度可靠的方式完成,不需要你的不斷干預(yù)。

WEB-SHEPHERD的清單基礎(chǔ)方法還提供了一個可推廣的框架,可能擴(kuò)展到網(wǎng)絡(luò)導(dǎo)航之外的其他順序決策制定領(lǐng)域,特別是那些獎勵稀疏和部分可觀察性仍然具有挑戰(zhàn)性的領(lǐng)域。我們相信,WEB-SHEPHERD為通過可解釋的獎勵建模開發(fā)更可靠的網(wǎng)絡(luò)代理奠定了基礎(chǔ)。

想要深入了解這項研究的讀者可以訪問研究團(tuán)隊的代碼庫和數(shù)據(jù)集,它們已公開可用。這不僅使其他研究人員能夠復(fù)制和擴(kuò)展這項工作,還使實踐者能夠?qū)EB-SHEPHERD集成到他們自己的應(yīng)用中,從而推動網(wǎng)絡(luò)代理技術(shù)的進(jìn)一步發(fā)展和應(yīng)用。

分享至
0贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-