av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

<wbr id="jsxci"></wbr>

微信掃一掃，關(guān)注公眾號

科技行者
算力行者

見證連接與計算的「力量」

讓機器人像人一樣靈活思考：博世與卡爾斯魯厄理工學(xué)院聯(lián)手打造智能規(guī)劃新框架

人工智能多智能體系統(tǒng)機器人規(guī)劃

讓機器人像人一樣靈活思考：博世與卡爾斯魯厄理工學(xué)院聯(lián)手打造智能規(guī)劃新框架

作者：科技行者

2025-07-02 11:01

分享至：

這項由德國博世人工智能中心和卡爾斯魯厄理工學(xué)院聯(lián)合開展的研究，創(chuàng)造了名為TAPAS的多智能體機器人規(guī)劃框架。該系統(tǒng)巧妙結(jié)合大型語言模型和符號規(guī)劃，讓機器人能夠理解復(fù)雜自然語言指令并動態(tài)適應(yīng)新任務(wù)需求。在多個測試中表現(xiàn)優(yōu)異，為未來智能機器人發(fā)展指明方向。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-07-02 11:01 ? 科技行者

在人工智能快速發(fā)展的今天，讓機器人真正理解人類語言并執(zhí)行復(fù)雜任務(wù)仍然是一個巨大挑戰(zhàn)。最近，來自德國博世人工智能中心的Harisankar Babu、Philipp Schillinger，以及卡爾斯魯厄理工學(xué)院的Tamim Asfour教授聯(lián)合發(fā)表了一項突破性研究。這項研究發(fā)表于2025年6月24日的arXiv預(yù)印本平臺（論文編號：arXiv:2506.19592v1），有興趣深入了解的讀者可以通過該編號在arXiv官網(wǎng)上找到完整論文。

傳統(tǒng)的機器人就像一個只會按照嚴格說明書操作的工人，一旦遇到說明書上沒有的情況就束手無策。而大型語言模型雖然能夠理解人類語言，但缺乏嚴密的邏輯推理能力，就像一個很會聊天但做事馬虎的助手。研究團隊巧妙地將這兩者結(jié)合起來，創(chuàng)造了一個名為TAPAS的智能框架，讓機器人既能理解復(fù)雜的自然語言指令，又能進行嚴密的邏輯規(guī)劃。

設(shè)想這樣一個場景：你告訴家務(wù)機器人"把最大的積木放在最下面，紅色的放在中間，綠色的放在最上面，組成一個塔"。傳統(tǒng)機器人可能會困惑，因為它的程序里只有"把A放在B上面"這樣簡單的指令，沒有關(guān)于顏色和大小的概念。但TAPAS系統(tǒng)就像一個聰明的管家，它會意識到需要了解積木的顏色和大小信息，主動向你詢問這些細節(jié)，然后更新自己的知識體系，最終完美完成任務(wù)。

這項研究的核心創(chuàng)新在于創(chuàng)建了一個多智能體協(xié)作框架。就像一個高效的團隊，不同的AI助手分工明確：有專門負責(zé)理解任務(wù)環(huán)境的"環(huán)境分析師"，有負責(zé)描述當前狀態(tài)的"狀態(tài)觀察員"，還有負責(zé)制定目標的"目標規(guī)劃師"。這些AI助手通過結(jié)構(gòu)化的工具調(diào)用機制進行協(xié)作，當下游助手發(fā)現(xiàn)上游助手提供的信息不夠完整時，可以主動請求修改和補充。

一、智能協(xié)作的秘密：多智能體如何分工合作

TAPAS系統(tǒng)的工作原理就像一個專業(yè)的建筑團隊。當接到一個新的建筑項目時，建筑師首先需要理解客戶的需求和場地環(huán)境，結(jié)構(gòu)工程師要分析當前的地形和材料狀況，而項目經(jīng)理則要制定具體的施工目標和時間表。

在TAPAS框架中，領(lǐng)域生成器扮演著建筑師的角色。當它收到用自然語言描述的問題時，會將其轉(zhuǎn)換成機器能理解的正式領(lǐng)域模型，定義涉及的對象類型、屬性關(guān)系和可執(zhí)行的操作。這就像建筑師根據(jù)客戶描述繪制出詳細的建筑圖紙，明確每個房間的功能、尺寸和相互關(guān)系。

初始狀態(tài)生成器則像是現(xiàn)場勘測的結(jié)構(gòu)工程師。它接收領(lǐng)域模型和對當前環(huán)境的自然語言描述，生成精確的初始狀態(tài)代碼，詳細記錄每個對象的當前位置和屬性值。這相當于工程師測量現(xiàn)有地形、標記地下管線位置，為后續(xù)施工提供準確的現(xiàn)狀基礎(chǔ)。

目標狀態(tài)生成器扮演項目經(jīng)理的角色，它綜合考慮領(lǐng)域模型、當前狀態(tài)和目標描述，制定出清晰的目標條件。這些條件必須與初始狀態(tài)和領(lǐng)域模型保持一致，就像項目經(jīng)理制定的施工計劃必須考慮現(xiàn)場實際情況和可用資源。

這個團隊最精妙的地方在于它們的協(xié)作機制。當目標狀態(tài)生成器發(fā)現(xiàn)需要使用某些在領(lǐng)域模型中不存在的屬性時，比如積木的顏色，它會主動調(diào)用工具向領(lǐng)域生成器請求添加這些缺失的概念。領(lǐng)域生成器收到請求后，會更新模型，添加顏色屬性并修改相關(guān)操作的約束條件。隨后，初始狀態(tài)生成器也會相應(yīng)調(diào)整，為每個積木標注顏色信息。

為了確保生成結(jié)果的質(zhì)量，每個智能體都配備了自我反思機制。就像有經(jīng)驗的工程師會反復(fù)檢查自己的設(shè)計圖紙，TAPAS中的每個智能體都有一個內(nèi)置的"批評家"來評估自己的輸出。如果生成的結(jié)果被評為不合格，智能體會根據(jù)反饋意見進行修改，直到達到預(yù)設(shè)的質(zhì)量標準或達到最大嘗試次數(shù)。

這種協(xié)作模式的優(yōu)勢在于它的適應(yīng)性。傳統(tǒng)的規(guī)劃系統(tǒng)就像使用固定模板的裝配線，只能處理預(yù)先定義好的問題類型。而TAPAS系統(tǒng)更像一個靈活的設(shè)計工作室，能夠根據(jù)新的需求動態(tài)調(diào)整工作流程和知識結(jié)構(gòu)。

二、從理解到行動：如何讓抽象計劃變成具體操作

當TAPAS系統(tǒng)完成問題建模后，下一個挑戰(zhàn)是生成可執(zhí)行的計劃并將其轉(zhuǎn)化為實際行動。這個過程就像將建筑師的設(shè)計圖紙轉(zhuǎn)化為具體的施工步驟，然后指導(dǎo)工人完成實際建設(shè)。

系統(tǒng)首先使用統(tǒng)一規(guī)劃框架來生成結(jié)構(gòu)化的行動序列。這個框架支持多種規(guī)劃語言，就像一個通用的翻譯器，能夠理解不同"方言"的規(guī)劃描述。當遇到語義錯誤或建模問題時，系統(tǒng)會啟動一個智能調(diào)試器，這個調(diào)試器就像一個經(jīng)驗豐富的技術(shù)專家，能夠查詢相關(guān)文檔庫，找出問題所在并提供具體的修正建議。

然而，生成的計劃往往使用抽象的操作名稱和參數(shù)，這些可能與機器人實際具備的技能不完全對應(yīng)。就像建筑圖紙上寫著"安裝窗戶"，但具體到施工現(xiàn)場，工人需要知道使用什么工具、按什么順序操作、注意哪些安全事項。

為了解決這個問題，TAPAS引入了計劃抽象模塊，將結(jié)構(gòu)化的符號計劃轉(zhuǎn)換為自然語言指令。比如，原始計劃中的"move(pos-0-1, pos-0-2, h0)"會被翻譯成"從位置pos-0-1移動到位置pos-0-2"。這種翻譯會省略一些內(nèi)部參數(shù)（如高度參數(shù)h0），因為這些對于理解基本任務(wù)并不重要，就像告訴司機"去市中心"而不需要說明具體的GPS坐標。

真正的執(zhí)行過程由兩個專門的智能體負責(zé)：行動執(zhí)行智能體和驗證智能體。行動執(zhí)行智能體采用了一種叫做ReAct的方法，這種方法讓AI能夠邊思考邊行動。當它收到一個自然語言指令時，會分析當前環(huán)境狀態(tài)，選擇最合適的可用技能來完成任務(wù)，然后執(zhí)行這個技能。

這個過程很像一個熟練的廚師根據(jù)菜譜做菜。菜譜上可能寫著"將蔬菜炒至軟爛"，但廚師需要根據(jù)火候、蔬菜的實際狀態(tài)和可用的炊具，決定具體的火力大小、翻炒頻率和時間。行動執(zhí)行智能體就是這樣一個"智能廚師"，能夠?qū)⒊橄蟮闹噶钷D(zhuǎn)化為具體的操作序列。

驗證智能體則像一個質(zhì)檢員，負責(zé)監(jiān)控整個執(zhí)行過程。它會檢查每個動作的結(jié)果，判斷是否達到了預(yù)期目標。如果發(fā)現(xiàn)問題，驗證智能體會提供糾正性反饋，指導(dǎo)行動執(zhí)行智能體嘗試不同的方法。對于無法恢復(fù)的嚴重錯誤，驗證智能體會及時通知用戶，避免造成更大的損失。

這種執(zhí)行機制的一個重要特點是它的容錯能力?，F(xiàn)實世界中總會有意外情況發(fā)生，比如物體位置發(fā)生變化、工具出現(xiàn)故障等。傳統(tǒng)的機器人程序遇到這些情況往往會崩潰或卡住，而TAPAS系統(tǒng)能夠動態(tài)調(diào)整策略，尋找替代方案繼續(xù)執(zhí)行任務(wù)。

三、學(xué)習(xí)與記憶：讓系統(tǒng)越用越聰明

TAPAS系統(tǒng)最有趣的特性之一是它的學(xué)習(xí)能力。就像人類會從經(jīng)驗中學(xué)習(xí)，記住有用的技巧和避免重復(fù)犯錯，TAPAS也具備了兩種記憶機制來不斷改進自己的表現(xiàn)。

短期記憶就像我們的工作記憶，主要用于處理當前任務(wù)。系統(tǒng)會記錄最近的交互歷史，包括用戶查詢、工具調(diào)用和智能體響應(yīng)。這種記憶幫助系統(tǒng)在多輪對話中保持連貫性，確保當前的決策能夠考慮到之前的上下文信息。

更有意思的是長期記憶機制，這就像我們的經(jīng)驗庫。當系統(tǒng)遇到用戶明確指出的錯誤或改進建議時，會將這些有價值的反饋存儲在程序記憶中。比如，用戶可能會說"處理冰箱相關(guān)任務(wù)時，即使沒有明確要求，也要記得最后關(guān)上冰箱門"。系統(tǒng)會將這條建議記錄下來，在以后遇到類似任務(wù)時自動應(yīng)用。

記憶的存儲過程很智能。系統(tǒng)不是簡單地記錄所有信息，而是會判斷哪些糾正措施具有普遍適用性。只有那些被認為可以推廣到其他類似情況的經(jīng)驗才會被保存。這就像一個優(yōu)秀的學(xué)生不是死記硬背每個具體問題的答案，而是總結(jié)出解題的一般規(guī)律。

在需要回憶相關(guān)經(jīng)驗時，系統(tǒng)會計算當前任務(wù)與存儲記憶的相似度。這個過程使用了語義相似度計算，能夠找出在含義上相關(guān)的歷史經(jīng)驗，即使用詞不完全相同。比如，當遇到"整理廚房"的任務(wù)時，系統(tǒng)可能會回憶起之前關(guān)于"清理冰箱"的經(jīng)驗，因為它們在語義上相關(guān)。

不過，這種記憶機制也有局限性。有時候，系統(tǒng)可能會檢索到表面相似但實際不相關(guān)的經(jīng)驗，導(dǎo)致應(yīng)用不當?shù)囊?guī)則。這就像人類有時會被誤導(dǎo)性的類比所困擾。因此，系統(tǒng)的設(shè)計強調(diào)了記憶應(yīng)用的謹慎性，會在應(yīng)用歷史經(jīng)驗時進行適當?shù)尿炞C。

為了進一步提高可靠性，TAPAS還實現(xiàn)了一個自我反思機制。每個智能體都配備了一個"內(nèi)部批評家"，這個批評家會從正確性、連貫性和完整性等多個維度評估生成的結(jié)果。如果評分低于預(yù)設(shè)閾值，系統(tǒng)會要求重新生成或修改，直到滿足質(zhì)量要求。

這種學(xué)習(xí)機制使得TAPAS不僅能夠處理當前的任務(wù)，還能夠從每次交互中獲得提升。隨著使用時間的增長，系統(tǒng)會積累越來越多的領(lǐng)域知識和操作經(jīng)驗，變得更加智能和可靠。

四、實驗驗證：從理論到實踐的檢驗

為了驗證TAPAS系統(tǒng)的實際效果，研究團隊進行了一系列全面的實驗測試。這些測試就像對一個新產(chǎn)品進行質(zhì)量檢驗，需要在各種不同的條件下考察系統(tǒng)的表現(xiàn)。

研究團隊選擇了七個經(jīng)典的規(guī)劃領(lǐng)域進行測試，這些領(lǐng)域涵蓋了從簡單的積木世界到復(fù)雜的輪胎世界等不同難度級別的任務(wù)。就像考試需要涵蓋不同題型來全面評估學(xué)生水平，這些測試領(lǐng)域能夠檢驗系統(tǒng)在各種情況下的適應(yīng)能力。

在基礎(chǔ)性能測試中，TAPAS表現(xiàn)相當出色。使用GPT-4o模型時，系統(tǒng)在積木世界和抓手機器人任務(wù)中達到了完美的100%成功率，在大多數(shù)其他領(lǐng)域也取得了90%以上的成功率。即使在相對困難的地板磚鋪設(shè)任務(wù)中，也達到了57%的成功率。這些結(jié)果證明了系統(tǒng)具備處理多樣化規(guī)劃任務(wù)的能力。

研究團隊還測試了不同語言模型對系統(tǒng)性能的影響。結(jié)果顯示，Claude 3.7 Sonnet和GPT-4o表現(xiàn)最佳，而較小的模型如GPT-4o Mini和開源模型的表現(xiàn)相對較差。這就像不同水平的翻譯員處理復(fù)雜文檔的能力差異，更先進的模型能夠更準確地理解和處理復(fù)雜的規(guī)劃任務(wù)。

特別有趣的是溫度參數(shù)對系統(tǒng)表現(xiàn)的影響。當設(shè)置較高的隨機性時（溫度0.3），系統(tǒng)的平均成功率從88.42%下降到83.57%。這是因為過高的隨機性會導(dǎo)致模型產(chǎn)生不必要的變化和偏離指令。不過，研究者指出，在某些需要創(chuàng)造性擴展的場景中，適度的隨機性可能是有益的。

更重要的測試是系統(tǒng)處理新屬性和約束的能力。研究團隊故意給出包含原始領(lǐng)域模型中不存在的概念的任務(wù)，比如要求根據(jù)積木的顏色和大小進行排列。在這類測試中，TAPAS展現(xiàn)出了令人印象深刻的適應(yīng)性。當遇到需要顏色信息的任務(wù)時，系統(tǒng)能夠自動識別缺失的概念，向用戶詢問必要信息，并相應(yīng)地更新領(lǐng)域模型。

在更復(fù)雜的功能性約束測試中，比如要求機器人考慮電池消耗，系統(tǒng)不僅添加了電池電量的概念，還智能地修改了相關(guān)動作的前提條件和效果。例如，為移動動作添加了電池消耗，為目標狀態(tài)增加了最低電量要求。這種自主的模型修改能力是傳統(tǒng)規(guī)劃系統(tǒng)無法實現(xiàn)的。

為了驗證整個框架在真實環(huán)境中的表現(xiàn)，研究團隊在VirtualHome模擬環(huán)境中進行了綜合測試。在這個虛擬家庭環(huán)境中，人形機器人需要完成復(fù)雜的家務(wù)任務(wù)，比如"把餡餅放在廚房桌子上，同時加熱鮭魚并放在同一張桌子上"。

TAPAS成功地完成了這個多步驟任務(wù)。系統(tǒng)首先理解了任務(wù)描述，生成了包含多個子目標的計劃，然后逐步執(zhí)行：打開冰箱、取出鮭魚、使用微波爐加熱、將鮭魚放在指定位置。整個過程展現(xiàn)了從自然語言理解到具體動作執(zhí)行的完整流程。

在測試過程中，系統(tǒng)還展現(xiàn)了學(xué)習(xí)能力。當用戶提出"處理冰箱相關(guān)任務(wù)時記得關(guān)閉冰箱門"的建議后，系統(tǒng)將這條規(guī)則存儲在程序記憶中。在后續(xù)的類似任務(wù)中，即使沒有明確要求，系統(tǒng)也會自動添加關(guān)閉冰箱門的目標。

五、突破與局限：技術(shù)創(chuàng)新的雙面性

TAPAS系統(tǒng)的成功凸顯了將大型語言模型與傳統(tǒng)符號規(guī)劃相結(jié)合的巨大潛力，但也暴露了當前技術(shù)的一些固有限制。

系統(tǒng)最突出的優(yōu)勢在于其動態(tài)適應(yīng)能力。與傳統(tǒng)的靜態(tài)規(guī)劃系統(tǒng)相比，TAPAS能夠在運行時自主發(fā)現(xiàn)并填補知識空白，這就像一個能夠邊學(xué)邊做的學(xué)徒工，遇到新情況時不會束手無策，而是主動尋找解決方案。這種能力使得機器人能夠處理那些預(yù)先定義的領(lǐng)域模型中沒有涵蓋的復(fù)雜任務(wù)。

另一個重要突破是系統(tǒng)的模塊化設(shè)計。不同的智能體專門負責(zé)不同的任務(wù)階段，這種分工合作的方式不僅提高了效率，還增強了系統(tǒng)的可維護性和可擴展性。如果需要改進某個特定功能，只需要升級相應(yīng)的智能體模塊，而不需要重寫整個系統(tǒng)。

系統(tǒng)的學(xué)習(xí)機制也值得稱贊。通過程序記憶，TAPAS能夠積累領(lǐng)域特定的知識和操作經(jīng)驗，隨著使用時間的延長逐漸變得更加智能。這種持續(xù)學(xué)習(xí)的能力是邁向真正智能系統(tǒng)的重要一步。

然而，TAPAS也面臨著一些明顯的挑戰(zhàn)。最主要的問題是系統(tǒng)性能高度依賴于底層語言模型的質(zhì)量。研究顯示，使用較小或較不先進的模型時，系統(tǒng)的成功率會顯著下降。這就像一個團隊的表現(xiàn)取決于其核心成員的能力，如果關(guān)鍵智能體的推理能力不足，整個系統(tǒng)的可靠性就會受到影響。

語言模型的幻覺問題也是一個不容忽視的風(fēng)險。有時模型會生成看似合理但實際錯誤的信息，這可能導(dǎo)致錯誤的領(lǐng)域模型或不可行的計劃。雖然系統(tǒng)內(nèi)置了多層驗證機制，但復(fù)雜的幻覺仍然可能逃過檢測，特別是在使用較小模型時這個問題更加突出。

記憶檢索機制的局限性也帶來了一些困擾?；谡Z義相似度的檢索有時會找到表面相似但實際不相關(guān)的歷史經(jīng)驗，導(dǎo)致應(yīng)用不當?shù)囊?guī)則。這就像人類有時會被誤導(dǎo)性的類比所困擾，看似相關(guān)的經(jīng)驗實際上并不適用于當前情況。

在錯誤恢復(fù)方面，TAPAS還有改進空間。雖然系統(tǒng)能夠處理一些執(zhí)行過程中的小問題，但對于根本性的任務(wù)理解錯誤，往往只能通知用戶而無法自主恢復(fù)。這限制了系統(tǒng)在完全自主環(huán)境中的應(yīng)用潛力。

成本效率也是一個實際考慮因素。TAPAS需要多次調(diào)用大型語言模型，特別是在遇到復(fù)雜任務(wù)或需要多次迭代修正時，計算成本可能會顯著增加。這在實際部署時需要仔細權(quán)衡性能與成本的關(guān)系。

盡管存在這些挑戰(zhàn)，TAPAS代表了人工智能規(guī)劃領(lǐng)域的一個重要進步。研究團隊已經(jīng)識別了這些局限性，并為未來的改進提供了明確的方向。隨著語言模型技術(shù)的不斷進步和系統(tǒng)架構(gòu)的持續(xù)優(yōu)化，這些問題很可能會在未來得到解決。

歸根結(jié)底，TAPAS展示了一種新的可能性：讓機器人不僅能夠執(zhí)行預(yù)定義的任務(wù)，還能夠理解、學(xué)習(xí)和適應(yīng)新的挑戰(zhàn)。雖然距離完全自主的智能系統(tǒng)還有一段路要走，但TAPAS為我們指明了一個有前景的發(fā)展方向。這項研究證明，通過巧妙地結(jié)合不同AI技術(shù)的優(yōu)勢，我們可以創(chuàng)造出比各部分之和更強大的智能系統(tǒng)。

對于普通人來說，這意味著未來的機器人助手將更加靈活和智能，能夠更好地理解我們的需求并適應(yīng)我們多變的生活環(huán)境。當你告訴家務(wù)機器人"幫我收拾客廳準備客人來訪"時，它不僅能理解這個復(fù)雜的多步驟任務(wù)，還能根據(jù)你家的具體情況和之前的經(jīng)驗，制定出最合適的行動計劃。這樣的未來或許比我們想象的更近。

Q&A Q1：TAPAS系統(tǒng)是什么？它能做什么？ A：TAPAS是一個智能機器人規(guī)劃框架，能讓機器人理解復(fù)雜的自然語言指令并自動制定執(zhí)行計劃。它最特別的地方是能在遇到新情況時自動學(xué)習(xí)和適應(yīng)，比如當你要求機器人按顏色排列積木時，它會主動詢問積木顏色并更新自己的知識體系。

Q2：TAPAS會不會取代人類規(guī)劃師？ A：目前不會。TAPAS主要是幫助機器人更好地理解和執(zhí)行任務(wù)，它仍然需要人類提供指導(dǎo)和監(jiān)督。雖然它能自主處理很多規(guī)劃任務(wù)，但對于復(fù)雜的創(chuàng)造性規(guī)劃和重要決策，人類的判斷仍然不可替代。

Q3：普通人什么時候能用到TAPAS技術(shù)？ A：這項技術(shù)目前還在研究階段，主要在實驗室環(huán)境中測試。不過，隨著技術(shù)的成熟，我們可能在未來5-10年內(nèi)看到基于類似技術(shù)的家用機器人產(chǎn)品，它們能更智能地理解我們的指令并完成復(fù)雜的家務(wù)任務(wù)。

人工智能多智能體系統(tǒng)機器人規(guī)劃

分享至

0贊

好文章，需要你的鼓勵

推薦文章

音頻生成
大語言模型
多模態(tài)AI

2025-09-10 09:47

如何讓AI像電影配樂師一樣創(chuàng)作完整的長篇音頻故事——騰訊ARC實驗室團隊AudioStory突破性進展

騰訊ARC實驗室推出AudioStory系統(tǒng)，首次實現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù)，通過交錯式推理生成、解耦橋接機制和漸進式訓(xùn)練，能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準測試中表現(xiàn)優(yōu)異，為AI音頻創(chuàng)作開辟新方向。
視頻生成
深度學(xué)習(xí)
多模態(tài)學(xué)習(xí)

2025-09-09 13:57

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動起來不再是奢望

Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù)，通過讓AI同時學(xué)習(xí)外觀和運動信息，顯著解決了當前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個線性層就能大幅提升運動質(zhì)量，在多項測試中超越包括Sora在內(nèi)的商業(yè)模型，為AI視頻生成的實用化應(yīng)用奠定了重要基礎(chǔ)。
多模態(tài)AI
人類價值觀對齊
數(shù)據(jù)集構(gòu)建

2025-09-09 13:56

上海AI實驗室重磅發(fā)布：讓AI看圖"說人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類價值觀對齊難題

上海AI實驗室發(fā)布OmniAlign-V研究，首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評測基準，通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法，讓AI在保持技術(shù)能力的同時顯著提升人性化交互水平，為AI價值觀對齊提供了可行技術(shù)路徑。
人工智能
圖神經(jīng)網(wǎng)絡(luò)
天氣預(yù)報

2025-09-09 10:56

谷歌研究團隊發(fā)布超級預(yù)測模型：讓AI像天氣預(yù)報員一樣預(yù)測全球大氣變化

谷歌DeepMind團隊開發(fā)的GraphCast是一個革命性的AI天氣預(yù)測模型，能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報，準確性超越傳統(tǒng)方法90%的指標。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù)，通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律，在極端天氣預(yù)測方面表現(xiàn)卓越，能耗僅為傳統(tǒng)方法的千分之一，為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。

如何讓AI像電影配樂師一樣創(chuàng)作完整的長篇音頻故事——騰訊ARC實驗室團隊AudioStory突破性進展

如何讓AI像電影配樂師一樣創(chuàng)作完整的長篇音頻故事——騰訊ARC實驗室團隊AudioStory突破性進展

2025-09-10 09:47

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動起來不再是奢望

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動起來不再是奢望

2025-09-09 13:57

上海AI實驗室重磅發(fā)布：讓AI看圖"說人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類價值觀對齊難題

上海AI實驗室重磅發(fā)布：讓AI看圖"說人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類價值觀對齊難題

2025-09-09 13:56

谷歌研究團隊發(fā)布超級預(yù)測模型：讓AI像天氣預(yù)報員一樣預(yù)測全球大氣變化

谷歌研究團隊發(fā)布超級預(yù)測模型：讓AI像天氣預(yù)報員一樣預(yù)測全球大氣變化

2025-09-09 10:56

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

友情鏈接

至頂網(wǎng)
管理現(xiàn)代化
和訊IT
TechWeb
第三媒體
速途網(wǎng)
51CTO傳媒
投資界
科技訊
智者新時代

京ICP證15039648號京ICP備15039648號-9 京公網(wǎng)安備 11010802021500號

北京第二十六維信息技術(shù)有限公司（至頂網(wǎng)）版權(quán)所有。 | 聯(lián)絡(luò)我們

舉報電話：010-62641205　涉未成年人舉報專線：010-62641208 舉報郵箱: jubao@zhiding.cn 　網(wǎng)上有害信息舉報專區(qū)：https://www.12377.cn