av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見(jiàn)證連接與計(jì)算的「力量」

首頁(yè) ComfyMind:通過(guò)樹(shù)狀規(guī)劃和反饋機(jī)制打造通用生成系統(tǒng)

ComfyMind:通過(guò)樹(shù)狀規(guī)劃和反饋機(jī)制打造通用生成系統(tǒng)

2025-05-31 11:47
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-05-31 11:47 ? 科技行者

在人工智能飛速發(fā)展的當(dāng)下,視覺(jué)生成技術(shù)已經(jīng)取得了令人矚目的成就。來(lái)自香港科技大學(xué)(廣州)的研究團(tuán)隊(duì)最近發(fā)表了一項(xiàng)突破性研究——ComfyMind,這是一個(gè)建立在ComfyUI平臺(tái)上的協(xié)作式AI系統(tǒng),旨在解決目前開(kāi)源通用生成系統(tǒng)面臨的關(guān)鍵挑戰(zhàn)。這篇發(fā)表于2025年5月23日的論文《ComfyMind: Toward General-Purpose Generation via Tree-Based Planning and Reactive Feedback》由郭立濤、許心力、王洛洲等研究人員共同完成,提出了一種全新的視覺(jué)內(nèi)容創(chuàng)建方法,讓我們一起深入了解這項(xiàng)創(chuàng)新研究吧。

一、研究背景:為什么我們需要更好的通用生成系統(tǒng)?

想象一下,你正在使用一款圖像生成軟件來(lái)創(chuàng)建一張?zhí)囟▓?chǎng)景的圖片。有時(shí)候它能很好地完成任務(wù),但有時(shí)卻會(huì)出現(xiàn)各種奇怪的問(wèn)題:手指畸形、物體位置錯(cuò)亂、或者完全無(wú)法按照你的要求生成圖像。這些問(wèn)題在當(dāng)前的開(kāi)源通用生成系統(tǒng)中相當(dāng)常見(jiàn),特別是當(dāng)你想完成復(fù)雜的創(chuàng)作任務(wù)時(shí)。

隨著視覺(jué)生成模型的快速發(fā)展,我們已經(jīng)看到了在文本到圖像生成、圖像編輯和視頻生成等多個(gè)領(lǐng)域的顯著進(jìn)步。近年來(lái),研究逐漸轉(zhuǎn)向端到端的通用生成模型,試圖在單一系統(tǒng)中處理各種不同的任務(wù)。然而,現(xiàn)有的開(kāi)源通用生成模型仍然面臨一系列挑戰(zhàn),包括生成質(zhì)量不穩(wěn)定以及缺乏處理復(fù)雜多階段視覺(jué)工作流所需的結(jié)構(gòu)化規(guī)劃和組合機(jī)制。

相比之下,最近發(fā)布的OpenAI的GPT-Image-1因其在統(tǒng)一圖像生成方面的卓越能力而備受關(guān)注。然而,GPT-Image-1的閉源特性以及主要專注于圖像生成任務(wù)限制了它在更廣泛的多模態(tài)生成任務(wù)中的應(yīng)用和可擴(kuò)展性。

ComfyUI平臺(tái)提供了實(shí)現(xiàn)開(kāi)源通用生成方法的潛在途徑。它是一個(gè)開(kāi)源平臺(tái),旨在創(chuàng)建和執(zhí)行生成工作流,提供基于節(jié)點(diǎn)的界面,允許用戶根據(jù)需要構(gòu)建以JSON表示的視覺(jué)生成工作流。該平臺(tái)的模塊化設(shè)計(jì)在構(gòu)建工作流方面提供了高度靈活性。然而,盡管具有靈活性,從頭開(kāi)始構(gòu)建復(fù)雜工作流仍然是一項(xiàng)挑戰(zhàn),特別是在處理定制或復(fù)雜的任務(wù)需求時(shí),這需要大量專業(yè)知識(shí)和相當(dāng)多的試錯(cuò)時(shí)間。

最近的研究開(kāi)始探索使用大型語(yǔ)言模型(LLMs)構(gòu)建定制工作流,從而實(shí)現(xiàn)通用視覺(jué)生成。ComfyAgent就是這樣一個(gè)基于ComfyUI的自動(dòng)化解決方案,用于從自然語(yǔ)言指令生成工作流。但ComfyAgent也揭示了兩個(gè)核心問(wèn)題:首先,它將工作流構(gòu)建視為平面的、基于標(biāo)記的解碼任務(wù),難以有效建模模塊化和層次結(jié)構(gòu);其次,系統(tǒng)缺乏執(zhí)行級(jí)別的反饋機(jī)制,無(wú)法在生成過(guò)程中獲取任何反饋或錯(cuò)誤信息。

香港科技大學(xué)的研究團(tuán)隊(duì)從人類用戶構(gòu)建工作流的方式中汲取靈感,提出了ComfyMind框架。他們觀察到,人類用戶通常不會(huì)從頭開(kāi)始構(gòu)建復(fù)雜工作流,而是將任務(wù)分解為更小的子任務(wù),并基于更高層次的語(yǔ)義為每個(gè)子任務(wù)選擇適當(dāng)?shù)哪0骞ぷ髁鳌_@種模塊化、逐步規(guī)劃的過(guò)程,結(jié)合本地化反饋策略,使他們能夠增量細(xì)化和適應(yīng)。當(dāng)失敗發(fā)生時(shí),調(diào)整是局部而非全局進(jìn)行的。這種分層規(guī)劃和反饋策略增強(qiáng)了解決復(fù)雜問(wèn)題的能力并提高了穩(wěn)健性。

二、ComfyMind:像搭積木一樣構(gòu)建視覺(jué)生成系統(tǒng)

ComfyMind的核心思想是將工作流生成表示為模板工作流的語(yǔ)義組合,而不是節(jié)點(diǎn)配置的基于標(biāo)記的合成。具體來(lái)說(shuō),ComfyMind將模板工作流視為原子語(yǔ)義模塊,每個(gè)模塊都有明確定義的功能、輸入/輸出接口和自然語(yǔ)言描述。通過(guò)對(duì)這些高級(jí)組件進(jìn)行推理,ComfyMind實(shí)現(xiàn)了更穩(wěn)定和可控的任務(wù)組合。

ComfyMind由兩個(gè)核心機(jī)制組成。首先是語(yǔ)義工作流接口(Semantic Workflow Interface,簡(jiǎn)稱SWI),它將低級(jí)節(jié)點(diǎn)圖抽象為帶有結(jié)構(gòu)化輸入、輸出和自然語(yǔ)言說(shuō)明的可調(diào)用語(yǔ)義函數(shù)。這種抽象允許語(yǔ)言模型在語(yǔ)義層面上操作工作流,減少對(duì)平臺(tái)特定語(yǔ)法的暴露,并最小化結(jié)構(gòu)錯(cuò)誤。第二個(gè)機(jī)制是帶有本地反饋執(zhí)行的搜索樹(shù)規(guī)劃(Search Tree Planning with Local Feedback Execution),它將任務(wù)執(zhí)行建模為分層決策過(guò)程。規(guī)劃樹(shù)中的每個(gè)節(jié)點(diǎn)代表一個(gè)子任務(wù),每條邊對(duì)應(yīng)一個(gè)選定的SWI模塊。在執(zhí)行過(guò)程中,失敗會(huì)觸發(fā)當(dāng)前樹(shù)層的本地化糾正,避免全鏈重新生成,顯著提高了穩(wěn)健性。

與之前基于ComfyUI的工作(如ComfyAgent)相比,ComfyMind采用了全新的方法。ComfyAgent使用多代理系統(tǒng)將自然語(yǔ)言指令轉(zhuǎn)換為可執(zhí)行工作流,但它在低級(jí)工作流生成中存在問(wèn)題。它將工作流構(gòu)建視為平面的、基于標(biāo)記的解碼任務(wù),難以有效建模模塊化和層次結(jié)構(gòu),導(dǎo)致節(jié)點(diǎn)遺漏、語(yǔ)義不匹配和脆弱的組合,難以跨任務(wù)泛化。此外,它缺乏執(zhí)行級(jí)別的反饋機(jī)制,一旦工作流構(gòu)建完成,系統(tǒng)就無(wú)法獲取任何反饋或錯(cuò)誤信息,阻礙了增量糾正并降低了整體穩(wěn)健性。

相比之下,ComfyMind模擬人類策略,提出了一種新穎的框架。如圖1所示,該框架展示了強(qiáng)大的通用性,支持廣泛的圖像和視頻生成及編輯任務(wù)。ComfyMind通過(guò)樹(shù)狀規(guī)劃和本地反饋機(jī)制解決了這些問(wèn)題,大大提高了系統(tǒng)的魯棒性和靈活性。它將工作流生成表示為模板工作流的語(yǔ)義組合,而不是節(jié)點(diǎn)配置的基于標(biāo)記的合成。

三、語(yǔ)義工作流接口:簡(jiǎn)化復(fù)雜工作流的秘密武器

想象一下廚房里的一系列電器——烤箱、攪拌機(jī)、榨汁機(jī)等。每個(gè)電器都有特定功能,但如果你想制作一道復(fù)雜菜肴,需要知道如何組合使用這些工具。語(yǔ)義工作流接口(SWI)就像是為這些"電器"(即工作流)創(chuàng)建的簡(jiǎn)單說(shuō)明書(shū),讓你不必了解每個(gè)電器的內(nèi)部構(gòu)造,只需知道它的功能和如何使用即可。

ComfyMind不同于ComfyAgent的底層構(gòu)建整個(gè)工作流的范式,采用了一種類似人類構(gòu)建工作流的方法,將生成任務(wù)分解為模塊化子任務(wù),每個(gè)子任務(wù)由規(guī)劃代理獨(dú)立處理。在每個(gè)子任務(wù)中,規(guī)劃代理從工作流庫(kù)中選擇最合適的原子工作流作為工具。與復(fù)雜工作流不同,每個(gè)原子工作流負(fù)責(zé)一個(gè)簡(jiǎn)單的單步生成過(guò)程,如文本到圖像生成或掩碼生成。換句話說(shuō),ComfyMind用原子工作流替代了ComfyAgent中的單個(gè)標(biāo)記,作為工作流構(gòu)建中的最小單元。

基于這種方法,研究團(tuán)隊(duì)引入了語(yǔ)義工作流接口,它使用自然語(yǔ)言函數(shù)而不是低級(jí)JSON規(guī)范作為工作流構(gòu)建的中間表示。每個(gè)原子工作流,封裝一個(gè)功能,都帶有一個(gè)簡(jiǎn)單的自然語(yǔ)言描述,概述其目的、所需參數(shù)和用法?;谶@些元數(shù)據(jù),ComfyMind中的規(guī)劃代理選擇最合適的函數(shù)進(jìn)行調(diào)用。調(diào)用過(guò)程中,將所需參數(shù)(如提示或參考圖像)和可選的高級(jí)約束傳遞給函數(shù)。然后,執(zhí)行代理將選定的函數(shù)映射到其對(duì)應(yīng)的JSON表示,注入?yún)?shù)。最后,大型語(yǔ)言模型(LLM)對(duì)JSON進(jìn)行自適應(yīng)參數(shù)級(jí)調(diào)整以滿足額外約束。生成的工作流通過(guò)ComfyUI平臺(tái)執(zhí)行,從而完成各個(gè)子任務(wù)的生成。

這種抽象允許LLM完全在語(yǔ)義層面上操作,繞過(guò)低級(jí)語(yǔ)法語(yǔ)法和有效建模模塊化和層次結(jié)構(gòu)的難題。通過(guò)消除這一瓶頸,ComfyMind顯著增強(qiáng)了執(zhí)行的穩(wěn)健性。SWI還最小化了對(duì)細(xì)粒度節(jié)點(diǎn)文檔的依賴。雖然ComfyAgent的操作依賴于包含3,205個(gè)不同節(jié)點(diǎn)描述的精心制作的數(shù)據(jù)集,但ComfyMind只需要一個(gè)統(tǒng)一文檔來(lái)描述可用的原子工作流。無(wú)需RAG(檢索增強(qiáng)生成),ComfyMind可以直接將工作流元數(shù)據(jù)注入LLM的上下文窗口,確保完全可見(jiàn)并消除對(duì)外部查找的依賴。最終,這種文檔簡(jiǎn)化有利于無(wú)縫集成新開(kāi)發(fā)或特定任務(wù)的工作流。這種設(shè)計(jì)使ComfyMind能夠快速整合更廣泛ComfyUI社區(qū)的新興工作流,同時(shí)允許用戶靈活定制工作流文檔和存儲(chǔ)庫(kù)以滿足特定需求。

四、搜索樹(shù)規(guī)劃與本地反饋執(zhí)行:智能規(guī)劃的關(guān)鍵

如前所述,SWI使LLM能夠使用自然語(yǔ)言函數(shù)調(diào)用調(diào)用社區(qū)驗(yàn)證的原子工作流。然而,系統(tǒng)仍然必須確定:如何將多個(gè)SWI調(diào)用組合成一個(gè)連貫且完成任務(wù)的程序。為了解決這個(gè)問(wèn)題,如圖3所示,ComfyMind引入了一種稱為搜索樹(shù)規(guī)劃與本地反饋執(zhí)行的機(jī)制,它將工作流構(gòu)建形式化為對(duì)語(yǔ)義規(guī)劃樹(shù)的搜索過(guò)程。在這個(gè)結(jié)構(gòu)中,每個(gè)節(jié)點(diǎn)代表負(fù)責(zé)特定子任務(wù)的本地規(guī)劃代理,而每條邊表示調(diào)用SWI函數(shù)并傳播結(jié)果的執(zhí)行代理。從根到葉的完整路徑產(chǎn)生滿足用戶指令的最終視覺(jué)輸出。

在每個(gè)規(guī)劃節(jié)點(diǎn),代理檢查當(dāng)前層次工作空間狀態(tài)——包括文本、圖像、上下文和可用的工作流文檔?;谶@些信息,它生成一系列SWI函數(shù),旨在推進(jìn)當(dāng)前任務(wù)。在這個(gè)階段,只執(zhí)行鏈中的第一個(gè)函數(shù),其參數(shù)傳遞給執(zhí)行代理。這個(gè)轉(zhuǎn)換相當(dāng)于在規(guī)劃樹(shù)中沿著一條邊前進(jìn)。

執(zhí)行代理將選定的函數(shù)轉(zhuǎn)換為SWI定義的標(biāo)準(zhǔn)JSON形式,基于更高級(jí)的約束應(yīng)用輕量級(jí)參數(shù)調(diào)整,并使用ComfyUI平臺(tái)執(zhí)行工作流。在整個(gè)過(guò)程中,保留底層DAG結(jié)構(gòu)以確保語(yǔ)法正確性。執(zhí)行后,視覺(jué)語(yǔ)言模型(VLM)解析并注釋生成的視覺(jué)內(nèi)容。結(jié)果輸出、語(yǔ)義描述和更新的任務(wù)規(guī)范共同定義下一個(gè)規(guī)劃節(jié)點(diǎn)的工作空間。

如果規(guī)劃代理確定其子任務(wù)可以通過(guò)單個(gè)操作完成,它會(huì)發(fā)出終止信號(hào)并調(diào)用評(píng)估代理來(lái)評(píng)估最終輸出的語(yǔ)義對(duì)齊和感知質(zhì)量。如果結(jié)果通過(guò)評(píng)估,搜索成功結(jié)束。否則,將失敗信號(hào)和診斷反饋傳遞給父節(jié)點(diǎn),后者記錄結(jié)果并相應(yīng)修改其規(guī)劃策略。如果當(dāng)前層級(jí)沒(méi)有可行選項(xiàng),錯(cuò)誤信號(hào)向上傳播。至關(guān)重要的是,所有反饋嚴(yán)格限制在當(dāng)前層次級(jí)別,防止全局回滾并保留有效的部分結(jié)果。

與ReAct規(guī)劃器的逐步觀察-行動(dòng)執(zhí)行風(fēng)格相比,ComfyMind的方法提供了完整的歷史跟蹤和結(jié)構(gòu)化回溯能力。這允許系統(tǒng)在失敗時(shí)只回滾到最近的可行決策點(diǎn),而不是重新啟動(dòng)整個(gè)過(guò)程——從而避免冗余重新計(jì)算。同時(shí),它通過(guò)防止由于缺乏穩(wěn)定中間狀態(tài)而導(dǎo)致的重復(fù)重新規(guī)劃周期來(lái)提高規(guī)劃穩(wěn)定性,否則這可能導(dǎo)致策略震蕩和收斂失敗。

五、實(shí)驗(yàn)驗(yàn)證:全面評(píng)估ComfyMind的性能

為了評(píng)估ComfyMind的生成能力,研究團(tuán)隊(duì)進(jìn)行了三重評(píng)估。第一個(gè)是ComfyBench,用于量化系統(tǒng)自主構(gòu)建工作流和通用生成的能力;第二個(gè)是GenEval,評(píng)估系統(tǒng)的文本到圖像生成能力;第三個(gè)是Reason-Edit,衡量復(fù)雜編輯指令的執(zhí)行程度。實(shí)驗(yàn)表明,ComfyMind在所有三個(gè)基準(zhǔn)測(cè)試中都大幅超越了最強(qiáng)的開(kāi)源基線,并取得了與GPT-Image-1相當(dāng)?shù)男阅堋?/p>

### 自主工作流構(gòu)建評(píng)估

研究團(tuán)隊(duì)首先在ComfyBench上評(píng)估了ComfyMind的自主工作流構(gòu)建能力。ComfyBench包含200個(gè)分級(jí)難度的生成和編輯任務(wù),涵蓋圖像和視頻模態(tài)。對(duì)于每個(gè)任務(wù),代理必須合成可由ComfyUI執(zhí)行的工作流?;鶞?zhǔn)測(cè)試報(bào)告了兩個(gè)指標(biāo):通過(guò)率,反映工作流是否可運(yùn)行;以及解決率,反映輸出是否滿足所有任務(wù)要求。

如表1所示,得益于SWI,ComfyMind在所有難度層級(jí)上都實(shí)現(xiàn)了100%的通過(guò)率。這消除了仍然阻礙最強(qiáng)基線ComfyAgent的JSON級(jí)別失敗。更重要的是,提出的帶有本地反饋執(zhí)行的搜索樹(shù)規(guī)劃在任務(wù)解決率方面取得了顯著提升:相對(duì)于ComfyAgent,在Vanilla、Complex和Creative子集上的解決率分別增加了100%、292%和283%。這一強(qiáng)大的泛化能力和輸出質(zhì)量表明,基于ComfyUI的多代理系統(tǒng)是通向通用生成AI的一條有前途的道路。

### 文本到圖像生成評(píng)估

研究團(tuán)隊(duì)使用GenEval評(píng)估了ComfyMind在文本到圖像生成方面的能力。GenEval測(cè)量了六個(gè)維度上的組合保真度,包括單一或兩個(gè)物體、計(jì)數(shù)、顏色準(zhǔn)確性、空間定位和屬性綁定。他們將ComfyMind與三類強(qiáng)大的基線進(jìn)行了比較:凍結(jié)文本編碼器映射方法(如SD3)、LLM/MLLM增強(qiáng)方法(如Janus和GoT)以及OpenAI最近發(fā)布的GPT-Image-1。

如表2所示,ComfyMind實(shí)現(xiàn)了0.90的總體得分,得益于其整合了提示優(yōu)化工作流和本地反饋執(zhí)行。這一結(jié)果超過(guò)了所有基線,比SD3高出+0.16,比Janus-Pro-7B高出+0.10。此外,ComfyMind在六個(gè)維度中的五個(gè)和總體得分上超過(guò)了GPT-Image-1。這些結(jié)果表明,基于ComfyUI的系統(tǒng)不僅提供了強(qiáng)大的通用性,還能夠整合多樣化開(kāi)源模型的優(yōu)勢(shì),在圖像合成方面實(shí)現(xiàn)最先進(jìn)的性能。

圖4展示了來(lái)自GenEval的代表性和具有挑戰(zhàn)性的案例。ComfyMind按照提示進(jìn)行,在核心約束如計(jì)數(shù)、顏色、位置和屬性綁定方面優(yōu)于現(xiàn)有模型。在計(jì)數(shù)任務(wù)中,只有ComfyMind系統(tǒng)生成了精確的四個(gè)鍵盤(pán),并有清晰的視覺(jué)分離。對(duì)于非典型的顏色和位置,ComfyMind展示了卓越的圖像質(zhì)量和指令一致性。在屬性綁定方面,SD3和Janus-Pro等模型經(jīng)常混淆屬性并無(wú)法正確定位它們。雖然GPT-Image-1總體上能夠遵循指令,但它經(jīng)常產(chǎn)生碎片化和視覺(jué)不連貫的組合。相比之下,ComfyMind不僅滿足細(xì)粒度指令,還將它們整合到美學(xué)連貫、上下文合理的場(chǎng)景中。這些定性結(jié)果證實(shí)了前面報(bào)告的定量收益。

### 圖像編輯評(píng)估

研究團(tuán)隊(duì)進(jìn)一步在Reason-Edit上評(píng)估了ComfyMind的圖像編輯能力。根據(jù)基準(zhǔn)設(shè)置,他們采用GPT-score作為評(píng)估指標(biāo)。該分?jǐn)?shù)量化了對(duì)編輯指令的語(yǔ)義保真度和非編輯區(qū)域的視覺(jué)一致性。

他們將ComfyMind與最先進(jìn)的開(kāi)源基線進(jìn)行比較,包括GoT、SmartEdit、CosXL-Edit、SEED-X、MGIE、MagicBrush和IP2P,以及最強(qiáng)大的閉源模型GPT-Image-1。如圖5所示,ComfyMind實(shí)現(xiàn)了0.906的分?jǐn)?shù)——所有開(kāi)源框架中最高的。這一結(jié)果比之前的開(kāi)源SOTA SmartEdit(0.572)提高了+0.334。

此外,ComfyMind實(shí)現(xiàn)了與GPT-Image-1(0.929)相當(dāng)?shù)男阅埽s小了開(kāi)源和閉源模型之間的差距。這一收益來(lái)自系統(tǒng)的規(guī)劃和反饋機(jī)制,使其能夠合成和組合ComfyUI社區(qū)貢獻(xiàn)的最有效的編輯工作流。通過(guò)推理和迭代糾正,ComfyMind代理可以自適應(yīng)選擇多樣化的工作流,提高跨各種場(chǎng)景的編輯穩(wěn)定性和精確性。這些結(jié)果突顯了ComfyMind的推理驅(qū)動(dòng)編輯能力,并為通過(guò)集成更強(qiáng)大的工作流和模型實(shí)現(xiàn)未來(lái)性能提升提供了強(qiáng)大潛力。

研究團(tuán)隊(duì)還提供了定性結(jié)果,以評(píng)估ComfyMind在具有挑戰(zhàn)性的編輯指令下的語(yǔ)義理解和視覺(jué)保真度。如圖6所示,ComfyMind在兩個(gè)代表性任務(wù)中一貫展示出最忠實(shí)和視覺(jué)連貫的結(jié)果。與現(xiàn)有的開(kāi)源基線相比,ComfyMind不僅能識(shí)別正確的語(yǔ)義目標(biāo)(如蘋(píng)果與面包與橙汁),還能以最小干擾相鄰區(qū)域的方式執(zhí)行編輯。

雖然GPT-Image-1成功執(zhí)行了編輯指令,但它難以在非編輯區(qū)域保持視覺(jué)一致性。如圖6所示,GPT-Image-1在非編輯區(qū)域丟失了細(xì)節(jié)(如放大視圖中的果汁盒、酸奶容器和果醬罐上的圖案),改變了色調(diào)和圖像風(fēng)格,不準(zhǔn)確地保留了材質(zhì)(如木紋),并改變了原始的寬高比。相比之下,ComfyMind以最小的編輯完成了指令,有效保留了視覺(jué)細(xì)節(jié)、圖像風(fēng)格、材質(zhì)特性和比例。這些觀察強(qiáng)調(diào)了ComfyMind執(zhí)行精確和連貫編輯的卓越能力。

### 消融研究

為了分離關(guān)鍵設(shè)計(jì)組件的貢獻(xiàn),研究團(tuán)隊(duì)在ComfyBench基準(zhǔn)上進(jìn)行了消融研究(如表3所示)。他們?cè)u(píng)估了三個(gè)變體:完整系統(tǒng)、沒(méi)有搜索樹(shù)規(guī)劃的版本和沒(méi)有反饋執(zhí)行的版本。得益于語(yǔ)義工作流接口,所有變體都實(shí)現(xiàn)了100%的通過(guò)率;主要差異在于解決率。

移除搜索樹(shù)規(guī)劃模塊導(dǎo)致任務(wù)解決率顯著下降,特別是在復(fù)雜任務(wù)上(從85.0%降至43.4%),突顯了它在分解多步指令和選擇合適工作流方面的作用。同樣,禁用本地反饋機(jī)制顯著降低了性能,特別是在創(chuàng)意任務(wù)上(從57.5%降至17.5%),突顯了它對(duì)迭代糾正和自適應(yīng)細(xì)化的重要性。這些結(jié)果證實(shí)了關(guān)鍵組件對(duì)實(shí)現(xiàn)自主工作流構(gòu)建的高成功率至關(guān)重要。

研究團(tuán)隊(duì)還進(jìn)行了進(jìn)一步的消融研究,在ComfyMind中使用不同的大型語(yǔ)言模型。如表4所示,Deepseek-V3和GPT-4o在作為主要LLM使用時(shí)都取得了強(qiáng)大的性能。具體來(lái)說(shuō),兩個(gè)模型都達(dá)到了100%的任務(wù)通過(guò)率和約80%的整體任務(wù)完成率。這些結(jié)果進(jìn)一步證實(shí)了ComfyMind系統(tǒng)在不同底層LLM之間的穩(wěn)定性和可靠性。

六、世界知識(shí)驅(qū)動(dòng)的語(yǔ)義合成能力

為了評(píng)估ComfyMind在復(fù)雜語(yǔ)義理解、推理和整合世界知識(shí)進(jìn)行文本到圖像生成的能力,研究團(tuán)隊(duì)在最近的WISE基準(zhǔn)上進(jìn)行了評(píng)估。該基準(zhǔn)包含三個(gè)主要類別:文化常識(shí)、時(shí)空推理(包括空間和時(shí)間子類別)和自然科學(xué)(包括物理、化學(xué)和生物學(xué)子領(lǐng)域),總共25個(gè)專業(yè)領(lǐng)域,1000個(gè)具有挑戰(zhàn)性的提示。

評(píng)估指標(biāo)WiScore結(jié)合了一致性、真實(shí)性和美學(xué)質(zhì)量,通過(guò)加權(quán)歸一化,最高分為1。更高的WiScore表示更強(qiáng)的能力,使用世界知識(shí)準(zhǔn)確描繪對(duì)象和概念。如表5所示,ComfyMind實(shí)現(xiàn)了卓越的0.85分,超過(guò)了所有模型,包括GPT-Image-1(0.80)。ComfyMind的方法顯著增強(qiáng)了開(kāi)源解決方案的世界知識(shí)集成,比FLUX.1-dev(0.50)高出0.35分,使開(kāi)源模型能夠匹配GPT-Image-1的性能。在WISE上的卓越表現(xiàn)證實(shí)了ComfyMind在生成任務(wù)中的泛化能力和高質(zhì)量輸出。

七、總結(jié)與展望:開(kāi)源通用生成的新篇章

在這項(xiàng)研究中,香港科技大學(xué)的研究團(tuán)隊(duì)提出了ComfyMind,一個(gè)建立在ComfyUI平臺(tái)上的新穎框架,解決了通用視覺(jué)生成AI中的關(guān)鍵挑戰(zhàn)。通過(guò)將視覺(jué)內(nèi)容創(chuàng)建概念化為模塊化、語(yǔ)義結(jié)構(gòu)化的規(guī)劃過(guò)程,并整合樹(shù)狀規(guī)劃與本地反饋執(zhí)行,ComfyMind提高了多階段工作流的穩(wěn)定性和穩(wěn)健性。

研究團(tuán)隊(duì)在三個(gè)公共基準(zhǔn)上評(píng)估了ComfyMind:ComfyBench、GenEval和Reason-Edit,涵蓋了生成、編輯和推理任務(wù)。結(jié)果表明,ComfyMind始終優(yōu)于現(xiàn)有的開(kāi)源方法,并實(shí)現(xiàn)了與GPT-Image-1相當(dāng)?shù)男阅?。ComfyMind為開(kāi)源通用生成AI系統(tǒng)的發(fā)展開(kāi)辟了一條有前途的道路。

研究的局限性在于,雖然ComfyMind支持模塊化工作流組合和自動(dòng)規(guī)劃,但當(dāng)前系統(tǒng)缺乏用戶友好的界面,無(wú)法手動(dòng)定制或修改原子工作流調(diào)用的序列。用戶能夠調(diào)整規(guī)劃策略、覆蓋中間步驟或通過(guò)UI指定特定于任務(wù)的首選項(xiàng)的能力有限。這可能阻礙非技術(shù)用戶或具有特定領(lǐng)域需求的從業(yè)者更廣泛地采用該系統(tǒng)。未來(lái)的研究方向可能包括增強(qiáng)界面以支持更靈活和用戶可控的規(guī)劃定制。

總的來(lái)說(shuō),ComfyMind展示了通過(guò)語(yǔ)義工作流接口和層次化反饋規(guī)劃,開(kāi)源系統(tǒng)也能實(shí)現(xiàn)高質(zhì)量通用生成。這為研究人員和開(kāi)發(fā)者提供了一個(gè)強(qiáng)大的框架,可以構(gòu)建更加健壯、靈活和用戶友好的視覺(jué)生成系統(tǒng),推動(dòng)AI創(chuàng)意工具的普及和應(yīng)用。

ComfyMind是實(shí)現(xiàn)開(kāi)源通用AI生成系統(tǒng)的重要一步,它不僅表明了語(yǔ)義工作流抽象的價(jià)值,還展示了如何通過(guò)模塊化組合和層次反饋實(shí)現(xiàn)復(fù)雜任務(wù)的執(zhí)行。隨著社區(qū)貢獻(xiàn)更多專業(yè)工作流和工具,我們可以預(yù)期這類系統(tǒng)的能力將繼續(xù)增長(zhǎng),最終可能為創(chuàng)意專業(yè)人士和普通用戶提供強(qiáng)大且易于使用的生成工具。有興趣深入了解ComfyMind的讀者可以訪問(wèn)項(xiàng)目頁(yè)面:https://github.com/LitaoGuo/ComfyMind。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-