av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號

  • 科技行者

  • 算力行者

見證連接與計算的「力量」

首頁 阿里巴巴推出Visual-CoG:AI繪畫終于學會"分步思考"了

阿里巴巴推出Visual-CoG:AI繪畫終于學會"分步思考"了

2025-09-01 15:52
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-09-01 15:52 ? 科技行者

這項由阿里巴巴集團的李亞琪、陳鵬、韓明陽等研究團隊開發(fā)的Visual-CoG(視覺引導鏈)技術(shù)發(fā)表于2025年8月,論文題為《Visual-CoG: Stage-Aware Reinforcement Learning with Chain of Guidance for Text-to-Image Generation》。有興趣深入了解的讀者可以通過arXiv:2508.18032v1訪問完整論文。

當你對AI說"畫一個穿著紅裙子的小女孩站在藍色汽車左邊"時,你可能會發(fā)現(xiàn)AI經(jīng)常會搞砸一些細節(jié):要么裙子變成了綠色,要么小女孩跑到了汽車右邊,要么干脆畫出了兩個小女孩。這就像是一個很聰明但有點心不在焉的畫家,總體能力不錯,但在處理復雜要求時容易丟三落四。

為什么會出現(xiàn)這種情況呢?當前的AI繪畫系統(tǒng)就像是一個著急的學生,拿到題目后立馬就開始畫,畫完了才發(fā)現(xiàn)理解錯了要求。更要命的是,即使最終作品有問題,它也不知道到底是在哪個環(huán)節(jié)出了錯:是一開始就理解錯了你的意思,還是在繪畫過程中走偏了,還是最后的細節(jié)處理有問題。

阿里巴巴的研究團隊注意到了這個問題,他們發(fā)現(xiàn)現(xiàn)有的AI繪畫系統(tǒng)有兩大短板。首先是面對復雜描述時容易犯糊涂,比如當你要求"畫出法國最著名的大教堂,要有兩扇彩色玻璃窗"時,AI可能不知道你說的是巴黎圣母院,或者雖然畫出了教堂,但玻璃窗的數(shù)量不對。其次是現(xiàn)有的訓練方式有問題,就像只在考試結(jié)束后才告訴學生哪道題做錯了,而不在做題過程中給出提示,這樣的反饋來得太晚,效果自然不好。

為了解決這些問題,研究團隊開發(fā)了一套名為Visual-CoG的新方法。這個方法最大的特點是把AI繪畫變成了一個三步走的過程,就像一個專業(yè)畫家的創(chuàng)作流程一樣。

第一步是"語義推理"階段。在這個階段,AI不急著動筆,而是先仔細思考你的要求到底是什么意思。比如當你說"畫出雨果小說中出現(xiàn)的法國大教堂"時,AI會先推理出"雨果最著名的小說是《巴黎圣母院》,所以用戶要的是巴黎圣母院"。然后它會把原始要求改寫得更具體:"一座法國哥特式大教堂,有飛扶壁,兩扇彩色玻璃窗,營造溫暖祥和的氛圍"。這就像是一個細心的翻譯,把模糊的指令翻譯成清晰的行動方案。

第二步是"過程優(yōu)化"階段。在實際繪畫過程中,AI不再是一口氣畫完,而是邊畫邊檢查。這就像是一個畫家會不時停下來審視自己的作品,看看哪里需要調(diào)整。技術(shù)上,研究團隊設(shè)計了一個巧妙的機制:讓AI在繪畫的每個中間步驟都嘗試重建圖像的某些部分,如果重建效果不好,說明這一步的繪畫質(zhì)量有問題,需要調(diào)整。

第三步是"結(jié)果評估"階段。畫作完成后,AI會對最終結(jié)果進行全面檢查,就像是一個嚴格的美術(shù)老師在批改作業(yè)。它會檢查顏色是否正確、物體數(shù)量是否準確、空間位置是否合理,甚至整體的美感如何。比如檢查"紅裙子"是不是真的是紅色的,"兩扇窗戶"是不是確實有兩扇,"左邊"是不是真的在左邊。

這三個階段最重要的創(chuàng)新在于,每個階段都會給AI即時的反饋信息,告訴它這一步做得好不好。這就像是一個耐心的老師,不僅在考試結(jié)束后給分數(shù),還在學生做題的每個關(guān)鍵步驟都給出指導意見。

為了訓練這套系統(tǒng),研究團隊使用了一種叫做"強化學習"的方法。簡單來說,就是通過獎勵和懲罰來引導AI學習。當AI在某個階段表現(xiàn)好時,就給它正面獎勵;表現(xiàn)不好時,就給負面反饋。與傳統(tǒng)方法不同的是,Visual-CoG在三個階段都提供反饋,而不是只在最后給個總分。

在語義推理階段,獎勵機制是這樣工作的:AI用原始指令和改寫后的指令分別畫一幅圖,然后比較兩幅圖的質(zhì)量。如果改寫后的指令能產(chǎn)生更好的圖畫,說明語義推理做得好,就給正獎勵;反之則給負獎勵。這就像是通過對比考試來檢驗學生是否真正理解了題目。

在過程優(yōu)化階段,系統(tǒng)引入了一個"老師模型"的概念??梢园阉胂蟪梢粋€經(jīng)驗豐富的畫家導師,它知道在每個繪畫步驟應(yīng)該如何處理。學生AI需要盡量模仿這個老師的繪畫過程,越接近老師的標準,獎勵越高。這種方法確保了AI在繪畫的中間過程就能得到指導,而不是畫完才知道對錯。

在結(jié)果評估階段,研究團隊設(shè)計了一套全面的評分標準,包括空間關(guān)系、數(shù)量準確性、顏色正確性和整體美感。比如對于"三個人"這樣的要求,系統(tǒng)會自動數(shù)一下畫中確實有幾個人,如果數(shù)量不對就扣分。對于"紅色汽車在藍色房子左邊"這樣的要求,系統(tǒng)會檢查汽車是否確實在房子的左邊,顏色是否正確。

為了驗證Visual-CoG的效果,研究團隊進行了大量的測試。他們不僅在現(xiàn)有的標準測試集上進行了評估,還專門創(chuàng)建了一個新的測試集叫做VisCog-Bench(視覺認知基準),專門用來測試AI處理復雜和需要推理的繪畫要求的能力。

這個新測試集包括四類特別有挑戰(zhàn)性的任務(wù)。第一類是"異常位置"任務(wù),比如要求畫"紫色的狗和黑色的餐桌",考驗AI能否正確處理不常見的顏色搭配。第二類是"異常組合"任務(wù),要求把平時不太會放在一起的物品畫在同一幅圖中。第三類是"異常顏色"任務(wù),要求給物品涂上不尋常的顏色。第四類是"推理"任務(wù),就像前面提到的"雨果小說中的大教堂"那樣,需要AI通過常識推理才能知道具體要畫什么。

測試結(jié)果顯示,Visual-CoG在各項指標上都有顯著提升。在GenEval這個標準測試集上,總體性能比基準方法提升了15%,在一些具體指標上提升更為明顯:計數(shù)準確性提升了14.69%,位置準確性提升了47.97%,顏色準確性提升了15.36%。在另一個測試集T2I-CompBench上,Visual-CoG在顏色處理方面達到了78.92%的準確率,在空間關(guān)系處理方面達到了43.71%的準確率,都是目前最好的成績。

更令人驚喜的是在新創(chuàng)建的VisCog-Bench測試集上的表現(xiàn)。對于那些需要推理的復雜任務(wù),Visual-CoG的成功率高達77.5%,相比之下,沒有語義推理功能的版本只有49.75%的成功率。這說明"先思考再動筆"的策略確實有效。

研究團隊還專門分析了三個階段各自的貢獻。他們發(fā)現(xiàn),語義推理階段主要幫助提升位置關(guān)系的準確性,提升了6.99個百分點;過程優(yōu)化階段主要改善了計數(shù)準確性,提升了7.96個百分點;結(jié)果評估階段則主要提升了顏色準確性,提升了9.53個百分點。這就像是一個團隊合作,每個成員都有自己的專長,合在一起效果更好。

從實際的畫作效果來看,Visual-CoG生成的圖像確實更加精確和豐富。比如在處理"一張蛋糕和一只斑馬的照片"這樣的要求時,基礎(chǔ)版本可能只會畫出兩個互不相干的物品,而Visual-CoG會創(chuàng)造出一個合理的場景,比如斑馬在生日派對上準備享用蛋糕。在處理"三個人"這樣的計數(shù)要求時,基礎(chǔ)版本經(jīng)常畫錯人數(shù),而Visual-CoG幾乎總是能準確畫出三個人。

這種改進不僅體現(xiàn)在準確性上,還體現(xiàn)在畫面的豐富度和藝術(shù)性上。通過語義推理,AI能夠理解用戶的真實意圖,創(chuàng)造出更有意義的場景。通過過程優(yōu)化,繪畫的每個細節(jié)都更加精致。通過結(jié)果評估,整體畫面的協(xié)調(diào)性和美感都得到了提升。

Visual-CoG的意義不僅僅在于技術(shù)上的突破,更在于它代表了AI繪畫發(fā)展的一個重要方向:從簡單的圖像生成轉(zhuǎn)向智能的創(chuàng)意理解和表達。就像人類畫家需要理解、構(gòu)思、創(chuàng)作和完善這樣一個完整的創(chuàng)作過程,AI也需要學會這樣的系統(tǒng)性思維。

對于普通用戶來說,這意味著與AI的交流可以更加自然和高效。你不再需要絞盡腦汁地用標準化的描述來遷就AI,而是可以用更接近自然語言的方式表達你的創(chuàng)意想法,AI能夠理解你的意圖并創(chuàng)造出符合期望的作品。

當然,這項技術(shù)也還有進一步改進的空間。目前的語義推理主要依賴于預(yù)訓練的語言模型的知識,對于一些非常專業(yè)或者非常新穎的概念可能還會有理解偏差。過程優(yōu)化階段雖然能夠改善繪畫質(zhì)量,但計算成本相對較高,需要在效果和效率之間找到更好的平衡點。結(jié)果評估階段雖然全面,但主要還是基于規(guī)則的評判,對于藝術(shù)性和創(chuàng)意性的判斷還有待完善。

盡管如此,Visual-CoG仍然代表了AI繪畫領(lǐng)域的一個重要進步,它證明了通過模仿人類的創(chuàng)作思維過程,AI可以在理解復雜指令和生成高質(zhì)量圖像方面取得顯著提升。隨著技術(shù)的不斷完善,我們有理由相信,未來的AI繪畫工具將會變得更加智能、更加貼近人類的創(chuàng)作需求,真正成為創(chuàng)意工作者的得力助手。

Q&A

Q1:Visual-CoG和普通的AI繪畫工具有什么不同?

A:普通AI繪畫工具就像一個著急的學生,拿到描述就直接開始畫,經(jīng)常會搞錯細節(jié)。而Visual-CoG就像一個專業(yè)畫家,會先仔細理解你的要求(語義推理),然后邊畫邊檢查(過程優(yōu)化),最后全面檢查作品質(zhì)量(結(jié)果評估)。這種三步走的方式讓AI能更準確地理解復雜指令,畫出更符合要求的圖片。

Q2:Visual-CoG在哪些方面的表現(xiàn)提升最明顯?

A:Visual-CoG在處理復雜描述時表現(xiàn)尤其出色。比如在計數(shù)準確性上提升了14.69%,位置關(guān)系準確性提升了47.97%,顏色準確性提升了15.36%。特別是對于需要推理的任務(wù),比如"畫出雨果小說中的大教堂"這樣的要求,成功率高達77.5%,而普通方法只有49.75%。

Q3:普通人現(xiàn)在可以使用Visual-CoG技術(shù)嗎?

A:目前Visual-CoG還主要是一項研究成果,阿里巴巴團隊計劃很快會公開相關(guān)資源。不過這項技術(shù)代表的"分步思考"理念已經(jīng)開始影響AI繪畫工具的發(fā)展方向,未來會有更多融合類似技術(shù)的產(chǎn)品面向普通用戶,讓AI繪畫變得更智能、更準確。

分享至
0贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-