這項由香港中文大學郭子宇、張任瑞等研究人員聯(lián)合北京大學、上海人工智能實驗室等機構開展的突破性研究,于2025年1月發(fā)表在arXiv預印本平臺,論文編號arXiv:2501.13926v2。有興趣深入了解的讀者可以通過https://github.com/ZiyuGuo99/Image-Generation-CoT訪問完整論文和代碼。
想象一下,你讓AI畫一張"紅蘋果放在橢圓盤子上"的圖片。傳統(tǒng)的AI就像一個悶頭苦干的畫師,拿起筆就開始畫,經(jīng)常畫出奇怪的結果——比如蘋果是綠的,或者盤子變成了正方形。而現(xiàn)在,研究團隊教會了AI像人類畫家一樣"邊畫邊思考":先想想"我要畫什么?""這一筆畫得對嗎?""需要修改什么?"然后再繼續(xù)畫下去。
這種讓AI"思考著畫畫"的方法,就是從OpenAI的o1模型那里借鑒來的"鏈式思維推理"技術。就好比教孩子做數(shù)學題時,不是直接給答案,而是教他們一步步分析:"第一步要做什么?""第二步呢?""這樣做對不對?"現(xiàn)在,研究團隊把同樣的思路應用到了AI繪畫上,讓機器也能像人一樣有條不紊地創(chuàng)作。
研究團隊發(fā)現(xiàn)了一個有趣的現(xiàn)象:現(xiàn)在主流的AI繪畫模型大多采用"擴散模型"技術,就像在一張模糊的畫布上逐漸清晰化圖像。但還有另一類模型叫"自回歸生成模型",它們的工作方式更像人類畫畫——一個區(qū)域一個區(qū)域地逐步完成,每畫一筆都要考慮前面已經(jīng)畫好的部分。這種特性讓它們天然適合"邊畫邊思考"的訓練方式。
研究團隊以Show-o模型為基礎,就像選擇了一個有潛力的學徒畫師,然后通過三種巧妙的訓練方法來提升它的繪畫水平。第一種方法叫"測試時驗證",就像給畫師配了一個嚴格的評審員,畫完每一步都要檢查:"這一筆畫得怎么樣?"如果不滿意就重新畫。第二種方法是"偏好對齊訓練",相當于讓畫師多看優(yōu)秀作品和糟糕作品的對比,逐漸培養(yǎng)出好的審美品味。第三種方法是把前兩種結合起來,既有嚴格的評審,又有不斷的品味培養(yǎng)。
在"測試時驗證"的探索中,研究團隊發(fā)現(xiàn)了一個關鍵問題:傳統(tǒng)的評判標準不太適用于繪畫過程。就像評價一個廚師,你不能只看最后的菜品,還要看整個烹飪過程中的每個步驟。對于繪畫AI來說,早期的畫面往往很模糊,就像素描的初稿,很難判斷好壞;而后期的畫面雖然清晰,但不同路徑畫出的結果往往很相似,也難以區(qū)分優(yōu)劣。
為了解決這個問題,研究團隊開發(fā)了一個專門的"潛力評估獎勵模型"(PARM),就像培訓了一個既懂繪畫技法又有長遠眼光的藝術老師。這個老師不僅能看出現(xiàn)在的畫面質(zhì)量,還能預測"這樣畫下去最終會是什么效果"。更厲害的是,PARM還知道什么時候該開始認真評價——太早了畫面還太模糊沒法判斷,太晚了已經(jīng)定型沒法修改,只有在恰當?shù)臅r機才給出指導意見。
PARM的工作方式分為三個步驟,就像一個經(jīng)驗豐富的繪畫導師。首先是"清晰度判斷":它會觀察當前的畫面,判斷是否已經(jīng)足夠清晰到可以進行評價。如果畫面還太模糊,就耐心等待;如果已經(jīng)比較清晰了,就進入下一步。然后是"潛力評估":它會分析這個畫面繼續(xù)畫下去是否有希望達到理想效果,就像一個老師看學生的草圖時能預判最終作品的質(zhì)量。最后是"最終選擇":從所有被判定為"有潛力"的畫作中挑出最好的一個作為最終結果。
研究團隊還開發(fā)了PARM++,這相當于給AI畫師增加了"自我反思"的能力。當PARM++覺得畫作還不夠好時,它會具體指出哪里有問題,比如"物體顏色不對"或"位置關系錯誤",然后引導AI重新修改。這就像一個畫家畫完后自己審視作品,發(fā)現(xiàn)問題后主動修正,而不是被動接受批評。
在實際測試中,研究成果表現(xiàn)令人驚喜。在GenEval這個專業(yè)的圖像生成評測基準上,經(jīng)過"思維訓練"的AI比原來的基礎模型提高了24%,甚至比著名的Stable Diffusion 3模型還要高出15%。這就好比一個原本中等水平的畫師,經(jīng)過系統(tǒng)訓練后不僅大幅提升了自己的水平,還超越了一些知名畫家。
研究團隊特別關注那些最考驗AI繪畫能力的場景,比如畫多個物體、數(shù)數(shù)、準確表達顏色、描述空間位置關系等等。傳統(tǒng)的AI在這些方面經(jīng)常出錯,比如讓它畫"三個紅蘋果",結果畫成了兩個綠蘋果;讓它畫"藍色杯子在紅色書本左邊",結果位置關系完全顛倒。而經(jīng)過"思維訓練"的AI在這些方面都有了顯著改善,就像一個原本粗心的學生變得細致認真了。
從技術角度來看,這項研究的創(chuàng)新之處在于首次系統(tǒng)性地將"鏈式思維推理"應用到了自回歸圖像生成領域。研究團隊不是簡單地照搬文本領域的方法,而是深入分析了圖像生成的特殊性,設計了專門適合的訓練和評估策略。他們發(fā)現(xiàn),相比于傳統(tǒng)的獎勵模型,PARM能夠更好地處理圖像生成過程中的模糊性和漸進性特征。
值得注意的是,這種方法不僅適用于Show-o模型,研究團隊還在LlamaGen和Janus-Pro等其他自回歸生成模型上進行了驗證,都取得了一致的改善效果。這說明"讓AI思考著畫畫"這個思路具有很好的普適性,就像一套好的教學方法可以應用到不同的學生身上。
研究過程中也暴露了一些有趣的現(xiàn)象。比如,單純的"測試時驗證"效果不如"偏好對齊訓練",這說明讓AI通過對比學習來提升品味,比單純的反復檢查更有效。但是當兩種方法結合使用時,效果會進一步提升,這證實了不同訓練策略的互補性。
從實際應用的角度來看,這項技術可能會改變我們與AI繪畫工具的交互方式。目前的AI繪畫工具往往需要用戶不斷調(diào)整提示詞、反復生成,直到得到滿意的結果。而具備"思維能力"的AI可能會更加智能,能夠理解復雜的描述,自主處理細節(jié)問題,減少用戶的試錯成本。
研究團隊還發(fā)現(xiàn),讓AI進行"自我反思"雖然會帶來額外的計算開銷,但能夠顯著提升最終結果的質(zhì)量。這就像讓畫家多花一些時間思考和修改,雖然效率略有下降,但作品質(zhì)量會大幅提升。在實際應用中,用戶可以根據(jù)需求選擇是要快速生成還是高質(zhì)量生成。
這項研究的意義不僅限于技術層面,它還為AI創(chuàng)作領域提供了新的思路。傳統(tǒng)上,我們往往把AI看作是一個"黑盒子",輸入需求就輸出結果。而這項研究展示了讓AI具備"元認知"能力的可能性——不僅知道如何做,還知道如何檢查自己做得對不對,如何改進。
當然,這項技術也有其局限性。目前的方法主要針對自回歸生成模型,對于占據(jù)主流地位的擴散模型還需要進一步的適配和優(yōu)化。此外,增加的"思維"過程會帶來一定的計算開銷,在資源受限的環(huán)境下可能會影響使用體驗。研究團隊在論文中誠實地討論了這些限制,并提出了未來的改進方向。
從更廣闊的視角來看,這項研究是AI能力演進的一個重要里程碑。它不僅僅是讓機器畫畫畫得更好,更重要的是探索了讓機器具備"自我意識"和"反思能力"的路徑。這種"會思考的AI"可能會在更多領域發(fā)揮作用,從寫作、編程到科學研究,都可能受益于這種"邊做邊思考"的智能模式。
總的來說,香港中文大學團隊的這項研究為AI繪畫領域帶來了新的突破,不僅在技術上實現(xiàn)了顯著的性能提升,更在理念上展示了"思考型AI"的巨大潛力。隨著這項技術的進一步發(fā)展和優(yōu)化,我們可能會看到更加智能、更加可靠的AI創(chuàng)作工具,它們不僅能夠理解我們的需求,還能像人類創(chuàng)作者一樣進行思考、判斷和自我完善。
Q&A
Q1:PARM是什么?它跟傳統(tǒng)的AI繪畫評判方法有什么不同?
A:PARM是"潛力評估獎勵模型"的簡稱,是專門為AI繪畫設計的智能評判系統(tǒng)。傳統(tǒng)方法要么只看最終結果,要么對每個步驟都強行評判,而PARM更聰明——它知道什么時候該開始評價(畫面足夠清晰時),能預測畫作的發(fā)展?jié)摿?,就像一個經(jīng)驗豐富的繪畫老師既能看出學生草圖的問題,又能預判最終效果。
Q2:這種讓AI"邊畫邊思考"的方法會讓繪畫速度變慢嗎?
A:確實會增加一些計算時間,因為AI需要額外的"思考"過程來評估和調(diào)整。但研究團隊發(fā)現(xiàn)這種時間投入是值得的——雖然單次生成稍慢一些,但畫出好作品的成功率大大提高,用戶不需要反復重新生成,總體效率反而可能更高。就像畫家多花時間思考構圖,雖然慢一點但能避免返工。
Q3:這項技術什么時候能在日常的AI繪畫工具中使用?
A:目前研究團隊已經(jīng)在GitHub上開源了相關代碼(https://github.com/ZiyuGuo99/Image-Generation-CoT),技術開發(fā)者可以基于此進行開發(fā)。但要集成到像Midjourney、Stable Diffusion這樣的主流工具中,還需要進一步的工程優(yōu)化和適配工作。預計在未來1-2年內(nèi),我們可能會在一些新的AI繪畫產(chǎn)品中看到類似的"思考型"功能。
好文章,需要你的鼓勵
騰訊ARC實驗室推出AudioStory系統(tǒng),首次實現(xiàn)AI根據(jù)復雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結合大語言模型的敘事推理能力與音頻生成技術,通過交錯式推理生成、解耦橋接機制和漸進式訓練,能夠將復雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學聯(lián)合研發(fā)的VideoJAM技術,通過讓AI同時學習外觀和運動信息,顯著解決了當前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術僅需添加兩個線性層就能大幅提升運動質(zhì)量,在多項測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實用化應用奠定了重要基礎。
上海AI實驗室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓練數(shù)據(jù)集和MM-AlignBench評測基準,通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術能力的同時顯著提升人性化交互水平,為AI價值觀對齊提供了可行技術路徑。
谷歌DeepMind團隊開發(fā)的GraphCast是一個革命性的AI天氣預測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預報,準確性超越傳統(tǒng)方法90%的指標。該模型采用圖神經(jīng)網(wǎng)絡技術,通過學習40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學領域帶來了效率和精度的雙重突破。