AIRI研究院團(tuán)隊推出CAD重建的突破性模型:讓計算機(jī)理解并重現(xiàn)復(fù)雜3D設(shè)計
計算機(jī)輔助設(shè)計(CAD)是現(xiàn)代工程和制造業(yè)的核心,它讓我們能夠創(chuàng)建精確且可編輯的3D模型。然而,手動創(chuàng)建CAD模型需要專業(yè)技能和大量時間。如何讓計算機(jī)自動從現(xiàn)有物體中重建CAD模型,一直是研究人員追求的目標(biāo)。2025年5月,來自AIRI研究院、莫斯科羅蒙諾索夫國立大學(xué)、蘇黎世聯(lián)邦理工學(xué)院和Innopolis大學(xué)的研究團(tuán)隊在arXiv上發(fā)表了題為"cadrille: Multi-modal CAD Reconstruction with Online Reinforcement Learning"的研究論文(arXiv:2505.22914v1),提出了一種全新的多模態(tài)CAD重建方法。
想象一下,你有一個實物,但沒有它的設(shè)計圖紙。以前,你可能需要請專業(yè)CAD工程師從頭開始重新設(shè)計?,F(xiàn)在,有了這項新技術(shù),你只需拍幾張照片,或者用3D掃描儀掃描一下,甚至只需用文字描述這個物體,計算機(jī)就能自動生成完整的CAD模型。這就像是給計算機(jī)裝上了"設(shè)計師的眼睛"和"工程師的大腦",讓它能夠理解并重現(xiàn)復(fù)雜的3D結(jié)構(gòu)。
傳統(tǒng)的CAD重建方法通常只專注于單一輸入類型——要么是點云(3D掃描數(shù)據(jù))、要么是圖像、要么是文本描述。這就像是給設(shè)計師蒙上眼睛只讓他用觸摸來理解物體,或者只讓他看照片但不能摸實物。這種單一模態(tài)的限制大大降低了CAD重建的通用性和魯棒性。
研究團(tuán)隊的突破在于創(chuàng)造了一個名為"cadrille"的系統(tǒng),它可以同時處理三種不同類型的輸入:點云、多視角圖像和文本描述。這就像給計算機(jī)同時提供了"觸覺"、"視覺"和"語言理解"三種能力,讓它能夠從多個角度全面理解物體的結(jié)構(gòu)和特征。更重要的是,團(tuán)隊創(chuàng)新性地采用了類似于大型語言模型(LLM)的訓(xùn)練方法,特別是引入了在線強(qiáng)化學(xué)習(xí)(RL)來微調(diào)模型,這在CAD重建領(lǐng)域是首次嘗試。
就像一位廚師需要經(jīng)過基礎(chǔ)培訓(xùn)后再通過實踐不斷改進(jìn)烹飪技巧一樣,cadrille的訓(xùn)練也分為兩個階段:首先在大規(guī)模程序生成的數(shù)據(jù)上進(jìn)行監(jiān)督微調(diào)(就像學(xué)習(xí)烹飪的基本理論),然后通過在線反饋進(jìn)行強(qiáng)化學(xué)習(xí)微調(diào)(就像在實際烹飪中不斷調(diào)整和完善技巧)。這種訓(xùn)練方法讓模型不僅能學(xué)會基本的CAD重建技能,還能通過不斷的反饋優(yōu)化自己的表現(xiàn)。
研究結(jié)果令人振奮:在DeepCAD基準(zhǔn)測試中,cadrille在所有三種輸入模態(tài)上同時超越了現(xiàn)有的單模態(tài)方法。更令人印象深刻的是,經(jīng)過強(qiáng)化學(xué)習(xí)微調(diào)后,cadrille在三個具有挑戰(zhàn)性的數(shù)據(jù)集上創(chuàng)造了新的最佳記錄,包括真實世界的CC3D數(shù)據(jù)集。
讓我們一起深入探索這項突破性研究的細(xì)節(jié),了解研究團(tuán)隊是如何讓計算機(jī)"看懂"并"重建"復(fù)雜的CAD模型的。
一、CAD重建:從實物到數(shù)字設(shè)計的橋梁
計算機(jī)輔助設(shè)計(CAD)已經(jīng)成為現(xiàn)代工程和制造業(yè)的基石。就像建筑師需要精確的建筑圖紙一樣,工程師需要精確的CAD模型來設(shè)計和制造各種產(chǎn)品。傳統(tǒng)上,創(chuàng)建CAD模型是一項需要專業(yè)技能、時間和努力的工作。CAD重建技術(shù)的出現(xiàn),就像是為這個過程安裝了一條快速通道,它可以直接從掃描的物體生成CAD模型,使整個過程更快、更經(jīng)濟(jì)、更易于普通人使用。
典型的CAD模型是通過一系列2D草圖和3D操作創(chuàng)建的。想象一下拼積木的過程:你先在平面上畫出積木的底面形狀(2D草圖),然后將這個形狀向上"拉伸"形成立體(3D操作)。這種表示方法使CAD模型可以輕松編輯,因此在SolidWorks和AutoCAD等流行CAD工具中被廣泛使用,也是CAD生成研究中的主流方法。
大多數(shù)現(xiàn)有的CAD生成方法使用特殊的命令標(biāo)記來定義CAD序列,就像是一種特殊的"積木拼裝指南"。然而,最先進(jìn)的結(jié)果是通過將CAD序列映射為普通Python代碼獲得的。就像用自然語言寫食譜比用專業(yè)術(shù)語更容易理解一樣,使用Python代碼表示CAD模型也更加靈活和直觀。cadrille團(tuán)隊也采用了這種方法,將CAD模型生成為可執(zhí)行的Python腳本。
研究人員探索的最廣泛的輸入模態(tài)自然是點云——這就像是物體表面的"數(shù)字指紋",由大量3D點組成。然而,獲取點云通常需要特殊設(shè)備,對非專業(yè)人士來說相當(dāng)復(fù)雜。另一方面,圖像可以捕捉更細(xì)微的細(xì)節(jié),并且可以使用消費級低端設(shè)備(如智能手機(jī)相機(jī))獲取,因此降低了硬件要求。同時,文本描述可以豐富物體表示的語義上下文。使用各種輸入模態(tài),例如多視角圖像或自然語言描述,可以使設(shè)計輔助應(yīng)用程序即使對于沒有經(jīng)驗的用戶也變得簡單。然而,現(xiàn)有方法通常一次只關(guān)注一種模態(tài),限制了它們的魯棒性和通用性。
給定各種輸入的Python代碼生成任務(wù)自然引用了大型視覺-語言模型(VLM),這些模型在各種模態(tài)上展示了強(qiáng)大的推理能力。在這項工作中,研究團(tuán)隊利用VLM的力量構(gòu)建了一個多模態(tài)CAD重建模型,該模型同時處理點云、多視角圖像和文本,并生成Python代碼。
現(xiàn)有的CAD重建方法由于訓(xùn)練方式面臨泛化問題。具體來說,手工制作的CAD數(shù)據(jù)集規(guī)模小且多樣性有限,而使用程序生成數(shù)據(jù)訓(xùn)練的模型難以遷移到現(xiàn)實世界領(lǐng)域。受標(biāo)準(zhǔn)LLM訓(xùn)練流程的啟發(fā),研究團(tuán)隊在CAD重建的背景下引入了多階段訓(xùn)練范式。他們使用大量程序生成的數(shù)據(jù)進(jìn)行監(jiān)督訓(xùn)練,而寶貴但更稀缺的手工制作數(shù)據(jù)則用于RL微調(diào)。這種方案消除了對大規(guī)模手工制作數(shù)據(jù)的需求,并允許模型首先在CAD領(lǐng)域進(jìn)行泛化,然后使用基于偏好的目標(biāo)進(jìn)行專門化。
研究團(tuán)隊嘗試了直接偏好優(yōu)化(DPO)技術(shù),這在之前的CAD重建研究中已經(jīng)使用過。此外,由于在可以程序化計算反饋的任務(wù)中,在線RL技術(shù)占主導(dǎo)地位,他們還嘗試了在線群體相對偏好優(yōu)化(GRPO)技術(shù)。實驗結(jié)果表明,在線RL對CAD重建更有效,這與在其他領(lǐng)域獲得的結(jié)果一致。
實驗表明,cadrille在準(zhǔn)確性方面優(yōu)于現(xiàn)有的特定模態(tài)基線。此外,RL微調(diào)確保了生成的Python代碼的有效性,這對于先前的工作來說是一個挑戰(zhàn)。因此,所提出的方法展示了前所未有的魯棒性,并在幾個CAD數(shù)據(jù)集上創(chuàng)造了新的最先進(jìn)水平,包括真實世界的CC3D數(shù)據(jù)集。從本質(zhì)上講,這為開放世界場景中的泛化打開了新的可能性。
二、多模態(tài)數(shù)據(jù):讓計算機(jī)全方位理解物體
CAD重建的關(guān)鍵在于如何讓計算機(jī)"理解"一個物體的形狀和結(jié)構(gòu)。就像人類使用多種感官來理解世界一樣,研究團(tuán)隊讓計算機(jī)從多個角度"感知"物體。
對于模型訓(xùn)練,團(tuán)隊從真實的CAD模型中派生出所有輸入模態(tài)。這就像是從一本書中創(chuàng)建不同語言的翻譯版本——都描述同一個內(nèi)容,但使用不同的"語言"。
給定一個CAD模型作為參數(shù)化3D形狀(B-Rep),他們直接從模型的參數(shù)化表面采樣點?,F(xiàn)代CAD引擎提供內(nèi)置例程進(jìn)行表面采樣,使其簡單直接。這就像是在物體表面撒上數(shù)千個微小的"數(shù)字灰塵",每個灰塵粒子的位置就構(gòu)成了點云的一部分。
為了生成圖像,首先將B-Rep進(jìn)行鑲嵌,即轉(zhuǎn)換為近似表面幾何形狀的三角形網(wǎng)格。然后,可以從多個視點渲染這個網(wǎng)格以生成多視角圖像輸入。這類似于從不同角度給物體拍照,捕捉其從各個方向的外觀。
生成文本數(shù)據(jù)則明顯更具挑戰(zhàn)性。由于目標(biāo)是準(zhǔn)確的幾何重建而不是生成語義相關(guān)的樣本,輸入應(yīng)提供詳細(xì)且全面的幾何信息。因此,松散的文本描述通常不夠。必要的粒度級別在Text2CAD研究中進(jìn)行了調(diào)查,該研究將LLM和VLM結(jié)合在多階段復(fù)雜管道中,從CAD序列和渲染圖像生成文本描述。
三、cadrille架構(gòu):全能型CAD重建系統(tǒng)
cadrille的架構(gòu)設(shè)計堪比一個全能型CAD設(shè)計助手,它能接收多種形式的"指令",并精確地執(zhí)行"設(shè)計任務(wù)"。該模型接受點云、一組圖像或文本提示作為輸入,并輸出一個Python代碼,該代碼在執(zhí)行時會生成一個CAD模型。
cadrille建立在VLM(大型視覺-語言模型)的基礎(chǔ)上,該模型原生支持文本和圖像輸入,并且已經(jīng)能夠生成Python代碼。文本輸入通過原始嵌入層傳遞,圖像通過原始視覺編碼器處理。這就像是模型已經(jīng)有了"閱讀"和"看圖"的能力,研究團(tuán)隊只需要教會它"理解3D點云"。
點云處理邏輯與CAD-Recode中的相同。具體來說,他們使用單個投影層來嵌入3D點,通過最遠(yuǎn)點采樣從表面采樣點,并且不使用法線信息。這就像是給模型安裝了一個特殊的"觸覺"傳感器,讓它能夠"觸摸"并理解3D形狀。
四、監(jiān)督微調(diào):打好基礎(chǔ)
正如圖1所示,cadrille受益于三個階段的訓(xùn)練。首先,他們使用在互聯(lián)網(wǎng)規(guī)模數(shù)據(jù)上以無監(jiān)督方式預(yù)訓(xùn)練的VLM。這個階段之后,VLM能夠處理文本和視覺輸入并生成Python代碼,但缺乏處理點云的機(jī)制。在這項工作中,團(tuán)隊并沒有進(jìn)行任何無監(jiān)督的VLM訓(xùn)練,而是利用已經(jīng)訓(xùn)練好的模型的能力。
第二個階段是針對特定任務(wù)的監(jiān)督微調(diào)。在SFT期間,模型發(fā)展了處理點云的能力,并學(xué)習(xí)了一個策略πθ,將多模態(tài)輸入q映射到Python代碼τ,使SFT成為cadrille管道的重要部分。他們構(gòu)建了一個由樣本(q, τ)組成的訓(xùn)練數(shù)據(jù)集D,其中q是多模態(tài)輸入。訓(xùn)練程序旨在最小化地面真實和預(yù)測Python代碼標(biāo)記之間的交叉熵。
然而,兩階段訓(xùn)練在CAD-Recode中已經(jīng)被采用,它使用監(jiān)督微調(diào)(SFT)來適應(yīng)預(yù)訓(xùn)練的語言模型進(jìn)行基于點云的CAD重建。但是,這種策略在跨域場景中顯示出其局限性:CC3D IoU低至60%,無效率(IR)高達(dá)10%,這意味著每十個預(yù)測中就有一個無法產(chǎn)生有效輸出。為了緩解這個問題,CAD-Recode使用了測試時采樣技術(shù)。對于每個輸入查詢,生成10個候選Python程序,并選擇具有最高IoU的候選程序。之后,IoU增加到74%,而IR降至0.5%以下。然而,這種改進(jìn)是以推理時間增加10倍為代價的。能否在不犧牲測試時效率的情況下獲得類似的收益?
為了保持快速簡單的推理,研究團(tuán)隊將注意力轉(zhuǎn)向改進(jìn)訓(xùn)練過程。僅在程序生成的CAD數(shù)據(jù)上訓(xùn)練可能會限制現(xiàn)實世界應(yīng)用中的性能。然而,在手工制作的模型上訓(xùn)練也面臨挑戰(zhàn),例如,之前的工作表明,直接在DeepCAD數(shù)據(jù)集上進(jìn)行SFT會損害性能,導(dǎo)致IoU下降10%。
實驗證實,簡單地混合程序生成和手工制作的數(shù)據(jù)進(jìn)行訓(xùn)練無法改善結(jié)果,甚至可能降低性能。團(tuán)隊將這歸因于數(shù)據(jù)集之間CAD序列的不一致性:例如,DeepCAD模型使用擠壓切割和對稱擠壓等命令構(gòu)建,而這些命令在CAD-Recode數(shù)據(jù)集的生成程序中不存在。
為了解決這一限制,團(tuán)隊引入了訓(xùn)練流程中的新第三階段,即在未注釋CAD序列的手工制作數(shù)據(jù)上進(jìn)行強(qiáng)化學(xué)習(xí)微調(diào)。這種方法解決了不一致性問題,同時仍然允許模型適應(yīng)現(xiàn)實世界領(lǐng)域。
五、強(qiáng)化學(xué)習(xí)微調(diào):不斷完善的自我提升
強(qiáng)化學(xué)習(xí)微調(diào)的關(guān)鍵在于,它不需要手工標(biāo)注的數(shù)據(jù),而是通過自動計算的反饋來指導(dǎo)模型的改進(jìn)。這就像是一個學(xué)習(xí)烹飪的廚師,不需要每次都有人告訴他應(yīng)該怎么做,而是通過嘗試菜品的味道來自我調(diào)整烹飪技巧。
研究團(tuán)隊將RL微調(diào)公式化如下:給定一個輸入數(shù)據(jù)集D = {qi}^N_{i=1}(可以是圖像或點云),以及獎勵函數(shù)R(τ),他們學(xué)習(xí)LLM策略πθ(τ | q),生成一個Python代碼τ作為輸入q,使其最大化期望獎勵Eqi~D,τi~πθ(·|qi)[R(τi)]。
值得注意的是,在這個階段不需要標(biāo)注的(q, τ)對進(jìn)行監(jiān)督,因為Python代碼τ是從訓(xùn)練好的SFT模型中采樣的。實際上,CAD序列對于RL微調(diào)是不需要的,數(shù)據(jù)要求可以放寬到3D網(wǎng)格而不是CAD模型。這從實際角度來看特別有益,因為RL微調(diào)可以使用通常更容易獲取的網(wǎng)格數(shù)據(jù)集進(jìn)行,為在真實世界數(shù)據(jù)中存在的偽影訓(xùn)練模型開辟了新的可能性。
獎勵函數(shù)R(τ)是解決精度和魯棒性的項的組合: R(τ) = rIoU(τ) + rinvalid(τ)
其中rIoU是由τ生成的CAD模型與地面真實3D網(wǎng)格之間的IoU,另外乘以10以強(qiáng)制精確重建。rinvalid懲罰無效預(yù)測:對于無效的τ設(shè)為-10,否則為0。
經(jīng)驗上,團(tuán)隊發(fā)現(xiàn)困難樣本挖掘?qū)е翿L微調(diào)更快收斂。因此,他們只使用SFT模型生成的三個樣本的平均獎勵R(τ)小于7.5的樣例q。
直接偏好優(yōu)化(DPO)從成對偏好數(shù)據(jù)中學(xué)習(xí),通過重參數(shù)化的Bradley-Terry模型近似隱式獎勵。他們通過以溫度T = 1.0從SFT模型πθr中采樣K = 5個Python代碼τ來構(gòu)建訓(xùn)練數(shù)據(jù)集。在每個訓(xùn)練步驟中,對于給定的樣本,隨機(jī)選擇兩個輸出。具有較大獎勵R(τ)的輸出被視為偏好預(yù)測τw,另一個是非偏好τl。
DPO訓(xùn)練以πθr開始,進(jìn)行10個周期。之后,SFT模型被最新的πθt替換,并再訓(xùn)練10個周期。通過這種方式,模型逐漸偏離原始SFT模型。在實驗中,團(tuán)隊發(fā)現(xiàn)這對性能有益。
然而,DPO性能受限于給定示例生成的最佳樣本的質(zhì)量。如果不生成額外樣本,這一限制無法克服,因此團(tuán)隊采用了能夠從新生成樣本中受益的在線RL方法。
Dr. CPPO結(jié)合了流行的GRPO方法的兩個最新修改:Dr. GRPO消除了對參考模型的需要并修改了目標(biāo),而CPPO使用具有最強(qiáng)信號的樣本。這種混合方法確保了計算效率和準(zhǔn)確性;以下簡稱為Dr. CPPO。
對于給定輸入q,從當(dāng)前策略πθold(τ | q)以溫度T = 1.0采樣G個序列{τg}^G_{g=1}。對于每個輸出g,優(yōu)勢Ag估計為Ag = rg - mean({ri}^G_{i=1})。使用具有最高|Ag|的N個樣本形成批次B并執(zhí)行策略更新,通過最大化PPO目標(biāo)。
六、實驗結(jié)果:多重驗證的卓越性能
為了驗證cadrille的性能,研究團(tuán)隊在多個數(shù)據(jù)集上進(jìn)行了廣泛的實驗。DeepCAD(表中標(biāo)記為D)作為他們的主要基準(zhǔn)用于監(jiān)督訓(xùn)練。他們采用Text2CAD版本的DeepCAD,其中包含文本描述。訓(xùn)練集包含約16萬個樣本,而8046個樣本用于測試。
對于SFT,他們還使用了程序生成的CAD-Recode(表中標(biāo)記為R)數(shù)據(jù)集。它比DeepCAD大一個數(shù)量級,由大約100萬個用CadQuery(一種參數(shù)化Python基礎(chǔ)CAD語言)編寫的CAD程序組成。
Fusion360(表中標(biāo)記為F)是一個具有復(fù)雜和現(xiàn)實CAD模型的小型CAD重建基準(zhǔn)。在標(biāo)準(zhǔn)實驗協(xié)議中,僅使用測試子集(1725個樣本),因為缺乏Python CAD序列使其不適合常規(guī)監(jiān)督訓(xùn)練。盡管如此,他們?nèi)匀豢梢詫⑵溆?xùn)練集(6900個樣本)用于無注釋的RL微調(diào)。
為了展示他們方法的多功能性和適用性,除了手工制作和程序生成的網(wǎng)格外,他們還在CC3D數(shù)據(jù)集上報告了指標(biāo)。它包含2973個從真實CAD模型掃描中采樣的輸入點云,具有嘈雜值、缺失部分和平滑邊緣。
以下是他們在不同數(shù)據(jù)集上獲得的主要結(jié)果:
在DeepCAD上的結(jié)果比較cadrille與DeepCAD上的單模態(tài)CAD重建方法。在這里,他們使用下標(biāo)指定輸入模態(tài):p代表點云,i表示圖像,t代表文本。在DeepCAD訓(xùn)練集(Dpit)上聯(lián)合訓(xùn)練的cadrille優(yōu)于特定模態(tài)的基線。值得注意的是,點云的IR(無效率)幾乎減半(從1.1降至0.4),圖像的IR減少了7倍(從3.6降至0.5)。
使用大規(guī)模程序生成的CAD-Recode數(shù)據(jù)集(R)訓(xùn)練始終改善了在DeepCAD數(shù)據(jù)集上訓(xùn)練的準(zhǔn)確性。由于他們還使用與CAD-Recode相同的Qwen LLM模型(Qwen2-VL-2B對比Qwen2-1.5B),因此點云重建的可比質(zhì)量是可以預(yù)期的。當(dāng)在點云和圖像(Rpi)上訓(xùn)練cadrille時,它在點云上保持相同的準(zhǔn)確性,但額外擴(kuò)展到圖像。在點云、圖像和文本(Spi + Di)上訓(xùn)練后,cadrille在不損失每種模態(tài)質(zhì)量的情況下跨模態(tài)泛化。為了公平比較,在這系列實驗中,他們不應(yīng)用任何RL技術(shù),并且簡單地混合訓(xùn)練數(shù)據(jù)集進(jìn)行SFT。
Fusion360和CC3D數(shù)據(jù)集沒有提供兼容格式的注釋,在標(biāo)準(zhǔn)評估協(xié)議中僅用于測試。因此,對這些數(shù)據(jù)集的測試是在零樣本場景中進(jìn)行的,這允許評估CAD重建方法的泛化能力。此外,由于CC3D包含物體的真實掃描,這個實驗?zāi)M了現(xiàn)實世界的應(yīng)用。
團(tuán)隊報告了基于圖像和基于點云的CAD重建的質(zhì)量。CADCrafter是唯一執(zhí)行基于多視角圖像的CAD重建的方法。然而,CADCrafter的作者僅在DeepCAD數(shù)據(jù)集上報告指標(biāo),由于代碼從未發(fā)布,在其他數(shù)據(jù)集上對其進(jìn)行基準(zhǔn)測試是有問題的。為了在基于圖像的CAD重建中建立基線,他們結(jié)合了兩種現(xiàn)成的最先進(jìn)方法,即多視角重建方法LRM和CAD-Recode。LRM將多視角圖像作為輸入并生成網(wǎng)格,該網(wǎng)格通過表面采樣轉(zhuǎn)換為點云,然后將該點云傳遞給CAD-Recode創(chuàng)建CAD模型。
cadrille與最先進(jìn)的方法進(jìn)行了比較,這些方法最初在DeepCAD(CAD-SIGNet)和CAD-Recode數(shù)據(jù)集上訓(xùn)練。正如預(yù)期的那樣,cadrille與CAD-Recode旗鼓相當(dāng),同時在質(zhì)量方面大大超過了CAD-SIGNet。
在強(qiáng)化學(xué)習(xí)方面,單一模態(tài)的RL也提升了其他模態(tài)的性能。例如,在圖像上進(jìn)行微調(diào)的模型在點云CAD重建方面也表現(xiàn)出了最先進(jìn)的質(zhì)量。
RL微調(diào)顯著改善了跨數(shù)據(jù)集場景中的指標(biāo)。基于圖像的CAD重建中,CD從0.81減少到0.57,而IR顯著從7.7降至0.1。在點云測試中,RL也改善了CC3D上的所有分?jǐn)?shù),使IR降至0.2%以下,這是可以忽略的。
在線RL優(yōu)于離線RL。使用離線DPO微調(diào)cadrille在大多數(shù)情況下將IR減半,而準(zhǔn)確性分?jǐn)?shù)不受影響。同時,Dr. CPPO在所有指標(biāo)方面都優(yōu)于SFT,將IoU分?jǐn)?shù)提高了3-9%,并在所有基準(zhǔn)測試中將IR降至0.2%以下。觀察到的CAD重建準(zhǔn)確性的改進(jìn)與在其他可以程序化計算反饋的任務(wù)中獲得的實驗結(jié)果一致。
常見的假設(shè)是混合數(shù)據(jù)集通過增加數(shù)據(jù)多樣性和數(shù)量來提高泛化能力。然而,實驗表明,CAD-Recode和DeepCAD數(shù)據(jù)集的簡單混合(Rpi+Dpi)不會帶來性能提升,甚至可能相對于僅用Rpi進(jìn)行的SFT降低結(jié)果。團(tuán)隊將這種效應(yīng)歸因于數(shù)據(jù)集之間的域差距,具體來說,DeepCAD中存在的一些CAD操作(例如,對稱擠壓、擠壓切割)在CAD-Recode中缺失。
七、成果與局限:邁向完美的挑戰(zhàn)
盡管表現(xiàn)強(qiáng)勁,但cadrille仍然存在幾個局限性。它依賴于相對較小且有限的手工制作基準(zhǔn)(DeepCAD)或大規(guī)模程序生成的數(shù)據(jù)集(CAD-Recode),這些可能無法反映現(xiàn)實世界CAD數(shù)據(jù)的復(fù)雜性。由于CC3D訓(xùn)練集在公共領(lǐng)域不可用,在真實數(shù)據(jù)上的訓(xùn)練或無注釋微調(diào)仍然未被充分探索。
此外,文本模態(tài)未被充分利用,因為自然語言描述稀缺,而且VLM生成的來自Text2CAD的標(biāo)題通常缺乏現(xiàn)實感,并且由于過于描述性和詳細(xì)而可能導(dǎo)致數(shù)據(jù)泄露風(fēng)險。此外,雖然cadrille可以處理所有三種模態(tài),但它獨立處理它們,缺乏機(jī)制來補(bǔ)償?shù)唾|(zhì)量或缺失的輸入。除此之外,團(tuán)隊只使用圖像進(jìn)行RL微調(diào)。在點云上進(jìn)行微調(diào)似乎不穩(wěn)定,他們將其歸因于1)點云是LLM的非原生輸入模態(tài),以及2)從CAD-Recode繼承的次優(yōu)點云處理策略。
然而,盡管存在這些限制,cadrille仍然代表了CAD重建領(lǐng)域的顯著進(jìn)步,為未來工作提供了堅實的基礎(chǔ)。
八、結(jié)論:開辟CAD重建的新時代
cadrille的引入開創(chuàng)了CAD重建的新時代。通過創(chuàng)建一個能夠同時處理點云、多視角圖像和文本輸入的統(tǒng)一VLM框架,研究團(tuán)隊大大擴(kuò)展了CAD重建的可能性。
采用兩階段訓(xùn)練范式——首先在合成數(shù)據(jù)上進(jìn)行監(jiān)督微調(diào),然后通過程序化反饋進(jìn)行強(qiáng)化學(xué)習(xí)微調(diào)——不僅改善了重建質(zhì)量,還提高了有效率。團(tuán)隊的實證研究表明,在線RL方法在CAD重建場景中特別有益。
所提出的方法在多個基準(zhǔn)測試中實現(xiàn)了新的最先進(jìn)結(jié)果,包括真實世界數(shù)據(jù)集,突顯了其魯棒性、泛化能力和在應(yīng)用中的潛力。
這項研究不僅推進(jìn)了CAD重建技術(shù),還為其他領(lǐng)域提供了寶貴的見解,特別是在如何結(jié)合多模態(tài)輸入和利用強(qiáng)化學(xué)習(xí)進(jìn)行微調(diào)方面。隨著這些技術(shù)的發(fā)展,我們可以期待看到更加智能、適應(yīng)性強(qiáng)的CAD系統(tǒng),使設(shè)計和制造過程對所有人都更加容易和可訪問。
最終,cadrille代表了我們?nèi)绾文軌蜃層嬎銠C(jī)更好地理解和重建我們的物理世界的一個重要里程碑,為未來的創(chuàng)新鋪平了道路。
好文章,需要你的鼓勵
新加坡國立大學(xué)研究團(tuán)隊開發(fā)了SPIRAL框架,通過讓AI與自己對弈零和游戲來提升推理能力。實驗顯示,僅訓(xùn)練AI玩簡單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟(jì)大學(xué)團(tuán)隊開發(fā)的GIGA-ToF技術(shù)通過融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機(jī)噪聲問題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實現(xiàn)37.9%的精度提升,并在真實設(shè)備上展現(xiàn)出色泛化能力,為機(jī)器人、AR和自動駕駛等領(lǐng)域提供更可靠的3D視覺解決方案。
伊利諾伊大學(xué)研究團(tuán)隊通過對比實驗發(fā)現(xiàn),經(jīng)過強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺語言模型雖然表現(xiàn)出"頓悟時刻"現(xiàn)象,但這些自我糾錯行為并不能實際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗證差距",即生成答案的能力強(qiáng)于驗證答案質(zhì)量的能力,且模型在自我驗證時無法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過動態(tài)稀疏性實現(xiàn)大語言模型訓(xùn)練加速1.6倍,計算成本降低2.2倍。該方法使用SVD稀疏性估計器智能選擇重要計算部分,在保持模型性能的同時顯著提升訓(xùn)練效率,已在多個任務(wù)上驗證有效性。