av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

<tt id="a3r6s"></tt>

首頁(yè)
對(duì)話創(chuàng)新
對(duì)話科技行者
機(jī)器人新紀(jì)元
AI論文解讀
聯(lián)系我們

微信掃一掃，關(guān)注公眾號(hào)

科技行者
算力行者

見(jiàn)證連接與計(jì)算的「力量」

DOVE：加州大學(xué)團(tuán)隊(duì)推出"圖像信息量自適應(yīng)表示法"，讓AI更智能地理解圖片

計(jì)算機(jī)視覺(jué)動(dòng)態(tài)表示學(xué)習(xí)視覺(jué)語(yǔ)言模型

DOVE：加州大學(xué)團(tuán)隊(duì)推出"圖像信息量自適應(yīng)表示法"，讓AI更智能地理解圖片

作者：科技行者

2025-06-10 09:24

分享至：

加州大學(xué)研究團(tuán)隊(duì)開(kāi)發(fā)的DOVE系統(tǒng)徹底革新了AI圖像處理方式，不再用固定長(zhǎng)度表示所有圖像，而是根據(jù)圖像復(fù)雜度智能調(diào)整表示長(zhǎng)度。就像人類描述簡(jiǎn)單白墻只需幾句話，而描述繁忙街景需要更多細(xì)節(jié)一樣，DOVE為簡(jiǎn)單圖像分配更少的"視覺(jué)詞匯"，為復(fù)雜圖像提供更多描述單元。實(shí)驗(yàn)證明，這種動(dòng)態(tài)方法不僅節(jié)省計(jì)算資源，還提升了語(yǔ)義理解能力，在各類視覺(jué)任務(wù)中表現(xiàn)卓越。其查詢條件化變體Q-DOVE更進(jìn)一步，能根據(jù)用戶問(wèn)題聚焦相關(guān)圖像區(qū)域，進(jìn)一步提高效率與理解能力。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-06-10 09:24 ? 科技行者

長(zhǎng)久以來(lái)，我們使用相機(jī)捕捉世界的瞬間，無(wú)論拍攝的是簡(jiǎn)單的白墻還是繁忙的街景，每張照片在計(jì)算機(jī)看來(lái)都被強(qiáng)制轉(zhuǎn)換為相同長(zhǎng)度的數(shù)據(jù)表示。這就像是無(wú)論你要記錄一個(gè)簡(jiǎn)單的購(gòu)物清單還是整部戰(zhàn)爭(zhēng)與和平，都被要求使用恰好100個(gè)單詞一樣不合理。加州大學(xué)圣地亞哥分校、加州大學(xué)伯克利分校和華盛頓大學(xué)的研究團(tuán)隊(duì)在2025年6月發(fā)表的論文《Images are Worth Variable Length of Representations》（圖像值得擁有可變長(zhǎng)度的表示）中，提出了一個(gè)突破性的解決方案，讓計(jì)算機(jī)能夠根據(jù)圖像的復(fù)雜程度自動(dòng)調(diào)整表示長(zhǎng)度。

這篇發(fā)表于arXiv預(yù)印本平臺(tái)（arXiv:2506.03643v2）的研究由林俊毛（Lingjun Mao）、Rodolfo Corona、Xin Liang、嚴(yán)文浩（Wenhao Yan）和唐子能（Zineng Tang）共同完成，他們開(kāi)發(fā)的動(dòng)態(tài)視覺(jué)編碼器DOVE（Dynamic Output Vision Encoder）能夠根據(jù)圖像的復(fù)雜度生成長(zhǎng)短不一的表示序列。想象一下，一張簡(jiǎn)單的白墻照片可能只需要20個(gè)"視覺(jué)單詞"就能描述清楚，而一個(gè)雜亂的客廳可能需要150個(gè)"視覺(jué)單詞"才能準(zhǔn)確表達(dá)。DOVE正是這樣工作的，它根據(jù)圖像的復(fù)雜性動(dòng)態(tài)調(diào)整表示長(zhǎng)度，就像我們?cè)谌粘Ｉ钪?，描述?jiǎn)單事物用簡(jiǎn)短語(yǔ)句，描述復(fù)雜事物則需要更詳細(xì)的解釋。

在視覺(jué)表示學(xué)習(xí)領(lǐng)域，現(xiàn)有的方法大多會(huì)將圖像轉(zhuǎn)換為固定長(zhǎng)度的序列，這就像是強(qiáng)制每個(gè)人無(wú)論說(shuō)什么內(nèi)容都必須使用相同數(shù)量的單詞。研究團(tuán)隊(duì)指出，這種做法忽略了一個(gè)基本事實(shí)：不同圖像包含的信息量是不同的。例如，一個(gè)雜亂的房間（比如你忘記打掃的臥室）天然比一面空白的墻包含更多的視覺(jué)信息，因此理應(yīng)使用更多的表示單元來(lái)描述。

DOVE的核心創(chuàng)新在于它能夠生成"結(jié)束符號(hào)"（EOS，就像句子結(jié)束時(shí)的句號(hào)），在表示序列中的任何位置終止輸出。系統(tǒng)會(huì)在訓(xùn)練過(guò)程中同時(shí)優(yōu)化圖像重建質(zhì)量和EOS標(biāo)記的預(yù)測(cè)，根據(jù)重建誤差動(dòng)態(tài)決定需要多少個(gè)表示單元。當(dāng)系統(tǒng)認(rèn)為已經(jīng)捕捉到足夠的圖像信息時(shí)，就會(huì)生成EOS標(biāo)記，從而產(chǎn)生長(zhǎng)度可變的表示序列。

研究結(jié)果令人驚喜。與固定長(zhǎng)度的表示方法相比，DOVE能夠在使用更少表示單元的同時(shí)，保持甚至提高圖像重建質(zhì)量。在分類、問(wèn)答等下游任務(wù)中，DOVE明顯優(yōu)于其他自編碼器方法，即使使用遠(yuǎn)少于對(duì)手的表示單元也能表現(xiàn)出更強(qiáng)的語(yǔ)義理解能力。

此外，研究團(tuán)隊(duì)還開(kāi)發(fā)了DOVE的一個(gè)變種——Q-DOVE，它能夠根據(jù)文本查詢生成條件化的表示。想象你問(wèn)"圖中有幾個(gè)人？"，Q-DOVE會(huì)集中精力表示圖像中與人相關(guān)的區(qū)域，忽略背景中的無(wú)關(guān)細(xì)節(jié)。這種查詢條件化的表示進(jìn)一步提高了表示效率，平均可以節(jié)省68%的表示單元，同時(shí)展現(xiàn)出更強(qiáng)的語(yǔ)義理解能力。

一、DOVE：動(dòng)態(tài)視覺(jué)編碼器的工作原理

想象你是一位專業(yè)攝影師，需要描述不同場(chǎng)景的照片。對(duì)于一張簡(jiǎn)單的藍(lán)天白云照片，你可能只需幾句話就能描述清楚；而對(duì)于一張繁忙的城市街景，則需要更多細(xì)節(jié)和描述。DOVE系統(tǒng)正是基于這樣的直覺(jué)設(shè)計(jì)的——復(fù)雜圖像需要更多的"描述詞"，簡(jiǎn)單圖像只需少量"描述詞"。

DOVE的架構(gòu)由四個(gè)主要組件構(gòu)成：VQGAN編碼器、變換器（Transformer）動(dòng)態(tài)標(biāo)記生成器、變換器標(biāo)記解碼器和VQGAN解碼器。整個(gè)過(guò)程像是一條信息處理流水線，讓我們用做菜的過(guò)程來(lái)理解它：

首先，VQGAN編碼器就像廚師初步處理食材，它將原始圖像轉(zhuǎn)換為初步的表示序列。接著，時(shí)間編碼（就像菜譜中的步驟編號(hào)）被添加到這些表示中。然后，動(dòng)態(tài)標(biāo)記生成器（相當(dāng)于主廚）開(kāi)始工作，它能夠根據(jù)當(dāng)前已經(jīng)生成的信息決定是否繼續(xù)添加更多細(xì)節(jié)，或者認(rèn)為"菜已經(jīng)做好了"并生成一個(gè)"結(jié)束"標(biāo)記。最后，標(biāo)記解碼器和VQGAN解碼器（像是裝盤和最終調(diào)味）將這些表示轉(zhuǎn)回為可視圖像。

系統(tǒng)通過(guò)聯(lián)合訓(xùn)練方式優(yōu)化兩個(gè)關(guān)鍵目標(biāo)：圖像重建質(zhì)量和動(dòng)態(tài)長(zhǎng)度控制。圖像重建使用均方誤差、感知損失和輕量級(jí)對(duì)抗性損失的組合，確保重建圖像既準(zhǔn)確又自然。動(dòng)態(tài)長(zhǎng)度控制則通過(guò)比較當(dāng)前重建損失與平均重建損失來(lái)實(shí)現(xiàn)：如果當(dāng)前損失較高（意味著需要更多表示單元來(lái)改善重建），系統(tǒng)會(huì)推遲生成EOS標(biāo)記；如果損失已經(jīng)較低（表明當(dāng)前表示單元已足夠），系統(tǒng)則會(huì)鼓勵(lì)生成EOS標(biāo)記。

這種自適應(yīng)機(jī)制使DOVE能夠智能地分配計(jì)算資源——為復(fù)雜圖像提供更多表示單元，為簡(jiǎn)單圖像分配較少單元。研究團(tuán)隊(duì)發(fā)現(xiàn)，大多數(shù)圖像的表示長(zhǎng)度都小于100個(gè)單元，只有極少數(shù)復(fù)雜圖像需要接近最大限制的256個(gè)單元。這意味著平均而言，DOVE能夠顯著減少處理圖像所需的計(jì)算資源，同時(shí)保持甚至提升表示質(zhì)量。

二、查詢條件化：讓AI"看"得更有重點(diǎn)

人類視覺(jué)是一個(gè)主動(dòng)的、任務(wù)驅(qū)動(dòng)的過(guò)程。當(dāng)我們?cè)噲D回答"桌子上有幾個(gè)蘋果？"這樣的問(wèn)題時(shí)，我們會(huì)自然地將注意力集中在桌子區(qū)域，而忽略圖像中的其他部分?；谶@種人類視覺(jué)系統(tǒng)的特性，研究團(tuán)隊(duì)開(kāi)發(fā)了DOVE的查詢條件化變體——Q-DOVE。

Q-DOVE接受文本查詢作為輸入，并學(xué)習(xí)將重建注意力集中在與查詢相關(guān)的圖像區(qū)域。這就像是在告訴系統(tǒng)："嘿，看看這個(gè)特定區(qū)域，這里有你需要回答問(wèn)題的關(guān)鍵信息。"在訓(xùn)練過(guò)程中，Q-DOVE學(xué)習(xí)使用更多資源表示查詢相關(guān)區(qū)域，同時(shí)對(duì)無(wú)關(guān)區(qū)域使用更少資源。

具體來(lái)說(shuō)，Q-DOVE在訓(xùn)練時(shí)接收?qǐng)D像、文本查詢和與答案相關(guān)的邊界框數(shù)據(jù)。系統(tǒng)會(huì)增加對(duì)邊界框內(nèi)區(qū)域重建質(zhì)量的權(quán)重，同時(shí)大幅降低對(duì)框外區(qū)域的重建要求。這種有針對(duì)性的訓(xùn)練策略使Q-DOVE能夠進(jìn)一步減少生成的表示單元數(shù)量，平均可以節(jié)省約68%的單元，同時(shí)在下游視覺(jué)-語(yǔ)言任務(wù)中展現(xiàn)出更強(qiáng)的性能。

值得注意的是，Q-DOVE在推理時(shí)只需要圖像和查詢文本，不需要邊界框信息。這意味著它已經(jīng)學(xué)會(huì)了如何根據(jù)查詢自動(dòng)找到圖像中的相關(guān)區(qū)域——就像我們?nèi)祟愒诨卮饐?wèn)題時(shí)自然而然地將注意力集中在相關(guān)視覺(jué)區(qū)域一樣。

三、實(shí)驗(yàn)結(jié)果：更少的信息單元，更好的理解能力

研究團(tuán)隊(duì)在多個(gè)層面評(píng)估了DOVE的性能，包括重建質(zhì)量、表示長(zhǎng)度分布以及在下游視覺(jué)語(yǔ)言任務(wù)中的有效性。結(jié)果顯示，DOVE不僅能夠顯著減少表示單元數(shù)量，還能捕獲更豐富的語(yǔ)義信息。

在圖像重建質(zhì)量方面，隨著表示單元數(shù)量的增加，DOVE的重建質(zhì)量穩(wěn)步提升。即使在使用相對(duì)較少的表示單元時(shí)（如32或64個(gè)），DOVE也能產(chǎn)生結(jié)構(gòu)上和語(yǔ)義上較為忠實(shí)的重建結(jié)果。這與另一種動(dòng)態(tài)視覺(jué)編碼器ALIT形成鮮明對(duì)比，后者在低表示單元數(shù)量時(shí)會(huì)產(chǎn)生嚴(yán)重的對(duì)象變形。例如，當(dāng)表示單元限制為32個(gè)時(shí)，ALIT重建的變色龍和甲蟲(chóng)會(huì)出現(xiàn)明顯的變形，而DOVE則能保持結(jié)構(gòu)完整性，只是細(xì)節(jié)略顯模糊。

在分類任務(wù)中，DOVE作為一個(gè)現(xiàn)成的、凍結(jié)的骨干網(wǎng)絡(luò)在CIFAR-100、ImageNet-100和STL-10等三個(gè)標(biāo)準(zhǔn)識(shí)別基準(zhǔn)上進(jìn)行了評(píng)估。研究發(fā)現(xiàn)，隨著表示單元數(shù)量的增加，DOVE和ALIT的分類準(zhǔn)確率都穩(wěn)步提升。然而，DOVE始終以顯著優(yōu)勢(shì)超越所有其他視覺(jué)表示方法。即使僅使用32個(gè)表示單元，DOVE也能實(shí)現(xiàn)比所有競(jìng)爭(zhēng)方法更高的分類準(zhǔn)確率。研究團(tuán)隊(duì)將這一優(yōu)勢(shì)歸因于DOVE的動(dòng)態(tài)重建訓(xùn)練目標(biāo)，這使模型能夠在表示學(xué)習(xí)過(guò)程中捕獲額外的語(yǔ)義信息。

在視覺(jué)問(wèn)答評(píng)估中，研究人員將不同的視覺(jué)編碼器集成到視覺(jué)語(yǔ)言模型中，并在多個(gè)基準(zhǔn)測(cè)試上評(píng)估它們的性能。結(jié)果顯示，配備DOVE的視覺(jué)語(yǔ)言模型在所有數(shù)據(jù)集上顯著優(yōu)于其他模型，而集成Q-DOVE則進(jìn)一步提高了準(zhǔn)確率。通過(guò)利用DOVE的EOS標(biāo)記作為截?cái)帱c(diǎn)，系統(tǒng)能夠在保持與完整256個(gè)表示單元相當(dāng)?shù)男阅艿耐瑫r(shí)，大幅減少表示單元數(shù)量。對(duì)于Q-DOVE，研究者嘗試了兩種輸入策略：提供實(shí)際問(wèn)題或直接輸入"null"。雖然"null"設(shè)置在性能上略優(yōu)于問(wèn)題引導(dǎo)策略，但問(wèn)題引導(dǎo)策略能夠在保持相當(dāng)準(zhǔn)確率的同時(shí)進(jìn)一步減少表示單元長(zhǎng)度。

此外，研究團(tuán)隊(duì)還對(duì)模型的推理時(shí)間和浮點(diǎn)運(yùn)算量進(jìn)行了測(cè)量。結(jié)果表明，DOVE和ALIT都能通過(guò)縮短視覺(jué)表示序列長(zhǎng)度有效減少浮點(diǎn)運(yùn)算量。然而，由于ALIT使用循環(huán)蒸餾（通過(guò)對(duì)VQGAN標(biāo)記進(jìn)行多次傳遞生成動(dòng)態(tài)標(biāo)記），其推理速度受到不利影響，盡管序列長(zhǎng)度減少。相比之下，DOVE依靠單次前向傳遞，因此推理速度更快。

四、語(yǔ)義的自然浮現(xiàn)：意外的發(fā)現(xiàn)

通過(guò)之前的實(shí)驗(yàn)，研究團(tuán)隊(duì)觀察到DOVE生成的視覺(jué)表示在分類和下游多模態(tài)任務(wù)中顯著優(yōu)于固定長(zhǎng)度的自編碼器表示方法。在本節(jié)中，他們進(jìn)一步探索了這種語(yǔ)義涌現(xiàn)現(xiàn)象。

研究者通過(guò)對(duì)模型隱藏層而非生成的視覺(jué)標(biāo)記進(jìn)行線性探測(cè)，評(píng)估了學(xué)習(xí)表示的質(zhì)量。他們?cè)谄邆€(gè)基準(zhǔn)數(shù)據(jù)集上比較了DOVE、Q-DOVE和其他固定長(zhǎng)度自編碼器表示方法：CIFAR-10、CIFAR-100、DTD（可描述紋理數(shù)據(jù)集）、FGVC（細(xì)粒度視覺(jué)分類）、Food101、STL-10和SUN397。對(duì)于Q-DOVE，他們將所有文本查詢?cè)O(shè)置為"null"以模擬無(wú)條件設(shè)置。

結(jié)果表明，DOVE在所有數(shù)據(jù)集上以大幅優(yōu)勢(shì)持續(xù)超越其他方法，而Q-DOVE則進(jìn)一步提高了DOVE的性能。為了深入了解學(xué)習(xí)表示的結(jié)構(gòu)，研究者應(yīng)用主成分分析（PCA）進(jìn)行降維并在圖像空間中可視化結(jié)果。如圖8所示，與VQGAN相比，DOVE產(chǎn)生了語(yǔ)義上更連貫的分割，而Q-DOVE則展現(xiàn)出更強(qiáng)的語(yǔ)義對(duì)齊和清晰度。

這種語(yǔ)義的自然浮現(xiàn)令人驚訝，因?yàn)镈OVE原本只是被設(shè)計(jì)用來(lái)根據(jù)圖像復(fù)雜性生成變長(zhǎng)表示的。研究團(tuán)隊(duì)推測(cè)，這可能是因?yàn)閯?dòng)態(tài)長(zhǎng)度訓(xùn)練迫使模型更加高效地編碼語(yǔ)義信息，從而學(xué)習(xí)到了更有意義的表示結(jié)構(gòu)。簡(jiǎn)單來(lái)說(shuō)，當(dāng)系統(tǒng)被要求"精打細(xì)算"地使用表示單元時(shí)，它學(xué)會(huì)了更聰明地組織信息，自然地形成了更有語(yǔ)義意義的結(jié)構(gòu)。

五、相關(guān)工作與DOVE的創(chuàng)新點(diǎn)

在深入了解DOVE的工作原理和實(shí)驗(yàn)結(jié)果后，我們來(lái)看看它與現(xiàn)有研究的關(guān)系，以及它帶來(lái)的獨(dú)特創(chuàng)新。

圖像表示學(xué)習(xí)是計(jì)算機(jī)視覺(jué)的基礎(chǔ)，現(xiàn)有的方法大致分為兩類：語(yǔ)義特征學(xué)習(xí)（如CLIP、DINO）和基于自編碼器的圖像標(biāo)記化（如VQGAN、VAE）。這些方法都旨在生成固定長(zhǎng)度的序列。然而，研究表明視覺(jué)標(biāo)記存在信息冗余問(wèn)題。DOVE團(tuán)隊(duì)推測(cè)，不同圖像具有不同的復(fù)雜度，因此可以用不同長(zhǎng)度的標(biāo)記序列進(jìn)行重建。

與標(biāo)記剪枝和壓縮方法不同，這些方法通過(guò)在變換器層之間迭代減少要處理的標(biāo)記集來(lái)降低計(jì)算成本，DOVE產(chǎn)生可變數(shù)量的標(biāo)記，允許它直接集成到模型預(yù)訓(xùn)練和微調(diào)流程中。另一些工作通過(guò)在輸入級(jí)別壓縮標(biāo)記集來(lái)降低計(jì)算成本。Perceiver架構(gòu)使用變換器將輸入標(biāo)記壓縮為更小的固定潛在標(biāo)記集。類似地，TiTok將圖像塊壓縮為小型潛在標(biāo)記集，然后量化用于圖像重建或其他下游任務(wù)。

與DOVE最接近的是ALIT，它使用循環(huán)過(guò)程將2D標(biāo)記蒸餾為1D潛在標(biāo)記集。雖然這種迭代過(guò)程允許圖像以可變數(shù)量的標(biāo)記表示，但這只是通過(guò)事后分析證明的，ALIT并未提出在推理時(shí)動(dòng)態(tài)確定表示圖像所需標(biāo)記數(shù)量的自動(dòng)方法。DOVE的關(guān)鍵創(chuàng)新之一是使用動(dòng)態(tài)EOS預(yù)測(cè)機(jī)制，該機(jī)制在推理時(shí)用于根據(jù)圖像和下游任務(wù)復(fù)雜性生成每個(gè)圖像的可變長(zhǎng)度標(biāo)記序列。DOVE使用并行變換器前向傳遞生成可變數(shù)量的標(biāo)記，這比ALIT的循環(huán)公式更高效。

六、結(jié)論與未來(lái)展望

DOVE代表了視覺(jué)表示學(xué)習(xí)的一個(gè)重要進(jìn)步。通過(guò)根據(jù)圖像復(fù)雜性動(dòng)態(tài)生成可變長(zhǎng)度的標(biāo)記序列，它解決了固定長(zhǎng)度表示方法中的效率和語(yǔ)義理解問(wèn)題。研究結(jié)果表明，DOVE不僅能夠顯著減少處理圖像所需的計(jì)算資源，還能捕獲更豐富的語(yǔ)義信息，在分類和視覺(jué)語(yǔ)言任務(wù)中展現(xiàn)出強(qiáng)大的性能。

從更廣泛的角度來(lái)看，DOVE的設(shè)計(jì)理念反映了一個(gè)更為普遍的趨勢(shì)：計(jì)算系統(tǒng)應(yīng)該適應(yīng)內(nèi)容的復(fù)雜性，而不是強(qiáng)制內(nèi)容適應(yīng)系統(tǒng)的固定結(jié)構(gòu)。就像人類在描述簡(jiǎn)單和復(fù)雜場(chǎng)景時(shí)自然地使用不同長(zhǎng)度的描述一樣，AI系統(tǒng)也應(yīng)該具備這種靈活性。

查詢條件化變體Q-DOVE進(jìn)一步擴(kuò)展了這一理念，通過(guò)根據(jù)用戶查詢動(dòng)態(tài)調(diào)整圖像表示，實(shí)現(xiàn)了更高效、更有針對(duì)性的視覺(jué)語(yǔ)義提取。這種方法不僅提高了計(jì)算效率，還增強(qiáng)了系統(tǒng)理解用戶意圖的能力，為更自然、更智能的人機(jī)交互奠定了基礎(chǔ)。

未來(lái)的研究方向可能包括將DOVE的動(dòng)態(tài)表示理念擴(kuò)展到其他模態(tài)，如音頻和視頻；探索更復(fù)雜的條件化策略，使系統(tǒng)能夠根據(jù)更廣泛的上下文信息調(diào)整表示；以及研究如何將DOVE集成到更大規(guī)模的多模態(tài)系統(tǒng)中，以提高整體效率和性能。

值得一提的是，這項(xiàng)研究成果的代碼和檢查點(diǎn)已在https://dove-encoder.github.io/dove-encoder開(kāi)放獲取，這將有助于社區(qū)進(jìn)一步探索和擴(kuò)展這一創(chuàng)新技術(shù)。對(duì)于那些對(duì)計(jì)算機(jī)視覺(jué)和多模態(tài)學(xué)習(xí)感興趣的研究者和開(kāi)發(fā)者來(lái)說(shuō)，DOVE提供了一個(gè)有價(jià)值的新工具，幫助他們構(gòu)建更高效、更智能的視覺(jué)理解系統(tǒng)。

計(jì)算機(jī)視覺(jué)動(dòng)態(tài)表示學(xué)習(xí)視覺(jué)語(yǔ)言模型

分享至

0贊

好文章，需要你的鼓勵(lì)

推薦文章

自對(duì)弈訓(xùn)練
推理能力提升
零和游戲?qū)W習(xí)

2025-07-02 14:26

AI玩游戲能讓推理變聰明？新加坡國(guó)立大學(xué)發(fā)現(xiàn)自對(duì)弈訓(xùn)練的神奇效果

新加坡國(guó)立大學(xué)研究團(tuán)隊(duì)開(kāi)發(fā)了SPIRAL框架，通過(guò)讓AI與自己對(duì)弈零和游戲來(lái)提升推理能力。實(shí)驗(yàn)顯示，僅訓(xùn)練AI玩簡(jiǎn)單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%，通用推理提升8.4%，且無(wú)需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中，為AI訓(xùn)練提供了新思路。
計(jì)算機(jī)視覺(jué)
圖像降噪
3D相機(jī)技術(shù)

2025-07-02 14:26

同濟(jì)大學(xué)突破性研究：讓3D相機(jī)告別"噪點(diǎn)困擾"的智能降噪新技術(shù)

同濟(jì)大學(xué)團(tuán)隊(duì)開(kāi)發(fā)的GIGA-ToF技術(shù)通過(guò)融合多幀圖像的"圖結(jié)構(gòu)"信息，創(chuàng)新性地解決了3D相機(jī)噪聲問(wèn)題。該技術(shù)利用圖像間的不變幾何關(guān)系，結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法，在合成數(shù)據(jù)集上實(shí)現(xiàn)37.9%的精度提升，并在真實(shí)設(shè)備上展現(xiàn)出色泛化能力，為機(jī)器人、AR和自動(dòng)駕駛等領(lǐng)域提供更可靠的3D視覺(jué)解決方案。
人工智能
視覺(jué)語(yǔ)言模型
強(qiáng)化學(xué)習(xí)

2025-07-02 14:26

AI視覺(jué)推理模型的"頓悟時(shí)刻"真的存在嗎？伊利諾伊大學(xué)研究揭示令人意外的真相

伊利諾伊大學(xué)研究團(tuán)隊(duì)通過(guò)對(duì)比實(shí)驗(yàn)發(fā)現(xiàn)，經(jīng)過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺(jué)語(yǔ)言模型雖然表現(xiàn)出"頓悟時(shí)刻"現(xiàn)象，但這些自我糾錯(cuò)行為并不能實(shí)際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗(yàn)證差距"，即生成答案的能力強(qiáng)于驗(yàn)證答案質(zhì)量的能力，且模型在自我驗(yàn)證時(shí)無(wú)法有效利用視覺(jué)信息，為AI多模態(tài)推理發(fā)展提供了重要啟示。
大語(yǔ)言模型
稀疏性訓(xùn)練
計(jì)算效率優(yōu)化

2025-07-02 14:25

MIT團(tuán)隊(duì)發(fā)明"智能減肥法"讓AI訓(xùn)練快1.6倍：只需要一半的算力就能教會(huì)大模型新技能

MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù)，通過(guò)動(dòng)態(tài)稀疏性實(shí)現(xiàn)大語(yǔ)言模型訓(xùn)練加速1.6倍，計(jì)算成本降低2.2倍。該方法使用SVD稀疏性估計(jì)器智能選擇重要計(jì)算部分，在保持模型性能的同時(shí)顯著提升訓(xùn)練效率，已在多個(gè)任務(wù)上驗(yàn)證有效性。

AI玩游戲能讓推理變聰明？新加坡國(guó)立大學(xué)發(fā)現(xiàn)自對(duì)弈訓(xùn)練的神奇效果

AI玩游戲能讓推理變聰明？新加坡國(guó)立大學(xué)發(fā)現(xiàn)自對(duì)弈訓(xùn)練的神奇效果

2025-07-02 14:26

同濟(jì)大學(xué)突破性研究：讓3D相機(jī)告別"噪點(diǎn)困擾"的智能降噪新技術(shù)

同濟(jì)大學(xué)突破性研究：讓3D相機(jī)告別"噪點(diǎn)困擾"的智能降噪新技術(shù)

2025-07-02 14:26

AI視覺(jué)推理模型的"頓悟時(shí)刻"真的存在嗎？伊利諾伊大學(xué)研究揭示令人意外的真相

AI視覺(jué)推理模型的"頓悟時(shí)刻"真的存在嗎？伊利諾伊大學(xué)研究揭示令人意外的真相

2025-07-02 14:26

MIT團(tuán)隊(duì)發(fā)明"智能減肥法"讓AI訓(xùn)練快1.6倍：只需要一半的算力就能教會(huì)大模型新技能

MIT團(tuán)隊(duì)發(fā)明"智能減肥法"讓AI訓(xùn)練快1.6倍：只需要一半的算力就能教會(huì)大模型新技能

2025-07-02 14:25

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

友情鏈接

至頂網(wǎng)
管理現(xiàn)代化
和訊IT
TechWeb
第三媒體
速途網(wǎng)
51CTO傳媒
投資界
科技訊
智者新時(shí)代

京ICP證15039648號(hào) 京ICP備15039648號(hào)-9 京公網(wǎng)安備 11010802021500號(hào)

北京第二十六維信息技術(shù)有限公司（至頂網(wǎng)）版權(quán)所有。 | 聯(lián)絡(luò)我們

舉報(bào)電話：010-62641205　涉未成年人舉報(bào)專線：010-62641208 舉報(bào)郵箱: jubao@zhiding.cn 　網(wǎng)上有害信息舉報(bào)專區(qū)：https://www.12377.cn

<blockquote id="xl7dv"><p id="xl7dv"><th id="xl7dv"></th></p></blockquote><style id="xl7dv"></style>