av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

<nav id="pwhtg"><menu id="pwhtg"></menu></nav>

首頁(yè)
對(duì)話(huà)創(chuàng)新
對(duì)話(huà)科技行者
機(jī)器人新紀(jì)元
AI論文解讀
聯(lián)系我們

微信掃一掃，關(guān)注公眾號(hào)

科技行者
算力行者

見(jiàn)證連接與計(jì)算的「力量」

用思考生成圖像：讓AI以視覺(jué)思維突破認(rèn)知邊界——上海交通大學(xué)GAIR實(shí)驗(yàn)室最新研究揭示AI視覺(jué)推理新途徑

人工智能多模態(tài)學(xué)習(xí)視覺(jué)生成

用思考生成圖像：讓AI以視覺(jué)思維突破認(rèn)知邊界——上海交通大學(xué)GAIR實(shí)驗(yàn)室最新研究揭示AI視覺(jué)推理新途徑

作者：科技行者

2025-06-02 12:20

分享至：

這項(xiàng)研究提出了"用生成圖像思考"的創(chuàng)新范式，使AI能夠通過(guò)生成中間視覺(jué)步驟在文本和圖像模態(tài)間自然思考。研究者實(shí)現(xiàn)了"原生長(zhǎng)多模態(tài)思維過(guò)程"，使大型多模態(tài)模型能夠生成視覺(jué)子目標(biāo)和自我批評(píng)視覺(jué)假設(shè)。實(shí)驗(yàn)表明，該方法在處理復(fù)雜多物體場(chǎng)景時(shí)性能提升高達(dá)50%，為醫(yī)學(xué)研究、建筑設(shè)計(jì)和刑事偵查等領(lǐng)域開(kāi)創(chuàng)了新的應(yīng)用可能。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-06-02 12:20 ? 科技行者

2025年5月，上海交通大學(xué)Ethan Chern、Zhulin Hu、Steffi Chern等研究者與復(fù)旦大學(xué)的Jiadi Su、Yan Ma以及上海交通大學(xué)的Zhijie Deng和Pengfei Liu共同發(fā)表了一篇突破性論文《Thinking with Generated Images》（用生成圖像思考）。這篇發(fā)表在arXiv預(yù)印本平臺(tái)（arXiv:2505.22525v1）的研究，為大型多模態(tài)模型（LMMs）帶來(lái)了一種全新的思維方式。研究團(tuán)隊(duì)的開(kāi)源代碼已在GitHub（https://github.com/GAIR-NLP/thinking-with-generated-images）上公開(kāi)供學(xué)術(shù)界和開(kāi)發(fā)者使用。

一、為什么AI需要"用圖像思考"？

想象一下，當(dāng)你嘗試解決一個(gè)復(fù)雜問(wèn)題時(shí)，你的思維過(guò)程是怎樣的？是不是經(jīng)常會(huì)在腦海中勾勒出圖像，甚至畫(huà)草圖來(lái)幫助自己理解？人類(lèi)的認(rèn)知過(guò)程本質(zhì)上是多模態(tài)的。生物化學(xué)家通過(guò)探索蛋白質(zhì)結(jié)構(gòu)來(lái)發(fā)現(xiàn)新的治療方法；法醫(yī)分析師通過(guò)驗(yàn)證犯罪現(xiàn)場(chǎng)重建來(lái)建立證據(jù)聯(lián)系；建筑師通過(guò)修改空間和光線(xiàn)模式來(lái)優(yōu)化建筑設(shè)計(jì)。視覺(jué)思考能夠創(chuàng)造獨(dú)特的組合和概念間的新聯(lián)系，幫助我們發(fā)現(xiàn)純文本推理無(wú)法發(fā)現(xiàn)的可能性。

然而，當(dāng)前的AI系統(tǒng)存在明顯局限。即使是最先進(jìn)的大型多模態(tài)模型（LMMs）也只能"看到"圖像——它們?cè)谇跋騻鬟f過(guò)程中只處理一次圖像，而不能更深入地"用圖像思考"。想象一下，如果你只能看一眼圖紙就必須設(shè)計(jì)出整個(gè)建筑，或者只能瞥一眼案發(fā)現(xiàn)場(chǎng)就要還原完整犯罪過(guò)程，這顯然是不合理的。

正如孫子兵法所言："詳細(xì)的思考導(dǎo)向勝利；不充分的思考導(dǎo)向失敗。"這一古老智慧同樣適用于AI系統(tǒng)。雖然大型語(yǔ)言模型（LLMs）在被提示寫(xiě)思維鏈（Chain-of-Thought，CoT）時(shí)可以遍歷中間狀態(tài)，隨著推理計(jì)算增加而提高性能（即測(cè)試時(shí)擴(kuò)展），但這種純文本的思維鏈過(guò)程只能捕捉認(rèn)知搜索的一部分視角。

為解決這一問(wèn)題，研究團(tuán)隊(duì)提出了"用生成圖像思考"（Thinking with Generated Images）的創(chuàng)新范式。與以往僅依賴(lài)用戶(hù)提供的圖像或?qū)@些圖像進(jìn)行簡(jiǎn)單操作的方法不同，這種新范式使AI模型能夠主動(dòng)生成自己的視覺(jué)步驟或子目標(biāo)來(lái)解決問(wèn)題。這就像給AI提供了"視覺(jué)想象力"，使其能夠通過(guò)生成中間視覺(jué)思維步驟，在文本和視覺(jué)模態(tài)之間自然思考。

二、"用生成圖像思考"如何工作？

研究團(tuán)隊(duì)通過(guò)引入"原生長(zhǎng)多模態(tài)思維過(guò)程"（native long-multimodal thought process）實(shí)現(xiàn)了"用生成圖像思考"。這一過(guò)程使統(tǒng)一的大型多模態(tài)模型能夠無(wú)縫生成中間視覺(jué)思維，建立視覺(jué)子目標(biāo)，并在單一連貫的推理過(guò)程中迭代地批評(píng)自己的視覺(jué)假設(shè)。

簡(jiǎn)單來(lái)說(shuō)，這就像給AI模型配備了一個(gè)內(nèi)部"畫(huà)板"，讓它能夠隨時(shí)繪制草圖來(lái)幫助自己思考，然后對(duì)這些草圖進(jìn)行評(píng)價(jià)和改進(jìn)，直到找到滿(mǎn)意的解決方案。這種方法自然地在模態(tài)間執(zhí)行測(cè)試時(shí)擴(kuò)展，使模型的思維能力隨著推理深度的增加而提升。

研究團(tuán)隊(duì)展示了兩種互補(bǔ)機(jī)制來(lái)實(shí)現(xiàn)這一目標(biāo)：

首先是"帶中間視覺(jué)子目標(biāo)的視覺(jué)生成"。想象一個(gè)廚師在準(zhǔn)備復(fù)雜菜肴時(shí)，會(huì)先分別準(zhǔn)備各種配料，然后將它們組合在一起。同樣，AI模型會(huì)將復(fù)雜的視覺(jué)任務(wù)分解為可管理的組件，生成這些組件，然后逐步整合它們。例如，當(dāng)被要求生成一張"沙發(fā)和酒杯的照片"時(shí)，模型會(huì)先單獨(dú)生成沙發(fā)，再生成酒杯，最后將兩者合理地組合在一張圖像中。

其次是"帶自我批評(píng)的視覺(jué)生成"。這就像一位藝術(shù)家先勾勒出草圖，然后批評(píng)性地分析其不足之處，最后基于這些反思創(chuàng)作出精細(xì)的作品。AI模型會(huì)生成初始視覺(jué)假設(shè)，通過(guò)文本推理分析其缺點(diǎn)，然后基于自己的批評(píng)生成改進(jìn)的輸出。例如，當(dāng)模型生成了一個(gè)海灘場(chǎng)景后，它會(huì)分析圖像中的問(wèn)題（如"缺乏色彩鮮艷的沙灘傘"），然后生成一個(gè)修正這些問(wèn)題的新版本。

這兩種機(jī)制不僅提高了模型處理復(fù)雜視覺(jué)任務(wù)的能力，還開(kāi)啟了AI系統(tǒng)與人類(lèi)創(chuàng)造性思維過(guò)程更為接近的可能性。

三、技術(shù)實(shí)現(xiàn)：如何讓AI學(xué)會(huì)用圖像思考？

實(shí)現(xiàn)"用生成圖像思考"的關(guān)鍵挑戰(zhàn)在于，如何構(gòu)建一個(gè)能夠自然地在多種模態(tài)間思考的統(tǒng)一模型系統(tǒng)。研究團(tuán)隊(duì)選擇了基于自回歸式下一個(gè)token預(yù)測(cè)的大型語(yǔ)言模型（LLMs）作為基礎(chǔ)架構(gòu)。

他們使用了Anole（Chern等人，2024）作為基礎(chǔ)模型，這是一種統(tǒng)一的自回歸下一個(gè)token預(yù)測(cè)大型多模態(tài)模型，能夠直接預(yù)測(cè)下一個(gè)多模態(tài)（文本或圖像）token。Anole模型相比其他LMMs具有幾個(gè)關(guān)鍵優(yōu)勢(shì)：首先，它在交錯(cuò)的文本-圖像token上進(jìn)行預(yù)訓(xùn)練和后訓(xùn)練，使其具備生成交錯(cuò)多模態(tài)token的內(nèi)在能力；其次，Anole的圖像表示相對(duì)高效，每個(gè)圖像僅用1024個(gè)token編碼，使原生長(zhǎng)多模態(tài)思維過(guò)程在合理的推理計(jì)算預(yù)算內(nèi)變得可行；最后，Anole的建模策略與最先進(jìn)的LLMs非常相似，能夠利用現(xiàn)有的LLMs訓(xùn)練和推理基礎(chǔ)設(shè)施。

研究團(tuán)隊(duì)精心策劃了監(jiān)督微調(diào)（SFT）數(shù)據(jù)集，包含多樣化的視覺(jué)（圖像）生成提示，以確保高質(zhì)量的對(duì)齊。為了使LMMs能夠執(zhí)行原生長(zhǎng)多模態(tài)思維過(guò)程，他們精心設(shè)計(jì)和構(gòu)建了解決方案多模態(tài)推理鏈，以引導(dǎo)LMMs的能力自發(fā)地（1）批評(píng)自己生成的視覺(jué)步驟和（2）生成中間視覺(jué)子目標(biāo)。

在訓(xùn)練方面，研究團(tuán)隊(duì)設(shè)計(jì)了結(jié)合交叉熵?fù)p失和重建損失的損失函數(shù)，以提高生成圖像的視覺(jué)質(zhì)量。訓(xùn)練分為兩個(gè)階段：首先在JourneyDB數(shù)據(jù)集上對(duì)Anole-7b進(jìn)行持續(xù)訓(xùn)練，增強(qiáng)模型的基本視覺(jué)生成能力；然后使用構(gòu)建的合成數(shù)據(jù)集進(jìn)行微調(diào)，產(chǎn)生了兩個(gè)模型：TwGI-Anole-7b-Obj.（使用中間視覺(jué)子目標(biāo)數(shù)據(jù)集）和TwGI-Anole-7b-Crit.（使用自我批評(píng)視覺(jué)假設(shè)數(shù)據(jù)集）。

四、實(shí)驗(yàn)結(jié)果：AI的視覺(jué)思維能力有多強(qiáng)？

研究團(tuán)隊(duì)在GenEval和DPGBench這兩個(gè)標(biāo)準(zhǔn)圖像生成基準(zhǔn)上評(píng)估了他們的方法。結(jié)果令人印象深刻——"用生成圖像思考"的方法在處理復(fù)雜多物體場(chǎng)景時(shí)取得了顯著改進(jìn)，相對(duì)基線(xiàn)方法提高了高達(dá)50%（從38%到57%）的性能。

具體來(lái)看，在GenEval基準(zhǔn)測(cè)試中，TwGI-Anole-7b-Obj.模型在"兩個(gè)物體"類(lèi)別中顯著優(yōu)于基線(xiàn)Anole-7b模型（0.57對(duì)比0.38），表明其處理涉及多個(gè)實(shí)體的復(fù)雜提示的能力有所提高。它在位置和顏色屬性對(duì)齊方面也顯示出顯著改進(jìn)，表明其進(jìn)行精確空間和視覺(jué)組合推理的能力更強(qiáng)。

同樣，在DPGBench上，TwGI-Anole-7b-Obj.在"實(shí)體"、"屬性"和"關(guān)系"類(lèi)別中取得了實(shí)質(zhì)性的改進(jìn)，反映了其對(duì)細(xì)粒度視覺(jué)語(yǔ)義的增強(qiáng)理解。這些改進(jìn)驗(yàn)證了研究團(tuán)隊(duì)的假設(shè)：將視覺(jué)任務(wù)分解為中間子目標(biāo)使LMMs能夠更系統(tǒng)地推理并生成更高質(zhì)量的輸出。

更令人驚訝的是，通過(guò)"帶自我批評(píng)的視覺(jué)生成"，模型能夠糾正和改進(jìn)自己的視覺(jué)假設(shè)。例如，TwGI-Anole-7b-Crit.模型在自我批評(píng)步驟后實(shí)現(xiàn)了顯著的性能提升，將整體GenEval分?jǐn)?shù)從0.45提高到0.48，DPGBench分?jǐn)?shù)從62.83提高到67.14。這表明，通過(guò)文本推理鏈基于視覺(jué)反饋內(nèi)省地分析生成的圖像的能力，使模型能夠識(shí)別不匹配、幻覺(jué)或缺失元素，并隨后糾正它們。

這種視覺(jué)反饋循環(huán)反映了一種模態(tài)間協(xié)同作用，其中視覺(jué)和文本模態(tài)相互迭代引導(dǎo)，就像人類(lèi)在解決復(fù)雜問(wèn)題時(shí)的思維過(guò)程一樣。

五、未來(lái)展望與局限性

雖然"用生成圖像思考"展示了令人興奮的潛力，但研究團(tuán)隊(duì)也坦誠(chéng)地指出了當(dāng)前方法的局限性。首先，當(dāng)前實(shí)現(xiàn)是基于Anole-7b模型的，而統(tǒng)一LMMs領(lǐng)域（特別是在開(kāi)源領(lǐng)域）仍處于發(fā)展階段。隨著更強(qiáng)大的統(tǒng)一LMMs的出現(xiàn)，研究團(tuán)隊(duì)預(yù)計(jì)"用生成圖像思考"范式將釋放更強(qiáng)大甚至是涌現(xiàn)的能力。

其次，雖然本研究專(zhuān)注于自回歸下一個(gè)token預(yù)測(cè)的LMMs，但核心理念可能適用于基于擴(kuò)散的LMMs或混合自回歸/擴(kuò)散的LMMs。這些架構(gòu)上的探索留待未來(lái)研究。

研究團(tuán)隊(duì)還提出了幾個(gè)有前景的未來(lái)研究方向：

1. 更好的基準(zhǔn)測(cè)試："用生成圖像思考"。當(dāng)前的視覺(jué)生成基準(zhǔn)測(cè)試專(zhuān)注于標(biāo)準(zhǔn)圖像生成任務(wù)，但隨著LMMs固有能力的增強(qiáng)和涌現(xiàn)能力的出現(xiàn)，像圖1和圖2中所示的真實(shí)世界任務(wù)將變得越來(lái)越可行。需要更現(xiàn)實(shí)的基準(zhǔn)來(lái)評(píng)估這些模型。

2. 統(tǒng)一LMMs的測(cè)試時(shí)和后訓(xùn)練擴(kuò)展：本研究代表了統(tǒng)一LMMs測(cè)試時(shí)擴(kuò)展的第一步。隨著更強(qiáng)大的統(tǒng)一LMMs的出現(xiàn)，測(cè)試時(shí)擴(kuò)展和后訓(xùn)練擴(kuò)展將變得更加可行、有效，值得進(jìn)一步探索。

3. LMMs的高效視覺(jué)表示：高效的視覺(jué)表示對(duì)于在視覺(jué)模態(tài)中實(shí)現(xiàn)可擴(kuò)展的測(cè)試時(shí)和后訓(xùn)練擴(kuò)展至關(guān)重要。最近的研究表明，圖像可以用少至32甚至16個(gè)token/patch有效表示，這一研究方向在未來(lái)有巨大潛力。

六、"用生成圖像思考"的現(xiàn)實(shí)應(yīng)用前景

"用生成圖像思考"范式為AI系統(tǒng)在各種真實(shí)世界應(yīng)用中開(kāi)啟了變革性的可能性。從生物化學(xué)家探索新型蛋白質(zhì)結(jié)構(gòu)，建筑師迭代空間設(shè)計(jì)，到法醫(yī)分析師重建犯罪現(xiàn)場(chǎng)，以及籃球運(yùn)動(dòng)員設(shè)想戰(zhàn)術(shù)打法，這種方法使AI模型能夠參與一種視覺(jué)想象和迭代改進(jìn)的過(guò)程，這種過(guò)程體現(xiàn)了人類(lèi)創(chuàng)造性、分析性和戰(zhàn)略性思維的特點(diǎn)。

例如，在醫(yī)學(xué)研究領(lǐng)域，科學(xué)家可以利用這種能力來(lái)探索新的分子結(jié)構(gòu)，通過(guò)讓AI不斷生成和改進(jìn)可能的分子構(gòu)型，幫助發(fā)現(xiàn)新的藥物治療方法。在建筑設(shè)計(jì)中，專(zhuān)業(yè)人士可以與AI協(xié)作，通過(guò)視覺(jué)迭代優(yōu)化建筑空間的光線(xiàn)、功能和美學(xué)特性。在刑事偵查中，這種技術(shù)可以幫助重建事件序列，基于有限的證據(jù)生成可能的場(chǎng)景，并通過(guò)批判性思考識(shí)別最合理的解釋。

最令人興奮的是，隨著統(tǒng)一LMMs能力的不斷增強(qiáng)，我們可以預(yù)見(jiàn)未來(lái)的AI模型將能夠像人類(lèi)一樣自然地探索蛋白質(zhì)結(jié)構(gòu)或修改建筑設(shè)計(jì)——就像寫(xiě)一首詩(shī)那樣直觀(guān)和流暢。這種能力將徹底改變專(zhuān)業(yè)人士與AI系統(tǒng)的交互方式，使創(chuàng)造性和分析性任務(wù)變得更加高效和創(chuàng)新。

七、結(jié)語(yǔ)：多模態(tài)思維的新時(shí)代

"用生成圖像思考"的研究為我們展示了AI系統(tǒng)如何逐漸接近人類(lèi)的多模態(tài)認(rèn)知能力。通過(guò)使AI能夠在文本和視覺(jué)之間自然地思考，這項(xiàng)工作不僅提高了模型處理復(fù)雜視覺(jué)生成任務(wù)的能力，還為未來(lái)AI系統(tǒng)如何解決需要視覺(jué)推理和創(chuàng)造力的問(wèn)題提供了一個(gè)框架。

正如人類(lèi)在面對(duì)復(fù)雜問(wèn)題時(shí)自然地利用多種思維模式一樣，這項(xiàng)研究表明，AI系統(tǒng)也能受益于整合多種模態(tài)的思維能力。雖然當(dāng)前的實(shí)現(xiàn)主要專(zhuān)注于文本和視覺(jué)模態(tài)，但核心理念可以擴(kuò)展到更多樣化的模態(tài)，如音頻、觸覺(jué)或三維空間表示。

隨著統(tǒng)一LMMs技術(shù)的不斷發(fā)展和成熟，我們可以期待未來(lái)的AI系統(tǒng)將能夠更加流暢地在多種模態(tài)間思考，從而解決當(dāng)前AI仍然難以應(yīng)對(duì)的復(fù)雜任務(wù)，如直觀(guān)物理理解、長(zhǎng)期規(guī)劃和創(chuàng)造性設(shè)計(jì)。這項(xiàng)研究不僅為多模態(tài)認(rèn)知和復(fù)雜視覺(jué)推理任務(wù)的未來(lái)研究奠定了基礎(chǔ)，也為人工智能與人類(lèi)思維方式更加接近的未來(lái)描繪了令人興奮的藍(lán)圖。

如果你對(duì)這項(xiàng)研究感興趣，可以通過(guò)GitHub（https://github.com/GAIR-NLP/thinking-with-generated-images）訪(fǎng)問(wèn)研究團(tuán)隊(duì)的開(kāi)源代碼，或查閱原始論文以了解更多技術(shù)細(xì)節(jié)。

人工智能多模態(tài)學(xué)習(xí)視覺(jué)生成

分享至

0贊

好文章，需要你的鼓勵(lì)

推薦文章

音頻生成
大語(yǔ)言模型
多模態(tài)AI

2025-09-10 09:47

如何讓AI像電影配樂(lè)師一樣創(chuàng)作完整的長(zhǎng)篇音頻故事——騰訊ARC實(shí)驗(yàn)室團(tuán)隊(duì)AudioStory突破性進(jìn)展

騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng)，首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長(zhǎng)篇音頻故事。該系統(tǒng)結(jié)合大語(yǔ)言模型的敘事推理能力與音頻生成技術(shù)，通過(guò)交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練，能夠?qū)?fù)雜指令分解為連續(xù)音頻場(chǎng)景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異，為AI音頻創(chuàng)作開(kāi)辟新方向。
視頻生成
深度學(xué)習(xí)
多模態(tài)學(xué)習(xí)

2025-09-09 13:57

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動(dòng)起來(lái)不再是奢望

Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù)，通過(guò)讓AI同時(shí)學(xué)習(xí)外觀(guān)和運(yùn)動(dòng)信息，顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問(wèn)題。該技術(shù)僅需添加兩個(gè)線(xiàn)性層就能大幅提升運(yùn)動(dòng)質(zhì)量，在多項(xiàng)測(cè)試中超越包括Sora在內(nèi)的商業(yè)模型，為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
多模態(tài)AI
人類(lèi)價(jià)值觀(guān)對(duì)齊
數(shù)據(jù)集構(gòu)建

2025-09-09 13:56

上海AI實(shí)驗(yàn)室重磅發(fā)布：讓AI看圖"說(shuō)人話(huà)"的神奇訓(xùn)練法，解決多模態(tài)AI與人類(lèi)價(jià)值觀(guān)對(duì)齊難題

上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究，首次系統(tǒng)性解決多模態(tài)大語(yǔ)言模型人性化對(duì)話(huà)問(wèn)題。該研究創(chuàng)建了包含20萬(wàn)高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評(píng)測(cè)基準(zhǔn)，通過(guò)創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法，讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平，為AI價(jià)值觀(guān)對(duì)齊提供了可行技術(shù)路徑。
人工智能
圖神經(jīng)網(wǎng)絡(luò)
天氣預(yù)報(bào)

2025-09-09 10:56

谷歌研究團(tuán)隊(duì)發(fā)布超級(jí)預(yù)測(cè)模型：讓AI像天氣預(yù)報(bào)員一樣預(yù)測(cè)全球大氣變化

谷歌DeepMind團(tuán)隊(duì)開(kāi)發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測(cè)模型，能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào)，準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù)，通過(guò)學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律，在極端天氣預(yù)測(cè)方面表現(xiàn)卓越，能耗僅為傳統(tǒng)方法的千分之一，為氣象學(xué)領(lǐng)域帶來(lái)了效率和精度的雙重突破。

如何讓AI像電影配樂(lè)師一樣創(chuàng)作完整的長(zhǎng)篇音頻故事——騰訊ARC實(shí)驗(yàn)室團(tuán)隊(duì)AudioStory突破性進(jìn)展

如何讓AI像電影配樂(lè)師一樣創(chuàng)作完整的長(zhǎng)篇音頻故事——騰訊ARC實(shí)驗(yàn)室團(tuán)隊(duì)AudioStory突破性進(jìn)展

2025-09-10 09:47

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動(dòng)起來(lái)不再是奢望

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動(dòng)起來(lái)不再是奢望

2025-09-09 13:57

上海AI實(shí)驗(yàn)室重磅發(fā)布：讓AI看圖"說(shuō)人話(huà)"的神奇訓(xùn)練法，解決多模態(tài)AI與人類(lèi)價(jià)值觀(guān)對(duì)齊難題

上海AI實(shí)驗(yàn)室重磅發(fā)布：讓AI看圖"說(shuō)人話(huà)"的神奇訓(xùn)練法，解決多模態(tài)AI與人類(lèi)價(jià)值觀(guān)對(duì)齊難題

2025-09-09 13:56

谷歌研究團(tuán)隊(duì)發(fā)布超級(jí)預(yù)測(cè)模型：讓AI像天氣預(yù)報(bào)員一樣預(yù)測(cè)全球大氣變化

谷歌研究團(tuán)隊(duì)發(fā)布超級(jí)預(yù)測(cè)模型：讓AI像天氣預(yù)報(bào)員一樣預(yù)測(cè)全球大氣變化

2025-09-09 10:56

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

友情鏈接

至頂網(wǎng)
管理現(xiàn)代化
和訊IT
TechWeb
第三媒體
速途網(wǎng)
51CTO傳媒
投資界
科技訊
智者新時(shí)代

京ICP證15039648號(hào) 京ICP備15039648號(hào)-9 京公網(wǎng)安備 11010802021500號(hào)

北京第二十六維信息技術(shù)有限公司（至頂網(wǎng)）版權(quán)所有。 | 聯(lián)絡(luò)我們

舉報(bào)電話(huà)：010-62641205　涉未成年人舉報(bào)專(zhuān)線(xiàn)：010-62641208 舉報(bào)郵箱: jubao@zhiding.cn 　網(wǎng)上有害信息舉報(bào)專(zhuān)區(qū)：https://www.12377.cn