av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

<blockquote id="nrwl1"></blockquote>

首頁
對(duì)話創(chuàng)新
對(duì)話科技行者
機(jī)器人新紀(jì)元
AI論文解讀
聯(lián)系我們

微信掃一掃，關(guān)注公眾號(hào)

科技行者
算力行者

見證連接與計(jì)算的「力量」

新一代多模態(tài)AI創(chuàng)意測(cè)試：大模型到底有多"創(chuàng)意"？上海AI實(shí)驗(yàn)室重磅研究揭曉答案

人工智能多模態(tài)大語言模型AI創(chuàng)意基準(zhǔn)測(cè)試

新一代多模態(tài)AI創(chuàng)意測(cè)試：大模型到底有多"創(chuàng)意"？上海AI實(shí)驗(yàn)室重磅研究揭曉答案

作者：科技行者

2025-07-31 11:27

分享至：

上海AI實(shí)驗(yàn)室聯(lián)合多所高校發(fā)布Creation-MMBench，這是首個(gè)專門評(píng)估多模態(tài)AI創(chuàng)意能力的基準(zhǔn)測(cè)試系統(tǒng)。研究通過765個(gè)創(chuàng)意任務(wù)測(cè)試了20個(gè)主流AI模型，發(fā)現(xiàn)商業(yè)模型表現(xiàn)遠(yuǎn)超開源模型，且AI在獲得視覺能力后文字創(chuàng)作能力反而下降。該研究填補(bǔ)了AI創(chuàng)意評(píng)估空白，為未來AI發(fā)展提供重要參考。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-07-31 11:27 ? 科技行者

在人工智能飛速發(fā)展的今天，AI已經(jīng)能夠讀懂圖片、理解語言，甚至與人對(duì)話。但如果讓AI看著一張照片寫詩，或者根據(jù)圖片設(shè)計(jì)海報(bào)文案，它們的表現(xiàn)又如何呢？這個(gè)問題聽起來簡(jiǎn)單，實(shí)際上卻涉及了AI最復(fù)雜的能力之一——創(chuàng)造力。最近，由上海AI實(shí)驗(yàn)室聯(lián)合浙江大學(xué)、同濟(jì)大學(xué)、南京大學(xué)等多所知名高校組成的研究團(tuán)隊(duì)，發(fā)表了一項(xiàng)關(guān)于多模態(tài)大語言模型（MLLMs）創(chuàng)意能力評(píng)估的重磅研究。這項(xiàng)名為"Creation-MMBench"的研究成果發(fā)表于2025年3月，感興趣的讀者可以通過GitHub平臺(tái)（https://github.com/opencompass/Creation-MMBench）獲取完整的研究數(shù)據(jù)和代碼。

從傳統(tǒng)意義上講，創(chuàng)造力一直被視為人類獨(dú)有的天賦。然而，隨著GPT-4、Gemini等大型語言模型的涌現(xiàn)，AI在創(chuàng)作詩歌、撰寫故事、生成創(chuàng)意文案等方面表現(xiàn)出了令人驚嘆的能力。但這些AI模型大多只能處理文字，無法直接"看懂"圖片并基于視覺內(nèi)容進(jìn)行創(chuàng)作。而新一代的多模態(tài)AI模型，比如GPT-4V、Claude等，已經(jīng)能夠同時(shí)理解文字和圖像。那么，當(dāng)這些"多才多藝"的AI面對(duì)需要視覺理解與創(chuàng)意表達(dá)相結(jié)合的任務(wù)時(shí)，它們的表現(xiàn)到底如何呢？

研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)令人意外的現(xiàn)象：盡管現(xiàn)有的AI評(píng)估基準(zhǔn)測(cè)試已經(jīng)非常豐富，涵蓋了數(shù)學(xué)推理、科學(xué)知識(shí)、邏輯分析等各個(gè)方面，但在創(chuàng)意能力評(píng)估這個(gè)領(lǐng)域卻存在著巨大的空白。這就好比我們有各種標(biāo)準(zhǔn)化考試來測(cè)試學(xué)生的數(shù)學(xué)、語文能力，卻沒有專門的測(cè)試來評(píng)估他們的藝術(shù)創(chuàng)作天賦。為了填補(bǔ)這個(gè)空白，研究團(tuán)隊(duì)開發(fā)了Creation-MMBench——一個(gè)專門用于評(píng)估多模態(tài)AI創(chuàng)意能力的全新基準(zhǔn)測(cè)試。

這個(gè)測(cè)試系統(tǒng)的設(shè)計(jì)理念源于心理學(xué)中著名的"智力三元理論"。該理論將人類智力分為三個(gè)主要部分：分析智力（處理信息和解決問題的能力）、實(shí)用智力（在現(xiàn)實(shí)環(huán)境中應(yīng)用知識(shí)的能力）和創(chuàng)造智力（產(chǎn)生新穎且合適解決方案的能力）?，F(xiàn)有的AI測(cè)試主要集中在前兩種智力上，而對(duì)創(chuàng)造智力的評(píng)估嚴(yán)重不足。研究團(tuán)隊(duì)認(rèn)為，這種不平衡的評(píng)估方式無法全面反映AI的真實(shí)能力水平，特別是在日常生活中需要?jiǎng)?chuàng)意思維的場(chǎng)景下。

Creation-MMBench包含了765個(gè)精心設(shè)計(jì)的測(cè)試案例，覆蓋51種不同類型的創(chuàng)意任務(wù)。這些任務(wù)被巧妙地分為四大類別。首先是"文學(xué)寫作"類別，就像讓AI當(dāng)一回詩人或小說家，要求它們根據(jù)圖片內(nèi)容創(chuàng)作詩歌、編寫故事或者設(shè)計(jì)對(duì)話場(chǎng)景。比如，給AI展示一張黃昏時(shí)分的湖邊風(fēng)景照，要求它寫一首表達(dá)寧靜與思考的詩歌。

第二類是"日常功能性寫作"，這類任務(wù)更貼近普通人的生活需求。比如讓AI看著一張美食照片撰寫社交媒體文案，或者根據(jù)獲獎(jiǎng)證書的圖片寫一段朋友圈分享文字。這類任務(wù)考驗(yàn)的是AI能否將視覺信息轉(zhuǎn)化為實(shí)用的日常表達(dá)。

第三類是"專業(yè)功能性寫作"，這要求AI具備特定領(lǐng)域的專業(yè)知識(shí)。例如，讓AI扮演室內(nèi)設(shè)計(jì)師的角色，根據(jù)房屋戶型圖分析空間布局的優(yōu)缺點(diǎn)并提出改進(jìn)建議；或者讓AI作為營養(yǎng)師，根據(jù)一道菜的圖片分析其營養(yǎng)價(jià)值并給出飲食建議。

最后一類是"創(chuàng)意多模態(tài)理解"，這類任務(wù)最為復(fù)雜，要求AI不僅要理解圖片內(nèi)容，還要挖掘其背后的深層含義。比如分析一張廣告海報(bào)的創(chuàng)意策略，或者解釋一個(gè)網(wǎng)絡(luò)表情包的幽默點(diǎn)在哪里。

為了確保測(cè)試的公正性和準(zhǔn)確性，研究團(tuán)隊(duì)沒有采用傳統(tǒng)的標(biāo)準(zhǔn)答案對(duì)比方式，而是開發(fā)了一套基于AI評(píng)判的評(píng)分系統(tǒng)。他們讓GPT-4o充當(dāng)"評(píng)委"，根據(jù)詳細(xì)的評(píng)分標(biāo)準(zhǔn)對(duì)AI生成的創(chuàng)意作品進(jìn)行評(píng)判。這種方法類似于讓經(jīng)驗(yàn)豐富的老師來評(píng)閱學(xué)生的作文——不是簡(jiǎn)單地對(duì)答案，而是從創(chuàng)意性、邏輯性、語言表達(dá)等多個(gè)維度進(jìn)行綜合評(píng)價(jià)。

研究團(tuán)隊(duì)還特別設(shè)計(jì)了兩套評(píng)價(jià)指標(biāo)。一套是"視覺事實(shí)準(zhǔn)確性評(píng)分"，用來檢驗(yàn)AI是否準(zhǔn)確理解了圖片內(nèi)容。另一套是"獎(jiǎng)勵(lì)評(píng)分"，通過將待測(cè)試的AI模型與基準(zhǔn)模型（GPT-4o）進(jìn)行對(duì)比，評(píng)估其創(chuàng)意表現(xiàn)的相對(duì)水平。這就好比在鋼琴比賽中，不僅要看選手是否彈對(duì)了音符，還要評(píng)判其演奏的藝術(shù)表現(xiàn)力。

通過對(duì)20個(gè)主流多模態(tài)AI模型的測(cè)試，研究團(tuán)隊(duì)得出了一些令人深思的結(jié)論。在商業(yè)化的AI模型中，Google的Gemini-2.0-Pro表現(xiàn)最為出色，與OpenAI的GPT-4o水平相當(dāng)，特別是在日常功能性寫作方面表現(xiàn)突出。這兩個(gè)模型就像是班級(jí)里的優(yōu)等生，在各種創(chuàng)意任務(wù)中都顯示出了較強(qiáng)的綜合能力。

然而，開源AI模型的表現(xiàn)則相對(duì)遜色。即使是表現(xiàn)最好的開源模型Qwen2.5-VL-72B，其創(chuàng)意能力也明顯落后于頂級(jí)商業(yè)模型。這種差距就像是校隊(duì)選手與職業(yè)選手之間的區(qū)別——雖然都具備基本技能，但在復(fù)雜任務(wù)的處理上還有明顯差距。

更有趣的是，研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)意想不到的現(xiàn)象：當(dāng)AI模型經(jīng)過視覺訓(xùn)練以獲得"看圖"能力后，它們?cè)镜奈淖謩?chuàng)作能力竟然會(huì)有所下降。這種現(xiàn)象被稱為"視覺指令調(diào)優(yōu)的負(fù)面影響"。為了驗(yàn)證這一發(fā)現(xiàn)，研究團(tuán)隊(duì)創(chuàng)建了Creation-MMBench-TO，這是一個(gè)純文字版本的測(cè)試，其中圖片被替換為詳細(xì)的文字描述。

結(jié)果顯示，當(dāng)移除視覺輸入改用文字描述時(shí)，大部分多模態(tài)AI模型的創(chuàng)意表現(xiàn)都有所提升。這個(gè)發(fā)現(xiàn)類似于發(fā)現(xiàn)某些學(xué)生在聽課時(shí)比看書學(xué)得更好——不同的信息輸入方式會(huì)影響AI的創(chuàng)意表達(dá)能力。這一現(xiàn)象提醒我們，在追求AI多功能化的同時(shí)，也要關(guān)注不同能力之間可能存在的相互影響。

在不同類型的創(chuàng)意任務(wù)中，AI模型的表現(xiàn)也呈現(xiàn)出明顯的差異。專業(yè)功能性寫作任務(wù)對(duì)所有模型來說都是最大的挑戰(zhàn)，這類任務(wù)不僅需要?jiǎng)?chuàng)意思維，還需要深厚的專業(yè)知識(shí)儲(chǔ)備。相比之下，日常功能性寫作任務(wù)的表現(xiàn)最好，這可能是因?yàn)檫@類任務(wù)更接近AI在訓(xùn)練過程中接觸到的常見文本類型。

為了驗(yàn)證測(cè)試結(jié)果的可靠性，研究團(tuán)隊(duì)還進(jìn)行了人類評(píng)估實(shí)驗(yàn)。他們邀請(qǐng)志愿者對(duì)部分AI生成的創(chuàng)意作品進(jìn)行評(píng)判，并將結(jié)果與AI評(píng)委的判斷進(jìn)行對(duì)比。結(jié)果顯示，GPT-4o作為評(píng)委的判斷與人類評(píng)價(jià)者的意見具有較高的一致性，這證明了評(píng)估方法的有效性。

這項(xiàng)研究的價(jià)值不僅在于揭示了當(dāng)前AI模型在創(chuàng)意能力方面的現(xiàn)狀，更重要的是為未來的AI發(fā)展指明了方向。研究結(jié)果表明，雖然AI在某些創(chuàng)意任務(wù)上已經(jīng)表現(xiàn)不錯(cuò)，但在需要深度專業(yè)知識(shí)支撐的復(fù)雜創(chuàng)意任務(wù)中，還有很大的提升空間。這就好比AI現(xiàn)在能夠?qū)懗霾诲e(cuò)的日記和簡(jiǎn)單故事，但要?jiǎng)?chuàng)作出深刻的學(xué)術(shù)論文或?qū)I(yè)技術(shù)文檔，還需要進(jìn)一步的發(fā)展。

研究團(tuán)隊(duì)還發(fā)現(xiàn)，當(dāng)前的開源AI模型與商業(yè)模型之間存在顯著的創(chuàng)意能力差距。這種差距不僅體現(xiàn)在技術(shù)實(shí)現(xiàn)上，也反映了數(shù)據(jù)資源、訓(xùn)練方法和計(jì)算能力等方面的綜合差異。這個(gè)發(fā)現(xiàn)對(duì)AI技術(shù)的普及和應(yīng)用具有重要意義——它提醒我們，真正高質(zhì)量的AI創(chuàng)意能力可能仍然掌握在少數(shù)技術(shù)領(lǐng)先的公司手中。

對(duì)于普通用戶而言，這項(xiàng)研究的結(jié)果具有很強(qiáng)的實(shí)用價(jià)值。當(dāng)我們?cè)谶x擇AI工具來協(xié)助創(chuàng)意工作時(shí)，可以根據(jù)具體需求來選擇合適的模型。如果需要處理日常的文案寫作或社交媒體內(nèi)容創(chuàng)作，目前的主流AI模型已經(jīng)能夠提供相當(dāng)不錯(cuò)的幫助。但如果涉及專業(yè)領(lǐng)域的創(chuàng)意工作，比如市場(chǎng)營銷策略設(shè)計(jì)或技術(shù)文檔撰寫，可能還需要更多的人工干預(yù)和專業(yè)指導(dǎo)。

展望未來，這項(xiàng)研究為AI創(chuàng)意能力的發(fā)展提供了重要的參考基準(zhǔn)。隨著技術(shù)的不斷進(jìn)步，我們可以期待AI在創(chuàng)意領(lǐng)域的表現(xiàn)會(huì)越來越好。但同時(shí)也要認(rèn)識(shí)到，創(chuàng)意不僅僅是技術(shù)問題，它還涉及文化背景、情感表達(dá)、審美判斷等復(fù)雜因素。真正的創(chuàng)意AI不僅要學(xué)會(huì)模仿人類的創(chuàng)作模式，更要發(fā)展出自己獨(dú)特的"創(chuàng)意風(fēng)格"。

說到底，這項(xiàng)研究為我們揭示了AI創(chuàng)意能力發(fā)展的現(xiàn)狀和挑戰(zhàn)。雖然AI在某些創(chuàng)意任務(wù)上已經(jīng)展現(xiàn)出令人印象深刻的能力，但距離真正的創(chuàng)意專家還有一段路要走。歸根結(jié)底，AI的創(chuàng)意能力正在快速發(fā)展，但在復(fù)雜的專業(yè)創(chuàng)意任務(wù)中，人類的經(jīng)驗(yàn)、直覺和專業(yè)判斷依然不可替代。這個(gè)發(fā)現(xiàn)既讓我們對(duì)AI的潛力感到興奮，也提醒我們?cè)谙硎蹵I便利的同時(shí)，不要忽視人類創(chuàng)意思維的獨(dú)特價(jià)值。對(duì)于有興趣深入了解這項(xiàng)研究的讀者，可以訪問GitHub平臺(tái)獲取完整的研究數(shù)據(jù)和評(píng)估代碼，親自體驗(yàn)這套創(chuàng)意能力測(cè)試系統(tǒng)。

Q&A

Q1：Creation-MMBench是什么？它有什么特別之處？ A：Creation-MMBench是專門評(píng)估多模態(tài)AI創(chuàng)意能力的測(cè)試系統(tǒng)，包含765個(gè)創(chuàng)意任務(wù)。它的特別之處在于這是首個(gè)專門測(cè)試AI"看圖創(chuàng)作"能力的基準(zhǔn)，填補(bǔ)了AI創(chuàng)意評(píng)估的空白，就像為AI設(shè)計(jì)的"創(chuàng)意高考"。

Q2：為什么AI學(xué)會(huì)看圖后文字創(chuàng)作能力會(huì)下降？ A：研究發(fā)現(xiàn)這種現(xiàn)象叫"視覺指令調(diào)優(yōu)的負(fù)面影響"。當(dāng)AI同時(shí)學(xué)習(xí)處理圖像和文字時(shí)，兩種能力之間會(huì)產(chǎn)生競(jìng)爭(zhēng)，就像一個(gè)人同時(shí)學(xué)多種技能時(shí)可能會(huì)相互干擾，需要在不同能力間找到平衡點(diǎn)。

Q3：普通人如何利用這項(xiàng)研究成果選擇AI工具？ A：根據(jù)研究結(jié)果，如果你需要日常文案寫作或社交媒體內(nèi)容，主流AI已經(jīng)很好用；但如果涉及專業(yè)領(lǐng)域創(chuàng)意工作，最好選擇頂級(jí)商業(yè)模型如GPT-4或Gemini，并做好人工審核和調(diào)整的準(zhǔn)備。

人工智能多模態(tài)大語言模型AI創(chuàng)意基準(zhǔn)測(cè)試

分享至

0贊

好文章，需要你的鼓勵(lì)

推薦文章

音頻生成
大語言模型
多模態(tài)AI

2025-09-10 09:47

如何讓AI像電影配樂師一樣創(chuàng)作完整的長篇音頻故事——騰訊ARC實(shí)驗(yàn)室團(tuán)隊(duì)AudioStory突破性進(jìn)展

騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng)，首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù)，通過交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練，能夠?qū)?fù)雜指令分解為連續(xù)音頻場(chǎng)景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異，為AI音頻創(chuàng)作開辟新方向。
視頻生成
深度學(xué)習(xí)
多模態(tài)學(xué)習(xí)

2025-09-09 13:57

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動(dòng)起來不再是奢望

Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù)，通過讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息，顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量，在多項(xiàng)測(cè)試中超越包括Sora在內(nèi)的商業(yè)模型，為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
多模態(tài)AI
人類價(jià)值觀對(duì)齊
數(shù)據(jù)集構(gòu)建

2025-09-09 13:56

上海AI實(shí)驗(yàn)室重磅發(fā)布：讓AI看圖"說人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類價(jià)值觀對(duì)齊難題

上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究，首次系統(tǒng)性解決多模態(tài)大語言模型人性化對(duì)話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評(píng)測(cè)基準(zhǔn)，通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法，讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平，為AI價(jià)值觀對(duì)齊提供了可行技術(shù)路徑。
人工智能
圖神經(jīng)網(wǎng)絡(luò)
天氣預(yù)報(bào)

2025-09-09 10:56

谷歌研究團(tuán)隊(duì)發(fā)布超級(jí)預(yù)測(cè)模型：讓AI像天氣預(yù)報(bào)員一樣預(yù)測(cè)全球大氣變化

谷歌DeepMind團(tuán)隊(duì)開發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測(cè)模型，能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào)，準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù)，通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律，在極端天氣預(yù)測(cè)方面表現(xiàn)卓越，能耗僅為傳統(tǒng)方法的千分之一，為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。

如何讓AI像電影配樂師一樣創(chuàng)作完整的長篇音頻故事——騰訊ARC實(shí)驗(yàn)室團(tuán)隊(duì)AudioStory突破性進(jìn)展

如何讓AI像電影配樂師一樣創(chuàng)作完整的長篇音頻故事——騰訊ARC實(shí)驗(yàn)室團(tuán)隊(duì)AudioStory突破性進(jìn)展

2025-09-10 09:47

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動(dòng)起來不再是奢望

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動(dòng)起來不再是奢望

2025-09-09 13:57

上海AI實(shí)驗(yàn)室重磅發(fā)布：讓AI看圖"說人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類價(jià)值觀對(duì)齊難題

上海AI實(shí)驗(yàn)室重磅發(fā)布：讓AI看圖"說人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類價(jià)值觀對(duì)齊難題

2025-09-09 13:56

谷歌研究團(tuán)隊(duì)發(fā)布超級(jí)預(yù)測(cè)模型：讓AI像天氣預(yù)報(bào)員一樣預(yù)測(cè)全球大氣變化

谷歌研究團(tuán)隊(duì)發(fā)布超級(jí)預(yù)測(cè)模型：讓AI像天氣預(yù)報(bào)員一樣預(yù)測(cè)全球大氣變化

2025-09-09 10:56

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

友情鏈接

至頂網(wǎng)
管理現(xiàn)代化
和訊IT
TechWeb
第三媒體
速途網(wǎng)
51CTO傳媒
投資界
科技訊
智者新時(shí)代

京ICP證15039648號(hào) 京ICP備15039648號(hào)-9 京公網(wǎng)安備 11010802021500號(hào)

北京第二十六維信息技術(shù)有限公司（至頂網(wǎng)）版權(quán)所有。 | 聯(lián)絡(luò)我們

舉報(bào)電話：010-62641205　涉未成年人舉報(bào)專線：010-62641208 舉報(bào)郵箱: jubao@zhiding.cn 　網(wǎng)上有害信息舉報(bào)專區(qū)：https://www.12377.cn

<ruby id="i6mdp"></ruby>

<blockquote id="i6mdp"><i id="i6mdp"><video id="i6mdp"></video></i></blockquote><sub id="i6mdp"><p id="i6mdp"></p></sub>