這項(xiàng)由復(fù)旦大學(xué)計(jì)算機(jī)科學(xué)學(xué)院奚志恒團(tuán)隊(duì)領(lǐng)導(dǎo)的重要研究成果,于2025年7月4日發(fā)表在計(jì)算機(jī)科學(xué)期刊《arXiv》上(論文編號(hào):2507.03483v1)。該研究匯集了來自復(fù)旦大學(xué)、上海人工智能實(shí)驗(yàn)室、哈爾濱工業(yè)大學(xué)、華東師范大學(xué)、牛津大學(xué)、悉尼大學(xué)等多所知名院校的研究力量。有興趣深入了解的讀者可以通過項(xiàng)目官網(wǎng)https://bmmr.pages.dev/或GitHub代碼庫https://github.com/WooooDyy/BMMR/獲取完整論文和相關(guān)資源。
要理解這項(xiàng)研究的重要性,我們不妨從一個(gè)簡單的例子開始。當(dāng)你問一個(gè)擅長數(shù)學(xué)的AI"2+3等于幾"時(shí),它能立刻給出正確答案。但如果你拿出一張古代建筑的照片,詢問"這種建筑風(fēng)格體現(xiàn)了什么文化特征",或者展示一個(gè)生物實(shí)驗(yàn)圖,問"這個(gè)實(shí)驗(yàn)說明了什么生物學(xué)原理",很多AI就開始"抓瞎"了。這就像一個(gè)偏科嚴(yán)重的學(xué)生,數(shù)學(xué)滿分,但其他科目卻表現(xiàn)平平。
當(dāng)前的大型多模態(tài)模型雖然在數(shù)學(xué)推理方面表現(xiàn)出色,但在面對(duì)跨學(xué)科的復(fù)雜問題時(shí)卻經(jīng)常"力不從心"。正如我們在日常生活中會(huì)遇到需要同時(shí)運(yùn)用物理、化學(xué)、歷史、地理等多學(xué)科知識(shí)的問題一樣,AI也需要具備這樣的"通識(shí)教育"能力。然而,現(xiàn)有的訓(xùn)練數(shù)據(jù)和評(píng)估標(biāo)準(zhǔn)主要集中在單一學(xué)科,特別是數(shù)學(xué)領(lǐng)域,這就像讓學(xué)生只做數(shù)學(xué)題而不接觸其他學(xué)科一樣。
復(fù)旦大學(xué)研究團(tuán)隊(duì)正是看到了這個(gè)問題,他們決定為AI打造一個(gè)"全科教育"的訓(xùn)練營。這個(gè)訓(xùn)練營就是BMMR數(shù)據(jù)集,它包含了11萬個(gè)涵蓋300個(gè)不同學(xué)科領(lǐng)域的大學(xué)水平問題。這些問題不是簡單的選擇題,而是需要深度思考、跨模態(tài)理解和專業(yè)知識(shí)的復(fù)合型挑戰(zhàn)。
研究團(tuán)隊(duì)的創(chuàng)新不僅僅在于數(shù)據(jù)規(guī)模的龐大,更在于他們構(gòu)建的評(píng)估體系。他們開發(fā)了一個(gè)名為"BMMR-Verifier"的評(píng)估工具,這個(gè)工具就像一位嚴(yán)格的老師,不僅會(huì)檢查AI給出的最終答案是否正確,還會(huì)逐步檢驗(yàn)AI的思考過程是否合理。這樣的評(píng)估方式能夠有效避免AI"蒙對(duì)答案"的情況,確保它真正掌握了解題的邏輯和方法。
讓這項(xiàng)研究更具實(shí)用價(jià)值的是,BMMR數(shù)據(jù)集支持中英雙語,涵蓋了從健康醫(yī)學(xué)、商業(yè)法律、信息技術(shù)、藝術(shù)人文、農(nóng)業(yè)科學(xué)、社會(huì)科學(xué)、自然科學(xué)到工程建造等八大學(xué)科門類。每個(gè)問題都配有詳細(xì)的推理過程說明,就像給學(xué)生提供了完整的解題思路。
在對(duì)24個(gè)不同AI模型的測試中,研究結(jié)果令人深思。即使是目前最先進(jìn)的AI模型,在這個(gè)全學(xué)科挑戰(zhàn)中的表現(xiàn)也遠(yuǎn)不如它們在單一學(xué)科中的表現(xiàn)出色。這個(gè)發(fā)現(xiàn)就像讓我們意識(shí)到,即使是最聰明的"偏科生",在面對(duì)全面發(fā)展的要求時(shí)也需要更多的努力和訓(xùn)練。
一、構(gòu)建AI的"全科教育"體系
傳統(tǒng)的AI訓(xùn)練就像讓學(xué)生專攻一門課程,雖然能在該領(lǐng)域達(dá)到很高水平,但缺乏跨學(xué)科的綜合能力。BMMR數(shù)據(jù)集的誕生就是為了改變這種現(xiàn)狀,為AI提供一個(gè)全面的"通識(shí)教育"環(huán)境。
這個(gè)數(shù)據(jù)集的構(gòu)建過程相當(dāng)嚴(yán)謹(jǐn),研究團(tuán)隊(duì)采用了聯(lián)合國教科文組織(UNESCO)制定的學(xué)科分類標(biāo)準(zhǔn)作為藍(lán)圖。這個(gè)標(biāo)準(zhǔn)就像教育界的"世界地圖",將人類知識(shí)按照層次分為四個(gè)級(jí)別:最頂層包含8個(gè)主要學(xué)科門類,第二層細(xì)分為16個(gè)子學(xué)科,第三層擴(kuò)展到40個(gè)分支,最底層則涵蓋了超過300個(gè)具體的專業(yè)領(lǐng)域。
數(shù)據(jù)收集的過程就像組建一個(gè)龐大的圖書館。研究團(tuán)隊(duì)從各種來源搜集材料,包括紙質(zhì)教材、在線課程、考試題庫等。最初收集的數(shù)據(jù)超過200萬條,涉及29種不同類型的圖像內(nèi)容。但研究團(tuán)隊(duì)并沒有簡單地將這些材料堆砌在一起,而是設(shè)計(jì)了一套精密的篩選和處理流程。
這套流程的第一步是確保問題和答案的完整性。就像檢查拼圖是否缺少重要碎片一樣,系統(tǒng)會(huì)自動(dòng)識(shí)別那些信息不完整或者答案模糊的問題,并將它們剔除。接下來是學(xué)科分類和標(biāo)記階段,系統(tǒng)會(huì)像圖書管理員一樣,將每個(gè)問題準(zhǔn)確地歸類到相應(yīng)的學(xué)科分支中。
安全性和客觀性檢查是另一個(gè)重要環(huán)節(jié)。系統(tǒng)會(huì)識(shí)別并排除那些可能涉及個(gè)人偏見或敏感話題的內(nèi)容,確保最終的數(shù)據(jù)集能夠客觀公正地評(píng)估AI的能力。同時(shí),為了確保問題具有足夠的挑戰(zhàn)性,系統(tǒng)還會(huì)通過多輪驗(yàn)證來篩選那些需要多步推理和專業(yè)知識(shí)的復(fù)雜問題。
在數(shù)據(jù)轉(zhuǎn)換和增強(qiáng)階段,研究團(tuán)隊(duì)做了一個(gè)重要決定:不簡單地將所有問題都轉(zhuǎn)換為選擇題。選擇題雖然便于評(píng)分,但可能降低問題的難度,讓AI通過猜測獲得正確答案。因此,他們保留了多種題型,包括填空題和開放性問答,同時(shí)還創(chuàng)建了"事實(shí)驗(yàn)證"任務(wù),要求AI對(duì)相關(guān)陳述的正確性進(jìn)行判斷并給出理由。
最后的質(zhì)量控制階段采用了"級(jí)聯(lián)驗(yàn)證"策略。系統(tǒng)會(huì)讓不同能力水平的AI模型對(duì)同一問題進(jìn)行多次嘗試,通過分析它們的一致性來判斷問題的質(zhì)量。那些過于簡單(所有模型都答對(duì))或過于困難(所有模型都答錯(cuò))的問題會(huì)被進(jìn)一步審查。對(duì)于仍然存在爭議的問題,研究團(tuán)隊(duì)還邀請(qǐng)了40位來自不同學(xué)科背景的專家進(jìn)行人工驗(yàn)證。
經(jīng)過這一系列嚴(yán)格的處理,最終的BMMR數(shù)據(jù)集被分為兩個(gè)部分:包含約2萬個(gè)問題的評(píng)估集(BMMR-Eval)和包含約8.9萬個(gè)問題的訓(xùn)練集(BMMR-Train)。評(píng)估集主要用于測試AI的綜合能力,而訓(xùn)練集則為AI的"全科教育"提供豐富的學(xué)習(xí)材料。
二、打造AI的"嚴(yán)格考官"
單純檢查AI給出的最終答案是否正確,就像只看學(xué)生的考試成績而不關(guān)心他們的解題過程一樣,往往無法真正反映其能力水平。一個(gè)學(xué)生可能通過死記硬背或運(yùn)氣得到正確答案,但這并不意味著他真正理解了相關(guān)知識(shí)。同樣,AI也可能通過某種"技巧"得出正確結(jié)果,而非真正掌握推理邏輯。
為了解決這個(gè)問題,研究團(tuán)隊(duì)開發(fā)了BMMR-Verifier,這是一個(gè)專門用于評(píng)估AI推理過程的工具。這個(gè)工具就像一位經(jīng)驗(yàn)豐富的老師,不僅會(huì)看學(xué)生的答案是否正確,還會(huì)仔細(xì)檢查每一個(gè)推理步驟是否合理、邏輯是否清晰。
BMMR-Verifier的工作原理相當(dāng)精巧。當(dāng)AI面對(duì)一個(gè)問題時(shí),它需要展示完整的思考過程,就像學(xué)生解數(shù)學(xué)題時(shí)需要寫出詳細(xì)的解題步驟一樣。Verifier會(huì)逐步分析這些推理過程,對(duì)每個(gè)步驟給出"正確"、"錯(cuò)誤"或"無法驗(yàn)證"的評(píng)價(jià)。
這個(gè)評(píng)估工具的訓(xùn)練過程也很有趣。研究團(tuán)隊(duì)首先收集了14萬個(gè)問題的回答樣本,這些樣本來自不同能力水平的AI模型。對(duì)于每個(gè)問題,系統(tǒng)會(huì)生成32個(gè)不同的回答版本,然后通過規(guī)則檢查來判斷這些回答的正確性。這個(gè)過程就像讓很多學(xué)生做同一道題,然后分析哪些解法是正確的,哪些是錯(cuò)誤的。
接下來,系統(tǒng)會(huì)對(duì)每個(gè)推理步驟進(jìn)行標(biāo)記。正確的步驟會(huì)被標(biāo)記為"+",錯(cuò)誤的步驟會(huì)被標(biāo)記為"-"。通過這種方式,Verifier學(xué)會(huì)了如何識(shí)別推理過程中的問題所在。這就像訓(xùn)練一位老師學(xué)會(huì)發(fā)現(xiàn)學(xué)生在解題過程中的常見錯(cuò)誤。
在實(shí)際應(yīng)用中,BMMR-Verifier可以給出非常細(xì)致的反饋。它不僅能指出AI的答案是否正確,還能告訴我們AI在推理過程的哪個(gè)環(huán)節(jié)出現(xiàn)了問題。這種詳細(xì)的分析對(duì)于改進(jìn)AI的推理能力具有重要價(jià)值。
為了驗(yàn)證這個(gè)評(píng)估工具的可靠性,研究團(tuán)隊(duì)進(jìn)行了一系列對(duì)比實(shí)驗(yàn)。他們讓GPT-4o和人類專家對(duì)同一批推理過程進(jìn)行評(píng)估,然后將結(jié)果與BMMR-Verifier的評(píng)估進(jìn)行對(duì)比。結(jié)果顯示,BMMR-Verifier與GPT-4o的一致性達(dá)到了91.67%,與人類專家的一致性更是高達(dá)95%。這說明這個(gè)工具確實(shí)能夠準(zhǔn)確評(píng)估AI的推理質(zhì)量。
三、揭示AI的"成績單"
當(dāng)研究團(tuán)隊(duì)用BMMR數(shù)據(jù)集對(duì)24個(gè)不同的AI模型進(jìn)行測試時(shí),結(jié)果既在意料之中,又讓人深思。就像讓一群專攻不同學(xué)科的學(xué)生參加綜合性考試一樣,這些AI模型在面對(duì)跨學(xué)科挑戰(zhàn)時(shí)表現(xiàn)出了明顯的"偏科"現(xiàn)象。
最引人注目的發(fā)現(xiàn)是,即使是目前最先進(jìn)的AI模型,在這個(gè)全學(xué)科挑戰(zhàn)中的表現(xiàn)也遠(yuǎn)不如人們期待的那樣。以O(shè)penAI的o3模型為例,這個(gè)被譽(yù)為推理能力極強(qiáng)的模型在BMMR測試中只取得了38.06分的成績。Google的Gemini-2.5-Pro表現(xiàn)稍好一些,獲得了50.15分,但距離人類專家的水平仍有很大差距。
這些結(jié)果就像給AI界敲響了警鐘。在數(shù)學(xué)等單一學(xué)科中表現(xiàn)出色的模型,在面對(duì)需要綜合運(yùn)用多學(xué)科知識(shí)的問題時(shí),往往顯得力不從心。這種現(xiàn)象反映了當(dāng)前AI發(fā)展中的一個(gè)重要問題:過度專業(yè)化可能會(huì)限制AI的通用性。
更有趣的是不同模型在各學(xué)科間的表現(xiàn)差異。一些被稱為"推理模型"的AI在某些技術(shù)性學(xué)科(如信息技術(shù)、工程學(xué))中確實(shí)表現(xiàn)優(yōu)異,但在人文社科領(lǐng)域卻表現(xiàn)平平。例如,o3模型在信息通信技術(shù)領(lǐng)域能達(dá)到63.89分,但在健康醫(yī)學(xué)領(lǐng)域卻只有27.78分。這種巨大的差異說明,不同類型的推理任務(wù)對(duì)AI來說難度是不同的。
開源模型與商業(yè)模型之間的差距也很明顯。最好的開源模型Qwen2.5-VL-72B的總分為38.22分,而最好的商業(yè)模型Gemini-2.5-Pro則達(dá)到了50.15分。不過,這個(gè)差距并非不可逾越。當(dāng)研究團(tuán)隊(duì)使用BMMR訓(xùn)練集對(duì)開源模型進(jìn)行訓(xùn)練后,它們的表現(xiàn)有了顯著提升。
語言能力方面,大多數(shù)模型在中文和英文任務(wù)上的表現(xiàn)相對(duì)均衡,這說明當(dāng)前的多語言訓(xùn)練技術(shù)已經(jīng)相當(dāng)成熟。但仍有少數(shù)模型存在明顯的語言偏好,比如Phi-4-multimodal在英文任務(wù)上得18.84分,但中文任務(wù)只有8.78分。
思維鏈推理(讓AI展示完整思考過程)對(duì)提升表現(xiàn)起到了重要作用。當(dāng)AI被要求展示詳細(xì)的推理步驟時(shí),它們的表現(xiàn)普遍有所改善,特別是那些專門為推理優(yōu)化的模型。這個(gè)發(fā)現(xiàn)強(qiáng)調(diào)了透明化思維過程的重要性。
通過BMMR-Verifier的詳細(xì)分析,研究團(tuán)隊(duì)還發(fā)現(xiàn)了AI推理中的一些有趣模式。表現(xiàn)更好的模型往往在推理步驟的質(zhì)量分布上更加均衡,而表現(xiàn)較差的模型則容易在某些推理環(huán)節(jié)出現(xiàn)系統(tǒng)性錯(cuò)誤。
四、AI學(xué)習(xí)的"提升之路"
為了驗(yàn)證BMMR數(shù)據(jù)集的訓(xùn)練價(jià)值,研究團(tuán)隊(duì)選擇了5個(gè)不同規(guī)模的開源AI模型,使用BMMR-Train進(jìn)行了專門的訓(xùn)練。這個(gè)過程就像讓原本偏科的學(xué)生接受全面的補(bǔ)習(xí)教育,結(jié)果令人鼓舞。
訓(xùn)練后的效果可以說是"立竿見影"。以Qwen2.5-VL-3B模型為例,經(jīng)過BMMR-Train訓(xùn)練后,它在信息通信技術(shù)領(lǐng)域的表現(xiàn)提升了72.28%,這種提升幅度在AI訓(xùn)練中是相當(dāng)罕見的。更令人驚喜的是,經(jīng)過訓(xùn)練的BMMR-InternVL2.5-38B模型竟然在8個(gè)主要學(xué)科中的4個(gè)超越了未經(jīng)訓(xùn)練的更大規(guī)模模型InternVL2.5-78B。這就像一個(gè)經(jīng)過全面訓(xùn)練的中等生在綜合考試中超越了只擅長單科的優(yōu)等生。
不同學(xué)科的提升效果也很有意思。健康醫(yī)學(xué)領(lǐng)域是改進(jìn)最明顯的領(lǐng)域之一,BMMR-InternVL2.5-78B在這個(gè)領(lǐng)域的表現(xiàn)提升了43.34%。這可能是因?yàn)獒t(yī)學(xué)問題往往需要綜合運(yùn)用多種知識(shí),而多學(xué)科訓(xùn)練正好彌補(bǔ)了原有模型在這方面的不足。
訓(xùn)練過程中,研究團(tuán)隊(duì)也發(fā)現(xiàn)了一些有價(jià)值的經(jīng)驗(yàn)。較小的模型(如3B參數(shù)規(guī)模)在某些學(xué)科中的提升幅度甚至超過了大型模型,這說明專門的多學(xué)科訓(xùn)練數(shù)據(jù)可能比單純增加模型規(guī)模更加有效。這個(gè)發(fā)現(xiàn)對(duì)于資源有限的研究團(tuán)隊(duì)來說具有重要意義,它表明通過精心設(shè)計(jì)的訓(xùn)練數(shù)據(jù),較小的模型也能獲得優(yōu)異的跨學(xué)科表現(xiàn)。
另一個(gè)重要發(fā)現(xiàn)是訓(xùn)練的"遷移效應(yīng)"。在某個(gè)學(xué)科中訓(xùn)練得到的能力往往能夠幫助模型在相關(guān)學(xué)科中也取得進(jìn)步。例如,在自然科學(xué)領(lǐng)域的訓(xùn)練不僅提升了模型在物理、化學(xué)方面的表現(xiàn),也間接改善了它在工程學(xué)領(lǐng)域的能力。
五、深入AI的"思維世界"
通過BMMR-Verifier對(duì)AI推理過程的深入分析,研究團(tuán)隊(duì)揭示了AI思維中一些有趣而又令人擔(dān)憂的模式。這些發(fā)現(xiàn)就像心理學(xué)家分析人類思維模式一樣,為我們理解AI的"內(nèi)心世界"提供了珍貴的窗口。
在對(duì)19000個(gè)AI回答樣本的錯(cuò)誤分析中,研究團(tuán)隊(duì)發(fā)現(xiàn)了幾個(gè)主要的問題類型。最常見的錯(cuò)誤是"知識(shí)盲區(qū)",占總錯(cuò)誤的31.9%。這類錯(cuò)誤反映了AI在某些專業(yè)領(lǐng)域知識(shí)儲(chǔ)備的不足,就像一個(gè)學(xué)生遇到了從未學(xué)過的知識(shí)點(diǎn)。第二常見的是"計(jì)算推導(dǎo)錯(cuò)誤",占28.7%,這說明AI在進(jìn)行復(fù)雜的數(shù)學(xué)運(yùn)算或邏輯推導(dǎo)時(shí)仍然容易出錯(cuò)。
更有趣的是"推理錯(cuò)誤"類別,占26.4%。這類錯(cuò)誤往往不是因?yàn)锳I不知道相關(guān)知識(shí),而是在將知識(shí)串聯(lián)起來解決問題時(shí)出現(xiàn)了邏輯漏洞。這就像學(xué)生明明知道所有必要的公式和概念,卻在解題時(shí)走錯(cuò)了方向。
視覺理解錯(cuò)誤雖然只占9.4%,但卻特別值得關(guān)注。在一些需要結(jié)合圖像信息的問題中,AI有時(shí)會(huì)完全忽視圖像內(nèi)容,轉(zhuǎn)而基于自己"想象"的情況進(jìn)行推理。研究團(tuán)隊(duì)展示了一個(gè)典型案例:在一道需要分析函數(shù)圖像的數(shù)學(xué)題中,AI沒有分析給定的圖像,而是自己虛構(gòu)了一個(gè)完全不同的函數(shù),然后基于這個(gè)虛構(gòu)的函數(shù)進(jìn)行計(jì)算。這種"幻覺"現(xiàn)象在AI研究中被稱為"hallucination"。
另一個(gè)發(fā)現(xiàn)是"過度思考"現(xiàn)象。有些AI模型在面對(duì)問題時(shí)會(huì)陷入無休止的思考循環(huán),就像一個(gè)學(xué)生反復(fù)驗(yàn)證自己的答案,最終反而把正確的答案改錯(cuò)了。在一個(gè)案例中,AI最初正確地分析了所有選項(xiàng),但隨后開始反復(fù)質(zhì)疑自己的判斷,最終得出了錯(cuò)誤的結(jié)論。
通過分析不同模型的推理質(zhì)量分布,研究團(tuán)隊(duì)還發(fā)現(xiàn)了一個(gè)有趣的模式:表現(xiàn)優(yōu)秀的模型往往在推理步驟的質(zhì)量上更加穩(wěn)定,很少出現(xiàn)明顯的錯(cuò)誤步驟。而表現(xiàn)較差的模型則容易在推理過程中出現(xiàn)"跳躍",即跳過重要的中間步驟直接得出結(jié)論。
在不同學(xué)科的推理質(zhì)量分析中,研究團(tuán)隊(duì)發(fā)現(xiàn)自然科學(xué)和工程學(xué)領(lǐng)域的問題往往需要更多步驟的嚴(yán)密推理,因此AI在這些領(lǐng)域的推理質(zhì)量分?jǐn)?shù)普遍較低。相比之下,社會(huì)科學(xué)和健康醫(yī)學(xué)領(lǐng)域的問題雖然也需要專業(yè)知識(shí),但推理步驟相對(duì)簡單,AI在這些領(lǐng)域的推理質(zhì)量較高。
六、模型能力的"體檢報(bào)告"
為了更深入地理解影響AI多學(xué)科推理能力的因素,研究團(tuán)隊(duì)對(duì)23個(gè)不同的AI模型進(jìn)行了全面的"體檢"。他們從模型規(guī)模、輸出長度和視覺編碼器三個(gè)維度分析了這些因素與性能之間的關(guān)系,結(jié)果呈現(xiàn)出了一些清晰而有趣的模式。
模型規(guī)模與性能之間的關(guān)系最為明顯。以Qwen2.5-VL系列為例,從3B參數(shù)的小模型到72B參數(shù)的大模型,性能分?jǐn)?shù)從13.57分穩(wěn)步提升到38.22分。這種提升趨勢在多個(gè)模型系列中都能觀察到,說明增加模型規(guī)模確實(shí)是提升AI能力的有效途徑。然而,這種提升并非線性的,隨著模型規(guī)模的增大,邊際收益有遞減的趨勢。
輸出長度(即AI生成回答的詳細(xì)程度)與性能的關(guān)系更加復(fù)雜。一般來說,輸出更詳細(xì)推理過程的模型表現(xiàn)更好,但也有例外。某些模型雖然生成了很長的回答,但性能提升并不明顯,甚至出現(xiàn)了下降。研究團(tuán)隊(duì)將這種現(xiàn)象歸因于"過度思考"問題,即模型在某些簡單問題上進(jìn)行了不必要的復(fù)雜推理,反而增加了出錯(cuò)的概率。
視覺編碼器的參數(shù)量對(duì)模型的多模態(tài)理解能力有重要影響。擁有更強(qiáng)視覺編碼能力的模型在需要分析圖像的問題上表現(xiàn)更好。但有趣的是,在同一個(gè)模型系列中,不同規(guī)模的模型有時(shí)使用相同的視覺編碼器,這時(shí)性能差異主要來自于語言理解和推理能力的不同。
除了這些定量分析,研究團(tuán)隊(duì)還深入研究了一些典型的失敗案例,試圖理解AI在跨學(xué)科推理中面臨的具體挑戰(zhàn)。通過案例分析,他們發(fā)現(xiàn)了兩種主要的錯(cuò)誤模式:過度思考和幻覺現(xiàn)象。
過度思考的案例通常發(fā)生在AI對(duì)自己的判斷過分質(zhì)疑的時(shí)候。在一個(gè)關(guān)于地理和環(huán)境科學(xué)的綜合題目中,AI最初正確地分析了所有選項(xiàng),但隨后開始反復(fù)驗(yàn)證某個(gè)選項(xiàng)的正確性,最終迷失在過度復(fù)雜的推理中,忽略了對(duì)其他選項(xiàng)的檢查。這就像一個(gè)考生在考試中花費(fèi)過多時(shí)間糾結(jié)于某道題,最終影響了整體表現(xiàn)。
幻覺現(xiàn)象則更加令人擔(dān)憂。在一個(gè)需要分析函數(shù)圖像求拐點(diǎn)的數(shù)學(xué)問題中,AI完全忽略了題目提供的函數(shù)圖像,轉(zhuǎn)而基于自己虛構(gòu)的分段函數(shù)進(jìn)行計(jì)算。這種錯(cuò)誤不僅反映了AI在視覺理解方面的不足,更說明了它在整合多模態(tài)信息時(shí)存在嚴(yán)重缺陷。
這些深入分析為改進(jìn)AI模型提供了寶貴的方向。研究結(jié)果表明,未來的AI發(fā)展不應(yīng)該僅僅關(guān)注單一能力的提升,而需要在視覺理解、知識(shí)整合、推理穩(wěn)定性等多個(gè)方面協(xié)調(diào)發(fā)展。
說到底,這項(xiàng)研究最重要的貢獻(xiàn)可能不在于創(chuàng)造了一個(gè)新的數(shù)據(jù)集,而在于它提醒我們:真正智能的AI需要具備跨學(xué)科的綜合能力。當(dāng)前的AI雖然在某些專門領(lǐng)域已經(jīng)達(dá)到甚至超越了人類專家的水平,但在面對(duì)需要綜合運(yùn)用多種知識(shí)的復(fù)雜問題時(shí),仍然有很長的路要走。
BMMR數(shù)據(jù)集的發(fā)布為AI研究社區(qū)提供了一個(gè)重要的工具和標(biāo)準(zhǔn)。它不僅能夠幫助研究者更好地評(píng)估AI的綜合能力,也為訓(xùn)練更加全面的AI模型提供了豐富的資源。更重要的是,它揭示了AI發(fā)展中的一些根本性問題,為未來的研究方向提供了清晰的指引。
對(duì)于普通人來說,這項(xiàng)研究的意義在于它讓我們對(duì)AI的能力有了更加客觀的認(rèn)識(shí)。雖然AI在某些方面已經(jīng)非常強(qiáng)大,但它距離真正的通用人工智能還有相當(dāng)?shù)木嚯x。在可預(yù)見的未來,AI更可能在特定領(lǐng)域發(fā)揮輔助作用,而不是完全替代人類的綜合判斷能力。
這項(xiàng)研究也為教育領(lǐng)域提供了有價(jià)值的啟示。正如AI需要全面的多學(xué)科訓(xùn)練一樣,人類教育也應(yīng)該注重培養(yǎng)跨學(xué)科的綜合能力。在一個(gè)知識(shí)高度分化又高度關(guān)聯(lián)的時(shí)代,能夠整合不同領(lǐng)域知識(shí)解決復(fù)雜問題的能力變得越來越重要。
隨著BMMR數(shù)據(jù)集和相關(guān)工具的公開發(fā)布,我們有理由期待看到更多針對(duì)AI綜合能力的研究和改進(jìn)。這個(gè)數(shù)據(jù)集可能會(huì)成為AI研究中的一個(gè)重要里程碑,推動(dòng)整個(gè)領(lǐng)域向著更加均衡和全面的方向發(fā)展。未來的AI或許能夠真正成為我們在各個(gè)知識(shí)領(lǐng)域的可靠伙伴,而不僅僅是某個(gè)特定領(lǐng)域的專家助手。
Q&A
Q1:BMMR數(shù)據(jù)集與現(xiàn)有的AI評(píng)估標(biāo)準(zhǔn)有什么不同? A:BMMR最大的不同在于它覆蓋了300個(gè)不同學(xué)科領(lǐng)域,而不是專注于單一學(xué)科如數(shù)學(xué)。它包含11萬個(gè)大學(xué)水平的問題,需要AI同時(shí)具備視覺理解、專業(yè)知識(shí)和跨學(xué)科推理能力。更重要的是,它不僅評(píng)估最終答案,還通過BMMR-Verifier工具檢查AI的整個(gè)思考過程。
Q2:普通人能用BMMR數(shù)據(jù)集測試AI嗎? A:是的,研究團(tuán)隊(duì)已經(jīng)將BMMR數(shù)據(jù)集公開發(fā)布。普通用戶可以通過項(xiàng)目官網(wǎng)https://bmmr.pages.dev/獲取相關(guān)資源,不過使用這個(gè)數(shù)據(jù)集需要一定的技術(shù)背景。對(duì)于想要了解AI能力的普通用戶,可以關(guān)注使用該數(shù)據(jù)集的評(píng)測結(jié)果和分析報(bào)告。
Q3:這項(xiàng)研究會(huì)不會(huì)影響AI的實(shí)際應(yīng)用? A:會(huì)有積極影響。這項(xiàng)研究揭示了當(dāng)前AI在跨學(xué)科應(yīng)用中的局限性,有助于開發(fā)更全面的AI系統(tǒng)。通過BMMR訓(xùn)練集的訓(xùn)練,開源AI模型的跨學(xué)科表現(xiàn)已經(jīng)獲得了顯著提升。這意味著未來的AI助手可能會(huì)在處理復(fù)雜的現(xiàn)實(shí)問題時(shí)表現(xiàn)得更加可靠和全面。
好文章,需要你的鼓勵(lì)
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息,顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量,在多項(xiàng)測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對(duì)話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評(píng)測基準(zhǔn),通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平,為AI價(jià)值觀對(duì)齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。