這項由上海AI實驗室聯(lián)合清華大學(xué)、南京大學(xué)、復(fù)旦大學(xué)、香港中文大學(xué)、上海交通大學(xué)以及商湯科技共同完成的重磅研究,于2025年4月發(fā)表在計算機視覺領(lǐng)域的頂級會議上。感興趣的讀者可以通過GitHub開源地址https://github.com/OpenGVLab/InternVL以及HuggingFace模型庫https://huggingface.co/OpenGVLab/InternVL3-78B獲取完整的代碼和模型。這項研究的核心成果InternVL3代表了開源多模態(tài)人工智能模型的一次重大飛躍。
想象一下,如果有一個AI助手既能看懂圖片、理解視頻,又能流利地與你對話,甚至還能解決復(fù)雜的數(shù)學(xué)題目和分析圖表數(shù)據(jù),這會是什么樣的體驗?傳統(tǒng)的AI模型就像專業(yè)化的工匠,要么擅長處理文字,要么擅長識別圖像,很少有能真正融會貫通的"全才"。而InternVL3的出現(xiàn),就像是AI界的"文武雙全"高手,打破了這種局限性。
過去制造這種多模態(tài)AI就像是先建造一座專門用來處理文字的工廠,然后再想辦法在旁邊添加一個圖像處理車間,最后用各種復(fù)雜的管道把它們連接起來。這種"后裝修"的方式不僅復(fù)雜,而且往往效果不佳,就像把兩個不同風(fēng)格的房間強行打通,總是顯得不那么協(xié)調(diào)。InternVL3團隊則采用了完全不同的思路——從一開始就設(shè)計一個既能處理文字又能理解圖像的"全能工廠"。
這種創(chuàng)新設(shè)計讓InternVL3在多項評測中表現(xiàn)卓越。在被譽為多模態(tài)AI"高考"的MMMU基準測試中,InternVL3-78B獲得了72.2分的成績,超越了之前所有的開源模型,甚至能與ChatGPT-4o、Claude 3.5 Sonnet等頂級商業(yè)模型一較高下。更令人印象深刻的是,研究團隊將所有的訓(xùn)練數(shù)據(jù)和模型權(quán)重完全開源,為整個AI社區(qū)的發(fā)展貢獻了寶貴資源。
一、原生多模態(tài)預(yù)訓(xùn)練:從根本上重新思考AI的學(xué)習(xí)方式
傳統(tǒng)的多模態(tài)AI模型構(gòu)建過程就像是訓(xùn)練一個專門的翻譯員,先讓他精通某種語言,然后再教他理解圖像,最后想辦法讓他把這兩種技能結(jié)合起來。這種方法的問題在于,這個"翻譯員"在學(xué)習(xí)新技能時,很容易忘記或弱化之前掌握的能力,就像一個數(shù)學(xué)高手突然開始學(xué)畫畫,可能會發(fā)現(xiàn)自己的計算能力有所下降。
InternVL3采用的原生多模態(tài)預(yù)訓(xùn)練方法,則像是從小就同時學(xué)習(xí)多種語言的孩子。研究團隊讓模型從一開始就接觸文字和圖像兩種信息,讓它在同一個"成長環(huán)境"中自然地學(xué)會處理這兩種截然不同的數(shù)據(jù)類型。這種方法的優(yōu)勢在于,模型不需要經(jīng)歷"遺忘-重新學(xué)習(xí)"的痛苦過程,而是能夠自然地發(fā)展出統(tǒng)一的理解框架。
具體來說,InternVL3的訓(xùn)練過程就像是給學(xué)生提供一本圖文并茂的綜合教材,而不是先讓他們讀純文字書,再讓他們看圖畫冊。在訓(xùn)練過程中,模型同時接收大約200億個來自文本的訓(xùn)練樣本和150億個來自多模態(tài)數(shù)據(jù)的訓(xùn)練樣本。這種1:3的比例設(shè)計經(jīng)過了大量實驗驗證,確保模型既不會因為文字訓(xùn)練不足而影響語言能力,也不會因為多模態(tài)訓(xùn)練過度而喪失文本處理的精確性。
研究團隊還引入了一種稱為"平方平均"的權(quán)重策略,這就像是在考試中給不同長度的答案分配合理的分數(shù)。傳統(tǒng)方法要么偏向給短答案高分,要么偏向給長答案高分,而平方平均策略能夠更公平地評估不同類型的回答,避免模型產(chǎn)生長度偏見。
二、變長視覺位置編碼:讓AI擁有更靈活的"視覺記憶"
人類在閱讀一本厚厚的圖文書籍時,能夠輕松記住前面章節(jié)的圖片內(nèi)容,并將其與后面的文字信息聯(lián)系起來。但對于AI模型來說,處理這種長篇幅的多模態(tài)內(nèi)容就像是要求一個人同時記住一長串電話號碼和一系列復(fù)雜圖案的組合,是一項極其困難的挑戰(zhàn)。
傳統(tǒng)的AI模型在處理視覺信息時,就像是用固定間距的頁碼給每張圖片編號。不管圖片內(nèi)容多么豐富復(fù)雜,都按照1、2、3、4的順序嚴格編號。這種方法的問題在于,當處理長文檔或多圖片序列時,模型很容易"失憶",忘記前面看過的內(nèi)容。
InternVL3引入的變長視覺位置編碼(V2PE)技術(shù),就像是給AI裝上了一個"智能書簽系統(tǒng)"。這個系統(tǒng)不再使用固定間距的編號,而是根據(jù)內(nèi)容的重要性和復(fù)雜程度靈活調(diào)整"頁碼間距"。對于文字內(nèi)容,系統(tǒng)仍然使用傳統(tǒng)的1、2、3編號方式,但對于圖像內(nèi)容,則使用更小的增量,比如0.5、0.25、0.125等。
這種設(shè)計的巧妙之處在于,它允許模型在有限的"記憶空間"內(nèi)容納更多的視覺信息。就像是在固定大小的書架上,通過調(diào)整書本的擺放方式,能夠放置更多內(nèi)容。在訓(xùn)練過程中,系統(tǒng)會隨機選擇不同的增量值(從1到1/256),讓模型學(xué)會適應(yīng)各種不同的"記憶密度"。在實際應(yīng)用時,系統(tǒng)可以根據(jù)輸入內(nèi)容的長度和復(fù)雜程度,自動選擇最合適的編碼方式。
實驗結(jié)果顯示,使用V2PE技術(shù)的模型在幾乎所有評測指標上都有顯著提升。即使在主要涉及短上下文的任務(wù)中,相對較小的增量值也能帶來最佳性能,這說明這種技術(shù)的優(yōu)勢不僅限于長文檔處理,而是能夠全面提升模型的理解能力。
三、先進的后訓(xùn)練技術(shù):讓AI變得更加"善解人意"
即使擁有了強大的基礎(chǔ)能力,AI模型仍然需要經(jīng)過精心的"調(diào)教"才能真正理解人類的需求和偏好。這個過程就像是培養(yǎng)一個天賦異稟的學(xué)生成為優(yōu)秀的助手,需要通過有針對性的訓(xùn)練來提升其實用性和可靠性。
InternVL3的后訓(xùn)練過程分為兩個階段:監(jiān)督微調(diào)和混合偏好優(yōu)化。監(jiān)督微調(diào)階段就像是給學(xué)生提供標準答案,讓他們學(xué)習(xí)什么樣的回答是高質(zhì)量的。研究團隊收集了大約2170萬個高質(zhì)量的訓(xùn)練樣本,涵蓋了工具使用、3D場景理解、圖形用戶界面操作、科學(xué)圖表分析、創(chuàng)意寫作和多模態(tài)推理等多個領(lǐng)域。這比前一代模型的1630萬樣本大幅增加,為模型提供了更豐富的學(xué)習(xí)材料。
在這個階段,研究團隊還采用了幾項創(chuàng)新技術(shù)來提升訓(xùn)練效果。隨機JPEG壓縮技術(shù)模擬了現(xiàn)實世界中圖像質(zhì)量的變化,讓模型學(xué)會處理各種清晰度的圖片。平方損失重加權(quán)策略則確保模型不會因為訓(xùn)練樣本長度的差異而產(chǎn)生偏見。多模態(tài)數(shù)據(jù)打包技術(shù)提高了訓(xùn)練效率,讓模型能夠更有效地學(xué)習(xí)不同類型的信息。
混合偏好優(yōu)化階段則更像是培養(yǎng)學(xué)生的判斷力和推理能力。傳統(tǒng)的訓(xùn)練方法只是讓模型學(xué)會預(yù)測下一個詞語,但在實際應(yīng)用中,模型需要基于自己之前的輸出繼續(xù)生成內(nèi)容。這種差異就像是學(xué)習(xí)時有標準答案參考,但考試時需要完全依靠自己,往往會導(dǎo)致性能下降。
為了解決這個問題,研究團隊采用了混合偏好優(yōu)化技術(shù),結(jié)合了偏好損失、質(zhì)量損失和生成損失三種不同的訓(xùn)練目標。偏好損失教會模型區(qū)分好答案和壞答案,質(zhì)量損失幫助模型理解單個回答的絕對質(zhì)量,生成損失則確保模型能夠生成高質(zhì)量的內(nèi)容。這種綜合訓(xùn)練方法顯著提升了模型的推理能力,特別是在數(shù)學(xué)和邏輯推理任務(wù)上表現(xiàn)出色。
四、測試時擴展策略:讓AI在"考試時"也能超常發(fā)揮
人類在面對困難問題時,往往會嘗試多種不同的解題方法,然后選擇最好的答案。InternVL3也采用了類似的策略,通過測試時擴展技術(shù)來提升模型在復(fù)雜任務(wù)上的表現(xiàn)。
這種方法的核心是使用一個叫做VisualPRM的"評判員"模型。當面對數(shù)學(xué)或推理問題時,InternVL3會生成多個不同的解答方案,然后由VisualPRM對每個方案的每個步驟進行評分。這個過程就像是請一位經(jīng)驗豐富的老師來檢查學(xué)生的作業(yè),不僅看最終答案,還要評估每個解題步驟的正確性。
VisualPRM的工作方式很有意思,它將問題解決過程轉(zhuǎn)化為多輪對話的形式。圖像、問題和第一步解答構(gòu)成第一輪對話,然后每個后續(xù)步驟都形成新的對話輪次。在每輪對話中,VisualPRM需要判斷當前步驟是正確(+)還是錯誤(-)。最終,通過平均所有步驟的得分來評估整個解答方案的質(zhì)量。
實驗結(jié)果顯示,這種方法帶來了顯著的性能提升。即使是參數(shù)相對較少的模型,在使用"8選最優(yōu)"策略后,推理性能也有大幅改善。例如,在MathVerse數(shù)據(jù)集的純視覺部分,InternVL3-38B和InternVL3-78B分別獲得了6.0和3.2個百分點的提升。這證明了測試時擴展策略的有效性,也為提升AI模型性能提供了新的思路。
五、基礎(chǔ)設(shè)施優(yōu)化:為大模型訓(xùn)練搭建高效的"生產(chǎn)線"
訓(xùn)練像InternVL3這樣的大型AI模型,就像是運營一個復(fù)雜的現(xiàn)代化工廠,需要協(xié)調(diào)成千上萬的計算單元同時工作。研究團隊擴展了InternEVO框架,專門針對多模態(tài)模型的訓(xùn)練需求進行了優(yōu)化。
這個框架的創(chuàng)新之處在于為不同的模型組件(視覺編碼器、多層感知機、語言模型)提供了靈活且解耦的分片策略。就像是在工廠中為不同的生產(chǎn)線設(shè)計專門的物流系統(tǒng),確保每個部門都能高效運轉(zhuǎn),同時最大程度地減少相互干擾。
多模態(tài)模型訓(xùn)練面臨的一個特殊挑戰(zhàn)是計算負載的不平衡。由于不同訓(xùn)練樣本包含的視覺和文本信息比例差異很大,就像是工廠生產(chǎn)線上有時需要處理簡單產(chǎn)品,有時需要處理復(fù)雜產(chǎn)品,容易造成某些工作站過載而其他工作站閑置。
為了解決這個問題,研究團隊開發(fā)了一套動態(tài)負載均衡技術(shù),能夠根據(jù)實際需求動態(tài)調(diào)整計算資源的分配。這種方法支持多種并行策略的組合,包括數(shù)據(jù)并行、張量并行、序列并行和流水線并行,確保所有計算資源都能得到充分利用。
得益于這些優(yōu)化,InternEVO框架能夠支持高達32K標記的序列長度,同時在相同計算預(yù)算下,InternVL3的訓(xùn)練速度比前一代模型提升了50%到200%。這種效率提升不僅降低了訓(xùn)練成本,也為研究團隊嘗試更多實驗和優(yōu)化提供了可能。
六、全面的性能評估:在多個"考試科目"中展現(xiàn)實力
為了全面評估InternVL3的能力,研究團隊在多個不同類型的基準測試上進行了評估,就像是讓一個學(xué)生參加包括語文、數(shù)學(xué)、外語、科學(xué)等多個科目的綜合考試。
在多學(xué)科推理能力測試MMMU中,InternVL3-78B獲得了72.2分的優(yōu)異成績,不僅超越了所有開源模型,也與頂級商業(yè)模型形成了有力競爭。這個測試涵蓋了藝術(shù)、商業(yè)、科學(xué)、健康醫(yī)學(xué)、人文社科、社會科學(xué)等多個學(xué)科,要求模型具備跨領(lǐng)域的知識整合能力。
在數(shù)學(xué)推理方面,InternVL3在MathVista、MathVision、MathVerse等多個測試中都表現(xiàn)出色。特別值得一提的是,在MathVista測試中,InternVL3-78B達到了接近79%的正確率,顯示出強大的數(shù)學(xué)圖像理解和推理能力。這些測試不僅要求模型能夠理解數(shù)學(xué)概念,還要能夠解讀圖表、幾何圖形和復(fù)雜的數(shù)學(xué)表達式。
在文檔理解和光學(xué)字符識別(OCR)任務(wù)中,InternVL3也展現(xiàn)出了卓越的性能。在OCRBench測試中,InternVL3-78B獲得了906分的高分,在處理各種文檔類型、圖表分析和信息提取任務(wù)中都表現(xiàn)優(yōu)異。這種能力對于實際應(yīng)用場景具有重要意義,因為現(xiàn)實世界中的很多任務(wù)都涉及從圖像中提取和理解文本信息。
多圖像理解能力是InternVL3的另一個亮點。在BLINK、Mantis-Eval、MMIU等測試中,模型展現(xiàn)出了處理復(fù)雜多圖像關(guān)系和進行跨圖像推理的能力。這種能力讓AI能夠像人類一樣,將來自不同圖像的信息整合起來,形成完整的理解。
實際場景理解測試進一步證明了InternVL3的實用價值。在RealWorldQA、MME-RealWorld、WildVision和R-Bench等測試中,模型展現(xiàn)出了處理現(xiàn)實世界復(fù)雜場景的能力。這些測試模擬了真實環(huán)境中可能遇到的各種視覺理解任務(wù),對模型的泛化能力提出了很高要求。
七、多語言和視頻理解:拓展AI的"視野"與"語言天賦"
在全球化的今天,一個真正有用的AI助手必須能夠理解多種語言,并且具備處理動態(tài)視頻內(nèi)容的能力。InternVL3在這兩個方面都表現(xiàn)出了令人印象深刻的能力。
在多語言理解測試中,InternVL3不僅在英語和中文任務(wù)上表現(xiàn)優(yōu)異,在葡萄牙語、阿拉伯語、土耳其語和俄語等多種語言的多模態(tài)任務(wù)中也展現(xiàn)出了強大的跨語言理解能力。這種能力的獲得并非偶然,而是源于訓(xùn)練數(shù)據(jù)的精心設(shè)計和模型架構(gòu)的全面優(yōu)化。
視頻理解能力是現(xiàn)代多模態(tài)AI的重要標志。InternVL3在Video-MME、MVBench、MMBench-Video、MLVU、LongVideoBench和CG-Bench等多個視頻理解基準測試中都取得了顯著進步。特別是在長視頻理解任務(wù)中,模型展現(xiàn)出了捕捉時序信息和理解復(fù)雜視頻內(nèi)容的能力。
這些能力的提升得益于訓(xùn)練過程中對視頻數(shù)據(jù)的特殊處理。研究團隊為不同的測試采用了不同的幀數(shù)設(shè)置,從16幀到64幀不等,并選擇最佳結(jié)果進行報告。這種靈活的處理方式確保了模型能夠在不同類型的視頻任務(wù)中都發(fā)揮出最佳性能。
八、專業(yè)領(lǐng)域應(yīng)用:從圖形界面到空間推理的全方位突破
除了通用能力之外,InternVL3還在多個專業(yè)領(lǐng)域展現(xiàn)出了實用的應(yīng)用價值。在圖形用戶界面(GUI)理解任務(wù)中,模型能夠準確識別和定位屏幕元素,為自動化操作和智能助手應(yīng)用奠定了基礎(chǔ)。
在ScreenSpot和ScreenSpot-V2這兩個具有挑戰(zhàn)性的GUI基準測試中,InternVL3的表現(xiàn)超越了許多專門針對界面理解設(shè)計的模型。這種能力的意義在于,它為開發(fā)能夠自動操作計算機界面的AI助手鋪平了道路,可能會改變我們與計算機交互的方式。
空間推理能力是另一個重要的專業(yè)領(lǐng)域。在VSI-Bench(視覺空間智能基準)測試中,InternVL3展現(xiàn)出了構(gòu)建三維環(huán)境心理表征的能力。這種能力對于自動駕駛、機器人導(dǎo)航和增強現(xiàn)實等應(yīng)用具有重要意義。
特別值得注意的是,InternVL3在物體計數(shù)、絕對距離估計、相對距離估計和外觀順序預(yù)測等子任務(wù)中都表現(xiàn)出色。這些看似簡單的任務(wù)實際上需要模型具備復(fù)雜的空間理解和推理能力,InternVL3的優(yōu)異表現(xiàn)證明了其在空間智能方面的突破。
九、語言能力保持:多模態(tài)訓(xùn)練不忘"文字功底"
一個常見的擔憂是,當AI模型學(xué)習(xí)處理圖像和視頻時,是否會影響其原有的語言處理能力。就像擔心一個原本擅長寫作的人在學(xué)習(xí)繪畫后是否會影響文字表達能力一樣。InternVL3的實驗結(jié)果有力地證明了,通過合理的訓(xùn)練策略,模型不僅能夠獲得強大的多模態(tài)能力,還能保持甚至提升其語言處理性能。
在MMLU、CMMLU、C-Eval、GAOKAO-Bench等多個語言理解基準測試中,InternVL3系列模型的表現(xiàn)甚至超過了同規(guī)模的純語言模型。這種現(xiàn)象的出現(xiàn)主要歸功于三個因素:訓(xùn)練數(shù)據(jù)中包含約25%的純文本內(nèi)容、多模態(tài)預(yù)訓(xùn)練過程中的聯(lián)合參數(shù)優(yōu)化,以及后訓(xùn)練階段對高質(zhì)量文本語料的廣泛使用。
更有趣的是,在數(shù)學(xué)推理、代碼生成和常識問答等任務(wù)中,InternVL3的表現(xiàn)也顯著優(yōu)于對照的純語言模型。這表明多模態(tài)訓(xùn)練帶來的不僅僅是視覺理解能力,還可能增強了模型的整體推理和理解能力。
十、深入的技術(shù)剖析:揭秘背后的設(shè)計智慧
為了更好地理解InternVL3成功的原因,研究團隊進行了詳細的消融實驗,就像是醫(yī)生通過各種檢查來診斷病因一樣,這些實驗幫助我們理解每個技術(shù)組件的具體貢獻。
原生多模態(tài)預(yù)訓(xùn)練的有效性通過對比實驗得到了充分驗證。研究團隊使用相同的模型架構(gòu)、初始化參數(shù)和訓(xùn)練數(shù)據(jù),僅僅將傳統(tǒng)的多階段訓(xùn)練流程替換為原生多模態(tài)預(yù)訓(xùn)練,就觀察到了顯著的性能提升。更重要的是,即使不進行后續(xù)的指令調(diào)優(yōu),使用原生多模態(tài)預(yù)訓(xùn)練的模型就已經(jīng)展現(xiàn)出了強大的多模態(tài)能力。
變長視覺位置編碼(V2PE)的效果評估揭示了一個有趣的現(xiàn)象:即使在主要涉及短上下文的任務(wù)中,使用較小的位置增量值(如1/4、1/16)也能帶來性能提升。這說明V2PE的優(yōu)勢不僅限于長文檔處理,而是能夠從根本上改善模型對視覺信息的理解和記憶方式。
混合偏好優(yōu)化(MPO)技術(shù)的效果在推理任務(wù)中表現(xiàn)得特別明顯。實驗結(jié)果顯示,使用MPO技術(shù)的模型在七個多模態(tài)推理基準測試中都獲得了顯著提升,其中InternVL3-78B和InternVL3-38B分別提升了4.1和4.5個百分點。關(guān)鍵在于,MPO使用的訓(xùn)練數(shù)據(jù)是SFT數(shù)據(jù)的子集,這意味著性能提升主要來自訓(xùn)練算法的改進,而非數(shù)據(jù)質(zhì)量的提升。
十一、技術(shù)創(chuàng)新的深層意義:重新定義AI模型的訓(xùn)練范式
InternVL3的技術(shù)創(chuàng)新不僅僅是性能數(shù)字的提升,更重要的是它代表了AI模型訓(xùn)練范式的根本性轉(zhuǎn)變。傳統(tǒng)的"先語言后視覺"訓(xùn)練方式就像是先教會一個人閱讀,然后再教他看圖,這種方式雖然看似合理,但實際上忽略了人類學(xué)習(xí)的自然規(guī)律。
人類嬰兒在學(xué)習(xí)語言的同時,也在學(xué)習(xí)理解視覺世界,這兩種能力是相互促進、共同發(fā)展的。InternVL3的原生多模態(tài)預(yù)訓(xùn)練方法更接近這種自然的學(xué)習(xí)過程,讓模型從一開始就建立起統(tǒng)一的多模態(tài)理解框架。
這種范式轉(zhuǎn)變的意義遠超出了技術(shù)層面。它表明我們對AI學(xué)習(xí)過程的理解正在不斷深化,從簡單的"技能疊加"向更加整體和系統(tǒng)的"能力培養(yǎng)"轉(zhuǎn)變。這種理念的轉(zhuǎn)變可能會影響未來AI模型的設(shè)計思路,推動整個領(lǐng)域向更加自然和高效的方向發(fā)展。
變長視覺位置編碼技術(shù)的引入也體現(xiàn)了對AI"記憶機制"的深度思考。傳統(tǒng)的固定位置編碼就像是用相同大小的盒子來存儲不同類型的物品,而V2PE則像是根據(jù)物品的特性選擇合適大小的存儲空間。這種靈活性不僅提高了存儲效率,更重要的是它讓模型能夠更好地理解不同模態(tài)信息之間的關(guān)系。
十二、實際應(yīng)用前景:從科研成果到實用工具的轉(zhuǎn)化
InternVL3的開源發(fā)布為整個AI社區(qū)帶來了寶貴的資源,也為各種實際應(yīng)用的開發(fā)奠定了基礎(chǔ)。在教育領(lǐng)域,具備強大多模態(tài)理解能力的AI助手可以幫助學(xué)生理解復(fù)雜的圖表、解決數(shù)學(xué)問題,甚至分析歷史文獻中的圖像資料。
在醫(yī)療健康領(lǐng)域,InternVL3的文檔理解和圖像分析能力可以應(yīng)用于醫(yī)學(xué)影像分析、病歷信息提取和醫(yī)學(xué)文獻理解等場景。模型能夠同時處理文字描述和醫(yī)學(xué)圖像,為醫(yī)生提供更加全面的輔助診斷信息。
商業(yè)和工業(yè)應(yīng)用方面,GUI理解能力為自動化辦公和智能客服開辟了新的可能性。企業(yè)可以基于InternVL3開發(fā)能夠自動操作各種軟件界面的AI助手,大幅提升工作效率。同時,強大的圖表分析能力也為商業(yè)數(shù)據(jù)分析和報告生成提供了新的工具。
在內(nèi)容創(chuàng)作和媒體行業(yè),InternVL3的多語言和視頻理解能力可以應(yīng)用于自動字幕生成、內(nèi)容審核、視頻摘要制作等場景。模型能夠理解不同語言的視頻內(nèi)容,為全球化的內(nèi)容分發(fā)提供支持。
科研領(lǐng)域同樣可以從InternVL3的能力中受益。研究人員可以利用模型的文檔理解能力來分析大量的學(xué)術(shù)文獻,或者使用其圖像分析能力來處理實驗數(shù)據(jù)和科學(xué)圖像。這種AI輔助的研究方式可能會顯著加速科學(xué)發(fā)現(xiàn)的進程。
說到底,InternVL3的意義不僅在于它在各種測試中取得的優(yōu)異成績,更在于它展示了AI技術(shù)發(fā)展的新方向。通過原生多模態(tài)預(yù)訓(xùn)練、變長視覺位置編碼、混合偏好優(yōu)化等創(chuàng)新技術(shù),InternVL3證明了開源模型同樣可以達到世界領(lǐng)先水平。
歸根結(jié)底,這項研究最重要的貢獻在于它的開放性。研究團隊將所有的訓(xùn)練數(shù)據(jù)、模型權(quán)重和代碼完全開源,為全球的研究者和開發(fā)者提供了寶貴的資源。這種開放的精神不僅推動了技術(shù)的快速傳播和改進,也體現(xiàn)了科學(xué)研究應(yīng)有的合作共享理念。
對于普通人來說,InternVL3代表的技術(shù)進步意味著我們將很快看到更加智能、更加實用的AI助手出現(xiàn)在日常生活中。這些AI助手不再是只會聊天的工具,而是真正能夠理解我們的視覺世界、幫助我們處理復(fù)雜任務(wù)的得力助手。當然,技術(shù)的發(fā)展也提醒我們需要思考AI在社會中的角色和影響,確保這些強大的工具能夠真正造福人類社會。
對于想要深入了解這項研究技術(shù)細節(jié)的讀者,可以訪問GitHub開源項目https://github.com/OpenGVLab/InternVL獲取完整的代碼實現(xiàn),或者通過HuggingFace模型庫https://huggingface.co/OpenGVLab/InternVL3-78B直接體驗?zāi)P偷膹姶竽芰Α_@種開放共享的研究模式,正是推動AI技術(shù)持續(xù)進步的重要動力。
Q&A
Q1:InternVL3與傳統(tǒng)的多模態(tài)AI模型有什么根本區(qū)別? A:傳統(tǒng)模型是先訓(xùn)練語言能力再"貼"上視覺功能,像后裝修改造房屋。InternVL3采用原生多模態(tài)預(yù)訓(xùn)練,從一開始就同時學(xué)習(xí)文字和圖像,像從小就雙語成長的孩子,避免了能力沖突和遺忘問題,整體表現(xiàn)更協(xié)調(diào)。
Q2:普通人什么時候能使用到InternVL3技術(shù)? A:由于完全開源,開發(fā)者現(xiàn)在就可以基于InternVL3構(gòu)建應(yīng)用。普通用戶可能很快就會在教育軟件、辦公助手、智能客服等產(chǎn)品中體驗到這項技術(shù),特別是在需要同時理解圖片和文字的場景中。
Q3:InternVL3在哪些實際任務(wù)中表現(xiàn)最突出? A:表現(xiàn)最突出的是多學(xué)科推理(MMMU得分72.2)、數(shù)學(xué)問題解決、文檔理解、多圖像分析和GUI界面操作。特別擅長處理需要綜合理解圖表、文字和邏輯關(guān)系的復(fù)雜任務(wù),這些正是日常工作學(xué)習(xí)中最常遇到的場景。
好文章,需要你的鼓勵
騰訊ARC實驗室推出AudioStory系統(tǒng),首次實現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯式推理生成、解耦橋接機制和漸進式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時學(xué)習(xí)外觀和運動信息,顯著解決了當前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個線性層就能大幅提升運動質(zhì)量,在多項測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實驗室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評測基準,通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時顯著提升人性化交互水平,為AI價值觀對齊提供了可行技術(shù)路徑。
谷歌DeepMind團隊開發(fā)的GraphCast是一個革命性的AI天氣預(yù)測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報,準確性超越傳統(tǒng)方法90%的指標。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。