這項(xiàng)由上海AI實(shí)驗(yàn)室InternVL團(tuán)隊(duì)開(kāi)展的研究發(fā)表于2024年8月,論文作者包括王維云、高張偉、顧立新等眾多研究人員。完整論文可通過(guò)GitHub代碼庫(kù)(https://github.com/OpenGVLab/InternVL)和HuggingFace模型庫(kù)(https://huggingface.co/OpenGVLab/InternVL3_5-241B-A28B)獲取。這項(xiàng)研究代表了開(kāi)源多模態(tài)大語(yǔ)言模型領(lǐng)域的重大進(jìn)展,為普通人理解和使用人工智能技術(shù)提供了新的可能性。
當(dāng)我們看到一張圖片時(shí),大腦能夠瞬間理解其中的內(nèi)容,并與文字描述完美結(jié)合。比如看到一張貓咪照片,我們不僅知道這是一只貓,還能描述它的顏色、姿態(tài),甚至推測(cè)它的心情。但對(duì)計(jì)算機(jī)來(lái)說(shuō),要達(dá)到這種圖文并茂的理解能力卻異常困難。InternVL3.5的出現(xiàn),正是為了讓機(jī)器獲得這種類(lèi)似人類(lèi)的綜合理解能力。
這個(gè)項(xiàng)目就像是給計(jì)算機(jī)配備了一副"智能眼鏡"和一個(gè)"聰明大腦"。智能眼鏡負(fù)責(zé)觀察和分析圖像,聰明大腦則負(fù)責(zé)理解文字和進(jìn)行推理。但與以往的系統(tǒng)不同,InternVL3.5將這兩個(gè)部分緊密結(jié)合,讓它們能夠相互協(xié)作,就像人類(lèi)的視覺(jué)系統(tǒng)和語(yǔ)言系統(tǒng)天然配合一樣。
研究團(tuán)隊(duì)面臨的最大挑戰(zhàn)是如何讓機(jī)器在處理復(fù)雜任務(wù)時(shí)變得更聰明,同時(shí)還要讓整個(gè)系統(tǒng)運(yùn)行得更快。這就好比要制造一輛既能跑得快又很省油的汽車(chē)。為了解決這個(gè)問(wèn)題,他們開(kāi)發(fā)了三項(xiàng)核心技術(shù):級(jí)聯(lián)強(qiáng)化學(xué)習(xí)、視覺(jué)分辨率路由器和解耦視覺(jué)-語(yǔ)言部署。這些技術(shù)名稱(chēng)聽(tīng)起來(lái)復(fù)雜,但本質(zhì)上就是讓系統(tǒng)變得更聰明、更高效的三種方法。
一、級(jí)聯(lián)強(qiáng)化學(xué)習(xí):讓機(jī)器學(xué)會(huì)像人一樣思考
在傳統(tǒng)的機(jī)器學(xué)習(xí)中,系統(tǒng)通常采用單一的學(xué)習(xí)方式,就像一個(gè)學(xué)生只用一種學(xué)習(xí)方法來(lái)掌握知識(shí)。但人類(lèi)的學(xué)習(xí)過(guò)程往往更加復(fù)雜和靈活。我們可能先通過(guò)大量練習(xí)掌握基礎(chǔ)技能,然后在實(shí)際應(yīng)用中不斷調(diào)整和優(yōu)化。InternVL3.5的級(jí)聯(lián)強(qiáng)化學(xué)習(xí)正是模仿了這種人類(lèi)學(xué)習(xí)模式。
這個(gè)學(xué)習(xí)過(guò)程分為兩個(gè)階段,就像烹飪一道復(fù)雜菜肴的過(guò)程。第一階段是離線強(qiáng)化學(xué)習(xí),好比在家里反復(fù)練習(xí)刀工和火候控制。在這個(gè)階段,系統(tǒng)使用已有的大量訓(xùn)練數(shù)據(jù),通過(guò)混合偏好優(yōu)化技術(shù)來(lái)學(xué)習(xí)基礎(chǔ)技能。這就像廚師在家里對(duì)著菜譜反復(fù)練習(xí),掌握各種基本技法。
第二階段是在線強(qiáng)化學(xué)習(xí),就像真正在餐廳里為顧客烹飪。系統(tǒng)開(kāi)始處理全新的問(wèn)題,根據(jù)實(shí)時(shí)反饋來(lái)調(diào)整自己的策略。這個(gè)階段使用了一種叫做GSPO的算法,它能讓系統(tǒng)在面對(duì)新情況時(shí)快速適應(yīng)和優(yōu)化。就像經(jīng)驗(yàn)豐富的廚師能夠根據(jù)食材的新鮮程度和顧客的特殊要求來(lái)調(diào)整菜品一樣。
這種兩階段學(xué)習(xí)方法的優(yōu)勢(shì)非常明顯。與傳統(tǒng)的單一學(xué)習(xí)方式相比,級(jí)聯(lián)強(qiáng)化學(xué)習(xí)在推理任務(wù)上實(shí)現(xiàn)了高達(dá)16%的性能提升。更重要的是,這種方法具有很好的可擴(kuò)展性,無(wú)論是小型的1B參數(shù)模型還是大型的241B參數(shù)模型,都能從中受益。
二、視覺(jué)分辨率路由器:智能調(diào)節(jié)圖像清晰度
當(dāng)我們用手機(jī)拍照時(shí),系統(tǒng)會(huì)自動(dòng)調(diào)節(jié)分辨率,在光線充足的環(huán)境下使用高分辨率,在光線不足時(shí)降低分辨率以提高拍攝成功率。InternVL3.5的視覺(jué)分辨率路由器采用了類(lèi)似的智能調(diào)節(jié)策略。
傳統(tǒng)的視覺(jué)處理系統(tǒng)往往對(duì)所有圖像采用相同的處理方式,這就像用同樣的放大鏡去觀察所有物品,不管是精密的手表零件還是粗糙的石頭表面。這種"一刀切"的方式既浪費(fèi)計(jì)算資源,又可能影響處理效果。
視覺(jué)分辨率路由器就像一個(gè)經(jīng)驗(yàn)豐富的攝影師,能夠根據(jù)圖像內(nèi)容的復(fù)雜程度來(lái)決定需要多高的分辨率。對(duì)于內(nèi)容相對(duì)簡(jiǎn)單的圖像,比如純色背景上的單個(gè)物體,系統(tǒng)會(huì)自動(dòng)選擇較低的分辨率來(lái)處理,這樣既能獲得準(zhǔn)確的結(jié)果,又能大大節(jié)省計(jì)算時(shí)間。而對(duì)于內(nèi)容復(fù)雜、細(xì)節(jié)豐富的圖像,系統(tǒng)則會(huì)自動(dòng)切換到高分辨率模式,確保不遺漏任何重要信息。
這個(gè)過(guò)程通過(guò)一種叫做視覺(jué)一致性學(xué)習(xí)的技術(shù)來(lái)實(shí)現(xiàn)。系統(tǒng)首先學(xué)習(xí)如何在不同分辨率下保持輸出結(jié)果的一致性,然后訓(xùn)練路由器來(lái)預(yù)測(cè)每個(gè)圖像區(qū)域的最適分辨率。結(jié)果顯示,這項(xiàng)技術(shù)能夠在幾乎不影響性能的前提下,將視覺(jué)處理所需的時(shí)間縮短50%。
三、解耦視覺(jué)-語(yǔ)言部署:讓系統(tǒng)運(yùn)行更高效
在傳統(tǒng)的多模態(tài)系統(tǒng)中,視覺(jué)處理和語(yǔ)言處理通常在同一個(gè)處理單元上順序進(jìn)行,就像一個(gè)人既要負(fù)責(zé)看圖又要負(fù)責(zé)寫(xiě)文章,只能一項(xiàng)一項(xiàng)地完成。這種方式的問(wèn)題在于,不同類(lèi)型的任務(wù)對(duì)計(jì)算資源的需求不同,視覺(jué)處理需要強(qiáng)大的并行計(jì)算能力,而語(yǔ)言處理更依賴(lài)于序列化的推理過(guò)程。
解耦視覺(jué)-語(yǔ)言部署技術(shù)將這兩個(gè)過(guò)程分離開(kāi)來(lái),就像在工廠里設(shè)置了專(zhuān)門(mén)的視覺(jué)檢測(cè)車(chē)間和文本處理車(chē)間。視覺(jué)處理部分專(zhuān)門(mén)負(fù)責(zé)分析圖像,將結(jié)果以緊湊的特征形式傳遞給語(yǔ)言處理部分。這樣,兩個(gè)部分可以在不同的硬件上并行工作,大大提高了整體效率。
這種設(shè)計(jì)帶來(lái)的好處是多方面的。首先,它能夠更好地利用不同類(lèi)型的計(jì)算硬件。視覺(jué)處理可以在專(zhuān)門(mén)優(yōu)化的圖形處理單元上運(yùn)行,而語(yǔ)言處理則在適合序列計(jì)算的處理器上進(jìn)行。其次,這種分離允許系統(tǒng)根據(jù)具體任務(wù)來(lái)靈活調(diào)配資源,比如處理大量圖像時(shí)可以增加視覺(jué)處理的計(jì)算資源,而處理長(zhǎng)文本時(shí)可以將更多資源分配給語(yǔ)言部分。
在實(shí)際測(cè)試中,解耦視覺(jué)-語(yǔ)言部署技術(shù)將系統(tǒng)的推理速度提高了4.05倍。更重要的是,這種加速效果隨著輸入圖像分辨率的提高而更加明顯,這意味著系統(tǒng)在處理高質(zhì)量圖像時(shí)能夠獲得更大的效率提升。
四、全面的性能表現(xiàn):接近商業(yè)級(jí)別
為了驗(yàn)證InternVL3.5的實(shí)際能力,研究團(tuán)隊(duì)在36個(gè)不同的基準(zhǔn)測(cè)試中進(jìn)行了全面評(píng)估。這些測(cè)試覆蓋了多模態(tài)理解、推理、文本處理和代理任務(wù)四個(gè)主要方面,就像對(duì)一個(gè)全能運(yùn)動(dòng)員進(jìn)行全方位的體能測(cè)試。
在多模態(tài)理解方面,InternVL3.5在處理圖文結(jié)合任務(wù)時(shí)表現(xiàn)出色。比如在MMBench測(cè)試中,最大的InternVL3.5-241B-A28B模型達(dá)到了87.4分,超越了絕大多數(shù)開(kāi)源競(jìng)爭(zhēng)對(duì)手。這意味著系統(tǒng)能夠準(zhǔn)確理解圖像內(nèi)容,并與文字描述進(jìn)行恰當(dāng)?shù)钠ヅ浜屯评怼?/p>
推理能力是這個(gè)系統(tǒng)最引人注目的特點(diǎn)之一。在MMMU這個(gè)多學(xué)科推理基準(zhǔn)測(cè)試中,InternVL3.5-241B-A28B獲得了77.7分,而較小的8B模型也達(dá)到了73.4分。這個(gè)成績(jī)表明系統(tǒng)不僅能夠理解圖像和文字,還能進(jìn)行復(fù)雜的邏輯推理,就像一個(gè)優(yōu)秀的學(xué)生能夠綜合運(yùn)用多個(gè)學(xué)科的知識(shí)來(lái)解決復(fù)雜問(wèn)題。
在數(shù)學(xué)推理方面,系統(tǒng)的表現(xiàn)同樣令人印象深刻。在MathVista測(cè)試中,最大模型獲得了82.7分,展現(xiàn)了強(qiáng)大的數(shù)學(xué)問(wèn)題解決能力。這意味著系統(tǒng)能夠理解幾何圖形、分析統(tǒng)計(jì)圖表,并進(jìn)行相應(yīng)的數(shù)學(xué)計(jì)算和推理。
五、廣泛的應(yīng)用能力:從文檔處理到GUI交互
InternVL3.5的能力遠(yuǎn)不止于基礎(chǔ)的圖文理解,它在多個(gè)專(zhuān)業(yè)領(lǐng)域都展現(xiàn)出了實(shí)用價(jià)值。在文檔理解方面,系統(tǒng)能夠處理各種復(fù)雜的文檔格式,包括表格、圖表、掃描文檔等。就像一個(gè)經(jīng)驗(yàn)豐富的辦公室助手,能夠快速?gòu)母鞣N文檔中提取關(guān)鍵信息并進(jìn)行整理分析。
在OCR任務(wù)中,InternVL3.5展現(xiàn)了優(yōu)秀的文字識(shí)別能力。無(wú)論是印刷體還是手寫(xiě)體,無(wú)論是規(guī)整的表格還是復(fù)雜的圖表,系統(tǒng)都能準(zhǔn)確識(shí)別其中的文字內(nèi)容。這種能力使其在處理現(xiàn)實(shí)世界的文檔時(shí)具有很高的實(shí)用價(jià)值。
特別值得關(guān)注的是系統(tǒng)在GUI交互方面的能力。GUI交互就是與圖形用戶(hù)界面的交互,比如點(diǎn)擊按鈕、填寫(xiě)表單、瀏覽網(wǎng)頁(yè)等。InternVL3.5能夠理解屏幕上的各種界面元素,并根據(jù)指令執(zhí)行相應(yīng)的操作。在ScreenSpot測(cè)試中,最大模型達(dá)到了89.8分,顯示出了強(qiáng)大的界面理解和操作能力。
這種GUI交互能力開(kāi)辟了人工智能輔助辦公的新可能性。系統(tǒng)可以幫助用戶(hù)自動(dòng)執(zhí)行重復(fù)性的界面操作,比如批量處理文件、填寫(xiě)表格、瀏覽和整理信息等。這就像有了一個(gè)永不疲倦的數(shù)字助手,能夠按照指令完成各種計(jì)算機(jī)操作任務(wù)。
六、多語(yǔ)言和視頻理解:全球化的智能助手
在全球化的今天,多語(yǔ)言能力是人工智能系統(tǒng)的重要特征。InternVL3.5在多語(yǔ)言理解方面表現(xiàn)出色,能夠處理英語(yǔ)、中文、葡萄牙語(yǔ)、阿拉伯語(yǔ)、土耳其語(yǔ)和俄語(yǔ)等多種語(yǔ)言。這就像一個(gè)博學(xué)的翻譯,不僅能理解不同語(yǔ)言的文字,還能理解配圖的含義,并將兩者結(jié)合起來(lái)進(jìn)行準(zhǔn)確的理解和回應(yīng)。
視頻理解是另一個(gè)重要的應(yīng)用領(lǐng)域。與靜態(tài)圖像相比,視頻包含了時(shí)間維度的信息,理解起來(lái)更加復(fù)雜。InternVL3.5能夠分析視頻內(nèi)容,理解其中的動(dòng)作、情節(jié)和時(shí)間序列關(guān)系。在多個(gè)視頻理解基準(zhǔn)測(cè)試中,系統(tǒng)都展現(xiàn)了良好的性能,這為視頻內(nèi)容分析、自動(dòng)字幕生成、視頻摘要等應(yīng)用提供了技術(shù)基礎(chǔ)。
系統(tǒng)還具備處理多圖像任務(wù)的能力。在現(xiàn)實(shí)應(yīng)用中,我們經(jīng)常需要同時(shí)分析多張相關(guān)圖像,比如比較不同角度的照片、分析圖像序列的變化等。InternVL3.5能夠同時(shí)處理多張圖像,找出它們之間的關(guān)聯(lián)和差異,這種能力在圖像分析、質(zhì)量控制、醫(yī)療診斷等領(lǐng)域具有重要價(jià)值。
七、技術(shù)創(chuàng)新的深層價(jià)值:讓AI更貼近人類(lèi)
InternVL3.5的技術(shù)創(chuàng)新不僅體現(xiàn)在性能數(shù)字上,更重要的是它代表了人工智能發(fā)展的一個(gè)重要方向:讓機(jī)器的思維方式更接近人類(lèi)。級(jí)聯(lián)強(qiáng)化學(xué)習(xí)模仿了人類(lèi)從基礎(chǔ)練習(xí)到實(shí)際應(yīng)用的學(xué)習(xí)過(guò)程,視覺(jué)分辨率路由器體現(xiàn)了人類(lèi)視覺(jué)系統(tǒng)的自適應(yīng)特性,解耦部署則反映了人類(lèi)大腦不同功能區(qū)域協(xié)同工作的模式。
這種設(shè)計(jì)理念的轉(zhuǎn)變意義深遠(yuǎn)。傳統(tǒng)的人工智能系統(tǒng)往往追求在特定任務(wù)上的極致性能,而忽視了系統(tǒng)的通用性和適應(yīng)性。InternVL3.5則更加注重構(gòu)建一個(gè)能夠靈活適應(yīng)不同任務(wù)的通用智能系統(tǒng),這更符合我們對(duì)人工智能助手的期望。
從技術(shù)發(fā)展的角度來(lái)看,InternVL3.5的開(kāi)源特性也具有重要意義。與商業(yè)化的封閉系統(tǒng)不同,開(kāi)源意味著全世界的研究者和開(kāi)發(fā)者都可以基于這個(gè)系統(tǒng)進(jìn)行進(jìn)一步的研究和應(yīng)用開(kāi)發(fā)。這種開(kāi)放式的發(fā)展模式有助于加速整個(gè)領(lǐng)域的技術(shù)進(jìn)步,同時(shí)也讓更多人能夠享受到先進(jìn)AI技術(shù)帶來(lái)的便利。
八、實(shí)際應(yīng)用前景:改變我們的工作和生活
InternVL3.5的能力預(yù)示著人工智能在實(shí)際應(yīng)用中的巨大潛力。在教育領(lǐng)域,這種系統(tǒng)可以成為智能導(dǎo)師,不僅能夠理解學(xué)生的問(wèn)題,還能分析相關(guān)的圖表、實(shí)驗(yàn)結(jié)果等視覺(jué)信息,提供更加全面和準(zhǔn)確的解答。
在醫(yī)療健康領(lǐng)域,系統(tǒng)的圖像理解和推理能力可以輔助醫(yī)生分析醫(yī)學(xué)影像,識(shí)別異常情況,甚至提供初步的診斷建議。當(dāng)然,這類(lèi)應(yīng)用需要嚴(yán)格的安全驗(yàn)證和監(jiān)管,但技術(shù)基礎(chǔ)已經(jīng)初步具備。
在商業(yè)應(yīng)用中,InternVL3.5可以成為智能客服助手,不僅能理解客戶(hù)的文字咨詢(xún),還能分析客戶(hù)上傳的圖片,比如產(chǎn)品照片、問(wèn)題截圖等,提供更加精準(zhǔn)的服務(wù)。這將大大提升客服效率和用戶(hù)體驗(yàn)。
對(duì)于內(nèi)容創(chuàng)作者來(lái)說(shuō),這種系統(tǒng)可以成為強(qiáng)大的創(chuàng)作助手。它能夠分析圖片內(nèi)容,生成相應(yīng)的文字描述,或者根據(jù)文字要求找到合適的圖片素材。這在新聞報(bào)道、社交媒體內(nèi)容制作、廣告設(shè)計(jì)等領(lǐng)域都有廣泛的應(yīng)用前景。
九、挑戰(zhàn)與發(fā)展方向:向更高智能邁進(jìn)
盡管InternVL3.5取得了顯著的進(jìn)展,但在通向更高級(jí)人工智能的路上仍然面臨諸多挑戰(zhàn)。首先是計(jì)算資源的需求。雖然系統(tǒng)已經(jīng)通過(guò)各種優(yōu)化技術(shù)提高了效率,但大規(guī)模模型仍然需要相當(dāng)多的計(jì)算資源,這限制了其在普通設(shè)備上的部署。
其次是理解的深度問(wèn)題。雖然系統(tǒng)能夠處理復(fù)雜的多模態(tài)任務(wù),但它的理解更多是基于模式識(shí)別和統(tǒng)計(jì)關(guān)聯(lián),而不是真正的概念理解。這意味著在面對(duì)一些需要常識(shí)推理或創(chuàng)造性思維的任務(wù)時(shí),系統(tǒng)可能仍然存在局限性。
另一個(gè)挑戰(zhàn)是安全性和可靠性。隨著AI系統(tǒng)能力的增強(qiáng),確保其行為的安全性和可預(yù)測(cè)性變得越來(lái)越重要。特別是在涉及重要決策或敏感信息的應(yīng)用場(chǎng)景中,需要建立完善的安全機(jī)制和監(jiān)督體系。
為了應(yīng)對(duì)這些挑戰(zhàn),研究團(tuán)隊(duì)正在多個(gè)方向上繼續(xù)努力。在技術(shù)層面,他們致力于開(kāi)發(fā)更高效的模型架構(gòu),減少計(jì)算資源需求的同時(shí)提升性能。在理解能力方面,研究重點(diǎn)轉(zhuǎn)向如何讓系統(tǒng)獲得更深層次的概念理解和推理能力。在安全性方面,則需要建立更完善的測(cè)試和驗(yàn)證機(jī)制。
十、對(duì)未來(lái)的展望:智能化生活的新篇章
InternVL3.5的發(fā)展代表了人工智能技術(shù)的一個(gè)重要里程碑,但它更像是通向未來(lái)智能化生活的一扇門(mén)。隨著技術(shù)的不斷發(fā)展和完善,我們可以期待看到更加智能、更加貼近人類(lèi)需求的AI系統(tǒng)。
在不遠(yuǎn)的將來(lái),這類(lèi)系統(tǒng)可能會(huì)成為我們?nèi)粘I钪胁豢苫蛉钡闹悄苤?。它們不僅能夠理解我們的語(yǔ)言和圖像,還能理解我們的意圖和情感,提供更加個(gè)性化和貼心的服務(wù)。比如,當(dāng)你在規(guī)劃旅行時(shí),AI助手能夠分析你上傳的風(fēng)景照片,理解你的喜好,并推薦類(lèi)似風(fēng)格的旅游目的地。
在工作場(chǎng)景中,這種智能系統(tǒng)將極大地提升工作效率。設(shè)計(jì)師可以通過(guò)簡(jiǎn)單的描述讓AI生成設(shè)計(jì)方案,研究人員可以讓AI幫助分析實(shí)驗(yàn)數(shù)據(jù)和文獻(xiàn),教師可以讓AI協(xié)助制作教學(xué)材料。這不是要取代人類(lèi)的工作,而是讓人類(lèi)能夠?qū)W⒂诟袆?chuàng)造性和價(jià)值的工作內(nèi)容。
從更宏觀的角度來(lái)看,InternVL3.5這類(lèi)技術(shù)的發(fā)展將推動(dòng)整個(gè)社會(huì)向智能化轉(zhuǎn)型。智能交通系統(tǒng)將更好地理解路況和行人行為,智能城市管理系統(tǒng)將更準(zhǔn)確地分析城市運(yùn)行狀態(tài),智能制造系統(tǒng)將更精準(zhǔn)地控制生產(chǎn)過(guò)程。
當(dāng)然,這種轉(zhuǎn)型也需要我們思考更多的社會(huì)問(wèn)題,比如如何確保技術(shù)發(fā)展的公平性,如何保護(hù)個(gè)人隱私,如何處理就業(yè)結(jié)構(gòu)的變化等。這些都需要技術(shù)開(kāi)發(fā)者、政策制定者和全社會(huì)的共同努力。
歸根結(jié)底,InternVL3.5的意義不僅在于它展示了當(dāng)前AI技術(shù)的最新成果,更在于它為我們描繪了一個(gè)更加智能、更加便捷的未來(lái)生活藍(lán)圖。雖然這個(gè)未來(lái)還需要時(shí)間來(lái)實(shí)現(xiàn),但技術(shù)的基礎(chǔ)正在穩(wěn)步建立,而且是以開(kāi)源的方式與全世界分享。這種開(kāi)放式的發(fā)展模式讓我們有理由相信,更先進(jìn)、更普惠的人工智能技術(shù)將會(huì)更快地惠及每一個(gè)人。
對(duì)于有興趣深入了解技術(shù)細(xì)節(jié)的讀者,可以訪問(wèn)研究團(tuán)隊(duì)提供的開(kāi)源代碼庫(kù)和模型,親自體驗(yàn)這項(xiàng)技術(shù)的能力。畢竟,最好的理解方式就是實(shí)際使用和體驗(yàn)。
Q&A
Q1:InternVL3.5相比其他AI系統(tǒng)有什么特別之處?
A:InternVL3.5的特別之處在于它采用了級(jí)聯(lián)強(qiáng)化學(xué)習(xí)方法,模仿人類(lèi)從基礎(chǔ)練習(xí)到實(shí)際應(yīng)用的學(xué)習(xí)過(guò)程,這讓它在推理任務(wù)上比傳統(tǒng)系統(tǒng)提升了16%。同時(shí)它還具備視覺(jué)分辨率路由器,能智能調(diào)節(jié)圖像處理精度,在保持性能的同時(shí)將處理速度提升4倍多,這種既聰明又高效的特點(diǎn)是其最大優(yōu)勢(shì)。
Q2:普通人可以如何使用InternVL3.5技術(shù)?
A:目前InternVL3.5是完全開(kāi)源的,技術(shù)人員可以通過(guò)GitHub獲取代碼進(jìn)行研究和開(kāi)發(fā)。對(duì)于普通用戶(hù)來(lái)說(shuō),雖然還不能直接使用,但基于這項(xiàng)技術(shù)的應(yīng)用產(chǎn)品正在開(kāi)發(fā)中。未來(lái)可能會(huì)出現(xiàn)智能辦公助手、教育輔導(dǎo)工具、內(nèi)容創(chuàng)作助手等產(chǎn)品,讓普通人也能享受到這種先進(jìn)的圖文理解和推理能力。
Q3:InternVL3.5在處理中文內(nèi)容方面表現(xiàn)如何?
A:InternVL3.5在多語(yǔ)言處理方面表現(xiàn)出色,特別是在中文理解上有很好的支持。系統(tǒng)能夠處理中文文本、理解中文圖像內(nèi)容,并進(jìn)行中英文之間的圖文匹配和推理。在CMMLU等中文基準(zhǔn)測(cè)試中,大型模型達(dá)到了90.2分的高分,顯示了強(qiáng)大的中文理解和處理能力,這對(duì)中文用戶(hù)來(lái)說(shuō)是個(gè)好消息。
好文章,需要你的鼓勵(lì)
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長(zhǎng)篇音頻故事。該系統(tǒng)結(jié)合大語(yǔ)言模型的敘事推理能力與音頻生成技術(shù),通過(guò)交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場(chǎng)景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開(kāi)辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過(guò)讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息,顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問(wèn)題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量,在多項(xiàng)測(cè)試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語(yǔ)言模型人性化對(duì)話問(wèn)題。該研究創(chuàng)建了包含20萬(wàn)高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評(píng)測(cè)基準(zhǔn),通過(guò)創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平,為AI價(jià)值觀對(duì)齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開(kāi)發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測(cè)模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過(guò)學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測(cè)方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來(lái)了效率和精度的雙重突破。