av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見(jiàn)證連接與計(jì)算的「力量」

首頁(yè) 多模態(tài)視覺(jué)語(yǔ)言模型的智能"減肥術(shù)":亞利桑那州立大學(xué)團(tuán)隊(duì)讓AI看圖說(shuō)話快2倍

多模態(tài)視覺(jué)語(yǔ)言模型的智能"減肥術(shù)":亞利桑那州立大學(xué)團(tuán)隊(duì)讓AI看圖說(shuō)話快2倍

2025-09-02 09:33
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-09-02 09:33 ? 科技行者

這項(xiàng)由亞利桑那州立大學(xué)的董思訓(xùn)、復(fù)旦大學(xué)的胡聚華、德克薩斯大學(xué)達(dá)拉斯分校的張冕、杜克大學(xué)的殷銘以及華盛頓大學(xué)的傅彥杰等研究人員共同完成的研究,發(fā)表于2025年8月的arXiv預(yù)印本平臺(tái)(論文編號(hào):arXiv:2508.18264)。對(duì)這項(xiàng)研究感興趣的讀者可以通過(guò)該編號(hào)在arXiv.org上訪問(wèn)完整論文。

想象你正在和朋友視頻聊天,朋友給你發(fā)了一張照片,然后問(wèn)你"這張圖片里有什么?"你的大腦會(huì)迅速掃描整張圖片,識(shí)別出重要的物體、人物和場(chǎng)景,然后用語(yǔ)言描述出來(lái)。這個(gè)過(guò)程看似簡(jiǎn)單,但當(dāng)我們?cè)噲D讓計(jì)算機(jī)做同樣的事情時(shí),問(wèn)題就變得復(fù)雜了。

目前最先進(jìn)的AI系統(tǒng),比如ChatGPT的視覺(jué)版本,能夠看圖說(shuō)話,回答關(guān)于圖片內(nèi)容的問(wèn)題。這些被稱(chēng)為"視覺(jué)語(yǔ)言模型"的AI系統(tǒng)工作起來(lái)就像一個(gè)極其細(xì)致的觀察者:它們會(huì)把一張圖片切割成成千上萬(wàn)個(gè)小方塊,每個(gè)小方塊都被轉(zhuǎn)換成一串?dāng)?shù)字(稱(chēng)為"視覺(jué)令牌"),然后AI會(huì)逐一分析這些數(shù)字來(lái)理解圖片內(nèi)容。

但是這里有個(gè)問(wèn)題:這些AI系統(tǒng)實(shí)在太"啰嗦"了。拿一張普通的手機(jī)照片來(lái)說(shuō),AI可能需要處理2880個(gè)視覺(jué)令牌,而你問(wèn)的問(wèn)題"描述這張圖片"可能只有不到10個(gè)文字令牌。就好比你讓一個(gè)人描述一道菜,結(jié)果他要把這道菜拆解成幾千個(gè)分子來(lái)分析,效率自然低得可怕。

更要命的是,這些AI系統(tǒng)的"注意力機(jī)制"(決定重點(diǎn)關(guān)注什么的系統(tǒng))需要處理所有令牌之間的關(guān)系,計(jì)算量隨著令牌數(shù)量呈幾何級(jí)數(shù)增長(zhǎng)。這就像一個(gè)會(huì)議室里有1000個(gè)人,每個(gè)人都要和其他999個(gè)人一一交流,你可以想象這會(huì)有多混亂和低效。

研究團(tuán)隊(duì)意識(shí)到,現(xiàn)有的解決方案存在一個(gè)根本缺陷:它們要么只關(guān)注圖片信息(視覺(jué)模態(tài)),要么只關(guān)注文字信息(文本模態(tài)),就像一個(gè)只用一只眼睛看世界的人。但真正的多模態(tài)任務(wù)需要同時(shí)考慮圖片和文字的信息。比如同一張貓的照片,如果問(wèn)題是"這是什么動(dòng)物?"和"貓站在什么顏色的地毯上?",需要關(guān)注的視覺(jué)區(qū)域就完全不同。

基于這個(gè)洞察,研究團(tuán)隊(duì)開(kāi)發(fā)了一種名為MMTok的新方法,這個(gè)名字來(lái)源于"多模態(tài)令牌"(Multimodal Token)的縮寫(xiě)。MMTok的核心思想可以用"智能裁縫"來(lái)比喻:就像一個(gè)好裁縫會(huì)根據(jù)客戶的身材和需求來(lái)設(shè)計(jì)衣服,MMTok會(huì)根據(jù)具體的問(wèn)題和圖片內(nèi)容來(lái)選擇最重要的視覺(jué)信息。

一、覆蓋度最大化:從"大海撈針"到"精準(zhǔn)定位"

MMTok方法的核心理念基于一個(gè)叫"覆蓋度最大化"的數(shù)學(xué)概念。用通俗的話來(lái)說(shuō),就是用最少的資源覆蓋最多的重要信息。這就像你要用有限的探照燈來(lái)照亮一個(gè)黑暗的倉(cāng)庫(kù),你會(huì)選擇那些能照亮最多重要物品的位置放置探照燈。

在傳統(tǒng)方法中,AI就像一個(gè)不知道重點(diǎn)的學(xué)生,面對(duì)一本教科書(shū)時(shí)試圖記住每一個(gè)字,包括頁(yè)碼和標(biāo)點(diǎn)符號(hào)。而MMTok更像一個(gè)聰明的學(xué)生,知道根據(jù)考試重點(diǎn)來(lái)劃重點(diǎn),把注意力集中在最關(guān)鍵的內(nèi)容上。

具體來(lái)說(shuō),MMTok將這個(gè)選擇過(guò)程表述為一個(gè)數(shù)學(xué)優(yōu)化問(wèn)題。系統(tǒng)會(huì)計(jì)算每個(gè)視覺(jué)令牌與目標(biāo)令牌(包括文本問(wèn)題和其他重要視覺(jué)信息)之間的相似度,然后通過(guò)一種叫"貪心算法"的方法來(lái)選擇最優(yōu)的令牌組合。這種算法雖然不能保證找到絕對(duì)最優(yōu)解,但能保證找到的解至少是最優(yōu)解的63%以上,這在實(shí)際應(yīng)用中已經(jīng)非常高效了。

二、雙重覆蓋策略:文字引導(dǎo)與視覺(jué)完整性并重

MMTok的獨(dú)特之處在于它采用了兩種互補(bǔ)的覆蓋策略,就像一個(gè)優(yōu)秀的攝影師既要考慮客戶的要求,也要保證照片的整體美感。

第一種策略是"文本-視覺(jué)覆蓋"。當(dāng)你問(wèn)AI"這張圖片里的貓?jiān)谧鍪裁矗?時(shí),系統(tǒng)會(huì)優(yōu)先選擇那些與"貓"和"動(dòng)作"相關(guān)的視覺(jué)區(qū)域。這就像在一張全家福中,如果有人問(wèn)"小明在哪里?",你的眼睛會(huì)自動(dòng)鎖定到小明的位置,而不是平均分配注意力到每個(gè)人身上。

第二種策略是"視覺(jué)-視覺(jué)覆蓋"。這種策略確保即使在沒(méi)有明確文字指引的情況下,AI也能保留圖片中最重要的視覺(jué)信息。比如面對(duì)一個(gè)模糊的問(wèn)題"描述這張圖片",系統(tǒng)仍然能識(shí)別出圖片中的主要物體、顏色和空間關(guān)系。這就像一個(gè)優(yōu)秀的導(dǎo)游,即使游客沒(méi)有提出具體問(wèn)題,也知道重點(diǎn)介紹景點(diǎn)的核心特色。

為了平衡這兩種策略,研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)巧妙的融合機(jī)制。他們使用軟最大化函數(shù)(softmax)來(lái)標(biāo)準(zhǔn)化不同模態(tài)之間的相似度分?jǐn)?shù),就像把不同單位的測(cè)量結(jié)果(米、英寸、厘米)轉(zhuǎn)換成統(tǒng)一的標(biāo)準(zhǔn)。然后通過(guò)一個(gè)權(quán)重參數(shù)α來(lái)控制兩種策略的重要性比例。

這種雙重策略的好處在實(shí)驗(yàn)中得到了明確驗(yàn)證。單獨(dú)使用文本-視覺(jué)覆蓋的準(zhǔn)確率為93.7%,單獨(dú)使用視覺(jué)-視覺(jué)覆蓋為94.7%,而兩者結(jié)合后達(dá)到了96.6%,證明了兩種策略確實(shí)具有互補(bǔ)性。

三、智能代理增強(qiáng):讓AI"未卜先知"

MMTok還包含一個(gè)可選但非常巧妙的功能:使用一個(gè)輕量級(jí)的AI代理來(lái)增強(qiáng)文本信息。這個(gè)代理就像一個(gè)經(jīng)驗(yàn)豐富的助手,能夠預(yù)先分析問(wèn)題和圖片,然后提供更豐富的上下文信息。

舉個(gè)例子,當(dāng)用戶簡(jiǎn)單地問(wèn)"描述這張圖片"時(shí),這個(gè)問(wèn)題本身包含的信息很少。但智能代理會(huì)先快速掃描圖片,生成一個(gè)初步的描述,比如"一只橘色的貓坐在藍(lán)色的沙發(fā)上"。然后系統(tǒng)會(huì)結(jié)合原始問(wèn)題和這個(gè)初步描述來(lái)選擇視覺(jué)令牌,就像有了一個(gè)更詳細(xì)的"購(gòu)物清單"。

這個(gè)代理使用的是一個(gè)小型的視覺(jué)語(yǔ)言模型(SmolVLM2-256M),它的體積只有主模型的一小部分,但足以提供有用的補(bǔ)充信息。更重要的是,這個(gè)代理可以在主系統(tǒng)處理之前并行運(yùn)行,所以不會(huì)顯著增加總的處理時(shí)間。

實(shí)驗(yàn)結(jié)果顯示,在某些任務(wù)上,使用代理增強(qiáng)的MMTokAgent版本比基礎(chǔ)版本有進(jìn)一步的性能提升。例如在VQA任務(wù)上提升了0.1-0.2%,在MME任務(wù)上提升更為明顯。不過(guò)研究團(tuán)隊(duì)也發(fā)現(xiàn),代理的幫助程度取決于任務(wù)類(lèi)型。對(duì)于多選題這樣的結(jié)構(gòu)化任務(wù),代理的簡(jiǎn)短回答(如"A")可能不夠有信息量。

四、算法實(shí)現(xiàn):優(yōu)雅的數(shù)學(xué)與高效的工程

MMTok的算法實(shí)現(xiàn)體現(xiàn)了理論優(yōu)雅性與工程實(shí)用性的完美結(jié)合。整個(gè)算法的核心是一個(gè)簡(jiǎn)單而高效的貪心搜索過(guò)程,就像在一個(gè)巨大的拼圖中,每次都選擇最匹配的那一片。

算法的工作流程可以比作一個(gè)精明的購(gòu)物者在超市選購(gòu)。首先,系統(tǒng)會(huì)計(jì)算每個(gè)候選視覺(jué)令牌的"性價(jià)比"——它能為整體目標(biāo)貢獻(xiàn)多少價(jià)值。然后從所有候選中選擇貢獻(xiàn)最大的那一個(gè),將其加入已選集合。接著重新計(jì)算剩余候選的貢獻(xiàn)度(因?yàn)橐呀?jīng)選擇了一個(gè),其他候選的相對(duì)價(jià)值會(huì)發(fā)生變化),再選擇下一個(gè)最優(yōu)的。這個(gè)過(guò)程重復(fù)進(jìn)行,直到達(dá)到預(yù)設(shè)的令牌數(shù)量預(yù)算。

這種貪心策略的數(shù)學(xué)基礎(chǔ)是子模函數(shù)的性質(zhì)。子模函數(shù)具有"遞減邊際效用"的特點(diǎn),就像吃披薩一樣——第一片最香,第二片稍差,第三片更差。這個(gè)性質(zhì)保證了貪心算法能夠找到質(zhì)量很高的近似解。

在實(shí)際實(shí)現(xiàn)中,研究團(tuán)隊(duì)還考慮了許多工程細(xì)節(jié)。比如他們發(fā)現(xiàn)不同層的視覺(jué)特征適合不同的任務(wù):投影層前的特征更適合計(jì)算視覺(jué)-視覺(jué)相似度(因?yàn)楸3至嗽家曈X(jué)信息的完整性),而投影層后的特征更適合文本-視覺(jué)相似度計(jì)算(因?yàn)橐呀?jīng)對(duì)齊到文本空間)。

五、實(shí)驗(yàn)驗(yàn)證:從理論到實(shí)踐的全面檢驗(yàn)

研究團(tuán)隊(duì)在9個(gè)不同的基準(zhǔn)數(shù)據(jù)集上進(jìn)行了全面的實(shí)驗(yàn)驗(yàn)證,這些數(shù)據(jù)集涵蓋了視覺(jué)語(yǔ)言理解的各個(gè)方面,從簡(jiǎn)單的物體識(shí)別到復(fù)雜的推理任務(wù)。實(shí)驗(yàn)使用了5種不同的主流視覺(jué)語(yǔ)言模型,包括LLaVA-1.5、LLaVA-NeXT和Qwen-2.5-VL等,確保了結(jié)果的普適性。

在LLaVA-1.5-7B上的結(jié)果最為令人印象深刻。當(dāng)令牌數(shù)量從576減少到只有64個(gè)(減少89%)時(shí),MMTok仍然保持了96.5%的原始性能。這相當(dāng)于一個(gè)原本需要看1000張照片的人,現(xiàn)在只看100張就能做出同樣準(zhǔn)確的判斷。

更極端的測(cè)試中,研究團(tuán)隊(duì)將令牌數(shù)量壓縮到只有4個(gè)。這就像讓一個(gè)人只通過(guò)4個(gè)關(guān)鍵詞來(lái)描述整個(gè)電影情節(jié)。即使在如此嚴(yán)苛的條件下,MMTok仍然保持了87.7%的原始性能,遠(yuǎn)超其他方法。

在效率測(cè)試中,MMTok在POPE數(shù)據(jù)集上實(shí)現(xiàn)了1.87倍的速度提升,同時(shí)保持98.7%的原始性能。這種提升體現(xiàn)在多個(gè)方面:GPU利用率從86.7%降低到58.0%,內(nèi)存使用減少了一半以上,推理時(shí)間縮短了近50%。

特別值得注意的是,MMTok在不同架構(gòu)的模型上都表現(xiàn)出了穩(wěn)定的優(yōu)勢(shì)。無(wú)論是固定令牌數(shù)量的模型(如LLaVA-1.5)還是動(dòng)態(tài)令牌數(shù)量的模型(如LLaVA-NeXT),MMTok都能顯著超越現(xiàn)有的基準(zhǔn)方法。

六、深度分析:為什么多模態(tài)方法更有效

為了深入理解MMTok的優(yōu)勢(shì)來(lái)源,研究團(tuán)隊(duì)進(jìn)行了詳細(xì)的對(duì)比分析。他們將各種方法按照使用的信息類(lèi)型分為幾類(lèi):純視覺(jué)方法(如VisionZip)、純文本方法(如SparseVLM)、多樣性方法(如DivPrune)和多模態(tài)方法(MMTok)。

結(jié)果顯示,多模態(tài)方法的優(yōu)勢(shì)隨著任務(wù)難度增加而更加明顯。在相對(duì)簡(jiǎn)單的任務(wù)中,不同方法的差距較小,但在復(fù)雜任務(wù)中,MMTok的優(yōu)勢(shì)顯著放大。這說(shuō)明多模態(tài)信息融合在處理復(fù)雜視覺(jué)語(yǔ)言理解任務(wù)時(shí)具有獨(dú)特價(jià)值。

研究團(tuán)隊(duì)還引入了"圖像貢獻(xiàn)度"(IC)的概念來(lái)量化不同任務(wù)對(duì)視覺(jué)信息的依賴(lài)程度。他們發(fā)現(xiàn),在高IC任務(wù)(即高度依賴(lài)視覺(jué)信息的任務(wù))上,MMTok的優(yōu)勢(shì)最為突出。這驗(yàn)證了方法設(shè)計(jì)的合理性:當(dāng)任務(wù)真正需要理解視覺(jué)內(nèi)容時(shí),多模態(tài)方法能夠更準(zhǔn)確地選擇相關(guān)信息。

七、技術(shù)創(chuàng)新:從工程優(yōu)化到理論突破

MMTok的技術(shù)貢獻(xiàn)不僅僅是工程實(shí)現(xiàn)的優(yōu)化,更代表了對(duì)多模態(tài)學(xué)習(xí)本質(zhì)的深入理解。傳統(tǒng)方法往往將多模態(tài)問(wèn)題簡(jiǎn)化為單模態(tài)子問(wèn)題的組合,而MMTok真正實(shí)現(xiàn)了跨模態(tài)信息的協(xié)同優(yōu)化。

在數(shù)學(xué)層面,MMTok將令牌選擇問(wèn)題優(yōu)雅地轉(zhuǎn)化為了最大覆蓋問(wèn)題,這是一個(gè)有著深厚理論基礎(chǔ)的經(jīng)典優(yōu)化問(wèn)題。通過(guò)這種轉(zhuǎn)化,復(fù)雜的啟發(fā)式選擇策略被替換為有理論保證的近似算法,大大提高了方法的可靠性和可預(yù)測(cè)性。

在算法層面,MMTok設(shè)計(jì)了創(chuàng)新的多目標(biāo)優(yōu)化框架,能夠同時(shí)考慮文本引導(dǎo)和視覺(jué)完整性兩個(gè)看似矛盾的目標(biāo)。這種設(shè)計(jì)思路為未來(lái)的多模態(tài)優(yōu)化問(wèn)題提供了有價(jià)值的參考。

在系統(tǒng)層面,MMTok展示了如何在保持高性能的同時(shí)顯著提升效率。這種效率提升不是通過(guò)犧牲質(zhì)量換取速度,而是通過(guò)更智能的信息選擇策略實(shí)現(xiàn)的雙贏。

八、實(shí)際應(yīng)用:從實(shí)驗(yàn)室到現(xiàn)實(shí)世界

MMTok的價(jià)值不僅體現(xiàn)在學(xué)術(shù)指標(biāo)的提升上,更在于其廣泛的實(shí)際應(yīng)用潛力。在移動(dòng)設(shè)備上,內(nèi)存和計(jì)算資源都非常有限,MMTok能讓高質(zhì)量的視覺(jué)語(yǔ)言AI在手機(jī)上流暢運(yùn)行。在云服務(wù)中,MMTok能顯著降低服務(wù)器成本,讓AI服務(wù)提供商能夠以更低的價(jià)格服務(wù)更多用戶。

在教育場(chǎng)景中,MMTok可以為在線學(xué)習(xí)平臺(tái)提供更高效的圖片理解功能,幫助學(xué)生快速獲得學(xué)習(xí)材料中圖像的詳細(xì)解釋。在醫(yī)療領(lǐng)域,MMTok可以幫助醫(yī)生更快速地分析醫(yī)學(xué)影像,同時(shí)保持高精度。在自動(dòng)駕駛領(lǐng)域,MMTok的高效性能讓實(shí)時(shí)場(chǎng)景理解成為可能。

更重要的是,MMTok的訓(xùn)練無(wú)關(guān)特性使其能夠即插即用地集成到現(xiàn)有系統(tǒng)中,無(wú)需重新訓(xùn)練模型或調(diào)整系統(tǒng)架構(gòu)。這大大降低了技術(shù)采用的門(mén)檻和成本。

研究團(tuán)隊(duì)的實(shí)驗(yàn)涵蓋了從學(xué)術(shù)評(píng)測(cè)到實(shí)際部署的完整驗(yàn)證鏈條。在真實(shí)的GPU服務(wù)器上,MMTok不僅理論上節(jié)省了計(jì)算資源,實(shí)際運(yùn)行時(shí)間也確實(shí)得到了顯著縮短。在H100 GPU上,處理相同數(shù)量的任務(wù),MMTok比傳統(tǒng)方法快了近50%,這種提升在商業(yè)部署中具有直接的經(jīng)濟(jì)價(jià)值。

九、技術(shù)局限與未來(lái)方向

盡管MMTok取得了顯著成功,研究團(tuán)隊(duì)也坦誠(chéng)地討論了方法的局限性和改進(jìn)空間。目前MMTok主要關(guān)注輸入階段的令牌優(yōu)化,但在推理過(guò)程中,語(yǔ)言模型內(nèi)部仍然會(huì)生成大量中間令牌。未來(lái)的研究方向之一是將覆蓋度優(yōu)化擴(kuò)展到推理過(guò)程中,實(shí)現(xiàn)端到端的效率提升。

另一個(gè)重要方向是自適應(yīng)令牌分配。目前MMTok使用固定的令牌預(yù)算,但不同難度的任務(wù)可能需要不同數(shù)量的視覺(jué)信息。智能的預(yù)算分配機(jī)制能夠進(jìn)一步提升整體效率。

研究團(tuán)隊(duì)還指出,當(dāng)前的相似度計(jì)算主要基于特征空間的幾何距離,但這可能無(wú)法完全捕捉語(yǔ)義相關(guān)性。融入更多語(yǔ)義信息的相似度度量是另一個(gè)有前景的研究方向。

在多模態(tài)融合方面,當(dāng)前的簡(jiǎn)單線性組合可能不是最優(yōu)選擇。更復(fù)雜的融合機(jī)制,比如注意力機(jī)制驅(qū)動(dòng)的動(dòng)態(tài)權(quán)重分配,可能會(huì)帶來(lái)進(jìn)一步的性能提升。

十、對(duì)AI發(fā)展的更廣泛意義

MMTok的成功反映了AI發(fā)展中的一個(gè)重要趨勢(shì):從追求模型規(guī)模的擴(kuò)大轉(zhuǎn)向追求資源使用的優(yōu)化。在大模型時(shí)代,如何讓AI系統(tǒng)在保持強(qiáng)大能力的同時(shí)變得更加高效,是整個(gè)領(lǐng)域都在思考的核心問(wèn)題。

這項(xiàng)研究還展示了跨學(xué)科思維在AI研究中的價(jià)值。通過(guò)將計(jì)算機(jī)視覺(jué)問(wèn)題轉(zhuǎn)化為經(jīng)典的組合優(yōu)化問(wèn)題,研究團(tuán)隊(duì)巧妙地利用了運(yùn)籌學(xué)中的成熟理論,為AI問(wèn)題找到了新的解決路徑。

從方法論角度看,MMTok體現(xiàn)了"少即是多"的設(shè)計(jì)哲學(xué)。通過(guò)智能地選擇最重要的信息,而不是盲目地處理所有可能的信息,系統(tǒng)能夠在效率和效果之間找到更好的平衡點(diǎn)。這種思路對(duì)其他AI系統(tǒng)的設(shè)計(jì)也有借鑒意義。

MMTok的開(kāi)源特性也值得稱(chēng)贊。研究團(tuán)隊(duì)不僅發(fā)布了完整的代碼和實(shí)驗(yàn)數(shù)據(jù),還提供了詳細(xì)的使用指南,讓其他研究者和開(kāi)發(fā)者能夠輕松復(fù)現(xiàn)和改進(jìn)這項(xiàng)工作。這種開(kāi)放的研究態(tài)度有助于整個(gè)領(lǐng)域的快速發(fā)展。

歸根結(jié)底,MMTok代表了AI效率優(yōu)化領(lǐng)域的一個(gè)重要里程碑。它不僅解決了視覺(jué)語(yǔ)言模型的實(shí)際問(wèn)題,更為未來(lái)的多模態(tài)AI系統(tǒng)設(shè)計(jì)提供了寶貴的思路和方法。隨著AI應(yīng)用的不斷普及,這類(lèi)效率優(yōu)化技術(shù)將變得越來(lái)越重要。相信在不久的將來(lái),我們會(huì)在各種實(shí)際應(yīng)用中看到MMTok技術(shù)的身影,讓AI系統(tǒng)變得更加智能、高效和易用。

Q&A

Q1:MMTok是什么技術(shù)?它主要解決什么問(wèn)題?

A:MMTok是由亞利桑那州立大學(xué)等機(jī)構(gòu)開(kāi)發(fā)的視覺(jué)語(yǔ)言模型加速技術(shù)。它主要解決AI看圖說(shuō)話時(shí)處理信息過(guò)多、運(yùn)行太慢的問(wèn)題。就像讓AI從處理幾千個(gè)圖片細(xì)節(jié)變成只關(guān)注幾十個(gè)關(guān)鍵信息,速度提升近2倍但準(zhǔn)確度幾乎不變。

Q2:MMTok與現(xiàn)有的AI優(yōu)化方法有什么不同?

A:現(xiàn)有方法要么只看圖片信息,要么只看文字信息,就像用一只眼睛看世界。MMTok的創(chuàng)新在于同時(shí)考慮圖片和文字信息來(lái)選擇重點(diǎn),就像用雙眼看世界更準(zhǔn)確。它還用數(shù)學(xué)優(yōu)化理論保證選擇質(zhì)量,而不是簡(jiǎn)單的經(jīng)驗(yàn)規(guī)則。

Q3:普通用戶能用上MMTok技術(shù)嗎?什么時(shí)候能普及?

A:MMTok是底層技術(shù),普通用戶不能直接使用,但會(huì)通過(guò)AI產(chǎn)品間接受益。由于它是訓(xùn)練無(wú)關(guān)的技術(shù),現(xiàn)有的AI系統(tǒng)可以直接集成,無(wú)需重新開(kāi)發(fā)。預(yù)計(jì)在手機(jī)AI助手、在線教育、醫(yī)療影像等領(lǐng)域會(huì)較快看到應(yīng)用。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-