這項(xiàng)由Hugging Face和斯坦福大學(xué)的Andrés Marafioti、Orr Zohar、Miquel Farré等十多位研究者共同完成的重磅研究,發(fā)表于2025年4月7日的arXiv預(yù)印本平臺(tái)。感興趣的讀者可以通過(guò)arXiv:2504.05299v1訪問(wèn)完整論文,相關(guān)代碼和模型已在Hugging Face社區(qū)開(kāi)源發(fā)布。
你有沒(méi)有想過(guò),一個(gè)比手機(jī)應(yīng)用還小的AI,居然能看懂圖片、理解視頻,甚至回答復(fù)雜問(wèn)題?更讓人驚訝的是,這個(gè)"小不點(diǎn)"的表現(xiàn)竟然比那些需要占用幾十GB內(nèi)存的龐然大物還要出色。Hugging Face的研究團(tuán)隊(duì)就創(chuàng)造了這樣一個(gè)奇跡——他們開(kāi)發(fā)的SmolVLM系列模型,最小的版本只有256MB,運(yùn)行時(shí)占用的顯存還不到1GB,但性能卻能超越18個(gè)月前那些參數(shù)量是它300倍的大型模型。
傳統(tǒng)的視覺(jué)語(yǔ)言模型就像是一臺(tái)需要整個(gè)車庫(kù)才能放下的超級(jí)計(jì)算機(jī),雖然功能強(qiáng)大,但普通人根本無(wú)法在家中使用。而SmolVLM就像是把這臺(tái)超級(jí)計(jì)算機(jī)的核心功能塞進(jìn)了一臺(tái)筆記本電腦里,不僅攜帶方便,性能還絲毫不打折扣。研究團(tuán)隊(duì)通過(guò)巧妙的架構(gòu)設(shè)計(jì)、精明的數(shù)據(jù)處理策略,以及創(chuàng)新的訓(xùn)練方法,徹底顛覆了"模型越大越好"的傳統(tǒng)觀念。
更令人興奮的是,SmolVLM不僅能處理靜態(tài)圖片,還具備出色的視頻理解能力。無(wú)論是識(shí)別圖片中的文字、理解圖表數(shù)據(jù)、回答科學(xué)問(wèn)題,還是分析視頻內(nèi)容、理解時(shí)間序列,這個(gè)"小家伙"都能勝任。研究團(tuán)隊(duì)甚至開(kāi)發(fā)了一個(gè)手機(jī)應(yīng)用,讓SmolVLM可以直接在智能手機(jī)上運(yùn)行,真正實(shí)現(xiàn)了"人人都能擁有的AI助手"。
一、從大而笨重到小而精巧:SmolVLM的設(shè)計(jì)智慧
要理解SmolVLM的革命性意義,我們先來(lái)看看傳統(tǒng)視覺(jué)語(yǔ)言模型面臨的困境。過(guò)去的研究就像在建造越來(lái)越大的圖書館,以為書越多就越聰明,結(jié)果建出來(lái)的圖書館雖然藏書豐富,但普通人既找不到地方放置,也沒(méi)有足夠的資源來(lái)維護(hù)運(yùn)營(yíng)。
SmolVLM的設(shè)計(jì)哲學(xué)完全不同,研究團(tuán)隊(duì)的策略更像是打造一個(gè)精品書店——雖然書的數(shù)量不多,但每一本都經(jīng)過(guò)精心挑選,布局合理,讀者能夠快速找到想要的信息。他們發(fā)現(xiàn),對(duì)于小型模型來(lái)說(shuō),關(guān)鍵不在于擁有多少參數(shù),而在于如何讓這些參數(shù)發(fā)揮最大效用。
在架構(gòu)設(shè)計(jì)上,SmolVLM采用了一種分工合作的策略。整個(gè)系統(tǒng)就像一個(gè)高效的工廠流水線:首先有一個(gè)專門負(fù)責(zé)"看圖"的視覺(jué)編碼器,它就像工廠里的質(zhì)檢員,負(fù)責(zé)仔細(xì)觀察輸入的圖片或視頻;然后有一個(gè)像素重排模塊,相當(dāng)于包裝工,把視覺(jué)信息整理成后續(xù)處理更容易消化的格式;最后是語(yǔ)言模型部分,就像工廠里的產(chǎn)品說(shuō)明書撰寫員,負(fù)責(zé)用人類能理解的語(yǔ)言描述所看到的內(nèi)容。
研究團(tuán)隊(duì)最聰明的地方在于找到了視覺(jué)編碼器和語(yǔ)言模型之間的最佳配比。他們發(fā)現(xiàn),對(duì)于小型模型來(lái)說(shuō),使用一個(gè)相對(duì)較小的視覺(jué)編碼器(93M參數(shù)的SigLIP-B/16)搭配適中的語(yǔ)言模型,比使用大型視覺(jué)編碼器搭配小型語(yǔ)言模型效果更好。這就好比組建一個(gè)樂(lè)隊(duì),與其讓一個(gè)世界級(jí)的鋼琴家搭配業(yè)余歌手,不如讓兩個(gè)都很優(yōu)秀但更加協(xié)調(diào)的音樂(lè)家合作,最終的演出效果反而更佳。
二、巧妙的圖像處理:讓AI用更少看到更多
SmolVLM在圖像處理方面的創(chuàng)新就像是給AI裝上了一副特殊的眼鏡,讓它能夠用更高效的方式"觀看"世界。傳統(tǒng)模型處理圖像時(shí),就像用放大鏡逐個(gè)檢查圖片的每一個(gè)像素點(diǎn),這種方法雖然細(xì)致,但效率極低,很快就會(huì)被海量的信息淹沒(méi)。
研究團(tuán)隊(duì)引入了一種叫做"像素重排"的技術(shù),這個(gè)過(guò)程就像是重新整理一個(gè)凌亂的書架。原本散亂分布的像素信息被重新組織,空間分辨率降低了,但信息密度卻大大提升。打個(gè)比方,這就像把一張大海報(bào)壓縮成一張精美的明信片,雖然尺寸變小了,但重要信息一點(diǎn)都沒(méi)有丟失,反而更容易攜帶和處理。
更令人驚訝的是,研究團(tuán)隊(duì)發(fā)現(xiàn)小型模型實(shí)際上更適合使用激進(jìn)的壓縮策略。傳統(tǒng)模型通常使用2倍壓縮,而SmolVLM可以使用4倍壓縮而不損失性能。這種現(xiàn)象的原因很有意思:小型模型的"注意力"是有限的,與其讓它分散精力處理大量細(xì)節(jié),不如讓它專注于最重要的信息。這就像是讓一個(gè)學(xué)生在有限的時(shí)間內(nèi)學(xué)習(xí),與其讓他囫圇吞棗地讀完整本教科書,不如讓他專心掌握核心概念和重點(diǎn)內(nèi)容。
對(duì)于高分辨率圖像,SmolVLM采用了圖像分割策略。當(dāng)遇到一張大圖片時(shí),系統(tǒng)會(huì)像拼圖游戲一樣將其分割成若干小塊,同時(shí)保留一個(gè)縮略版本作為全局參考。這樣既能捕捉到細(xì)節(jié)信息,又不會(huì)因?yàn)樾畔⒘窟^(guò)大而"消化不良"。這種方法特別適合處理文檔、圖表這類需要精確識(shí)別的內(nèi)容。
三、視頻理解的智慧:時(shí)間就是效率
在視頻處理方面,SmolVLM展現(xiàn)出了與眾不同的"時(shí)間智慧"。許多傳統(tǒng)方法試圖通過(guò)幀平均化來(lái)減少計(jì)算量,就像把連續(xù)的電影畫面混合成一幅靜態(tài)圖片。但研究團(tuán)隊(duì)發(fā)現(xiàn),這種做法對(duì)小型模型來(lái)說(shuō)是適得其反的,反而會(huì)損害理解能力。
相反,SmolVLM選擇了一種更加直接的策略:保持每一幀的獨(dú)立性,但將它們調(diào)整到合適的分辨率進(jìn)行處理。這就像是觀看幻燈片演示,每一張幻燈片都清晰可見(jiàn),觀眾能夠理解前后之間的邏輯關(guān)系和時(shí)間變化。
研究團(tuán)隊(duì)還發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象:適度增加訓(xùn)練時(shí)的視頻長(zhǎng)度不僅能提升視頻理解能力,還能改善靜態(tài)圖像的處理效果。他們將平均視頻長(zhǎng)度從1.5分鐘逐步增加到3.5分鐘,發(fā)現(xiàn)這是一個(gè)"甜蜜點(diǎn)"——再長(zhǎng)的視頻帶來(lái)的收益就會(huì)遞減。這種現(xiàn)象說(shuō)明視頻和圖像的理解能力是相互促進(jìn)的,多模態(tài)學(xué)習(xí)確實(shí)存在協(xié)同效應(yīng)。
四、訓(xùn)練數(shù)據(jù)的精心配置:少而精的哲學(xué)
SmolVLM的訓(xùn)練過(guò)程體現(xiàn)了"少而精"的哲學(xué)。研究團(tuán)隊(duì)發(fā)現(xiàn),對(duì)于小型模型來(lái)說(shuō),數(shù)據(jù)質(zhì)量遠(yuǎn)比數(shù)量重要。他們的發(fā)現(xiàn)顛覆了許多傳統(tǒng)做法。
首先,他們發(fā)現(xiàn)重復(fù)使用大型語(yǔ)言模型的文本數(shù)據(jù)實(shí)際上會(huì)損害小型多模態(tài)模型的性能。這就像是讓一個(gè)小學(xué)生去學(xué)習(xí)研究生課程,不僅學(xué)不會(huì),還可能被復(fù)雜的內(nèi)容搞得更加困惑。研究團(tuán)隊(duì)堅(jiān)持使用新鮮的、專門為多模態(tài)任務(wù)設(shè)計(jì)的文本數(shù)據(jù),效果顯著提升。
其次,他們發(fā)現(xiàn)思維鏈(Chain-of-Thought)數(shù)據(jù)對(duì)小型模型來(lái)說(shuō)是一把雙刃劍。少量的思維鏈數(shù)據(jù)(約0.02-0.05%)能夠提升推理能力,但過(guò)多反而會(huì)"壓垮"模型的有限容量。這就像是給一個(gè)初學(xué)者適量的解題思路提示是有幫助的,但如果提供過(guò)多復(fù)雜的推理步驟,反而會(huì)讓學(xué)習(xí)者感到困惑。
在位置編碼方面,研究團(tuán)隊(duì)發(fā)現(xiàn)了"OCR丟失困境"——當(dāng)使用簡(jiǎn)單的字符串標(biāo)記來(lái)表示圖像分塊位置時(shí),小型模型會(huì)出現(xiàn)訓(xùn)練停滯現(xiàn)象。他們創(chuàng)新性地引入了學(xué)習(xí)位置標(biāo)記,讓模型自己學(xué)會(huì)如何理解空間關(guān)系,這種方法顯著提升了文字識(shí)別和文檔理解能力。
五、三個(gè)層次的SmolVLM:各有所長(zhǎng)的AI家族
研究團(tuán)隊(duì)貼心地開(kāi)發(fā)了三個(gè)不同規(guī)模的SmolVLM版本,就像是為不同需求的用戶準(zhǔn)備了三種不同配置的汽車。
最小的SmolVLM-256M就像是一輛精巧的小型車,雖然體積最小,但五臟俱全。它只有256M參數(shù),運(yùn)行時(shí)的顯存占用不到1GB,完全可以在普通智能手機(jī)上流暢運(yùn)行。別看它小,在許多任務(wù)上的表現(xiàn)卻能夠超越那些大300倍的傳統(tǒng)模型,特別適合移動(dòng)設(shè)備和邊緣計(jì)算場(chǎng)景。
中等規(guī)模的SmolVLM-500M就像是一輛實(shí)用的緊湊型轎車,在保持高效率的同時(shí)提供了更強(qiáng)的性能。它使用相同的視覺(jué)編碼器,但搭配了更大的語(yǔ)言模型(360M參數(shù)),在圖像理解和文字識(shí)別方面有顯著提升,運(yùn)行時(shí)只需要1.2GB顯存,依然非常適合資源受限的環(huán)境。
最大的SmolVLM-2.2B則像是一輛高性能轎車,在保持相對(duì)緊湊的同時(shí)追求卓越性能。它使用了更強(qiáng)大的視覺(jué)編碼器(400M參數(shù))和語(yǔ)言模型(1.7B參數(shù)),在各種復(fù)雜任務(wù)上都表現(xiàn)出色,運(yùn)行時(shí)需要4.9GB顯存,雖然比前兩個(gè)版本要求更高,但相比傳統(tǒng)大型模型仍然非常高效。
六、性能測(cè)試:小身材的大能耐
SmolVLM在各種標(biāo)準(zhǔn)測(cè)試中的表現(xiàn)堪稱驚艷。在文字識(shí)別任務(wù)中,最小的256M版本在OCRBench測(cè)試中獲得了52.6%的成績(jī),而500M版本達(dá)到了61.0%,最大的2.2B版本更是達(dá)到了72.9%。要知道,許多參數(shù)量大得多的傳統(tǒng)模型在這項(xiàng)測(cè)試中的表現(xiàn)還不如SmolVLM的中等版本。
在科學(xué)圖表理解方面,SmolVLM同樣表現(xiàn)出色。在AI2D科學(xué)圖表測(cè)試中,2.2B版本獲得了70.0%的優(yōu)異成績(jī),這意味著它能夠理解復(fù)雜的科學(xué)圖表、圖形和示意圖。在圖表問(wèn)答任務(wù)ChartQA中,它獲得了68.7%的成績(jī),展現(xiàn)出強(qiáng)大的數(shù)據(jù)可視化理解能力。
更令人印象深刻的是SmolVLM在數(shù)學(xué)推理方面的表現(xiàn)。在MathVista數(shù)學(xué)視覺(jué)推理測(cè)試中,2.2B版本獲得了51.5%的成績(jī),超越了許多大型模型。這說(shuō)明SmolVLM不僅能"看懂"數(shù)學(xué)圖形和公式,還能進(jìn)行復(fù)雜的數(shù)學(xué)推理。
在視頻理解方面,SmolVLM也毫不遜色。在Video-MME綜合視頻理解測(cè)試中,2.2B版本獲得了52.1%的成績(jī),在時(shí)間推理基準(zhǔn)TempCompass中達(dá)到了53.7%。這些成績(jī)證明了SmolVLM具備出色的視頻內(nèi)容理解和時(shí)間推理能力。
七、效率革命:讓AI觸手可及
SmolVLM最大的突破在于其驚人的效率表現(xiàn)。在GPU內(nèi)存使用方面,SmolVLM-256M單張圖片推理只需0.8GB顯存,500M版本需要1.2GB,即使是最大的2.2B版本也只需要4.9GB。相比之下,性能相當(dāng)?shù)腗olmoE-A1B-7B模型需要27.7GB顯存,差距高達(dá)5-35倍。
這種效率優(yōu)勢(shì)在批處理時(shí)更加明顯。當(dāng)批處理64張圖片時(shí),SmolVLM-256M和500M版本分別只需要15.0GB和16.0GB顯存,而2.2B版本需要49.9GB。這意味著即使在處理大量數(shù)據(jù)時(shí),SmolVLM仍然能在相對(duì)普通的硬件上運(yùn)行。
在推理速度方面,SmolVLM同樣表現(xiàn)優(yōu)異。在NVIDIA A100 GPU上,256M版本能夠達(dá)到每秒16.3個(gè)樣本的處理速度(批大小64),500M版本達(dá)到9.9個(gè)樣本/秒,2.2B版本也有1.7個(gè)樣本/秒。即使在資源更受限的L4 GPU上,256M版本仍能達(dá)到2.7個(gè)樣本/秒的處理速度。
八、真正的移動(dòng)AI:從云端到掌心
SmolVLM的一個(gè)重要突破是實(shí)現(xiàn)了真正意義上的移動(dòng)端AI應(yīng)用。研究團(tuán)隊(duì)開(kāi)發(fā)了名為HuggingSnap的移動(dòng)應(yīng)用,讓SmolVLM能夠直接在智能手機(jī)上運(yùn)行。這個(gè)應(yīng)用就像是把一個(gè)專業(yè)的AI助手裝進(jìn)了手機(jī)里,用戶可以隨時(shí)隨地拍照提問(wèn),獲得即時(shí)的智能回答。
更令人興奮的是,通過(guò)WebGPU技術(shù),SmolVLM甚至可以直接在瀏覽器中運(yùn)行。256M版本在14英寸MacBook Pro(M4 Max)上能夠達(dá)到每秒80個(gè)token的解碼速度,這意味著用戶無(wú)需安裝任何軟件,就能在網(wǎng)頁(yè)中體驗(yàn)強(qiáng)大的視覺(jué)AI功能。
這種移動(dòng)化的實(shí)現(xiàn)具有重要意義。以往的大型AI模型都需要連接云端服務(wù)器才能使用,不僅響應(yīng)速度慢,還要擔(dān)心隱私泄露問(wèn)題。SmolVLM的出現(xiàn)徹底改變了這種狀況,讓用戶能夠享受完全本地化的AI服務(wù),既保護(hù)了隱私,又獲得了更快的響應(yīng)速度。
九、實(shí)際應(yīng)用:從科研到生活的全面滲透
SmolVLM的實(shí)用價(jià)值已經(jīng)在多個(gè)領(lǐng)域得到驗(yàn)證。在醫(yī)療健康領(lǐng)域,基于SmolVLM開(kāi)發(fā)的BioVQA系統(tǒng)能夠幫助醫(yī)護(hù)人員快速分析醫(yī)學(xué)影像,回答臨床問(wèn)題。由于其小巧的體積和出色的性能,這樣的系統(tǒng)可以部署在資源有限的基層醫(yī)療機(jī)構(gòu),為更多患者提供AI輔助診斷服務(wù)。
在文檔處理方面,超緊湊的Smol Docling系統(tǒng)專門針對(duì)文檔轉(zhuǎn)換任務(wù)進(jìn)行了優(yōu)化。這個(gè)只有256M參數(shù)的系統(tǒng)能夠處理商業(yè)文檔、學(xué)術(shù)論文、專利文件等各種復(fù)雜文檔,準(zhǔn)確識(shí)別內(nèi)容、理解結(jié)構(gòu)、保持格式,堪比那些大得多的通用模型。
在移動(dòng)辦公場(chǎng)景中,SmolVLM展現(xiàn)出巨大潛力。用戶可以用手機(jī)拍攝白板內(nèi)容、圖表數(shù)據(jù)或文檔頁(yè)面,SmolVLM能夠立即識(shí)別其中的文字、理解圖表含義、回答相關(guān)問(wèn)題。這就像是隨身攜帶了一個(gè)專業(yè)的圖像分析師,隨時(shí)為你解讀各種視覺(jué)信息。
十、技術(shù)細(xì)節(jié):魔鬼在細(xì)節(jié)中
SmolVLM的成功離不開(kāi)眾多精妙的技術(shù)細(xì)節(jié)。在訓(xùn)練策略上,研究團(tuán)隊(duì)發(fā)現(xiàn)系統(tǒng)提示詞的設(shè)計(jì)對(duì)性能有顯著影響。他們?yōu)椴煌愋偷娜蝿?wù)設(shè)計(jì)了專門的提示詞,比如對(duì)話任務(wù)使用"你是一個(gè)有用的對(duì)話助手",而視覺(jué)任務(wù)則使用"你是一個(gè)視覺(jué)智能體,應(yīng)該提供簡(jiǎn)潔的答案"。
在媒體分割方面,研究團(tuán)隊(duì)巧妙地使用了引導(dǎo)詞來(lái)幫助模型理解不同類型的輸入。對(duì)于圖像,系統(tǒng)會(huì)添加"這是一張圖片..."這樣的前綴;對(duì)于視頻,則使用"這里有N幀從視頻中采樣的畫面..."。這種做法就像是給AI戴上了"語(yǔ)境眼鏡",幫助它更好地理解當(dāng)前處理的內(nèi)容類型。
用戶提示詞遮蔽是另一個(gè)重要的技術(shù)創(chuàng)新。在訓(xùn)練過(guò)程中,系統(tǒng)有時(shí)會(huì)故意"忽略"用戶的問(wèn)題部分,只關(guān)注答案部分。這種做法強(qiáng)迫模型專注于任務(wù)相關(guān)的內(nèi)容,而不是簡(jiǎn)單地記憶問(wèn)題模式,從而提高了泛化能力和回答質(zhì)量。
十一、對(duì)比競(jìng)品:小而強(qiáng)的獨(dú)特優(yōu)勢(shì)
與其他同類產(chǎn)品相比,SmolVLM展現(xiàn)出獨(dú)特的優(yōu)勢(shì)。傳統(tǒng)的大型模型如GPT-4V雖然功能強(qiáng)大,但部署成本極高,普通用戶和小型企業(yè)根本無(wú)法承受。一些中型模型如Qwen2VL-2B和InternVL2-2B雖然參數(shù)量相近,但顯存需求分別高達(dá)13.7GB和10.5GB,是SmolVLM的3-5倍。
更重要的是,SmolVLM在保持高效率的同時(shí),并沒(méi)有明顯犧牲性能。在許多關(guān)鍵測(cè)試中,SmolVLM-2.2B的表現(xiàn)與那些資源需求更高的模型相當(dāng)甚至更優(yōu)。比如在MathVista數(shù)學(xué)推理測(cè)試中,SmolVLM-2.2B(51.5%)超越了Qwen2VL-2B(48.0%),而顯存需求只有后者的三分之一。
在視頻理解方面,SmolVLM的優(yōu)勢(shì)更加明顯。它在Video-MME測(cè)試中的52.1%成績(jī)超越了許多專門針對(duì)視頻任務(wù)設(shè)計(jì)的大型模型,證明了其在時(shí)間序列理解方面的出色能力。
十二、未來(lái)展望:小模型的大時(shí)代
SmolVLM的成功標(biāo)志著AI發(fā)展進(jìn)入了一個(gè)新階段——從"大就是美"轉(zhuǎn)向"精就是強(qiáng)"。這種轉(zhuǎn)變不僅僅是技術(shù)上的突破,更代表了AI普及化的重要里程碑。
隨著SmolVLM這樣的高效模型不斷涌現(xiàn),我們可以預(yù)見(jiàn)AI將更深入地融入日常生活。每個(gè)人的手機(jī)都可能成為一個(gè)強(qiáng)大的AI助手,能夠理解周圍的世界、回答復(fù)雜問(wèn)題、協(xié)助完成各種任務(wù)。這種"人人都有AI"的未來(lái)正在變?yōu)楝F(xiàn)實(shí)。
對(duì)于開(kāi)發(fā)者和研究者來(lái)說(shuō),SmolVLM的開(kāi)源釋放也意味著巨大的機(jī)會(huì)。他們可以基于這個(gè)高效的基礎(chǔ)模型開(kāi)發(fā)各種專門應(yīng)用,而不需要投入巨額的計(jì)算資源。這將大大降低AI創(chuàng)新的門檻,推動(dòng)整個(gè)行業(yè)的快速發(fā)展。
研究團(tuán)隊(duì)已經(jīng)公開(kāi)了所有的模型權(quán)重、訓(xùn)練數(shù)據(jù)和代碼,并提供了詳細(xì)的技術(shù)文檔。這種開(kāi)放的態(tài)度不僅體現(xiàn)了學(xué)術(shù)精神,也為整個(gè)AI社區(qū)的發(fā)展做出了重要貢獻(xiàn)。任何有興趣的開(kāi)發(fā)者都可以基于SmolVLM進(jìn)行二次開(kāi)發(fā),創(chuàng)造出更多有價(jià)值的應(yīng)用。
說(shuō)到底,SmolVLM的意義遠(yuǎn)超其技術(shù)本身。它證明了在AI發(fā)展的道路上,"小而美"同樣是一條可行且充滿前景的路徑。通過(guò)精巧的設(shè)計(jì)、智慧的優(yōu)化和精心的訓(xùn)練,小型模型也能展現(xiàn)出令人驚嘆的能力。這不僅為AI的普及化鋪平了道路,也為我們重新思考AI發(fā)展的方向提供了重要啟示。當(dāng)我們不再盲目追求參數(shù)量的增長(zhǎng),而是專注于效率和實(shí)用性的提升時(shí),AI技術(shù)將真正走入千家萬(wàn)戶,成為每個(gè)人都能享受的智能助手。感興趣的讀者可以通過(guò)論文中提供的鏈接體驗(yàn)SmolVLM的各種應(yīng)用,親身感受這個(gè)"小巧巨人"的強(qiáng)大能力。
Q&A
Q1:SmolVLM真的比那些大型AI模型更好用嗎? A:在特定場(chǎng)景下確實(shí)如此。SmolVLM最大的優(yōu)勢(shì)是效率極高,可以在普通手機(jī)上運(yùn)行,而傳統(tǒng)大型模型需要專業(yè)服務(wù)器。雖然在某些復(fù)雜任務(wù)上可能不如超大模型,但在日常應(yīng)用中,SmolVLM的表現(xiàn)完全夠用,而且響應(yīng)更快、更私密。
Q2:普通人現(xiàn)在就能使用SmolVLM嗎?有什么要求? A:可以使用。研究團(tuán)隊(duì)已經(jīng)開(kāi)發(fā)了HuggingSnap手機(jī)應(yīng)用,還提供了網(wǎng)頁(yè)版本。用戶可以直接在手機(jī)上安裝應(yīng)用或通過(guò)瀏覽器訪問(wèn),不需要特殊的硬件配置。所有代碼和模型也都在Hugging Face平臺(tái)開(kāi)源,技術(shù)人員可以自由下載使用。
Q3:SmolVLM會(huì)不會(huì)取代現(xiàn)有的大型AI模型? A:不會(huì)完全取代,但會(huì)形成互補(bǔ)。SmolVLM更適合移動(dòng)端、邊緣計(jì)算和個(gè)人用戶場(chǎng)景,而大型模型在處理極其復(fù)雜的任務(wù)時(shí)仍有優(yōu)勢(shì)。未來(lái)可能會(huì)形成"大模型負(fù)責(zé)復(fù)雜推理,小模型負(fù)責(zé)日常應(yīng)用"的分工格局,讓AI服務(wù)更加多樣化和普及化。
好文章,需要你的鼓勵(lì)
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長(zhǎng)篇音頻故事。該系統(tǒng)結(jié)合大語(yǔ)言模型的敘事推理能力與音頻生成技術(shù),通過(guò)交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場(chǎng)景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開(kāi)辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過(guò)讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息,顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問(wèn)題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量,在多項(xiàng)測(cè)試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語(yǔ)言模型人性化對(duì)話問(wèn)題。該研究創(chuàng)建了包含20萬(wàn)高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評(píng)測(cè)基準(zhǔn),通過(guò)創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平,為AI價(jià)值觀對(duì)齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開(kāi)發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測(cè)模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過(guò)學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測(cè)方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來(lái)了效率和精度的雙重突破。