av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號

  • 科技行者

  • 算力行者

見證連接與計(jì)算的「力量」

首頁 這個模型也能識別狗嗎?希伯來大學(xué)讓AI"考官"幫你從千萬個模型里找到最合適的那一個

這個模型也能識別狗嗎?希伯來大學(xué)讓AI"考官"幫你從千萬個模型里找到最合適的那一個

2025-08-20 18:05
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-08-20 18:05 ? 科技行者

這項(xiàng)由希伯來大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院的Jonathan Kahana、Or Nathan、Eliahu Horwitz和Yedid Hoshen共同完成的研究發(fā)表于2025年2月,論文題目為"Can this Model Also Recognize Dogs? Zero-Shot Model Search from Weights"。有興趣深入了解的讀者可以通過arXiv:2502.09619v1訪問完整論文,項(xiàng)目主頁為https://jonkahana.github.io/probelog。

現(xiàn)在的AI世界就像一個巨大的工具商店,貨架上擺滿了各種各樣的AI模型。據(jù)統(tǒng)計(jì),僅僅是Hugging Face這一個平臺就托管著超過100萬個模型,每個月還會新增10萬多個。這些模型就像不同的專業(yè)工具,有的擅長識別動物,有的專門處理醫(yī)學(xué)圖像,有的能分辨各種食物。問題是,當(dāng)你需要找一個能識別狗的模型時,你該怎么辦?

傳統(tǒng)的方法就像在沒有標(biāo)簽的工具箱里翻找工具一樣令人頭疼。你只能依靠模型的文字描述來猜測它能做什么,但研究團(tuán)隊(duì)發(fā)現(xiàn)了一個令人震驚的事實(shí):在120萬個Hugging Face模型中,超過30%的模型完全沒有任何說明文檔,另外28.9%的模型要么文檔是空白的,要么只有自動生成的無用模板。這意味著將近60%的模型都是"啞巴",你根本不知道它們能干什么。

這就好比你走進(jìn)一家巨大的五金店,但大部分工具都沒有標(biāo)簽,你想找一把能擰特定螺絲的螺絲刀,卻只能一個個拿起來試。這種情況下,能不能有一個"萬能試驗(yàn)臺",讓你快速測試每個工具的功能呢?

希伯來大學(xué)的研究團(tuán)隊(duì)提出了一個巧妙的解決方案,他們稱之為ProbeLog。這個方法就像給每個AI模型安排了一場標(biāo)準(zhǔn)化考試。

一、AI模型的"標(biāo)準(zhǔn)化考試":ProbeLog如何工作

設(shè)想一下,你是一位考官,需要測試一堆學(xué)生是否認(rèn)識狗。你不能直接問他們"你認(rèn)識狗嗎?",因?yàn)橛行W(xué)生可能撒謊或者理解有偏差。相反,你準(zhǔn)備了4000張不同的圖片作為"考題"——這些圖片包含各種各樣的場景:公園里的人、桌子上的蘋果、海邊的帆船、草地上的狗等等。

ProbeLog的工作原理與此類似。研究團(tuán)隊(duì)首先從COCO數(shù)據(jù)集中挑選了一組固定的圖像作為"考題"。這些圖像就像標(biāo)準(zhǔn)化考試中的題目,包含了豐富多樣的場景和物體。然后,他們讓每個AI模型"參加考試"——把這些圖像輸入模型,觀察模型的每個輸出維度(專業(yè)術(shù)語叫"logit",可以理解為模型對每個可能答案的信心程度)如何響應(yīng)。

關(guān)鍵的創(chuàng)新在于,ProbeLog不是給整個模型打一個總分,而是給模型的每個"專業(yè)技能"單獨(dú)評分。就像一個多才多藝的學(xué)生,可能既會數(shù)學(xué)又會英語還會體育,ProbeLog會分別測試這個學(xué)生在每個科目上的表現(xiàn)。對于AI模型來說,一個模型可能同時能識別狗、貓、汽車等多種物體,ProbeLog會為每種識別能力創(chuàng)建一個獨(dú)特的"成績單"。

這個成績單是一個數(shù)字序列,記錄了模型在面對4000張測試圖片時,對某個特定概念(比如"狗")的反應(yīng)強(qiáng)度。當(dāng)遇到包含狗的圖片時,擅長識別狗的模型輸出會比較高;遇到不包含狗的圖片時,輸出會比較低。這樣,每個模型的每種識別能力都有了自己獨(dú)特的"指紋"。

二、找到最相似的"指紋":智能匹配算法

有了每個模型能力的"指紋"后,下一個挑戰(zhàn)是如何比較這些指紋的相似性。就像比較兩個人的真實(shí)指紋一樣,你不能簡單地看整體圖案是否一致,而要關(guān)注那些最清晰、最可靠的特征。

研究團(tuán)隊(duì)發(fā)現(xiàn)了一個重要現(xiàn)象:AI模型只有在它確信自己的判斷時,輸出的結(jié)果才是可靠的。這就好比一個學(xué)生在考試中,對于自己非常確定的題目會給出明確答案,而對于不確定的題目可能會胡亂猜測。因此,ProbeLog在比較兩個模型時,只關(guān)注查詢模型最有把握的那些"考題"。

具體來說,當(dāng)你用一個已知能識別狗的模型作為"參考標(biāo)準(zhǔn)"時,系統(tǒng)會首先找出這個參考模型對哪些圖片反應(yīng)最強(qiáng)烈(也就是最確信這些圖片包含狗)。然后,系統(tǒng)只在這些"高置信度"的圖片上比較其他模型的表現(xiàn)。這種方法大大提高了匹配的準(zhǔn)確性,因?yàn)樗^濾掉了那些可能產(chǎn)生噪音的不確定判斷。

為了進(jìn)一步驗(yàn)證這種方法的有效性,研究團(tuán)隊(duì)做了一個巧妙的實(shí)驗(yàn)。他們用10個不同的ViT基礎(chǔ)模型,通過不同的訓(xùn)練方法,都訓(xùn)練成能識別CIFAR10數(shù)據(jù)集中10個類別的分類器。然后用1000張ImageNet圖片作為探測器,計(jì)算每個模型每個輸出維度的ProbeLog描述符,并分析它們之間的相關(guān)性。

結(jié)果令人振奮:那些負(fù)責(zé)識別相同概念的輸出維度表現(xiàn)出了強(qiáng)烈的相關(guān)性,而不同概念之間的相關(guān)性很弱。這就像你發(fā)現(xiàn)所有擅長識別蘋果的學(xué)生在面對蘋果圖片時都會有相似的興奮反應(yīng),而面對汽車圖片時則相對平靜。更重要的是,這種相似性不是基于模型來自同一個"班級"(相同的基礎(chǔ)架構(gòu)),而是基于功能上的相似性。

三、從"樣本匹配"到"文字搜索":零樣本檢索的突破

ProbeLog的第一個版本解決了"找更多像這個一樣的模型"的問題,但用戶往往沒有現(xiàn)成的參考模型。他們真正想要的是能夠直接用文字描述來搜索,比如輸入"狗"就能找到所有能識別狗的模型。這就需要一個從文字到模型能力的"翻譯器"。

研究團(tuán)隊(duì)的解決方案頗具巧思。他們利用了CLIP這樣的多模態(tài)模型,這種模型既能理解圖像也能理解文字?;氐娇荚嚨谋扔鳎@就像是找到了一位既懂中文又懂英語的翻譯,能夠在兩種語言之間建立對應(yīng)關(guān)系。

具體過程是這樣的:首先,系統(tǒng)用CLIP模型分別對4000張測試圖片和用戶輸入的文字(比如"狗")進(jìn)行編碼,得到它們在同一個"語義空間"中的表示。然后,系統(tǒng)計(jì)算每張圖片與目標(biāo)文字的相似度,這樣就得到了一個"虛擬的ProbeLog描述符"——就好像有一個專門識別用戶所描述概念的理想模型參加了同樣的考試。

但是,這個虛擬描述符和真實(shí)模型的描述符存在"量綱不同"的問題,就像用攝氏度和華氏度測溫度一樣,數(shù)值范圍完全不同。為了解決這個問題,研究團(tuán)隊(duì)對每個描述符進(jìn)行了標(biāo)準(zhǔn)化處理,將它們轉(zhuǎn)換到相同的數(shù)值范圍內(nèi),這樣就能直接比較虛擬描述符和真實(shí)模型描述符的相似性了。

四、降低成本的"協(xié)作探測":讓計(jì)算更高效

雖然ProbeLog的想法很棒,但面對百萬級別的模型庫時,給每個模型都跑4000張圖片的計(jì)算成本是驚人的。這就像要給一個擁有百萬學(xué)生的學(xué)校都安排完整的標(biāo)準(zhǔn)化考試,成本和時間都難以承受。

研究團(tuán)隊(duì)提出了"協(xié)作探測"(Collaborative Probing)這一創(chuàng)新解決方案。這個想法借鑒了推薦系統(tǒng)中的協(xié)同過濾技術(shù),就像Netflix如何根據(jù)你看過的少數(shù)幾部電影推薦你可能喜歡的其他電影一樣。

協(xié)作探測的核心思路是:不需要讓每個模型都做完整的4000道題考試,而是讓每個模型只做其中隨機(jī)選擇的一小部分題目。比如,模型A做第1、15、33、78...這些題目,模型B做第3、22、41、92...這些題目,模型C做第7、28、45、99...這些題目。雖然每個模型只做了部分題目,但通過巧妙的數(shù)學(xué)方法,可以推算出每個模型在所有題目上的表現(xiàn)。

這種方法利用了一個重要假設(shè):相似功能的模型在面對相同問題時會有相似的反應(yīng)模式。就像如果你知道兩個學(xué)生在數(shù)學(xué)上表現(xiàn)相似,那么當(dāng)你知道其中一個學(xué)生的物理成績時,你就能比較準(zhǔn)確地估算另一個學(xué)生的物理成績。

具體實(shí)現(xiàn)使用了截斷奇異值分解(SVD)算法,這是一種矩陣分解技術(shù)。簡單來說,就是找到隱藏在不完整數(shù)據(jù)背后的規(guī)律,然后用這些規(guī)律填補(bǔ)缺失的信息。實(shí)驗(yàn)結(jié)果表明,使用協(xié)作探測技術(shù),每個模型只需要做15%的題目就能達(dá)到與完整測試相近的效果,大大降低了計(jì)算成本。

五、真實(shí)世界的驗(yàn)證:從實(shí)驗(yàn)室到實(shí)用

為了驗(yàn)證ProbeLog在真實(shí)環(huán)境中的表現(xiàn),研究團(tuán)隊(duì)構(gòu)建了兩個測試數(shù)據(jù)集。第一個叫INet-Hub,包含1500個在ImageNet子集上訓(xùn)練的模型,總共超過85000個輸出維度,涵蓋1000個細(xì)粒度概念。這就像創(chuàng)建了一個標(biāo)準(zhǔn)化的"實(shí)驗(yàn)班",所有學(xué)生都接受過相似的訓(xùn)練,但專業(yè)方向各不相同。

第二個數(shù)據(jù)集更具挑戰(zhàn)性,叫HF-Hub,包含71個從Hugging Face平臺手工收集的真實(shí)用戶上傳模型,總共400個輸出維度。這些模型就像來自不同學(xué)校、不同背景的學(xué)生,訓(xùn)練數(shù)據(jù)、命名規(guī)范都各不相同。比如,有的模型把蘋果標(biāo)記為"Apple",有的標(biāo)記為"Apples",有的可能用更具體的描述如"Red Apple"。

研究團(tuán)隊(duì)設(shè)計(jì)了多種測試場景。在同分布測試中(INet到INet),ProbeLog達(dá)到了72.8%的top-1準(zhǔn)確率,這意味著超過七成的查詢都能在第一個結(jié)果中找到正確答案??紤]到隨機(jī)猜測的準(zhǔn)確率只有0.1%(因?yàn)橛?000個可能的類別),這個結(jié)果相當(dāng)出色。

更令人印象深刻的是跨分布測試的結(jié)果。當(dāng)用HF-Hub的真實(shí)模型搜索INet-Hub時,ProbeLog達(dá)到了40.6%的top-1準(zhǔn)確率。這就像讓一個在中式教育體系下成長的學(xué)生去適應(yīng)美式教育的評估標(biāo)準(zhǔn),難度可想而知,但ProbeLog依然表現(xiàn)良好。

在零樣本文字搜索測試中,用戶直接輸入"狗"這樣的文字描述,ProbeLog能夠在INet-Hub中達(dá)到43.8%的top-1準(zhǔn)確率,在HF-Hub中達(dá)到34.0%的準(zhǔn)確率。這意味著用戶有很大概率在第一個搜索結(jié)果中就找到能識別目標(biāo)概念的模型。

六、深入分析:影響效果的關(guān)鍵因素

研究團(tuán)隊(duì)還深入分析了影響ProbeLog性能的各種因素,這些發(fā)現(xiàn)為實(shí)際應(yīng)用提供了重要指導(dǎo)。

關(guān)于探測圖像的選擇,研究團(tuán)隊(duì)測試了四種不同的圖像來源:完全人工生成的Dead-Leaves圖像、用Stable Diffusion生成的合成圖像、ImageNet數(shù)據(jù)集圖像,以及COCO數(shù)據(jù)集圖像。結(jié)果顯示,越接近目標(biāo)模型訓(xùn)練數(shù)據(jù)分布的探測圖像效果越好。ImageNet圖像作為探測器時效果最佳,因?yàn)榇蟛糠譁y試模型都是在ImageNet相關(guān)數(shù)據(jù)上訓(xùn)練的。但令人驚喜的是,即使是相對"不匹配"的COCO場景圖像也能達(dá)到不錯的效果,這說明ProbeLog具有良好的泛化能力。

在比較策略方面,研究團(tuán)隊(duì)驗(yàn)證了只關(guān)注高置信度探測結(jié)果的重要性。他們比較了多種策略:使用置信度最低的探測結(jié)果、隨機(jī)選擇、均勻分位數(shù)采樣、使用所有探測結(jié)果等。結(jié)果證實(shí),只有關(guān)注查詢模型最有把握的探測結(jié)果才能獲得最佳性能。這就像在嘈雜的環(huán)境中,你要專注聽那些說話最清楚的人的聲音,而忽略那些模糊不清的雜音。

探測圖像數(shù)量的影響也很有趣。研究發(fā)現(xiàn),使用4000張COCO圖像就能獲得43.8%的top-1準(zhǔn)確率,而使用8000張圖像能提升到47.8%。這表明存在收益遞減效應(yīng):初期增加探測圖像數(shù)量能顯著提升性能,但到了一定程度后,繼續(xù)增加圖像的邊際收益就很小了。

七、協(xié)作探測的威力:少量數(shù)據(jù)實(shí)現(xiàn)大效果

協(xié)作探測技術(shù)的表現(xiàn)令人矚目。在文字到INet-Hub的檢索任務(wù)中,即使每個模型只使用15%的探測圖像,協(xié)作探測也能達(dá)到與使用全部數(shù)據(jù)相近的效果。更令人驚訝的是,當(dāng)每個模型只使用4%的探測圖像時,協(xié)作探測的效果竟然等同于傳統(tǒng)方法使用15%的探測圖像的效果。這意味著在相同的計(jì)算成本下,協(xié)作探測能提供近3倍的性能提升。

這種效果的原理在于,不同模型之間存在功能上的相關(guān)性,而協(xié)作探測能夠巧妙地利用這種相關(guān)性。就像在一個班級里,如果你知道數(shù)學(xué)好的學(xué)生物理通常也不錯,那么即使你只看到某個學(xué)生的部分成績,也能比較準(zhǔn)確地推測他在其他科目上的表現(xiàn)。

八、方法的局限性與未來方向

盡管ProbeLog表現(xiàn)出色,但研究團(tuán)隊(duì)也誠實(shí)地指出了方法的局限性。首先,這種方法目前主要針對分類模型設(shè)計(jì),對于生成模型(如GPT、Stable Diffusion等)的適用性還需要進(jìn)一步研究。生成模型的輸出不像分類模型那樣有明確的類別對應(yīng)關(guān)系,因此需要開發(fā)新的探測和比較策略。

其次,當(dāng)目標(biāo)概念與探測圖像的分布差異很大時,效果會明顯下降。比如,如果要搜索能識別醫(yī)學(xué)影像中病理特征的模型,而探測圖像都是日常生活場景,那么效果就會打折扣。這提示我們在實(shí)際應(yīng)用中可能需要針對特定領(lǐng)域準(zhǔn)備專門的探測圖像集。

另外,雖然協(xié)作探測大大降低了計(jì)算成本,但對于真正大規(guī)模的模型庫(比如百萬個模型),計(jì)算和存儲開銷仍然是需要考慮的問題。研究團(tuán)隊(duì)提到,他們的INet-Hub模型需要400GB存儲空間,而對應(yīng)的ProbeLog描述符只需要1.4GB,壓縮比相當(dāng)可觀,但擴(kuò)展到百萬模型規(guī)模時仍需要進(jìn)一步優(yōu)化。

研究團(tuán)隊(duì)還指出了幾個有前景的改進(jìn)方向。一是開發(fā)更智能的探測圖像選擇策略,比如根據(jù)前幾張圖像的結(jié)果自適應(yīng)地選擇后續(xù)圖像,或者使用主動學(xué)習(xí)的思想來選擇最有信息量的探測圖像。二是改進(jìn)協(xié)作過濾算法,考慮模型輸出值的統(tǒng)計(jì)特性,而不僅僅是簡單的矩陣分解。

九、對AI生態(tài)的深遠(yuǎn)影響

ProbeLog的意義遠(yuǎn)超技術(shù)本身,它可能會改變整個AI模型生態(tài)系統(tǒng)的運(yùn)作方式。目前,大量優(yōu)秀的AI模型因?yàn)槿狈玫奈臋n而被埋沒,就像圖書館里沒有索引的珍貴藏書。ProbeLog提供了一種自動化的"編目"方法,能夠讓這些"沉睡"的模型重新煥發(fā)價值。

這種技術(shù)還能促進(jìn)AI模型的重用和共享。研究人員和開發(fā)者不再需要為每個新任務(wù)從頭訓(xùn)練模型,而是可以在現(xiàn)有的巨大模型庫中找到最適合的工具。這不僅能節(jié)省計(jì)算資源和時間,還能降低AI應(yīng)用的門檻,讓更多沒有大規(guī)模計(jì)算資源的研究者和開發(fā)者也能獲得高質(zhì)量的模型。

從環(huán)境保護(hù)的角度看,這種技術(shù)也具有積極意義。AI模型的訓(xùn)練需要消耗大量電力,產(chǎn)生可觀的碳排放。如果能通過更好的模型搜索和重用減少重復(fù)訓(xùn)練,就能在一定程度上緩解AI發(fā)展對環(huán)境的壓力。

ProbeLog還可能催生新的商業(yè)模式。模型提供者可以更容易地展示自己模型的能力,用戶也能更精準(zhǔn)地找到所需的模型。這可能會促進(jìn)AI模型市場的發(fā)展,讓優(yōu)秀的模型獲得應(yīng)有的回報,從而激勵更多高質(zhì)量模型的產(chǎn)生。

十、技術(shù)實(shí)現(xiàn)的精妙之處

從技術(shù)角度看,ProbeLog的設(shè)計(jì)體現(xiàn)了多個巧妙的工程思考。首先是logit級別表示的選擇。傳統(tǒng)方法通常試圖用一個向量表示整個模型,但這樣做會丟失模型多功能的特性。ProbeLog選擇為每個輸出維度單獨(dú)建模,這樣一個既能識別狗又能識別貓的模型就能在搜索"狗"時和搜索"貓"時都被正確找到。

其次是探測圖像的標(biāo)準(zhǔn)化處理。通過使用固定的、有序的圖像集合,ProbeLog確保了不同模型之間的可比性。這就像標(biāo)準(zhǔn)化考試必須使用相同的題目才能公平比較不同考生的能力一樣。

標(biāo)準(zhǔn)化處理也是一個重要創(chuàng)新。原始的模型輸出和基于CLIP的文字描述在數(shù)值范圍上可能相差很大,就像用不同單位測量同一個物理量。通過將每個描述符標(biāo)準(zhǔn)化為均值為0、標(biāo)準(zhǔn)差為1的分布,系統(tǒng)消除了這種數(shù)值范圍的差異,使得跨模態(tài)比較成為可能。

不對稱的相似度度量也值得注意。傳統(tǒng)的相似度計(jì)算通常是對稱的,即A與B的相似度等于B與A的相似度。但ProbeLog采用了不對稱度量,只關(guān)注查詢模型最有把握的探測結(jié)果。這種設(shè)計(jì)反映了對模型不確定性的深刻理解:模型在不確定的情況下可能給出噪音很大的輸出,而只有在確定的情況下輸出才是可靠的。

說到底,ProbeLog這項(xiàng)研究為我們展現(xiàn)了AI模型搜索的一種全新可能性。在AI模型數(shù)量爆炸式增長的今天,如何有效利用這些模型資源成為了一個關(guān)鍵挑戰(zhàn)。ProbeLog通過巧妙的"標(biāo)準(zhǔn)化考試"思路,不僅解決了模型搜索的技術(shù)難題,還為整個AI生態(tài)系統(tǒng)的發(fā)展提供了新的思路。

這項(xiàng)工作的價值不僅在于提出了一個有效的技術(shù)方案,更在于它揭示了一個重要趨勢:隨著AI模型數(shù)量的持續(xù)增長,如何管理、搜索和重用這些模型將成為AI發(fā)展的重要議題。ProbeLog為我們提供了一個很好的起點(diǎn),但這個領(lǐng)域還有很大的發(fā)展空間。未來,我們可能會看到更多類似的技術(shù)出現(xiàn),讓AI模型的使用變得更加便捷和高效。

對于普通開發(fā)者和研究者來說,ProbeLog意味著他們不再需要在茫茫模型海洋中盲目尋找,而是可以通過簡單的文字描述快速找到最適合自己需求的模型。這不僅能提高工作效率,還能讓更多人享受到AI技術(shù)發(fā)展的成果。畢竟,技術(shù)的最終目標(biāo)是為人類服務(wù),而ProbeLog正是朝著這個目標(biāo)邁出的重要一步。

Q&A

Q1:ProbeLog是什么?它是如何工作的?

A:ProbeLog是希伯來大學(xué)開發(fā)的AI模型搜索技術(shù),就像給AI模型安排標(biāo)準(zhǔn)化考試一樣。它用4000張固定圖片測試每個模型,記錄模型對每種概念的反應(yīng)模式,形成獨(dú)特的"能力指紋"。當(dāng)用戶想找能識別某個物體的模型時,系統(tǒng)就比較這些指紋找到最匹配的模型。

Q2:ProbeLog能解決什么實(shí)際問題?

A:主要解決AI模型庫中"找不到合適模型"的問題。現(xiàn)在像Hugging Face這樣的平臺有超過100萬個模型,但近60%都沒有說明文檔,用戶根本不知道哪個模型能做什么。ProbeLog讓用戶直接輸入"狗"、"汽車"等關(guān)鍵詞就能找到相應(yīng)的識別模型。

Q3:這項(xiàng)技術(shù)的準(zhǔn)確率如何?普通人能使用嗎?

A:在實(shí)驗(yàn)中,ProbeLog達(dá)到了40-70%的準(zhǔn)確率,遠(yuǎn)超隨機(jī)猜測的0.1%。雖然目前還是研究階段的技術(shù),但已經(jīng)展現(xiàn)出很好的實(shí)用潛力。未來如果集成到模型平臺中,普通開發(fā)者就能像搜索網(wǎng)頁一樣輕松找到需要的AI模型了。

分享至
0贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-