av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關注公眾號

  • 科技行者

  • 算力行者

見證連接與計算的「力量」

首頁 Menlo Research新突破:4B參數(shù)的Jan-nano如何用"搜索能力"擊敗671B參數(shù)巨無霸模型

Menlo Research新突破:4B參數(shù)的Jan-nano如何用"搜索能力"擊敗671B參數(shù)巨無霸模型

2025-07-02 11:02
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-07-02 11:02 ? 科技行者

這項由加州Menlo Research的Alan Dao(Gia Tuan Dao)和Dinh Bach Vu共同完成的研究發(fā)表于2025年7月1日,相關技術報告已在arXiv平臺公開發(fā)布(編號:arXiv:2506.22760v1)。有興趣深入了解的讀者可以訪問Hugging Face平臺上的多個模型版本,包括標準版Jan-nano、GGUF格式版本以及支持128K上下文長度的擴展版本。

過去,人工智能模型的發(fā)展一直遵循著一個看似鐵律的規(guī)則:想要更強大的能力,就必須付出更多的計算資源代價。這就像造房子一樣,想要更大的房子,就需要更多的材料和空間。但Menlo Research的研究團隊卻提出了一個顛覆性的想法:與其讓AI模型試圖記住世界上的所有知識,不如讓它精通"找到任何信息"的技能。

這個思路就像培養(yǎng)一個圖書管理員。傳統(tǒng)的做法是讓管理員把圖書館里的每本書都背下來,這需要超人的記憶力。而Jan-nano采用的新方法是讓管理員熟練掌握圖書館的檢索系統(tǒng),知道如何快速找到任何需要的信息。結(jié)果證明,后者不僅效率更高,而且所需的"腦容量"也小得多。

Jan-nano是一個只有40億參數(shù)的語言模型,基于Qwen3-4B進行了深度改造。在SimpleQA基準測試中,它配合MCP(模型上下文協(xié)議)集成后達到了83.2%的準確率。這個成績有多令人驚訝呢?要知道,連參數(shù)量達到6710億的DeepSeek模型在相同測試中也只達到了78.2%的準確率。這就像一個4年級的小學生在智力競賽中擊敗了博士生一樣令人震撼。

研究團隊的核心創(chuàng)新在于完全摒棄了傳統(tǒng)的"下一個詞預測"訓練方式,轉(zhuǎn)而采用了一種叫做"多階段RLVR系統(tǒng)"的全新訓練方法。傳統(tǒng)的語言模型訓練就像讓學生通過不斷的背誦來學習,而新方法更像是通過解決實際問題來提升能力。這種訓練方式讓Jan-nano學會了如何高效地使用工具,而不是單純地存儲信息。

**一、創(chuàng)新的訓練方法論:從背書生到實踐家**

Jan-nano的訓練過程可以比作培養(yǎng)一個優(yōu)秀的調(diào)研員。傳統(tǒng)的AI訓練方法就像讓調(diào)研員死記硬背百科全書,希望他們能回答任何問題。但Jan-nano的訓練更像是教會調(diào)研員如何使用圖書館、如何搜索數(shù)據(jù)庫、如何驗證信息的可靠性。

整個訓練過程分為三個循序漸進的階段,就像學習駕駛汽車一樣。第一階段相當于學習基本操作,讓模型掌握如何使用搜索工具和網(wǎng)頁抓取功能。第二階段專注于提高答案質(zhì)量,就像從新手司機成長為熟練司機。第三階段則是擴展處理能力,將上下文長度從8K擴展到40K,相當于從城市道路駕駛擴展到高速公路駕駛。

研究團隊使用了MuSiQue-Ans數(shù)據(jù)集進行訓練,這是一個專門設計的多跳問答數(shù)據(jù)集。所謂"多跳"問答,就像解決一個需要多個線索的推理題。比如要回答"誰訓練了9/11劫機者中的兩人"這樣的問題,模型需要先搜索相關信息,然后將不同來源的信息組合起來得出答案。訓練數(shù)據(jù)包含了10325個樣本,其中67.8%是需要兩步推理的問題,20.8%需要三步推理,11.4%需要四步推理。

最令人驚訝的是,研究團隊完全放棄了傳統(tǒng)的監(jiān)督學習方法,轉(zhuǎn)而使用一種叫做DAPO(直接偏好優(yōu)化對齊)的技術。這種方法的獨特之處在于強制模型不進行"思考"過程,直接給出答案。這聽起來可能違反直覺,但實際效果證明,對于某些任務來說,過度思考反而會導致性能下降。

**二、本地RAG服務器:搭建專屬知識檢索系統(tǒng)**

為了訓練Jan-nano的搜索能力,研究團隊構建了一個模擬真實搜索引擎的本地RAG(檢索增強生成)服務器。這個系統(tǒng)就像為模型建立了一個私人圖書館,讓它能在可控的環(huán)境中學習如何高效檢索信息。

這個檢索系統(tǒng)采用了兩階段的設計架構。首先使用E5-base-v2編碼器對所有文檔生成密集嵌入向量,然后使用FAISS庫建立索引以實現(xiàn)快速相似性搜索。當模型提出查詢時,系統(tǒng)會先檢索出最相關的15個文檔,然后使用cross-encoder模型ms-marco-MiniLM-L12-v2對這些文檔進行重新排序,最終返回質(zhì)量最高的10個結(jié)果。

這種設計模擬了真實搜索引擎的工作方式。系統(tǒng)提供兩個主要工具:websearch功能返回最多10個相關文檔的150字符預覽,就像搜索引擎的結(jié)果摘要;scrape功能則可以獲取特定文檔的完整內(nèi)容。這種設計鼓勵模型學習高效的搜索策略,先通過預覽篩選相關文檔,再選擇性地獲取完整信息。

整個訓練環(huán)境的設計非常巧妙。模型必須學會使用特定的XML格式進行工具調(diào)用:使用標簽調(diào)用工具,標簽顯示結(jié)果,標簽給出最終答案。這種結(jié)構化格式不僅便于訓練過程中的解析和比較,也讓模型能夠發(fā)展出自主推理模式,而無需復雜的系統(tǒng)提示。

**三、三階段漸進式訓練策略**

Jan-nano的訓練過程就像培養(yǎng)一個專業(yè)研究員,需要循序漸進地掌握不同技能。第一階段是"工具使用基礎"訓練,模型在8K上下文長度下學習基本的工具操作和交互模式。這個階段的獎勵函數(shù)同時考慮多個目標:答案正確性、工具執(zhí)行成功率、格式規(guī)范性和XML結(jié)構合規(guī)性。這就像教一個新員工學會使用辦公軟件,不僅要會操作,還要規(guī)范地操作。

第二階段轉(zhuǎn)向"答案質(zhì)量專注"訓練,同樣在8K上下文長度下進行。在這個階段,研究團隊移除了工具執(zhí)行和格式相關的獎勵,將模型的注意力完全集中在提高答案準確性上。獎勵函數(shù)主要關注答案正確性,同時保持最基本的XML結(jié)構指導。這種策略迫使模型在已經(jīng)掌握基本工具使用技能的基礎上,專注于如何更準確地回答問題。

第三階段是"上下文擴展"訓練,將模型處理長文本的能力從8K擴展到40K tokens。這個階段的獎勵函數(shù)只強調(diào)正確性和XML結(jié)構,類似于前一階段,確保模型在適應擴展上下文長度的同時保持高質(zhì)量響應。這種擴展讓模型能夠處理更復雜的多文檔信息整合任務。

整個訓練過程中,研究團隊堅持使用"強制非思考"模式,防止模型產(chǎn)生過度思考行為。這個決定基于他們的重要發(fā)現(xiàn):較大的模型往往會表現(xiàn)出過度思考的問題,通過不必要的額外過濾參數(shù)和過于復雜的搜索方法降低搜索性能。

**四、"過度思考"問題的驚人發(fā)現(xiàn)**

研究過程中最有趣的發(fā)現(xiàn)之一是"過度思考"現(xiàn)象。研究團隊在開發(fā)過程中系統(tǒng)地比較了"思考模式"和"非思考模式"在不同模型規(guī)模下的表現(xiàn),結(jié)果令人意外。

在4B參數(shù)規(guī)模下,思考模式達到71.0%的SimpleQA得分,而8B參數(shù)模型的思考模式卻只有62.2%。這個反直覺的結(jié)果揭示了一個重要問題:模型規(guī)模越大,越容易陷入"分析癱瘓"的困境。大模型會應用時間過濾等復雜約束條件,反而排除了相關結(jié)果,導致幻覺響應。

研究團隊提供了具體的對比案例來說明這個問題。在回答"訓練了9/11劫機者中兩人的荷蘭商人和毒品販子的名字是什么"這個問題時,4B模型采用直接搜索策略,成功檢索到準確信息并正確識別出Rudi Dekkers。而8B模型卻應用了年份過濾(filter year=2001),這個看似合理的限制實際上排除了包含正確答案的搜索結(jié)果,最終導致模型給出了錯誤的答案"Randy Weaver"。

類似的問題在另一個案例中也有體現(xiàn)。詢問"1985年發(fā)布的科幻動畫電視系列ThunderCats的制作經(jīng)理是誰"時,4B模型通過簡單搜索迅速找到正確答案Masaki Iizuka。8B模型同樣因為應用年份過濾限制,只能在1985年的有限文檔中搜索,最終無法找到相關信息,只能給出虛構的答案"Susan Cavan"。

這些發(fā)現(xiàn)表明,在配備了強大搜索工具的情況下,模型的"聰明才智"有時反而成為障礙。就像一個過度謹慎的研究員,設置了太多搜索限制條件,反而錯過了最重要的信息源?;谶@些觀察,研究團隊在后續(xù)版本中采用了強制非思考訓練,顯著提高了響應速度,同時保持了競爭性的準確率。

**五、智能體配置評估:不同框架下的性能表現(xiàn)**

為了全面評估Jan-nano的能力,研究團隊測試了不同的工作流程范式。他們比較了傳統(tǒng)的結(jié)構化工作流程(語言模型在預定義代碼路徑中運行)和智能體工作流程(語言模型自主指導行動并基于環(huán)境反饋做決策)。

在智能體工作流程中,模型保持對決策過程、工具選擇和執(zhí)行流程的完全控制權。研究團隊測試了兩種實現(xiàn)方式:來自smolagents的CodeAgent和基于LangGraph的ReAct。初期使用CodeAgent框架的評估顯示了性能局限性,主要原因是模板格式不匹配。Jan-nano使用JSON工具調(diào)用模板進行訓練,而CodeAgent需要Python代碼生成,這是模型未經(jīng)優(yōu)化的格式。

隨后使用LangGraph ReAct實現(xiàn)進行的評估顯示了改進的性能。這個實現(xiàn)通過MCP服務器使用JSON格式的工具調(diào)用,與Jan-nano的訓練模板完全匹配。在完整SimpleQA數(shù)據(jù)集上,Jan-nano在smolagents CodeAgent框架下達到76.2%的準確率,而在LangGraph MCP框架下達到80.7%的準確率,顯示了4.5個百分點的性能差異。

這種相對適中的差異證明了模型適應不同工具調(diào)用格式的能力,同時保持競爭性能。性能差異主要反映了模板格式對齊的重要性:Jan-nano在與其訓練格式直接匹配的JSON工具調(diào)用模板上表現(xiàn)更佳,而在需要Python代碼生成的格式上稍遜一籌。

通過這個評估過程,研究團隊認識到模型上下文協(xié)議(MCP)工具提供了最靈活的框架來復制真實的智能體應用用戶體驗。與施加嚴格工具集成和交互模式約束的傳統(tǒng)評估框架不同,MCP支持多樣化工具和服務的無縫集成,讓模型能夠以鏡像實際部署場景的方式與真實世界系統(tǒng)交互。

**六、技術實現(xiàn)細節(jié)與模型架構**

Jan-nano的技術架構建立在對Qwen3-4B模型的深度改造之上。整個系統(tǒng)采用JSON-in-XML格式進行工具交互,這種設計在可靠性和靈活性之間找到了最佳平衡點。工具調(diào)用使用{"name": "tool name", "args": {params}}標簽,結(jié)果顯示在content標簽中,最終答案使用content標簽。

這種結(jié)構化XML格式在強化學習訓練過程中發(fā)揮了重要作用,便于可靠的解析和比較,同時使模型能夠發(fā)展出自主推理模式,只需要最少的系統(tǒng)提示。模型的128K上下文長度版本在SimpleQA基準測試中表現(xiàn)出比標準版本2.5個百分點的提升,達到83.2%的準確率,表明擴展上下文長度對這類基準測試是有益的。

Jan-nano目前主要針對英語進行了優(yōu)化,需要適當?shù)奶崾竟こ桃垣@得最佳結(jié)果,這些優(yōu)化已經(jīng)集成到模型中。研究團隊使用DAPO技術進行微調(diào),這種方法利用可驗證的獎勵信號指導學習,而不需要大規(guī)模數(shù)據(jù)集。這種方法的優(yōu)勢在于它可以直接優(yōu)化模型在特定任務上的表現(xiàn),而不是依賴于通用的語言建模目標。

模型的部署考慮了消費級硬件的限制。4B參數(shù)的規(guī)模使得Jan-nano能夠在普通GPU上運行,而不需要昂貴的企業(yè)級硬件。同時,模型提供了GGUF格式版本,進一步優(yōu)化了部署效率和兼容性。這種設計理念體現(xiàn)了研究團隊"效率優(yōu)于規(guī)模"的核心思想。

**七、性能基準測試與對比分析**

在SimpleQA基準測試中,Jan-nano的表現(xiàn)令整個AI社區(qū)刮目相看。83.2%的準確率不僅超越了許多參數(shù)規(guī)模遠超自己的模型,更重要的是展現(xiàn)了"小而精"設計理念的巨大潛力。相比之下,OpenAI的o1模型僅達到42.6%,Claude-3.7-Sonnet為50.0%,Gemini-2.5 Pro為52.9%。即使是ChatGPT-4.5也只有62.5%的表現(xiàn)。

最引人注目的對比是與DeepSeek-671B模型的比較。這個擁有6710億參數(shù)的巨型模型在相同測試中達到78.2%的準確率,比Jan-nano低了5個百分點。這種對比就像一輛經(jīng)濟型轎車在燃油效率競賽中擊敗了重型卡車,充分展示了優(yōu)化設計的威力。

Jan-nano相比基線Qwen3-4B模型實現(xiàn)了24個百分點的顯著提升,從59.2%提升到83.2%。這種提升主要歸功于MCP集成和專門的工具使用訓練。雖然研究團隊承認不同MCP實現(xiàn)和評估設置可能影響直接比較,但這種幅度的改進仍然是令人印象深刻的。

Jan-nano 128K上下文變體比標準變體有2.5個百分點的適度改進,從80.7%提升到83.2%。這表明擴展上下文長度對這種基準測試是有益的,可能是因為模型能夠處理更復雜的多文檔信息整合任務。

這些性能結(jié)果挑戰(zhàn)了AI開發(fā)中的傳統(tǒng)假設。長期以來,業(yè)界普遍認為更好的性能需要更大的模型和更多的計算資源。Jan-nano的成功證明,通過聚焦特定能力(如工具使用和信息檢索)而不是試圖在模型中編碼百科全書式知識,可以實現(xiàn)更高的效率和更好的結(jié)果。

**八、未來發(fā)展方向與局限性**

盡管Jan-nano取得了令人矚目的成功,研究團隊也坦率地承認了當前版本的局限性。模型目前在SimpleQA基準測試中達到83.2%的性能,未來的工作目標是通過改進量化方法和擴展工具集成能力,將性能提升到85-90%的范圍。

語言支持是另一個需要改進的領域。Jan-nano主要針對英語進行了優(yōu)化,對于其他語言的支持還需要進一步的研究和開發(fā)。這種局限性在全球化的AI應用環(huán)境中是一個需要解決的重要問題。

模型需要適當?shù)奶崾竟こ滩拍塬@得最佳結(jié)果,雖然這些優(yōu)化已經(jīng)集成到模型中,但仍然需要用戶具備一定的技術理解。未來的發(fā)展方向可能包括進一步簡化使用方式,讓普通用戶也能輕松發(fā)揮模型的全部潛力。

研究團隊的成功為AI開發(fā)開辟了新的道路。通過證明專門化訓練可以讓小型模型在特定任務上超越大型通用模型,Jan-nano為資源受限的研究團隊和應用開發(fā)者提供了新的可能性。這種方法特別適合那些需要高效、可靠工具使用能力的應用場景。

從更廣闊的視角來看,Jan-nano的成功可能標志著AI發(fā)展范式的轉(zhuǎn)變。與其追求包羅萬象的超大型模型,未來可能會看到更多針對特定任務優(yōu)化的專門化模型。這種趨勢不僅能夠提高效率,還能降低AI技術的使用門檻,讓更多人能夠享受人工智能帶來的便利。

說到底,Jan-nano最大的貢獻可能不是它在某個基準測試中的優(yōu)異表現(xiàn),而是它向我們展示了一種全新的思考方式。在AI領域,有時候聰明的策略比暴力的計算更重要,專注的方向比全面的覆蓋更有效。這個只有40億參數(shù)的"小個子"模型,用它的表現(xiàn)告訴我們:智能不在于知道所有答案,而在于知道如何找到答案。對于那些希望在資源有限的情況下開發(fā)高效AI應用的研究者和開發(fā)者來說,Jan-nano提供了一個極具啟發(fā)性的范例。有興趣深入了解這項技術的讀者,可以通過arXiv平臺訪問完整的技術報告,或在Hugging Face平臺體驗不同版本的模型。

Q&A

Q1:Jan-nano是什么?它和傳統(tǒng)AI模型有什么不同? A:Jan-nano是Menlo Research開發(fā)的4B參數(shù)語言模型,最大特點是"會找信息"而不是"記住信息"。傳統(tǒng)AI模型像百科全書,試圖記住所有知識;Jan-nano更像圖書管理員,精通如何快速找到任何需要的信息。

Q2:為什么Jan-nano能用更少參數(shù)擊敗更大的模型? A:關鍵在于專門化訓練。Jan-nano放棄了通用知識存儲,專注訓練搜索和工具使用能力。就像專業(yè)選手在自己擅長的項目上能擊敗全能選手一樣,專門化使它在特定任務上表現(xiàn)更出色。

Q3:普通人能使用Jan-nano嗎?它有什么實際應用? A:可以。Jan-nano設計時考慮了消費級硬件限制,普通GPU就能運行。它特別適合需要實時信息檢索的應用,比如智能客服、研究助手、實時問答系統(tǒng)等,能夠準確回答需要搜索驗證的復雜問題。

分享至
0贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-