這項(xiàng)由波蘭SpeakLeash團(tuán)隊(duì)聯(lián)合ACK Cyfronet AGH超算中心、雅蓋隆大學(xué)等機(jī)構(gòu)共同完成的研究,發(fā)表于2025年5月的arXiv預(yù)印本平臺(tái)(論文編號(hào):arXiv:2505.02550v2),感興趣的讀者可以通過該編號(hào)在arXiv網(wǎng)站上找到完整論文。研究團(tuán)隊(duì)的主要成員包括SpeakLeash公司的Krzysztof Ociepa、Lukasz Flis等多位來自學(xué)術(shù)界和工業(yè)界的專家。
波蘭語作為一門擁有3800萬使用者的語言,在人工智能領(lǐng)域一直面臨著"資源稀缺"的困境。想象一下,如果你想要一個(gè)能夠流利使用波蘭語的AI助手,以往只能依賴那些主要針對(duì)英語訓(xùn)練的大型模型,就像讓一個(gè)只會(huì)說英語的人去波蘭當(dāng)導(dǎo)游一樣勉強(qiáng)?,F(xiàn)在,SpeakLeash團(tuán)隊(duì)帶來了一個(gè)顛覆性的解決方案:他們開發(fā)的Bielik v3系列模型雖然"身材小巧",但在波蘭語理解和生成方面的表現(xiàn)卻令人刮目相看。
這個(gè)研究的核心突破在于,他們證明了一個(gè)只有1.5億或4.5億參數(shù)的模型,經(jīng)過精心設(shè)計(jì)和訓(xùn)練后,竟然能夠在多項(xiàng)波蘭語測(cè)試中擊敗那些參數(shù)量是它們2-3倍的"大塊頭"模型。這就好比一輛精心調(diào)校的小型跑車在賽道上超越了那些看起來更強(qiáng)壯的大型轎車。更令人驚喜的是,這種"小而精"的設(shè)計(jì)使得這些模型可以在普通的計(jì)算設(shè)備上運(yùn)行,而不需要昂貴的專業(yè)硬件支持。
研究團(tuán)隊(duì)并非從零開始構(gòu)建模型,而是選擇了一個(gè)聰明的策略:他們以現(xiàn)有的優(yōu)秀模型Qwen2.5作為基礎(chǔ),就像在一個(gè)已經(jīng)很好的房子基礎(chǔ)上進(jìn)行精裝修,而不是重新打地基。但這個(gè)"裝修"過程充滿了創(chuàng)新和技巧。
首先,他們開發(fā)了一個(gè)專門為波蘭語優(yōu)化的分詞器APT4。分詞器就像是AI理解語言的"翻譯官",它需要將人類的文字轉(zhuǎn)換成機(jī)器能夠理解的數(shù)字信號(hào)。原有的分詞器主要是為英語等語言設(shè)計(jì)的,處理波蘭語時(shí)就像用中式炒鍋去做法式料理,雖然能用但效果不佳。新的APT4分詞器專門針對(duì)波蘭語的語法特點(diǎn)進(jìn)行了優(yōu)化,能夠更高效地處理波蘭語的復(fù)雜詞匯變化。
研究團(tuán)隊(duì)還采用了一種叫做"深度放大"的技術(shù),這就像在原有的建筑上加蓋樓層一樣,通過增加模型的"深度"來提升其理解能力。他們將Qwen2.5的1.5B模型擴(kuò)展為32層,將3B模型擴(kuò)展為60層,每一層都能為模型的理解能力增添新的維度。
在訓(xùn)練數(shù)據(jù)方面,研究團(tuán)隊(duì)展現(xiàn)出了極其嚴(yán)謹(jǐn)?shù)膽B(tài)度。他們從SpeakLeash項(xiàng)目收集的海量波蘭語文本中精選了2920億個(gè)詞匯單元,涵蓋了3.03億份文檔。這個(gè)數(shù)據(jù)集不僅規(guī)模龐大,更重要的是質(zhì)量極高。為了確保數(shù)據(jù)質(zhì)量,他們開發(fā)了一套復(fù)雜的自動(dòng)評(píng)估系統(tǒng),就像有一支專業(yè)的品酒師團(tuán)隊(duì),能夠從海量的文本中篩選出最優(yōu)質(zhì)的內(nèi)容。
這套質(zhì)量評(píng)估系統(tǒng)采用了200個(gè)不同的衡量指標(biāo),從詞匯豐富度、語法正確性、內(nèi)容連貫性等多個(gè)維度對(duì)文本進(jìn)行評(píng)估。研究團(tuán)隊(duì)還特別關(guān)注文本的主題分布,確保訓(xùn)練數(shù)據(jù)涵蓋了健康、政治、體育、旅游、金融等120個(gè)不同的主題領(lǐng)域,避免模型在某些領(lǐng)域表現(xiàn)突出而在其他領(lǐng)域薄弱的問題。
在訓(xùn)練方法上,研究團(tuán)隊(duì)引入了"自適應(yīng)學(xué)習(xí)率"技術(shù)。傳統(tǒng)的模型訓(xùn)練就像用固定檔位開車,而自適應(yīng)學(xué)習(xí)率則像是智能變速箱,能夠根據(jù)路況自動(dòng)調(diào)整檔位。當(dāng)模型處理較長的文本時(shí),學(xué)習(xí)率會(huì)自動(dòng)調(diào)整,確保訓(xùn)練效果的穩(wěn)定性和高效性。
模型訓(xùn)練完成后,研究團(tuán)隊(duì)并沒有止步于此。他們采用了多層次的后處理訓(xùn)練策略,包括監(jiān)督微調(diào)、偏好學(xué)習(xí)和強(qiáng)化學(xué)習(xí)等步驟。監(jiān)督微調(diào)階段就像給學(xué)生提供標(biāo)準(zhǔn)答案進(jìn)行練習(xí),使用了超過1900萬條指令-回應(yīng)對(duì)進(jìn)行訓(xùn)練。偏好學(xué)習(xí)階段則更像是讓模型學(xué)會(huì)區(qū)分"好答案"和"壞答案",通過對(duì)比12.6萬條包含偏好標(biāo)注的數(shù)據(jù),讓模型學(xué)會(huì)生成更符合人類期望的回應(yīng)。
在強(qiáng)化學(xué)習(xí)階段,研究團(tuán)隊(duì)使用了一種稱為GRPO(群體相對(duì)策略優(yōu)化)的先進(jìn)算法,專門用于提升模型的數(shù)學(xué)推理能力。這個(gè)階段就像是讓模型在數(shù)學(xué)競賽中不斷練習(xí),通過解決1.2萬道波蘭語數(shù)學(xué)題來提升其邏輯推理能力。
為了驗(yàn)證模型的真實(shí)性能,研究團(tuán)隊(duì)在多個(gè)權(quán)威基準(zhǔn)測(cè)試中對(duì)Bielik v3進(jìn)行了全面評(píng)估。在Open PL LLM排行榜上,4.5B參數(shù)的Bielik v3模型獲得了56.13分的優(yōu)異成績,超越了許多參數(shù)量更大的模型,如Qwen2.5-7B-Instruct(54.93分)和Mistral-Nemo-Instruct-2407(55.27分)。更令人印象深刻的是,1.5B參數(shù)的小模型也達(dá)到了41.36分,超越了參數(shù)量是其兩倍的Phi-4-mini-instruct模型(43.30分)。
在波蘭語情商測(cè)試(Polish EQ-Bench)中,Bielik-4.5B-v3表現(xiàn)同樣出色,獲得了53.58分,這個(gè)成績與許多大型模型相當(dāng),顯示出模型在理解情感和社交情境方面的強(qiáng)大能力。在復(fù)雜波蘭語文本理解基準(zhǔn)(CPTUB)測(cè)試中,該模型在處理諷刺、習(xí)語表達(dá)和固定搭配等復(fù)雜語言現(xiàn)象方面表現(xiàn)優(yōu)異,證明了其對(duì)波蘭語細(xì)節(jié)特征的深度理解。
在波蘭醫(yī)學(xué)領(lǐng)域的專業(yè)測(cè)試中,Bielik-4.5B-v3在波蘭醫(yī)師資格考試題目上獲得了43.55%的正確率,幾乎接近參數(shù)量是其2.5倍的Bielik-11B-v2.5-Instruct模型(44.85%)的表現(xiàn)。這表明即使在專業(yè)領(lǐng)域,小參數(shù)模型通過精心優(yōu)化也能達(dá)到令人滿意的效果。
研究團(tuán)隊(duì)還在波蘭語言文化能力基準(zhǔn)(PLCC)上測(cè)試了模型對(duì)波蘭文化、歷史、地理等方面知識(shí)的掌握程度。這項(xiàng)測(cè)試包含600個(gè)精心設(shè)計(jì)的問題,涵蓋歷史、地理、文化傳統(tǒng)、藝術(shù)娛樂、語法和詞匯等六個(gè)主要領(lǐng)域。Bielik-4.5B-v3獲得了42.33%的成績,在同等參數(shù)規(guī)模的模型中表現(xiàn)突出。
為了驗(yàn)證模型的國際競爭力,研究團(tuán)隊(duì)還在英語基準(zhǔn)測(cè)試中對(duì)模型進(jìn)行了評(píng)估。在Open LLM排行榜上,Bielik-4.5B-v3獲得了64.89分,顯示出良好的跨語言泛化能力。在MixEval基準(zhǔn)測(cè)試中,該模型獲得了55.3分,證明了其在多樣化任務(wù)中的穩(wěn)定表現(xiàn)。
在函數(shù)調(diào)用能力測(cè)試(Berkeley Function-Calling Leaderboard)中,Bielik v3模型也展現(xiàn)出了不俗的表現(xiàn)。函數(shù)調(diào)用是現(xiàn)代AI系統(tǒng)與外部工具交互的重要能力,就像人類使用各種工具來完成復(fù)雜任務(wù)一樣。Bielik-4.5B-v3在多個(gè)子任務(wù)中都取得了優(yōu)異成績,特別是在Python簡單抽象語法樹和多重抽象語法樹類別中表現(xiàn)突出。
研究團(tuán)隊(duì)特別強(qiáng)調(diào)了他們?cè)谟?xùn)練過程中對(duì)數(shù)據(jù)質(zhì)量控制的創(chuàng)新方法。他們開發(fā)的質(zhì)量分類器達(dá)到了95%的準(zhǔn)確率,能夠自動(dòng)識(shí)別和過濾低質(zhì)量的訓(xùn)練文本。這個(gè)分類器不僅能夠檢測(cè)明顯的錯(cuò)誤,還能識(shí)別一些微妙的質(zhì)量問題,如機(jī)器翻譯的痕跡、內(nèi)容重復(fù)、格式不一致等。
為了最大化數(shù)據(jù)利用效率,研究團(tuán)隊(duì)還實(shí)施了一套"數(shù)據(jù)回收"策略。對(duì)于那些質(zhì)量處于中等水平的文本,他們使用Bielik v2.3模型進(jìn)行自動(dòng)修正,糾正拼寫錯(cuò)誤、格式問題和其他表面缺陷,然后重新評(píng)估這些文本的質(zhì)量。只有經(jīng)過修正后仍能達(dá)到質(zhì)量標(biāo)準(zhǔn)的文本才會(huì)被納入最終的訓(xùn)練數(shù)據(jù)集。
在模型架構(gòu)方面,Bielik v3采用了多項(xiàng)先進(jìn)技術(shù)。分組查詢注意力(GQA)技術(shù)減少了計(jì)算復(fù)雜度和內(nèi)存使用,同時(shí)保持了模型質(zhì)量。SwiGLU激活函數(shù)提供了更好的性能和訓(xùn)練穩(wěn)定性。旋轉(zhuǎn)位置編碼(RoPE)增強(qiáng)了模型對(duì)序列中token相對(duì)位置的理解能力。RMSNorm層歸一化技術(shù)提供了更好的訓(xùn)練穩(wěn)定性和計(jì)算效率。
研究團(tuán)隊(duì)在tokenizer更換過程中面臨了一個(gè)重要挑戰(zhàn):如何在保持模型原有能力的同時(shí)適應(yīng)新的vocabulary。他們嘗試了多種embedding初始化方法,包括隨機(jī)初始化、頻率基礎(chǔ)詞匯轉(zhuǎn)移、線性插值等,最終選擇了FOCUS方法,該方法能夠通過稀疏組合語義相似的重疊token來構(gòu)建新token的embedding。
在后訓(xùn)練階段,研究團(tuán)隊(duì)探索了多種偏好優(yōu)化技術(shù),包括直接偏好優(yōu)化(DPO)、帶懲罰的DPO(DPO-P)、賠率偏好優(yōu)化(ORPO)和簡單偏好優(yōu)化(SimPO)。經(jīng)過廣泛的評(píng)估,他們發(fā)現(xiàn)DPO-P在波蘭語基準(zhǔn)測(cè)試中表現(xiàn)最佳,盡管SimPO在計(jì)算效率方面有優(yōu)勢(shì)。
模型合并也是提升最終性能的重要步驟。研究團(tuán)隊(duì)采用線性合并方法,在監(jiān)督微調(diào)和強(qiáng)化學(xué)習(xí)階段后都進(jìn)行了模型合并,這種方法在整個(gè)Bielik v3開發(fā)過程中都是提升模型質(zhì)量的主要技術(shù)。
從技術(shù)創(chuàng)新角度來看,Bielik v3的最大貢獻(xiàn)在于證明了通過精心的數(shù)據(jù)選擇、架構(gòu)優(yōu)化和訓(xùn)練策略,小參數(shù)模型完全可以在特定語言上達(dá)到甚至超越大模型的性能。這種參數(shù)效率的提升對(duì)于資源有限的應(yīng)用場景具有重要意義,特別是對(duì)于那些需要在邊緣設(shè)備或本地環(huán)境中部署AI模型的應(yīng)用。
研究團(tuán)隊(duì)坦誠地指出了模型的局限性。和所有大語言模型一樣,Bielik v3也可能產(chǎn)生事實(shí)錯(cuò)誤的內(nèi)容,不應(yīng)該被依賴來提供絕對(duì)準(zhǔn)確的信息。模型的訓(xùn)練數(shù)據(jù)來源于各種公開數(shù)據(jù)集,雖然團(tuán)隊(duì)已經(jīng)盡力清理,但仍然可能包含偏見或不當(dāng)內(nèi)容,這可能會(huì)影響模型的輸出。
此外,雖然Bielik v3在波蘭語任務(wù)上表現(xiàn)優(yōu)異,但在處理一些需要復(fù)雜推理的"陷阱問題"時(shí)仍有改進(jìn)空間。這類問題通常具有邏輯謎題、語義歧義、邏輯不一致、荒謬性和幽默等特征,需要模型具備更強(qiáng)的推理能力和對(duì)語境的深度理解。
說到底,Bielik v3系列模型的成功證明了一個(gè)重要觀點(diǎn):在AI領(lǐng)域,"大"并不總是意味著"更好"。通過精心的設(shè)計(jì)和優(yōu)化,小參數(shù)模型完全可以在特定領(lǐng)域達(dá)到卓越的性能。這就像一位經(jīng)驗(yàn)豐富的木匠用簡單的工具制作出精美的家具,關(guān)鍵不在于工具的復(fù)雜程度,而在于使用者的技巧和經(jīng)驗(yàn)。
對(duì)于波蘭語使用者來說,Bielik v3提供了一個(gè)真正理解他們語言文化的AI助手選擇。對(duì)于AI研究者來說,這項(xiàng)工作展示了如何為資源相對(duì)稀缺的語言構(gòu)建高質(zhì)量的語言模型。對(duì)于普通用戶來說,這意味著他們可以在不需要昂貴硬件的情況下享受到高質(zhì)量的AI語言服務(wù)。
研究團(tuán)隊(duì)表示,未來的工作將重點(diǎn)關(guān)注進(jìn)一步提升復(fù)雜推理能力、探索額外的效率改進(jìn)方法,以及擴(kuò)展領(lǐng)域特定知識(shí)。他們相信Bielik v3模型為資源相對(duì)稀缺的語言建立了高效、高質(zhì)量語言模型的新標(biāo)桿。
這項(xiàng)研究的成功離不開整個(gè)團(tuán)隊(duì)的努力,特別是要感謝波蘭高性能計(jì)算基礎(chǔ)設(shè)施PLGrid(HPC中心:ACK Cyfronet AGH)在計(jì)算資源方面的支持。研究團(tuán)隊(duì)還特別提到了SpeakLeash開源項(xiàng)目的眾多貢獻(xiàn)者,正是他們的辛勤工作才使得如此大規(guī)模的波蘭語數(shù)據(jù)收集成為可能。
有興趣深入了解技術(shù)細(xì)節(jié)的讀者可以通過arXiv:2505.02550v2訪問完整的研究論文,其中包含了詳細(xì)的實(shí)驗(yàn)設(shè)置、完整的基準(zhǔn)測(cè)試結(jié)果和技術(shù)實(shí)現(xiàn)細(xì)節(jié)。這項(xiàng)研究不僅推動(dòng)了波蘭語AI技術(shù)的發(fā)展,也為其他資源相對(duì)稀缺語言的AI研究提供了寶貴的經(jīng)驗(yàn)和方法論參考。
**Q&A**
**Q1:Bielik v3是什么?它與其他AI模型有什么不同?** A:Bielik v3是專門為波蘭語優(yōu)化的AI語言模型系列,包含1.5B和4.5B兩個(gè)版本。它的特別之處在于"小身材大智慧"——參數(shù)量相對(duì)較小,但在波蘭語理解方面的表現(xiàn)卻能媲美甚至超越參數(shù)量更大的模型。這就像一臺(tái)精心調(diào)校的小跑車在專門賽道上跑贏了大型轎車。
**Q2:Bielik v3會(huì)不會(huì)取代其他大型AI模型?** A:不會(huì)完全取代,但它展示了一種新的發(fā)展方向。Bielik v3主要優(yōu)勢(shì)在于波蘭語處理和資源效率,適合需要在普通設(shè)備上運(yùn)行或?qū)iT處理波蘭語的場景。它更像是為特定需求提供了一個(gè)高效的專業(yè)化選擇,而不是要與通用大模型正面競爭。
**Q3:普通人如何使用Bielik v3?有什么特殊要求?** A:由于Bielik v3的小參數(shù)設(shè)計(jì),它可以在普通的計(jì)算設(shè)備上運(yùn)行,不需要昂貴的專業(yè)硬件。具體的使用方式需要關(guān)注SpeakLeash團(tuán)隊(duì)的后續(xù)發(fā)布,目前研究論文可以通過arXiv:2505.02550v2獲取。這種設(shè)計(jì)使得更多人能夠在自己的設(shè)備上享受高質(zhì)量的波蘭語AI服務(wù)。
好文章,需要你的鼓勵(lì)
新加坡國立大學(xué)研究團(tuán)隊(duì)開發(fā)了SPIRAL框架,通過讓AI與自己對(duì)弈零和游戲來提升推理能力。實(shí)驗(yàn)顯示,僅訓(xùn)練AI玩簡單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟(jì)大學(xué)團(tuán)隊(duì)開發(fā)的GIGA-ToF技術(shù)通過融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機(jī)噪聲問題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實(shí)現(xiàn)37.9%的精度提升,并在真實(shí)設(shè)備上展現(xiàn)出色泛化能力,為機(jī)器人、AR和自動(dòng)駕駛等領(lǐng)域提供更可靠的3D視覺解決方案。
伊利諾伊大學(xué)研究團(tuán)隊(duì)通過對(duì)比實(shí)驗(yàn)發(fā)現(xiàn),經(jīng)過強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺語言模型雖然表現(xiàn)出"頓悟時(shí)刻"現(xiàn)象,但這些自我糾錯(cuò)行為并不能實(shí)際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗(yàn)證差距",即生成答案的能力強(qiáng)于驗(yàn)證答案質(zhì)量的能力,且模型在自我驗(yàn)證時(shí)無法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過動(dòng)態(tài)稀疏性實(shí)現(xiàn)大語言模型訓(xùn)練加速1.6倍,計(jì)算成本降低2.2倍。該方法使用SVD稀疏性估計(jì)器智能選擇重要計(jì)算部分,在保持模型性能的同時(shí)顯著提升訓(xùn)練效率,已在多個(gè)任務(wù)上驗(yàn)證有效性。