av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

首頁
對(duì)話創(chuàng)新
對(duì)話科技行者
機(jī)器人新紀(jì)元
AI論文解讀
聯(lián)系我們

微信掃一掃，關(guān)注公眾號(hào)

科技行者
算力行者

見證連接與計(jì)算的「力量」

跨語言質(zhì)量判斷：基于語言模型的多語言預(yù)訓(xùn)練數(shù)據(jù)過濾方法

人工智能多語言處理數(shù)據(jù)質(zhì)量

跨語言質(zhì)量判斷：基于語言模型的多語言預(yù)訓(xùn)練數(shù)據(jù)過濾方法

作者：科技行者

2025-06-02 19:20

分享至：

這項(xiàng)研究提出了JQL（發(fā)音為"Jackal"），一種通過多語言方法提升大型語言模型預(yù)訓(xùn)練數(shù)據(jù)質(zhì)量的創(chuàng)新系統(tǒng)。研究團(tuán)隊(duì)從拉馬爾研究所等機(jī)構(gòu)通過四階段方法解決了多語言數(shù)據(jù)篩選的難題：先由人類評(píng)估內(nèi)容教育價(jià)值創(chuàng)建基準(zhǔn)數(shù)據(jù)，然后評(píng)估大型語言模型作為"評(píng)判者"的能力，接著將這些能力提煉到輕量級(jí)評(píng)估器中，最后應(yīng)用于大規(guī)模數(shù)據(jù)篩選。實(shí)驗(yàn)表明，JQL在35種語言上顯著優(yōu)于現(xiàn)有方法，甚至能泛化到未見過的語言如阿拉伯語和中文，為多語言AI發(fā)展提供了高效可靠的數(shù)據(jù)篩選方案。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-06-02 19:20 ? 科技行者

在人工智能領(lǐng)域，大型語言模型(LLMs)的預(yù)訓(xùn)練數(shù)據(jù)質(zhì)量對(duì)模型性能至關(guān)重要。2025年5月，來自拉馬爾研究所、弗勞恩霍夫IAIS、DFKI SAINT、黑森AI和達(dá)姆施塔特工業(yè)大學(xué)等機(jī)構(gòu)的研究團(tuán)隊(duì)發(fā)表了一篇重要論文，提出了一種名為JQL(Judging Quality across Languages，發(fā)音為"Jackal")的創(chuàng)新方法，旨在高效篩選多語言預(yù)訓(xùn)練數(shù)據(jù)。這項(xiàng)研究已發(fā)表在arXiv上(arXiv:2505.22232v1)，感興趣的讀者可以前往查閱完整論文。

想象一下，你正在為一場(chǎng)國際美食節(jié)挑選食材。你需要確保來自世界各地的食材都達(dá)到最高品質(zhì)，但你既不懂所有的語言，也沒有時(shí)間親自檢查每一件食材。這就是大型語言模型訓(xùn)練者面臨的挑戰(zhàn)——如何從海量的多語言網(wǎng)絡(luò)文本中篩選出最優(yōu)質(zhì)的內(nèi)容？

研究團(tuán)隊(duì)指出，高質(zhì)量的多語言訓(xùn)練數(shù)據(jù)對(duì)于有效預(yù)訓(xùn)練大型語言模型至關(guān)重要，但目前市面上適合的開源多語言數(shù)據(jù)集仍然有限?，F(xiàn)有的最先進(jìn)數(shù)據(jù)集主要依賴啟發(fā)式過濾方法，這限制了它們的跨語言遷移能力和可擴(kuò)展性。就像用一把只適合挑選蘋果的工具去挑選全球各種水果一樣，這些方法在處理多語言數(shù)據(jù)時(shí)顯得力不從心。

JQL方法的核心思想是將大型語言模型的評(píng)判能力"提煉"到輕量級(jí)的評(píng)估器中，這些評(píng)估器基于預(yù)訓(xùn)練的多語言嵌入模型構(gòu)建。想象成把專業(yè)品鑒師的技能傳授給許多輕便的自動(dòng)檢測(cè)設(shè)備，這些設(shè)備可以快速、準(zhǔn)確地評(píng)估各種語言的食材質(zhì)量。這些模型展現(xiàn)出強(qiáng)大的多語言和跨語言性能，即使是在訓(xùn)練過程中未見過的語言和文字系統(tǒng)也能表現(xiàn)出色。

研究團(tuán)隊(duì)在35種語言上進(jìn)行了實(shí)證評(píng)估，結(jié)果表明，由此產(chǎn)生的注釋管道大大優(yōu)于當(dāng)前的啟發(fā)式過濾方法，如Fineweb2。JQL明顯提高了下游模型訓(xùn)練質(zhì)量，并增加了數(shù)據(jù)保留率。簡(jiǎn)單來說，這種方法不僅能找出更優(yōu)質(zhì)的訓(xùn)練材料，還能保留更多有用的內(nèi)容，不會(huì)過度刪減。

讓我們深入了解JQL是如何工作的，以及它為什么能在多語言數(shù)據(jù)篩選領(lǐng)域帶來突破性進(jìn)展。

一、JQL工作流程：四步打造高質(zhì)量多語言數(shù)據(jù)

JQL方法由四個(gè)主要階段組成，就像一條精心設(shè)計(jì)的生產(chǎn)線，每個(gè)階段都有其特定的目標(biāo)和貢獻(xiàn)。

首先，研究團(tuán)隊(duì)需要?jiǎng)?chuàng)建可靠的多語言評(píng)估標(biāo)準(zhǔn)。他們讓人類標(biāo)注者根據(jù)教育價(jià)值對(duì)英語文檔進(jìn)行評(píng)分，使用0到5的等級(jí)，其中0表示最低教育價(jià)值，5表示最高。這就像請(qǐng)專業(yè)美食評(píng)論家對(duì)食材的新鮮度和品質(zhì)進(jìn)行評(píng)分。然后，他們將這些文檔翻譯成所有目標(biāo)語言，構(gòu)建了一個(gè)多語言真實(shí)標(biāo)注數(shù)據(jù)集。這個(gè)階段的關(guān)鍵問題是：如何獲得可靠的多語言基準(zhǔn)數(shù)據(jù)？

研究團(tuán)隊(duì)招募了15名不同背景的標(biāo)注者，包括計(jì)算機(jī)科學(xué)、英語研究、物理學(xué)和數(shù)學(xué)領(lǐng)域的專家。每個(gè)文檔由三名獨(dú)立標(biāo)注者評(píng)分，通過多數(shù)投票或平均值（當(dāng)沒有明確多數(shù)時(shí)）合并這些評(píng)分。為確保標(biāo)注質(zhì)量和一致性，團(tuán)隊(duì)使用了Fineweb-Edu中定義的教育提示作為標(biāo)注指南，并進(jìn)行了專門的標(biāo)注者培訓(xùn)。最終，他們創(chuàng)建了一個(gè)包含511個(gè)手動(dòng)標(biāo)注文檔的數(shù)據(jù)集，并將其翻譯成35種歐洲語言，形成了研究的基礎(chǔ)數(shù)據(jù)集。

在第二階段，研究團(tuán)隊(duì)評(píng)估了不同大型語言模型作為"評(píng)判者"的能力，以找出最適合多語言文檔質(zhì)量評(píng)估的模型。他們測(cè)試了從Gemma-2-27B-it到Qwen-2.5-7B-it等多種模型，最終選出了Gemma-3-27B-it、Mistral-3.1-24B-it和LLaMA-3.3-70B-it這三個(gè)表現(xiàn)最佳的模型。這些模型能夠理解多種語言的文檔內(nèi)容，并給出合理的教育質(zhì)量評(píng)分。

第三階段是JQL方法的核心創(chuàng)新——將大型語言模型的評(píng)判能力提煉到輕量級(jí)的模型中。研究團(tuán)隊(duì)使用第二階段篩選出的頂級(jí)語言模型標(biāo)注了大量多語言數(shù)據(jù)，然后利用這些標(biāo)注訓(xùn)練了一組輕量級(jí)的評(píng)估器。這些評(píng)估器共享一個(gè)凍結(jié)的多語言嵌入模型（Snowflake Arctic Embed v2.0）作為基礎(chǔ)，并在其上添加簡(jiǎn)單的回歸頭。這種設(shè)計(jì)使得注釋速度大大提升，在單個(gè)A100 GPU上每分鐘可處理約11,000個(gè)文檔，每個(gè)文檔平均690個(gè)標(biāo)記。

最后一階段是使用這些輕量級(jí)評(píng)估器來注釋預(yù)訓(xùn)練語料庫并過濾出高質(zhì)量子集。研究團(tuán)隊(duì)采用了基于百分位數(shù)的動(dòng)態(tài)閾值方法，而不是使用固定閾值，這使他們能夠更好地控制質(zhì)量與數(shù)量之間的平衡。通過要求多個(gè)評(píng)估器達(dá)成共識(shí)，他們進(jìn)一步增強(qiáng)了篩選的穩(wěn)健性。

二、研究發(fā)現(xiàn)：JQL如何超越現(xiàn)有方法

研究團(tuán)隊(duì)在多個(gè)方面評(píng)估了JQL的性能，結(jié)果令人印象深刻。首先，在人類標(biāo)注的基準(zhǔn)測(cè)試中，JQL輕量級(jí)評(píng)估器不僅表現(xiàn)出與原始大型語言模型相當(dāng)?shù)男阅?，在某些情況下甚至略有超越。更重要的是，這些評(píng)估器展現(xiàn)出強(qiáng)大的跨語言泛化能力，即使在訓(xùn)練過程中未見過的語言上也能表現(xiàn)良好。

在數(shù)據(jù)篩選效果方面，研究團(tuán)隊(duì)使用JQL過濾的數(shù)據(jù)集訓(xùn)練了2B參數(shù)的語言模型，并與使用Fineweb2啟發(fā)式過濾方法的基線進(jìn)行比較。結(jié)果顯示，JQL篩選的數(shù)據(jù)集在MMLU、HellaSwag和ARC等下游任務(wù)上一致地優(yōu)于基線。特別值得注意的是，使用0.6百分位閾值的JQL能夠保留比Fineweb2多4.8%的標(biāo)記，同時(shí)平均性能提高了4.27%，最終性能提升了4.6%。

研究團(tuán)隊(duì)還展示了JQL在訓(xùn)練中未見過的語言上的泛化能力。他們?cè)诎⒗Z、泰語和中文這三種語言上測(cè)試了JQL，結(jié)果表明，即使這些語言的文字系統(tǒng)和語言家族與訓(xùn)練數(shù)據(jù)完全不同，JQL仍然表現(xiàn)出色。這意味著JQL可以輕松擴(kuò)展到新的語言，而無需額外的訓(xùn)練或修改。

三、技術(shù)細(xì)節(jié)：JQL如何處理多語言數(shù)據(jù)

JQL的強(qiáng)大之處在于其簡(jiǎn)單而有效的設(shè)計(jì)。與之前需要復(fù)雜規(guī)則系統(tǒng)或大型語言模型進(jìn)行在線推理的方法不同，JQL使用預(yù)訓(xùn)練的多語言嵌入模型和簡(jiǎn)單的回歸頭來評(píng)估文檔質(zhì)量。這種設(shè)計(jì)有幾個(gè)關(guān)鍵優(yōu)勢(shì)：

首先，多語言嵌入模型能夠捕捉不同語言之間的語義相似性，使得跨語言遷移成為可能。這些模型將語義等價(jià)的文本映射到相似的嵌入空間，無論它們使用什么語言。就像一個(gè)能夠理解全球各地食材本質(zhì)特性的系統(tǒng)，不管它們的名稱或外觀如何不同。

其次，使用凍結(jié)的嵌入模型和輕量級(jí)回歸頭大大降低了計(jì)算需求。回歸頭僅占總參數(shù)的1%左右，嵌入計(jì)算是主要的運(yùn)行時(shí)成本。這使得JQL能夠高效地處理大規(guī)模數(shù)據(jù)，同時(shí)保持高質(zhì)量的注釋。

第三，JQL支持多種并行任務(wù)。由于不同的注釋任務(wù)（如教育價(jià)值評(píng)估、成人內(nèi)容過濾、數(shù)學(xué)準(zhǔn)確性評(píng)估或代碼質(zhì)量評(píng)估）可以共享同一個(gè)嵌入基礎(chǔ)，只需要為每個(gè)任務(wù)添加不同的回歸頭，這大大降低了添加新任務(wù)的成本。

研究團(tuán)隊(duì)還發(fā)現(xiàn)，使用更長的上下文窗口（8192個(gè)標(biāo)記而不是512個(gè)）可以顯著提高注釋性能，平均提高約7個(gè)百分點(diǎn)。對(duì)于愛爾蘭語或馬耳他語等低資源語言，性能提升甚至達(dá)到12個(gè)百分點(diǎn)。這表明完整理解文檔內(nèi)容對(duì)于準(zhǔn)確評(píng)估其質(zhì)量至關(guān)重要。

研究團(tuán)隊(duì)的實(shí)驗(yàn)還表明，文檔質(zhì)量評(píng)估中排序性能比分類準(zhǔn)確性更為重要。盡管不同模型在分類準(zhǔn)確性方面存在差異，但只要它們能夠正確排序文檔質(zhì)量，它們?cè)跀?shù)據(jù)篩選任務(wù)中的表現(xiàn)就相當(dāng)出色。這就像食材挑選中，能夠正確識(shí)別出哪些食材相對(duì)更新鮮更重要，而不是給每個(gè)食材分配絕對(duì)準(zhǔn)確的新鮮度等級(jí)。

四、JQL的實(shí)際應(yīng)用與影響

JQL不僅是一個(gè)學(xué)術(shù)突破，更是一個(gè)實(shí)用的工具，可以立即應(yīng)用于大規(guī)模語言模型的訓(xùn)練數(shù)據(jù)準(zhǔn)備。研究團(tuán)隊(duì)公開發(fā)布了JQL的多個(gè)組件，包括：

1. 一個(gè)包含511個(gè)文檔的人類標(biāo)注數(shù)據(jù)集，涵蓋35種語言，用于評(píng)估文檔的教育價(jià)值。 2. 由三個(gè)表現(xiàn)最佳的大型語言模型生成的1400多萬個(gè)文檔的注釋，覆蓋35種語言。 3. 三個(gè)輕量級(jí)教育質(zhì)量評(píng)估器，用于高效的數(shù)據(jù)注釋。 4. 一個(gè)定制的數(shù)據(jù)注釋管道，用于大規(guī)模處理網(wǎng)絡(luò)文本。

這些資源使研究社區(qū)和實(shí)踐者能夠復(fù)制JQL的結(jié)果并將其應(yīng)用于自己的項(xiàng)目?？紤]到高質(zhì)量的預(yù)訓(xùn)練數(shù)據(jù)是降低訓(xùn)練成本和提高模型性能的最有效因素之一，JQL可能對(duì)未來的語言模型發(fā)展產(chǎn)生重大影響。

研究團(tuán)隊(duì)的工作還指出了幾個(gè)有前途的未來研究方向。首先，JQL可以輕松擴(kuò)展到教育價(jià)值以外的其他過濾標(biāo)準(zhǔn)，如代碼質(zhì)量、數(shù)學(xué)準(zhǔn)確性或成人內(nèi)容審核。其次，JQL不僅可以用于預(yù)訓(xùn)練數(shù)據(jù)集的篩選，還可以用于指令微調(diào)和對(duì)齊等后訓(xùn)練階段的相關(guān)數(shù)據(jù)選擇。這種靈活性使JQL成為一個(gè)通用的工具，可以應(yīng)用于語言模型開發(fā)的多個(gè)階段。

總的來說，JQL代表了一種系統(tǒng)的方法，可以高效地策劃多樣化和高質(zhì)量的多語言數(shù)據(jù)，同時(shí)顯著減少計(jì)算需求。它提高了多語言數(shù)據(jù)集開發(fā)的標(biāo)準(zhǔn)，并為如何有效利用語言模型和嵌入模型進(jìn)行數(shù)據(jù)篩選提供了寶貴的見解。隨著語言模型繼續(xù)在全球范圍內(nèi)普及，像JQL這樣的工具將變得越來越重要，確保所有語言的用戶都能從高質(zhì)量的AI系統(tǒng)中受益。

人工智能多語言處理數(shù)據(jù)質(zhì)量

分享至

0贊

好文章，需要你的鼓勵(lì)

推薦文章

自對(duì)弈訓(xùn)練
推理能力提升
零和游戲?qū)W習(xí)

2025-07-02 14:26

AI玩游戲能讓推理變聰明？新加坡國立大學(xué)發(fā)現(xiàn)自對(duì)弈訓(xùn)練的神奇效果

新加坡國立大學(xué)研究團(tuán)隊(duì)開發(fā)了SPIRAL框架，通過讓AI與自己對(duì)弈零和游戲來提升推理能力。實(shí)驗(yàn)顯示，僅訓(xùn)練AI玩簡(jiǎn)單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%，通用推理提升8.4%，且無需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中，為AI訓(xùn)練提供了新思路。
計(jì)算機(jī)視覺
圖像降噪
3D相機(jī)技術(shù)

2025-07-02 14:26

同濟(jì)大學(xué)突破性研究：讓3D相機(jī)告別"噪點(diǎn)困擾"的智能降噪新技術(shù)

同濟(jì)大學(xué)團(tuán)隊(duì)開發(fā)的GIGA-ToF技術(shù)通過融合多幀圖像的"圖結(jié)構(gòu)"信息，創(chuàng)新性地解決了3D相機(jī)噪聲問題。該技術(shù)利用圖像間的不變幾何關(guān)系，結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法，在合成數(shù)據(jù)集上實(shí)現(xiàn)37.9%的精度提升，并在真實(shí)設(shè)備上展現(xiàn)出色泛化能力，為機(jī)器人、AR和自動(dòng)駕駛等領(lǐng)域提供更可靠的3D視覺解決方案。
人工智能
視覺語言模型
強(qiáng)化學(xué)習(xí)

2025-07-02 14:26

AI視覺推理模型的"頓悟時(shí)刻"真的存在嗎？伊利諾伊大學(xué)研究揭示令人意外的真相

伊利諾伊大學(xué)研究團(tuán)隊(duì)通過對(duì)比實(shí)驗(yàn)發(fā)現(xiàn)，經(jīng)過強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺語言模型雖然表現(xiàn)出"頓悟時(shí)刻"現(xiàn)象，但這些自我糾錯(cuò)行為并不能實(shí)際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗(yàn)證差距"，即生成答案的能力強(qiáng)于驗(yàn)證答案質(zhì)量的能力，且模型在自我驗(yàn)證時(shí)無法有效利用視覺信息，為AI多模態(tài)推理發(fā)展提供了重要啟示。
大語言模型
稀疏性訓(xùn)練
計(jì)算效率優(yōu)化

2025-07-02 14:25

MIT團(tuán)隊(duì)發(fā)明"智能減肥法"讓AI訓(xùn)練快1.6倍：只需要一半的算力就能教會(huì)大模型新技能

MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù)，通過動(dòng)態(tài)稀疏性實(shí)現(xiàn)大語言模型訓(xùn)練加速1.6倍，計(jì)算成本降低2.2倍。該方法使用SVD稀疏性估計(jì)器智能選擇重要計(jì)算部分，在保持模型性能的同時(shí)顯著提升訓(xùn)練效率，已在多個(gè)任務(wù)上驗(yàn)證有效性。

AI玩游戲能讓推理變聰明？新加坡國立大學(xué)發(fā)現(xiàn)自對(duì)弈訓(xùn)練的神奇效果

AI玩游戲能讓推理變聰明？新加坡國立大學(xué)發(fā)現(xiàn)自對(duì)弈訓(xùn)練的神奇效果

2025-07-02 14:26

同濟(jì)大學(xué)突破性研究：讓3D相機(jī)告別"噪點(diǎn)困擾"的智能降噪新技術(shù)

同濟(jì)大學(xué)突破性研究：讓3D相機(jī)告別"噪點(diǎn)困擾"的智能降噪新技術(shù)

2025-07-02 14:26

AI視覺推理模型的"頓悟時(shí)刻"真的存在嗎？伊利諾伊大學(xué)研究揭示令人意外的真相

AI視覺推理模型的"頓悟時(shí)刻"真的存在嗎？伊利諾伊大學(xué)研究揭示令人意外的真相

2025-07-02 14:26

MIT團(tuán)隊(duì)發(fā)明"智能減肥法"讓AI訓(xùn)練快1.6倍：只需要一半的算力就能教會(huì)大模型新技能

MIT團(tuán)隊(duì)發(fā)明"智能減肥法"讓AI訓(xùn)練快1.6倍：只需要一半的算力就能教會(huì)大模型新技能

2025-07-02 14:25

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

友情鏈接

至頂網(wǎng)
管理現(xiàn)代化
和訊IT
TechWeb
第三媒體
速途網(wǎng)
51CTO傳媒
投資界
科技訊
智者新時(shí)代

京ICP證15039648號(hào) 京ICP備15039648號(hào)-9 京公網(wǎng)安備 11010802021500號(hào)

北京第二十六維信息技術(shù)有限公司（至頂網(wǎng)）版權(quán)所有。 | 聯(lián)絡(luò)我們

舉報(bào)電話：010-62641205　涉未成年人舉報(bào)專線：010-62641208 舉報(bào)郵箱: jubao@zhiding.cn 　網(wǎng)上有害信息舉報(bào)專區(qū)：https://www.12377.cn

<legend id="ucsnb"><track id="ucsnb"></track></legend>

<sub id="ucsnb"><p id="ucsnb"><li id="ucsnb"></li></p></sub>

<cite id="ucsnb"><rp id="ucsnb"><span id="ucsnb"></span></rp></cite>