這項由Atla公司Andrei Alexandru、Antonia Calvi、Henry Broomfield等研究人員主導的研究,于2025年1月發(fā)表在arXiv預印本平臺上(論文編號:arXiv:2501.17195v1),有興趣深入了解的讀者可以通過https://hf.co/AtlaAI/Selene-1-Mini-Llama-3.1-8B訪問模型權重和相關資源。
當我們想要評判一篇文章寫得好不好,或者比較兩個回答哪個更優(yōu)秀時,通常需要請專業(yè)人士來評分。但現(xiàn)在AI模型越來越多,人工評估既昂貴又耗時,就像請名廚來品嘗每一道菜一樣不現(xiàn)實。因此,科學家們開始讓AI來評判AI,這就像訓練一個機器人美食評委,專門負責品嘗和評分各種AI"烹飪"出來的文本作品。
Atla公司的研究團隊面臨的挑戰(zhàn)是:如何訓練出一個既小巧又強大的AI評判員?現(xiàn)有的評估模型要么太大太笨重,要么評判標準不夠準確,經常出現(xiàn)偏見。就好比一個美食評委要么過于挑剔只喜歡長篇大論的回答,要么總是偏愛某種特定風格,這顯然不是我們想要的公正裁判。
研究團隊的突破在于開發(fā)出了Atla Selene Mini,一個僅有80億參數(shù)的小型語言模型評估器。雖然個頭不大,但它在11個不同的測試基準上都表現(xiàn)出色,甚至超越了OpenAI的GPT-4o-mini模型。這就像一位經驗豐富的年輕評委,雖然年紀不大,但眼光獨到,判斷準確,而且工作效率極高。
一、數(shù)據(jù)準備:精心挑選訓練素材
要訓練出一個優(yōu)秀的AI評判員,首先需要大量高質量的訓練數(shù)據(jù),就像培養(yǎng)一個美食評委需要讓他品嘗各種優(yōu)質菜品一樣。研究團隊從16個公開數(shù)據(jù)集中收集了57.7萬個數(shù)據(jù)點,涵蓋了三種不同的評判任務。
第一種任務是對比評判,類似于讓評委比較兩道菜哪個更好吃。系統(tǒng)會給出兩個不同的回答,然后判斷哪個更優(yōu)秀。這種任務最接近我們日常的判斷場景,比如在兩個客服回復中選擇更合適的那個。
第二種任務是絕對評分,就像給一道菜打分一樣,不是相對比較,而是給出具體的分數(shù),比如從1到5分或1到7分。這種方式能夠提供更細致的評判信息,告訴我們一個回答到底有多好或多差。
第三種任務是分類判斷,相當于簡單的是非題,比如判斷一個回答是否準確,或者是否包含有害內容。這種黑白分明的判斷在很多實際應用中都很重要。
研究團隊特別注意只使用2023年之后發(fā)布的數(shù)據(jù)集,因為更早的數(shù)據(jù)往往質量較低,就像用過期食材做菜一樣,難以培養(yǎng)出高水準的評委。同時,他們還過濾掉了重復內容、空值以及非拉丁字母的數(shù)據(jù),確保訓練素材的純凈度。
二、創(chuàng)新的訓練策略:讓AI學會既批評又贊揚
傳統(tǒng)的訓練方法往往只告訴AI什么是好的答案,但Selene Mini的訓練更加巧妙。研究團隊采用了一種叫做"對比學習"的方法,同時教會AI識別好答案和壞答案的區(qū)別,就像培養(yǎng)品酒師時不僅要讓他品嘗好酒,也要嘗試劣質酒,這樣才能形成準確的判斷標準。
具體來說,對于每個訓練樣本,研究團隊會同時生成兩種評價:一個是正確的、高質量的評價(相當于"獲選"的答案),另一個是錯誤的、低質量的評價(相當于"被拒"的答案)。通過對比這兩種評價,AI能夠更好地理解什么樣的判斷才是準確的。
更有趣的是,研究團隊還讓AI學會了給出詳細的評價理由,而不僅僅是簡單的分數(shù)或選擇。就像一個專業(yè)的影評人不僅會給電影打分,還會詳細解釋為什么給出這個分數(shù),包括劇情、表演、攝影等各個方面的分析。這種"鏈式思考"的訓練方式讓Selene Mini能夠提供更有價值的反饋。
在訓練數(shù)據(jù)的構造上,團隊采用了70%詳細評價加判斷、30%僅判斷的比例。這種搭配就像讓學生既要寫詳細的論述題,也要做簡單的選擇題,兩種形式相互補充,全面提升判斷能力。
三、質量控制:嚴格篩選確保準確性
為了確保訓練數(shù)據(jù)的質量,研究團隊實施了多重篩選機制。首先,他們使用了ArmoRM這個專門的獎勵模型來為數(shù)據(jù)打分,就像請一位經驗豐富的老師來預先篩選考試題目一樣。對于四個最大的數(shù)據(jù)集,他們設置了不同的質量門檻,只有達到標準的數(shù)據(jù)才能進入最終的訓練集合。
在生成對比評價的過程中,研究團隊發(fā)現(xiàn)了一個有趣的現(xiàn)象:有時候AI生成的評價內容和它給出的最終判斷并不一致,就像一個人嘴上說著"這道菜很好吃",但實際給出的評分卻很低。為了解決這個問題,他們開發(fā)了一個一致性檢查器,專門篩選出那些評價內容和最終判斷相匹配的樣本。
這種嚴格的質量控制確保了最終訓練出來的模型具有很高的一致性。在實際測試中,Selene Mini的評價內容和判斷結果的不一致率僅為0.1%,這意味著它幾乎總是能給出邏輯自洽的評價。
四、訓練過程:巧妙的損失函數(shù)設計
在實際訓練過程中,研究團隊使用了一種改進的優(yōu)化方法,結合了兩種不同的學習目標。第一種目標是讓模型更好地區(qū)分好答案和壞答案,增大它們之間的判斷差距。第二種目標是提高對好答案的識別準確度,確保模型能夠準確識別出高質量的內容。
這種雙重優(yōu)化策略就像同時訓練一個學生的判斷力和記憶力。判斷力幫助他區(qū)分對錯,記憶力幫助他記住什么是標準答案。兩者相結合,造就了Selene Mini出色的評估能力。
訓練過程使用了8塊NVIDIA H100顯卡,耗時16小時。雖然聽起來時間不長,但考慮到處理的數(shù)據(jù)量和模型的復雜度,這個效率已經相當不錯了。研究團隊通過精心調節(jié)學習率、權重衰減等參數(shù),確保模型能夠穩(wěn)定收斂到最佳狀態(tài)。
五、性能表現(xiàn):全面超越現(xiàn)有模型
在11個不同的評估基準上,Selene Mini展現(xiàn)出了令人印象深刻的性能。這些基準涵蓋了從學術寫作評估到代碼質量判斷的各個方面,就像讓一個評委去評判不同類型的比賽,從烹飪大賽到音樂演出都要涉及。
在整體性能上,Selene Mini以75.6%的平均得分位居榜首,超過了之前最好的小型評估模型SFR-LlaMA-3.1-8B-Judge的74.9%,也超過了OpenAI的GPT-4o-mini的74.3%。更令人驚訝的是,在某些特定任務上,比如RewardBench這個專門測試獎勵模型的基準測試中,Selene Mini甚至超過了體型更大的GPT-4o模型。
在絕對評分任務上,Selene Mini表現(xiàn)特別出色,平均得分達到64.8%,略高于GPT-4o-mini的64.0%。這種任務在實際應用中非常重要,因為它能提供具體的質量分數(shù),而不僅僅是相對比較的結果。研究團隊通過用戶調研發(fā)現(xiàn),在實際商業(yè)應用中,絕對評分比相對比較更受歡迎,因為它能夠提供更細致的質量信息。
六、實際應用驗證:真實場景下的表現(xiàn)
為了驗證Selene Mini在實際應用中的表現(xiàn),研究團隊特意選擇了兩個專業(yè)領域的數(shù)據(jù)集進行測試:醫(yī)療和金融。這就像讓一個通用評委去判斷專業(yè)領域的內容,看看他是否具備跨領域的判斷能力。
在醫(yī)療領域,研究團隊使用了CRAFT-MD數(shù)據(jù)集,這是一個專門評估醫(yī)療AI對話質量的基準。該數(shù)據(jù)集包含了臨床AI與患者AI之間的對話,由醫(yī)療專家進行標注。測試內容包括三個方面:是否能夠得出最可能的診斷、是否涵蓋了相關的病史信息、以及患者是否使用了醫(yī)療術語。
結果顯示,Selene Mini在這些醫(yī)療評估任務上比基礎模型Llama 3.1 8B Instruct有顯著提升。特別是在醫(yī)療術語使用判斷上,準確率從79%提升到92%,在診斷可能性評估上從51%提升到62%。這種提升表明,經過專門訓練的評估模型確實能夠更好地理解和判斷專業(yè)領域的內容。
在金融領域,研究團隊使用了FinanceBench數(shù)據(jù)集,該數(shù)據(jù)集包含了關于上市公司的問題及相應答案,并標注了答案是否包含虛假信息。Selene Mini在這個任務上的準確率達到71.7%,明顯高于基礎模型的66.4%。這種改進對于金融信息的準確性評估具有重要意義,因為金融領域的錯誤信息可能導致嚴重的經濟損失。
七、穩(wěn)定性測試:不同提示格式下的表現(xiàn)
一個優(yōu)秀的評估模型應該能夠適應各種不同的提示格式,而不是只對特定格式的輸入敏感。為了測試這種穩(wěn)定性,研究團隊設計了六種不同的提示格式:原始格式、Markdown格式、JSON格式、PrePair格式、簡化說明格式等。
這種測試就像讓一個評委適應不同的比賽規(guī)則和評分表格,看他是否能夠在各種情況下都保持一致的判斷標準。結果表明,Selene Mini在所有格式下都保持了穩(wěn)定的性能表現(xiàn),性能波動很小。這種穩(wěn)定性對于實際應用來說非常重要,因為不同的用戶可能會使用不同的提示方式。
相比之下,基礎模型在不同格式下的性能差異較大,這表明專門的訓練確實提高了模型的格式適應能力。這種改進使得Selene Mini能夠更好地服務于各種實際應用場景,不需要用戶嚴格按照特定格式編寫提示。
八、社區(qū)競技場:群眾智慧的驗證
研究團隊還開發(fā)了一個叫做Judge Arena的社區(qū)平臺,讓普通用戶可以對不同的評估模型進行頭對頭比較。這個平臺的工作原理就像網(wǎng)上的投票系統(tǒng),用戶可以看到兩個不同模型給出的評價,然后選擇他們認為更好的那個。
在這個平臺上,Selene Mini展現(xiàn)出了令人驚喜的表現(xiàn)。截至2025年1月22日的數(shù)據(jù)顯示,Selene Mini在與25個其他評估模型的比較中排名第一,甚至超過了Claude 3.5 Sonnet、Prometheus 7B v2和Llama 3.1 405B Instruct等知名模型。
這種社區(qū)驗證具有特殊的意義,因為它反映了真實用戶的偏好和判斷。不同于實驗室環(huán)境中的基準測試,這種眾包評估更接近模型在實際使用中會遇到的情況。用戶的選擇往往基于直覺和實用性,這為模型性能提供了另一個維度的驗證。
九、開源策略:推動社區(qū)發(fā)展
研究團隊決定將Selene Mini的完整權重開源,通過HuggingFace和Ollama兩個平臺提供下載。這種開源策略體現(xiàn)了研究團隊推動AI評估技術普及的愿望,就像將一個優(yōu)秀的工具免費分享給所有需要的人。
開源不僅降低了使用門檻,也為研究社區(qū)提供了進一步改進和優(yōu)化的基礎。其他研究者可以基于Selene Mini進行二次開發(fā),或者將其技術應用到特定的領域中。這種開放合作的模式有助于整個AI評估領域的快速發(fā)展。
同時,開源也意味著透明性。研究團隊公開了模型的訓練方法、數(shù)據(jù)處理流程和性能表現(xiàn),這使得其他研究者可以驗證和復現(xiàn)這些結果,促進了科學研究的可信度和可重復性。
十、技術創(chuàng)新點:數(shù)據(jù)質量的重要性
這項研究的一個重要發(fā)現(xiàn)是,對于評估模型來說,數(shù)據(jù)質量比模型規(guī)模更為重要。Selene Mini雖然只有80億參數(shù),規(guī)模相對較小,但通過精心策劃的數(shù)據(jù)和訓練策略,它能夠在性能上超越許多更大的模型。
這種發(fā)現(xiàn)挑戰(zhàn)了"越大越好"的傳統(tǒng)觀念,表明在AI模型開發(fā)中,聰明的方法往往比蠻力更有效。就像一個技藝精湛的小餐廳可能比豪華大酒店做出更美味的菜品一樣,關鍵在于對細節(jié)的關注和對質量的把控。
研究團隊在數(shù)據(jù)篩選上投入了大量精力,從原始數(shù)據(jù)的質量篩選到合成數(shù)據(jù)的一致性檢查,每一個環(huán)節(jié)都經過精心設計。這種對數(shù)據(jù)質量的重視為整個AI評估領域提供了重要的參考和啟示。
十一、未來展望:應對新挑戰(zhàn)
研究團隊在論文中指出,AI評估領域面臨著兩個重要的發(fā)展趨勢。首先是基于智能體的系統(tǒng)越來越普及,這些系統(tǒng)不僅能生成文本,還能調用各種工具和API,創(chuàng)造出更復雜、更實用的AI應用。其次是推理時計算的興起,即模型在生成回答時會進行額外的推理步驟,以提供更高質量的輸出。
這兩個趨勢為評估帶來了新的挑戰(zhàn)。傳統(tǒng)的評估方法主要關注最終輸出的質量,但對于這些新型系統(tǒng),可能需要評估整個推理過程、工具使用的合理性以及多步驟操作的邏輯性。這就像從評判一道菜的味道擴展到評判整個烹飪過程,包括食材選擇、烹飪技巧和擺盤藝術。
未來的評估模型需要具備更全面的判斷能力,不僅要能評估語言輸出,還要能理解和評價復雜的推理鏈條和工具使用策略。Selene Mini作為一個強大而高效的基礎模型,為這些未來發(fā)展提供了良好的起點。
說到底,Atla公司的這項研究證明了一個重要觀點:在AI評估這個日益重要的領域,創(chuàng)新的方法和對質量的關注比單純的規(guī)模擴大更有價值。Selene Mini以其出色的性能、高效的運行和開源的理念,為整個AI社區(qū)提供了一個強大而實用的工具。
對于普通用戶而言,這意味著他們很快就能享受到更準確、更一致的AI評估服務,無論是在工作中需要評判文檔質量,還是在學習中需要獲得作業(yè)反饋。對于開發(fā)者來說,Selene Mini提供了一個可靠的基礎,可以在其基礎上構建更專業(yè)的評估系統(tǒng)。
隨著AI技術的不斷發(fā)展,準確而高效的評估將變得越來越重要。Selene Mini的成功不僅是技術上的突破,更代表了一種以質量為導向、以開放合作為理念的研究方式。這種方式或許會成為未來AI研發(fā)的重要參考,推動整個行業(yè)向更高質量、更負責任的方向發(fā)展。
Q&A
Q1:Atla Selene Mini和GPT-4o-mini相比有什么優(yōu)勢?
A:Selene Mini在整體性能上超過GPT-4o-mini,平均得分75.6%對74.3%,特別是在絕對評分任務上表現(xiàn)更出色。更重要的是,Selene Mini是完全開源的,用戶可以免費使用并根據(jù)需要進行定制,而且模型更小,運行效率更高。
Q2:普通用戶如何使用Selene Mini來評估文本質量?
A:用戶可以通過HuggingFace(https://hf.co/AtlaAI/Selene-1-Mini-Llama-3.1-8B)或Ollama平臺下載使用Selene Mini。它能夠對文本進行打分評估,比較不同回答的質量,并提供詳細的評價理由,適合用于文檔質量檢查、作業(yè)評估、客服回復優(yōu)化等場景。
Q3:Selene Mini在專業(yè)領域比如醫(yī)療和金融方面的評估準確嗎?
A:測試顯示Selene Mini在專業(yè)領域表現(xiàn)出色。在醫(yī)療領域的CRAFT-MD數(shù)據(jù)集上,醫(yī)療術語使用判斷準確率達到92%,診斷可能性評估準確率62%;在金融領域的FinanceBench數(shù)據(jù)集上準確率達到71.7%,都明顯超過基礎模型的表現(xiàn)。
好文章,需要你的鼓勵
騰訊ARC實驗室推出AudioStory系統(tǒng),首次實現(xiàn)AI根據(jù)復雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結合大語言模型的敘事推理能力與音頻生成技術,通過交錯式推理生成、解耦橋接機制和漸進式訓練,能夠將復雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學聯(lián)合研發(fā)的VideoJAM技術,通過讓AI同時學習外觀和運動信息,顯著解決了當前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術僅需添加兩個線性層就能大幅提升運動質量,在多項測試中超越包括Sora在內的商業(yè)模型,為AI視頻生成的實用化應用奠定了重要基礎。
上海AI實驗室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質量樣本的訓練數(shù)據(jù)集和MM-AlignBench評測基準,通過創(chuàng)新的數(shù)據(jù)生成和質量管控方法,讓AI在保持技術能力的同時顯著提升人性化交互水平,為AI價值觀對齊提供了可行技術路徑。
谷歌DeepMind團隊開發(fā)的GraphCast是一個革命性的AI天氣預測模型,能夠在不到一分鐘內完成10天全球天氣預報,準確性超越傳統(tǒng)方法90%的指標。該模型采用圖神經網(wǎng)絡技術,通過學習40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學領域帶來了效率和精度的雙重突破。