av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

<blockquote id="jtu2i"></blockquote>

微信掃一掃，關(guān)注公眾號

科技行者
算力行者

見證連接與計算的「力量」

LG AI研究院發(fā)布韓國AI大模型專業(yè)能力最新測試基準(zhǔn)：就像給AI考職業(yè)資格證一樣嚴(yán)格

人工智能職業(yè)資格測試專業(yè)知識評估

LG AI研究院發(fā)布韓國AI大模型專業(yè)能力最新測試基準(zhǔn)：就像給AI考職業(yè)資格證一樣嚴(yán)格

作者：科技行者

2025-07-22 09:26

分享至：

LG AI研究院發(fā)布了兩個全新的韓國AI專業(yè)能力測試基準(zhǔn)KMMLU-REDUX和KMMLU-PRO，通過真實的職業(yè)資格考試題目評估AI的專業(yè)能力。研究發(fā)現(xiàn)AI在醫(yī)學(xué)領(lǐng)域表現(xiàn)較好，但在法律等地域性強(qiáng)的專業(yè)領(lǐng)域仍有不足，為AI的專業(yè)化發(fā)展和實際應(yīng)用提供了重要評估工具。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-07-22 09:26 ? 科技行者

這項由LG AI研究院的洪石熙、金善京等研究團(tuán)隊領(lǐng)導(dǎo)的研究發(fā)表于2025年1月的arXiv預(yù)印本平臺（論文編號：arXiv:2507.08924v1），有興趣深入了解的讀者可以通過該編號在arXiv平臺上訪問完整論文。

把AI大模型比作剛畢業(yè)的大學(xué)生，那么現(xiàn)在市面上的各種AI測試就像是學(xué)校里的期末考試。但問題是，這些"期末考試"能真正檢驗AI是否具備在現(xiàn)實社會中工作的能力嗎？就像一個學(xué)生可能在學(xué)校考試中拿高分，但到了實際工作中卻不知道該如何處理復(fù)雜的職場問題一樣。

LG AI研究院的研究團(tuán)隊意識到了這個問題。他們發(fā)現(xiàn)，現(xiàn)有的AI測試主要集中在學(xué)術(shù)知識上，卻忽略了一個關(guān)鍵問題：AI是否真的具備處理專業(yè)工作所需的實際技能？當(dāng)企業(yè)想要部署AI助手來處理法律咨詢、醫(yī)療診斷或者會計工作時，他們需要知道這個AI是否真的具備相關(guān)的專業(yè)資質(zhì)，而不僅僅是在學(xué)術(shù)測試中表現(xiàn)良好。

基于這個洞察，研究團(tuán)隊開發(fā)了兩個全新的測試基準(zhǔn)：KMMLU-REDUX和KMMLU-PRO。如果把之前的AI測試比作學(xué)?？荚?，那么這兩個新的測試就像是專業(yè)的職業(yè)資格考試。KMMLU-REDUX相當(dāng)于技能認(rèn)證考試，而KMMLU-PRO則是真正的職業(yè)資格證書考試。

整個研究過程就像是一場精心設(shè)計的偵探工作。研究團(tuán)隊首先像偵探一樣仔細(xì)檢查了現(xiàn)有的韓國AI測試基準(zhǔn)KMMLU，發(fā)現(xiàn)了許多問題。他們發(fā)現(xiàn)有些題目直接在問題中泄露了答案，就像考試時老師不小心把答案寫在了黑板上一樣。還有一些題目表述不清，讓人看了一頭霧水。更嚴(yán)重的是，有些題目在網(wǎng)絡(luò)上到處都是，AI在訓(xùn)練時可能已經(jīng)"見過"這些題目了，這就像學(xué)生提前拿到了考試答案一樣不公平。

為了解決這些問題，研究團(tuán)隊采用了兩個策略。首先，他們對原有的測試進(jìn)行了"大掃除"，仔細(xì)篩選出了2587個高質(zhì)量的題目，組成了KMMLU-REDUX。這些題目全部來自韓國國家技術(shù)資格考試，要求考生必須擁有學(xué)士學(xué)位或至少九年的相關(guān)工作經(jīng)驗才能參加，確保了測試的專業(yè)性和挑戰(zhàn)性。

其次，他們創(chuàng)建了全新的KMMLU-PRO測試，這個測試包含了2822個來自韓國國家專業(yè)執(zhí)業(yè)資格考試的題目，涵蓋了14個不同的專業(yè)領(lǐng)域。這些考試可不是鬧著玩的——它們是真正的職業(yè)準(zhǔn)入門檻，就像醫(yī)生需要通過醫(yī)師資格考試、律師需要通過司法考試一樣。通過這些考試，才能在相應(yīng)的專業(yè)領(lǐng)域合法執(zhí)業(yè)。

研究團(tuán)隊選擇的專業(yè)領(lǐng)域非常全面，包括了法律、醫(yī)學(xué)、會計、稅務(wù)等各個方面。在法律領(lǐng)域，他們納入了律師、專利代理人、勞動法律師等職業(yè)的考試題目。在醫(yī)學(xué)領(lǐng)域，包括了醫(yī)師、牙醫(yī)、藥劑師等專業(yè)的考試內(nèi)容。在會計稅務(wù)領(lǐng)域，涵蓋了注冊會計師、稅務(wù)師、報關(guān)員等職業(yè)的考試題目。每個專業(yè)都有其獨(dú)特的知識要求和實踐技能，這確保了測試的全面性和實用性。

為了保證測試的權(quán)威性和準(zhǔn)確性，研究團(tuán)隊直接從韓國政府官方網(wǎng)站獲取了最新的考試題目，而不是從可能存在錯誤的第三方網(wǎng)站收集。他們還雇傭了23名專業(yè)標(biāo)注員，花費(fèi)了8個工作日對所有題目進(jìn)行人工檢查和校對，確保每個題目都準(zhǔn)確無誤。這個過程就像是對每道菜都要經(jīng)過頂級廚師品嘗確認(rèn)一樣嚴(yán)格。

在實際測試中，研究團(tuán)隊使用了市面上最先進(jìn)的AI大模型，包括OpenAI的o1模型、Anthropic的Claude 3.7 Sonnet、Google的Gemini系列、以及多個開源模型。測試結(jié)果令人眼前一亮，同時也暴露了一些有趣的現(xiàn)象。

在KMMLU-REDUX的測試中，各個AI模型的表現(xiàn)呈現(xiàn)出明顯的差異化特征。OpenAI的o1模型以81.14%的準(zhǔn)確率排名第一，Claude 3.7 Sonnet緊隨其后，達(dá)到了79.36%。有趣的是，具備"思考"能力的推理模型普遍比傳統(tǒng)模型表現(xiàn)更好，這就像給學(xué)生更多時間思考確實能提高考試成績一樣。

然而，真正有趣的發(fā)現(xiàn)出現(xiàn)在KMMLU-PRO的測試中。研究團(tuán)隊不僅看準(zhǔn)確率，還看AI是否真的能"通過"這些職業(yè)資格考試。就像真正的職業(yè)考試一樣，僅僅總分高還不夠，還需要在每個科目上都達(dá)到最低分?jǐn)?shù)線（通常是40%），并且總平均分達(dá)到60%以上。

結(jié)果發(fā)現(xiàn)，Claude 3.7 Sonnet在"職業(yè)資格證書"獲取方面表現(xiàn)最好，成功通過了14個專業(yè)中的12個，而準(zhǔn)確率最高的o1模型卻只通過了10個專業(yè)的考試。這個現(xiàn)象就像是一個學(xué)霸可能在某些科目上分?jǐn)?shù)很高，但在其他科目上卻可能不及格，導(dǎo)致無法獲得整體的職業(yè)資格認(rèn)證。

更加有趣的是不同專業(yè)領(lǐng)域的通過率差異。在醫(yī)學(xué)相關(guān)的專業(yè)中，大多數(shù)AI模型都能達(dá)到執(zhí)業(yè)標(biāo)準(zhǔn)，有些甚至能在藥劑師考試中取得超過90%的分?jǐn)?shù)。這表明AI在醫(yī)學(xué)知識的掌握上相對比較全面和準(zhǔn)確。

但在法律和會計稅務(wù)領(lǐng)域，AI的表現(xiàn)就不那么樂觀了。幾乎所有的AI模型都無法通過司法書記員和注冊會計師的考試，這兩個職業(yè)的考試通過率為零。這個現(xiàn)象反映了一個重要問題：法律和會計工作需要對具體國家的法律法規(guī)和制度有深入的了解，而這些知識具有很強(qiáng)的地域性和時效性特征。

研究團(tuán)隊還發(fā)現(xiàn)了一個值得注意的現(xiàn)象：當(dāng)他們把醫(yī)學(xué)、會計、法律等專業(yè)的題目從簡單的英文翻譯版本換成真正的韓國本土專業(yè)考試題目時，AI的表現(xiàn)出現(xiàn)了顯著差異。在醫(yī)學(xué)領(lǐng)域，這種差異相對較小，因為醫(yī)學(xué)知識在全球范圍內(nèi)相對統(tǒng)一。但在法律領(lǐng)域，差異就非常明顯了，因為每個國家的法律制度都有其獨(dú)特性。

這個發(fā)現(xiàn)具有重要的實踐意義。它提醒我們，簡單地將英文的AI測試翻譯成其他語言并不能真正評估AI在該地區(qū)的專業(yè)能力。就像一個熟悉美國法律的律師不能直接在中國執(zhí)業(yè)一樣，AI也需要針對具體地區(qū)的專業(yè)知識進(jìn)行專門的訓(xùn)練和評估。

研究團(tuán)隊還測試了"推理預(yù)算"對AI性能的影響。所謂推理預(yù)算，就是給AI更多的時間和計算資源來"思考"問題，就像給學(xué)生更多時間來答題一樣。結(jié)果發(fā)現(xiàn)，在大多數(shù)專業(yè)領(lǐng)域，給AI更多思考時間確實能提高其表現(xiàn)，但在某些特定領(lǐng)域（如司法書記員考試）中，即使給再多時間，AI的表現(xiàn)也沒有明顯改善。

另一個有趣的發(fā)現(xiàn)是語言對AI性能的影響。研究團(tuán)隊發(fā)現(xiàn)，有些AI模型在使用英文提示時表現(xiàn)更好，而在使用韓文提示時表現(xiàn)會下降。這就像是一個在英語環(huán)境中學(xué)習(xí)的學(xué)生，回到中文環(huán)境中反而可能表現(xiàn)不如預(yù)期。這個現(xiàn)象提醒我們，AI的多語言能力可能還需要進(jìn)一步提升。

為了確保測試的長期有效性，研究團(tuán)隊承諾每年更新KMMLU-PRO的題目，使用最新的職業(yè)資格考試內(nèi)容。這種做法就像是每年更新駕照考試題目一樣，確保測試始終反映最新的專業(yè)標(biāo)準(zhǔn)和要求。

這項研究的意義遠(yuǎn)超過了單純的AI測試。它為AI在專業(yè)領(lǐng)域的部署提供了重要的評估工具。當(dāng)一家醫(yī)院想要使用AI助手來輔助診斷時，他們可以通過KMMLU-PRO中的醫(yī)師資格考試來評估AI的專業(yè)能力。當(dāng)一家會計事務(wù)所想要使用AI來處理稅務(wù)工作時，他們也可以通過相應(yīng)的專業(yè)考試來評估AI是否具備必要的專業(yè)知識。

研究結(jié)果也揭示了當(dāng)前AI發(fā)展的一些局限性。雖然AI在某些領(lǐng)域表現(xiàn)出了令人印象深刻的能力，但在需要深入理解特定地區(qū)法律法規(guī)或復(fù)雜制度的領(lǐng)域，AI仍然面臨著挑戰(zhàn)。這提醒我們，AI的發(fā)展需要更加注重對具體應(yīng)用場景的適應(yīng)性。

從技術(shù)發(fā)展的角度來看，這項研究為AI的專業(yè)化訓(xùn)練指明了方向。傳統(tǒng)的AI訓(xùn)練主要關(guān)注通用知識，而這項研究表明，未來的AI發(fā)展可能需要更多地關(guān)注專業(yè)化和本地化。就像培養(yǎng)專業(yè)人才需要專門的教育和訓(xùn)練一樣，開發(fā)專業(yè)AI也需要針對性的數(shù)據(jù)和方法。

研究團(tuán)隊還發(fā)現(xiàn)，簡單地增加AI模型的規(guī)模和參數(shù)數(shù)量并不能自動提高其在專業(yè)領(lǐng)域的表現(xiàn)。相反，模型的架構(gòu)設(shè)計、訓(xùn)練方法、以及數(shù)據(jù)質(zhì)量可能更加重要。這就像是培養(yǎng)一個專業(yè)人才不僅需要給他大量的書本知識，更需要提供高質(zhì)量的實踐經(jīng)驗和專業(yè)指導(dǎo)。

對于普通用戶來說，這項研究提供了一個重要的參考框架。當(dāng)我們在選擇AI工具來處理專業(yè)工作時，不應(yīng)該僅僅看AI在通用測試中的表現(xiàn)，而應(yīng)該關(guān)注它在相關(guān)專業(yè)領(lǐng)域的具體能力。就像選擇醫(yī)生不僅要看他的學(xué)歷，更要看他的專業(yè)資格和臨床經(jīng)驗一樣。

這項研究也為AI行業(yè)的發(fā)展提供了重要啟示。隨著AI技術(shù)的不斷成熟，單純的技術(shù)創(chuàng)新可能不再是競爭的唯一焦點。相反，如何讓AI更好地適應(yīng)具體的專業(yè)需求，如何確保AI的專業(yè)能力得到權(quán)威認(rèn)證，這些可能成為未來AI發(fā)展的關(guān)鍵問題。

從監(jiān)管的角度來看，這項研究為AI在專業(yè)領(lǐng)域的應(yīng)用監(jiān)管提供了有價值的工具。監(jiān)管機(jī)構(gòu)可以參考這種專業(yè)化測試的方法，建立相應(yīng)的AI專業(yè)能力認(rèn)證制度，確保AI在敏感專業(yè)領(lǐng)域的應(yīng)用符合相關(guān)標(biāo)準(zhǔn)和要求。

研究團(tuán)隊還公開了他們的測試數(shù)據(jù)集，讓其他研究者和開發(fā)者可以使用這些基準(zhǔn)來評估自己的AI系統(tǒng)。這種開放共享的做法就像是建立了一個公共的"AI專業(yè)能力考試中心"，為整個行業(yè)的發(fā)展提供了統(tǒng)一的評估標(biāo)準(zhǔn)。

展望未來，這項研究可能催生出更多針對不同地區(qū)、不同專業(yè)的AI評估基準(zhǔn)。就像每個國家都有自己的職業(yè)資格考試制度一樣，未來可能會出現(xiàn)更多適合不同地區(qū)和專業(yè)的AI測試標(biāo)準(zhǔn)。這將有助于推動AI技術(shù)的全球化發(fā)展，同時保持對本地化需求的適應(yīng)性。

歸根結(jié)底，這項研究提醒我們，AI的發(fā)展不應(yīng)該僅僅追求在通用測試中的高分，而應(yīng)該關(guān)注在實際專業(yè)工作中的實用性和可靠性。就像培養(yǎng)人才不僅要看考試成績，更要看實際工作能力一樣，評估AI也應(yīng)該從實際應(yīng)用的角度出發(fā)。LG AI研究院的這項工作為AI向?qū)I(yè)化、實用化方向發(fā)展提供了重要的評估工具和發(fā)展方向，對于推動AI技術(shù)在各個專業(yè)領(lǐng)域的健康發(fā)展具有重要意義。有興趣深入了解技術(shù)細(xì)節(jié)的讀者可以通過arXiv:2507.08924v1訪問完整的研究論文。

Q&A

Q1：KMMLU-PRO測試和普通AI測試有什么不同？ A：KMMLU-PRO就像真正的職業(yè)資格考試，使用的是韓國國家專業(yè)執(zhí)業(yè)資格考試的真實題目，測試AI是否具備在醫(yī)學(xué)、法律、會計等專業(yè)領(lǐng)域工作的實際能力。而普通AI測試更像學(xué)?？荚?，主要考查學(xué)術(shù)知識。

Q2：為什么AI在醫(yī)學(xué)領(lǐng)域表現(xiàn)好，但在法律領(lǐng)域表現(xiàn)差？ A：醫(yī)學(xué)知識在全球相對統(tǒng)一，比如人體解剖學(xué)、藥理學(xué)等基礎(chǔ)知識差異不大。但法律具有強(qiáng)烈的地域性，每個國家的法律制度都不同，AI需要對具體國家的法律法規(guī)有深入了解才能勝任。

Q3：這個測試對普通人選擇AI工具有什么幫助？ A：當(dāng)你需要AI處理專業(yè)工作時，可以參考它在相關(guān)專業(yè)測試中的表現(xiàn)，而不是只看通用測試分?jǐn)?shù)。比如選擇醫(yī)療AI助手時，要看它在醫(yī)師資格考試中的表現(xiàn)，選擇法律AI時要看它在律師考試中的成績。

人工智能職業(yè)資格測試專業(yè)知識評估

分享至

0贊

好文章，需要你的鼓勵

推薦文章

音頻生成
大語言模型
多模態(tài)AI

2025-09-10 09:47

如何讓AI像電影配樂師一樣創(chuàng)作完整的長篇音頻故事——騰訊ARC實驗室團(tuán)隊AudioStory突破性進(jìn)展

騰訊ARC實驗室推出AudioStory系統(tǒng)，首次實現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù)，通過交錯式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練，能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測試中表現(xiàn)優(yōu)異，為AI音頻創(chuàng)作開辟新方向。
視頻生成
深度學(xué)習(xí)
多模態(tài)學(xué)習(xí)

2025-09-09 13:57

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動起來不再是奢望

Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù)，通過讓AI同時學(xué)習(xí)外觀和運(yùn)動信息，顯著解決了當(dāng)前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個線性層就能大幅提升運(yùn)動質(zhì)量，在多項測試中超越包括Sora在內(nèi)的商業(yè)模型，為AI視頻生成的實用化應(yīng)用奠定了重要基礎(chǔ)。
多模態(tài)AI
人類價值觀對齊
數(shù)據(jù)集構(gòu)建

2025-09-09 13:56

上海AI實驗室重磅發(fā)布：讓AI看圖"說人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類價值觀對齊難題

上海AI實驗室發(fā)布OmniAlign-V研究，首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評測基準(zhǔn)，通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法，讓AI在保持技術(shù)能力的同時顯著提升人性化交互水平，為AI價值觀對齊提供了可行技術(shù)路徑。
人工智能
圖神經(jīng)網(wǎng)絡(luò)
天氣預(yù)報

2025-09-09 10:56

谷歌研究團(tuán)隊發(fā)布超級預(yù)測模型：讓AI像天氣預(yù)報員一樣預(yù)測全球大氣變化

谷歌DeepMind團(tuán)隊開發(fā)的GraphCast是一個革命性的AI天氣預(yù)測模型，能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報，準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù)，通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律，在極端天氣預(yù)測方面表現(xiàn)卓越，能耗僅為傳統(tǒng)方法的千分之一，為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。

如何讓AI像電影配樂師一樣創(chuàng)作完整的長篇音頻故事——騰訊ARC實驗室團(tuán)隊AudioStory突破性進(jìn)展

如何讓AI像電影配樂師一樣創(chuàng)作完整的長篇音頻故事——騰訊ARC實驗室團(tuán)隊AudioStory突破性進(jìn)展

2025-09-10 09:47

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動起來不再是奢望

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動起來不再是奢望

2025-09-09 13:57

上海AI實驗室重磅發(fā)布：讓AI看圖"說人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類價值觀對齊難題

上海AI實驗室重磅發(fā)布：讓AI看圖"說人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類價值觀對齊難題

2025-09-09 13:56

谷歌研究團(tuán)隊發(fā)布超級預(yù)測模型：讓AI像天氣預(yù)報員一樣預(yù)測全球大氣變化

谷歌研究團(tuán)隊發(fā)布超級預(yù)測模型：讓AI像天氣預(yù)報員一樣預(yù)測全球大氣變化

2025-09-09 10:56

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

友情鏈接

至頂網(wǎng)
管理現(xiàn)代化
和訊IT
TechWeb
第三媒體
速途網(wǎng)
51CTO傳媒
投資界
科技訊
智者新時代

京ICP證15039648號京ICP備15039648號-9 京公網(wǎng)安備 11010802021500號

北京第二十六維信息技術(shù)有限公司（至頂網(wǎng)）版權(quán)所有。 | 聯(lián)絡(luò)我們

舉報電話：010-62641205　涉未成年人舉報專線：010-62641208 舉報郵箱: jubao@zhiding.cn 　網(wǎng)上有害信息舉報專區(qū)：https://www.12377.cn