這項由Mistral AI公司研究團隊完成的突破性研究發(fā)表于2025年6月,詳細介紹了他們開發(fā)的首個推理模型Magistral的完整技術(shù)路徑。有興趣深入了解的讀者可以通過arXiv:2506.10910v1訪問完整論文。這個研究團隊由來自Mistral AI的眾多頂尖研究人員組成,包括Abhinav Rastogi、Albert Q. Jiang、Andy Lo等核心貢獻者,以及數(shù)十位來自不同專業(yè)背景的協(xié)作研究者。
當我們看到ChatGPT或其他AI助手回答復雜問題時,可能會好奇:這些AI是如何學會"思考"的?大多數(shù)AI模型就像反應敏捷但缺乏深度思考的學生,遇到問題立即給出答案,但往往缺乏邏輯推理過程。而Mistral AI的研究團隊決定改變這種狀況,他們要教會AI如何像人類一樣進行深入思考。
這項研究的核心創(chuàng)新在于,研究團隊完全拋棄了傳統(tǒng)的"模仿學習"方法,而是采用純粹的強化學習來訓練AI模型。打個比方,傳統(tǒng)方法就像讓學生背誦優(yōu)秀作文,希望通過模仿來提高寫作水平。而Mistral的方法更像是讓學生獨立思考和練習,通過不斷的試錯和反饋來真正掌握思考技巧。
研究團隊開發(fā)了兩個版本的Magistral模型:Magistral Medium和Magistral Small。其中,Magistral Medium是基于Mistral Medium 3模型通過純強化學習訓練而來,在數(shù)學競賽AIME-24中的表現(xiàn)提升了近50%,這相當于從一個普通學生突然變成了數(shù)學競賽的優(yōu)秀選手。更令人驚喜的是,他們還開源了Magistral Small模型,讓全世界的研究者都能使用和改進這項技術(shù)。
一、讓AI學會"內(nèi)心獨白"的訓練秘籍
要理解Magistral的訓練方法,可以把整個過程想象成培養(yǎng)一個善于思考的學徒。傳統(tǒng)的AI訓練就像讓學徒觀看師傅工作,然后模仿師傅的動作。但Magistral的訓練更像是給學徒一個目標,讓他自己摸索出最佳的工作方法。
研究團隊采用了一種叫做GRPO(Group Relative Policy Optimization)的強化學習算法。這個算法的巧妙之處在于,它不需要額外的"評委"來判斷AI的表現(xiàn)好壞,而是讓AI自己和自己比較。具體來說,AI會針對同一個問題生成多個不同的答案,然后通過比較這些答案的質(zhì)量來學習哪種思考方式更有效。
這就像一個學生做數(shù)學題時,會嘗試幾種不同的解題思路,然后通過檢驗答案的正確性來判斷哪種思路更好。久而久之,學生就能形成更好的解題習慣和思維模式。
研究團隊對傳統(tǒng)GRPO算法進行了幾項關鍵改進。首先,他們完全移除了KL散度懲罰機制。在原始算法中,這個機制就像給學生套上枷鎖,防止他的思維偏離太遠。但研究團隊發(fā)現(xiàn),這種限制實際上阻礙了AI探索更好的思考方式,就像過度保護的家長反而限制了孩子的成長。
其次,他們引入了"損失歸一化"技術(shù)。這相當于確保每個學生的作業(yè)都被公平評分,不會因為答案長短不同而影響評判標準。同時,他們還采用了"優(yōu)勢歸一化"方法,確保AI能夠從每次練習中獲得一致且有意義的反饋。
最有趣的是"放寬信任區(qū)域上界"的策略。傳統(tǒng)方法會限制AI不能嘗試太冒險的思考方式,就像告訴學生只能用標準方法解題。但Magistral允許AI探索那些看似不太可能但可能非常有效的推理路徑。這種策略被稱為"Clip-Higher",它給了AI更大的探索空間,讓AI能夠發(fā)現(xiàn)那些人類可能忽視的巧妙解題思路。
二、精心設計的"獎勵機制":如何讓AI知道什么是好的思考
訓練AI思考的關鍵在于設計一套有效的獎勵機制,就像設計一套完善的考試評分標準。Magistral的獎勵系統(tǒng)包含四個維度:格式規(guī)范性、正確性、長度控制和語言一致性。
格式規(guī)范性要求AI必須按照特定的格式進行思考和回答。這就像要求學生解題時必須寫出完整的思考過程,而不能只給出最終答案。AI必須在回答中包含思考標簽(和),在思考標簽內(nèi)展示完整的推理過程,然后在標簽外給出最終的簡潔回答。對于數(shù)學問題,最終答案必須用特定的格式標記;對于編程問題,代碼必須用標準的代碼塊格式呈現(xiàn)。
正確性評估則更加嚴格和精確。對于數(shù)學問題,研究團隊開發(fā)了基于規(guī)則的驗證器,能夠識別出語法不同但語義相同的答案。比如,"1/2"和"0.5"雖然寫法不同,但代表相同的數(shù)值,驗證器能夠正確識別這種等價性。他們還利用SymPy等數(shù)學工具來確保答案的準確性。
對于編程問題,評估過程更像是真實的軟件測試。代碼會被實際編譯和運行,使用C++20標準,并且預編譯常用的頭文件以加快測試速度。每個代碼解決方案都會在隨機選擇的20個測試案例上運行,每個測試都有嚴格的時間限制(4秒)和內(nèi)存限制(300MB)。只有通過所有測試的代碼才能獲得滿分獎勵。
長度控制機制防止AI產(chǎn)生過于冗長或過于簡短的回答。這類似于作文考試中的字數(shù)要求,既要確保內(nèi)容充分,又要避免無意義的重復。研究團隊設計了一套漸進式的懲罰機制:當回答長度接近上限時,AI會收到輕微的負面反饋;當超過上限時,懲罰會更加明顯。
語言一致性是Magistral的一個獨特特色。研究團隊希望AI能夠用與用戶相同的語言進行思考和回答,就像一個真正的多語言助手。他們將部分英文問題翻譯成法語、西班牙語、意大利語、德語、中文和俄語,然后訓練AI在這些語言中保持思考和回答的一致性。這個過程使用了fastText分類器來檢測語言的一致性,確保AI不會在思考過程中隨意切換語言。
三、大規(guī)模分布式訓練:讓AI訓練像工廠流水線一樣高效
訓練像Magistral這樣復雜的推理模型需要巨大的計算資源,就像建造一座摩天大樓需要精密的工程協(xié)調(diào)。研究團隊設計了一套復雜而高效的分布式訓練系統(tǒng),包含三種不同類型的工作單元:訓練器、生成器和驗證器。
訓練器就像工廠的中央控制室,負責維護模型的主要參數(shù)并執(zhí)行梯度更新。生成器則像生產(chǎn)線上的工人,使用最新的模型參數(shù)來生成各種推理過程和答案。驗證器充當質(zhì)檢員的角色,評估生成器產(chǎn)出的內(nèi)容質(zhì)量并給出相應的獎勵分數(shù)。
這套系統(tǒng)最巧妙的地方在于它的異步工作機制。傳統(tǒng)的訓練方法就像嚴格按照節(jié)拍的軍隊行進,每個步驟都必須等待前一個步驟完全完成。但Magistral的系統(tǒng)更像是一個繁忙的餐廳,廚師不需要等一道菜完全上桌就可以開始準備下一道菜,服務員也不需要等所有菜都準備好才開始上菜。
生成器持續(xù)不斷地產(chǎn)生新的推理內(nèi)容,即使在模型參數(shù)更新期間也不會停止工作。當訓練器完成參數(shù)更新后,會通過高效的NCCL通信協(xié)議將新參數(shù)廣播給所有生成器。這個過程就像給正在行駛的汽車更換引擎,雖然聽起來不可思議,但通過精心設計的機制實現(xiàn)了無縫切換。
研究團隊還開發(fā)了智能的批處理策略來處理長度差異巨大的生成內(nèi)容。由于不同的推理過程可能包含幾百到幾萬個單詞,直接處理會導致嚴重的資源浪費。他們設計了一種貪心的組合算法,將相似長度的內(nèi)容組合成批次,就像在搬家時將大小相近的箱子裝在同一輛卡車上,既提高了效率又減少了浪費。
這套分布式系統(tǒng)的另一個創(chuàng)新是動態(tài)調(diào)整策略。隨著訓練的進行,AI生成的推理過程會越來越復雜和詳細,這就像學生的作文從簡短的句子逐漸發(fā)展成長篇論述。為了適應這種變化,系統(tǒng)會自動調(diào)整各種參數(shù):增加最大允許長度,減少并發(fā)請求數(shù)量,調(diào)整批處理大小。這種動態(tài)調(diào)整確保系統(tǒng)始終能夠高效運行,無論AI的推理能力發(fā)展到什么程度。
四、數(shù)據(jù)篩選:為AI提供"恰到好處"的學習材料
訓練一個優(yōu)秀的推理模型,選擇合適的訓練數(shù)據(jù)就像為學生挑選合適難度的練習題。太簡單的題目無法提升能力,太難的題目會讓學習者產(chǎn)生挫敗感。研究團隊為此開發(fā)了一套精妙的數(shù)據(jù)篩選策略。
對于數(shù)學問題,研究團隊從大約70萬個樣本開始,經(jīng)過嚴格的篩選最終保留了3.8萬個高質(zhì)量問題。這個篩選過程分為兩個階段,就像兩道質(zhì)量檢查關卡。
第一階段是格式和基礎質(zhì)量篩選。研究團隊首先剔除了那些答案模糊、問題不完整或者無法通過自動驗證系統(tǒng)檢查的題目。他們特別注重去除證明題和多部分問題,因為這類問題的正確性很難通過程序自動驗證。同時,他們將選擇題轉(zhuǎn)換為開放式問題,這樣可以增加難度并提供更可靠的驗證方式。經(jīng)過這一輪篩選,數(shù)據(jù)量從70萬縮減到50萬。
第二階段是難度篩選,這個過程采用了創(chuàng)新的兩步法。首先,研究團隊使用Mistral Large 2模型對每個問題生成16個解答,然后根據(jù)成功率進行篩選。那些從未被解決的超難題目和總是被輕松解決的簡單題目都被剔除,只保留那些"恰到好處"的中等難度題目。
但僅憑一個模型的判斷還不夠準確,就像僅憑一個老師的評估無法準確判斷題目難度。因此,研究團隊訓練了一個專門的24B參數(shù)評估模型,然后用這個更強的模型重新評估整個數(shù)據(jù)集。這個強化后的模型能夠解決更多難題,因此能夠更準確地識別哪些題目確實過于困難,哪些只是看起來困難。
這種兩階段篩選法還解決了另一個重要問題:錯誤答案的識別。當強化模型在多次嘗試中都得出相同答案,但這個答案與標準答案不符時,很可能是標準答案有誤。這就像多個優(yōu)秀學生都給出相同答案,但與參考答案不同時,通常是參考答案出了問題。
對于編程問題,數(shù)據(jù)處理策略有所不同但同樣嚴格。研究團隊收集了3.5萬個編程競賽題目,每個題目都包含完整的問題描述和大量測試用例。他們開發(fā)了一套自動化的測試用例驗證系統(tǒng):首先運行已知的正確解決方案來驗證測試用例的準確性,對于那些沒有足夠一致性的測試用例,系統(tǒng)會根據(jù)大多數(shù)解決方案的輸出來修正標準答案。
為了增加語言多樣性,研究團隊還將每個編程問題同時標記為需要Python和C++兩種語言的解決方案。這相當于要求學生既要能用中文寫作文,也要能用英文寫作文,這樣可以更全面地測試和提升AI的編程能力。
五、實驗結(jié)果:AI推理能力的驚人躍升
經(jīng)過精心設計的訓練過程,Magistral模型展現(xiàn)出了令人驚嘆的推理能力提升。在數(shù)學推理方面,Magistral Medium在著名的AIME-24數(shù)學競賽中的表現(xiàn)從原始的26.8%躍升至73.6%,這相當于從一個普通學生突然變成了數(shù)學競賽的優(yōu)秀選手。更令人印象深刻的是,當使用多數(shù)投票策略時(類似于讓AI多次思考同一個問題然后選擇最常見的答案),準確率竟然達到了90%。
在編程能力測試中,Magistral Medium在LiveCodeBench v5上的表現(xiàn)從29.1%提升到59.4%,幾乎翻了一倍。這意味著AI不僅能夠理解復雜的編程問題,還能寫出真正可運行的代碼來解決這些問題。
研究團隊還測試了模型的多語言推理能力,結(jié)果令人驚喜。Magistral能夠用法語、西班牙語、德語、意大利語、俄語和中文進行完整的推理過程,雖然在非英語語言中的表現(xiàn)略有下降(大約4-10個百分點),但這種差異相當于在實際考試中只錯1-3道題,完全在可接受范圍內(nèi)。
更有趣的是,研究團隊發(fā)現(xiàn)純強化學習訓練的Magistral Small模型能夠與基于知識蒸餾訓練的模型性能相當,甚至在某些任務上表現(xiàn)更好。這挑戰(zhàn)了學術(shù)界的傳統(tǒng)觀念,即小模型必須依賴大模型的指導才能獲得推理能力。這就像發(fā)現(xiàn)自學成才的學生有時能夠超越那些接受名師指導的學生。
六、意外的收獲:多模態(tài)能力的自發(fā)涌現(xiàn)
訓練過程中最令人驚喜的發(fā)現(xiàn)之一是,雖然Magistral只使用文本數(shù)據(jù)進行強化學習訓練,但它的多模態(tài)推理能力不僅沒有退化,反而有了顯著提升。這就像一個學生專門練習數(shù)學解題,卻意外發(fā)現(xiàn)自己的物理成績也提高了。
在MMMU(大規(guī)模多學科多模態(tài)理解)基準測試中,Magistral的表現(xiàn)提升了5%,達到70%的準確率。在MMMU-Pro測試中,標準版本提升了4.4%達到57.9%,視覺版本更是提升了12%達到52.1%。這些數(shù)字背后意味著AI不僅能夠理解圖片中的內(nèi)容,還能結(jié)合視覺信息進行復雜的邏輯推理。
研究團隊認為這種現(xiàn)象的原因在于,強化學習訓練提升了AI的整體推理能力,而這種能力能夠自然地遷移到其他模態(tài)。這就像學會了深度思考的學生,無論面對文字題目還是圖形題目,都能運用相同的邏輯思維能力。
除了多模態(tài)能力,Magistral還保持甚至改善了其他重要功能。在工具調(diào)用能力測試中,Magistral Medium從87.2%提升到87.4%。在指令遵循能力測試中,表現(xiàn)從86.8%提升到87.4%。這證明強化學習訓練不會損害模型的其他能力,反而可能帶來全面的性能提升。
七、深入分析:AI思考過程的內(nèi)在機制
為了理解Magistral是如何學會思考的,研究團隊對訓練過程進行了深入分析。他們使用主成分分析(PCA)技術(shù)來觀察模型參數(shù)在訓練過程中的變化軌跡,這就像用顯微鏡觀察細胞分裂過程。
分析結(jié)果顯示,強化學習訓練主要在一個相對低維的空間中改變模型參數(shù)。這意味著雖然模型有數(shù)十億個參數(shù),但真正重要的變化只發(fā)生在少數(shù)幾個關鍵方向上。研究團隊發(fā)現(xiàn)了一個有趣的"長度方向":隨著訓練的進行,模型生成的推理過程越來越長,同時質(zhì)量也越來越高。
更有趣的是,研究團隊發(fā)現(xiàn)了推理質(zhì)量與生成長度之間的對數(shù)關系。這意味著AI生成的思考過程越詳細,得出正確答案的概率就越高,但這種關系遵循對數(shù)規(guī)律而不是線性關系。這就像學生寫作文,更詳細的論述通常意味著更好的成績,但從1000字增加到2000字的收益要比從100字增加到200字的收益小。
研究團隊還分析了不同訓練策略的效果。他們發(fā)現(xiàn),適當?shù)呐未笮τ柧毿Ч陵P重要。批次太小會導致訓練不穩(wěn)定,批次太大又會導致計算資源浪費。最終他們找到了一個平衡點:保持批次大小與小批次大小相等,同時確保并發(fā)序列數(shù)與批次大小的比值不超過2。
在優(yōu)勢歸一化策略的對比實驗中,研究團隊測試了三種不同的方法:小批次歸一化、組內(nèi)歸一化和無歸一化。令人意外的是,這三種方法在最終性能上沒有顯著差異,這表明Magistral的訓練過程具有很強的魯棒性,不會因為細節(jié)調(diào)整而產(chǎn)生大幅波動。
八、失敗的嘗試:那些沒有奏效的想法
科學研究的價值不僅在于成功的發(fā)現(xiàn),也在于對失敗嘗試的記錄。研究團隊誠實地分享了幾個沒有取得預期效果的方法,這些經(jīng)驗對其他研究者具有重要的參考價值。
首先是比例獎勵機制的嘗試。在編程任務中,傳統(tǒng)的二進制獎勵(要么全對要么全錯)會導致大量樣本被浪費,因為部分正確的代碼也完全得不到正面反饋。研究團隊嘗試了基于通過測試比例的獎勵機制,希望能夠給予部分正確的代碼一些正面獎勵。雖然這種方法確實減少了數(shù)據(jù)浪費,但最終在基準測試上的表現(xiàn)反而下降了2%。研究團隊認為,比例獎勵可能會給錯誤的解決方案提供誤導性的正面信號,從而影響學習效果。
其次是熵調(diào)節(jié)機制的困擾。為了防止AI在訓練過程中陷入重復的思考模式,研究團隊嘗試了熵獎勵機制,希望鼓勵AI保持思考的多樣性。但他們發(fā)現(xiàn)這種機制在不同數(shù)據(jù)集上的表現(xiàn)極不一致:在純數(shù)學數(shù)據(jù)上,熵獎勵會導致思考多樣性下降;在數(shù)學和編程混合數(shù)據(jù)上,熵獎勵又會導致思考過于發(fā)散,失去重點。最終他們選擇了更簡單但更穩(wěn)定的εhigh調(diào)節(jié)策略。
第三個失敗的嘗試是KL散度懲罰機制。這個機制的目的是防止AI的行為偏離原始模型太遠,就像給探索者設置一個安全繩。但在推理任務的訓練中,研究團隊發(fā)現(xiàn)這種限制弊大于利,因為真正的推理能力往往需要AI探索與原始行為相距甚遠的新思考方式。保留KL懲罰就像給想要學習新技能的學生套上枷鎖,限制了他們的成長潛力。
九、開源貢獻與知識蒸餾實驗
除了技術(shù)創(chuàng)新,研究團隊還做出了重要的開源貢獻。他們發(fā)布了Magistral Small模型,采用Apache 2.0許可證,允許研究者和開發(fā)者自由使用和改進。這個24B參數(shù)的模型雖然規(guī)模相對較小,但在推理能力上已經(jīng)達到了很高的水平。
研究團隊還進行了一個有趣的對比實驗:使用開源推理數(shù)據(jù)集(如OpenThoughts和OpenR1)來訓練模型,然后再進行強化學習。這種方法結(jié)合了知識蒸餾和強化學習的優(yōu)勢,就像讓學生既學習名師的解題思路,又通過大量練習形成自己的解題能力。
實驗結(jié)果顯示,這種結(jié)合方法確實能夠取得優(yōu)異的性能,在某些基準測試上甚至達到了與DeepSeek-R1相當?shù)乃健L貏e是在AIME'25測試中,經(jīng)過強化學習訓練的模型比僅使用監(jiān)督學習的模型提升了超過12%。這證明了強化學習在知識蒸餾基礎上仍然具有顯著的增值效應。
有趣的是,研究團隊發(fā)現(xiàn)跨領域的泛化能力出乎意料地強。當他們用純數(shù)學數(shù)據(jù)訓練模型時,模型在編程任務上的表現(xiàn)也有了顯著提升。反之,用純編程數(shù)據(jù)訓練的模型在數(shù)學推理上也表現(xiàn)出了改善。這表明推理能力可能是一種通用技能,一旦在某個領域得到提升,就能自然地遷移到其他領域。
十、實際應用與未來展望
Magistral的成功不僅僅是學術(shù)界的突破,更重要的是它展示了AI推理能力的巨大潛力。在實際應用中,這種能力可能會徹底改變我們與AI交互的方式。
傳統(tǒng)的AI助手更像是一個反應迅速的搜索引擎,能夠快速給出答案但缺乏深度思考。而具備推理能力的AI更像是一個真正的思考伙伴,能夠陪伴用戶一起分析問題、探索解決方案。這種改變可能會在教育、科研、工程設計等領域產(chǎn)生深遠影響。
在教育領域,推理AI可以充當個性化的思維導師,不僅給出正確答案,還能展示完整的思考過程,幫助學生理解問題的本質(zhì)和解決方法。在科學研究中,這樣的AI可能成為研究者的思考伙伴,協(xié)助分析復雜數(shù)據(jù)、提出假設、設計實驗方案。
研究團隊也坦誠地指出了當前技術(shù)的局限性。Magistral目前主要在數(shù)學和編程領域表現(xiàn)出色,但在其他需要常識推理、創(chuàng)造性思維或情感理解的領域還有待進一步發(fā)展。同時,訓練這樣的模型需要大量計算資源,這限制了技術(shù)的普及速度。
展望未來,研究團隊提出了幾個重要的研究方向。首先是探索更加高效的訓練算法,降低計算成本的同時提升訓練效果。其次是擴展推理能力到更多領域,包括常識推理、創(chuàng)造性問題解決等。第三是研究如何讓AI的推理過程更加可解釋和可控,確保AI的思考過程符合人類的價值觀和安全要求。
最令人興奮的是,研究團隊計劃將推理能力與工具使用、多模態(tài)理解、智能代理等技術(shù)結(jié)合,創(chuàng)造出更加全面和強大的AI系統(tǒng)。這可能會帶來真正意義上的通用人工智能,一個能夠像人類一樣思考、學習和創(chuàng)造的AI伙伴。
說到底,Magistral的成功證明了一個重要觀點:AI不僅可以學會快速反應,更可以學會深度思考。這種能力的獲得不需要復雜的模仿學習,而可以通過精心設計的強化學習過程自然涌現(xiàn)。這為AI技術(shù)的發(fā)展開辟了新的道路,也讓我們對AI的未來充滿了更多期待。
研究團隊的工作不僅是技術(shù)上的突破,更是對AI發(fā)展方向的重要探索。他們證明了通過合適的訓練方法,AI確實可以獲得類似人類的深度推理能力。雖然距離真正的通用智能還有很長的路要走,但Magistral的成功為這個目標點亮了一盞明燈。對于那些希望深入了解這項研究的讀者,完整的技術(shù)細節(jié)和實驗結(jié)果都可以在原論文中找到,這為未來的研究和應用提供了寶貴的參考。
Q&A
Q1:Magistral是什么?它與普通AI有什么不同? A:Magistral是Mistral AI開發(fā)的推理模型,最大特點是能夠像人類一樣進行深度思考。與普通AI直接給出答案不同,Magistral會展示完整的思考過程,通過標簽顯示內(nèi)在推理,然后給出最終答案。就像一個會"顯示作業(yè)過程"的智能學生。
Q2:純強化學習訓練是什么意思?效果真的比模仿學習更好嗎? A:純強化學習訓練指的是讓AI通過試錯和反饋自主學習,而不是模仿其他模型的答案。研究顯示這種方法在數(shù)學推理上提升了50%,證明AI可以通過自主探索獲得比模仿學習更強的能力,就像自學成才有時比照搬教科書效果更好。
Q3:普通用戶能使用Magistral嗎?它有什么實際應用價值? A:目前Magistral Small已經(jīng)開源,研究者和開發(fā)者可以免費使用。對普通用戶來說,這種技術(shù)未來可能應用于教育輔導、編程助手、數(shù)學解題等場景,提供帶有詳細思考過程的智能助手服務,幫助用戶不僅獲得答案還能理解解題思路。
好文章,需要你的鼓勵
騰訊ARC實驗室推出AudioStory系統(tǒng),首次實現(xiàn)AI根據(jù)復雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯式推理生成、解耦橋接機制和漸進式訓練,能夠?qū)碗s指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時學習外觀和運動信息,顯著解決了當前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個線性層就能大幅提升運動質(zhì)量,在多項測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實用化應用奠定了重要基礎。
上海AI實驗室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓練數(shù)據(jù)集和MM-AlignBench評測基準,通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時顯著提升人性化交互水平,為AI價值觀對齊提供了可行技術(shù)路徑。
谷歌DeepMind團隊開發(fā)的GraphCast是一個革命性的AI天氣預測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預報,準確性超越傳統(tǒng)方法90%的指標。該模型采用圖神經(jīng)網(wǎng)絡技術(shù),通過學習40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學領域帶來了效率和精度的雙重突破。