這項(xiàng)由M-A-P(多模態(tài)藝術(shù)投影)社區(qū)和2077AI公司聯(lián)合推出的研究成果,于2025年4月發(fā)表在arXiv平臺(tái)上,論文編號(hào)為arXiv:2504.05535v1。有興趣深入了解的讀者可以通過(guò)https://github.com/multimodal-art-projection/COIG-P訪問(wèn)完整的代碼和數(shù)據(jù)。
當(dāng)你跟AI聊天時(shí),有沒(méi)有發(fā)現(xiàn)中文AI總是沒(méi)有英文AI那么"聰明"?明明問(wèn)的是同樣的問(wèn)題,英文AI回答得頭頭是道,換成中文就顯得磕磕絆絆。這個(gè)現(xiàn)象背后隱藏著一個(gè)重要問(wèn)題:缺乏高質(zhì)量的中文訓(xùn)練數(shù)據(jù)。
想象一下,如果你想訓(xùn)練一個(gè)會(huì)說(shuō)中文的外國(guó)朋友,但手頭只有幾本破舊的中文教材,而且內(nèi)容質(zhì)量參差不齊,那這個(gè)朋友學(xué)出來(lái)的中文肯定是半吊子水平。這正是目前中文AI面臨的困境。雖然中文是世界上使用人數(shù)最多的語(yǔ)言之一,但在AI訓(xùn)練領(lǐng)域,高質(zhì)量的中文偏好數(shù)據(jù)卻極度稀缺。
M-A-P團(tuán)隊(duì)注意到了這個(gè)問(wèn)題的嚴(yán)重性。他們發(fā)現(xiàn),現(xiàn)有的中文偏好數(shù)據(jù)集不僅數(shù)量少得可憐,質(zhì)量也令人擔(dān)憂。更糟糕的是,許多數(shù)據(jù)集都來(lái)自單一來(lái)源,就像只讀一家報(bào)紙就想了解整個(gè)世界一樣,這樣的數(shù)據(jù)根本無(wú)法支撐AI全面理解中文的復(fù)雜性和豐富性。
傳統(tǒng)的解決方案是雇傭大量人工標(biāo)注員,讓他們判斷哪些AI回答更好,哪些更差。但這種方法成本高昂,效率低下,而且人工標(biāo)注的一致性很難保證。就好比讓一千個(gè)人評(píng)價(jià)同一道菜,每個(gè)人的口味不同,給出的評(píng)分自然千差萬(wàn)別。
面對(duì)這個(gè)挑戰(zhàn),M-A-P團(tuán)隊(duì)提出了一個(gè)革命性的解決方案:既然人工標(biāo)注有這么多問(wèn)題,為什么不讓AI來(lái)幫AI打分呢?他們?cè)O(shè)計(jì)了一套完全基于大語(yǔ)言模型的中文偏好數(shù)據(jù)標(biāo)注流程,就像組織了一場(chǎng)AI之間的"品鑒大會(huì)"。
這個(gè)創(chuàng)新的流程是這樣工作的。研究團(tuán)隊(duì)首先精心收集了92,784個(gè)高質(zhì)量的中文問(wèn)題,這些問(wèn)題涵蓋了日常對(duì)話、編程、數(shù)學(xué)、邏輯推理、小說(shuō)續(xù)寫(xiě)和角色扮演六個(gè)不同領(lǐng)域。接著,他們召集了15個(gè)不同的大語(yǔ)言模型,包括GPT-4、Claude、Qwen等知名模型,讓它們針對(duì)每個(gè)問(wèn)題生成各種各樣的回答。
有趣的是,為了確保評(píng)分的公正性,研究團(tuán)隊(duì)又從這15個(gè)模型中挑選了8個(gè)作為"評(píng)委",讓它們對(duì)所有回答進(jìn)行打分。這就像一場(chǎng)烹飪比賽,既有廚師參賽,也有廚師當(dāng)評(píng)委,通過(guò)專業(yè)人士的眼光來(lái)判斷哪道菜更美味。
通過(guò)這種方法,研究團(tuán)隊(duì)最終構(gòu)建了COIG-P數(shù)據(jù)集,這個(gè)數(shù)據(jù)集包含了超過(guò)100萬(wàn)個(gè)中文偏好樣本對(duì)。每個(gè)樣本對(duì)都包含一個(gè)問(wèn)題和兩個(gè)回答:一個(gè)被AI評(píng)委們認(rèn)為更好的"優(yōu)選回答",以及一個(gè)相對(duì)較差的"非優(yōu)選回答"。
一、數(shù)據(jù)收集:像偵探一樣搜尋高質(zhì)量線索
構(gòu)建高質(zhì)量數(shù)據(jù)集的第一步,就像一個(gè)偵探收集線索一樣關(guān)鍵。M-A-P團(tuán)隊(duì)深知,垃圾進(jìn)垃圾出的道理在AI訓(xùn)練中尤其明顯。如果用低質(zhì)量的問(wèn)題訓(xùn)練AI,最終得到的也只能是一個(gè)"糊涂"的AI助手。
研究團(tuán)隊(duì)采用了多管齊下的策略來(lái)收集中文問(wèn)題。他們首先從中國(guó)最受歡迎的問(wèn)答平臺(tái)入手,包括百度知道、知乎和百度貼吧等,這些平臺(tái)就像一個(gè)巨大的問(wèn)題寶庫(kù),記錄著中國(guó)網(wǎng)民在日常生活中遇到的各種疑問(wèn)。從法律咨詢到技術(shù)討論,從生活小貼士到學(xué)術(shù)問(wèn)題,應(yīng)有盡有。
除了從這些平臺(tái)收集問(wèn)題,團(tuán)隊(duì)還從中國(guó)的公務(wù)員考試題庫(kù)中提取了邏輯推理類問(wèn)題。這些題目經(jīng)過(guò)嚴(yán)格設(shè)計(jì),邏輯性強(qiáng),正好可以測(cè)試AI的推理能力。同時(shí),他們也將一些優(yōu)秀的英文數(shù)據(jù)集翻譯成中文,比如HotpotQA和角色扮演數(shù)據(jù)集,確保問(wèn)題的多樣性和國(guó)際化視野。
但是,僅僅收集問(wèn)題還不夠,質(zhì)量控制才是關(guān)鍵。研究團(tuán)隊(duì)設(shè)計(jì)了一套嚴(yán)格的篩選流程,就像篩選優(yōu)質(zhì)大米一樣,要把那些有問(wèn)題的"壞米粒"挑出來(lái)。
首先是去重處理。他們使用了先進(jìn)的語(yǔ)義相似度計(jì)算方法,確保收集到的問(wèn)題不會(huì)重復(fù)。這就像清理衣櫥時(shí)要把相同的衣服挑出來(lái)一樣,避免數(shù)據(jù)集中出現(xiàn)大量重復(fù)內(nèi)容。
接著是質(zhì)量評(píng)估。團(tuán)隊(duì)使用Qwen2-72B這個(gè)強(qiáng)大的AI模型來(lái)給每個(gè)問(wèn)題打分,標(biāo)準(zhǔn)很簡(jiǎn)單:這個(gè)問(wèn)題是不是一個(gè)普通用戶可能會(huì)問(wèn)的?那些表述不清楚、包含敏感內(nèi)容或者過(guò)于奇怪的問(wèn)題都被篩掉了。
經(jīng)過(guò)這道道關(guān)卡的篩選,最終有92,784個(gè)高質(zhì)量問(wèn)題脫穎而出。這些問(wèn)題被精心分配到六個(gè)不同的領(lǐng)域:對(duì)話類問(wèn)題最多,占了37,323個(gè),這反映了人們?cè)谌粘I钪凶畛S肁I來(lái)進(jìn)行對(duì)話交流;數(shù)學(xué)問(wèn)題有27,259個(gè),說(shuō)明學(xué)習(xí)和教育是AI應(yīng)用的重要場(chǎng)景;其他領(lǐng)域如邏輯推理、角色扮演、編程和小說(shuō)續(xù)寫(xiě)也都有數(shù)千個(gè)問(wèn)題,確保了數(shù)據(jù)集的全面性。
這種精心設(shè)計(jì)的收集策略確保了COIG-P數(shù)據(jù)集不僅規(guī)模龐大,而且質(zhì)量上乘。就像一位經(jīng)驗(yàn)豐富的偵探收集到的線索一樣,每一條都經(jīng)過(guò)仔細(xì)驗(yàn)證,為后續(xù)的AI訓(xùn)練打下了堅(jiān)實(shí)的基礎(chǔ)。
二、多模型協(xié)作:組織一場(chǎng)AI之間的智慧競(jìng)賽
收集到高質(zhì)量問(wèn)題后,接下來(lái)就是讓不同的AI模型來(lái)"過(guò)招"了。M-A-P團(tuán)隊(duì)的策略非常巧妙:既然每個(gè)AI模型都有自己的特色和強(qiáng)項(xiàng),為什么不讓它們各顯神通,然后再?gòu)闹羞x出最好的回答呢?
研究團(tuán)隊(duì)召集了15個(gè)來(lái)自不同公司、具有不同特色的大語(yǔ)言模型。這個(gè)陣容可以說(shuō)是AI界的"全明星隊(duì)":有來(lái)自O(shè)penAI的GPT系列,包括GPT-3.5、GPT-4和最新的GPT-4o;有谷歌的Gemini 1.5-Pro;有Anthropic的Claude3.5;還有中國(guó)本土的優(yōu)秀模型,如阿里的Qwen系列、百度的文心一言、智譜的GLM-4等等。
這些模型就像不同專業(yè)背景的專家,有的擅長(zhǎng)邏輯推理,有的在創(chuàng)意寫(xiě)作方面表現(xiàn)出色,有的則在編程任務(wù)上游刃有余。讓它們針對(duì)同一個(gè)問(wèn)題生成回答,就像邀請(qǐng)不同領(lǐng)域的專家參加一場(chǎng)學(xué)術(shù)研討會(huì),每個(gè)人都會(huì)從自己的角度給出獨(dú)特的見(jiàn)解。
比如,當(dāng)面對(duì)一個(gè)數(shù)學(xué)問(wèn)題時(shí),有些模型可能會(huì)給出嚴(yán)謹(jǐn)?shù)闹鸩酵茖?dǎo)過(guò)程,而另一些模型可能會(huì)提供更直觀的解釋方法。當(dāng)遇到創(chuàng)意寫(xiě)作任務(wù)時(shí),不同模型生成的文本風(fēng)格、情節(jié)設(shè)計(jì)和文學(xué)表現(xiàn)力也會(huì)截然不同。這種多樣性正是構(gòu)建高質(zhì)量偏好數(shù)據(jù)集所需要的。
但是,如何從這么多回答中判斷哪個(gè)更好呢?這就需要一群"AI評(píng)委"來(lái)發(fā)揮作用了。研究團(tuán)隊(duì)從15個(gè)生成模型中挑選了8個(gè)表現(xiàn)最穩(wěn)定、判斷力最強(qiáng)的模型作為評(píng)委,包括Claude3.5、DeepSeek-V2、Doubao-Pro、GLM-4、GPT-4o、GPT-4-Turbo、Qwen2-72B-Instruct和Moonshot。
這8個(gè)評(píng)委模型的工作方式很像奧運(yùn)會(huì)的評(píng)分制度。針對(duì)每個(gè)領(lǐng)域,研究團(tuán)隊(duì)都設(shè)計(jì)了專門的評(píng)分標(biāo)準(zhǔn)和提示詞。比如,在評(píng)價(jià)編程代碼時(shí),評(píng)委會(huì)從代碼的正確性、可執(zhí)行性、完整性和代碼質(zhì)量四個(gè)維度進(jìn)行打分;在評(píng)價(jià)數(shù)學(xué)解答時(shí),則會(huì)重點(diǎn)關(guān)注解題思路的正確性、步驟的完整性、表述的清晰性和教學(xué)價(jià)值。
有趣的是,研究團(tuán)隊(duì)發(fā)現(xiàn),使用多個(gè)AI模型作為評(píng)委比依賴單一模型要可靠得多。就像法庭上需要多名陪審員一樣,多個(gè)評(píng)委可以減少個(gè)體偏見(jiàn),提高判斷的準(zhǔn)確性。通過(guò)大量測(cè)試,他們發(fā)現(xiàn)當(dāng)8個(gè)評(píng)委的平均分差達(dá)到2分以上時(shí),選出的"優(yōu)選"和"非優(yōu)選"回答對(duì)比就非常明顯了。
這種多模型協(xié)作的方式不僅提高了數(shù)據(jù)質(zhì)量,還大大降低了成本。如果用人工標(biāo)注,100萬(wàn)個(gè)樣本對(duì)至少需要幾百名專業(yè)標(biāo)注員工作數(shù)月,成本高達(dá)數(shù)百萬(wàn)元。而使用AI評(píng)委,不僅效率高,而且標(biāo)準(zhǔn)一致,避免了人工標(biāo)注中常見(jiàn)的主觀性和不一致性問(wèn)題。
通過(guò)這種"AI選AI"的創(chuàng)新方式,COIG-P數(shù)據(jù)集中的每個(gè)樣本對(duì)都經(jīng)過(guò)了嚴(yán)格的質(zhì)量把關(guān),確保了訓(xùn)練數(shù)據(jù)的高質(zhì)量。
三、領(lǐng)域?qū)I(yè)化:為不同任務(wù)量身定制評(píng)分標(biāo)準(zhǔn)
就像評(píng)價(jià)一道川菜和一道粵菜需要不同標(biāo)準(zhǔn)一樣,評(píng)價(jià)AI在不同領(lǐng)域的表現(xiàn)也需要專門的評(píng)分體系。M-A-P團(tuán)隊(duì)深知這個(gè)道理,因此為六個(gè)不同領(lǐng)域分別設(shè)計(jì)了專門的評(píng)分提示詞和標(biāo)準(zhǔn)。
在日常對(duì)話領(lǐng)域,評(píng)分標(biāo)準(zhǔn)就像評(píng)價(jià)一個(gè)朋友的談話質(zhì)量。首先看安全性,確?;卮鸩话魏斡泻虿划?dāng)內(nèi)容;然后看有用性,回答是否真正幫助到了提問(wèn)者;最后看正確性和完整性,回答是否基于事實(shí),是否完整回應(yīng)了問(wèn)題的所有方面。評(píng)分從1分到10分,就像給朋友的聊天水平打分一樣。
數(shù)學(xué)領(lǐng)域的評(píng)分則更像批改學(xué)生作業(yè)。重點(diǎn)關(guān)注四個(gè)方面:解題思路是否正確,如果最終答案錯(cuò)誤,最高只能給5分;解題過(guò)程是否完整,包括關(guān)鍵步驟和推導(dǎo)過(guò)程;表述是否清晰,公式符號(hào)使用是否規(guī)范;是否有教學(xué)價(jià)值,能否幫助讀者理解重要概念。
編程任務(wù)的評(píng)分標(biāo)準(zhǔn)就像評(píng)價(jià)一個(gè)程序員的代碼質(zhì)量。安全性依然是第一位的,代碼不能包含任何惡意內(nèi)容;然后看正確性,代碼邏輯是否正確,能否實(shí)現(xiàn)預(yù)期功能;可執(zhí)行性也很重要,代碼能否在合理環(huán)境中正常運(yùn)行;最后看代碼質(zhì)量,包括結(jié)構(gòu)是否清晰、命名是否規(guī)范、是否有明顯的冗余或重復(fù)。
邏輯推理任務(wù)的評(píng)分更像評(píng)價(jià)一個(gè)律師的論證能力。推理過(guò)程是否嚴(yán)密,結(jié)論是否正確,是否存在邏輯漏洞或跳躍,是否覆蓋了所有關(guān)鍵前提條件,這些都是重要的評(píng)分標(biāo)準(zhǔn)。
小說(shuō)續(xù)寫(xiě)的評(píng)分則像文學(xué)評(píng)論家的工作。首先確保內(nèi)容安全無(wú)害,然后看連貫性,續(xù)寫(xiě)內(nèi)容是否與原文邏輯連貫、自然銜接;語(yǔ)言質(zhì)量也很重要,表達(dá)是否通順,是否具有一定的文學(xué)性;創(chuàng)意性同樣關(guān)鍵,內(nèi)容是否有吸引力,能否激發(fā)讀者興趣;最后看完整性,雖然是片段續(xù)寫(xiě),但應(yīng)該構(gòu)成相對(duì)完整的情節(jié)段落。
角色扮演任務(wù)的評(píng)分最有趣,就像評(píng)價(jià)一個(gè)演員的表演水平。設(shè)定一致性是核心,回答是否嚴(yán)格遵循角色身份、背景和行為邏輯;情境代入感也很重要,是否能維持良好的沉浸感和趣味性;語(yǔ)言表現(xiàn)力同樣關(guān)鍵,是否語(yǔ)言生動(dòng),是否契合角色風(fēng)格和身份特征;最后看有用性,在保持角色設(shè)定的基礎(chǔ)上,是否能滿足用戶的互動(dòng)需求。
這種分領(lǐng)域的專業(yè)化評(píng)分確保了不同類型任務(wù)都能得到公正、準(zhǔn)確的評(píng)價(jià)。就像奧運(yùn)會(huì)中體操和游泳有不同的評(píng)分標(biāo)準(zhǔn)一樣,這種針對(duì)性的評(píng)分體系讓COIG-P數(shù)據(jù)集的質(zhì)量控制更加精準(zhǔn)和可靠。
四、質(zhì)量驗(yàn)證:用人工檢驗(yàn)AI的判斷力
雖然AI評(píng)委的效率很高,但它們的判斷究竟靠不靠譜呢?M-A-P團(tuán)隊(duì)當(dāng)然不會(huì)盲目相信機(jī)器的判斷,他們?cè)O(shè)計(jì)了一套人工驗(yàn)證流程來(lái)檢驗(yàn)AI評(píng)委的準(zhǔn)確性。
研究團(tuán)隊(duì)招募了兩名自然語(yǔ)言處理領(lǐng)域的研究生作為人工評(píng)審員。這兩位評(píng)審員就像"質(zhì)檢員"一樣,從數(shù)據(jù)集中隨機(jī)抽取了240個(gè)樣本進(jìn)行人工評(píng)估,每個(gè)領(lǐng)域40個(gè)樣本,確保覆蓋所有任務(wù)類型。
評(píng)審標(biāo)準(zhǔn)很直接:AI選出的"優(yōu)選回答"是否真的比"非優(yōu)選回答"更好?這個(gè)問(wèn)題的答案決定了整個(gè)數(shù)據(jù)集的可信度。同時(shí),評(píng)審員還要檢查"優(yōu)選回答"本身是否正確,畢竟一個(gè)錯(cuò)誤的答案即使相對(duì)更好,也不應(yīng)該被當(dāng)作標(biāo)準(zhǔn)答案。
驗(yàn)證結(jié)果令人振奮。整體來(lái)說(shuō),AI評(píng)委的判斷準(zhǔn)確率達(dá)到了90.83%,這意味著在10個(gè)判斷中,有超過(guò)9個(gè)是正確的。具體到各個(gè)領(lǐng)域,編程和對(duì)話領(lǐng)域的準(zhǔn)確率最高,都達(dá)到了95%;邏輯推理、小說(shuō)續(xù)寫(xiě)和角色扮演領(lǐng)域的準(zhǔn)確率為90%;數(shù)學(xué)領(lǐng)域稍低一些,但也達(dá)到了85%。
這個(gè)結(jié)果說(shuō)明了什么?首先,AI評(píng)委在大多數(shù)情況下都能做出正確的判斷,它們的"審美"和人類專家基本一致。其次,不同領(lǐng)域的難度確實(shí)不同,編程和對(duì)話這類相對(duì)客觀的任務(wù)更容易評(píng)判,而數(shù)學(xué)這類需要嚴(yán)格邏輯推理的任務(wù)稍微困難一些。
更重要的是,這個(gè)90%以上的準(zhǔn)確率已經(jīng)超過(guò)了許多人工標(biāo)注項(xiàng)目的一致性水平。在實(shí)際的人工標(biāo)注工作中,不同標(biāo)注員之間的一致性往往只有80-85%,因?yàn)槊總€(gè)人的判斷標(biāo)準(zhǔn)和偏好都不完全相同。AI評(píng)委的優(yōu)勢(shì)在于標(biāo)準(zhǔn)統(tǒng)一、不受情緒影響,而且可以24小時(shí)不間斷工作。
為了進(jìn)一步驗(yàn)證數(shù)據(jù)質(zhì)量,研究團(tuán)隊(duì)還進(jìn)行了一個(gè)有趣的對(duì)比實(shí)驗(yàn)。他們讓自己訓(xùn)練的中文獎(jiǎng)勵(lì)模型(CRM)和GPT-4o分別對(duì)同一批測(cè)試數(shù)據(jù)進(jìn)行篩選,結(jié)果發(fā)現(xiàn)兩者的選擇高度一致,這進(jìn)一步證明了COIG-P數(shù)據(jù)集的高質(zhì)量。
這種嚴(yán)格的質(zhì)量驗(yàn)證機(jī)制確保了COIG-P不是一個(gè)"紙面上的成功",而是真正經(jīng)得起實(shí)戰(zhàn)檢驗(yàn)的高質(zhì)量數(shù)據(jù)集。
五、實(shí)戰(zhàn)效果:讓數(shù)字說(shuō)話的訓(xùn)練成果
一個(gè)數(shù)據(jù)集好不好,最終還是要看訓(xùn)練出來(lái)的AI表現(xiàn)如何。M-A-P團(tuán)隊(duì)選擇了目前最權(quán)威的中文AI能力評(píng)測(cè)基準(zhǔn)AlignBench來(lái)驗(yàn)證COIG-P的實(shí)際效果。這就像用高考來(lái)檢驗(yàn)教學(xué)質(zhì)量一樣,AlignBench能夠全面評(píng)估AI在中文環(huán)境下的對(duì)話能力、推理能力和語(yǔ)言理解能力。
研究團(tuán)隊(duì)選擇了幾個(gè)代表性的模型進(jìn)行測(cè)試,包括阿里的Qwen2和Qwen2.5系列,以及專門優(yōu)化過(guò)的Infinity-Instruct-3M-0625系列模型。這些模型都是7-8B參數(shù)規(guī)模,在性能和計(jì)算成本之間取得了很好的平衡。
測(cè)試結(jié)果可以說(shuō)是相當(dāng)驚艷。使用COIG-P數(shù)據(jù)集訓(xùn)練后,所有模型的性能都得到了顯著提升。其中最令人印象深刻的是Infinity-Instruct-3M-0625-Llama3-8B模型,性能提升幅度達(dá)到了12.27%,這在AI訓(xùn)練領(lǐng)域是非常罕見(jiàn)的大幅改進(jìn)。
即使是本身就很強(qiáng)大的Qwen2.5-7B-Instruct模型,使用COIG-P訓(xùn)練后整體性能也提升了2.03%。別小看這2%的提升,對(duì)于已經(jīng)高度優(yōu)化的先進(jìn)模型來(lái)說(shuō),哪怕1%的改進(jìn)都需要巨大的努力。這就像奧運(yùn)會(huì)百米賽跑,要把9.80秒提升到9.78秒,難度是極大的。
更有趣的是,COIG-P的效果在不同任務(wù)類型上表現(xiàn)出了不同的特點(diǎn)。對(duì)于相對(duì)較弱的模型,COIG-P能夠幫助它們?cè)诟鱾€(gè)子任務(wù)上都獲得全面提升,就像一個(gè)全科補(bǔ)習(xí)班,讓偏科學(xué)生變成全面發(fā)展的好學(xué)生。而對(duì)于已經(jīng)很強(qiáng)的模型,COIG-P主要提升了它們的推理能力,雖然在某些基礎(chǔ)語(yǔ)言任務(wù)上可能會(huì)有微小的下降,但總體效果是正向的。
研究團(tuán)隊(duì)還進(jìn)行了一個(gè)重要的對(duì)比實(shí)驗(yàn),將COIG-P與其他現(xiàn)有的中文偏好數(shù)據(jù)集進(jìn)行比較。結(jié)果顯示,大多數(shù)現(xiàn)有數(shù)據(jù)集不僅沒(méi)有提升模型性能,反而讓模型表現(xiàn)變差了。只有COIG-P和另一個(gè)叫ZAKE的數(shù)據(jù)集能夠帶來(lái)正面效果,而COIG-P的效果明顯更好。
這個(gè)對(duì)比結(jié)果揭示了一個(gè)重要問(wèn)題:不是所有的數(shù)據(jù)都是好數(shù)據(jù),低質(zhì)量的訓(xùn)練數(shù)據(jù)甚至?xí)p害AI的能力。這就像給學(xué)生提供錯(cuò)誤的教材,不僅學(xué)不到正確知識(shí),還會(huì)形成錯(cuò)誤的認(rèn)知。COIG-P的成功恰恰證明了高質(zhì)量數(shù)據(jù)的重要性。
為了確保實(shí)驗(yàn)結(jié)果的可靠性,研究團(tuán)隊(duì)使用了嚴(yán)格的實(shí)驗(yàn)設(shè)置。每個(gè)模型都在相同的硬件環(huán)境下訓(xùn)練一個(gè)完整的周期,總計(jì)使用了約2000個(gè)GPU小時(shí)。超參數(shù)設(shè)置也經(jīng)過(guò)了仔細(xì)調(diào)優(yōu),確保每個(gè)模型都能發(fā)揮出最佳性能。
這些實(shí)驗(yàn)結(jié)果不僅驗(yàn)證了COIG-P數(shù)據(jù)集的優(yōu)秀質(zhì)量,也為中文AI發(fā)展提供了重要的技術(shù)路徑。
六、創(chuàng)新獎(jiǎng)勵(lì)模型:培養(yǎng)專業(yè)的AI"品鑒師"
雖然使用大型AI模型作為評(píng)委效果很好,但成本也相當(dāng)高昂。每次評(píng)分都需要調(diào)用GPT-4或Claude這樣的頂級(jí)模型,就像每次做菜都請(qǐng)米其林三星大廚來(lái)品嘗一樣,雖然專業(yè)但代價(jià)不菲。為了解決這個(gè)問(wèn)題,M-A-P團(tuán)隊(duì)決定培養(yǎng)自己的AI"品鑒師"。
他們基于Llama3.1-8B-Instruct模型,使用COIG-P數(shù)據(jù)集的一半樣本,訓(xùn)練出了一個(gè)專門的中文獎(jiǎng)勵(lì)模型(CRM)。這個(gè)過(guò)程就像培養(yǎng)一個(gè)專業(yè)的品酒師,通過(guò)大量的品嘗和對(duì)比訓(xùn)練,讓它能夠準(zhǔn)確判斷不同回答的質(zhì)量高低。
訓(xùn)練方法采用了經(jīng)典的Bradley-Terry模型,這是一種專門用于比較和排序的數(shù)學(xué)方法。簡(jiǎn)單來(lái)說(shuō),就是讓AI學(xué)會(huì)"比較"的藝術(shù),不僅要知道一個(gè)回答是好是壞,更要能判斷兩個(gè)回答哪個(gè)更好。
為了全面評(píng)估這個(gè)中文獎(jiǎng)勵(lì)模型的能力,研究團(tuán)隊(duì)還專門構(gòu)建了一個(gè)中文獎(jiǎng)勵(lì)評(píng)估基準(zhǔn)(CRBench)。他們從數(shù)據(jù)集中隨機(jī)選擇了5000個(gè)樣本,然后招募了三名研究生進(jìn)行人工標(biāo)注。標(biāo)注標(biāo)準(zhǔn)很嚴(yán)格:?jiǎn)栴}必須表述清楚,不涉及敏感話題;優(yōu)選回答必須正確;優(yōu)選回答確實(shí)要比非優(yōu)選回答更符合人類偏好。經(jīng)過(guò)嚴(yán)格篩選,最終得到了1040個(gè)高質(zhì)量的評(píng)估樣本。
在CRBench上的測(cè)試結(jié)果令人驚喜。中文獎(jiǎng)勵(lì)模型CRM在所有開(kāi)源的判別性獎(jiǎng)勵(lì)模型中表現(xiàn)最佳,總體準(zhǔn)確率達(dá)到69.71%。雖然與GPT-4o的86.73%還有差距,但已經(jīng)超過(guò)了許多知名的開(kāi)源獎(jiǎng)勵(lì)模型,比如ArmoRM-Llama3-8B(44.13%)和Skywork-Reward-Llama-3.1-8B(54.13%)。
更重要的是,當(dāng)把CRM應(yīng)用到實(shí)際的數(shù)據(jù)篩選任務(wù)中時(shí),它的表現(xiàn)與GPT-4o非常接近。使用CRM篩選的數(shù)據(jù)訓(xùn)練出來(lái)的模型在AlignBench上的得分為5.26,而使用GPT-4o篩選的數(shù)據(jù)訓(xùn)練出來(lái)的模型得分為5.28,差距微乎其微。
這個(gè)結(jié)果說(shuō)明了什么?首先,雖然CRM在某些細(xì)節(jié)判斷上可能不如GPT-4o精準(zhǔn),但在實(shí)際應(yīng)用中完全夠用。其次,CRM的效率優(yōu)勢(shì)明顯,使用CRM處理43萬(wàn)個(gè)樣本只需要40個(gè)A800 GPU小時(shí),而調(diào)用GPT-4o處理同樣數(shù)量的樣本不僅成本高昂,還受到API調(diào)用限制。
研究團(tuán)隊(duì)還發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象:CRM在不同領(lǐng)域的表現(xiàn)差異很大。在編程和對(duì)話領(lǐng)域,CRM的準(zhǔn)確率能達(dá)到79%和92%,幾乎接近人類專家水平;但在角色扮演和小說(shuō)續(xù)寫(xiě)這類主觀性較強(qiáng)的任務(wù)上,準(zhǔn)確率只有43%和62%。這提醒我們,AI的能力發(fā)展并不是均勻的,在邏輯性強(qiáng)的任務(wù)上AI更容易達(dá)到人類水平,而在需要?jiǎng)?chuàng)意和主觀判斷的任務(wù)上還有很大提升空間。
這個(gè)中文獎(jiǎng)勵(lì)模型的成功,為中文AI社區(qū)提供了一個(gè)重要的工具。其他研究者可以使用CRM來(lái)構(gòu)建自己的偏好數(shù)據(jù)集,而不需要依賴昂貴的商業(yè)API,這大大降低了中文AI研究的門檻。
七、技術(shù)細(xì)節(jié):揭秘訓(xùn)練過(guò)程的精妙設(shè)計(jì)
雖然COIG-P的核心思想聽(tīng)起來(lái)簡(jiǎn)單,但要在實(shí)際中實(shí)現(xiàn)高質(zhì)量的結(jié)果,還需要許多精妙的技術(shù)設(shè)計(jì)。就像做一道看似簡(jiǎn)單的家常菜,真正做得美味需要掌握火候、調(diào)料配比等諸多細(xì)節(jié)。
首先是數(shù)據(jù)配對(duì)的技巧。研究團(tuán)隊(duì)發(fā)現(xiàn),并不是所有的"優(yōu)選"和"非優(yōu)選"回答對(duì)都適合用于訓(xùn)練。如果兩個(gè)回答質(zhì)量相差太小,AI很難學(xué)到明確的偏好信號(hào);如果相差太大,又可能學(xué)到過(guò)于極端的判斷標(biāo)準(zhǔn)。經(jīng)過(guò)大量實(shí)驗(yàn),他們確定了最優(yōu)的分?jǐn)?shù)差閾值:只有當(dāng)兩個(gè)回答的評(píng)分差距超過(guò)2分時(shí),這對(duì)數(shù)據(jù)才會(huì)被納入最終的數(shù)據(jù)集。
這個(gè)閾值的選擇非常關(guān)鍵。研究團(tuán)隊(duì)用不同的閾值訓(xùn)練了多個(gè)模型,發(fā)現(xiàn)閾值為2時(shí)效果最好。閾值太低(比如1分)會(huì)引入太多模糊的對(duì)比樣本,讓AI學(xué)不到清晰的偏好信號(hào);閾值太高(比如3分或4分)又會(huì)讓可用的訓(xùn)練樣本大幅減少,影響訓(xùn)練效果。
訓(xùn)練方法的選擇也經(jīng)過(guò)了精心考慮。研究團(tuán)隊(duì)使用了目前最流行的DPO(Direct Preference Optimization)方法,這種方法可以直接從偏好數(shù)據(jù)中學(xué)習(xí),避免了傳統(tǒng)強(qiáng)化學(xué)習(xí)方法的復(fù)雜性和不穩(wěn)定性。DPO就像一個(gè)高效的學(xué)習(xí)方法,讓AI能夠直接理解"什么樣的回答更好",而不需要經(jīng)過(guò)復(fù)雜的獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)。
超參數(shù)的調(diào)優(yōu)也花費(fèi)了大量精力。經(jīng)過(guò)反復(fù)實(shí)驗(yàn),研究團(tuán)隊(duì)發(fā)現(xiàn)不同模型需要不同的學(xué)習(xí)率設(shè)置。對(duì)于Qwen2和Qwen2.5系列模型,最優(yōu)學(xué)習(xí)率是1e-6;而對(duì)于其他模型,1e-7的學(xué)習(xí)率效果更好。這看似微小的差別,實(shí)際上對(duì)最終效果有著重要影響。學(xué)習(xí)率就像控制學(xué)習(xí)速度的調(diào)節(jié)器,太快可能"囫圇吞棗"學(xué)不扎實(shí),太慢又可能效率低下。
為了確保實(shí)驗(yàn)結(jié)果的可重復(fù)性,研究團(tuán)隊(duì)使用了統(tǒng)一的計(jì)算環(huán)境。所有模型都在A800 GPU上進(jìn)行全參數(shù)微調(diào),每個(gè)模型訓(xùn)練一個(gè)完整的周期(epoch)。這種標(biāo)準(zhǔn)化的實(shí)驗(yàn)設(shè)置確保了不同模型之間的對(duì)比是公平的,也讓其他研究者能夠復(fù)現(xiàn)這些結(jié)果。
數(shù)據(jù)預(yù)處理也有許多巧思。除了基本的清洗和格式化,研究團(tuán)隊(duì)還對(duì)不同領(lǐng)域的數(shù)據(jù)進(jìn)行了均衡處理。雖然對(duì)話類數(shù)據(jù)數(shù)量最多,但在最終的訓(xùn)練集中,各個(gè)領(lǐng)域的比例被調(diào)整得相對(duì)均衡,避免模型過(guò)度偏向某一類任務(wù)。
另一個(gè)重要的技術(shù)細(xì)節(jié)是評(píng)分提示詞的設(shè)計(jì)。針對(duì)每個(gè)領(lǐng)域,研究團(tuán)隊(duì)都設(shè)計(jì)了專門的評(píng)分提示詞,詳細(xì)說(shuō)明了評(píng)分標(biāo)準(zhǔn)和注意事項(xiàng)。這些提示詞經(jīng)過(guò)多輪迭代優(yōu)化,確保不同的AI評(píng)委能夠按照統(tǒng)一的標(biāo)準(zhǔn)進(jìn)行評(píng)分。
這些看似繁瑣的技術(shù)細(xì)節(jié),實(shí)際上是COIG-P成功的重要保障。正是這種對(duì)細(xì)節(jié)的精益求精,才讓COIG-P在眾多數(shù)據(jù)集中脫穎而出。
八、深入分析:探索不同領(lǐng)域的獨(dú)特表現(xiàn)
通過(guò)對(duì)COIG-P訓(xùn)練效果的深入分析,研究團(tuán)隊(duì)發(fā)現(xiàn)了許多有趣的現(xiàn)象,這些發(fā)現(xiàn)不僅驗(yàn)證了數(shù)據(jù)集的有效性,也為我們理解AI學(xué)習(xí)過(guò)程提供了新的洞察。
在領(lǐng)域分析實(shí)驗(yàn)中,研究團(tuán)隊(duì)進(jìn)行了一個(gè)巧妙的對(duì)比:分別用單個(gè)領(lǐng)域的數(shù)據(jù)和混合領(lǐng)域的數(shù)據(jù)訓(xùn)練模型,看看哪種方式效果更好。結(jié)果令人驚訝,混合訓(xùn)練的效果遠(yuǎn)遠(yuǎn)超過(guò)了單領(lǐng)域訓(xùn)練。這就像學(xué)習(xí)樂(lè)器時(shí),只練習(xí)一種曲風(fēng)可能會(huì)讓你在那個(gè)領(lǐng)域很專業(yè),但缺乏整體的音樂(lè)素養(yǎng);而接觸多種曲風(fēng)的學(xué)習(xí)者往往能形成更全面的音樂(lè)理解能力。
更有趣的是,有些單領(lǐng)域訓(xùn)練甚至?xí)p害模型的整體性能。這個(gè)現(xiàn)象提醒我們,AI的學(xué)習(xí)過(guò)程比我們想象的更加復(fù)雜,過(guò)度專業(yè)化可能會(huì)導(dǎo)致能力的片面發(fā)展。
在各個(gè)領(lǐng)域中,小說(shuō)續(xù)寫(xiě)數(shù)據(jù)表現(xiàn)出了特殊的價(jià)值。單獨(dú)使用小說(shuō)續(xù)寫(xiě)數(shù)據(jù)訓(xùn)練的模型在基礎(chǔ)語(yǔ)言能力上有顯著提升,這說(shuō)明文學(xué)創(chuàng)作任務(wù)能夠有效提升AI的語(yǔ)言運(yùn)用能力。這就像學(xué)習(xí)古典詩(shī)詞能夠提升整體的文學(xué)素養(yǎng)一樣,創(chuàng)意寫(xiě)作訓(xùn)練對(duì)AI的語(yǔ)言能力有著深層次的促進(jìn)作用。
研究團(tuán)隊(duì)還發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象:對(duì)于不同能力水平的模型,COIG-P的作用方式不同。對(duì)于能力相對(duì)較弱的模型,COIG-P能夠帶來(lái)全方位的提升,就像給基礎(chǔ)薄弱的學(xué)生進(jìn)行全面補(bǔ)習(xí);而對(duì)于已經(jīng)很強(qiáng)的模型,COIG-P主要提升推理能力,但可能在某些基礎(chǔ)任務(wù)上略有下降。這種現(xiàn)象被稱為"能力權(quán)衡",在AI訓(xùn)練中很常見(jiàn)。
在中文AI能力的國(guó)際對(duì)比中,研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)令人鼓舞的現(xiàn)象:使用COIG-P訓(xùn)練的開(kāi)源中文模型與頂級(jí)的閉源模型(如GPT-4o、Claude3.5)在性能上的差距正在快速縮小。Qwen2.5-72B-Instruct在某些任務(wù)上甚至超過(guò)了Claude3.5-Sonnet。這說(shuō)明中文AI生態(tài)正在快速發(fā)展,開(kāi)源社區(qū)的努力正在縮小與商業(yè)巨頭的技術(shù)差距。
閾值選擇的詳細(xì)分析也揭示了有趣的規(guī)律。當(dāng)閾值從0增加到2時(shí),模型性能穩(wěn)步提升;但當(dāng)閾值超過(guò)2時(shí),性能開(kāi)始下降。這個(gè)倒U型曲線反映了一個(gè)重要的平衡:既要確保訓(xùn)練數(shù)據(jù)的質(zhì)量差異明顯,又要保證有足夠的訓(xùn)練樣本。這就像調(diào)節(jié)音響的音量,太小聽(tīng)不清,太大會(huì)失真,只有適中的音量才能獲得最佳的聽(tīng)覺(jué)體驗(yàn)。
通過(guò)這些深入的分析,我們不僅看到了COIG-P的優(yōu)秀表現(xiàn),也對(duì)AI學(xué)習(xí)過(guò)程有了更深刻的理解。這些發(fā)現(xiàn)為未來(lái)的AI訓(xùn)練提供了重要的指導(dǎo)原則。
九、開(kāi)源貢獻(xiàn):為中文AI社區(qū)搭建基礎(chǔ)設(shè)施
M-A-P團(tuán)隊(duì)的這項(xiàng)工作不僅僅是發(fā)布了一個(gè)數(shù)據(jù)集,更重要的是為整個(gè)中文AI開(kāi)源社區(qū)搭建了重要的基礎(chǔ)設(shè)施。他們的開(kāi)源策略非常全面,體現(xiàn)了真正的開(kāi)源精神。
首先,COIG-P數(shù)據(jù)集完全開(kāi)源,任何研究者和開(kāi)發(fā)者都可以免費(fèi)下載使用。這打破了高質(zhì)量中文訓(xùn)練數(shù)據(jù)被少數(shù)大公司壟斷的局面,讓更多的研究者能夠平等地接觸到優(yōu)質(zhì)資源。這就像在知識(shí)的荒漠中建立了一個(gè)免費(fèi)的圖書(shū)館,讓所有求知者都能平等地獲取知識(shí)。
除了數(shù)據(jù)集本身,研究團(tuán)隊(duì)還開(kāi)源了完整的數(shù)據(jù)構(gòu)建流程和代碼。這意味著其他研究者不僅可以使用COIG-P,還可以學(xué)習(xí)和改進(jìn)數(shù)據(jù)構(gòu)建方法,甚至構(gòu)建自己的專業(yè)數(shù)據(jù)集。這種知識(shí)分享的做法極大地推動(dòng)了整個(gè)社區(qū)的技術(shù)進(jìn)步。
中文獎(jiǎng)勵(lì)模型CRM的開(kāi)源更是意義重大。之前,研究者們?nèi)绻胍?xùn)練自己的偏好模型,要么依賴昂貴的商業(yè)API,要么從零開(kāi)始訓(xùn)練獎(jiǎng)勵(lì)模型。現(xiàn)在,他們可以直接使用CRM,或者在CRM的基礎(chǔ)上進(jìn)行進(jìn)一步優(yōu)化。這大大降低了中文AI研究的門檻。
研究團(tuán)隊(duì)還提供了詳細(xì)的技術(shù)文檔和使用指南,包括數(shù)據(jù)處理流程、模型訓(xùn)練參數(shù)、評(píng)估方法等。這些文檔就像一本詳細(xì)的操作手冊(cè),讓其他研究者能夠快速上手,避免重復(fù)造輪子。
更令人贊賞的是,研究團(tuán)隊(duì)還提供了在線演示和API接口,讓普通開(kāi)發(fā)者也能夠體驗(yàn)和使用這些技術(shù)。這種從研究到應(yīng)用的完整生態(tài)系統(tǒng),為中文AI技術(shù)的普及奠定了堅(jiān)實(shí)基礎(chǔ)。
開(kāi)源社區(qū)的反響也很熱烈。許多研究機(jī)構(gòu)和公司已經(jīng)開(kāi)始使用COIG-P訓(xùn)練自己的模型,一些開(kāi)發(fā)者也在GitHub上貢獻(xiàn)代碼改進(jìn)和使用經(jīng)驗(yàn)。這種社區(qū)協(xié)作的模式正在加速中文AI技術(shù)的發(fā)展。
從更宏觀的角度來(lái)看,COIG-P的開(kāi)源對(duì)中文AI生態(tài)的意義是深遠(yuǎn)的。它不僅提供了高質(zhì)量的訓(xùn)練資源,更重要的是展示了一種可行的技術(shù)路徑:通過(guò)AI協(xié)作和開(kāi)源共享,可以低成本地構(gòu)建高質(zhì)量的訓(xùn)練數(shù)據(jù)。這種模式為其他語(yǔ)言和領(lǐng)域的AI發(fā)展提供了重要借鑒。
M-A-P作為一個(gè)非營(yíng)利開(kāi)源AI研究社區(qū),通過(guò)這項(xiàng)工作證明了開(kāi)源社區(qū)在推動(dòng)AI技術(shù)發(fā)展方面的重要作用。他們的努力不僅推動(dòng)了技術(shù)進(jìn)步,也體現(xiàn)了科學(xué)研究的開(kāi)放精神和社會(huì)責(zé)任感。
這項(xiàng)研究的影響力也得到了學(xué)術(shù)界的認(rèn)可。論文一經(jīng)發(fā)布就引起了廣泛關(guān)注,許多研究者開(kāi)始基于COIG-P進(jìn)行進(jìn)一步的研究工作。這種學(xué)術(shù)影響力的擴(kuò)散,將進(jìn)一步推動(dòng)中文AI技術(shù)的發(fā)展。
說(shuō)到底,科學(xué)技術(shù)的進(jìn)步需要開(kāi)放合作,M-A-P團(tuán)隊(duì)的這項(xiàng)工作為中文AI社區(qū)樹(shù)立了一個(gè)優(yōu)秀的榜樣。通過(guò)他們的努力,中文AI不再是少數(shù)大公司的專利,而是成為了整個(gè)社區(qū)共同推進(jìn)的事業(yè)。
在人工智能技術(shù)日新月異的今天,COIG-P的出現(xiàn)為中文AI發(fā)展注入了強(qiáng)大動(dòng)力。這不僅僅是一個(gè)技術(shù)成果,更是開(kāi)源精神和協(xié)作理念的勝利。通過(guò)這種方式,中文AI正在快速縮小與英文AI的差距,為全球AI技術(shù)的均衡發(fā)展做出了重要貢獻(xiàn)。
研究團(tuán)隊(duì)表示,他們將繼續(xù)擴(kuò)展COIG-P數(shù)據(jù)集,覆蓋更多領(lǐng)域和任務(wù)類型,同時(shí)也會(huì)持續(xù)優(yōu)化數(shù)據(jù)構(gòu)建流程和獎(jiǎng)勵(lì)模型。隨著越來(lái)越多的研究者加入這個(gè)開(kāi)源生態(tài),我們有理由相信,中文AI的未來(lái)將更加光明。有興趣的讀者可以通過(guò)https://github.com/multimodal-art-projection/COIG-P訪問(wèn)完整的項(xiàng)目資源,加入到這個(gè)推動(dòng)中文AI發(fā)展的開(kāi)源行列中來(lái)。
Q&A
Q1:COIG-P是什么?它解決了什么問(wèn)題? A:COIG-P是一個(gè)包含100萬(wàn)個(gè)中文偏好樣本對(duì)的大規(guī)模數(shù)據(jù)集,專門用于訓(xùn)練AI理解人類偏好。它解決了中文AI訓(xùn)練數(shù)據(jù)稀缺、質(zhì)量不高的問(wèn)題,讓AI能更好地按照人類期望進(jìn)行中文對(duì)話和任務(wù)執(zhí)行。
Q2:COIG-P的數(shù)據(jù)是怎么制作的?質(zhì)量靠譜嗎? A:研究團(tuán)隊(duì)使用15個(gè)不同的AI模型生成回答,再用8個(gè)AI模型作為評(píng)委打分,最后選出質(zhì)量差異明顯的樣本對(duì)。經(jīng)過(guò)人工驗(yàn)證,AI評(píng)委的判斷準(zhǔn)確率超過(guò)90%,證明數(shù)據(jù)質(zhì)量很高。
Q3:普通開(kāi)發(fā)者能用COIG-P嗎?有什么要求? A:完全可以!COIG-P完全開(kāi)源免費(fèi),任何人都可以通過(guò)GitHub下載使用。研究團(tuán)隊(duì)還提供了詳細(xì)的使用文檔和訓(xùn)練代碼,普通開(kāi)發(fā)者也能輕松上手,用來(lái)訓(xùn)練自己的中文AI模型。
好文章,需要你的鼓勵(lì)
新加坡國(guó)立大學(xué)研究團(tuán)隊(duì)開(kāi)發(fā)了SPIRAL框架,通過(guò)讓AI與自己對(duì)弈零和游戲來(lái)提升推理能力。實(shí)驗(yàn)顯示,僅訓(xùn)練AI玩簡(jiǎn)單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無(wú)需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟(jì)大學(xué)團(tuán)隊(duì)開(kāi)發(fā)的GIGA-ToF技術(shù)通過(guò)融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機(jī)噪聲問(wèn)題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實(shí)現(xiàn)37.9%的精度提升,并在真實(shí)設(shè)備上展現(xiàn)出色泛化能力,為機(jī)器人、AR和自動(dòng)駕駛等領(lǐng)域提供更可靠的3D視覺(jué)解決方案。
伊利諾伊大學(xué)研究團(tuán)隊(duì)通過(guò)對(duì)比實(shí)驗(yàn)發(fā)現(xiàn),經(jīng)過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺(jué)語(yǔ)言模型雖然表現(xiàn)出"頓悟時(shí)刻"現(xiàn)象,但這些自我糾錯(cuò)行為并不能實(shí)際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗(yàn)證差距",即生成答案的能力強(qiáng)于驗(yàn)證答案質(zhì)量的能力,且模型在自我驗(yàn)證時(shí)無(wú)法有效利用視覺(jué)信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過(guò)動(dòng)態(tài)稀疏性實(shí)現(xiàn)大語(yǔ)言模型訓(xùn)練加速1.6倍,計(jì)算成本降低2.2倍。該方法使用SVD稀疏性估計(jì)器智能選擇重要計(jì)算部分,在保持模型性能的同時(shí)顯著提升訓(xùn)練效率,已在多個(gè)任務(wù)上驗(yàn)證有效性。