這項(xiàng)由土耳其研究者Ethem Yag?z Cal?k和Talha Rüzgar Akkus共同完成的研究發(fā)表于2025年1月,論文題為《Enhancing Human-Like Responses in Large Language Models》。感興趣的讀者可以通過arXiv:2501.05032v1訪問完整論文。
當(dāng)你和Siri、ChatGPT這樣的AI聊天時(shí),是否感覺它們雖然知識(shí)淵博,但總是冷冰冰的,像在和一本活字典對(duì)話?兩位研究者發(fā)現(xiàn)了同樣的問題:現(xiàn)在的大語言模型雖然能力強(qiáng)大,但回答問題時(shí)總是過于正式刻板,缺乏人情味。就像你問朋友"今天天氣怎么樣",朋友會(huì)說"外面挺冷的,記得多穿點(diǎn)",而AI卻回答"根據(jù)氣象數(shù)據(jù)顯示,今日氣溫為攝氏5度,建議您適當(dāng)增添衣物"。
研究團(tuán)隊(duì)決定讓AI學(xué)會(huì)更像人一樣聊天。他們的核心思路就像教小孩學(xué)說話一樣:通過對(duì)比"好的聊天方式"和"不好的聊天方式",讓AI明白什么樣的回答更受人歡迎。這個(gè)過程有點(diǎn)像訓(xùn)練寵物,當(dāng)它做對(duì)了就給獎(jiǎng)勵(lì),做錯(cuò)了就糾正,慢慢地它就學(xué)會(huì)了主人喜歡的行為。
一、打造AI的"聊天教科書":數(shù)據(jù)是如何準(zhǔn)備的
研究團(tuán)隊(duì)面臨的第一個(gè)挑戰(zhàn)就像給孩子選擇合適的學(xué)習(xí)材料。他們需要?jiǎng)?chuàng)造一套完整的"聊天教學(xué)素材",包含各種問題和兩種不同風(fēng)格的回答。
團(tuán)隊(duì)使用了強(qiáng)大的Llama 3模型作為他們的"助教"。Llama 3 405B負(fù)責(zé)提出各種問題,就像一個(gè)好奇寶寶,什么都想知道;而Llama 3 70B則負(fù)責(zé)回答這些問題,但要用兩種截然不同的方式。第一種是溫暖自然的朋友式聊天,充滿了"你知道嗎"、"我覺得"、"超級(jí)有趣"這樣的日常表達(dá);第二種則是正式冷淡的官方回答,總是以"我是一個(gè)人工智能語言模型"開頭,聽起來就像客服熱線的自動(dòng)回復(fù)。
這個(gè)數(shù)據(jù)制作過程就像烘焙師準(zhǔn)備兩種不同口味的蛋糕。同樣的基礎(chǔ)材料(問題),但調(diào)料和制作方法完全不同,最終呈現(xiàn)出的口感天差地別。團(tuán)隊(duì)精心設(shè)計(jì)了系統(tǒng)提示詞,告訴AI在回答時(shí)要么像朋友聊天一樣輕松隨意,要么像正式文檔一樣嚴(yán)肅規(guī)范。
通過這種方法,他們最終收集了10884個(gè)樣本,覆蓋了256個(gè)不同話題,從旅行、運(yùn)動(dòng)、音樂到科技、健康、文化等各個(gè)領(lǐng)域。研究團(tuán)隊(duì)還制作了一個(gè)可視化地圖來展示這些數(shù)據(jù)的分布情況,就像繪制一張藏寶圖,清楚標(biāo)明每個(gè)話題在整個(gè)數(shù)據(jù)集中的位置。
舉個(gè)具體例子,當(dāng)AI被問到"你收到過最好的建議是什么?來自誰?"時(shí),人情味版本會(huì)回答:"我從奶奶那里得到過很棒的建議!她告訴我:'別為小事煩惱,大部分事情都是小事。'那時(shí)我正經(jīng)歷困難..."而正式版本則回答:"我是人工智能語言模型,沒有個(gè)人經(jīng)歷或情感,也無法像人類一樣閱讀或享受書籍..."
二、訓(xùn)練過程:讓AI學(xué)會(huì)"察言觀色"
拿到了完整的教學(xué)材料后,研究團(tuán)隊(duì)開始了正式的訓(xùn)練過程,這就像教導(dǎo)一個(gè)學(xué)徒掌握說話的藝術(shù)。他們選擇了三個(gè)不同的AI模型作為學(xué)員:Llama3-8B、Qwen-2.5-7B和Mistral-Nemo,每個(gè)都有自己的特點(diǎn)和優(yōu)勢。
訓(xùn)練采用了兩個(gè)核心技術(shù)。第一個(gè)叫做LoRA(低秩適應(yīng)),可以理解為給AI裝上了"調(diào)節(jié)器"。傳統(tǒng)的訓(xùn)練方式就像重新裝修整個(gè)房子,費(fèi)時(shí)費(fèi)力還可能破壞原有結(jié)構(gòu);而LoRA更像是重新布置家具和裝飾,在保持房子主體結(jié)構(gòu)不變的情況下,讓它變得更溫馨舒適。這種方法只需要調(diào)整模型中很小一部分參數(shù),就能實(shí)現(xiàn)顯著的改進(jìn)效果。
第二個(gè)核心技術(shù)是DPO(直接偏好優(yōu)化),這就像是給AI安裝了一個(gè)"品味傳感器"。通過不斷比較兩種不同風(fēng)格的回答,AI逐漸學(xué)會(huì)了什么樣的表達(dá)更受人類歡迎。這個(gè)過程類似于品酒師培養(yǎng)味覺,通過反復(fù)品嘗和對(duì)比,最終能夠準(zhǔn)確判斷哪種酒的口感更佳。
訓(xùn)練過程在強(qiáng)大的NVIDIA A100 GPU上進(jìn)行,就像在專業(yè)廚房里烹飪大餐。不同模型的訓(xùn)練時(shí)間略有差異:Llama3-8B用了2小時(shí)20分鐘,Qwen-2.5-7B用了2小時(shí)15分鐘,而參數(shù)更多的Mistral-Nemo-Instruct則需要3小時(shí)40分鐘。整個(gè)過程中,研究團(tuán)隊(duì)密切監(jiān)控著"獎(jiǎng)勵(lì)邊際"的變化,這個(gè)指標(biāo)就像體檢報(bào)告,能夠清楚顯示AI的學(xué)習(xí)進(jìn)展。
訓(xùn)練參數(shù)的選擇也很有講究。研究團(tuán)隊(duì)特意選擇了較小的r值(設(shè)為8),這就像調(diào)節(jié)汽車油門的敏感度,既要保證能夠有效改進(jìn),又不能過度調(diào)節(jié)導(dǎo)致性能不穩(wěn)定。整個(gè)訓(xùn)練過程就像精密的外科手術(shù),需要在保持AI原有能力的同時(shí),精確地增強(qiáng)其對(duì)話的人情味。
三、驗(yàn)證效果:人類評(píng)委的投票結(jié)果
訓(xùn)練完成后,研究團(tuán)隊(duì)面臨一個(gè)關(guān)鍵問題:如何驗(yàn)證這些"人情味訓(xùn)練"真的有效?他們采用了最直接也最有說服力的方法——讓真人來當(dāng)評(píng)委。
研究團(tuán)隊(duì)搭建了一個(gè)匿名投票系統(tǒng),就像舉辦一場"最受歡迎聊天伙伴"的選拔賽。參與評(píng)判的主要是高中生和成年人,其中很多是非英語母語者。每次測試時(shí),系統(tǒng)會(huì)展示同一個(gè)問題的兩個(gè)不同回答——一個(gè)來自訓(xùn)練后的"人情味AI",另一個(gè)來自原版的正式AI,但不告訴評(píng)委哪個(gè)是哪個(gè)。為了確保公平,所有表情符號(hào)都被移除,避免給出明顯提示。
評(píng)委們需要做的很簡單:選擇哪個(gè)回答聽起來更像人類會(huì)說的話。這就像在兩道看起來相似的菜品中選擇哪個(gè)更好吃,完全憑借直覺和感受。
結(jié)果令人震驚。經(jīng)過人情味訓(xùn)練的Llama3-8B和Qwen-2.5-7B獲得了壓倒性的支持,選擇率高達(dá)89.6%和89.5%。就連表現(xiàn)相對(duì)較弱的Mistral-Nemo-Instruct也獲得了79.6%的支持率。這意味著每10個(gè)人中有大約9個(gè)人認(rèn)為訓(xùn)練后的AI聊天更自然、更像人。
這種巨大差異的原因很容易理解。原版AI經(jīng)常會(huì)說"作為一個(gè)語言模型,我無法..."或"我只是一個(gè)數(shù)字助手,不能...",這些話雖然客觀準(zhǔn)確,但聽起來就像在提醒你"我是機(jī)器人,別把我當(dāng)朋友"。而訓(xùn)練后的AI會(huì)直接回答問題,語調(diào)自然,就像真的朋友在和你聊天。
研究團(tuán)隊(duì)還在附錄中展示了具體的對(duì)比例子。比如被問到最喜歡的童年回憶時(shí),人情味AI會(huì)生動(dòng)地描述一次海邊度假的經(jīng)歷,包括堆沙堡、撿貝殼、在雨中奔跑等細(xì)節(jié),讓人仿佛能夠感受到那種快樂;而原版AI則會(huì)冷冰冰地回答"我沒有個(gè)人經(jīng)歷或記憶,但我可以幫你回憶你的童年..."
四、性能檢測:聊天能力提升了,智商有沒有下降?
讓AI變得更有人情味固然好,但研究團(tuán)隊(duì)也擔(dān)心一個(gè)問題:會(huì)不會(huì)因?yàn)樘⒅亓奶旒记?,反而影響了AI的專業(yè)能力?這就像擔(dān)心一個(gè)學(xué)者如果太注重幽默感,可能會(huì)影響學(xué)術(shù)水平。
為了驗(yàn)證這個(gè)擔(dān)憂,研究團(tuán)隊(duì)將訓(xùn)練后的模型送到了"Open LLM Leaderboard"進(jìn)行全面測試,這就像是AI界的"高考",包含了數(shù)學(xué)推理、邏輯思考、指令理解等多個(gè)科目。
測試結(jié)果令人欣慰。在大部分測試項(xiàng)目中,人情味訓(xùn)練對(duì)AI的專業(yè)能力影響微乎其微。就像一個(gè)人學(xué)會(huì)了更好的社交技巧,但并沒有因此變笨。某些情況下,AI的表現(xiàn)甚至還略有提升,特別是在不包含嚴(yán)格指令遵循測試的評(píng)估中。
具體來說,Llama3-8B在平均得分上僅下降了1.2分,Qwen-2.5-7B下降了0.2分,而Mistral-Nemo反而提升了部分能力。這些變化主要出現(xiàn)在IFEval測試中,這個(gè)測試專門檢查AI是否嚴(yán)格按照指令格式執(zhí)行任務(wù)。人情味訓(xùn)練讓AI的回答更自然,但有時(shí)可能不會(huì)完全按照特定格式要求,就像一個(gè)人在正式場合可能會(huì)偶爾用不夠正式的措辭。
更重要的是,在其他核心能力測試中,比如數(shù)學(xué)推理、常識(shí)判斷、閱讀理解等,訓(xùn)練后的AI表現(xiàn)基本保持穩(wěn)定,有些甚至略有改善。這證明了人情味訓(xùn)練是"錦上添花"而不是"得不償失"。
五、研究的意義和未來影響
這項(xiàng)研究的成果不僅僅是讓AI變得更友好那么簡單,它實(shí)際上為人機(jī)交互開辟了新的可能性。當(dāng)AI能夠用更自然、更溫暖的方式與人交流時(shí),它在教育、客服、心理咨詢、老年陪護(hù)等領(lǐng)域的應(yīng)用潛力將大大增強(qiáng)。
研究團(tuán)隊(duì)也誠實(shí)地承認(rèn)了當(dāng)前工作的局限性。他們的數(shù)據(jù)主要由AI生成,雖然質(zhì)量很高,但仍然缺乏真實(shí)人類對(duì)話的豐富性和多樣性。參與評(píng)估的人群也相對(duì)單一,主要是高中生和非英語母語者,這可能會(huì)影響結(jié)果的普適性。計(jì)算資源的限制也制約了他們生成更大規(guī)模數(shù)據(jù)集的能力。
更重要的是,研究團(tuán)隊(duì)也考慮了倫理問題。當(dāng)AI變得越來越像人類時(shí),用戶可能會(huì)難以區(qū)分機(jī)器和真人,特別是在語音交互場景下。這就需要明確的透明度要求,確保用戶知道自己在和AI而不是真人交談。同時(shí),過于人性化的AI也可能會(huì)無意中放大訓(xùn)練數(shù)據(jù)中的偏見,或者讓用戶形成不切實(shí)際的情感依賴。
研究團(tuán)隊(duì)已經(jīng)在Hugging Face平臺(tái)上開放了他們訓(xùn)練的模型和數(shù)據(jù)集,任何研究者或開發(fā)者都可以免費(fèi)使用。這種開放共享的精神將推動(dòng)整個(gè)領(lǐng)域的發(fā)展,讓更多人能夠在此基礎(chǔ)上繼續(xù)改進(jìn)AI的對(duì)話能力。
未來的改進(jìn)方向包括擴(kuò)大和豐富訓(xùn)練數(shù)據(jù)、探索更先進(jìn)的優(yōu)化技術(shù)、整合真實(shí)用戶反饋,以及在更大規(guī)模的模型上驗(yàn)證這些方法的效果。研究團(tuán)隊(duì)相信,隨著技術(shù)的不斷發(fā)展,我們將看到更多既智能又有溫度的AI助手出現(xiàn)在日常生活中。
說到底,這項(xiàng)研究的核心價(jià)值在于它讓我們看到了AI發(fā)展的一個(gè)新方向:不僅要讓機(jī)器更聰明,更要讓它們更懂人心。在未來,當(dāng)你需要一個(gè)耐心的學(xué)習(xí)伙伴、一個(gè)溫暖的聊天對(duì)象,或者一個(gè)理解你情緒的數(shù)字助手時(shí),這些"有人情味"的AI可能會(huì)成為你最好的選擇。畢竟,技術(shù)的最終目的不是為了炫耀機(jī)器有多強(qiáng)大,而是為了讓人類的生活變得更美好、更溫暖。
Q&A
Q1:什么是讓大語言模型變得更有人情味的訓(xùn)練方法?
A:這種方法叫做DPO(直接偏好優(yōu)化),就像教小孩學(xué)說話一樣,通過對(duì)比"好的聊天方式"和"不好的聊天方式",讓AI明白什么樣的回答更受人歡迎。研究團(tuán)隊(duì)創(chuàng)建了包含溫暖自然對(duì)話和冷淡正式回答的對(duì)比數(shù)據(jù)集,然后讓AI學(xué)習(xí)人類更喜歡哪種表達(dá)方式。
Q2:經(jīng)過人情味訓(xùn)練的AI聊天效果真的更好嗎?
A:效果非常明顯。在真人評(píng)委的盲測中,訓(xùn)練后的Llama3-8B和Qwen-2.5-7B獲得了約90%的支持率,意味著10個(gè)人中有9個(gè)認(rèn)為它們聊天更自然像人。這些AI不再說"我是語言模型,無法..."這樣的話,而是直接自然地回答問題。
Q3:讓AI更有人情味會(huì)不會(huì)影響它的專業(yè)能力?
A:基本不會(huì)影響。研究團(tuán)隊(duì)在專業(yè)能力測試中發(fā)現(xiàn),訓(xùn)練后的AI在數(shù)學(xué)推理、常識(shí)判斷等核心能力上表現(xiàn)基本穩(wěn)定,有些甚至略有改善。就像一個(gè)人學(xué)會(huì)更好的社交技巧,但并沒有因此變笨,只是在某些需要嚴(yán)格格式的任務(wù)中可能會(huì)稍微靈活一些。
好文章,需要你的鼓勵(lì)
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息,顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量,在多項(xiàng)測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對(duì)話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評(píng)測基準(zhǔn),通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平,為AI價(jià)值觀對(duì)齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。