當(dāng)你感到焦慮時(shí)向AI尋求建議,或者詢問(wèn)ChatGPT什么是心理健康,這種場(chǎng)景在今天已經(jīng)司空見(jiàn)慣。但一個(gè)關(guān)鍵問(wèn)題浮現(xiàn):這些AI助手是否真的理解它們?cè)谡務(wù)摰男腋8拍??亞利桑那州立大學(xué)計(jì)算與增強(qiáng)智能學(xué)院的蔣博涵、李大偉、譚真、趙成帥和劉歡教授領(lǐng)導(dǎo)的研究團(tuán)隊(duì),首次系統(tǒng)性地探討了這個(gè)問(wèn)題。這項(xiàng)開(kāi)創(chuàng)性研究發(fā)表于2025年8月的arXiv預(yù)印本平臺(tái),有興趣深入了解的讀者可以通過(guò)arXiv:2508.03990v1訪問(wèn)完整論文。
幸福并非一個(gè)簡(jiǎn)單的概念。它就像一座復(fù)雜的建筑,包含心理、身體和社會(huì)三個(gè)支柱,每個(gè)支柱都缺一不可。當(dāng)普通人想要理解什么是"焦慮癥"或"社交障礙"時(shí),他們需要的是用日常語(yǔ)言解釋的簡(jiǎn)單明了的答案。而當(dāng)心理學(xué)專家尋求同樣信息時(shí),他們期待的是包含專業(yè)術(shù)語(yǔ)、研究證據(jù)和細(xì)致分析的深度解讀。這就像同樣是介紹一道菜,對(duì)普通食客你會(huì)說(shuō)"這是香甜可口的紅燒肉",對(duì)專業(yè)廚師你則需要詳細(xì)講解用料配比、火候控制和制作工藝。
研究團(tuán)隊(duì)意識(shí)到,隨著越來(lái)越多的人轉(zhuǎn)向大型語(yǔ)言模型尋求幸福相關(guān)的指導(dǎo),這些AI系統(tǒng)解釋能力的質(zhì)量變得至關(guān)重要。但問(wèn)題是,目前還沒(méi)有人系統(tǒng)性地測(cè)試過(guò)這些AI模型在解釋幸福概念時(shí)的表現(xiàn)如何。
為了回答"當(dāng)今的大型語(yǔ)言模型是否準(zhǔn)備好解釋復(fù)雜的幸福概念"這個(gè)核心問(wèn)題,研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)堪稱史無(wú)前例的實(shí)驗(yàn)。他們首先收集了2194個(gè)涵蓋心理、身體和社會(huì)三個(gè)維度的幸福概念,這些概念來(lái)自權(quán)威的幸福研究文獻(xiàn)。接著,他們選擇了十個(gè)不同規(guī)模和類型的AI模型,包括四個(gè)大型商業(yè)模型(GPT-4.1-mini、o4-mini、Gemini-2.5-flash和DeepSeek-v3)以及六個(gè)較小的開(kāi)源模型(各種版本的Qwen-3和LLaMA-3.2)。
整個(gè)實(shí)驗(yàn)就像一場(chǎng)大規(guī)模的"解釋馬拉松"。研究團(tuán)隊(duì)讓每個(gè)AI模型分別為普通公眾和領(lǐng)域?qū)<医忉屵@2194個(gè)概念,最終收集到43880個(gè)解釋。這相當(dāng)于讓十個(gè)不同水平的老師,分別給小學(xué)生和大學(xué)教授講解同樣的2000多個(gè)概念,然后比較他們的教學(xué)效果。
評(píng)估這些解釋的質(zhì)量是另一個(gè)挑戰(zhàn)。傳統(tǒng)的評(píng)估方法就像用尺子測(cè)量一幅畫(huà)的美感,顯然不夠精準(zhǔn)。研究團(tuán)隊(duì)創(chuàng)新性地采用了"AI當(dāng)法官"的評(píng)估框架,使用兩個(gè)強(qiáng)大的AI模型(Gemini-2.5-Pro和DeepSeek-R1)作為評(píng)判員。但這不是簡(jiǎn)單的打分,而是基于精心設(shè)計(jì)的原則進(jìn)行評(píng)估。
對(duì)于普通公眾的解釋,評(píng)估重點(diǎn)關(guān)注五個(gè)方面:準(zhǔn)確性(定義是否正確)、可理解性(是否使用簡(jiǎn)單易懂的語(yǔ)言)、簡(jiǎn)潔性(是否直接明了)、示例性(是否提供貼近生活的例子)和實(shí)用性(是否給出可行的建議)。而對(duì)于專家解釋,評(píng)估標(biāo)準(zhǔn)則完全不同:準(zhǔn)確性(同樣重要)、專業(yè)性(是否使用領(lǐng)域術(shù)語(yǔ))、深度性(是否提供全面細(xì)致的分析)、批判性(是否指出爭(zhēng)議和局限)和權(quán)威性(是否引用研究文獻(xiàn))。
這就像評(píng)價(jià)兩種不同類型的餐廳:評(píng)價(jià)家庭餐廳時(shí)你關(guān)注菜品是否家常美味、價(jià)格親民、服務(wù)溫馨;評(píng)價(jià)米其林餐廳時(shí)你則關(guān)注食材選擇、烹飪技藝、創(chuàng)新程度和整體體驗(yàn)的精致度。
一、模型規(guī)模的決定性影響
研究結(jié)果揭示了一個(gè)清晰的規(guī)律:AI模型的規(guī)模直接決定了其解釋能力的高低。這種關(guān)系就像建筑的基礎(chǔ)決定了上層建筑的穩(wěn)固程度一樣明顯。
四個(gè)大型商業(yè)模型在解釋質(zhì)量上形成了一個(gè)顯著的"第一梯隊(duì)"。以解釋普通公眾能理解的概念為例,DeepSeek-v3表現(xiàn)最為出色,贏得了88.9%的對(duì)比評(píng)估,就像一位經(jīng)驗(yàn)豐富的科普作家,總能用最貼切的比喻讓復(fù)雜概念變得簡(jiǎn)單易懂。緊隨其后的是GPT-4.1-mini(88.5%)、o4-mini(87.8%)和Gemini-2.5-flash(87.3%),它們都展現(xiàn)出了穩(wěn)定的高質(zhì)量表現(xiàn)。
相比之下,較小規(guī)模的開(kāi)源模型就像剛?cè)腴T(mén)的學(xué)生,雖然努力但實(shí)力有限。參數(shù)量最小的LLaMA-3.2-1B僅獲得12.9%的勝率,這意味著它在十次解釋中只有一次能夠超越基準(zhǔn)模型。即使是表現(xiàn)最好的小型模型Qwen-3-14B,也只達(dá)到77.7%的勝率,與大型模型仍有顯著差距。
這種規(guī)模效應(yīng)在雷達(dá)圖上表現(xiàn)得尤為明顯。大型模型在各項(xiàng)評(píng)估維度上都形成了外圍的大多邊形,而小型模型則聚集在中心區(qū)域,形成了明顯的"內(nèi)外圈"分布。這種差異不僅體現(xiàn)在整體表現(xiàn)上,更體現(xiàn)在每個(gè)具體維度的穩(wěn)定性上。
二、專家解釋的獨(dú)特挑戰(zhàn)
當(dāng)要求AI模型為領(lǐng)域?qū)<姨峁┙忉寱r(shí),情況變得更加復(fù)雜和困難。這就像要求一位通俗科普作家突然轉(zhuǎn)型為學(xué)術(shù)期刊的特約編輯,不僅寫(xiě)作風(fēng)格需要徹底改變,對(duì)內(nèi)容的專業(yè)性和嚴(yán)謹(jǐn)性要求也大幅提升。
研究發(fā)現(xiàn),幾乎所有模型在生成專家級(jí)解釋時(shí)的表現(xiàn)都出現(xiàn)了明顯下滑。以DeepSeek-v3為例,它在普通解釋中的準(zhǔn)確性得分為4.72分,但在專家解釋中驟降至3.41分,降幅達(dá)到27.8%。這種下降并非個(gè)例,o4-mini的準(zhǔn)確性得分從4.73降至3.72,降幅為21.4%。
這種現(xiàn)象的背后反映了AI模型面臨的一個(gè)核心困境:當(dāng)試圖生成更專業(yè)、更深入的內(nèi)容時(shí),它們更容易產(chǎn)生事實(shí)性錯(cuò)誤或虛假信息。這就像一個(gè)人試圖展現(xiàn)超出自己知識(shí)水平的專業(yè)性時(shí),往往會(huì)編造一些聽(tīng)起來(lái)很專業(yè)但實(shí)際上錯(cuò)誤的信息。
更令人擔(dān)憂的是,大型模型和小型模型之間的性能差距在專家解釋任務(wù)中進(jìn)一步擴(kuò)大。在普通解釋任務(wù)中,頂級(jí)模型的勝率約為88-89%,而在專家解釋任務(wù)中,這一數(shù)字提升到了90-91%。這意味著專業(yè)性要求越高,模型規(guī)模的重要性就越發(fā)突出。
三、不同幸福維度的差異化表現(xiàn)
研究團(tuán)隊(duì)將幸福概念分為心理、身體和社會(huì)三個(gè)維度進(jìn)行分析,結(jié)果發(fā)現(xiàn)這三個(gè)維度在AI解釋難度上存在顯著差異。
身體健康相關(guān)概念是AI模型表現(xiàn)最好的領(lǐng)域。無(wú)論是大型模型還是小型模型,在解釋諸如"心血管健康"、"營(yíng)養(yǎng)均衡"或"運(yùn)動(dòng)疲勞"等身體健康概念時(shí)都表現(xiàn)出色。四個(gè)大型模型在可理解性和專業(yè)術(shù)語(yǔ)使用方面的得分都超過(guò)了4.5分(滿分5分)。這種優(yōu)異表現(xiàn)可能源于身體健康概念相對(duì)具體和客觀,就像描述一臺(tái)機(jī)器的運(yùn)作原理,有著相對(duì)明確的標(biāo)準(zhǔn)和廣泛的共識(shí)。
心理健康概念的解釋難度居中。AI模型在解釋"焦慮癥"、"抑郁情緒"或"認(rèn)知偏差"等概念時(shí)表現(xiàn)穩(wěn)定,但不如身體健康概念那樣出色。這種中等表現(xiàn)反映了心理概念的復(fù)雜性:它們既有一定的科學(xué)基礎(chǔ),又涉及個(gè)體的主觀體驗(yàn)和情感色彩。
最具挑戰(zhàn)性的是社會(huì)健康概念。無(wú)論是解釋"社會(huì)支持網(wǎng)絡(luò)"、"社區(qū)歸屬感"還是"人際關(guān)系質(zhì)量",所有模型都表現(xiàn)出最大的變異性和最低的整體勝率。社會(huì)概念的復(fù)雜性在于它們高度依賴文化背景、社會(huì)環(huán)境和個(gè)人經(jīng)歷,很難有統(tǒng)一的標(biāo)準(zhǔn)答案。這就像試圖向來(lái)自不同文化背景的人解釋"禮貌"的含義,每個(gè)社會(huì)都有自己獨(dú)特的理解和表達(dá)方式。
四、AI模型的共同薄弱環(huán)節(jié)
盡管大型模型在整體表現(xiàn)上遠(yuǎn)超小型模型,但研究發(fā)現(xiàn)它們都存在兩個(gè)明顯的共同弱點(diǎn)。
第一個(gè)弱點(diǎn)是在為普通公眾提供實(shí)用性建議方面。當(dāng)被要求給出具體的、可操作的建議時(shí),即使是最先進(jìn)的模型也顯得力不從心。它們能夠準(zhǔn)確定義什么是"壓力管理",也能用通俗的語(yǔ)言解釋壓力對(duì)身心的影響,但當(dāng)需要提供具體的減壓方法或?qū)嵤┎襟E時(shí),解釋往往變得泛泛而談。這就像一位理論功底扎實(shí)的教授,能夠深入淺出地講解理論知識(shí),但在指導(dǎo)學(xué)生實(shí)際操作時(shí)卻顯得經(jīng)驗(yàn)不足。
第二個(gè)弱點(diǎn)出現(xiàn)在為領(lǐng)域?qū)<姨峁┥疃确治龇矫?。雖然AI模型能夠使用專業(yè)術(shù)語(yǔ)并展現(xiàn)一定的專業(yè)性,但在提供真正深入、細(xì)致的分析時(shí)往往浮于表面。它們很難像真正的專家那樣,從多個(gè)角度審視一個(gè)概念,討論不同理論流派的觀點(diǎn)差異,或者指出當(dāng)前研究中存在的爭(zhēng)議和未解決的問(wèn)題。
有趣的是,盡管存在這些共同弱點(diǎn),每個(gè)大型模型都有自己的相對(duì)優(yōu)勢(shì)領(lǐng)域。GPT-4.1-mini在語(yǔ)言表達(dá)的可理解性和專業(yè)術(shù)語(yǔ)的準(zhǔn)確使用方面表現(xiàn)突出,就像一位語(yǔ)言天賦出眾的翻譯;o4-mini在事實(shí)準(zhǔn)確性方面獨(dú)占鰲頭,像一位嚴(yán)謹(jǐn)?shù)膶W(xué)者總是追求信息的準(zhǔn)確無(wú)誤;DeepSeek-v3擅長(zhǎng)提供清晰的示例和簡(jiǎn)潔的解釋,如同一位經(jīng)驗(yàn)豐富的老師知道如何化繁為簡(jiǎn);而Gemini-2.5-flash則在提供權(quán)威性引用和實(shí)用建議方面相對(duì)更強(qiáng),像一位實(shí)用主義的顧問(wèn)。
五、微調(diào)訓(xùn)練的顯著效果
為了驗(yàn)證是否可以通過(guò)針對(duì)性訓(xùn)練提升AI模型的幸福概念解釋能力,研究團(tuán)隊(duì)選擇了中等規(guī)模的Qwen-3-4B模型進(jìn)行了兩種不同的微調(diào)實(shí)驗(yàn)。
第一種方法是監(jiān)督微調(diào)(SFT),類似于讓學(xué)生反復(fù)練習(xí)優(yōu)秀范文。研究團(tuán)隊(duì)從大型模型生成的高質(zhì)量解釋中篩選出最佳示例,讓Qwen-3-4B模仿學(xué)習(xí)這些"標(biāo)準(zhǔn)答案"。經(jīng)過(guò)這種訓(xùn)練后,Qwen-3-4B-SFT在普通公眾解釋任務(wù)中的得分從原來(lái)的2.74分提升到3.18分,提升幅度達(dá)16.1%。在專家解釋任務(wù)中,得分從2.47分提升到2.79分,提升13.0%。
第二種方法是直接偏好優(yōu)化(DPO),這種方法更像是讓學(xué)生在好壞對(duì)比中學(xué)習(xí)。研究團(tuán)隊(duì)不僅提供了好的解釋示例,還提供了質(zhì)量較差的解釋,讓模型學(xué)會(huì)區(qū)分和選擇。這種對(duì)比學(xué)習(xí)的效果更加顯著:Qwen-3-4B-DPO在普通公眾解釋任務(wù)中得分提升至3.25分,提升幅度達(dá)18.6%;在專家解釋任務(wù)中得分達(dá)到2.85分,提升15.4%。
更令人驚喜的是,經(jīng)過(guò)微調(diào)的4B參數(shù)模型在某些方面的表現(xiàn)甚至超越了參數(shù)量更大的同系列模型。在專家解釋的對(duì)比評(píng)估中,Qwen-3-4B-DPO的勝率達(dá)到83.4%,超過(guò)了擁有14B參數(shù)的Qwen-3-14B模型的79.3%勝率。這一結(jié)果證明了針對(duì)性訓(xùn)練數(shù)據(jù)的價(jià)值往往勝過(guò)單純的模型規(guī)模擴(kuò)大。
這種現(xiàn)象就像體育訓(xùn)練一樣:一個(gè)接受過(guò)專業(yè)訓(xùn)練的中等水平運(yùn)動(dòng)員,在特定項(xiàng)目上的表現(xiàn)可能超過(guò)一個(gè)天賦更好但缺乏針對(duì)性訓(xùn)練的天才選手。微調(diào)讓小型模型在特定任務(wù)上獲得了"專業(yè)技能",補(bǔ)償了其在整體能力上的不足。
六、評(píng)估框架的可靠性驗(yàn)證
為了確保研究結(jié)果的可信度,研究團(tuán)隊(duì)專門(mén)設(shè)計(jì)了人工驗(yàn)證實(shí)驗(yàn),將AI評(píng)判員的評(píng)估結(jié)果與人類專家的評(píng)估進(jìn)行對(duì)比。
驗(yàn)證實(shí)驗(yàn)涵蓋了每個(gè)模型50個(gè)不同的解釋樣本,包括心理、身體和社會(huì)三個(gè)幸福維度。人類評(píng)估員使用與AI評(píng)判員完全相同的評(píng)估標(biāo)準(zhǔn)和方法,對(duì)同樣的解釋進(jìn)行獨(dú)立評(píng)估。研究團(tuán)隊(duì)使用科恩卡帕系數(shù)來(lái)衡量AI評(píng)判員與人類評(píng)估員之間的一致性程度。
結(jié)果顯示,在評(píng)估普通公眾導(dǎo)向的解釋時(shí),AI評(píng)判員與人類評(píng)估員之間達(dá)到了較高的一致性,大多數(shù)情況下卡帕系數(shù)超過(guò)0.7,這在學(xué)術(shù)研究中被認(rèn)為是"實(shí)質(zhì)性一致"的水平。在評(píng)估專家導(dǎo)向的解釋時(shí),一致性略有下降但仍然保持在可接受范圍內(nèi)。
有趣的是,AI評(píng)判員在評(píng)估極好和極差的解釋時(shí)與人類評(píng)估員的一致性最高,就像人們很容易在美味佳肴和難以下咽的食物之間達(dá)成共識(shí)一樣。但對(duì)于質(zhì)量中等的解釋,AI評(píng)判員和人類評(píng)估員之間的分歧相對(duì)較大,這提醒我們?cè)谑褂肁I進(jìn)行自動(dòng)評(píng)估時(shí)需要格外注意這種"中等質(zhì)量陷阱"。
七、研究的深遠(yuǎn)意義和未來(lái)展望
這項(xiàng)研究的價(jià)值遠(yuǎn)遠(yuǎn)超出了學(xué)術(shù)層面的技術(shù)評(píng)估,它為我們理解AI在健康和幸福領(lǐng)域的應(yīng)用潛力與局限性提供了重要見(jiàn)解。
從實(shí)用角度來(lái)看,研究結(jié)果為選擇合適的AI工具提供了科學(xué)指導(dǎo)。如果你是普通用戶,需要快速理解某個(gè)心理健康概念,那么目前的大型AI模型已經(jīng)能夠提供相當(dāng)不錯(cuò)的解釋。但如果你是心理健康專業(yè)人士,尋求深度的專業(yè)分析,那么當(dāng)前的AI工具仍然無(wú)法完全滿足你的需求,更適合作為初步參考而非權(quán)威資源。
研究也揭示了AI訓(xùn)練數(shù)據(jù)的重要性。當(dāng)前AI模型在身體健康概念上的優(yōu)異表現(xiàn),可能反映了這類信息在訓(xùn)練數(shù)據(jù)中的豐富性和一致性。相比之下,社會(huì)健康概念的解釋困難,可能源于這類概念在不同文化和社會(huì)背景下的多樣性,導(dǎo)致訓(xùn)練數(shù)據(jù)中缺乏統(tǒng)一的標(biāo)準(zhǔn)。
微調(diào)實(shí)驗(yàn)的成功更是為未來(lái)發(fā)展指明了方向。通過(guò)構(gòu)建高質(zhì)量的專門(mén)訓(xùn)練數(shù)據(jù)集,完全有可能培養(yǎng)出在特定領(lǐng)域表現(xiàn)卓越的"??艫I醫(yī)生"。這些專門(mén)優(yōu)化的模型不僅在解釋質(zhì)量上可能超越通用大模型,在計(jì)算成本和部署效率上也更具優(yōu)勢(shì)。
研究團(tuán)隊(duì)坦誠(chéng)地指出了當(dāng)前工作的局限性。評(píng)估標(biāo)準(zhǔn)雖然經(jīng)過(guò)精心設(shè)計(jì),但仍然主要反映了西方學(xué)術(shù)傳統(tǒng)對(duì)幸福概念的理解。在不同文化背景下,對(duì)心理健康、社會(huì)關(guān)系和個(gè)人幸福的理解可能存在顯著差異,這些差異在當(dāng)前的評(píng)估框架中尚未得到充分體現(xiàn)。
另一個(gè)重要局限是評(píng)估場(chǎng)景的相對(duì)簡(jiǎn)單化。在現(xiàn)實(shí)應(yīng)用中,用戶往往會(huì)提出更復(fù)雜、更個(gè)性化的問(wèn)題,需要AI模型具備更強(qiáng)的上下文理解和個(gè)性化適應(yīng)能力,這些能力在當(dāng)前的評(píng)估中還沒(méi)有得到充分測(cè)試。
展望未來(lái),研究團(tuán)隊(duì)建議從幾個(gè)方向繼續(xù)深化這一領(lǐng)域的探索。首先是擴(kuò)展評(píng)估對(duì)象,包括更多不同類型的用戶群體,比如不同年齡段的學(xué)生、不同文化背景的用戶等。其次是拓展應(yīng)用領(lǐng)域,將類似的評(píng)估框架應(yīng)用到其他專業(yè)領(lǐng)域,如法律咨詢、教育指導(dǎo)等。最后是改進(jìn)訓(xùn)練方法,探索更先進(jìn)的訓(xùn)練技術(shù),如近端策略優(yōu)化(PPO)或約束策略優(yōu)化(CPO)等。
說(shuō)到底,這項(xiàng)研究提醒我們,雖然AI技術(shù)發(fā)展迅速,但在涉及人類福祉這樣復(fù)雜而重要的領(lǐng)域,我們?nèi)孕璞3种?jǐn)慎和批判的態(tài)度。AI可以成為理解幸福概念的有力助手,但不應(yīng)該成為唯一的信息源。最理想的狀態(tài)是AI工具與人類專業(yè)知識(shí)相結(jié)合,為人們提供既準(zhǔn)確又實(shí)用的指導(dǎo),真正服務(wù)于每個(gè)人對(duì)幸福生活的追求。
在這個(gè)AI快速發(fā)展的時(shí)代,我們既要擁抱技術(shù)帶來(lái)的便利,也要清醒地認(rèn)識(shí)其局限性。只有這樣,我們才能真正讓AI技術(shù)為人類的幸福和福祉服務(wù),而不是被技術(shù)的表面光鮮所迷惑。這項(xiàng)來(lái)自亞利桑那州立大學(xué)的研究,就像一面鏡子,讓我們更清楚地看到AI在幸福領(lǐng)域應(yīng)用的真實(shí)圖景,為未來(lái)的發(fā)展指明了方向。
Q&A
Q1:大型語(yǔ)言模型在解釋幸福概念時(shí)表現(xiàn)如何?有什么明顯差異嗎?
A:大型商業(yè)模型(如GPT-4.1-mini、o4-mini)在解釋幸福概念時(shí)表現(xiàn)明顯優(yōu)于小型開(kāi)源模型。大型模型對(duì)普通公眾的解釋勝率達(dá)到87-89%,對(duì)專家的解釋勝率達(dá)到88-91%,而最小的模型僅有12-15%的勝率。不過(guò),所有模型在為領(lǐng)域?qū)<姨峁┥疃确治龊蜑槠胀ㄈ颂峁?shí)用建議方面都存在明顯不足。
Q2:不同類型的幸福概念對(duì)AI模型來(lái)說(shuō)哪個(gè)更難解釋?
A:身體健康概念最容易,AI模型在解釋運(yùn)動(dòng)、營(yíng)養(yǎng)等身體健康話題時(shí)表現(xiàn)最好,得分普遍超過(guò)4.5分。心理健康概念難度適中,而社會(huì)健康概念最難,比如解釋社區(qū)歸屬感、人際關(guān)系等時(shí),所有模型都表現(xiàn)出最大變異性和最低勝率,因?yàn)檫@些概念高度依賴文化背景和個(gè)人經(jīng)歷。
Q3:通過(guò)訓(xùn)練可以提升AI模型解釋幸福概念的能力嗎?效果怎樣?
A:可以顯著提升。研究發(fā)現(xiàn),通過(guò)監(jiān)督微調(diào)(SFT),小型模型的解釋質(zhì)量可提升13-16%;通過(guò)直接偏好優(yōu)化(DPO)效果更好,可提升15-18%。最令人驚喜的是,經(jīng)過(guò)專門(mén)訓(xùn)練的4B參數(shù)小模型在某些方面甚至超越了14B參數(shù)的大型模型,證明了針對(duì)性訓(xùn)練比單純?cè)龃竽P鸵?guī)模更有效。
好文章,需要你的鼓勵(lì)
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長(zhǎng)篇音頻故事。該系統(tǒng)結(jié)合大語(yǔ)言模型的敘事推理能力與音頻生成技術(shù),通過(guò)交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場(chǎng)景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開(kāi)辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過(guò)讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息,顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問(wèn)題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量,在多項(xiàng)測(cè)試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語(yǔ)言模型人性化對(duì)話問(wèn)題。該研究創(chuàng)建了包含20萬(wàn)高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評(píng)測(cè)基準(zhǔn),通過(guò)創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平,為AI價(jià)值觀對(duì)齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開(kāi)發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測(cè)模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過(guò)學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測(cè)方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來(lái)了效率和精度的雙重突破。