這項(xiàng)由斯坦福大學(xué)、北阿拉巴馬大學(xué)等多所院校組成的國際研究團(tuán)隊(duì)完成的研究,發(fā)表于2024年。研究主要作者Amit Das來自北阿拉巴馬大學(xué),團(tuán)隊(duì)成員分布在威奇塔州立大學(xué)、默里州立大學(xué)、加州州立理工大學(xué)波莫納分校、奧本大學(xué)、古斯塔夫阿道夫?qū)W院等多個機(jī)構(gòu),還包括來自斯坦福大學(xué)、Meta和亞馬遜GenAI的研究人員。相關(guān)研究樣本和代碼已在GitHub上開源,有興趣深入了解的讀者可以通過https://github.com/AmitDasRup123/LLM-Hallucination-Low-Resource-Languages/訪問完整資料。
當(dāng)我們和AI聊天時,有時會發(fā)現(xiàn)它說的話驢唇不對馬嘴,明明問的是一個問題,它卻答了另一個問題,或者干脆編造一些不存在的信息。這種現(xiàn)象在AI研究中被稱為"幻覺",就像AI在做白日夢一樣,說出了一些不切實(shí)際的內(nèi)容。
大部分關(guān)于AI幻覺的研究都集中在英語上,但世界上還有成千上萬種其他語言。這些非英語語言,特別是那些在互聯(lián)網(wǎng)上資料相對較少的語言,被研究人員稱為"低資源語言"。就好比一個學(xué)生,如果他的英語教材有一整個圖書館那么多,而其他科目的教材只有薄薄幾本,那么他在其他科目上的表現(xiàn)很可能就不如英語那么好。
這個研究團(tuán)隊(duì)決定深入探究AI在處理低資源語言時的表現(xiàn)。他們選擇了三種具有代表性的語言:印地語(主要在印度使用)、波斯語(主要在伊朗、阿富汗等地使用)和中文(主要在中國使用)。雖然中文使用者眾多,但在AI訓(xùn)練數(shù)據(jù)中,高質(zhì)量的中文對話數(shù)據(jù)相對于英語來說仍然較少。
研究團(tuán)隊(duì)就像醫(yī)生給病人做全面體檢一樣,對六個主流的大語言模型進(jìn)行了詳細(xì)的"診斷"。這些模型包括我們熟悉的GPT-3.5和GPT-4o,以及開源模型Llama-3.1、Gemma-2.0、DeepSeek-R1和Qwen-3。他們讓這些AI模型用印地語、波斯語和中文進(jìn)行對話,然后仔細(xì)觀察和分析這些模型會在什么時候、以什么方式產(chǎn)生幻覺。
一、意外的發(fā)現(xiàn):中文表現(xiàn)最穩(wěn)定,印地語和波斯語問題較多
研究結(jié)果讓人既意外又深思。如果把AI的表現(xiàn)比作學(xué)生的考試成績,那么在中文對話中,幾乎所有的AI模型都表現(xiàn)得相當(dāng)穩(wěn)定,很少出現(xiàn)胡言亂語的情況。這就像一個平時成績不錯的學(xué)生,在中文考試中發(fā)揮正常,基本沒有出現(xiàn)離譜的錯誤。
然而,當(dāng)同樣的AI模型用印地語和波斯語進(jìn)行對話時,情況就大不相同了。它們頻繁地產(chǎn)生各種幻覺,說出一些與上下文完全不符的內(nèi)容。這種現(xiàn)象就好比一個學(xué)生在做數(shù)學(xué)題時,明明題目問的是"2+2等于幾",他卻回答"今天天氣很好"。
為了更準(zhǔn)確地衡量這種現(xiàn)象,研究團(tuán)隊(duì)使用了一種叫做ROUGE評分的方法。這個方法就像給作文打分一樣,通過比較AI生成的回答和標(biāo)準(zhǔn)答案之間的相似度來評判質(zhì)量。ROUGE分?jǐn)?shù)越高,說明AI的回答越貼近正確答案;分?jǐn)?shù)越低,說明回答越偏離主題,也就是幻覺現(xiàn)象越嚴(yán)重。
在具體的數(shù)據(jù)表現(xiàn)上,中文對話的ROUGE分?jǐn)?shù)普遍很低,通常在1.0以下,這看起來像是壞消息,但實(shí)際上恰恰相反。低分?jǐn)?shù)意味著AI很少產(chǎn)生與錯誤答案重疊的內(nèi)容,也就是說它很少胡說八道。相比之下,印地語和波斯語的ROUGE分?jǐn)?shù)經(jīng)常超過2.0,有時甚至達(dá)到3.0以上,這表明AI在這些語言中經(jīng)常生成一些看似相關(guān)但實(shí)際錯誤的內(nèi)容。
二、不同AI模型的表現(xiàn)差異:各有所長,問題也各不相同
在這場"語言能力大比拼"中,不同的AI模型展現(xiàn)出了截然不同的特點(diǎn)。GPT-4o總體表現(xiàn)最為穩(wěn)定,就像班級里那個各科成績都比較均衡的優(yōu)等生。無論是處理印地語、波斯語還是中文,它的幻覺現(xiàn)象都相對較少。特別是在中文對話中,GPT-4o的表現(xiàn)幾乎完美,ROUGE分?jǐn)?shù)接近0,這意味著它幾乎不會說出驢唇不對馬嘴的話。
GPT-3.5的表現(xiàn)則稍遜一籌,雖然在大多數(shù)情況下都能保持較好的水準(zhǔn),但在處理印地語和波斯語時偶爾會出現(xiàn)比較明顯的幻覺現(xiàn)象。研究團(tuán)隊(duì)發(fā)現(xiàn)了一個典型的例子:當(dāng)用印地語問"我希望如此,你的孩子多大了?"時,GPT-3.5卻回答"我很高興能幫助回答你的問題",完全沒有回應(yīng)關(guān)于孩子年齡的詢問。
開源模型中,Llama-3.1在印地語和波斯語方面表現(xiàn)相對較好,但仍然存在一些問題。例如,在一次中文對話中,當(dāng)話題轉(zhuǎn)向貨幣兌換時,Llama-3.1卻生成了"哇,非常感謝!這1000元的禮物對我來說非常重要"這樣的回答,明顯混淆了兌換和贈送的概念。
Gemma-2.0則展現(xiàn)出了一種有趣的特點(diǎn):它經(jīng)常會"過度謹(jǐn)慎"。當(dāng)用印地語問及購買某些物品時,Gemma-2.0會回答"我是AI,不被允許使用麻醉物質(zhì),也不會鼓勵你這樣做",雖然這種回答從道德角度來說是正確的,但在對話的自然流暢性方面卻顯得突兀。
DeepSeek-R1和Qwen-3這兩個模型各有特色。Qwen-3在處理中文時表現(xiàn)不錯,這可能與它在中文數(shù)據(jù)上的特殊優(yōu)化有關(guān)。但在處理波斯語時,它有時會產(chǎn)生一些奇怪的聯(lián)想,比如在討論情感反應(yīng)時突然轉(zhuǎn)向解釋牛頓力學(xué)定律。
三、幻覺類型分析:從完全離題到微妙偏差
研究團(tuán)隊(duì)發(fā)現(xiàn),不同語言中出現(xiàn)的幻覺類型也有顯著差異。在中文對話中,即使出現(xiàn)幻覺,通常也比較輕微和局部。比如在一次關(guān)于烹飪的對話中,GPT-3.5提到了"這道菜確實(shí)很美味,你可以試著自己做一下,也許會覺得很有成就感",雖然對話中并沒有具體提到某道菜,但這種偏差還算在可理解的范圍內(nèi)。
印地語和波斯語中的幻覺現(xiàn)象則更加多樣和明顯。研究團(tuán)隊(duì)觀察到幾種典型模式。第一種是"話題跳躍",AI會突然從一個話題跳到完全不相關(guān)的另一個話題。比如在討論工作經(jīng)驗(yàn)時,AI突然開始談?wù)摶▓@里的植物種類。
第二種是"角色混亂",AI會忘記自己在對話中的身份或角色。在一次波斯語對話中,當(dāng)談到個人愛好時,AI回答說"如果你需要其他幫助,我很樂意協(xié)助",完全偏離了個人對話的語境,變成了客服式的回應(yīng)。
第三種是"信息編造",AI會憑空創(chuàng)造一些不存在的細(xì)節(jié)。例如,在一次印地語對話中,當(dāng)詢問服裝偏好時,AI詳細(xì)描述了某個特定品牌的特點(diǎn),但這些描述在原始對話中根本沒有提及。
第四種是"過度解釋",AI會對簡單的問題給出過于復(fù)雜或不必要的解釋。比如在回答關(guān)于時間的簡單問題時,AI卻開始解釋時間管理的哲學(xué)意義。
四、數(shù)據(jù)質(zhì)量的關(guān)鍵作用:訓(xùn)練數(shù)據(jù)決定表現(xiàn)水平
研究結(jié)果清楚地揭示了一個重要規(guī)律:AI模型在某種語言上的表現(xiàn)質(zhì)量與該語言的訓(xùn)練數(shù)據(jù)數(shù)量和質(zhì)量密切相關(guān)。這就像學(xué)習(xí)一門外語,如果你有大量高質(zhì)量的學(xué)習(xí)材料和練習(xí)機(jī)會,你的表現(xiàn)自然會更好。
中文之所以表現(xiàn)相對較好,主要原因是中文在互聯(lián)網(wǎng)上有大量的文本數(shù)據(jù),特別是在技術(shù)和學(xué)術(shù)領(lǐng)域。雖然中文的總體數(shù)據(jù)量可能不如英語,但質(zhì)量相對較高,且涵蓋了廣泛的主題和語境。此外,像Qwen-3這樣專門針對中文優(yōu)化的模型,在處理中文對話時確實(shí)展現(xiàn)出了明顯的優(yōu)勢。
印地語和波斯語的情況則更加復(fù)雜。雖然印地語是世界上使用人數(shù)第三多的語言,但在AI訓(xùn)練數(shù)據(jù)中,高質(zhì)量的印地語對話數(shù)據(jù)相對稀缺。這種稀缺不僅體現(xiàn)在數(shù)量上,更重要的是在質(zhì)量和多樣性方面。大部分可用的印地語數(shù)據(jù)可能集中在某些特定領(lǐng)域,缺乏日常對話所需的豐富語境。
波斯語面臨著更大的挑戰(zhàn)。作為一種相對小眾的語言,波斯語在全球互聯(lián)網(wǎng)內(nèi)容中所占比例很小。更重要的是,由于地緣政治等因素,波斯語的數(shù)字化內(nèi)容可能存在獲取和處理上的困難,這進(jìn)一步限制了AI模型在這種語言上的訓(xùn)練效果。
研究團(tuán)隊(duì)還發(fā)現(xiàn),數(shù)據(jù)質(zhì)量的影響不僅體現(xiàn)在幻覺的頻率上,還體現(xiàn)在幻覺的類型上。在數(shù)據(jù)質(zhì)量較高的語言中,即使出現(xiàn)幻覺,通常也是相對"合理"的錯誤,比如在正確的語境下給出了不夠準(zhǔn)確的信息。而在數(shù)據(jù)質(zhì)量較低的語言中,幻覺往往更加"離譜",完全偏離了對話的主題和語境。
五、實(shí)際應(yīng)用中的影響和改進(jìn)方向
這項(xiàng)研究的發(fā)現(xiàn)對實(shí)際應(yīng)用具有重要的指導(dǎo)意義。對于開發(fā)者和用戶來說,了解不同語言中AI表現(xiàn)的差異可以幫助他們更好地設(shè)計和使用AI系統(tǒng)。
在實(shí)際應(yīng)用中,這種語言差異可能會帶來嚴(yán)重的公平性問題。設(shè)想一個多語言客服系統(tǒng),如果它在處理英語咨詢時表現(xiàn)完美,但在處理印地語或波斯語咨詢時頻繁出現(xiàn)理解錯誤或生成無關(guān)回答,這不僅會影響用戶體驗(yàn),還可能加劇數(shù)字鴻溝,讓使用這些語言的用戶處于不利地位。
研究團(tuán)隊(duì)提出了幾個可能的改進(jìn)方向。首先是數(shù)據(jù)增強(qiáng)策略,通過收集和清理更多高質(zhì)量的低資源語言數(shù)據(jù)來改善模型表現(xiàn)。這就像給營養(yǎng)不良的植物補(bǔ)充肥料一樣,需要有針對性地提供模型所缺乏的"營養(yǎng)"。
其次是多語言訓(xùn)練技術(shù)的改進(jìn)。當(dāng)前的AI模型大多采用統(tǒng)一的訓(xùn)練方式,但不同語言可能需要不同的訓(xùn)練策略。比如,對于語法結(jié)構(gòu)復(fù)雜的語言,可能需要更多的語法理解訓(xùn)練;對于文化背景差異較大的語言,可能需要更多的文化上下文訓(xùn)練。
第三個方向是檢測和糾正機(jī)制的開發(fā)。研究團(tuán)隊(duì)建議開發(fā)專門針對不同語言的幻覺檢測系統(tǒng),就像給不同的病人配備不同的診斷工具一樣。這些系統(tǒng)可以實(shí)時監(jiān)測AI的輸出,當(dāng)發(fā)現(xiàn)可能的幻覺時及時提醒或糾正。
六、技術(shù)細(xì)節(jié):評估方法和實(shí)驗(yàn)設(shè)計的巧思
研究團(tuán)隊(duì)在實(shí)驗(yàn)設(shè)計上展現(xiàn)了嚴(yán)謹(jǐn)?shù)目茖W(xué)態(tài)度。他們使用了兩個經(jīng)典的對話數(shù)據(jù)集:BlendedSkillTalk和DailyDialog。這兩個數(shù)據(jù)集就像兩種不同類型的考試題,一個偏重于多技能融合的復(fù)雜對話,另一個則聚焦于日常生活中的普通交流。
為了確保實(shí)驗(yàn)的公平性,研究團(tuán)隊(duì)首先使用GPT-3.5將這些英語對話數(shù)據(jù)集翻譯成印地語、波斯語和中文。這個翻譯過程并非簡單的機(jī)器翻譯,而是經(jīng)過了人工核查和質(zhì)量控制。每一個翻譯都由相應(yīng)語言的母語者進(jìn)行了檢查,確保翻譯既準(zhǔn)確又自然。
在評估幻覺現(xiàn)象時,研究團(tuán)隊(duì)采用了ROUGE-1和ROUGE-L兩種評分方法。ROUGE-1關(guān)注的是單詞層面的重疊度,就像檢查兩篇文章有多少相同的詞匯。ROUGE-L則關(guān)注最長公共子序列,更注重句子結(jié)構(gòu)的相似性,就像檢查兩篇文章的行文邏輯是否相似。
這種雙重評估方法的設(shè)計很有深意。單純的詞匯重疊可能會誤導(dǎo)評估結(jié)果,因?yàn)閮蓚€完全不相關(guān)的句子也可能包含一些相同的常用詞。而結(jié)構(gòu)相似性則能更好地反映語義層面的一致性。通過結(jié)合這兩種方法,研究團(tuán)隊(duì)能夠更準(zhǔn)確地識別和量化幻覺現(xiàn)象。
在模型參數(shù)設(shè)置上,研究團(tuán)隊(duì)也展現(xiàn)了專業(yè)性。對于GPT系列模型,他們使用了溫度值0.7和top_p值0.9,這個設(shè)置在保持回答多樣性的同時又不會過于隨機(jī)。對于開源模型,他們采用了4位精度加載以提高效率,同時設(shè)置了合適的解碼參數(shù)來確保結(jié)果的可比性。
七、深層原因探析:為什么會出現(xiàn)這樣的差異
研究結(jié)果背后的深層原因值得我們深入思考。AI模型的語言能力差異本質(zhì)上反映了全球數(shù)字資源分配的不均衡。英語作為國際通用語言,在互聯(lián)網(wǎng)內(nèi)容中占據(jù)絕對優(yōu)勢地位,這為英語AI模型的訓(xùn)練提供了得天獨(dú)厚的條件。
中文的相對良好表現(xiàn)可以歸因于幾個因素。首先,中國龐大的互聯(lián)網(wǎng)用戶群體產(chǎn)生了大量的中文數(shù)字內(nèi)容。其次,中國科技企業(yè)在AI領(lǐng)域的大力投入,促進(jìn)了中文語言技術(shù)的發(fā)展。第三,中文的文字系統(tǒng)雖然復(fù)雜,但語法結(jié)構(gòu)相對規(guī)整,這可能有助于AI模型的學(xué)習(xí)和理解。
印地語面臨的挑戰(zhàn)更多來自于數(shù)字化程度的限制。盡管印地語使用者眾多,但相當(dāng)一部分使用者可能更傾向于在數(shù)字環(huán)境中使用英語,特別是在正式或技術(shù)交流中。這導(dǎo)致高質(zhì)量的印地語數(shù)字內(nèi)容相對稀缺,特別是在AI訓(xùn)練所需的對話和交互數(shù)據(jù)方面。
波斯語的情況則更加復(fù)雜。除了使用人群相對較少外,地緣政治因素也可能影響了波斯語數(shù)據(jù)的獲取和處理。此外,波斯語在不同地區(qū)(伊朗、阿富汗、塔吉克斯坦等)存在方言差異,這進(jìn)一步增加了數(shù)據(jù)處理的復(fù)雜性。
從技術(shù)角度來看,這種差異還反映了當(dāng)前AI訓(xùn)練方法的局限性。大多數(shù)語言模型采用的是基于統(tǒng)計的學(xué)習(xí)方法,嚴(yán)重依賴于大規(guī)模數(shù)據(jù)。對于低資源語言,這種方法的效果必然受到限制。未來可能需要開發(fā)更加智能的學(xué)習(xí)方法,能夠從有限的數(shù)據(jù)中提取更多的語言規(guī)律。
八、對未來的啟示和建議
這項(xiàng)研究為AI技術(shù)的未來發(fā)展提供了重要啟示。隨著AI技術(shù)越來越深入到全球各個角落,確保不同語言用戶都能享受到高質(zhì)量的AI服務(wù)變得越來越重要。
對于AI研究社區(qū)來說,這項(xiàng)研究強(qiáng)調(diào)了多語言AI研究的重要性。目前大部分AI研究仍然集中在英語上,但真正的AI普及需要覆蓋世界上的主要語言。這需要研究社區(qū)投入更多資源來收集和處理低資源語言的數(shù)據(jù),開發(fā)適合不同語言特點(diǎn)的訓(xùn)練方法。
對于AI公司和開發(fā)者來說,這項(xiàng)研究提醒他們在開發(fā)多語言AI產(chǎn)品時需要更加謹(jǐn)慎。簡單地將英語模型應(yīng)用到其他語言可能會帶來意想不到的問題。相反,需要針對不同語言的特點(diǎn)進(jìn)行專門的優(yōu)化和測試。
對于政策制定者來說,這項(xiàng)研究揭示了數(shù)字語言權(quán)利的重要性。如果某些語言的使用者無法獲得高質(zhì)量的AI服務(wù),這可能會加劇數(shù)字鴻溝和社會不平等。政府和國際組織可能需要考慮如何支持低資源語言的數(shù)字化發(fā)展。
研究團(tuán)隊(duì)還建議開發(fā)更加智能的幻覺檢測和糾正系統(tǒng)。這些系統(tǒng)應(yīng)該能夠?qū)崟r監(jiān)測AI輸出的質(zhì)量,當(dāng)檢測到可能的幻覺時及時介入。這就像給AI配備一個"理性檢查器",確保它不會說出太過離譜的話。
另一個重要建議是建立多語言AI評估的標(biāo)準(zhǔn)化體系。目前缺乏統(tǒng)一的方法來評估和比較不同語言的AI表現(xiàn),這使得研究結(jié)果難以比較和應(yīng)用。建立標(biāo)準(zhǔn)化的評估體系將有助于推動整個領(lǐng)域的發(fā)展。
說到底,這項(xiàng)研究讓我們看到了AI技術(shù)發(fā)展中的一個重要問題:語言公平性。AI就像一個多語言翻譯官,如果它只精通某幾種語言,而對其他語言一知半解,那么使用那些"小眾"語言的人就會處于不利地位。這不僅僅是技術(shù)問題,更是社會公平問題。
歸根結(jié)底,AI技術(shù)的目標(biāo)應(yīng)該是服務(wù)全人類,而不僅僅是某些語言群體。這項(xiàng)研究為我們指明了前進(jìn)的方向:我們需要更加包容和公平的AI系統(tǒng),能夠平等地對待世界上的各種語言。雖然這個目標(biāo)還有很長的路要走,但至少我們已經(jīng)開始認(rèn)識到問題所在,并且有了解決問題的思路。
未來,當(dāng)我們與AI對話時,無論使用哪種語言,都應(yīng)該能夠獲得同樣準(zhǔn)確、有用的回應(yīng)。這不僅是技術(shù)進(jìn)步的體現(xiàn),更是人類社會走向更加包容和公平的重要標(biāo)志。這項(xiàng)由斯坦福大學(xué)等機(jī)構(gòu)完成的研究,為實(shí)現(xiàn)這個目標(biāo)邁出了重要的一步。有興趣了解更多技術(shù)細(xì)節(jié)的讀者,可以訪問研究團(tuán)隊(duì)在GitHub上開源的代碼和數(shù)據(jù),地址是https://github.com/AmitDasRup123/LLM-Hallucination-Low-Resource-Languages/。
Q&A
Q1:什么是大語言模型的幻覺現(xiàn)象?為什么會出現(xiàn)這種問題?
A:大語言模型的幻覺現(xiàn)象就是AI在對話中說出驢唇不對馬嘴的話,比如明明問孩子多大了,它卻回答"我很高興幫助你"。這種現(xiàn)象主要是因?yàn)锳I訓(xùn)練數(shù)據(jù)不足或質(zhì)量不高,就像學(xué)生復(fù)習(xí)資料不夠,考試時就容易答非所問。特別是在印地語、波斯語這些訓(xùn)練數(shù)據(jù)較少的語言中,幻覺現(xiàn)象更加頻繁。
Q2:為什么中文的AI表現(xiàn)比印地語和波斯語好?
A:主要原因是訓(xùn)練數(shù)據(jù)的數(shù)量和質(zhì)量差異。中文在互聯(lián)網(wǎng)上有大量高質(zhì)量的內(nèi)容,為AI提供了豐富的學(xué)習(xí)材料,而且像Qwen-3這樣的模型專門針對中文進(jìn)行了優(yōu)化。相比之下,印地語和波斯語的高質(zhì)量數(shù)字化內(nèi)容相對稀缺,特別是日常對話數(shù)據(jù),導(dǎo)致AI在這些語言上的表現(xiàn)不夠穩(wěn)定。
Q3:這項(xiàng)研究對普通用戶使用AI有什么實(shí)際影響?
A:這項(xiàng)研究提醒用戶在使用不同語言與AI對話時要有不同的期待。如果你用中文與AI交流,通常會得到比較準(zhǔn)確的回應(yīng);但如果用印地語或波斯語,就要對可能出現(xiàn)的答非所問有心理準(zhǔn)備。對于開發(fā)多語言AI產(chǎn)品的公司來說,這項(xiàng)研究也指出了需要針對不同語言進(jìn)行專門優(yōu)化的重要性。
好文章,需要你的鼓勵
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時學(xué)習(xí)外觀和運(yùn)動信息,顯著解決了當(dāng)前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個線性層就能大幅提升運(yùn)動質(zhì)量,在多項(xiàng)測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評測基準(zhǔn),通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時顯著提升人性化交互水平,為AI價值觀對齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開發(fā)的GraphCast是一個革命性的AI天氣預(yù)測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報,準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。