這項由蘋果公司的帕辛·肖賈伊等研究團隊在2025年6月發(fā)表的重要研究,徹底顛覆了我們對現(xiàn)代"思維型"人工智能的認知。這篇題為《思維的幻覺:通過問題復(fù)雜性透鏡理解推理模型的優(yōu)勢與局限》的論文發(fā)表在arXiv預(yù)印本平臺上(論文編號:arXiv:2506.06941v1),有興趣深入了解的讀者可以通過該編號在arXiv網(wǎng)站上訪問完整論文。
想象一下,你有一個聲稱很聰明的朋友,他在簡單問題上表現(xiàn)得頭頭是道,甚至在中等難度的問題上也能給出不錯的答案。但是當真正困難的挑戰(zhàn)來臨時,這個朋友不僅完全搞不定,更奇怪的是,他竟然比面對簡單問題時思考得更少,好像直接放棄了似的。這聽起來很荒謬對吧?但這正是蘋果研究團隊在最新一代"大型推理模型"身上發(fā)現(xiàn)的現(xiàn)象。
這些所謂的"思維型"AI模型,比如OpenAI的o1和o3系列、DeepSeek的R1模型、以及Claude的思維版本,都號稱具備了"思考"能力——它們在給出最終答案前會進行長篇大論的內(nèi)部推理。表面上看,這些模型在傳統(tǒng)的數(shù)學和編程測試中表現(xiàn)不俗,讓人們對AI的推理能力充滿期待。然而,蘋果團隊通過精心設(shè)計的實驗發(fā)現(xiàn),這些模型的"聰明"可能只是一種幻覺。
研究團隊并沒有滿足于在傳統(tǒng)測試題上驗證這些模型,而是創(chuàng)造了四種特殊的"拼圖游戲"——漢諾塔、跳棋游戲、過河問題和積木世界。選擇這些游戲的巧妙之處在于,它們就像數(shù)學中的"控制變量"實驗一樣,可以精確地調(diào)節(jié)難度等級,同時避免了傳統(tǒng)測試題可能存在的"題庫泄露"問題。更重要的是,這些游戲有明確的規(guī)則和標準答案,研究人員可以逐步檢查AI的每一個推理步驟,就像老師批改數(shù)學作業(yè)時檢查每一個計算過程一樣。
通過這種創(chuàng)新的實驗設(shè)計,研究團隊發(fā)現(xiàn)了三個令人震驚的現(xiàn)象。首先,在簡單問題上,這些聲稱會"思考"的AI模型竟然表現(xiàn)得還不如普通的AI模型,就像一個總是要深思熟慮的人在回答"1+1等于幾"時反而比直覺反應(yīng)的人更容易出錯。其次,只有在中等難度的問題上,"思維型"模型才真正顯示出優(yōu)勢,證明它們的"思考"確實有用。但最讓人匪夷所思的是第三個發(fā)現(xiàn):當問題變得真正困難時,所有模型都會徹底失敗,而且"思維型"模型反而開始減少思考時間,就像遇到難題時直接放棄思考一樣。
更深入的分析揭示了這些模型"思維過程"中的有趣現(xiàn)象。在簡單問題上,它們經(jīng)常會"想太多"——明明已經(jīng)找到了正確答案,卻繼續(xù)探索各種錯誤的可能性,白白浪費了計算資源。在中等難度問題上,它們會先嘗試很多錯誤的方向,最終才找到正確答案。而在困難問題上,它們基本上找不到任何正確的解決方案。
最令人意外的發(fā)現(xiàn)是,即使研究人員直接告訴這些AI模型解題的完整算法——相當于給學生提供了詳細的解題步驟——模型的表現(xiàn)依然沒有改善。這就像給一個學生提供了完整的數(shù)學公式和解題方法,但他仍然無法正確應(yīng)用一樣,暴露了這些模型在邏輯推理和步驟執(zhí)行方面的根本性缺陷。
這項研究的意義遠遠超出了學術(shù)范疇。它提醒我們,當前被廣泛宣傳的"思維型"AI可能并沒有我們想象的那么智能。雖然它們在某些特定任務(wù)上表現(xiàn)出色,但在面對真正需要創(chuàng)造性思維和復(fù)雜推理的問題時,這些模型很可能會露出"假聰明"的本質(zhì)。
一、四個精心設(shè)計的"智力測驗":從游戲中看穿AI的真實水平
蘋果研究團隊面臨的第一個挑戰(zhàn)是:如何公平地測試這些聲稱會"思考"的AI模型?傳統(tǒng)的數(shù)學題庫和編程測試存在一個根本問題——這些題目很可能在訓練數(shù)據(jù)中出現(xiàn)過,就像學生提前看過考試答案一樣,無法真實反映實際能力。
想象你要測試一個人的真實駕駛技術(shù),最好的方法不是讓他在熟悉的路線上開車,而是設(shè)計一個全新的、可以隨時調(diào)整難度的駕駛場景。基于這個思路,研究團隊創(chuàng)造了四個巧妙的"拼圖游戲",每個游戲都像一個精密設(shè)計的實驗室,可以精確控制復(fù)雜程度。
第一個游戲是經(jīng)典的"漢諾塔"。想象你面前有三根柱子,最左邊的柱子上從下到上按大小順序疊著若干個圓盤,目標是把所有圓盤移到最右邊的柱子上,但有嚴格的規(guī)則:每次只能移動一個圓盤,只能移動最上面的圓盤,大圓盤永遠不能壓在小圓盤上面。這個游戲的巧妙之處在于,圓盤數(shù)量決定了難度——3個圓盤需要7步,4個圓盤需要15步,5個圓盤需要31步,難度呈指數(shù)級增長。
第二個是"跳棋游戲",就像在一條直線上玩跳棋。左邊放著若干個紅色棋子,右邊放著同樣數(shù)量的藍色棋子,中間留一個空位。目標是讓紅藍棋子完全交換位置。棋子可以向前滑動到相鄰的空位,或者跳過一個對方的棋子落在空位上,但絕對不能后退。這個游戲考驗的是在約束條件下的序列規(guī)劃能力。
第三個是"過河問題",這是經(jīng)典邏輯謎題的變體。想象有若干對"委托人和代理人"需要過河,船的容量有限,而且有個重要約束:任何委托人都不能在沒有自己代理人保護的情況下和其他代理人單獨相處,無論是在船上還是河岸上。這個游戲測試的是在復(fù)雜約束下的多步驟規(guī)劃能力。
最后一個是"積木世界",就像玩樂高積木一樣。給定一個初始的積木排列,需要通過移動積木(每次只能移動最上面的積木)來達到目標排列。隨著積木數(shù)量增加,可能的排列組合呈爆炸式增長,需要非常精細的規(guī)劃。
這四個游戲的設(shè)計精妙之處在于它們的"可擴展性"。就像調(diào)節(jié)音響的音量旋鈕一樣,研究人員可以通過增加圓盤數(shù)量、棋子數(shù)量、過河人數(shù)或積木數(shù)量來精確控制難度等級。同時,每個游戲都有明確的規(guī)則和唯一的正確解法,讓研究人員能夠像批改數(shù)學題一樣,逐步檢查AI的每一個推理步驟是否正確。
更重要的是,這些游戲避免了"數(shù)據(jù)污染"的問題。雖然漢諾塔等游戲本身是經(jīng)典問題,但研究團隊可以生成全新的問題實例,確保AI模型在訓練時沒有見過這些具體的題目。這就像用同樣的數(shù)學公式出全新的應(yīng)用題一樣,測試的是真正的理解和應(yīng)用能力,而不是記憶能力。
通過這種創(chuàng)新的實驗設(shè)計,研究團隊成功地為AI推理能力的測試建立了一個"標準化實驗室"。在這個實驗室里,他們可以系統(tǒng)地觀察不同AI模型在面對不同復(fù)雜程度問題時的真實表現(xiàn),就像科學家在顯微鏡下觀察細胞一樣清晰和客觀。
二、三個意想不到的"智力層次":AI模型的奇特表現(xiàn)規(guī)律
當蘋果研究團隊開始用這四個精心設(shè)計的游戲測試各種AI模型時,他們發(fā)現(xiàn)了一個完全出乎意料的現(xiàn)象。原本以為會看到簡單的"越難越差"的線性關(guān)系,但實際結(jié)果卻像發(fā)現(xiàn)了一個全新的物理定律一樣令人震驚。
想象你在觀察一個聲稱很聰明的學生做不同難度的題目。按常理,這個學生應(yīng)該在簡單題上表現(xiàn)完美,中等題上稍差一些,困難題上表現(xiàn)最差。但這些AI模型的表現(xiàn)就像一個奇怪的學生:在最簡單的題目上竟然頻繁出錯,在中等難度題目上突然變得很厲害,而在最困難的題目上又徹底崩潰。
**第一層:簡單問題上的"聰明反被聰明誤"**
最讓人意外的發(fā)現(xiàn)是,在最簡單的問題上,那些號稱會"深度思考"的AI模型竟然表現(xiàn)得還不如普通的AI模型。這就像一個總是要仔細思考的人在回答"今天星期幾"這種簡單問題時,反而比直覺反應(yīng)的人更容易給出錯誤答案。
研究團隊發(fā)現(xiàn),"思維型"模型在處理簡單問題時會陷入一種"過度思考"的陷阱。比如在解決只需要7步的漢諾塔問題時,這些模型往往會在前幾步就找到正確答案,但隨后卻開始探索各種不必要的錯誤路徑,最終反而得出了錯誤結(jié)論。這就像一個學生在解答"2+3等于幾"時,先正確地想到了5,但隨后又開始懷疑自己,嘗試各種復(fù)雜的計算方法,最終寫下了錯誤答案。
更有趣的是,普通的AI模型在這些簡單問題上表現(xiàn)更好,而且消耗的計算資源也更少。這意味著,對于日常生活中的簡單任務(wù),過度復(fù)雜的"思維型"AI可能是一種浪費,甚至會帶來負面效果。
**第二層:中等難度問題上的"思考優(yōu)勢"**
當問題復(fù)雜度提升到中等水平時,"思維型"模型終于展現(xiàn)出了它們的真正價值。在這個難度區(qū)間內(nèi),這些模型的"思考"過程確實產(chǎn)生了明顯的優(yōu)勢。它們會系統(tǒng)地探索各種可能的解決方案,即使在初期嘗試了很多錯誤的路徑,最終也能找到正確答案。
這種表現(xiàn)模式很像一個經(jīng)驗豐富的偵探破案的過程。面對復(fù)雜案件,偵探會先考慮各種可能的嫌疑人和動機,雖然大部分線索最終證明是錯誤的,但通過系統(tǒng)性的排除和驗證,最終能夠找到真相。同樣,"思維型"AI在中等復(fù)雜度問題上展現(xiàn)出了這種"試錯-學習-收斂"的能力。
在這個層次上,額外的"思考時間"確實物有所值。模型投入更多的計算資源進行推理,最終獲得了更高的準確率。這證明了在適當?shù)膹?fù)雜程度下,"深度思考"確實是一種有效的問題解決策略。
**第三層:高難度問題上的"全面崩潰"**
然而,當問題難度繼續(xù)攀升時,所有AI模型——無論是"思維型"還是普通型——都會遭遇完全的失敗。但最令人困惑的是,"思維型"模型在這種情況下的行為模式。
按照常理,面對更困難的問題,一個理性的思考者應(yīng)該投入更多時間和精力來尋找解決方案。但研究團隊發(fā)現(xiàn)了一個違反直覺的現(xiàn)象:當問題變得過于復(fù)雜時,"思維型"模型反而開始減少思考時間,就像遇到難題時直接放棄了一樣。
這種現(xiàn)象就像一個學生在面對超出自己能力范圍的題目時,不是更加努力思考,而是草草寫幾筆就交卷了。更奇怪的是,這種"放棄"行為不是因為模型達到了計算資源的限制——它們明明還有大量的計算能力沒有使用,卻選擇了"躺平"。
**跨層次的一致性問題**
這三個層次的發(fā)現(xiàn)揭示了當前AI推理能力的一個根本性問題:缺乏一致性。一個真正智能的系統(tǒng)應(yīng)該能夠根據(jù)問題的復(fù)雜程度調(diào)整自己的策略,在簡單問題上快速響應(yīng),在復(fù)雜問題上深入思考。但現(xiàn)在的AI模型似乎無法做到這種自適應(yīng)調(diào)節(jié)。
更令人擔憂的是,這種不一致性表明,這些模型可能并沒有真正"理解"問題的本質(zhì),而是在使用某種并不可靠的模式匹配機制。當問題超出其訓練經(jīng)驗范圍時,這種機制就會失效,導致不可預(yù)測的行為。
這個發(fā)現(xiàn)對AI的實際應(yīng)用具有重要意義。它提醒我們,不能簡單地認為"思維型"AI在所有情況下都比普通AI更好。在不同的應(yīng)用場景中,我們需要根據(jù)任務(wù)的復(fù)雜程度選擇合適的AI系統(tǒng),就像選擇不同的工具來完成不同的工作一樣。
三、透視AI的"思維過程":揭秘機器大腦的真實想法
蘋果研究團隊并沒有滿足于僅僅觀察AI模型的最終答案,他們做了一件更大膽的事情:直接"窺視"這些模型的"思維過程"。這就像給AI做了一次"大腦掃描",觀察它們在解決問題時的內(nèi)部活動模式。
想象你能夠看到一個人解題時大腦中的所有想法——他們?nèi)绾伍_始思考、在哪里犯錯、何時找到正確答案、又在什么時候迷失方向。通過分析"思維型"AI模型的內(nèi)部推理記錄,研究團隊發(fā)現(xiàn)了一些既有趣又令人擔憂的模式。
**簡單問題上的"胡思亂想"**
在處理簡單問題時,這些AI模型展現(xiàn)出了一種類似"胡思亂想"的行為模式。研究人員發(fā)現(xiàn),模型往往在推理過程的早期就能找到正確答案,但隨后卻繼續(xù)"思考",探索各種不必要的錯誤方向。
這就像一個學生在解答"5+3等于幾"時,立刻想到了正確答案8,但隨后開始懷疑:"會不會是9?讓我試試其他方法...也許是7?"最終反而把自己繞糊涂了。在AI的"思維記錄"中,研究人員發(fā)現(xiàn)正確解決方案通常出現(xiàn)在思考過程的前半部分,而后半部分大多是錯誤的探索。
這種現(xiàn)象表明,這些模型缺乏一種重要的能力——知道何時停止思考。在人類的認知過程中,我們通常能夠識別簡單問題并快速給出答案,而不會陷入不必要的復(fù)雜思考中。但這些AI模型似乎缺乏這種"認知經(jīng)濟性"。
**中等問題上的"柳暗花明"**
當問題復(fù)雜度適中時,AI模型的思維模式發(fā)生了有趣的變化。它們通常會從錯誤的嘗試開始,就像在迷宮中摸索一樣,經(jīng)歷多次錯誤的轉(zhuǎn)向,最終才找到通向正確答案的路徑。
這種模式更接近人類解決復(fù)雜問題的真實過程。想象你在解一個復(fù)雜的數(shù)學題,可能需要嘗試好幾種方法,前幾種都行不通,直到第四種或第五種方法才突然開竅。在AI的思維記錄中,研究人員觀察到了類似的"試錯-調(diào)整-突破"的循環(huán)過程。
有趣的是,正確答案在思維過程中出現(xiàn)的位置與問題復(fù)雜程度呈現(xiàn)正相關(guān)關(guān)系。簡單問題的答案通常出現(xiàn)在思考過程的前30%,而中等復(fù)雜問題的答案往往要到思考過程的后70%才會出現(xiàn)。這種模式表明,AI模型確實具備了一定的"堅持思考"能力,不會在初次失敗后立即放棄。
**復(fù)雜問題上的"思維混亂"**
當面對真正困難的問題時,AI模型的思維過程呈現(xiàn)出一種"混亂"狀態(tài)。研究人員發(fā)現(xiàn),在這些情況下,模型生成的所有中間解決方案幾乎都是錯誤的,而且錯誤之間沒有明顯的學習或改進模式。
這就像觀察一個完全迷失在復(fù)雜迷宮中的人,他們不停地轉(zhuǎn)來轉(zhuǎn)去,但每一次轉(zhuǎn)向都沒有讓他們更接近出口。更令人擔憂的是,模型在這種情況下不僅無法找到正確答案,還會逐漸減少思考時間,就像逐漸放棄努力一樣。
**思維效率的悖論**
通過分析不同復(fù)雜程度問題上的思維模式,研究團隊發(fā)現(xiàn)了一個令人困惑的效率悖論。在最需要深度思考的困難問題上,AI模型反而表現(xiàn)出了最低的思維效率。它們不僅無法找到正確答案,還會浪費大量計算資源在無意義的錯誤探索上。
相比之下,在中等復(fù)雜度的問題上,雖然AI模型也會犯很多錯誤,但這些錯誤往往是有意義的——它們構(gòu)成了通向正確答案的學習過程。而在困難問題上,錯誤就只是錯誤,沒有任何建設(shè)性價值。
**"自我糾錯"能力的局限性**
研究還揭示了這些AI模型在"自我糾錯"方面的嚴重局限。雖然它們被設(shè)計為具備自我反思和修正能力,但在實際操作中,這種能力只在特定的復(fù)雜度范圍內(nèi)有效。
在簡單問題上,模型的"糾錯"機制反而成了干擾因素,讓原本正確的答案變成了錯誤。在困難問題上,這種機制則完全失效,無法對顯而易見的錯誤進行修正。只有在中等復(fù)雜度范圍內(nèi),自我糾錯才真正發(fā)揮了積極作用。
這種發(fā)現(xiàn)對AI系統(tǒng)的設(shè)計具有重要啟示。它表明,簡單地增加"思考時間"或"反思能力"并不總是有益的,關(guān)鍵是要讓AI系統(tǒng)學會根據(jù)問題的性質(zhì)調(diào)整其思維策略。一個真正智能的系統(tǒng)應(yīng)該知道什么時候該快速行動,什么時候該深度思考,什么時候該適可而止。
四、最令人震驚的發(fā)現(xiàn):即使給出完整攻略,AI依然會迷路
蘋果研究團隊進行了一個極其巧妙的對照實驗,這個實驗的結(jié)果徹底顛覆了人們對AI推理能力的認知。他們決定測試一個簡單的假設(shè):如果AI模型在復(fù)雜問題上表現(xiàn)不佳是因為不知道解題方法,那么直接告訴它們完整的解題算法應(yīng)該能顯著改善表現(xiàn)。
想象這樣一個場景:一個學生在數(shù)學考試中遇到困難,老師決定給他提供完整的解題公式和詳細的步驟說明。按常理,這個學生應(yīng)該能夠按部就班地得出正確答案。但研究團隊發(fā)現(xiàn),即使給AI模型提供了完整的解題算法,它們的表現(xiàn)依然沒有明顯改善,崩潰點仍然出現(xiàn)在相同的復(fù)雜度水平上。
**算法執(zhí)行vs算法設(shè)計的天壤之別**
這個發(fā)現(xiàn)暴露了一個深層問題:設(shè)計解決方案和執(zhí)行解決方案是兩種完全不同的能力。在人類的認知中,雖然發(fā)明一個新算法很困難,但按照給定的算法步驟執(zhí)行通常要容易得多。這就像烹飪:創(chuàng)造一道全新菜譜需要天賦和經(jīng)驗,但按照詳細菜譜做菜應(yīng)該是大多數(shù)人都能掌握的。
然而,這些AI模型似乎在"按菜譜做菜"這個看似簡單的任務(wù)上也會失敗。研究人員為漢諾塔問題提供了完整的遞歸算法,包括詳細的偽代碼和執(zhí)行步驟。這個算法就像一份極其詳細的組裝說明書,告訴模型在每一步應(yīng)該做什么、如何判斷當前狀態(tài)、如何決定下一步行動。
但令人震驚的是,即使有了這份"完美攻略",AI模型在面對復(fù)雜問題時依然會在相同的難度水平上崩潰。這就像給一個人提供了完美的GPS導航,但他仍然會在同樣的地方迷路一樣不可思議。
**邏輯一致性的根本缺陷**
這個實驗揭示了一個更深層的問題:這些AI模型在維持邏輯一致性方面存在根本性缺陷。算法執(zhí)行要求嚴格的步驟遵循和狀態(tài)跟蹤,每一步都必須建立在前一步的正確結(jié)果之上。這需要一種類似"工作記憶"的能力,能夠準確記住當前狀態(tài)并根據(jù)規(guī)則進行下一步操作。
研究人員發(fā)現(xiàn),AI模型經(jīng)常在執(zhí)行算法的過程中"迷失方向"。它們可能正確理解了算法的前幾步,但隨著步驟的增加,逐漸偏離了正確軌道。這就像一個人在按照復(fù)雜食譜做菜時,開始時嚴格按照步驟,但做著做著就開始"自由發(fā)揮",最終做出了完全不同的東西。
**符號操作能力的局限性**
更深入的分析顯示,這些AI模型在符號操作和抽象推理方面存在根本性局限。雖然它們在處理自然語言方面表現(xiàn)出色,能夠理解和生成流暢的文本,但在需要精確邏輯操作的任務(wù)上卻力不從心。
這種現(xiàn)象類似于某些人在語言交流方面很有天賦,能夠生動地描述復(fù)雜概念,但在數(shù)學計算或邏輯推理方面卻表現(xiàn)平平。AI模型似乎擅長"談?wù)?問題解決過程,但在實際"執(zhí)行"精確的邏輯步驟時會出現(xiàn)偏差。
**不同問題類型的奇異差異**
研究團隊還發(fā)現(xiàn)了一個令人困惑的現(xiàn)象:同一個AI模型在不同類型問題上的表現(xiàn)存在巨大差異,這種差異無法用問題的客觀復(fù)雜度來解釋。
例如,Claude模型在處理漢諾塔問題時能夠正確執(zhí)行100多個步驟,但在處理過河問題時卻在第4步就開始出錯。這種差異很可能反映了訓練數(shù)據(jù)的偏向性——某些類型的問題在AI的訓練過程中出現(xiàn)得更頻繁,因此模型對這些問題有更好的"記憶"。
這就像一個學生在某些科目上表現(xiàn)優(yōu)異,但在其他同等難度的科目上卻表現(xiàn)平平,不是因為能力問題,而是因為學習經(jīng)歷的差異。這種現(xiàn)象表明,這些AI模型的能力可能更多地依賴于訓練時的經(jīng)驗積累,而非真正的通用推理能力。
**對AI能力認知的重新審視**
這些發(fā)現(xiàn)迫使我們重新審視對AI推理能力的理解。如果一個系統(tǒng)無法可靠地執(zhí)行給定的算法,那么我們很難說它具備了真正的"推理"能力。這更像是一種高級的模式匹配和文本生成能力,而非基于邏輯的問題解決能力。
這個發(fā)現(xiàn)對AI的實際應(yīng)用具有重要意義。在需要精確邏輯操作的場景中,比如數(shù)學計算、程序設(shè)計或工程分析,我們不能完全依賴這些AI模型,即使為它們提供了詳細的操作指南。這提醒我們,AI技術(shù)雖然在很多方面都很強大,但在某些需要嚴格邏輯性的任務(wù)上,仍然存在不可忽視的局限性。
好文章,需要你的鼓勵
騰訊ARC實驗室推出AudioStory系統(tǒng),首次實現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯式推理生成、解耦橋接機制和漸進式訓練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時學習外觀和運動信息,顯著解決了當前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個線性層就能大幅提升運動質(zhì)量,在多項測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實驗室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓練數(shù)據(jù)集和MM-AlignBench評測基準,通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時顯著提升人性化交互水平,為AI價值觀對齊提供了可行技術(shù)路徑。
谷歌DeepMind團隊開發(fā)的GraphCast是一個革命性的AI天氣預(yù)測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報,準確性超越傳統(tǒng)方法90%的指標。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學習40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學領(lǐng)域帶來了效率和精度的雙重突破。