一場象棋對弈正在進行。一邊,加里·卡斯帕羅夫(Garry Kasparov)喉頭一緊,就如同面對著一盤被人吐過口水的早餐,卒下到f5。另一邊,深藍(Blue)則保持著沉默,而它正是那個“吐口水”的家伙,車下到e7:看住卡斯帕羅夫的后。這已經(jīng)是雙方對弈的第六盤,但早在第二盤輸給深藍時,卡斯帕羅夫的意志就已經(jīng)被擊潰。在此之后,雙方陷入了兇猛的鏊戰(zhàn)??ㄋ古亮_夫下了最后一手棋——主教下至e7,干掉瞄準后的車。深藍作出回應(yīng),卒下至c4??ㄋ古亮_夫很快意識到自己的后已經(jīng)落入深藍的圈套,而這盤棋也已經(jīng)失去了獲勝的希望。
卡斯帕羅夫在20步之內(nèi)就選擇投降。1997年5月11日,IBM公司研發(fā)的深藍(Blue)成為第一套擊敗人類國際象棋世界冠軍的AI方案。
恍如隔世,如今你已經(jīng)能夠在筆記本電腦上下載到比深藍更強大的國際象棋AI。
從ESPN拍攝的紀錄片《人與機器》當中,我們可以看到加里·卡斯帕羅夫坐了坐肩,無奈地離開棋桌。
AI的故事
幾十年以來,我們一直在講述關(guān)于AI的故事:人與機器間的關(guān)系、創(chuàng)造者與其造物間的關(guān)系,以及人類大腦與計算機芯片間的關(guān)系。無論我們對于人工智能抱持著強烈的憂慮(例如擔(dān)心其偷走我們的工作,自動駕駛汽車造成致命錯誤,以及產(chǎn)生自我意識的無人機到處殺人),還是采取更為各級的謹慎態(tài)度(例如擔(dān)心其會接管整個世界并把人類變成寵物),這一切都擁有著同樣的恐懼根源:人們擔(dān)心人工智能不會認同我們自己的目標與價值觀。更可怕的是,我們一直在告訴自己,我們與人工智能之間的關(guān)系就如一盤對弈:零和游戲——一方獲勝,一方落敗。
卡斯帕羅夫曾經(jīng)再度要求復(fù)賽。他指責(zé)IBM公司的員工則暗中幫助深藍,而他在1997年輸?shù)舻倪@場比賽,實際上已經(jīng)是1996年對弈落敗后的一場復(fù)賽。
IBM公司對此表示拒絕。他們關(guān)閉了深藍,而后打包行李回到家中。(安息吧,深藍,1989年至1997年)。
然而,卡斯帕羅夫由此獲得了啟發(fā):人類是否能夠與人工智能攜手共進?就在接下來的一年,即1998年,卡斯帕羅夫舉辦了全球第一屆“半人馬象棋賽(Centaur Chess)”。這里的半人馬借用了西方神話中的比喻,只不過其含義由半人半馬變成了半人半AI。
然而,如果人類自身無法在國際象棋領(lǐng)域擊敗人工智能,那么人類+AI的組合是否在水平上低于純AI?計算機會不會反被人類所拖累,就如兩人三足比賽當中一方太弱而導(dǎo)致成績不佳一樣?2005年,受卡斯帕羅夫半人馬象棋賽啟發(fā)而組織的在線國際象棋錦標賽試圖回答這個問題。他們邀請各類參賽者——包括超級計算機、人類象棋大師、人類+AI混合 團隊——共同爭奪大獎。
不出所料,人類+AI的組合擊敗了人類選手。但更令人驚奇的是,人類+AI這一“半人馬”組合同時也擊敗了純計算機選手。
這是因為不同于那種毫無科學(xué)依據(jù)可言的互聯(lián)網(wǎng)智商測試,現(xiàn)實世界中的情報往往以多維形式存在。(這就是所謂‘g因素(g factor)’,也稱‘一般智力因素(general intelligence)’,其在不同認知任務(wù)中對個體實際表現(xiàn)的影響僅占30%到50%。其雖然是一種重要的維度,但卻絕非唯一維度。)舉例來說,人類大師們更擅長深遠的國際象棋布局策略,但卻無法提供充足的算力以思考數(shù)百萬種可能的落子方式——與之相反,人工智能則長于可能性推衍與計算,但對大局觀卻不甚了然。由于人類與人工智能在各自的層面上皆極為強大,因此當二者結(jié)合為“半人馬”時,其足以擊敗純?nèi)祟惻c純計算機選手。
不過人工智能是否會憑借著穩(wěn)健的發(fā)展,最終在我們?nèi)祟愃瞄L的智力維度上做得更好?答案也許是肯定的,但機器學(xué)習(xí)領(lǐng)域有著一條所謂“沒有免費的午餐”定理。這條定理認為,沒有任何用于解決問題的算法(或者說‘智能’)能夠解決所有可能問題中的全部潛在可能性:相反,智能必須采取專門化形式才能獲得更強大的解決能力。也就是,松鼠智能專注于模擬松鼠,人工智能專注于模擬人類。如果您希望搞清楚如何把松鼠從籠子里逗出來,首先需要了解一點——即使是松鼠,在某個方面也會比人類更聰明。而這也代表著一種充滿希望的信號,即人類將在未來繼續(xù)立足特定維度領(lǐng)先于計算機。
現(xiàn)在,除了人類與人工智能以協(xié)作方式解決技術(shù)問題之外(即如何利用人工智能+人類的優(yōu)勢克服人類+人工智能的劣勢),我們還需要解決另一個道德問題:我們該如何確保人工智能共享我們?nèi)祟惖哪繕伺c價值觀?
答案非常簡單:如果不能擊敗對方,就嘗試加入對方!
在接下來的文章當中,我們將講述AI的一位被遺忘的“表親”——IA,即智能增強。長久以來,人們思考的一直是人類大腦如何對抗人工硅腦的問題。但在IA層面,我們需要探討的則是如何讓人類大腦與人工硅腦共同合作。事實證明,現(xiàn)實世界中的大部分實際問題都站在國際象棋比賽的對立面上:
非零和游戲——雙方皆能獲勝。
在接下來的各章節(jié)中,我們將討論IA的過去、現(xiàn)在與未來——我們?nèi)祟惾绾螛?gòu)建起各類工具以擴大自身智能優(yōu)勢,同時克服自身智能弱點。另外,我們還將介紹人類在藝術(shù)與工程技術(shù)等各個領(lǐng)域如何與人工智能開展合作。最后,本文將就如何設(shè)計人類與人工智能間的良好合作關(guān)系——即如何成就“半人馬”——提供一些粗略的看法。
通過攜手合作,人類與人工智能將由“死對頭”變成“好伙伴”。
IA的故事
道格·恩格爾巴特(Doug Engelbart)將一支筆粘在一塊磚上,并用其進行書寫??磥硭芮宄撊绾?ldquo;有效”分配冷戰(zhàn)期間的軍事研究經(jīng)費。
1962年,也就是卡斯帕羅夫組織半人馬象棋賽的數(shù)十年之前,當時互聯(lián)網(wǎng)還沒有被發(fā)明,甚至第一臺超級計算機也還沒有出現(xiàn)。當時,道格·恩格爾巴特正在研究我們的工具會如何塑造人類的思維方式。當時,道格的大多數(shù)同行們只是將計算機視為一種加快計算速度的方法。然而,他卻看得更深更遠——他意識到,計算機將成為一種增強人類思維能力的方式。
人類通過自身造物增強自己能力的作法早已不是什么新鮮事。我們沒有鋒利的爪子或牙齒,因此我們的祖先使用矛與箭來增強自己的攻擊能力。我們?nèi)鄙購姶蟮挠洃浤芰?,因此我們的祖先使用算盤及紙筆增強自己的認知能力。這些工具不僅使人類的生活變得更為輕松,同時也徹底改變了人類的生活方式。 這一點在書寫方面體現(xiàn)得尤為明顯:其不僅僅是一種記錄信息的方式,更成為數(shù)學(xué)、科學(xué)、歷史、文學(xué)藝術(shù)以及其它現(xiàn)代文明支柱的根基。
正因為如此,道格才把鉛筆綁在一塊磚頭上,借以證明一種觀點。在我們?yōu)樵鰪娙祟愔橇λ鶆?chuàng)造的所有工具當中,書寫可能是最重要的一種。然而,當他對鉛筆進行“放大”時,即將其綁在磚塊上,書寫單詞將變得極為困難。而如果低層次的書寫就如此艱難,那么更高層次的書寫衍生成果更將成為無根之木——包括組織思維、探索新的想法與表達,并將其全部拆分成最基本的組成形式。而這正是道格的結(jié)論所在:一種工具并不會“單純”讓事情變得更簡單——它的實際起效方式實際上涉及新的思維方式、生活方式乃至存在方式。
道格·恩格爾巴特投入了多年時間追逐這一理論,并于1968年12月9日向全世界展示了一套新型計算機系統(tǒng)——其能夠?qū)⒅橇Ψ糯笏季S引入日常生活。而這一事件正是廣為人知的“展示之母(The Mother of All Demos)”,其讓整個世界第一次看到計算機鼠標、超文本、視頻會議以及實時協(xié)同工作等等。沒錯,這一切發(fā)生在1968年,比第一臺蘋果Macintosh機的誕生早了16年,比Skype的出現(xiàn)早了35年,更比Google Docs早了44年。
在接下來的幾十年當中,“展示之母”中囊括的種種奇跡開始慢慢進入尋常百姓家。個人計算機將計算能力帶給了普通民眾,這打破了以往政府及大型企業(yè)對計算資源的獨占。瑞士一家粒子物理實驗室在此基礎(chǔ)之上搞出了一種叫“萬維網(wǎng)”的小玩意,其能夠讓人們通過所謂“網(wǎng)頁”分享知識,甚至允許用戶利用所謂“超鏈接”將不同知識片段關(guān)聯(lián)起來。
史蒂夫-喬布斯曾將計算機稱為專供人腦使用的“自行車”。請注意這里的“自行車”比喻——他并沒有用汽車來指代。這是因為自行車可以讓人類的身體移動得更快; 但與汽車不同的是,自行車仍然由人力進行驅(qū)動(當然,對大家的健康也更有好處)。機械帶來效率提升,但其核心仍然在于人。這就是一種人機合作方式——或者說,一種“半人馬”產(chǎn)物。
看起來,這場智能增強浪潮推進得相當順利。
但如今,情況發(fā)生了變化。
時至今日,很少有人聽說過IA——特別是相較于其廣受關(guān)注的表親AI。其中的關(guān)鍵絕不僅僅在于語言學(xué)范疇。道格-恩格爾巴特希望讓計算機成為智力與藝術(shù)創(chuàng)造力的載體; 但如今,我們的計算設(shè)備在設(shè)計上已經(jīng)很少關(guān)注創(chuàng)作,而更多關(guān)注消費。我們忘記了人工智能并不會認同我們的價值觀——甚至非AI技術(shù)也不再支持我們的價值觀,甚至在某些情況下正顛覆這些重要的認知觀念。
我們原本希望為自己的大腦提供一輛自行車,但如今我們的大腦卻成了躺在車里的懶人。
不過幸運的是,IA的故事并沒有就此結(jié)束。近年來,IA得到的關(guān)注正日益升溫。不過頗為諷刺的是,這主要是由于人們擔(dān)心人類將“落后于人工智能”——埃隆-馬斯克創(chuàng)立Neuralink的原因也正在于此。這家公司正在研究如何制造植入物,從而將大腦與計算機直接對接起來。然而,正如道格-恩格爾巴特與加里-卡斯帕羅夫所反復(fù)強調(diào)的,人類并不需要利用直接性腦機接口來增強自己的智力水平。進化已經(jīng)為我們提供了這樣的接口——眼睛、耳朵、手和身體,而且其效果相當不錯。作為人類,我們完全可以跨上自行車——而非將機械植入身體。
但正如IA所表明,智能增強的組合并一定非得是人類加機器,也不一定IA加AI。在過去一個世紀當中,AI與IA的故事一直彼此獨立——而在接下來的十年當中,二者很可能相互糾纏并彼此抵押貸款以。
“半人馬”的誕生之路
再次回到加里-卡斯帕羅夫的故事。還記得2005年面向超級計算機、人類大師以及人類+人工智能“半人馬”的國際象棋比賽嗎?在前文中,我忘了說明最終是誰贏得了大獎。
起初,卡斯帕羅夫認為最終獲勝者實至名歸——畢竟雖然要求使用的是一臺普通筆記本電腦,但人類大師在與之配合的情況下當然有實力擊敗世界級超級計算機。但在比賽結(jié)束后,卡斯帕羅夫仍然對結(jié)果感到錯愕——根本沒有什么人類大師,最終的冠軍是兩位根本不懂下棋的門外漢加三臺普通計算機。這三臺計算機運行著三款不同的象棋游戲AI,而在這些AI對下一步的意見出現(xiàn)分歧時,則由人類“教授”計算機進一步對決策進行研究。
正如卡斯帕羅夫所提到,“Weak human + machine + better process was superior to a strong computer alone and, more remarkably, superior to a strong human + machine + inferior process.(低水平人類+低水平機器+更佳處理方式,在水平上要高于單純只是性能強大的計算機; 更重要的是,前者同樣壓倒了高水平人類+高水平機器+低水平處理方式的組合。)”
古希臘神話中的半人馬是一位女神生下的偉大造物; 而Netflix公司原創(chuàng)劇集《馬男波杰克(Bojack Horseman)》中的半人馬則是個沮喪的酒鬼,常常傷害周遭的每一個人。盡管二者都屬于半人半馬的生物,但前者仍然比后者更為成功。這也給我們帶來了關(guān)于人機協(xié)作中的重要一課:當著手創(chuàng)建人類+人工智能組合時,其中最困難的部分不是“人工智能”,也不是“人類”,而是“+”。
那么,我們該如何為人類及人工智能找到最佳的對接方法?我們該如何將人類與人工智能的各自優(yōu)勢結(jié)合起來,從而克服雙方固有的弱點?要完成這項目標,我們首先需要確切了解人類與人工智能各自的長處與短板。
無論是好是壞,人類的本能在數(shù)千年間一直沒有發(fā)生太大的變化。如果大家希望了解人類所擁有的獨特而普遍的優(yōu)勢,那么不要著眼于知名人士——孩子才是最好的選擇。即使年紀尚幼,兒童們也已經(jīng)熟練掌握了直覺、類比、創(chuàng)造力、移情以及各種社交技巧。有些人可能質(zhì)疑稱這些只是所謂“軟技能”,但事實上我們能夠開發(fā)出一套擊敗世界冠軍的象棋AI,卻無法讓其以人類方式進行五分鐘的完整對話。這證明雖然這些技能似乎確實偏“軟”,但其卻是對過去35億年不斷進化的一種總結(jié)與濃縮。
而在人類的弱項方面,對學(xué)校進行一番調(diào)查就能得出結(jié)論。人類智能往往需要多年的培訓(xùn)才能獲得各類最為基本的能力:算術(shù)、計算、記憶、邏輯以及數(shù)字運用等等。需要強調(diào)的是,即使是計算能力最弱的手機,也能在這些方面輕松碾壓最睿智的人類大腦。(這更讓我們好奇,人類的學(xué)習(xí)能力如此低下,為什么孩子們居然還幼稚地認為上學(xué)毫無用處……)
說完了人類的長處與短板,下面來看看人工智能的優(yōu)勢與缺點。老實說,預(yù)測人工智能在未來能夠或無法執(zhí)行哪些具體任務(wù)的作法其實非常愚蠢。三十年前,沒人能預(yù)測到我們會開發(fā)出自動駕駛汽車。(現(xiàn)在我們開始暢想未來可能出現(xiàn)的飛行汽車。)由于無法作出更為具體的預(yù)測,因此我們只能根據(jù)目前的實際情況,大致思考人工智能所具備的相對優(yōu)勢與劣勢。
很明顯,計算機更擅長計算。其能夠處理數(shù)以萬億計的數(shù)據(jù),掃描海量數(shù)據(jù)點,并考量數(shù)百萬種可能性。數(shù)字處理可能也正是人工智能的優(yōu)勢所在——但數(shù)字同時也是其最大的弱點。具體來講,考慮到“成本函數(shù)”,即明確存在質(zhì)量更佳或更差的答案,那么我們最終只能訓(xùn)練出一種人工智能方案。也正因為如此,人工智能才會在國際象棋與圍棋比賽當中順利擊敗人類大師——在這類對抗當中,勝負體現(xiàn)得非常明確。但在對話、創(chuàng)造發(fā)明、制作藝術(shù)品、進行商業(yè)談判、作出科學(xué)假設(shè)等方面,人工智能的表現(xiàn)則令人尷尬——因為其無法簡單由差到好對答案進行排序。在這類任務(wù)當中,人類才是最合適的解決選項:因為我們會提出“為什么”、“如何”或者“如果……會怎樣”等延伸性問題。
換句話來說,人工智能更擅長選擇答案,而人類更擅長選擇問題。
2005年在線象棋大賽中勝出的人類+人工智能團隊正是基于這樣的思路選擇了“+”的實現(xiàn)方法。兩位業(yè)余人士向三臺普通計算機提出問題,而在計算機給出不同的答案時,人類進一步調(diào)整問題的深度引導(dǎo)其重新思考。事實上,棋盤并不是人類+人工智能惟一大獲全勝的領(lǐng)域。從藝術(shù)到工程技術(shù),近年來“半人馬”已經(jīng)在眾多層面廣泛興起:
2002年,Sung-Bae Cho創(chuàng)造一款工具,允許用戶與人工智能一同創(chuàng)造出時尚設(shè)計。這款工具能夠模擬整個設(shè)計進化過程——但僅限禮服設(shè)計。該AI通過隨機生成各種禮服設(shè)計以實現(xiàn)“遺傳變異”,用戶則憑借自己的審美取向挑選將在下一次迭代中得以“保留”的禮服樣式——也就是充當“自然選擇”機制。
2016年,莫里斯-康提(Maurice Conti)展示了另一個進化AI與人類合作的實例。其能夠創(chuàng)建出一款四軸飛行器方案——人類負責(zé)為人工智能設(shè)定目標與限制(例如盡可能減輕機體重量、保持堅固性、設(shè)置四臺推進器等),而人工智能則開發(fā)出一臺四軸飛行器機體作為答案。接下來,人類能夠設(shè)定更多目標或限制條件對人工智能的設(shè)計成果作出修改。
2016年,Zhu等人創(chuàng)作出一款繪畫工具:用戶可以粗略為其勾勒出輪廓,而人工智能則以照片級精度填充其中的空白。這是人類與人工智能通過圖片進行的首次藝術(shù)性“對話”。舉例來說,用戶可以在底部繪制一些綠線,人工智能則回復(fù)幾份照片級精度的草地紋理供用戶選擇。接下來,用戶在畫面上方繪制黑色的三角形,人工智能則將其進一步具象為草地后的高山。在人與機器這樣的一來一往之間,藝術(shù)品逐漸成型。
在以上各半人馬實例當中,人類皆以設(shè)定目標及約束條件的方式選擇問題,而人工智能則負責(zé)生成答案,且通常會顯示出多種可能性以實時回應(yīng)人類提出的問題。然而,這絕不只是一種單向?qū)υ挘喝祟惪梢蕴岢龈鼮樯钊氲膯栴}、挑選及合并答案,同時利用人類直覺以指導(dǎo)人工智能對現(xiàn)有答案作出針對性調(diào)整。
因此,如果您希望利用人工智能增強人類智能,首先應(yīng)該想到《星際迷航》當中柯克船長與斯波克大副這對組合——直覺與邏輯的結(jié)合,將超越任何一方作出的獨立判斷。
由于人類+人工智能系統(tǒng)的設(shè)計正是這樣一種新興領(lǐng)域——事實上,將其稱為“領(lǐng)域”甚至有點為時過早,叫作“處女地”可能更加準確——其中自然存在著大量有待解決的問題。例如:1)人類應(yīng)負責(zé)提出哪些類型的問題?在前文提到的各項案例當中,這些問題通常表現(xiàn)為“哪些潛在解決方案能夠切實契合特定目標與約束條件”?2)人類與人工智能該如何交流?我們甚至不必使用文字甚至代碼; 在繪畫案例當中,人類與人工智能僅憑圖像就可完成溝通!3)多位人員或多套人工智能之間該如何協(xié)同工作?之前提到的所有案例皆是單人對單AI的組合,但2005年半人馬象棋錦標賽的獲勝者則為兩個人加三套人工智能——我們該如何將其擴展至數(shù)十、數(shù)千甚至數(shù)百萬人與/或機器?
人工智能會選擇答案,而人類負責(zé)選擇問題??紤]到未來幾十年可能出現(xiàn)的技術(shù)發(fā)展成果與陷阱,我們?nèi)祟愖匀幻媾R著新的挑戰(zhàn):
接下來該采取怎樣的行動?
我們的故事
過去幾十年來,人工智能的故事一直受到廣泛關(guān)注——它到底會成為新的英雄,還是顛覆世界的惡棍?早在1997年,人工智能就在國際象棋領(lǐng)域擊敗了加里-卡斯帕羅夫。而在2011年和2016年,人工智能又在競猜節(jié)目《Jeopardy》與圍棋領(lǐng)域擊敗了頂尖答題高手。如今,很多人擔(dān)心人工智能會最終接管我們的工作崗位,甚至取代人類。與此同時,IA的故事則可悲地被人們所忽略。從道格-恩格爾巴特的“展示之母”開始,技術(shù)方案逐漸由創(chuàng)造性工具轉(zhuǎn)化為消費性工具,而IA的想法也遭到遺忘。為了讓大腦偷懶,人們卸掉了自行車的輪子。
但現(xiàn)在,這兩條故事線終于開始匯合,并構(gòu)建起新的歷史: AIA — Artificial Intelligence Augmentation(AIA——人工智能增強)。IA能夠為AI提供必要的人際合作能力,從而維持我們最深層的目標與價值觀。作為回報,AI則可為IA提供一些新的“輪子”,從而為大腦重構(gòu)起“自行車”。
我真的很希望能為大家預(yù)測未來,但這樣的預(yù)測顯然只是在自欺欺人——畢竟盲目樂觀將與現(xiàn)實脫節(jié),而盲目悲觀則會帶來不必要的絕望情緒。
另外,人工智能負責(zé)回答問題,而人類負責(zé)提出問題——重要的事情再說一遍。
舉例來說,IA也許能夠確保AI的目標與人類目標相匹配,但我們要如何對增強的人類目標與非增強的人類目標進行匹配?如果解決不了這個問題,我們是否只是在用人類與人類2.0這種新的形式重新提出人類與人工智能間的差異問題?先不論人類與人工智能能否和諧相處,我們到底該如何讓人類與人類間順利協(xié)作?我們了解了如何創(chuàng)建工具來增強自己的智能,但是否能夠創(chuàng)建工具來增強自己的同情心?我們的社區(qū)會受到怎樣的影響?我們這樣做的意義與目的是什么?
我不知道——我承認,對這一切我實在理不清頭緒。
然而,人類長久以來一直在從自然界當中借鑒經(jīng)驗與教訓(xùn)。單是在機器學(xué)習(xí)領(lǐng)域,人工神經(jīng)網(wǎng)絡(luò)就明顯受到生物神經(jīng)網(wǎng)絡(luò)的啟發(fā),遺傳算法也受到生物進化過程的啟發(fā)。因此,如果要在自然界當中找到能夠解決本文所提出問題的辦法,那很可能會是一種不太受人待見的方式——共生(symbiosis)。
所謂共生,源自古希臘詞匯,意為“共同生存”?;ǘ錇槊鄯涮峁┵囈陨娴酿B(yǎng)分,而蜜蜂反過來為植物授粉。當我們吃下健康食物時,腸道當中數(shù)以萬億計的微生物將得到滋養(yǎng); 而它們反過來又幫助我們更好地消化食物。15億年前,當細胞開始吞噬細菌——而非將其消化掉——時,細菌轉(zhuǎn)而成為細胞當中的一部分——也就是我們?nèi)缃袼熘?ldquo;線粒體”,負責(zé)為其宿主提供能量。
共生向我們再次證明,即使擁有著不同的技能、不同的目標甚至是身為不同的物種,仍然能夠?qū)崿F(xiàn)富有成效的合作。共生也向我們表明,這個世界的主流并不是零和游戲——人類不需要對抗人工智能、人類不需要對抗半人馬,人類也不需要對抗其他人類。共生能夠讓雙方共同成功,且這種成功并非源自相同,而是不同——共生,就是“+”的答案。
人類生活的新篇章已經(jīng)拉開序幕,而我們將以“共生”的形式書寫這段將被載入史冊的未來。
來源:JoDS
作者:Nicky Case
編譯:科技行者
好文章,需要你的鼓勵
騰訊ARC實驗室推出AudioStory系統(tǒng),首次實現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯式推理生成、解耦橋接機制和漸進式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時學(xué)習(xí)外觀和運動信息,顯著解決了當前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個線性層就能大幅提升運動質(zhì)量,在多項測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實驗室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評測基準,通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時顯著提升人性化交互水平,為AI價值觀對齊提供了可行技術(shù)路徑。
谷歌DeepMind團隊開發(fā)的GraphCast是一個革命性的AI天氣預(yù)測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報,準確性超越傳統(tǒng)方法90%的指標。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。