這項由上海AI實驗室的王藝凡、周建軍、朱浩逸等研究人員領(lǐng)導(dǎo)的研究發(fā)表于2025年7月的arXiv預(yù)印本庫,論文編號arXiv:2507.13347v1。有興趣深入了解的讀者可以通過該編號在arXiv網(wǎng)站上訪問完整論文。
要理解這項研究的意義,我們先從一個生活中的例子說起。當(dāng)你用手機拍攝一座建筑物時,無論你從正面、側(cè)面還是背面開始拍,最終都應(yīng)該能重建出同樣準(zhǔn)確的3D模型。但現(xiàn)實中,傳統(tǒng)的3D重建技術(shù)卻像是一個"偏心眼"的攝影師,它總是特別偏愛第一張照片的視角,把這個視角當(dāng)作絕對的標(biāo)準(zhǔn)。如果你不幸選擇了一個糟糕的起始角度,整個重建過程就會變得一團糟。
這就好比你在畫一幅地圖時,總是要先選定一個"原點"作為參照系。如果這個原點選得不好,整張地圖都會出現(xiàn)偏差。傳統(tǒng)方法的問題在于,它們強制性地要求選擇一個"特殊"的視角作為參照系,然后所有其他視角都必須相對于這個特殊視角來定義位置。這種做法不僅容易出錯,還讓整個系統(tǒng)變得脆弱不堪。
上海AI實驗室的研究團隊意識到了這個根本性問題,他們開發(fā)了一個名為π?的全新方法。這個方法的核心思想可以用一個簡單的比喻來理解:就像GPS定位系統(tǒng)一樣,每個位置都有自己獨立的坐標(biāo),不需要依賴某個特定的"老大"位置來定義自己。π?讓每個攝像機位置都能獨立地描述自己看到的3D世界,而不需要通過一個固定的參照系來"翻譯"。
這種方法被稱為"置換等變"架構(gòu),聽起來很學(xué)術(shù),但實際上就是說:無論你以什么順序輸入照片,系統(tǒng)都會給出一致的結(jié)果。就像洗牌一樣,無論你怎么打亂撲克牌的順序,每張牌本身的點數(shù)和花色都不會改變。這種特性讓π?變得異常穩(wěn)定和可靠。
**一、傳統(tǒng)方法的"參照系陷阱"**
要深入理解π?的創(chuàng)新之處,我們需要先看看傳統(tǒng)方法的問題到底出在哪里。在傳統(tǒng)的3D重建技術(shù)中,就像建造房子必須先打地基一樣,系統(tǒng)總是需要先選定一個"參考視角"作為整個重建過程的基礎(chǔ)。這個參考視角就像是建筑工地上的第一根樁,所有后續(xù)的工作都要以它為準(zhǔn)。
這種做法在理論上聽起來很合理,但在實際應(yīng)用中卻帶來了巨大的問題。研究團隊通過大量實驗發(fā)現(xiàn),當(dāng)你改變參考視角時,同樣的場景可能會產(chǎn)生完全不同的重建結(jié)果。這就好比你用不同的起點來畫同一張地圖,最終得到的地圖質(zhì)量會天差地別。
更糟糕的是,這種方法還存在一個"連鎖反應(yīng)"問題。如果參考視角選擇不當(dāng),比如選擇了一個光線不好、角度刁鉆或者內(nèi)容不清晰的視角,整個重建過程就會受到嚴(yán)重影響。這就像多米諾骨牌效應(yīng),一張牌倒了,后面的所有牌都會跟著倒下。
研究團隊通過對比實驗清楚地展示了這個問題。他們使用相同的圖像集合,僅僅改變了參考視角的選擇,結(jié)果發(fā)現(xiàn)重建質(zhì)量的波動非常大。在某些情況下,僅僅是換了一個參考視角,重建精度就會下降超過50%。這種不穩(wěn)定性讓傳統(tǒng)方法在實際應(yīng)用中變得非常不可靠。
**二、π?的"無參照系"革命**
π?的核心創(chuàng)新在于徹底擺脫了對固定參照系的依賴。這種方法的思維轉(zhuǎn)變就像是從"絕對位置"轉(zhuǎn)向"相對關(guān)系"。在傳統(tǒng)方法中,每個攝像機位置都必須用一個全局坐標(biāo)系來描述,就像城市中的每個建筑都必須有一個絕對地址。而π?則采用了一種更加靈活的方式:每個攝像機都在自己的"小世界"里描述自己看到的景象,然后通過智能算法來協(xié)調(diào)這些不同的"小世界"。
這種方法的技術(shù)實現(xiàn)依賴于一個叫做"置換等變神經(jīng)網(wǎng)絡(luò)"的架構(gòu)。這個架構(gòu)的設(shè)計原理可以用一個簡單的例子來理解:想象你有一支由多個音樂家組成的樂隊,每個音樂家都有自己的樂器和演奏風(fēng)格。在傳統(tǒng)方法中,所有音樂家都必須嚴(yán)格按照指揮的節(jié)拍來演奏,如果指揮出了問題,整個樂隊都會亂套。而π?的方法則讓每個音樂家都能獨立發(fā)揮,然后通過和諧的協(xié)調(diào)機制讓整個樂隊產(chǎn)生美妙的音樂。
具體來說,π?為每個輸入圖像預(yù)測兩個關(guān)鍵信息:一個是"仿射不變的攝像機姿態(tài)",另一個是"尺度不變的局部點云圖"。這兩個概念聽起來很專業(yè),但實際上就是說:每個攝像機都能獨立地描述自己的位置和朝向,以及自己看到的3D景象,而不需要依賴外部的參照系。
這種設(shè)計的巧妙之處在于,它讓系統(tǒng)對輸入圖像的順序完全不敏感。無論你是從左到右、從上到下,還是完全隨機地輸入圖像,π?都能給出一致的重建結(jié)果。這就像一個真正公平的裁判,不會因為運動員出場順序的不同而產(chǎn)生偏見。
**三、技術(shù)架構(gòu)的精妙設(shè)計**
π?的技術(shù)架構(gòu)設(shè)計體現(xiàn)了研究團隊的深刻洞察。整個系統(tǒng)的核心是一個基于Transformer的神經(jīng)網(wǎng)絡(luò),這個網(wǎng)絡(luò)的設(shè)計遵循了一個重要原則:完全消除任何與順序相關(guān)的組件。
在傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)中,通常會使用"位置編碼"來告訴網(wǎng)絡(luò)每個輸入的位置信息,就像給每個座位編號一樣。但π?完全拋棄了這種做法,它不給任何輸入分配固定的位置標(biāo)記。這就好比組織一個聚會時,不預(yù)先安排座位,而是讓大家自由交流,最終形成最自然的互動模式。
網(wǎng)絡(luò)的處理過程采用了"視角內(nèi)注意力"和"全局注意力"交替進行的方式。這種設(shè)計可以用一個團隊協(xié)作的例子來理解:首先,每個團隊成員先在自己的專業(yè)領(lǐng)域內(nèi)深入思考和分析,這就是"視角內(nèi)注意力";然后,所有成員聚在一起分享各自的見解和發(fā)現(xiàn),這就是"全局注意力"。通過這種交替進行的協(xié)作模式,整個團隊能夠產(chǎn)生比單個成員更深刻、更全面的理解。
在輸出層面,π?采用了兩個并行的預(yù)測分支。第一個分支負責(zé)預(yù)測攝像機的姿態(tài)信息,包括位置和朝向。這個分支使用了一種特殊的"仿射不變"表示方法,確保預(yù)測結(jié)果不受全局坐標(biāo)系變化的影響。第二個分支負責(zé)預(yù)測每個像素對應(yīng)的3D點云信息,這些點云都是在各自攝像機的局部坐標(biāo)系中定義的。
**四、尺度不變性的巧妙處理**
π?面臨的一個重要挑戰(zhàn)是如何處理尺度不變性問題。這個問題可以用一個簡單的例子來理解:當(dāng)你看一張照片時,你無法僅從照片判斷被拍攝物體的真實大小。一個玩具車可能看起來和真實汽車一樣大,關(guān)鍵在于拍攝距離和角度。
在3D重建中,這個問題變得更加復(fù)雜。每個攝像機看到的場景都可能有不同的尺度,如何將這些不同尺度的信息統(tǒng)一起來,是一個技術(shù)難題。π?采用了一個巧妙的解決方案:它預(yù)測的所有3D點云都是在一個一致但未知的尺度下定義的。
這種方法的工作原理就像是一個智能的"縮放協(xié)調(diào)器"。系統(tǒng)首先讓每個攝像機在自己的"小世界"里自由地描述所看到的3D結(jié)構(gòu),然后通過一個全局優(yōu)化過程來找到一個最佳的統(tǒng)一尺度因子。這個尺度因子就像是一個"翻譯器",能夠?qū)⑺胁煌?小世界"轉(zhuǎn)換到同一個尺度下。
具體的實現(xiàn)過程使用了一種叫做"深度加權(quán)L1距離"的優(yōu)化目標(biāo)。這個目標(biāo)函數(shù)的設(shè)計考慮了不同深度處的重建誤差具有不同的重要性。簡單來說,就是近處的重建誤差比遠處的誤差更重要,因為近處的細節(jié)通常更容易觀察和驗證。
**五、相機姿態(tài)的仿射不變預(yù)測**
π?的另一個重要創(chuàng)新是采用了"仿射不變"的相機姿態(tài)預(yù)測方法。這種方法的核心思想是:與其預(yù)測絕對的相機位置,不如預(yù)測相機之間的相對關(guān)系。這就像是在描述一群人的關(guān)系時,與其說"張三站在坐標(biāo)(100,200)處",不如說"張三站在李四的左邊2米處"。
這種相對關(guān)系的描述方式有兩個顯著優(yōu)勢。首先,它更加穩(wěn)定和可靠。相對關(guān)系不會因為整體坐標(biāo)系的變化而改變,就像"張三在李四左邊"這個關(guān)系不會因為整個房間的位置變化而改變。其次,它更符合人類的直覺理解。我們在描述空間關(guān)系時,往往也是通過相對位置來表達的。
在技術(shù)實現(xiàn)上,π?預(yù)測每一對相機之間的相對旋轉(zhuǎn)和平移。相對旋轉(zhuǎn)的預(yù)測相對簡單,因為旋轉(zhuǎn)本身就是一個相對概念。但相對平移的預(yù)測更加復(fù)雜,因為它涉及到尺度問題。π?通過使用前面提到的統(tǒng)一尺度因子來解決這個問題,確保所有的相對平移都在同一個尺度下進行比較。
研究團隊還發(fā)現(xiàn),通過這種相對關(guān)系的預(yù)測方式,系統(tǒng)能夠更好地捕捉真實世界中相機運動的內(nèi)在規(guī)律。真實世界中的相機運動通常具有強烈的結(jié)構(gòu)性,比如環(huán)繞拍攝時的軌跡通常是圓形或橢圓形的,車載相機的運動軌跡通常沿著道路曲線。π?的相對預(yù)測方式能夠更好地學(xué)習(xí)和利用這些結(jié)構(gòu)性特征。
**六、訓(xùn)練策略的多樣性保證**
為了確保π?的通用性和魯棒性,研究團隊采用了一個極其龐大和多樣化的訓(xùn)練數(shù)據(jù)集。這個數(shù)據(jù)集包含了15個不同來源的子數(shù)據(jù)集,涵蓋了從室內(nèi)到室外、從合成到真實、從靜態(tài)到動態(tài)的各種場景類型。
這種多樣化的訓(xùn)練策略可以用一個廚師學(xué)習(xí)烹飪的例子來理解。一個優(yōu)秀的廚師不能只會做一種菜,而是要掌握各種不同的烹飪技巧和食材處理方法。只有在各種不同的環(huán)境和條件下進行練習(xí),才能真正掌握烹飪的精髓。同樣,π?通過在各種不同的場景和條件下進行訓(xùn)練,學(xué)會了處理各種復(fù)雜情況的能力。
訓(xùn)練過程采用了端到端的方式,使用一個綜合的損失函數(shù)來同時優(yōu)化點云重建、相機姿態(tài)預(yù)測和置信度估計。這個損失函數(shù)的設(shè)計平衡了不同任務(wù)之間的重要性,確保系統(tǒng)在所有方面都能達到良好的性能。
訓(xùn)練策略還包括了一個漸進式的分辨率提升過程。系統(tǒng)首先在較低分辨率的圖像上進行訓(xùn)練,學(xué)習(xí)基本的幾何關(guān)系和空間結(jié)構(gòu)。然后逐步提升到更高分辨率,學(xué)習(xí)更精細的細節(jié)信息。這種漸進式的訓(xùn)練方式不僅提高了訓(xùn)練效率,還幫助系統(tǒng)更好地從粗到細地理解3D場景的結(jié)構(gòu)。
**七、實驗結(jié)果的全面驗證**
研究團隊通過大量的實驗驗證了π?的優(yōu)越性能。這些實驗覆蓋了四個主要任務(wù):相機姿態(tài)估計、點云重建、視頻深度估計和單目深度估計。在每個任務(wù)上,π?都展現(xiàn)出了與現(xiàn)有最先進方法相當(dāng)或更好的性能。
在相機姿態(tài)估計任務(wù)上,π?在多個標(biāo)準(zhǔn)數(shù)據(jù)集上都取得了顯著的性能提升。特別是在Sintel數(shù)據(jù)集上,π?將絕對軌跡誤差從現(xiàn)有最好方法的0.167降低到了0.074,這是一個近60%的改善。這種改善程度就像是將一個經(jīng)常迷路的導(dǎo)航系統(tǒng)升級為一個精準(zhǔn)可靠的專業(yè)導(dǎo)航設(shè)備。
在點云重建任務(wù)上,π?在多個具有挑戰(zhàn)性的數(shù)據(jù)集上都展現(xiàn)出了優(yōu)秀的性能。無論是在物體級別的DTU數(shù)據(jù)集上,還是在場景級別的ETH3D數(shù)據(jù)集上,π?都能生成更加準(zhǔn)確和完整的3D點云。這種改善在視覺上也非常明顯,重建出的3D模型更加清晰、完整,細節(jié)保持更好。
在視頻深度估計任務(wù)上,π?不僅在精度上超越了現(xiàn)有方法,在效率上也有顯著提升。系統(tǒng)能夠以57.4 FPS的速度處理KITTI數(shù)據(jù)集,這比現(xiàn)有的一些方法快了一個數(shù)量級。這種速度提升意味著π?可以在實時應(yīng)用中發(fā)揮作用,比如自動駕駛或增強現(xiàn)實系統(tǒng)。
**八、魯棒性的突破性表現(xiàn)**
π?最令人印象深刻的特性之一是其出色的魯棒性。研究團隊通過一系列對比實驗證明了這一點。他們使用相同的圖像集合,但改變輸入圖像的順序,然后測量重建結(jié)果的變化程度。結(jié)果顯示,π?的重建結(jié)果幾乎不受輸入順序的影響,標(biāo)準(zhǔn)差接近零。
這種魯棒性的價值可以用一個實際應(yīng)用場景來理解。假設(shè)你正在用手機拍攝一個房間來創(chuàng)建3D模型,傳統(tǒng)方法可能會因為你從不同的角度開始拍攝而產(chǎn)生完全不同的結(jié)果。有時候你可能會得到一個非常準(zhǔn)確的模型,有時候可能會得到一個扭曲變形的模型。而π?則能夠確保無論你從哪個角度開始,都能得到一致的高質(zhì)量結(jié)果。
這種魯棒性不僅體現(xiàn)在輸入順序的不敏感性上,還體現(xiàn)在對不同類型場景的適應(yīng)能力上。π?能夠處理室內(nèi)場景、戶外場景、動態(tài)場景和靜態(tài)場景,甚至能夠處理卡通風(fēng)格的圖像。這種通用性使得π?成為一個真正實用的工具,而不是只能在特定條件下工作的實驗室產(chǎn)品。
**九、可擴展性的優(yōu)勢**
π?的另一個重要優(yōu)勢是其優(yōu)秀的可擴展性。研究團隊通過實驗證明,隨著模型規(guī)模的增加,π?的性能會持續(xù)提升。這種可擴展性的存在意味著,隨著計算資源的增加和技術(shù)的發(fā)展,π?可以不斷地提升其性能水平。
這種可擴展性的實現(xiàn)得益于π?的架構(gòu)設(shè)計。置換等變的設(shè)計使得模型能夠更有效地利用增加的參數(shù),而不是簡單地增加計算復(fù)雜度。這就像是一個設(shè)計良好的團隊,隨著成員數(shù)量的增加,團隊的效率會持續(xù)提升,而不是因為協(xié)調(diào)困難而效率下降。
研究團隊測試了三種不同規(guī)模的模型:小型模型(196M參數(shù))、基礎(chǔ)模型(390M參數(shù))和大型模型(892M參數(shù))。結(jié)果顯示,大型模型相比小型模型在重建精度上提升了45%,這是一個非常顯著的改善。更重要的是,這種改善并不是以犧牲速度為代價的,大型模型的推理速度仍然保持在實用的水平。
**十、訓(xùn)練效率的顯著提升**
π?在訓(xùn)練效率方面也展現(xiàn)出了令人矚目的優(yōu)勢。相比傳統(tǒng)的基于參考視角的方法,π?的訓(xùn)練收斂速度要快得多。這種快速收斂的特性可以用一個學(xué)習(xí)過程的例子來理解。
傳統(tǒng)方法就像是一個必須嚴(yán)格按照教科書順序?qū)W習(xí)的學(xué)生,如果某一章沒有理解透徹,后續(xù)的學(xué)習(xí)就會受到很大影響。而π?則像是一個能夠從多個角度同時學(xué)習(xí)的學(xué)生,每個角度的學(xué)習(xí)都能相互促進,從而更快地達到理解的狀態(tài)。
這種訓(xùn)練效率的提升不僅節(jié)省了計算資源,還使得模型的調(diào)試和優(yōu)化變得更加容易。研究人員可以更快地驗證新的想法和改進,從而加速整個研究開發(fā)過程。這種效率提升對于實際應(yīng)用的推廣具有重要意義,因為它降低了使用π?的門檻和成本。
**十一、實際應(yīng)用的廣闊前景**
π?的技術(shù)突破為多個實際應(yīng)用領(lǐng)域帶來了新的可能性。在增強現(xiàn)實(AR)領(lǐng)域,π?可以幫助用戶更快速、更準(zhǔn)確地重建周圍環(huán)境的3D模型,從而提供更好的AR體驗。用戶不再需要擔(dān)心從哪個角度開始掃描,也不用擔(dān)心某個角度的掃描質(zhì)量不好會影響整體效果。
在自動駕駛領(lǐng)域,π?可以幫助車輛更準(zhǔn)確地理解周圍的3D環(huán)境。車載攝像頭可以從多個角度捕捉道路信息,π?能夠?qū)⑦@些信息整合成一個一致的3D地圖,為自動駕駛決策提供更可靠的依據(jù)。特別是在復(fù)雜的城市環(huán)境中,這種技術(shù)的價值會更加明顯。
在文物保護和數(shù)字化歸檔領(lǐng)域,π?可以幫助博物館和考古學(xué)家更高效地創(chuàng)建文物的3D數(shù)字模型。傳統(tǒng)的3D掃描方法往往需要專業(yè)的設(shè)備和技術(shù)人員,而π?可以讓普通的數(shù)碼相機也能實現(xiàn)高質(zhì)量的3D重建,大大降低了數(shù)字化的成本和技術(shù)門檻。
在建筑和室內(nèi)設(shè)計領(lǐng)域,π?可以幫助設(shè)計師和客戶更好地可視化設(shè)計方案。通過簡單的手機拍攝,就能創(chuàng)建出準(zhǔn)確的室內(nèi)3D模型,為設(shè)計討論和方案修改提供更直觀的基礎(chǔ)。
**十二、技術(shù)局限性的誠實面對**
盡管π?取得了顯著的技術(shù)突破,但研究團隊也誠實地指出了當(dāng)前技術(shù)的一些局限性。首先,π?目前還無法很好地處理透明物體,比如玻璃、水面等。這是因為透明物體的光學(xué)特性比較復(fù)雜,需要考慮光線的折射和反射,而π?的當(dāng)前架構(gòu)還沒有專門針對這些復(fù)雜光學(xué)現(xiàn)象進行優(yōu)化。
其次,與一些基于擴散模型的最新方法相比,π?重建出的幾何細節(jié)還有進一步提升的空間。特別是在處理非常精細的紋理和表面細節(jié)時,π?的表現(xiàn)還不夠完美。這主要是因為π?采用的是前饋神經(jīng)網(wǎng)絡(luò)架構(gòu),在細節(jié)生成方面相比迭代式的生成方法還有差距。
最后,π?在生成點云時使用的上采樣機制有時會產(chǎn)生網(wǎng)格狀的偽影,特別是在重建置信度較低的區(qū)域。這種偽影雖然不會嚴(yán)重影響整體的重建質(zhì)量,但在一些對視覺效果要求很高的應(yīng)用中可能會成為問題。
研究團隊表示,這些局限性都是當(dāng)前技術(shù)發(fā)展階段的正?,F(xiàn)象,隨著技術(shù)的不斷進步和優(yōu)化,這些問題都有望得到解決。
歸根結(jié)底,π?代表了3D重建技術(shù)的一個重要里程碑。它不僅在技術(shù)上實現(xiàn)了重要突破,更重要的是,它改變了我們對3D重建問題的思考方式。通過擺脫固定參照系的束縛,π?展示了一種更加自然、更加魯棒的3D理解方式。這種方式更符合人類的直覺理解,也更適合實際應(yīng)用的需要。
雖然π?仍有一些技術(shù)局限性需要改進,但它已經(jīng)為3D重建技術(shù)的未來發(fā)展指明了方向。隨著相關(guān)技術(shù)的不斷進步,我們有理由相信,更加智能、更加可靠的3D重建系統(tǒng)將會成為現(xiàn)實,為我們的生活和工作帶來更多便利。這項研究的價值不僅在于它解決了當(dāng)前的技術(shù)問題,更在于它為未來的技術(shù)發(fā)展奠定了重要基礎(chǔ)。
對于有興趣進一步了解技術(shù)細節(jié)的讀者,可以通過arXiv:2507.13347v1這個編號在arXiv網(wǎng)站上找到完整的論文,研究團隊也承諾會公開相關(guān)的代碼和模型,以促進整個領(lǐng)域的發(fā)展。
**Q&A**
**Q1:π?是什么?它解決了什么問題?** A:π?是上海AI實驗室開發(fā)的3D重建技術(shù),它解決了傳統(tǒng)方法必須依賴固定參照系的問題。傳統(tǒng)方法像"偏心眼"攝影師,總是偏愛第一張照片的角度,如果起始角度不好,整個重建就會失敗。π?讓每個攝像機都能獨立描述所見場景,無論從哪個角度開始拍攝都能得到一致的高質(zhì)量結(jié)果。
**Q2:π?的"置換等變"特性是什么意思?** A:置換等變就是說無論你以什么順序輸入照片,π?都會給出完全一致的結(jié)果。就像洗牌一樣,無論怎么打亂撲克牌順序,每張牌的點數(shù)花色都不變。這讓π?比傳統(tǒng)方法穩(wěn)定得多,不會因為輸入順序不同而產(chǎn)生不同的重建質(zhì)量。
**Q3:π?在實際應(yīng)用中有哪些優(yōu)勢?** A:π?的主要優(yōu)勢包括:極高的穩(wěn)定性(不受拍攝順序影響)、快速的處理速度(57.4 FPS)、廣泛的適用性(室內(nèi)外、動靜態(tài)場景都能處理)、優(yōu)秀的可擴展性(模型越大效果越好)。這些特性使它非常適合AR、自動駕駛、文物數(shù)字化等實際應(yīng)用場景。
好文章,需要你的鼓勵
騰訊ARC實驗室推出AudioStory系統(tǒng),首次實現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯式推理生成、解耦橋接機制和漸進式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時學(xué)習(xí)外觀和運動信息,顯著解決了當(dāng)前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個線性層就能大幅提升運動質(zhì)量,在多項測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實驗室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評測基準(zhǔn),通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時顯著提升人性化交互水平,為AI價值觀對齊提供了可行技術(shù)路徑。
谷歌DeepMind團隊開發(fā)的GraphCast是一個革命性的AI天氣預(yù)測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報,準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。