av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關注公眾號

  • 科技行者

  • 算力行者

見證連接與計算的「力量」

首頁 南大團隊打造視頻界的"3D地圖":2.7萬小時海量視頻數(shù)據(jù)集讓AI看懂真實世界的空間關系

南大團隊打造視頻界的"3D地圖":2.7萬小時海量視頻數(shù)據(jù)集讓AI看懂真實世界的空間關系

2025-09-12 16:49
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-09-12 16:49 ? 科技行者

這項由南京大學姚耀教授團隊領導的前沿研究發(fā)表于2025年9月的arXiv預印本平臺,論文編號為arXiv:2509.09676v1。有興趣深入了解的讀者可以通過https://nju-3dv.github.io/projects/SpatialVID 訪問項目主頁獲取完整信息。

設想一下,如果你要教一個從未見過真實世界的AI系統(tǒng)理解我們生活的三維空間,你會怎么做?傳統(tǒng)的方法就像給盲人描述顏色一樣困難?,F(xiàn)有的AI模型雖然能生成精美的視頻,但它們對空間關系的理解往往是扭曲的——就像一個只看過平面照片的畫家試圖繪制立體建筑,經(jīng)常會出現(xiàn)透視錯誤和物理上不可能的場景。

南京大學的研究團隊意識到,要讓AI真正理解我們的3D世界,需要一個前所未有的"空間詞典"。他們花費了巨大的精力,從浩如煙海的網(wǎng)絡視頻中精心挑選并標注了超過21000小時的原始素材,最終打造出了一個包含2.7萬小時高質(zhì)量動態(tài)場景的龐大數(shù)據(jù)集,并將其命名為SpatialVID。

這個數(shù)據(jù)集的獨特之處在于,它不僅僅是視頻的集合,更像是一個立體的"世界百科全書"。研究團隊為每個視頻片段都配備了詳細的"身份證":攝像機在三維空間中的精確位置和角度、場景的深度信息、物體的運動狀態(tài),以及用自然語言描述的空間關系和運動模式。這就好比給每個視頻片段都配了一個專業(yè)的導游,能夠準確描述"攝像機現(xiàn)在位于客廳的東南角,正以每秒2米的速度向沙發(fā)方向移動,同時輕微向左轉(zhuǎn)動15度"。

在人工智能飛速發(fā)展的今天,空間智能已成為AI走向真正智能化的關鍵一環(huán)。無論是自動駕駛汽車需要精確判斷與其他車輛的距離,還是機器人需要在復雜環(huán)境中導航,或是虛擬現(xiàn)實系統(tǒng)需要構建逼真的3D世界,這些應用都迫切需要AI具備準確的空間理解能力。然而,現(xiàn)實情況是,當前的AI系統(tǒng)在這方面還存在嚴重的"空間失明"問題。

問題的根源在于數(shù)據(jù)的匱乏和質(zhì)量?,F(xiàn)有的大規(guī)模視頻數(shù)據(jù)集雖然數(shù)量龐大,但缺乏精確的空間標注信息,就像擁有大量的風景照片但不知道它們的拍攝地點和角度。另一方面,那些具有精確空間信息的數(shù)據(jù)集規(guī)模太小,就像只有幾張詳細標注的地圖,無法涵蓋豐富多樣的真實世界場景。這種數(shù)據(jù)稀缺性嚴重限制了空間感知AI模型的發(fā)展和應用。

SpatialVID的創(chuàng)新意義不僅在于其規(guī)模,更在于其前所未有的完整性和精確性。這個數(shù)據(jù)集涵蓋了從繁華都市到寧靜鄉(xiāng)村、從室內(nèi)空間到戶外景觀的各種場景類型,記錄了行走、駕車、飛行等多種運動模式,真實反映了人類在日常生活中的視覺體驗。更重要的是,每個視頻片段都經(jīng)過了嚴格的質(zhì)量篩選和專業(yè)標注,確??臻g信息的準確性達到了前所未有的水平。

這項研究的潛在應用前景令人興奮。在不久的將來,基于SpatialVID訓練的AI模型可能會讓自動駕駛汽車在復雜路況下更加安全可靠,讓家庭服務機器人能夠在雜亂的房間中精準導航,讓虛擬現(xiàn)實游戲呈現(xiàn)出更加逼真的物理效果。對普通用戶而言,這可能意味著手機拍攝的視頻能夠自動生成精確的3D模型,或是視頻通話中能夠?qū)崟r調(diào)整虛擬背景的透視效果,讓遠程交流變得更加自然。

一、從海量視頻中淘金:構建空間數(shù)據(jù)集的艱難歷程

創(chuàng)建SpatialVID數(shù)據(jù)集的過程可以比作一次規(guī)模龐大的"數(shù)字考古"工程。研究團隊面臨的第一個挑戰(zhàn)就是從互聯(lián)網(wǎng)的視頻海洋中找到真正有價值的"寶藏"。

傳統(tǒng)的方法是利用現(xiàn)有的大型視頻數(shù)據(jù)集,比如廣受關注的Panda70M數(shù)據(jù)集。然而,當研究團隊用自己的篩選標準對Panda70M進行檢驗時,結果令人失望:在所有視頻中,只有約10%能夠滿足空間標注的基本要求。這些視頻大多存在攝像機視角單一、運動類型有限等問題,就像一本只記錄了幾種交通工具的交通百科全書,遠遠無法涵蓋真實世界的豐富性。

面對這種困境,研究團隊決定另辟蹊徑,直接從YouTube這個全球最大的視頻平臺獲取原始素材。他們的搜索策略非常巧妙,專門尋找那些包含"行走"、"旅行"、"無人機"等關鍵詞的視頻,這些關鍵詞往往預示著豐富的攝像機運動和空間變化。

但僅僅找到視頻還遠遠不夠,每個候選視頻都需要經(jīng)過嚴格的人工篩選。這個過程就像古董鑒定師評估文物一樣細致:研究人員需要判斷視頻是否具有穩(wěn)定而有意義的攝像機運動,是否包含足夠的視覺特征點用于后續(xù)的3D重建,是否存在過多的動態(tài)物體干擾空間感知等等。那些主要由行人或車輛等動態(tài)前景占據(jù)的視頻被排除在外,因為它們會干擾準確的攝像機姿態(tài)估計。同樣,那些視角固定或僅有簡單縮放變化的視頻也不符合要求,因為它們無法提供足夠的視差信息用于3D幾何推斷。

經(jīng)過這番精心篩選,研究團隊從YouTube收集了33443個高質(zhì)量視頻,總時長超過21789小時。這些視頻涵蓋了廣泛的場景類型:從山間小徑的徒步旅行到城市街道的車載拍攝,從室內(nèi)空間的房屋導覽到海濱風光的無人機俯拍。運動類型的分布也非常豐富,其中步行場景占32.2%,室內(nèi)導覽占31.3%,駕車場景占15.3%,無人機拍攝占9.8%,其余還包括火車、船只、過山車等各種獨特的拍攝載體。

收集到原始視頻后,下一步就是將長視頻分解為適合處理的短片段。研究團隊使用PySceneDetect庫將視頻自動切分為3到15秒的短片段,但這個看似簡單的過程實際上充滿了技術挑戰(zhàn)。許多視頻包含淡入淡出等藝術化轉(zhuǎn)場效果,標準的場景切換檢測算法經(jīng)常會錯過這些微妙的變化。研究團隊對算法進行了特別優(yōu)化,改進了敏感度閾值,并將原本的相鄰幀分析改為間隔采樣的多幀比較,既提高了檢測精度又加快了處理速度。

為了確保后續(xù)處理的一致性,所有視頻片段都被統(tǒng)一轉(zhuǎn)換為H.265編碼的MP4格式,分辨率標準化為1920×1080。這個標準化過程雖然看似簡單,但對于來源復雜、格式各異的網(wǎng)絡視頻來說卻是必不可少的預處理步驟。

二、多重篩選的嚴格把關:確保數(shù)據(jù)質(zhì)量的層層關卡

獲得初步的視頻片段后,研究團隊面臨著一個更加嚴峻的挑戰(zhàn):如何從700多萬個視頻片段中篩選出真正適合空間標注的高質(zhì)量素材。這個過程就像一個多級凈水系統(tǒng),每一道過濾器都有其特定的作用。

第一道關卡是美學質(zhì)量評估。研究團隊使用基于CLIP模型的美學評分器對每個視頻片段進行評估,這個評分器能夠模擬人類對視覺內(nèi)容的美學判斷。具體來說,系統(tǒng)會從每個視頻的開始、中間和結尾各取一幀進行分析,計算平均美學得分。只有得分在4.0以上(滿分10分)的視頻才能通過這一關,這樣確保了數(shù)據(jù)集中的視頻都具有基本的視覺吸引力和清晰度。

第二道關卡是亮度篩選。過暗或過亮的視頻都不利于后續(xù)的特征提取和空間重建。研究團隊使用標準的亮度計算公式(L = 0.2126R + 0.7152G + 0.0722B)對每個視頻的關鍵幀進行分析。亮度值必須保持在20到140的合理區(qū)間內(nèi),這樣既避免了黑暗環(huán)境中細節(jié)丟失的問題,也排除了過度曝光導致的信息缺失。

第三道關卡是文字內(nèi)容過濾。雖然一些包含文字信息的視頻可能很有趣,但大量的文字覆蓋會干擾空間特征的提取。研究團隊使用最新版本的PaddleOCR系統(tǒng)檢測視頻中的文字區(qū)域,計算文字占畫面的比例。那些文字覆蓋面積超過30%的視頻被認為是信息類而非視覺類內(nèi)容,因此被排除在外。

第四道關卡是運動強度評估。靜態(tài)或運動過少的視頻無法為空間學習提供足夠的信息。研究團隊使用集成在FFmpeg中的輕量級VMAF運動評分系統(tǒng),為每個視頻計算運動強度指數(shù)。有效的運動評分范圍設定在2.0到14.0之間,確保視頻既有足夠的運動信息,又不會因為過度的抖動或快速運動而影響空間標注的準確性。

經(jīng)過這四重篩選,原始的700多萬個視頻片段被精簡到約340萬個高質(zhì)量片段,為后續(xù)的精密標注工作奠定了堅實基礎。這個篩選過程雖然嚴格,但確保了最終數(shù)據(jù)集的每一個樣本都具有進行精確空間標注的基本條件。

三、空間信息的精密標注:讓AI看懂3D世界的關鍵技術

完成質(zhì)量篩選后,研究團隊面臨著整個項目中最核心也最具挑戰(zhàn)性的任務:為每個視頻片段標注精確的空間信息。這個過程就像給每個視頻配備一個專業(yè)的測量師,需要準確記錄攝像機在三維空間中的每一個位置變化和角度調(diào)整。

在選擇空間標注技術時,研究團隊進行了全面的對比評估。他們測試了包括經(jīng)典的COLMAP系統(tǒng)、先進的DROID-SLAM方法、快速的Fast3R算法、以及最新的MonST3R和VGGT模型在內(nèi)的多種技術方案。經(jīng)過大量實驗和性能對比,MegaSaM系統(tǒng)憑借其在精度、速度和魯棒性方面的優(yōu)異表現(xiàn)脫穎而出。

MegaSaM的工作原理可以比作一個經(jīng)驗豐富的導游,它不僅能準確識別視頻中的各種視覺特征點,還能根據(jù)這些特征點的變化推算出攝像機的運動軌跡。這個系統(tǒng)在傳統(tǒng)SLAM技術的基礎上進行了多項關鍵改進:首先,它集成了最新的單目深度估計模型作為初始化先驗,就像給測量師配備了一個高精度的測距儀;其次,它引入了運動概率圖和不確定性感知的全局束調(diào)整機制,能夠有效處理動態(tài)場景中的復雜情況。

為了進一步提高標注質(zhì)量,研究團隊對MegaSaM系統(tǒng)進行了定制化升級。他們將原有的深度估計組件替換為更先進的UniDepth v2和Depth Anything v2模型,這些新模型在處理復雜場景時具有更強的魯棒性和更高的精度。這種升級就像給測量儀器安裝了更精密的傳感器,能夠在更多樣化的環(huán)境條件下保持測量的準確性。

除了基本的攝像機姿態(tài)和深度信息,研究團隊還開發(fā)了三個創(chuàng)新的運動評估指標來量化攝像機運動的特征。移動距離(MoveDist)指標計算攝像機軌跡的總長度,反映了空間探索的范圍;旋轉(zhuǎn)角度(RotAngle)指標衡量攝像機視角變化的累積程度,體現(xiàn)了觀察視角的豐富性;軌跡轉(zhuǎn)彎數(shù)(TrajTurns)指標評估軌跡的復雜程度,表征了運動模式的多樣性。這些指標就像體檢報告中的各項數(shù)值,全面反映了每個視頻的空間運動特征。

動態(tài)物體的準確分割是另一個技術難點。原有的運動概率圖精度不夠,無法準確區(qū)分靜態(tài)背景和運動前景。研究團隊創(chuàng)新性地引入了SAM2分割模型,通過自適應閾值機制生成初始掩碼,然后使用輪廓檢測減少重疊區(qū)域的冗余分割。對于每個輪廓,系統(tǒng)會沿邊緣均勻采樣四個錨點作為SAM2模型的提示,從而獲得更精確的動態(tài)區(qū)域分割。這種改進的分割技術能夠計算每幀中動態(tài)區(qū)域的比例,為后續(xù)的數(shù)據(jù)篩選和質(zhì)量評估提供重要參考。

整個空間標注過程消耗了巨大的計算資源,總計使用了69120個GPU小時完成所有視頻的處理。這個數(shù)字相當于一臺高性能GPU連續(xù)工作近8年的計算量,體現(xiàn)了高質(zhì)量空間標注工作的技術難度和資源需求。

四、語義信息的智能生成:讓AI理解視頻內(nèi)容的深層含義

僅有精確的空間信息還不夠,研究團隊深知,要構建一個真正有用的數(shù)據(jù)集,還需要豐富的語義標注來描述視頻的內(nèi)容和含義。這就像給每個視頻配備一個專業(yè)的解說員,不僅要準確描述發(fā)生了什么,還要解釋背后的空間關系和運動模式。

傳統(tǒng)的視頻標注方法面臨著規(guī)模與質(zhì)量的矛盾。人工標注雖然質(zhì)量高但成本巨大且難以規(guī)?;?,而現(xiàn)有的自動標注方法又往往缺乏對空間信息的準確理解。研究團隊創(chuàng)新性地開發(fā)了一套兩階段的智能標注流程,巧妙地結合了視覺語言模型和大型語言模型的各自優(yōu)勢。

第一階段由最新的Gemini-2.0-flash模型承擔視覺解析任務。這個模型就像一個具有敏銳觀察力的攝影師,能夠準確識別視頻中的各種視覺元素。系統(tǒng)按照每秒一幀的頻率采樣視頻,讓模型觀察整個視頻序列的變化過程?;谶@些觀察,模型會生成初始的場景描述和攝像機運動描述,但這些描述往往還存在空間理解上的偏差。

第二階段是整個流程的創(chuàng)新核心,研究團隊將精確計算得到的攝像機姿態(tài)信息作為幾何先驗知識,輸入給Qwen3-30B-A3B大型語言模型。這個過程就像給一個文學家提供了精確的地圖和測量數(shù)據(jù),讓他能夠修正初始描述中的空間錯誤,并生成更加準確和詳細的內(nèi)容。

這種幾何先驗的引入產(chǎn)生了顯著的效果改進。例如,在處理一個瑞士村莊街道的視頻時,Gemini模型最初錯誤地識別攝像機是向右平移,但在結合了精確的攝像機軌跡數(shù)據(jù)后,Qwen模型能夠正確識別出攝像機實際是向左移動。這種空間感知的增強不僅提高了描述的準確性,還使得生成的文本能夠更好地反映真實的3D空間關系。

語義標注的內(nèi)容結構經(jīng)過精心設計,形成了一個多層次的描述體系。場景描述部分詳細記錄視頻中的環(huán)境、物體、人物等視覺元素;攝像機描述部分準確描述攝像機的運動模式和軌跡特征;類別標簽部分使用結構化的標簽體系標注天氣、光照、時間、人群密度等屬性;運動趨勢部分用簡潔的標簽總結主要的攝像機運動方向;鏡頭總結部分將場景內(nèi)容和攝像機運動融合成一個完整的敘述。

為了提高標注的一致性和實用性,研究團隊還開發(fā)了運動指令分解系統(tǒng)。這個系統(tǒng)基于電影攝影術語,將復雜的攝像機運動分解為標準化的指令集合,如"前推"(dolly forward)、"左搖"(pan left)、"右移"(truck right)等。這些指令不僅便于模型學習,也為后續(xù)的可控視頻生成任務提供了直接的監(jiān)督信號。

整個語義標注流程的計算成本同樣巨大,總計消耗了3840個GPU小時用于運行各種語言模型。最終生成的文本標注總量達到了45億個詞匯,相當于數(shù)萬本小說的文字量,形成了一個內(nèi)容極為豐富的視頻語義知識庫。

五、數(shù)據(jù)集的精細打磨:構建高質(zhì)量訓練樣本的最后一里路

經(jīng)過前面幾個階段的處理,研究團隊獲得了大約270萬個帶有完整空間和語義標注的視頻片段,但這還不是終點。為了確保數(shù)據(jù)集能夠最大化地支持模型訓練和評估,他們還需要進行最后的精細化處理和質(zhì)量優(yōu)化。

數(shù)據(jù)采樣策略的設計體現(xiàn)了研究團隊的深度思考。他們采用了一個兩步走的策略:首先提高各項質(zhì)量指標的門檻,確保每個保留的樣本都具有足夠高的質(zhì)量;然后平衡各種語義標簽和攝像機運動特征的分布,確保數(shù)據(jù)集的多樣性不會因為某些類別的過度代表而受損。

這個過程可以比作精心策劃一場大型展覽,既要確保每件展品都是精品,又要保證整體展示的平衡性和代表性。通過這種精細化的采樣,研究團隊從原始數(shù)據(jù)中提取出了一個包含約37萬個視頻片段的高質(zhì)量子集,命名為SpatialVID-HQ,總時長超過1146小時。

為了驗證數(shù)據(jù)集質(zhì)量的優(yōu)越性,研究團隊進行了詳細的對比分析。他們將SpatialVID與廣泛使用的Panda-70M數(shù)據(jù)集進行了全面比較,結果顯示出顯著的質(zhì)量差異。在美學質(zhì)量方面,SpatialVID表現(xiàn)出更加緊湊和集中的分布,意味著其視頻的視覺質(zhì)量更加一致和可靠。在亮度分布方面,SpatialVID避免了過暗或過亮的極端情況,保持了更好的視覺平衡。

最令人印象深刻的差異體現(xiàn)在攝像機運動特征上。Panda-70M數(shù)據(jù)集中超過80%的視頻因為運動不足而無法進行有效的空間重建,這些靜態(tài)或近靜態(tài)的視頻對于空間學習幾乎沒有價值。相比之下,SpatialVID中的每個視頻都具有豐富而有意義的攝像機運動,運動距離、旋轉(zhuǎn)角度和軌跡復雜度的分布都更加均衡和全面。

語義標注的質(zhì)量分析同樣令人振奮。經(jīng)過幾何先驗增強的標注流程,攝像機運動描述的平均長度從62.5個詞增加到50.3個詞,但準確性大幅提升。場景描述被組織成兩個層次:簡潔的場景摘要平均28.6個詞,適合需要快速理解的應用;詳細的鏡頭敘述平均89.7個詞,提供了豐富的上下文信息用于深度理解任務。

數(shù)據(jù)集的類別分布體現(xiàn)了真實世界的豐富性。在場景類型方面,城市環(huán)境占40%,自然景觀占20.5%,室內(nèi)空間占15.5%,水邊環(huán)境占13%,其他特殊場景占剩余部分。在運動模式方面,前向運動占33.3%,左右平移占18.9%,復合運動占相當比例,確保了運動模式的多樣性。在環(huán)境條件方面,明亮場景占58%,昏暗場景占42%;白天場景占42%,夜晚場景占13%,其他時間段合理分布;晴朗天氣占25%,陰天占30%,雨天占15%,其他天氣條件也有相應覆蓋。

通過詞云分析可以看出,數(shù)據(jù)集的語義標注突出了空間和運動相關的詞匯,如"運動"、"前進"、"左"、"右"、"滑行"等詞匯在描述中頻繁出現(xiàn),形成了SpatialVID標志性的空間導向特征。這種特征分布表明數(shù)據(jù)集確實成功地將空間理解置于核心位置,為訓練空間感知的AI模型提供了理想的數(shù)據(jù)基礎。

最終形成的SpatialVID數(shù)據(jù)集在規(guī)模和質(zhì)量上都達到了前所未有的水平。完整的數(shù)據(jù)集包含271萬個視頻片段,總時長7089小時,總幀數(shù)1.276億幀;高質(zhì)量子集包含37萬個視頻片段,總時長1146小時,總幀數(shù)2063萬幀。這個規(guī)模不僅在空間標注數(shù)據(jù)集中創(chuàng)下了新的記錄,其質(zhì)量標準也為該領域設立了新的標桿。

說到底,SpatialVID數(shù)據(jù)集的意義遠遠超出了一個簡單的數(shù)據(jù)收集項目。它代表了AI對真實世界理解能力的一次重大突破嘗試,就像給一個從未離開過房間的孩子提供了一個詳細的世界地圖集。通過將精確的空間幾何信息與豐富的語義描述相結合,這個數(shù)據(jù)集為AI系統(tǒng)學習空間推理能力提供了前所未有的訓練資源。

對于普通人而言,這項研究的影響將逐漸滲透到日常生活的各個方面。未來的智能手機可能能夠通過簡單的視頻拍攝生成精確的房間3D模型,幫助你重新布置家具或進行裝修設計。自動駕駛汽車將能夠更準確地理解復雜交通環(huán)境中的空間關系,提供更安全的出行體驗。虛擬現(xiàn)實和增強現(xiàn)實應用將呈現(xiàn)出更加逼真的物理效果,讓數(shù)字世界與現(xiàn)實世界的邊界變得更加模糊。

更令人期待的是,這種空間理解能力的提升可能會催生全新的應用領域。機器人助手將能夠在雜亂的環(huán)境中更好地導航和操作,視頻內(nèi)容創(chuàng)作工具將能夠自動生成符合物理規(guī)律的特效,遠程協(xié)作工具將提供更加沉浸式的空間交互體驗。

當然,這個數(shù)據(jù)集也面臨著一些挑戰(zhàn)和局限性。處理如此大規(guī)模數(shù)據(jù)所需的計算資源仍然是一個門檻,標注質(zhì)量的進一步提升需要更先進的技術支持,數(shù)據(jù)集的持續(xù)擴展和更新也需要長期的投入。但這些挑戰(zhàn)不會掩蓋SpatialVID在推動空間智能發(fā)展方面的重要價值。

有興趣深入了解這項研究的讀者可以訪問項目主頁獲取更多詳細信息和數(shù)據(jù)集下載方式。隨著越來越多的研究者開始使用這個數(shù)據(jù)集訓練和評估空間感知模型,我們有理由相信,AI理解和操作3D世界的能力將迎來一個快速發(fā)展的新時代。

Q&A

Q1:SpatialVID數(shù)據(jù)集有什么特別之處,和普通視頻數(shù)據(jù)集有什么區(qū)別?

A:SpatialVID最大的特點是每個視頻都有精確的空間標注信息,包括攝像機在3D空間中的位置、角度、深度信息和詳細的語義描述。普通視頻數(shù)據(jù)集只有視頻內(nèi)容,而SpatialVID就像給每個視頻配了專業(yè)導游,能準確說明"攝像機在哪里、朝哪個方向、如何移動",這些空間信息對訓練能理解3D世界的AI模型至關重要。

Q2:南大團隊是如何保證2.7萬小時視頻數(shù)據(jù)的質(zhì)量的?

A:研究團隊建立了嚴格的四重篩選機制:美學質(zhì)量評估確保視頻清晰好看,亮度篩選排除過暗過亮的視頻,文字過濾去除文字覆蓋面積超過30%的內(nèi)容,運動強度評估確保有足夠的攝像機運動。經(jīng)過這些篩選,從700多萬個初始片段中精選出340萬個高質(zhì)量樣本,每個都適合進行精確的空間標注。

Q3:SpatialVID數(shù)據(jù)集對普通人的生活會產(chǎn)生什么影響?

A:這個數(shù)據(jù)集訓練的AI模型將讓很多日常應用變得更智能。未來手機拍視頻可能自動生成3D模型幫你設計房間布局,自動駕駛汽車能更準確判斷距離提高安全性,VR游戲的物理效果更逼真,機器人助手在復雜環(huán)境中導航更準確,視頻創(chuàng)作工具能自動生成符合物理規(guī)律的特效。

分享至
0贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-