這項(xiàng)由加州大學(xué)伯克利分校的Akio Kodaira和Meta公司的Tingbo Hou、Ji Hou等研究人員共同完成的突破性研究,于2025年7月發(fā)表在計(jì)算機(jī)視覺(jué)頂級(jí)會(huì)議arXiv上。感興趣的讀者可以通過(guò)論文編號(hào)arXiv:2507.03745v1查閱完整研究?jī)?nèi)容。這項(xiàng)研究首次實(shí)現(xiàn)了真正意義上的實(shí)時(shí)視頻生成,讓人工智能可以像熟練的攝影師一樣,根據(jù)你的文字描述即時(shí)生成高質(zhì)量視頻。
在傳統(tǒng)的AI視頻制作中,你需要輸入文字描述,然后等待很長(zhǎng)時(shí)間才能看到結(jié)果,就像在暗房里沖洗膠卷一樣耗時(shí)。而這項(xiàng)新技術(shù)StreamDiT就像擁有了一個(gè)瞬間反應(yīng)的智能攝影師,你說(shuō)想要什么畫面,它就能馬上開(kāi)始拍攝并實(shí)時(shí)播放給你看。更神奇的是,在視頻播放過(guò)程中,你還可以隨時(shí)改變想法,比如原本想拍一只在海灘上戴墨鏡的柯基犬,看到一半時(shí)突然想換成在水下珊瑚街區(qū)飛行的畫面,AI導(dǎo)演會(huì)立即調(diào)整拍攝方向,讓畫面自然過(guò)渡到新的場(chǎng)景中。
這種技術(shù)的革命性在于它打破了傳統(tǒng)視頻生成的時(shí)間壁壘。就像從寫信通訊進(jìn)化到即時(shí)聊天一樣,StreamDiT讓人與AI的視頻創(chuàng)作變成了一場(chǎng)實(shí)時(shí)對(duì)話。研究團(tuán)隊(duì)訓(xùn)練了一個(gè)擁有40億參數(shù)的AI模型,能夠在一塊GPU上以每秒16幀的速度生成512p分辨率的視頻,真正做到了"所想即所見(jiàn)"的實(shí)時(shí)體驗(yàn)。這不僅僅是技術(shù)上的進(jìn)步,更是創(chuàng)意表達(dá)方式的根本性變革。
一、突破傳統(tǒng)視頻制作的時(shí)間束縛
要理解StreamDiT的革命性意義,我們可以把傳統(tǒng)的AI視頻生成比作傳統(tǒng)攝影。在膠片時(shí)代,攝影師拍攝一張照片后,需要回到暗房進(jìn)行漫長(zhǎng)的沖洗過(guò)程才能看到結(jié)果。類似地,現(xiàn)有的AI視頻生成技術(shù)也需要用戶輸入文字描述,然后等待系統(tǒng)慢慢生成整個(gè)視頻片段,這個(gè)過(guò)程可能需要幾分鐘甚至更長(zhǎng)時(shí)間。
StreamDiT的出現(xiàn)就像數(shù)碼相機(jī)的發(fā)明一樣具有顛覆性。數(shù)碼相機(jī)讓攝影師能夠立即看到拍攝結(jié)果,而StreamDiT則讓AI視頻生成變成了一個(gè)實(shí)時(shí)的創(chuàng)作過(guò)程。當(dāng)你輸入"一只戴著太陽(yáng)鏡的柯基在熱帶島嶼的海灘上行走"這樣的描述時(shí),系統(tǒng)不是先停下來(lái)思考幾分鐘再給你一個(gè)完整答案,而是立即開(kāi)始"拍攝",讓你實(shí)時(shí)看到視頻畫面的生成過(guò)程。
更重要的是,這種實(shí)時(shí)性還支持互動(dòng)創(chuàng)作。在傳統(tǒng)視頻生成中,一旦開(kāi)始制作就無(wú)法更改,就像已經(jīng)按下快門的膠片相機(jī)無(wú)法重新構(gòu)圖一樣。但StreamDiT允許你在視頻生成過(guò)程中隨時(shí)調(diào)整想法。比如你正在觀看柯基在海灘漫步的畫面,突然想要切換到"第一人稱視角飛越彩色珊瑚圍繞的水下郊區(qū)街道",你只需要輸入新的描述,AI就會(huì)讓畫面自然過(guò)渡到新場(chǎng)景,就像一個(gè)經(jīng)驗(yàn)豐富的攝影師能夠流暢地切換鏡頭角度和場(chǎng)景一樣。
這種技術(shù)的實(shí)現(xiàn)基礎(chǔ)是研究團(tuán)隊(duì)設(shè)計(jì)的"流式緩沖區(qū)"機(jī)制??梢园堰@個(gè)機(jī)制想象成一條流水線,不同于傳統(tǒng)方法需要等待整條生產(chǎn)線完成后才能看到產(chǎn)品,StreamDiT的流水線能夠持續(xù)輸出部分完成的產(chǎn)品。具體來(lái)說(shuō),系統(tǒng)維護(hù)著一個(gè)包含多幀畫面的緩沖區(qū),這些畫面處于不同的完成階段,有些還是模糊的草圖,有些已經(jīng)接近完成。隨著處理的進(jìn)行,最完成的畫面會(huì)被輸出給用戶觀看,同時(shí)新的草圖畫面會(huì)進(jìn)入緩沖區(qū)開(kāi)始處理。
二、讓AI學(xué)會(huì)"邊想邊畫"的創(chuàng)新訓(xùn)練方法
傳統(tǒng)的AI視頻生成訓(xùn)練就像教學(xué)生一次性完成整幅畫作,而StreamDiT的訓(xùn)練更像是教藝術(shù)家學(xué)會(huì)在畫布上同時(shí)處理多個(gè)處于不同完成階段的作品。這種全新的訓(xùn)練方法被稱為"緩沖流匹配",它是整個(gè)技術(shù)的核心創(chuàng)新。
在傳統(tǒng)的訓(xùn)練中,AI需要學(xué)習(xí)如何從純?cè)胍簦梢岳斫鉃橥耆靵y的像素點(diǎn))逐步生成清晰的視頻畫面,這個(gè)過(guò)程就像從一張白紙開(kāi)始繪制完整的畫作。但StreamDiT的訓(xùn)練方法更加復(fù)雜和巧妙:它需要同時(shí)處理多個(gè)處于不同"繪制階段"的畫面。有些畫面可能剛剛開(kāi)始繪制,還是模糊的輪廓;有些畫面已經(jīng)有了基本形狀和色彩;還有一些畫面接近完成,只需要最后的細(xì)節(jié)修飾。
這種訓(xùn)練方法的關(guān)鍵在于"分塊處理"策略。研究團(tuán)隊(duì)將視頻幀分成不同的"塊",每個(gè)塊包含若干連續(xù)的幀,就像把一本連環(huán)畫分成若干個(gè)章節(jié)。在訓(xùn)練過(guò)程中,AI需要學(xué)會(huì)同時(shí)處理這些不同章節(jié)的內(nèi)容,確保它們?cè)趦?nèi)容上保持連貫性。這就好比一個(gè)編劇需要同時(shí)構(gòu)思故事的開(kāi)頭、中間和結(jié)尾,確保整個(gè)故事邏輯自洽、情節(jié)流暢。
為了讓AI掌握這種復(fù)雜的處理能力,研究團(tuán)隊(duì)還設(shè)計(jì)了"混合訓(xùn)練"方案。這種方案就像讓一個(gè)廚師同時(shí)學(xué)會(huì)制作不同復(fù)雜程度的菜品:有時(shí)候制作簡(jiǎn)單的單人餐,有時(shí)候準(zhǔn)備復(fù)雜的宴席,有時(shí)候處理中等規(guī)模的家庭聚餐。通過(guò)這種多樣化的訓(xùn)練,AI學(xué)會(huì)了在不同情況下都能保持穩(wěn)定的表現(xiàn)。
具體而言,系統(tǒng)會(huì)在訓(xùn)練中隨機(jī)選擇不同的分塊方案。有時(shí)候選擇較小的塊大小,這樣處理速度更快但可能影響畫面連貫性;有時(shí)候選擇較大的塊大小,這樣畫面質(zhì)量更高但處理速度較慢。通過(guò)這種變化的訓(xùn)練,最終的AI模型獲得了在不同應(yīng)用場(chǎng)景下的適應(yīng)能力,既能滿足實(shí)時(shí)交互的速度要求,又能保證足夠的視頻質(zhì)量。
三、打造高效的AI視頻處理引擎
StreamDiT的模型架構(gòu)就像一臺(tái)精密設(shè)計(jì)的視頻處理工廠,每個(gè)組件都經(jīng)過(guò)優(yōu)化以實(shí)現(xiàn)實(shí)時(shí)性能。整個(gè)系統(tǒng)基于Transformer架構(gòu)構(gòu)建,這是目前AI領(lǐng)域最先進(jìn)的處理框架,就像現(xiàn)代汽車工廠采用最先進(jìn)的自動(dòng)化生產(chǎn)線一樣。
模型的核心創(chuàng)新是"時(shí)變嵌入"設(shè)計(jì)。傳統(tǒng)的視頻AI模型就像一個(gè)只能按固定程序工作的機(jī)器人,每次處理時(shí)都使用相同的時(shí)間參數(shù)。而StreamDiT更像一個(gè)靈活的工匠,能夠根據(jù)每幀畫面的具體情況調(diào)整處理方式。對(duì)于那些剛開(kāi)始處理的模糊畫面,它會(huì)采用粗略快速的處理方法;對(duì)于接近完成的畫面,它會(huì)進(jìn)行精細(xì)的修飾工作。
為了提高處理效率,研究團(tuán)隊(duì)還采用了"窗口注意力"機(jī)制。可以把這個(gè)機(jī)制想象成一個(gè)攝影師的取景框:傳統(tǒng)方法需要時(shí)刻關(guān)注整個(gè)巨大的場(chǎng)景,消耗大量精力;而窗口注意力讓AI只專注于當(dāng)前處理區(qū)域的局部細(xì)節(jié),就像攝影師通過(guò)取景框?qū)W⒂跇?gòu)圖的特定部分。這種局部專注的方法大大降低了計(jì)算復(fù)雜度,使實(shí)時(shí)處理成為可能。
模型采用了40億個(gè)參數(shù)的規(guī)模,這個(gè)數(shù)字聽(tīng)起來(lái)很大,但實(shí)際上是在性能和效率之間的精心平衡??梢园堰@些參數(shù)想象成一個(gè)經(jīng)驗(yàn)豐富工匠掌握的各種技巧和知識(shí):參數(shù)太少就像經(jīng)驗(yàn)不足的新手,無(wú)法處理復(fù)雜情況;參數(shù)太多又像知識(shí)淵博但行動(dòng)緩慢的老學(xué)者,無(wú)法滿足實(shí)時(shí)應(yīng)用的速度要求。40億參數(shù)恰好讓AI既有足夠的"經(jīng)驗(yàn)"生成高質(zhì)量視頻,又能保持足夠的"敏捷"實(shí)現(xiàn)實(shí)時(shí)響應(yīng)。
在視頻編碼方面,系統(tǒng)使用了專門的時(shí)空自編碼器,壓縮比率在時(shí)間維度上為4倍,在空間維度上為8倍。這就像一個(gè)高效的壓縮專家,能夠?qū)⒃君嫶蟮囊曨l數(shù)據(jù)壓縮成便于處理的格式,而不丟失重要的視覺(jué)信息。這種壓縮讓系統(tǒng)能夠在有限的計(jì)算資源下處理更多的視頻內(nèi)容。
四、從實(shí)驗(yàn)室到現(xiàn)實(shí)應(yīng)用的完美蛻變
為了實(shí)現(xiàn)真正的實(shí)時(shí)應(yīng)用,研究團(tuán)隊(duì)還開(kāi)發(fā)了專門的"多步蒸餾"技術(shù)。這個(gè)過(guò)程就像把一位大師級(jí)廚師的復(fù)雜烹飪技藝教給快手廚師一樣。原始的AI模型雖然能生成高質(zhì)量視頻,但需要128個(gè)處理步驟,就像大廚需要經(jīng)過(guò)繁復(fù)的工序才能做出精美菜品。通過(guò)蒸餾技術(shù),研究團(tuán)隊(duì)成功地將這個(gè)過(guò)程壓縮到只需要8個(gè)步驟,就像教會(huì)快手廚師用簡(jiǎn)化的流程做出同樣美味的菜品。
這種壓縮并非簡(jiǎn)單的刪減,而是智能的重組和優(yōu)化。系統(tǒng)學(xué)會(huì)了哪些步驟是關(guān)鍵的,哪些可以合并或簡(jiǎn)化。最終的結(jié)果是,蒸餾后的模型在保持幾乎相同視頻質(zhì)量的同時(shí),處理速度提升了16倍,真正實(shí)現(xiàn)了在單個(gè)GPU上以每秒16幀的速度生成視頻。
實(shí)驗(yàn)結(jié)果顯示,StreamDiT在多個(gè)維度上都表現(xiàn)優(yōu)異。在視頻質(zhì)量評(píng)測(cè)中,無(wú)論是主體一致性、背景連貫性、還是運(yùn)動(dòng)流暢性,StreamDiT都超越了現(xiàn)有的流式視頻生成方法。更重要的是,在動(dòng)態(tài)程度這個(gè)關(guān)鍵指標(biāo)上,StreamDiT的表現(xiàn)遠(yuǎn)超其他方法,生成的視頻具有更豐富的運(yùn)動(dòng)和變化,而不是靜態(tài)重復(fù)的畫面。
人工評(píng)估的結(jié)果更加令人印象深刻。在與其他先進(jìn)方法的對(duì)比中,StreamDiT在整體質(zhì)量、幀間一致性、運(yùn)動(dòng)完整性和運(yùn)動(dòng)自然度等四個(gè)關(guān)鍵維度上都獲得了更高的用戶評(píng)分。這意味著普通用戶在實(shí)際使用中能夠明顯感受到StreamDiT生成視頻的優(yōu)越性。
五、開(kāi)啟視頻創(chuàng)作的無(wú)限可能
StreamDiT的應(yīng)用潛力遠(yuǎn)遠(yuǎn)超出了傳統(tǒng)視頻生成的范疇。首先是實(shí)時(shí)流媒體生成,這讓AI能夠像直播攝影師一樣工作。用戶可以實(shí)時(shí)調(diào)整視頻內(nèi)容,系統(tǒng)立即響應(yīng)生成相應(yīng)畫面,整個(gè)過(guò)程就像在玩一個(gè)高度沉浸式的視頻游戲。研究團(tuán)隊(duì)演示了長(zhǎng)達(dá)5分鐘的連續(xù)視頻生成,證明了系統(tǒng)的穩(wěn)定性和持續(xù)性。
交互式視頻創(chuàng)作是另一個(gè)激動(dòng)人心的應(yīng)用方向。用戶可以通過(guò)一系列相關(guān)的文字提示來(lái)引導(dǎo)故事發(fā)展,就像與AI合作編寫和拍攝一部電影。例如,從"寧?kù)o的湖泊和白天多云的天空"開(kāi)始,然后轉(zhuǎn)向"夜晚月光下的安靜湖泊和漸暗的微光",最后發(fā)展為"湖上綻放的煙花"。整個(gè)過(guò)程中,AI會(huì)保持場(chǎng)景的連貫性,同時(shí)根據(jù)新的提示調(diào)整內(nèi)容。
視頻到視頻的轉(zhuǎn)換功能展現(xiàn)了另一種創(chuàng)新應(yīng)用模式。用戶可以上傳現(xiàn)有視頻,然后通過(guò)文字描述對(duì)其進(jìn)行實(shí)時(shí)修改。比如將一段小豬在街上行走的視頻轉(zhuǎn)換為小貓?jiān)谙嗤瑘?chǎng)景中行走,背景和動(dòng)作保持一致,只改變主要對(duì)象。這種功能對(duì)于視頻編輯和內(nèi)容創(chuàng)作具有巨大價(jià)值。
游戲和虛擬現(xiàn)實(shí)領(lǐng)域是StreamDiT最具前景的應(yīng)用方向之一。傳統(tǒng)游戲中的場(chǎng)景都是預(yù)先設(shè)計(jì)和渲染的,而StreamDiT使得根據(jù)玩家行為和選擇實(shí)時(shí)生成游戲畫面成為可能。這可能會(huì)徹底改變游戲設(shè)計(jì)理念,從預(yù)設(shè)內(nèi)容轉(zhuǎn)向動(dòng)態(tài)生成內(nèi)容。
教育和培訓(xùn)領(lǐng)域也能從這項(xiàng)技術(shù)中受益匪淺。教師可以根據(jù)教學(xué)需要實(shí)時(shí)生成相關(guān)的視覺(jué)內(nèi)容,學(xué)生的理解程度和興趣點(diǎn)可以立即反映在生成的視頻中。這種互動(dòng)性將大大增強(qiáng)學(xué)習(xí)體驗(yàn)的個(gè)性化程度。
六、技術(shù)挑戰(zhàn)與未來(lái)發(fā)展方向
盡管StreamDiT取得了突破性進(jìn)展,但研究團(tuán)隊(duì)也坦誠(chéng)地指出了當(dāng)前技術(shù)的局限性。最主要的挑戰(zhàn)是長(zhǎng)期記憶問(wèn)題。當(dāng)前的系統(tǒng)就像一個(gè)只有短期記憶的攝影師,只能記住最近拍攝的幾個(gè)鏡頭,對(duì)于更早的內(nèi)容會(huì)逐漸遺忘。這可能導(dǎo)致在長(zhǎng)視頻中出現(xiàn)人物面部不一致或背景細(xì)節(jié)丟失的問(wèn)題。
另一個(gè)技術(shù)挑戰(zhàn)是視頻塊之間的銜接問(wèn)題。雖然在潛在空間中(也就是AI的"思維空間"中)視頻幀之間連接流暢,但在轉(zhuǎn)換為最終視頻時(shí),不同塊之間可能出現(xiàn)輕微的跳躍或閃爍。這就像一個(gè)熟練的畫家在腦海中構(gòu)思完美,但在轉(zhuǎn)移到畫布上時(shí)可能出現(xiàn)細(xì)微的不連貫。
模型規(guī)模也是一個(gè)需要平衡的因素。當(dāng)前的40億參數(shù)模型在實(shí)時(shí)性和質(zhì)量之間找到了良好平衡,但與一些擁有300億參數(shù)的大型模型相比,在視頻質(zhì)量的絕對(duì)水平上仍有差距。研究團(tuán)隊(duì)已經(jīng)在更大規(guī)模的模型上驗(yàn)證了方法的有效性,未來(lái)隨著計(jì)算能力的提升,有望實(shí)現(xiàn)更高質(zhì)量的實(shí)時(shí)視頻生成。
計(jì)算資源的可及性是另一個(gè)實(shí)際考量。雖然StreamDiT已經(jīng)能在單個(gè)高端GPU上運(yùn)行,但這樣的硬件配置對(duì)普通用戶來(lái)說(shuō)仍然昂貴。隨著硬件技術(shù)發(fā)展和算法進(jìn)一步優(yōu)化,預(yù)期這種技術(shù)將逐漸普及到更廣泛的設(shè)備上。
研究團(tuán)隊(duì)提出了幾個(gè)有前景的改進(jìn)方向。首先是集成長(zhǎng)期記憶機(jī)制,比如結(jié)合狀態(tài)空間模型來(lái)維持對(duì)早期內(nèi)容的記憶。其次是改進(jìn)視頻解碼策略,通過(guò)重疊解碼等技術(shù)減少塊間的視覺(jué)不連貫。第三是探索更高效的模型架構(gòu),在保持質(zhì)量的同時(shí)進(jìn)一步降低計(jì)算需求。
七、重新定義人機(jī)創(chuàng)作的邊界
StreamDiT的意義遠(yuǎn)遠(yuǎn)超出了技術(shù)本身,它代表了人工智能從"工具"向"合作伙伴"的重要轉(zhuǎn)變。在傳統(tǒng)的創(chuàng)作模式中,人類提出需求,AI執(zhí)行任務(wù),兩者之間是單向的指令關(guān)系。而StreamDiT開(kāi)啟了一種全新的協(xié)作模式:人類和AI可以進(jìn)行實(shí)時(shí)的創(chuàng)意對(duì)話,就像兩個(gè)藝術(shù)家在合作創(chuàng)作一件作品。
這種轉(zhuǎn)變對(duì)內(nèi)容創(chuàng)作行業(yè)可能產(chǎn)生深遠(yuǎn)影響。電影制作人可以在劇本創(chuàng)作階段就實(shí)時(shí)可視化場(chǎng)景,編劇的文字描述可以立即轉(zhuǎn)化為視覺(jué)畫面,這將大大提高創(chuàng)作效率和質(zhì)量。廣告和營(yíng)銷行業(yè)可以根據(jù)客戶反饋實(shí)時(shí)調(diào)整創(chuàng)意內(nèi)容,使創(chuàng)意展示和修改變成一個(gè)動(dòng)態(tài)交互的過(guò)程。
教育領(lǐng)域的變革可能更加深刻。傳統(tǒng)教學(xué)中,教師需要提前準(zhǔn)備大量視覺(jué)材料,而StreamDiT使得根據(jù)學(xué)生實(shí)時(shí)反應(yīng)和理解程度動(dòng)態(tài)生成教學(xué)內(nèi)容成為可能。每個(gè)學(xué)生的學(xué)習(xí)路徑都可以通過(guò)個(gè)性化的視覺(jué)內(nèi)容得到支持,這種個(gè)性化程度是傳統(tǒng)教學(xué)方法難以達(dá)到的。
從技術(shù)發(fā)展的角度看,StreamDiT也為AI視頻生成領(lǐng)域指出了新的發(fā)展方向。實(shí)時(shí)性不再是一個(gè)可選的優(yōu)化目標(biāo),而成為了必需的基礎(chǔ)能力。這將推動(dòng)整個(gè)領(lǐng)域朝著更加注重用戶體驗(yàn)和交互性的方向發(fā)展。
隱私和倫理考量也變得更加重要。實(shí)時(shí)視頻生成能力的普及可能帶來(lái)新的挑戰(zhàn),比如實(shí)時(shí)深度偽造等問(wèn)題。這需要技術(shù)開(kāi)發(fā)者和政策制定者共同努力,在推動(dòng)技術(shù)進(jìn)步的同時(shí)建立相應(yīng)的規(guī)范和防護(hù)機(jī)制。
說(shuō)到底,StreamDiT最令人興奮的地方不僅僅在于技術(shù)的先進(jìn)性,更在于它為人類創(chuàng)造力的表達(dá)開(kāi)辟了全新的可能性。就像印刷術(shù)讓文字傳播變得便捷,攝影技術(shù)讓瞬間記錄成為可能,StreamDiT正在讓我們進(jìn)入一個(gè)"所想即所見(jiàn)"的視覺(jué)創(chuàng)作新時(shí)代。在這個(gè)時(shí)代里,創(chuàng)意的表達(dá)不再受制于技術(shù)復(fù)雜性和時(shí)間成本,每個(gè)人都可能成為自己想象世界的導(dǎo)演。
當(dāng)然,這項(xiàng)技術(shù)目前還處于研究階段,距離普通用戶的日常使用還有一段距離。但正如研究團(tuán)隊(duì)在論文中展示的那樣,技術(shù)的快速發(fā)展正在讓這些可能性變成現(xiàn)實(shí)。對(duì)于那些對(duì)技術(shù)細(xì)節(jié)感興趣的讀者,完整的研究論文可以通過(guò)arXiv:2507.03745v1獲取,其中包含了更詳細(xì)的技術(shù)實(shí)現(xiàn)和實(shí)驗(yàn)數(shù)據(jù)。
這項(xiàng)由加州大學(xué)伯克利分校和Meta公司合作完成的研究,不僅在技術(shù)上實(shí)現(xiàn)了重要突破,更重要的是為我們描繪了一個(gè)充滿創(chuàng)意可能性的未來(lái)。在那個(gè)未來(lái)里,人類的想象力將不再受到表達(dá)工具的限制,每一個(gè)奇思妙想都可能瞬間轉(zhuǎn)化為生動(dòng)的視覺(jué)現(xiàn)實(shí)。
Q&A
Q1:StreamDiT是什么?它和普通的AI視頻生成有什么區(qū)別? A:StreamDiT是一種能夠?qū)崟r(shí)生成視頻的AI技術(shù),最大區(qū)別就是"即時(shí)性"。傳統(tǒng)AI視頻生成需要等待幾分鐘才能看到結(jié)果,而StreamDiT可以像看直播一樣實(shí)時(shí)生成和播放視頻。更神奇的是,你還可以在視頻播放過(guò)程中隨時(shí)改變想法,AI會(huì)立即調(diào)整內(nèi)容,就像有個(gè)超級(jí)靈活的攝影師在為你工作。
Q2:普通人現(xiàn)在能使用StreamDiT嗎?需要什么設(shè)備? A:目前StreamDiT還處于研究階段,普通用戶暫時(shí)無(wú)法直接使用。它需要高端GPU設(shè)備才能運(yùn)行(比如H100),這種設(shè)備對(duì)個(gè)人用戶來(lái)說(shuō)成本較高。不過(guò)隨著技術(shù)發(fā)展和硬件普及,預(yù)計(jì)未來(lái)幾年內(nèi)可能會(huì)有更容易獲取的版本出現(xiàn)。
Q3:StreamDiT生成的視頻質(zhì)量怎么樣?會(huì)不會(huì)因?yàn)樗俣瓤於|(zhì)量差? A:研究顯示StreamDiT在保證實(shí)時(shí)性的同時(shí)還能維持高質(zhì)量。它生成512p分辨率的視頻,在用戶評(píng)測(cè)中各項(xiàng)指標(biāo)都超越了其他實(shí)時(shí)視頻生成方法。雖然比起那些需要長(zhǎng)時(shí)間計(jì)算的超高質(zhì)量模型還有差距,但已經(jīng)達(dá)到了實(shí)用級(jí)別,而且研究團(tuán)隊(duì)在更大的300億參數(shù)模型上驗(yàn)證了方法的可擴(kuò)展性。
好文章,需要你的鼓勵(lì)
新加坡國(guó)立大學(xué)研究團(tuán)隊(duì)開(kāi)發(fā)了SPIRAL框架,通過(guò)讓AI與自己對(duì)弈零和游戲來(lái)提升推理能力。實(shí)驗(yàn)顯示,僅訓(xùn)練AI玩簡(jiǎn)單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無(wú)需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟(jì)大學(xué)團(tuán)隊(duì)開(kāi)發(fā)的GIGA-ToF技術(shù)通過(guò)融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機(jī)噪聲問(wèn)題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實(shí)現(xiàn)37.9%的精度提升,并在真實(shí)設(shè)備上展現(xiàn)出色泛化能力,為機(jī)器人、AR和自動(dòng)駕駛等領(lǐng)域提供更可靠的3D視覺(jué)解決方案。
伊利諾伊大學(xué)研究團(tuán)隊(duì)通過(guò)對(duì)比實(shí)驗(yàn)發(fā)現(xiàn),經(jīng)過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺(jué)語(yǔ)言模型雖然表現(xiàn)出"頓悟時(shí)刻"現(xiàn)象,但這些自我糾錯(cuò)行為并不能實(shí)際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗(yàn)證差距",即生成答案的能力強(qiáng)于驗(yàn)證答案質(zhì)量的能力,且模型在自我驗(yàn)證時(shí)無(wú)法有效利用視覺(jué)信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過(guò)動(dòng)態(tài)稀疏性實(shí)現(xiàn)大語(yǔ)言模型訓(xùn)練加速1.6倍,計(jì)算成本降低2.2倍。該方法使用SVD稀疏性估計(jì)器智能選擇重要計(jì)算部分,在保持模型性能的同時(shí)顯著提升訓(xùn)練效率,已在多個(gè)任務(wù)上驗(yàn)證有效性。