近日,快手在短視頻評論開始內(nèi)測「快手AI玩評」,用戶可以通過輸入各種創(chuàng)意文字,一鍵生成海量風(fēng)格圖片,可以更輕松、便捷地在評論區(qū)進(jìn)行趣味互動。這是繼“AI對話”之后,快手在短視頻場景內(nèi)落地的又一AIGC能力。
據(jù)悉??焓?ldquo;AI玩評”依托于快手自研文生圖大模型“可圖”(Kolors)強大的圖像生成能力實現(xiàn)??蓤D大模型能夠基于開放式文本生成風(fēng)格多樣、畫質(zhì)精美、創(chuàng)意十足的繪畫作品,讓用戶可以輕松高效地完成藝術(shù)創(chuàng)作。這也是快手AI團(tuán)隊在大語言模型「快意」之后,再次公布了其在AIGC領(lǐng)域的最新突破和布局。
隨著AI技術(shù)的不斷突破創(chuàng)新,AIGC未來會成為內(nèi)容創(chuàng)作者“突破邊界”的工具,它會讓更多“腦中有畫面,心中有故事”的人能夠進(jìn)行更輕松、高效的創(chuàng)作。據(jù)了解,可圖大模型的三大特點保證了出色的圖像生成效果:
首先,強大的文本理解能力??焓諥I構(gòu)建了數(shù)十億的圖文訓(xùn)練數(shù)據(jù),數(shù)據(jù)來自開源社區(qū)、內(nèi)部構(gòu)建和自研AI技術(shù)合成。這些數(shù)據(jù)覆蓋了常見的三千萬中文實體概念,兼具世界知識。在此基礎(chǔ)上訓(xùn)練研發(fā)了一個強大的中文CLIP模型,不僅懂我們的語言,也更懂中文世界的圖像;其次,快手AI利用自研的中文LLM,融合CLIP的圖文特征作為文生圖的文本理解模塊,不但實現(xiàn)了中文特色概念的理解,更解決了復(fù)雜概念、屬性混淆等文生圖領(lǐng)域常見問題。
其次,豐富的細(xì)節(jié)刻畫??焓諥I研究團(tuán)隊更改了去噪算法的底層公式和加噪公式;同時精選了一批高細(xì)節(jié)、高美感的優(yōu)質(zhì)數(shù)據(jù),在模型學(xué)習(xí)的后期進(jìn)行有側(cè)重學(xué)習(xí)。實現(xiàn)了單一基座模型在主體完整的前提下,可生成具有豐富細(xì)節(jié)和紋理的圖片。同時,基座模型也實現(xiàn)了輸入圖片,輸出細(xì)節(jié)豐富圖片的圖生圖能力。
第三,多樣的風(fēng)格轉(zhuǎn)化。可圖大模型具有基于Prompt的自動學(xué)習(xí)模型,基于知識的理解與擴(kuò)充,為用戶提供不同的風(fēng)格模版。依據(jù)提示詞自動擴(kuò)充模塊,可以豐富化用戶描述,包括風(fēng)格、構(gòu)圖、視覺要素等。配合強大的文生圖基座模型,Kolors 可以幫助用戶準(zhǔn)確理解自己的需求,通過簡單描述即可生成多樣化風(fēng)格的圖片。
在可圖大模型強大的圖像生成能力背后,是快手AI團(tuán)隊在多模態(tài)內(nèi)容理解和生成方面的長期積累,和在大模型領(lǐng)域的持續(xù)創(chuàng)新性探索。
據(jù)了解,從8月下旬開始,快手AI團(tuán)隊已在公司內(nèi)部開啟了可圖大模型平臺的內(nèi)測,面向內(nèi)部業(yè)務(wù)團(tuán)隊提供豐富全面的AI繪畫創(chuàng)作能力,并支持網(wǎng)頁版工具和標(biāo)準(zhǔn)化API兩種使用方式。
快手AI團(tuán)隊表示,「可圖」大模型仍在持續(xù)優(yōu)化效果、豐富能力。未來,可圖將會與快手的更多業(yè)務(wù)開展合作,用AI技術(shù)豐富業(yè)務(wù)的想象力,探索更多有趣、有價值的創(chuàng)新應(yīng)用落地,讓人機共創(chuàng)成為現(xiàn)實。
好文章,需要你的鼓勵
騰訊ARC實驗室推出AudioStory系統(tǒng),首次實現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯式推理生成、解耦橋接機制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時學(xué)習(xí)外觀和運動信息,顯著解決了當(dāng)前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個線性層就能大幅提升運動質(zhì)量,在多項測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實驗室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評測基準(zhǔn),通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時顯著提升人性化交互水平,為AI價值觀對齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊開發(fā)的GraphCast是一個革命性的AI天氣預(yù)測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報,準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。