近日,快手在短視頻評論開始內(nèi)測「快手AI玩評」,用戶可以通過輸入各種創(chuàng)意文字,一鍵生成海量風格圖片,可以更輕松、便捷地在評論區(qū)進行趣味互動。這是繼“AI對話”之后,快手在短視頻場景內(nèi)落地的又一AIGC能力。
據(jù)悉。快手“AI玩評”依托于快手自研文生圖大模型“可圖”(Kolors)強大的圖像生成能力實現(xiàn)??蓤D大模型能夠基于開放式文本生成風格多樣、畫質(zhì)精美、創(chuàng)意十足的繪畫作品,讓用戶可以輕松高效地完成藝術創(chuàng)作。這也是快手AI團隊在大語言模型「快意」之后,再次公布了其在AIGC領域的最新突破和布局。
隨著AI技術的不斷突破創(chuàng)新,AIGC未來會成為內(nèi)容創(chuàng)作者“突破邊界”的工具,它會讓更多“腦中有畫面,心中有故事”的人能夠進行更輕松、高效的創(chuàng)作。據(jù)了解,可圖大模型的三大特點保證了出色的圖像生成效果:
首先,強大的文本理解能力??焓諥I構(gòu)建了數(shù)十億的圖文訓練數(shù)據(jù),數(shù)據(jù)來自開源社區(qū)、內(nèi)部構(gòu)建和自研AI技術合成。這些數(shù)據(jù)覆蓋了常見的三千萬中文實體概念,兼具世界知識。在此基礎上訓練研發(fā)了一個強大的中文CLIP模型,不僅懂我們的語言,也更懂中文世界的圖像;其次,快手AI利用自研的中文LLM,融合CLIP的圖文特征作為文生圖的文本理解模塊,不但實現(xiàn)了中文特色概念的理解,更解決了復雜概念、屬性混淆等文生圖領域常見問題。
其次,豐富的細節(jié)刻畫??焓諥I研究團隊更改了去噪算法的底層公式和加噪公式;同時精選了一批高細節(jié)、高美感的優(yōu)質(zhì)數(shù)據(jù),在模型學習的后期進行有側(cè)重學習。實現(xiàn)了單一基座模型在主體完整的前提下,可生成具有豐富細節(jié)和紋理的圖片。同時,基座模型也實現(xiàn)了輸入圖片,輸出細節(jié)豐富圖片的圖生圖能力。
第三,多樣的風格轉(zhuǎn)化??蓤D大模型具有基于Prompt的自動學習模型,基于知識的理解與擴充,為用戶提供不同的風格模版。依據(jù)提示詞自動擴充模塊,可以豐富化用戶描述,包括風格、構(gòu)圖、視覺要素等。配合強大的文生圖基座模型,Kolors 可以幫助用戶準確理解自己的需求,通過簡單描述即可生成多樣化風格的圖片。
在可圖大模型強大的圖像生成能力背后,是快手AI團隊在多模態(tài)內(nèi)容理解和生成方面的長期積累,和在大模型領域的持續(xù)創(chuàng)新性探索。
據(jù)了解,從8月下旬開始,快手AI團隊已在公司內(nèi)部開啟了可圖大模型平臺的內(nèi)測,面向內(nèi)部業(yè)務團隊提供豐富全面的AI繪畫創(chuàng)作能力,并支持網(wǎng)頁版工具和標準化API兩種使用方式。
快手AI團隊表示,「可圖」大模型仍在持續(xù)優(yōu)化效果、豐富能力。未來,可圖將會與快手的更多業(yè)務開展合作,用AI技術豐富業(yè)務的想象力,探索更多有趣、有價值的創(chuàng)新應用落地,讓人機共創(chuàng)成為現(xiàn)實。
好文章,需要你的鼓勵
新加坡國立大學研究團隊開發(fā)了SPIRAL框架,通過讓AI與自己對弈零和游戲來提升推理能力。實驗顯示,僅訓練AI玩簡單撲克游戲就能讓其數(shù)學推理能力提升8.6%,通用推理提升8.4%,且無需任何數(shù)學題目作為訓練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學解題中,為AI訓練提供了新思路。
同濟大學團隊開發(fā)的GIGA-ToF技術通過融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機噪聲問題。該技術利用圖像間的不變幾何關系,結(jié)合深度學習和數(shù)學優(yōu)化方法,在合成數(shù)據(jù)集上實現(xiàn)37.9%的精度提升,并在真實設備上展現(xiàn)出色泛化能力,為機器人、AR和自動駕駛等領域提供更可靠的3D視覺解決方案。
伊利諾伊大學研究團隊通過對比實驗發(fā)現(xiàn),經(jīng)過強化學習訓練的視覺語言模型雖然表現(xiàn)出"頓悟時刻"現(xiàn)象,但這些自我糾錯行為并不能實際提升推理準確率。研究揭示了AI模型存在"生成-驗證差距",即生成答案的能力強于驗證答案質(zhì)量的能力,且模型在自我驗證時無法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機構(gòu)聯(lián)合提出SparseLoRA技術,通過動態(tài)稀疏性實現(xiàn)大語言模型訓練加速1.6倍,計算成本降低2.2倍。該方法使用SVD稀疏性估計器智能選擇重要計算部分,在保持模型性能的同時顯著提升訓練效率,已在多個任務上驗證有效性。