作者|高飛
去年這個時候,投資圈曾經(jīng)有過一個“投模型還是投應(yīng)用”的辯論?,F(xiàn)在看來,這是一個無意義的議題,因為技術(shù)生態(tài)的邏輯已經(jīng)變了。
多數(shù)人仍然習慣用傳統(tǒng)的“兩層思維”生態(tài)架構(gòu)來思考大模型:系統(tǒng)基座在下面,面向用戶的應(yīng)用在上面,二者涇渭分明。
歷史上看,這種二分法是對的:
1. DOS 操作系統(tǒng)面世時,沒有可執(zhí)行的 “.com” 或 “.exe” 程序,用戶根本無從交互;
2. Windows 問世時,也沒有人會拿一個操作系統(tǒng)單獨“空跑”。哪怕是當年經(jīng)典的“紙牌”和“掃雷”,也是微軟為了讓大眾理解并熟悉圖形界面,不得不自己編寫的小應(yīng)用;
3. iOS 讓智能手機成為一種基礎(chǔ)設(shè)施,但首批吸引用戶使用的,還是紙飛機、拍照,甚至打電話這些關(guān)鍵應(yīng)用;
4. 云計算概念提出來后,人們談?wù)摰亩际腔谠频?SaaS 和各種網(wǎng)站,用不了多久就變成“這家公司用 AWS 跑后臺”這樣的陳述。云計算本身并沒有變成一個直接面向大眾的入口。
但是,AI 之所以是一場技術(shù)革命,就意味著它會顛覆我們已有的常識。我認為,兩層架構(gòu)在這個時代已經(jīng)失效。
舉個例子:OpenAI 的 ChatGPT 從一開始發(fā)布時,就既是一個模型,又是一個面向大眾的消費級應(yīng)用。
你不需要再去下載任何“子程序”才能讓 ChatGPT 跑起來;只需要在對話框輸入文字(提示工程,Prompt Engineering),它就能執(zhí)行推理或生成內(nèi)容。它甚至創(chuàng)造了最快達到 1 億月活用戶的新紀錄。這是一個毫無爭議的應(yīng)用。
但它同時也是一種模型,OpenAI提供了 API 調(diào)用,讓無數(shù)應(yīng)用可以基于它構(gòu)建。
當我們說 “DeepSeek” 時,既可能指一種在 LMarena、AIME 榜單上排名靠前的前沿推理模型,也可以指一款曾登頂中美等多個國家 iOS 應(yīng)用商店的 App。
所以,下次再有人問:“我們該投大語言模型還是應(yīng)用層?”也許可以告訴他,這不是一個非此即彼的問題。在這個領(lǐng)域里,模型就是應(yīng)用,應(yīng)用也就是模型。
如果你在做模型,你的用戶并不需要了解多少編譯、鏈接或 SDK 之類的東西,就能夠通過自然語言提示來使用它。
反過來,如果你在做 AI 應(yīng)用,其實最終還是在向用戶交付一項“大模型”能力,無論你使用的是提示工程、強化學習、工作流、Agent,還是別的“套殼”手段,底層都還是那臺貫通一切的“大腦”。
模型與應(yīng)用的邊界正在塌陷,用戶甚至不知道,或者并不在意自己是在“跑模型”還是在“用程序”。
但是,除了投資規(guī)模,做應(yīng)用也并不比做基座模型廉價,因為在這個時代,切換一個模型底座并不比換輛車開更難。幾乎你使用的所有 AI 應(yīng)用,都提供了在后臺切換模型的設(shè)置選項。
你能在云計算時代想象這些嗎?一個網(wǎng)站提供了切換不同云主機訪問?還記得適配安卓、iOS 等不同系統(tǒng)、不同尺寸的手機有多難嗎?
只不過,應(yīng)用開發(fā)者還是需要一點戒備。你的產(chǎn)品最好不要在“智能演化”的延長線上。就像山姆·奧特曼(Sam Altman)所說:如果基座模型變得更好,你的應(yīng)用也應(yīng)該同步變得更好,而不是被徹底替代、不再被需要。
好文章,需要你的鼓勵
騰訊ARC實驗室推出AudioStory系統(tǒng),首次實現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯式推理生成、解耦橋接機制和漸進式訓練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時學習外觀和運動信息,顯著解決了當前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個線性層就能大幅提升運動質(zhì)量,在多項測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實驗室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓練數(shù)據(jù)集和MM-AlignBench評測基準,通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時顯著提升人性化交互水平,為AI價值觀對齊提供了可行技術(shù)路徑。
谷歌DeepMind團隊開發(fā)的GraphCast是一個革命性的AI天氣預(yù)測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報,準確性超越傳統(tǒng)方法90%的指標。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學習40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學領(lǐng)域帶來了效率和精度的雙重突破。