作者|高飛
去年這個時候,投資圈曾經(jīng)有過一個“投模型還是投應(yīng)用”的辯論?,F(xiàn)在看來,這是一個無意義的議題,因為技術(shù)生態(tài)的邏輯已經(jīng)變了。
多數(shù)人仍然習(xí)慣用傳統(tǒng)的“兩層思維”生態(tài)架構(gòu)來思考大模型:系統(tǒng)基座在下面,面向用戶的應(yīng)用在上面,二者涇渭分明。
歷史上看,這種二分法是對的:
1. DOS 操作系統(tǒng)面世時,沒有可執(zhí)行的 “.com” 或 “.exe” 程序,用戶根本無從交互;
2. Windows 問世時,也沒有人會拿一個操作系統(tǒng)單獨“空跑”。哪怕是當(dāng)年經(jīng)典的“紙牌”和“掃雷”,也是微軟為了讓大眾理解并熟悉圖形界面,不得不自己編寫的小應(yīng)用;
3. iOS 讓智能手機(jī)成為一種基礎(chǔ)設(shè)施,但首批吸引用戶使用的,還是紙飛機(jī)、拍照,甚至打電話這些關(guān)鍵應(yīng)用;
4. 云計算概念提出來后,人們談?wù)摰亩际腔谠频?SaaS 和各種網(wǎng)站,用不了多久就變成“這家公司用 AWS 跑后臺”這樣的陳述。云計算本身并沒有變成一個直接面向大眾的入口。
但是,AI 之所以是一場技術(shù)革命,就意味著它會顛覆我們已有的常識。我認(rèn)為,兩層架構(gòu)在這個時代已經(jīng)失效。
舉個例子:OpenAI 的 ChatGPT 從一開始發(fā)布時,就既是一個模型,又是一個面向大眾的消費級應(yīng)用。
你不需要再去下載任何“子程序”才能讓 ChatGPT 跑起來;只需要在對話框輸入文字(提示工程,Prompt Engineering),它就能執(zhí)行推理或生成內(nèi)容。它甚至創(chuàng)造了最快達(dá)到 1 億月活用戶的新紀(jì)錄。這是一個毫無爭議的應(yīng)用。
但它同時也是一種模型,OpenAI提供了 API 調(diào)用,讓無數(shù)應(yīng)用可以基于它構(gòu)建。
當(dāng)我們說 “DeepSeek” 時,既可能指一種在 LMarena、AIME 榜單上排名靠前的前沿推理模型,也可以指一款曾登頂中美等多個國家 iOS 應(yīng)用商店的 App。
所以,下次再有人問:“我們該投大語言模型還是應(yīng)用層?”也許可以告訴他,這不是一個非此即彼的問題。在這個領(lǐng)域里,模型就是應(yīng)用,應(yīng)用也就是模型。
如果你在做模型,你的用戶并不需要了解多少編譯、鏈接或 SDK 之類的東西,就能夠通過自然語言提示來使用它。
反過來,如果你在做 AI 應(yīng)用,其實最終還是在向用戶交付一項“大模型”能力,無論你使用的是提示工程、強(qiáng)化學(xué)習(xí)、工作流、Agent,還是別的“套殼”手段,底層都還是那臺貫通一切的“大腦”。
模型與應(yīng)用的邊界正在塌陷,用戶甚至不知道,或者并不在意自己是在“跑模型”還是在“用程序”。
但是,除了投資規(guī)模,做應(yīng)用也并不比做基座模型廉價,因為在這個時代,切換一個模型底座并不比換輛車開更難。幾乎你使用的所有 AI 應(yīng)用,都提供了在后臺切換模型的設(shè)置選項。
你能在云計算時代想象這些嗎?一個網(wǎng)站提供了切換不同云主機(jī)訪問?還記得適配安卓、iOS 等不同系統(tǒng)、不同尺寸的手機(jī)有多難嗎?
只不過,應(yīng)用開發(fā)者還是需要一點戒備。你的產(chǎn)品最好不要在“智能演化”的延長線上。就像山姆·奧特曼(Sam Altman)所說:如果基座模型變得更好,你的應(yīng)用也應(yīng)該同步變得更好,而不是被徹底替代、不再被需要。
好文章,需要你的鼓勵
新加坡國立大學(xué)研究團(tuán)隊開發(fā)了SPIRAL框架,通過讓AI與自己對弈零和游戲來提升推理能力。實驗顯示,僅訓(xùn)練AI玩簡單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟(jì)大學(xué)團(tuán)隊開發(fā)的GIGA-ToF技術(shù)通過融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機(jī)噪聲問題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實現(xiàn)37.9%的精度提升,并在真實設(shè)備上展現(xiàn)出色泛化能力,為機(jī)器人、AR和自動駕駛等領(lǐng)域提供更可靠的3D視覺解決方案。
伊利諾伊大學(xué)研究團(tuán)隊通過對比實驗發(fā)現(xiàn),經(jīng)過強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺語言模型雖然表現(xiàn)出"頓悟時刻"現(xiàn)象,但這些自我糾錯行為并不能實際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗證差距",即生成答案的能力強(qiáng)于驗證答案質(zhì)量的能力,且模型在自我驗證時無法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過動態(tài)稀疏性實現(xiàn)大語言模型訓(xùn)練加速1.6倍,計算成本降低2.2倍。該方法使用SVD稀疏性估計器智能選擇重要計算部分,在保持模型性能的同時顯著提升訓(xùn)練效率,已在多個任務(wù)上驗證有效性。