作者 | 周雅
20世紀的建筑大師德維希·密斯·凡·德羅,用一句“少即是多”(Less is more),定義了整個現代主義建筑的靈魂。他主張?zhí)蕹磺胁槐匾难b飾,用最簡潔的結構和材料,去展現建筑本身的力量感和空間美學。這種思想,不僅影響了建筑,更滲透到工業(yè)設計、藝術乃至生活哲學的方方面面。
然而,在過去很長一段時間里,軟件開發(fā)的世界,卻似乎走上了一條“多即是多”(More is more)的道路。我們發(fā)明了更多的編程語言、更多的框架、更多的設計模式、更多的中間件、更多的云服務……我們像一個焦慮的收藏家,不斷地往自己的工具箱里添加新東西,試圖用更復雜的工具,去解決更復雜的問題。
開發(fā)者的工作,變成了一場復雜性的競賽。
但今年的Google I/O Connect China大會,似乎軟件開發(fā)又開始走向“極簡主義”時代。在這背后,開發(fā)者不再需要無休止地做加法,而是開始有策略、有智慧地做減法。
Google 大中華區(qū)及韓國總裁陳俊廷在致辭中指出,中國出海開發(fā)者已成為全球創(chuàng)新舞臺上不可或缺的中堅力量。無論是初創(chuàng)公司還是大型企業(yè),在 Google 全棧式 AI 解決方案和全球化生態(tài)支持下,在全球市場取得了顯著成功。
第一重減法:讓開發(fā)化繁為簡
在傳統(tǒng)的軟件開發(fā)模式中,開發(fā)者的工作主要集中在“如何實現”層面:寫代碼、調試錯誤、優(yōu)化性能。隨著技術棧越來越復雜,開發(fā)者的注意力被越來越多地分散到工具鏈、依賴管理、跨平臺適配等次要但必須的任務上。就像一位建筑師,本該專注于建筑的美感與功能,卻被迫花大量時間去研究水泥配比和鋼筋規(guī)格。
在I/O Connect China會上,谷歌展示了AI如何優(yōu)化這一過程,讓開發(fā)者更多思考“做什么”,而非“怎么做”。這套減法的核心,是Google的大模型矩陣。
首先就是Gemini大模型家族。它相當于一個超級大腦,為最大規(guī)模、最復雜的創(chuàng)新提供源動力,目前它已經更新到2.5版本,包括三種規(guī)格:
· Gemini 2.5 Pro,能力最強的旗艦模型;
· Gemini 2.5 Flash,為速度與性能平衡而生,適用于日常高頻任務;
· Gemini 2.5 Flash-Lite,則專為大規(guī)模、低成本的場景打造,具有極高性價比。
其次,如果說閉源的Gemini是超級大腦,那么開源的Gemma則是其向外延伸的神經網絡。Google 開發(fā)者關系與開源業(yè)務總監(jiān) Timothy Jordan用“Gemmaverse”(Gemma宇宙)來形容這個充滿活力的社區(qū)生態(tài),自2024年3月發(fā)布以來,Gemma的下載量已超過2億次,催生了超過8萬個衍生模型,它不再局限于商業(yè)巨頭,而是滲透到社會的各個角落。
Timothy舉了兩個案例:阿里巴巴國際站基于Gemma構建了圖文模型Ovis1.6,提升了其全球業(yè)務流程和效率;同時,小米也開發(fā)了Gemma X模型,專注于解決多對多跨語言翻譯場景,為其全球化市場服務。
當然,Gemma的意義遠不止于商業(yè),它也讓AI觸及到那些最需要技術溫度的角落:
· 為了溝通無礙:香港開發(fā)者Impact AI的使命是消除各種溝通障礙,他們利用Gemma構建了一個智能手語“數字人”,將中文文本實時翻譯成富有表現力的香港手語。在香港,僅有一所聾啞學校,這項技術正在改變特殊群體的教學、學習和社交方式。
· 為了文化傳承:萊頓大學的研究者們,利用Gemma 2開發(fā)了一套“敦煌文化智能體”,它能以不同風格生成回答,讓沉睡千年的敦煌歷史,以一種可交互、可感知的方式,在數字世界煥發(fā)新生。
· 為了藝術表達:藝術家鄔建安借助Gemma創(chuàng)作《72變》,打破了創(chuàng)作者與觀眾的溝通壁壘,將用戶內心的自我表達,實時轉化為流動的視覺藝術。
如今,Gemma 3已經成為全球頂尖的多模態(tài)開放模型,支持超過 140 種語言,還衍生出多款面向不同場景的模型,譬如:
· Shield Gemma:用于安全部署大語言模型;
· Med Gemma:用于醫(yī)療領域的多模態(tài)模型,可處理醫(yī)療文本和影像,既能微調優(yōu)化醫(yī)療應用,也能將它作為隱私保護工具在智能體系統(tǒng)中安全使用。
· Dolphin Gemma:科學家利用Gemma,開發(fā)了全球首個“海豚語言”大模型 Dolphin Gemma。不開玩笑,未來你或許真能和海豚聊天。
在端側 AI 上,Google 還發(fā)布了 Gemma 3n,與新一代 Gemini Nano 采用相同架構,即使在只有2GB 內存的設備上也能流暢運行。
除了這些模型之外,Google還有三款生成式AI模型,包括音樂生成模型Lyric、圖片生成模型Imagen 4、以及視頻創(chuàng)作模型Veo 3。我在展區(qū)現場也體驗了互動演示Androidify,它先利用 Gemini 2.5 Pro分析我的照片并生成描述文字,然后將這段文字作為創(chuàng)作指令,提供給一個精心微調的Imagen模型,它可以將我的照片變成一個完全個性化的Android機器人形象。
我在Google I/O Connect China現場體驗Androidify
第二重減法:掃清出海障礙
對于中國的開發(fā)者和企業(yè)而言,走向全球市場是一條充滿機遇但同樣遍布荊棘的道路。語言、文化、技術、本地運營等都是需要跨越的障礙。Google的第二重減法,就是利用其全球化的平臺和生態(tài),系統(tǒng)性地為中國開發(fā)者“減去”出海的門檻。
陳俊廷在演講中分享了一系列案例,展現了這套“減法”的實際效果:
1、基礎設施的減法:網易游戲的海外射擊大作,利用Google Cloud的全球算力,將服務器成本降低40%,全球響應時間縮短67%,實現了無延遲的全球同服對戰(zhàn)。這減去的是企業(yè)自建全球基礎設施的巨大成本和技術壁壘。
2、技術應用的減法:螞蟻集團基于Vertex AI打造“AI即服務”平臺,幫助海外金融科技公司構建AI智能體,讓復雜的金融服務變得簡單高效。此外,萬興科技旗下的視頻編輯平臺Fumora(喵影工廠海外版),利用Gemini 2.5 Flash實現了創(chuàng)新的“AI一鍵剪輯”功能,并借助Gemini實現了智能取景,能夠分析視頻內容并生成旁白,將一堆原始素材變成精彩的Vlog,同時Fumora使用Gemini模型也迭代了原有的復雜多模型架構,這使其集成速度加快了70%,同時用戶對AI生成內容的滿意度也提升了32%。這減去的是企業(yè)在海外市場進行AI技術研發(fā)和產品迭代的復雜周期。
3、市場拓展的減法:海外AI多模態(tài)娛樂社區(qū)CART,在Google AI賦能下,僅用兩年時間就實現了海外用戶100倍的增長。這減去的是初創(chuàng)公司在陌生市場進行用戶獲取和品牌建設的巨大不確定性。
4、硬件生態(tài)的減法:小米的手機、平板等設備,通過在端側集成Gemini Nano,云端結合Vertex AI,為海外用戶帶來了更智能的AI問答和內容生成體驗。這減去的是硬件廠商在不同市場進行軟件生態(tài)適配的繁重工作。
這些案例共同指向一個邏輯:Google正在將其在大模型、Cloud、Android、應用分發(fā)(Google Play)等方面的全球優(yōu)勢,打包成一套標準化的“出海服務”,讓中國開發(fā)者可以像調用API一樣,輕松地調用這些能力,從而將精力聚焦于產品本身的核心競爭力。
正因如此,中國開發(fā)者借助Google的生態(tài)和全棧AI解決方案,在海外煥發(fā)活力。Google Play年度最佳榜單顯示,12家中國開發(fā)者團隊的13款應用和游戲,在全球不同市場斬獲了14項“年度最佳應用”大獎,彰顯了中國出海開發(fā)者的卓越表現。
在展區(qū)現場,還有一個有意思的Demo體驗叫做“APP熱線”,只要給AI打個電話,AI 就能幫你生成一款APP。整個過程大概用了5分鐘,AI最終根據你的想法,生成了四個內容:原型、App界面、框架、編程代碼,很詳細,開發(fā)者甚至可以直接用起來。
我在Google I/O Connect China現場體驗“APP熱線”
第三重減法:消除知識鴻溝
技術的快速迭代,往往會帶來新的“知識鴻溝”。開發(fā)者需要不斷學習,才能跟上時代的步伐。Google的第三重減法,是致力于消除這種鴻溝,為開發(fā)者構建一個從學習、分享到創(chuàng)業(yè)孵化的完整成長路徑,減去他們“自我摸索”的迷茫。
這背后是一個由“人”構成的、充滿活力的生態(tài)系統(tǒng):
1、系統(tǒng)化的學習路徑:Google在中國正式推出“Google開發(fā)者計劃”(GDP,Google Developer Program),為開發(fā)者提供了個性化的主頁、技能認證和活動匹配,旨在構建一個官方的、緊密的開發(fā)者社群。
2、遍布全國的社區(qū)網絡:Google開發(fā)者社區(qū)(GDG,Google Developer Groups)在中國已經遍地開花,它由開發(fā)者自發(fā)運營、為開發(fā)者服務。在這里,開發(fā)者可以找到志同道合的同伴,共同學習和實踐最新的技術。
3、專家引領:Google開發(fā)者專家(GDE,Google Developer Experts)項目,匯聚了一批在Google各個技術領域專業(yè)且經驗豐富的導師。他們通過演講、教程和開源貢獻,引領著整個生態(tài)系統(tǒng)的技術方向。
4、從創(chuàng)意到商業(yè)的孵化:對于有志于創(chuàng)業(yè)的開發(fā)者,“Google出海創(chuàng)業(yè)加速器”計劃(GFSA,Google for Startups Accelerator)供了從產品構建、市場推廣到業(yè)務擴展的全方位支持,幫助他們將一個好的創(chuàng)意,真正變成一家能走向全球的公司。目前,第四屆“Google出海創(chuàng)業(yè)加速器”計劃正式開放申請。
更可貴的是,這種“化繁為簡”充滿了人文關懷。陳俊廷舉例說,Google于三年前啟動的gReach項目,通過在職培訓為殘障人士打造無障礙職業(yè)舞臺,如今已幫助超過40位殘障學員開啟開發(fā)者職業(yè)生涯;Google還攜手新興教育基金會,將技術與熱情帶到資源匱乏地區(qū),為中國欠發(fā)達地區(qū)1500多名女性學生提供開源AI入門教育;自2022年起,Google 數字人才培養(yǎng)計劃已為全國210多所高校的800余名教師提供出海營銷數字技能培訓,覆蓋超過6萬名在校學生。Google正在確保,在這場AI浪潮中,沒有人因為技能不足、出身背景、身體條件而被落下。
第四重減法:讓創(chuàng)造回歸本質
有了強大的模型,和開放的生態(tài),如何讓開發(fā)過程本身變得更智能、更高效?我們從現場看到,Google正在將AI深度集成到了AI、Android、Web、Cloud開發(fā)的全流程中,這里單舉幾個例子:
一個是支持離線開發(fā)。Google開發(fā)技術推廣工程師魏巍在現場,用一臺完全離線的筆記本電腦,通過社區(qū)工具LM Studio,調用本地的Gemma 2模型,完成了圖片識別、信息提取、多語言上下文理解與更新等任務。
此外最受關注的更新是智能體模式(Agent Mode),這幾乎是一種“無代碼”的開發(fā)體驗。其中,Firebase Studio中的“自主智能體模式”(Autonomous Agent Mode),能讓Gemini獨立處理多種任務,包括創(chuàng)建原型、添加功能、修復Bug、重構組件等;Android Studio的“智能體模式”(Agent Mode),讓開發(fā)者可以用自然語言下達復雜指令,比如“修復這個UI布局問題”或“重構這個組件”等,智能體會自動規(guī)劃并執(zhí)行跨文件的代碼修改。而且,為了進一步擴展Agent Mode的能力,Google增加了對MCP(模型上下文協(xié)議)的支持,允許Agent Mode與外部工具交互。這標志著開發(fā)將從“寫代碼”向“指揮代碼”的轉變。
更具突破性的是,Android Studio現在支持“自帶模型”(Bring Your Own Model),允許開發(fā)者在IDE(集成開發(fā)環(huán)境)中,直接調用本地運行的Gemma模型,或符合企業(yè)策略的模型?,F場演示中,開發(fā)者在斷網環(huán)境下,通過本地Gemma模型,解決了UI布局問題,并用中文獲得了代碼建議。這標志著AI輔助開發(fā)進入了一個兼顧離線、隱私與定制化的新階段。
在Android開發(fā)上,Google還推出了一些新功能,例如實時更新(Live Updates),這是一個全新的通知功能,旨在幫助用戶專注于時間敏感的任務,如航班、外賣和網購訂單。目前,Google正與小米、OPPO、一加、vivo、iQOO等終端廠商,以及攜程、Runtastic、餓了么等應用開發(fā)者合作,為他們的海外客戶提供實時更新的通知體驗。
可見,Google正在編織一張無處不在的AI協(xié)作網絡,其最終目的,是解放開發(fā)者的生產力,讓他們能將更多精力投入到真正的“創(chuàng)造”而非重復的“勞動”中。
回到密斯·凡·德羅的“少即是多”。當Google用AI為開發(fā)者減去了重復的編碼、用全球化平臺減去了出海的壁壘、用完善的生態(tài)減去了開發(fā)的繁瑣,開發(fā)者被解放的,不僅是生產力,更是創(chuàng)造力。
好文章,需要你的鼓勵
騰訊ARC實驗室推出AudioStory系統(tǒng),首次實現AI根據復雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結合大語言模型的敘事推理能力與音頻生成技術,通過交錯式推理生成、解耦橋接機制和漸進式訓練,能夠將復雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準測試中表現優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學聯(lián)合研發(fā)的VideoJAM技術,通過讓AI同時學習外觀和運動信息,顯著解決了當前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術僅需添加兩個線性層就能大幅提升運動質量,在多項測試中超越包括Sora在內的商業(yè)模型,為AI視頻生成的實用化應用奠定了重要基礎。
上海AI實驗室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質量樣本的訓練數據集和MM-AlignBench評測基準,通過創(chuàng)新的數據生成和質量管控方法,讓AI在保持技術能力的同時顯著提升人性化交互水平,為AI價值觀對齊提供了可行技術路徑。
谷歌DeepMind團隊開發(fā)的GraphCast是一個革命性的AI天氣預測模型,能夠在不到一分鐘內完成10天全球天氣預報,準確性超越傳統(tǒng)方法90%的指標。該模型采用圖神經網絡技術,通過學習40年歷史數據掌握天氣變化規(guī)律,在極端天氣預測方面表現卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學領域帶來了效率和精度的雙重突破。
關注科技創(chuàng)新、技術投資。
以文會友,左手硬核科技,右手浪漫主義。