又是一屆谷歌開發(fā)者大會(2024 Google I/O Connect),從今年6月至8月歷時兩個月,這場“環(huán)球之旅”先后走過德國柏林、印度班加羅爾,最后壓軸之站來到中國北京。
作為每年Google I/O大會之后的衍生篇,“Connect系列活動”如同“Connect(連接)”一詞的內(nèi)涵,更主張local+global(本地化+全球化)。彼時科技行者同時參與了5月份在美國山景城的Google I/O,感受頗深的是,谷歌一直在強調(diào)用Gemini將AI踐行到底;只不過這次在中國的內(nèi)容,谷歌傳遞了很多特色故事,這些故事有谷歌的AI如何點亮中國傳統(tǒng)文化,如何創(chuàng)造種類繁多的AI應(yīng)用,以及更重要的,如何賦能中國開發(fā)者的成功出海。
這次北京活動的第一天,剛好是8月7日,中國節(jié)氣里的立秋,是收獲的季節(jié),但是在現(xiàn)場,或許“春耕”才符合他們的真實寫照。
AI舞臺上的“東方力量”
“中國開發(fā)者是全球舞臺上不可或缺的先鋒力量。”Google大中華區(qū)總裁陳俊廷的這句開場白,無疑是整場活動的最佳注解,“過去一年里,來自中國的25個開發(fā)團隊,共有31款游戲和應(yīng)用,在全球不同地區(qū)斬獲了50個Google Play年度最佳獎項。”
Google大中華區(qū)總裁陳俊廷
與這個成績相呼應(yīng)的,是陳俊廷接下來列舉的一個個案例,講述了中國公司如何利用AI、重塑商業(yè)模式、驅(qū)動業(yè)務(wù)升級、為全球用戶帶去驚喜。
· 在數(shù)字營銷領(lǐng)域。網(wǎng)易游戲在海外接觸Google Cloud Vertex AI平臺,提升了廣告文案創(chuàng)作效率,工作時間從原來的1周縮減到幾個小時,每月累計可以生成700多條定制化文案,定制化的營銷服務(wù)“信手拈來”。
· 同樣是數(shù)字營銷領(lǐng)域。“當紅炸子雞”家居在線平臺Homary,通過Google AI賦能海外廣告投放,實現(xiàn)了投資回報率提升49%、轉(zhuǎn)化價值提升50%,可謂是賣爆全球。
· 在消費電子領(lǐng)域。小米在海外提前布局AI,利用Google Cloud和Gemini,讓海外用戶感受“中國智造”的魅力。
當然,AI助推進步不僅限于尖端生產(chǎn)力,在傳承中國文化與造福社會方面,同樣擁有無限潛力。譬如:
· AI賦能傳統(tǒng)與現(xiàn)代的融合創(chuàng)新。廣州博物館與谷歌藝術(shù)與文化(Google Arts & Culture)合作,通過沉浸式線上展覽,向全球用戶呈現(xiàn)廣州千年港口的璀璨和飲食文化的魅力,比如廣彩、德化瓷、鎮(zhèn)海樓等,涵蓋了127件珍貴館藏圖片和10個豐富的文化故事。
· AI賦能可持續(xù)發(fā)展。在四川高原牧場,西南民族大學(xué)借助谷歌的AI開源技術(shù),改善了當?shù)啬撩裆睢?strong>一位參與該項目的西南民族大學(xué)同學(xué)分享道:“紅原縣平均海拔3600米,這里有一望無際的草場,牦牛有沒有長肉是牧民尤其關(guān)心的問題,我們收集了大量的牦牛圖像數(shù)據(jù),利用TensorFlow訓(xùn)練牦牛的關(guān)鍵點檢測,借助輕量化的TensorFlow Lite模型部署在APP上,現(xiàn)在牧民只需要拍攝牦牛的照片,就能估算出牦牛的體重,適時調(diào)整養(yǎng)殖策略。為了幫助農(nóng)民更好的進行放牧規(guī)劃,我們利用谷歌的AI開源技術(shù)ARCore,在APP上設(shè)計了放牧規(guī)劃模塊、草畜平衡模塊,幫助牧民進入自家牧場了解情況,推動牧場的可持續(xù)發(fā)展。”
· AI賦能社會公益。在中國26所偏遠地區(qū)的小學(xué)課堂上,谷歌公益攜手欣欣教育基金會,通過“編譯夢想”項目,對900多名學(xué)生進行AI入門和基礎(chǔ)教育,為孩子們打開AI世界的大門;在“善創(chuàng)未來”黑客馬拉松中,40多名開發(fā)者以公益實踐為主題,帶來了兼具人文關(guān)懷、實用性和前瞻性的技術(shù)解決方案,比如此次會議介紹的兩個AI技術(shù)開源項目:“手語村”與“智引線”,為聽障和視障人士提供更多學(xué)習(xí)和生活的便利。
在谷歌看來,AI正在改變「開發(fā)」的格局,從激發(fā)應(yīng)用創(chuàng)意,到重塑構(gòu)建方法,而谷歌始終致力于通過AI賦能的產(chǎn)品開發(fā)工具和平臺,幫助出海開發(fā)者大膽創(chuàng)新、高效創(chuàng)造、觸達全球。
那么對于這群可愛的開發(fā)者們而言,有哪些AI賦能的產(chǎn)品開發(fā)工具和平臺?答案,就要從Gemini開始說起。
用AI重塑開發(fā),狂卷Gemini
如果說,曾經(jīng)你還搞不清楚谷歌千千萬萬產(chǎn)品的名字,那么以后不必擔心,因為當談及谷歌的AI時,它們只會指向同一個名字——Gemini。
Gemini,是谷歌現(xiàn)在最核心的基礎(chǔ)模型,同時被廣泛認為是這家公司在AI時代的野心,此前谷歌CEO桑達爾·皮查伊(Sundar Pichai)在2024 Google I/O更是直言“谷歌正式邁向Gemini時代”。
從谷歌的表述來看,Gemini的獨特之處在于“它不是單獨在文本語料庫上訓(xùn)練的,而是一開始就被設(shè)計為「多模態(tài)模型」”,所以它可同時處理多種類型的數(shù)據(jù),文本、圖像、音視頻、代碼等。迄今,Gemini一共發(fā)布了兩代,Gemini 1.0(發(fā)布于2023年12月)和Gemini 1.5(發(fā)布于2024年2月),而為了匹配不同場景下的開發(fā)需求,它目前一共有Ultra、Pro、Flash、Nano四個版本。其中:
· Gemini Ultra是谷歌規(guī)模最大、功能最強的模型,適用于“高度復(fù)雜的任務(wù)”。據(jù)說它是第一個在 57 門學(xué)科的大規(guī)模多任務(wù)語言理解(MMLU)測試中優(yōu)于人類專家的語言模型,得分90%,這些學(xué)科包括數(shù)學(xué)、物理、歷史、法律、醫(yī)學(xué)等等。
· Gemini Pro適用于“各種廣泛的任務(wù)”。目前,Gemini 1.5 Pro版本做了顯著改進,不僅支持200萬token的上下文窗口,還提升了在編寫代碼、邏輯推理和規(guī)劃、多輪對話、理解音頻和圖像方面的能力,所以它適合“需要最高質(zhì)量響應(yīng)的復(fù)雜任務(wù)”,它回答的質(zhì)量也高。
· Gemini Nano是最高效的模型,適合處理“端側(cè)任務(wù)”(比如安卓手機),它可直接在移動設(shè)備上運行,提供低延遲響應(yīng)和數(shù)據(jù)隱私保護。
· Gemini Flash是谷歌迄今速度最快、最經(jīng)濟的模型,專門針對大規(guī)模、高頻率的運算任務(wù)進行了優(yōu)化,適合處理“高容量任務(wù)”。有意思的是,1.5 Flash是通過1.5 Pro 的訓(xùn)練過程進行“提取”得到的,也就是說,將大模型中的核心知識和技能轉(zhuǎn)移到這個較小但更高效的模型上。不過,盡管與1.5 Pro相比,1.5 Flash更輕量,但后者在處理大量信息時仍展現(xiàn)出強大的多模態(tài)推理能力,擅長摘要制作、聊天應(yīng)用、提供圖說和視頻字幕、以及從長篇文件和表格中提取數(shù)據(jù)等任務(wù)。
總之,谷歌將逐漸把Gemini納入旗下所有產(chǎn)品里,包括搜索、地圖、照片、Workspace、安卓等。Gemini也會被集成到谷歌的眾多開發(fā)工具中,包括Android Studio、Chrome DevTools、Project IDX、Colab、VS Code、IntelliJ和Firebase,可以幫助開發(fā)者編寫、調(diào)試和測試代碼,還可以生成文檔、理解整個代碼庫等,化身“開發(fā)助手”。
在谷歌的設(shè)想下,有了Gemini全家桶,開發(fā)者可以專注于構(gòu)建AI功能,而谷歌專注于打磨這一王牌選手。但是,這還不夠。
Google Developer X和開發(fā)者關(guān)系副總裁兼總經(jīng)理Jeanine Banks
Google Developer X和開發(fā)者關(guān)系副總裁兼總經(jīng)理Jeanine Banks現(xiàn)場指出,為了滿足開發(fā)者對靈活性和掌控力的需求,根據(jù)具體應(yīng)用場景對AI進行微調(diào)、增強和接地氣,谷歌自己卷自己,推出與Gemini“一脈相承”的開源大模型——Gemma,采用與Gemini相同的研究和技術(shù)。
Gemma發(fā)布于今年2月,分為2B(20億參數(shù))和7B(70億參數(shù))兩種尺寸版本,2B版本甚至可直接在筆記本電腦上運行;今年6月,谷歌又推出了更強大、更高效、更安全的Gemma 2,擁有90億(9B)和270億(27B)兩種參數(shù)大小。
當然,技術(shù)參數(shù)是一方面,怎么善用工具更重要。
谷歌這次也像往年一樣,分享了全套應(yīng)用開發(fā)工具和服務(wù)的更新,覆蓋AI、Web、移動端、云這4個開發(fā)平臺,為AI時代的開發(fā)者提供沃土。
比如谷歌的開源UI工具包——Flutter,它可以在移動端、Web端、桌面端觸及用戶,其全部使用單一共享代碼庫。而在會上,谷歌宣布更新了Flutter 3.24和Dart 3.5版本,其中包括新的Flutter GPU API 的早期預(yù)覽、Web上元素嵌入的增強、以及針對 iOS 生態(tài)系統(tǒng)構(gòu)建的幾項更新,包括對Swift Package Manager的早期支持,以及對Cupertino widget 的功能更新。
傳統(tǒng)上,跨平臺框架在視覺效果上需要妥協(xié),因為它們依賴于底層平臺提供的高級抽象。而Flutter采用了不同的方法,擁有自己的渲染層,可以在每個設(shè)備上,提供硬件加速的圖形和流暢的性能。谷歌在Impeller和著色器方面取得了實質(zhì)性進展,為圖形處理帶來了激動人心的新可能 ——比如3D。
其中最大的亮點是Flutter GPU API的早期預(yù)覽,這是一個強大的底層圖形API,它直接集成到Flutter SDK中,開發(fā)者可以通過該API,自定義光柵管線并直接向GPU提交繪制調(diào)用,使得創(chuàng)建專門的渲染器成為可能,如2D Canvas替代品、3D場景圖、甚至粒子系統(tǒng),以創(chuàng)建視覺上令人驚嘆、高性能和身臨其境的體驗,而無需通常需要的引擎級別的開銷。
在flutter_scene中渲染的科幻太空頭盔的3D動畫
現(xiàn)場聯(lián)動環(huán)節(jié),小米展示了利用Flutter,為小米SU7開發(fā)車載配套應(yīng)用,包括遠程車輛控制、接收車輛狀態(tài)的實時更新、在后排懸掛Pad安裝另外一塊拓展屏App等。“上手Flutter非常容易,并且開發(fā)進展迅速,我們預(yù)估比使用原生框架的效率高60%。”小米汽車智能座艙手機APP客戶端高級研發(fā)工程師陳作斌在宣傳片里分享道。
除了上述更新,谷歌還揭秘了開源項目Project Oscar。它是一個 AI代理(AI Agent)的參考實現(xiàn),可協(xié)助維護開源項目。它以Go編程語言項目為入手點,將來能為各種不同的開源項目帶來助力,幫助開發(fā)者全心投入編程工作。
這可以是AI開發(fā)的試驗田
誠然,幾乎所有開發(fā)者活動,其實都有一個共性:盡可能激勵開發(fā)者的創(chuàng)作靈感,谷歌的這次活動也不例外。所以,如果我們把視角從主題演講的發(fā)布,挪到范圍更大的其他環(huán)節(jié),就會發(fā)現(xiàn)有更多的開發(fā)者聚集在現(xiàn)場的工作坊、展區(qū)體驗、各種交流的場合里。
展區(qū)體驗環(huán)節(jié)同樣是圍繞AI、Web、移動端、云這4個主題分布,然而當我實際體驗時才得知,這些案例中的大部分,并非是已經(jīng)商業(yè)化的成熟案例,而是作為一個單純的demo,為啟發(fā)開發(fā)者的創(chuàng)作靈感而準備的。
比如多次亮相于谷歌開發(fā)者大會的“大黃”——谷歌的一個實驗性項目,目的是為了給開發(fā)者提供靈感,展示AI如何量身定制一款交互助手。大黃的技術(shù)基因很多,它囊括了PaLM2、MakerSuite、MediaPipe、Vertex AI等,有了這些技術(shù)的加持,大黃可以與人實時對話。不過與去年相比,今年的大黃不僅會“說話”,還能“看見”周圍環(huán)境。開發(fā)者可以通過“大黃”,了解到如何用Gemma開發(fā)交互助手。
再比如展區(qū)現(xiàn)場的“Golf with Gemini(高爾夫陪練)”體驗,Gemini可以作為教練,從準度、是否違規(guī)、優(yōu)雅度、桿前動作、姿勢與力量、最終得分、總結(jié)等維度,對你每一次的揮桿,給出專業(yè)指導(dǎo)。現(xiàn)場采訪中,工作人員介紹了它的工作流:
· 視頻捕捉和處理:攝像機抓取玩家的高爾夫球比賽場景,所拍攝的視頻上傳到Google Cloud Storage;同時,利用計算機視覺的目標檢測技術(shù),在視頻中逐幀追蹤高爾夫球的運動,并提取球的位置、與球洞的距離、擊球次數(shù)等數(shù)據(jù);
· 數(shù)據(jù)存儲與分析:提取的數(shù)據(jù)被實時傳輸?shù)紹igQuery,大量的數(shù)據(jù)被高效存儲和分析,分析結(jié)果隨后可被可視化,以更加了解高爾夫進程。
· 基于生成式AI的實時趣味解說:Gemini 1.5 Pro將基于拍攝的視頻和數(shù)據(jù),生成實時趣味解說。
諸如此類的體驗還有很多,谷歌一直在通過寓教于樂的方式,來挖掘開發(fā)潛能。甚至,為了培養(yǎng)中國開發(fā)者,谷歌從教育抓起——「谷歌數(shù)字人才培養(yǎng)計劃」自2022年起與教育部合作,目前已為全國150多所高校的560多名教師開展線下培訓(xùn),累計覆蓋4萬多名在校學(xué)生。
為了更好服務(wù)于中國開發(fā)者走向海外,Google開發(fā)者中文網(wǎng)站還上線了Google AI頁面,專門提供Google AI技術(shù)更新、實時的新聞動態(tài)、豐富的學(xué)習(xí)資源;同時,谷歌通過“出海創(chuàng)業(yè)加速器(GFSA,Google for Startups Accelerator)”項目,助力中國創(chuàng)業(yè)者和開發(fā)者決勝全球,并且每年舉行為期3個月的訓(xùn)練營,為入營企業(yè)提供三個月的免費創(chuàng)業(yè)支持。
Google AI頁面(中文版)
好文章,需要你的鼓勵
騰訊ARC實驗室推出AudioStory系統(tǒng),首次實現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯式推理生成、解耦橋接機制和漸進式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時學(xué)習(xí)外觀和運動信息,顯著解決了當前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個線性層就能大幅提升運動質(zhì)量,在多項測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實驗室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評測基準,通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時顯著提升人性化交互水平,為AI價值觀對齊提供了可行技術(shù)路徑。
谷歌DeepMind團隊開發(fā)的GraphCast是一個革命性的AI天氣預(yù)測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報,準確性超越傳統(tǒng)方法90%的指標。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。
關(guān)注科技創(chuàng)新、技術(shù)投資。
以文會友,左手硬核科技,右手浪漫主義。