作者|周雅
如果四年前被推上臺前的鴻蒙1.0,還只是構(gòu)圖簡單的“Try it Possible”,那么如今的鴻蒙4.0,已經(jīng)可以讓華為終端BG CEO、智能汽車解決方案BU CEO余承東一臉從容的念出“Make it Possible”。
Make It Possible(以行踐言),是華為消費者業(yè)務(wù)10年前對外公布的品牌理念,其實在每一年的華為開發(fā)者大會(HDC),這個口號都會響徹全場,但是今年鴻蒙4的到來,卻讓這話聽起來多了一絲堅定意味。
自初出茅廬,鴻蒙就開辟了一條極具特色的基調(diào),有別于通信領(lǐng)域——手機(jī)操作系統(tǒng)的iOS、Android,也不是計算領(lǐng)域——桌面操作系統(tǒng)的Windows、MacOS,它更是一個“橫跨通信與計算兩大技術(shù)領(lǐng)域的,面向智能全場景的分布式系統(tǒng)”。從我們一直以來的觀察看,鴻蒙從第一代起,它定下的基調(diào),就是——
面向人與人、物與物、人與物三種交互場景并進(jìn)的「新交互方式」演進(jìn)之路。
物理世界到數(shù)字世界的“橋”
操作系統(tǒng)有我們看不見的一面,是對計算系統(tǒng)底層資源的管理。但是對于大多數(shù)用戶而言,操作系統(tǒng)看得見的另一面,則更為重要,它就是——人機(jī)交互方式。
操作系統(tǒng),本質(zhì)上是連接硬件與軟件、人與機(jī)器的橋。而每一個操作系統(tǒng)的交替,都伴隨著人機(jī)交互方式的革新。
「鍵盤」承擔(dān)了這個使命最長的歲月。在古老的MS-DOS和Unix時代,人們通過鍵盤輸入命令,盡管這種方式在當(dāng)時已經(jīng)足夠先進(jìn),但它既復(fù)雜性又不直觀,對普通用戶來說是一道障礙。計算機(jī)的早期用戶,上機(jī)之前幾乎都要先進(jìn)行打字軟件的訓(xùn)練。
后來出現(xiàn)的Windows和MacOS,讓人機(jī)交互方式從「鍵盤和命令行」進(jìn)化到「圖形用戶界面和鼠標(biāo)」。到了移動互聯(lián)網(wǎng)時代,Android和iOS通過觸摸界面,又讓「觸屏交互」成為主流??梢哉f,當(dāng)年智能手機(jī)出現(xiàn)的奇點轟動,離不開“多點觸控”這一開創(chuàng)性的人機(jī)交互方式。
顯然,從鍵盤鼠標(biāo)、到觸摸屏、到語音,每一次人機(jī)交互方式的轉(zhuǎn)變,都是一次操作系統(tǒng)使用效率的提升。
在HDC2023,鴻蒙4(HarmonyOS 4)強(qiáng)調(diào)了它的六項創(chuàng)新能力——分布式、原子化(元服務(wù))、智慧(盤古大模型)、流暢(方舟引擎)、安全、個性。
其中,「分布式」不用多說,它是鴻蒙開天辟地的亮點,意味著各種設(shè)備能夠在一個系統(tǒng)中協(xié)同工作,手機(jī)、電腦、平板、智能穿戴、微波爐、冰箱等可以一鍵互聯(lián)、無縫切換,像是在終端之間建了一條高速公路,它們共享資源、共享信息、協(xié)同工作,形成了一個完整系統(tǒng)。
但鴻蒙4的六藝之中,最讓我們感觸最深的,其實是它最新實現(xiàn)的一項能力:「智慧」,鴻蒙4通過內(nèi)置盤古大模型,讓語音助手“小藝”脫胎換骨。
如果說我們可以將分布式定義為鴻蒙的一個支點,讓物與物交互地更好。那么AI就相當(dāng)于是鴻蒙的另一個支點,可以讓人與物交互地更好。左手分布式、右手AI,兩個支點的連線,構(gòu)成了鴻蒙發(fā)展的一條主線。
華為盤古大模型的能力,則是鴻蒙新支點的底座。自然語言能力的加持,讓人機(jī)交互第一次不是以人適應(yīng)機(jī)器的方式進(jìn)行,而是機(jī)器適應(yīng)人的方式進(jìn)行。
換言之,大模型出現(xiàn)后,自然語言成為了人機(jī)交互的新媒介,計算機(jī)第一次“直接”理解了人類語言,而可以借由復(fù)雜的軟硬中間件,這種“直接”,讓人機(jī)交互離“自然交互”又近了一點。
不過需要強(qiáng)調(diào)的是,盡管我們一直在說大模型,小藝跟我們?nèi)粘S玫腃hatGPT、文心一言等AI工具是不同的,后者是通過調(diào)用云端算力,實現(xiàn)了圖靈測試級交流的通用工具;而小藝,則是云端和終端相互配合,把手機(jī)等移動終端的算力資源利用起來,去匹配個人用戶的智慧全場景需求,成了操作系統(tǒng)的一個智能化身。
它是操作系統(tǒng)界面的一大進(jìn)化,也開創(chuàng)了人機(jī)交互的一個先河。
同樣參與了這次HDC2023的和鯨科技CEO范向偉在其中一場分論壇中提到:“小藝的特殊之處在于,此前國內(nèi)沒有一家同類廠商,能夠在消費者終端,提供這樣普適的用戶需求。”
按照華為的官方說法,盤古大模型主要在三個方向增強(qiáng)了小藝的能力——智慧交互(更聰明)、高效生產(chǎn)力(更能干)、個性化服務(wù)(更貼心)。而拆解來看,小藝的三個能力,似乎可以給人機(jī)交互的進(jìn)化帶去兩個思路。
思路1:它是操作系統(tǒng)的化身。
人與人在交流過程中,通過說話、眼神、肢體動作都可以,怎么自然怎么來。同理,人機(jī)交互的方式,其實也不用只局限于單一的一種。升級后的小藝,能在語音交互的原有基礎(chǔ)上,新增了文字、圖片、文檔等多種交互形式,它是一種自然的交流。
第一,小藝有強(qiáng)大的理解能力。例如,你想要把換成天氣壁紙,可是記不起來功能名字,或者不知道在哪個菜單欄里去找,這時候只需要問小藝“怎么換一個帶天氣效果的壁紙?”,或者直接說“把手機(jī)壁紙設(shè)置成實時天氣。”只要意思表達(dá)到了,小藝都能聽懂,然后自動幫你換好。
或者,假設(shè)此時的你在某處看到一篇英文論文,但你來不及完整的看完,這就可以讓小藝?yán)斫膺@篇英文論文、再提煉出中文摘要,甚至,你可以挑其中某個關(guān)鍵詞問它,小藝會到論文中去找答案,精簡之后再回答你。
第二,小藝有一定的創(chuàng)作能力。鴻蒙4的創(chuàng)新之處在于,小藝融合了AIGC的能力,可以做一些摘要總結(jié)、信息檢索、多語種翻譯、郵件擬寫、內(nèi)容創(chuàng)作等工作,帶來生產(chǎn)效率的提升。
比如開會場景,你要向甲方發(fā)一份會邀,就可以讓小藝幫你快速生成一份商務(wù)版的郵件;再比如圖像場景,基于多模態(tài)的能力,用戶可以直接選中手機(jī)中的圖片或者一些廢片,召喚出小藝,告訴它喜歡什么風(fēng)格的藝術(shù)創(chuàng)作,讓小藝進(jìn)行二次創(chuàng)作,可以直接得到一張藝術(shù)風(fēng)格的圖像。
這樣的功能,雖然在ChatGPT等聊天機(jī)器人應(yīng)用中很常見,但小藝的調(diào)用是基于操作系統(tǒng)層面,這就比“先把會邀或圖像發(fā)送到某個聊天機(jī)器人的對話框里-再寫一段prompt-最后再得到答案“要方便多了。因為場景自身,已經(jīng)天然構(gòu)成了prompt的上下文。
第三,小藝相當(dāng)于一個超級應(yīng)用。傳統(tǒng)的語音助手,僅僅停留在“用戶發(fā)出一次指令、它完成一次指令”的簡單操作,而鴻蒙4的創(chuàng)新之處在于,小藝不但具有大模型的泛化能力,還可以與手機(jī)功能進(jìn)行聯(lián)動。
比如存檔場景,你可以直接給小藝發(fā)一張圖片,讓小藝按照圖片里的文字添加會議時間提醒,或者將圖片里的聯(lián)系人信息直接添加到手機(jī)通訊錄中;或者用餐場景,你晚上想請人吃飯,可以直接告訴小藝“找一家在松山湖附近評分比較高的海鮮餐廳,最好有適合 4 個人的優(yōu)惠套餐”,小藝可以直接調(diào)取美團(tuán)服務(wù)。
小藝之所以既能聽懂自然語言,又能調(diào)用手機(jī)應(yīng)用,背后有兩個關(guān)鍵因素。華為終端BG AI與智能全場景業(yè)務(wù)部總裁賈永利解釋道,一方面,大語言模型具備泛化能力,能夠幫助智能助手提升理解能力。另一方面,大模型Plug-in的插件能力,可以在手機(jī)內(nèi)部打通各應(yīng)用之間的壁壘,借助工具拓展能力。
思路2:它是個人模型的化身。
小藝不僅代表了操作系統(tǒng)的底層功能,是終端交互的新界面,它其實也是用戶的數(shù)字化身,讓機(jī)器更懂我們。
華為指出,小藝將擁有一個強(qiáng)大的能力「記憶能力」,隨著長時間的陪伴,小藝會越來越懂你,那么它給出的「小藝建議」也會更貼心。
比如父母的金婚紀(jì)念日,用戶可以告訴小藝幫他記住,并且提前兩周時間提醒用戶準(zhǔn)備,那么“小藝建議”會在臨近之時推出一張應(yīng)用組合卡片,里面聚合了訂餐信息、禮物導(dǎo)購、生日策劃等信息。
比如針對經(jīng)常出差的用戶。假設(shè)你即將去納米比亞出差,在訂票過程中曾經(jīng)與小藝交流過,那么當(dāng)真正出差的時候,小藝建議會自動生成一個“納米比亞之旅”的出行卡,里面聚合了天氣預(yù)報、行程攻略、打車服務(wù)等應(yīng)用,且這些都是你習(xí)慣的應(yīng)用。
再比如針對喜歡跑步的用戶。小藝可以根據(jù)你用自然語言發(fā)出的需求,基于自己的編程能力,自動創(chuàng)建出一個完整的晨跑場景:每天早上6:30幫我播報天氣,6:30-7:00如果我?guī)纤{(lán)牙耳機(jī),就自動播放我收藏的音樂,并把手機(jī)調(diào)成靜音。小藝接收指令,并且每天照做。
華為強(qiáng)調(diào),所有這些相關(guān)的數(shù)據(jù)和學(xué)習(xí),都是在端側(cè)推理,以保障用戶的安全和隱私。“AI 大模型技術(shù)的發(fā)展,將會帶來下一代智能終端操作系統(tǒng)的智慧體驗。”余承東在會上強(qiáng)調(diào)。
當(dāng)然,無論是哪種化身,作為一種新智能體,它需要持續(xù)持續(xù)進(jìn)化的能力。這方面,小藝得益于華為技術(shù)棧的底層加持。
據(jù)悉,小藝的大模型,基于盤古L0大模型+終端消費者的場景數(shù)據(jù)和精調(diào)模型后的L1層對話模型。所謂盤古大模型(盤古Chat),是華為自研的大模型,它近期另一項輝煌成就,來自它在天氣預(yù)報中的表現(xiàn):今年7月初,《自然》雜志發(fā)表了華為《三維神經(jīng)網(wǎng)絡(luò)用于精準(zhǔn)中期全球天氣預(yù)報》論文,論文中顯示,盤古氣象大模型是首個精度超過傳統(tǒng)數(shù)值預(yù)報方法的AI模型,速度相比傳統(tǒng)數(shù)值預(yù)報提速1萬倍以上。
《自然》評價認(rèn)為:“盤古氣象大模型讓人們重新審視氣象預(yù)報模型的未來。”顯然,盤古大模型將對小藝帶來持續(xù)增益。
“現(xiàn)在每個月至少有2億手機(jī)用戶與小藝交互。在搭載鴻蒙座艙的汽車中,87.6%的座艙操作都由小藝完成。每臺智慧屏小藝平均每天被喚醒7次。”華為終端BG首席運營官何剛分享了這樣一組數(shù)據(jù)。而有了大模型,小藝的未來,可能不再需要喚醒,而是常駐。
生態(tài)成,則鴻蒙成
不過,鴻蒙究竟能否能引領(lǐng)操作系統(tǒng)變革,除了技術(shù)精進(jìn)之外,還需要一個必要條件,它就是生態(tài)。
鴻蒙操作系統(tǒng)的誕生,起源是在制裁的重壓下一條拓荒之路,而華為正以自己的方式向外界證明,企業(yè)若要走出一條屬于自己的路,就必須構(gòu)建“根”和“魂”。“根”是生態(tài),不可動搖;“魂”是創(chuàng)新,不可停歇。
在這次HDC2023臨近結(jié)束,華為終端BG軟件部總裁龔體表示,“如果說打造一套成熟的操作系統(tǒng)需要有堅實的底座、繁榮的生態(tài)、極致的體驗的話,那么,鴻蒙已經(jīng)完成了兩大戰(zhàn)役,還剩一個戰(zhàn)役是生態(tài),生態(tài)成則鴻蒙成。”
操作系統(tǒng)的生態(tài),是由多個組成部分構(gòu)成,包括但不限于硬件制造商、軟件開發(fā)者、最終用戶、以及其他相關(guān)合作伙伴。這些不同的組成部分相互協(xié)作、共同支持,也推動操作系統(tǒng)的成功。生態(tài),不是企業(yè)的一畝三分地,而是趨于持續(xù)擴(kuò)大、持續(xù)創(chuàng)新的圈。
所幸,鴻蒙生態(tài)也在路上。“截至目前,搭載鴻蒙生態(tài)設(shè)備超過7億臺,HarmonyOS注冊開發(fā)者達(dá)到220萬以上,API日調(diào)用達(dá)到590億次以上,開發(fā)工具DevEco活躍用戶數(shù)超過40萬人。”余承東分享說道。
中國農(nóng)業(yè)銀行研發(fā)中心副總經(jīng)理徐偉在HDC2023現(xiàn)場演講時,提到了農(nóng)業(yè)銀行手機(jī)銀行搭載鴻蒙操作系統(tǒng)的心得:“之所以選擇鴻蒙,主要是兩方面因素,一方面,我們統(tǒng)計了現(xiàn)有客戶的手機(jī)類型,有超過20%以上的用戶使用搭載鴻蒙的設(shè)備。另一方面。鴻蒙的萬物智能理念符合未來趨勢,潛力巨大。”
根據(jù)Counterpoint數(shù)據(jù)顯示,在中國智能手機(jī)市場,2021年三季度,鴻蒙系統(tǒng)份額僅為1%,而安卓、iOS的份額分別為86%、13%。到2023年一季度,鴻蒙份額升至8%,而安卓和蘋果分別是72%、20%。
圖來自Counterpoint中國智能手機(jī)操作系統(tǒng)市場份額
而華為消費者業(yè)務(wù)AI與智慧全場景業(yè)務(wù)部副總裁楊海松曾公開說:“對于一個生態(tài)來講,特別是操作系統(tǒng)這類的底層平臺,軟件使用量、市場占有率是它能否活下來、能否成功的最核心的因素,16%的市占率是一個生死線。”
所以,鴻蒙還需再翻番,而AI可能就是新的加速踏板。
好文章,需要你的鼓勵
新加坡國立大學(xué)研究團(tuán)隊開發(fā)了SPIRAL框架,通過讓AI與自己對弈零和游戲來提升推理能力。實驗顯示,僅訓(xùn)練AI玩簡單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟(jì)大學(xué)團(tuán)隊開發(fā)的GIGA-ToF技術(shù)通過融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機(jī)噪聲問題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實現(xiàn)37.9%的精度提升,并在真實設(shè)備上展現(xiàn)出色泛化能力,為機(jī)器人、AR和自動駕駛等領(lǐng)域提供更可靠的3D視覺解決方案。
伊利諾伊大學(xué)研究團(tuán)隊通過對比實驗發(fā)現(xiàn),經(jīng)過強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺語言模型雖然表現(xiàn)出"頓悟時刻"現(xiàn)象,但這些自我糾錯行為并不能實際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗證差距",即生成答案的能力強(qiáng)于驗證答案質(zhì)量的能力,且模型在自我驗證時無法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過動態(tài)稀疏性實現(xiàn)大語言模型訓(xùn)練加速1.6倍,計算成本降低2.2倍。該方法使用SVD稀疏性估計器智能選擇重要計算部分,在保持模型性能的同時顯著提升訓(xùn)練效率,已在多個任務(wù)上驗證有效性。
關(guān)注科技創(chuàng)新、技術(shù)投資。
以文會友,左手硬核科技,右手浪漫主義。